證券業(yè)的數(shù)據(jù)挖掘
其典型應(yīng)用包括有:
1、客戶分析
建立數(shù)據(jù)倉(cāng)庫(kù)來(lái)存放對(duì)全體客戶、預(yù)定義客戶群、某個(gè)客戶的信息和交易數(shù)據(jù),并通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘和關(guān)聯(lián)分析,實(shí)現(xiàn)面向主題的信息抽取。對(duì)客戶的需求模式和盈利價(jià)值進(jìn)行分類,找出最有價(jià)值和盈利潛力的客戶群,以及他們最需要的服務(wù),更好地配置資源,改進(jìn)服務(wù),牢牢抓住最有價(jià)值的客戶。
通過(guò)對(duì)客戶資源信息進(jìn)行多角度挖掘,了解客戶各項(xiàng)指標(biāo)(如資產(chǎn)貢獻(xiàn)、忠誠(chéng)度、盈利率、持倉(cāng)比率等),掌握客戶投訴、客戶流失等信息,從而在客戶離開券商之前,捕獲信息,及時(shí)采取措施挽留客戶。
2、咨詢服務(wù)
根據(jù)采集行情和交易數(shù)據(jù),結(jié)合行情分析,預(yù)測(cè)未來(lái)大盤走勢(shì),并發(fā)現(xiàn)交易情況隨著大盤變化的規(guī)律,并根據(jù)這些規(guī)律做出趨勢(shì)分析,對(duì)客戶針對(duì)性進(jìn)行咨詢。
3、風(fēng)險(xiǎn)防范
通過(guò)對(duì)資金數(shù)據(jù)的分析,可以控制營(yíng)業(yè)風(fēng)險(xiǎn),同時(shí)可以改變公司總部原來(lái)的資金控制模式,并通過(guò)橫向比較及時(shí)了解資金情況,起到風(fēng)險(xiǎn)預(yù)警的作用。
4、經(jīng)營(yíng)狀況分析
通過(guò)數(shù)據(jù)挖掘,可以及時(shí)了解營(yíng)業(yè)狀況、資金情況、利潤(rùn)情況、客戶群分布等重要的信息。并結(jié)合大盤走勢(shì),提供不同行情條件下的最大收益經(jīng)營(yíng)方式。同時(shí),通過(guò)對(duì)各營(yíng)業(yè)部經(jīng)營(yíng)情況的橫向比較,以及對(duì)本營(yíng)業(yè)部歷史數(shù)據(jù)的縱向比較,對(duì)營(yíng)業(yè)部的經(jīng)營(yíng)狀況作出分析,提出經(jīng)營(yíng)建議。
電信業(yè)的數(shù)據(jù)挖掘
電信業(yè)已經(jīng)迅速地從單純的提供市話和長(zhǎng)話服務(wù)演變?yōu)榫C合電信服務(wù),如語(yǔ)音、傳真、尋呼、移動(dòng)電話、圖像、電子郵件、計(jì)算機(jī)和WEB數(shù)據(jù)傳輸以及其他的數(shù)據(jù)通信服務(wù)。電信、計(jì)算機(jī)網(wǎng)絡(luò)、因特網(wǎng)和各種其他方式的的通信和計(jì)算的融合是目前的大勢(shì)所趨。而且隨著許多國(guó)家對(duì)電信業(yè)的開放和新興計(jì)算與通信技術(shù)的發(fā)展,電信市場(chǎng)正在迅速擴(kuò)張并越發(fā)競(jìng)爭(zhēng)激烈。因此,利用數(shù)據(jù)挖掘技術(shù)來(lái)幫助理解商業(yè)行為、確定電信模式、捕捉盜用行為、更好地利用資源和提高服務(wù)質(zhì)量是非常有必要的。分析人員可以對(duì)呼叫源、呼叫目標(biāo)、呼叫量和每天使用模式等信息進(jìn)行分析還可以通過(guò)挖掘進(jìn)行盜用模式分析和異常模式識(shí)別,從而可盡早的發(fā)現(xiàn)盜用,為公司減少損失。
移動(dòng)通信領(lǐng)域的數(shù)據(jù)挖掘
針對(duì)信息化的應(yīng)用,移動(dòng)通信行業(yè)信息化進(jìn)程得到巨大發(fā)展和廣泛應(yīng)用,運(yùn)營(yíng)網(wǎng)絡(luò)系統(tǒng)、綜合業(yè)務(wù)系統(tǒng)、計(jì)費(fèi)系統(tǒng)、辦公自動(dòng)化等系統(tǒng)的相繼使用,為計(jì)算機(jī)應(yīng)用系統(tǒng)的運(yùn)行積累了大量的歷史數(shù)據(jù)。但在很多情況下,這些海量數(shù)據(jù)在原有的作業(yè)系統(tǒng)中是無(wú)法提煉并升華為有用的信息并提供給業(yè)務(wù)分析人員與管理決策者的。一方面,聯(lián)機(jī)作業(yè)系統(tǒng)因?yàn)樾枰A糇銐虻脑敿?xì)數(shù)據(jù)以備查詢而變得笨重不堪,系統(tǒng)資源的投資跟不上業(yè)務(wù)擴(kuò)展的需求;另一方面,管理者和決策者只能根據(jù)固定的、定時(shí)的報(bào)表系統(tǒng)獲得有限的經(jīng)營(yíng)與業(yè)務(wù)信息,無(wú)法適應(yīng)激烈的市場(chǎng)競(jìng)爭(zhēng)。
隨著我國(guó)政府對(duì)電信行業(yè)經(jīng)營(yíng)的進(jìn)一步放開和政策約束的調(diào)整以及客戶對(duì)電信服務(wù)質(zhì)量要求的提高、盜打、欺詐因素的增加等等,移動(dòng)通信的經(jīng)營(yíng)面臨更加復(fù)雜的局面,營(yíng)運(yùn)成本大幅度增加。因此,如何在激烈的市場(chǎng)競(jìng)爭(zhēng)條件下,在滿足客戶需求和優(yōu)質(zhì)服務(wù)的前提下充分利用現(xiàn)有設(shè)備降低成本、提高效益,就成為決策者們共同關(guān)心的課題。
依照國(guó)外電信市場(chǎng)的發(fā)展經(jīng)驗(yàn)和歷程,市場(chǎng)競(jìng)爭(zhēng)中電信公司的成功經(jīng)營(yíng)之道是:(1) 以高質(zhì)量的服務(wù)留住現(xiàn)有客戶;(2) 提高通話量和設(shè)備利用率,用比競(jìng)爭(zhēng)者更低的成本爭(zhēng)取新客戶,擴(kuò)大市場(chǎng)份額;(3)放棄無(wú)利潤(rùn)和信用差的客戶,降低經(jīng)營(yíng)風(fēng)險(xiǎn)和成本。
對(duì)于一個(gè)相對(duì)成熟的移動(dòng)通信運(yùn)營(yíng)商來(lái)說(shuō),各運(yùn)營(yíng)與支撐系統(tǒng)所積累的海量歷史數(shù)據(jù)無(wú)疑是一筆寶貴的財(cái)富,而數(shù)據(jù)挖掘正是充分利用這些寶貴資源從而達(dá)到上述三重目標(biāo)的一種最為有效的方法與手段。
體育領(lǐng)域的數(shù)據(jù)挖掘
1、體質(zhì)數(shù)據(jù)分析
目前,我國(guó)對(duì)健康和增強(qiáng)體質(zhì)都十分重視,每年都有很多相關(guān)的體質(zhì)測(cè)試。這樣年復(fù)一年地積累了大量數(shù)據(jù),而對(duì)這些數(shù)據(jù)的分析采用的幾乎都是統(tǒng)計(jì)方法,包括很多單位的體育分析和評(píng)價(jià)軟件,主要是對(duì)體質(zhì)數(shù)據(jù)的均值分析以及套用規(guī)定的評(píng)價(jià)公式進(jìn)行評(píng)價(jià)和分析。顯然,它們對(duì)體育中的體質(zhì)數(shù)據(jù)分析有一定的貢獻(xiàn),但其作用也只能局限于數(shù)據(jù)本身的大小比較,且產(chǎn)生的結(jié)果通常只能由專業(yè)人員能夠理解,另外只采用統(tǒng)計(jì)的方法挖掘數(shù)據(jù)之間的聯(lián)系也十分有限。
利用數(shù)據(jù)挖掘?qū)w質(zhì)數(shù)據(jù)進(jìn)行挖掘,很容易產(chǎn)生統(tǒng)計(jì)方法難以實(shí)現(xiàn)的結(jié)果。例如,根據(jù)積累和不斷收集的數(shù)據(jù),結(jié)合體質(zhì)數(shù)據(jù)和營(yíng)養(yǎng)學(xué)方面的知識(shí),可以挖掘出造成不同地區(qū)體質(zhì)好或差的營(yíng)養(yǎng)方面的原因;同樣,根據(jù)體質(zhì)數(shù)據(jù)和醫(yī)學(xué)方面的知識(shí),能夠挖掘出人們的健康狀況,甚至分析出導(dǎo)致健康狀況較低的可能的疾病原因,從而可以更好地為人們自我保健和健身等各方面提供有力的指導(dǎo);此外,采用數(shù)據(jù)挖掘?qū)τ忻\(yùn)動(dòng)員的早期體質(zhì)數(shù)據(jù)進(jìn)行分析,能夠找出它們的共同特點(diǎn),從而為體育選材提供有力的依據(jù)。體質(zhì)數(shù)據(jù)庫(kù)正如一個(gè)寶礦,采用數(shù)據(jù)挖掘技術(shù),肯定能夠挖掘出很多難以想象的寶藏。
2、 體育產(chǎn)業(yè)中的應(yīng)用
數(shù)據(jù)挖掘最初的應(yīng)用就是商業(yè)領(lǐng)域,而體育產(chǎn)業(yè)本身就是一類典型的商業(yè)。在一般的商業(yè)數(shù)據(jù)挖掘中,DM技術(shù)判斷哪些是它們的最有價(jià)值客戶、重新制定它們的產(chǎn)品推廣策略(把產(chǎn)品推廣給最需要它們的人),以用最小的花費(fèi)得到最好的銷售。以體育廣告為例,可以對(duì)國(guó)內(nèi)從事不同體育運(yùn)動(dòng)廣告業(yè)務(wù)的數(shù)據(jù)庫(kù)進(jìn)行挖掘,比如,發(fā)現(xiàn)了做某類體育廣告的單位或公司的特征,那么就可以向那些具有這些特征但還未成為我們的客戶的其它公司或單位推銷這類體育廣告;同樣,如果通過(guò)挖掘找到流失的客戶的共同特征,就可以在那些具有相似特征的客戶還未流失之前進(jìn)行針對(duì)性的彌補(bǔ)。這樣,可以一定程度地提高體育廣告的效益。,因此,及時(shí)、有效地利用DM,可以為我國(guó)體育產(chǎn)業(yè)創(chuàng)造更多的財(cái)富。
3、 競(jìng)技體育中的應(yīng)用
競(jìng)技體育特別是對(duì)抗性質(zhì)的競(jìng)技,通常不但要求運(yùn)動(dòng)員實(shí)際水平高,同時(shí)戰(zhàn)術(shù)策略也相當(dāng)重要,有時(shí)競(jìng)技中的戰(zhàn)術(shù)甚至起到?jīng)Q定性作用。認(rèn)識(shí)到數(shù)據(jù)挖掘的功能后,國(guó)外已經(jīng)將其應(yīng)用于競(jìng)技體育中。例如,美國(guó)著名的國(guó)家籃球隊(duì)NBA的教練,利用IBM公司提供的數(shù)據(jù)挖掘工具臨場(chǎng)輔助決定替換隊(duì)員,而且取得了很好的效果。系統(tǒng)分析顯示魔術(shù)隊(duì)先發(fā)陣容中的兩個(gè)后衛(wèi)安佛尼。哈德衛(wèi)(Anfernee Hardaway)和伯蘭。紹(Brian Shaw)在前兩場(chǎng)中被評(píng)為-17分,這意味著他倆在場(chǎng)上本隊(duì)輸?shù)舻姆謹(jǐn)?shù)比得到的分?jǐn)?shù)多17分。然而,當(dāng)哈德衛(wèi)與替補(bǔ)后衛(wèi)達(dá)利爾。阿姆斯創(chuàng)(Darrell Armstrong)組合時(shí),魔術(shù)隊(duì)得分為正14分。在下一場(chǎng)中,魔術(shù)隊(duì)增加了阿姆斯創(chuàng)的上場(chǎng)時(shí)間。此著果然見效:阿姆斯創(chuàng)得了21分,哈德衛(wèi)得了42分,魔術(shù)隊(duì)以88比79獲勝。魔術(shù)隊(duì)在第四場(chǎng)讓阿姆斯創(chuàng)進(jìn)入先發(fā)陣容,再一次打敗了熱隊(duì)。在第五場(chǎng)比賽中,這個(gè)靠數(shù)據(jù)挖掘支持的陣容沒(méi)能拖住熱隊(duì),但數(shù)據(jù)挖掘畢竟幫助了魔術(shù)隊(duì)贏得了打滿5場(chǎng),直到最后才決出勝負(fù)的機(jī)會(huì)。目前,NBA球隊(duì)中大約20個(gè)使用了IBM公司開發(fā)的該軟件系統(tǒng)來(lái)優(yōu)化他們的戰(zhàn)術(shù)組合。同樣,利用數(shù)據(jù)挖掘技術(shù)也可以分析足球、排球等類似對(duì)抗性的競(jìng)技運(yùn)動(dòng),從中找出對(duì)手的弱點(diǎn),制定出到更有效的戰(zhàn)術(shù)。
郵政業(yè)的數(shù)據(jù)挖掘
中國(guó)郵政建立了目前國(guó)內(nèi)最大的物流交換體系,同時(shí)也積累了大量的用戶數(shù)據(jù),如何利用這些用戶數(shù)據(jù),通過(guò)數(shù)據(jù)分析為郵政業(yè)務(wù)的發(fā)展提供科學(xué)決策依據(jù),是郵政部門十分關(guān)心的問(wèn)題。數(shù)據(jù)挖掘技術(shù)可以很好地為郵政部門解決上述問(wèn)題,利用該技術(shù),我們可以進(jìn)行客戶存款余額分析、客戶存款結(jié)構(gòu)分析、平均存款利率分析、不同儲(chǔ)種余額分析、不同儲(chǔ)種客戶分析、攬儲(chǔ)統(tǒng)計(jì)分析、業(yè)務(wù)量統(tǒng)計(jì)分析等等。我們以客戶存款分析進(jìn)行介紹。采用分析的維包括如下: 營(yíng)業(yè)網(wǎng)點(diǎn)的地區(qū):以地區(qū)作為分析維度,可以判斷出各個(gè)儲(chǔ)蓄所的工作業(yè)績(jī)情況; 客戶的年齡:根據(jù)客戶年齡段對(duì)存款余額進(jìn)行統(tǒng)計(jì),從中可以分析出哪個(gè)年齡段的客戶是優(yōu)良客戶,哪些客戶是未來(lái)開發(fā)的重點(diǎn)。客戶的地址:根據(jù)客戶所在地區(qū)統(tǒng)計(jì)存款余額, 可以分析出各地區(qū)的經(jīng)濟(jì)情況以及人們對(duì)郵政儲(chǔ)蓄的認(rèn)識(shí)程度,從而為以后的業(yè)務(wù)拓展提供依據(jù); 存款的用途:居民的儲(chǔ)蓄存款用途比較繁雜,但是了解有規(guī)律的存款目的一方面可以幫助郵政儲(chǔ)蓄及時(shí)想客戶之所想,拉近與客戶之間的距離;另一方面可以為新業(yè)務(wù)的拓展提供有力的信息;時(shí)間段:通過(guò)這種分析可以及時(shí)掌握客戶儲(chǔ)蓄的變化規(guī)律,從而適當(dāng)調(diào)整郵政業(yè)務(wù)流程。例如,根據(jù)客戶存款的變化規(guī)律可以預(yù)見性的及時(shí)調(diào)整郵政儲(chǔ)蓄的頭寸資金,在保證投資最大化的同時(shí),預(yù)防金融風(fēng)險(xiǎn)。
呼叫中心的數(shù)據(jù)挖掘
呼叫中心正在逐漸成為企業(yè)進(jìn)行信息收集的主要渠道。在收集了大量的數(shù)據(jù)之后,如何將這些數(shù)據(jù)進(jìn)行整理、分析,為企業(yè)進(jìn)行科學(xué)決策提供支持,也是面臨的一個(gè)主要問(wèn)題。數(shù)據(jù)挖掘技術(shù),能提供一條新的解決出路。
為決策提供依據(jù),將數(shù)據(jù)挖掘技術(shù)引入呼叫中心,具有十分重要的意義。企業(yè)運(yùn)營(yíng)過(guò)程中的各種信息都是通過(guò)數(shù)據(jù)反映出來(lái)的,通過(guò)對(duì)這些數(shù)據(jù)的分析,可以發(fā)現(xiàn)企業(yè)運(yùn)營(yíng)過(guò)程中的規(guī)律,從而對(duì)企業(yè)的生產(chǎn)活動(dòng)、市場(chǎng)活動(dòng)等提供科學(xué)指導(dǎo)意義。
呼叫中心目前僅解決了企業(yè)與外部市場(chǎng)進(jìn)行信息接入的問(wèn)題,產(chǎn)生的大量數(shù)據(jù)通過(guò)報(bào)表等統(tǒng)計(jì)方法,只能得到一般意義上的信息反映。而通過(guò)數(shù)據(jù)挖掘技術(shù),可以發(fā)現(xiàn)許多深層的、手工無(wú)法發(fā)現(xiàn)的規(guī)律,幫助企業(yè)在激烈的競(jìng)爭(zhēng)環(huán)境中,占有更多的先機(jī)。
為用戶提供針對(duì)性服務(wù),通過(guò)數(shù)據(jù)挖掘技術(shù),可以根據(jù)客戶的消費(fèi)行為進(jìn)行分類,找出該類客戶的消費(fèi)特征,然后通過(guò)呼叫中心提供更具個(gè)性化的服務(wù),從而改進(jìn)企業(yè)的服務(wù)水平,提高企業(yè)的社會(huì)效益和經(jīng)濟(jì)效益。
提高企業(yè)的決策科學(xué),目前,企業(yè)的決策具有很大的盲目性。如果采用數(shù)據(jù)挖掘技術(shù),就可以在自己的生產(chǎn)過(guò)程中產(chǎn)生的數(shù)據(jù)基礎(chǔ)上,進(jìn)行科學(xué)分析,得出比較科學(xué)的預(yù)測(cè)結(jié)果,減少?zèng)Q策失誤。通過(guò)數(shù)據(jù)挖掘技術(shù),可以讓企業(yè)的決策回歸到自己的業(yè)務(wù)中,得出更實(shí)際的判斷。
增值更容易,數(shù)據(jù)挖掘在呼叫中心中會(huì)有很多種應(yīng)用,而且有些應(yīng)用可以幫助簡(jiǎn)化管理運(yùn)營(yíng),有的則可以提供一些業(yè)務(wù)關(guān)聯(lián)性的數(shù)據(jù),幫助企業(yè)呼叫中心更好地開展業(yè)務(wù),實(shí)現(xiàn)增值。具體說(shuō)來(lái),增值應(yīng)用表現(xiàn)在以下方面。分析客戶行為,進(jìn)行交叉銷售。在呼叫中心的各種客戶中,可以根據(jù)其消費(fèi)的特點(diǎn),進(jìn)行相關(guān)分析,了解某類客戶在購(gòu)買一種商品時(shí),購(gòu)買其它種類產(chǎn)品的概率有多大。根據(jù)這種相互的關(guān)聯(lián)性,就可以進(jìn)行交叉銷售。分析客戶忠誠(chéng)度,避免客戶流失。在客戶分析過(guò)程中,會(huì)有很多重要的大客戶流失。采用數(shù)據(jù)挖掘技術(shù),可以對(duì)這些流失的大客戶進(jìn)行分析,找出數(shù)據(jù)模型,發(fā)現(xiàn)其流失的規(guī)律,然后有針對(duì)性地改進(jìn)服務(wù)質(zhì)量,避免客戶的流失,減少企業(yè)的經(jīng)濟(jì)損失。
簡(jiǎn)化管理,呼叫中心的運(yùn)營(yíng)管理被人們提到前所未有的高度,因?yàn)橐粋€(gè)中心即使建得很好,技術(shù)也很先進(jìn),但如果管理不好,優(yōu)勢(shì)仍然發(fā)揮不出來(lái)。然而,管理對(duì)于很多呼叫中心來(lái)說(shuō),卻是很難過(guò)的門檻,數(shù)據(jù)挖掘能幫助簡(jiǎn)化管理。
預(yù)測(cè)話務(wù)量,安排人工座席,在呼叫中心中,話務(wù)量是個(gè)重要的指標(biāo),企業(yè)要根據(jù)話務(wù)量的大小,安排座席人員的數(shù)量,但話務(wù)量是個(gè)變化的指標(biāo),以往比較難以預(yù)測(cè)。通過(guò)數(shù)據(jù)挖掘中的時(shí)間序列分析,可以對(duì)話務(wù)量的情況進(jìn)行一定程度的預(yù)測(cè),就可以更合理地安排座席人員的數(shù)量,在不降低呼叫中心接通率的基礎(chǔ)上,降低企業(yè)的運(yùn)營(yíng)成本。
進(jìn)行關(guān)聯(lián)分析,降低運(yùn)營(yíng)成本。在運(yùn)營(yíng)型的呼叫中心中,常常會(huì)提供很多種業(yè)務(wù)服務(wù),并根據(jù)這些業(yè)務(wù)種類的不同,安排座席人員的數(shù)量和排班。通過(guò)數(shù)據(jù)挖掘中關(guān)聯(lián)分析,可以進(jìn)行業(yè)務(wù)的相關(guān)性分析,分析出哪幾種業(yè)務(wù)具有比較強(qiáng)的關(guān)聯(lián)性。如在快遞行業(yè),送生日蛋糕的業(yè)務(wù)與送鮮花的業(yè)務(wù)可能就有很大的關(guān)聯(lián)性。這樣,在安排座席人員時(shí),就可以將兩種業(yè)務(wù)的座席人員進(jìn)行一定程度的合并,減少人員數(shù)量,降低呼叫中心的經(jīng)營(yíng)成本。
數(shù)字圖書館的數(shù)據(jù)挖掘
WEB挖掘是一個(gè)前景非??春玫墓ぞ?。我們知道,傳統(tǒng)的效率低下的搜索引擎檢索出的信息往往索引不完全、有大量的無(wú)關(guān)信息或沒(méi)有進(jìn)行可靠性驗(yàn)證。用戶能夠快速方便地從WEB中檢索出相關(guān)的可靠的信息是一個(gè)系統(tǒng)的最基本的要求。WEB挖掘不僅能夠從WWW的大量的數(shù)據(jù)中發(fā)現(xiàn)信息,而且它監(jiān)視和預(yù)測(cè)用戶的訪問(wèn)習(xí)慣。這樣給設(shè)計(jì)人員在設(shè)計(jì)WEB站點(diǎn)時(shí)有更多的可靠的信息。WEB挖掘技術(shù)能夠幫助圖書館員在設(shè)計(jì)站點(diǎn)時(shí)朝著方便用戶、節(jié)省時(shí)間和高效率方向發(fā)展。WEB挖掘技術(shù)為圖書館員進(jìn)行信息服務(wù)提供了先進(jìn)的工具。有了這個(gè)工具,圖書館員能夠按照各個(gè)用戶的要求或習(xí)慣,為用戶組織更多、更好的高質(zhì)量信息。
例如;院校圖書館員們應(yīng)用WEB挖掘技術(shù)為本院校不同學(xué)科中的不同研究課題從WWW中檢索相關(guān)信息。該技術(shù)可以自動(dòng)地檢索信息,并把信息按照課題領(lǐng)域進(jìn)行分類,使它們更容易訪問(wèn)。圖書館員可以通過(guò)為不同的課題領(lǐng)域建立一組特征,并以這些特征為基礎(chǔ)進(jìn)行檢索和分類,從而保證得到的信息是可靠的和具有權(quán)威性的。由于WEB挖掘技術(shù)能夠自動(dòng)地,不須人工干預(yù)地從WWW中發(fā)現(xiàn)和組織信息,從而使圖書館員只需花少量的時(shí)間來(lái)維護(hù)數(shù)據(jù)庫(kù)即可完成任務(wù)。用戶由于不需要花大量的時(shí)間來(lái)瀏覽成百上千的文檔,就可在相當(dāng)短的時(shí)間里得到想要的信息而感到非常滿意。更重要的是,他們可以在任何時(shí)間訪問(wèn)到世界任何地方的信息。事實(shí)上,這就是圖書館員把他們的咨詢服務(wù)從桌面轉(zhuǎn)移到INTERNET的具體工作表現(xiàn)。
網(wǎng)站的數(shù)據(jù)挖掘
隨著Web技術(shù)的發(fā)展,各類電子商務(wù)網(wǎng)站風(fēng)起云涌。建立一個(gè)電子商務(wù)網(wǎng)站并不困難,困難的是如何讓您的電子商務(wù)網(wǎng)站有效益。要想有效益就必須吸引客戶,增加能帶來(lái)效益的客戶忠誠(chéng)度。電子商務(wù)業(yè)務(wù)的競(jìng)爭(zhēng)比傳統(tǒng)的業(yè)務(wù)競(jìng)爭(zhēng)更加激烈,原因有很多方面,其中一個(gè)因素是客戶從一個(gè)電子商務(wù)網(wǎng)站轉(zhuǎn)換到競(jìng)爭(zhēng)對(duì)手那邊,只需要點(diǎn)擊幾下鼠標(biāo)即可。網(wǎng)站的內(nèi)容和層次、用詞、標(biāo)題、獎(jiǎng)勵(lì)方案、服務(wù)等任何一個(gè)地方都有可能成為吸引客戶、同時(shí)也可能成為失去客戶的因素。而同時(shí)電子商務(wù)網(wǎng)站每天都可能有上百萬(wàn)次的在線交易,生成大量的記錄文件(Log files)和登記表,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,充分了解客戶的喜好、購(gòu)買模式,甚至是客戶一時(shí)的沖動(dòng),設(shè)計(jì)出滿足不同客戶群體需要的個(gè)性化網(wǎng)站,進(jìn)而增加其競(jìng)爭(zhēng)力,幾乎變得勢(shì)在必行。若想在競(jìng)爭(zhēng)中生存進(jìn)而獲勝,就要比您的競(jìng)爭(zhēng)對(duì)手更了解客戶。
在對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時(shí),所需要的數(shù)據(jù)主要來(lái)自于兩個(gè)方面:一方面是客戶的背景信息,此部分信息主要來(lái)自于客戶的登記表;而另外一部分?jǐn)?shù)據(jù)主要來(lái)自瀏覽者的點(diǎn)擊流(Click-stream),此部分?jǐn)?shù)據(jù)主要用于考察客戶的行為表現(xiàn)。但有的時(shí)候,客戶對(duì)自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會(huì)給數(shù)據(jù)分析和挖掘帶來(lái)不便。在這種情況之下,就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來(lái)推測(cè)客戶的背景信息,進(jìn)而再加以利用。
生物醫(yī)學(xué)和DNA的數(shù)據(jù)挖掘
生物信息或基因數(shù)據(jù)挖掘?qū)θ祟愂芤娣菧\。例如,基因的組合千變?nèi)f化,得某種疾病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變,使之成為正?;??這都需要數(shù)據(jù)挖掘技術(shù)的支持。
對(duì)于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無(wú)論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,更需要一些新的和好的算法?,F(xiàn)在很多廠商正在致力于這方面的研究。但就技術(shù)和軟件而言,還遠(yuǎn)沒(méi)有達(dá)到成熟的地步。
因特網(wǎng)篩選的數(shù)據(jù)挖掘
最近,有不少數(shù)據(jù)挖掘產(chǎn)品用來(lái)篩選因特網(wǎng)上的新聞,保護(hù)用戶不受無(wú)聊電子郵件和商業(yè)推銷的干擾,很受歡迎。
氣象預(yù)報(bào)中的數(shù)據(jù)挖掘
農(nóng)業(yè)生產(chǎn)與氣候、氣象有著密切的關(guān)系,我國(guó)是一個(gè)農(nóng)業(yè)大國(guó),農(nóng)業(yè)生產(chǎn)關(guān)系到國(guó)家經(jīng)濟(jì)命脈和人民生活。天氣系統(tǒng)是一個(gè)復(fù)雜性系統(tǒng),其影響因素多,時(shí)空狀態(tài)變化大。氣象數(shù)據(jù)中蘊(yùn)含著復(fù)雜非線性動(dòng)力學(xué)機(jī)制。各個(gè)因素之間的關(guān)系十分復(fù)雜,并具有紛雜多變的時(shí)空特征。因而,難以建立農(nóng)業(yè)生產(chǎn)與氣象要素的關(guān)系。采用新的技術(shù)和方法進(jìn)行相關(guān)研究有實(shí)際意義,也是應(yīng)用發(fā)展及需求的驅(qū)動(dòng),數(shù)據(jù)挖掘技術(shù)可以用來(lái)解決此問(wèn)題。
國(guó)外利用數(shù)據(jù)挖掘來(lái)進(jìn)行氣象預(yù)報(bào)的應(yīng)用研究所采用的方法主要包括:神經(jīng)網(wǎng)絡(luò)、分類和聚類;國(guó)內(nèi)則有人采用了小波分析與語(yǔ)言場(chǎng)相結(jié)合的知識(shí)表示方法,針對(duì)氣象數(shù)據(jù)提出一種新的基于小波分析和混沌理論相結(jié)合進(jìn)行類別知識(shí)的發(fā)現(xiàn)方法,氣象數(shù)據(jù)通過(guò)小波變換后可以提取表示天氣系統(tǒng)的特征數(shù)據(jù),利用特征數(shù)據(jù)同農(nóng)業(yè)生產(chǎn)相關(guān)指標(biāo)(如產(chǎn)量,害蟲密度等)的關(guān)系進(jìn)行數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的方法包括:分類、聚類、關(guān)聯(lián)規(guī)則以及相似模式等,從非結(jié)構(gòu)化數(shù)據(jù)信息挖掘的角度構(gòu)建了一個(gè)實(shí)用的、可擴(kuò)展的、易操作的氣象科學(xué)研究的應(yīng)用系統(tǒng)。
水文數(shù)據(jù)的數(shù)據(jù)挖掘
信息獲取與分析技術(shù)的快速發(fā)展,特別是遙測(cè)、遙感、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)等技術(shù)的應(yīng)用,有力地促進(jìn)了水文數(shù)據(jù)的采集和處理技術(shù)的發(fā)展,使之在時(shí)間和空間的尺度及要素類型上有了不同程度的擴(kuò)展。由于水在人類生存發(fā)展中的特殊作用,應(yīng)用各種新技術(shù)獲取水文數(shù)據(jù),挖掘蘊(yùn)藏于水文數(shù)據(jù)中的知識(shí),已成為水文科學(xué)發(fā)展的新熱點(diǎn)。數(shù)字水文系統(tǒng)的提出是水文科學(xué)發(fā)展的時(shí)代標(biāo)志之一。其核心是如何形成數(shù)字化的、覆蓋整個(gè)指定地域空間的、多重時(shí)空尺度的、多種要素的、對(duì)水文分析有用的數(shù)據(jù)產(chǎn)品。
水文數(shù)據(jù)挖掘是精確水文預(yù)報(bào)和水文數(shù)據(jù)分析的重要基礎(chǔ)。在我國(guó),整個(gè)水文整編資料數(shù)據(jù)累計(jì)量已超過(guò)7000MB,加上進(jìn)行水文預(yù)報(bào)所需的天氣、地理等數(shù)據(jù),進(jìn)行水文分析所需要處理的數(shù)據(jù)量很大。從這些數(shù)量巨大、類型復(fù)雜的數(shù)據(jù)中及時(shí)準(zhǔn)確地挖掘出滿足需要的知識(shí),往往因?yàn)橛?jì)算能力、存儲(chǔ)能力、算法的不足而無(wú)能為力。因此,需要高效的水文數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)在水文信息服務(wù)領(lǐng)域的應(yīng)用將是多方面的。
數(shù)據(jù)挖掘一般有關(guān)聯(lián)分析(Associations)、序列模式分析(Sequential Patterns)、分類分析(Classifiers)、聚類分析(Clustering)等功能類型。根據(jù)應(yīng)用目標(biāo)不同,數(shù)據(jù)挖掘可以采用或借鑒各種已經(jīng)存在的理論和算法,如信息論、數(shù)理邏輯、進(jìn)化計(jì)算、神經(jīng)計(jì)算、統(tǒng)計(jì)學(xué)等以及面向?qū)嵗膶W(xué)習(xí)的許多算法都可以應(yīng)用于數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)中。水文數(shù)據(jù)挖掘可以應(yīng)用決策樹、神經(jīng)網(wǎng)絡(luò)、覆蓋正例排斥反例、粗糙集(Rough Set)、概念樹、遺傳算法、公式發(fā)現(xiàn)、統(tǒng)計(jì)分析、模糊論等理論與技術(shù),并在可視化技術(shù)的支持下,構(gòu)造滿足不同目的的水文數(shù)據(jù)挖掘應(yīng)用系統(tǒng)。
視頻數(shù)據(jù)的數(shù)據(jù)挖掘
目前,多媒體數(shù)據(jù)已逐漸成為信息處理領(lǐng)域中主要的信息媒體形式,尤其是視頻數(shù)據(jù),由于它能記錄、保留空間和時(shí)間上的各種信息,其內(nèi)容豐富,但使人們能夠以最接近自然的方式獲得更多的細(xì)節(jié)。視頻數(shù)據(jù)在生活中的應(yīng)用越來(lái)越廣泛,已產(chǎn)生了大量的數(shù)字視頻庫(kù),目前的研究主要集中在數(shù)字視頻庫(kù)的組織管理和使用上,特別是基于內(nèi)容的視頻檢索技術(shù)?;趦?nèi)容的視頻信息檢索技術(shù)雖然在某種程度上解決了視頻搜索和資源發(fā)現(xiàn)問(wèn)題,但是,視頻信息檢索只能獲取用戶要求的視頻“信息”,而不能從大量視頻數(shù)據(jù)中分析出蘊(yùn)含的有價(jià)值的用視頻媒體表示的“知識(shí)”。為此,需要研究比檢索和查詢層次更高的視頻分析方法,那就是視頻挖掘(Video Mining)。視頻挖掘就是通過(guò)綜合分析視頻數(shù)據(jù)的視聽特性、時(shí)間結(jié)構(gòu)、事件關(guān)系和語(yǔ)義信息,發(fā)現(xiàn)隱含的、有價(jià)值的、可理解的視頻模式,得出視頻表示事件的趨向和關(guān)聯(lián),改善視頻信息管理的智能程度。
個(gè)人數(shù)據(jù)挖掘
個(gè)人數(shù)據(jù)挖掘的應(yīng)用非常廣泛,例如,可以挖掘公司記錄,選擇最好的合作伙伴;挖掘個(gè)人家庭醫(yī)療史,確定和遺傳有關(guān)的醫(yī)學(xué)模式,從而對(duì)生活方式和健康做出最優(yōu)決策;挖掘股票和公司業(yè)績(jī)來(lái)選擇最優(yōu)投資方式等。
數(shù)據(jù)挖掘工具的評(píng)價(jià)標(biāo)準(zhǔn)
如何選擇滿足自己需要的數(shù)據(jù)挖掘工具呢?評(píng)價(jià)一個(gè)數(shù)據(jù)挖掘工具,需要從以下幾個(gè)方面來(lái)考慮:
1產(chǎn)生的模式種類的多少。
2解決復(fù)雜問(wèn)題的能力。
數(shù)據(jù)量的增大,對(duì)模式精細(xì)度、準(zhǔn)確度要求的增高都會(huì)導(dǎo)致問(wèn)題復(fù)雜性的增大。數(shù)據(jù)挖掘系統(tǒng)可以提供下列方法解決復(fù)雜問(wèn)題:
多種模式多種類別模式的結(jié)合使用有助于發(fā)現(xiàn)有用的模式,降低問(wèn)題復(fù)雜性。例如,首先用聚類的方法把數(shù)據(jù)分組,然后再在各個(gè)組上挖掘預(yù)測(cè)性的模式,將會(huì)比單純?cè)谡麄€(gè)數(shù)據(jù)集上進(jìn)行操作更有效、準(zhǔn)確度更高。
多種算法很多模式,特別是與分類有關(guān)的模式,可以有不同的算法來(lái)實(shí)現(xiàn),各有各的優(yōu)缺點(diǎn),適用于不同的需求和環(huán)境。數(shù)據(jù)挖掘系統(tǒng)提供多種途徑產(chǎn)生同種模式,將更有能力解決復(fù)雜問(wèn)題。驗(yàn)證方法在評(píng)估模式時(shí),有多種可能的驗(yàn)證方法。比較成熟的方法像N層交叉驗(yàn)證或Bootstrapping等可以控制,以達(dá)到最大的準(zhǔn)確度。
數(shù)據(jù)選擇和轉(zhuǎn)換模式通常被大量的數(shù)據(jù)項(xiàng)隱藏。有些數(shù)據(jù)是冗余的,有些數(shù)據(jù)是完全無(wú)關(guān)的。而這些數(shù)據(jù)項(xiàng)的存在會(huì)影響到有價(jià)值的模式的發(fā)現(xiàn)。數(shù)據(jù)挖掘系統(tǒng)的一個(gè)很重要功能就是能夠處理數(shù)據(jù)復(fù)雜性,提供工具,選擇正確的數(shù)據(jù)項(xiàng)和轉(zhuǎn)換數(shù)據(jù)值。
可視化工具提供直觀、簡(jiǎn)潔的機(jī)制表示大量的信息。這有助于定位重要的數(shù)據(jù),評(píng)價(jià)模式的質(zhì)量,從而減少建模的復(fù)雜性。 擴(kuò)展性為了更有效地提高處理大量數(shù)據(jù)的效率,數(shù)據(jù)挖掘系統(tǒng)的擴(kuò)展性十分重要。需要了解的是:數(shù)據(jù)挖掘系統(tǒng)能否充分利用硬件資源?是否支持并行計(jì)算?算法本身設(shè)計(jì)為并行的或利用了DBMS的并行性能?支持哪種并行計(jì)算機(jī),SMP服務(wù)器還是MPP服務(wù)器?當(dāng)處理器的數(shù)量增加時(shí),計(jì)算規(guī)模是否相應(yīng)增長(zhǎng)?是否支持?jǐn)?shù)據(jù)并行存儲(chǔ)?
為單處理器的計(jì)算機(jī)編寫的數(shù)據(jù)挖掘算法不會(huì)在并行計(jì)算機(jī)上自動(dòng)以更快的速度運(yùn)行。為充分發(fā)揮并行計(jì)算的優(yōu)點(diǎn),需要編寫支持并行計(jì)算的算法。
3易操作性
易操作性是一個(gè)重要的因素。有的工具有圖形化界面,引導(dǎo)用戶半自動(dòng)化地執(zhí)行任務(wù),有的使用腳本語(yǔ)言。有些工具還提供數(shù)據(jù)挖掘的API,可以嵌入到像C、VisualBasic、PowerBuilder這樣的編程語(yǔ)言中。
模式可以運(yùn)用到已存在或新增加的數(shù)據(jù)上。有的工具有圖形化的界面,有的允許通過(guò)使用C這樣的程序語(yǔ)言或SQL中的規(guī)則集,把模式導(dǎo)出到程序或數(shù)據(jù)庫(kù)中。
4數(shù)據(jù)存取能力
好的數(shù)據(jù)挖掘工具可以使用SQL語(yǔ)句直接從DBMS中讀取數(shù)據(jù)。這樣可以簡(jiǎn)化數(shù)據(jù)準(zhǔn)備工作,并且可以充分利用數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)(比如平行讀取)。沒(méi)有一種工具可以支持大量的DBMS,但可以通過(guò)通用的接口連接大多數(shù)流行的DBMS。Microsoft的ODBC就是一個(gè)這樣的接口。
5與其他產(chǎn)品的接口
有很多別的工具可以幫助用戶理解數(shù)據(jù),理解結(jié)果。這些工具可以是傳統(tǒng)的查詢工具、可視化工具、OLAP工具。數(shù)據(jù)挖掘工具是否能提供與這些工具集成的簡(jiǎn)易途徑?
國(guó)外的許多行業(yè)如通信、信用卡公司、銀行和股票交易所、保險(xiǎn)公司、廣告公司、商店等已經(jīng)大量利用數(shù)據(jù)挖掘工具來(lái)協(xié)助其業(yè)務(wù)活動(dòng),國(guó)內(nèi)在這方面的應(yīng)用還處于起步階段,對(duì)數(shù)據(jù)挖掘技術(shù)和工具的研究人員以及開發(fā)商來(lái)說(shuō),我國(guó)是一個(gè)有巨大潛力的市場(chǎng)。
評(píng)論
查看更多