當前時代大數(shù)據(jù)炙手可熱,數(shù)據(jù)挖掘也是人人有所耳聞,但是關于數(shù)據(jù)挖掘更具體的算法,外行人了解的就少之甚少了。
數(shù)據(jù)挖掘主要分為分類算法,聚類算法和關聯(lián)規(guī)則三大類,這三類基本上涵蓋了目前商業(yè)市場對算法的所有需求。而這三類里又包含許多經(jīng)典算法。而今天,小編就給大家介紹下數(shù)據(jù)挖掘中最經(jīng)典的十大算法,希望它對你有所幫助。
?
圖1.jpg?(1.89 MB, 下載次數(shù): 0)
半小時前?上傳
一、 分類決策樹算法C4.5C4.5,是機器學習算法中的一種分類決策樹算法,它是決策樹(決策樹,就是做決策的節(jié)點間的組織方式像一棵倒栽樹)核心算法ID3的改進算法,
C4.5相比于ID3改進的地方有:
1、用信息增益率選擇屬性
ID3選擇屬性用的是子樹的信息增益,這里可以用很多方法來定義信息,ID3使用的是熵(shang),一種不純度度量準則,也就是熵的變化值,而C4.5用的是信息增益率。區(qū)別就在于一個是信息增益,一個是信息增益率。
2、 在樹構造過程中進行剪枝,在構造決策樹的時候,那些掛著幾個元素的節(jié)點,不考慮最好,不然容易導致過擬。
3、能對非離散數(shù)據(jù)和不完整數(shù)據(jù)進行處理。
該算法適用于臨床決策、生產(chǎn)制造、文檔分析、生物信息學、空間數(shù)據(jù)建模等領域。
二、K平均算法
K平均算法(k-means algorithm)是一個聚類算法,把n個分類對象根據(jù)它們的屬性分為k類(k
從算法的表現(xiàn)上來說,它并不保證一定得到全局最優(yōu)解,最終解的質量很大程度上取決于初始化的分組。由于該算法的速度很快,因此常用的一種方法是多次運行k平均算法,選擇最優(yōu)解。
k-Means 算法常用于圖片分割、歸類商品和分析客戶。
?三、支持向量機算法
支持向量機(Support Vector Machine)算法,簡記為SVM,是一種監(jiān)督式學習的方法,廣泛用于統(tǒng)計分類以及回歸分析中。
SVM的主要思想可以概括為兩點:
(1)它是針對線性可分情況進行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分;
(2)它基于結構風險最小化理論之上,在特征空間中建構最優(yōu)分割超平面,使得學習器得到全局最優(yōu)化,并且在整個樣本空間的期望風險以某個概率滿足一定上界。
四、The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法,其核心是基于兩階段“頻繁項集”思想的遞推算法。其涉及到的關聯(lián)規(guī)則在分類上屬于單維、單層、布爾關聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
該算法的基本思想是:首先找出所有的頻集,這些頻集出現(xiàn)的頻繁性至少和預定義的最小支持度一樣。然后由頻集產(chǎn)生強關聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推方法。
在消費市場價格分析、入侵檢測、移動通信領域等領域,Apriori 算法都有著廣泛的用武之地。
?
五、最大期望(EM)算法
在統(tǒng)計計算中,最大期望(EM,Expectation–Maximization)算法是在概率模型中尋找參數(shù)最大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量。最大期望經(jīng)常用在機器學習和計算機視覺的數(shù)據(jù)集聚領域。
最大期望算法經(jīng)過兩個步驟交替進行計算,第一步是計算期望(E),也就是將隱藏變量象能夠觀測到的一樣包含在內從而計算最大似然的期望值;第二步是最大化(M),也就是最大化在E步上找到的最大似然的期望值從而計算參數(shù)的最大似然估計。M步上找到的參數(shù)然后用于另外一個E步計算,這個過程不斷交替進行。
六、Page Rank算法
Page Rank是Google算法的重要內容。Page Rank根據(jù)網(wǎng)站的外部鏈接和內部鏈接的數(shù)量和質量,衡量網(wǎng)站的價值。
Page Rank背后的概念是每個到頁面的鏈接都是對該頁面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多。這就是所謂的“鏈接流行度”——衡量多少人愿意將他們的網(wǎng)站和你的網(wǎng)站掛鉤。
毫無疑問,PageRank 算法是一種相當適合爬蟲、頁面排序、文獻檢索及搜索引擎的算法。
?
七、Ada Boost 迭代算法
Ada boost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。
從原理上說,它本身是通過改變數(shù)據(jù)分布來實現(xiàn)計算的。Adaboost 算法根據(jù)每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權值。將修改過權值的新數(shù)據(jù)集送給下層分類器進行訓練,最后將每次訓練得到的分類器最后融合起來,作為最后的決策分類器(強分類器)。
它被廣泛應用于人臉檢測、目標識別等領域。
八、kNN 最近鄰分類算法
K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。
KNN算法不僅可以用于分類,還可以用于回歸。通過找出一個樣本的k個最近鄰居,將這些鄰居的屬性的平均值賦給該樣本,就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對該樣本產(chǎn)生的影響給予不同的權值,如權值與距離成正比。
該算法適合處理稀有事件的分類問題,例如:
客戶流失預測、欺詐偵測等等。
?
九、Naive Bayes 樸素貝葉斯算法
在眾多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型和樸素貝葉斯模型(Naive Bayesian Model,NBC)。
Naive Bayes 算法通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,并選擇具有最大后驗概率的類作為該對象所屬的類。樸素貝葉斯模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,其算法也比較簡單。
其常用于處理垃圾郵件過濾和文本分類。
十、CART: 分類與回歸樹算法
分類與回歸樹算法(CART,Classification and Regression Trees)是分類數(shù)據(jù)挖掘算法的一種,有兩個關鍵的思想:第一個是關于遞歸地劃分自變量空間的想法;第二個想法是用驗證數(shù)據(jù)進行剪枝。
其抽取規(guī)則簡便且易于理解,而且在計算時往往只需要用簡單的乘法,因此降低了計算的負荷,在面對存在缺失值、變量數(shù)多等問題時表現(xiàn)非常穩(wěn)健。
CART算法可應用于信息失真識別、潛在客戶識別、預測貸款風險等場景。
?
那么親該專注哪種算法呢,小編覺得每一種算法都是經(jīng)典,每一種算法都值得去學習。至于要用哪種算法?還得看實際的應用場景和業(yè)務需求!
總結一句話:數(shù)據(jù)挖掘之路漫漫而修遠,潛心修煉方能修成正果!
最后歡迎關注小編或添加小編微信公眾號“中移模組”,我們等你一起加入探討的喔!
中移物聯(lián)網(wǎng)有限公司是中國移動通信集團公司出資成立的全資子公司。公司按照中國移動整體戰(zhàn)略布局,圍繞“物聯(lián)網(wǎng)業(yè)務服務的支撐者、專用模組和芯片的提供者、物聯(lián)網(wǎng)專用產(chǎn)品的推動者”的戰(zhàn)略定位, 專業(yè)化運營物聯(lián)網(wǎng)專用網(wǎng)絡,設計生產(chǎn)物聯(lián)網(wǎng)專用模組和芯片,打造車聯(lián)網(wǎng)、智能家居、智能穿戴等特色產(chǎn)品,開發(fā)運營物聯(lián)網(wǎng)連接管理平臺OneLink和物聯(lián)網(wǎng)開放平臺OneNET,推廣物聯(lián)網(wǎng)解決方案,形成了五大方向業(yè)務布局和物聯(lián)網(wǎng)“云-管-端”全方位的體系架構。為向社會提供更加優(yōu)質的物聯(lián)網(wǎng)技術、產(chǎn)品及服務,推動產(chǎn)業(yè)發(fā)展,公司密切協(xié)同中國移動各省公司及專業(yè)公司, 以開放、合作、共享的發(fā)展理念,廣泛開展國際、國內企業(yè)合作,以市場化機制獨立運作,力爭成為立足全國,服務全球的物聯(lián)網(wǎng)領先企業(yè),推動物聯(lián)網(wǎng)在各行業(yè)的規(guī)模應用。
評論
查看更多