目前,聚類(lèi)算法被廣泛應(yīng)用于用戶畫(huà)像、廣告推薦、新聞推送和圖像分割等等。聚類(lèi)算法是機(jī)器學(xué)習(xí)中一種“數(shù)據(jù)探索”的分析方法,它幫助我們?cè)诖罅康臄?shù)據(jù)中探索和發(fā)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)。那么機(jī)器學(xué)習(xí)中的聚類(lèi)算法有哪幾種呢?下面我將為大家一一介紹常見(jiàn)的幾種聚類(lèi)算法,分別是高斯聚類(lèi)模型、基于密度的聚類(lèi)算法、凝聚層次聚類(lèi)和均值漂移算法。
1、高斯聚類(lèi)模型
事實(shí)上,GMM 和 k-means 很像,不過(guò) GMM 是學(xué)習(xí)出一些概率密度函數(shù)來(lái),簡(jiǎn)單地說(shuō),k-means 的結(jié)果是每個(gè)數(shù)據(jù)點(diǎn)被 assign 到其中某一個(gè) cluster 了,而 GMM 則給出這些數(shù)據(jù)點(diǎn)被 assign 到每個(gè) cluster 的概率,又稱作 soft assignment 。
2、基于密度的聚類(lèi)算法
基于密度的聚類(lèi)算法最大的優(yōu)點(diǎn)在于無(wú)需定義類(lèi)的數(shù)量,其次可以識(shí)別出局外點(diǎn)和噪聲點(diǎn)、并且可以對(duì)任意形狀的數(shù)據(jù)進(jìn)行聚類(lèi)。DBSCAN同樣是基于密度的聚類(lèi)算法,但其原理卻與均值漂移大不相同:首先從沒(méi)有被遍歷的任一點(diǎn)開(kāi)始,利用鄰域距離epsilon來(lái)獲取周?chē)c(diǎn);如果鄰域內(nèi)點(diǎn)的數(shù)量滿足閾值則此點(diǎn)成為核心點(diǎn)并以此開(kāi)始新一類(lèi)的聚類(lèi);其鄰域內(nèi)的所有點(diǎn)也屬于同一類(lèi),將所有的鄰域內(nèi)點(diǎn)以epsilon為半徑進(jìn)行步驟二的計(jì)算;重復(fù)步驟二、三直到變量完所有核心點(diǎn)的鄰域點(diǎn);此類(lèi)聚類(lèi)完成,同時(shí)又以任意未遍歷點(diǎn)開(kāi)始步驟一到四直到所有數(shù)據(jù)點(diǎn)都被處理;最終每個(gè)數(shù)據(jù)點(diǎn)都有自己的歸屬類(lèi)別或者屬于噪聲。
3、K均值聚類(lèi)
這一最著名的聚類(lèi)算法主要基于數(shù)據(jù)點(diǎn)之間的均值和與聚類(lèi)中心的聚類(lèi)迭代而成。它主要的優(yōu)點(diǎn)是十分的高效,由于只需要計(jì)算數(shù)據(jù)點(diǎn)與劇類(lèi)中心的距離,其計(jì)算復(fù)雜度只有O(n)。其工作原理主要分為以下四步:首先我們需要預(yù)先給定聚類(lèi)的數(shù)目同時(shí)隨機(jī)初始化聚類(lèi)中心。我們可以初略的觀察數(shù)據(jù)并給出較為準(zhǔn)確的聚類(lèi)數(shù)目;每一個(gè)數(shù)據(jù)點(diǎn)通過(guò)計(jì)算與聚類(lèi)中心的距離了來(lái)分類(lèi)到最鄰近的一類(lèi)中;根據(jù)分類(lèi)結(jié)果,利用分類(lèi)后的數(shù)據(jù)點(diǎn)重新計(jì)算聚類(lèi)中心;重復(fù)步驟二三直到聚類(lèi)中心不再變化。
4、凝聚層次聚類(lèi)
層次聚類(lèi)法主要有自頂向下和自底向上兩種方式。其中自底向上的方式,最初將每個(gè)點(diǎn)看作是獨(dú)立的類(lèi)別,隨后通過(guò)一步步的凝聚最后形成獨(dú)立的一大類(lèi),并包含所有的數(shù)據(jù)點(diǎn)。這會(huì)形成一個(gè)樹(shù)形結(jié)構(gòu),并在這一過(guò)程中形成聚類(lèi)。
5、均值漂移算法
這是一種基于滑動(dòng)窗口的均值算法,用于尋找數(shù)據(jù)點(diǎn)中密度最大的區(qū)域。其目標(biāo)是找出每一個(gè)類(lèi)的中心點(diǎn),并通過(guò)計(jì)算滑窗內(nèi)點(diǎn)的均值更新滑窗的中心點(diǎn)。最終消除臨近重復(fù)值的影響并形成中心點(diǎn),找到其對(duì)應(yīng)的類(lèi)別。其工作原理主要是以下幾點(diǎn):首先以隨機(jī)選取的點(diǎn)為圓心r為半徑做一個(gè)圓形的滑窗。其目標(biāo)是找出數(shù)據(jù)點(diǎn)中密度最高點(diǎn)并作為中心;在每個(gè)迭代后滑動(dòng)窗口的中心將為想著較高密度的方向移動(dòng);連續(xù)移動(dòng),直到任何方向的移動(dòng)都不能增加滑窗中點(diǎn)的數(shù)量,此時(shí)滑窗收斂;將上述步驟在多個(gè)滑窗上進(jìn)行以覆蓋所有的點(diǎn)。當(dāng)過(guò)個(gè)滑窗收斂重疊時(shí),其經(jīng)過(guò)的點(diǎn)將會(huì)通過(guò)其滑窗聚類(lèi)為一個(gè)類(lèi)。
以上就是機(jī)器學(xué)習(xí)中常見(jiàn)的五種聚類(lèi)算法,大家都了解了嗎?如果還想深入學(xué)習(xí)聚類(lèi)算法的相關(guān)內(nèi)容,比如原理、算法效果的衡量標(biāo)準(zhǔn)以及基于Kmeans算法進(jìn)行改進(jìn)的優(yōu)化方法,可以上博學(xué)谷官網(wǎng)進(jìn)行有關(guān)課程的在線學(xué)習(xí)。希望大家通過(guò)課程可以學(xué)會(huì)使用聚類(lèi)算法進(jìn)行數(shù)據(jù)分析,挖掘商業(yè)價(jià)值。
-
算法
+關(guān)注
關(guān)注
23文章
4587瀏覽量
92501 -
聚類(lèi)
+關(guān)注
關(guān)注
0文章
146瀏覽量
14199 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8349瀏覽量
132312
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論