0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

聚類是另一種無監(jiān)督機(jī)器學(xué)習(xí)方法

倩倩 ? 來源:邊際實(shí)驗(yàn)室 ? 2020-03-25 16:05 ? 次閱讀

聚類是另一種無監(jiān)督機(jī)器學(xué)習(xí)方法,該方法將數(shù)據(jù)點(diǎn)分為相似的組,稱之為“類”。一個(gè)類包含來自數(shù)據(jù)集的一個(gè)觀察子集,同一類中的所有觀察值都被認(rèn)為是“相似的”。每個(gè)類里觀測值彼此之間接近(稱為內(nèi)聚),兩個(gè)不同的類里的觀測值彼此遠(yuǎn)離或者盡可能不同(稱為分離)。下圖描述了類的內(nèi)聚和分離。

聚類算法在許多投資問題中特別有用。例如,在對公司進(jìn)行分組時(shí),類可以發(fā)現(xiàn)公司之間的重要相似性和差異性,而這些相似性和差異性可能不會(huì)被標(biāo)準(zhǔn)的行業(yè)分類所捕捉。在投資組合管理中,聚類方法被用來改善投資組合的多樣化。

在實(shí)踐中,專家判斷在聚類算法中起著一定的作用。首先,專家必須確定什么是“相似”。每個(gè)公司都可以被認(rèn)為是一個(gè)具有多種特征的觀察值,包含營業(yè)收入、利潤、財(cái)務(wù)比率等財(cái)務(wù)數(shù)值,以及其他潛在的模型輸入值。有了這些特征值,兩個(gè)觀測值之間的相似度或“距離”就可以被定義。距離越小,觀測結(jié)果越相似;距離越大,觀測結(jié)果越不相似。

一個(gè)常用的定義方法是歐幾里得距離,即兩點(diǎn)之間的直線距離。在機(jī)器學(xué)習(xí)中,經(jīng)常使用的距離度量有十余種。在實(shí)踐中,距離度量的選擇取決于數(shù)據(jù)的性質(zhì)(是否是數(shù)值)和被分析的業(yè)務(wù)類別。

一旦定義了相關(guān)的距離度量,我們就可以將類似的觀測結(jié)果分在一起。我們現(xiàn)在介紹兩種比較流行的聚類方法:K-Means和分層聚類。

K-Means

K-Means是一種相對較老的算法,它將觀察值重復(fù)劃分為一個(gè)固定的數(shù)字k(不重疊的類)。類的數(shù)量k是一個(gè)模型超參數(shù),它的值由研究人員在學(xué)習(xí)開始之前設(shè)置。每個(gè)類由它的形心(centroid,即中心)定義,每個(gè)觀測值都由算法分配到與該觀測值最接近的形心的類中。

K-Means算法遵循迭代過程。如下表所示,k=3和一組關(guān)于變量的觀察結(jié)果可以用兩個(gè)特征來描述。

在表中,水平軸和垂直軸分別代表第一和第二特征。例如,投資分析師可能希望將一組公司用兩個(gè)測量標(biāo)準(zhǔn)分成三類。

算法將觀測數(shù)據(jù)按以下步驟進(jìn)行分類:

1、首先確定k(本例為3)個(gè)初始隨機(jī)形心的位置。

2、算法分析每個(gè)觀測值的特征。基于使用的距離度量,K-Means將每個(gè)觀測值分配給最近的形心(類由形心定義)。

3、借助每個(gè)類中的觀測值,K-Means算法在計(jì)算每個(gè)類新的(k個(gè))形心(形心是觀測值的平均值)。

4、然后將觀測結(jié)果重新分配到新的形心,根據(jù)觀測結(jié)果對類重新定義。

5、再次進(jìn)行新的(k個(gè))形心及類的確定過程。

K-Means算法將繼續(xù)迭代,直到?jīng)]有觀察結(jié)果被重新分配到另一個(gè)新的類(即不需要重新計(jì)算新的形心)。該算法最終收斂并得到最后的K個(gè)類及類內(nèi)的觀察值。在k=3的約束下,K-Means算法最小化了類內(nèi)的距離(內(nèi)聚最大化),最大化了類間距離(分離最大化)。

K-Means算法速度快,在擁有上億個(gè)觀測數(shù)據(jù)的數(shù)據(jù)集上運(yùn)行良好。但是,類的最終分配可能取決于形心的初始位置。為了解決這個(gè)問題,可以使用不同的形心多次運(yùn)行該算法,然后根據(jù)業(yè)務(wù)目的選擇最有用的分類。

這種技術(shù)的一個(gè)限制是,在運(yùn)行K-Means之前,必須確定類的數(shù)量(超參數(shù)k)。

因此,我們需要知道,研究問題及分析數(shù)據(jù)集,選擇多少個(gè)類是合理的?;蛘?,可以選擇k的取值范圍,通過運(yùn)行算法找到最優(yōu)的類的數(shù)量——使類內(nèi)距離最小,類內(nèi)的相似度最大。但是,最終結(jié)果仍可能過于主觀。

以羅素3000指數(shù)為例,該指數(shù)跟蹤美國市值最高的3000只股票。這3000支股票可以根據(jù)財(cái)務(wù)特征(如總資產(chǎn)、總收益、盈利能力、杠桿率等)和經(jīng)營特征(如員工人數(shù)、研發(fā)費(fèi)用等)分為10個(gè)、50個(gè)甚至更多的類。由于處于同一行業(yè)類別中的公司可能具有非常不同的財(cái)務(wù)和運(yùn)營特征,因此使用K-Means派生出不同的類可以為“同類”群體的性質(zhì)提供獨(dú)特的理解。如前所述,k的準(zhǔn)確選擇取決于所需的精度或分割的水平。我們還可以使用聚類對投資工具或?qū)_基金進(jìn)行分類,作為標(biāo)準(zhǔn)分類的替代方法。聚類還可以幫助實(shí)現(xiàn)可視化數(shù)據(jù),并有助于檢測趨勢或異常值。

總而言之,K-Means算法是投資實(shí)踐中最常用的算法之一,特別是在高維數(shù)據(jù)中發(fā)現(xiàn)特有模式及作為現(xiàn)有靜態(tài)行業(yè)分類的替代方法等方面。

分層聚類

分層聚類是一種用于構(gòu)建層次類結(jié)構(gòu)的迭代過程。在K-Means聚類中,算法將數(shù)據(jù)分割成預(yù)定數(shù)目的聚類;類之間沒有定義的關(guān)系。然而,在分層聚類中,算法會(huì)創(chuàng)建大小遞增(“內(nèi)聚”)或遞減(“分離”)的中間類,直到達(dá)到最終的聚類。正如“分層”一詞所暗示的,該過程在多層類之間創(chuàng)建關(guān)系。雖然與K-Means聚類相比,分層聚類的計(jì)算量更大,但它的優(yōu)點(diǎn)是允許分析師在決定使用哪種間隔的數(shù)據(jù)之前檢查不同間隔數(shù)據(jù)的分段。

更詳細(xì)地說,內(nèi)聚式(自下至上)分層聚類先將每個(gè)觀察值作為自己的類。然后,算法根據(jù)距離(相似度)的度量找到兩個(gè)最近的類,并將它們合并成一個(gè)新的更大的類。這個(gè)過程不斷重復(fù),直到所有的觀察值都聚集成一個(gè)類。下表中的A表描述了一個(gè)內(nèi)聚聚類的假想示例,其中的觀察結(jié)果用字母表示(A到K),觀察結(jié)果周圍的圓圈表示類。這個(gè)過程從11個(gè)單獨(dú)的類開始,然后生成分組序列。第一個(gè)序列包括6個(gè)類,有5個(gè)類各自有2個(gè)觀測值,1個(gè)類有單個(gè)觀測值G。接下來生成2個(gè)類,一個(gè)類有6個(gè)觀測值,另一個(gè)類有5個(gè)觀測值。最后的結(jié)果是一個(gè)包含所有11個(gè)觀測值的大類,該大類包括兩個(gè)主要的子類,每個(gè)子類包含三個(gè)較小的孫類。

相反,分離式(自上而下)分層聚類從單個(gè)類的所有觀察值開始。然后根據(jù)距離(相似度)將觀測結(jié)果分成兩個(gè)類。然后,該算法逐步將中間類劃分為更小的類,直到每個(gè)類只包含一個(gè)觀察值。B表描述了分離式聚類的步驟,它以一個(gè)包含11個(gè)觀察值的類開始,算法生成兩個(gè)較小的類,一個(gè)有6個(gè)觀測值,另一個(gè)有5個(gè)觀測值;然后再分為6個(gè)類;最后生成11個(gè)類,每個(gè)類只包含一個(gè)觀測值。

在這個(gè)假設(shè)的例子中,內(nèi)聚式和分離式聚類產(chǎn)生了相同的結(jié)果:兩個(gè)主要的子類,每個(gè)子類有三個(gè)更小的孫類。我們可以在6個(gè)類或2個(gè)類之間進(jìn)行選擇。由于計(jì)算速度快,內(nèi)聚式聚類是處理數(shù)據(jù)集的常用方法。內(nèi)聚式聚類算法根據(jù)局部模式進(jìn)行決策,不考慮數(shù)據(jù)的全局結(jié)構(gòu)。因此,內(nèi)聚式聚類非常適合于對較小的類進(jìn)行識別。由于分離式聚類先從整體開始,所以常被側(cè)重于分析數(shù)據(jù)的全局結(jié)構(gòu),因此更適合于識別較大的類。

為了確定內(nèi)聚式和分離式聚類的最佳結(jié)果,需要對兩個(gè)類之間的距離有明確的定義。一些常用的定義包括求每個(gè)類中所有觀測值之間直線距離的最小值、最大值或平均值。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 聚類算法
    +關(guān)注

    關(guān)注

    2

    文章

    118

    瀏覽量

    12103
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8306

    瀏覽量

    131842
  • K-means
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    11267
收藏 人收藏

    評論

    相關(guān)推薦

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 了解時(shí)間序列

    。 可以探索現(xiàn)象發(fā)展變化的規(guī)律,對某些社會(huì)經(jīng)濟(jì)現(xiàn)象進(jìn)行預(yù)測。 利用時(shí)間序列可以在不同地區(qū)或國家之間進(jìn)行對比分析,這也是統(tǒng)計(jì)分析的重要方法。 而《時(shí)間序列與機(jī)器學(xué)習(xí)
    發(fā)表于 08-11 17:55

    一種透鏡成像的新方法

    使用OAM-HHG EUV光束對高度周期性結(jié)構(gòu)進(jìn)行成像的EUV聚光顯微鏡 為了研究微電子或光子元件中的納米級圖案,一種基于透鏡成像的新方法可以實(shí)現(xiàn)近乎完美的高分辨率顯微鏡。 層析成像是一種
    的頭像 發(fā)表于 07-19 06:20 ?197次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>無</b>透鏡成像的新<b class='flag-5'>方法</b>

    神經(jīng)網(wǎng)絡(luò)如何用監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中監(jiān)督學(xué)習(xí)一種重要的訓(xùn)練策略。監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 07-09 18:06 ?573次閱讀

    深度學(xué)習(xí)中的監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的監(jiān)督學(xué)
    的頭像 發(fā)表于 07-09 10:50 ?216次閱讀

    基于FPGA的腦計(jì)算平臺 —PYNQ 集群的監(jiān)督圖像識別腦計(jì)算系統(tǒng)

    STDP 監(jiān)督學(xué)習(xí)算法,可運(yùn)用于圖像的 監(jiān)督分類。 從平臺設(shè)計(jì)角度: (1)本設(shè)計(jì)搭建的基于 PYNQ 集群的通用低功耗的大規(guī)模
    發(fā)表于 06-25 18:35

    名單公布!【書籍評測活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來?

    捕捉復(fù)雜非線性模式的場景中顯得力不從心。 將時(shí)間序列的分析與預(yù)測用于大規(guī)模的數(shù)據(jù)生產(chǎn)直存在諸多困難。 在這種背景下,結(jié)合機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)技術(shù)的時(shí)間序列分析
    發(fā)表于 06-25 15:00

    谷歌提出大規(guī)模ICL方法

    谷歌DeepMind團(tuán)隊(duì)近日取得了項(xiàng)突破性的研究成果。他們提出了強(qiáng)化和監(jiān)督新型的ICL(In-Context Learning)學(xué)習(xí)方法
    的頭像 發(fā)表于 05-14 14:17 ?260次閱讀

    Meta發(fā)布新型監(jiān)督視頻預(yù)測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的監(jiān)督視頻預(yù)測模型,名為“V-JEPA”。這模型在視頻處理領(lǐng)域引起了廣泛關(guān)注,因?yàn)樗ㄟ^抽象性預(yù)測生成視頻中缺失或模糊的部分來
    的頭像 發(fā)表于 02-19 11:19 ?821次閱讀

    基于transformer和自監(jiān)督學(xué)習(xí)的路面異常檢測方法分享

    鋪設(shè)異常檢測可以幫助減少數(shù)據(jù)存儲(chǔ)、傳輸、標(biāo)記和處理的壓力。本論文描述了一種基于Transformer和自監(jiān)督學(xué)習(xí)的新方法,有助于定位異常區(qū)域。
    的頭像 發(fā)表于 12-06 14:57 ?1216次閱讀
    基于transformer和自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>的路面異常檢測<b class='flag-5'>方法</b>分享

    監(jiān)督域自適應(yīng)場景:基于檢索增強(qiáng)的情境學(xué)習(xí)實(shí)現(xiàn)知識遷移

    本文對比了多種基線方法,包括監(jiān)督域自適應(yīng)的傳統(tǒng)方法(如Pseudo-labeling和對抗訓(xùn)練)、基于檢索的LM方法(如REALM和RAG
    發(fā)表于 12-05 14:14 ?426次閱讀
    <b class='flag-5'>無</b><b class='flag-5'>監(jiān)督</b>域自適應(yīng)場景:基于檢索增強(qiáng)的情境<b class='flag-5'>學(xué)習(xí)</b>實(shí)現(xiàn)知識遷移

    一種利用幾何信息的自監(jiān)督單目深度估計(jì)框架

    本文方法一種監(jiān)督的單目深度估計(jì)框架,名為GasMono,專門設(shè)計(jì)用于室內(nèi)場景。本方法通過應(yīng)用多視圖幾何的方式解決了室內(nèi)場景中幀間大旋轉(zhuǎn)和低紋理導(dǎo)致自
    發(fā)表于 11-06 11:47 ?322次閱讀
    <b class='flag-5'>一種</b>利用幾何信息的自<b class='flag-5'>監(jiān)督</b>單目深度估計(jì)框架

    stm32學(xué)習(xí)方法及資料

    1、 共 24 個(gè)庫,不可能都學(xué),都學(xué)也沒用。按照我的工作需求必須學(xué)的有 16 個(gè),這 16 個(gè)也不是全學(xué)。主要學(xué)習(xí)來源是各種例程代碼、“固件函數(shù)庫用戶手冊”和“參考手冊”。具體學(xué)習(xí)方法是通讀
    發(fā)表于 10-13 06:30

    深度學(xué)習(xí)的由來 深度學(xué)習(xí)的經(jīng)典算法有哪些

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)個(gè)分支,其學(xué)習(xí)方法可以分為監(jiān)督學(xué)習(xí)
    發(fā)表于 10-09 10:23 ?483次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>的由來 深度<b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典算法有哪些

    《電子工程師必備——九大系統(tǒng)電路識圖寶典》+附錄5學(xué)習(xí)方法

    尋找適合自己的學(xué)習(xí)路徑時(shí)感到迷茫?本文將為你提供一種全新的學(xué)習(xí)電子技術(shù)的自主學(xué)習(xí)法,幫助你更高效地掌握這技術(shù)。 自主
    發(fā)表于 10-06 23:25

    STM32的學(xué)習(xí)方法

    STM32學(xué)習(xí)方法
    發(fā)表于 09-28 06:18