0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

K-MEANS聚類算法概述及工作原理

NVIDIA英偉達(dá) ? 來源:NVIDIA英偉達(dá) ? 作者:NVIDIA英偉達(dá) ? 2022-06-06 11:53 ? 次閱讀

K-means 是一種聚類算法,且對于數(shù)據(jù)科學(xué)家而言,是簡單且熱門的無監(jiān)督式機(jī)器學(xué)習(xí)(ML)算法之一。

什么是 K-MEANS?

無監(jiān)督式學(xué)習(xí)算法嘗試在無標(biāo)記數(shù)據(jù)集中“學(xué)習(xí)”模式,發(fā)現(xiàn)相似性或規(guī)律。常見的無監(jiān)督式任務(wù)包括聚類和關(guān)聯(lián)。K-means 等聚類算法試圖通過分組對象來發(fā)現(xiàn)數(shù)據(jù)集中的相似性,與不同集群間的對象相似性相比,同一集群中對象之間的相似性更高。使用最小距離、數(shù)據(jù)點(diǎn)密度、圖形或各種統(tǒng)計(jì)分布等標(biāo)準(zhǔn)將其分組為集群。

K-means 通過最小化幾何點(diǎn)之間的平均距離將相似數(shù)據(jù)點(diǎn)分組成集群。為此,它以迭代方式將數(shù)據(jù)集分為非重疊子組(或集群)的固定數(shù)量 (K),其中每個數(shù)據(jù)點(diǎn)均屬于集群中心均值最近的集群。

為何選擇 K-MEANS?

K-means 是一種聚類算法,部署后可用于發(fā)現(xiàn)數(shù)據(jù)中尚未明確標(biāo)記的組。目前,它已廣泛應(yīng)用于各種商業(yè)應(yīng)用,包括:

客戶分割:可以對客戶進(jìn)行分組,以便更好地定制產(chǎn)品。

文本、文檔或搜索結(jié)果聚類:分組以查找文本中的主題。

圖像分組或圖像壓縮:圖像或顏色相似的組。

異常檢測:從集群中找出不相似的地方或異常值

半監(jiān)督式學(xué)習(xí):將集群與一組較小的已標(biāo)記數(shù)據(jù)和監(jiān)督式機(jī)器學(xué)習(xí)相結(jié)合,以獲得更有價值的結(jié)果。

K-MEANS 的工作原理

K-means 算法能夠識別數(shù)據(jù)集中一定數(shù)量的中心,而中心屬于特定集群所有數(shù)據(jù)點(diǎn)的算術(shù)平均值。然后,算法將每個數(shù)據(jù)點(diǎn)分配給最近的集群,因?yàn)槠鋰L試保持盡可能小的集群(K-means 中的“means”是指計(jì)算數(shù)據(jù)平均值或查找中心的任務(wù))。同時,K-means 嘗試保持其他集群盡可能不同。

在實(shí)踐中,其工作原理如下:

K-means 算法首先將所有坐標(biāo)初始化為“K”集群中心。(K 值是一個輸入變量,位置也可以作為輸入變量。)

每經(jīng)過一次算法,每個點(diǎn)都會分配給其最近的集群中心。

然后,集群中心會被更新為在該經(jīng)過中分配給其的所有點(diǎn)的“中心”。這是通過重新計(jì)算集群中心作為各自集群中點(diǎn)的平均值來實(shí)現(xiàn)的。

算法會重復(fù)執(zhí)行,直到上次迭代的集群中心發(fā)生最小變化。

如果集群呈現(xiàn)一致的球形形狀,說明 K-means 在捕獲結(jié)構(gòu)和進(jìn)行數(shù)據(jù)推理方面非常有效。但是,如果集群呈現(xiàn)更復(fù)雜的幾何形狀,那就說明算法在數(shù)據(jù)聚類方面做得不好。K-means 的另一個缺點(diǎn)是,該算法不允許彼此距離較遠(yuǎn)的數(shù)據(jù)點(diǎn)共享同一集群,而不管它們是否屬于該集群。K-means 本身不會從數(shù)據(jù)中了解到集群數(shù)量,而是必須預(yù)先定義信息。最后,當(dāng)集群之間出現(xiàn)重疊時,K-means 無法確定如何分配重疊位置的數(shù)據(jù)點(diǎn)。

適用于數(shù)據(jù)科學(xué)家的 K-MEANS

由于其內(nèi)在的簡單性以及在無監(jiān)督機(jī)器學(xué)習(xí)操作中的普及,K-means 在數(shù)據(jù)科學(xué)家中大受青睞。盡管該算法存在局限性,但其在數(shù)據(jù)挖掘操作中的適用性允許數(shù)據(jù)科學(xué)家利用該算法從業(yè)務(wù)數(shù)據(jù)中衍生出各種推理,實(shí)現(xiàn)更準(zhǔn)確的數(shù)據(jù)驅(qū)動決策。它被廣泛認(rèn)為是數(shù)據(jù)科學(xué)家最具商業(yè)重要性的算法之一。

使用 GPU 加速聚類

聚類在各種應(yīng)用程序中發(fā)揮著關(guān)鍵作用,但由于數(shù)據(jù)量不斷增加,其正面臨著計(jì)算挑戰(zhàn)。解決計(jì)算難題的極具前景的解決方案之一,即使用 GPU 進(jìn)行并行計(jì)算。

在架構(gòu)方面,CPU 僅由幾個具有大緩存內(nèi)存的核心組成,一次只可以處理幾個軟件線程。相比之下,GPU 由數(shù)百個核心組成,可以同時處理數(shù)千個線程。GPU 具有大規(guī)模并行性,并且顯存訪問帶寬優(yōu)勢顯著,因此十分適用于加速數(shù)據(jù)密集型分析。

GPU 加速的端到端數(shù)據(jù)科學(xué)

基于 CUDA 構(gòu)建的 RAPIDS 開源軟件庫套件使您能夠完全在 GPU 上執(zhí)行端到端數(shù)據(jù)科學(xué)和分析流程,同時仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。

RAPIDS cuML 的機(jī)器學(xué)習(xí)算法和數(shù)學(xué)基元遵循熟悉的類似于 scikit-learn 的 API。單塊 GPU 和大型數(shù)據(jù)中心部署均支持 K-means、XGBoost 等主流算法。針對大型數(shù)據(jù)集,相較于同等功效的 CPU,這些基于 GPU 的實(shí)施方案能夠以 10 到 50 倍的速度更快地完成任務(wù)。

借助 RAPIDS GPU DataFrame,數(shù)據(jù)可以通過一個類似 Pandas 的接口加載到 GPU 上,然后用于各種連接的機(jī)器學(xué)習(xí)和圖形分析算法,而無需離開 GPU。這種級別的互操作性是通過 Apache Arrow 這樣的庫實(shí)現(xiàn)的。這可加速端到端流程(從數(shù)據(jù)準(zhǔn)備到機(jī)器學(xué)習(xí),再到深度學(xué)習(xí))。

RAPIDS 支持在許多熱門數(shù)據(jù)科學(xué)庫之間共享設(shè)備內(nèi)存。這樣可將數(shù)據(jù)保留在 GPU 上,并省去了來回復(fù)制主機(jī)內(nèi)存的高昂成本。

原文標(biāo)題:NVIDIA 大講堂 | 什么是 K-MEANS?

文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10804

    瀏覽量

    210828
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4855

    瀏覽量

    102709
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4587

    瀏覽量

    92501
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8349

    瀏覽量

    132312

原文標(biāo)題:NVIDIA 大講堂 | 什么是 K-MEANS?

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    交流放大器的工作原理是什么

    交流放大器的工作原理主要涉及對交流信號的放大過程,同時保持信號的波形和頻率不變。以下是交流放大器工作原理的介紹: 一、概述 交流放大器是一種電子電路,用于放大交流信號的幅度,同時保持信號的波形和頻率
    的頭像 發(fā)表于 09-26 09:17 ?296次閱讀

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】全書概覽與時間序列概述

    。 ●第5章“時間序列的相似度與”:介紹時間序列的相似性度量方法,如歐氏距離、動態(tài)時間規(guī)整算法等,用于衡量兩個或多個時間序列在形狀和模式上的相似程度;
    發(fā)表于 08-07 23:03

    JK觸發(fā)器概述及工作原理

    JK觸發(fā)器,也被稱為通用可編程觸發(fā)器,是數(shù)字電路中的一種基本存儲器件。它得名于其輸入端口J(置位)和K(復(fù)位),以及一個時鐘控制端。JK觸發(fā)器能夠模擬其他多種類型觸發(fā)器的行為,具有置0、置1、翻轉(zhuǎn)
    的頭像 發(fā)表于 07-27 14:53 ?2405次閱讀

    可控硅的工作原理、特性參數(shù)及型號選擇

    眾多,但基本結(jié)構(gòu)和工作原理是相同的。 一、可控硅的工作原理 可控硅是一種四層三端半導(dǎo)體器件,由兩個PN結(jié)組成,具有陽極(Anode,A)、陰極(Cathode,K)和門極(Gate,G)三個引腳。 可控硅的
    的頭像 發(fā)表于 07-25 11:03 ?1315次閱讀

    深度神經(jīng)網(wǎng)絡(luò)概述及其應(yīng)用

    通過模仿人類大腦神經(jīng)元的連接方式和處理機(jī)制,設(shè)計(jì)多層神經(jīng)元結(jié)構(gòu)來處理復(fù)雜的數(shù)據(jù)模式,從而在各種數(shù)據(jù)驅(qū)動的問題中展現(xiàn)出強(qiáng)大的能力。本文將從深度神經(jīng)網(wǎng)絡(luò)的基本概念、結(jié)構(gòu)、工作原理、關(guān)鍵技術(shù)以及其在多個領(lǐng)域的應(yīng)用等方面進(jìn)行全面概述。
    的頭像 發(fā)表于 07-04 16:08 ?638次閱讀

    定時開關(guān)控制器的工作原理是什么

    部件、設(shè)計(jì)方法和應(yīng)用場景。 一、定時開關(guān)控制器的工作原理 工作原理概述 定時開關(guān)控制器的工作原理基于時間控制原理,通過內(nèi)置的微控制器或單片機(jī)對時間進(jìn)行精確控制,實(shí)現(xiàn)對電器設(shè)備的定時開啟
    的頭像 發(fā)表于 06-30 09:59 ?1774次閱讀

    工業(yè)物聯(lián)網(wǎng)網(wǎng)關(guān)是什么?工業(yè)物聯(lián)網(wǎng)網(wǎng)關(guān)的工作原理

    著至關(guān)重要的作用。本文將詳細(xì)闡述工業(yè)物聯(lián)網(wǎng)網(wǎng)關(guān)的概述及工作原理。 一、工業(yè)物聯(lián)網(wǎng)網(wǎng)關(guān)的概述 工業(yè)物聯(lián)網(wǎng)網(wǎng)關(guān)是一種硬件設(shè)備或軟件程序,用于連接工業(yè)場景下的本地設(shè)備(如PLC、傳感器、機(jī)器人、數(shù)控機(jī)床等)與遠(yuǎn)端業(yè)務(wù)系統(tǒng)(如IoT物聯(lián)
    的頭像 發(fā)表于 06-27 14:04 ?897次閱讀
    工業(yè)物聯(lián)網(wǎng)網(wǎng)關(guān)是什么?工業(yè)物聯(lián)網(wǎng)網(wǎng)關(guān)的<b class='flag-5'>工作原理</b>

    d放大器的工作原理是什么

    d放大器的工作原理是什么 D放大器,也稱為數(shù)字音頻放大器或開關(guān)放大器,是一種新型的音頻放大器技術(shù)。與傳統(tǒng)的A、B、AB
    的頭像 發(fā)表于 06-10 15:44 ?700次閱讀

    AB放大器的工作特性和偏置方法

    AB放大器是音頻放大技術(shù)領(lǐng)域中的一重要設(shè)備,其工作特性和偏置方法對于實(shí)現(xiàn)高質(zhì)量的音頻輸出至關(guān)重要。本文將詳細(xì)闡述AB放大器的工作特性,
    的頭像 發(fā)表于 05-23 16:00 ?911次閱讀

    K折交叉驗(yàn)證算法與訓(xùn)練集

    K折交叉驗(yàn)證算法與訓(xùn)練集
    的頭像 發(fā)表于 05-15 09:26 ?477次閱讀

    頻譜分析儀概述、類型及工作原理

    在電子測量和通信領(lǐng)域,頻譜分析儀是一種至關(guān)重要的測試設(shè)備。它能夠詳細(xì)分析信號的頻譜特性,從而幫助工程師和技術(shù)人員深入了解信號的結(jié)構(gòu)和性質(zhì)。本文將詳細(xì)闡述頻譜分析儀的概述、類型、工作原理、功能特點(diǎn)、應(yīng)用范圍以及未來發(fā)展趨勢,以期為讀者提供全面而深入的技術(shù)參考。
    的頭像 發(fā)表于 05-10 15:08 ?1181次閱讀

    UWB技術(shù)的內(nèi)部工作原理和窄帶定位方法之間的差異概述

    我們可以說UWB是當(dāng)今最好、最先進(jìn)的定位技術(shù),但證據(jù)呢?要回答這個問題,我們需要透過現(xiàn)象看本質(zhì)。本文將探討UWB技術(shù)的內(nèi)部工作原理,并概述UWB和窄帶定位方法之間的差異。
    的頭像 發(fā)表于 03-26 11:37 ?997次閱讀
    UWB技術(shù)的內(nèi)部<b class='flag-5'>工作原理</b>和窄帶定位方法之間的差異<b class='flag-5'>概述</b>

    光伏逆變器拓?fù)?b class='flag-5'>概述及關(guān)鍵技術(shù)

    光伏逆變器拓?fù)?b class='flag-5'>概述及關(guān)鍵技術(shù)
    的頭像 發(fā)表于 02-21 09:47 ?692次閱讀
    光伏逆變器拓?fù)?b class='flag-5'>概述及</b>關(guān)鍵技術(shù)

    “太陽能防外損地釘”推動電纜數(shù)字化運(yùn)維

    深度學(xué)習(xí)的挖掘頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的Apriori算法K-Means算法對數(shù)據(jù)進(jìn)行分析,有效過濾非路面破壞情況,準(zhǔn)確判斷是否需要報(bào)警。同
    的頭像 發(fā)表于 02-04 15:02 ?384次閱讀

    AI算法在燃?xì)庹镜?b class='flag-5'>工作原理,安全帽、抽煙、打電話檢測的具體應(yīng)用,如何利用AI提升安全水平

    AI算法在燃?xì)庹景踩芾碇械膽?yīng)用,包括煙火檢測、安全帽識別、抽煙、打電話檢測等方面的工作原理。AI算法助力燃?xì)庹景踩芾?,煙火檢測更精準(zhǔn)!
    的頭像 發(fā)表于 12-26 21:25 ?583次閱讀