0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大學(xué)課程 數(shù)據(jù)分析 實(shí)戰(zhàn)之K-means算法(1)理論講解

通信工程師專輯 ? 來源:未知 ? 2023-02-10 08:45 ? 次閱讀

”物以類聚,人以群分“!這句話的核心思想就是聚類!聚類是典型的無監(jiān)督學(xué)習(xí)方法。不同于分類,分類是有監(jiān)督學(xué)習(xí),樣本都有標(biāo)簽,分類模型重點(diǎn)考查的是模型的泛化能力,而聚類是按要求給樣本加標(biāo)簽,重點(diǎn)考查模型聚類的效果,通常無訓(xùn)練集與測試集的劃分。什么是聚類?所謂數(shù)據(jù)聚類是指根據(jù)數(shù)據(jù)的內(nèi)在性質(zhì)將數(shù)據(jù)分成一些聚合類,每一聚合類中的元素盡可能具有相同的特性,不同聚合類之間的特性差別盡可能大。聚類分析的目的是分析數(shù)據(jù)是否屬于各個獨(dú)立的分組,使一組中的成員彼此相似,而與其他組中的成員不同。它對一個數(shù)據(jù)對象的集合進(jìn)行分析,但與分類分析不同的是,所劃分的類是未知的,因此,聚類分析也稱為無指導(dǎo)或無監(jiān)督(Unsupervised)學(xué)習(xí)。聚類分析的一般方法是將數(shù)據(jù)對象分組為多個類或簇(Cluster),在同一簇中的對象之間具有較高的相似度,而不同簇中的對象差異較大。由于聚類分析的上述特征,在許多應(yīng)用中,對數(shù)據(jù)集進(jìn)行了聚類分析后,可將一個簇中的各數(shù)據(jù)對象作為一個整體對待。數(shù)據(jù)聚類 (Cluster analysis) 是對于靜態(tài)數(shù)據(jù)分析的一門技術(shù),在許多領(lǐng)域受到廣泛應(yīng)用,包括機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,模式識別,圖像分析以及生物信息。在物聯(lián)網(wǎng)時代,傳感器的數(shù)據(jù)比牛毛還多。作為數(shù)據(jù)分析中的主要手段——聚類肯定派的上用場。那就在大學(xué)先打下堅實(shí)的基礎(chǔ)吧!

e709775c-a8da-11ed-bfe3-dac502259ad0.gif

聚類有哪幾種方法?

常用的聚類方法有:K-Means,AgglomerativeClustering,DBSCAN,MeanShift,SpectralClustering等。這里介紹其中的幾個聚類分析算法。

K-Means

K-均值聚類也稱為快速聚類法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K。該算法原理簡單并便于處理大量數(shù)據(jù)。本系列文章將展示算法程序!

K-中心點(diǎn)

K-均值算法對孤立點(diǎn)的敏感性,K-中心點(diǎn)算法不采用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心。

系統(tǒng)聚類

也稱為層次聚類,分類的單位由高到低呈樹形結(jié)構(gòu),且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特征越多。該聚類方法只適合在小數(shù)據(jù)量的時候使用,數(shù)據(jù)量大的時候速度會非常慢。

e709775c-a8da-11ed-bfe3-dac502259ad0.gif

K-means方法!

這是本文講解的重點(diǎn)!先來看這種方法的原理和步驟!

1)從數(shù)據(jù)集中隨機(jī)抽取k個樣本作為初始聚類的中心,由這個中心代表各個聚類。

2)計算數(shù)據(jù)集中所有的樣本到這k個中心點(diǎn)的距離(哪幾種距離),并將樣本點(diǎn)歸到離其最近的聚類里。

3)將聚類的中心點(diǎn)移動到各類的幾何中心(即平均值)處。

4)重復(fù)第2步直到聚類的中心不再移動,此時算法收斂或者迭代的次數(shù)達(dá)到上限。

推薦一本好書!在這方面講的非常好!照片為證!

e724c0ca-a8da-11ed-bfe3-dac502259ad0.jpge746c2ce-a8da-11ed-bfe3-dac502259ad0.jpge75c563e-a8da-11ed-bfe3-dac502259ad0.jpg

仔細(xì)看看!

e709775c-a8da-11ed-bfe3-dac502259ad0.gif

距離!

e7917daa-a8da-11ed-bfe3-dac502259ad0.png

將樣本點(diǎn)分到距離聚類中心最近的那個簇中需要最近鄰的度量策略,在歐式空間中采用的是歐式距離,在處理文檔中采用的是余弦相似度函數(shù),有時候也采用曼哈頓距離作為度量,不同的情況使用的度量公式是不同的。

原文標(biāo)題:大學(xué)課程 數(shù)據(jù)分析 實(shí)戰(zhàn)之K-means算法(1)理論講解

文章出處:【微信公眾號:通信工程師專輯】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:大學(xué)課程 數(shù)據(jù)分析 實(shí)戰(zhàn)之K-means算法(1)理論講解

文章出處:【微信號:gh_30373fc74387,微信公眾號:通信工程師專輯】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別

    進(jìn)行初步的探索和理解,發(fā)現(xiàn)數(shù)據(jù)中潛在的模式、關(guān)系、異常值等,為后續(xù)的分析和建模提供線索和基礎(chǔ)。 方法論 :EDA強(qiáng)調(diào)數(shù)據(jù)的真實(shí)分布和可視化,使用多種圖表和可視化工具來展示數(shù)據(jù)的特征和趨
    的頭像 發(fā)表于 11-13 10:52 ?98次閱讀

    為什么選擇eda進(jìn)行數(shù)據(jù)分析

    數(shù)據(jù)科學(xué)領(lǐng)域,數(shù)據(jù)分析是一個復(fù)雜且多步驟的過程,它涉及到數(shù)據(jù)的收集、清洗、探索、建模和解釋。在這些步驟中,探索性數(shù)據(jù)分析(EDA)扮演著至關(guān)重要的角色。
    的頭像 發(fā)表于 11-13 10:41 ?51次閱讀

    raid 在大數(shù)據(jù)分析中的應(yīng)用

    RAID(Redundant Array of Independent Disks,獨(dú)立磁盤冗余陣列)在大數(shù)據(jù)分析中的應(yīng)用主要體現(xiàn)在提高存儲系統(tǒng)的性能、可靠性和容量上。以下是RAID在大數(shù)據(jù)分析
    的頭像 發(fā)表于 11-12 09:44 ?57次閱讀

    IP 地址大數(shù)據(jù)分析如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

    一、大數(shù)據(jù)分析在網(wǎng)絡(luò)優(yōu)化中的作用 1.流量分析數(shù)據(jù)分析可以對網(wǎng)絡(luò)中的流量進(jìn)行實(shí)時監(jiān)測和分析,了解網(wǎng)絡(luò)的使用情況和流量趨勢。通過對流量
    的頭像 發(fā)表于 10-09 15:32 ?151次閱讀
    IP 地址大<b class='flag-5'>數(shù)據(jù)分析</b>如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

    【全新課程資料】正點(diǎn)原子《基于GD32 ARM32單片機(jī)項目實(shí)戰(zhàn)入門》培訓(xùn)課程資料上線!

    綜合部分:倒車?yán)走_(dá)項目、感應(yīng)垃圾桶項目 二、課程目的 1、化整為零,由淺入深,解決ARM32單片機(jī)項目入門難的問題; 2、綜合應(yīng)用基礎(chǔ)知識,提高項目實(shí)戰(zhàn)能力,解決眼高手低的問題; 3、通過多個項目
    發(fā)表于 09-24 18:06

    【全新課程資料】正點(diǎn)原子《ESP32基礎(chǔ)及項目實(shí)戰(zhàn)入門》培訓(xùn)課程資料上線!

    綜合項目:智能感應(yīng)垃圾桶項目 二、課程目的 1、熟練ESP-IDF開發(fā),突破ESP32入門難題 2、熟悉ESP32外設(shè)基礎(chǔ)知識,提升開發(fā)能力,克服眼高手低的問題 3、通過多個外設(shè)實(shí)戰(zhàn),掌握ESP32
    發(fā)表于 09-24 17:59

    【全新課程資料】正點(diǎn)原子《ESP32物聯(lián)網(wǎng)項目實(shí)戰(zhàn)》培訓(xùn)課程資料上線!

    ,解決ESP32物聯(lián)網(wǎng)項目入門難的問題; 2、綜合應(yīng)用基礎(chǔ)知識,提高項目實(shí)戰(zhàn)能力,解決眼高手低的問題; 3、通過多個項目實(shí)戰(zhàn),掌握ESP32物聯(lián)網(wǎng)項目的開發(fā)流程; 三、課程特色 1、
    發(fā)表于 09-24 17:05

    加法運(yùn)放電路實(shí)驗(yàn)報告數(shù)據(jù)分析

    加法運(yùn)放電路實(shí)驗(yàn)報告的數(shù)據(jù)分析主要包括對實(shí)驗(yàn)結(jié)果的觀察、與理論值的對比以及誤差原因的分析。以下是一個基于常見加法運(yùn)放電路實(shí)驗(yàn)的數(shù)據(jù)分析示例: 一、實(shí)驗(yàn)?zāi)康呐c原理 實(shí)驗(yàn)?zāi)康?:了解加法器
    的頭像 發(fā)表于 09-03 10:03 ?461次閱讀

    數(shù)據(jù)分析除了spss還有什么

    數(shù)據(jù)分析是當(dāng)今世界中一個非常重要的領(lǐng)域,它涉及到從大量數(shù)據(jù)中提取有用信息、發(fā)現(xiàn)模式和趨勢,并為決策提供支持。SPSS(Statistical Package for the Social
    的頭像 發(fā)表于 07-05 15:01 ?515次閱讀

    數(shù)據(jù)分析的工具有哪些

    數(shù)據(jù)分析是一個涉及收集、處理、分析和解釋數(shù)據(jù)以得出有意義見解的過程。在這個過程中,使用正確的工具至關(guān)重要。以下是一些主要的數(shù)據(jù)分析工具,以及它們的功能和用途的介紹。 Excel Exc
    的頭像 發(fā)表于 07-05 14:54 ?730次閱讀

    數(shù)據(jù)分析有哪些分析方法

    數(shù)據(jù)分析是一種重要的技能,它可以幫助我們從大量的數(shù)據(jù)中提取有價值的信息,從而做出更明智的決策。在這篇文章中,我們將介紹數(shù)據(jù)分析的各種方法,包括描述性分析、診斷性
    的頭像 發(fā)表于 07-05 14:51 ?483次閱讀

    機(jī)器學(xué)習(xí)在數(shù)據(jù)分析中的應(yīng)用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量的爆炸性增長對數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為一種強(qiáng)大的工具,通過訓(xùn)練模型從數(shù)據(jù)中學(xué)習(xí)規(guī)律,為企業(yè)和組織提供了更高效、更準(zhǔn)確的
    的頭像 發(fā)表于 07-02 11:22 ?525次閱讀

    求助,關(guān)于AD采集到的數(shù)據(jù)分析問題

    問題描述:使用AD采集一個10Hz到2MHz的脈沖,脈沖底部可能大于零,由采集到的數(shù)據(jù)分析出該脈沖的上升時間,幅值和占空比。 備注:在分析的時候已經(jīng)知道脈沖的頻率,精度為2X10^-5. 在分析
    發(fā)表于 05-09 07:40

    基于振弦采集儀的工程監(jiān)測數(shù)據(jù)分析方法研究

    基于振弦采集儀的工程監(jiān)測數(shù)據(jù)分析方法研究 基于振弦采集儀的工程監(jiān)測數(shù)據(jù)分析方法研究主要涉及以下幾個方面: 基于振弦采集儀的工程監(jiān)測數(shù)據(jù)分析方法研究 1.
    的頭像 發(fā)表于 01-02 15:12 ?371次閱讀
    基于振弦采集儀的工程監(jiān)測<b class='flag-5'>數(shù)據(jù)分析</b>方法研究

    Get職場新知識:做分析,用大數(shù)據(jù)分析工具

    工具值得推薦? 那就得是奧威BI大數(shù)據(jù)分析工具。主要原因有三: 1、奧威BI方案,開箱即用,立得百張BI報表,大量節(jié)省BI報表開發(fā)時間,一步到位完成銷售、財務(wù)、庫存、采購、應(yīng)收、生產(chǎn)六大主題。 2
    發(fā)表于 12-05 09:36