0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

無監(jiān)督學(xué)習(xí)的數(shù)據(jù)集變換和聚類

汽車玩家 ? 來源:CSDN ? 作者:zzc_zhuyu ? 2020-05-04 18:28 ? 次閱讀

1、類型

主要有兩種類型:數(shù)據(jù)集變換和聚類。

無監(jiān)督變換:

降維:接受數(shù)據(jù)的高維表示,找到新的表示方法,以用較少的特征概括重要特性。

找到“構(gòu)成”數(shù)據(jù)的各個(gè)組成部分。例如,文本的主題提取。

聚類:

將數(shù)據(jù)劃分成不同的組,每組包含相似的物項(xiàng)

2、降維

1. 主成分分析(PCA)

一種旋轉(zhuǎn)數(shù)據(jù)集的方法,旋轉(zhuǎn)后的特征在統(tǒng)計(jì)上不相關(guān)。旋轉(zhuǎn)后,通常根據(jù)新特征對數(shù)據(jù)集的重要性來選擇它的一個(gè)子集。

主成分

方差最大的方向?yàn)椤俺煞?”,這是包含包含最多信息的方向。之后找到與“成分1”正交的包含信息最多的方向,得到“成分2”……利用這一過程找到的方向成為主成分。通常,主成分的個(gè)數(shù)與原始特征相同。

在PCA找到的額旋轉(zhuǎn)表示中,坐標(biāo)軸之間 不相關(guān)。

應(yīng)用

高維數(shù)據(jù)集可視化

特征提?。赫业揭环N數(shù)據(jù)表示,比給定的原始表示更適合于分析。

對PCA模型的另一種理解:僅適用一些成分對原始數(shù)據(jù)進(jìn)行重建。

2. 非負(fù)矩陣分解(NMF)

在NMF中,目標(biāo)是分量和系數(shù)均為非負(fù)。只能應(yīng)用于每個(gè)特征都是非負(fù)的數(shù)據(jù),因?yàn)榉秦?fù)分量的非負(fù)求和不可能得到負(fù)值。

與PCA不同,減少分量個(gè)數(shù)不僅會(huì)刪除一些方向,而且會(huì)創(chuàng)建一組完全不同的分量。

NMF的分量沒有按任何特定方法排序,所有分量的地位平等。

NMF使用了隨機(jī)初始化,根據(jù)隨機(jī)種子的不同可能會(huì)產(chǎn)生不同的結(jié)果。

3. t-SNE與流形學(xué)習(xí)

流形學(xué)習(xí)算法 :主要用于可視化,允許進(jìn)行更復(fù)雜的映射。只能變換用于訓(xùn)練的數(shù)據(jù)。

t-SNE:找到數(shù)據(jù)的一個(gè)二維表示,盡可能保持?jǐn)?shù)據(jù)點(diǎn)之間的距離。試圖保存那些點(diǎn)比較靠近的信息。

3、聚類

聚類:將數(shù)據(jù)集劃分成組的任務(wù),這些組叫做簇。

1. K均值聚類

原理

試圖找到代表數(shù)據(jù)特定區(qū)域的簇中心。

算法過程

① 將每個(gè)數(shù)據(jù)點(diǎn)分配給最近的簇中心

② 將每個(gè)簇中心設(shè)置為所分配的所有數(shù)據(jù)點(diǎn)的平均值,如果簇的分配不再變化,結(jié)束;反之,執(zhí)行步驟1

注:聚類算法與分類算法類似,但不存在真實(shí)的標(biāo)簽,標(biāo)簽本身沒有先驗(yàn)意義。

注意

每個(gè)簇僅由其中心決定,這意味著每個(gè)簇都是凸型的,因此,只能找到相對簡單的形狀。

k均值假設(shè)所有簇在某種程度上有相同的直徑,它總是將簇之間的邊界剛好畫在簇中心的中間位置

k均值假設(shè)所有方向?qū)γ總€(gè)簇同等重要

特點(diǎn)

優(yōu)點(diǎn):

容易理解和實(shí)現(xiàn)

運(yùn)行速度相對較快

擴(kuò)展到大型數(shù)據(jù)集比較容易

缺點(diǎn):

依賴于隨機(jī)初始化

對簇形狀的假設(shè)的約束性較強(qiáng)

要求制定所要尋找到簇的個(gè)數(shù)

2. 凝聚聚類

算法首先聲明每個(gè)點(diǎn)是自己的簇,然后合并兩個(gè)最相似的簇,直到滿足某種停止準(zhǔn)則為止。

連接準(zhǔn)則:規(guī)定如何度量“最相似的簇”。

① ward型:兩個(gè)簇合并后,使得所有簇中方差增加最小

② average型:平均距離最小的兩個(gè)簇合并

③ complete型:簇中點(diǎn)之間最大距離最小的兩個(gè)簇合并

注:凝聚算法不能對新數(shù)據(jù)點(diǎn)做出預(yù)測

凝聚聚類生成了所謂的層次聚類

3. DBSCAN (具有噪聲的基于密度的空間聚類應(yīng)用)

原理

識別特征空間的“擁擠”區(qū)域中的點(diǎn),這些區(qū)域成為密集區(qū)域。簇形成數(shù)據(jù)的密集區(qū)域,并由相對較空的區(qū)域分隔開。在密集區(qū)域中的點(diǎn)成為核心樣本,指定參數(shù)eps和min_samples。如果在一個(gè)點(diǎn)eps的距離內(nèi)至少有min_samples個(gè)數(shù)據(jù)點(diǎn),則為核心樣本。

算法過程

① 任意選取一個(gè)點(diǎn),檢查是否是核心樣本。

② 若不是,標(biāo)記為噪聲。反之,標(biāo)記為核心樣本,并分配一個(gè)新的簇標(biāo)簽。然后檢查鄰居,若未被分配,分配簇標(biāo)簽;如果是核心樣本,依次訪問鄰居。

③ 選取另一個(gè)尚未被訪問過的點(diǎn),重復(fù)以上過程。

最后得到三種點(diǎn):核心點(diǎn)、邊界點(diǎn)、噪聲。

特點(diǎn)

優(yōu)點(diǎn):

不需先驗(yàn)設(shè)置簇的個(gè)數(shù)

可以劃分具有復(fù)雜形狀的簇

可以找出不屬于任何簇的點(diǎn)

缺點(diǎn):

不允許對新的測試數(shù)據(jù)進(jìn)行預(yù)測

聚類評估

1. 真實(shí)值評估

調(diào)整rand指數(shù)(ARI),歸一化互信息(NMI)

二者都給出了定量的度量,最佳值為1,0表示不相關(guān)的聚類。

2. 沒有真實(shí)值

輪廓系數(shù) 計(jì)算一個(gè)簇的緊致度,值越大越好,最高分?jǐn)?shù)為1。雖然緊致的簇很好,但不允許復(fù)雜的形狀。

聚類小結(jié)

k均值

可以用簇的平均值來表示簇。

可被看做是一種分解方法,。每個(gè)數(shù)據(jù)點(diǎn)都由其簇中心表示

DBSCAN

可以檢測噪聲點(diǎn)

可以自動(dòng)判斷簇的數(shù)量

允許簇有復(fù)雜的形狀

有時(shí)會(huì)生成大小差別很大的簇,可能是優(yōu)點(diǎn)可能是缺點(diǎn)

凝聚聚類

可以提供數(shù)據(jù)的可能劃分的整個(gè)層次結(jié)構(gòu)

可以通過樹狀圖查看

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4592

    瀏覽量

    92538
  • 無監(jiān)督學(xué)習(xí)

    關(guān)注

    1

    文章

    16

    瀏覽量

    2751
收藏 人收藏

    評論

    相關(guān)推薦

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學(xué)習(xí)
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    章節(jié)最后總結(jié)了機(jī)器學(xué)習(xí)的分類:有監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和強(qiáng)化
    發(fā)表于 07-25 14:33

    如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練、驗(yàn)證和測試

    理解機(jī)器學(xué)習(xí)中的訓(xùn)練、驗(yàn)證和測試,是掌握機(jī)器學(xué)習(xí)核心概念和流程的重要一步。這三者不僅構(gòu)成了模型學(xué)習(xí)
    的頭像 發(fā)表于 07-10 15:45 ?2985次閱讀

    神經(jīng)網(wǎng)絡(luò)如何用監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的
    的頭像 發(fā)表于 07-09 18:06 ?683次閱讀

    深度學(xué)習(xí)中的監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的監(jiān)督學(xué)
    的頭像 發(fā)表于 07-09 10:50 ?414次閱讀

    PyTorch如何訓(xùn)練自己的數(shù)據(jù)

    PyTorch是一個(gè)廣泛使用的深度學(xué)習(xí)框架,它以其靈活性、易用性和強(qiáng)大的動(dòng)態(tài)圖特性而聞名。在訓(xùn)練深度學(xué)習(xí)模型時(shí),數(shù)據(jù)是不可或缺的組成部分。然而,很多時(shí)候,我們可能需要使用自己的
    的頭像 發(fā)表于 07-02 14:09 ?1221次閱讀

    基于FPGA的腦計(jì)算平臺(tái) —PYNQ 集群的監(jiān)督圖像識別腦計(jì)算系統(tǒng)

    STDP 監(jiān)督學(xué)習(xí)算法,可運(yùn)用于圖像的 監(jiān)督分類。 從平臺(tái)設(shè)計(jì)角度: (1)本設(shè)計(jì)搭建的基于 PYNQ 集群的通用低功耗的大規(guī)模
    發(fā)表于 06-25 18:35

    傅里葉變換基本原理及在機(jī)器學(xué)習(xí)應(yīng)用

    連續(xù)傅里葉變換(CFT)和離散傅里葉變換(DFT)是兩個(gè)常見的變體。CFT用于連續(xù)信號,而DFT應(yīng)用于離散信號,使其與數(shù)字數(shù)據(jù)和機(jī)器學(xué)習(xí)任務(wù)更加相關(guān)。
    發(fā)表于 03-20 11:15 ?809次閱讀
    傅里葉<b class='flag-5'>變換</b>基本原理及在機(jī)器<b class='flag-5'>學(xué)習(xí)</b>應(yīng)用

    機(jī)器學(xué)習(xí)基礎(chǔ)知識全攻略

    監(jiān)督學(xué)習(xí)通常是利用帶有專家標(biāo)注的標(biāo)簽的訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個(gè)從輸入變量X到輸入變量Y的函數(shù)映射。Y = f (X),訓(xùn)練數(shù)據(jù)通常是(n×x,y)的形式,其中n代表訓(xùn)練樣本的大小,x和y分
    發(fā)表于 02-25 13:53 ?203次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>基礎(chǔ)知識全攻略

    Meta發(fā)布新型監(jiān)督視頻預(yù)測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的監(jiān)督視頻預(yù)測模型,名為“V-JEPA”。這一模型在視頻處理領(lǐng)域引起了廣泛關(guān)注,因?yàn)樗ㄟ^抽象性預(yù)測生成視頻中缺失或模糊的部分來進(jìn)行學(xué)習(xí),提供了一種全新的視頻處理方法。
    的頭像 發(fā)表于 02-19 11:19 ?915次閱讀

    2024年AI領(lǐng)域?qū)?huì)有哪些新突破呢?

    傳統(tǒng)的機(jī)器學(xué)習(xí)需要大量的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,但自監(jiān)督學(xué)習(xí)可以通過監(jiān)督的方式從大規(guī)模未標(biāo)記的數(shù)據(jù)
    的頭像 發(fā)表于 01-24 09:58 ?1935次閱讀

    使用自監(jiān)督學(xué)習(xí)重建動(dòng)態(tài)駕駛場景

    無論是單調(diào)的高速行車,還是平日的短途出行,駕駛過程往往平淡無奇。因此,在現(xiàn)實(shí)世界中采集的用于開發(fā)自動(dòng)駕駛汽車(AV)的大部分訓(xùn)練數(shù)據(jù)都明顯偏向于簡單場景。 這給部署魯棒的感知模型帶來了挑戰(zhàn)。自動(dòng)駕駛
    的頭像 發(fā)表于 12-16 16:05 ?625次閱讀
    使用自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>重建動(dòng)態(tài)駕駛場景

    基于transformer和自監(jiān)督學(xué)習(xí)的路面異常檢測方法分享

    鋪設(shè)異常檢測可以幫助減少數(shù)據(jù)存儲(chǔ)、傳輸、標(biāo)記和處理的壓力。本論文描述了一種基于Transformer和自監(jiān)督學(xué)習(xí)的新方法,有助于定位異常區(qū)域。
    的頭像 發(fā)表于 12-06 14:57 ?1393次閱讀
    基于transformer和自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>的路面異常檢測方法分享

    監(jiān)督域自適應(yīng)場景:基于檢索增強(qiáng)的情境學(xué)習(xí)實(shí)現(xiàn)知識遷移

    本文對比了多種基線方法,包括監(jiān)督域自適應(yīng)的傳統(tǒng)方法(如Pseudo-labeling和對抗訓(xùn)練)、基于檢索的LM方法(如REALM和RAG)和情境學(xué)習(xí)方法(如In-context learning)。
    發(fā)表于 12-05 14:14 ?535次閱讀
    <b class='flag-5'>無</b><b class='flag-5'>監(jiān)督</b>域自適應(yīng)場景:基于檢索增強(qiáng)的情境<b class='flag-5'>學(xué)習(xí)</b>實(shí)現(xiàn)知識遷移

    動(dòng)態(tài)場景下的自監(jiān)督單目深度估計(jì)方案

    監(jiān)督單目深度估計(jì)的訓(xùn)練可以在大量標(biāo)簽視頻序列來進(jìn)行,訓(xùn)練獲取很方便。但問題是,實(shí)際采集的視頻序列往往會(huì)有很多動(dòng)態(tài)物體,而自監(jiān)督訓(xùn)練本身就是基于靜態(tài)環(huán)境假設(shè),動(dòng)態(tài)環(huán)境下會(huì)失效。
    發(fā)表于 11-28 09:21 ?651次閱讀
    動(dòng)態(tài)場景下的自<b class='flag-5'>監(jiān)督</b>單目深度估計(jì)方案