0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何刻畫數(shù)據(jù)的本質(zhì)?流形學習能幫到你

格創(chuàng)東智 ? 2019-04-28 19:08 ? 次閱讀

在格物匯之前的文章中,我們系統(tǒng)性的介紹了特征抽取的經(jīng)典算法——主成分分析PCA與線性判別分析LDA的原理、應用場景,以及這兩種算法的局限性和改進方法。今天的格物匯要給大家介紹一種新的機器學習算法——流形學習。


流形學習


流形學習是一類借鑒了拓撲流形概念的降維方法,與核PCA的目的一樣,它想要在低維空間中盡量保持在高維空間中的結(jié)構(gòu)。一個形象的流形降維過程如下圖,我們有一塊卷起來的布,我們希望將其展開到一個二維平面,我們希望展開后的布能夠在局部保持布結(jié)構(gòu)的特征,其實也就是將其展開的過程,就像兩個人將其拉開一樣。


圖1.jpg


流形學習方法有很多種,但是他們具有一些共同的特征:首先構(gòu)造流形上樣本點的局部鄰域結(jié)構(gòu),然后用這些局部鄰域結(jié)構(gòu)來將樣本點全局的映射到一個低維空間。它們之間的不同之處主要是在于構(gòu)造的局部鄰域結(jié)構(gòu)不同,以及利用這些局部鄰域結(jié)構(gòu)來構(gòu)造全局的低維嵌入方法的不同。下面我們簡要介紹兩種最常見的流形學習方法:Isomap和LLE。

Isomap


高維數(shù)據(jù)結(jié)構(gòu)可能太過于抽象,很難去理解。我們先來看一個具體的實例:在上一篇文章中,我們所看到的三維空間上的數(shù)據(jù)是呈現(xiàn)”S”型,假設(shè)我們想尋找圖中兩點的測地距離(延曲面距離),就不能用這兩點坐標所計算的歐式距離,如下圖(a)黑色線所示,因為黑色線所構(gòu)成的路徑延曲面不可達。而應該使用其沿著“S”形曲面所生成的距離,想象一下一只螞蟻在數(shù)據(jù)曲面上爬行,它不能脫離曲面行走,行走的路徑如下圖(a)紅色線所示。下圖(b)則顯示的是兩條線本真二維結(jié)構(gòu)上所顯示的路徑,很明顯紅色的線更加真實的反映了兩個數(shù)據(jù)點在三維數(shù)據(jù)上的距離。

圖2.jpg


上述這種尋找數(shù)據(jù)曲面測算距離的方法稱為Isomap(等度量映射),它是流形學習中的一種方法。它是如何實現(xiàn)的呢?它假設(shè)數(shù)據(jù)點與K個最近鄰的點可以構(gòu)成一個子集,這個子集可以用普通的歐式距離來衡量,而這個子集中的點又與其他子集中的點相連,這樣兩個目標點的距離就可以分解成若干子集的歐式距離疊加來近似得到,最后這些相連的點可以降維到低維空間中展現(xiàn)出來。


圖3.jpg



局部線性嵌入(LLE)

流形學習另外一個典型案例是局部線性嵌入(LLE)。Isomap假設(shè)近鄰的測地距離可以用歐式距離來表示。而LLE則假設(shè)在近鄰內(nèi)可以用線性加權(quán)互相表達。比如對于任意一個樣本x0,我們都可以用他附近的幾個點x1 x2 x3 x4的線性組合表示出來,即

圖4.jpg

經(jīng)過LLE降維投影后,原來的點x0 x1 x2 x3 x4,投影變成了

圖5.jpg

LLE降維的想法是,降維后盡量去保留高維時的線性組合關(guān)系:

圖6.jpg

圖7.jpg


如何求解呢?我們需要先求出線性組合的權(quán)重w,對于樣本x0我們需要找到其最近的k個其他樣本點,假設(shè)為x1 x2 x3 x4,我們根據(jù)線性表示誤差最小來求出w:

圖8.jpg

根據(jù)上式確定出線性組合的w以后,我們還需要讓其在低維空間也能盡可能滿足線性組合的表達關(guān)系式,也就是說對于x0 x1 x2 x3 x4……的低維投影點z0 z1 z2 z3 z4……滿足:

圖9.jpg

兩個優(yōu)化目標函數(shù)類型很像,但需要明確的是第一個目標函數(shù)優(yōu)化的是權(quán)重w,而第二個目標函數(shù)優(yōu)化的是降維后的坐標z。經(jīng)過優(yōu)化即可得出樣本集在低維空間上的投影坐標。

總的來說,對于不在某一個點x0鄰域內(nèi)的其他點A,不管A怎么變動,都不會影響到點x0,這種變動局部限制的思想在很多地方都有用,此外LLE盡可能的保存了局部線性信息,使得其在局部能反映出數(shù)據(jù)原本的結(jié)構(gòu)。它的流程大致如下圖所示:

圖10.jpg

小結(jié)


LLE是廣泛使用的圖形圖像降維方法,它實現(xiàn)簡單,但是對數(shù)據(jù)的流形分布特征有嚴格的要求。比如不能是閉合流形,不能是稀疏的數(shù)據(jù)集,不能是分布不均勻的數(shù)據(jù)集等等,這限制了它的應用。

優(yōu)點

1、可以學習任意維的局部線性的低維流形

2、算法歸結(jié)為稀疏矩陣特征分解,計算復雜度相對較小,實現(xiàn)容易

缺點

1、算法所學習的流行只能是不閉合的,且樣本集是稠密均勻的

2、算法對最近鄰樣本數(shù)的選擇敏感,不同的最近鄰數(shù)對最后的降維結(jié)果有很大影響

好了,以上就是本期格物匯的內(nèi)容,我們下期見。


本文作者:格創(chuàng)東智OT團隊(轉(zhuǎn)載請注明作者及來源)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    FPGA做深度學習走多遠?

    ,共同進步。 歡迎加入FPGA技術(shù)微信交流群14群! 交流問題(一) Q:FPGA做深度學習走多遠?現(xiàn)在用FPGA做深度學習加速成為一個熱門,深鑒科技,商湯,曠視科技等都有基于FPGA做深度
    發(fā)表于 09-27 20:53

    貼片電容與貼片電阻的本質(zhì)差異在哪里?

    貼片電容與貼片電阻的本質(zhì)差異在哪里?
    的頭像 發(fā)表于 08-27 15:51 ?280次閱讀
    貼片電容與貼片電阻的<b class='flag-5'>本質(zhì)</b>差異在哪里?

    智能家居單火改零火這幾種方案單火模塊零線發(fā)生器一定會幫到你

    智能家居單火改零火這幾種方案單火模塊零線發(fā)生器一定會幫到你!
    的頭像 發(fā)表于 08-02 08:18 ?816次閱讀
    智能家居單火改零火這幾種方案單火模塊零線發(fā)生器一定會<b class='flag-5'>幫到你</b>!

    人工智能、機器學習和深度學習是什么

    在科技日新月異的今天,人工智能(Artificial Intelligence, AI)、機器學習(Machine Learning, ML)和深度學習(Deep Learning, DL)已成為
    的頭像 發(fā)表于 07-03 18:22 ?1014次閱讀

    機器學習數(shù)據(jù)分析中的應用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量的爆炸性增長對數(shù)據(jù)分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從數(shù)據(jù)
    的頭像 發(fā)表于 07-02 11:22 ?515次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓練一個深度學習模型,本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù),使模型能夠更好地擬合
    的頭像 發(fā)表于 07-01 16:13 ?1018次閱讀

    計算機圖形學:探索虛擬世界的構(gòu)建之道

    計算機圖形學是計算機科學的一個分支,它專注于創(chuàng)建和操縱計算機生成的視覺和圖形內(nèi)容。這一領(lǐng)域涵蓋了從基礎(chǔ)的二維圖形繪制到復雜的三維模型構(gòu)建和渲染的廣泛技術(shù)。在今天的數(shù)字化時代,計算機圖形學
    的頭像 發(fā)表于 05-07 08:27 ?338次閱讀
    計算機圖<b class='flag-5'>形學</b>:探索虛擬世界的構(gòu)建之道

    FPGA與ARM的本質(zhì)區(qū)別

    FPGA(Field-Programmable Gate Array)與ARM在多個方面存在本質(zhì)區(qū)別。 首先,從它們的定義和結(jié)構(gòu)上來看,F(xiàn)PGA是一種現(xiàn)場可編程門陣列,屬于可編程器件的一種。它的內(nèi)部
    發(fā)表于 04-28 09:00

    深度學習與度量學習融合的綜述

    如今,機器學習的應用廣泛,包括人臉識別、醫(yī)療診斷等,為復雜問題和大量數(shù)據(jù)提供解決方案。機器學習算法基于數(shù)據(jù)產(chǎn)生成功的分類模型,但每個
    發(fā)表于 04-24 09:49 ?369次閱讀
    深度<b class='flag-5'>學習</b>與度量<b class='flag-5'>學習</b>融合的綜述

    電站和光伏電站的區(qū)別

    電站和光伏電站是兩種不同類型的電力設(shè)施,它們在能源的產(chǎn)生、存儲和使用上有著本質(zhì)的區(qū)別。
    的頭像 發(fā)表于 04-22 15:21 ?2797次閱讀

    電池儲功率變換系統(tǒng)(PCS)的定義 功率變換系統(tǒng)的設(shè)計原則

    功率變換系統(tǒng)(power conversion system,PCS)是與儲電池組配 套,連接于電池組與電網(wǎng)之間,其工作的核心是把交流電網(wǎng)電能轉(zhuǎn)換為 直流形式存入電化學電池組或?qū)㈦姵亟M能量轉(zhuǎn)換為交流形式回饋到電 網(wǎng),
    的頭像 發(fā)表于 02-23 10:23 ?3292次閱讀

    AI算法的本質(zhì)是模擬人類智能,讓機器實現(xiàn)智能化

    視覺等領(lǐng)域。 ? AI 算法的核心是實現(xiàn)智能化的決策和行為 ? AI算法的本質(zhì)在于模擬人類智能的能力,讓計算機能夠?qū)ΜF(xiàn)實世界進行模擬和模仿,從而達到智能化的目的。具體來說,AI算法可以通過機器學習、自然語言處理、計算機視覺等技
    的頭像 發(fā)表于 02-07 00:07 ?5534次閱讀

    電路中的GND它的本質(zhì)是什么?

    電路中的GND它的本質(zhì)是什么? GND,全稱為Ground,是電路中非常重要的概念和連接點。它代表了一個電路的參考點或基準點,是整個電路中電勢零點的位置。在電子設(shè)備和電路板中,GND往往是一個指定
    的頭像 發(fā)表于 12-07 11:43 ?2436次閱讀

    基于WT588F02B-8S芯片帶語音播放和鬧鐘提醒的的手寫提示板方案

    你是不是經(jīng)常忘記做某些事情?你是不是經(jīng)常沉浸在自己的工作中而錯過了其他的工作?你是否想要一個沒有手機干擾但是也不會錯過任何事情的環(huán)境?這款基于WT588F02B-8S芯片帶語音播放和鬧鐘提醒的的手寫提示板方案或許幫到你。
    的頭像 發(fā)表于 11-17 10:08 ?803次閱讀
    基于WT588F02B-8S芯片帶語音播放和鬧鐘提醒的的手寫提示板方案

    明德源正式發(fā)布基于鎳氫電池模塊的數(shù)據(jù)中心分布式電源DPS方案

    明德源近日正式發(fā)布了一款基于定制鎳氫電池的數(shù)據(jù)中心 分布式電源 DPS系列產(chǎn)品,該產(chǎn)品保持了DPS產(chǎn)品所有的優(yōu)勢,同時還做到了儲電芯電化學本質(zhì)安全。此次新品的發(fā)布,必將為客戶帶來
    的頭像 發(fā)表于 11-16 15:19 ?1420次閱讀
    明德源<b class='flag-5'>能</b>正式發(fā)布基于鎳氫電池模塊的<b class='flag-5'>數(shù)據(jù)</b>中心分布式電源DPS方案