0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PCA和KPCA分不清楚怎么辦

電子設(shè)計(jì) ? 來源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-25 18:17 ? 次閱讀

在格物匯之前的文章中,我們討論了特征抽取的經(jīng)典算法——主成分分析PCA與線性判別分析LDA的原理與應(yīng)用場(chǎng)景。PCA是一種無監(jiān)督的降維方法,尋找的是讓數(shù)據(jù)方差最大的一種映射;LDA是一種有監(jiān)督的降維方法,尋找的是讓數(shù)據(jù)分類效果最好的一種映射。但是它們?nèi)匀挥袘?yīng)用的局限性,今天我們就一起來了解下。

PCA的局限性

我們先來回顧一下PCA的降維原理:PCA試圖通過旋轉(zhuǎn)找到新的正交基,滿足這樣的兩條性質(zhì):

1、最近重構(gòu)性:樣本點(diǎn)到新映射的正交基距離足夠接近。

2、最大可分性:樣本點(diǎn)在新正交基上方差最大。

最后我們推導(dǎo)得到:

我們只需要對(duì)協(xié)方差矩陣XX^T 進(jìn)行特征值分解,得到的特征值和特征向量即是變換矩陣w的解和改主成分所解釋的方差量。這樣的降維方法是線性的降維方法,即從高維空間到低維空間的函數(shù)映射是線性的。然而在不少應(yīng)用場(chǎng)景中,線性映射可能不能得到想要的結(jié)果,例如如下的例子:S型曲線的本真二維結(jié)構(gòu)是其低維空間的原本形狀,通過線性降維后得到的結(jié)果明顯并不是我們所期望的。

核方法

我們介紹SVM的時(shí)候所介紹的核方法是一種可以進(jìn)行升維來生成一些非線性的映射。這個(gè)方法我們可以同樣使用在PCA降維分析中。

假設(shè)我們有一個(gè)樣本集:

x1,x2?xn

假設(shè)映射函數(shù)為,那么映射到高維以后,數(shù)據(jù)變成:

類似于PCA的求解方法, XX^T經(jīng)過高維映射后得到

,

故:

我們把λ 移動(dòng)到等號(hào)左邊得到:

我們令:

做一個(gè)簡(jiǎn)單的替換,得到:

代入等式1,得到:

我們?cè)谧笥覂蛇呁瑫r(shí)乘上

得到:

做一下簡(jiǎn)單的改變:

非常幸運(yùn)的是,我們?cè)O(shè)計(jì)出了

是否還記得我們?cè)赟VM的核函數(shù)中曾經(jīng)驗(yàn)證過,在低維空間計(jì)算(<x1,x2>+1)^2得到的結(jié)果與高維空間上計(jì)算

的結(jié)果相似,只是系數(shù)略有不同。因此我們也可以在此應(yīng)用核方法來計(jì)算。我們?cè)诖硕x核函數(shù)矩陣:

代入上面等式2,便可得到:

很明顯,這又回到了特征值分解的問題,取K最大的d個(gè)特征值所對(duì)應(yīng)的特征向量即可。

小結(jié)

我們通過將數(shù)據(jù)映射到高維以后,巧妙的構(gòu)建出了

目的是為了通過在低維空間上應(yīng)用核函數(shù),計(jì)算得到跟高維空間上差不多的效果。PCA所做的是對(duì)坐標(biāo)軸線性變換,即變換后的新基還是一條直線。而KPCA對(duì)坐標(biāo)軸做了非線性變換,數(shù)據(jù)所映射的新基就不再是一條直線了,而是一條曲線或者曲面,如下圖所示:

通過上面這個(gè)圖,大家應(yīng)該了解了KPCA和PCA的區(qū)別了吧?好了,本期格物匯的內(nèi)容就到這里,我們下期再見。

審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Pcm1861里面有寄存器要配置嗎?

    Pcm1861里面有寄存器要配置嗎,pcm 1861與pcm1865的資料放在一塊分不清楚
    發(fā)表于 10-28 07:59

    如果在不清楚適配器的是否支持QC3.0的情況下,嘗試切換至QC3.0協(xié)議,該如何判斷是否成功切換至QC3.0協(xié)議?

    如果在不清楚適配器的是否支持QC3.0的情況下,嘗試切換至QC3.0協(xié)議,該如何判斷是否成功切換至QC3.0協(xié)議? 因?yàn)镼C2.0協(xié)議的class B支持的20V的切換方式和QC3.0的升壓的方式是一樣的
    發(fā)表于 07-20 11:56

    頻段、信道、帶寬和傳輸速率,還傻傻分不清楚

    無線電通信涉及幾個(gè)重要參數(shù),分別是頻段、信道、信道帶寬和傳輸速率,它們?cè)跓o線網(wǎng)絡(luò)配置中扮演著重要角色。頻段:“不同的高速公路”頻段(FrequencyBand)指的是無線電波的一個(gè)特定頻率范圍,這個(gè)范圍被分配給無線通信使用。不同的無線通信技術(shù)會(huì)使用不同的頻段,避免相互之間的干擾。如最常見的Wi-Fi頻段有兩個(gè):2.4GHz和5GHz。這兩個(gè)頻段就像是兩條不同
    的頭像 發(fā)表于 06-21 08:21 ?2787次閱讀
    頻段、信道、帶寬和傳輸速率,還傻傻<b class='flag-5'>分不清楚</b>?

    一文介紹:UWB-AOA產(chǎn)品特點(diǎn)及其應(yīng)用

    寫在前面:好多朋友經(jīng)常把藍(lán)牙AOA和UWB-AOA混淆,傻傻分不清楚。UWB和藍(lán)牙分屬兩種無線電技術(shù),AOA指的是測(cè)量無線電到達(dá)信號(hào)的角度,UWB-AOA和藍(lán)牙AOA是兩種完全不同的產(chǎn)品,相較于藍(lán)牙AOA UWB-AOA定位精度更高、覆蓋范圍更廣、適用場(chǎng)景更加豐富。
    的頭像 發(fā)表于 05-09 17:07 ?1668次閱讀
    一文介紹:UWB-AOA產(chǎn)品特點(diǎn)及其應(yīng)用

    如何解決隧道廣播聽不清楚的問題

    1、隧道廣播的設(shè)置標(biāo)準(zhǔn) 根據(jù)交通運(yùn)輸部 2012 年第 3 號(hào)公告發(fā)布的《高速公路通信技術(shù)要求》有線廣播設(shè)計(jì)原則為:隧道監(jiān)控等級(jí)為 A + 、A、B 等級(jí)的隧道應(yīng)設(shè)置有線廣播系統(tǒng),隧道監(jiān)控等級(jí)為 C等級(jí)的隧道可設(shè)置有線廣播系統(tǒng), 隧道段有線廣播揚(yáng)聲器設(shè)置在隧道洞外入、出口,洞內(nèi)宜每隔50m設(shè)置1臺(tái)。 隧道廣播與緊急電話分機(jī)的一般布設(shè)形式:在隧道內(nèi)沿行車方向右側(cè)每隔約200m左右布設(shè)一部隧道廣播與緊急電話分機(jī),隧道外距隧道洞口約5m左右布設(shè)一部緊
    的頭像 發(fā)表于 03-15 13:18 ?431次閱讀
    如何解決隧道廣播聽<b class='flag-5'>不清楚</b>的問題

    修復(fù)輥壓機(jī)軸承位磨損怎么辦

    電子發(fā)燒友網(wǎng)站提供《修復(fù)輥壓機(jī)軸承位磨損怎么辦.docx》資料免費(fèi)下載
    發(fā)表于 01-23 09:52 ?0次下載

    風(fēng)機(jī)軸磨損怎么辦

    電子發(fā)燒友網(wǎng)站提供《風(fēng)機(jī)軸磨損怎么辦.docx》資料免費(fèi)下載
    發(fā)表于 01-07 11:04 ?0次下載

    FOSB和FOUP傻傻分不清楚?

    如果我們發(fā)揮想象,一片一片的wafer(晶圓)在這FAB(晶圓廠)大樂園里搭乘著各種自動(dòng)化移動(dòng)工具(比如AGV(無人運(yùn)載車)、ARM(機(jī)械手臂)、OHT(天車)),一會(huì)兒去泡個(gè)澡(浸泡清洗),一會(huì)兒去加工一下,那么,F(xiàn)OSB(前開晶圓運(yùn)輸盒)、FOUP(前開式晶圓傳送盒)就可以被想象成是它們的搭乘車廂,有的對(duì)外移動(dòng),有的內(nèi)部移動(dòng),當(dāng)然也不能忘了還有敞篷式的OPEN CASSETTE(開放式裝載盒)。
    的頭像 發(fā)表于 12-22 16:08 ?2.2w次閱讀

    4260紙機(jī)烘缸軸磨損怎么辦

    電子發(fā)燒友網(wǎng)站提供《4260紙機(jī)烘缸軸磨損怎么辦.docx》資料免費(fèi)下載
    發(fā)表于 12-18 10:38 ?0次下載

    過孔為什么不能打焊盤上?我就想打,怎么辦?

    過孔為什么不能打焊盤上?我就想打,怎么辦?
    的頭像 發(fā)表于 12-15 10:47 ?3498次閱讀
    過孔為什么不能打焊盤上?我就想打,<b class='flag-5'>怎么辦</b>?

    連接相機(jī)丟包怎么辦?如何設(shè)置網(wǎng)卡屬性?

    連接相機(jī)丟包怎么辦?如何設(shè)置網(wǎng)卡屬性?
    的頭像 發(fā)表于 12-12 16:26 ?617次閱讀
    連接相機(jī)丟包<b class='flag-5'>怎么辦</b>?如何設(shè)置網(wǎng)卡屬性?

    [ElfBoard]是誰字和字節(jié)傻傻分不清楚?

    計(jì)算機(jī)內(nèi)存結(jié)構(gòu) —— 位、字節(jié)和字 位 我們都知道,計(jì)算機(jī)存儲(chǔ)數(shù)值都以信息的基本單元的組合進(jìn)行存儲(chǔ),這個(gè)基本單元便是位(bit),我們通常用 0 和 1 來表示位的兩種狀態(tài)。 為什么使用 0 和 1 而不是 0、1、2、3、4、5 或者 6、7、8、9、10 等等這樣的數(shù)字組合呢? 我們可以想象這樣一種實(shí)際情況:我們的計(jì)算機(jī)歸根結(jié)底是一些硬件在進(jìn)行處理和計(jì)算,硬件是需要電流起作用的,電流可以產(chǎn)生高電壓和低電壓,在數(shù)字電路中,通常將高電壓視為 1 ,低電壓視為 0 ,因此我們信息存儲(chǔ)的最終形式是一連串 1 和 0 的組合。這種表達(dá)形式與我們?cè)谶壿嬛薪?jīng)常使用 true 和 false 是類似的。 關(guān)于計(jì)算機(jī)為什么能夠讀懂 1 和 0,在這個(gè)問題下面有很多非常詳細(xì)的回答可以作為參考: 也許上面這個(gè)例子還是比較抽象,那么我們還可以想象這樣一種更古老的實(shí)際情況:早期的計(jì)算機(jī)還不具備處理高級(jí)語言的能力,程序員們只能將要寫的程序和要處理的數(shù)據(jù)變成一條條紙帶交給計(jì)算機(jī)去處理。而紙帶上某個(gè)特定位置的狀態(tài)是有限的,人們通過在紙帶上打洞還是不打洞來表示 1 和 0 。因此數(shù)據(jù)通過一連串打洞和不打洞的序列進(jìn)行表示,即很多 1 和 0 的序列,這種數(shù)據(jù)表示的思想也一直延續(xù)到現(xiàn)在。 字節(jié) 通過上面的講解我們也能看到,一個(gè)位能表達(dá)的信息太少了,因此我們通常將單個(gè)的位連接組合起來,組成更大的存儲(chǔ)單元,我們稱這種最小組合單元為一個(gè)字節(jié)(byte),一個(gè)字節(jié)由 8 個(gè)位構(gòu)成,它足以用來存儲(chǔ)一個(gè) char 類型的數(shù)據(jù)。 字 隨著存儲(chǔ)需求的日益增長(zhǎng),在現(xiàn)在大多數(shù)計(jì)算機(jī)中,字節(jié)被組合成更大的存儲(chǔ)單位,我們稱為字(word),一個(gè)字足以存儲(chǔ)一個(gè) int 類型的數(shù)據(jù)。現(xiàn)在的大多數(shù)計(jì)算機(jī)要么使用四字節(jié)的字,要么使用八字節(jié)的字。我們通常所說的 32 位機(jī)器或者 64 位機(jī)器其實(shí)就是指計(jì)算機(jī)處理器一次能處理的數(shù)據(jù)大小,32 位即 4 個(gè)字節(jié),64 位即 8 個(gè)字節(jié)。 結(jié)論: 一個(gè)字等于多少個(gè)字節(jié),與系統(tǒng)硬件(總線、cpu命令字位數(shù)等)有關(guān),不應(yīng)該毫無前提地說一個(gè)字等于多少位。 正確的說法: ①:1字節(jié)(byte) = 8位(bit) ②:在16位的系統(tǒng)中(比如8086微機(jī)) 1字 (word)= 2字節(jié)(byte)= 16(bit) 在32位的系統(tǒng)中(比如win32) 1字(word)= 4字節(jié)(byte)=32(bit) 在64位的系統(tǒng)中(比如win64)1字(word)= 8字節(jié)(byte)=64(bit)
    發(fā)表于 12-12 13:13

    [ElfBoard]康康是誰字和字節(jié)傻傻分不清楚?

    計(jì)算機(jī)內(nèi)存結(jié)構(gòu) —— 位、字節(jié)和字 位 我們都知道,計(jì)算機(jī)存儲(chǔ)數(shù)值都以信息的基本單元的組合進(jìn)行存儲(chǔ),這個(gè)基本單元便是位(bit),我們通常用 0 和 1 來表示位的兩種狀態(tài)。 為什么使用 0 和 1 而不是 0、1、2、3、4、5 或者 6、7、8、9、10 等等這樣的數(shù)字組合呢? 我們可以想象這樣一種實(shí)際情況:我們的計(jì)算機(jī)歸根結(jié)底是一些硬件在進(jìn)行處理和計(jì)算,硬件是需要電流起作用的,電流可以產(chǎn)生高電壓和低電壓,在數(shù)字電路中,通常將高電壓視為 1 ,低電壓視為 0 ,因此我們信息存儲(chǔ)的最終形式是一連串 1 和 0 的組合。這種表達(dá)形式與我們?cè)谶壿嬛薪?jīng)常使用 true 和 false 是類似的。 關(guān)于計(jì)算機(jī)為什么能夠讀懂 1 和 0,在這個(gè)問題下面有很多非常詳細(xì)的回答可以作為參考: 也許上面這個(gè)例子還是比較抽象,那么我們還可以想象這樣一種更古老的實(shí)際情況:早期的計(jì)算機(jī)還不具備處理高級(jí)語言的能力,程序員們只能將要寫的程序和要處理的數(shù)據(jù)變成一條條紙帶交給計(jì)算機(jī)去處理。而紙帶上某個(gè)特定位置的狀態(tài)是有限的,人們通過在紙帶上打洞還是不打洞來表示 1 和 0 。因此數(shù)據(jù)通過一連串打洞和不打洞的序列進(jìn)行表示,即很多 1 和 0 的序列,這種數(shù)據(jù)表示的思想也一直延續(xù)到現(xiàn)在。 字節(jié) 通過上面的講解我們也能看到,一個(gè)位能表達(dá)的信息太少了,因此我們通常將單個(gè)的位連接組合起來,組成更大的存儲(chǔ)單元,我們稱這種最小組合單元為一個(gè)字節(jié)(byte),一個(gè)字節(jié)由 8 個(gè)位構(gòu)成,它足以用來存儲(chǔ)一個(gè) char 類型的數(shù)據(jù)。 字 隨著存儲(chǔ)需求的日益增長(zhǎng),在現(xiàn)在大多數(shù)計(jì)算機(jī)中,字節(jié)被組合成更大的存儲(chǔ)單位,我們稱為字(word),一個(gè)字足以存儲(chǔ)一個(gè) int 類型的數(shù)據(jù)?,F(xiàn)在的大多數(shù)計(jì)算機(jī)要么使用四字節(jié)的字,要么使用八字節(jié)的字。我們通常所說的 32 位機(jī)器或者 64 位機(jī)器其實(shí)就是指計(jì)算機(jī)處理器一次能處理的數(shù)據(jù)大小,32 位即 4 個(gè)字節(jié),64 位即 8 個(gè)字節(jié)。 結(jié)論: 一個(gè)字等于多少個(gè)字節(jié),與系統(tǒng)硬件(總線、cpu命令字位數(shù)等)有關(guān),不應(yīng)該毫無前提地說一個(gè)字等于多少位。 正確的說法: ①:1字節(jié)(byte) = 8位(bit) ②:在16位的系統(tǒng)中(比如8086微機(jī)) 1字 (word)= 2字節(jié)(byte)= 16(bit) 在32位的系統(tǒng)中(比如win32) 1字(word)= 4字節(jié)(byte)=32(bit) 在64位的系統(tǒng)中(比如win64)1字(word)= 8字節(jié)(byte)=64(bit)
    發(fā)表于 12-12 13:11

    EMC、EMI是什么意思?硬件人別再分不清楚

    emi硬件emc
    揚(yáng)興科技
    發(fā)布于 :2023年12月01日 19:52:03

    pcb鉆孔偏孔了怎么辦

    pcb鉆孔偏孔了怎么辦?
    的頭像 發(fā)表于 11-22 11:10 ?3192次閱讀
    pcb鉆孔偏孔了<b class='flag-5'>怎么辦</b>?