在格物匯之前的文章中,我們討論了特征抽取的經(jīng)典算法——主成分分析PCA與線性判別分析LDA的原理與應(yīng)用場(chǎng)景。PCA是一種無監(jiān)督的降維方法,尋找的是讓數(shù)據(jù)方差最大的一種映射;LDA是一種有監(jiān)督的降維方法,尋找的是讓數(shù)據(jù)分類效果最好的一種映射。但是它們?nèi)匀挥袘?yīng)用的局限性,今天我們就一起來了解下。
PCA的局限性
我們先來回顧一下PCA的降維原理:PCA試圖通過旋轉(zhuǎn)找到新的正交基,滿足這樣的兩條性質(zhì):
1、最近重構(gòu)性:樣本點(diǎn)到新映射的正交基距離足夠接近。
2、最大可分性:樣本點(diǎn)在新正交基上方差最大。
最后我們推導(dǎo)得到:
我們只需要對(duì)協(xié)方差矩陣XX^T 進(jìn)行特征值分解,得到的特征值和特征向量即是變換矩陣w的解和改主成分所解釋的方差量。這樣的降維方法是線性的降維方法,即從高維空間到低維空間的函數(shù)映射是線性的。然而在不少應(yīng)用場(chǎng)景中,線性映射可能不能得到想要的結(jié)果,例如如下的例子:S型曲線的本真二維結(jié)構(gòu)是其低維空間的原本形狀,通過線性降維后得到的結(jié)果明顯并不是我們所期望的。
核方法
我們介紹SVM的時(shí)候所介紹的核方法是一種可以進(jìn)行升維來生成一些非線性的映射。這個(gè)方法我們可以同樣使用在PCA降維分析中。
假設(shè)我們有一個(gè)樣本集:
x1,x2?xn
假設(shè)映射函數(shù)為,那么映射到高維以后,數(shù)據(jù)變成:
類似于PCA的求解方法, XX^T經(jīng)過高維映射后得到
,
故:
我們把λ 移動(dòng)到等號(hào)左邊得到:
我們令:
做一個(gè)簡(jiǎn)單的替換,得到:
代入等式1,得到:
我們?cè)谧笥覂蛇呁瑫r(shí)乘上
得到:
做一下簡(jiǎn)單的改變:
非常幸運(yùn)的是,我們?cè)O(shè)計(jì)出了
是否還記得我們?cè)赟VM的核函數(shù)中曾經(jīng)驗(yàn)證過,在低維空間計(jì)算(<x1,x2>+1)^2得到的結(jié)果與高維空間上計(jì)算
的結(jié)果相似,只是系數(shù)略有不同。因此我們也可以在此應(yīng)用核方法來計(jì)算。我們?cè)诖硕x核函數(shù)矩陣:
代入上面等式2,便可得到:
即
很明顯,這又回到了特征值分解的問題,取K最大的d個(gè)特征值所對(duì)應(yīng)的特征向量即可。
小結(jié)
我們通過將數(shù)據(jù)映射到高維以后,巧妙的構(gòu)建出了
目的是為了通過在低維空間上應(yīng)用核函數(shù),計(jì)算得到跟高維空間上差不多的效果。PCA所做的是對(duì)坐標(biāo)軸線性變換,即變換后的新基還是一條直線。而KPCA對(duì)坐標(biāo)軸做了非線性變換,數(shù)據(jù)所映射的新基就不再是一條直線了,而是一條曲線或者曲面,如下圖所示:
通過上面這個(gè)圖,大家應(yīng)該了解了KPCA和PCA的區(qū)別了吧?好了,本期格物匯的內(nèi)容就到這里,我們下期再見。
-
智能制造
+關(guān)注
關(guān)注
48文章
5445瀏覽量
76234 -
工業(yè)互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
28文章
4290瀏覽量
94021
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論