精品亚洲Aⅴ无码国产一区,一区二区在线视频,九九久久亚洲AV东方伊甸园

前言

前兩篇文章介紹了PCA（主成分分析方法）和SVD（奇異值分解）的算法原理，本文基于scikit learn包介紹了PCA算法在降維和數(shù)據(jù)重構(gòu)的應(yīng)用，并分析了PCA類與sparsePCA類的區(qū)別。由于PCA算法的特征值分解是奇異值分解SVD的一個(gè)特例，因此sklearn工具的PCA庫(kù)是基于SVD實(shí)現(xiàn)的。

本文內(nèi)容代碼鏈接：

https://github.com/zhangleiszu/machineLearning/tree/master/PCA

1. PCA類介紹

2. sklearn.decomposition.PCA的參數(shù)說明

3. sklearn.decomposition.MiniBatchSparsePCA的參數(shù)說明

4. PCA類在降維的應(yīng)用

5. PCA類與MiniBatchSparsePCA類的區(qū)別

6. PCA在數(shù)據(jù)重構(gòu)的應(yīng)用

7. 總結(jié)

1. PCA類介紹

所有PCA類都在sklearn.decompostion包中，主要有以下幾類：

1) sklearn.decompostion.PCA：實(shí)際項(xiàng)目中用的最多的PCA類；

2) sklearn.decompostion.IncrementPCA：PCA最大的缺點(diǎn)是只支持批處理，也就是說所有數(shù)據(jù)都必須在主內(nèi)存空間計(jì)算，IncrementalPCA使用多個(gè)batch，然后依次調(diào)用partial_fit函數(shù)，降維結(jié)果與PCA類基本一致。

3) sklearn.decomposition.SparsePCA和sklearn.decomposition.MiniBatchSparsePCA：SparsePCA類和MiniBatchSparsePCA類算法原理一樣，都是把降維問題用轉(zhuǎn)換為回歸問題，并在優(yōu)化參數(shù)時(shí)增加了正則化項(xiàng)（L1懲罰項(xiàng)），不同點(diǎn)是MiniBatchSparsePCA使用部分樣本特征并迭代設(shè)置的次數(shù)進(jìn)行PCA降維。

4) sklearn.decomposition.KernelPCA：對(duì)于線性不可分的特征，我們需要對(duì)特征進(jìn)行核函數(shù)映射為高維空間，然后進(jìn)行PCA降維。流程圖如下：

2. sklearn.decomposition.PCA類的參數(shù)說明

1) n_components：取值為：整形，浮點(diǎn)型，None或字符串。

n_components為空時(shí)，取樣本數(shù)和特征數(shù)的最小值：

n_components == min(n_samples , n_features)

0 < n_components < 1時(shí)，選擇主成分的方差和占總方差和的最小比例閾值，PCA類自動(dòng)計(jì)算降維? ? ?后的維數(shù)。

n_components是大于等于1的整數(shù)，設(shè)置降維后的維數(shù) 。

n_components是字符串'mle'，PCA類自動(dòng)計(jì)算降維后的維數(shù) 。

2) copy：布爾型變量。表示在運(yùn)行時(shí)是否改變訓(xùn)練數(shù)據(jù)，若為True，不改變訓(xùn)練數(shù)據(jù)的值，運(yùn)算結(jié)果寫在復(fù)制的訓(xùn)練數(shù)據(jù)上；若為False，則覆蓋訓(xùn)練數(shù)據(jù) ，默認(rèn)值為True。

3) whiten：布爾型變量。若為True，表示對(duì)降維后的變量進(jìn)行歸一化；若為False，則不進(jìn)行歸一化，默認(rèn)值為False。

4) svd_solver：字符串變量，取值為：'auto'，'full'，'arpack'，'randomized'

randomized：如果訓(xùn)練數(shù)據(jù)大于500×500，降維后的維數(shù)小于數(shù)據(jù)的最小維數(shù)0.8倍，采用加快SVD的隨機(jī)算法。

full：傳統(tǒng)意義上的SVD算法，調(diào)用scipy.linalg.svd類。

arpack：調(diào)用scipy.sparse.linalg.svds類，降維后的維數(shù)符合：

0 < n_components < min(X.shape)

auto：自動(dòng)選擇最適合的SVD算法。

類成員屬性：

components_：主成分分量的向量空間。

explained_variance_：向量空間對(duì)應(yīng)的方差值。

explained_variance_ratio_：向量空間的方差值占總方差值的百分比。

singular_values：向量空間對(duì)應(yīng)的奇異值。

3.sklearn.decomposition.MiniBatchSparsePCA的參數(shù)說明

本節(jié)就介紹兩個(gè)常用的重要變量，用法與PCA類基本相同。

n_components：降維后的維數(shù)

alpha：正則化參數(shù)，值越高，主成分分量越稀疏（分量包含0的個(gè)數(shù)越多）。

4. PCA類在降維的應(yīng)用

Iris數(shù)據(jù)集包含了三種花（Setosa，Versicolour和Virginica），特征個(gè)數(shù)為4。

下載Iris數(shù)據(jù)集：

iris = datasets.load_iris()X = iris.datay = iris.target

設(shè)置降維后的維數(shù)為2：

pca = PCA(n_components=2)

降維后的數(shù)據(jù)集：

X_r = pca.fit(X).transform(X)

降維后的特征分布圖：

5. PCA類與MiniBatchSparsePCA類的區(qū)別

PCA類主成分分量是非零系數(shù)構(gòu)成的，導(dǎo)致了PCA降維的解釋性很差，若主成分分量包含了很多零系數(shù)，那么主成分分量可以將很多非主要成分的影響降維0，不僅增強(qiáng)了降維的解釋性，也降低了噪聲的影響，缺點(diǎn)是可能丟失了訓(xùn)練數(shù)據(jù)的重要信息。MiniBatchSparsePCA與PCA類的區(qū)別是使用了L1正則化項(xiàng)，導(dǎo)致了產(chǎn)生的主成分分量包含了多個(gè)0，L1正則化系數(shù)越大，0的個(gè)數(shù)越多，公式如下：

用圖來說明區(qū)別：

左圖是PCA類的主成分分量空間，右圖是MiniBatchSparsePCA類的主成分分量空間，比較兩圖可知，右圖能夠定位到重要的特征部位。

若是用數(shù)值表示，MiniBatchSparsePCA類的主成分分量值為：

由上圖可知，主成分分量包含了很多零分量。

6. PCA在數(shù)據(jù)重構(gòu)的應(yīng)用

數(shù)據(jù)重構(gòu)算法借鑒上一篇文章的圖：

淺藍(lán)色部分矩陣的乘積為數(shù)據(jù)的重構(gòu)過程，r為選擇的主成分分量個(gè)數(shù) 。r越大，重構(gòu)的數(shù)據(jù)與原始數(shù)據(jù)越接近或主成分分量的方差和比例越大，重構(gòu)的數(shù)據(jù)與原始數(shù)據(jù)越接近，圖形解釋如下：

n_components是0.2的數(shù)據(jù)重構(gòu)圖：

n_components是0.9的數(shù)據(jù)重構(gòu)圖：

因此，主成分分量越多，重構(gòu)的數(shù)據(jù)與原始數(shù)據(jù)越接近。

7. 總結(jié)

本文介紹了PCA類在降維和數(shù)據(jù)重構(gòu)的簡(jiǎn)單用法以及分析了sparsePCA類稀疏主成分分量的原理。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴