日本中文字幕久久网站,果冻传媒一区二区董小宛,片免费看

樣本不均的問題大家已經(jīng)很常見了，我們總是能看到某一個類目的數(shù)量遠(yuǎn)高于其他類目，舉個例子，曝光轉(zhuǎn)化數(shù)遠(yuǎn)低于曝光未轉(zhuǎn)化數(shù)。樣本不均嚴(yán)重影響了模型的效果，甚至影響到我們對模型好壞的判斷，因為模型對占比比較高的類目準(zhǔn)確率非常高，對占比很低的類目預(yù)估的偏差特別大，但是由于占比較高的類目對loss/metric影響較大，我們會認(rèn)為得到了一個較優(yōu)的模型。比如像是異常檢測問題，我們直接返回沒有異常，也能得到一個很高的準(zhǔn)確率。

重采樣

這個是目前使用頻率最高的方式，可以對“多數(shù)”樣本降采樣，也可以對“少數(shù)”樣本過采樣，如下圖所示：

重采樣的缺點(diǎn)也比較明顯，過采樣對少數(shù)樣本“過度捕撈”，降采樣會丟失大量信息。

重采樣的方案也有很多，最簡單的就是隨機(jī)過采樣/降采樣，使得各個類別的數(shù)量大致相同。還有一些復(fù)雜的采樣方式，比如先對樣本聚類，在需要降采樣的樣本上，按類別進(jìn)行降采樣，這樣能丟失較少的信息。過采樣的話，可以不用簡單的copy，可以加一點(diǎn)點(diǎn)“噪聲”，生成更多的樣本。

Tomek links

Tomek連接指的是在空間上“最近”的樣本，但是是不同類別的樣本。刪除這些pair中，占大多數(shù)類別的樣本。通過這種降采樣方式，有利于分類模型的學(xué)習(xí)，如下圖所示：

SMOTE

這個方法可以給少數(shù)樣本做擴(kuò)充，SMOTE在樣本空間中少數(shù)樣本隨機(jī)挑選一個樣本，計算k個鄰近的樣本，在這些樣本之間插入一些樣本做擴(kuò)充，反復(fù)這個過程，知道樣本均衡，如下圖所示：

NearMiss

這是個降采樣的方法，通過距離計算，刪除掉一些無用的點(diǎn)。

NearMiss-1：在多數(shù)類樣本中選擇與最近的3個少數(shù)類樣本的平均距離最小的樣本。

NearMiss-2：在多數(shù)類樣本中選擇與最遠(yuǎn)的3個少數(shù)類樣本的平均距離最小的樣本。

NearMiss-3：對于每個少數(shù)類樣本，選擇離它最近的給定數(shù)量的多數(shù)類樣本。

NearMiss-1考慮的是與最近的3個少數(shù)類樣本的平均距離，是局部的；NearMiss-2考慮的是與最遠(yuǎn)的3個少數(shù)類樣本的平均距離，是全局的。NearMiss-1方法得到的多數(shù)類樣本分布也是“不均衡”的，它傾向于在比較集中的少數(shù)類附近找到更多的多數(shù)類樣本，而在孤立的（或者說是離群的）少數(shù)類附近找到更少的多數(shù)類樣本，原因是NearMiss-1方法考慮的局部性質(zhì)和平均距離。NearMiss-3方法則會使得每一個少數(shù)類樣本附近都有足夠多的多數(shù)類樣本，顯然這會使得模型的精確度高、召回率低。

評估指標(biāo)

為了避免對模型的誤判，避免使用Accuracy，可以用confusion matrix，precision，recall，f1-score，AUC，ROC等指標(biāo)。

懲罰項

對少數(shù)樣本預(yù)測錯誤增大懲罰，是一個比較直接的方式。

使用多種算法

模型融合不止能提升效果，也能解決樣本不均的問題，經(jīng)驗上，樹模型對樣本不均的解決幫助很大，特別是隨機(jī)森林，Random Forest，XGB，LGB等。因為樹模型作用方式類似于if/else，所以迫使模型對少數(shù)樣本也非常重視。

正確的使用K-fold

當(dāng)我們對樣本過采樣時，對過采樣的樣本使用k-fold，那么模型會過擬合我們過采樣的樣本，所以交叉驗證要在過采樣前做。在過采樣過程中，應(yīng)當(dāng)增加些隨機(jī)性，避免過擬合。

使用多種重采樣的訓(xùn)練集

這種方法可以使用更多的數(shù)據(jù)獲得一個泛化性較強(qiáng)的模型。用所有的少數(shù)樣本，和多種采樣的多數(shù)樣本，構(gòu)建多個模型得到多個模型做融合，可以取得不錯的效果。

重采樣使用不同rate

這個方法和上面的方法很類似，嘗試使用各種不同的采樣率，訓(xùn)練不同的模型。

沒有什么解決樣本不均最好的方法，以上內(nèi)容也沒有枚舉出所有的解決方案，最好的方案就是嘗試使用各種方案。

原文標(biāo)題：對“樣本不均衡”一頓操作

文章出處：【微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴