寫在前面
文本分類是NLP中一個非常重要的任務(wù),也是非常適合入坑NLP的第一個完整項目。
文本分類看似簡單,但實則里面有好多門道。作者水平有限,只能將平時用到的方法和trick在此做個記錄和分享,并且盡可能提供給出簡潔、清晰的代碼實現(xiàn)。希望各位看官都能有所收獲。
本文主要討論文本分類中處理樣本不均衡和提升模型魯棒性的trick。
1. 緩解樣本不均衡
樣本不均衡現(xiàn)象
假如我們要實現(xiàn)一個新聞?wù)撁媾袛嗟奈谋径诸惼?/strong>,負面新聞的樣本比例較少,可能2W條新聞有100條甚至更少的樣本屬于負例。這種現(xiàn)象就是樣本不均衡。
在樣本不均衡場景下,樣本會呈現(xiàn)一個長尾分布(如圖中所示會出現(xiàn)長長的尾巴),頭部的標簽包含了大量的樣本,而尾部的標簽擁有很少的樣本,這種現(xiàn)象也叫長尾現(xiàn)象。岔開說下,聽過二八定律的人大多知道長尾現(xiàn)象其實很普遍,比如80%的財富掌握在20%的人手中。
樣本不均衡問題
樣本不均衡會帶來很多問題。模型訓練的本質(zhì)是最小化損失函數(shù),當某個類別的樣本數(shù)量非常龐大,損失函數(shù)的值大部分被其所影響,導致的結(jié)果就是模型分類會傾向于該類別(樣本量較大的類別)。
咱拿上面文本分類的例子來說明?,F(xiàn)在有2W條用戶搜索的樣本,其中100條是負面新聞,即負樣本,那么當模型全部將樣本預測為正例,也能得到 99.5% 的準確率。但實際上這個模型跟盲猜沒什么區(qū)別,而我們的目的是讓模型能夠正確的區(qū)分正例和負例。
1.1 模型層面解決樣本不均衡
在模型層面解決樣本不均衡問題,可以選擇加入 Focal Loss 學習難學樣本,具體原理可以參考文章《何愷明大神的「Focal Loss」,如何更好地理解?》[1]。
1.1.1 Focal Loss pytorch代碼實現(xiàn)
classFocalLoss(nn.Module): """Multi-classFocallossimplementation""" def__init__(self,gamma=2,weight=None,reduction='mean',ignore_index=-100): super(FocalLoss,self).__init__() self.gamma=gamma self.weight=weight self.ignore_index=ignore_index self.reduction=reduction defforward(self,input,target): """ input:[N,C] target:[N,] """ log_pt=torch.log_softmax(input,dim=1) pt=torch.exp(log_pt) log_pt=(1-pt)**self.gamma*log_pt loss=torch.nn.functional.nll_loss(log_pt,target,self.weight,reduction=self.reduction,ignore_index=self.ignore_index) returnloss
代碼鏈接:blog_code/nlp/focal_loss.py[2]
1.2 數(shù)據(jù)層面解決樣本不均衡
假如我們的正樣本只有100條,而負樣本可能有1W條。如果不采取任何策略,那么我們就是使用這1.01W條樣本去訓練模型。從數(shù)據(jù)層面解決樣本不均衡的問題核心是通過人為控制正負樣本的比例,分成欠采樣和過采樣兩種。
1.2.1 欠采樣
簡單隨機
欠采樣的基本做法是這樣的,現(xiàn)在我們的正負樣本比例為1:100。如果我們想讓正負樣本比例不超過1:10,那么模型訓練的時候數(shù)量比較少的正樣本也就是100條全部使用,而負樣本隨機挑選1000條。
通過這樣人為的方式,我們把樣本的正負比例強行控制在了1:10。需要注意的是,這種方式存在一個問題:為了強行控制樣本比例我們生生的舍去了那9000條負樣本,這對于模型來說是莫大的損失。
迭代預分類
相比于簡單的對負樣本隨機采樣的欠采樣方法,實際工作中更推薦使用迭代預分類的方式來采樣負樣本。具體流程如下圖所示:
首先我們會使用全部的正樣本和從負例候選集中隨機采樣一部分負樣本(這里假如是100條)去訓練第一輪分類器;
然后用第一輪分類器去預測負例候選集剩余的9900條數(shù)據(jù),把9900條負例中預測為正例的樣本(也就是預測錯誤的樣本)再隨機采樣100條和第一輪訓練的數(shù)據(jù)放到一起去訓練第二輪分類器;
同樣的方法用第二輪分類器去預測負例候選集剩余的9800條數(shù)據(jù),直到訓練的第N輪分類器可以全部識別負例候選集,這就是使用迭代預分類的方式進行欠采樣。
相比于隨機欠采樣來說,迭代預分類的欠采樣方式能最大限度地利用負樣本中差異性較大的負樣本,從而在控制正負樣本比例的基礎(chǔ)上采樣出了最有代表意義的負樣本。
欠采樣的方式整體來說或多或少的會損失一些樣本,對于那些需要控制樣本量級的場景下比較合適。如果沒有嚴格控制樣本量級的要求那么下面的過采樣可能會更加適合你。
1.2.2 過采樣
過采樣和欠采樣比較類似,都是人工干預控制樣本的比例,不同的是過采樣不會損失樣本。
還拿上面的例子,現(xiàn)在有正樣本100條,負樣本1W條,最簡單的過采樣方式是我們使用全部的負樣本1W條。但是,為了維持正負樣本比例,我們會從正樣本中有放回的重復采樣,直到獲取了1000條正樣本,也就是說有些正樣本可能會被重復采樣到,這樣就能保持1:10的正負樣本比例了。這是最簡單的過采樣方式,這種方式可能會存在嚴重的過擬合。
實際的場景中會通過樣本增強的技術(shù)來增加正樣本。
2. 提升模型魯棒性
提升模型魯棒性的方法有很多,其中對抗訓練、知識蒸餾、防止模型過擬合和多模型融合是常見的穩(wěn)定提升方式。
2.1 對抗訓練
對抗訓練是一種能有效提高模型魯棒性和泛化能力的訓練手段,其基本原理是通過在原始輸入上增加對抗擾動,得到對抗樣本,再利用對抗樣本進行訓練,從而提高模型的表現(xiàn)。
由于自然語言文本是離散的,一般會把對抗擾動添加到嵌入層上。為了最大化對抗樣本的擾動能力,利用梯度上升的方式生成對抗樣本。為了避免擾動過大,將梯度做了歸一化處理。
其中, 為嵌入向量。在實際訓練過程中,我們會在訓練完一個batch的原始輸入數(shù)據(jù)時,保存當前batch對輸入詞向量的梯度,得到對抗樣本后,再使用對抗樣本進行對抗訓練。
2.1.1 對抗訓練pytorch代碼實現(xiàn)
class FGM(): def __init__(self, model): self.model = model self.backup = {} def attack(self, epsilon=1., emb_name='emb'): for name, param in self.model.named_parameters(): if param.requires_grad and emb_name in name: self.backup[name] = param.data.clone() norm = torch.norm(param.grad) if norm != 0: r_at = epsilon * param.grad / norm param.data.add_(r_at) def restore(self, emb_name='emb'): for name, param in self.model.named_parameters(): if param.requires_grad and emb_name in name: assert name in self.backup param.data = self.backup[name] self.backup = {}
訓練中加入幾行代碼
# 初始化 fgm = FGM(model) for batch_input, batch_label in data: # 正常訓練 loss = model(batch_input, batch_label) loss.backward() # 對抗訓練 fgm.attack() # 修改embedding # optimizer.zero_grad() # 梯度累加,不累加去掉注釋 loss_sum = model(batch_input, batch_label) loss_sum.backward() # 累加對抗訓練的梯度 fgm.restore() # 恢復Embedding的參數(shù) optimizer.step() optimizer.zero_grad()
代碼鏈接:blog_code/nlp/at.py [3]
2.2 知識蒸餾
與對抗訓練類似,知識蒸餾也是一種常用的提高模型泛化能力的訓練方法。
知識蒸餾這個概念最早由Hinton在2015年提出。一開始,知識蒸餾通往往應(yīng)用在模型壓縮方面,利用訓練好的復雜模型(teacher model)輸出作為監(jiān)督信號去訓練另一個簡單模型(student model),從而將teacher學習到的知識遷移到student。
Tommaso在18年提出,若student和teacher的模型完全相同,蒸餾后則會對模型的表現(xiàn)有一定程度上的提升。
2.3 防止模型過擬合
2.3.1 正則化
L1和L2正則化
L1正則化可以得到稀疏解,L2正則化可以得到平滑解,原因參考文章《為什么L1稀疏,L2平滑?》[4]。
2.3.2 Dropout
Dropout是指在深度學習網(wǎng)絡(luò)的訓練過程中,對于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其暫時從網(wǎng)絡(luò)中丟棄。
Dropout為什么能防止過擬合,可以通過以下幾個方面來解釋:
它強迫一個神經(jīng)單元,和隨機挑選出來的其他神經(jīng)單元共同工作,達到好的效果。消除減弱了神經(jīng)元節(jié)點間的聯(lián)合適應(yīng)性,增強了泛化能力;
類似于bagging的集成效果;
對于每一個dropout后的網(wǎng)絡(luò),進行訓練時,相當于做了Data Augmentation,因為,總可以找到一個樣本,使得在原始的網(wǎng)絡(luò)上也能達到dropout單元后的效果。比如,對于某一層,dropout一些單元后,形成的結(jié)果是(1.5,0,2.5,0,1,2,0),其中0是被drop的單元,那么總能找到一個樣本,使得結(jié)果也是如此。這樣,每一次dropout其實都相當于增加了樣本。
Dropout在測試時,并不會隨機丟棄神經(jīng)元,而是使用全部所有的神經(jīng)元,同時,所有的權(quán)重值都乘上1-p,p代表的是隨機失活率。
2.3.3 數(shù)據(jù)增強
數(shù)據(jù)增強即需要得到更多的符合要求的數(shù)據(jù),即和已有的數(shù)據(jù)是獨立同分布的,或者近似獨立同分布的。一般有以下方法:
1)從數(shù)據(jù)源頭采集更多數(shù)據(jù);
2)復制原有數(shù)據(jù)并加上隨機噪聲;
3)重采樣;
4)根據(jù)當前數(shù)據(jù)集估計數(shù)據(jù)分布參數(shù),使用該分布產(chǎn)生更多數(shù)據(jù)等。
2.3.4 Early stopping
在模型對訓練數(shù)據(jù)集迭代收斂之前停止迭代來防止過擬合。因為在初始化網(wǎng)絡(luò)的時候一般都是初始為較小的權(quán)值,訓練時間越長,部分網(wǎng)絡(luò)權(quán)值可能越大。如果我們在合適時間停止訓練,就可以將網(wǎng)絡(luò)的能力限制在一定范圍內(nèi)。
2.3.5 交叉驗證
交叉驗證的基本思想就是將原始數(shù)據(jù)進行分組,一部分做為訓練集來訓練模型,另一部分做為測試集來評價模型。我們常用的交叉驗證方法有簡單交叉驗證、S折交叉驗證和留一交叉驗證。
2.3.6 Batch Normalization
一種非常有用的正則化方法,可以讓大型的卷積網(wǎng)絡(luò)訓練速度加快很多倍,同時收斂后分類的準確率也可以大幅度的提高。
BN在訓練某層時,會對每一個mini-batch數(shù)據(jù)進行標準化(normalization)處理,使輸出規(guī)范到 的正態(tài)分布,減少了Internal convariate shift(內(nèi)部神經(jīng)元分布的改變),傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)在訓練是每一層的輸入的分布都在改變,因此訓練困難,只能選擇用一個很小的學習速率,但是每一層用了BN后,可以有效的解決這個問題,學習速率可以增大很多倍。
2.3.7 選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)
通過減少網(wǎng)絡(luò)層數(shù)、神經(jīng)元個數(shù)、全連接層數(shù)等降低網(wǎng)絡(luò)容量。
3.多模型融合
Baggging &Boosting,將弱分類器融合之后形成一個強分類器,而且融合之后的效果會比最好的弱分類器更好,三個臭皮匠頂一個諸葛亮。
-
模型
+關(guān)注
關(guān)注
1文章
3032瀏覽量
48350 -
代碼
+關(guān)注
關(guān)注
30文章
4670瀏覽量
67764 -
nlp
+關(guān)注
關(guān)注
1文章
481瀏覽量
21932
原文標題:2. 提升模型魯棒性
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論