來自:圓圓的算法筆記
今天給大家介紹3篇EMNLP 2022中語言模型訓(xùn)練方法優(yōu)化的工作,這3篇工作分別是:
針對檢索優(yōu)化語言模型:優(yōu)化語言模型訓(xùn)練過程,使能夠生成更合適的句子表示用于檢索——RetroMAE: Pre-training Retrieval-oriented Transformers via Masked Auto-Encoder;
針對事實(shí)知識(shí)提取優(yōu)化語言模型:在語言模型訓(xùn)練過程中引入知識(shí)庫,提升語言模型對事實(shí)知識(shí)的抽取能力——Pre-training Language Models with Deterministic Factual Knowledge;
針對目標(biāo)域效果優(yōu)化語言模型:將語言模型在目標(biāo)domain繼續(xù)訓(xùn)練,在不遺忘原始知識(shí)的情況下學(xué)到目標(biāo)doman新知識(shí)——Continual Training of Language Models for Few-Shot Learning。
后臺(tái)回復(fù)【語言模型】,可以獲取14種深度學(xué)習(xí)語言模型的梳理資料。
1 針對檢索優(yōu)化語言模型
在query-document檢索任務(wù)中,核心是獲取到query和document的句子表征,然后利用向量檢索的方式完成檢索任務(wù)。BERT已經(jīng)成為提取句子表示向量的主流方法。然而,BERT在預(yù)訓(xùn)練階段的主要任務(wù)是MLM,缺少對句子整體表示提取的優(yōu)化目標(biāo),導(dǎo)致句子表示提取能力不足。
RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder這篇文章對BERT的訓(xùn)練方式進(jìn)行了優(yōu)化,使得BERT能提取更高質(zhì)量的句子表示,進(jìn)而提升檢索效果。RetroMAE的整體結(jié)構(gòu)如下圖所示,包括一個(gè)Encoder和一個(gè)Decoder。對于每一個(gè)樣本,Encoder的輸入隨機(jī)mask掉15%的token,和原始BERT類似,利用Encoder得到整體的句子表示。在Decoder側(cè),輸入Encoder的句子表示,以及mask掉70%的token的樣本,讓Decoder還原整個(gè)句子。Encoder是一個(gè)比較復(fù)雜的BERT模型,Decoder則使用一個(gè)比較簡單的單層Transformer模型。
本文的模型設(shè)計(jì)思路是,Decoder提供的信息盡可能少、模型的復(fù)雜度盡可能低,這樣可以迫使Encoder生成的句子表示包含更完整的句子信息,保障了Encoder生成的句子embedding的質(zhì)量。相比對比學(xué)習(xí)學(xué)習(xí)句子表示的方法,RetroMAE的優(yōu)勢是效果不依賴于數(shù)據(jù)增強(qiáng)方法和正負(fù)樣本構(gòu)造方法的選擇。
2 針對事實(shí)知識(shí)提取優(yōu)化語言模型
隨著prompt的興起,預(yù)訓(xùn)練語言模型經(jīng)常被用于進(jìn)行知識(shí)抽取。構(gòu)造一個(gè)prompt模板,以完形填空的形式讓模型預(yù)測空缺位置的token,實(shí)現(xiàn)知識(shí)抽取。然而,預(yù)訓(xùn)練語言模型的抽取結(jié)果有時(shí)會(huì)很大程度上受到prompt選擇的影響,如下表所示,魯棒性較差。一個(gè)核心原因是,在訓(xùn)練語言模型的過程中,有些被mask掉的部分并不一定只有唯一一個(gè)正確答案。當(dāng)被mask部分存在多個(gè)正確答案,而模型在訓(xùn)練過程中被要求只預(yù)測一個(gè)正確答案時(shí),就會(huì)導(dǎo)致其他本來正確的答案被強(qiáng)行設(shè)置成為負(fù)樣本,進(jìn)而影響了模型效果。
Pre-training Language Models with Deterministic Factual Knowledge針對這個(gè)問題,提出了在構(gòu)造預(yù)訓(xùn)練樣本時(shí),引入知識(shí)庫對數(shù)據(jù)進(jìn)行過濾。核心是在KG中查找知識(shí)信息,看樣本中被mask掉的實(shí)體是否這段文本的描述中唯一確定的正確答案。如果是,那么這個(gè)樣本不會(huì)給語言模型帶來歧義,正常參與訓(xùn)練;否則就是一個(gè)多答案樣本,從訓(xùn)練數(shù)據(jù)中去除掉。通過這種數(shù)據(jù)過濾的方式,讓模型在訓(xùn)練階段見到的預(yù)測任務(wù)都是只有一個(gè)確定答案的,解決了多答案mask token預(yù)測的影響。
為了進(jìn)一步提升模型能力,文中提出了Clue Contrastive Learning和Clue Classification兩個(gè)任務(wù)。Clue Contrastive Learning的目標(biāo)是讓模型具備一種能力:當(dāng)上下文指向的答案是確定性的時(shí)候,就預(yù)測一個(gè)更有信心一些。通過構(gòu)造確定性樣本和非確定性樣本,以這對樣本的對比關(guān)系進(jìn)行學(xué)習(xí)。Clue Classification讓語言模型知道上下文信息中存在什么樣的線索。通過保留決定性線索、刪除決定性線索、刪除其他非決定性線性構(gòu)造三種樣本用于分類。
3 針對目標(biāo)域效果優(yōu)化語言模型
在使用預(yù)訓(xùn)練語言模型解決下游NLP任務(wù)時(shí),如果目標(biāo)任務(wù)的有l(wèi)abel數(shù)據(jù)較少,一種能提升效果的方法是先將語言模型在目標(biāo)任務(wù)domain上無監(jiān)督語料上繼續(xù)訓(xùn)練,讓語言模型適應(yīng)目標(biāo)任務(wù)的文本分布。在面對下游各類、持續(xù)增加的任務(wù)時(shí),我們需要不斷的使用新任務(wù)domain的語言訓(xùn)練語言模型。這樣做的風(fēng)險(xiǎn)可能會(huì)破壞原來語言模型學(xué)到的知識(shí),導(dǎo)致信息遺忘等問題,帶來老任務(wù)上效果的下降。
Continual Training of Language Models for Few-Shot Learning提出了一種語言模型連續(xù)學(xué)習(xí)的方法解決上述問題。核心思路是借鑒了Adapter,在語言模型中插入多個(gè)CL組件(全連接層),模型在目標(biāo)domain語言上繼續(xù)學(xué)習(xí)的過程中,只更新這些CL組件,原始的語言模型保持參數(shù)不變。在具體任務(wù)上finetune時(shí),語言模型和CL組件一起更新。
這里面的一個(gè)關(guān)鍵模塊是使用task id生成CL組件中的mask,每個(gè)任務(wù)的mask代表了哪些神經(jīng)元對于當(dāng)前任務(wù)最重要,這些神經(jīng)元會(huì)在后續(xù)新任務(wù)的訓(xùn)練中被mask掉,不進(jìn)行梯度更新,防止新任務(wù)對老任務(wù)已經(jīng)學(xué)到的信息造成影響。每次訓(xùn)練一個(gè)新任務(wù)時(shí),會(huì)把老任務(wù)的mask匯總起來控制住不更新的神經(jīng)元,并且對新的task也學(xué)習(xí)一套mask。
4 總結(jié)
本文主要介紹了3篇EMNLP 2022中和語言模型優(yōu)化相關(guān)的工作,涉及檢索、知識(shí)提取、持續(xù)學(xué)習(xí)等方面。語言模型在很多場景有各種各樣的應(yīng)用,學(xué)術(shù)界對于語言模型的優(yōu)化方向,逐漸從原來的大規(guī)模預(yù)訓(xùn)練方式、模型結(jié)構(gòu)優(yōu)化,轉(zhuǎn)向到細(xì)領(lǐng)域的針對性優(yōu)化。
-
算法
+關(guān)注
關(guān)注
23文章
4587瀏覽量
92501 -
nlp
+關(guān)注
關(guān)注
1文章
484瀏覽量
21987
原文標(biāo)題:介紹幾篇EMNLP'22的語言模型訓(xùn)練方法優(yōu)化工作
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論