在自然語(yǔ)言處理領(lǐng)域,泛化(Generalization)一直是研究人員激烈討論和競(jìng)相研究的課題。
近期,不少機(jī)構(gòu)媒體發(fā)布報(bào)道稱,機(jī)器在閱讀理解任務(wù)上,在確定某個(gè)語(yǔ)句是否在語(yǔ)義上需要另一個(gè)給定的陳述的任務(wù)上,以及在翻譯任務(wù)上的表現(xiàn)都優(yōu)于人類。由此他們給出的結(jié)論是,如果機(jī)器可以完成所有這些任務(wù),那么它們就具備真正的語(yǔ)言理解和推理能力。
但是,這根本就是假的。最近的許多研究表明,即便是最先進(jìn)的NLP模型,它的背后依然充滿脆弱和虛假。
最先進(jìn)的NLP模型很脆弱
如果我們?cè)诓桓淖冊(cè)獾幕A(chǔ)上對(duì)原文做一些修改,模型可能會(huì)出現(xiàn)錯(cuò)誤:
斯坦福大學(xué)的Jia和Liang,發(fā)現(xiàn)BiDAF模型在閱讀理解任務(wù)上存在巨大問(wèn)題
只是在末尾加了一句不改變句意的話(紅字),模型的回答就從布拉格變成了芝加哥
MIT的Belinkov和華盛頓大學(xué)的Bisk,發(fā)現(xiàn)神經(jīng)機(jī)器翻譯模型并不需要基于角色
只是微調(diào)了角色名稱,模型的BLEU分?jǐn)?shù)就暴跌了
Iyyer等人,發(fā)現(xiàn)情緒分類模型不一定需要樹(shù)形結(jié)構(gòu)的雙向LSTM
只是改變了語(yǔ)序,模型預(yù)測(cè)就從“積極”變成了“消極”
最先進(jìn)的NLP模型是虛假的
模型只會(huì)記住人為設(shè)定的規(guī)則和偏見(jiàn),但這并不是真正的學(xué)習(xí):
Gururangan等人,發(fā)現(xiàn)我們只需查看假設(shè)而不觀察前提,就能利用標(biāo)簽對(duì)超過(guò)50%的NLP數(shù)據(jù)集樣本進(jìn)行正確分類
Moosavi和Strube,發(fā)現(xiàn)共指消解模型deep-coref如果主要依賴于詞法特征,比如在帶國(guó)家/地區(qū)名稱的樣本上訓(xùn)練,那么它在不帶國(guó)家的文本上的表現(xiàn)往往會(huì)很差。同時(shí),Levy等人研究了用于識(shí)別兩個(gè)詞之間的詞匯推理關(guān)系模型,發(fā)現(xiàn)這些模型學(xué)習(xí)的不是單詞之間關(guān)系特征,而是其中某一個(gè)詞的獨(dú)立屬性:這個(gè)單詞是否是一個(gè)“原型上位詞”,如動(dòng)物。
Agrawal等人,發(fā)現(xiàn)用CNN+LSTM解決QA問(wèn)題時(shí),模型會(huì)“聽(tīng)”到一半就收斂到預(yù)測(cè)答案。也就是說(shuō),該模型很大程度上受訓(xùn)練數(shù)據(jù)中的表面相關(guān)性影響,缺乏對(duì)概念組合問(wèn)題的理解。
是搶答,還是瞎蒙?
關(guān)于改善NLP模型的研討會(huì)
綜上所述,因此,盡管在基準(zhǔn)數(shù)據(jù)集上表現(xiàn)良好,但在理解新的、從未見(jiàn)過(guò)的自然語(yǔ)言文本時(shí),現(xiàn)代NLP技術(shù)在語(yǔ)言理解和推理方面還遠(yuǎn)不及人類。這也一直是機(jī)器學(xué)習(xí)的核心挑戰(zhàn)。在之前舉辦的NAACL研討會(huì)上,與會(huì)專家圍繞這個(gè)核心討論了兩方面內(nèi)容:
我們?cè)撊绾纬浞趾饬肯到y(tǒng)在新的、從未見(jiàn)過(guò)的輸入上的表現(xiàn)?或者換句話說(shuō),我們?cè)撊绾纬浞趾饬肯到y(tǒng)的概括性?
我們?cè)撊绾涡薷哪P?,以便它擁有更好的泛化能力?/p>
這兩個(gè)問(wèn)題都很棘手,顯然,為期一天的研討會(huì)肯定討論不出什么結(jié)果。但是在會(huì)議現(xiàn)場(chǎng),一些有遠(yuǎn)見(jiàn)卓識(shí)的NLP研究人員還是探討了不少方法和想法,其中有一些尤其值得關(guān)注。在下文中,我們會(huì)介紹它們中的三個(gè)主題:巧妙地使用更多歸納偏置;努力構(gòu)建有“常識(shí)”的NLP模型;使用沒(méi)見(jiàn)過(guò)的分布和沒(méi)見(jiàn)過(guò)的任務(wù)。
主題1:巧妙使用更多歸納偏置
當(dāng)學(xué)習(xí)器遇到從未見(jiàn)過(guò)的任務(wù)時(shí),它會(huì)作出假設(shè),而歸納偏置就是用于學(xué)習(xí)輸入到輸出映射函數(shù)的一組假設(shè)。
去年,Yann LeCun和Christopher Manning曾有過(guò)一場(chǎng)辯論,他們討論的主題是我們是否應(yīng)該在深度學(xué)習(xí)系統(tǒng)的架構(gòu)中建立先驗(yàn)。Manning是將更多語(yǔ)言結(jié)構(gòu)納入深度學(xué)習(xí)系統(tǒng)的主要倡導(dǎo)者,而Yann LeCun則認(rèn)為簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠處理復(fù)雜任務(wù),他把先驗(yàn)稱為“必要之惡”,指出某些假設(shè)會(huì)限制系統(tǒng)發(fā)展。
站在Yann LeCun的立場(chǎng)上看,他有一個(gè)令人信服的論點(diǎn),即如果在現(xiàn)代模型中加入面向語(yǔ)言的偏置,這些模型在基準(zhǔn)任務(wù)上的性能往往不怎么好。但是,目前NLP領(lǐng)域還是廣泛支持Manning的說(shuō)法,ACL 2017上一個(gè)值得注意的趨勢(shì)就是在神經(jīng)結(jié)構(gòu)中引入語(yǔ)言結(jié)構(gòu)。
然而,學(xué)界對(duì)這種觀點(diǎn)的支持似乎沒(méi)有達(dá)到預(yù)期效果,這不是說(shuō)大家錯(cuò)了,而是如果想讓模型性能提高,現(xiàn)有偏置必須被整合歸納成全新的形式,按Manning的話來(lái)講,就是:
我們應(yīng)該收集更多的歸納偏置。正是因?yàn)閷?duì)如何添加歸納偏置一無(wú)所知,我們才要做數(shù)據(jù)增強(qiáng)、創(chuàng)建偽訓(xùn)練數(shù)據(jù)編碼這些偏置。盡管這似乎是一種奇怪的做事方式。
這也是Yejin Choi在自然語(yǔ)言生成(NLG)任務(wù)上遇到的問(wèn)題。她在會(huì)議上展示了由常規(guī)語(yǔ)言模型——一個(gè)帶集束搜索解碼器的門(mén)控RNN生成的評(píng)論樣本。
自然語(yǔ)言輸入:
All in all, I would highly recommend this hotel to anyone who wants to be in the heart of the action.
不自然的輸出,重復(fù)、矛盾、平淡:
All in all, I would highly recommend this hotel to anyone who wants to be in the heart of the action, and want to be in the heart of the action. If you want to be in the heart of the action, this is not the place for you. However, if you want to be in the middle of the action, this is the place to be.
在她看來(lái),當(dāng)前的語(yǔ)言模型正在生成不自然的語(yǔ)言,因?yàn)樗鼈兪牵?/p>
被動(dòng)學(xué)習(xí)者。雖然同樣是閱讀文本并生成輸出,人類學(xué)習(xí)者可以把適當(dāng)?shù)恼Z(yǔ)言標(biāo)準(zhǔn)(如相關(guān)性、風(fēng)格、重復(fù)和蘊(yùn)涵)反映到生成的內(nèi)容中,但模型不能。換句話說(shuō),它們不“練習(xí)”寫(xiě)作。
表面學(xué)習(xí)者。它們不會(huì)捕捉事實(shí)、實(shí)體、事件和活動(dòng)之間的高階關(guān)系,這對(duì)人類來(lái)說(shuō)可能是語(yǔ)言理解的關(guān)鍵線索。換句話說(shuō),它們不了解我們的世界。
如果我們鼓勵(lì)模型用特定的損失函數(shù)以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)語(yǔ)言特征,那么它確實(shí)正在“練習(xí)”寫(xiě)作。相比自然語(yǔ)言理解(NLU),這種方法更好,因?yàn)镹LU一般只處理自然語(yǔ)言,它并不能理解機(jī)器語(yǔ)言,比如上述輸出這類重復(fù)、矛盾、平淡的表達(dá)。用無(wú)法理解機(jī)器語(yǔ)言的先驗(yàn)教模型生成自然語(yǔ)言是沒(méi)有意義的。
總之,我們應(yīng)該改進(jìn)的是這些偏置的數(shù)據(jù)驅(qū)動(dòng)方法,而不是開(kāi)發(fā)引入結(jié)構(gòu)偏置的新型神經(jīng)架構(gòu)。
事實(shí)上,自然語(yǔ)言生成(NLG)并不是需要優(yōu)化學(xué)習(xí)器的唯一NLP任務(wù)。在機(jī)器翻譯中,目前涉及優(yōu)化的一個(gè)嚴(yán)重問(wèn)題在于模型訓(xùn)練,在訓(xùn)練過(guò)程中我們要用到交叉熵之類的損失函數(shù),但這些函數(shù)已經(jīng)被證明存在偏差, 而且和人類判斷不充分相關(guān)。只要我們使用這種簡(jiǎn)單的度量標(biāo)準(zhǔn)訓(xùn)練我們的模型,模型的預(yù)測(cè)就一定會(huì)和人類判斷存在不匹配。
因此,考慮到任務(wù)目標(biāo)過(guò)于復(fù)雜,強(qiáng)化學(xué)習(xí)似乎成了NLP的一個(gè)完美選擇,因?yàn)樗试S模型通過(guò)反復(fù)試驗(yàn)在模擬環(huán)境中學(xué)習(xí)類似人類的監(jiān)督信號(hào)(“獎(jiǎng)勵(lì)”)。
主題2:常識(shí)性知識(shí)
雖然“常識(shí)”在人類眼里很常見(jiàn),但我們很難把它教給機(jī)器,比如為什么要進(jìn)行對(duì)話?為什么要回復(fù)電子郵件?為什么要總結(jié)文檔?
這些任務(wù)的輸入和輸出之間缺乏一對(duì)一的映射,如果要解決它們,機(jī)器首先要建立起關(guān)于人類世界的整體認(rèn)知,無(wú)論是知識(shí)、總結(jié)還是推理。換句話說(shuō),只要模式匹配(現(xiàn)代NLP)沒(méi)有掌握人類“常識(shí)”的概念,它們就不可能解決這些問(wèn)題。
Choi用一個(gè)簡(jiǎn)單但有效的新聞標(biāo)題“Cheeseburger stabbing”來(lái)說(shuō)明這一點(diǎn)。
在這里,只知道“stabbing”和名詞“Cheeseburger”之間的依賴關(guān)系是不足以理解其中的真正含義的。把這個(gè)標(biāo)題輸入模型后,機(jī)器可能會(huì)據(jù)此提出幾個(gè)合理的問(wèn)題:
有人因?yàn)橹ナ繚h堡上刺傷了其他人? 有人刺傷了一個(gè)芝士漢堡? 一個(gè)芝士漢堡刺傷了某人? 這個(gè)芝士漢堡刺傷了另一個(gè)芝士漢堡?
這實(shí)際上是一篇男子因?yàn)闈h堡發(fā)生爭(zhēng)執(zhí)而刺傷母親的報(bào)道。如果機(jī)器有社會(huì)、生理常識(shí),它們就不會(huì)問(wèn)出荒謬的問(wèn)題。因?yàn)樯鐣?huì)常識(shí)會(huì)告訴它,第一個(gè)選項(xiàng)是合理的,因?yàn)榇虃橙擞绊憪毫?,有新聞價(jià)值,而刺傷漢堡沒(méi)有人會(huì)關(guān)心。而“生理常識(shí)”會(huì)告訴它,漢堡是不能被作為兇器刺傷別人的。
除了整合常識(shí)性知識(shí),Choi還建議把“通過(guò)標(biāo)簽理解”改成“通過(guò)模擬理解”,因?yàn)榍罢咧魂P(guān)注“說(shuō)了什么”,后者模擬了文本隱含的因果效應(yīng),不僅包含“說(shuō)了什么”,也包含“沒(méi)有說(shuō)出口但表達(dá)了什么”。下面是一個(gè)說(shuō)明隱含因果效應(yīng)對(duì)預(yù)測(cè)很重要的示例:
根據(jù)食譜上“將藍(lán)莓添加到松餅混合物中,然后烘烤半小時(shí)”的說(shuō)法,智能體必須能預(yù)測(cè)這樣一些必要的事實(shí),例如藍(lán)莓現(xiàn)在正在烤箱中;混合物的溫度會(huì)上升。
此外,在完型填空式的閱讀理解任務(wù)中,目前模型推斷答案所需的大部分信息都來(lái)自給定的故事,但如果有額外的常識(shí)性知識(shí),效果會(huì)更好。
需要常識(shí)的完型填空式閱讀理解
很可惜,我們必須承認(rèn),現(xiàn)代NLP技術(shù)的工作方式就像“沒(méi)有大腦的嘴”。為了改變這一點(diǎn),我們必須為他們提供常識(shí),并教導(dǎo)他們推理未說(shuō)但隱含的內(nèi)容。
RNN是“沒(méi)有大腦的嘴”嗎?
主題3:評(píng)估未知的分布和未知的任務(wù)
用監(jiān)督學(xué)習(xí)解決問(wèn)題的標(biāo)準(zhǔn)方法包括以下步驟:
決定如何標(biāo)記數(shù)據(jù);
手動(dòng)標(biāo)記數(shù)據(jù);
將標(biāo)記的數(shù)據(jù)分成訓(xùn)練集、測(cè)試集和驗(yàn)證集,保證它們的數(shù)據(jù)分布盡量一致;
覺(jué)得如何表示輸入;
學(xué)習(xí)從輸入到輸出的映射函數(shù);
根據(jù)失當(dāng)度量,用測(cè)試集檢驗(yàn)?zāi)P蛯W(xué)習(xí)效果。
按照這種方法,如果我們要解決下圖這個(gè)問(wèn)題,我們需要標(biāo)記數(shù)據(jù),訓(xùn)練識(shí)別目標(biāo)的模型,考慮多種表征和解釋(圖片、文本、分布、拼寫(xiě)、語(yǔ)音),并將它們放在一起。直到模型最終確定一個(gè)“最佳”全局解,并讓人類對(duì)這個(gè)解感到滿意。
一個(gè)很難標(biāo)記的輸入樣本
Dan Roth認(rèn)為:
現(xiàn)有標(biāo)準(zhǔn)方法不可擴(kuò)展。我們永遠(yuǎn)不會(huì)有足夠的標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練針對(duì)所有任務(wù)的所有模型。為了解決上圖中的難題,一種方法是訓(xùn)練5個(gè)不同的組件然后合并,另一種方法是需要大量數(shù)據(jù)來(lái)訓(xùn)練端到端模型。盡管可以使用諸如ImageNet之類的可用資源來(lái)解決圖像識(shí)別,但這個(gè)預(yù)測(cè)結(jié)果并不能反映在這個(gè)語(yǔ)境下,單詞“world”比單詞“globe”更好。即便我們有大量注釋人員每天不停工作,他們的速度也趕不上流行文化數(shù)據(jù)更新的速度。
如果訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分布相似,那其實(shí)任何有足夠訓(xùn)練數(shù)據(jù)的模型都能完成這個(gè)任務(wù)。但是,如果是訓(xùn)練集、測(cè)試集、驗(yàn)證集中從未出現(xiàn)過(guò)的新事物,那么為了確保模型性能,我們必須設(shè)計(jì)一個(gè)更“正確”的方案。
在訓(xùn)練和測(cè)試過(guò)程中推斷相同的任務(wù)被稱為domain adaptation,這是近幾年很多人關(guān)注的一個(gè)點(diǎn)。
一些人開(kāi)始嘗試在訓(xùn)練和測(cè)試過(guò)程中推斷不同任務(wù)。比如李等人訓(xùn)練了一個(gè)只用給定句子的屬性標(biāo)簽就能完成文本屬性轉(zhuǎn)變的模型,不需要在語(yǔ)料庫(kù)中對(duì)具有不同屬性和相同內(nèi)容的句子配對(duì)。換句話說(shuō),他們訓(xùn)練了一個(gè)模型,它先作為分類器預(yù)測(cè)句子數(shù)據(jù),之后再進(jìn)行文本屬性轉(zhuǎn)變。同樣的,Selsam等人訓(xùn)練了一個(gè)學(xué)習(xí)解決SAT問(wèn)題的模型,也是先分類,再具體解決。
值得注意的是,兩種模型都大量使用了歸納偏置,前者使用的假設(shè)是屬性通常表現(xiàn)在局部判別性短語(yǔ)中;后者則捕獲了調(diào)查傳播的歸納偏差。
此外,研討會(huì)還討論了要不要構(gòu)建“壓力測(cè)試數(shù)據(jù)集”。它不同于基準(zhǔn)測(cè)試,檢驗(yàn)的是模型的超水平發(fā)揮,以便觀察它的泛化性能。
模型只有在解決了更容易的案例之后才有機(jī)會(huì)解決更難的問(wèn)題,所以根據(jù)難度對(duì)樣本進(jìn)行分類是合理的。但是,考慮到現(xiàn)在我們還不清楚哪些問(wèn)題是模型確實(shí)難以解決的,如果一開(kāi)始就把“更難”的問(wèn)題定義為模型無(wú)法解決的問(wèn)題,那這種方法就有潛在危險(xiǎn)。
小結(jié)
綜合全文,我們可以對(duì)這屆NAACL研討會(huì)做出一下總結(jié):
我們應(yīng)該使用更多的歸納偏置,但是我們必須找出將它們集成到神經(jīng)架構(gòu)中的最合適的方法,這樣它們才能真正實(shí)現(xiàn)預(yù)期的改進(jìn)。
我們必須通過(guò)一些類似人類的常識(shí)概念來(lái)增強(qiáng)最先進(jìn)的NLP模型,使它們能夠捕捉事實(shí)、實(shí)體、事件或活動(dòng)之間的高階關(guān)系。但是挖掘常識(shí)是具有挑戰(zhàn)性的,因此我們需要新的、創(chuàng)造性的方法。
最后,我們應(yīng)該處理未知的分布和未知的任務(wù),否則只要數(shù)據(jù)夠,無(wú)論什么模型都能解決問(wèn)題。顯然,訓(xùn)練這樣的模型更難,結(jié)果也不會(huì)立竿見(jiàn)影。所以作為研究人員,我們必須大膽地開(kāi)發(fā)這樣的模型,作為審稿人,我們不應(yīng)該懲罰那些試圖這樣做的工作。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24621 -
nlp
+關(guān)注
關(guān)注
1文章
486瀏覽量
21987
原文標(biāo)題:NAACL研討會(huì)深思:NLP泛化模型背后的虛假和脆弱
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論