不知道大家在平時(shí)使用時(shí)有沒有發(fā)現(xiàn),BERT的上下文嵌入非?!喊嘿F』,并且可能無法在所有情況下帶來價(jià)值。分享一篇ACL2020的論文,介紹了一些思路。
論文:Contextual Embeddings: When Are They Worth It?
代碼:https://github.com/HazyResearch/random_embedding
寫在前面
諸如BERT或其改進(jìn)后代之類的SOTA模型,使用起來十分"昂貴"。僅僅是預(yù)訓(xùn)練的『BERT-base』模型(用今天的標(biāo)準(zhǔn)幾乎可以認(rèn)為是很小的模型),也需要在16個(gè)TPU芯片上花費(fèi)了超過4天的時(shí)間,而這需要花費(fèi)數(shù)千美元。這甚至都沒有考慮對模型進(jìn)行進(jìn)一步的微調(diào)或最終使用,這兩者都只會增加最終的總成本。
與其嘗試找出創(chuàng)建更小的Transformer模型的方法(如何修剪BERT達(dá)到加速目的?理論與實(shí)現(xiàn)),不如退后一步去問:「基于Transformer模型的上下文嵌入何時(shí)真正值得使用?」在什么情況下,使用GloVe或甚至是隨機(jī)嵌入等計(jì)算成本較低的非上下文嵌入(non-contextual embeddings ),可能達(dá)到類似的性能?
這些是Arora等人提出的一些問題,而答案就在他們的研究中:Contextual Embeddings: When Are They Worth It[1]?本文將概述他們的研究并重點(diǎn)介紹他們的主要發(fā)現(xiàn)。
研究內(nèi)容
該研究分為兩個(gè)部分,首先檢查訓(xùn)練數(shù)據(jù)量的影響,然后檢查這些數(shù)據(jù)集的語言特性。
訓(xùn)練數(shù)據(jù)大小
作者發(fā)現(xiàn),在決定BERT-embedding和Glove-embedding的效果性能方面,訓(xùn)練數(shù)據(jù)量起著關(guān)鍵作用。通過使用更多的訓(xùn)練數(shù)據(jù),非上下文嵌入很快得到了改善,并且在使用所有可用數(shù)據(jù)時(shí),通常能夠在BERT模型用時(shí)的5-10%之內(nèi)完成。
另一方面,作者發(fā)現(xiàn)在某些情況下,可以用少于16倍的數(shù)據(jù)來訓(xùn)練上下文化嵌入,同時(shí)仍然與非上下文化嵌入所獲得的最佳性能相當(dāng)。這就需要在推理(計(jì)算和內(nèi)存)和標(biāo)記數(shù)據(jù)的成本之間進(jìn)行了權(quán)衡,或者如Arora等人所說:
ML practitioners may find that for certain real-world tasks the large gains in efficiency [when using non-contextual embeddings] are well worth the cost of labelling more data. ——— Arora et al
數(shù)據(jù)集的語言特性
對訓(xùn)練數(shù)據(jù)量的研究表明,在某些任務(wù)中,上下文嵌入比非上下文嵌入的表現(xiàn)要好得多,而在其他情況下,這些差異要小得多。這些結(jié)果激發(fā)了作者們的思考,是否有可能找到并量化語言特性,以表明這種情況何時(shí)發(fā)生。
為此,他們定義了三個(gè)度量標(biāo)準(zhǔn),用于量化每個(gè)數(shù)據(jù)集的特征。根據(jù)設(shè)計(jì),這些度量沒有給出一個(gè)單一的定義,而是用來編碼哪些特征影響模型性能的直覺。這使得我們可以對它們進(jìn)行解釋,然后對它們進(jìn)行嚴(yán)格的定義,以用于我們研究的任務(wù)。因此,下面以命名實(shí)體識別數(shù)據(jù)集舉例作者提出的指標(biāo):
文本結(jié)構(gòu)的復(fù)雜性:表示一個(gè)句子中詞與詞之間的依賴性。在NER中表現(xiàn)為每個(gè)實(shí)體跨越的token數(shù)量,如“George Washington”橫跨兩個(gè)token。
詞義模糊:每個(gè)token在訓(xùn)練數(shù)據(jù)集中分配的不同標(biāo)簽的數(shù)量,如“Washington”可以指定人員、地點(diǎn)和組織,這需要考慮到它的背景。
未出現(xiàn)詞的流行度:表示在訓(xùn)練過程出現(xiàn)從未見過詞的概率。在NER中定義為token出現(xiàn)次數(shù)的倒數(shù)。
這些指標(biāo)被用來給數(shù)據(jù)集中的每一項(xiàng)打分,以便我們將它們分成“困難”和“容易”。這使得我們能夠比較來自同一數(shù)據(jù)集的這兩個(gè)分區(qū)的嵌入性能。
如果這些指標(biāo)是非信息性的,那么這兩個(gè)分區(qū)的性能差異將是相等的。幸運(yùn)的是,作者們發(fā)現(xiàn)并非如此。相反,他們觀察到,在42個(gè)案例中,有30個(gè)案例,上下文嵌入和非上下文嵌入之間的差異在困難分區(qū)?上高于簡單分區(qū)。
這意味著,這些指標(biāo)可以作為一個(gè)代理,來自BERT之類模型的上下文嵌入將優(yōu)于非上下文嵌入!然而,從另一個(gè)角度來看,它可能更有用——用于指示來自glove的非上下文嵌入何時(shí)足以達(dá)到最先進(jìn)的性能。
結(jié)論
在研究Contextual Embeddings: When Are They Worth It? 中,Arora等人強(qiáng)調(diào)了數(shù)據(jù)集的關(guān)鍵特征,這些特征指示上下文嵌入何時(shí)值得使用。首先,訓(xùn)練數(shù)據(jù)集大小決定了非上下文化嵌入的潛在有用性,即越多越好。其次,數(shù)據(jù)集的特征也起著重要作用。作者定義了三個(gè)指標(biāo),即文本結(jié)構(gòu)的復(fù)雜性,詞匯使用的模糊性,以及未出現(xiàn)詞的流行度,這有助于我們理解使用上下文嵌入可能帶來的潛在好處。
-
模型
+關(guān)注
關(guān)注
1文章
3116瀏覽量
48661 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24621 -
文本
+關(guān)注
關(guān)注
0文章
118瀏覽量
17056 -
Transformer
+關(guān)注
關(guān)注
0文章
139瀏覽量
5968
原文標(biāo)題:ACL2020 | 什么時(shí)候值得用BERT上下文嵌入
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論