在本文中,介紹了Multi-CLS BERT,這是傳統(tǒng)集成方法的有效替代方案。
這種基于 CLS 的預(yù)測(cè)任務(wù)的新穎方法旨在提高準(zhǔn)確性,同時(shí)最大限度地減少計(jì)算和內(nèi)存需求。
通過利用具有不同參數(shù)化和目標(biāo)的多個(gè) CLS token,提出的方法無需微調(diào)集成中的每個(gè) BERT 模型,從而實(shí)現(xiàn)更加簡化和高效的流程。
在 GLUE 和 SuperGLUE 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),證明了 Multi-CLS BERT 在提高整體準(zhǔn)確性和置信度估計(jì)方面的可靠性。它甚至能夠在訓(xùn)練樣本有限的情況下超越更大的 BERT 模型。最后還提供了 Multi-CLS BERT 的行為和特征的分析。
Multi-CLS BERT和傳統(tǒng)集成方法不同點(diǎn)是?
Multi-CLS BERT與傳統(tǒng)的集成方法不同之處在于它使用多個(gè)CLS token,并通過參數(shù)化和目標(biāo)函數(shù)來鼓勵(lì)它們的多樣性。這樣一來,就不需要對(duì)集成中的每個(gè)BERT模型進(jìn)行微調(diào),從而使整個(gè)過程更加簡化和高效。相比之下,傳統(tǒng)的集成方法需要對(duì)集成中的每個(gè)模型進(jìn)行微調(diào),并在測(cè)試時(shí)同時(shí)運(yùn)行它們。Multi-CLS BERT在行為和特性上與典型的BERT 5-way集成模型非常相似,但計(jì)算和內(nèi)存消耗幾乎減少了4倍。
在所提出的方法中使用多個(gè) CLS tokens有哪些優(yōu)點(diǎn)?
在所提出的方法中,使用多個(gè)CLS token的優(yōu)點(diǎn)在于可以鼓勵(lì)它們的多樣性,從而提高模型的準(zhǔn)確性和置信度估計(jì)。相比于傳統(tǒng)的單個(gè)CLS token,使用多個(gè)CLS token可以更好地捕捉輸入文本的不同方面和特征。
此外,Multi-CLS BERT的使用還可以減少計(jì)算和內(nèi)存消耗,因?yàn)樗恍枰獙?duì)集成中的每個(gè)BERT模型進(jìn)行微調(diào),而是只需要微調(diào)單個(gè)Multi-CLS BERT模型并在測(cè)試時(shí)運(yùn)行它。
GLUE 和 SuperGLUE 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
GLUE和SuperGLUE是兩個(gè)廣泛使用的自然語言理解基準(zhǔn)測(cè)試數(shù)據(jù)集。
在所提出的方法中,作者使用GLUE和SuperGLUE數(shù)據(jù)集來評(píng)估Multi-CLS BERT的性能。在GLUE數(shù)據(jù)集上,作者使用100個(gè)、1,000個(gè)和完整數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),并在SuperGLUE數(shù)據(jù)集上使用了相同的設(shè)置。
實(shí)驗(yàn)結(jié)果表明,Multi-CLS BERT在GLUE和SuperGLUE數(shù)據(jù)集上都能夠可靠地提高整體準(zhǔn)確性和置信度估計(jì)。在GLUE數(shù)據(jù)集中,當(dāng)只有100個(gè)訓(xùn)練樣本時(shí),Multi-CLS BERT Base模型甚至可以勝過相應(yīng)的BERT Large模型。在SuperGLUE數(shù)據(jù)集上,Multi-CLS BERT也取得了很好的表現(xiàn)。
總結(jié)
在這項(xiàng)工作中,作者建議使用 K 個(gè) CLS 嵌入來表示輸入文本,而不是在 BERT 中使用單個(gè) CLS 嵌入。與 BERT 相比,Multi-CLS BERT 顯著提高了 GLUE 和 SuperGLUE 分?jǐn)?shù),并減少了 GLUE 中的預(yù)期校準(zhǔn)誤差,而其唯一增加的成本是將最大文本長度減少了 K 并增加了一些額外的時(shí)間來計(jì)算插入的線性變換。因此,建議廣泛使用多個(gè) CLS 嵌入,以獲得幾乎免費(fèi)的性能增益。
為了解決 CLS 嵌入的崩潰問題,作者修改了預(yù)訓(xùn)練損失、BERT 架構(gòu)和微調(diào)損失。消融研究表明,所有這些修改都有助于 Multi-CLS BERT 性能的提高。在調(diào)查改進(jìn)來源的分析中,發(fā)現(xiàn) a) 集成原始 BERT 比集成 Multi-CLS BERT 帶來更大的改進(jìn),b) 不同 CLS 嵌入的不一致與 BERT 模型的不一致高度相關(guān)不同的微調(diào)種子。這兩項(xiàng)發(fā)現(xiàn)都支持作者的觀點(diǎn),即 Multi-CLS BERT 是一種有效的集成方法。
-
模型
+關(guān)注
關(guān)注
1文章
3112瀏覽量
48660 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24619 -
自然語言
+關(guān)注
關(guān)注
1文章
285瀏覽量
13320
原文標(biāo)題:ACL2023 | Multi-CLS BERT:傳統(tǒng)集成的有效替代方案
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論