0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Multi-CLS BERT:傳統(tǒng)集成的有效替代方案

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-07-04 15:47 ? 次閱讀

fe05f4e0-1981-11ee-962d-dac502259ad0.png

在本文中,介紹了Multi-CLS BERT,這是傳統(tǒng)集成方法的有效替代方案。

這種基于 CLS 的預(yù)測(cè)任務(wù)的新穎方法旨在提高準(zhǔn)確性,同時(shí)最大限度地減少計(jì)算和內(nèi)存需求。

通過利用具有不同參數(shù)化和目標(biāo)的多個(gè) CLS token,提出的方法無需微調(diào)集成中的每個(gè) BERT 模型,從而實(shí)現(xiàn)更加簡化和高效的流程。

fe1e31d6-1981-11ee-962d-dac502259ad0.png

在 GLUE 和 SuperGLUE 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),證明了 Multi-CLS BERT 在提高整體準(zhǔn)確性和置信度估計(jì)方面的可靠性。它甚至能夠在訓(xùn)練樣本有限的情況下超越更大的 BERT 模型。最后還提供了 Multi-CLS BERT 的行為和特征的分析。

fe441f5e-1981-11ee-962d-dac502259ad0.png

Multi-CLS BERT和傳統(tǒng)集成方法不同點(diǎn)是?

Multi-CLS BERT與傳統(tǒng)的集成方法不同之處在于它使用多個(gè)CLS token,并通過參數(shù)化和目標(biāo)函數(shù)來鼓勵(lì)它們的多樣性。這樣一來,就不需要對(duì)集成中的每個(gè)BERT模型進(jìn)行微調(diào),從而使整個(gè)過程更加簡化和高效。相比之下,傳統(tǒng)的集成方法需要對(duì)集成中的每個(gè)模型進(jìn)行微調(diào),并在測(cè)試時(shí)同時(shí)運(yùn)行它們。Multi-CLS BERT在行為和特性上與典型的BERT 5-way集成模型非常相似,但計(jì)算和內(nèi)存消耗幾乎減少了4倍。

在所提出的方法中使用多個(gè) CLS tokens有哪些優(yōu)點(diǎn)?

在所提出的方法中,使用多個(gè)CLS token的優(yōu)點(diǎn)在于可以鼓勵(lì)它們的多樣性,從而提高模型的準(zhǔn)確性和置信度估計(jì)。相比于傳統(tǒng)的單個(gè)CLS token,使用多個(gè)CLS token可以更好地捕捉輸入文本的不同方面和特征。

此外,Multi-CLS BERT的使用還可以減少計(jì)算和內(nèi)存消耗,因?yàn)樗恍枰獙?duì)集成中的每個(gè)BERT模型進(jìn)行微調(diào),而是只需要微調(diào)單個(gè)Multi-CLS BERT模型并在測(cè)試時(shí)運(yùn)行它。

GLUE 和 SuperGLUE 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

GLUE和SuperGLUE是兩個(gè)廣泛使用的自然語言理解基準(zhǔn)測(cè)試數(shù)據(jù)集。

在所提出的方法中,作者使用GLUE和SuperGLUE數(shù)據(jù)集來評(píng)估Multi-CLS BERT的性能。在GLUE數(shù)據(jù)集上,作者使用100個(gè)、1,000個(gè)和完整數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),并在SuperGLUE數(shù)據(jù)集上使用了相同的設(shè)置。

fe614f5c-1981-11ee-962d-dac502259ad0.png

fe9bb624-1981-11ee-962d-dac502259ad0.png

febe4e46-1981-11ee-962d-dac502259ad0.png

實(shí)驗(yàn)結(jié)果表明,Multi-CLS BERT在GLUE和SuperGLUE數(shù)據(jù)集上都能夠可靠地提高整體準(zhǔn)確性和置信度估計(jì)。在GLUE數(shù)據(jù)集中,當(dāng)只有100個(gè)訓(xùn)練樣本時(shí),Multi-CLS BERT Base模型甚至可以勝過相應(yīng)的BERT Large模型。在SuperGLUE數(shù)據(jù)集上,Multi-CLS BERT也取得了很好的表現(xiàn)。

fed96dde-1981-11ee-962d-dac502259ad0.png

總結(jié)

在這項(xiàng)工作中,作者建議使用 K 個(gè) CLS 嵌入來表示輸入文本,而不是在 BERT 中使用單個(gè) CLS 嵌入。與 BERT 相比,Multi-CLS BERT 顯著提高了 GLUE 和 SuperGLUE 分?jǐn)?shù),并減少了 GLUE 中的預(yù)期校準(zhǔn)誤差,而其唯一增加的成本是將最大文本長度減少了 K 并增加了一些額外的時(shí)間來計(jì)算插入的線性變換。因此,建議廣泛使用多個(gè) CLS 嵌入,以獲得幾乎免費(fèi)的性能增益。

為了解決 CLS 嵌入的崩潰問題,作者修改了預(yù)訓(xùn)練損失、BERT 架構(gòu)和微調(diào)損失。消融研究表明,所有這些修改都有助于 Multi-CLS BERT 性能的提高。在調(diào)查改進(jìn)來源的分析中,發(fā)現(xiàn) a) 集成原始 BERT 比集成 Multi-CLS BERT 帶來更大的改進(jìn),b) 不同 CLS 嵌入的不一致與 BERT 模型的不一致高度相關(guān)不同的微調(diào)種子。這兩項(xiàng)發(fā)現(xiàn)都支持作者的觀點(diǎn),即 Multi-CLS BERT 是一種有效的集成方法。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3112

    瀏覽量

    48660
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24619
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    285

    瀏覽量

    13320

原文標(biāo)題:ACL2023 | Multi-CLS BERT:傳統(tǒng)集成的有效替代方案

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    WAN架構(gòu)3個(gè)替代方案和挑戰(zhàn)

    如今,網(wǎng)絡(luò)組織面臨著大量且不斷增長的WAN架構(gòu)選擇。在本文中,我將討論網(wǎng)絡(luò)組織面臨的其他WAN架構(gòu)替代方案和挑戰(zhàn)。動(dòng)態(tài)多路徑能夠通過多個(gè)WAN鏈路對(duì)流量進(jìn)行負(fù)載均衡并不是一項(xiàng)新功能。但是,在傳統(tǒng)
    發(fā)表于 08-16 13:39

    便于設(shè)備編程的12Gbps多通道BERT板設(shè)計(jì)包括BOM及層圖

    描述This reference design is a 12-Gbps low-cost bit error tester (BERT) capable of generating
    發(fā)表于 09-19 08:38

    如何將代碼集成Multi IDE Project?

    我想知道是否可以使用PinMap向?qū)蒀代碼以與Multi IDE Green Hill編譯器一起使用,如果可以的話,如何將代碼集成Multi IDE Project? 提前致謝, 多米尼克
    發(fā)表于 06-21 10:05

    BERT原理詳解

    BERT原理詳解
    發(fā)表于 07-02 16:45

    串行BERT用戶指南

    A guide on using the Serial BERT
    發(fā)表于 09-23 11:01

    串行BERT編程指南

    A guide on programming the Serial BERT
    發(fā)表于 09-24 17:15

    J-BERT N4903A高性能串行BERT手冊(cè)

    Brochure for the Keysight J-BERT N4903A High-Performance Serial BERT: 4 pages
    發(fā)表于 09-26 12:17

    BERT中的嵌入層組成以及實(shí)現(xiàn)方式介紹

    介紹在本文中,我將解釋BERT中嵌入層的實(shí)現(xiàn)細(xì)節(jié),即token嵌入、Segment嵌入和Position嵌入。簡介這是一張來自論文的圖,它恰當(dāng)?shù)孛枋隽?b class='flag-5'>BERT中每一個(gè)嵌入層的功能:與大多數(shù)旨在
    發(fā)表于 11-02 15:14

    BERT模型的PyTorch實(shí)現(xiàn)

    BertModel是一個(gè)基本的BERT Transformer模型,包含一個(gè)summed token、位置和序列嵌入層,然后是一系列相同的self-attention blocks(BERT-base是12個(gè)blocks, BERT
    的頭像 發(fā)表于 11-13 09:12 ?1.4w次閱讀

    BERT得到最強(qiáng)句子Embedding的打開方式

    ? 你有嘗試從 BERT 提取編碼后的 sentence embedding 嗎?很多小伙伴的第一反應(yīng)是:不就是直接取頂層的[CLS] token的embedding作為句子表示嘛,難道還有其他套路
    的頭像 發(fā)表于 12-31 10:10 ?8699次閱讀

    自然語言處理BERTCLS的效果如何?

    要說自然語言處理在18年最?yuàn)Z目閃耀的是什么事情,那當(dāng)屬 BERT 刷新各個(gè)任務(wù)的記錄了,至今已經(jīng)過去了近兩年半的時(shí)間,但其影響力未曾衰減,無論學(xué)術(shù)界還是工業(yè)界,很多的工作與部署都圍繞其展開,對(duì)很多
    的頭像 發(fā)表于 04-04 17:01 ?9299次閱讀
    自然語言處理<b class='flag-5'>BERT</b>中<b class='flag-5'>CLS</b>的效果如何?

    DK-DEV-3CLS200N設(shè)備BOM套件

    DK-DEV-3CLS200N設(shè)備BOM套件
    發(fā)表于 05-13 14:27 ?0次下載
    DK-DEV-3<b class='flag-5'>CLS</b>200N設(shè)備BOM套件

    DK-DEV-3CLS200N設(shè)備原理圖套件

    DK-DEV-3CLS200N設(shè)備原理圖套件
    發(fā)表于 05-13 14:57 ?0次下載
    DK-DEV-3<b class='flag-5'>CLS</b>200N設(shè)備原理圖套件

    什么是BERT?為何選擇BERT?

    由于絕大多數(shù) BERT 參數(shù)專門用于創(chuàng)建高質(zhì)量情境化詞嵌入,因此該框架非常適用于遷移學(xué)習(xí)。通過使用語言建模等自我監(jiān)督任務(wù)(不需要人工標(biāo)注的任務(wù))訓(xùn)練 BERT,可以利用 WikiText 和 BookCorpus 等大型無標(biāo)記數(shù)據(jù)集
    的頭像 發(fā)表于 04-26 14:24 ?4245次閱讀

    總結(jié)FasterTransformer Encoder(BERT)的cuda相關(guān)優(yōu)化技巧

    FasterTransformer BERT 包含優(yōu)化的 BERT 模型、高效的 FasterTransformer 和 INT8 量化推理。
    的頭像 發(fā)表于 01-30 09:34 ?2162次閱讀
    總結(jié)FasterTransformer Encoder(<b class='flag-5'>BERT</b>)的cuda相關(guān)優(yōu)化技巧