0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

微調(diào)前給預訓練模型參數(shù)增加噪音提高效果的方法

深度學習自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-06-07 09:57 ? 次閱讀

寫在前面

昨天看完NoisyTune論文,做好實驗就來了。一篇ACL2022通過微調(diào)前給預訓練模型參數(shù)增加噪音提高預訓練語言模型在下游任務的效果方法-NoisyTune,論文全稱《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址:https://aclanthology.org/2022.acl-short.76.pdf

由于僅加兩行代碼就可以實現(xiàn),就在自己的數(shù)據(jù)上進行了實驗,發(fā)現(xiàn)確實有所提高,為此分享給大家;不過值得注意的是,「不同數(shù)據(jù)需要加入噪音的程度是不同」,需要自行調(diào)參。

模型

自2018年BERT模型橫空出世,預訓練語言模型基本上已經(jīng)成為了自然語言處理領域的標配,「pretrain+finetune」成為了主流方法,下游任務的效果與模型預訓練息息相關(guān);然而由于預訓練機制以及數(shù)據(jù)影響,導致預訓練語言模型與下游任務存在一定的Gap,導致在finetune過程中,模型可能陷入局部最優(yōu)。

為了減輕上述問題,提出了NoisyTune方法,即,在finetune前加入給預訓練模型的參數(shù)增加少量噪音,給原始模型增加一些擾動,從而提高預訓練語言模型在下游任務的效果,如下圖所示,

43feda12-e589-11ec-ba43-dac502259ad0.png

通過矩陣級擾動(matrix-wise perturbing)方法來增加噪聲,定義預訓練語言模型參數(shù)矩陣為,其中,表示模型中參數(shù)矩陣的個數(shù),擾動如下:

其中,表示從到范圍內(nèi)均勻分布的噪聲;表示控制噪聲強度的超參數(shù);表示標準差。

代碼實現(xiàn)如下:

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())?0.5)*noise_lambda*torch.std(para)

這種增加噪聲的方法,可以應用到各種預訓練語言模型中,可插拔且操作簡單。

如下表所示,在BERT、XLNET、RoBERTa和ELECTRA上均取得不錯的效果。

444e5060-e589-11ec-ba43-dac502259ad0.png

并且比較的四種不同增加噪聲的方法,發(fā)現(xiàn)在矩陣級均勻噪聲最優(yōu)。

448791e0-e589-11ec-ba43-dac502259ad0.png

在不同數(shù)據(jù)量下,NoisyTune方法相對于finetune均有所提高。

44bb1fec-e589-11ec-ba43-dac502259ad0.png

在不同噪聲強度下,效果提升不同,對于GLUE數(shù)據(jù)集,在0.1-0.15間為最佳。

44f1b2f0-e589-11ec-ba43-dac502259ad0.png

總結(jié)

蠻有意思的一篇論文,加入少量噪音,提高下游微調(diào)效果,并且可插拔方便易用,可以納入到技術(shù)庫中。

本人在自己的中文數(shù)據(jù)上做了一些實驗,發(fā)現(xiàn)結(jié)果也是有一些提高的,一般在0.3%-0.9%之間,但是噪聲強度在0.2時最佳,并且在噪聲強度小于0.1或大于0.25后,會比原始效果差。個人實驗結(jié)果,僅供參考。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 噪音
    +關(guān)注

    關(guān)注

    1

    文章

    169

    瀏覽量

    23868
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3121

    瀏覽量

    48663
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    603

    瀏覽量

    13487

原文標題:ACL2022 | NoisyTune:微調(diào)前加入少量噪音可能會有意想不到的效果

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    PyTorch GPU 加速訓練模型方法

    在深度學習領域,GPU加速訓練模型已經(jīng)成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和
    的頭像 發(fā)表于 11-05 17:43 ?415次閱讀

    訓練和遷移學習的區(qū)別和聯(lián)系

    訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定
    的頭像 發(fā)表于 07-11 10:12 ?747次閱讀

    大語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標簽數(shù)據(jù)上進行訓練,使模型學習到語言的通用知識
    的頭像 發(fā)表于 07-11 10:11 ?368次閱讀

    模型為什么要微調(diào)?大模型微調(diào)的原理

    在人工智能(AI)領域,特別是自然語言處理(NLP)領域,大模型(如BERT、GPT系列等)的出現(xiàn)為許多復雜任務提供了強大的解決方案。然而,這些訓練的大模型雖然具有廣泛的適用性,但在
    的頭像 發(fā)表于 07-10 10:43 ?3303次閱讀

    人臉識別模型訓練失敗原因有哪些

    : 1.1 數(shù)據(jù)量不足 人臉識別模型需要大量的數(shù)據(jù)進行訓練,以提高模型的泛化能力。如果數(shù)據(jù)量不足,模型可能無法學習到足夠的特征,導致
    的頭像 發(fā)表于 07-04 09:17 ?513次閱讀

    訓練模型的基本原理和應用

    訓練好的模型,這些模型通常在某些通用任務上表現(xiàn)出色,并且可以作為后續(xù)特定任務的起點,通過遷移學習或微調(diào)(Fine-tuning)等方式進行適應和優(yōu)化。以下是對
    的頭像 發(fā)表于 07-03 18:20 ?2152次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    。 關(guān)于大語言模型是否具備與人類“系統(tǒng)2”相似的能力,存在廣泛的爭議。然而,隨著模型參數(shù)量的增加和大規(guī)模
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型訓練

    如此卓越的性能,就是通過其核心能力對海量數(shù)據(jù)進行訓練,再進行微調(diào)或?qū)ζ涫裁葱透玫母鶕?jù)人類的指令和偏好,發(fā)揮這些性能。隨著語言模型參數(shù)的不
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術(shù)

    特定任務對模型進行微調(diào)。這種方法的成功不僅是自然語言處理發(fā)展的一個轉(zhuǎn)折點,還為許多現(xiàn)實世界的應用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術(shù)綜述

    訓練微調(diào),直到模型的部署和性能評估。以下是對這些技術(shù)的綜述: 模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡架構(gòu),最常見的是Transf
    發(fā)表于 05-05 10:56

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    更好地擬合訓練數(shù)據(jù),并在推理和泛化時表現(xiàn)出色。此外,特征復用通過共享參數(shù)提高效率和性能,使得大語言模型能夠更有效地利用學到的特征。最后,優(yōu)化效果
    發(fā)表于 05-04 23:55

    基于雙級優(yōu)化(BLO)的消除過擬合的微調(diào)方法

    這篇論文試圖解決的問題是大型訓練模型在下游任務中進行微調(diào)時出現(xiàn)的過擬合問題。盡管低秩適應(LoRA)及其變體通過學習低秩增量矩陣有效地減少了與完全
    的頭像 發(fā)表于 04-02 16:46 ?621次閱讀
    基于雙級優(yōu)化(BLO)的消除過擬合的<b class='flag-5'>微調(diào)</b><b class='flag-5'>方法</b>

    名單公布!【書籍評測活動NO.30】大規(guī)模語言模型:從理論到實踐

    一階段訓練的獎勵模型,對有監(jiān)督微調(diào)模型對用戶提示詞補全結(jié)果的質(zhì)量進行評估,與語言模型建模目標綜合得到更好的
    發(fā)表于 03-11 15:16

    混合專家模型 (MoE)核心組件和訓練方法介紹

    ): 與稠密模型相比,訓練速度更快 與具有相同參數(shù)數(shù)量的模型相比,具有更快的推理速度 需要大量顯存,因為所有專家系統(tǒng)都需要加載到內(nèi)存中 在
    的頭像 發(fā)表于 01-13 09:37 ?1149次閱讀
    混合專家<b class='flag-5'>模型</b> (MoE)核心組件和<b class='flag-5'>訓練方法</b>介紹

    四種微調(diào)模型方法介紹

    微調(diào)(Full Fine-tuning):全微調(diào)是指對整個訓練模型進行微調(diào),包括所有的
    發(fā)表于 01-03 10:57 ?2.3w次閱讀
    四種<b class='flag-5'>微調(diào)</b>大<b class='flag-5'>模型</b>的<b class='flag-5'>方法</b>介紹