0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于優(yōu)化的元學(xué)習(xí)方法

深度學(xué)習(xí)自然語言處理 ? 來源:哈工大SCIR ? 作者:哈工大SCIR ? 2022-12-15 15:19 ? 次閱讀

1. 簡介

Prompt通過將輸入文本填入預(yù)設(shè)prompt模板的方式,將下游NLP任務(wù)形式與語言模型預(yù)訓(xùn)練任務(wù)統(tǒng)一起來,來更好地利用預(yù)訓(xùn)練階段學(xué)習(xí)到的知識(shí),使模型更容易適應(yīng)于下游任務(wù),在一系列NLP任務(wù)上取得了很好的效果[1]。Soft prompt方法使用可學(xué)習(xí)的參數(shù)來替代prompt模板中固定的token,盡管在少標(biāo)注文本分類任務(wù)上性能優(yōu)異[2],但是其表現(xiàn)隨模型初始化參數(shù)不同會(huì)出現(xiàn)很大的波動(dòng)[1, 3]。人工選擇soft prompt模型參數(shù)需要對(duì)語言模型內(nèi)部工作機(jī)理的深入理解和大量試錯(cuò),并且在遇到不同少標(biāo)注任務(wù)時(shí)難以復(fù)用。

e59393fc-7c3f-11ed-8abf-dac502259ad0.png

圖1 MetaPrompting幫助模型找到一個(gè)更優(yōu)參數(shù)初始化點(diǎn),以更快、更好地適應(yīng)于新的少標(biāo)注任務(wù)

為了解決上述問題,本文將目光從任務(wù)專用的soft prompt模型設(shè)計(jì)轉(zhuǎn)移到任務(wù)通用的模型參數(shù)初始化點(diǎn)搜索,以幫助模型快速適應(yīng)到不同的少標(biāo)注任務(wù)上。本文采用近年提出的基于優(yōu)化的元學(xué)習(xí)方法,例如MAML[4]、Reptile[5]等,來搜索更優(yōu)的soft prompt模型參數(shù)初始化點(diǎn),以解決模型對(duì)初始化點(diǎn)過于敏感的問題。

本文在四個(gè)常用的少標(biāo)注文本分類數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn),結(jié)果表明MetaPrompting相比其他基于元學(xué)習(xí)和prompt方法的強(qiáng)基線模型取得了更好的效果,達(dá)到了新的SOTA。

2. 方法

2.1 Soft prompt方法

Prompt方法通過將下游任務(wù)轉(zhuǎn)化成語言模型預(yù)訓(xùn)練目標(biāo)的形式,幫助模型更好地在下游任務(wù)上發(fā)揮性能。如圖2所示,對(duì)于一個(gè)新聞文本分類任務(wù),可以通過將輸入文本填入prompt模板的方式,將該文本分類任務(wù)轉(zhuǎn)化為MLM任務(wù)形式。之后將模型在[MASK]位置填入各個(gè)詞語的概率映射到不同標(biāo)簽上,即可完成文本分類任務(wù)的處理。

Soft prompt模型中,部分prompt tokens以可訓(xùn)練embedding的形式給出,并可以和預(yù)訓(xùn)練模型的參數(shù)一起進(jìn)行優(yōu)化,在保留離散token中語義信息的同時(shí),給予模型更多的靈活性。

e5ad9fe0-7c3f-11ed-8abf-dac502259ad0.png

圖2 Soft prompt方法

2.2 將基于優(yōu)化的元學(xué)習(xí)方法應(yīng)用于soft prompt模型

少標(biāo)注任務(wù)構(gòu)建

本文使用元階段(episode)風(fēng)格的少標(biāo)注學(xué)習(xí)范式。具體而言,每一個(gè)少標(biāo)注任務(wù)包含支持集和查詢集兩個(gè)部分,支持集中每個(gè)類別所對(duì)應(yīng)標(biāo)注樣本數(shù)量極少,本文通過將模型在支持集上進(jìn)行適配,在查詢集上進(jìn)行測試的方法,衡量模型的少標(biāo)注學(xué)習(xí)性能。本文將不同標(biāo)簽對(duì)應(yīng)的樣本分別劃分成用于訓(xùn)練、驗(yàn)證和測試的少標(biāo)注任務(wù),以衡量模型從源領(lǐng)域?qū)W習(xí)通用元知識(shí)來處理目標(biāo)領(lǐng)域少標(biāo)注任務(wù)的能力。

基于元學(xué)習(xí)的soft prompt模型優(yōu)化過程

MetaPrompting的整體優(yōu)化過程如圖3所示。元訓(xùn)練階段,模型在少標(biāo)注任務(wù)的支持集上進(jìn)行試探性參數(shù)更新,并在查詢集上進(jìn)行梯度回傳。元測試階段,模型在未見過的少標(biāo)注任務(wù)上進(jìn)行適配和預(yù)測。令和分別表示預(yù)訓(xùn)練模型和soft prompt的參數(shù),在元訓(xùn)練階段,模型在一個(gè)少標(biāo)注任務(wù)支持集上進(jìn)行適配的過程如下式所示:

e5d71456-7c3f-11ed-8abf-dac502259ad0.png

其中α是適配過程的學(xué)習(xí)率,表示模型進(jìn)行適配學(xué)習(xí)的步數(shù)。令模型在少標(biāo)注任務(wù)上適配學(xué)習(xí)之后的參數(shù)為和,可將模型在該少標(biāo)注任務(wù)上的優(yōu)化目標(biāo)描述為:

e5e858ce-7c3f-11ed-8abf-dac502259ad0.png

該優(yōu)化目標(biāo)模擬了模型在少標(biāo)注場景下進(jìn)行試探性參數(shù)更新,并根據(jù)試探性更新之后的情況優(yōu)化模型參數(shù)的策略。這種策略更多關(guān)注了模型在一步或多步更新之后的情況,因而可以幫助模型找到一個(gè)能快速適應(yīng)于新的少標(biāo)注任務(wù)的參數(shù)初始化點(diǎn)。

e6529d24-7c3f-11ed-8abf-dac502259ad0.png

圖3 MetaPrompting模型參數(shù)更新過程

實(shí)驗(yàn)中,本文還使用了MAML++[6]中的多步梯度回傳技巧,來使得優(yōu)化過程更加穩(wěn)定,達(dá)到更好的效果。

3. 實(shí)驗(yàn)

本文分別采用5way 1shot和5way 5shot的少標(biāo)注學(xué)習(xí)設(shè)定來測試模型性能。實(shí)驗(yàn)選擇了HuffPost、Amazon、Reuters和20newsgroup四個(gè)廣泛使用的文本分類數(shù)據(jù)集,結(jié)果以分類準(zhǔn)確率%給出。

實(shí)驗(yàn)結(jié)果如表1所示,表中20newsgroup數(shù)據(jù)集性能由于數(shù)據(jù)構(gòu)造問題與原文略有出入,現(xiàn)為勘誤后結(jié)果,勘誤不影響實(shí)驗(yàn)結(jié)論。由實(shí)驗(yàn)結(jié)果可見,MetaPrompting性能優(yōu)于當(dāng)前的SOTA模型ContrastNet[7]和其他基于元學(xué)習(xí)和提示學(xué)習(xí)的方法,取得了明顯的性能提升。相比于不使用元學(xué)習(xí)優(yōu)化目標(biāo)的Ours (Pretrain Init),引入元學(xué)習(xí)搜索模型參數(shù)初始化點(diǎn)的Ours (Meta Init)也得到了更好的性能,說明了元學(xué)習(xí)方法在soft prompt模型參數(shù)優(yōu)化中的有效性。

表1 MetaPrompting主實(shí)驗(yàn)結(jié)果

e67c2004-7c3f-11ed-8abf-dac502259ad0.png

主實(shí)驗(yàn)中,為了與其他基線模型進(jìn)行公平的對(duì)比,將soft prompt參數(shù)和預(yù)訓(xùn)練模型參數(shù)一起進(jìn)行了優(yōu)化。為了更好地說明MetaPrompting針對(duì)soft prompt參數(shù)初始化的作用,本文還參數(shù)進(jìn)行了固定預(yù)訓(xùn)練模型的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示,相比于參數(shù)隨機(jī)初始化的soft prompt模型,MetaPrompting取得了明顯的性能提升。

表2 MetaPrompting在固定預(yù)訓(xùn)練模型參數(shù)時(shí)的性能

e77114c4-7c3f-11ed-8abf-dac502259ad0.png

現(xiàn)實(shí)應(yīng)用場景中,往往難以得到內(nèi)容、形式十分相近的源領(lǐng)域數(shù)據(jù)。因此本文還對(duì)MetaPrompting在分布外數(shù)據(jù)上的性能進(jìn)行了測試。實(shí)驗(yàn)結(jié)果如表3所示,即使源領(lǐng)域的數(shù)據(jù)內(nèi)容、形式上有較大的差異,MetaPrompting仍然可以學(xué)習(xí)到任務(wù)通用的元知識(shí),來輔助在目標(biāo)領(lǐng)域少標(biāo)注任務(wù)上的學(xué)習(xí)。

表3 MetaPrompting在不同內(nèi)容、形式的源領(lǐng)域數(shù)據(jù)上進(jìn)行元學(xué)習(xí)的性能

e7897e38-7c3f-11ed-8abf-dac502259ad0.png

本文還對(duì)MetaPrompting對(duì)于不同prompt模板的魯棒性進(jìn)行了測試。如表4所示,相比于隨機(jī)初始化的soft prompt模型,MetaPrompting尋找到的參數(shù)初始化點(diǎn)在不同prompt模板下性能方差更小,魯棒性更強(qiáng)。

表4 MetaPrompting在不同prompt模板下性能的方差

e79c70f6-7c3f-11ed-8abf-dac502259ad0.png

4. 總結(jié)

本文提出了MetaPrompting,將基于優(yōu)化的元學(xué)習(xí)方法推廣到soft prompt模型中,來處理少標(biāo)注文本任務(wù)。MetaPrompting利用源領(lǐng)域數(shù)據(jù)進(jìn)行元學(xué)習(xí),搜索能夠更快、更好地適應(yīng)于新的少標(biāo)注人物的模型參數(shù)初始化點(diǎn)。在4個(gè)少標(biāo)注文本分類數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MetaPrompting相比于樸素的soft prompt模型以及其他基于元學(xué)習(xí)的基線模型取得了更好的效果,達(dá)到了新的SOTA性能。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48357
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24538
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    481

    瀏覽量

    21932

原文標(biāo)題:參考文獻(xiàn)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    《DNK210使用指南 -CanMV版 V1.0》第一章本書學(xué)習(xí)方法

    第一章 本書學(xué)習(xí)方法 為了讓讀者更好地學(xué)習(xí)和使用本書,本章將為讀者介紹本書的學(xué)習(xí)方法,包括:本書的學(xué)習(xí)順序、編寫規(guī)范、代碼規(guī)范、資料查找和學(xué)習(xí)
    發(fā)表于 08-28 17:57

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,無監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法,包括自編碼器、生成對(duì)抗網(wǎng)絡(luò)、聚類算法等,并分析它們的原理、應(yīng)用場景以及優(yōu)
    的頭像 發(fā)表于 07-09 10:50 ?216次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域中兩個(gè)非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。 深度學(xué)習(xí)簡介 深度學(xué)習(xí)是一種基于人工神經(jīng)網(wǎng)絡(luò)的
    的頭像 發(fā)表于 07-05 09:47 ?489次閱讀

    深度學(xué)習(xí)的模型優(yōu)化與調(diào)試方法

    深度學(xué)習(xí)模型在訓(xùn)練過程中,往往會(huì)遇到各種問題和挑戰(zhàn),如過擬合、欠擬合、梯度消失或爆炸等。因此,對(duì)深度學(xué)習(xí)模型進(jìn)行優(yōu)化與調(diào)試是確保其性能優(yōu)越的關(guān)鍵步驟。本文將從數(shù)據(jù)預(yù)處理、模型設(shè)計(jì)、超參數(shù)調(diào)整、正則化、模型集成以及調(diào)試與驗(yàn)證等方面
    的頭像 發(fā)表于 07-01 11:41 ?456次閱讀

    請(qǐng)問初學(xué)者要怎么快速掌握FPGA的學(xué)習(xí)方法?

    對(duì)于初學(xué)者 FPGA的編程語言是什么? FPGA芯片的基礎(chǔ)結(jié)構(gòu)也不了解. FPGA開發(fā)工具的名稱和使用方法都不知道. 要學(xué)的很多啊,請(qǐng)問有什么自學(xué)的學(xué)習(xí)方法么?
    發(fā)表于 01-02 23:01

    無監(jiān)督域自適應(yīng)場景:基于檢索增強(qiáng)的情境學(xué)習(xí)實(shí)現(xiàn)知識(shí)遷移

    本文對(duì)比了多種基線方法,包括無監(jiān)督域自適應(yīng)的傳統(tǒng)方法(如Pseudo-labeling和對(duì)抗訓(xùn)練)、基于檢索的LM方法(如REALM和RAG)和情境學(xué)習(xí)方法(如In-context l
    發(fā)表于 12-05 14:14 ?426次閱讀
    無監(jiān)督域自適應(yīng)場景:基于檢索增強(qiáng)的情境<b class='flag-5'>學(xué)習(xí)</b>實(shí)現(xiàn)知識(shí)遷移

    MySQL性能優(yōu)化方法

    MySQL 性能優(yōu)化是一項(xiàng)關(guān)鍵的任務(wù),可以提高數(shù)據(jù)庫的運(yùn)行速度和效率。以下是一些優(yōu)化方法,包括具體代碼和詳細(xì)優(yōu)化方案。
    的頭像 發(fā)表于 11-22 09:59 ?446次閱讀

    基于深度學(xué)習(xí)的情感語音識(shí)別模型優(yōu)化策略

    基于深度學(xué)習(xí)的情感語音識(shí)別模型的優(yōu)化策略,包括數(shù)據(jù)預(yù)處理、模型結(jié)構(gòu)優(yōu)化、損失函數(shù)改進(jìn)、訓(xùn)練策略調(diào)整以及集成學(xué)習(xí)等方面的內(nèi)容。
    的頭像 發(fā)表于 11-09 16:34 ?496次閱讀

    全面總結(jié)機(jī)器學(xué)習(xí)中的優(yōu)化算法

    幾乎所有的機(jī)器學(xué)習(xí)算法最后都?xì)w結(jié)為求一個(gè)目標(biāo)函數(shù)的極值,即最優(yōu)化問題,例如對(duì)于有監(jiān)督學(xué)習(xí),我們要找到一個(gè)最佳的映射函數(shù)f (x),使得對(duì)訓(xùn)練樣本的損失函數(shù)最小化(最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)或結(jié)構(gòu)風(fēng)險(xiǎn))。
    發(fā)表于 11-02 10:18 ?363次閱讀
    全面總結(jié)機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的<b class='flag-5'>優(yōu)化</b>算法

    ICCV 2023:實(shí)現(xiàn)實(shí)時(shí)六自由度物體跟蹤

    近年來,一些端到端學(xué)習(xí)方法被提出以增強(qiáng)六自由度物體定位的魯棒性,包括:直接回歸幾何參數(shù);采用渲染 - 比對(duì)來迭代地優(yōu)化位姿。盡管基于學(xué)習(xí)方法具有潛力,但是直接回歸法精度有限、泛化能力
    的頭像 發(fā)表于 10-16 17:13 ?590次閱讀
    ICCV 2023:實(shí)現(xiàn)實(shí)時(shí)六自由度物體跟蹤

    stm32學(xué)習(xí)方法及資料

    1、 一共 24 個(gè)庫,不可能都學(xué),都學(xué)也沒用。按照我的工作需求必須學(xué)的有 16 個(gè),這 16 個(gè)也不是全學(xué)。主要學(xué)習(xí)來源是各種例程代碼、“固件函數(shù)庫用戶手冊(cè)”和“參考手冊(cè)”。具體學(xué)習(xí)方法是通讀
    發(fā)表于 10-13 06:30

    深度學(xué)習(xí)的由來 深度學(xué)習(xí)的經(jīng)典算法有哪些

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支,其學(xué)習(xí)方法可以分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。兩種方法都具有其獨(dú)特的
    發(fā)表于 10-09 10:23 ?483次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>的由來 深度<b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典算法有哪些

    《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+附錄5學(xué)習(xí)方法

    從失敗中吸取教訓(xùn),總結(jié)經(jīng)驗(yàn)。每完成一個(gè)學(xué)習(xí)任務(wù)或項(xiàng)目后,你都應(yīng)該進(jìn)行反思和總結(jié),以便不斷優(yōu)化自己的學(xué)習(xí)方法,提高學(xué)習(xí)效率。 總之,自主學(xué)習(xí)
    發(fā)表于 10-06 23:25

    STM32的學(xué)習(xí)方法

    STM32學(xué)習(xí)方法
    發(fā)表于 09-28 06:18

    ICML 2023 | 對(duì)多重圖進(jìn)行解耦的表示學(xué)習(xí)方法

    的共同信息以及更多互補(bǔ)性和更少噪聲的私有信息至關(guān)重要。 為了實(shí)現(xiàn)這一目標(biāo),我們首先研究了用于多重圖的解纏表示學(xué)習(xí),以捕獲完整和干凈的共同信息,并設(shè)計(jì)了對(duì)私有信息進(jìn)行對(duì)比約束,以保留互補(bǔ)性并消除噪聲。此外,我們?cè)诶碚撋戏治隽宋覀?b class='flag-5'>方法學(xué)到的共同和
    的頭像 發(fā)表于 09-24 20:45 ?953次閱讀
    ICML 2023 | 對(duì)多重圖進(jìn)行解耦的表示<b class='flag-5'>學(xué)習(xí)方法</b>