0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于一步步蒸餾(Distilling step-by-step)機(jī)制

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-05-16 10:24 ? 次閱讀

為優(yōu)化LLM為“小模型/少數(shù)據(jù)/好效果”,提供了一種新思路:”一步步蒸餾”(Distillingstep-by-step

具體做法:訓(xùn)練出一個(gè)更小的模型,同時(shí)輸出推理過程標(biāo)簽

總結(jié)

大模型部署耗費(fèi)內(nèi)存/算力,訓(xùn)練特定任務(wù)的小模型采用:

微調(diào)(BERT、T5)

蒸餾(Vicuna)

但仍需要大量數(shù)據(jù)

本文提出”一步步蒸餾”(Distillingstep-by-step)機(jī)制:

模型更小

數(shù)據(jù)更少

實(shí)驗(yàn)證明效果更佳(770M的T5,效果優(yōu)于540B的PaLM)

引言

1. LLM的作用

以LLM作為粗標(biāo)注,同時(shí)標(biāo)注時(shí)會(huì)給出推理過程,如“思維鏈”CoT

e.g.:

Agentlemaniscarryingequipmentforgolf,whatdoeshelikelyhave?

(a)club,(b)assemblyhall,(c)meditationcenter,(d)meeting,(e)church

答案是(a),在上述選擇中,只有球桿用于高爾夫球。

上述邏輯會(huì)用于多任務(wù)訓(xùn)練的額外數(shù)據(jù)

2. 任務(wù)準(zhǔn)確性&所需訓(xùn)練數(shù)據(jù)

172b3436-f35c-11ed-90ce-dac502259ad0.png

相關(guān)工作

1. 知識(shí)蒸餾

從大的“老師模型”蒸餾出“學(xué)生模型”,缺點(diǎn)是“老師模型”產(chǎn)生的數(shù)據(jù)有噪聲

本文做法:蒸餾標(biāo)簽、老師模型的推理過程,以降低對(duì)無(wú)標(biāo)簽數(shù)據(jù)的需求量

2. 人類推理過程

規(guī)范模型行為

作為額外的模型輸入

作為高質(zhì)量標(biāo)簽

缺點(diǎn):代價(jià)高昂

3. 大模型推理過程

可用于產(chǎn)生高質(zhì)量的推理步驟,作為提示輸入到大模型

作為微調(diào)數(shù)據(jù),進(jìn)行“self-improve”大模型

一步步蒸餾

概覽圖175f4ee2-f35c-11ed-90ce-dac502259ad0.png

分為兩步

已有LLM和無(wú)標(biāo)簽數(shù)據(jù),利用推理過程,輸出標(biāo)簽

以推理過程作為額外數(shù)據(jù)(細(xì)節(jié)信息較多),訓(xùn)練更小的模型

基于這樣一個(gè)特性:LLM產(chǎn)生的推理過程能夠用于它自身的預(yù)測(cè)178cdbdc-f35c-11ed-90ce-dac502259ad0.png

假設(shè)prompt是個(gè)三元組,其中是輸入,是標(biāo)簽,是推理過程

數(shù)據(jù)集記作,x是輸入,y是標(biāo)簽,且二者都是自然語(yǔ)言

這個(gè)文本到文本的框架包括的自然語(yǔ)言處理任務(wù)有:分類、自然語(yǔ)言推理、問答等等

常見的做法:用監(jiān)督數(shù)據(jù)微調(diào)預(yù)訓(xùn)練模型。

缺少人工標(biāo)簽,特定任務(wù)的蒸餾是用LLM教師模型生成偽噪聲訓(xùn)練標(biāo)簽,代替

待降低交叉熵?fù)p失:

17b9d15a-f35c-11ed-90ce-dac502259ad0.png

其中hat{y_i}$是模型蒸餾得到的標(biāo)簽

將推理過程hat{r_i}$融入訓(xùn)練過程的方式:

放到input后面,一同輸入到模型,此時(shí)的損失計(jì)算:
17d1e6b4-f35c-11ed-90ce-dac502259ad0.png

需要先用LLM產(chǎn)生推理過程,此時(shí)LLM是必要條件

(本文)轉(zhuǎn)化為多任務(wù)學(xué)習(xí)問題,訓(xùn)練模型:17e6513a-f35c-11ed-90ce-dac502259ad0.png

同時(shí)產(chǎn)生標(biāo)簽、推理過程

采用后者的方式,此時(shí)的損失計(jì)算為:17f98296-f35c-11ed-90ce-dac502259ad0.png

其中,推理過程生成的損失為:1810f034-f35c-11ed-90ce-dac502259ad0.png

推理過程生成是預(yù)測(cè)之前的中間一步,而不是測(cè)試過程中產(chǎn)生的(如同公式2),所以測(cè)試時(shí)不再需要LLM,這就是所謂的"一步步蒸餾"。

另外,預(yù)先定義任務(wù)前綴,如[label]是標(biāo)簽,[rationale]是推理過程

實(shí)驗(yàn)

從兩方面證明“一步步蒸餾”的有效性

與傳統(tǒng)的微調(diào)和蒸餾對(duì)比,效果有所提升

模型更小、部署代價(jià)更小

最小的模型規(guī)模、數(shù)據(jù)量作為標(biāo)準(zhǔn),“一步步蒸餾”的模型優(yōu)于LLM

基準(zhǔn)模型

LLM:540B的PaLM

下游模型:T5

T5-Base(220M)

T5-Large(770M)

T5-XXL(11B)

數(shù)據(jù)集

e-SNLI (自然語(yǔ)言推理):https://github.com/OanaMariaCamburu/e-SNLI

ANLI(自然語(yǔ)言推理):https://huggingface.co/datasets/anli

CQA(問答):https://www.tau-nlp.sites.tau.ac.il/commonsenseqa

SVAMP(算術(shù)數(shù)學(xué)詞問題):https://github.com/arkilpatel/SVAMP

與一步步蒸餾對(duì)比的其他方法

標(biāo)準(zhǔn)的微調(diào)(有標(biāo)簽)

標(biāo)準(zhǔn)的任務(wù)蒸餾(無(wú)標(biāo)簽)

減少訓(xùn)練數(shù)據(jù)

對(duì)比結(jié)果1

在標(biāo)簽較少時(shí),一步步蒸餾優(yōu)于標(biāo)準(zhǔn)微調(diào)1835a8c0-f35c-11ed-90ce-dac502259ad0.png

對(duì)比結(jié)果2

在標(biāo)簽較少時(shí),一步步蒸餾優(yōu)于標(biāo)準(zhǔn)蒸餾18781c0a-f35c-11ed-90ce-dac502259ad0.png

降低模型大小

各種baseline模型大小不一時(shí),一步步蒸餾都更優(yōu)

通過使用更小的特定任務(wù)模型一步步蒸餾逐步優(yōu)于LLM

對(duì)比結(jié)果3

在所有考慮的4個(gè)數(shù)據(jù)集上總是可以優(yōu)于少樣本CoT、PINTO調(diào)優(yōu)18c86b9c-f35c-11ed-90ce-dac502259ad0.png

對(duì)比結(jié)果4

在4個(gè)數(shù)據(jù)集中的3個(gè)上也優(yōu)于教師模型LLM

增強(qiáng)無(wú)標(biāo)簽數(shù)據(jù),可進(jìn)一步改進(jìn)一步步蒸餾18ed84b8-f35c-11ed-90ce-dac502259ad0.png

使用最小模型大小和最小訓(xùn)練數(shù)據(jù)

對(duì)比結(jié)果5

用更小模型、更少數(shù)據(jù),一步步蒸餾優(yōu)于LLM19249b38-f35c-11ed-90ce-dac502259ad0.png

對(duì)比結(jié)果6

標(biāo)準(zhǔn)的微調(diào)和蒸餾需要更多的數(shù)據(jù)和更大的模型19487bc0-f35c-11ed-90ce-dac502259ad0.png

總結(jié)

實(shí)驗(yàn)證明,一步步蒸餾降低了訓(xùn)練數(shù)據(jù)量、特定任務(wù)的模型大小、優(yōu)于初始LLM的性能

局限性

用戶需要提供帶標(biāo)簽數(shù)據(jù)

LLM推理能力有限,尤其面對(duì)復(fù)雜推理和規(guī)劃問題

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6713

    瀏覽量

    88300
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48346

原文標(biāo)題:小模型媲美2000倍體量大模型,谷歌提出新思路:蒸餾也能Step-by-Step

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    虛擬現(xiàn)實(shí)正一步步向我們走來(lái)

    顯然,虛擬現(xiàn)實(shí)大發(fā)展的春天正在到來(lái),虛擬現(xiàn)實(shí)正一步步走向消費(fèi)者。那么,虛擬現(xiàn)實(shí)究竟涉及哪些重點(diǎn)技術(shù)領(lǐng)域?又將對(duì)整個(gè)產(chǎn)業(yè)帶來(lái)怎樣的影響?未來(lái)的“抓手”又有哪些?
    發(fā)表于 10-26 16:38 ?849次閱讀

    外國(guó)牛人教你一步步快速打造首臺(tái)機(jī)器人(超詳細(xì))

    外國(guó)牛人教你一步步快速打造首臺(tái)機(jī)器人(超詳細(xì))
    發(fā)表于 08-15 19:30

    一步步寫嵌入式操作系統(tǒng)—ARM編程的方法與實(shí)踐ch02

    一步步寫嵌入式操作系統(tǒng)—ARM編程的方法與實(shí)踐ch02
    發(fā)表于 08-20 20:54

    C語(yǔ)言step-by-step

    C語(yǔ)言step-by-step!
    發(fā)表于 12-27 09:59

    CC2530一步步演示程序燒寫

    CC2530一步步演示程序燒寫第一步——先安裝IAR開發(fā)環(huán)境第二歩——安裝CC2530燒寫工具第三歩——CC2530串口配置軟件使用具體完整步驟看下面文檔
    發(fā)表于 03-03 14:33

    一步步建立_STM32_UCOS_模板

    一步步建立_STM32_UCOS_模板
    發(fā)表于 09-29 11:46

    菜鳥一步步入門SAM4S-XPLAINED--IAR開發(fā)環(huán)境

    菜鳥一步步入門SAM4S-XPLAINED--IAR開發(fā)環(huán)境
    發(fā)表于 01-25 10:55

    一步步進(jìn)行調(diào)試GPRS模塊

    背景:在不知道硬件是否正確情況下,一步步進(jìn)行調(diào)試,最終完成調(diào)試。以下是自己調(diào)試步驟。1、從gprs模塊TX ,RX 單獨(dú)焊接兩個(gè)線出來(lái),通過上位機(jī)發(fā)送AT指令,是否能正常工作。
    發(fā)表于 01-25 07:33

    stm32是如何一步步實(shí)現(xiàn)設(shè)置地址匹配接收喚醒中斷功能的

    為什么要設(shè)置地址匹配接收喚醒中斷呢?stm32是如何一步步實(shí)現(xiàn)設(shè)置地址匹配接收喚醒中斷功能的?
    發(fā)表于 02-28 08:07

    一步步寫嵌入式操作系統(tǒng)

    一步步寫嵌入式操作系統(tǒng)_ARM編程的方法與實(shí)踐
    發(fā)表于 07-14 11:32 ?0次下載

    看電工技術(shù)是如何一步步淪為勤雜工的

    相信很多的電工老師傅也都聽說(shuō)過這種話,那電工究竟是不是勤雜工?電工技術(shù)工種是如何一步步的淪為勤雜工的,我們今天就重點(diǎn)來(lái)看看。
    的頭像 發(fā)表于 02-18 15:47 ?4035次閱讀

    看電路是怎么把電壓一步步頂上去的?資料下載

    電子發(fā)燒友網(wǎng)為你提供看電路是怎么把電壓一步步頂上去的?資料下載的電子資料下載,更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計(jì)、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 04-16 08:47 ?13次下載
    看電路是怎么把電壓<b class='flag-5'>一步步</b>頂上去的?資料下載

    ROM與RAM 單片機(jī)上電后如何一步步執(zhí)行?資料下載

    電子發(fā)燒友網(wǎng)為你提供ROM與RAM 單片機(jī)上電后如何一步步執(zhí)行?資料下載的電子資料下載,更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計(jì)、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 04-21 08:53 ?12次下載
    ROM與RAM 單片機(jī)上電后如何<b class='flag-5'>一步步</b>執(zhí)行?資料下載

    STM32 Step-by-Step如何加快開發(fā)速度

    STM32 Step-by-Step 的另個(gè)基本方面是我們的新社區(qū)。多年來(lái),許多成員都表達(dá)了學(xué)習(xí)如何在我們的平臺(tái)上開始編程的愿望,而這新舉措為他們提供了專業(yè)知識(shí)。
    的頭像 發(fā)表于 05-16 16:23 ?1265次閱讀

    一步步重新演繹汽車駕駛體驗(yàn)

    一步步重新演繹汽車駕駛體驗(yàn)
    發(fā)表于 11-04 09:52 ?0次下載
    <b class='flag-5'>一步步</b>重新演繹汽車駕駛體驗(yàn)