0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌提出Flan-T5,一個模型解決所有NLP任務(wù)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:nghuyong ? 2022-11-24 11:21 ? 次閱讀

d797167e-6ba6-11ed-8abf-dac502259ad0.jpg

「論文」: Scaling Instruction-Finetuned Language Models
「地址」: https://arxiv.org/abs/2210.11416
「模型」: https://huggingface.co/google/flan-t5-xxl

1. Flan-T5是什么

「Flan-T5」是Google最新的一篇工作,通過在超大規(guī)模的任務(wù)上進行微調(diào),讓語言模型具備了極強的泛化性能,做到單個模型就可以在1800多個NLP任務(wù)上都能有很好的表現(xiàn)。這意味著模型一旦訓(xùn)練完畢,可以直接在幾乎全部的NLP任務(wù)上直接使用,實現(xiàn)「One model for ALL tasks」,這就非常有誘惑力!

這里的Flan指的是(Instruction finetuning),即"基于指令的微調(diào)";T5是2019年Google發(fā)布的一個語言模型了。注意這里的語言模型可以進行任意的替換(需要有Decoder部分,所以「不包括BERT這類純Encoder語言模型」),論文的核心貢獻是提出一套多任務(wù)的微調(diào)方案(Flan),來極大提升語言模型的泛化性。

d7ad732e-6ba6-11ed-8abf-dac502259ad0.png

Flat

例如下面文章中的例子,模型訓(xùn)練好之后,可直接讓模型做問答:

「模型輸入」是:"Geoffrey Hinton和George Washington這兩個人有沒有交談過?在回答之前想一想原因?!?/p>

「模型返回」是:Geoffrey Hinton是一個計算機科學(xué)家,出生在1947年;而George Washington在1799年去世。所以這兩個不可能有過交談。所以答案時“沒有”。

2. 怎么做的

d7bb88b0-6ba6-11ed-8abf-dac502259ad0.png

1800+微調(diào)任務(wù)

(1) 「任務(wù)收集」:工作的第一步是收集一系列監(jiān)督的數(shù)據(jù),這里一個任務(wù)可以被定義成<數(shù)據(jù)集,任務(wù)類型的形式>,比如“基于SQuAD數(shù)據(jù)集的問題生成任務(wù)”。需要注意的是這里有9個任務(wù)是需要進行推理的任務(wù),即Chain-of-thought (CoT)任務(wù)。

(2) 「形式改寫」:因為需要用單個語言模型來完成超過1800+種不同的任務(wù),所以需要將任務(wù)都轉(zhuǎn)換成相同的“輸入格式”喂給模型訓(xùn)練,同時這些任務(wù)的輸出也需要是統(tǒng)一的“輸出格式”。

d7d6b630-6ba6-11ed-8abf-dac502259ad0.png

輸入輸出格式

如上圖所示,根據(jù) “是否需要進行推理 (CoT)” 以及 “是否需要提供示例(Few-shot)” 可將輸入輸出劃分成四種類型:

  • chain-of-thought : and few-shot: (圖中左上)
    • 輸入:指令 + 問題
    • 輸出:答案
  • chain-of-thought : and few-shot: (圖中右上)
    • 輸入:指令 + CoT引導(dǎo)(by reasoning step by step) + 問題
    • 輸出:理由 + 答案
  • chain-of-thought: and few-shot: (圖中左下)
    • 輸入:指令 + 示例問題 + 示例問題回答 + 指令 + 問題
    • 輸出:答案
  • chain-of-thought: and few-shot: (圖中右下)
    • 輸入:指令 + CoT引導(dǎo) + 示例問題 + 示例問題理由 + 示例問題回答 + 指令 + CoT引導(dǎo) + 問題
    • 輸出:理由 + 答案

(3) 「訓(xùn)練過程」:采用恒定的學(xué)習(xí)率以及Adafactor優(yōu)化器進行訓(xùn)練;同時會將多個訓(xùn)練樣本“打包”成一個訓(xùn)練樣本,這些訓(xùn)練樣本直接會通過一個特殊的“結(jié)束token”進行分割。訓(xùn)練時候在每個指定的步數(shù)會在“保留任務(wù)”上進行模型評估,保存最佳的checkpoint。

d7f38ada-6ba6-11ed-8abf-dac502259ad0.png

保留任務(wù)

盡管微調(diào)的任務(wù)數(shù)量很多,但是相比于語言模型本身的預(yù)訓(xùn)練過程,計算量小了非常多,只有0.2%。所以通過這個方案,大公司訓(xùn)練好的語言模型可以被再次有效的利用,我們只需要做好“微調(diào)”即可,不用重復(fù)耗費大量計算資源再去訓(xùn)一個語言模型。

d81381dc-6ba6-11ed-8abf-dac502259ad0.png

微調(diào)過程與預(yù)訓(xùn)練本身的計算量對比

3. 一些結(jié)論

(1) 微調(diào)很重要

d923992c-6ba6-11ed-8abf-dac502259ad0.png

直接預(yù)測(紅框)微調(diào)(綠框)

與不微調(diào)相比,通過基于指令的微調(diào)(flan)可以大幅度提高語言模型的效果。

(2) 模型越大效果越好

d9499398-6ba6-11ed-8abf-dac502259ad0.png

模型大小與任務(wù)數(shù)量對效果的影響

伴隨模型體積的增加(上圖左), 尤其是指數(shù)級的增加,比如從8B->62B,再從62B->540B,不論是否微調(diào),效果都有非常顯著的提升,而且還沒有看到收斂的信號,可能如果有了 “萬億”參數(shù)的模型,效果還能繼續(xù)提升。

(3) 任務(wù)越多效果越好

伴隨任務(wù)數(shù)量的增加(上圖右),模型的性能也會跟著增加,但是當(dāng)任務(wù)數(shù)量超過282個之后,提升就不是很明顯了。因為繼續(xù)增加新的任務(wù),尤其任務(wù)形式跟之前一樣,不會給模型帶來新的知識;多任務(wù)微調(diào)的本質(zhì)是模型能夠更好的把從預(yù)訓(xùn)練學(xué)到的知識進行表達,超過一定任務(wù)之后,繼續(xù)新增相似的任務(wù),知識的表達能力不會繼續(xù)有很大的收益。進一步統(tǒng)計全部微調(diào)數(shù)據(jù)集的token數(shù),發(fā)現(xiàn)只占到了預(yù)訓(xùn)練數(shù)據(jù)token數(shù)的0.2%,這表明還是有很多的知識沒有在微調(diào)階段重新被激發(fā)。

(4) 混雜CoT相關(guān)的任務(wù)很重要

d955b5a6-6ba6-11ed-8abf-dac502259ad0.png

保留任務(wù)中 CoT相關(guān)的任務(wù) 以及 非CoT相關(guān)的任務(wù)

盡管在1800多個任務(wù)中只有9個需要推理再給出回答的任務(wù)(CoT任務(wù)),但是混雜了這9個任務(wù)之后對整個模型的提升很大。在針對CoT相關(guān)任務(wù)的預(yù)測上,如果在微調(diào)中混淆CoT任務(wù)能帶來明顯的提升(左圖中藍色和綠色線);在針對非CoT相關(guān)任務(wù)的預(yù)測上,如果在微調(diào)中混淆了CoT任務(wù)也不會對模型帶來傷害(右圖中藍色和綠色線)。

d966f668-6ba6-11ed-8abf-dac502259ad0.png

zero-shot上是否引入CoT的對比
(5) 整合起來

最終在多個不同尺寸的模型上進行實驗,都可以獲得一致性的結(jié)論:引入Flan微調(diào)方案,可以很好提高語言模型在超大規(guī)模任務(wù)上的整體效果。

d975968c-6ba6-11ed-8abf-dac502259ad0.png

不同版本的模型

總結(jié)一下,這篇工作提出了Flan的微調(diào)框架,核心有四點:統(tǒng)一的輸入輸出格式(4種類型),引入chain-of-thought,大幅提高任務(wù)數(shù)量,大幅提高模型體積;實現(xiàn)了用一個模型來解決超過1800種幾乎全部的NLP任務(wù),通過較低的成本,極大發(fā)掘了現(xiàn)有語言模型的泛化性能,讓大家看到了通用模型的希望,即「One Model for ALL Tasks」


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1748

    瀏覽量

    57182
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48350
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    481

    瀏覽量

    21932

原文標(biāo)題:谷歌提出Flan-T5,一個模型解決所有NLP任務(wù)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Transformer語言模型簡介與實現(xiàn)過程

    在自然語言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來最引人注目的技術(shù)之。Transformer模型
    的頭像 發(fā)表于 07-10 11:48 ?644次閱讀

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對
    的頭像 發(fā)表于 07-09 10:39 ?187次閱讀

    nlp自然語言處理的主要任務(wù)及技術(shù)方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術(shù)在許多領(lǐng)域
    的頭像 發(fā)表于 07-09 10:26 ?400次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是種深度學(xué)習(xí)模型,主要用于處理自然語言處理(NLP任務(wù)。LLM
    的頭像 發(fā)表于 07-09 09:59 ?334次閱讀

    nlp自然語言處理模型怎么做

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的重要分支,它涉及到計算機對人類語言的理解和生成。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,NLP領(lǐng)域
    的頭像 發(fā)表于 07-05 09:59 ?351次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學(xué)和人工智能領(lǐng)域的重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領(lǐng)域
    的頭像 發(fā)表于 07-05 09:57 ?408次閱讀

    NLP模型中RNN與CNN的選擇

    NLP中的應(yīng)用場景、工作原理、優(yōu)缺點,以及在選擇時應(yīng)考慮的關(guān)鍵因素,以期為讀者提供全面而深入的理解。
    的頭像 發(fā)表于 07-03 15:59 ?204次閱讀

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    ,這也是如今生成式 AI 中大語言模型最流行訓(xùn)練架構(gòu)。(3) Encoder-Decoder預(yù)訓(xùn)練語言模型:這類模型旨在將各種自然語言處理任務(wù)統(tǒng)為
    發(fā)表于 05-05 12:17

    谷歌模型框架是什么軟件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌開發(fā)的用于機器學(xué)習(xí)和人工智能的軟件框架,其中最著名的是TensorFlow。TensorFlow是開源的機器學(xué)
    的頭像 發(fā)表于 03-01 16:25 ?643次閱讀

    谷歌模型合成軟件有哪些

    谷歌模型合成軟件通常指的是谷歌提供的用于創(chuàng)建、修改和共享3D模型的軟件。目前,谷歌推出的模型合成
    的頭像 發(fā)表于 02-29 18:20 ?1203次閱讀

    谷歌模型框架是什么?有哪些功能和應(yīng)用?

    谷歌模型框架(Google Model Framework)并不是特定的框架,而是指谷歌開發(fā)的
    的頭像 發(fā)表于 02-29 18:11 ?1223次閱讀

    谷歌交互世界模型重磅發(fā)布

    谷歌模型
    北京中科同志科技股份有限公司
    發(fā)布于 :2024年02月28日 09:13:06

    谷歌大型模型終于開放源代碼,遲到但重要的開源戰(zhàn)略

    在人工智能領(lǐng)域,谷歌可以算是開源的鼻祖。今天幾乎所有的大語言模型,都基于谷歌在 2017 年發(fā)布的 Transformer 論文;谷歌的發(fā)布
    發(fā)表于 02-22 18:14 ?347次閱讀
    <b class='flag-5'>谷歌</b>大型<b class='flag-5'>模型</b>終于開放源代碼,遲到但重要的開源戰(zhàn)略

    蘋果正測試四種AI模型支持自己的人工智能

    據(jù)報道,蘋果正在測試四種AI模型以支持其人工智能技術(shù)。這些模型可能包括蘋果自家開發(fā)的“Ajax”,以及來自O(shè)penAI和谷歌的兩外部大模型
    的頭像 發(fā)表于 02-04 11:17 ?769次閱讀

    NeurIPS 2023 | 擴散模型解決多任務(wù)強化學(xué)習(xí)問題

    擴散模型(diffusion model)在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有了令人印象深刻的表現(xiàn)。最近的些工作開始將 diffusion model 用于強化學(xué)習(xí)(RL)中來解決序列決策問題
    的頭像 發(fā)表于 10-02 10:45 ?656次閱讀
    NeurIPS 2023 | 擴散<b class='flag-5'>模型</b>解決多<b class='flag-5'>任務(wù)</b>強化學(xué)習(xí)問題