0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么樣的模型更適合zero-shot?

深度學(xué)習(xí)自然語言處理 ? 來源:無數(shù)據(jù)不智能 ? 2023-05-12 15:40 ? 次閱讀

什么樣的模型更適合zero-shot?

對(duì)于模型架構(gòu),不同的論文有不同的分發(fā),不同的名稱。我們不必糾結(jié)于稱謂,在這里我們延續(xù)BigScience的概念來討論,即:

  1. 架構(gòu):自回歸、非自回歸、編碼器-解碼器
  2. 目標(biāo):全語言模型、前綴語言模型、掩碼語言模型
  3. 適配器:不添加適配器、將自回歸模型用于掩碼目標(biāo)訓(xùn)練的適配器、將掩碼為目標(biāo)的模型轉(zhuǎn)化為純語言模型目標(biāo)
  4. 是否經(jīng)過多任務(wù)微調(diào)
  5. 評(píng)估數(shù)據(jù)集:EAI-Eval、T0-Eval

f1e805b4-ef0f-11ed-90ce-dac502259ad0.png

BigScience有兩項(xiàng)重要的結(jié)論,但這兩項(xiàng)結(jié)論是在控制預(yù)訓(xùn)練的預(yù)算的基礎(chǔ)上的,而非控制參數(shù)量。如此實(shí)驗(yàn)編碼器-解碼器用了11B參數(shù)量,而純解碼器卻是4.8B。

  1. 如果不經(jīng)過多任務(wù)微調(diào),自回歸模型最好,掩碼語言模型跟隨機(jī)結(jié)果一樣。
  2. 如果經(jīng)過多任務(wù)微調(diào),編碼器-解碼器掩碼模型最好【這參數(shù)量都翻倍了,很難說不是參數(shù)量加倍導(dǎo)致的】。換個(gè)角度想,在多任務(wù)微調(diào)之后,自回歸全語言模型在參數(shù)量不到編碼器-解碼器掩碼模型一半,計(jì)算量還少10%的情況下,效果還能差不多。

f209e242-ef0f-11ed-90ce-dac502259ad0.png

來自科學(xué)空間的對(duì)比實(shí)驗(yàn)【https://spaces.ac.cn/archives/9529】更是印證了這一點(diǎn):

在同等參數(shù)量、同等推理成本下,Decoder-only架構(gòu)很可能是最優(yōu)選擇。

效果和模型形狀有沒有關(guān)系

在openAI的實(shí)驗(yàn)中,通過控制參數(shù)量,分別調(diào)整模型形狀的三個(gè)指標(biāo)前饋維度比、寬高比、注意力頭維度,實(shí)驗(yàn)表明,模型形狀對(duì)性能的依賴非常輕微。

f21ca788-ef0f-11ed-90ce-dac502259ad0.png

單獨(dú)研究層數(shù),排除嵌入層的影響,除了一層這種極端情況之外,同樣參數(shù)下,不同的層數(shù)傾向于收斂于同樣的損失。

f237de0e-ef0f-11ed-90ce-dac502259ad0.png

到底需要多少數(shù)據(jù)訓(xùn)練

在GPT-3中參數(shù)數(shù)據(jù)比約為1:1.7,而Chinchilla是為1:20。然而GPT-3參數(shù)量是Chinchilla的2.5倍,下游任務(wù)卻大范圍地輸給了Chinchilla。再看LLaMA就更離譜了約為1:77,只有13B參數(shù)量很多任務(wù)就超越了GPT-3。這是不是和咱公眾號(hào)名字很符合:【無數(shù)據(jù)不智能】,海量高質(zhì)量數(shù)據(jù)才是王道。

Model Parameters Training Tokens
LaMDA (2022) 137 Billion 168 Billion
GPT-3 (2020) 175 Billion 300 Billion
Jurassic (2021) 178 Billion 300 Billion
Gopher (2021) 280 Billion 300 Billion
MT-NLG 530B (2022) 530 Billion 270 Billion
Chinchilla(202) 70 Billion 1.4 Trillion
LLaMA(202) 13 Billion 1.0 Trillion

批次大小設(shè)置為多少好

f252e94c-ef0f-11ed-90ce-dac502259ad0.png

【Scaling Laws for Neural Language Models】實(shí)驗(yàn)中表明batch size和模型大小無關(guān),只和想達(dá)到的loss有關(guān)(冪次關(guān)系),同時(shí)也受到噪聲數(shù)據(jù)的影響。

學(xué)習(xí)率多大合適

f264f2a4-ef0f-11ed-90ce-dac502259ad0.png

  1. 只要學(xué)習(xí)率不是太小,衰減不是太快,性能對(duì)學(xué)習(xí)率的依賴性并不強(qiáng)。
  2. 較大的模型需要較小的學(xué)習(xí)率來防止發(fā)散,而較小的模型可以容忍較大的學(xué)習(xí)率。
  3. 經(jīng)驗(yàn)法則:LR(N) ≈ 0.003239 ? 0.0001395log(N),N:模型參數(shù)量

參數(shù)量、數(shù)據(jù)量、訓(xùn)練時(shí)長和loss什么關(guān)系

f2812640-ef0f-11ed-90ce-dac502259ad0.png

參數(shù)量、數(shù)據(jù)量、訓(xùn)練時(shí)長和loss都存在冪指數(shù)關(guān)系

審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1129

    瀏覽量

    40642
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3576

    瀏覽量

    134014
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3121

    瀏覽量

    48663

原文標(biāo)題:引用

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于將 CLIP 用于下游few-shot圖像分類的方案

    對(duì)比性圖像語言預(yù)訓(xùn)練模型(CLIP)在近期展現(xiàn)出了強(qiáng)大的視覺領(lǐng)域遷移能力,可以在一個(gè)全新的下游數(shù)據(jù)集上進(jìn)行 zero-shot 圖像識(shí)別。
    的頭像 發(fā)表于 09-27 09:46 ?4984次閱讀

    震動(dòng)環(huán)境下適合什么樣的液晶屏

    `經(jīng)常有客戶會(huì)問我們,因?yàn)榻K端的使用環(huán)境比較惡劣,基本上在不停的震動(dòng),選用什么樣的液晶屏可以在震動(dòng)環(huán)境下長久使用呢?當(dāng)遇到這種問題的時(shí)候,我們首先會(huì)從液晶屏的結(jié)構(gòu)和連接方式上考慮。其實(shí),液晶屏的顯示
    發(fā)表于 12-13 15:28

    請(qǐng)問GTR的雙晶體管模型什么樣的?

    沒事看看了電力電子,看到這個(gè)原理圖,有點(diǎn)迷糊了,按圖所示,如果集電極C處為N型半導(dǎo)體,按照?qǐng)D中來C極應(yīng)該接負(fù)極才對(duì)呀?為什么還接正極?這樣如何導(dǎo)通?有沒有大神指導(dǎo)下GTR的雙晶體管模型什么樣的?
    發(fā)表于 06-11 09:03

    什么樣的示波器適合你?

    什么樣的示波器適合你?示波器自從問世以來,它一直是最重要、最常用的電子測(cè)試儀器之一。由于電子技術(shù)的發(fā)展,示波器的能力在不
    發(fā)表于 07-01 15:57 ?776次閱讀
    <b class='flag-5'>什么樣</b>的示波器<b class='flag-5'>適合</b>你?

    NLP事件抽取綜述之挑戰(zhàn)與展望

    /xiaoqian19940510/Event-Extraction Few-shot or zero-shot 2020 Meta-Learning with Dynamic-Memory-Based
    的頭像 發(fā)表于 01-18 16:33 ?3760次閱讀
    NLP事件抽取綜述之挑戰(zhàn)與展望

    Zero-shot-CoT是multi-task的方法

    大規(guī)模預(yù)訓(xùn)練語言模型借助于針對(duì)特定任務(wù)設(shè)計(jì)的prompt(無論是few shot還是zero shot),在單步驟的system-1任務(wù)上有著出色表現(xiàn),但是對(duì)于那些緩慢和需要多步推理的
    的頭像 發(fā)表于 06-15 10:53 ?2348次閱讀

    基于Zero-Shot的多語言抽取式文本摘要模型

    抽取式文本摘要目前在英文上已經(jīng)取得了很好的性能,這主要得益于大規(guī)模預(yù)訓(xùn)練語言模型和豐富的標(biāo)注語料。但是對(duì)于其他小語種語言,目前很難得到大規(guī)模的標(biāo)注數(shù)據(jù)。
    的頭像 發(fā)表于 07-08 10:49 ?1482次閱讀

    介紹一個(gè)基于CLIP的zero-shot實(shí)例分割方法

    CLIP是近年來在多模態(tài)方面的經(jīng)典之作,得益于大量的數(shù)據(jù)和算力對(duì)模型進(jìn)行預(yù)訓(xùn)練,模型Zero-shot性能非??捎^,甚至可以在眾多數(shù)據(jù)集上和有監(jiān)督訓(xùn)練媲美。
    的頭像 發(fā)表于 10-13 09:13 ?4643次閱讀

    從預(yù)訓(xùn)練語言模型看MLM預(yù)測(cè)任務(wù)

    為了解決這一問題,本文主要從預(yù)訓(xùn)練語言模型看MLM預(yù)測(cè)任務(wù)、引入prompt_template的MLM預(yù)測(cè)任務(wù)、引入verblize類別映射的Prompt-MLM預(yù)測(cè)、基于zero-shot
    的頭像 發(fā)表于 11-14 14:56 ?3083次閱讀

    基于GLM-6B對(duì)話模型的實(shí)體屬性抽取項(xiàng)目實(shí)現(xiàn)解析

    Zero-shot、One-shot以及Few-shot讓人傻傻分不清,讀了很多文章,也沒搞清楚他們的差別,究竟什么叫zero-shot,其在應(yīng)用過程中的no gradient upd
    的頭像 發(fā)表于 03-28 10:11 ?6812次閱讀

    模型LLM領(lǐng)域,有哪些可以作為學(xué)術(shù)研究方向?

    隨著全球大煉模型不斷積累的豐富經(jīng)驗(yàn)數(shù)據(jù),人們發(fā)現(xiàn)大模型呈現(xiàn)出很多與以往統(tǒng)計(jì)學(xué)習(xí)模型、深度學(xué)習(xí)模型、甚至預(yù)訓(xùn)練小模型不同的特性,耳熟能詳?shù)娜鏔
    的頭像 發(fā)表于 05-29 14:36 ?1089次閱讀
    大<b class='flag-5'>模型</b>LLM領(lǐng)域,有哪些可以作為學(xué)術(shù)研究方向?

    邁向多模態(tài)AGI之開放世界目標(biāo)檢測(cè)

    OVD的基礎(chǔ)概念:OVD的使用主要涉及到 few-shotzero-shot兩大類場(chǎng)景,few-shot是指有少量人工標(biāo)注訓(xùn)練樣本的目標(biāo)類別,zero-shot則是指不存在任何人
    的頭像 發(fā)表于 06-15 16:08 ?712次閱讀
    邁向多模態(tài)AGI之開放世界目標(biāo)檢測(cè)

    基于通用的模型PADing解決三大分割任務(wù)

    數(shù)據(jù)需要消耗巨大的時(shí)間以及人力成本。為處理上述難題,零本學(xué)習(xí)(Zero-Shot Learning,ZSL)被提出用于分類沒有訓(xùn)練樣本的新對(duì)象,并擴(kuò)展到分割任務(wù)中,例如零本語義分割(Zer
    的頭像 發(fā)表于 06-26 10:39 ?506次閱讀
    基于通用的<b class='flag-5'>模型</b>PADing解決三大分割任務(wù)

    為什么叫shot?為什么shot比掩膜版尺寸小很多?

    其中,步進(jìn)投影式光刻機(jī)(stepper)的一個(gè)shot一個(gè)shot進(jìn)行曝光的,并不是一整張晶圓同時(shí)曝光,那么stepper的shot什么樣的?多大尺寸?需要多大的掩膜版?
    的頭像 發(fā)表于 10-09 18:13 ?5695次閱讀
    為什么叫<b class='flag-5'>shot</b>?為什么<b class='flag-5'>shot</b>比掩膜版尺寸小很多?

    基于顯式證據(jù)推理的few-shot關(guān)系抽取CoT

    最近,上下文學(xué)習(xí)策略已被證明在沒有訓(xùn)練的情況下顯示出顯著的結(jié)果。很少有研究利用上下文學(xué)習(xí)進(jìn)行zero-shot信息提取。不幸的是,推理的證據(jù)在思維鏈提示的構(gòu)建過程中沒有被考慮或隱式建模。
    的頭像 發(fā)表于 11-20 17:44 ?780次閱讀
    基于顯式證據(jù)推理的few-<b class='flag-5'>shot</b>關(guān)系抽取CoT