什么樣的模型更適合zero-shot？

對(duì)于模型架構(gòu)，不同的論文有不同的分發(fā)，不同的名稱。我們不必糾結(jié)于稱謂，在這里我們延續(xù)BigScience的概念來討論，即：

架構(gòu)：自回歸、非自回歸、編碼器-解碼器
目標(biāo)：全語言模型、前綴語言模型、掩碼語言模型
適配器：不添加適配器、將自回歸模型用于掩碼目標(biāo)訓(xùn)練的適配器、將掩碼為目標(biāo)的模型轉(zhuǎn)化為純語言模型目標(biāo)
是否經(jīng)過多任務(wù)微調(diào)
評(píng)估數(shù)據(jù)集：EAI-Eval、T0-Eval

BigScience有兩項(xiàng)重要的結(jié)論，但這兩項(xiàng)結(jié)論是在控制預(yù)訓(xùn)練的預(yù)算的基礎(chǔ)上的，而非控制參數(shù)量。如此實(shí)驗(yàn)編碼器-解碼器用了11B參數(shù)量，而純解碼器卻是4.8B。

如果不經(jīng)過多任務(wù)微調(diào)，自回歸模型最好，掩碼語言模型跟隨機(jī)結(jié)果一樣。
如果經(jīng)過多任務(wù)微調(diào)，編碼器-解碼器掩碼模型最好【這參數(shù)量都翻倍了，很難說不是參數(shù)量加倍導(dǎo)致的】。換個(gè)角度想，在多任務(wù)微調(diào)之后，自回歸全語言模型在參數(shù)量不到編碼器-解碼器掩碼模型一半，計(jì)算量還少10%的情況下，效果還能差不多。

來自科學(xué)空間的對(duì)比實(shí)驗(yàn)【https://spaces.ac.cn/archives/9529】更是印證了這一點(diǎn)：

在同等參數(shù)量、同等推理成本下，Decoder-only架構(gòu)很可能是最優(yōu)選擇。

效果和模型形狀有沒有關(guān)系

在openAI的實(shí)驗(yàn)中，通過控制參數(shù)量，分別調(diào)整模型形狀的三個(gè)指標(biāo)前饋維度比、寬高比、注意力頭維度，實(shí)驗(yàn)表明，模型形狀對(duì)性能的依賴非常輕微。

單獨(dú)研究層數(shù)，排除嵌入層的影響，除了一層這種極端情況之外，同樣參數(shù)下，不同的層數(shù)傾向于收斂于同樣的損失。

到底需要多少數(shù)據(jù)訓(xùn)練

在GPT-3中參數(shù)數(shù)據(jù)比約為1：1.7，而Chinchilla是為1：20。然而GPT-3參數(shù)量是Chinchilla的2.5倍，下游任務(wù)卻大范圍地輸給了Chinchilla。再看LLaMA就更離譜了約為1：77，只有13B參數(shù)量很多任務(wù)就超越了GPT-3。這是不是和咱公眾號(hào)名字很符合：【無數(shù)據(jù)不智能】，海量高質(zhì)量數(shù)據(jù)才是王道。

Model	Parameters	Training Tokens
LaMDA (2022)	137 Billion	168 Billion
GPT-3 (2020)	175 Billion	300 Billion
Jurassic (2021)	178 Billion	300 Billion
Gopher (2021)	280 Billion	300 Billion
MT-NLG 530B (2022)	530 Billion	270 Billion
Chinchilla（202）	70 Billion	1.4 Trillion
LLaMA（202）	13 Billion	1.0 Trillion

批次大小設(shè)置為多少好

【Scaling Laws for Neural Language Models】實(shí)驗(yàn)中表明batch size和模型大小無關(guān)，只和想達(dá)到的loss有關(guān)（冪次關(guān)系），同時(shí)也受到噪聲數(shù)據(jù)的影響。

學(xué)習(xí)率多大合適

只要學(xué)習(xí)率不是太小，衰減不是太快，性能對(duì)學(xué)習(xí)率的依賴性并不強(qiáng)。
較大的模型需要較小的學(xué)習(xí)率來防止發(fā)散，而較小的模型可以容忍較大的學(xué)習(xí)率。
經(jīng)驗(yàn)法則：LR(N) ≈ 0.003239 ? 0.0001395log(N)，N：模型參數(shù)量

參數(shù)量、數(shù)據(jù)量、訓(xùn)練時(shí)長和loss什么關(guān)系

參數(shù)量、數(shù)據(jù)量、訓(xùn)練時(shí)長和loss都存在冪指數(shù)關(guān)系

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

解碼器

解碼器

+關(guān)注

關(guān)注
9

文章
1129

瀏覽量
40642
編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3576

瀏覽量
134014
模型

模型

+關(guān)注

關(guān)注
1

文章
3121

瀏覽量
48663

原文標(biāo)題：引用

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于將 CLIP 用于下游few-shot圖像分類的方案

對(duì)比性圖像語言預(yù)訓(xùn)練模型（CLIP）在近期展現(xiàn)出了強(qiáng)大的視覺領(lǐng)域遷移能力，可以在一個(gè)全新的下游數(shù)據(jù)集上進(jìn)行 zero-shot 圖像識(shí)別。

發(fā)表于 09-27 09:46 ?4984次閱讀

震動(dòng)環(huán)境下適合用什么樣的液晶屏

`經(jīng)常有客戶會(huì)問我們，因?yàn)榻K端的使用環(huán)境比較惡劣，基本上在不停的震動(dòng)，選用什么樣的液晶屏可以在震動(dòng)環(huán)境下長久使用呢？當(dāng)遇到這種問題的時(shí)候，我們首先會(huì)從液晶屏的結(jié)構(gòu)和連接方式上考慮。其實(shí)，液晶屏的顯示

發(fā)表于 12-13 15:28

請(qǐng)問GTR的雙晶體管模型是什么樣的？

沒事看看了電力電子，看到這個(gè)原理圖，有點(diǎn)迷糊了，按圖所示，如果集電極C處為N型半導(dǎo)體，按照?qǐng)D中來C極應(yīng)該接負(fù)極才對(duì)呀？為什么還接正極？這樣如何導(dǎo)通？有沒有大神指導(dǎo)下GTR的雙晶體管模型是什么樣的？

發(fā)表于 06-11 09:03

什么樣的示波器適合你？

什么樣的示波器適合你？示波器自從問世以來，它一直是最重要、最常用的電子測(cè)試儀器之一。由于電子技術(shù)的發(fā)展，示波器的能力在不

發(fā)表于 07-01 15:57 ?776次閱讀

<b class='flag-5'>什么樣</b>的示波器<b class='flag-5'>適合</b>你？

NLP事件抽取綜述之挑戰(zhàn)與展望

/xiaoqian19940510/Event-Extraction Few-shot or zero-shot 2020 Meta-Learning with Dynamic-Memory-Based

發(fā)表于 01-18 16:33 ?3760次閱讀

Zero-shot-CoT是multi-task的方法

大規(guī)模預(yù)訓(xùn)練語言模型借助于針對(duì)特定任務(wù)設(shè)計(jì)的prompt（無論是few shot還是zero shot），在單步驟的system-1任務(wù)上有著出色表現(xiàn)，但是對(duì)于那些緩慢和需要多步推理的

發(fā)表于 06-15 10:53 ?2348次閱讀

基于Zero-Shot的多語言抽取式文本摘要模型

抽取式文本摘要目前在英文上已經(jīng)取得了很好的性能，這主要得益于大規(guī)模預(yù)訓(xùn)練語言模型和豐富的標(biāo)注語料。但是對(duì)于其他小語種語言，目前很難得到大規(guī)模的標(biāo)注數(shù)據(jù)。

發(fā)表于 07-08 10:49 ?1482次閱讀

介紹一個(gè)基于CLIP的zero-shot實(shí)例分割方法

CLIP是近年來在多模態(tài)方面的經(jīng)典之作，得益于大量的數(shù)據(jù)和算力對(duì)模型進(jìn)行預(yù)訓(xùn)練，模型的Zero-shot性能非?？捎^，甚至可以在眾多數(shù)據(jù)集上和有監(jiān)督訓(xùn)練媲美。

發(fā)表于 10-13 09:13 ?4643次閱讀

從預(yù)訓(xùn)練語言模型看MLM預(yù)測(cè)任務(wù)

為了解決這一問題，本文主要從預(yù)訓(xùn)練語言模型看MLM預(yù)測(cè)任務(wù)、引入prompt_template的MLM預(yù)測(cè)任務(wù)、引入verblize類別映射的Prompt-MLM預(yù)測(cè)、基于zero-shot

發(fā)表于 11-14 14:56 ?3083次閱讀

基于GLM-6B對(duì)話模型的實(shí)體屬性抽取項(xiàng)目實(shí)現(xiàn)解析

Zero-shot、One-shot以及Few-shot讓人傻傻分不清，讀了很多文章，也沒搞清楚他們的差別，究竟什么叫zero-shot，其在應(yīng)用過程中的no gradient upd

發(fā)表于 03-28 10:11 ?6812次閱讀

大模型LLM領(lǐng)域，有哪些可以作為學(xué)術(shù)研究方向？

隨著全球大煉模型不斷積累的豐富經(jīng)驗(yàn)數(shù)據(jù)，人們發(fā)現(xiàn)大模型呈現(xiàn)出很多與以往統(tǒng)計(jì)學(xué)習(xí)模型、深度學(xué)習(xí)模型、甚至預(yù)訓(xùn)練小模型不同的特性，耳熟能詳?shù)娜鏔

發(fā)表于 05-29 14:36 ?1089次閱讀

大<b class='flag-5'>模型</b>LLM領(lǐng)域，有哪些可以作為學(xué)術(shù)研究方向？

邁向多模態(tài)AGI之開放世界目標(biāo)檢測(cè)

OVD的基礎(chǔ)概念：OVD的使用主要涉及到 few-shot 和 zero-shot兩大類場(chǎng)景，few-shot是指有少量人工標(biāo)注訓(xùn)練樣本的目標(biāo)類別，zero-shot則是指不存在任何人

發(fā)表于 06-15 16:08 ?712次閱讀

基于通用的模型PADing解決三大分割任務(wù)

數(shù)據(jù)需要消耗巨大的時(shí)間以及人力成本。為處理上述難題，零樣本學(xué)習(xí)（Zero-Shot Learning，ZSL）被提出用于分類沒有訓(xùn)練樣本的新對(duì)象，并擴(kuò)展到分割任務(wù)中，例如零樣本語義分割（Zer

發(fā)表于 06-26 10:39 ?506次閱讀

為什么叫shot？為什么shot比掩膜版尺寸小很多？

其中，步進(jìn)投影式光刻機(jī)（stepper）的一個(gè)shot一個(gè)shot進(jìn)行曝光的，并不是一整張晶圓同時(shí)曝光，那么stepper的shot是什么樣的？多大尺寸？需要多大的掩膜版？

發(fā)表于 10-09 18:13 ?5695次閱讀

基于顯式證據(jù)推理的few-shot關(guān)系抽取CoT

最近，上下文學(xué)習(xí)策略已被證明在沒有訓(xùn)練的情況下顯示出顯著的結(jié)果。很少有研究利用上下文學(xué)習(xí)進(jìn)行zero-shot信息提取。不幸的是，推理的證據(jù)在思維鏈提示的構(gòu)建過程中沒有被考慮或隱式建模。

發(fā)表于 11-20 17:44 ?780次閱讀

搜索歷史

什么樣的模型更適合zero-shot？

什么樣的模型更適合zero-shot？

效果和模型形狀有沒有關(guān)系

到底需要多少數(shù)據(jù)訓(xùn)練

批次大小設(shè)置為多少好

學(xué)習(xí)率多大合適

參數(shù)量、數(shù)據(jù)量、訓(xùn)練時(shí)長和loss什么關(guān)系

評(píng)論

基于將 CLIP 用于下游few-shot圖像分類的方案

震動(dòng)環(huán)境下適合用什么樣的液晶屏

請(qǐng)問GTR的雙晶體管模型是什么樣的？

什么樣的示波器適合你？

NLP事件抽取綜述之挑戰(zhàn)與展望

Zero-shot-CoT是multi-task的方法

基于Zero-Shot的多語言抽取式文本摘要模型

介紹一個(gè)基于CLIP的zero-shot實(shí)例分割方法

從預(yù)訓(xùn)練語言模型看MLM預(yù)測(cè)任務(wù)

基于GLM-6B對(duì)話模型的實(shí)體屬性抽取項(xiàng)目實(shí)現(xiàn)解析

大模型LLM領(lǐng)域，有哪些可以作為學(xué)術(shù)研究方向？

邁向多模態(tài)AGI之開放世界目標(biāo)檢測(cè)

基于通用的模型PADing解決三大分割任務(wù)

為什么叫shot？為什么shot比掩膜版尺寸小很多？

基于顯式證據(jù)推理的few-shot關(guān)系抽取CoT

搜索歷史

什么樣的模型更適合zero-shot？

什么樣的模型更適合zero-shot？

效果和模型形狀有沒有關(guān)系

到底需要多少數(shù)據(jù)訓(xùn)練

批次大小設(shè)置為多少好

學(xué)習(xí)率多大合適

參數(shù)量、數(shù)據(jù)量、訓(xùn)練時(shí)長和loss什么關(guān)系

評(píng)論

什么樣的模型更適合zero-shot？

什么樣的模型更適合zero-shot？

參數(shù)量、數(shù)據(jù)量、訓(xùn)練時(shí)長和loss什么關(guān)系