什么樣的模型更適合zero-shot?
對(duì)于模型架構(gòu),不同的論文有不同的分發(fā),不同的名稱。我們不必糾結(jié)于稱謂,在這里我們延續(xù)BigScience的概念來討論,即:
- 架構(gòu):自回歸、非自回歸、編碼器-解碼器
- 目標(biāo):全語言模型、前綴語言模型、掩碼語言模型
- 適配器:不添加適配器、將自回歸模型用于掩碼目標(biāo)訓(xùn)練的適配器、將掩碼為目標(biāo)的模型轉(zhuǎn)化為純語言模型目標(biāo)
- 是否經(jīng)過多任務(wù)微調(diào)
- 評(píng)估數(shù)據(jù)集:EAI-Eval、T0-Eval
BigScience有兩項(xiàng)重要的結(jié)論,但這兩項(xiàng)結(jié)論是在控制預(yù)訓(xùn)練的預(yù)算的基礎(chǔ)上的,而非控制參數(shù)量。如此實(shí)驗(yàn)編碼器-解碼器用了11B參數(shù)量,而純解碼器卻是4.8B。
- 如果不經(jīng)過多任務(wù)微調(diào),自回歸模型最好,掩碼語言模型跟隨機(jī)結(jié)果一樣。
- 如果經(jīng)過多任務(wù)微調(diào),編碼器-解碼器掩碼模型最好【這參數(shù)量都翻倍了,很難說不是參數(shù)量加倍導(dǎo)致的】。換個(gè)角度想,在多任務(wù)微調(diào)之后,自回歸全語言模型在參數(shù)量不到編碼器-解碼器掩碼模型一半,計(jì)算量還少10%的情況下,效果還能差不多。
來自科學(xué)空間的對(duì)比實(shí)驗(yàn)【https://spaces.ac.cn/archives/9529】更是印證了這一點(diǎn):
在同等參數(shù)量、同等推理成本下,Decoder-only架構(gòu)很可能是最優(yōu)選擇。
效果和模型形狀有沒有關(guān)系
在openAI的實(shí)驗(yàn)中,通過控制參數(shù)量,分別調(diào)整模型形狀的三個(gè)指標(biāo)前饋維度比、寬高比、注意力頭維度,實(shí)驗(yàn)表明,模型形狀對(duì)性能的依賴非常輕微。
單獨(dú)研究層數(shù),排除嵌入層的影響,除了一層這種極端情況之外,同樣參數(shù)下,不同的層數(shù)傾向于收斂于同樣的損失。
到底需要多少數(shù)據(jù)訓(xùn)練
在GPT-3中參數(shù)數(shù)據(jù)比約為1:1.7,而Chinchilla是為1:20。然而GPT-3參數(shù)量是Chinchilla的2.5倍,下游任務(wù)卻大范圍地輸給了Chinchilla。再看LLaMA就更離譜了約為1:77,只有13B參數(shù)量很多任務(wù)就超越了GPT-3。這是不是和咱公眾號(hào)名字很符合:【無數(shù)據(jù)不智能】,海量高質(zhì)量數(shù)據(jù)才是王道。
Model | Parameters | Training Tokens |
---|---|---|
LaMDA (2022) | 137 Billion | 168 Billion |
GPT-3 (2020) | 175 Billion | 300 Billion |
Jurassic (2021) | 178 Billion | 300 Billion |
Gopher (2021) | 280 Billion | 300 Billion |
MT-NLG 530B (2022) | 530 Billion | 270 Billion |
Chinchilla(202) | 70 Billion | 1.4 Trillion |
LLaMA(202) | 13 Billion | 1.0 Trillion |
批次大小設(shè)置為多少好
【Scaling Laws for Neural Language Models】實(shí)驗(yàn)中表明batch size和模型大小無關(guān),只和想達(dá)到的loss有關(guān)(冪次關(guān)系),同時(shí)也受到噪聲數(shù)據(jù)的影響。
學(xué)習(xí)率多大合適
- 只要學(xué)習(xí)率不是太小,衰減不是太快,性能對(duì)學(xué)習(xí)率的依賴性并不強(qiáng)。
- 較大的模型需要較小的學(xué)習(xí)率來防止發(fā)散,而較小的模型可以容忍較大的學(xué)習(xí)率。
- 經(jīng)驗(yàn)法則:LR(N) ≈ 0.003239 ? 0.0001395log(N),N:模型參數(shù)量
參數(shù)量、數(shù)據(jù)量、訓(xùn)練時(shí)長和loss什么關(guān)系
參數(shù)量、數(shù)據(jù)量、訓(xùn)練時(shí)長和loss都存在冪指數(shù)關(guān)系
審核編輯 :李倩
-
解碼器
+關(guān)注
關(guān)注
9文章
1129瀏覽量
40642 -
編碼器
+關(guān)注
關(guān)注
45文章
3576瀏覽量
134014 -
模型
+關(guān)注
關(guān)注
1文章
3121瀏覽量
48663
原文標(biāo)題:引用
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論