1. 在所有被評(píng)估的模型中,InstructGPT davinci v2(175B)在準(zhǔn)確率,魯棒性,公平性三方面上表現(xiàn)最好。論文主要聚焦的是國(guó)外大公司的語(yǔ)言大模型,而國(guó)內(nèi)的知名大模型,如華為的Pangu系列以及百度的文心系列,論文并沒有給出相關(guān)的測(cè)評(píng)數(shù)據(jù)。下圖展示了各模型間在各種NLP任務(wù)中頭對(duì)頭勝率(Head-to-head win rate)的情況??梢钥吹?,出自O(shè)penAI的InstructGPT davinci v2在絕大多數(shù)任務(wù)中都可以擊敗其他模型。最近的大火的ChatGPT誕生于這篇論文之后,因此這篇論文沒有對(duì)ChatGPT的測(cè)評(píng),但ChatGPT是InstructGPT的升級(jí)版,相信ChatGPT可以取得同樣優(yōu)異的成績(jī)。在下圖中,準(zhǔn)確率的綜合第二名由微軟的TNLG獲得,第三名由初創(chuàng)公司Anthropic獲得。同時(shí)我們也可以看到,要想在準(zhǔn)確率額上獲得55%及以上的勝率,需要至少50B的大小,可見大模型是趨勢(shì)所向。
2. 由于硬件、架構(gòu)、部署模式的區(qū)別,不同模型的準(zhǔn)確率和效率之間沒有強(qiáng)相關(guān)性。而準(zhǔn)確率與魯棒性(Robustness)、公平性(Fairness)之間有一定的正相關(guān)關(guān)系(如下圖所示)。
如今,大模型的參數(shù)規(guī)模都非常巨大。GPT-3具有1750億個(gè)參數(shù),部署這樣一個(gè)大模型,無(wú)論在成本上還是工程上都是極大的挑戰(zhàn)。同時(shí),由于需要開放API給用戶使用,OpenAI還需要考慮GPT-3的推理速度。文章的測(cè)試結(jié)果顯示,GPT-3的推理速度并沒有顯著地比參數(shù)更少地模型慢,可能是在硬件、架構(gòu)和部署模式上都有一定地優(yōu)勢(shì),足以彌補(bǔ)參數(shù)規(guī)模上的劣勢(shì)。
3. InstructGPT davinci v2(175B)在知識(shí)密集型的任務(wù)上取得了遠(yuǎn)超其他模型的成績(jī),在TruthfulQA數(shù)據(jù)集上獲得了62.0%的準(zhǔn)確率,遠(yuǎn)超第二名Anthropic-LM v4-s3 (52B) 36.2%的成績(jī)。(TruthfulQA是衡量語(yǔ)言模型在生成問題答案時(shí)是否真實(shí)的測(cè)評(píng)數(shù)據(jù)集。該數(shù)據(jù)集包括817個(gè)問題,涵蓋38個(gè)類別,包括健康,法律,金融和政治。作者精心設(shè)計(jì)了一些人會(huì)因?yàn)殄e(cuò)誤的先驗(yàn)知識(shí)或誤解而錯(cuò)誤回答的問題。)與此同時(shí),TNLG v2(530B)在部分知識(shí)密集型任務(wù)上也有優(yōu)異的表現(xiàn)。作者認(rèn)為模型的規(guī)模對(duì)學(xué)習(xí)真實(shí)的知識(shí)起到很大的貢獻(xiàn),這一點(diǎn)可以從兩個(gè)大模型的優(yōu)異表現(xiàn)中推測(cè)得到。
4. 在推理(Reasoning)任務(wù)上,Codex davinci v2在代碼生成和文本推理任務(wù)上表現(xiàn)都很優(yōu)異,甚至遠(yuǎn)超一些以文本為訓(xùn)練語(yǔ)料的模型。這一點(diǎn)在數(shù)學(xué)推理的數(shù)據(jù)上表現(xiàn)最明顯。在GSM8K數(shù)據(jù)集上,Codex davinci v2獲得了52.1%的正確率,第二名為InstructGPT davinci v2(175B)的35.0%,且沒有其他模型正確率超過16%。Codex davinci v2主要是用于解決代碼相關(guān)的問題,例如代碼生成、代碼總結(jié)、注釋生成、代碼修復(fù)等,它在文本推理任務(wù)上的優(yōu)秀表現(xiàn)可能是其在代碼數(shù)據(jù)上訓(xùn)練的結(jié)果,因?yàn)榇a是更具有邏輯關(guān)系的語(yǔ)言,在這樣的數(shù)據(jù)集上訓(xùn)練也許可以提升模型的推理能力。
5. 所有的大模型都對(duì)輸入(Prompt)的形式非常敏感。論文主要采用few-shot這種In-context learning的形式增強(qiáng)輸入(Prompt)。
如上圖所示,在不同任務(wù)上,in-context examples的數(shù)量影響不同,在不同的模型上也是如此。由于有些任務(wù)比較簡(jiǎn)單,例如二分類的IMDB數(shù)據(jù)庫(kù),增加in-context examples并不會(huì)對(duì)結(jié)果有明顯的影響。在模型方面,由于window size的限制,過多的in-context examples可能導(dǎo)致剩余的window size不足以生成一個(gè)完成答案,因而對(duì)生成結(jié)果造成負(fù)面的影響。
點(diǎn)擊“閱讀原文”,了解更多!
原文標(biāo)題:技術(shù)速遞 | 論文分享《Holistic Evaluation of Language Models》
文章出處:【微信公眾號(hào):華為DevCloud】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
華為
+關(guān)注
關(guān)注
215文章
34246瀏覽量
250930
原文標(biāo)題:技術(shù)速遞 | 論文分享《Holistic Evaluation of Language Models》
文章出處:【微信號(hào):華為DevCloud,微信公眾號(hào):華為DevCloud】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論