除了各類開源模型外,還有GPT-4、PaLM 2等眾多「閉源」模型,甚至還開設(shè)了一個(gè)「準(zhǔn)中文」排行榜。
最近,來自斯坦福的團(tuán)隊(duì),也發(fā)布了一款LLM自動(dòng)評(píng)測(cè)系統(tǒng)——AlpacaEval,以及對(duì)應(yīng)的AlpacaEval Leaderboard。
在斯坦福的這個(gè)排行榜中,GPT-4依然以絕對(duì)領(lǐng)先的優(yōu)勢(shì)奪得第一,勝率超過了95%。
緊隨其后的是,勝率都在80%以上的Claude和ChatGPT。其中,Claude以不到3%的優(yōu)勢(shì)拿下第二,而ChatGPT則位列第三。
此次獲得第四名的,則是一位排位賽新人——微軟華人團(tuán)隊(duì)發(fā)布的WizardLM。
UC伯克利的Vicuna發(fā)揮依然穩(wěn)定,憑借著超過70%的勝率排在第六。
相比之下,斯坦福自己的Alpaca卻只排到了第16……
其實(shí),團(tuán)隊(duì)自從原始的Alpaca推出以來,已經(jīng)做了不小的改進(jìn)——?jiǎng)俾蕪?6%提升到了44%,但依然距離領(lǐng)獎(jiǎng)臺(tái)很遠(yuǎn)。
對(duì)此,其中一位作者有些無奈地表示:「是不是我們哪里做的不對(duì)?」
AlpacaEval:易使用、速度快、成本低、經(jīng)過人類標(biāo)注驗(yàn)證
AlpacaEval把AlpacaFarm和Aviary進(jìn)行了結(jié)合。
一方面使用與AlpacaFarm相同的代碼(緩存/隨機(jī)排列/超參數(shù)),另一方面則使用類似于Aviary的排序提示。
與此同時(shí),還對(duì)Aviary的提示進(jìn)行了修改,從而減少對(duì)較長(zhǎng)輸出的偏見。
團(tuán)隊(duì)表示,AlpacaEval有著拔群的效果:
與人類多數(shù)票的一致性,高于單個(gè)人類標(biāo)注者
勝率與人類標(biāo)注高度相關(guān)(0.94)
相比于lmsys評(píng)測(cè)器,有顯著提升(從63%提高到69%)
勝率
模型的輸出在每個(gè)指令上優(yōu)于text-davinci-003(即參考文本)的比例。
具體而言,首先從AlpacaEval數(shù)據(jù)集中收集了期望模型在每個(gè)指令上的輸出對(duì),并將每個(gè)輸出與相同指令下的參考模型(text-davinci-003)的輸出進(jìn)行配對(duì)。
隨后,把這些輸出同時(shí)喂給自動(dòng)評(píng)測(cè)器,讓它去判斷哪一個(gè)更好(也就是評(píng)測(cè)器的偏好)。
最后,將數(shù)據(jù)集中所有指令的偏好進(jìn)行平均,從而得到模型相對(duì)于text-davinci-003的勝率。如果兩個(gè)模型打平,那么就算半個(gè)偏好。
論文地址:
https://arxiv.org/pdf/2305.14387.pdf
標(biāo)準(zhǔn)誤差
勝率的標(biāo)準(zhǔn)誤差(通過N-1進(jìn)行歸一化),即不同指令上的平均偏好。
不同評(píng)測(cè)器的對(duì)比
團(tuán)隊(duì)通過與收集的2.5K個(gè)人工標(biāo)注(每個(gè)指令平均包含4個(gè)人工標(biāo)注)進(jìn)行比較,評(píng)測(cè)了AlpacaEval數(shù)據(jù)集上的不同自動(dòng)標(biāo)注程序。
▲斯坦福的評(píng)測(cè)器(alpaca_eval_gpt4)、之前的自動(dòng)評(píng)測(cè)器(alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4)、人類(humans)以及不同基準(zhǔn)模型(gpt4、claude、text_davinci_003、guanaco_33b、chatgpt)的測(cè)試結(jié)果
人類一致性:標(biāo)注者與交叉標(biāo)注集中人類多數(shù)票之間的一致性
為了估計(jì)單個(gè)人類標(biāo)注者(表格中的humans行)與多數(shù)人類之間的一致性,首先需要選取一個(gè)標(biāo)注,并計(jì)算其在預(yù)測(cè)其他3個(gè)標(biāo)注的眾數(shù)時(shí)的準(zhǔn)確率。
然后,將所有4個(gè)標(biāo)注和650個(gè)指令上的準(zhǔn)確率求平均,得到人類一致性,即計(jì)算預(yù)期的(對(duì)于人類和樣本)留一法一致性。如果眾數(shù)不唯一,我們隨機(jī)選擇其中一個(gè)眾數(shù)。
對(duì)于自動(dòng)標(biāo)注器,我們進(jìn)行完全相同的計(jì)算,以便最終的結(jié)果可以進(jìn)行比較。
價(jià)格:每1000個(gè)標(biāo)注的平均價(jià)格
對(duì)于人類來說,這是支付眾包工人進(jìn)行這些標(biāo)注的價(jià)格(每小時(shí)18美元)。如果價(jià)格取決于用于計(jì)算標(biāo)注的機(jī)器(例如Guanaco),則將其留空。
時(shí)間:計(jì)算1000個(gè)標(biāo)注所需的平均時(shí)間
對(duì)于人類來說,這是每個(gè)眾包工人標(biāo)注1000個(gè)示例所需時(shí)間的中位數(shù)。
對(duì)于自動(dòng)標(biāo)注器,這是運(yùn)行標(biāo)注所需的平均時(shí)間。值得注意的是,這可能取決于不同用戶的API限制以及集群正在處理的請(qǐng)求數(shù)量。
最后,為了進(jìn)一步改善自動(dòng)評(píng)測(cè)流程,團(tuán)隊(duì)發(fā)布了:
一個(gè)易于定制的流程
模型和自動(dòng)評(píng)測(cè)器的排行榜
分析自動(dòng)評(píng)測(cè)器的工具包
18K人類標(biāo)注
2K人類交叉標(biāo)注
局限性
雖然AlpacaEval提供了一個(gè)有用的比較模型,但它并不是一個(gè)全面的的模型能力評(píng)測(cè)系統(tǒng),其局限性可以概括為以下三點(diǎn):
指令比較簡(jiǎn)單
評(píng)分時(shí)可能更偏向于風(fēng)格而非事實(shí)
沒有衡量模型可能造成的危害
責(zé)任編輯:彭菁
-
微軟
+關(guān)注
關(guān)注
4文章
6554瀏覽量
103896 -
代碼
+關(guān)注
關(guān)注
30文章
4722瀏覽量
68234 -
工具包
+關(guān)注
關(guān)注
0文章
45瀏覽量
9518
原文標(biāo)題:斯坦福最新LLM排行榜發(fā)布!自家Alpaca墊底,華人團(tuán)隊(duì)WizardLM開源第一,GPT-4、Claude穩(wěn)居前二
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論