電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))當(dāng)下的大模型除了卷商業(yè)化變現(xiàn)外,又開辟出了一個(gè)新的“賽博斗蛐蛐”賽道,以各種評測標(biāo)準(zhǔn)來測試大模型在語言、數(shù)學(xué)、推理和代碼方面的綜合成績。作為國內(nèi)最權(quán)威的考試之一,高考則是最能代表學(xué)生綜合能力的一次考驗(yàn),而大模型這個(gè)特殊身份的考生,如果參加高考究竟會獲得怎樣的成績,也激起了網(wǎng)友的好奇之心。
上海人工智能實(shí)驗(yàn)室的大模型評測體系OpenCompass在近日舉辦了這么一次測試,讓6大開源模型和GPT-4o參加一次特殊的“高考”,然而這些大模型獲得的成績卻讓不少人大跌眼鏡。
閉卷開考全國一卷
在這次大模型參加高考中,OpenCompass的首輪測試采用了全國新課標(biāo)I卷的語數(shù)外試卷作為題源,該卷的覆蓋省份包括江蘇、浙江、河北、福建、山東、湖北、湖南、廣東等。為了方便測試,除了省去其他非統(tǒng)一學(xué)科外,其中英語省去了30分的聽力,所以其單科總分變?yōu)榱?20分。
為了做到“閉卷”,這些受測的模型中,包括Mistral的開源對話模型Mixtral 8x22B、零一萬物的Yi-1.5-34B大模型、智譜AI的GLM-4-9B、上海人工智能實(shí)驗(yàn)室推出的InternLM2-20B-WQX大語言模型以及阿里巴巴的Qwen2-57B和Qwen2-72B。
以上開源模型的開源時(shí)間均早于本屆高考,發(fā)布時(shí)間最新的是InternLM專門在高考前夕推出的文曲星系列大模型,InternLM2-WQX。即便如此,其發(fā)布于6月4日的時(shí)間也滿足了閉卷考試的前提。唯一的例外是商用閉源模型GPT-4o,但其成績也僅僅是作為評測參考。
在閱卷評分上,OpenCompass請到了多位有閱卷經(jīng)驗(yàn)的高中教師對主觀題答案進(jìn)行評分,每份考卷都由至少3位教師評閱取平均分,甚至對分差較大的題目進(jìn)行了二次審核。另外值得關(guān)注的是,為了保證閱卷老師在主客觀題上產(chǎn)生對大模型“先入為主”的觀念,OpenCompass在閱卷之后才告知閱卷老師答案由大模型生成,并對成績做一個(gè)整體分析。
AI大模型高考語數(shù)外得分 / 上海人工智能實(shí)驗(yàn)室
從總分來看,阿里巴巴的通義千問大模型Qwen2-72B排名第一,其次是成績相近的GPT-4o和InternLM2-20B-WQX。然而單從數(shù)學(xué)這一門科目來看,所有的大模型都沒有及格,Mixtral 8x22B甚至只獲得了21分的成績。
語言能力依然是LLM的強(qiáng)項(xiàng),但“應(yīng)試”能力仍有提升空間
在這次“高考測試”中,不少大模型都在語文和英語上獲得了不錯(cuò)的成績,尤其是在英語試卷上,GPT-4o更是在英語上獲得了111.5的高分。在語文上,還是國內(nèi)的模型更具優(yōu)勢,尤其是在文言文閱讀、古詩文閱讀和名句默寫上。
有趣的一點(diǎn)是,在語文作文上,各大模型都沒有拉開較大差距。但據(jù)上海人工智能實(shí)驗(yàn)室的觀察,大模型的作文都傾向于將“首先”“其次”和“然后”這樣表達(dá)先后順序的詞放在段首。此外,目前多數(shù)大模型都沒有對一些“應(yīng)試”類題型做出優(yōu)化,比如在語文考試中,閱讀理解中的一些本體、喻體、暗喻等概念,大模型尚不能完全理解,所以在語言文字運(yùn)用題型上,比如補(bǔ)寫句子等題目就普遍得分不高。
而在英語考試中,盡管各大模型整體表現(xiàn)良好,但部分模型并不適應(yīng)完形填空、七選五這樣非傳統(tǒng)問答式的題型,會出現(xiàn)答案錯(cuò)位的情況,因此得分率依然處于一個(gè)較低的水平。
在英語續(xù)寫和作文的撰寫上,大模型都存在忽略題目要求的現(xiàn)象,普遍出現(xiàn)了超出字?jǐn)?shù)限制而扣分的情況,且單段文字過長。在故事續(xù)寫這樣的題型中,部分大模型也會展開不合實(shí)際的聯(lián)想,比如InternLM2-20B-WQX的作答中,就出現(xiàn)了出租車內(nèi)司機(jī)撥通銀行內(nèi)線電話的離譜情節(jié)。
數(shù)學(xué)不及格,主觀問答題成為最大短板
AI大模型數(shù)學(xué)各題型得分 / 上海人工智能實(shí)驗(yàn)室
相較語言能力測試成績,AI大模型在數(shù)學(xué)能力測試上獲得的成績就顯得不盡如人意了。最高分為InternLM2-20B-WQX取得的75分,可以說在數(shù)學(xué)這門學(xué)科上,幾乎所有的大模型都敗下陣來。全國新課標(biāo)I卷的數(shù)學(xué)試卷中存在兩道帶圖題,對于不支持多模態(tài)輸入的大模型而言,只能選擇輸入題干文字從而將圖片舍棄,這也是失分嚴(yán)重的原因之一。
Qwen2-72B的帶圖題答案 / 上海人工智能實(shí)驗(yàn)室
以上圖中的帶圖題答案為例,大模型僅僅給出了一個(gè)解題框架,并沒有給出具體數(shù)值的答案。GPT-4o和InternLM2-20B-WQX等大模型雖然給出了具體答案和解題過程,但最終得到的是一個(gè)錯(cuò)誤的答案。
之所以InternLM2-20B-WQX能在數(shù)學(xué)考試上獲得相對較高的成績,也歸功于其團(tuán)隊(duì)在數(shù)學(xué)大模型上的積累。今年年初InternLM發(fā)布了數(shù)學(xué)模型書生·浦語數(shù)學(xué)(InternLM2-Math)。書生·浦語數(shù)學(xué)也是首個(gè)同時(shí)支持形式化數(shù)學(xué)語言以及解題過程評價(jià)的開源模型,如此一來不僅可以用于數(shù)學(xué)計(jì)算解答,也可以用于數(shù)學(xué)基礎(chǔ)研究和教學(xué)。
盡管如此,在數(shù)學(xué)考試的問答主觀題上,大模型依然成績慘淡。這是因?yàn)榇竽P偷幕卮鸲鄶?shù)比較凌亂,也出現(xiàn)了不少常見的錯(cuò)誤解答但答案正確的現(xiàn)象。所以在77分滿分的問答題上,最高的InternLM2-20B-WQX也只僅僅得了26分。
AI大模型是不合格的考生嗎?
根據(jù)閱卷老師的點(diǎn)評來看,AI大模型依然還是一個(gè)比較“死板”的考生,尤其是在主觀題上。以語文的主觀題為例,很多大模型在第一步審題就失敗了,所以答非所問。在英語題目上,大模型的實(shí)力還是毋庸置疑的,但還是會在題型和作文中出現(xiàn)紕漏。
至于數(shù)學(xué)依然是所有大模型的弱項(xiàng),大模型更像是記住了公式但不會運(yùn)用的學(xué)生,在大部分題目上更傾向于窮舉而非推理。至于帶圖的立體幾何解答題,大模型更是缺乏空間概念,導(dǎo)致出現(xiàn)離譜的解答過程和答案。由此看來,大模型的“應(yīng)試”能力依然有所欠缺,但在飛速迭代下,相信未來這種障礙會越來越少。
-
AI
+關(guān)注
關(guān)注
87文章
29822瀏覽量
268111 -
AI大模型
+關(guān)注
關(guān)注
0文章
307瀏覽量
276
發(fā)布評論請先 登錄
相關(guān)推薦
評論