你的測(cè)試集信息在訓(xùn)練集中泄漏了嗎?
一個(gè)參數(shù)量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖所展示的,并且為了確保結(jié)果的有效性,這項(xiàng)測(cè)試還遵循了 OpenAI 的數(shù)據(jù)去污方法,更關(guān)鍵的是沒(méi)有發(fā)現(xiàn)數(shù)據(jù)污染的證據(jù)。如果你細(xì)細(xì)查看圖中的模型,發(fā)現(xiàn)只要帶有「rephraser」這個(gè)單詞,模型性能都比較高。這背后到底有何貓膩?原來(lái)是數(shù)據(jù)污染了,即測(cè)試集信息在訓(xùn)練集中遭到泄漏,而且這種污染還不易被檢測(cè)到。盡管這一問(wèn)題非常關(guān)鍵,但理解和檢測(cè)污染仍然是一個(gè)開(kāi)放且具有挑戰(zhàn)性的難題。現(xiàn)階段,去污最常用的方法是 n-gram 重疊和嵌入相似性搜索:N-gram 重疊依賴于字符串匹配來(lái)檢測(cè)污染,是 GPT-4、PaLM 和 Llama-2 等模型常用方法;嵌入相似性搜索使用預(yù)訓(xùn)練模型(例如 BERT)的嵌入來(lái)查找相似且可能受到污染的示例。然而,來(lái)自 UC 伯克利、上海交通大學(xué)的研究表明測(cè)試數(shù)據(jù)的簡(jiǎn)單變化(例如,改寫(xiě)、翻譯)就可以輕松繞過(guò)現(xiàn)有的檢測(cè)方法。他們并將測(cè)試用例的此類變體稱為「改寫(xiě)樣本(Rephrased Samples)」。下面演示了 MMLU 基準(zhǔn)測(cè)試中的改寫(xiě)樣本。結(jié)果證明,如果訓(xùn)練集中包含此類樣本,13B 模型可以達(dá)到極高的性能 (MMLU 85.9)。不幸的是,現(xiàn)有的檢測(cè)方法(例如,n-gram 重疊、嵌入相似性)無(wú)法檢測(cè)到這種污染。比如嵌入相似性方法很難將改寫(xiě)的問(wèn)題與同一主題(高中美國(guó)歷史)中的其他問(wèn)題區(qū)分開(kāi)來(lái)。通過(guò)類似的改寫(xiě)技術(shù),本文在廣泛使用的編碼和數(shù)學(xué)基準(zhǔn)測(cè)試中觀察到一致的結(jié)果,例如 HumanEval 和 GSM-8K(如文章開(kāi)頭圖中所示)。因此,能夠檢測(cè)此類改寫(xiě)樣本變得至關(guān)重要。接下來(lái),我們看看這項(xiàng)研究是如何進(jìn)行的。
文中表示,大模型(LLM)在快速發(fā)展的同時(shí),關(guān)于測(cè)試集污染的問(wèn)題被越來(lái)越多的重視起來(lái),很多人對(duì)公共基準(zhǔn)的可信度表示擔(dān)憂。為了解決這一問(wèn)題,有些人采用傳統(tǒng)的去污方法如字符串匹配(例如,n-gram 重疊)來(lái)刪除基準(zhǔn)數(shù)據(jù),但這些操作還遠(yuǎn)遠(yuǎn)不夠,因?yàn)閷?duì)測(cè)試數(shù)據(jù)進(jìn)行一些簡(jiǎn)單的更改(例如,改寫(xiě)、翻譯)就可以輕松繞過(guò)這些凈化措施。更重要的是,如果不消除測(cè)試數(shù)據(jù)的這種更改,13B 模型很容易過(guò)度擬合測(cè)試基準(zhǔn)并實(shí)現(xiàn)與 GPT-4 相當(dāng)?shù)男阅堋K麄冊(cè)?MMLU、GSK8k 和 HumanEval 等基準(zhǔn)測(cè)試中驗(yàn)證了這些觀察結(jié)果。同時(shí)為了解決這些日益增長(zhǎng)的風(fēng)險(xiǎn),本文還提出了一種更為強(qiáng)大的基于 LLM 的去污方法 LLM decontaminator,并將其應(yīng)用于流行的預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集,結(jié)果表明,本文提出的 LLM 方法在刪除改寫(xiě)樣本方面明顯優(yōu)于現(xiàn)有方法。這一做法也揭露了一些先前未知的測(cè)試重疊(test overlap)。例如,在 RedPajamaData-1T 和 StarCoder-Data 等預(yù)訓(xùn)練集中,本文發(fā)現(xiàn) HumanEval 基準(zhǔn)有 8-18% 重疊。此外,本文還在 GPT-3.5/4 生成的合成數(shù)據(jù)集中發(fā)現(xiàn)了這種污染,這也說(shuō)明了在 AI 領(lǐng)域存在潛在的意外污染風(fēng)險(xiǎn)。本文希望,社區(qū)在使用公共基準(zhǔn)時(shí)采取更強(qiáng)有力的凈化方法,并呼吁社區(qū)積極開(kāi)發(fā)新的一次性測(cè)試(one-time exams)案例來(lái)準(zhǔn)確評(píng)估模型。本文的目標(biāo)是調(diào)查訓(xùn)練集中包含測(cè)試集的簡(jiǎn)單變化是否會(huì)影響最終的基準(zhǔn)性能,并將測(cè)試用例的這種變化稱為「改寫(xiě)樣本」。實(shí)驗(yàn)中考慮了基準(zhǔn)的各個(gè)領(lǐng)域,包括數(shù)學(xué)、知識(shí)和編碼。示例 1 是來(lái)自 GSM-8k 的改寫(xiě)樣本,其中有 10-gram 重疊無(wú)法檢測(cè)到,修改后和原始文本保持相同的語(yǔ)義。基準(zhǔn)污染具有不同的形式,因此改寫(xiě)技術(shù)存在一些細(xì)微的差異。對(duì)于基于文本的基準(zhǔn),本文在不改變語(yǔ)義的情況下改寫(xiě)測(cè)試用例,例如通過(guò)重新排列詞序或用同義術(shù)語(yǔ)替換;對(duì)于基于代碼的基準(zhǔn)測(cè)試,本文改變編碼風(fēng)格、命名方式等。如下所示,算法 1 中針對(duì)給定的測(cè)試集提出了一種簡(jiǎn)單的算法。該方法可以幫助測(cè)試樣本逃避檢測(cè)。
接下來(lái)本文提出了一種新的污染檢測(cè)方法,可以準(zhǔn)確地從相對(duì)于基準(zhǔn)的數(shù)據(jù)集中刪除改寫(xiě)樣本。具體而言,本文引入了 LLM decontaminator。首先,對(duì)于每個(gè)測(cè)試用例,它使用嵌入相似度搜索來(lái)識(shí)別具有最高相似度的 top-k 訓(xùn)練項(xiàng),之后通過(guò) LLM(例如 GPT-4)評(píng)估每一對(duì)是否相同。這種方法有助于確定數(shù)據(jù)集中有多少改寫(xiě)樣本。圖 4 展示了不同污染以及不同檢測(cè)方法的維恩圖。在第 5.1 節(jié)中,實(shí)驗(yàn)證明了在改寫(xiě)樣本上訓(xùn)練的模型可以取得顯著的高分,在三個(gè)廣泛使用的基準(zhǔn)(MMLU、HumanEval 和 GSM-8k)中實(shí)現(xiàn)與 GPT-4 相當(dāng)?shù)男阅?,這表明改寫(xiě)樣本應(yīng)被視為污染,應(yīng)從訓(xùn)練數(shù)據(jù)中刪除。在第 5.2 節(jié)中,本文根據(jù) MMLU/HumanEval 中改寫(xiě)樣本評(píng)估不同的污染檢測(cè)方法。在第 5.3 節(jié)中,本文將 LLM decontaminator 應(yīng)用于廣泛使用的訓(xùn)練集并發(fā)現(xiàn)以前未知的污染。如表 2 所示,在改寫(xiě)樣本上訓(xùn)練的 Llama-2 7B 和 13B 在 MMLU 上取得顯著的高分,從 45.3 到 88.5。這表明經(jīng)過(guò)改寫(xiě)的樣本可能會(huì)嚴(yán)重扭曲基準(zhǔn)數(shù)據(jù),應(yīng)被視為污染。
本文還對(duì) HumanEval 測(cè)試集進(jìn)行了改寫(xiě),并將其翻譯成五種編程語(yǔ)言:C、JavaScript、Rust、Go 和 Java。結(jié)果顯示,在改寫(xiě)樣本上訓(xùn)練的 CodeLlama 7B 和 13B 在 HumanEval 上可以取得極高的分?jǐn)?shù),分別從 32.9 到 67.7 以及 36.0 到 81.1。相比之下,GPT-4 在 HumanEval 上只能達(dá)到 67.0。
對(duì)檢測(cè)污染方法的評(píng)估如表 5 所示,除 LLM decontaminator 外,所有其他檢測(cè)方法都會(huì)引入一些誤報(bào)。改寫(xiě)和翻譯的樣本都不會(huì)被 n-gram 重疊檢測(cè)到。使用 multi-qa BERT,嵌入相似性搜索被證明對(duì)翻譯樣本完全無(wú)效。表 7 顯示了每個(gè)訓(xùn)練數(shù)據(jù)集中不同基準(zhǔn)的數(shù)據(jù)污染百分比。LLM decontaminator 揭示了 79 個(gè)自改寫(xiě)樣本的實(shí)例,占 MATH 測(cè)試集的 1.58%。示例 5 是 MATH 訓(xùn)練數(shù)據(jù)中 MATH 測(cè)試的改寫(xiě)示例。
原文標(biāo)題:13B模型全方位碾壓GPT-4?這背后有什么貓膩
文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
原文標(biāo)題:13B模型全方位碾壓GPT-4?這背后有什么貓膩
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
相關(guān)推薦
隨著人工智能技術(shù)的飛速發(fā)展,我們見(jiàn)證了一代又一代的AI模型不斷突破界限,為各行各業(yè)帶來(lái)革命性的變化。在這場(chǎng)技術(shù)競(jìng)賽中,Llama 3和GPT-4作為兩個(gè)備受矚目的模型,它們代表了當(dāng)前AI領(lǐng)域的最前
發(fā)表于 10-27 14:17
?255次閱讀
基于GPT-4的模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯(cuò)誤而設(shè)計(jì),其獨(dú)特的作用在于,讓人們能夠用GPT-4來(lái)查找GP
發(fā)表于 06-29 09:55
?508次閱讀
? OpenAI的GPT-4模型因其卓越的自然語(yǔ)言理解和生成能力,成為了許多開(kāi)發(fā)者的首選工具。獲取GPT-4 API Key并將其應(yīng)用于項(xiàng)目,如開(kāi)發(fā)一個(gè)ChatGPT聊天應(yīng)用,不僅是實(shí)踐人工智能技術(shù)
發(fā)表于 06-24 17:40
?1973次閱讀
電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)當(dāng)?shù)貢r(shí)間5月13日,OpenAI舉行春季發(fā)布會(huì),宣布將推出桌面版ChatGPT,并發(fā)布全新旗艦AI模型GPT-4
發(fā)表于 05-15 00:15
?7766次閱讀
人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI近日宣布,將于5月13日進(jìn)行一場(chǎng)產(chǎn)品更新直播,屆時(shí)將揭曉ChatGPT和GPT-4的新進(jìn)展。這一消息立即引發(fā)了外界對(duì)OpenAI下一項(xiàng)重大技術(shù)發(fā)布的廣泛猜測(cè)和期待。
發(fā)表于 05-13 11:06
?554次閱讀
阿里云隆重推出了通義千問(wèn) 2.5 版,宣稱其“技術(shù)進(jìn)步,全面超越GPT-4”,尤其是在中文環(huán)境中的多種任務(wù)(如文本理解、文本生成、知識(shí)問(wèn)答及生活建議、臨時(shí)聊天及對(duì)話以及安全風(fēng)險(xiǎn)評(píng)估)方面表現(xiàn)出色,超越了GPT-4。
發(fā)表于 05-09 14:17
?905次閱讀
商湯科技發(fā)布5.0多模態(tài)大模型,綜合能力全面對(duì)標(biāo)GPT-4 Turbo 4月23日,商湯科技董事長(zhǎng)兼CEO徐立在2024商湯技術(shù)交流日上發(fā)布了行業(yè)首個(gè)云、端、邊全棧大模型產(chǎn)品矩陣,能夠
發(fā)表于 04-24 16:49
?1045次閱讀
據(jù)悉,此模型沿用GPT-4 Turbo系列特有的12.8萬(wàn)token窗口規(guī)模及截至2023年12月的知識(shí)庫(kù)架構(gòu),其創(chuàng)新亮點(diǎn)則是強(qiáng)大的視覺(jué)理解功能。
發(fā)表于 04-10 10:49
?361次閱讀
起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級(jí)至GPT-4取得顯著進(jìn)步,如今再次更新至性能卓越的GPT-4 Turbo
發(fā)表于 03-13 13:42
?663次閱讀
的GPT-4被拉下神壇, Claude 3很可能對(duì)GPT-4實(shí)現(xiàn)全方位的碾壓 。 Anthropic發(fā)布3個(gè)模型,
發(fā)表于 03-06 22:22
?583次閱讀
近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型,其中包括最強(qiáng)版Claude 3 Opus。據(jù)該公司稱,Claude 3系列在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺(jué)方面全面超越了包括GPT-4在內(nèi)的所有大型模
發(fā)表于 03-05 09:58
?608次閱讀
近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型,該系列模型在多模態(tài)和語(yǔ)言能力等關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能,成功擊敗了此前被廣泛認(rèn)為是全球最強(qiáng)AI模型的GPT-4
發(fā)表于 03-05 09:49
?619次閱讀
OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能分析解答 在最近的OpenAI DevDay上,該組織發(fā)布了一項(xiàng)備受期待的公告:推出GPT-4 Turbo,這是對(duì)其突破性AI模型
發(fā)表于 12-13 09:19
?1049次閱讀
谷歌背水一戰(zhàn),發(fā)布Gemini,狙擊GPT-4
發(fā)表于 12-08 09:09
?1087次閱讀
OpenAI的GPT-4 Turbo以前所未有的功能和價(jià)格改變?nèi)斯ぶ悄艿奈磥?lái) 在人工智能領(lǐng)域的一次里程碑式活動(dòng)中,OpenAI開(kāi)發(fā)者大會(huì)上發(fā)布了GPT-4 Turbo,這是突破性人工智能模型
發(fā)表于 12-05 17:57
?2371次閱讀
評(píng)論