0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI要為GPT-4解決數(shù)學(xué)問(wèn)題了:獎(jiǎng)勵(lì)模型指錯(cuò),解題水平達(dá)到新高度

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:未知 ? 2023-06-06 11:00 ? 次閱讀

對(duì)于具有挑戰(zhàn)性的 step-by-step 數(shù)學(xué)推理問(wèn)題,是在每一步給予獎(jiǎng)勵(lì)還是在最后給予單個(gè)獎(jiǎng)勵(lì)更有效呢?OpenAI最新研究給出了他們的答案。

現(xiàn)在,大語(yǔ)言模型迎來(lái)了「無(wú)所不能」的時(shí)代,其中在執(zhí)行復(fù)雜多步推理方面的能力也有了很大提高。不過(guò),即使是最先進(jìn)的大模型也會(huì)產(chǎn)生邏輯錯(cuò)誤,通常稱為幻覺(jué)。因此,減輕幻覺(jué)是構(gòu)建對(duì)齊 AGI 的關(guān)鍵一步。


為了訓(xùn)練更可靠的模型,目前可以選擇兩種不同的方法來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型,一種是結(jié)果監(jiān)督,另一種是過(guò)程監(jiān)督。結(jié)果監(jiān)督獎(jiǎng)勵(lì)模型(ORMs)僅使用模型思維鏈的最終結(jié)果來(lái)訓(xùn)練,而過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型(PRMs)則接受思維鏈中每個(gè)步驟的獎(jiǎng)勵(lì)。


考慮到訓(xùn)練可靠模型的重要性以及人工反饋的高成本,仔細(xì)比較結(jié)果監(jiān)督與過(guò)程監(jiān)督非常重要。雖然最近的工作已經(jīng)開(kāi)展了這種比較,但仍然存在很多問(wèn)題。


在本文中,OpenAI 進(jìn)行了調(diào)研,結(jié)果發(fā)現(xiàn)在訓(xùn)練模型解決 MATH 數(shù)據(jù)集的問(wèn)題時(shí),過(guò)程監(jiān)督顯著優(yōu)于結(jié)果監(jiān)督。OpenAI 使用自己的 PRM 模型解決了 MATH 測(cè)試集中代表性子集的 78% 的問(wèn)題。


此外為了支持相關(guān)研究,OpenAI 還開(kāi)源了 PRM800K,它是一個(gè)包含 800K 個(gè)步級(jí)人類反饋標(biāo)簽的完整數(shù)據(jù)集,用于訓(xùn)練它們的最佳獎(jiǎng)勵(lì)模型。



如下為一個(gè)真正(True positive)的問(wèn)答示例。該問(wèn)題以及 OpenAI 列舉的其他問(wèn)題示例均來(lái)自 GPT-4。這個(gè)具有挑戰(zhàn)性的三角學(xué)問(wèn)題需要并不明顯地連續(xù)應(yīng)用多個(gè)恒等式。大多數(shù)解決方案嘗試都失敗了,因?yàn)楹茈y知道哪些恒等式實(shí)際上有用。盡管 GPT-4 通常無(wú)法解決這個(gè)問(wèn)題(正確率僅為 0.1% ),但本文的獎(jiǎng)勵(lì)模型正確地識(shí)別出了這個(gè)解決方案是有效的。



再看一個(gè)假正(False positive)的問(wèn)答示例。在第四步中,GPT-4 錯(cuò)誤地聲稱該序列每 12 個(gè)項(xiàng)重復(fù)一次,而實(shí)際上是每 10 個(gè)項(xiàng)重復(fù)一次。這種計(jì)數(shù)錯(cuò)誤偶爾會(huì)愚弄獎(jiǎng)勵(lì)模型。



論文作者之一、OpenAI Alignment 團(tuán)隊(duì)負(fù)責(zé)人 Jan Leike 表示,「使用 LLM 做數(shù)學(xué)題的真正有趣結(jié)果是:監(jiān)督每一步比只檢查答案更有效?!?/span>



英偉達(dá) AI 科學(xué)家 Jim Fan 認(rèn)為,「這篇論文的觀點(diǎn)很簡(jiǎn)單:對(duì)于挑戰(zhàn)性的逐步問(wèn)題,要在每一步給予獎(jiǎng)勵(lì),而不要在最后給予單個(gè)獎(jiǎng)勵(lì)。從根本上來(lái)說(shuō),密集獎(jiǎng)勵(lì)信號(hào)>稀疏?!?/span>



我們接下來(lái)細(xì)看 OpenAI 這篇論文的方法和結(jié)果。



論文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

數(shù)據(jù)集地址:https://github.com/openai/prm800k


方法概覽


該研究按照與 Uesato et al. (2022) 類似的方法對(duì)結(jié)果監(jiān)督和過(guò)程監(jiān)督進(jìn)行了比較。值得注意的是這項(xiàng)研究無(wú)需人工即可提供結(jié)果監(jiān)督,因?yàn)?MATH 數(shù)據(jù)集中的所有問(wèn)題都有可自動(dòng)檢查的答案。相比之下,沒(méi)有簡(jiǎn)單的方法來(lái)自動(dòng)化過(guò)程監(jiān)督。該研究依靠人類數(shù)據(jù)標(biāo)記者來(lái)提供過(guò)程監(jiān)督,具體來(lái)說(shuō)是需要人工標(biāo)記模型生成的解決方案中每個(gè)步驟的正確性。該研究在大規(guī)模和小規(guī)模兩種情況下分別進(jìn)行了實(shí)驗(yàn)。


范圍


對(duì)于每種模型規(guī)模,該研究都使用一個(gè)固定模型來(lái)生成所有解決方案。這個(gè)模型被稱為生成器,OpenAI 表示不會(huì)通過(guò)強(qiáng)化學(xué)習(xí) (RL) 來(lái)改進(jìn)生成器。


基礎(chǔ)模型


所有大型模型均是基于 GPT-4 模型進(jìn)行微調(diào)得來(lái)的。該研究還添加了一個(gè)額外的預(yù)訓(xùn)練步驟 —— 在含有約 1.5B 數(shù)學(xué)相關(guān) token 的數(shù)據(jù)集 MathMix 上微調(diào)所有模型。與 Lewkowycz et al. (2022) 類似,OpenAI 的研究團(tuán)隊(duì)發(fā)現(xiàn)這種方法可以提高模型的數(shù)學(xué)推理能力。


生成器


為了更容易解析單個(gè)步驟,該研究訓(xùn)練生成器在生成解決方案時(shí),步驟之間用換行符分隔。具體來(lái)說(shuō),該研究對(duì) MATH 訓(xùn)練問(wèn)題使用少樣本生成解決方案,過(guò)濾出得到最終正確答案的解決方案,并在該數(shù)據(jù)集上對(duì)基礎(chǔ)模型進(jìn)行一個(gè) epoch 的微調(diào)。


數(shù)據(jù)采集


為了收集過(guò)程監(jiān)督數(shù)據(jù),該研究向人類數(shù)據(jù)標(biāo)記者展示了大規(guī)模生成器采樣的數(shù)學(xué)問(wèn)題的逐步解決方案。人類數(shù)據(jù)標(biāo)記者的任務(wù)是為解決方案中的每個(gè)步驟分配正面、負(fù)面或中性標(biāo)簽,如下圖 1 所示。



該研究只標(biāo)記大型生成器生成的解決方案,以最大限度地發(fā)揮有限的人工數(shù)據(jù)資源的價(jià)值。該研究將收集到的按步驟標(biāo)記的整個(gè)數(shù)據(jù)集稱為 PRM800K。PRM800K 訓(xùn)練集包含 800K 步驟標(biāo)簽,涵蓋 12K 問(wèn)題的 75K 解決方案。為了最大限度地減少過(guò)擬合,PRM800K 訓(xùn)練集包含來(lái)自 MATH 的 4.5K 測(cè)試問(wèn)題數(shù)據(jù),并僅在剩余的 500 個(gè) MATH 測(cè)試問(wèn)題上評(píng)估模型。


結(jié)果監(jiān)督獎(jiǎng)勵(lì)模型 (ORM)


該研究按照與 Cobbe et al. (2021) 類似的方法訓(xùn)練 ORM,并從生成器中為每個(gè)問(wèn)題采樣固定數(shù)量的解決方案,然后訓(xùn)練 ORM 來(lái)預(yù)測(cè)每個(gè)解決方案的正確與否。實(shí)踐中,自動(dòng)檢查最終答案來(lái)確定正確性是一種常用的方法,但原則上由人工標(biāo)記者來(lái)提供標(biāo)簽。在測(cè)試時(shí),該研究使用 ORM 在最終 token 處的預(yù)測(cè)作為每個(gè)解決方案的總分。


過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型(PRM)


PRM 用來(lái)預(yù)測(cè)每個(gè)步驟(step)中最后一個(gè) token 之后的步驟的正確性。這種預(yù)測(cè)采用單個(gè) token 形式,并且 OpenAI 在訓(xùn)練過(guò)程中最大化這些目標(biāo) token 的對(duì)數(shù)似然。因此,PRM 可以在標(biāo)準(zhǔn)的語(yǔ)言模型 pipeline 中進(jìn)行訓(xùn)練,無(wú)需任何特殊的適應(yīng)措施。


圖 2 為同一個(gè)問(wèn)題的 2 種解決方案,左邊的答案是正確的,右邊的答案是錯(cuò)誤的。綠色背景表示 PRM 得分高,紅色背景表示 PRM 得分低。PRM 可以正確識(shí)別錯(cuò)誤解決方案中的錯(cuò)誤。



在進(jìn)行過(guò)程監(jiān)督時(shí),OpenAI 有意選擇僅對(duì)第一個(gè)錯(cuò)誤步驟進(jìn)行監(jiān)督,從而使得結(jié)果監(jiān)督和過(guò)程監(jiān)督之間的比較更加直接。對(duì)于正確的解決方案,兩種方法提供的信息相同,因?yàn)槊恳徊蕉际钦_的解題方法。對(duì)于錯(cuò)誤的解決方案,兩種方法都能揭示至少存在一個(gè)錯(cuò)誤,并且過(guò)程監(jiān)督還揭示了該錯(cuò)誤的確切位置。


大規(guī)模監(jiān)督


OpenAI 使用全流程監(jiān)督數(shù)據(jù)集 PRM800K 來(lái)訓(xùn)練 PRM,為了使 ORM 基準(zhǔn)更加強(qiáng)大,OpenAI 還為每個(gè)問(wèn)題進(jìn)行了 100 個(gè)樣本的訓(xùn)練,這些樣本均來(lái)自生成器,由此 ORM 訓(xùn)練集與 PRM800K 沒(méi)有重疊樣本。


下圖為結(jié)果監(jiān)督和過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型以及投票方案的比較,結(jié)果表明在搜索模型生成的解決方案時(shí),PRM 比 ORM 和多數(shù)投票更有效。



小規(guī)模綜合監(jiān)督


為了更好的比較結(jié)果監(jiān)督和過(guò)程監(jiān)督,首先需要注意的是 ORM 和 PRM 的訓(xùn)練集不具有直接可比性,PRM 訓(xùn)練集是使用主動(dòng)學(xué)習(xí)構(gòu)建的,偏向于答案錯(cuò)誤的解決方案,還比 ORM 訓(xùn)練集少一個(gè)數(shù)量級(jí)。


過(guò)程監(jiān)督 VS 結(jié)果監(jiān)督


首先 OpenAI 從小規(guī)模生成器中為每個(gè)問(wèn)題采樣 1 到 200 個(gè)解決方案。對(duì)于每個(gè)數(shù)據(jù)集,OpenAI 提供三種形式的監(jiān)督:來(lái)自 PRM_large 的過(guò)程監(jiān)督,來(lái)自 PRM_large 的結(jié)果監(jiān)督以及來(lái)自最終答案檢查的結(jié)果監(jiān)督。


圖 4a 表明,過(guò)程監(jiān)督明顯優(yōu)于其他兩種形式的結(jié)果監(jiān)督;圖 4b 表明,使用 PRM_large 進(jìn)行結(jié)果監(jiān)督明顯比最終答案檢查的結(jié)果監(jiān)督更有效。



OOD 泛化


為了衡量模型在分布外(OOD)泛化的性能,OpenAI 對(duì)大規(guī)模 ORM 和 PRM 在一個(gè)由 224 個(gè) STEM 問(wèn)題組成的 held-out(留出法)上進(jìn)行評(píng)估,這些問(wèn)題來(lái)自最新的 AP 物理(美國(guó)大學(xué)先修課程簡(jiǎn)稱 AP)、AP 微積分、AP 化學(xué)、AMC10(理解為數(shù)學(xué)競(jìng)賽)和 AMC12 考試,模型沒(méi)有見(jiàn)過(guò)這些問(wèn)題。表格 1 中報(bào)告了 ORM、PRM 和多數(shù)投票的前 100 個(gè)的最佳表現(xiàn)。表明,PRM 的性能優(yōu)于 ORM 和多數(shù)投票,同時(shí)意味著 PRM 在新的測(cè)試問(wèn)題上性能仍然保持不變。



原文標(biāo)題:OpenAI要為GPT-4解決數(shù)學(xué)問(wèn)題了:獎(jiǎng)勵(lì)模型指錯(cuò),解題水平達(dá)到新高度

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:OpenAI要為GPT-4解決數(shù)學(xué)問(wèn)題了:獎(jiǎng)勵(lì)模型指錯(cuò),解題水平達(dá)到新高度

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    OpenAI揭秘CriticGPT:GPT自進(jìn)化新篇章,RLHF助力突破人類能力邊界

    OpenAI近期震撼發(fā)布了一項(xiàng)革命性成果——CriticGPT,一個(gè)基于GPT-4深度優(yōu)化的新型模型,其獨(dú)特之處在于能夠自我提升,助力未來(lái)GPT模型
    的頭像 發(fā)表于 07-02 10:19 ?717次閱讀

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯(cuò)

    基于GPT-4模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯(cuò)誤而設(shè)計(jì),其獨(dú)特的作用在于,讓人們能夠用GPT-4來(lái)查找GP
    的頭像 發(fā)表于 06-29 09:55 ?503次閱讀

    OpenAI API Key獲?。洪_(kāi)發(fā)人員申請(qǐng)GPT-4 API Key教程

    ? OpenAIGPT-4模型因其卓越的自然語(yǔ)言理解和生成能力,成為了許多開(kāi)發(fā)者的首選工具。獲取GPT-4 API Key并將其應(yīng)用于項(xiàng)目,如開(kāi)發(fā)一個(gè)ChatGPT聊天應(yīng)用,不僅是實(shí)
    的頭像 發(fā)表于 06-24 17:40 ?1956次閱讀
    <b class='flag-5'>OpenAI</b> API Key獲?。洪_(kāi)發(fā)人員申請(qǐng)<b class='flag-5'>GPT-4</b> API Key教程

    開(kāi)發(fā)者如何調(diào)用OpenAIGPT-4o API以及價(jià)格詳情指南

    ?目前,OpenAI模型GPT-4o和GPT-4 Turbo的價(jià)格如下: GPT-4o 對(duì)比 GPT-
    的頭像 發(fā)表于 05-29 16:00 ?9791次閱讀
    開(kāi)發(fā)者如何調(diào)用<b class='flag-5'>OpenAI</b>的<b class='flag-5'>GPT-4</b>o API以及價(jià)格詳情指南

    OpenAI推出面向所有用戶的AI模型GPT-4o

    在周一的直播盛會(huì)上,OpenAI揭開(kāi)了其最新的人工智能模型GPT-4o的神秘面紗。這款新模型旨在為其著名的聊天機(jī)器人ChatGPT提供更強(qiáng)大、更經(jīng)濟(jì)的支持。
    的頭像 發(fā)表于 05-15 09:23 ?358次閱讀

    OpenAI全新GPT-4o能力炸場(chǎng)!速度快/成本低,能讀懂人類情緒

    ”的意思。GPT-4o文本、推理、編碼能力達(dá)到GPT-4 Turbo水平,速度是上一代AI大模型GPT-
    的頭像 發(fā)表于 05-15 00:15 ?7763次閱讀

    OpenAI發(fā)布GPT-4o模型,供全體用戶免費(fèi)使用

    OpenAI首席技術(shù)官穆里·穆拉蒂(Muri Murati)指出,GPT-4o具備與GPT-4相同的智能水平,且在文本、圖像及語(yǔ)音處理方面有顯著進(jìn)步。
    的頭像 發(fā)表于 05-14 11:17 ?441次閱讀

    OpenAI計(jì)劃宣布ChatGPT和GPT-4更新

    人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI近日宣布,將于5月13日進(jìn)行一場(chǎng)產(chǎn)品更新直播,屆時(shí)將揭曉ChatGPT和GPT-4的新進(jìn)展。這一消息立即引發(fā)了外界對(duì)OpenAI下一項(xiàng)重大技術(shù)發(fā)布的廣泛猜測(cè)和期待。
    的頭像 發(fā)表于 05-13 11:06 ?551次閱讀

    OpenAI設(shè)立日本辦事處,研發(fā)日文版GPT-4

    此外,OpenAI 還計(jì)劃推出適用于日語(yǔ)環(huán)境的 GPT-4 定制版模型。據(jù)悉,該模型在處理日文文本時(shí)表現(xiàn)更為出色,運(yùn)行速度最高可提升至三倍;同時(shí),其在翻譯和總結(jié)日語(yǔ)文本方面的性能和性價(jià)
    的頭像 發(fā)表于 04-15 16:04 ?442次閱讀

    OpenAI推出Vision模型GPT-4 Turbo,融合文本與圖像理解

    據(jù)悉,此模型沿用GPT-4 Turbo系列特有的12.8萬(wàn)token窗口規(guī)模及截至2023年12月的知識(shí)庫(kù)架構(gòu),其創(chuàng)新亮點(diǎn)則是強(qiáng)大的視覺(jué)理解功能。
    的頭像 發(fā)表于 04-10 10:49 ?359次閱讀

    微軟Copilot全面更新為OpenAIGPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級(jí)至GPT-4取得顯著進(jìn)步,如今再次更新至性能卓越的GPT-4 Turbo
    的頭像 發(fā)表于 03-13 13:42 ?659次閱讀

    OpenAI推出ChatGPT新功能:朗讀,支持37種語(yǔ)言,兼容GPT-4GPT-3

    據(jù)悉,“朗讀”功能支持37種語(yǔ)言,且能夠自主識(shí)別文本類型并對(duì)應(yīng)相應(yīng)的發(fā)音。值得關(guān)注的是,該功能對(duì)GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多模態(tài)交互”(multimodal capab
    的頭像 發(fā)表于 03-05 15:48 ?823次閱讀

    全球最強(qiáng)大模型易主,GPT-4被超越

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型,其中包括最強(qiáng)版Claude 3 Opus。據(jù)該公司稱,Claude 3系列在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺(jué)方面全面超越了包括GPT-4在內(nèi)的所
    的頭像 發(fā)表于 03-05 09:58 ?606次閱讀

    ChatGPT plus有什么功能?OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能

    OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能分析解答 在最近的OpenAI DevDay上,該組織發(fā)布了一項(xiàng)備受期待的公告:推出GPT-4 Turbo,這是對(duì)其突破
    的頭像 發(fā)表于 12-13 09:19 ?1047次閱讀
    ChatGPT plus有什么功能?<b class='flag-5'>OpenAI</b> 發(fā)布 <b class='flag-5'>GPT-4</b> Turbo 目前我們所知道的功能

    OpenAI發(fā)布的GPT-4 Turbo版本ChatGPT plus有什么功能?

    OpenAIGPT-4 Turbo以前所未有的功能和價(jià)格改變?nèi)斯ぶ悄艿奈磥?lái) 在人工智能領(lǐng)域的一次里程碑式活動(dòng)中,OpenAI開(kāi)發(fā)者大會(huì)上發(fā)布了GPT-4 Turbo,這是突破性人工智
    的頭像 發(fā)表于 12-05 17:57 ?2368次閱讀
    <b class='flag-5'>OpenAI</b>發(fā)布的<b class='flag-5'>GPT-4</b> Turbo版本ChatGPT plus有什么功能?