0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

推理王者o1到底怎么落地?

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2024-11-08 16:12 ? 次閱讀

wKgaomctx9qAH2xgAAmwwEbReL4616.jpg

完整版o1“被泄露”,成了上周AI界的大新聞。

9月13日,OpenAI發(fā)布了傳說中代號“草莓”的全新模型系列的預(yù)覽版o1 preview,隨后又上線了o1 mini。o1模型系列,能夠模仿人類思維過程“慢思考”,提升了AI的邏輯推理能力,成為AI模型領(lǐng)域的王炸,牽動著整個行業(yè)的神經(jīng)。

而就在上周,有不少用戶突然發(fā)現(xiàn),能在ChatGPT官網(wǎng)上用到完整版o1了。奧特曼更是不小心“登錯賬號”,在社交媒體宣布“o2即將登場”。

從o1 preview到o2,這一系列模型,炸裂歸炸裂,但所謂的推理能力好像并沒有真正融入產(chǎn)業(yè)應(yīng)用,以至于大家都有種狼來了的感覺,開始猜測這不過是奧特曼的又一次宣傳噱頭。

比如,就有網(wǎng)友覺得完整版o1被釋放,并不是“不小心”,而是“精心策劃”的炒作,奧特曼“登錯號劇透o2”也是裝的。

wKgZomctx96AGT1DAAH56gyTNvw630.jpg

如何避免真實的技術(shù)價值淪為“狼來了”的戲碼?答案就是,別讓模型能力成為空中樓閣,而是加速落地到產(chǎn)業(yè)中。

到底哪些場景才能充分發(fā)揮o1“慢思考”的技術(shù)潛力呢?本文就來找找產(chǎn)業(yè)化落地的路子。

wKgaomctx96AHAUUAAJIDPalWUY927.jpg

落地產(chǎn)業(yè),前提是正確認(rèn)識到技術(shù)的價值。o1模型系列與老前輩們的最大區(qū)別和價值究竟是啥呢?就是慢思考。

我們都知道GPT-4o啥的處理些日?,嵤逻€行,但時不時就會犯點小迷糊,算個小學(xué)數(shù)學(xué)題加減法都錯漏百出。而o1就像是經(jīng)過嚴(yán)格訓(xùn)練的學(xué)霸,??诉壿嬐评怼?fù)雜任務(wù)難題。前不久的OpenAI倫敦開發(fā)者日上,完整版o1的五大能力包括:函數(shù)調(diào)用、開發(fā)者message、流式傳輸、結(jié)構(gòu)化輸出、圖像理解。

如果說4o的數(shù)學(xué)水平是高中生程度,那么9月發(fā)布的o1-preview就有大學(xué)生水平了,即將發(fā)布的o2在GPQA研究生級別基準(zhǔn)中取得了105%的成績,未來是妥妥的研究生了。

wKgZomctx9-AcnMpAAUy4oBIE0s094.jpg

而上述能力靠的就是o1的獨門秘籍——慢思考。

已知人腦有兩種模式:一種是快思考,就是咱們平時“一拍腦門”那種憑直覺、靠經(jīng)驗的快速決策;另一種是慢思考,指的是在解數(shù)學(xué)題、進(jìn)行科學(xué)推理需要花時間、費精力去琢磨的思考模式,更注重邏輯和理性分析。

o1通過學(xué)習(xí)人腦深思熟慮、穩(wěn)扎穩(wěn)打的思考模式,o1采用強(qiáng)化學(xué)習(xí)+思維鏈,把復(fù)雜問題拆成小塊,一步步來,直到得出最準(zhǔn)確的答案,極大地提高了模型的推理能力。

研究生級別的學(xué)霸o1模型系列,給AI界帶來了全新的可能。但如何將“慢思考”的技術(shù)潛力真正轉(zhuǎn)化為實際應(yīng)用,讓o1成為推動產(chǎn)業(yè)進(jìn)步的重要力量?還是一個需要進(jìn)一步探索的話題。

產(chǎn)業(yè)大不同,落地有先后。按照落地的難易程度,我們可能會看到類o1的“慢思考”能力,在以下產(chǎn)業(yè)逐步應(yīng)用開來。

wKgaomctx-CAcGOpAAGgBkIeeJw903.jpg

堅實的數(shù)字化基礎(chǔ)、對新技術(shù)的高接受度、強(qiáng)大的付費能力,這些特性使得金融成為大模型技術(shù)落地的理想場所。

幾乎所有的大模型廠商,都將金融行業(yè)作為業(yè)務(wù)開拓的第一站。然而,在金融與大模型的結(jié)合過程中,由于大模型的推理能力不強(qiáng),加上幻覺問題,導(dǎo)致大模型在金融領(lǐng)域的復(fù)雜應(yīng)用中表現(xiàn)并不理想。

此前,大模型在金融行業(yè)的應(yīng)用范圍,主要是一些容錯率較高的淺層應(yīng)用上,如智能客服、報表文檔助手。而風(fēng)控、信貸、投資分析等的嚴(yán)肅生產(chǎn)力場景,需要對多種模態(tài)的數(shù)據(jù),進(jìn)行深入分析和推理,決策質(zhì)量要求極高。這些核心業(yè)務(wù)中,大模型在工作流中發(fā)揮的價值相對有限,主要還是得靠人類專家來做。

一位銀行從業(yè)者表示,客戶需要我們的理財分析師給出犀利、專業(yè)的觀點來幫助決策,而大模型只會泛泛而談,沒什么參考價值。

人人都希望由專業(yè)的金融從業(yè)人員來服務(wù),如果AI模型能夠在一些容錯率低的嚴(yán)肅場景中應(yīng)用,只需要少量人工干預(yù)、監(jiān)督和驗證,那么專業(yè)人士的時間精力,不就可以解放出來了嗎?隨著“慢思考”邏輯推理能力的出現(xiàn),這一期待真的有可能實現(xiàn)。

wKgaomctx-GAFWGgAALGw7YAoDE184.jpg

基于類o1的邏輯推理能力,我們有望看到AI在金融核心業(yè)務(wù)中承擔(dān)起專家角色,發(fā)揮更重要的作用。比如像專業(yè)審核員一樣讀征信報告、看賬單流水,甚至能解讀網(wǎng)絡(luò)大數(shù)據(jù),思考和捕捉數(shù)據(jù)之間的關(guān)聯(lián),并生成風(fēng)險判斷的依據(jù)和結(jié)論。

又或者像專業(yè)分析師一樣,根據(jù)用戶需求進(jìn)行個性化的產(chǎn)品設(shè)計,縝密分析投資策略,給出理財、投資、投保等建議。

慢思考可以讓AI從淺層、邊緣、單一的場景,進(jìn)入到復(fù)雜、核心、高價值的核心業(yè)務(wù)中,突破大模型在金融行業(yè)的價值上限。

wKgZomctx-GAZIDnAAIJ-ihygtc503.jpg

“o1實在太強(qiáng)了……我的博士作業(yè)做了20個小時,被它3分鐘思考就拿下了。剛讀博就出這個,感覺人生都灰暗了[流淚] ?!边壿嬐评砟芰_(dá)到研究生水平的o1模型系列,讓不少人類研究生、博士生感到了切實的危機(jī)。

但用一句流行語來說,“o1不是來拆散科研這個家,而是來加入這個家的”。

近幾十年來,神經(jīng)網(wǎng)絡(luò)算法已經(jīng)被廣泛應(yīng)用于科研領(lǐng)域,從宏觀世界的天文探索、引力波探測,到微觀世界的蛋白質(zhì)折疊、同步光源等,數(shù)據(jù)科學(xué)和算法工程提供了大量的操作手段,幫助科學(xué)領(lǐng)域的探索性課題取得突破。AI技術(shù)已經(jīng)成為科學(xué)研究不可或缺的一部分,AI4S的大趨勢不可阻擋。

面對這個過程,一位高校力學(xué)老師曾對我們說過一個比喻:AI和力學(xué)的結(jié)合,就像是成功的婚姻才剛剛開始,會有甜蜜期,也會有磨合期。

傳統(tǒng)模型算法雖然有強(qiáng)大的計算能力和手段,但缺乏深入的邏輯推理能力和對科學(xué)原理的深刻理解,面對復(fù)雜的科學(xué)問題時,往往力不從心,難以提供準(zhǔn)確且可靠的解決方案。思考方式跟追求嚴(yán)謹(jǐn)?shù)目茖W(xué)家們大相徑庭,此前的AI4S全靠人類遷就。

而o1慢思考強(qiáng)調(diào)的逐步分析、深入推理,這種思考方式與科學(xué)研究的本質(zhì)不謀而合。具備慢思考能力的AI模型,相當(dāng)于掌握了碩博們的學(xué)習(xí)方法,可以逐步拆解問題、分析數(shù)據(jù)、反復(fù)驗算、推導(dǎo)結(jié)論。

wKgZomctx-KAJ3NCAAMgIEUf-ac625.jpg

在科研領(lǐng)域,類o1模型可以作為科學(xué)家們的“科研伴侶”,扮演好幾種角色:

1.靈感繆斯。在一些經(jīng)典的科學(xué)問題,或者已經(jīng)成熟的科研結(jié)果上,科學(xué)家們往往還要開發(fā)新方法、新理論。這個過程中,AI的邏輯推理能力可以發(fā)現(xiàn)數(shù)據(jù)之間的潛在聯(lián)系和規(guī)律,提出新的假設(shè)和預(yù)測,為科學(xué)研究開辟新的道路。

2.科研助理。隨著科學(xué)領(lǐng)域“低垂的果實”被摘完,科學(xué)家們要去解決更復(fù)雜的問題。以力學(xué)為例,在深水探索任務(wù)中,不僅要做簡單的維度對比,還需要做更細(xì)節(jié)的探索研究,包括復(fù)雜的洋流環(huán)境、水下潛入等復(fù)雜動作,這些是傳統(tǒng)的流體控制方法所難以預(yù)測的。而邏輯推理大模型可以在這類非線性、高維度的科學(xué)問題與科研應(yīng)用上,有更好的性能表現(xiàn)。比如馬克思普朗克研究所的量子物理學(xué)者M(jìn)ario Krenn,就展示了o1-preview正確完成計算的復(fù)雜量子物理問題。

3.工程師助理??蒲心康牟皇呛唵蔚亻_發(fā)新方法、新理論,最終成果要轉(zhuǎn)化到工業(yè)界,去解決工業(yè)、生活中的現(xiàn)實問題,這就不單單需要新穎的想法,還需要技術(shù)的安全性、成熟度、容錯率等。這時候,具備邏輯推理能力的大模型,可以在工業(yè)場景中處理復(fù)雜問題,降低幻覺,如同工程師助理一樣,減少實際應(yīng)用中的故障率。

無論是容錯率較高的創(chuàng)造型任務(wù),還是容錯率較低的工程類任務(wù),擁有“慢思考”能力的大模型,都會是一名更得力的助手,與科學(xué)長相廝守。

wKgaomctx-KAPAcvAAGnxc45Lk4854.jpg

ChatGPT的第一個應(yīng)用案例,就是幫學(xué)生寫作業(yè),為此遭到了各國多所學(xué)校的嚴(yán)格限制。這種應(yīng)用場景雖然不可取,但說明了一個道理:充斥著大量文本、重復(fù)任務(wù)的教育行業(yè),是大模型落地的絕佳場景。

過去一年多來,“大模型+教育”這個新風(fēng)口的爆發(fā),也證實了教育產(chǎn)業(yè)AI化的價值切實存在。但真正落地的應(yīng)用,主要還是以AI口語對話、AI批改作文、LLM翻譯、中英文寫作等功能為主。

一旦覆蓋到復(fù)雜的學(xué)科內(nèi)容,比如數(shù)學(xué)、物理、化學(xué)等,連“9.9跟9.11誰大”都搞不清楚的GPT們就集體熄火了。國產(chǎn)大模型也同樣如此,一位國產(chǎn)數(shù)學(xué)大模型的工作人員告訴我,做數(shù)學(xué)題的正確率是60%。試問哪個家長敢讓數(shù)學(xué)成績剛及格,還熱愛“胡說八道”的AI給孩子當(dāng)家教呢?

邏輯推理,限制了模型的能力邊界。而模型的能力限制,又進(jìn)一步影響了智能教育硬件、個性化AI在線輔導(dǎo)服務(wù)的市場化推廣步伐??梢哉f,解決大模型+教育的商業(yè)化問題,最關(guān)鍵的是問技術(shù)要出路,這也是慢思考模型的價值所在。

首先,具備慢思考的大模型,數(shù)學(xué)推理的能力飛躍,數(shù)學(xué)正確率更是肉眼可見地高漲。在剛剛結(jié)束的2024 IOI信息學(xué)奧賽題目中,o1的微調(diào)版本在每題嘗試50次條件下取得了213分,屬于人類選手中前49%的成績。如果允許它每道題嘗試10000次,能獲得362.14分,可以獲得金牌。對于有算力、有開發(fā)能力的教育大模型公司來說,完全有可能開發(fā)出數(shù)學(xué)能力很強(qiáng)的垂類大模型,提供面向復(fù)雜學(xué)科或高年齡學(xué)段的AI輔導(dǎo)功能。

其次,疊加了多模態(tài)的推理大模型,進(jìn)一步開拓教育應(yīng)用。在泄露出來的完整版o1,已經(jīng)具備多模態(tài)能力了,支持上傳附件,或直接識圖。有網(wǎng)友將一道普特南數(shù)學(xué)競賽的證明題截圖發(fā)給o1,就被具有圖像推理能力的o1成功搞定。這意味著教育類大模型不再局限于文本、語言對話類的功能,可以跟物理世界產(chǎn)生交互,比如拍照答題、實時視頻問答等,不管學(xué)生問的是現(xiàn)實世界中的什么問題,AI都能大概率找出正確答案。

更為關(guān)鍵的是,由于慢思考的模型不再一味追求參數(shù)、追求scaling law,而是著重于提高推理能力和認(rèn)知效率。也就是說,面對一個復(fù)雜問題或任務(wù),AI大模型開始以“更聰明”的方法,而非“力大飛磚”的笨辦法,模型的參數(shù)規(guī)模更小,更便于在硬件終端上部署,在同樣的終端配置下,推理大模型可以表現(xiàn)更出色,這有利于AI學(xué)習(xí)機(jī)等教育類智能硬件的普及,為教育行業(yè)帶來新的增長點。

wKgaomctx-aAfPCgAAImf_lzI-Y441.jpg

雖然慢思考的類o1大模型還是個新鮮事物,OpenAI噱頭大于實際的營銷手段也招人吐槽,但可以肯定的是,更強(qiáng)邏輯推理能力的大模型,將成為模廠與行業(yè)在智能化領(lǐng)域所必須拿下的高地,去解決此前LLM+行業(yè)的結(jié)合止于淺層應(yīng)用、難以應(yīng)對復(fù)雜業(yè)務(wù)的產(chǎn)業(yè)化痛點,進(jìn)而打開大模型的商業(yè)化空間。

究其核心,是AI大模型開始走出語言類任務(wù)的局限,可以在容錯率低、專業(yè)性強(qiáng)的嚴(yán)肅工作中發(fā)揮價值。

專家型人才稀缺的行業(yè)場景,往往也是高價值所在。懂得慢思考的大模型,正慢慢行業(yè)專家化,這讓大模型更有價值,也讓會思考的人更有價值了。

wKgaomctx-iANiPtAAHbiV04LzM348.jpg

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29780

    瀏覽量

    268054
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1033

    瀏覽量

    6378
收藏 人收藏

    評論

    相關(guān)推薦

    OpenAI發(fā)布o1大模型,數(shù)理化水平比肩人類博士,國產(chǎn)云端推理芯片的新藍(lán)海?

    電子發(fā)燒友網(wǎng)報道(文/吳子鵬)9月12日晚,OpenAI正式對外發(fā)布一款名為o1的新模型。OpenAI o1的內(nèi)部代號為“草莓”,具備超強(qiáng)的邏輯推理能力。和傳統(tǒng)大模型不同,OpenAI o1
    發(fā)表于 09-14 00:04 ?1307次閱讀
    OpenAI發(fā)布<b class='flag-5'>o1</b>大模型,數(shù)理化水平比肩人類博士,國產(chǎn)云端<b class='flag-5'>推理</b>芯片的新藍(lán)海?

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來越多,從目前的市場來說,有些公司已經(jīng)有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了優(yōu)化,因此相比GPU這種通過計算平臺,功耗更低、
    的頭像 發(fā)表于 10-29 14:12 ?146次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應(yīng)用

    李開復(fù):中國擅長打造經(jīng)濟(jì)實惠的AI推理引擎

    10月22日上午,零一萬物公司的創(chuàng)始人兼首席執(zhí)行官李開復(fù)在與外媒的交流中透露,其公司旗下的Yi-Lightning(閃電模型)在推理成本上已實現(xiàn)了顯著優(yōu)勢,比OpenAI的GPT-4o模型低了31倍。他強(qiáng)調(diào),中國擅長打造經(jīng)濟(jì)實惠的AI
    的頭像 發(fā)表于 10-22 16:54 ?283次閱讀

    OpenAI o1開辟“慢思考”,國產(chǎn)AI早已集結(jié)在CoE“組團(tuán)”先出發(fā)

    讓模型學(xué)會“慢思考”,中國AI并沒有落后于OpenAI
    的頭像 發(fā)表于 09-19 11:42 ?1695次閱讀
    OpenAI <b class='flag-5'>o1</b>開辟“慢思考”,國產(chǎn)AI早已集結(jié)在CoE“組團(tuán)”先出發(fā)

    AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

    HyperAccel 是一家成立于 2023 年 1 月的韓國初創(chuàng)企業(yè),致力于開發(fā) AI 推理專用型半導(dǎo)體器件和硬件,最大限度提升推理工作負(fù)載的存儲器帶寬使用,并通過將此解決方案應(yīng)用于大型語言模型來
    的頭像 發(fā)表于 09-18 09:37 ?305次閱讀
    AMD助力HyperAccel開發(fā)全新AI<b class='flag-5'>推理</b>服務(wù)器

    OpenAl發(fā)布o1推理模型物化生水平比肩人類博士

    行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年09月13日 15:14:57

    【飛凌嵌入式OK3576-C開發(fā)板體驗】rkllm板端推理

    交叉編譯 在完成模型的量化構(gòu)建后,就能夠在目標(biāo)硬件平臺OK3576上實現(xiàn)模型的推理功能了。 板端推理的示例代碼位于kllm-runtime/examples/rkllm_api_demo目錄中,該
    發(fā)表于 08-31 22:45

    S8393獨立三路電子按鍵開關(guān)芯片中文手冊

    S8393 應(yīng)用于三路按鍵開關(guān)分別控制三路輸出驅(qū)動IC。Power On=OFF?三路開關(guān)對GND觸發(fā)有效:按一下ON,再按一下OFF。三路獨立互不干擾。2腳S1控制7腳O1輸出,高電平輸出有效3腳S1控制6腳
    發(fā)表于 07-24 11:44 ?1次下載

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復(fù)雜任務(wù)時的效率和響應(yīng)速度。以下是對LLM大模型推理加速關(guān)鍵技術(shù)的詳細(xì)探討,內(nèi)容將涵蓋模型壓縮、解碼方法優(yōu)化、底層優(yōu)化、分布式并行推理以及特
    的頭像 發(fā)表于 07-24 11:38 ?718次閱讀

    自然語言處理應(yīng)用LLM推理優(yōu)化綜述

    當(dāng)前,業(yè)界在將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時,同時也在探索從大模型自回歸解碼特點出發(fā),通過調(diào)整推理過程和引入新的模型結(jié)構(gòu)來進(jìn)一步提升推理性能。
    發(fā)表于 04-10 11:48 ?540次閱讀
    自然語言處理應(yīng)用LLM<b class='flag-5'>推理</b>優(yōu)化綜述

    深度探討VLMs距離視覺演繹推理還有多遠(yuǎn)?

    通用大型語言模型(LLM)推理基準(zhǔn):研究者們介紹了多種基于文本的推理任務(wù)和基準(zhǔn),用于評估LLMs在不同領(lǐng)域(如常識、數(shù)學(xué)推理、常識推理、事實推理
    發(fā)表于 03-19 14:32 ?325次閱讀
    深度探討VLMs距離視覺演繹<b class='flag-5'>推理</b>還有多遠(yuǎn)?

    英偉達(dá)要小心了!爆火的Groq芯片能翻盤嗎?AI推理速度「吊打」英偉達(dá)?

    隨著科技的飛速發(fā)展,人工智能公司Groq挑戰(zhàn)了英偉達(dá)的王者地位,其AI芯片不僅展現(xiàn)出卓越的實力,還擁有巨大的潛力。Groq設(shè)計了一種獨特的推理代幣經(jīng)濟(jì)學(xué)模式,該模式背后牽動著眾多因素,卻也引發(fā)了深度
    的頭像 發(fā)表于 03-08 09:44 ?829次閱讀
    英偉達(dá)要小心了!爆火的Groq芯片能翻盤嗎?AI<b class='flag-5'>推理</b>速度「吊打」英偉達(dá)?

    ChatGPT是一個好的因果推理器嗎?

    因果推理能力對于許多自然語言處理(NLP)應(yīng)用至關(guān)重要。最近的因果推理系統(tǒng)主要基于經(jīng)過微調(diào)的預(yù)訓(xùn)練語言模型(PLMs),如BERT [1] 和RoBERTa [2]。
    的頭像 發(fā)表于 01-03 09:55 ?794次閱讀
    ChatGPT是一個好的因果<b class='flag-5'>推理</b>器嗎?

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    如下圖所示。**圖 1 **使用 MindSpore Lite 進(jìn)行模型推理的開發(fā)流程 進(jìn)入主要流程之前需要先引用相關(guān)的頭文件,并編寫函數(shù)生成隨機(jī)的輸入,具體如下: #include <
    發(fā)表于 12-14 11:41

    澎峰科技發(fā)布大模型推理引擎PerfXLLM

    要的巨額開銷也引發(fā)了相關(guān)研究者的關(guān)注。如何高效地進(jìn)行推理,并盡可能地減少成本,從而促進(jìn)大模型應(yīng)用的落地成為了目前的關(guān)鍵問題。 于是,澎峰科技研發(fā)了一款 大模型推理引擎—PerfXLLM ,并且已經(jīng)在 高通的 驍龍8Gen2 平臺
    的頭像 發(fā)表于 11-25 15:35 ?1028次閱讀
    澎峰科技發(fā)布大模型<b class='flag-5'>推理</b>引擎PerfXLLM