近年來,隨著人工智能(Artificial Intelligence, AI)技術(shù)的深化發(fā)展,大模型(Large Model,也稱基礎(chǔ)模型,即Foundation Model)技術(shù)應(yīng)運(yùn)而生。特別是2022年11月底OpenAI發(fā)布ChatGPT,一時間引起國內(nèi)外強(qiáng)烈反響,如同2016年AlphaGo圍棋AI戰(zhàn)勝人類頂級棋手李世石一樣,全社會對AI模型所能達(dá)到的智能化水平產(chǎn)生了全新認(rèn)知。本報告首先對ChatGPT發(fā)展情況進(jìn)行概要介紹和對比分析;在此基礎(chǔ)上,分析提出大模型發(fā)展帶來的啟示和思考,特別是對決策智能大模型發(fā)展進(jìn)行分析研判;最后,對當(dāng)前大模型技術(shù)應(yīng)用提出若干發(fā)展展望。
一、ChatGPT相關(guān)介紹
(1)ChatGPT總體情況
ChatGPT是由OpenAI于2022年11月30日上線的通用語言處理平臺,能以自然語言為交互方式,實(shí)現(xiàn)問題回答、文案撰寫、文本摘要、語言翻譯、計(jì)算機(jī)代碼生成等任務(wù)。自發(fā)布以來,ChatGPT引起國內(nèi)外廣泛關(guān)注,成為“刷爆朋友圈”的現(xiàn)象級應(yīng)用。據(jù)瑞銀集團(tuán)(UBS)發(fā)布的研究報告顯示,ChatGPT在2023年1月份(發(fā)布后2個月)的月活躍用戶數(shù)已達(dá)1億,成為史上用戶數(shù)增長最快的消費(fèi)者應(yīng)用;相比之下,TikTok歷經(jīng)9個月才實(shí)現(xiàn)月活用戶數(shù)破億,Instagram為30個月,Meta為54個月,Twitter為90個月。此外,ChatGPT使人工智能內(nèi)容生成(AI Generated Content, AIGC)技術(shù)成為新的熱點(diǎn)。
本質(zhì)上來講,ChatGPT是一個大語言模型(Large Language Model, LLM), 這是一個概率模型,基于上下文輸入來度量下一個詞匯出現(xiàn)的可能性,即完成“詞語接龍”。語言模型技術(shù)始于上世紀(jì)70年代,ChatGPT是OpenAI自2018年推出生成式預(yù)訓(xùn)練(Generative Pre-training, GPT)模型[1],在經(jīng)歷過GPT-1、GPT-2、GPT-3、InstructGPT等多代模型迭代后,在GPT-3.5基礎(chǔ)上發(fā)展出來的產(chǎn)物(OpenAI于3月14日發(fā)布了基于GPT-4的改進(jìn)版[2],擁有更強(qiáng)大的語言處理能力)。進(jìn)一步拆解其核心技術(shù)要素,可以認(rèn)為,ChatGPT并非AI原始理論技術(shù)創(chuàng)新產(chǎn)生的重大突破,而是產(chǎn)品思維驅(qū)動的重大集成創(chuàng)新成果,是OpenAI堅(jiān)持生成式AI、長期技術(shù)積累,量變產(chǎn)生質(zhì)變的重大成果,同時其強(qiáng)大的自然語言處理能力,也是邁向通用人工智能(Artificial General Intelligence, AGI)的階段性成果[3]。
(2)ChatGPT技術(shù)發(fā)展脈絡(luò)
自然語言處理技術(shù)自誕生以來,先后經(jīng)歷了4種主要任務(wù)處理范式[4]。第一種是非神經(jīng)網(wǎng)絡(luò)下的完全監(jiān)督學(xué)習(xí),由人工設(shè)計(jì)一系列特征模板輸入模型,模型性能高度依賴所設(shè)計(jì)的特征和專家知識;第二種是基于神經(jīng)網(wǎng)絡(luò)的完全監(jiān)督學(xué)習(xí),由人工進(jìn)行數(shù)據(jù)標(biāo)注,神經(jīng)網(wǎng)絡(luò)用于自動特征提取;第三種是“預(yù)訓(xùn)練-精調(diào)”(Pre-train and Fine-tune)范式,首先在超大規(guī)模文本數(shù)據(jù)集上基于自監(jiān)督方式預(yù)訓(xùn)練一個具備較強(qiáng)泛化能力的通用模型,然后再根據(jù)下游任務(wù)特點(diǎn)對模型進(jìn)行針對性微調(diào),從而進(jìn)一步減少人工參與;第四種是預(yù)訓(xùn)練結(jié)合提示(prompt)學(xué)習(xí)范式,在得到預(yù)訓(xùn)練模型后,使用時不再進(jìn)行模型微調(diào),而是將對任務(wù)的描述以提示方式輸入模型,模型自動適配下游任務(wù)。
如前所述,ChatGPT經(jīng)歷了多輪模型迭代。GPT-1于2018年被提出,是在Google于2017年提出的變換器(Transformer)模型[5]基礎(chǔ)上發(fā)展起來的大語言模型,擁有1.17億參數(shù),采用“預(yù)訓(xùn)練-精調(diào)”范式,初步具備了一定泛化能力。GPT-2于2019年被提出,擁有15億參數(shù),OpenAI希望徹底無需針對下游任務(wù)微調(diào)而實(shí)現(xiàn)模型適配,因此采用了提示學(xué)習(xí)范式,實(shí)現(xiàn)了在零樣本或小樣本下良好的內(nèi)容生成和表達(dá)能力。GPT-3延續(xù)GPT-2的方式,進(jìn)一步將參數(shù)規(guī)模擴(kuò)大到1750億,并使用45TB語料數(shù)據(jù)進(jìn)行訓(xùn)練,性能已相當(dāng)強(qiáng)大,可完成自然語言處理的絕大多數(shù)任務(wù)。在OpenAI放棄模型微調(diào)的同時,Google堅(jiān)持采用模型微調(diào)技術(shù),并于2021年9月提出采用指令微調(diào)(Instruction Fine-Tuning, IFT)技術(shù)的大模型FLAN[6],其在許多任務(wù)上的表現(xiàn)超越了GPT-3。為此,OpenAI重新采用微調(diào),即在GPT-3基礎(chǔ)上增加IFT技術(shù),于2022年初推出InstructGPT[7],由于混合了人類指令,InstructGPT在理解人類意圖和擬人化表達(dá)方面已非常突出。為進(jìn)一步提升模型邏輯推理能力,OpenAI采用159 GB的Python代碼語料在GPT-3上進(jìn)行訓(xùn)練,產(chǎn)生了具有強(qiáng)大代碼理解/生成能力和邏輯推理能力的模型Codex[8]。最后,InstructGPT與Codex相結(jié)合,形成了GPT-3.5的基礎(chǔ)架構(gòu),即ChatGPT的基礎(chǔ)模型。
ChatGPT的另一關(guān)鍵技術(shù)是人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Human Feedback, RLHF),即人類標(biāo)注員對模型的一系列問答結(jié)果進(jìn)行評分,以此訓(xùn)練一個符合人類判斷的獎勵模型,基于此獎勵模型采用近端策略優(yōu)化(Proximal Policy Optimization, PPO,2017年由OpenAI提出[9])強(qiáng)化學(xué)習(xí)算法進(jìn)行預(yù)訓(xùn)練后的模型精調(diào)。試驗(yàn)表明,RLHF能極大提升模型表現(xiàn),僅采用13億參數(shù)的模型即表現(xiàn)出超越原本擁有1750億參數(shù)但未采用RLHF的微調(diào)模型或原始的GPT-3模型。OpenAI聯(lián)合創(chuàng)始人John Schulman認(rèn)為,RLHF才是ChatGPT的秘密武器。而RLHF技術(shù)于2017年即由OpenAI聯(lián)合DeepMind及Google Brain團(tuán)隊(duì)提出[10]。
(3)ChatGPT的局限
當(dāng)前,ChatGPT展現(xiàn)出通用的意圖理解能力(大語料數(shù)據(jù)訓(xùn)練、人類指令微調(diào)、人類反饋的強(qiáng)化學(xué)習(xí))、強(qiáng)大的連續(xù)對話能力(采用8192個語言單元進(jìn)行顯式建模)、突出的代碼生成能力(采用代碼和文本混合學(xué)習(xí))等特點(diǎn),但仍存在如下局限性:
缺乏概念構(gòu)建能力。以ChatGPT為代表的系列大模型本質(zhì)上仍是一個黑盒概率模型,即使能給出令人滿意的結(jié)果,但內(nèi)在并未形成真正的概念范疇,無法進(jìn)行知識邏輯推演和解釋,尚無法形成對真實(shí)世界的本質(zhì)認(rèn)知。
缺乏自主學(xué)習(xí)能力。以ChatGPT為代表的系列大模型基于靜態(tài)數(shù)據(jù)驅(qū)動的學(xué)習(xí)范式,模型訓(xùn)練成本高,理論上無法實(shí)現(xiàn)新知識的快速學(xué)習(xí),即當(dāng)人類輸入增量知識后,模型無法及時實(shí)現(xiàn)新知識的學(xué)習(xí)。
缺乏實(shí)體交互能力。ChatGPT等大模型主要以文本為核心處理對象,即使是涵蓋圖、文、音的多模態(tài)大模型也仍屬感認(rèn)知范圍,缺乏與包含強(qiáng)不確定性和開放邊界元素的真實(shí)物理世界的交互和決策控制能力。
缺乏垂域泛化能力。ChatGPT等大語言模型在通用語境下已展現(xiàn)出強(qiáng)大能力,但在各垂直細(xì)分應(yīng)用領(lǐng)域,大模型的性能表現(xiàn)仍需提升,特別是對于模型準(zhǔn)確性要求嚴(yán)格的應(yīng)用,此外還需攻克終端資源約束下的大模型部署問題。
二、大模型核心價值與發(fā)展啟示
(1)大語言模型的核心價值
如果說機(jī)器學(xué)習(xí)實(shí)現(xiàn)了學(xué)習(xí)算法的統(tǒng)一,深度學(xué)習(xí)實(shí)現(xiàn)了模型架構(gòu)的統(tǒng)一,那么大模型則實(shí)現(xiàn)了模型本身的統(tǒng)一[11]。大語言模型是當(dāng)前一輪大模型的成功典范,其本質(zhì)是以自然語言理解為內(nèi)核,構(gòu)建起人-機(jī)間互理解、互操作的高效、高性能媒介通道。因此,直觀上來看,與人機(jī)交互、人機(jī)協(xié)同、人機(jī)融合最相關(guān)的領(lǐng)域?qū)⒆钪苯芋w現(xiàn)大模型的應(yīng)用價值。正向來看,大模型將人對世界的模糊、抽象認(rèn)知轉(zhuǎn)化為可精確表達(dá)、高度量化的特征,供機(jī)器進(jìn)一步計(jì)算、推演,解決人機(jī)高效交互協(xié)作問題。反向來看,大模型將機(jī)器高度精確卻難以窺探的黑箱計(jì)算結(jié)果轉(zhuǎn)化為人可理解、可接受的形式進(jìn)行呈現(xiàn),解決AI的可解釋性問題。例如,大模型可對人的歷史經(jīng)驗(yàn)、判斷偏好、直覺認(rèn)知進(jìn)行精確理解,變成可供計(jì)算的特征表達(dá);反過來,機(jī)器的推理計(jì)算過程及結(jié)果可以自然語言形式輸出,供人實(shí)時掌握情況并做進(jìn)一步?jīng)Q策。
人機(jī)混合智能是AI的高級形態(tài),而大語言模型展現(xiàn)出的通用性為我們粗淺地勾勒出通用人工智能的圖景,因此,大模型為邁向更高級形態(tài)的AI奠定了重要的階段性基礎(chǔ)。
(2)大模型發(fā)展帶來的啟示
應(yīng)謹(jǐn)防關(guān)鍵領(lǐng)域技術(shù)突襲。當(dāng)前,人工智能技術(shù)正以史無前例的速度自我迭代,據(jù)估計(jì),AI領(lǐng)域約每3個月便會產(chǎn)生一種世界范圍內(nèi)具有重大影響的主流算法。作為對比,傳統(tǒng)科學(xué)技術(shù)的迭代更新較慢,例如,當(dāng)今全世界控制領(lǐng)域90%以上使用的比例-積分-微分(PID)控制器始于上世紀(jì)20年代;即使是迭代較快的集成電路領(lǐng)域,摩爾定律告訴我們,其迭代速度也大概為18-24個月。不久前,我們?nèi)钥畤@市面上各種聊天機(jī)器人的智能水平較低,ChatGPT的橫空出世瞬間顛覆了這一認(rèn)知。因此,在當(dāng)前國際關(guān)系日益復(fù)雜的局勢下,我們應(yīng)謹(jǐn)防關(guān)鍵領(lǐng)域?qū)κ值募夹g(shù)突襲,特別是當(dāng)我們步入多方面并跑的“無人區(qū)”領(lǐng)域時,而AI的加速發(fā)展使得技術(shù)突襲的“黑暗森林法則”越來越成為可能。
應(yīng)重新審視“人工”的作用。人工智能的發(fā)展離不開“人工”的參與,而隨著AI技術(shù)的迭代,“人工”所扮演的角色也在逐步更迭。早期的監(jiān)督學(xué)習(xí)時期,人主要扮演數(shù)據(jù)標(biāo)注角色,數(shù)據(jù)標(biāo)注被認(rèn)為是技術(shù)含量很低的工作,并一度出現(xiàn)了各種數(shù)據(jù)標(biāo)注工廠。到了近些年發(fā)展出的指令學(xué)習(xí),人不再簡單給出標(biāo)簽數(shù)據(jù),還需要按要求給出數(shù)據(jù)指令。而在RLHF中,人需要提供AI模型的輸出反饋,從而訓(xùn)練一個良好的獎懲函數(shù)。在ChatGPT的代碼生成中,具有良好人工注釋的訓(xùn)練代碼是其掌握推理編程能力的重要基礎(chǔ)。隨著AI 的發(fā)展,“人工”的作用越來越精細(xì)。例如,在智能指控領(lǐng)域,高度專業(yè)化的人工標(biāo)注數(shù)據(jù)、人類指揮員經(jīng)驗(yàn)和人機(jī)混合訓(xùn)練方式,可最大化發(fā)揮大模型作用,應(yīng)提前進(jìn)行部署。
應(yīng)審時度勢迎接創(chuàng)新范式變革。近些年,AI正加速為其他學(xué)科內(nèi)在發(fā)展提供顛覆性范式創(chuàng)新,例如,2020年的AlphaFold展現(xiàn)出驚人的蛋白質(zhì)結(jié)構(gòu)預(yù)測效率,2022年的AlphaTensor發(fā)現(xiàn)了迄今效率最高的矩陣乘法運(yùn)算法則。AI為科學(xué)研究和技術(shù)創(chuàng)新范式帶來了全新機(jī)遇和挑戰(zhàn),人工智能驅(qū)動的科學(xué)研究(AI for Science)也成為當(dāng)前國際矚目的熱點(diǎn)方向,國家科技部、自然科學(xué)基金委也于今年3月聯(lián)合啟動了AI for Science專項(xiàng)部署。為此,應(yīng)重新審視這一變局下的科技創(chuàng)新范式。例如,在智能指控領(lǐng)域,一是如何以智能技術(shù)先行帶動體系創(chuàng)新,如概念設(shè)計(jì)、戰(zhàn)法創(chuàng)新,二是重新梳理創(chuàng)新成果體系,重視算法等軟實(shí)力打造,以及大模型加持下的技術(shù)集成、模型訓(xùn)練方式創(chuàng)新等。
三、決策智能大模型展望與思考
當(dāng)前流行的ChatGPT等大模型主要聚焦在圖、文、音等媒體內(nèi)容的感知理解層面,與之相對應(yīng),與指揮控制息息相關(guān)的智能認(rèn)知與決策則是更具挑戰(zhàn)性的難題,決策智能大模型是否能快速實(shí)現(xiàn)并落地,成為當(dāng)前廣受關(guān)注的話題。在此,對決策智能大模型研究現(xiàn)狀進(jìn)行概述,并對其發(fā)展路徑提出相關(guān)思考。
決策智能大模型發(fā)展概況
隨著預(yù)訓(xùn)練模型的興起,訓(xùn)練一個可完成多種決策任務(wù)的智能體在近年來引起廣泛關(guān)注。DeepMind于2022年上半年提出能夠處理數(shù)百種任務(wù)的“通才”人工智能模型Gato[12],融合了多模態(tài)和多任務(wù),智能體可同時完成玩Atari游戲、生成圖像、和人類聊天、控制機(jī)器人手臂堆疊積木等不同模式的任務(wù)。但本質(zhì)上,Gato是一種監(jiān)督學(xué)習(xí)模型,可認(rèn)為首先學(xué)會了各種任務(wù),然后對相關(guān)能力進(jìn)行集成,并未在真正意義上實(shí)現(xiàn)面向不同任務(wù)的能力遷移和自主學(xué)習(xí)。進(jìn)一步,DeepMind在2023年初提出可在開放任務(wù)空間實(shí)現(xiàn)匹配人類適應(yīng)能力的自適應(yīng)智能體AdA(Adaptive Agent)[13], 該模型基于DeepMind自研的開放任務(wù)環(huán)境XLand進(jìn)行訓(xùn)練,后者可在虛擬空間產(chǎn)生超過1040種開放任務(wù),被視為可訓(xùn)練通用智能體的游戲“元宇宙”。AdA的技術(shù)核心包括三方面:1)在一個巨大、平滑且多樣化的任務(wù)分布中進(jìn)行元強(qiáng)化學(xué)習(xí);2)一個參數(shù)化的基于注意力的大規(guī)模記憶結(jié)構(gòu)策略;3)一個有效的自動課程學(xué)習(xí)機(jī)制,為智能體安排恰當(dāng)?shù)南乱浑A段訓(xùn)練任務(wù)。盡管訓(xùn)練好的AdA模型可在零樣本或少樣本條件下完成測試任務(wù),但本質(zhì)上XLand中的任務(wù)具有高度相似性,且均為虛擬環(huán)境中的任務(wù),當(dāng)面向真實(shí)應(yīng)用時,真實(shí)世界中本質(zhì)開放性、強(qiáng)不確定性和大量建模細(xì)節(jié)將給模型帶來巨大挑戰(zhàn)。
決策智能算法的通用做法是智能體通過深度強(qiáng)化學(xué)習(xí)等方法,在虛擬空間中不斷與環(huán)境交互來學(xué)得策略,因此內(nèi)容豐富的虛擬環(huán)境對于提高算法通用能力至關(guān)重要。當(dāng)前,已有大量用于提升智能體決策能力的虛擬環(huán)境。OpenAI使用內(nèi)容動態(tài)生成(Procedural content generation, PCG)技術(shù)開發(fā)的Procgen環(huán)境[14],為算法在不同游戲任務(wù)下的泛化能力提供了一個測試基準(zhǔn)。Facebook提出一個沙盒游戲的環(huán)境構(gòu)建框架MiniHack[15],可以由開發(fā)者手動搭建或系統(tǒng)隨機(jī)生成訓(xùn)練環(huán)境。DeepMind搭建的3D多智能體協(xié)作和競爭開放環(huán)境XLand[16],為具有強(qiáng)大環(huán)境適應(yīng)性的多智能體算法訓(xùn)練提供了多樣化任務(wù)空間。這些研究使得深度強(qiáng)化學(xué)習(xí)在逐步開放的環(huán)境中得以適用,而虛擬環(huán)境的重要性使得人工智能三要素“算法、算力和數(shù)據(jù)”在決策智能研究中變?yōu)椤八惴ā⑺懔铜h(huán)境/模型”。但如前所述,上述環(huán)境的邊界仍為虛擬世界內(nèi)的簡單邊界,無法覆蓋真實(shí)世界任務(wù)的復(fù)雜性。
因此,總體來說,相比感知智能大模型,決策智能大模型剛剛起步,且當(dāng)面向真實(shí)環(huán)境時,模型的適用性將受到極大考驗(yàn)。
決策智能大模型為何更具挑戰(zhàn)
相比于感知大模型,決策大模型更具挑戰(zhàn),當(dāng)前尚處于初步探索階段。究其本質(zhì)原因,首先在于決策范式難以統(tǒng)一表達(dá)。感知大模型處理的對象相對具有統(tǒng)一的表達(dá)手段,例如圖像統(tǒng)一采用像素表達(dá)、文本統(tǒng)一采用編碼表達(dá)、語音統(tǒng)一采用聲頻信號表達(dá),在統(tǒng)一進(jìn)行信號級表達(dá)后即擁有了大模型統(tǒng)一處理的基礎(chǔ);但決策問題千差萬別,有個體決策、也有群體決策,有抽象問題、也有現(xiàn)實(shí)問題,當(dāng)前尚沒有對決策問題的統(tǒng)一建模、表達(dá)和處理范式。無論是Gato還是AdA,均采用大語言模型中的核心部件Transformer作為模型內(nèi)核,這類模型在處理語言信號時表現(xiàn)優(yōu)異,但在刻畫決策問題時的性能尚需進(jìn)一步驗(yàn)證。其次,決策是相比感認(rèn)知更上層的任務(wù),相對難度更大。當(dāng)前大模型主要處理感認(rèn)知問題,借助人機(jī)交互輔助人做決策,而決策智能則旨在讓機(jī)器自主決策,如單體與集群無人系統(tǒng)中的自主決策,任務(wù)本身難度更大。此外,同樣由于信號的可統(tǒng)一表達(dá)性,當(dāng)前我們在圖、文、音領(lǐng)域已形成大量優(yōu)質(zhì)訓(xùn)練樣本,理論上互聯(lián)網(wǎng)中一切可獲取到的數(shù)據(jù)均可用于訓(xùn)練,相比之下,決策智能領(lǐng)域尚未建立類似數(shù)據(jù)樣本集。盡管強(qiáng)化學(xué)習(xí)等方法為無需樣本、而是從與環(huán)境的交互中獲取數(shù)據(jù)提供了有效手段,但隨之而來的環(huán)境建模合理性、準(zhǔn)確性等問題產(chǎn)生了新的挑戰(zhàn)。
決策智能大模型發(fā)展思路
一是延續(xù)當(dāng)前預(yù)訓(xùn)練思路繼續(xù)深化研究。采用Transformer等基礎(chǔ)模型框架,這是一種在短期內(nèi)極有可能快速見效的思路。大語言模型等預(yù)訓(xùn)練大模型已經(jīng)大獲成功,Gato、AdA等決策大模型也方興未艾,這類模型均采用預(yù)訓(xùn)練思路,通過構(gòu)建巨大的神經(jīng)網(wǎng)絡(luò)模型、并在大量樣本上充分訓(xùn)練來表征難以精確量化的內(nèi)在推理邏輯。這種“大力出奇跡”的范式雖不夠“優(yōu)美”,但ChatGPT產(chǎn)生的性能突變確實(shí)讓我們看到了這類大模型在復(fù)雜問題表達(dá)和求解上的能力,盡管當(dāng)前階段尚有大量問題無法解釋而只能簡單歸結(jié)為巨大參數(shù)條件下的行為“涌現(xiàn)”??梢灶A(yù)見,這類范式將成為未來短期內(nèi)的主流,且能夠在各垂直應(yīng)用領(lǐng)域取得應(yīng)用表現(xiàn)上的進(jìn)展。一個亟待解決的難題是,如何保證在虛擬環(huán)境中訓(xùn)練的智能體能夠在真實(shí)環(huán)境中表現(xiàn)良好,即實(shí)現(xiàn)虛擬向真實(shí)遷移(Simulation to Reality, Sim2Real),Sim2Real問題有多種解決路徑,其研究剛剛起步,是保障決策智能大模型實(shí)際落地的關(guān)鍵。
二是另辟蹊徑深入探索智能本質(zhì)機(jī)理。這是一種需要長期探索、但有可能產(chǎn)生本質(zhì)顛覆的思路。ChatGPT這類大模型盡管表現(xiàn)突出,但無法實(shí)現(xiàn)概念知識的自動提取和推理,這與人的認(rèn)知邏輯具有顯著不同(盡管尚無法評判高低)。從本質(zhì)來看,人類社會是建構(gòu)在一系列概念范疇及其相互關(guān)系之上的,如在哲學(xué)基礎(chǔ)框架上,通過引入不同概念從而衍生出經(jīng)濟(jì)學(xué)、法學(xué)等不同社會科學(xué)范疇,這與大參數(shù)表征、大數(shù)據(jù)訓(xùn)練的大模型思路顯著不同。因此,如何綜合運(yùn)用多學(xué)科理論分析工具,探索智能產(chǎn)生的本質(zhì)(或階段本質(zhì))機(jī)理,是需要長期堅(jiān)持的研究思路。堅(jiān)持這一思路的必要性還在于,ChatGPT這類大模型的一個潛在風(fēng)險在于,其“大力出奇跡”范式可能因短期內(nèi)表現(xiàn)“過好”而“鎖死”某一學(xué)科的研究進(jìn)展(暫且“夸張”地類比為三體世界中的“智子”),進(jìn)而在長期來看阻滯其發(fā)展,因此我們應(yīng)一方面高度重視大模型帶來的顛覆性變革,另一方面堅(jiān)持百花齊放、繼續(xù)探索智能本質(zhì)機(jī)理,并在各基礎(chǔ)領(lǐng)域做好相應(yīng)理論和工程鋪墊。
四、大模型技術(shù)應(yīng)用展望
大模型極大推動了科研范式創(chuàng)新和成果體系革新,其意義深遠(yuǎn)、應(yīng)用廣泛。在此僅拋磚引玉,提出幾方面展望。
(1)虛擬想定場景生成
強(qiáng)化學(xué)習(xí)等AI方法為不顯式依賴數(shù)據(jù)、而在與環(huán)境交互中實(shí)現(xiàn)智能進(jìn)化提供了手段,“算法+算力+環(huán)境”成為這一范式的核心要素,因此虛擬環(huán)境的有效生成至關(guān)重要。大模型在商用領(lǐng)域推動了AIGC發(fā)展,相似地,在博弈推演領(lǐng)域,可依托大模型強(qiáng)大的內(nèi)容生成能力,實(shí)現(xiàn)虛擬推演想定的場景生成。
(2)人機(jī)混合智能推演
大模型為人機(jī)自然、高效互操作、互理解提供了重要媒介,為人的經(jīng)驗(yàn)、偏好、直覺、常識等具有高度抽象和良好可解釋性的知識與機(jī)器可精確量化表達(dá)的數(shù)據(jù)驅(qū)動范式建立了相互融合的橋梁。研究人機(jī)高效混合推演方法,正向?qū)⑷说慕?jīng)驗(yàn)、偏好等轉(zhuǎn)化為機(jī)器指令,反向?qū)C(jī)器的量化推理結(jié)果進(jìn)行可解釋性表達(dá),其本質(zhì)是知識與數(shù)據(jù)兩類范式的協(xié)同驅(qū)動[17]。
(3)特定領(lǐng)域?qū)S么竽P?/p>
當(dāng)前預(yù)訓(xùn)練大模型在通用問題上已具備較強(qiáng)的認(rèn)知推理能力,但由于缺乏訓(xùn)練樣本,其在特定專用領(lǐng)域表現(xiàn)尚顯不足。為此,應(yīng)超前布局,充分發(fā)揮理技融合體制優(yōu)勢,融合科研部門、工業(yè)部門和各應(yīng)用部門力量,研發(fā)面向特定領(lǐng)域的專用大模型。探索領(lǐng)域內(nèi)的人工數(shù)據(jù)采集、標(biāo)注方法,形成面向特定領(lǐng)域的大規(guī)模專用數(shù)據(jù)集,為大模型在特定智能領(lǐng)域應(yīng)用奠定基礎(chǔ)。
(4)虛實(shí)遷移的決策智能
決策智能是當(dāng)前指揮控制中的核心,深度強(qiáng)化學(xué)習(xí)等方法為智能體自主學(xué)習(xí)進(jìn)化提供了有效手段,但由于其訓(xùn)練是在虛擬環(huán)境中實(shí)現(xiàn)的,虛實(shí)遷移是當(dāng)前技術(shù)手段的關(guān)鍵瓶頸。應(yīng)發(fā)展從虛擬向?qū)嶓w遷移的博弈決策智能技術(shù),拓展算法在應(yīng)對不確定性和開放問題中的適用邊界,為大模型在真實(shí)物理環(huán)境中的魯棒應(yīng)用提供關(guān)鍵支撐。
(5)大模型開放創(chuàng)新生態(tài)
開源開放是推動人工智能發(fā)展的重要手段。在開源方面,國外Pytorch、Tensor及國內(nèi)大廠推出的系列開源平臺,為人工智能算法快速發(fā)展奠定了基礎(chǔ);在開放方面,自2018年以來,我國在各細(xì)分行業(yè)認(rèn)定了一大批人工智能開放創(chuàng)新平臺,旨在以數(shù)據(jù)、接口、服務(wù)等方式為學(xué)界、個人開發(fā)者、小微用戶提供AI模型便捷使用工具。而大模型的發(fā)展,將模型構(gòu)建方法工具的統(tǒng)一推進(jìn)到模型本身的統(tǒng)一,因此應(yīng)以大模型為契機(jī),重新梳理構(gòu)建開放創(chuàng)新生態(tài),形成既充分開放、又可賦能一大批應(yīng)用的算法服務(wù)平臺,實(shí)現(xiàn)概念、技術(shù)先行,牽引體系智能發(fā)展的新范式。
審核編輯 :李倩
-
數(shù)據(jù)采集
+關(guān)注
關(guān)注
38文章
5808瀏覽量
113424 -
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268106 -
自然語言處理
+關(guān)注
關(guān)注
1文章
596瀏覽量
13483 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1546瀏覽量
7359
原文標(biāo)題:大模型技術(shù)發(fā)展研判及應(yīng)用思考
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論