這一年,大模型熱潮迭起,1000天以后,5000天以后我們將面對什么,大模型會(huì)將人類帶向何處?
對話嘉賓:
蔣濤,CSDN 創(chuàng)始人&董事長,中國開源軟件推進(jìn)聯(lián)盟副主席。曾領(lǐng)導(dǎo)開發(fā)了巨人手寫電腦、金山詞霸和超級解霸。1999 年創(chuàng)辦 CSDN。CSDN 是中國專業(yè)開發(fā)者社區(qū)平臺,全球開發(fā)者社區(qū)網(wǎng)站排名第二,目前注冊會(huì)員超過 4700 萬,覆蓋全球 95 %中文開發(fā)者群體。在開源開放的新時(shí)代,CSDN 致力于打造開發(fā)者工具生產(chǎn)力入口,共建中國十萬億技術(shù)大生態(tài)。
顏水成,現(xiàn)任昆侖萬維天工智能聯(lián)席 CEO 和 2050 全球研究院院長,是一位在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域享有國際聲譽(yù)的專家,曾任 360 集團(tuán)人工智能研究院院長、首席科學(xué)家,依圖科技首席技術(shù)官,并曾在 Sea 集團(tuán)擔(dān)任首席科學(xué)家;他是新加坡工程院院士、AAAI Fellow、ACM Fellow、IEEE Fellow、IAPR Fellow 等多個(gè)國際學(xué)術(shù)組織的成員。顏水成的研究領(lǐng)域包括計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等,在頂級國際學(xué)術(shù)期刊和會(huì)議上發(fā)表的論文引用量超過 90,000 次, H-index 超過 140,八次被評為年度全球“高被引科學(xué)家”。
計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)領(lǐng)域國際頂級專家顏水成在學(xué)術(shù)界鉆研 8 年、工業(yè)界實(shí)踐 8 年,今年 9 月正式宣布加入昆侖萬維,出任天工智能聯(lián)席 CEO,并兼任昆侖萬維 2050 全球研究院院長。 長期以來,業(yè)界的目光聚集于他,為什么是昆侖萬維?對人工智能領(lǐng)域而言意味著什么?在大模型火熱發(fā)展的當(dāng)下,他試圖以 Foundation Models(基座大模型)為基準(zhǔn)點(diǎn),探尋通往通用人工智能領(lǐng)域的道路。 自昆侖萬維的天工大模型在今年 4 月正式發(fā)布并啟動(dòng)邀請測試以來,一直以較快的節(jié)奏發(fā)布更新,也始終在百模大戰(zhàn)中保持著一定的競爭力。11 月,「天工」大模型通過《生成式人工智能服務(wù)管理暫行辦法》備案,面向全社會(huì)開放服務(wù)。緊接著,昆侖萬維正式開源了「天工 Skywork-13B 系列」。
13B,在顏水成看來是最適合商用的尺寸,未來將迸發(fā)出多大能量?他一直追求學(xué)術(shù)界和工業(yè)界的 Double Satisfactions,產(chǎn)學(xué)研的有機(jī)結(jié)合能否在 Foundation Models 領(lǐng)域結(jié)出碩果?令人期待~ 本期《濤滔不絕》,CSDN 創(chuàng)始人&董事長、中國開源軟件推進(jìn)聯(lián)盟副主席蔣濤與天工智能聯(lián)席 CEO、兼任昆侖萬維 2050 全球研究院院長顏水成,從 AGI 的本質(zhì)談到基座大模型的重要性,從基座大模型到“更高一層”的 Agent 智能體,帶領(lǐng)我們探尋 AI 發(fā)展更高維度的世界。
AGI 未來會(huì)是所有數(shù)字系統(tǒng)的底座 蔣濤:當(dāng)前國內(nèi)外有各種開源大模型扎堆涌現(xiàn),中國也面臨著百模大戰(zhàn),昆侖萬維在今年 11 月正式開源「天工 Skywork-13B 系列」,為什么那么多企業(yè)要做基座大模型?
顏水成:業(yè)界探索基座大模型的核心可能認(rèn)為它是未來 AGI 的核心。未來 AI 的能力都會(huì)由基座大模型產(chǎn)生。AGI 是人工智能領(lǐng)域的一個(gè)最重要的方向,它的目標(biāo)是實(shí)現(xiàn)通用的人工智能。而基座大模型正是這個(gè)目標(biāo)的關(guān)鍵所在。通過構(gòu)建一個(gè)通用的知識平臺,我們可以將人工智能的能力擴(kuò)展到更多的領(lǐng)域,實(shí)現(xiàn)更廣泛的應(yīng)用。當(dāng)然你也可以圍繞大模型去做周邊應(yīng)用,或者垂直的場景,但如果真的打算擁抱 AGI,就必須真正觸及基座大模型。另一方面,無論是大、小公司,也都希望在 AGI 最核心的部分展現(xiàn)自己的實(shí)力。
蔣濤:AGI 未來會(huì)是所有數(shù)字系統(tǒng)的底座,或者是新一代操作系統(tǒng)嗎?
顏水成:可以這樣理解。AGI 很有可能成為新一代的操作系統(tǒng),但這個(gè)過程需要時(shí)間。AGI 的目標(biāo)是實(shí)現(xiàn)通用的人工智能,它需要整合各種技術(shù)和資源,包括計(jì)算機(jī)視覺、自然語言處理、語音識別等領(lǐng)域。只有當(dāng) AGI 能夠?qū)崿F(xiàn)這些技術(shù)的無縫集成和協(xié)同工作時(shí),它才能成為新一代的操作系統(tǒng)。 在深度學(xué)習(xí)那一代通常涉及一個(gè)垂直領(lǐng)域,我們可以利用垂直領(lǐng)域的數(shù)據(jù)進(jìn)行分析?,F(xiàn)在趨勢不同了,我們可能首先要構(gòu)建一個(gè)基座大模型。在文本領(lǐng)域和其他領(lǐng)域,基礎(chǔ)模型已經(jīng)包含了通用知識。這樣在前往另一個(gè)領(lǐng)域時(shí),不再僅依賴該領(lǐng)域的知識,而是將基座模型的能力遷移到垂直領(lǐng)域即可。
蔣濤:想要加入 AGI 領(lǐng)域的年輕人需要具備哪些能力?
顏水成:首先要具備扎實(shí)的計(jì)算機(jī)科學(xué)和數(shù)學(xué)基礎(chǔ)。此外,他們還需要具備創(chuàng)新思維和敏銳的洞察力,以便在 AGI 領(lǐng)域的研究和應(yīng)用中取得突破。同時(shí),他們還需要具備勇于探索和挑戰(zhàn)的精神,積極面對新技術(shù)和新領(lǐng)域帶來的挑戰(zhàn)和機(jī)遇。
“我們?nèi)晕吹竭_(dá)基座大模型的臨界點(diǎn)”
蔣濤:能詳細(xì)談?wù)勈裁词腔竽P蛦??為什么它在中國如此重要?/p>
顏水成:基座大模型是構(gòu)建在通用知識上的大型語言模型。它的核心理念是利用人類的通識知識,通過不斷地學(xué)習(xí)和訓(xùn)練,實(shí)現(xiàn)更廣泛的應(yīng)用。在中國百模大戰(zhàn)的局面下,建立基座大模型的重要性就顯而易見了。
蔣濤:你認(rèn)為我們需要多少個(gè)基座大模型?
顏水成:早期,大家可能認(rèn)為一個(gè)基座大模型就可以應(yīng)用于不同場景,但實(shí)際上仍存在一些問題。你會(huì)發(fā)現(xiàn),如果將所有場景和知識都用一個(gè)基座大模型來操作,推理成本會(huì)非常高,用戶需要支付的費(fèi)用也會(huì)很高。在當(dāng)前場景下,相對現(xiàn)實(shí)的情況是,讓基座大模型體量偏向中型或小型。在一個(gè)垂直領(lǐng)域里,利用數(shù)據(jù)進(jìn)行 fine tuning,然后獲取垂域里的數(shù)據(jù),訓(xùn)練得到一個(gè)相對較小的模型??梢栽诒WC模型效果不錯(cuò)的情況下,大幅降低推理成本,商業(yè)應(yīng)用也做得更好。4B、5B 屬于中型,70B 和 100B 算是中大型了,在 13B 的模型很多場景下,推理成本會(huì)更容易接受。
蔣濤:不同參數(shù)量的模型能力存在差距,千億參數(shù)的模型明顯出現(xiàn)了質(zhì)變,涌現(xiàn)能力出現(xiàn)了。國內(nèi)外都在努力拼數(shù)據(jù)量,參數(shù)不斷提升的同時(shí),能力一定隨之提升嗎?
顏水成:在中國,我們還沒有達(dá)到數(shù)據(jù)和模型大小的穩(wěn)態(tài),在數(shù)據(jù)不斷增加、算力和資源不斷提升以及模型大小不斷提升的情況下,模型最終展現(xiàn)的綜合能力仍在不斷提升,也就是說中國還沒有達(dá)到臨界點(diǎn)。到達(dá)臨界點(diǎn)以后意味著,即便再增加資源進(jìn)去,模型的能力也不會(huì)再增加。也許一兩年內(nèi)我們都無法達(dá)到這個(gè)臨界點(diǎn)。
蔣濤:大模型下一步的發(fā)展方向是?
顏水成:從大模型向多模態(tài)模型遷移是一大趨勢。在遷移時(shí),通常會(huì)將圖像或聲音 Token 化,之后將其串聯(lián)起來形成一個(gè)長序列,它代表了原始圖像或聲音的數(shù)字化表示。業(yè)界期待大部分問題未來可以通過 Token generation 的形式解決,文本是一個(gè)起點(diǎn),多模態(tài)模型可能是大模型的最終結(jié)局。
國內(nèi)企業(yè)與 OpenAI 的差距,不止是 500 塊 GPU 蔣濤:你有很多跨國經(jīng)歷,可以談?wù)劗?dāng)前國內(nèi)大模型與 LLaMA 2 等開源模型相比,差距在哪里嗎?
顏水成:在幾個(gè)月前,你可能會(huì)感覺到還有較大差距。但近幾個(gè)月,你會(huì)發(fā)現(xiàn)國內(nèi)陸續(xù)發(fā)布的模型在能力維度上已經(jīng)有所提升,展現(xiàn)出可以與之抗衡的實(shí)力。我認(rèn)為到年底,可能會(huì)有好幾個(gè)公司推出新的模型,其性能將與之持平。 OpenAI 的首席科學(xué)家曾表示,大模型的性能都是由各種小的 trick 逐步堆積起來的,數(shù)據(jù)量、數(shù)據(jù)質(zhì)量和數(shù)據(jù)配比是非常重要的。另一個(gè)方面是訓(xùn)練系統(tǒng),效率非常重要,包括硬件和軟件兩個(gè)維度。硬件可能有性能天花板,而軟件如果配置和操作優(yōu)化都比較好,是能夠發(fā)揮出硬件的極限能力的。還有很多各具特色的優(yōu)化器可以結(jié)合起來,提升性能。
蔣濤:所以對國內(nèi)來說,追平只是時(shí)間和迭代的問題嗎?
顏水成:當(dāng)前業(yè)界的共識,要追趕到 GPT-3.5 水平,中國還是有很大可能性的,剩下的只是時(shí)間問題,需要不斷趟坑、做實(shí)驗(yàn),逐漸了解通往 GPT-3.5 的路線。但要實(shí)現(xiàn)這個(gè)目標(biāo)的周期可能會(huì)比 OpenAI 用時(shí)更長。畢竟在中國,無論是哪家公司,在人才密度上與 OpenAI 相比差距都非常大。同時(shí),OpenAI 的算力資源也要高出一個(gè)量級,據(jù)說平均每個(gè)人有 500 塊 GPU 資源可以進(jìn)行各種實(shí)驗(yàn)。在中國,當(dāng)前大部分公司可能幾個(gè)人共有 500 塊 GPU 資源。
蔣濤:這里的人才密度是指 AI 研究工程師還是 infrastructure 工程師?如果人才數(shù)量固定,那么配套的資源和方向更為關(guān)鍵嗎?
顏水成:要想把人“練出來”必須要投入。就像訓(xùn)練飛行員一樣,需要投入足量資源。一方面,由于資金和設(shè)備有限,我們訓(xùn)練出真正強(qiáng)的人才數(shù)量非常少。另一方面,我們現(xiàn)在面臨的是外部競爭,團(tuán)隊(duì)過多且分散。如果卡能集中,說不定效果會(huì)更好一點(diǎn)。
蔣濤:國內(nèi)有可能在多模態(tài)階段與美國同步嗎?
顏水成:我個(gè)人認(rèn)為在多模態(tài)的方法論上,亞洲不算落后,但從單模態(tài)向多模態(tài)發(fā)展時(shí),最大的問題還在數(shù)據(jù)方面。要想獲取多模態(tài)數(shù)據(jù),中國目前在質(zhì)量上會(huì)落后不少。另外,當(dāng)單模態(tài)向多模態(tài)轉(zhuǎn)變,處理視頻時(shí)實(shí)際所需的算力資源會(huì)成倍增加。本來我們在算力資源方面還存在距離。中文語料的質(zhì)量與英文預(yù)料還是有差距。一方面是因?yàn)樵诨ヂ?lián)網(wǎng)上發(fā)布文本或信息的特點(diǎn),中國與美國有所不同,我們需要對這些數(shù)據(jù)進(jìn)行清洗。另一方面,在視頻領(lǐng)域,優(yōu)質(zhì)的視頻生產(chǎn)量、用戶和交互量都與美國有差距。這也導(dǎo)致我們面臨較大挑戰(zhàn)。
關(guān)于昆侖萬維:邁過人工智能的奇點(diǎn)
蔣濤:昆侖萬維從 2020 年開始布局 AIGC 和大模型領(lǐng)域,其創(chuàng)始人周亞輝是如何看待大模型問題?你為何在今年選擇加入其中?
顏水成:在學(xué)術(shù)界鉆研 8 年,工業(yè)界實(shí)踐了 8 年后,我選擇來到昆侖萬維展開通用人工智能的研究,同時(shí)建立 2050 全球研究院,在新加坡、英國劍橋以及硅谷建立相應(yīng)分院。原因有幾個(gè)方面。我認(rèn)為昆侖萬維創(chuàng)始人的前瞻性非常好。昆侖萬維在最初探索大模型時(shí),大約在 2020 年,即 GPT-3 剛出爐時(shí),其驚人的效果讓幾位創(chuàng)始人感受到 AI 新時(shí)代即將到來,應(yīng)該向此前進(jìn)。這也導(dǎo)致昆侖萬維一大優(yōu)勢在許多重要方向剛剛萌芽時(shí),創(chuàng)始人已經(jīng)提前布局。 它的另一個(gè)特點(diǎn)是現(xiàn)有業(yè)務(wù)中 80%多的收入來自海外,包括 Opera、游戲以及一些娛樂類產(chǎn)品,在全球范圍內(nèi),如東南亞、非洲地區(qū)也發(fā)展得非常好。我決定加入還有一個(gè)重要原因,在中國香港、美國和新加坡等地方都待過的我,很喜歡具有全球化背景的企業(yè),帶來很多新機(jī)會(huì)的同時(shí),也能讓 AGI 技術(shù)在不同國家發(fā)揮其優(yōu)勢。
蔣濤:創(chuàng)立 2050 全球研究院的目的是什么?
顏水成:昆侖萬維創(chuàng)始人周亞輝曾提到,有一本書中預(yù)測,人工智能的奇點(diǎn)可能是 2049 年。我們將研究院命名為 2050,意味著期待團(tuán)隊(duì)走在通往通用人工智能的正確道路上,并且能夠邁過那個(gè)奇點(diǎn)。我們要跨過通用人工智能到來的那一天。
蔣濤:今年被稱為 AGI 元年,你怎么看?昆侖萬維是如何布局的?
顏水成:在我看來,AGI 的真正表現(xiàn)形式是 Agent, 是一個(gè)智能體。智能體可以利用大模型、真實(shí)的人、其他智能體以及從虛擬世界中獲取的各種工具,完成人類下達(dá)的任何一個(gè)任務(wù)。現(xiàn)在的大模型實(shí)際上是大腦知識庫的壓縮,而 Agent 相當(dāng)于一個(gè)與人對等的實(shí)體。在我看來,Agent 比基座大模型要更高一層。非常重要的一點(diǎn)是:Agent 需要具備自我演化能力,這意味著,Agent 可以借助與所處環(huán)境的交互進(jìn)一步提升自己的智能。 2050 研究院的創(chuàng)始人希望公司堅(jiān)持長期主義。在新加坡、英國倫敦以及美國硅谷三個(gè)不同的地方設(shè)立了研究院,倫敦實(shí)行完全的長期主義,主要做前沿研究,對當(dāng)前業(yè)務(wù)沒有直接作用,但有助于投資和未來布局。在新加坡和硅谷,更偏向于 AGI 研究。關(guān)注兩個(gè)維度,一個(gè)維度是基座大模型 2.0,另一個(gè)維度是 Agent。
基座大模型 2.0 也分為三個(gè)方向:下一代的基座大模型的結(jié)構(gòu)及其應(yīng)用;推理和訓(xùn)練效率提升;大模型理論問題,針對可解釋性等相關(guān)方向進(jìn)行研究。 而 Agent 我們將其分為兩個(gè)部分:一個(gè)是虛擬世界的 Agent,即將業(yè)務(wù)或場景數(shù)字化后,在數(shù)字世界中的存在的 Agent。另一個(gè)是物理世界的 Agent,它需要與移動(dòng)設(shè)備打通,利用移動(dòng)設(shè)備上的多模態(tài)信息如視覺、聽覺和觸覺等,然后根據(jù)指令調(diào)用特定模型,決定下一步應(yīng)該做什么事情。這兩條線會(huì)同時(shí)向前推進(jìn)。我們希望研究、研發(fā)和產(chǎn)品三者能夠?qū)崿F(xiàn)一致性。
蔣濤:昆侖萬維有哪些地方應(yīng)用了 AIGC? 顏水成:我們的 AI 業(yè)務(wù)線分為六條線,天工大模型、AI 搜索、AI 游戲、AI 音樂、AI 動(dòng)漫、AI 社交。這六條線都是以新的產(chǎn)品向前推進(jìn),大部分產(chǎn)品都處于可以內(nèi)測的狀態(tài)。 我非常興奮的一點(diǎn)是,昆侖萬維不僅專注于做模型,還推出新產(chǎn)品來牽引研發(fā)和研究向前發(fā)展,現(xiàn)在的問題是產(chǎn)研是否能打通。
追求學(xué)術(shù)界與工業(yè)界的雙重滿足
蔣濤:在 AI 領(lǐng)域,尤其需要學(xué)者的共同努力。在學(xué)術(shù)研究與實(shí)際工程化之間,如何實(shí)現(xiàn)有機(jī)結(jié)合?
顏水成:我一直追求在學(xué)術(shù)界和工業(yè)界的雙重滿足,盡管客觀上較難,但在我的學(xué)生中,確實(shí)有很多人做得非常好。 我認(rèn)為學(xué)者與工程師還是有一些分工比較好,讓學(xué)者集中于“從 0 到 1”的工作,而工程師專注于“1 到 100”的工作。因?yàn)閷W(xué)者傾向于長期探索,創(chuàng)造一種可能性,工程師則更希望短期內(nèi)能快速落地,需要將工匠精神發(fā)揮到極致。一個(gè)團(tuán)隊(duì)里這兩種人都不可或缺,聚集在一起才能確保研究進(jìn)度和完備性。
蔣濤:在大模型團(tuán)隊(duì)里怎樣的配比更好? 顏水成:在大模型團(tuán)隊(duì)里,工程能力可能更重要,學(xué)者與工程師的配比至少是 1:3。業(yè)界認(rèn)為大模型已經(jīng)逐漸成為一種工程問題,想實(shí)現(xiàn) GPT-3.5,我也認(rèn)為工程問題非常關(guān)鍵。
技術(shù)的發(fā)展正在超越想象力的邊界
蔣濤:在多模態(tài)取得突破后,Agent 是否會(huì)有較大進(jìn)展?
顏水成:進(jìn)展會(huì)非常大,在接下來的三年里,Virtual Agent 可能會(huì)占主流,主要原因是需要的多模態(tài)數(shù)據(jù)是有基礎(chǔ)的。如果是研究 physical Agent,就需要與物理世界相互作用,但是出于安全性顧慮,獲取大量數(shù)據(jù)的可能性會(huì)相對小很多。盡管 Simulation to Real 可以解決將模擬環(huán)境中的算法遷移到真實(shí)世界中的問題,但這需要更長的時(shí)間。距離 Physical Agent 真正大規(guī)模到來應(yīng)該還需 10 年,才能初見端倪。 Agent 在技術(shù)路線上并非遙不可及。我經(jīng)常舉個(gè)例子,大約在 7 年前,有個(gè)學(xué)生告訴我,他想做一個(gè)項(xiàng)目:輸入文本直接產(chǎn)生圖像。當(dāng)時(shí)我訓(xùn)了他一頓,認(rèn)為這是 impossible mission。但現(xiàn)在,文生圖的問題基本上已經(jīng)解決了。從未來的 7 年來看,我們有足夠長的時(shí)間來產(chǎn)生一代技術(shù)的變革。
顏水成:如果全面考慮生活的各個(gè)維度,未來你最想要讓 AGI 為你提供哪些功能?
蔣濤:我需要一個(gè)機(jī)器人擴(kuò)展自己的能力邊界??梢酝ㄟ^ Agent 辦很多事,所有事情變得越來越智能。從前看科幻小說,經(jīng)常會(huì)想象有個(gè)小精靈在旁邊隨時(shí)幫助我,那是我最想要的。
蔣濤:未來的 1000 天會(huì)如何?以及 5000 天后會(huì)如何?顏水成:如果是 1000 天,可能 Virtual Agent 已經(jīng)開始大行其道,而 5000 天,可能是 Physical Agent 已經(jīng)開始步入我們的視野了。未來,在電腦和手機(jī)上,它們能幫你非常智能地完成各種任務(wù)。帶上蘋果公司的 vision PRO,迅速完成各種事情,在 1000 天的時(shí)間尺度上,我認(rèn)為值得期待。如果是 5000 天, Physical Agent 可能已經(jīng)到了一個(gè)相對可用的時(shí)代,即已經(jīng)有一些可以服務(wù)人的成熟產(chǎn)品。
審核編輯:黃飛
評論
查看更多