來源|融中財經(jīng)
(ID:thecapital)
從 2022 年下半年開始,隨著深度學習的發(fā)展,以 Diffusion、ChatGPT 為代表的顛覆性 AI 應用破圈,標志著人工智能領域的重大突破,引發(fā)全球共振。不少人將 ChatGPT 的問世比喻為“蒸汽機”,人工智能就此走向“工業(yè)時代”。
上海人工智能產(chǎn)業(yè)投資基金作為上海市級產(chǎn)業(yè)投資基金,根據(jù)建設人工智能“上海高地”的戰(zhàn)略部署,始終密切跟蹤技術帶來的 AI 產(chǎn)業(yè)鏈技術及商業(yè)模式變遷。下面是近期我們對 AI 技術及產(chǎn)業(yè)發(fā)展趨勢的思考:核心觀點:
■ ChatGPT 展現(xiàn)了極強的語義理解、多輪溝通對話、推理演繹能力,代表了人工智能研究范式的改變。以 Transformer 為基礎的軟硬件標準化趨勢的確立讓我們有理由相信且為之振奮:我們正站在在 AI 工業(yè)化革命爆發(fā)的拐點——與其說 ChatGPT 證明了某一條 AI 研究路線的成功,倒不如說它更大的意義是證明了 AI 這些年不斷收斂但依然存在多種選擇的各類路線里,最終真的是會走出一條路:AI 工業(yè)技術革命終將到來。
■大語言模型使用自然語言交互,顛覆了原有的人機交互方式。從鍵盤鼠標、觸摸屏、語音,人機交互方式的改變重塑了信息產(chǎn)業(yè)的形態(tài)。人工智能驅(qū)動的自然語言交換不僅加速虛擬世界的建立,帶來了生產(chǎn)力的革命,也會重塑生產(chǎn)關系,現(xiàn)實世界的下游應用都有望被重構。
■伴隨參數(shù)規(guī)模增速的不斷提升,算力和訓練成本仍存在瓶頸,大模型的性能天花板遠未到來,甚至算法需要根據(jù)硬件優(yōu)化,包括芯片級優(yōu)化、數(shù)據(jù)中心架構優(yōu)化、機器學習分布式框架在內(nèi)的軟硬件聯(lián)合調(diào)優(yōu)等算力創(chuàng)新將成為破局關鍵,轉(zhuǎn)動起 AI 算力 -AI 應用的產(chǎn)業(yè)飛輪。
■大模型參數(shù)是社會底層知識、學習資料的承載,具有極高的社會、經(jīng)濟和文化價值??紤]到全球政策環(huán)境、企業(yè)私有化部署的需求、數(shù)據(jù)跨境的合規(guī)風險等因素,中國獨立自主大模型構建的迫切性呼之欲出。道阻且長,行之將至。如何利用好AI工程化這一構建大模型的核心能力,以及利用中國的規(guī)模效應使大模型迅速普及并改進閉環(huán),是破局的機會。
01
拐點將至:大模型研發(fā)范式的改變標志著 AI 真正走向了工業(yè)化生產(chǎn)道路ChatGPT如何能力出眾?
相比于之前的 Chatbot,我們可以看到一個驚人的 ChatGPT:極好的理解和把握用戶意圖,具有出良好的多輪溝通對話、記憶、歸納和演繹能力,會甄別高水準答案,知道如何一步一步解決用戶問題,有邏輯和條理的輸出回答結果。
ChatGPT背后的技術突圍和能力養(yǎng)成?
任何 AI 技術都不是空中樓閣。在驚嘆以 ChatGPT、Diffusion 為代表的 AIGC 所展現(xiàn)的驚人能力的同時,我們看到的是一次深度學習算法、算力提升、數(shù)據(jù)積累三浪疊加后的“大力 出奇跡”,以及背后長達幾十年的醞釀。
大語言模型 (LLM) 標志著 AI 研究范式的改變:拉長 NLP 技術發(fā)展時間周期,早期階段 (2013年左右) 的 NLP 任務采用傳統(tǒng)的“特征提取+機器學習”進行研究,第二階段轉(zhuǎn)變?yōu)椤邦A訓練模型+fine tune”范式,均致力于“大練模型”,即根據(jù)下游任務調(diào)整預訓練模型,幫助機器理解人的意圖。而在以 ChatGPT 為代表的 GPT3.0 “預訓練模型+Prompt”范式中,通過“練大模型”大幅減小預訓練的任務和下游任務之間的統(tǒng)計分布差距,讓計算機適配人的習慣命令表達方式,提高整體任務的通用性和用戶體驗,從而使通用底座模型成為可能。模型規(guī)模激發(fā)能力突變:研究表明,大模型許多能力上的驚人突破,并非一個線性的過程,而是在模型尺寸達到一個量級時發(fā)生突然的“進化”(Scaling Law 即規(guī)模定律)。當 LLM 的參數(shù)量達到一定量時(比如 100 億),模型的能力將發(fā)生突變。GPT 3.0 模型下 1750 億參數(shù)量“涌現(xiàn)”出的強大智能表現(xiàn),驗證 ScalingLaw 生效,由此獲得了存在于大模型而非小模型的涌現(xiàn)能力。更深度的人類活動信息變成可用數(shù)據(jù),進一步激發(fā)模型-數(shù)據(jù)的飛輪效應。從神經(jīng)網(wǎng)絡角度看,人腦有約 100 萬億神經(jīng)元。GPT-3 有 1750 億參數(shù),預計 OpenAI的 GPT-4 模型參數(shù)量將變得更大,但距離人腦的 100 萬億神經(jīng)元尚遠。隨著算力的進步,參數(shù)規(guī)模提升能否帶來新的特性值得期待,我們相信大語言 模型的新能力會隨著參數(shù)和模型規(guī)模的激增而進一步解鎖。
標準化趨勢正在加速:
在算法層面。大模型的核心 Transformer 有統(tǒng)一算法的趨勢,圖像、自然語言理解、多模態(tài)的主要技術路線基本都基于 Transformer 實現(xiàn)。算法的收斂某種程度上使得硬件收斂成為可能,而 Transformer 加速引擎成為算力必選項。雖然目前算法、軟件、硬件尚未實現(xiàn)完全標準化,但我們可以清楚的看到 LLM 標準化進程正在加速,逐漸顯現(xiàn)出“通用目的技術”的三個特性即普遍適用性、動態(tài)演進性和創(chuàng)新互補性,有望成為驅(qū)動工業(yè)革命的增長的引擎。02
革故立新:人機交互方式的改變引發(fā)生產(chǎn)力的工業(yè)化變革,產(chǎn)業(yè)鏈將被重構
回顧科技進步和產(chǎn)業(yè)變革的歷史可以發(fā)現(xiàn),歷次科技革命和工業(yè)革命都帶來了改變?nèi)祟惿a(chǎn)生活的技術、產(chǎn)品和服務。科技革命標志性的科學成就以及工業(yè)革命的主導技術往往具有顛覆性特征,無一不對解放生產(chǎn)力、推動人類文明演進產(chǎn)生了深遠影響。
大語言模型所推動的本質(zhì)變革在于改變了人機交互方式。自然語言成為了人機交互媒介,計算機可以理解人類自然語言,而不再依賴固定代碼、特定模型等中間層。以手機、平板等為載體的人機交互方式可能在元宇宙場景下以更自然的方式展現(xiàn),移動互聯(lián)網(wǎng)時代的人工智能應用可能被重塑。
交互方式的改變將引發(fā)各行各業(yè)的生產(chǎn)力革命:用以嫁接計算機與人類的軟件“中間層”將不復存在,產(chǎn)品形態(tài)發(fā)生變化,軟件可以迅速支持自然語言接口,而不必開發(fā)和調(diào)用 API 接口。勞動對象、生產(chǎn)關系隨之變化,AI 軟件開發(fā)的門檻降低,用戶群擴大,企業(yè)內(nèi)部研發(fā)和產(chǎn)品的界限將日益模糊;產(chǎn)品根據(jù)用戶反饋進行直接調(diào)整,產(chǎn)業(yè)鏈進一步縮短,生產(chǎn)效率提高。新的需求、職業(yè)、市場空間、商業(yè)模式呼之欲出,數(shù)據(jù)-模型疊加的產(chǎn)業(yè)飛輪將徹底改變很多傳統(tǒng)行業(yè)和產(chǎn)業(yè)格局。規(guī)模工業(yè)化生產(chǎn)的格局有望體現(xiàn):生產(chǎn)方式從“農(nóng)耕時代”走向“工業(yè)時代”,AI 產(chǎn)業(yè)生態(tài)將從過去每個垂直應用領域做各自模型,變成通過大模型做應用,通用性更強。AI 產(chǎn)業(yè)鏈將呈現(xiàn)底層基礎設施(芯片/云服務商) - 大模型 - Prompt Engineering Platform - 終端應用的水平化分工。我們大膽推測,由于預訓練模型需要耗費大量的成本和技術投入,因此類似臺積電之于英偉達,大模型/AI 平臺的入門門檻高,一般參與的對象還是以大規(guī)模的互聯(lián)網(wǎng)公司和行業(yè)巨頭為主,未來可能只有 1-2 家公司是做 大模型底層基礎設施。原本期望通過做垂直化、場景化、個性化模型和應用工具擴張成平臺型企業(yè)的中間層企業(yè)們的競爭可能日益激烈;理解行業(yè)痛點并在大模型基礎上快速抽取生成場景化、定制化、個性化的小模型,從而實現(xiàn)不同行業(yè)和領域的工業(yè)流水線式 部署的公司才能生存??拷虡I(yè)的應用型公司,依托 AI 將落地場景中的真實數(shù)據(jù)發(fā)揮更大價值。這某種程度上體現(xiàn)了規(guī)模工業(yè)化生產(chǎn)的特質(zhì),即產(chǎn)業(yè)分工,標準化和規(guī)?;?。所有的下游應用都有望被重構:隨著基礎模型與工具層的崛起,構建應用的成本和難度將大幅降低。對于應用開發(fā)者來說,所有的下游應用值得被重構。傳統(tǒng)企業(yè)(+AI)將享受低成本構建應用模型的便利,利用場景和行業(yè) know-how 優(yōu)勢更快地擁抱數(shù)字化轉(zhuǎn)型,大幅提升效率和體驗;創(chuàng)業(yè)公司(AI+)聚焦高價值場景,顛覆現(xiàn)有業(yè)務,在自己擅長的方向上去做突圍,比大廠先一步做出數(shù)據(jù)飛輪,形成壁壘。03
超越摩爾定律:算力瓶頸下的軟硬件聯(lián)合調(diào)優(yōu)成為破局關鍵
新工業(yè)革命的主導技術和產(chǎn)業(yè)不再呈現(xiàn)單一性特征,很有可能演變?yōu)橛啥鄠€交叉技術組成的技術簇群,不斷同步、掣肘、疊加和“糾纏”?;乜慈斯ぶ悄墚a(chǎn)業(yè)的發(fā)展歷史,每一波大發(fā)展都是與算力提升和數(shù)據(jù)爆發(fā)相結合。軟件與算力供需的失衡、能力的追趕不斷催生創(chuàng)新技術需求,一旦關鍵技術迎來突破,將會帶動整個產(chǎn)業(yè)群的發(fā)展。
受制于摩爾定律,AI 訓練成本高企,當前硬件算力的成本和供給遠無法滿足日益增長的內(nèi)存和計算需求。
不僅僅是語言大模型參數(shù)規(guī)模呈指數(shù)增長。LLM 將更大范圍更深度的人類活動信息直接轉(zhuǎn)化為可用數(shù)據(jù),引發(fā)全球數(shù)據(jù)量激增。根據(jù) Google 統(tǒng)計,DNN 的內(nèi)存和計算需求每年約增長 1.5 倍(2016-2020 內(nèi)存增長 0.97-2.16,算力增長 1.26- 2.16);而算力供給卻達不到。從 2016 至 2023 年,英偉達 GPU 單位美元的算力增長 7.5 倍(P100 4 GFLOPS/$ 到 H100 30 GFLOPS/$),GPU 算力提升約 69 倍(P100 22T FLOPS 到 H100 1513T FLOPS),GPU 效率提升約 59 倍(P100 73.3 TFLOPS/kw 到 H100 4322 TFLOPS/kw)。
雖然 GPU 在各種效率有明顯提升,長期來看,算力需求每年約增長 1.5 倍存在一定的不可持續(xù)性,我們預計在最好情況下英偉達 GPU的算力供給每年增長 1 倍,按一般技術滲透規(guī)律,算力層面還需要一定程度的優(yōu)化,否則很難和應用形成較好的正反饋效應,從而提升行業(yè)的滲透率。如何在 AI 算力上實現(xiàn)技術突破、降低成本、擴大規(guī)模,提升 AI 訓練的邊際效益,將成為技術創(chuàng)新的焦點。
催生的算力創(chuàng)新需求包括:
芯片級優(yōu)化。
過去十年里芯片性能的提升,超過 60% 直接或間接受益于半導體工藝的提升,而只有17%來自于芯片架構的升級;而摩爾定律放緩,每 100m 柵極的成本將持續(xù)增加(比如從 28nm 的 1.3 美元提升到 7nm 的 1.52 美元),主要由制造這些芯片的復雜性增加所驅(qū)動——即制造步驟的增加,遠遠達不到經(jīng)濟效益。同時,制造難度增加,也將增加良率帶來的損失,需要通過將大芯片分成更小的 Chiplet 提高產(chǎn)量/良率,降低制造成本。
數(shù)據(jù)中心架構優(yōu)化。
據(jù)英偉達估計,到 2030 年數(shù)據(jù)中心能耗占全社會能耗 3-13%,而數(shù)據(jù)中心架構也在演進中,從原先的 CPU 作為單一算力來源,引入軟件架構定義,再到增加 GPU、DPU,GPU、DPU 的引入使得數(shù)據(jù)中心三種計算芯片分工明確,從而提升整個數(shù)據(jù)中心的效率。
機器學習分布式框架。
大模型大算力一定需要多機多卡訓練,以 ChatGPT 為例,訓練一次需要 3.14×E23 FLOPS 算力。但從訓練到推理的過程,模型參數(shù)數(shù)量不變,分布式框架加速優(yōu)化的幫助顯著。以英偉達 A100為例,A100早期訓練效率只有 20%,經(jīng)過分布式框架的優(yōu)化,效率可以提升 30%~40%,整體效率提升至 50%~100%。
04
時不我待:中國自主大模型的必然、機會和挑戰(zhàn)
以 OpenAI 、微軟等為代表的發(fā)達國家巨頭對科技創(chuàng)新和產(chǎn)業(yè)升級新一輪密集投入的效果逐步顯現(xiàn),科技革命和工業(yè)革命下新一輪“技術—經(jīng)濟范式”變遷也隨之逐漸明朗??萍脊I(yè)革命必然伴隨理念、知識、制度,甚至社會價值觀和國際話語權的深刻變革,引發(fā)新一輪的國際和經(jīng)濟競爭。ChatGPT 的出現(xiàn)意味著 AI 產(chǎn)業(yè)水平化分工的條件基本成熟,世界上并不需要很多個大模型,但大模型參數(shù)作為社會底層知識、學習資料的承載,具有極高的社會、經(jīng)濟和文化價值?;谌蛘苇h(huán)境、代表中國中大型企業(yè)私有化部署的需求、數(shù)據(jù)跨境的合規(guī)風險和安全考慮,我們認為,中國一定會有自己的 LLM (大模型)。
將構建中國自主的大模型視為在 AI 領域全方位軍備競賽并不為過。這需要超大規(guī)模智算平臺對芯片、系統(tǒng)、網(wǎng)絡、存儲到數(shù)據(jù)進行全盤系統(tǒng)優(yōu)化,需要一個能自主掌控更多環(huán)節(jié)從而實現(xiàn)全局調(diào)優(yōu)的方案。雖然目前我們在算力、高質(zhì)量數(shù)據(jù)集、頂尖人才資源、應用生態(tài)方面與海外存在較大差距,但以百度、騰訊、阿里為代表的中國科技公司們在這個技術周期里所生長出來云、數(shù)據(jù)、芯片和復雜系統(tǒng),已初步擁有了參與這場 ChatGPT 競爭的“入場券”。即使目前各環(huán)節(jié)依然存在不小的代際差,但我們深信基于多年積累的建模、訓練和調(diào)參,加大長期的資本和人才投入,深度融合的數(shù)據(jù)和場景,底層訓練數(shù)據(jù),我們自主獨立的大模型依然存在商業(yè)閉環(huán)的機會。
如何追趕?核心能力在于工程化能力和應用規(guī)模。作為系統(tǒng)工程,AI 需要依靠龐大的團隊支撐。類比搜索引擎公司,搜索引擎壁壘不在于算法本身,而在于工程化的需求,例如谷歌搜索引擎、頭條推薦,都需要強大的工程能力。OpenAI 的 GPT-1 到 GPT-3 再到現(xiàn)在的 ChatGPT ,模型結構沒有發(fā)生任何變化(transformer decoder),單一產(chǎn)品仍需要幾百名正式員工、上千名標注員打磨三年——AI 工程化恰是中國的機會。同時,中國基本上所有的互聯(lián)網(wǎng)公司都是 AI 公司,中國的規(guī)模效應,有望讓大模型迅速普及化的改進閉環(huán),成為中國企業(yè)迎頭追趕的機會。
人工智能有助于經(jīng)濟的自動化、智能化,AI 大模型的最終目標是 AGI(通用人工智能)。AI 大模型對人類傳達信息的載體有了更好的學習,在此基礎上各個媒介之間的互通成為可能。當這一目標實現(xiàn)的時候,人類各種經(jīng)濟活動產(chǎn)生的信息的生產(chǎn)、傳輸、分發(fā)、消費可實現(xiàn)編程化,萬物智能成本無限降低,人類的生產(chǎn)力與創(chuàng)造力得到進一步的解放。
相信長期的力量。上海人工智能基金秉持長期主義,助力人工智能從業(yè)者們這場系統(tǒng)戰(zhàn)、持久戰(zhàn)中保持定力。上海人工智能產(chǎn)業(yè)基金是經(jīng)上海市政府批準同意,由國盛集團、臨港集團聯(lián)合市區(qū)兩級財政及市屬大型產(chǎn)業(yè)集團共同發(fā)起,由上海臨港科創(chuàng)投資管理有限公司擔任基金管理人,旨在貫徹落實世界人工智能大會成果,加快推進上海人工智能高質(zhì)量發(fā)展?;鹁劢谷斯ぶ悄芎诵募夹g和關鍵應用,同時關注優(yōu)秀創(chuàng)業(yè)者陪護和生態(tài)資源的持續(xù)積累,致力于打造人工智能產(chǎn)業(yè)發(fā)展各類要素聯(lián)通的“一站式”平臺,助力建設人工智能“上海高地”,同時為產(chǎn)業(yè)升級變革創(chuàng)造長期價值。
ChatGPT 的能力展現(xiàn)為人工智能產(chǎn)業(yè)鏈注入了新活力,即使尚處于萌芽期,其展現(xiàn)的創(chuàng)造能力充滿想象空間,有望帶動 AIGC 類應用快速爆發(fā)。人工智能技術作為驅(qū)動數(shù)據(jù)經(jīng)濟的技術底層,有望迎來新的發(fā)展機遇,在數(shù)字時代賦能人類生產(chǎn)力與創(chuàng)造力進一步解放和革新。上海人工智能基金將持續(xù)通過技術引領與場景賦能雙輪驅(qū)動,推動人工智能成為驅(qū)動新一輪科技革命和產(chǎn)業(yè)變革的重要力量。
-
AI
+關注
關注
87文章
29806瀏覽量
268106 -
ChatGPT
+關注
關注
29文章
1546瀏覽量
7358
發(fā)布評論請先 登錄
相關推薦
評論