2023年,大模型的突破和生成式AI的興起,正在引領(lǐng)AI產(chǎn)業(yè)邁入智能創(chuàng)新的新階段,同時(shí)也將引發(fā)算力架構(gòu)的新變局。
根據(jù)最新發(fā)布的《2023-2024年中國人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》,全球人工智能硬件市場(chǎng)(服務(wù)器)規(guī)模將從2022年的195億美元增長(zhǎng)到2026年的347億美元,五年年復(fù)合增長(zhǎng)率達(dá)17.3%;在中國,預(yù)計(jì)2023年中國人工智能服務(wù)器市場(chǎng)規(guī)模將達(dá)到91億美元,同比增長(zhǎng)82.5%,2027年將達(dá)到134 億美元,五年年復(fù)合增長(zhǎng)率達(dá)21.8%。中國算力市場(chǎng)、特別是智算領(lǐng)域,正在蓬勃發(fā)展。
01.?CPU+GPU成為AI異構(gòu)計(jì)算主要方式
大模型時(shí)代,構(gòu)建和調(diào)優(yōu)生成式AI基礎(chǔ)模型以滿足應(yīng)用需求,將為整個(gè)基礎(chǔ)設(shè)施市場(chǎng)帶來改變和發(fā)展機(jī)遇?!耙詰?yīng)用為導(dǎo)向、系統(tǒng)為核心”,將是未來算力升級(jí)的主要路徑。
從技術(shù)發(fā)展視角來看,異構(gòu)計(jì)算仍然是芯片發(fā)展趨勢(shì)之一。在單一系統(tǒng)中,異構(gòu)計(jì)算通過利用不同類型的處理器(如CPU、GPU、ASIC、FPGA、NPU等)協(xié)同工作,執(zhí)行特定任務(wù),以優(yōu)化性能和效率,更高效地利用不同類型的計(jì)算資源,滿足不同的計(jì)算需求。比如,通過發(fā)揮GPU并行處理能力,可以提高模型,尤其是大模型的訓(xùn)練速度和效率;在數(shù)據(jù)預(yù)處理、模型調(diào)優(yōu)等階段,可以使用CPU進(jìn)行計(jì)算和決策,或在控制和協(xié)調(diào)計(jì)算資源(如GPU、FPGA等) 的工作過程中使用CPU,以確保計(jì)算過程的順利進(jìn)行;此外,可通過使用FPGA進(jìn)行推理加速,從而將模型實(shí)現(xiàn)在邊緣設(shè)備的部署,以開展更快速的實(shí)時(shí)推理工作。
IDC調(diào)查研究顯示,截至2023年10月,中國市場(chǎng)普遍認(rèn)為“CPU+GPU”的異構(gòu)方式是AI異構(gòu)計(jì)算的主要組合形式。
圖:人工智能訓(xùn)練和推理工作負(fù)載選用的計(jì)算架構(gòu)
(來源:《2023-2024年中國人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》)
02.?大模型時(shí)代,AI芯片三大挑戰(zhàn)
AI算力需求的提升給中國本土芯片廠商的發(fā)展提供了較大的空間,帶來新的機(jī)遇。IDC預(yù)計(jì),2023年中國人工智能芯片出貨量將達(dá)到133.5萬片,同比增長(zhǎng) 22.5%。
在面臨廣闊機(jī)會(huì)的同時(shí),大模型時(shí)代,我國AI芯片也面臨著新的發(fā)展挑戰(zhàn)。
首先,與國際領(lǐng)先AI芯片差距較大,以英偉達(dá)最新發(fā)布的H200 GPU為例,性能已經(jīng)達(dá)到其A100 GPU近5倍。而我國AI芯片的大模型集群訓(xùn)練性能,只有個(gè)別接近A100/A800,大多數(shù)不到其性能的50%,這也意味著,我國AI芯片在大模型訓(xùn)練性能方面,與國際領(lǐng)先水平約是3年的代際差距。
其次,生態(tài)方面,英偉達(dá)的CUDA經(jīng)過17年、累計(jì)超過100億美元的資金投入,全球開發(fā)者已經(jīng)超過300萬,成為全球AI開發(fā)處于壟斷地位的基礎(chǔ)庫。反觀國內(nèi)AI芯片企業(yè),整體市場(chǎng)占有率加起來不超過10%,且各家AI芯片軟件各異、生態(tài)零碎割裂。
此外,在當(dāng)前時(shí)代背景下,我國AI芯片產(chǎn)能受阻、向高端芯片進(jìn)階關(guān)鍵技術(shù)受限等,也在一定程度上制約了AI芯片的發(fā)展。
03.?破解異構(gòu)算力三重難題
基于當(dāng)前現(xiàn)狀,北京智源人工智能研究院副院長(zhǎng)兼總工程師林詠華提出,大模型時(shí)代,我國異構(gòu)算力主要面臨三重束縛。
異構(gòu)算力束縛一:不一樣的算力,不能合池訓(xùn)練
具體而言,當(dāng)前異構(gòu)混合分布式訓(xùn)練存在如下挑戰(zhàn):不同架構(gòu)設(shè)備的軟硬件棧不兼容,數(shù)值精度也可能存在差異;不同架構(gòu)設(shè)備之間很難高效通信;不同設(shè)備算力和內(nèi)存不同,很難進(jìn)行負(fù)載均衡切分。
這些挑戰(zhàn)很難一次性解決,目前智源已經(jīng)嘗試在相同架構(gòu)不同代際設(shè)備或者在兼容架構(gòu)的不同設(shè)備上進(jìn)行異構(gòu)訓(xùn)練,未來將探索不同架構(gòu)設(shè)備上的異構(gòu)訓(xùn)練。FlagScale是一個(gè)支持多廠商異構(gòu)算力合池訓(xùn)練的框架,當(dāng)前實(shí)現(xiàn)了異構(gòu)流水線并行及異構(gòu)數(shù)據(jù)并行兩種模式。
異構(gòu)流水線并行:在該模式實(shí)際訓(xùn)練時(shí),可以跟數(shù)據(jù)并行、張量并行以及序列并行進(jìn)行混合來實(shí)現(xiàn)高效訓(xùn)練。根據(jù)反向傳播算法內(nèi)存使用特點(diǎn),該模式適合將內(nèi)存比較大的設(shè)備放在流水線并行靠前的階段,內(nèi)存小的設(shè)備放在流水線并行靠后的階段,然后根據(jù)再設(shè)備的算力來分配不同的網(wǎng)絡(luò)層來實(shí)現(xiàn)負(fù)載均衡。
異構(gòu)數(shù)據(jù)并行模式:在該模式實(shí)際訓(xùn)練時(shí),可以跟張量并行、流水線并行以及序列并行進(jìn)行混合來實(shí)現(xiàn)大規(guī)模高效訓(xùn)練。算力和內(nèi)存都比較大的設(shè)備將處理較大的微批次大小,而算力和內(nèi)存都比較小的設(shè)備將處理較小的微批次大小,從而實(shí)現(xiàn)不同設(shè)備上的負(fù)載均衡。
根據(jù)智源所展示的在英偉達(dá)和天數(shù)智芯集群的三組異構(gòu)混合訓(xùn)練實(shí)驗(yàn)結(jié)果,顯示異構(gòu)混合訓(xùn)練收益較好,在三種配置情況下接近甚至超過了性能上限,這說明異構(gòu)混合訓(xùn)練的效率損耗較低,獲得了較好的訓(xùn)練收益。
林詠華介紹,異構(gòu)算力合池訓(xùn)練框架FlagScale正在實(shí)現(xiàn)英偉達(dá)算力集群與天數(shù)智芯算力集群的異構(gòu)合池訓(xùn)練,未來將實(shí)現(xiàn)更多不同中國廠商算力集群之間的異構(gòu)合池訓(xùn)練,推動(dòng)不同廠商異構(gòu)芯片的通信庫標(biāo)準(zhǔn)化,實(shí)現(xiàn)高速互通互聯(lián)。
她表示,在芯片的迭代更新過程中,肯定存在新、舊代際芯片混用的過程,希望繼續(xù)攻關(guān)兼容異構(gòu)芯片的混合訓(xùn)練技術(shù),也希望在同一個(gè)數(shù)據(jù)中心,各種商業(yè)資源可以靈活組合,將性能和效率最大化。
異構(gòu)算力束縛二:受CUDA制約,算子庫在不同硬件上適配難度大
當(dāng)前,我國AI芯片軟件生態(tài)薄弱,主流AI框架以支持英偉達(dá)芯片為主。對(duì)于國產(chǎn)AI芯片來說,需要適配多款框架,每次AI框架版本升級(jí),需要重復(fù)適配;同時(shí),各AI芯片廠商有自己的底層軟件棧,彼此不兼容。
在大模型需求下,上述問題帶來三大影響:第一,針對(duì)大模型需要的算子及優(yōu)化方法缺失,導(dǎo)致模型無法運(yùn)行或者運(yùn)行效率低;第二,會(huì)出現(xiàn)因?yàn)樾酒軜?gòu)和配套的軟件實(shí)現(xiàn)差異而帶來的精度誤差問題;第三,要在國產(chǎn)AI芯片上實(shí)現(xiàn)大模型訓(xùn)練,需要大量移植工作,適配遷移成本很高。
對(duì)此,林詠華認(rèn)為,構(gòu)建公共的AI芯片開放軟件生態(tài)非常關(guān)鍵,結(jié)合大模型研究和發(fā)展需求,基礎(chǔ)架構(gòu)層面要構(gòu)建基于下一代開放、中立的AI編譯器中間層,并且要適配PyTorch框架,支持開源編程語言及編譯器擴(kuò)展。下一步,要繼續(xù)探索最大化硬件基礎(chǔ)架構(gòu)性能和利用率的共性核心技術(shù),對(duì)典型和復(fù)雜算子的軟硬件協(xié)同極限優(yōu)化,使得成果開源開放,高效支撐大模型訓(xùn)練。
異構(gòu)算力束縛三:芯片架構(gòu)、軟件各異,評(píng)測(cè)難度大,影響落地進(jìn)展
當(dāng)前,AI芯片企業(yè)眾多,各自架構(gòu)和開發(fā)工具鏈不同,且AI框架眾多,再加上層出不窮的場(chǎng)景和復(fù)雜多變的模型,導(dǎo)致適配工作量大、開發(fā)復(fù)雜度高、評(píng)測(cè)標(biāo)準(zhǔn)難統(tǒng)一,影響了產(chǎn)品的落地和規(guī)?;瘧?yīng)用。
林詠華認(rèn)為,AI異構(gòu)芯片的評(píng)測(cè),對(duì)行業(yè)生態(tài)有重要價(jià)值。當(dāng)前,業(yè)界缺少被廣泛認(rèn)可的、中立的、開源開放的、針對(duì)異構(gòu)芯片的評(píng)測(cè)體系。應(yīng)該建立開源的AI芯片評(píng)測(cè)項(xiàng)目,具體包括基礎(chǔ)環(huán)境、異構(gòu)芯片基礎(chǔ)軟件、測(cè)試集等,對(duì)模型運(yùn)行的支持情況、芯片的訓(xùn)練時(shí)間和計(jì)算吞吐量、芯片和服務(wù)器其他零部件的使用情況、芯片對(duì)不同框架和軟件生態(tài)的支持能力等方面,進(jìn)行全方位評(píng)測(cè)。
04.?寫在最后
AI大模型的發(fā)展提升了智能算力的需求。IDC數(shù)據(jù)顯示,2022-2027年,我國智能算力規(guī)模年復(fù)合增長(zhǎng)率達(dá)33.9%,超越同期通用算力規(guī)模16.6%的年復(fù)合增長(zhǎng)率。
本土AI芯片廠商正面臨著新的機(jī)遇和挑戰(zhàn)。針對(duì)單芯片算力的瓶頸問題、多芯片異構(gòu)合池訓(xùn)練難題,以全局思維打造算力基礎(chǔ)設(shè)施平臺(tái)成為未來的關(guān)鍵。特別是在構(gòu)建與硬件匹配的軟件生態(tài),包括操作系統(tǒng)、中間件和工具鏈等方面,隨著大模型從基礎(chǔ)研發(fā)走向應(yīng)用落地,軟件基礎(chǔ)設(shè)施的重要性和價(jià)值將會(huì)進(jìn)一步凸顯。這也是大模型在完成了“從0到1”的預(yù)訓(xùn)練之后,在通往“從1到100”的應(yīng)用和大規(guī)模落地過程中,AI芯片作為核心基礎(chǔ)環(huán)節(jié)必須完成的修煉,也將給中國AI芯片產(chǎn)業(yè)帶來深遠(yuǎn)的影響。
審核編輯:黃飛
評(píng)論
查看更多