根據(jù) OpenAI 官網(wǎng),AI 模型訓練計算量自 2012 年起每 3.4 個月就增長一倍。以 GPT-3 模型為例,根據(jù) lambdalabs 數(shù)據(jù),該模型參數(shù)規(guī)模達 1750 億,完整訓練運算量達3640PFlop/s-days(以 3640PFlop/s 速度進行運算,需要 3640 天)。模型完成單次訓練約需要 355 個 CPU 年并耗費 460 萬美元(假設采用 Nvidia Tesla V100 芯片)。
高算力需求迫切,推動AI基礎設施建設。高訓練算力需要與相應基礎設施匹配,根據(jù)《2022—2023中國人工智能算力發(fā)展評估報告》預計,2023 年全球 AI 支出增速有望達 27.9%,而中國智能算力規(guī)模將達 427EFlop/s,同比增長 59%。
AI 芯片:算力核心構(gòu)成,自主可控推動國產(chǎn)化
人工智能芯片是 AI 算力的核心構(gòu)成。目前主流的 AI 芯片中 GPU 占據(jù)絕對百分比,根據(jù)IDC 數(shù)據(jù),2022 年 GPU 在中國人工智能芯片市場中占有率為 89%。根據(jù)我們測算,假設國內(nèi)每日訪問單個語言大模型的人數(shù)達到 3 億的情況下,對 GPU 需求臺數(shù)為 13889 塊。
Nvidia H100 是目前最先進的人工智能芯片。2023 年 3 月 22 日 Nvidia 推出新款人工智能芯片 GPU H100,與公司上一代產(chǎn)品 A100 相比性能得到大幅提升,在主流 AI 和 HPC模型中,采用 InfiniBand 互連技術的 H100 性能最高可達 A100 的 30 倍。
國產(chǎn)AI芯片短板明顯,下一代產(chǎn)品推進順利。通過對國內(nèi)寒武紀、華為昇騰和沐曦等國產(chǎn)公司旗下的 AI 旗艦芯片與 Nvidia H100 SXM 的性能指標對比,可以看到國產(chǎn) AI 芯片與 Nvidia H100 在性能上仍存在較大差距。同時國產(chǎn)芯片公司仍在加快研發(fā)推進下一代 AI芯片產(chǎn)品,并有望在未來對標Nvidia H100,如寒武紀在研的思元590、沐曦在研的MXC500等。
美國對 AI 芯片出口管制,自主可控要求下國產(chǎn)芯片需求迫切。2022 年 10 月 7 日美國商務部工業(yè)安全局(BIS)發(fā)布《美國商務部對中華人民共和國(PRC)關于先進計算和半導體實施新的出口管制制造》細則,其中管制物項 3A090、4A090 包含高性能 AI 芯片產(chǎn)品,而Nvidia A100 和 H100 均符合管制要求。在此背景下,Nvidia 推出性能閹割的中國特供版芯片 A800 和 H800。我們認為在國內(nèi)自主可控大背景下,國內(nèi) AI 產(chǎn)業(yè)對國產(chǎn)芯片需求迫切,或加大對國產(chǎn)芯片公司支持力度,國產(chǎn) AI 芯片有望迎來技術進步和市場機遇。
光模塊:新型網(wǎng)絡架構(gòu)對高端光模塊用量增加
高算力需要與高效傳輸架構(gòu)相匹配。AI 大模型通常由多個服務器作為節(jié)點,并通過高速網(wǎng)絡架構(gòu)組成集群合作完成模型訓練。因此在模型中東西向流量(數(shù)據(jù)中心服務器間的傳輸流量)大幅增加,而模型訓練過程中南北向流量(客戶端與服務器間的傳輸流量)較少,由于葉脊網(wǎng)絡架構(gòu)相較傳統(tǒng)三層架構(gòu)更適用于東西向流量傳輸,成為現(xiàn)代數(shù)據(jù)中心主流網(wǎng)絡架構(gòu)。
葉脊網(wǎng)絡架構(gòu)大幅增加對光模塊數(shù)量需求。由于葉脊網(wǎng)絡架構(gòu)中東西向流量大,因此服務器與交換機相連均需使用光模塊,從而大幅增加對光模塊數(shù)量需求。同時 AI 大模型的高流量對帶寬提出更高要求,800G 光模塊相較 200G/400G 光模塊具有高帶寬、功耗低等優(yōu)點,有望在 AI 大模型網(wǎng)絡架構(gòu)中滲透率提升。
以 Nvidia DGX H100 網(wǎng)絡架構(gòu)為例。該架構(gòu)適配 Nvidia H100 GPU,采用葉脊網(wǎng)絡架構(gòu),分為 1-4 個 SU 單元類型(8 個 GPU 組成一個 H100 服務器節(jié)點,32 個服務器節(jié)點組成一個 SU 單元)。其中 4-SU 單元架構(gòu)由 127 個服務器節(jié)點組成(其中一個節(jié)點用于安裝 UFM 網(wǎng)絡遙測裝置),具有 1016 個 H100 GPU、32 個葉交換機、16 個脊交換機。
以 Nvidia DGX H100 架構(gòu)為例測算 GPU 與光模塊的對應數(shù)量。在 4-SU 的 Nvidia DGX H100 架構(gòu)中,每 32 臺服務器節(jié)點組成一個 SU 單元,并與 8 臺葉交換機相連,因此服務器節(jié)點與葉交換機之間共有 1024 個連接(32×8×4);32 臺葉交換機需分別與 16 臺脊交換機相連,因此葉交換機與脊交換機之間共有 512 個連接(32×16);
在 Nvidia DGX H100 的目前方案中,脊-葉連接采用 800G 光模塊,需要 1024 個 800G 光模塊;葉-服務器連接中,每個服務器節(jié)點通過一個 800G 光模塊與兩臺葉交換機向上連接,需要 512 個 800G 光模塊(128×4),同時每臺葉交換機通過一個 400G 光模塊與一個服務器節(jié)點連接,需要 1024 個 400G 光模塊(128×8)。
國產(chǎn)光模塊廠商在 2022 年全球光模塊企業(yè) TOP10 排名中占據(jù) 7 席。TOP10 中國內(nèi)企業(yè)為中際旭創(chuàng)(Innolight)、華為(Huawei)、光迅科技(Accelink)、海信(Hisense)、新易盛(Eoptolink)、華工正源(HGG)、索爾思光電(已被華西股份收購)。而在高端光模塊領域,中際旭創(chuàng)已在 2022 年實現(xiàn) 800G 光模塊批量出貨。光芯片:光模塊核心部件,國產(chǎn)化空間開闊
光通信是指通過電光轉(zhuǎn)換以光信號為介質(zhì)的傳輸系統(tǒng)。光通信系統(tǒng)的傳輸過程中首先發(fā)射端(TOSA)通過激光器芯片將電信號轉(zhuǎn)換為光信號,經(jīng)過光纖傳輸至接收端(ROSA),接收端通過探測器芯片將光信號轉(zhuǎn)換為電信號,最終實現(xiàn)信號傳輸。
光芯片是決定光通信系統(tǒng)信號傳輸效率和網(wǎng)絡可靠性的關鍵。光芯片是實現(xiàn)光電信號轉(zhuǎn)換的基礎元件,按照功能可以分為激光器芯片(LD)和探測器芯片(PD)。按細分型號分:激光器芯片可分為 VCSEL、FP、DFB 和 EML;探測器芯片可分為 PIN 和 APD。
高端光芯片市場國產(chǎn)化率仍有待提高。目前在 10G 及以下光芯片市場中,源杰科技等國內(nèi)公司已占據(jù)較高市場份額(部分高技術難度領域如 10G VCSEL/EML 激光器芯片市場國產(chǎn)化率低于 40%),但在 25G 及以上光芯片市場,市場份額仍大多由Ⅱ-Ⅳ、Lumentum 和Broadcom 等國外公司占據(jù)。伴隨國內(nèi)光模塊企業(yè)在全球市場中占據(jù)主導地位,出于保供的安全考慮,或為國內(nèi)光芯片企業(yè)在高端領域發(fā)展迎來新機遇。
審核編輯:湯梓紅
-
gpu
+關注
關注
27文章
4590瀏覽量
128131 -
光模塊
+關注
關注
73文章
1207瀏覽量
58620 -
光芯片
+關注
關注
3文章
92瀏覽量
10811 -
AI芯片
+關注
關注
17文章
1828瀏覽量
34660
原文標題:算力競賽,開啟AI芯片、光模塊和光芯片需求
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論