智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會(huì),愛詩科技創(chuàng)始人兼CEO王長虎,Open-Sora開發(fā)團(tuán)隊(duì)潞晨科技創(chuàng)始人尤洋,英偉達(dá)解決方案架構(gòu)與工程總監(jiān)王淼等50+位嘉賓已確認(rèn)參會(huì),其中,商湯科技大裝置事業(yè)群解決方案總監(jiān)代繼,奕信通創(chuàng)始人張俠,趨動(dòng)科技技術(shù)總監(jiān)張?jiān)鼋鸬葘⒃谥袊撬?a target="_blank">中心創(chuàng)新論壇帶來主題演講,歡迎報(bào)名。
真正的差異化競爭力,源于系統(tǒng)性地、全面地掌握整個(gè)價(jià)值鏈中主導(dǎo)無法快速復(fù)制的關(guān)鍵環(huán)節(jié)。
本文是華為2012實(shí)驗(yàn)室網(wǎng)絡(luò)專家陸玉春博士去年12月在2012實(shí)驗(yàn)室中央研究院網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室交流平臺(tái)【未來網(wǎng)絡(luò)前沿】分享的技術(shù)文章,在華為黃大年茶思屋線上發(fā)表。文章全面復(fù)盤與回顧了英偉達(dá)網(wǎng)絡(luò)技術(shù),并對(duì)英偉達(dá)AI芯片路線圖的未來技術(shù)推演進(jìn)行了深入的分析與解讀。
文章發(fā)布時(shí)間比北京時(shí)間3月19日發(fā)布的英偉達(dá)Blackwell系列GPU早3個(gè)多月,因此對(duì)B100的預(yù)測與實(shí)際發(fā)布新品不完全貼合。但這無礙陸玉春博士基于相關(guān)技術(shù)的分析推演與總結(jié)思考所提供的參考價(jià)值。以下是《NVIDIA AI芯片演進(jìn)解讀與推演》文章全文:
在2023年10月的投資者會(huì)議上,NVIDIA(英偉達(dá))展示了其全新的GPU發(fā)展藍(lán)圖 [1]。
與以往兩年一次的更新節(jié)奏不同,這次的路線圖將演進(jìn)周期縮短至一年。預(yù)計(jì)在2024年,NVIDIA將推出H200和B100 GPU;到2025年,X100 GPU也將面世。
其AI芯片規(guī)劃的戰(zhàn)略核心是“One Architecture”統(tǒng)一架構(gòu),支持在任何地方進(jìn)行模型訓(xùn)練和部署,無論是數(shù)據(jù)中心還是邊緣設(shè)備,無論是x86架構(gòu)還是Arm架構(gòu)。其解決方案適用于超大規(guī)模數(shù)據(jù)中心的訓(xùn)練任務(wù),也可以滿足企業(yè)級(jí)用戶的邊緣計(jì)算需求。
AI芯片從兩年一次的更新周期轉(zhuǎn)變?yōu)橐荒暌淮蔚母轮芷?,反映了其產(chǎn)品開發(fā)速度的加快和對(duì)市場變化的快速響應(yīng)。其AI芯片布局涵蓋了訓(xùn)練和推理兩個(gè)人工智能關(guān)鍵應(yīng)用,訓(xùn)練推理融合,并側(cè)重推理。同時(shí)支持x86和Arm兩種不同硬件生態(tài)。在市場定位方面,同時(shí)面向超大規(guī)模云計(jì)算和企業(yè)級(jí)用戶,以滿足不同需求。
NVIDIA旨在通過統(tǒng)一的架構(gòu)、廣泛的硬件支持、快速的產(chǎn)品更新周期以及面向不同市場提供全面的差異化的AI解決方案,從而在人工智能領(lǐng)域保持技術(shù)和市場的領(lǐng)先地位。
NVIDIA是一個(gè)同時(shí)擁有 GPU、CPU和DPU的計(jì)算芯片和系統(tǒng)公司,通過NVLink、NVSwitch和NVLink C2C技術(shù)將CPU、GPU進(jìn)行靈活連接組合形成統(tǒng)一的硬件架構(gòu),并于CUDA一起形成完整的軟硬件生態(tài)。
在AI計(jì)算芯片架構(gòu)方面,注重訓(xùn)練和推理功能的整合,側(cè)重推理。圍繞GPU打造Arm和x86兩條技術(shù)路線。在NVIDIA的AI路線圖中,并沒有顯示提及Grace CPU的技術(shù)路線,而是將其納入Grace+GPU的SuperChip超級(jí)芯片路標(biāo)中。
NVIDIA Grace CPU會(huì)跟隨GPU的演進(jìn)節(jié)奏并與其組合成新一代超級(jí)芯片;而其自身也可能根據(jù)市場競爭的需求組合成CPU超級(jí)芯片,實(shí)現(xiàn)“二打一”的差異化競爭力。
從需求角度來看,CPU的技術(shù)演進(jìn)速度并不像GPU那樣緊迫,并且CPU對(duì)于成本更加敏感。CPU只需按照“摩爾”或“系統(tǒng)摩爾”,以每兩年性能翻倍的速度進(jìn)行演進(jìn)即可。而GPU算力需要不到一年就要實(shí)現(xiàn)性能翻倍,保持每年大約2.5倍的速率增長。這種差異催生了超級(jí)芯片和超節(jié)點(diǎn)的出現(xiàn)。
NVIDIA將延用SuperChip超級(jí)芯片架構(gòu),NVLink-C2C和NVLink互聯(lián)技術(shù)在NVIDIA未來的AI芯片架構(gòu)中將持續(xù)發(fā)揮關(guān)鍵作用。
其利用NVLink-C2C互聯(lián)技術(shù)構(gòu)建GH200、GB200和GX200超級(jí)芯片。更進(jìn)一步,通過NVLink互聯(lián)技術(shù),兩顆GH200、GB200和GX200可以背靠背連接,形成GH200NVL、GB200NVL和GX200NVL模組。NVIDIA可以通過NVLink網(wǎng)絡(luò)組成超節(jié)點(diǎn),通過InfiniBand或Ethernet網(wǎng)絡(luò)組成更大規(guī)模的AI集群。
在交換芯片方面,仍然堅(jiān)持InfiniBand和Ethernet兩條開放路線,瞄準(zhǔn)不同市場,前者瞄準(zhǔn)AI Factory,后者瞄準(zhǔn)AIGC Cloud。但其并未給出NVLink和NVSwitch自有生態(tài)的明確計(jì)劃。224G代際的速度提升,可能率先NVLink和NVSwitch上落地。
以InfiniBand為基礎(chǔ)的Quantum系列和以Ethernet基礎(chǔ)的Spectrum-X系列持續(xù)升級(jí)。預(yù)計(jì)到2024年,將商用基于100G SerDes的800G接口的交換芯片;而到2025年,將迎來基于200G SerDes的1.6T接口的交換芯片。
其中800G對(duì)應(yīng)51.2T交換容量的Spectrum-4芯片,而1.6T則對(duì)應(yīng)下一代Spectrum-5,其交換容量可能高達(dá)102.4T。
從演進(jìn)速度上看,224G代際略有提速,但從長時(shí)間周期上看,其仍然遵循著SerDes速率大約3到4年翻倍、交換芯片容量大約2年翻倍的規(guī)律。雖然有提到2024年Quantum將會(huì)升級(jí)到800G,但目前我們只能看到2021年發(fā)布的基于7nm工藝,400G接口的25.6T Quantum-2交換芯片。
路線圖中并未包含NVSwitch 4.0和NVLink 5.0的相關(guān)計(jì)劃。有預(yù)測指出NVIDIA可能會(huì)首先在NVSwitch和NVLink中應(yīng)用224G SerDes技術(shù)。NVLink和NVSwitch作為NVIDIA自有生態(tài),不會(huì)受到標(biāo)準(zhǔn)生態(tài)的掣肘,在推出時(shí)間和技術(shù)路線選擇上更靈活,從而實(shí)現(xiàn)差異化競爭力。
SmartNIC智能網(wǎng)卡/DPU數(shù)據(jù)處理引擎的下一跳ConnectX-8/BlueField-4目標(biāo)速率為800G,與1.6T Quantum和Spectrum-X配套的SmartNIC和DPU的路標(biāo)仍不明晰,NVLink5.0和NVSwitch4.0可能提前發(fā)力。
NVIDIA ConnectX系列SmartNIC智能網(wǎng)卡與InfiniBand技術(shù)相結(jié)合,可以在基于NVLink網(wǎng)絡(luò)的超節(jié)點(diǎn)基礎(chǔ)上構(gòu)建更大規(guī)模的AI集群。而BlueField DPU則主要面向云數(shù)據(jù)中心場景,與Ethernet技術(shù)結(jié)合,提供更強(qiáng)大的網(wǎng)絡(luò)基礎(chǔ)設(shè)施能力。
相較于NVLink總線域網(wǎng)絡(luò),InfiniBand和Ethernet屬于傳統(tǒng)網(wǎng)絡(luò)技術(shù),兩種網(wǎng)絡(luò)帶寬比例大約為1:9。例如,H00 GPU用于連接SmartNIC和DPU的PCIe帶寬為128GB/s,考慮到PCIe到Ethernet的轉(zhuǎn)換,其最大可以支持400G InfiniBand或者Ethernet接口,而NVLink雙向帶寬為900GB/s或者3.6Tbps,因此傳統(tǒng)網(wǎng)絡(luò)和總線域網(wǎng)絡(luò)的帶寬比為1比9。
雖然SmartNIC和DPU的速率增長需求沒有總線域網(wǎng)絡(luò)的增速快,但它們與大容量交換芯片需要保持同步的演進(jìn)速度。它們也受到由IBTA(InfiniBand)和IEEE802.3(Ethernet)定義互通標(biāo)準(zhǔn)的產(chǎn)業(yè)生態(tài)成熟度的制約。
互聯(lián)技術(shù)在未來的計(jì)算系統(tǒng)的擴(kuò)展中起到至關(guān)重要的作用。NVIDIA同步布局的還有LinkX系列光電互聯(lián)技術(shù)。包括傳統(tǒng)帶oDSP引擎的可插拔光互聯(lián)(Pluggable Optics),線性直驅(qū)光互聯(lián)LPO(Linear Pluggable Optics),傳統(tǒng)DAC電纜、重驅(qū)動(dòng)電纜(Redrived Active Copper Cable)、芯片出光(Co-Packaged Optics)等一系列光電互聯(lián)技術(shù)。隨著超節(jié)點(diǎn)和集群網(wǎng)絡(luò)的規(guī)模不斷擴(kuò)大,互聯(lián)技術(shù)將在未來的AI計(jì)算系統(tǒng)中發(fā)揮至關(guān)重要的作用,需要解決帶寬、時(shí)延、功耗、可靠性、成本等一系列難題。
對(duì)NVIDIA而言,來自Google、Meta、AMD、Microsoft和Amazon等公司的競爭壓力正在加大。這些公司在軟件和硬件方面都在積極發(fā)展,試圖挑戰(zhàn)NVIDIA在該領(lǐng)域的主導(dǎo)地位,這或許是NVIDIA提出相對(duì)激進(jìn)技術(shù)路線圖的原因。
NVIDIA為了保持其市場地位和利潤率,采取了一種大膽且風(fēng)險(xiǎn)重重的多管齊下的策略。他們的目標(biāo)是超越傳統(tǒng)的競爭對(duì)手如Intel和AMD,成為科技巨頭,與Google、Microsoft、Amazon、Meta和Apple等公司并駕齊驅(qū)。
NVIDIA的計(jì)劃包括推出H200、B100和“X100”GPU,以及進(jìn)行每年度更新的AI GPU。此外,他們還計(jì)劃推出HBM3E高速存儲(chǔ)器、PCIe 6.0和PCIe 7.0、以及NVLink、224G SerDes、1.6T接口等先進(jìn)技術(shù),如果計(jì)劃成功,NVIDIA將超越所有潛在的競爭對(duì)手 [2]。
盡管硬件和芯片領(lǐng)域的創(chuàng)新不斷突破,但其發(fā)展仍然受到第一性原理的限制,存在天然物理邊界的約束。通過深入了解工藝制程、先進(jìn)封裝、內(nèi)存和互聯(lián)等多個(gè)技術(shù)路線,可以推斷出未來NVIDIA可能采用的技術(shù)路徑。
盡管基于第一性原理的推演成功率高,但仍需考慮非技術(shù)因素的影響。例如,通過供應(yīng)鏈控制,在一定時(shí)間內(nèi)壟斷核心部件或技術(shù)的產(chǎn)能,如HBM、TSMC CoWoS先進(jìn)封裝工藝等,可以影響技術(shù)演進(jìn)的節(jié)奏。
根據(jù)NVIDIA 2023年Q4財(cái)報(bào),該公司季度收入達(dá)到76.4億美元,同比增長53%,創(chuàng)下歷史新高。全年收入更是增長61%,達(dá)到269.1億美元的紀(jì)錄。數(shù)據(jù)中心業(yè)務(wù)在第四季度貢獻(xiàn)了32.6億美元的收入,同比增長71%,環(huán)比增長11%。財(cái)年全年數(shù)據(jù)中心收入增長58%,達(dá)到創(chuàng)紀(jì)錄的106.1億美元 [3]。
因此NVIDIA擁有足夠大的現(xiàn)金流可以在短時(shí)間內(nèi)對(duì)供應(yīng)鏈,甚至產(chǎn)業(yè)鏈?zhǔn)┘佑绊?。另外,也存在一些黑天鵝事件也可能產(chǎn)生影響,比如以色列和哈馬斯的戰(zhàn)爭就導(dǎo)致了NVIDIA取消了原定于10月15日和16日舉行的AI SUMMIT [4]。業(yè)界原本預(yù)期,NVIDIA將于峰會(huì)中展示下一代B100 GPU芯片 [5]。值得注意的是,NVIDIA的網(wǎng)絡(luò)部門前身Mellanox正位于以色列。
為了避免陷入不可知論,本文的分析主要基于物理規(guī)律的第一性原理,而不考慮經(jīng)濟(jì)手段(例如控制供應(yīng)鏈)和其他可能出現(xiàn)的黑天鵝事件(例如戰(zhàn)爭)等不確定性因素。
當(dāng)然,這些因素有可能在技術(shù)鏈條的某個(gè)環(huán)節(jié)產(chǎn)生重大影響,導(dǎo)致技術(shù)或者產(chǎn)品演進(jìn)節(jié)奏的放緩,或者導(dǎo)致整個(gè)技術(shù)體系進(jìn)行一定的微調(diào),但不會(huì)對(duì)整個(gè)技術(shù)演進(jìn)趨勢產(chǎn)生顛覆式的影響。
考慮到這些潛在的變化,本文的分析將盡量采取一種客觀且全面的方式來評(píng)估這些可能的技術(shù)路徑。我們將以“如果A那么X;如果B那么Y;…”的形式進(jìn)行思考和分析,旨在涵蓋所有可能影響技術(shù)發(fā)展的因素,以便提供更準(zhǔn)確、更全面的分析結(jié)果。
此外,本文分析是基于兩到三年各個(gè)關(guān)鍵技術(shù)的路標(biāo)假設(shè),即2025年之前。當(dāng)相應(yīng)的前提條件變化,相應(yīng)的結(jié)論也應(yīng)該作適當(dāng)?shù)恼{(diào)整,但是整體的分析思路是普適的。
01. NVIDIA的AI布局
NVIDIA在人工智能領(lǐng)域的布局堪稱全面,其以系統(tǒng)和網(wǎng)絡(luò)、硬件和軟件為三大支柱,構(gòu)建起了深厚的技術(shù)護(hù)城河 [6]。
有分析稱NVIDIA的H100顯卡有高達(dá)90%的毛利率。NVIDIA通過扶持像Coreweave這樣的GPU云服務(wù)商,利用供貨合同讓他們從銀行獲取資金,然后購買更多的H100顯卡,鎖定未來的顯卡需求量。
這種模式已經(jīng)超出傳統(tǒng)硬件公司的商業(yè)模式,套用馬克思在資本論中所述“金銀天然不是貨幣,貨幣天然是金銀?!?,有人提出了“貨幣天然不是H100,但H100天然是貨幣”的說法 [7]。這一切的背后在于對(duì)于對(duì)未來奇點(diǎn)臨近的預(yù)期 [8],在于旺盛的需求,同時(shí)更在于其深厚的技術(shù)護(hù)城河。
NVIDIA 2019年3月發(fā)起對(duì)Mellanox的收購 [9],并且于2020年4月完成收購 [10],經(jīng)過這次收購NVIDIA獲取了InfiniBand、Ethernet、SmartNIC、DPU及LinkX互聯(lián)的能力。面向GPU互聯(lián),自研NVLink互聯(lián)和NVLink網(wǎng)絡(luò)來實(shí)現(xiàn)GPU算力Scale Up擴(kuò)展,相比于基于InfiniBand網(wǎng)絡(luò)和基于Ethernet的RoCE網(wǎng)絡(luò)形成差異化競爭力。
NVLink自2014年推出以來,已經(jīng)歷了四個(gè)代際的演進(jìn),從最初的2014年20G NVLink 1.0,2018年25G NVLink 2.0,2020年50G NVLink 3.0 到2022年的100G NVLink 4.0,預(yù)計(jì)到2024年,NVLink將進(jìn)一步發(fā)展至200G NVLink 5.0。在應(yīng)用場景上,NVLink 1.0至3.0主要針對(duì)PCIe板內(nèi)和機(jī)框內(nèi)互聯(lián)的需求,通過SerDes提速在與PCIe互聯(lián)的競爭中獲取顯著的帶寬優(yōu)勢。
值得注意的是,除了NVLink 1.0采用了20G特殊速率點(diǎn)以外,NVLink 2.0~4.0皆采用了與Ethernet相同或者相近的頻點(diǎn),這樣做的好處是可以復(fù)用成熟的Ethernet互聯(lián)生態(tài),也為未來實(shí)現(xiàn)連接盒子或機(jī)框組成超節(jié)點(diǎn)埋下伏筆。
NVSwitch 1.0、2.0、3.0分別與NVLink 2.0、3.0、4.0配合,形成了NVLink總線域網(wǎng)絡(luò)的基礎(chǔ)。NVLink4.0配合NVSwitch3.0組成了超節(jié)點(diǎn)網(wǎng)絡(luò)的基礎(chǔ),這一變化的外部特征是NVSwitch脫離計(jì)算單板而單獨(dú)成為網(wǎng)絡(luò)設(shè)備,而NVLink則從板級(jí)互聯(lián)技術(shù)升級(jí)成為設(shè)備間互聯(lián)技術(shù)。
在計(jì)算芯片領(lǐng)域,NVIDIA于2020年9月發(fā)起Arm收購,期望構(gòu)建人工智能時(shí)代頂級(jí)的計(jì)算公司 [11],這一收購提案因?yàn)槊媾R重大監(jiān)管挑戰(zhàn)阻礙了交易的進(jìn)行,于2022年2月終止 [12]。但是,在同年3月其發(fā)布了基于Arm的Grace CPU Superchip超級(jí)芯片 [13]。成為同時(shí)擁有CPU、GPU和DPU的計(jì)算芯片和系統(tǒng)公司。
從業(yè)務(wù)視角看,NVIDIA在系統(tǒng)和網(wǎng)絡(luò)、硬件、軟件三個(gè)方面占據(jù)了主導(dǎo)地位 [6]。
系統(tǒng)和網(wǎng)絡(luò)、硬件、軟件這三個(gè)方面是人工智能價(jià)值鏈中許多大型參與者無法有效或快速復(fù)制的重要部分,這意味著NVIDIA在整個(gè)生態(tài)系統(tǒng)中占據(jù)著主導(dǎo)地位。
要擊敗NVIDIA就像攻擊一個(gè)多頭蛇怪。必須同時(shí)切斷所有三個(gè)頭才有可能有機(jī)會(huì),因?yàn)樗拿總€(gè)“頭”都已經(jīng)是各自領(lǐng)域的領(lǐng)導(dǎo)者,并且NVIDIA正在努力改進(jìn)和擴(kuò)大其護(hù)城河。
在一批人工智能硬件挑戰(zhàn)者的失敗中,可以看到,他們都提供了一種與NVIDIA GPU相當(dāng)或略好的硬件,但未能提供支持該硬件的軟件生態(tài)和解決可擴(kuò)展問題的方案。而NVIDIA成功地做到了這一切,并成功抵擋住了一次沖擊。這就是為什么NVIDIA的戰(zhàn)略像是一個(gè)三頭水蛇怪,后來者必須同時(shí)擊敗他們?cè)谙到y(tǒng)和網(wǎng)絡(luò)、硬件以及軟件方面的技術(shù)和生態(tài)護(hù)城河。
目前,進(jìn)入NVIDIA平臺(tái)似乎能夠占據(jù)先機(jī)。OpenAI、微軟和NVIDIA顯然處于領(lǐng)先地位。盡管Google和Amazon也在努力建立自己的生態(tài)系統(tǒng),但NVIDIA提供了更完整的硬件、軟件和系統(tǒng)解決方案,使其成為最具吸引力的選擇。
要贏得先機(jī),就必須進(jìn)入其硬件、軟件和系統(tǒng)級(jí)業(yè)務(wù)生態(tài)。然而,這也意味著進(jìn)一步被鎖定,未來更難撼動(dòng)其地位。從Google和Amazon等公司的角度來看,如果不選擇接入NVIDIA的生態(tài)系統(tǒng),可能會(huì)失去先機(jī);而如果選擇接入,則可能意味著失去未來。
NVIDIA布局了兩種類型網(wǎng)絡(luò),一種是傳統(tǒng)InfiniBand和Ethernet網(wǎng)絡(luò),另一種是NVLink總線域網(wǎng)絡(luò)。
在傳統(tǒng)網(wǎng)絡(luò)中,Ethernet面向AIGC Cloud多AI訓(xùn)練和推理等云服務(wù),而InfiniBand面向AI Factory,滿足大模型訓(xùn)練和推理的應(yīng)用需求。在交換芯片布局方面,有基于開放Ethernet增強(qiáng)的Spectrum-X交換芯片和基于InfiniBand的封閉高性能的Quantum交換芯片。
當(dāng)前Ultra Ethernet Consortium(UEC)正在嘗試定義基于Ethernet的開放、互操作、高性能的全棧架構(gòu),以滿足不斷增長的AI和HPC網(wǎng)絡(luò)需求 [14],旨在與NVIDIA的網(wǎng)絡(luò)技術(shù)相抗衡。
UEC的目標(biāo)是構(gòu)建一個(gè)類似于InfiniBand的開放協(xié)議生態(tài),從技術(shù)層面可以理解為將Ethernet進(jìn)行增強(qiáng)以達(dá)到InfiniBand網(wǎng)絡(luò)的性能,或者說是實(shí)現(xiàn)一種InfiniBand化的Ethernet。
從某種意義上說UEC在重走InfiniBand道路??偩€域網(wǎng)絡(luò)NVLink的主要特征是要在超節(jié)點(diǎn)范圍內(nèi)實(shí)現(xiàn)內(nèi)存語義級(jí)通信和總線域網(wǎng)絡(luò)內(nèi)部的內(nèi)存共享,它本質(zhì)上是一個(gè)Load-Store網(wǎng)絡(luò),是傳統(tǒng)總線網(wǎng)絡(luò)規(guī)模擴(kuò)大以后的自然演進(jìn)。
從NVLink接口的演進(jìn)歷程可以看出,其1.0~3.0版本明顯是對(duì)標(biāo)PCIe的,而4.0版本實(shí)際上對(duì)標(biāo)InfiniBand和Ethernet的應(yīng)用場景,但其主要目標(biāo)還是實(shí)現(xiàn)GPU的Scale Up擴(kuò)展。
從原始需求的角度來看,NVLink網(wǎng)絡(luò)在演進(jìn)過程中需要引入傳統(tǒng)網(wǎng)絡(luò)的一些基本能力,例如編址尋址、路由、均衡、調(diào)度、擁塞控制、管理控制和測量等。
同時(shí),NVLink還需要保留總線網(wǎng)絡(luò)基本特征,如低時(shí)延、高可靠性、內(nèi)存統(tǒng)一編址共享以及內(nèi)存語義通信。這些特征是當(dāng)前InfiniBand或Ethernet網(wǎng)絡(luò)所不具備的或者說欠缺的。
與InfiniBand和Ethernet傳統(tǒng)網(wǎng)絡(luò)相比,NVLink總線域網(wǎng)絡(luò)的功能定位和設(shè)計(jì)理念存在著本質(zhì)上的區(qū)別。我們很難說NVLink網(wǎng)絡(luò)和傳統(tǒng)InfiniBand網(wǎng)絡(luò)或者增強(qiáng)Ethernet網(wǎng)絡(luò)最終會(huì)殊途同歸。
NVIDIA在AI集群競爭態(tài)勢中展現(xiàn)出了全面布局,涵蓋了計(jì)算(芯片、超級(jí)芯片)和網(wǎng)絡(luò)(超節(jié)點(diǎn)、集群)領(lǐng)域。
在計(jì)算芯片方面,NVIDIA擁有CPU、GPU、CPU-CPU/CPU-GPU SuperChip等全面的布局;在超節(jié)點(diǎn)網(wǎng)絡(luò)層面,Nvidia提供了NVLink和InfiniBand兩種定制化網(wǎng)絡(luò)選項(xiàng);在集群網(wǎng)絡(luò)方面,NVIDIA有基于Ethernet的交換芯片和DPU芯片布局。
AMD緊隨其后,更專注于CPU和GPU計(jì)算芯片,并采用基于先進(jìn)封裝的Chiplet芯粒技術(shù)。
與NVIDIA不同的是,AMD當(dāng)前沒有超級(jí)芯片的概念,而是采用了先進(jìn)封裝將CPU和GPU Die合封在一起。AMD使用私有的Infinity Fabric Link內(nèi)存一致接口進(jìn)行GPU、CPU、GPU和CPU間的互聯(lián),而GPU和CPU之間的互聯(lián)仍然保留傳統(tǒng)的PCIe連接方式。
此外,AMD計(jì)劃推出XSwitch交換芯片,下一代MI450加速器將利用新的互連結(jié)構(gòu),其目的顯然是與NVIDIA的NVSwitch競爭 [15]。
BRCM則專注于網(wǎng)絡(luò)領(lǐng)域,在超節(jié)點(diǎn)網(wǎng)絡(luò)有對(duì)標(biāo)InfiniBand的Jericho3-AI+Ramon的DDC方案;在集群網(wǎng)絡(luò)領(lǐng)域有基于Ethernet的Tomahawk系列和Trident系列交換芯片。
近期BRCM推出其新的軟件可編程交換Trident 5-X12集成了NetGNT神經(jīng)網(wǎng)絡(luò)引擎實(shí)時(shí)識(shí)別網(wǎng)絡(luò)流量信息,并調(diào)用擁塞控制技術(shù)來避免網(wǎng)絡(luò)性能下降,提高網(wǎng)絡(luò)效率和性能 [16]。
Cerebras/Telsa Dojo則“劍走偏鋒”,走依賴“晶圓級(jí)先進(jìn)封裝”的深度定制硬件路線。
02. 工程工藝洞察和推演假設(shè)
1、半導(dǎo)體工藝演進(jìn)洞察
根據(jù)IRDS的樂觀預(yù)測,未來5年,邏輯器件的制造工藝仍將快速演進(jìn),2025年會(huì)初步實(shí)現(xiàn)Logic器件的3D集成。TSMC和Samsung將在2025年左右開始量產(chǎn)基于GAA(MBCFET)的2nm和3nm制程的產(chǎn)品 [17]。
按照TSMC給出的工藝演進(jìn)路標(biāo),2023~2025年基本以3nm工藝為主,2nm工藝在2025年以后才會(huì)發(fā)布。3nm技術(shù)已經(jīng)進(jìn)入量產(chǎn)階段,N3工藝和N3E版本已經(jīng)于2023年推出。2024年下半年開始生產(chǎn)N3P版本,該版本將提供比N3E更高的速度、更低的功耗和更高的芯片密度。此外,N3X版本將專注于高性能計(jì)算應(yīng)用,提供更高的時(shí)鐘頻率和性能,預(yù)計(jì)將于2025年開始量產(chǎn) [18]。工藝演進(jìn)的收益對(duì)于邏輯器件的收益小于50%,因此,未來單芯片算力提升將更依賴于先進(jìn)封裝技術(shù)。
2、先進(jìn)封裝演進(jìn)洞察
TSMC的CoWoS先進(jìn)封裝工藝封裝基板的尺寸在2023年為4倍Reticle面積,2025年將達(dá)到6倍Reticle面積 [19]。當(dāng)前NVIDIA H100 GPU的封裝基板尺寸小于2倍Reticle面積,AMD的MI300系列GPU的封裝基板尺寸大約為3.5倍Reticle面積,逼近當(dāng)前TSMC CoWoS-L工藝的極限。
3、HBM內(nèi)存演進(jìn)洞察
HBM內(nèi)存的容量預(yù)計(jì)將在2024年達(dá)到24GB,并在2025年進(jìn)一步增長至36GB [20]。HBM4預(yù)計(jì)將帶來兩個(gè)重要的變化:首先,HBM接口位寬將從1024擴(kuò)展到2048;其次,業(yè)界正在嘗試將HBM內(nèi)存Die直接堆疊在邏輯Die的上方 [21][22]。這兩個(gè)變化意味著HBM內(nèi)存的帶寬和單個(gè)封裝內(nèi)能容納的容量都將持續(xù)增長。
據(jù)報(bào)道,SK海力士已經(jīng)開始招聘CPU和GPU等邏輯半導(dǎo)體的設(shè)計(jì)人員。該公司顯然正在考慮將HBM4直接堆疊在處理器上,這不僅會(huì)改變邏輯和存儲(chǔ)器設(shè)備的傳統(tǒng)互連方式,還會(huì)改變它們的制造方式。事實(shí)上,如果SK海力士成功實(shí)現(xiàn)這一目標(biāo),這可能會(huì)徹底改變芯片代工行業(yè) [21][22]。
4、推演假設(shè)
本文基于兩個(gè)前提假設(shè)來推演NVIDIA未來AI芯片的架構(gòu)演進(jìn)。首先,每一代AI芯片的存儲(chǔ)、計(jì)算和互聯(lián)比例保持大致一致,且比上一代提升1.5到2倍以上;其次,工程工藝演進(jìn)是漸進(jìn)且可預(yù)測的,不存在跳變,至少在2025年之前不會(huì)發(fā)生跳變。
到2025年,工藝將保持在3nm水平,但工藝演進(jìn)給邏輯器件帶來的收益預(yù)計(jì)不會(huì)超過50%。同時(shí),先進(jìn)封裝技術(shù)預(yù)計(jì)將在2025年達(dá)到6倍Reticle面積的水平。此外,HBM內(nèi)存容量也將繼續(xù)增長,預(yù)計(jì)在2024年將達(dá)到24GB,而在2025年將達(dá)到36GB。
03. NVIDIA AI芯片架構(gòu)解讀
互聯(lián)技術(shù)在很大程度上決定了芯片和系統(tǒng)的物理架構(gòu)。NVIDIA利用NVLink-C2C這種低時(shí)延、高密度、低成本的互聯(lián)技術(shù)來構(gòu)建SuperChip超級(jí)芯片,旨在兼顧性能和成本打造差異化競爭力。與傳統(tǒng)的SerDes互聯(lián)相比,NVLink C2C采用了高密度單端架構(gòu)和NRZ調(diào)制,使其在實(shí)現(xiàn)相同互聯(lián)帶寬時(shí)能夠在時(shí)延、功耗、面積等方面達(dá)到最佳平衡點(diǎn);而與Chiplet Die-to-Die互聯(lián)相比,NVLink C2C具備更強(qiáng)的驅(qū)動(dòng)能力,并支持獨(dú)立封裝芯片間的互聯(lián),因此可以使用標(biāo)準(zhǔn)封裝,滿足某些芯片的低成本需求。
為了確保CPU和GPU之間的內(nèi)存一致性操作(Cache-Coherency),對(duì)于NVLink C2C接口有極低時(shí)延的要求。
H100 GPU的左側(cè)需要同時(shí)支持NVLink C2C和PCIe接口,前者用于實(shí)現(xiàn)與NVIDIA自研Grace CPU組成Grace-Hopper SuperChip,后者用于實(shí)現(xiàn)與PCIe交換芯片、第三方CPU、DPU、SmartNIC對(duì)接。NVLink C2C的互聯(lián)帶寬為900GB/s,PCIe互聯(lián)帶寬為128GB/s。
而當(dāng)Hopper GPU與Grace CPU組成SuperChip時(shí),需要支持封裝級(jí)的互聯(lián)。值得注意的是,Grace CPU之間也可以通過NVLink C2C互聯(lián)組成Grace CPU SuperChip??紤]到成本因素,NVIDIA沒有選擇采用雙Die合封的方式組成Grace CPU,而是通過封裝間的C2C互聯(lián)組成SuperChip超級(jí)芯片。
從時(shí)延角度來看,NVLink C2C采用40Gbps NRZ調(diào)制,可以實(shí)現(xiàn)無誤碼運(yùn)行(BER《1e-12),免除FEC,接口時(shí)延可以做到小于5ns。相比之下,112G DSP架構(gòu)的SerDes本身時(shí)延可以高達(dá)20ns,因?yàn)椴捎昧薖AM4調(diào)制,因此還需要引入FEC,這會(huì)額外增加百納秒量級(jí)的時(shí)延。此外,NVLink C2C采用了獨(dú)立的時(shí)鐘線來傳遞時(shí)鐘信號(hào),因此數(shù)據(jù)線上的信號(hào)不需要維持通信信號(hào)直流均衡的編碼或擾碼,可以進(jìn)一步將時(shí)延降低到極致。
因此,引入NVLink C2C的主要?jiǎng)訖C(jī)是滿足芯片間低時(shí)延互聯(lián)需求。
從互聯(lián)密度來看,當(dāng)前112G SerDes的邊密度可以達(dá)到12.8Tbps每邊長,遠(yuǎn)遠(yuǎn)大于當(dāng)前H100的(900+128)GB/s * 8/2 = 4.112Tbps的邊密度需求。NVLink C2C的面密度是SerDes的3到4倍,(169Gbps/mm2 vs. 552Gbps/mm2)。而當(dāng)前NVLink C2C的邊密度還略低于SerDes(281Gbps/mm vs. 304Gbps/mm)。更高的邊密度顯然不是NVLink C2C需要解決的主要矛盾。
從驅(qū)動(dòng)能力來看,112G SerDes的驅(qū)動(dòng)能力遠(yuǎn)大于NVLink C2C。這在一定程度上會(huì)制約NVLink C2C的應(yīng)用范圍,未來類似于NVLink C2C的單端傳輸線技術(shù)有可能進(jìn)一步演進(jìn),拓展傳輸距離,尤其是在224G及以上SerDes時(shí)代,芯片間互聯(lián)更加依賴于電纜解決方案,這對(duì)與計(jì)算系統(tǒng)是不友好的,會(huì)帶來諸如芯片布局、散熱困難等一系列工程挑戰(zhàn),同時(shí)也需要解決電纜方案成本過高的問題。
從功耗來看,112G SerDes的功耗效率為5.5pJ/bit,而NVLink C2C的功耗效率為1.3pJ/bit。在3.6Tbps互聯(lián)帶寬下,SerDes和NVLink C2C的功耗分別為19.8W和4.68W。雖然單獨(dú)考慮芯片間互聯(lián)時(shí),功耗降低很多,但是H100 GPU芯片整體功耗大約為700W,因此互聯(lián)功耗在整個(gè)芯片功耗中所占比例較小。
從成本角度來看,NVLink C2C的面積和功耗優(yōu)于SerDes互聯(lián)。因此,在提供相同互聯(lián)帶寬的情況下,它可以節(jié)省更多的芯片面積用于計(jì)算和緩存。然而,考慮到計(jì)算芯片并不是IO密集型芯片,因此這種成本節(jié)約的比例并不顯著。但是,如果將雙Chiplet芯粒拼裝成更大規(guī)模的芯片時(shí),NVLink C2C可以在某些場景下可以避免先進(jìn)封裝的使用,這對(duì)降低芯片成本有明顯的幫助,例如Grace CPU SuperChip超級(jí)芯片選擇標(biāo)準(zhǔn)封裝加上NVLink C2C互聯(lián)的方式進(jìn)行擴(kuò)展可以降低成本。在當(dāng)前工藝水平下,先進(jìn)封裝的成本遠(yuǎn)高于邏輯Die本身。
C2C互聯(lián)技術(shù)的另一個(gè)潛在的應(yīng)用場景是大容量交換芯片,當(dāng)其容量突破200T時(shí),傳統(tǒng)架構(gòu)的SerDes面積和功耗占比過高,給芯片的設(shè)計(jì)和制造帶來困難。在這種情況下,可以利用出封裝的C2C互聯(lián)技術(shù)來實(shí)現(xiàn)IO的扇出,同時(shí)盡量避免使用先進(jìn)的封裝技術(shù),以降低成本。然而,目前的NVLink C2C技術(shù)并不適合這一應(yīng)用場景,因?yàn)樗鼰o法與標(biāo)準(zhǔn)SerDes實(shí)現(xiàn)比特透明的轉(zhuǎn)換。因此,需要引入背靠背的協(xié)議轉(zhuǎn)換,這會(huì)增加時(shí)延和面積功耗。
Grace CPU具有上下翻轉(zhuǎn)對(duì)稱性,因此單個(gè)芯片設(shè)計(jì)可以支持同構(gòu)Die組成SuperChip超級(jí)芯片。Hopper GPU不具備上下和左右翻轉(zhuǎn)對(duì)稱性,未來雙Die B100 GPU芯片可能由兩顆異構(gòu)Die組成。
NVLink和NVLink C2C技術(shù)提供了更靈活設(shè)計(jì),實(shí)現(xiàn)了CPU和GPU靈活配置,可以構(gòu)建滿足不同應(yīng)用需求的系統(tǒng)架構(gòu)。NVLink C2C可以提供靈活的CPU、GPU算力配比,可組成 1/0,0.5/1,0.5/2,1/4,1/8等多種組合的硬件系統(tǒng)。
NVLink C2C支持Grace CPU和Hopper GPU芯片間內(nèi)存一致性操作(Cache-Coherency),讓Grace CPU成為Hopper GPU的內(nèi)存控制器和IO擴(kuò)展器,實(shí)現(xiàn)了4倍IO帶寬和5倍內(nèi)存容量的擴(kuò)展。這種架構(gòu)打破了HBM的瓶頸,實(shí)現(xiàn)了內(nèi)存超發(fā)。對(duì)訓(xùn)練影響是可以緩存更大模型,利用ZeRO等技術(shù)外存緩存模型,帶寬提升能減少Fetch Weight的IO開銷。對(duì)推理影響是可以緩存更大模型,按需加載模型切片推理,有可能在單CPU-GPU超級(jí)芯片內(nèi)完成大模型推理 [23]。
有媒體測算NVIDIA的H100利潤率達(dá)到90%。同時(shí)也給出了估算的H100的成本構(gòu)成,NVIDIA向臺(tái)積電下訂單,用N4工藝制造GPU芯片,平均每顆成本155美元。NVIDIA從SK海力士(未來可能有三星、美光)采購六顆 HBM3芯片,成本大概2000美元。臺(tái)積電生產(chǎn)出來的GPU和NVIDIA采購的HBM3芯片,一起送到臺(tái)積電CoWoS封裝產(chǎn)線,以性能折損最小的方式加工成H100,成本大約723美元 [24]。
先進(jìn)封裝成本高,是邏輯芯片裸Die成本的3到4倍以上, GPU內(nèi)存的成本占比超過60%。按照DDR: 5美金/GB,HBM: 15美金/GB以及參考文獻(xiàn) [25][26] 中給出的GPU計(jì)算Die和先進(jìn)封裝的成本測算,H100 GPU HBM成本占比為62.5%;GH200中HBM和LPDDR的成本占比為78.2%。
雖然不同來源的信息對(duì)各個(gè)部件的絕對(duì)成本估算略有不同,但可以得出明確的結(jié)論:內(nèi)存在AI計(jì)算系統(tǒng)中的成本占比可高達(dá)60%到70%以上;先進(jìn)封裝的成本是計(jì)算Die成本的3到4倍以上。在接近Reticle面積極限的大芯片良率達(dá)到80%的情況下,先進(jìn)封裝無法有效地降低成本。因此,應(yīng)該遵循非必要不使用的原則。
04. 與AMD和Intel GPU架構(gòu)對(duì)比
AMD的GPU相對(duì)于NVIDIA更加依賴先進(jìn)封裝技術(shù)。MI250系列GPU采用了基于EFB硅橋的晶圓級(jí)封裝技術(shù),而MI300系列GPU則應(yīng)用了AID晶圓級(jí)有源封裝基板技術(shù)。相比之下,NVIDIA并沒有用盡先進(jìn)封裝的能力,一方面在當(dāng)前代際的GPU中保持了相對(duì)較低的成本,另一方面也為下一代GPU保留了一部分工程工藝的價(jià)值發(fā)揮空間。
Intel Ponte Vecchio GPU將Chiplet和先進(jìn)封裝技術(shù)推向了極致,它涉及5個(gè)工藝節(jié)點(diǎn)(包括TSMC和Intel兩家廠商的不同工藝),47個(gè)有源的Tile,并同時(shí)采用了EMIB 2.5D和Foveros 3D封裝技術(shù)??梢哉f,它更像是一個(gè)先進(jìn)封裝技術(shù)的試驗(yàn)場。
Intel的主力AI芯片是Gaudi系列AI加速芯片 [27][28][29]。值得注意的是,Gaudi系列AI芯片是由TSMC代工的,Gaudi 2采用的是TSMC 7nm工藝,Gaudi 3采用的是TSMC 5nm工藝。
05. NVIDIA未來AI芯片架構(gòu)推演
1、NVLink和NVLink C2C演進(jìn)推演
互聯(lián)技術(shù)在很大程度上塑造了芯片和系統(tǒng)的物理架構(gòu)。從互聯(lián)技術(shù)的發(fā)展歷程出發(fā),以芯片布局為線索,并考慮工程工藝的物理限制,可以對(duì)NVIDIA未來AI芯片架構(gòu)進(jìn)行預(yù)測。這種推演也有助于發(fā)掘?qū)ヂ?lián)技術(shù)的新需求。
互聯(lián)技術(shù)的演進(jìn)是一個(gè)漸進(jìn)的過程,其基本技術(shù)要素如帶寬、調(diào)制和編碼等都遵循著其內(nèi)在的發(fā)展規(guī)律。這些物理規(guī)律相對(duì)穩(wěn)定,通過將這些技術(shù)進(jìn)行組合并結(jié)合當(dāng)前工程工藝的發(fā)展趨勢以及需求,就可以大致描繪和預(yù)測出互聯(lián)技術(shù)的發(fā)展方向。在這里不深入探討晦澀難懂的互聯(lián)技術(shù)本身的發(fā)展,而是從宏觀技術(shù)邏輯和外在可觀察的指標(biāo)兩個(gè)角度出發(fā),探討NVLink和NVLink C2C的歷史演進(jìn),并對(duì)其未來發(fā)展進(jìn)行預(yù)測。
從NVLink的演進(jìn)看,當(dāng)前其演進(jìn)了四個(gè)代際,NVLink C2C當(dāng)前只有一個(gè)代際,通過與當(dāng)下不同協(xié)議的速率演進(jìn)對(duì)比及NVLink宣傳材料,可以清晰的看到每個(gè)代際的NVLink技術(shù)的競爭對(duì)手和其要解決的痛點(diǎn)問題。
當(dāng)前接口有兩大開放的互聯(lián)生態(tài),PCIe互聯(lián)生態(tài)和Ethernet互聯(lián)生態(tài),CXL協(xié)議依托于PCIe互聯(lián)生態(tài),而InfiniBand則依托與Ethernet互聯(lián)生態(tài)。
NVLink的主要目標(biāo)是解決GPU之間的互聯(lián)問題,而早期的GPU一定需要保留與CPU互聯(lián)的PCIe接口,用于GPU互聯(lián)是也天然的繼承了這一技術(shù),因此NVLink早期的競爭對(duì)手是PCIe。從PCIe、Ethernet和NVLink的發(fā)展軌跡來看,NVLink的SerDes速率介于同時(shí)期PCIe和Ethernet SerDes速率之間。
這意味著NVLink利用了Ethernet生態(tài)成熟的互聯(lián)技術(shù)來對(duì)抗PCIe,實(shí)現(xiàn)接口速率超越PCIe。通過復(fù)用Ethernet生態(tài)的成熟互聯(lián)技術(shù),NVLink在成本方面也具有優(yōu)勢。
值得注意的是,NVLink并未完全遵循Ethernet的互聯(lián)技術(shù)規(guī)范。例如,在50G NVLink 3.0采用了NRZ調(diào)制,而不是Ethernet所采用的PAM4調(diào)制 [30]。
這意味著NVLink 3.0利用了100Gbps PAM4 SerDes代際的技術(shù),并通過采用更低階NRZ調(diào)制來實(shí)現(xiàn)鏈路的無誤碼運(yùn)行,免去FEC實(shí)現(xiàn)低時(shí)延。
同樣以低時(shí)延著稱的InfiniBand在50G這一代際則完全遵從了Ethernet的PAM4調(diào)制,這在一定程度上使其在50G這一代際喪失了低時(shí)延的技術(shù)優(yōu)勢,市場不得不選擇長期停留在25G代際的InfiniBand網(wǎng)絡(luò)上。
當(dāng)然,InfiniBand網(wǎng)絡(luò)也有其無奈之處,因?yàn)樗枰獜?fù)用Ethernet光模塊互聯(lián)生態(tài),所以它必須完全遵循Ethernet的互聯(lián)電氣規(guī)范,而與之對(duì)應(yīng)的NVLink 3.0則只需要解決盒子內(nèi)或機(jī)框內(nèi)互聯(lián)即可。
同樣的事情也會(huì)在100G代際的NVLink 4.0上發(fā)生,NVLink 4.0完全擺脫了盒子和框子的限制,實(shí)現(xiàn)了跨盒子、跨框的互聯(lián),此時(shí)為了復(fù)用Ethernet的光模塊互聯(lián)生態(tài),NVLink 4.0的頻點(diǎn)和調(diào)制格式也需要遵從Ethernet互聯(lián)的電氣規(guī)范。
以前InfiniBand遇到的問題,NVLink也同樣需要面對(duì)。在100G時(shí)代,可以觀察到Ethernet、InfiniBand和NVLink的SerDes速率在時(shí)間節(jié)奏上齊步走的情況。實(shí)際上,這三種互聯(lián)接口都采用了完全相同的SerDes互聯(lián)技術(shù)。同樣的情況在200G這一代際也會(huì)發(fā)生。
與InfiniBand和Ethernet不同的是,NVLink是一個(gè)完全私有的互聯(lián)生態(tài),不存在跨速率代際兼容、同代際支持多種速率的接口和多廠商互通的問題。因此,在技術(shù)選擇上,NVLink可以完全按照具體應(yīng)用場景下的需求來選擇設(shè)計(jì)甜點(diǎn),在推出節(jié)奏上可以根據(jù)競爭情況自由把控,也更容易實(shí)現(xiàn)差異化競爭力和高品牌溢價(jià)。
NVLink的發(fā)展可以分為兩個(gè)階段。
NVLink 1.0~3.0主要在盒子內(nèi)、機(jī)框內(nèi)實(shí)現(xiàn)GPU高速互聯(lián),對(duì)標(biāo)PCIe。它利用了Ethernet SerDes演進(jìn)更快的優(yōu)勢,采用了更高速的SerDes,同時(shí)在NVLink2.0時(shí)代開始引入NVSwitch技術(shù),在盒子內(nèi)、機(jī)框內(nèi)組成總線域網(wǎng)絡(luò),在帶寬指標(biāo)上對(duì)PCIE形成了碾壓式的競爭優(yōu)勢。
NVLink 4.0以后NVLink走出盒子和機(jī)框,NVSwitch走出計(jì)算盒子和機(jī)框,獨(dú)立成為網(wǎng)絡(luò)設(shè)備,此時(shí)對(duì)標(biāo)的是InfiniBand和Ethernet網(wǎng)絡(luò)。
雖然NVLink 4.0沒有公開的技術(shù)細(xì)節(jié),但是從NVLink網(wǎng)絡(luò)的Load-Store網(wǎng)絡(luò)定位和滿足超節(jié)點(diǎn)內(nèi)部內(nèi)存共享的需求上看,一個(gè)合理的推測是,NVLink 4.0很可能采用了輕量FEC加鏈路級(jí)重傳的技術(shù)支持低時(shí)延和高可靠互聯(lián)。在時(shí)延和可靠性競爭力指標(biāo)上對(duì)InfiniBand和Ethernet形成碾壓式的競爭力,這更有利于實(shí)現(xiàn)內(nèi)存語義網(wǎng)絡(luò),支持超節(jié)點(diǎn)內(nèi)內(nèi)存共享。提供傳統(tǒng)網(wǎng)絡(luò)所不能提供的關(guān)鍵特性,才是NVLink作為總線域網(wǎng)絡(luò)獨(dú)立存在的理由。
基于NVLink C2C的產(chǎn)品目前只有GH200這一代,但是從NVIDIA在該領(lǐng)域公開發(fā)表的論文中可以大致看出其技術(shù)發(fā)展的脈絡(luò)。從技術(shù)演進(jìn)上看,它是封裝內(nèi)Die間互聯(lián)的在均衡上的增強(qiáng)。從NVIDIA SuperChip超級(jí)芯片路標(biāo)來看,它將在未來的AI芯片中繼續(xù)發(fā)揮重要作用。對(duì)于這類接口,仍需保持連接兩個(gè)獨(dú)立封裝芯片的能力和極低的時(shí)延和功耗。
當(dāng)前的NVLink C2C采用9*40Gbps NRZ調(diào)制方式。
未來NVLink-C2C可能會(huì)向更高速率和雙向傳輸技術(shù)方向演進(jìn)。而50G NRZ是C2C互聯(lián)場景下在功耗和時(shí)延方面的設(shè)計(jì)甜點(diǎn)。繼續(xù)維持NRZ調(diào)制,選擇合適工作頻率,走向雙向傳輸將是實(shí)現(xiàn)速率翻倍的重要技術(shù)手段。
雖然NVLink C2C針對(duì)芯片間互聯(lián)做了優(yōu)化設(shè)計(jì),但由于它與標(biāo)準(zhǔn)SerDes之間不存在速率對(duì)應(yīng)關(guān)系,無法實(shí)現(xiàn)與標(biāo)準(zhǔn)SerDes之間比特透明的信號(hào)轉(zhuǎn)換,因此其應(yīng)用場景受限。在與標(biāo)準(zhǔn)SerDes對(duì)接時(shí)需要多引入一層協(xié)議轉(zhuǎn)化會(huì)增加時(shí)延、面積和功耗開銷。 未來可能存在一種可
能性,即采用類似NVLink C2C這種高密單端傳輸技術(shù),同時(shí)與標(biāo)準(zhǔn)SerDes實(shí)現(xiàn)多對(duì)一的速率匹配,這種技術(shù)一旦實(shí)現(xiàn)將極大地?cái)U(kuò)展C2C高密單端互聯(lián)技術(shù)的應(yīng)用空間,也有可能開啟SerDes面向更高速率演進(jìn)的新賽道。
從NVLink和NVSwitch的演進(jìn)來看,每一代速率會(huì)是上一代的1.5到2倍。下一代NVLink 5.0大概率會(huì)采用200G每通道,每個(gè)GPU能夠出的NVLink接口數(shù)量從18個(gè)增加到32個(gè),甚至更高。而NVSwitch 4.0在端口速率達(dá)到200G以外,交換芯片的端口數(shù)量可能在NVSwitch 3.0交換芯片64端口的基礎(chǔ)上翻2倍甚至4倍,總交換容量從12.8T到25.6T甚至51.2T [30]。
2、B100 GPU架構(gòu)推演
以H100 GPU芯片布局為基礎(chǔ),通過先進(jìn)的封裝技術(shù)將兩顆類似H100大小的裸Die進(jìn)行合封,可以推演B100 GPU架構(gòu)。 B100 GPU有兩種“雙Die”推演架構(gòu):IO邊縫合和HBM邊縫合[31][32]?!癏BM邊縫合”利用H100的HBM邊進(jìn)行雙Die連接,這種方案的優(yōu)點(diǎn)在于,它可以使得IO可用邊長翻倍,從而有利于擴(kuò)展IO帶寬。然而,它的缺點(diǎn)在于HBM可用邊長并沒有改變,因此無法進(jìn)一步擴(kuò)展HBM容量。 “IO邊縫合”利用H100的IO邊進(jìn)行雙Die連接,這種方案的優(yōu)勢在于HBM可用邊長能夠翻倍,從而有利于擴(kuò)展內(nèi)存。然而,它的缺點(diǎn)在于IO可用邊長并未改變,因此需要進(jìn)一步提升IO密度??紤]到每代芯片與上一代相比,在內(nèi)存、算力、互聯(lián)三個(gè)層面需要實(shí)現(xiàn)兩倍以上的性能提升,采用“IO 邊縫合”方案的可能性更大。采用“IO 邊縫合”的方案需要提升IO的邊密度。
H100不具備旋轉(zhuǎn)對(duì)對(duì)稱性,而雙Die的B100仍需支持GH200 SuperChip超級(jí)芯片,因此B100可能由兩顆異構(gòu)Die組成。按照不同的長寬比采用“IO邊縫合的方式”B100的面積達(dá)到3.3到3.9倍的Reticle面積,小于當(dāng)前TSMC CoWoS先進(jìn)封裝能夠提供的4倍Reticle面積的能力極限。計(jì)算Die之間互聯(lián)可以復(fù)用 NVLink C2C 互聯(lián)技術(shù),既利用NVLink C2C出封裝的連接能力覆蓋Die間互聯(lián)的場景。
為了實(shí)現(xiàn)計(jì)算Die的歸一化,可以將IO從計(jì)算Die中分離出來,形成獨(dú)立的IO Die。這樣,計(jì)算Die的互聯(lián)接口就實(shí)現(xiàn)了歸一化,使計(jì)算Die具備了旋轉(zhuǎn)對(duì)稱性。 在這種情況下,仍然存在兩種架構(gòu):一種是同構(gòu)計(jì)算Die與IO Die合封,另一種是計(jì)算Die與IO Die分別封裝并用C2C互聯(lián)將二者連接。計(jì)算Die的同構(gòu)最大的優(yōu)勢在于可以實(shí)現(xiàn)芯片的系列化。通過靈活組合計(jì)算Die和IO Die,可以實(shí)現(xiàn)不同規(guī)格的芯片以適應(yīng)不同的應(yīng)用場景的需求。
NVIDIA B100有“異構(gòu)Die合封”,“計(jì)算Die與IO Die分離,同構(gòu)計(jì)算Die與IO Die合封”,“計(jì)算Die與IO Die分離并分別封裝,并用C2C互聯(lián)將二者連接”三種架構(gòu)選項(xiàng)。 NVIDIA B100如果采用單封裝雙Die架構(gòu),封裝基板面積達(dá)到3.3~3.9倍Reticle面積,功耗可能超過1kW。計(jì)算Die之間互聯(lián)可以復(fù)用NVLinkC2C互聯(lián)技術(shù)。 將計(jì)算Die和IO Die分離可以實(shí)現(xiàn)計(jì)算Die的同構(gòu)化,降低成本。利用NVLink C2C出封裝互聯(lián)的能力,可以將IO扇出,降低IO邊密度壓力。需要注意的是,當(dāng)前NVLink C2C速率與PCIe & NVLink的SerDes無法匹配,因此需要IO Die上作協(xié)議轉(zhuǎn)換,無法做到協(xié)議無關(guān)。 如果C2C互聯(lián)和SerDes速率能夠進(jìn)行多對(duì)一的匹配實(shí)現(xiàn)比特透明的CDR,這樣可以消除協(xié)議轉(zhuǎn)換的開銷??紤]到B100 2024年推出的節(jié)奏,方案一、三匹配當(dāng)前先進(jìn)封裝能力,但方案三需要引入額外的協(xié)議轉(zhuǎn)換;方案二超出當(dāng)前先進(jìn)封裝能力。
注:其中關(guān)于Blackwell架構(gòu)的謎底已經(jīng)在美國圣何塞當(dāng)?shù)貢r(shí)間3月18日舉行的NVIDIA GTC大會(huì)上揭曉,詳情可參見《詳解最強(qiáng)AI芯片架構(gòu):英偉達(dá)Blackwell GPU究竟牛在哪?》。對(duì)于采用兩個(gè)GPU Die+1個(gè)CPU的GH200架構(gòu),陸玉春博士補(bǔ)充復(fù)盤道:“同一封裝大概率沒有IO Die,所以當(dāng)時(shí)猜測的是異構(gòu)Die。用同一個(gè)Socket的B100封裝內(nèi)采用同構(gòu)Die 180度旋轉(zhuǎn)這塊也有一些偏差,回頭刷一下對(duì)這個(gè)架構(gòu)的洞察。如果GB200采用雙Socket的話其實(shí)這個(gè)問題就好猜了,兩個(gè)B100的連接實(shí)際上是依賴兩個(gè)邊上的NVLink C2C互聯(lián)的,這個(gè)時(shí)候是否遵循旋轉(zhuǎn)對(duì)稱性問題不大。有點(diǎn)兒超乎想象的是GB200的2 Socket 4 Die和文中的X100的對(duì)上了。未來GX200怎么搞就值得期待了。Nvidia的策略還是更激進(jìn)的。這個(gè)預(yù)測和推演還是偏保守了?!?/p>
3、X100 GPU架構(gòu)推演
NVIDIA X100如果采用單Socket封裝四Die架構(gòu),封裝基板面積將超過6倍Reticle面積,這將超出2025年的先進(jìn)封裝路標(biāo)的目標(biāo)。而如果采用雙Socket封裝架構(gòu),則需要使用10~15cm的C2C互聯(lián)技術(shù)來實(shí)現(xiàn)跨封裝的計(jì)算 Die間的互聯(lián),這可能需要對(duì)當(dāng)前NVLink C2C的驅(qū)動(dòng)能力進(jìn)一步增強(qiáng)。 NVIDIA X100 GPU如果采用四Die架構(gòu),如果要控制封裝基板面積在6倍Reticle面積以下,匹配2025年先進(jìn)封裝路標(biāo),則需要在計(jì)算Die上通過3D堆疊的方式集成HBM [21][22]。因此X100如果不采用SuperChip超級(jí)芯片的架構(gòu)而是延續(xù)單封裝架構(gòu),要想在2025年推出,技術(shù)挑戰(zhàn)非常大。一方面需要先進(jìn)封裝基板達(dá)到6倍Reticle面積,另一方面需要實(shí)現(xiàn)在計(jì)算Die上堆疊HBM,同時(shí)要解決HBM和計(jì)算Die堆疊帶來的芯片散熱問題。
在滿足2025年的工程約束的前提下,X100也可以采用SuperChip超級(jí)芯片架構(gòu)在B100雙Die架構(gòu)的基礎(chǔ)上進(jìn)行平面擴(kuò)展。在這種情況下,NVIDIA X100也有“異構(gòu)Die合封”,“同構(gòu)計(jì)算Die與IO Die合封”,“計(jì)算Die與IO Die分別封裝”三種架構(gòu)選項(xiàng)。如果采用封裝間互聯(lián)的超級(jí)芯片的擴(kuò)展方式,先進(jìn)封裝的基板面積約束將不再會(huì)是瓶頸,此時(shí)只需要增強(qiáng)NVLink C2C的驅(qū)動(dòng)能力。
06. H100/H200,B100,X100
GPU架構(gòu)演進(jìn)總結(jié)
基于以下兩個(gè)前提:每一代AI芯片的存儲(chǔ)、計(jì)算和互聯(lián)比例保持大致一致,且比上一代提升1.5到2倍以上;工程工藝演進(jìn)是漸進(jìn)且可預(yù)測的,不存在跳變,至少在2025年之前不會(huì)發(fā)生跳變。因此,可以對(duì)2023年的H100、2024年的B100和2025年的X100的架構(gòu)進(jìn)行推演總結(jié)。 對(duì)于工程工藝的基本假設(shè)如下:到2025年,工藝將保持在3nm水平,但工藝演進(jìn)給邏輯器件帶來的收益預(yù)計(jì)不會(huì)超過50%。同時(shí),先進(jìn)封裝技術(shù)預(yù)計(jì)將在2025年達(dá)到6倍 Reticle面積的水平。此外,HBM內(nèi)存容量也將繼續(xù)增長,預(yù)計(jì)在2024年將達(dá)到24GB,而在2025年將達(dá)到36GB。 在上述前提假設(shè)條件下,針對(duì)H100/H200, B100, X100 GPU可以得到如下推演結(jié)論:
1. H200是基于H100的基礎(chǔ)上從HBM3升級(jí)到HBM3e,提升了內(nèi)存的容量和帶寬。
2. B100將采用雙Die架構(gòu)。如果采用異構(gòu)Die合封方式,封裝基板面積將小于當(dāng)前先進(jìn)封裝4倍Reticle面積的約束。而如果采用計(jì)算Die和IO Die分離,同構(gòu)計(jì)算Die和IO Die合封的方式,封裝基板面積將超出當(dāng)前先進(jìn)封裝4倍Reticle面積的約束。如果采用計(jì)算Die和IO Die分離,同構(gòu)計(jì)算Die和IO Die分開封裝的方式,則可以滿足當(dāng)前的工程工藝約束??紤]到B100 2024年推出的節(jié)奏,以及計(jì)算Die在整個(gè)GPU芯片中的成本占比并不高,因此用異構(gòu)Die合封方式的可能性較大。 3. 如果X100采用單Socket封裝,四個(gè)異構(gòu)Die合封裝的方式,需要在計(jì)算Die上堆疊HBM,同時(shí)需要先進(jìn)封裝的基板達(dá)到6倍Reticle面積。但是,如果采用SuperChip超級(jí)芯片的方式組成雙Socket封裝模組,可以避免計(jì)算Die上堆疊HBM,并放松對(duì)先進(jìn)封裝基板面積的要求,此時(shí)需要對(duì)NVLink C2C的驅(qū)動(dòng)能力做增強(qiáng)。
基于B100雙Die架構(gòu),采用雙Socket板級(jí)3D擴(kuò)展可以實(shí)現(xiàn)與X100同等的算力。類似的方法也可以應(yīng)用到X100中進(jìn)一步擴(kuò)展算力。板級(jí)擴(kuò)展可以降低對(duì)工程工藝的要求,以較低的成本實(shí)現(xiàn)算力擴(kuò)展。 雖然基于人們對(duì)于先進(jìn)封裝的Chiplet芯粒架構(gòu)充滿了期待,但是其演進(jìn)速度顯然無法滿足AI計(jì)算系統(tǒng)“三年三個(gè)數(shù)量級(jí)”的增長需求 [33]。在AI計(jì)算領(lǐng)域基于先進(jìn)封裝Die間互聯(lián)Chiplet芯粒架構(gòu),很可能因?yàn)闊o法滿足AI計(jì)算領(lǐng)域快速增長的需求而面臨“二世而亡”的窘境,業(yè)界需要重新尋找旨在提升AI算力的新技術(shù)路徑,比如SuperChip超級(jí)芯片和SuperPOD超節(jié)點(diǎn)。 因此,類似于NVLink C2C的低時(shí)延、高可靠、高密度的芯片間互聯(lián)技術(shù)在未來AI計(jì)算芯片的Scale Up算力擴(kuò)展中將起到至關(guān)重要的作用;面向AI集群Scale Out算力擴(kuò)展的互聯(lián)技術(shù)也同等重要。這兩中互聯(lián)技術(shù),前者是AI計(jì)算芯片算力擴(kuò)展的基礎(chǔ),而后者是AI計(jì)算集群算力擴(kuò)展的基礎(chǔ)。
07. 結(jié)語:總結(jié)與思考
本文嘗試從第一性原理出發(fā),對(duì)NVIDIA的AI芯片發(fā)展路線進(jìn)行了深入分析和解讀,并對(duì)未來的B100和X100芯片架構(gòu)進(jìn)行了推演預(yù)測。并且,希望通過這種推演提取出未來AI計(jì)算系統(tǒng)對(duì)互聯(lián)技術(shù)的新需求。 本文以互聯(lián)技術(shù)為主線展開推演分析,同時(shí)考慮了芯片代際演進(jìn)的性能提升需求和工程工藝約束。最終得出的結(jié)論是:在AI計(jì)算領(lǐng)域,基于先進(jìn)封裝Die間互聯(lián)的Chiplet芯粒架構(gòu)無法滿足AI計(jì)算領(lǐng)域快速增長的需求,可能面臨“二世而亡”的窘境。低時(shí)延、高可靠、高密度的芯片間互聯(lián)技術(shù)在未來AI計(jì)算芯片的Scale Up算力擴(kuò)展中將起到至關(guān)重要的作用;雖然未展開討論,同樣的結(jié)論也適用于面向AI集群Scale Out算力擴(kuò)展的互聯(lián)技術(shù)。
224G及以上代際中,面向計(jì)算集群的互聯(lián)技術(shù)也存在非常大的挑戰(zhàn)。 需要明確指出的是,互聯(lián)技術(shù)并不是簡單地將芯片、盒子、機(jī)框連接起來的問題,它并不是一根連線而已,它需要在需求、技術(shù)、產(chǎn)業(yè)生態(tài)等各個(gè)方面進(jìn)行綜合考慮,需要極具系統(tǒng)性的創(chuàng)新以及長時(shí)間的、堅(jiān)持不懈的投入和努力。 除了互聯(lián)技術(shù)以外,通過對(duì)NVIDIA相關(guān)技術(shù)布局的分析也引發(fā)了如下思考:
1. 真正的差異化競爭力源于系統(tǒng)性地、全面地掌握整個(gè)價(jià)值鏈中主導(dǎo)無法快速復(fù)制的關(guān)鍵環(huán)節(jié)。NVIDIA在系統(tǒng)和網(wǎng)絡(luò)、硬件、軟件這三個(gè)方面占據(jù)了主導(dǎo)地位,而這三個(gè)方面恰恰是人工智能價(jià)值鏈中許多大型參與者無法有效或快速復(fù)制的重要部分。然而,要在這三個(gè)方面中的任何一方面建立領(lǐng)導(dǎo)地位都離不開長時(shí)間堅(jiān)持不懈的投入和努力帶來的技術(shù)沉淀和積累。指望在一個(gè)技術(shù)單點(diǎn)形成突破,期望形成技術(shù)壁壘或者技術(shù)護(hù)城河的可能性為零?!爸匾覠o法快速復(fù)制”是核心特征,其中“重要”更容易被理解,而“無法快速復(fù)制”則意味著“長時(shí)間堅(jiān)持不懈的投入和努力”帶來的沉淀和積累,這是人們往往忽視的因素。
2. 開放的產(chǎn)業(yè)生態(tài)并不等同于技術(shù)先進(jìn)性和競爭力。只有深入洞察特定領(lǐng)域的需求,進(jìn)行技術(shù)深耕,做出差異化競爭力,才能給客戶帶來高價(jià)值,給自身帶來高利潤。NVIDIA基于NVLink C2C的SuperChip超級(jí)芯片以及基于NVLink網(wǎng)絡(luò)的SuperPOD超節(jié)點(diǎn)就是很好的例子。真正構(gòu)筑核心競爭力的技術(shù)是不會(huì)開放的,至少在有高溢價(jià)的早期不會(huì)開放,比如NVIDIA的NVLink和NVLink C2C技術(shù),比如Intel的QPI和UPI。開放生態(tài)只是后來者用來追趕強(qiáng)者的借口(比如UEC),同時(shí)也是強(qiáng)者用來鞏固自己地位的工具(比如PCIe)。然而,真正的強(qiáng)者并不會(huì)僅僅滿足于開放生態(tài)所帶來的優(yōu)勢,而是會(huì)通過細(xì)分領(lǐng)域和構(gòu)筑特定領(lǐng)域的封閉生態(tài),實(shí)現(xiàn)差異化競爭力來保持領(lǐng)先地位。
3. 構(gòu)筑特定領(lǐng)域的差異化競爭力與復(fù)用開放的產(chǎn)業(yè)生態(tài)并不矛盾。其關(guān)鍵在于要在開放的產(chǎn)業(yè)生態(tài)中找到真正的結(jié)合點(diǎn),并能夠果斷地做出取舍,勇敢地拋棄不必要的負(fù)擔(dān),只選擇開放產(chǎn)業(yè)生態(tài)中的精華部分,構(gòu)建全新的技術(shù)體系。為了構(gòu)筑特定領(lǐng)域的差異化競爭力,更應(yīng)該積極擁抱開放的產(chǎn)業(yè)生態(tài),主動(dòng)引導(dǎo)其發(fā)展以實(shí)現(xiàn)這種差異化。比如,InfiniBand與Ethernet在低時(shí)延方面的差異化并不是天生的,而是人為構(gòu)造出來的。兩者在基礎(chǔ)技術(shù)上是相同的。InfiniBand在25G NRZ代際以前抓住了低時(shí)延這一核心特征,摒棄跨速率代際兼容的需求,卸掉了技術(shù)包袱,并且在HPC領(lǐng)域找到了合適的戰(zhàn)場,因此在低時(shí)延指標(biāo)上一直碾壓Ethernet,成功實(shí)現(xiàn)了高品牌溢價(jià)。而InfiniBand在56G PAM4這一代際承襲了Ethernet的互聯(lián)規(guī)范,因此這種低時(shí)延上的競爭力就逐漸喪失了。人為制造差異化競爭力的典型例子還有:同時(shí)兼容支持InfiniBand和Ethernet的CX系列網(wǎng)卡和BlueField系列DPU;內(nèi)置在NVSwitch和InfiniBand交換機(jī)中的SHARP在網(wǎng)計(jì)算協(xié)議和技術(shù);NVIDIA基于NVLink C2C構(gòu)筑SuperChip超級(jí)芯片以及基于NVLink網(wǎng)絡(luò)構(gòu)筑SuperPOD超節(jié)點(diǎn)。
4. “天下沒有免費(fèi)的午餐”,這是恒古不變的真理和底層的商業(yè)邏輯。商業(yè)模式中的“羊毛出在狗身上,由豬買單”其實(shí)就是變相的轉(zhuǎn)移支付,羊毛終將是出在羊身上,只是更加隱蔽罷了。這一規(guī)律同樣適用于對(duì)復(fù)雜系統(tǒng)中的技術(shù)價(jià)值的判斷上。自媒體分析H100的BOM物料成本除以售價(jià)得到90%的毛利率是片面的,因?yàn)楦邇r(jià)值部分是H100背后的系統(tǒng)競爭力,而不僅僅是那顆眼鏡片大小的硅片。這里包含了H100背后的海量的研發(fā)投入和技術(shù)積累。而隱藏在這背后的實(shí)際上是人才。如何對(duì)中長期賽道上耕耘的人提供既緊張又輕松的研究環(huán)境,使研究人員能安心與具有長期深遠(yuǎn)影響的技術(shù)研究,是研究團(tuán)隊(duì)面臨的挑戰(zhàn)和需要長期思考的課題。從公開發(fā)表的D2D和C2C相關(guān)文獻(xiàn)中可以看到,NVIDIA在這一領(lǐng)域的研究投入超過十年,針對(duì)C2C互聯(lián)這一場景的研究工作也超過五年。在五到十年的維度上長期進(jìn)行迭代研究,需要相當(dāng)強(qiáng)的戰(zhàn)略定力,同時(shí)也需要非常寬松的研究環(huán)境和持續(xù)的研究投入。
5. 在人工智能時(shí)代,通過信息不對(duì)稱來獲取差異化競爭力或獲得收益的可能性越來越低。這是因?yàn)橹圃煨畔⒉粚?duì)稱的難度和代價(jià)不斷飆升,而其所帶來的收益卻逐漸減少。在不久的未來,制造信息不對(duì)稱的代價(jià)將會(huì)遠(yuǎn)遠(yuǎn)超過收益。妄圖通過壟斷信息而達(dá)到差異化的競爭力,浪費(fèi)的是時(shí)間,而失去的是機(jī)會(huì)。隨著大模型的進(jìn)一步演進(jìn)發(fā)展,普通人可以通過人工智能技術(shù)輕松地獲取并加工海量的信息且不會(huì)被淹沒。未來的核心競爭力是如何駕馭包括人工智能在內(nèi)的工具,對(duì)未來技術(shù)走向給出正確的判斷。
6. NVIDIA并非不可戰(zhàn)勝,在激進(jìn)的技術(shù)路標(biāo)背后也隱藏著巨大的風(fēng)險(xiǎn)。如何向資本證明其在AI計(jì)算領(lǐng)域的能夠長期維持統(tǒng)治地位,保持長期的盈利能力,以維持其高股價(jià)、實(shí)現(xiàn)持續(xù)高速增長,極具挑戰(zhàn)性。一旦2025年發(fā)布的X100及其配套關(guān)鍵技術(shù)不及預(yù)期,這將直接影響投資者的信心。這是NVIDIA必須面臨的資本世界的考驗(yàn),在這一點(diǎn)上它并沒有制度優(yōu)勢。在一些基礎(chǔ)技術(shù)層面,業(yè)界面臨的挑戰(zhàn)是一樣的。以互聯(lián)技術(shù)為例,用于AI計(jì)算芯片Scale Up算力擴(kuò)展的C2C互聯(lián)技術(shù),以及面向AI集群Scale Out算力擴(kuò)展的光電互聯(lián)技術(shù)都存在非常大的挑戰(zhàn)。誰能在未來互聯(lián)技術(shù)演進(jìn)的探索中,快速試錯(cuò),最快地找到最佳路徑,少犯錯(cuò)誤,誰就抓住了先機(jī)。在未來的競爭中有可能實(shí)現(xiàn)超越。
審核編輯:黃飛
評(píng)論
查看更多