全面解讀英偉達(dá)AI芯片發(fā)展藍(lán)圖

　　智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會(huì)，愛詩科技創(chuàng)始人兼CEO王長虎，Open-Sora開發(fā)團(tuán)隊(duì)潞晨科技創(chuàng)始人尤洋，英偉達(dá)解決方案架構(gòu)與工程總監(jiān)王淼等50+位嘉賓已確認(rèn)參會(huì)，其中，商湯科技大裝置事業(yè)群解決方案總監(jiān)代繼，奕信通創(chuàng)始人張俠，趨動(dòng)科技技術(shù)總監(jiān)張?jiān)鼋鸬葘⒃谥袊撬?a target="_blank">中心創(chuàng)新論壇帶來主題演講，歡迎報(bào)名。

　　真正的差異化競爭力，源于系統(tǒng)性地、全面地掌握整個(gè)價(jià)值鏈中主導(dǎo)無法快速復(fù)制的關(guān)鍵環(huán)節(jié)。

　　本文是華為2012實(shí)驗(yàn)室網(wǎng)絡(luò)專家陸玉春博士去年12月在2012實(shí)驗(yàn)室中央研究院網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室交流平臺(tái)【未來網(wǎng)絡(luò)前沿】分享的技術(shù)文章，在華為黃大年茶思屋線上發(fā)表。文章全面復(fù)盤與回顧了英偉達(dá)網(wǎng)絡(luò)技術(shù)，并對(duì)英偉達(dá)AI芯片路線圖的未來技術(shù)推演進(jìn)行了深入的分析與解讀。

　　文章發(fā)布時(shí)間比北京時(shí)間3月19日發(fā)布的英偉達(dá)Blackwell系列GPU早3個(gè)多月，因此對(duì)B100的預(yù)測與實(shí)際發(fā)布新品不完全貼合。但這無礙陸玉春博士基于相關(guān)技術(shù)的分析推演與總結(jié)思考所提供的參考價(jià)值。以下是《NVIDIA AI芯片演進(jìn)解讀與推演》文章全文：

　　在2023年10月的投資者會(huì)議上，NVIDIA（英偉達(dá)）展示了其全新的GPU發(fā)展藍(lán)圖［1］。

　　與以往兩年一次的更新節(jié)奏不同，這次的路線圖將演進(jìn)周期縮短至一年。預(yù)計(jì)在2024年，NVIDIA將推出H200和B100 GPU；到2025年，X100 GPU也將面世。

　　其AI芯片規(guī)劃的戰(zhàn)略核心是“One Architecture”統(tǒng)一架構(gòu)，支持在任何地方進(jìn)行模型訓(xùn)練和部署，無論是數(shù)據(jù)中心還是邊緣設(shè)備，無論是x86架構(gòu)還是Arm架構(gòu)。其解決方案適用于超大規(guī)模數(shù)據(jù)中心的訓(xùn)練任務(wù)，也可以滿足企業(yè)級(jí)用戶的邊緣計(jì)算需求。

　　AI芯片從兩年一次的更新周期轉(zhuǎn)變?yōu)橐荒暌淮蔚母轮芷?，反映了其產(chǎn)品開發(fā)速度的加快和對(duì)市場變化的快速響應(yīng)。其AI芯片布局涵蓋了訓(xùn)練和推理兩個(gè)人工智能關(guān)鍵應(yīng)用，訓(xùn)練推理融合，并側(cè)重推理。同時(shí)支持x86和Arm兩種不同硬件生態(tài)。在市場定位方面，同時(shí)面向超大規(guī)模云計(jì)算和企業(yè)級(jí)用戶，以滿足不同需求。

　　NVIDIA旨在通過統(tǒng)一的架構(gòu)、廣泛的硬件支持、快速的產(chǎn)品更新周期以及面向不同市場提供全面的差異化的AI解決方案，從而在人工智能領(lǐng)域保持技術(shù)和市場的領(lǐng)先地位。

　　NVIDIA是一個(gè)同時(shí)擁有 GPU、CPU和DPU的計(jì)算芯片和系統(tǒng)公司，通過NVLink、NVSwitch和NVLink C2C技術(shù)將CPU、GPU進(jìn)行靈活連接組合形成統(tǒng)一的硬件架構(gòu)，并于CUDA一起形成完整的軟硬件生態(tài)。

　　在AI計(jì)算芯片架構(gòu)方面，注重訓(xùn)練和推理功能的整合，側(cè)重推理。圍繞GPU打造Arm和x86兩條技術(shù)路線。在NVIDIA的AI路線圖中，并沒有顯示提及Grace CPU的技術(shù)路線，而是將其納入Grace+GPU的SuperChip超級(jí)芯片路標(biāo)中。

　　NVIDIA Grace CPU會(huì)跟隨GPU的演進(jìn)節(jié)奏并與其組合成新一代超級(jí)芯片；而其自身也可能根據(jù)市場競爭的需求組合成CPU超級(jí)芯片，實(shí)現(xiàn)“二打一”的差異化競爭力。

　　從需求角度來看，CPU的技術(shù)演進(jìn)速度并不像GPU那樣緊迫，并且CPU對(duì)于成本更加敏感。CPU只需按照“摩爾”或“系統(tǒng)摩爾”，以每兩年性能翻倍的速度進(jìn)行演進(jìn)即可。而GPU算力需要不到一年就要實(shí)現(xiàn)性能翻倍，保持每年大約2.5倍的速率增長。這種差異催生了超級(jí)芯片和超節(jié)點(diǎn)的出現(xiàn)。

　　NVIDIA將延用SuperChip超級(jí)芯片架構(gòu)，NVLink-C2C和NVLink互聯(lián)技術(shù)在NVIDIA未來的AI芯片架構(gòu)中將持續(xù)發(fā)揮關(guān)鍵作用。

　　其利用NVLink-C2C互聯(lián)技術(shù)構(gòu)建GH200、GB200和GX200超級(jí)芯片。更進(jìn)一步，通過NVLink互聯(lián)技術(shù)，兩顆GH200、GB200和GX200可以背靠背連接，形成GH200NVL、GB200NVL和GX200NVL模組。NVIDIA可以通過NVLink網(wǎng)絡(luò)組成超節(jié)點(diǎn)，通過InfiniBand或Ethernet網(wǎng)絡(luò)組成更大規(guī)模的AI集群。

　　在交換芯片方面，仍然堅(jiān)持InfiniBand和Ethernet兩條開放路線，瞄準(zhǔn)不同市場，前者瞄準(zhǔn)AI Factory，后者瞄準(zhǔn)AIGC Cloud。但其并未給出NVLink和NVSwitch自有生態(tài)的明確計(jì)劃。224G代際的速度提升，可能率先NVLink和NVSwitch上落地。

　　以InfiniBand為基礎(chǔ)的Quantum系列和以Ethernet基礎(chǔ)的Spectrum-X系列持續(xù)升級(jí)。預(yù)計(jì)到2024年，將商用基于100G SerDes的800G接口的交換芯片；而到2025年，將迎來基于200G SerDes的1.6T接口的交換芯片。

　　其中800G對(duì)應(yīng)51.2T交換容量的Spectrum-4芯片，而1.6T則對(duì)應(yīng)下一代Spectrum-5，其交換容量可能高達(dá)102.4T。

　　從演進(jìn)速度上看，224G代際略有提速，但從長時(shí)間周期上看，其仍然遵循著SerDes速率大約3到4年翻倍、交換芯片容量大約2年翻倍的規(guī)律。雖然有提到2024年Quantum將會(huì)升級(jí)到800G，但目前我們只能看到2021年發(fā)布的基于7nm工藝，400G接口的25.6T Quantum-2交換芯片。

　　路線圖中并未包含NVSwitch 4.0和NVLink 5.0的相關(guān)計(jì)劃。有預(yù)測指出NVIDIA可能會(huì)首先在NVSwitch和NVLink中應(yīng)用224G SerDes技術(shù)。NVLink和NVSwitch作為NVIDIA自有生態(tài)，不會(huì)受到標(biāo)準(zhǔn)生態(tài)的掣肘，在推出時(shí)間和技術(shù)路線選擇上更靈活，從而實(shí)現(xiàn)差異化競爭力。

　　SmartNIC 智能網(wǎng)卡/DPU數(shù)據(jù)處理引擎的下一跳ConnectX-8/BlueField-4目標(biāo)速率為800G，與1.6T Quantum和Spectrum-X配套的SmartNIC和DPU的路標(biāo)仍不明晰，NVLink5.0和NVSwitch4.0可能提前發(fā)力。

　　NVIDIA ConnectX系列SmartNIC智能網(wǎng)卡與InfiniBand技術(shù)相結(jié)合，可以在基于NVLink網(wǎng)絡(luò)的超節(jié)點(diǎn)基礎(chǔ)上構(gòu)建更大規(guī)模的AI集群。而BlueField DPU則主要面向云數(shù)據(jù)中心場景，與Ethernet技術(shù)結(jié)合，提供更強(qiáng)大的網(wǎng)絡(luò)基礎(chǔ)設(shè)施能力。

　　相較于NVLink總線域網(wǎng)絡(luò)，InfiniBand和Ethernet屬于傳統(tǒng)網(wǎng)絡(luò)技術(shù)，兩種網(wǎng)絡(luò)帶寬比例大約為1:9。例如，H00 GPU用于連接SmartNIC和DPU的PCIe帶寬為128GB/s，考慮到PCIe到Ethernet的轉(zhuǎn)換，其最大可以支持400G InfiniBand或者Ethernet接口，而NVLink雙向帶寬為900GB/s或者3.6Tbps，因此傳統(tǒng)網(wǎng)絡(luò)和總線域網(wǎng)絡(luò)的帶寬比為1比9。

　　雖然SmartNIC和DPU的速率增長需求沒有總線域網(wǎng)絡(luò)的增速快，但它們與大容量交換芯片需要保持同步的演進(jìn)速度。它們也受到由IBTA（InfiniBand）和IEEE802.3（Ethernet）定義互通標(biāo)準(zhǔn)的產(chǎn)業(yè)生態(tài)成熟度的制約。

　　互聯(lián)技術(shù)在未來的計(jì)算系統(tǒng)的擴(kuò)展中起到至關(guān)重要的作用。NVIDIA同步布局的還有LinkX系列光電互聯(lián)技術(shù)。包括傳統(tǒng)帶oDSP引擎的可插拔光互聯(lián)（Pluggable Optics），線性直驅(qū)光互聯(lián)LPO（Linear Pluggable Optics），傳統(tǒng)DAC電纜、重驅(qū)動(dòng)電纜（Redrived Active Copper Cable）、芯片出光（Co-Packaged Optics）等一系列光電互聯(lián)技術(shù)。隨著超節(jié)點(diǎn)和集群網(wǎng)絡(luò)的規(guī)模不斷擴(kuò)大，互聯(lián)技術(shù)將在未來的AI計(jì)算系統(tǒng)中發(fā)揮至關(guān)重要的作用，需要解決帶寬、時(shí)延、功耗、可靠性、成本等一系列難題。

　　對(duì)NVIDIA而言，來自Google、Meta、AMD、Microsoft和Amazon等公司的競爭壓力正在加大。這些公司在軟件和硬件方面都在積極發(fā)展，試圖挑戰(zhàn)NVIDIA在該領(lǐng)域的主導(dǎo)地位，這或許是NVIDIA提出相對(duì)激進(jìn)技術(shù)路線圖的原因。

　　NVIDIA為了保持其市場地位和利潤率，采取了一種大膽且風(fēng)險(xiǎn)重重的多管齊下的策略。他們的目標(biāo)是超越傳統(tǒng)的競爭對(duì)手如Intel和AMD，成為科技巨頭，與Google、Microsoft、Amazon、Meta和Apple等公司并駕齊驅(qū)。

　　NVIDIA的計(jì)劃包括推出H200、B100和“X100”GPU，以及進(jìn)行每年度更新的AI GPU。此外，他們還計(jì)劃推出HBM3E高速存儲(chǔ)器、PCIe 6.0和PCIe 7.0、以及NVLink、224G SerDes、1.6T接口等先進(jìn)技術(shù)，如果計(jì)劃成功，NVIDIA將超越所有潛在的競爭對(duì)手［2］。

　　盡管硬件和芯片領(lǐng)域的創(chuàng)新不斷突破，但其發(fā)展仍然受到第一性原理的限制，存在天然物理邊界的約束。通過深入了解工藝制程、先進(jìn)封裝、內(nèi)存和互聯(lián)等多個(gè)技術(shù)路線，可以推斷出未來NVIDIA可能采用的技術(shù)路徑。

　　盡管基于第一性原理的推演成功率高，但仍需考慮非技術(shù)因素的影響。例如，通過供應(yīng)鏈控制，在一定時(shí)間內(nèi)壟斷核心部件或技術(shù)的產(chǎn)能，如HBM、TSMC CoWoS先進(jìn)封裝工藝等，可以影響技術(shù)演進(jìn)的節(jié)奏。

　　根據(jù)NVIDIA 2023年Q4財(cái)報(bào)，該公司季度收入達(dá)到76.4億美元，同比增長53%，創(chuàng)下歷史新高。全年收入更是增長61%，達(dá)到269.1億美元的紀(jì)錄。數(shù)據(jù)中心業(yè)務(wù)在第四季度貢獻(xiàn)了32.6億美元的收入，同比增長71%，環(huán)比增長11%。財(cái)年全年數(shù)據(jù)中心收入增長58%，達(dá)到創(chuàng)紀(jì)錄的106.1億美元［3］。

　　因此NVIDIA擁有足夠大的現(xiàn)金流可以在短時(shí)間內(nèi)對(duì)供應(yīng)鏈，甚至產(chǎn)業(yè)鏈?zhǔn)┘佑绊?。另外，也存在一些黑天鵝事件也可能產(chǎn)生影響，比如以色列和哈馬斯的戰(zhàn)爭就導(dǎo)致了NVIDIA取消了原定于10月15日和16日舉行的AI SUMMIT ［4］。業(yè)界原本預(yù)期，NVIDIA將于峰會(huì)中展示下一代B100 GPU芯片［5］。值得注意的是，NVIDIA的網(wǎng)絡(luò)部門前身Mellanox正位于以色列。

　　為了避免陷入不可知論，本文的分析主要基于物理規(guī)律的第一性原理，而不考慮經(jīng)濟(jì)手段（例如控制供應(yīng)鏈）和其他可能出現(xiàn)的黑天鵝事件（例如戰(zhàn)爭）等不確定性因素。

　　當(dāng)然，這些因素有可能在技術(shù)鏈條的某個(gè)環(huán)節(jié)產(chǎn)生重大影響，導(dǎo)致技術(shù)或者產(chǎn)品演進(jìn)節(jié)奏的放緩，或者導(dǎo)致整個(gè)技術(shù)體系進(jìn)行一定的微調(diào)，但不會(huì)對(duì)整個(gè)技術(shù)演進(jìn)趨勢產(chǎn)生顛覆式的影響。

　　考慮到這些潛在的變化，本文的分析將盡量采取一種客觀且全面的方式來評(píng)估這些可能的技術(shù)路徑。我們將以“如果A那么X；如果B那么Y；…”的形式進(jìn)行思考和分析，旨在涵蓋所有可能影響技術(shù)發(fā)展的因素，以便提供更準(zhǔn)確、更全面的分析結(jié)果。

　　此外，本文分析是基于兩到三年各個(gè)關(guān)鍵技術(shù)的路標(biāo)假設(shè)，即2025年之前。當(dāng)相應(yīng)的前提條件變化，相應(yīng)的結(jié)論也應(yīng)該作適當(dāng)?shù)恼{(diào)整，但是整體的分析思路是普適的。

　　01. NVIDIA的AI布局

　　NVIDIA在人工智能領(lǐng)域的布局堪稱全面，其以系統(tǒng)和網(wǎng)絡(luò)、硬件和軟件為三大支柱，構(gòu)建起了深厚的技術(shù)護(hù)城河［6］。

　　有分析稱NVIDIA的H100顯卡有高達(dá)90%的毛利率。NVIDIA通過扶持像Coreweave這樣的GPU云服務(wù)商，利用供貨合同讓他們從銀行獲取資金，然后購買更多的H100顯卡，鎖定未來的顯卡需求量。

　　這種模式已經(jīng)超出傳統(tǒng)硬件公司的商業(yè)模式，套用馬克思在資本論中所述“金銀天然不是貨幣，貨幣天然是金銀?！?，有人提出了“貨幣天然不是H100，但H100天然是貨幣”的說法［7］。這一切的背后在于對(duì)于對(duì)未來奇點(diǎn)臨近的預(yù)期［8］，在于旺盛的需求，同時(shí)更在于其深厚的技術(shù)護(hù)城河。

　　NVIDIA 2019年3月發(fā)起對(duì)Mellanox的收購［9］，并且于2020年4月完成收購［10］，經(jīng)過這次收購NVIDIA獲取了InfiniBand、Ethernet、SmartNIC、DPU及LinkX互聯(lián)的能力。面向GPU互聯(lián)，自研NVLink互聯(lián)和NVLink網(wǎng)絡(luò)來實(shí)現(xiàn)GPU算力Scale Up擴(kuò)展，相比于基于InfiniBand網(wǎng)絡(luò)和基于Ethernet的RoCE網(wǎng)絡(luò)形成差異化競爭力。

　　NVLink自2014年推出以來，已經(jīng)歷了四個(gè)代際的演進(jìn)，從最初的2014年20G NVLink 1.0，2018年25G NVLink 2.0，2020年50G NVLink 3.0 到2022年的100G NVLink 4.0，預(yù)計(jì)到2024年，NVLink將進(jìn)一步發(fā)展至200G NVLink 5.0。在應(yīng)用場景上，NVLink 1.0至3.0主要針對(duì)PCIe板內(nèi)和機(jī)框內(nèi)互聯(lián)的需求，通過SerDes提速在與PCIe互聯(lián)的競爭中獲取顯著的帶寬優(yōu)勢。

　　值得注意的是，除了NVLink 1.0采用了20G特殊速率點(diǎn)以外，NVLink 2.0~4.0皆采用了與Ethernet相同或者相近的頻點(diǎn)，這樣做的好處是可以復(fù)用成熟的Ethernet互聯(lián)生態(tài)，也為未來實(shí)現(xiàn)連接盒子或機(jī)框組成超節(jié)點(diǎn)埋下伏筆。

　　NVSwitch 1.0、2.0、3.0分別與NVLink 2.0、3.0、4.0配合，形成了NVLink總線域網(wǎng)絡(luò)的基礎(chǔ)。NVLink4.0配合NVSwitch3.0組成了超節(jié)點(diǎn)網(wǎng)絡(luò)的基礎(chǔ)，這一變化的外部特征是NVSwitch脫離計(jì)算單板而單獨(dú)成為網(wǎng)絡(luò)設(shè)備，而NVLink則從板級(jí)互聯(lián)技術(shù)升級(jí)成為設(shè)備間互聯(lián)技術(shù)。

　　在計(jì)算芯片領(lǐng)域，NVIDIA于2020年9月發(fā)起Arm收購，期望構(gòu)建人工智能時(shí)代頂級(jí)的計(jì)算公司［11］，這一收購提案因?yàn)槊媾R重大監(jiān)管挑戰(zhàn)阻礙了交易的進(jìn)行，于2022年2月終止［12］。但是，在同年3月其發(fā)布了基于Arm的Grace CPU Superchip超級(jí)芯片［13］。成為同時(shí)擁有CPU、GPU和DPU的計(jì)算芯片和系統(tǒng)公司。

　　從業(yè)務(wù)視角看，NVIDIA在系統(tǒng)和網(wǎng)絡(luò)、硬件、軟件三個(gè)方面占據(jù)了主導(dǎo)地位［6］。

　　系統(tǒng)和網(wǎng)絡(luò)、硬件、軟件這三個(gè)方面是人工智能價(jià)值鏈中許多大型參與者無法有效或快速復(fù)制的重要部分，這意味著NVIDIA在整個(gè)生態(tài)系統(tǒng)中占據(jù)著主導(dǎo)地位。

　　要擊敗NVIDIA就像攻擊一個(gè)多頭蛇怪。必須同時(shí)切斷所有三個(gè)頭才有可能有機(jī)會(huì)，因?yàn)樗拿總€(gè)“頭”都已經(jīng)是各自領(lǐng)域的領(lǐng)導(dǎo)者，并且NVIDIA正在努力改進(jìn)和擴(kuò)大其護(hù)城河。

　　在一批人工智能硬件挑戰(zhàn)者的失敗中，可以看到，他們都提供了一種與NVIDIA GPU相當(dāng)或略好的硬件，但未能提供支持該硬件的軟件生態(tài)和解決可擴(kuò)展問題的方案。而NVIDIA成功地做到了這一切，并成功抵擋住了一次沖擊。這就是為什么NVIDIA的戰(zhàn)略像是一個(gè)三頭水蛇怪，后來者必須同時(shí)擊敗他們?cè)谙到y(tǒng)和網(wǎng)絡(luò)、硬件以及軟件方面的技術(shù)和生態(tài)護(hù)城河。

　　目前，進(jìn)入NVIDIA平臺(tái)似乎能夠占據(jù)先機(jī)。OpenAI、微軟和NVIDIA顯然處于領(lǐng)先地位。盡管Google和Amazon也在努力建立自己的生態(tài)系統(tǒng)，但NVIDIA提供了更完整的硬件、軟件和系統(tǒng)解決方案，使其成為最具吸引力的選擇。

　　要贏得先機(jī)，就必須進(jìn)入其硬件、軟件和系統(tǒng)級(jí)業(yè)務(wù)生態(tài)。然而，這也意味著進(jìn)一步被鎖定，未來更難撼動(dòng)其地位。從Google和Amazon等公司的角度來看，如果不選擇接入NVIDIA的生態(tài)系統(tǒng)，可能會(huì)失去先機(jī)；而如果選擇接入，則可能意味著失去未來。

　　NVIDIA布局了兩種類型網(wǎng)絡(luò)，一種是傳統(tǒng)InfiniBand和Ethernet網(wǎng)絡(luò)，另一種是NVLink總線域網(wǎng)絡(luò)。

　　在傳統(tǒng)網(wǎng)絡(luò)中，Ethernet面向AIGC Cloud多AI訓(xùn)練和推理等云服務(wù)，而InfiniBand面向AI Factory，滿足大模型訓(xùn)練和推理的應(yīng)用需求。在交換芯片布局方面，有基于開放Ethernet增強(qiáng)的Spectrum-X交換芯片和基于InfiniBand的封閉高性能的Quantum交換芯片。

　　當(dāng)前Ultra Ethernet Consortium（UEC）正在嘗試定義基于Ethernet的開放、互操作、高性能的全棧架構(gòu)，以滿足不斷增長的AI和HPC網(wǎng)絡(luò)需求［14］，旨在與NVIDIA的網(wǎng)絡(luò)技術(shù)相抗衡。

　　UEC的目標(biāo)是構(gòu)建一個(gè)類似于InfiniBand的開放協(xié)議生態(tài)，從技術(shù)層面可以理解為將Ethernet進(jìn)行增強(qiáng)以達(dá)到InfiniBand網(wǎng)絡(luò)的性能，或者說是實(shí)現(xiàn)一種InfiniBand化的Ethernet。

　　從某種意義上說UEC在重走InfiniBand道路?？偩€域網(wǎng)絡(luò)NVLink的主要特征是要在超節(jié)點(diǎn)范圍內(nèi)實(shí)現(xiàn)內(nèi)存語義級(jí)通信和總線域網(wǎng)絡(luò)內(nèi)部的內(nèi)存共享，它本質(zhì)上是一個(gè)Load-Store網(wǎng)絡(luò)，是傳統(tǒng)總線網(wǎng)絡(luò)規(guī)模擴(kuò)大以后的自然演進(jìn)。

　　從NVLink接口的演進(jìn)歷程可以看出，其1.0~3.0版本明顯是對(duì)標(biāo)PCIe的，而4.0版本實(shí)際上對(duì)標(biāo)InfiniBand和Ethernet的應(yīng)用場景，但其主要目標(biāo)還是實(shí)現(xiàn)GPU的Scale Up擴(kuò)展。

　　從原始需求的角度來看，NVLink網(wǎng)絡(luò)在演進(jìn)過程中需要引入傳統(tǒng)網(wǎng)絡(luò)的一些基本能力，例如編址尋址、路由、均衡、調(diào)度、擁塞控制、管理控制和測量等。

　　同時(shí)，NVLink還需要保留總線網(wǎng)絡(luò)基本特征，如低時(shí)延、高可靠性、內(nèi)存統(tǒng)一編址共享以及內(nèi)存語義通信。這些特征是當(dāng)前InfiniBand或Ethernet網(wǎng)絡(luò)所不具備的或者說欠缺的。

　　與InfiniBand和Ethernet傳統(tǒng)網(wǎng)絡(luò)相比，NVLink總線域網(wǎng)絡(luò)的功能定位和設(shè)計(jì)理念存在著本質(zhì)上的區(qū)別。我們很難說NVLink網(wǎng)絡(luò)和傳統(tǒng)InfiniBand網(wǎng)絡(luò)或者增強(qiáng)Ethernet網(wǎng)絡(luò)最終會(huì)殊途同歸。

　　NVIDIA在AI集群競爭態(tài)勢中展現(xiàn)出了全面布局，涵蓋了計(jì)算（芯片、超級(jí)芯片）和網(wǎng)絡(luò)（超節(jié)點(diǎn)、集群）領(lǐng)域。

　　在計(jì)算芯片方面，NVIDIA擁有CPU、GPU、CPU-CPU/CPU-GPU SuperChip等全面的布局；在超節(jié)點(diǎn)網(wǎng)絡(luò)層面，Nvidia提供了NVLink和InfiniBand兩種定制化網(wǎng)絡(luò)選項(xiàng)；在集群網(wǎng)絡(luò)方面，NVIDIA有基于Ethernet的交換芯片和DPU芯片布局。

　　AMD緊隨其后，更專注于CPU和GPU計(jì)算芯片，并采用基于先進(jìn)封裝的Chiplet芯粒技術(shù)。

　　與NVIDIA不同的是，AMD當(dāng)前沒有超級(jí)芯片的概念，而是采用了先進(jìn)封裝將CPU和GPU Die合封在一起。AMD使用私有的Infinity Fabric Link內(nèi)存一致接口進(jìn)行GPU、CPU、GPU和CPU間的互聯(lián)，而GPU和CPU之間的互聯(lián)仍然保留傳統(tǒng)的PCIe連接方式。

　　此外，AMD計(jì)劃推出XSwitch交換芯片，下一代MI450加速器將利用新的互連結(jié)構(gòu)，其目的顯然是與NVIDIA的NVSwitch競爭［15］。

　　BRCM則專注于網(wǎng)絡(luò)領(lǐng)域，在超節(jié)點(diǎn)網(wǎng)絡(luò)有對(duì)標(biāo)InfiniBand的Jericho3-AI+Ramon的DDC方案；在集群網(wǎng)絡(luò)領(lǐng)域有基于Ethernet的Tomahawk系列和Trident系列交換芯片。

　　近期BRCM推出其新的軟件可編程交換Trident 5-X12集成了NetGNT神經(jīng)網(wǎng)絡(luò)引擎實(shí)時(shí)識(shí)別網(wǎng)絡(luò)流量信息，并調(diào)用擁塞控制技術(shù)來避免網(wǎng)絡(luò)性能下降，提高網(wǎng)絡(luò)效率和性能［16］。

　　Cerebras/Telsa Dojo則“劍走偏鋒”，走依賴“晶圓級(jí)先進(jìn)封裝”的深度定制硬件路線。

　　02. 工程工藝洞察和推演假設(shè)

　　1、半導(dǎo)體工藝演進(jìn)洞察

　　根據(jù)IRDS的樂觀預(yù)測，未來5年，邏輯器件的制造工藝仍將快速演進(jìn)，2025年會(huì)初步實(shí)現(xiàn)Logic器件的3D集成。TSMC和Samsung將在2025年左右開始量產(chǎn)基于GAA（MBCFET）的2nm和3nm制程的產(chǎn)品［17］。

　　按照TSMC給出的工藝演進(jìn)路標(biāo)，2023~2025年基本以3nm工藝為主，2nm工藝在2025年以后才會(huì)發(fā)布。3nm技術(shù)已經(jīng)進(jìn)入量產(chǎn)階段，N3工藝和N3E版本已經(jīng)于2023年推出。2024年下半年開始生產(chǎn)N3P版本，該版本將提供比N3E更高的速度、更低的功耗和更高的芯片密度。此外，N3X版本將專注于高性能計(jì)算應(yīng)用，提供更高的時(shí)鐘頻率和性能，預(yù)計(jì)將于2025年開始量產(chǎn) ［18］。工藝演進(jìn)的收益對(duì)于邏輯器件的收益小于50%，因此，未來單芯片算力提升將更依賴于先進(jìn)封裝技術(shù)。

　　2、先進(jìn)封裝演進(jìn)洞察

　　TSMC的CoWoS先進(jìn)封裝工藝封裝基板的尺寸在2023年為4倍Reticle面積，2025年將達(dá)到6倍Reticle面積［19］。當(dāng)前NVIDIA H100 GPU的封裝基板尺寸小于2倍Reticle面積，AMD的MI300系列GPU的封裝基板尺寸大約為3.5倍Reticle面積，逼近當(dāng)前TSMC CoWoS-L工藝的極限。

　　3、HBM內(nèi)存演進(jìn)洞察

　　HBM內(nèi)存的容量預(yù)計(jì)將在2024年達(dá)到24GB，并在2025年進(jìn)一步增長至36GB ［20］。HBM4預(yù)計(jì)將帶來兩個(gè)重要的變化：首先，HBM接口位寬將從1024擴(kuò)展到2048；其次，業(yè)界正在嘗試將HBM內(nèi)存Die直接堆疊在邏輯Die的上方［21］［22］。這兩個(gè)變化意味著HBM內(nèi)存的帶寬和單個(gè)封裝內(nèi)能容納的容量都將持續(xù)增長。

　　據(jù)報(bào)道，SK海力士已經(jīng)開始招聘CPU和GPU等邏輯半導(dǎo)體的設(shè)計(jì)人員。該公司顯然正在考慮將HBM4直接堆疊在處理器上，這不僅會(huì)改變邏輯和存儲(chǔ)器設(shè)備的傳統(tǒng)互連方式，還會(huì)改變它們的制造方式。事實(shí)上，如果SK海力士成功實(shí)現(xiàn)這一目標(biāo)，這可能會(huì)徹底改變芯片代工行業(yè) ［21］［22］。

　　4、推演假設(shè)

　　本文基于兩個(gè)前提假設(shè)來推演NVIDIA未來AI芯片的架構(gòu)演進(jìn)。首先，每一代AI芯片的存儲(chǔ)、計(jì)算和互聯(lián)比例保持大致一致，且比上一代提升1.5到2倍以上；其次，工程工藝演進(jìn)是漸進(jìn)且可預(yù)測的，不存在跳變，至少在2025年之前不會(huì)發(fā)生跳變。

　　到2025年，工藝將保持在3nm水平，但工藝演進(jìn)給邏輯器件帶來的收益預(yù)計(jì)不會(huì)超過50%。同時(shí)，先進(jìn)封裝技術(shù)預(yù)計(jì)將在2025年達(dá)到6倍Reticle面積的水平。此外，HBM內(nèi)存容量也將繼續(xù)增長，預(yù)計(jì)在2024年將達(dá)到24GB，而在2025年將達(dá)到36GB。

　　03. NVIDIA AI芯片架構(gòu)解讀

　　互聯(lián)技術(shù)在很大程度上決定了芯片和系統(tǒng)的物理架構(gòu)。NVIDIA利用NVLink-C2C這種低時(shí)延、高密度、低成本的互聯(lián)技術(shù)來構(gòu)建SuperChip超級(jí)芯片，旨在兼顧性能和成本打造差異化競爭力。與傳統(tǒng)的SerDes互聯(lián)相比，NVLink C2C采用了高密度單端架構(gòu)和NRZ調(diào)制，使其在實(shí)現(xiàn)相同互聯(lián)帶寬時(shí)能夠在時(shí)延、功耗、面積等方面達(dá)到最佳平衡點(diǎn)；而與Chiplet Die-to-Die互聯(lián)相比，NVLink C2C具備更強(qiáng)的驅(qū)動(dòng)能力，并支持獨(dú)立封裝芯片間的互聯(lián)，因此可以使用標(biāo)準(zhǔn)封裝，滿足某些芯片的低成本需求。

　　為了確保CPU和GPU之間的內(nèi)存一致性操作（Cache-Coherency），對(duì)于NVLink C2C接口有極低時(shí)延的要求。

　　H100 GPU的左側(cè)需要同時(shí)支持NVLink C2C和PCIe接口，前者用于實(shí)現(xiàn)與NVIDIA自研Grace CPU組成Grace-Hopper SuperChip，后者用于實(shí)現(xiàn)與PCIe交換芯片、第三方CPU、DPU、SmartNIC對(duì)接。NVLink C2C的互聯(lián)帶寬為900GB/s，PCIe互聯(lián)帶寬為128GB/s。

　　而當(dāng)Hopper GPU與Grace CPU組成SuperChip時(shí)，需要支持封裝級(jí)的互聯(lián)。值得注意的是，Grace CPU之間也可以通過NVLink C2C互聯(lián)組成Grace CPU SuperChip?？紤]到成本因素，NVIDIA沒有選擇采用雙Die合封的方式組成Grace CPU，而是通過封裝間的C2C互聯(lián)組成SuperChip超級(jí)芯片。

　　從時(shí)延角度來看，NVLink C2C采用40Gbps NRZ調(diào)制，可以實(shí)現(xiàn)無誤碼運(yùn)行（BER《1e-12），免除FEC，接口時(shí)延可以做到小于5ns。相比之下，112G DSP架構(gòu)的SerDes本身時(shí)延可以高達(dá)20ns，因?yàn)椴捎昧薖AM4調(diào)制，因此還需要引入FEC，這會(huì)額外增加百納秒量級(jí)的時(shí)延。此外，NVLink C2C采用了獨(dú)立的時(shí)鐘線來傳遞時(shí)鐘信號(hào)，因此數(shù)據(jù)線上的信號(hào)不需要維持通信信號(hào)直流均衡的編碼或擾碼，可以進(jìn)一步將時(shí)延降低到極致。

　　因此，引入NVLink C2C的主要?jiǎng)訖C(jī)是滿足芯片間低時(shí)延互聯(lián)需求。

　　從互聯(lián)密度來看，當(dāng)前112G SerDes的邊密度可以達(dá)到12.8Tbps每邊長，遠(yuǎn)遠(yuǎn)大于當(dāng)前H100的（900+128）GB/s * 8/2 = 4.112Tbps的邊密度需求。NVLink C2C的面密度是SerDes的3到4倍，（169Gbps/mm2 vs. 552Gbps/mm2）。而當(dāng)前NVLink C2C的邊密度還略低于SerDes（281Gbps/mm vs. 304Gbps/mm）。更高的邊密度顯然不是NVLink C2C需要解決的主要矛盾。

　　從驅(qū)動(dòng)能力來看，112G SerDes的驅(qū)動(dòng)能力遠(yuǎn)大于NVLink C2C。這在一定程度上會(huì)制約NVLink C2C的應(yīng)用范圍，未來類似于NVLink C2C的單端傳輸線技術(shù)有可能進(jìn)一步演進(jìn)，拓展傳輸距離，尤其是在224G及以上SerDes時(shí)代，芯片間互聯(lián)更加依賴于電纜解決方案，這對(duì)與計(jì)算系統(tǒng)是不友好的，會(huì)帶來諸如芯片布局、散熱困難等一系列工程挑戰(zhàn)，同時(shí)也需要解決電纜方案成本過高的問題。

　　從功耗來看，112G SerDes的功耗效率為5.5pJ/bit，而NVLink C2C的功耗效率為1.3pJ/bit。在3.6Tbps互聯(lián)帶寬下，SerDes和NVLink C2C的功耗分別為19.8W和4.68W。雖然單獨(dú)考慮芯片間互聯(lián)時(shí)，功耗降低很多，但是H100 GPU芯片整體功耗大約為700W，因此互聯(lián)功耗在整個(gè)芯片功耗中所占比例較小。

　　從成本角度來看，NVLink C2C的面積和功耗優(yōu)于SerDes互聯(lián)。因此，在提供相同互聯(lián)帶寬的情況下，它可以節(jié)省更多的芯片面積用于計(jì)算和緩存。然而，考慮到計(jì)算芯片并不是IO密集型芯片，因此這種成本節(jié)約的比例并不顯著。但是，如果將雙Chiplet芯粒拼裝成更大規(guī)模的芯片時(shí)，NVLink C2C可以在某些場景下可以避免先進(jìn)封裝的使用，這對(duì)降低芯片成本有明顯的幫助，例如Grace CPU SuperChip超級(jí)芯片選擇標(biāo)準(zhǔn)封裝加上NVLink C2C互聯(lián)的方式進(jìn)行擴(kuò)展可以降低成本。在當(dāng)前工藝水平下，先進(jìn)封裝的成本遠(yuǎn)高于邏輯Die本身。

　　C2C互聯(lián)技術(shù)的另一個(gè)潛在的應(yīng)用場景是大容量交換芯片，當(dāng)其容量突破200T時(shí)，傳統(tǒng)架構(gòu)的SerDes面積和功耗占比過高，給芯片的設(shè)計(jì)和制造帶來困難。在這種情況下，可以利用出封裝的C2C互聯(lián)技術(shù)來實(shí)現(xiàn)IO的扇出，同時(shí)盡量避免使用先進(jìn)的封裝技術(shù)，以降低成本。然而，目前的NVLink C2C技術(shù)并不適合這一應(yīng)用場景，因?yàn)樗鼰o法與標(biāo)準(zhǔn)SerDes實(shí)現(xiàn)比特透明的轉(zhuǎn)換。因此，需要引入背靠背的協(xié)議轉(zhuǎn)換，這會(huì)增加時(shí)延和面積功耗。

　　Grace CPU具有上下翻轉(zhuǎn)對(duì)稱性，因此單個(gè)芯片設(shè)計(jì)可以支持同構(gòu)Die組成SuperChip超級(jí)芯片。Hopper GPU不具備上下和左右翻轉(zhuǎn)對(duì)稱性，未來雙Die B100 GPU芯片可能由兩顆異構(gòu)Die組成。

　　NVLink和NVLink C2C技術(shù)提供了更靈活設(shè)計(jì)，實(shí)現(xiàn)了CPU和GPU靈活配置，可以構(gòu)建滿足不同應(yīng)用需求的系統(tǒng)架構(gòu)。NVLink C2C可以提供靈活的CPU、GPU算力配比，可組成 1/0，0.5/1，0.5/2，1/4，1/8等多種組合的硬件系統(tǒng)。

　　NVLink C2C支持Grace CPU和Hopper GPU芯片間內(nèi)存一致性操作（Cache-Coherency），讓Grace CPU成為Hopper GPU的內(nèi)存控制器和IO擴(kuò)展器，實(shí)現(xiàn)了4倍IO帶寬和5倍內(nèi)存容量的擴(kuò)展。這種架構(gòu)打破了HBM的瓶頸，實(shí)現(xiàn)了內(nèi)存超發(fā)。對(duì)訓(xùn)練影響是可以緩存更大模型，利用ZeRO等技術(shù)外存緩存模型，帶寬提升能減少Fetch Weight的IO開銷。對(duì)推理影響是可以緩存更大模型，按需加載模型切片推理，有可能在單CPU-GPU超級(jí)芯片內(nèi)完成大模型推理［23］。

　　有媒體測算NVIDIA的H100利潤率達(dá)到90%。同時(shí)也給出了估算的H100的成本構(gòu)成，NVIDIA向臺(tái)積電下訂單，用N4工藝制造GPU芯片，平均每顆成本155美元。NVIDIA從SK海力士（未來可能有三星、美光）采購六顆 HBM3芯片，成本大概2000美元。臺(tái)積電生產(chǎn)出來的GPU和NVIDIA采購的HBM3芯片，一起送到臺(tái)積電CoWoS封裝產(chǎn)線，以性能折損最小的方式加工成H100，成本大約723美元［24］。

　　先進(jìn)封裝成本高，是邏輯芯片裸Die成本的3到4倍以上， GPU內(nèi)存的成本占比超過60%。按照DDR： 5美金/GB，HBM： 15美金/GB以及參考文獻(xiàn) ［25］［26］中給出的GPU計(jì)算Die和先進(jìn)封裝的成本測算，H100 GPU HBM成本占比為62.5%；GH200中HBM和LPDDR的成本占比為78.2%。

　　雖然不同來源的信息對(duì)各個(gè)部件的絕對(duì)成本估算略有不同，但可以得出明確的結(jié)論：內(nèi)存在AI計(jì)算系統(tǒng)中的成本占比可高達(dá)60%到70%以上；先進(jìn)封裝的成本是計(jì)算Die成本的3到4倍以上。在接近Reticle面積極限的大芯片良率達(dá)到80%的情況下，先進(jìn)封裝無法有效地降低成本。因此，應(yīng)該遵循非必要不使用的原則。

　　04. 與AMD和Intel GPU架構(gòu)對(duì)比

　　AMD的GPU相對(duì)于NVIDIA更加依賴先進(jìn)封裝技術(shù)。MI250系列GPU采用了基于EFB硅橋的晶圓級(jí)封裝技術(shù)，而MI300系列GPU則應(yīng)用了AID晶圓級(jí)有源封裝基板技術(shù)。相比之下，NVIDIA并沒有用盡先進(jìn)封裝的能力，一方面在當(dāng)前代際的GPU中保持了相對(duì)較低的成本，另一方面也為下一代GPU保留了一部分工程工藝的價(jià)值發(fā)揮空間。

　　Intel Ponte Vecchio GPU將Chiplet和先進(jìn)封裝技術(shù)推向了極致，它涉及5個(gè)工藝節(jié)點(diǎn)（包括TSMC和Intel兩家廠商的不同工藝），47個(gè)有源的Tile，并同時(shí)采用了EMIB 2.5D和Foveros 3D封裝技術(shù)?？梢哉f，它更像是一個(gè)先進(jìn)封裝技術(shù)的試驗(yàn)場。

　　Intel的主力AI芯片是Gaudi系列AI加速芯片［27］［28］［29］。值得注意的是，Gaudi系列AI芯片是由TSMC代工的，Gaudi 2采用的是TSMC 7nm工藝，Gaudi 3采用的是TSMC 5nm工藝。

　　05. NVIDIA未來AI芯片架構(gòu)推演

　　1、NVLink和NVLink C2C演進(jìn)推演

　　互聯(lián)技術(shù)在很大程度上塑造了芯片和系統(tǒng)的物理架構(gòu)。從互聯(lián)技術(shù)的發(fā)展歷程出發(fā)，以芯片布局為線索，并考慮工程工藝的物理限制，可以對(duì)NVIDIA未來AI芯片架構(gòu)進(jìn)行預(yù)測。這種推演也有助于發(fā)掘?qū)ヂ?lián)技術(shù)的新需求。

　　互聯(lián)技術(shù)的演進(jìn)是一個(gè)漸進(jìn)的過程，其基本技術(shù)要素如帶寬、調(diào)制和編碼等都遵循著其內(nèi)在的發(fā)展規(guī)律。這些物理規(guī)律相對(duì)穩(wěn)定，通過將這些技術(shù)進(jìn)行組合并結(jié)合當(dāng)前工程工藝的發(fā)展趨勢以及需求，就可以大致描繪和預(yù)測出互聯(lián)技術(shù)的發(fā)展方向。在這里不深入探討晦澀難懂的互聯(lián)技術(shù)本身的發(fā)展，而是從宏觀技術(shù)邏輯和外在可觀察的指標(biāo)兩個(gè)角度出發(fā)，探討NVLink和NVLink C2C的歷史演進(jìn)，并對(duì)其未來發(fā)展進(jìn)行預(yù)測。

　　從NVLink的演進(jìn)看，當(dāng)前其演進(jìn)了四個(gè)代際，NVLink C2C當(dāng)前只有一個(gè)代際，通過與當(dāng)下不同協(xié)議的速率演進(jìn)對(duì)比及NVLink宣傳材料，可以清晰的看到每個(gè)代際的NVLink技術(shù)的競爭對(duì)手和其要解決的痛點(diǎn)問題。

　　當(dāng)前接口有兩大開放的互聯(lián)生態(tài)，PCIe互聯(lián)生態(tài)和Ethernet互聯(lián)生態(tài)，CXL協(xié)議依托于PCIe互聯(lián)生態(tài)，而InfiniBand則依托與Ethernet互聯(lián)生態(tài)。

　　NVLink的主要目標(biāo)是解決GPU之間的互聯(lián)問題，而早期的GPU一定需要保留與CPU互聯(lián)的PCIe接口，用于GPU互聯(lián)是也天然的繼承了這一技術(shù)，因此NVLink早期的競爭對(duì)手是PCIe。從PCIe、Ethernet和NVLink的發(fā)展軌跡來看，NVLink的SerDes速率介于同時(shí)期PCIe和Ethernet SerDes速率之間。

　　這意味著NVLink利用了Ethernet生態(tài)成熟的互聯(lián)技術(shù)來對(duì)抗PCIe，實(shí)現(xiàn)接口速率超越PCIe。通過復(fù)用Ethernet生態(tài)的成熟互聯(lián)技術(shù)，NVLink在成本方面也具有優(yōu)勢。

　　值得注意的是，NVLink并未完全遵循Ethernet的互聯(lián)技術(shù)規(guī)范。例如，在50G NVLink 3.0采用了NRZ調(diào)制，而不是Ethernet所采用的PAM4調(diào)制［30］。

　　這意味著NVLink 3.0利用了100Gbps PAM4 SerDes代際的技術(shù)，并通過采用更低階NRZ調(diào)制來實(shí)現(xiàn)鏈路的無誤碼運(yùn)行，免去FEC實(shí)現(xiàn)低時(shí)延。

　　同樣以低時(shí)延著稱的InfiniBand在50G這一代際則完全遵從了Ethernet的PAM4調(diào)制，這在一定程度上使其在50G這一代際喪失了低時(shí)延的技術(shù)優(yōu)勢，市場不得不選擇長期停留在25G代際的InfiniBand網(wǎng)絡(luò)上。

　　當(dāng)然，InfiniBand網(wǎng)絡(luò)也有其無奈之處，因?yàn)樗枰獜?fù)用Ethernet光模塊互聯(lián)生態(tài)，所以它必須完全遵循Ethernet的互聯(lián)電氣規(guī)范，而與之對(duì)應(yīng)的NVLink 3.0則只需要解決盒子內(nèi)或機(jī)框內(nèi)互聯(lián)即可。

　　同樣的事情也會(huì)在100G代際的NVLink 4.0上發(fā)生，NVLink 4.0完全擺脫了盒子和框子的限制，實(shí)現(xiàn)了跨盒子、跨框的互聯(lián)，此時(shí)為了復(fù)用Ethernet的光模塊互聯(lián)生態(tài)，NVLink 4.0的頻點(diǎn)和調(diào)制格式也需要遵從Ethernet互聯(lián)的電氣規(guī)范。

　　以前InfiniBand遇到的問題，NVLink也同樣需要面對(duì)。在100G時(shí)代，可以觀察到Ethernet、InfiniBand和NVLink的SerDes速率在時(shí)間節(jié)奏上齊步走的情況。實(shí)際上，這三種互聯(lián)接口都采用了完全相同的SerDes互聯(lián)技術(shù)。同樣的情況在200G這一代際也會(huì)發(fā)生。

　　與InfiniBand和Ethernet不同的是，NVLink是一個(gè)完全私有的互聯(lián)生態(tài)，不存在跨速率代際兼容、同代際支持多種速率的接口和多廠商互通的問題。因此，在技術(shù)選擇上，NVLink可以完全按照具體應(yīng)用場景下的需求來選擇設(shè)計(jì)甜點(diǎn)，在推出節(jié)奏上可以根據(jù)競爭情況自由把控，也更容易實(shí)現(xiàn)差異化競爭力和高品牌溢價(jià)。

　　NVLink的發(fā)展可以分為兩個(gè)階段。

　　NVLink 1.0~3.0主要在盒子內(nèi)、機(jī)框內(nèi)實(shí)現(xiàn)GPU高速互聯(lián)，對(duì)標(biāo)PCIe。它利用了Ethernet SerDes演進(jìn)更快的優(yōu)勢，采用了更高速的SerDes，同時(shí)在NVLink2.0時(shí)代開始引入NVSwitch技術(shù)，在盒子內(nèi)、機(jī)框內(nèi)組成總線域網(wǎng)絡(luò)，在帶寬指標(biāo)上對(duì)PCIE形成了碾壓式的競爭優(yōu)勢。

　　NVLink 4.0以后NVLink走出盒子和機(jī)框，NVSwitch走出計(jì)算盒子和機(jī)框，獨(dú)立成為網(wǎng)絡(luò)設(shè)備，此時(shí)對(duì)標(biāo)的是InfiniBand和Ethernet網(wǎng)絡(luò)。

　　雖然NVLink 4.0沒有公開的技術(shù)細(xì)節(jié)，但是從NVLink網(wǎng)絡(luò)的Load-Store網(wǎng)絡(luò)定位和滿足超節(jié)點(diǎn)內(nèi)部內(nèi)存共享的需求上看，一個(gè)合理的推測是，NVLink 4.0很可能采用了輕量FEC加鏈路級(jí)重傳的技術(shù)支持低時(shí)延和高可靠互聯(lián)。在時(shí)延和可靠性競爭力指標(biāo)上對(duì)InfiniBand和Ethernet形成碾壓式的競爭力，這更有利于實(shí)現(xiàn)內(nèi)存語義網(wǎng)絡(luò)，支持超節(jié)點(diǎn)內(nèi)內(nèi)存共享。提供傳統(tǒng)網(wǎng)絡(luò)所不能提供的關(guān)鍵特性，才是NVLink作為總線域網(wǎng)絡(luò)獨(dú)立存在的理由。

　　基于NVLink C2C的產(chǎn)品目前只有GH200這一代，但是從NVIDIA在該領(lǐng)域公開發(fā)表的論文中可以大致看出其技術(shù)發(fā)展的脈絡(luò)。從技術(shù)演進(jìn)上看，它是封裝內(nèi)Die間互聯(lián)的在均衡上的增強(qiáng)。從NVIDIA SuperChip超級(jí)芯片路標(biāo)來看，它將在未來的AI芯片中繼續(xù)發(fā)揮重要作用。對(duì)于這類接口，仍需保持連接兩個(gè)獨(dú)立封裝芯片的能力和極低的時(shí)延和功耗。

　　當(dāng)前的NVLink C2C采用9*40Gbps NRZ調(diào)制方式。

　　未來NVLink-C2C可能會(huì)向更高速率和雙向傳輸技術(shù)方向演進(jìn)。而50G NRZ是C2C互聯(lián)場景下在功耗和時(shí)延方面的設(shè)計(jì)甜點(diǎn)。繼續(xù)維持NRZ調(diào)制，選擇合適工作頻率，走向雙向傳輸將是實(shí)現(xiàn)速率翻倍的重要技術(shù)手段。

　　雖然NVLink C2C針對(duì)芯片間互聯(lián)做了優(yōu)化設(shè)計(jì)，但由于它與標(biāo)準(zhǔn)SerDes之間不存在速率對(duì)應(yīng)關(guān)系，無法實(shí)現(xiàn)與標(biāo)準(zhǔn)SerDes之間比特透明的信號(hào)轉(zhuǎn)換，因此其應(yīng)用場景受限。在與標(biāo)準(zhǔn)SerDes對(duì)接時(shí)需要多引入一層協(xié)議轉(zhuǎn)化會(huì)增加時(shí)延、面積和功耗開銷。未來可能存在一種可

　　能性，即采用類似NVLink C2C這種高密單端傳輸技術(shù)，同時(shí)與標(biāo)準(zhǔn)SerDes實(shí)現(xiàn)多對(duì)一的速率匹配，這種技術(shù)一旦實(shí)現(xiàn)將極大地?cái)U(kuò)展C2C高密單端互聯(lián)技術(shù)的應(yīng)用空間，也有可能開啟SerDes面向更高速率演進(jìn)的新賽道。

　　從NVLink和NVSwitch的演進(jìn)來看，每一代速率會(huì)是上一代的1.5到2倍。下一代NVLink 5.0大概率會(huì)采用200G每通道，每個(gè)GPU能夠出的NVLink接口數(shù)量從18個(gè)增加到32個(gè)，甚至更高。而NVSwitch 4.0在端口速率達(dá)到200G以外，交換芯片的端口數(shù)量可能在NVSwitch 3.0交換芯片64端口的基礎(chǔ)上翻2倍甚至4倍，總交換容量從12.8T到25.6T甚至51.2T ［30］。

　　2、B100 GPU架構(gòu)推演

　　以H100 GPU芯片布局為基礎(chǔ)，通過先進(jìn)的封裝技術(shù)將兩顆類似H100大小的裸Die進(jìn)行合封，可以推演B100 GPU架構(gòu)。 B100 GPU有兩種“雙Die”推演架構(gòu)：IO邊縫合和HBM邊縫合［31］［32］?！癏BM邊縫合”利用H100的HBM邊進(jìn)行雙Die連接，這種方案的優(yōu)點(diǎn)在于，它可以使得IO可用邊長翻倍，從而有利于擴(kuò)展IO帶寬。然而，它的缺點(diǎn)在于HBM可用邊長并沒有改變，因此無法進(jìn)一步擴(kuò)展HBM容量。 “IO邊縫合”利用H100的IO邊進(jìn)行雙Die連接，這種方案的優(yōu)勢在于HBM可用邊長能夠翻倍，從而有利于擴(kuò)展內(nèi)存。然而，它的缺點(diǎn)在于IO可用邊長并未改變，因此需要進(jìn)一步提升IO密度?？紤]到每代芯片與上一代相比，在內(nèi)存、算力、互聯(lián)三個(gè)層面需要實(shí)現(xiàn)兩倍以上的性能提升，采用“IO 邊縫合”方案的可能性更大。采用“IO 邊縫合”的方案需要提升IO的邊密度。

　　H100不具備旋轉(zhuǎn)對(duì)對(duì)稱性，而雙Die的B100仍需支持GH200 SuperChip超級(jí)芯片，因此B100可能由兩顆異構(gòu)Die組成。按照不同的長寬比采用“IO邊縫合的方式”B100的面積達(dá)到3.3到3.9倍的Reticle面積，小于當(dāng)前TSMC CoWoS先進(jìn)封裝能夠提供的4倍Reticle面積的能力極限。計(jì)算Die之間互聯(lián)可以復(fù)用 NVLink C2C 互聯(lián)技術(shù)，既利用NVLink C2C出封裝的連接能力覆蓋Die間互聯(lián)的場景。

　　為了實(shí)現(xiàn)計(jì)算Die的歸一化，可以將IO從計(jì)算Die中分離出來，形成獨(dú)立的IO Die。這樣，計(jì)算Die的互聯(lián)接口就實(shí)現(xiàn)了歸一化，使計(jì)算Die具備了旋轉(zhuǎn)對(duì)稱性。在這種情況下，仍然存在兩種架構(gòu)：一種是同構(gòu)計(jì)算Die與IO Die合封，另一種是計(jì)算Die與IO Die分別封裝并用C2C互聯(lián)將二者連接。計(jì)算Die的同構(gòu)最大的優(yōu)勢在于可以實(shí)現(xiàn)芯片的系列化。通過靈活組合計(jì)算Die和IO Die，可以實(shí)現(xiàn)不同規(guī)格的芯片以適應(yīng)不同的應(yīng)用場景的需求。

　　NVIDIA B100有“異構(gòu)Die合封”，“計(jì)算Die與IO Die分離，同構(gòu)計(jì)算Die與IO Die合封”，“計(jì)算Die與IO Die分離并分別封裝，并用C2C互聯(lián)將二者連接”三種架構(gòu)選項(xiàng)。 NVIDIA B100如果采用單封裝雙Die架構(gòu)，封裝基板面積達(dá)到3.3~3.9倍Reticle面積，功耗可能超過1kW。計(jì)算Die之間互聯(lián)可以復(fù)用NVLinkC2C互聯(lián)技術(shù)。將計(jì)算Die和IO Die分離可以實(shí)現(xiàn)計(jì)算Die的同構(gòu)化，降低成本。利用NVLink C2C出封裝互聯(lián)的能力，可以將IO扇出，降低IO邊密度壓力。需要注意的是，當(dāng)前NVLink C2C速率與PCIe & NVLink的SerDes無法匹配，因此需要IO Die上作協(xié)議轉(zhuǎn)換，無法做到協(xié)議無關(guān)。如果C2C互聯(lián)和SerDes速率能夠進(jìn)行多對(duì)一的匹配實(shí)現(xiàn)比特透明的CDR，這樣可以消除協(xié)議轉(zhuǎn)換的開銷?？紤]到B100 2024年推出的節(jié)奏，方案一、三匹配當(dāng)前先進(jìn)封裝能力，但方案三需要引入額外的協(xié)議轉(zhuǎn)換；方案二超出當(dāng)前先進(jìn)封裝能力。

　　注：其中關(guān)于Blackwell架構(gòu)的謎底已經(jīng)在美國圣何塞當(dāng)?shù)貢r(shí)間3月18日舉行的NVIDIA GTC大會(huì)上揭曉，詳情可參見《詳解最強(qiáng)AI芯片架構(gòu)：英偉達(dá)Blackwell GPU究竟牛在哪？》。對(duì)于采用兩個(gè)GPU Die+1個(gè)CPU的GH200架構(gòu)，陸玉春博士補(bǔ)充復(fù)盤道：“同一封裝大概率沒有IO Die，所以當(dāng)時(shí)猜測的是異構(gòu)Die。用同一個(gè)Socket的B100封裝內(nèi)采用同構(gòu)Die 180度旋轉(zhuǎn)這塊也有一些偏差，回頭刷一下對(duì)這個(gè)架構(gòu)的洞察。如果GB200采用雙Socket的話其實(shí)這個(gè)問題就好猜了，兩個(gè)B100的連接實(shí)際上是依賴兩個(gè)邊上的NVLink C2C互聯(lián)的，這個(gè)時(shí)候是否遵循旋轉(zhuǎn)對(duì)稱性問題不大。有點(diǎn)兒超乎想象的是GB200的2 Socket 4 Die和文中的X100的對(duì)上了。未來GX200怎么搞就值得期待了。Nvidia的策略還是更激進(jìn)的。這個(gè)預(yù)測和推演還是偏保守了?！?/p>

　　3、X100 GPU架構(gòu)推演

　　NVIDIA X100如果采用單Socket封裝四Die架構(gòu)，封裝基板面積將超過6倍Reticle面積，這將超出2025年的先進(jìn)封裝路標(biāo)的目標(biāo)。而如果采用雙Socket封裝架構(gòu)，則需要使用10~15cm的C2C互聯(lián)技術(shù)來實(shí)現(xiàn)跨封裝的計(jì)算 Die間的互聯(lián)，這可能需要對(duì)當(dāng)前NVLink C2C的驅(qū)動(dòng)能力進(jìn)一步增強(qiáng)。 NVIDIA X100 GPU如果采用四Die架構(gòu)，如果要控制封裝基板面積在6倍Reticle面積以下，匹配2025年先進(jìn)封裝路標(biāo)，則需要在計(jì)算Die上通過3D堆疊的方式集成HBM ［21］［22］。因此X100如果不采用SuperChip超級(jí)芯片的架構(gòu)而是延續(xù)單封裝架構(gòu)，要想在2025年推出，技術(shù)挑戰(zhàn)非常大。一方面需要先進(jìn)封裝基板達(dá)到6倍Reticle面積，另一方面需要實(shí)現(xiàn)在計(jì)算Die上堆疊HBM，同時(shí)要解決HBM和計(jì)算Die堆疊帶來的芯片散熱問題。

　　在滿足2025年的工程約束的前提下，X100也可以采用SuperChip超級(jí)芯片架構(gòu)在B100雙Die架構(gòu)的基礎(chǔ)上進(jìn)行平面擴(kuò)展。在這種情況下，NVIDIA X100也有“異構(gòu)Die合封”，“同構(gòu)計(jì)算Die與IO Die合封”，“計(jì)算Die與IO Die分別封裝”三種架構(gòu)選項(xiàng)。如果采用封裝間互聯(lián)的超級(jí)芯片的擴(kuò)展方式，先進(jìn)封裝的基板面積約束將不再會(huì)是瓶頸，此時(shí)只需要增強(qiáng)NVLink C2C的驅(qū)動(dòng)能力。

　　06. H100/H200，B100，X100

　　GPU架構(gòu)演進(jìn)總結(jié)

　　基于以下兩個(gè)前提：每一代AI芯片的存儲(chǔ)、計(jì)算和互聯(lián)比例保持大致一致，且比上一代提升1.5到2倍以上；工程工藝演進(jìn)是漸進(jìn)且可預(yù)測的，不存在跳變，至少在2025年之前不會(huì)發(fā)生跳變。因此，可以對(duì)2023年的H100、2024年的B100和2025年的X100的架構(gòu)進(jìn)行推演總結(jié)。對(duì)于工程工藝的基本假設(shè)如下：到2025年，工藝將保持在3nm水平，但工藝演進(jìn)給邏輯器件帶來的收益預(yù)計(jì)不會(huì)超過50%。同時(shí)，先進(jìn)封裝技術(shù)預(yù)計(jì)將在2025年達(dá)到6倍 Reticle面積的水平。此外，HBM內(nèi)存容量也將繼續(xù)增長，預(yù)計(jì)在2024年將達(dá)到24GB，而在2025年將達(dá)到36GB。在上述前提假設(shè)條件下，針對(duì)H100/H200， B100， X100 GPU可以得到如下推演結(jié)論：

　　1. H200是基于H100的基礎(chǔ)上從HBM3升級(jí)到HBM3e，提升了內(nèi)存的容量和帶寬。

　　2. B100將采用雙Die架構(gòu)。如果采用異構(gòu)Die合封方式，封裝基板面積將小于當(dāng)前先進(jìn)封裝4倍Reticle面積的約束。而如果采用計(jì)算Die和IO Die分離，同構(gòu)計(jì)算Die和IO Die合封的方式，封裝基板面積將超出當(dāng)前先進(jìn)封裝4倍Reticle面積的約束。如果采用計(jì)算Die和IO Die分離，同構(gòu)計(jì)算Die和IO Die分開封裝的方式，則可以滿足當(dāng)前的工程工藝約束?？紤]到B100 2024年推出的節(jié)奏，以及計(jì)算Die在整個(gè)GPU芯片中的成本占比并不高，因此用異構(gòu)Die合封方式的可能性較大。 3. 如果X100采用單Socket封裝，四個(gè)異構(gòu)Die合封裝的方式，需要在計(jì)算Die上堆疊HBM，同時(shí)需要先進(jìn)封裝的基板達(dá)到6倍Reticle面積。但是，如果采用SuperChip超級(jí)芯片的方式組成雙Socket封裝模組，可以避免計(jì)算Die上堆疊HBM，并放松對(duì)先進(jìn)封裝基板面積的要求，此時(shí)需要對(duì)NVLink C2C的驅(qū)動(dòng)能力做增強(qiáng)。

　　基于B100雙Die架構(gòu)，采用雙Socket板級(jí)3D擴(kuò)展可以實(shí)現(xiàn)與X100同等的算力。類似的方法也可以應(yīng)用到X100中進(jìn)一步擴(kuò)展算力。板級(jí)擴(kuò)展可以降低對(duì)工程工藝的要求，以較低的成本實(shí)現(xiàn)算力擴(kuò)展。雖然基于人們對(duì)于先進(jìn)封裝的Chiplet芯粒架構(gòu)充滿了期待，但是其演進(jìn)速度顯然無法滿足AI計(jì)算系統(tǒng)“三年三個(gè)數(shù)量級(jí)”的增長需求［33］。在AI計(jì)算領(lǐng)域基于先進(jìn)封裝Die間互聯(lián)Chiplet芯粒架構(gòu)，很可能因?yàn)闊o法滿足AI計(jì)算領(lǐng)域快速增長的需求而面臨“二世而亡”的窘境，業(yè)界需要重新尋找旨在提升AI算力的新技術(shù)路徑，比如SuperChip超級(jí)芯片和SuperPOD超節(jié)點(diǎn)。因此，類似于NVLink C2C的低時(shí)延、高可靠、高密度的芯片間互聯(lián)技術(shù)在未來AI計(jì)算芯片的Scale Up算力擴(kuò)展中將起到至關(guān)重要的作用；面向AI集群Scale Out算力擴(kuò)展的互聯(lián)技術(shù)也同等重要。這兩中互聯(lián)技術(shù)，前者是AI計(jì)算芯片算力擴(kuò)展的基礎(chǔ)，而后者是AI計(jì)算集群算力擴(kuò)展的基礎(chǔ)。

　　07. 結(jié)語：總結(jié)與思考

　　本文嘗試從第一性原理出發(fā)，對(duì)NVIDIA的AI芯片發(fā)展路線進(jìn)行了深入分析和解讀，并對(duì)未來的B100和X100芯片架構(gòu)進(jìn)行了推演預(yù)測。并且，希望通過這種推演提取出未來AI計(jì)算系統(tǒng)對(duì)互聯(lián)技術(shù)的新需求。本文以互聯(lián)技術(shù)為主線展開推演分析，同時(shí)考慮了芯片代際演進(jìn)的性能提升需求和工程工藝約束。最終得出的結(jié)論是：在AI計(jì)算領(lǐng)域，基于先進(jìn)封裝Die間互聯(lián)的Chiplet芯粒架構(gòu)無法滿足AI計(jì)算領(lǐng)域快速增長的需求，可能面臨“二世而亡”的窘境。低時(shí)延、高可靠、高密度的芯片間互聯(lián)技術(shù)在未來AI計(jì)算芯片的Scale Up算力擴(kuò)展中將起到至關(guān)重要的作用；雖然未展開討論，同樣的結(jié)論也適用于面向AI集群Scale Out算力擴(kuò)展的互聯(lián)技術(shù)。

　　224G及以上代際中，面向計(jì)算集群的互聯(lián)技術(shù)也存在非常大的挑戰(zhàn)。需要明確指出的是，互聯(lián)技術(shù)并不是簡單地將芯片、盒子、機(jī)框連接起來的問題，它并不是一根連線而已，它需要在需求、技術(shù)、產(chǎn)業(yè)生態(tài)等各個(gè)方面進(jìn)行綜合考慮，需要極具系統(tǒng)性的創(chuàng)新以及長時(shí)間的、堅(jiān)持不懈的投入和努力。除了互聯(lián)技術(shù)以外，通過對(duì)NVIDIA相關(guān)技術(shù)布局的分析也引發(fā)了如下思考：

　　1. 真正的差異化競爭力源于系統(tǒng)性地、全面地掌握整個(gè)價(jià)值鏈中主導(dǎo)無法快速復(fù)制的關(guān)鍵環(huán)節(jié)。NVIDIA在系統(tǒng)和網(wǎng)絡(luò)、硬件、軟件這三個(gè)方面占據(jù)了主導(dǎo)地位，而這三個(gè)方面恰恰是人工智能價(jià)值鏈中許多大型參與者無法有效或快速復(fù)制的重要部分。然而，要在這三個(gè)方面中的任何一方面建立領(lǐng)導(dǎo)地位都離不開長時(shí)間堅(jiān)持不懈的投入和努力帶來的技術(shù)沉淀和積累。指望在一個(gè)技術(shù)單點(diǎn)形成突破，期望形成技術(shù)壁壘或者技術(shù)護(hù)城河的可能性為零?！爸匾覠o法快速復(fù)制”是核心特征，其中“重要”更容易被理解，而“無法快速復(fù)制”則意味著“長時(shí)間堅(jiān)持不懈的投入和努力”帶來的沉淀和積累，這是人們往往忽視的因素。

　　2. 開放的產(chǎn)業(yè)生態(tài)并不等同于技術(shù)先進(jìn)性和競爭力。只有深入洞察特定領(lǐng)域的需求，進(jìn)行技術(shù)深耕，做出差異化競爭力，才能給客戶帶來高價(jià)值，給自身帶來高利潤。NVIDIA基于NVLink C2C的SuperChip超級(jí)芯片以及基于NVLink網(wǎng)絡(luò)的SuperPOD超節(jié)點(diǎn)就是很好的例子。真正構(gòu)筑核心競爭力的技術(shù)是不會(huì)開放的，至少在有高溢價(jià)的早期不會(huì)開放，比如NVIDIA的NVLink和NVLink C2C技術(shù)，比如Intel的QPI和UPI。開放生態(tài)只是后來者用來追趕強(qiáng)者的借口（比如UEC），同時(shí)也是強(qiáng)者用來鞏固自己地位的工具（比如PCIe）。然而，真正的強(qiáng)者并不會(huì)僅僅滿足于開放生態(tài)所帶來的優(yōu)勢，而是會(huì)通過細(xì)分領(lǐng)域和構(gòu)筑特定領(lǐng)域的封閉生態(tài)，實(shí)現(xiàn)差異化競爭力來保持領(lǐng)先地位。

　　3. 構(gòu)筑特定領(lǐng)域的差異化競爭力與復(fù)用開放的產(chǎn)業(yè)生態(tài)并不矛盾。其關(guān)鍵在于要在開放的產(chǎn)業(yè)生態(tài)中找到真正的結(jié)合點(diǎn)，并能夠果斷地做出取舍，勇敢地拋棄不必要的負(fù)擔(dān)，只選擇開放產(chǎn)業(yè)生態(tài)中的精華部分，構(gòu)建全新的技術(shù)體系。為了構(gòu)筑特定領(lǐng)域的差異化競爭力，更應(yīng)該積極擁抱開放的產(chǎn)業(yè)生態(tài)，主動(dòng)引導(dǎo)其發(fā)展以實(shí)現(xiàn)這種差異化。比如，InfiniBand與Ethernet在低時(shí)延方面的差異化并不是天生的，而是人為構(gòu)造出來的。兩者在基礎(chǔ)技術(shù)上是相同的。InfiniBand在25G NRZ代際以前抓住了低時(shí)延這一核心特征，摒棄跨速率代際兼容的需求，卸掉了技術(shù)包袱，并且在HPC領(lǐng)域找到了合適的戰(zhàn)場，因此在低時(shí)延指標(biāo)上一直碾壓Ethernet，成功實(shí)現(xiàn)了高品牌溢價(jià)。而InfiniBand在56G PAM4這一代際承襲了Ethernet的互聯(lián)規(guī)范，因此這種低時(shí)延上的競爭力就逐漸喪失了。人為制造差異化競爭力的典型例子還有：同時(shí)兼容支持InfiniBand和Ethernet的CX系列網(wǎng)卡和BlueField系列DPU；內(nèi)置在NVSwitch和InfiniBand交換機(jī)中的SHARP在網(wǎng)計(jì)算協(xié)議和技術(shù)；NVIDIA基于NVLink C2C構(gòu)筑SuperChip超級(jí)芯片以及基于NVLink網(wǎng)絡(luò)構(gòu)筑SuperPOD超節(jié)點(diǎn)。

　　4. “天下沒有免費(fèi)的午餐”，這是恒古不變的真理和底層的商業(yè)邏輯。商業(yè)模式中的“羊毛出在狗身上，由豬買單”其實(shí)就是變相的轉(zhuǎn)移支付，羊毛終將是出在羊身上，只是更加隱蔽罷了。這一規(guī)律同樣適用于對(duì)復(fù)雜系統(tǒng)中的技術(shù)價(jià)值的判斷上。自媒體分析H100的BOM物料成本除以售價(jià)得到90%的毛利率是片面的，因?yàn)楦邇r(jià)值部分是H100背后的系統(tǒng)競爭力，而不僅僅是那顆眼鏡片大小的硅片。這里包含了H100背后的海量的研發(fā)投入和技術(shù)積累。而隱藏在這背后的實(shí)際上是人才。如何對(duì)中長期賽道上耕耘的人提供既緊張又輕松的研究環(huán)境，使研究人員能安心與具有長期深遠(yuǎn)影響的技術(shù)研究，是研究團(tuán)隊(duì)面臨的挑戰(zhàn)和需要長期思考的課題。從公開發(fā)表的D2D和C2C相關(guān)文獻(xiàn)中可以看到，NVIDIA在這一領(lǐng)域的研究投入超過十年，針對(duì)C2C互聯(lián)這一場景的研究工作也超過五年。在五到十年的維度上長期進(jìn)行迭代研究，需要相當(dāng)強(qiáng)的戰(zhàn)略定力，同時(shí)也需要非常寬松的研究環(huán)境和持續(xù)的研究投入。

　　5. 在人工智能時(shí)代，通過信息不對(duì)稱來獲取差異化競爭力或獲得收益的可能性越來越低。這是因?yàn)橹圃煨畔⒉粚?duì)稱的難度和代價(jià)不斷飆升，而其所帶來的收益卻逐漸減少。在不久的未來，制造信息不對(duì)稱的代價(jià)將會(huì)遠(yuǎn)遠(yuǎn)超過收益。妄圖通過壟斷信息而達(dá)到差異化的競爭力，浪費(fèi)的是時(shí)間，而失去的是機(jī)會(huì)。隨著大模型的進(jìn)一步演進(jìn)發(fā)展，普通人可以通過人工智能技術(shù)輕松地獲取并加工海量的信息且不會(huì)被淹沒。未來的核心競爭力是如何駕馭包括人工智能在內(nèi)的工具，對(duì)未來技術(shù)走向給出正確的判斷。

　　6. NVIDIA并非不可戰(zhàn)勝，在激進(jìn)的技術(shù)路標(biāo)背后也隱藏著巨大的風(fēng)險(xiǎn)。如何向資本證明其在AI計(jì)算領(lǐng)域的能夠長期維持統(tǒng)治地位，保持長期的盈利能力，以維持其高股價(jià)、實(shí)現(xiàn)持續(xù)高速增長，極具挑戰(zhàn)性。一旦2025年發(fā)布的X100及其配套關(guān)鍵技術(shù)不及預(yù)期，這將直接影響投資者的信心。這是NVIDIA必須面臨的資本世界的考驗(yàn)，在這一點(diǎn)上它并沒有制度優(yōu)勢。在一些基礎(chǔ)技術(shù)層面，業(yè)界面臨的挑戰(zhàn)是一樣的。以互聯(lián)技術(shù)為例，用于AI計(jì)算芯片Scale Up算力擴(kuò)展的C2C互聯(lián)技術(shù)，以及面向AI集群Scale Out算力擴(kuò)展的光電互聯(lián)技術(shù)都存在非常大的挑戰(zhàn)。誰能在未來互聯(lián)技術(shù)演進(jìn)的探索中，快速試錯(cuò)，最快地找到最佳路徑，少犯錯(cuò)誤，誰就抓住了先機(jī)。在未來的競爭中有可能實(shí)現(xiàn)超越。

審核編輯：黃飛

閱讀全文

NVIDIA(101552) NVIDIA(101552)
gpu(126408) gpu(126408)
英偉達(dá)(87542) 英偉達(dá)(87542)
AI芯片(34306) AI芯片(34306)

評(píng)論

相關(guān)推薦

AI芯片賣爆，獲益的不止英偉達(dá)一家

第三方統(tǒng)計(jì)機(jī)構(gòu)預(yù)測，到2030年，AI芯片市場將從現(xiàn)在的200億美元擴(kuò)張至千億美元以上。至于從這條大熱的賽道上撈金無數(shù)的，也不僅僅只有英偉達(dá)這一家企業(yè)。 ? 爆單的晶圓代工廠 ? 上一季度，臺(tái)積電明確表示AI芯片需求旺盛，導(dǎo)致其CoWoS先進(jìn)封裝

2023-11-24 01:17:00

1987

AI發(fā)展對(duì)芯片技術(shù)有什么影響？

現(xiàn)在說AI是未來人類技術(shù)進(jìn)步的一大方向，相信大家都不會(huì)反對(duì)。說到AI和芯片技術(shù)的關(guān)系，我覺得主要體現(xiàn)在兩個(gè)方面：第一，AI的發(fā)展要求芯片技術(shù)不斷進(jìn)步；第二，AI可以幫助芯片技術(shù)向前發(fā)展。

2019-08-12 06:38:51

AI芯片怎么分類？

AI芯片作為產(chǎn)業(yè)核心，也是技術(shù)要求和附加值最高的環(huán)節(jié)，在AI產(chǎn)業(yè)鏈中的產(chǎn)業(yè)價(jià)值和戰(zhàn)略地位遠(yuǎn)遠(yuǎn)大于應(yīng)用層創(chuàng)新。騰訊發(fā)布的《中美兩國人工智能產(chǎn)業(yè)發(fā)展全面解讀》報(bào)告顯示，基礎(chǔ)層的處理器/芯片企業(yè)數(shù)量來看，中國有14家，美國33家。本文將對(duì)這一領(lǐng)域產(chǎn)業(yè)生態(tài)做一個(gè)簡單梳理。

2019-08-13 08:42:38

AI芯片最新格局分析精選資料分享

來源：中金公司，作者黃樂平、何玫與楊俊杰AI 芯片設(shè)計(jì)是人工智能產(chǎn)業(yè)鏈的重要一環(huán)。自 2017 年 5 月以來，各 AI 芯片廠商的新品競相發(fā)布，經(jīng)過一年多的發(fā)展，各環(huán)...

2021-07-23 07:14:08

AI芯片格局最全分析精選資料分享

、各自為政的紛亂局面；特別是每個(gè)初創(chuàng)企業(yè)的AI芯片都具有自己獨(dú)特的體系結(jié)構(gòu)和軟件開發(fā)套件，既無法融入英偉達(dá)和谷歌建立的生態(tài)圈，又不具備與之抗衡的實(shí)力。>>>> 如果說 2016 年 3 月份 AlphaGo

2021-07-23 07:10:29

AI芯片界的領(lǐng)頭羊進(jìn)軍機(jī)器人行業(yè)

算法和大數(shù)據(jù)時(shí)代的到來、以及AI芯片的出現(xiàn)。第三波AI浪潮的發(fā)展主要由深度學(xué)習(xí)技術(shù)的突破引領(lǐng)，而英偉達(dá)（Nvidia）憑借其通用的GPU單元，專門的TensorRT加速器，強(qiáng)勁的矩陣運(yùn)算性能加上對(duì)其他

2018-06-11 08:20:23

AI開發(fā)者福音！阿里云推出國內(nèi)首個(gè)基于英偉達(dá)NGC的GPU優(yōu)化容器

摘要： 3月28日，在2018云棲大會(huì)·深圳峰會(huì)上，阿里云宣布與英偉達(dá)GPU 云合作（NGC），開發(fā)者可以在云市場下載NVIDIA GPU 云鏡像和運(yùn)行NGC 容器，來使用阿里云上的NVIDIA

2018-04-04 14:39:24

AI時(shí)代推動(dòng)存儲(chǔ)器的創(chuàng)新與發(fā)展

AI 時(shí)代的計(jì)算應(yīng)用，了解它們?nèi)绾卧谖磥?b class="flag-6" style="color: red">藍(lán)圖中推動(dòng)創(chuàng)新

2021-01-19 07:48:18

ai芯片和gpu的區(qū)別

ai芯片和gpu的區(qū)別▌車載芯片的發(fā)展趨勢(CPU-GPU-FPGA-ASIC)過去汽車電子芯片以與傳感器一一對(duì)應(yīng)的電子控制單元(ECU)為主，主要分布與發(fā)動(dòng)機(jī)等核心部件上。...

2021-07-27 07:29:46

英偉達(dá) VS. 英特爾：后浪來襲！精選資料分享

上周三，也就是2020年7月8日，是個(gè)值得在歷史上留下一筆的日子。在這一天美股收盤之后，英偉達(dá)的股價(jià)收漲2.3%，來到404美元，這...

2021-07-29 07:07:26

英偉達(dá)DPU的過“芯”之處

爭奪的主戰(zhàn)場，而英偉達(dá)如何能夠在X86的如日中天和云計(jì)算客戶的自研路線中，找到一個(gè)切入到中高端服務(wù)器處理器的關(guān)鍵點(diǎn)，剛剛發(fā)布的DPU也只能算作一個(gè)初步的嘗試。未來數(shù)據(jù)中心的博弈，將圍繞AI、超算等所有領(lǐng)域全面展開，英偉達(dá)在前有強(qiáng)敵，后有追兵，盟友擁兵自立的境遇下，其數(shù)據(jù)中心的征程仍然任重而道遠(yuǎn)。

2022-03-29 14:42:53

英偉達(dá)GPU卡多卡互聯(lián)NVLink，系統(tǒng)累積的公差，是怎么解決的？是連接器吸收的？

英偉達(dá)不斷推出GPU卡，并且實(shí)現(xiàn)多卡互聯(lián)NVLink，實(shí)際整個(gè)系統(tǒng)會(huì)累積到一個(gè)較大的公差，而目前市面上已有的連接器只能吸收較少的公差，這個(gè)是怎么做到匹配的呢？

2022-03-05 16:17:06

英偉達(dá)GPU慘遭專業(yè)礦機(jī)碾壓，黃仁勛宣布砍掉加密貨幣業(yè)務(wù)！

`世界最大的顯卡和圖形芯片制造商英偉達(dá)正式宣布退出加密貨幣業(yè)務(wù)。公司首席財(cái)務(wù)官Colette Kress在聲明中表示：“我們認(rèn)為公司已經(jīng)進(jìn)入一個(gè)正常時(shí)期，公司在預(yù)期的未來內(nèi)并沒有加密貨幣業(yè)務(wù)。我們?cè)?/div>

2018-08-24 10:11:50

英偉達(dá)TX2手冊(cè)

英偉達(dá)TX2數(shù)據(jù)手冊(cè)，喜歡請(qǐng)關(guān)注

2018-01-07 22:08:07

英偉達(dá)、寒武紀(jì)、GTI的對(duì)比，快來看看！(轉(zhuǎn))

英偉達(dá)、寒武紀(jì)、GTI的對(duì)比　　現(xiàn)在活潑在AI芯片領(lǐng)域的，構(gòu)成影響力的有Nvidia和華為麒麟970帶紅的寒武紀(jì)等中國新星，他們也有不少創(chuàng)新。但是大部分品牌能做到在終端產(chǎn)品內(nèi)大容量本地核算，不用

2019-01-22 09:52:58

英偉達(dá)發(fā)布新一代 GPU 架構(gòu)圖靈和 GPU 系列 Quadro RTX

在 8 月 14 日的 SIGGRAPH 2018 大會(huì)上，英偉達(dá) CEO 黃仁勛正式發(fā)布了新一代 GPU 架構(gòu) Turing（圖靈），以及一系列基于圖靈架構(gòu)的 GPU，包括全球首批支持即時(shí)光線追蹤

2018-08-15 10:59:45

EMC技術(shù)：基礎(chǔ)概念到應(yīng)用的解讀？|深圳比創(chuàng)達(dá)電子.

EMC技術(shù)：基礎(chǔ)概念到應(yīng)用的解讀？|深圳比創(chuàng)達(dá)電子電磁兼容性（Electromagnetic Compatibility，簡稱EMC）作為一項(xiàng)重要的技術(shù)領(lǐng)域，在現(xiàn)代電子設(shè)備中扮演著至關(guān)重要的角色

2024-03-11 11:59:06

NVIDIA仍不死心，再次加入ARM站場

加強(qiáng)聯(lián)發(fā)科芯片在游戲和AI方面的功能與性能，計(jì)劃最早于2024年將含有英偉達(dá)圖形技術(shù)的GPU集成到聯(lián)發(fā)科的芯片上。目前聯(lián)發(fā)科已成為Chromebook系統(tǒng)芯片的領(lǐng)先供應(yīng)商之一，不少廉價(jià)

2023-05-28 08:51:03

Nordic發(fā)布低功耗蜂窩物聯(lián)網(wǎng)產(chǎn)品發(fā)展藍(lán)圖

、汽車(比如基于實(shí)際駕駛數(shù)據(jù)的定制保險(xiǎn))，以及工業(yè)和農(nóng)業(yè)自動(dòng)化?！　??Nordic Semiconductor的低功耗蜂窩IoT產(chǎn)品發(fā)展藍(lán)圖包括高集成度芯片組和先進(jìn)的軟件，用于即將推出的3GPP

2016-07-17 17:31:34

【AD新聞】賽靈思新CEO訪華繪藍(lán)圖，7nm ACAP平臺(tái)要讓CPU/GPU難企及

我們業(yè)務(wù)的核心，但賽靈思今后將不再僅僅是一家FPGA企業(yè)?！盤eng強(qiáng)調(diào)稱，F(xiàn)PGA技術(shù)是賽靈思的傳統(tǒng)，已發(fā)展多年，包括在可編程芯片上全面集成了SoC，開發(fā)出了3D IC，構(gòu)建了軟件開發(fā)框架，并創(chuàng)建

2018-03-23 14:31:40

【NVIDIA社招】英偉達(dá)上海熱招ASIC驗(yàn)證工程師

【NVIDIA社招】英偉達(dá)上海熱招ASIC驗(yàn)證工程師一．公司簡介 NVIDIA (英偉達(dá)?)公司(納斯達(dá)克代碼：NVDA)是全球視覺計(jì)算技術(shù)的行業(yè)領(lǐng)袖及GPU(圖形處理器)的發(fā)明者。作為高性能處理器

2016-11-11 17:38:35

【NVIDIA社招】英偉達(dá)上海熱招ASIC驗(yàn)證工程師

2016-09-26 10:14:45

【免費(fèi)直播】讓AI芯片擁有最強(qiáng)大腦—AI芯片的操作系統(tǒng)設(shè)計(jì)介紹.

智慧化進(jìn)程。人工智能芯片是人工智能發(fā)展的基石，是數(shù)據(jù)、算法和算力在各類場景應(yīng)用落地的基礎(chǔ)依托?！盁o芯片不AI”已經(jīng)深入人心，成為業(yè)界共識(shí)。本次直播將述說AI芯片設(shè)計(jì)帶你解析AI算法及其芯片操作系統(tǒng)

2019-11-07 14:18:45

人工智能AI芯片到底怎么用

什么是人工智能（AI）芯片？AI芯片的主要用處有哪些？在AI任務(wù)中，AI芯片到底有多大優(yōu)勢？

2021-09-22 08:00:01

人工智能芯片是人工智能發(fā)展的

......無形之中，人工智能正以前所未有的發(fā)展速度滲透我們的日常生活。而作為人工智能的核心技術(shù)之一，人工智能芯片也向來備受關(guān)注。近幾年，谷歌、蘋果、微軟、Facebook、英特爾、高通、英偉達(dá)、AMD、阿里巴...

2021-07-27 07:02:46

如何選擇具有兼容性發(fā)展藍(lán)圖的DSP平臺(tái)？

可編程的DSP可用于實(shí)現(xiàn)各種現(xiàn)有的編解碼器和將來的編解碼標(biāo)準(zhǔn)。目前的趨勢是每兩年就會(huì)發(fā)布新的編解碼標(biāo)準(zhǔn)，每個(gè)新標(biāo)準(zhǔn)會(huì)需要更多的DSP周期。因此，選擇具有兼容性發(fā)展藍(lán)圖的DSP平臺(tái)(如ZSP)非常重要

2019-07-10 06:49:40

微軟HoloLens正研發(fā)AI芯片可識(shí)別語音和圖像

對(duì)此非常重視。我們的愿望是成為第一大 AI 云?！? 　　當(dāng)然，微軟也面臨很多競爭。亞馬遜也使用了可編程門陣列，還計(jì)劃使用由英偉達(dá)研發(fā)的頂級(jí)芯片 Volta 來訓(xùn)練 AI 系統(tǒng)。同時(shí)，谷歌已經(jīng)建立了名為

2017-07-31 21:17:15

恩智浦S32V/英偉達(dá)DRIVE PX2/TI的TDA4/寒武紀(jì)1M/高通SA8155對(duì)比分析哪個(gè)好？

恩智浦S32V/英偉達(dá)DRIVE PX2/TI的TDA4/寒武紀(jì)1M/高通SA8155對(duì)比分析哪個(gè)好？

2021-09-30 07:03:20

新思科技發(fā)布業(yè)界首款全棧式AI驅(qū)動(dòng)型EDA解決方案Synopsys.ai

摘要：Synopsys.ai可為芯片設(shè)計(jì)提供AI驅(qū)動(dòng)型解決方案，包含數(shù)字、模擬、驗(yàn)證、測試和制造模塊。AI引擎可顯著提高設(shè)計(jì)效率和芯片質(zhì)量，同時(shí)降低成本?！?b class="flag-6" style="color: red">英偉達(dá)（NVIDIA）、臺(tái)積公司（TSMC

2023-04-03 16:03:26

瑞芯微和英偉達(dá)的邊緣計(jì)算盒子方案，你會(huì)選哪一家的？

高性能，高價(jià)值和低成本的邊緣計(jì)算盒子方案，我愛方案網(wǎng)的小伙伴們特別為工程師朋友們精選了五款熱賣的瑞芯微和英偉達(dá)的邊緣計(jì)算盒子方案，這些方案應(yīng)用于機(jī)器人、無人配送車、低空防御、智能巡檢、智慧樓宇、網(wǎng)關(guān)

2022-09-29 14:31:40

電子元器件+AI創(chuàng)新發(fā)展論壇

`物聯(lián)網(wǎng)時(shí)代下，基于大數(shù)據(jù)和人工智能算法實(shí)現(xiàn)的萬物互聯(lián)，重構(gòu)了新業(yè)態(tài)、新模式、新發(fā)展，為智造業(yè)注入新鮮血液。就此，我們特邀知名元器件電商平臺(tái)、方案商和芯片商一起探討分享在新的時(shí)代背景下，如何通過AI

2017-11-15 14:53:52

聯(lián)發(fā)科回應(yīng)結(jié)盟英偉達(dá)合攻 Arm 架構(gòu)芯片傳聞

聯(lián)發(fā)科計(jì)劃周一下午舉行 2023“旗艦科技智領(lǐng)未來”記者會(huì)，由聯(lián)發(fā)科 CEO 蔡力行與重量級(jí)嘉賓一同出席，這位嘉賓應(yīng)該是近來引起全球關(guān)注、并成為 AI 創(chuàng)新推動(dòng)者的英偉達(dá) CEO 黃仁勛。早些時(shí)候

2023-05-28 08:47:33

超越英偉達(dá)Pascal五倍？揭秘英特爾深度學(xué)習(xí)芯片架構(gòu) 精選資料推薦

在被英特爾收購兩年之后，深度學(xué)習(xí)芯片公司 Nervana 終于準(zhǔn)備將代號(hào)為「Lake Crest」的架構(gòu)轉(zhuǎn)化為實(shí)際的產(chǎn)品了。對(duì)于英特爾來說，現(xiàn)在入局或許有些遲到，英偉達(dá)已經(jīng)占據(jù)深度學(xué)習(xí)芯片市場很長一段時(shí)間了，后者有充分的時(shí)間通過新...

2021-07-26 07:04:35

高端VR設(shè)備起量，英偉達(dá)稱今年1500萬，明年翻倍

VR-ready PC的銷量已經(jīng)突破1500萬臺(tái)。　　在本周的VRX大會(huì)上，英偉達(dá)總經(jīng)理格林斯特恩確認(rèn)了這一消息，使用英偉達(dá)GeForce芯片的VR-ready PC銷量已經(jīng)突破1500萬臺(tái)，明年年底這一

2016-12-13 14:32:48

#硬聲創(chuàng)作季【科技】科技新聞TechLinked第七期任天堂Switch玩3A大作英偉達(dá)AI技術(shù)笑傲江

Switch英偉達(dá)ai技術(shù)行業(yè)芯事時(shí)事熱點(diǎn)

Mr_haohao發(fā)布于 2022-09-29 16:26:33

197.再次無理打壓！美國命令英偉達(dá)對(duì)中俄出售高端GPU需要新的許可

gpu英偉達(dá)

小凡發(fā)布于 2022-10-04 12:25:19

214.國產(chǎn)芯片多點(diǎn)突破，中國首款7nmGPU即將問世，打破英偉達(dá)的壟斷

gpu英偉達(dá)7nm國產(chǎn)芯片

小凡發(fā)布于 2022-10-04 12:56:26

233.國產(chǎn)GPU和國外競爭對(duì)手的差距在哪里？#國產(chǎn)gpu#英偉達(dá)

gpu英偉達(dá)

小凡發(fā)布于 2022-10-04 13:19:50

267.英偉達(dá)對(duì)中俄出口高端GPU芯片受新限制

gpu英偉達(dá)

小凡發(fā)布于 2022-10-04 15:13:52

297.英偉達(dá)吹爆的DPU到底是啥？真能做到與CPU、GPU比肩？

DPU英偉達(dá)cpu/soc

小凡發(fā)布于 2022-10-04 16:02:39

00032 Jetson TX2 NX開發(fā)者套件！TX2的性能，NANO的尺寸！ #英偉達(dá) #jetson

英偉達(dá)

學(xué)習(xí)電子知識(shí)發(fā)布于 2023-07-02 13:21:19

00034 性能爆表！亞博JETSON NANO人工智能開發(fā)板，完美兼容官方B01 #英偉達(dá) #jetson

英偉達(dá)

學(xué)習(xí)電子知識(shí)發(fā)布于 2023-07-02 13:23:09

全新一代Jetson Orin Nano來襲，40TOPS超強(qiáng)算力，刷新你的想象！ #Jetson #英偉達(dá)

英偉達(dá)

學(xué)習(xí)電子知識(shí)發(fā)布于 2023-07-02 13:27:15

從英偉達(dá)市值下跌看半導(dǎo)體行業(yè)的風(fēng)云變幻

半導(dǎo)體英偉達(dá)

北京中科同志科技股份有限公司發(fā)布于 2023-10-19 09:38:56

#消費(fèi)級(jí)顯示被禁止出口英偉達(dá)RTX 4090顯卡遭遇下架風(fēng)波

英偉達(dá)

深圳市浮思特科技有限公司發(fā)布于 2023-10-19 15:58:35

#英偉達(dá) #顯卡英偉達(dá)全新旗艦顯卡RTX 5090性能暴漲70%

顯卡英偉達(dá)

深圳市浮思特科技有限公司發(fā)布于 2023-11-20 14:19:25

英偉達(dá)為何放不下中國？

英偉達(dá)行業(yè)資訊

深圳市浮思特科技有限公司發(fā)布于 2023-11-27 15:11:09

英偉達(dá)HBM4預(yù)計(jì)2026年推出

英偉達(dá)行業(yè)資訊

深圳市浮思特科技有限公司發(fā)布于 2023-11-27 15:15:17

英偉達(dá)將在越南設(shè)法人實(shí)體

英偉達(dá)行業(yè)資訊

深圳市浮思特科技有限公司發(fā)布于 2023-12-12 10:29:04

英偉達(dá)新顯卡起售近1.3萬元

英偉達(dá)行業(yè)資訊

深圳市浮思特科技有限公司發(fā)布于 2023-12-29 16:56:52

英偉達(dá)將用AI設(shè)計(jì)AI芯片

AI芯片行業(yè)資訊

深圳市浮思特科技有限公司發(fā)布于 2024-02-19 17:54:43

AI芯片之爭，英偉達(dá)公開挑戰(zhàn)華為 # 華為 #英偉達(dá)

行業(yè)芯事行業(yè)資訊

深圳市浮思特科技有限公司發(fā)布于 2024-02-27 14:56:10

英偉達(dá)能否在AI芯片領(lǐng)域脫穎而出

英偉達(dá)公布2018第四季度財(cái)報(bào)，因收入不如預(yù)期，盤后股價(jià)大跌14%。受中國需求減弱影響，美股半導(dǎo)體股呈集體“跳水”趨勢。2019年，英偉達(dá)能否繼續(xù)冠名“AI芯片第一股”？這要看下一代7納米GPU。

2019-02-11 08:36:23

2550

Verint推出AI藍(lán)圖助力企業(yè)AI投資決策

客戶交互企業(yè)Verint? Systems Inc.（納斯達(dá)克股票代碼：VRNT）日前宣布推出AI（人工智能）藍(lán)圖（AI Blueprint?），這是一款獲得專利的對(duì)話分析系統(tǒng)，能夠幫助企業(yè)識(shí)別智能

2019-04-28 10:20:57

2941

依圖挺入“AI芯片”賽道新產(chǎn)品“求索”視覺推理能力超越英偉達(dá)

算法即芯片時(shí)代來臨，云端AI芯片視覺推理超越英偉達(dá)

2019-05-11 10:30:27

3066

英偉達(dá)逐漸陷入紅海 AI芯片在全球呈現(xiàn)群雄逐鹿的競爭格局

對(duì)于英偉達(dá)，很多人并不陌生，特別是在AI時(shí)代，基于英偉達(dá)GPU，AI得到高速發(fā)展，但此時(shí)的英偉達(dá)，日子并不好過——股市一路下跌，由頂峰時(shí)期1500億美元，逐漸降至847億美元。

2019-05-31 16:42:51

715

英偉達(dá)和英特爾激戰(zhàn) AI芯片將迎來一場馬拉松式的較量

英偉達(dá)和英特爾的競爭在AI時(shí)代變得更為直白。英偉達(dá)在AI訓(xùn)練領(lǐng)域具有絕對(duì)優(yōu)勢，英特爾保持著在芯片架構(gòu)上提供完整解決方案的優(yōu)勢的同時(shí)，向英偉達(dá)GPU大本營發(fā)起挑戰(zhàn)，并在AI推理領(lǐng)域建立起了自己的優(yōu)勢。

2019-12-06 17:19:38

835

英偉達(dá)收購Arm對(duì)芯片設(shè)計(jì)生態(tài)有何影響?

借由Arm架構(gòu)在移動(dòng)芯片市場的統(tǒng)治地位，英偉達(dá)能夠提升AI算力在移動(dòng)市場的穿透力，進(jìn)一步拓展AI版圖。英偉達(dá)表示，此次整合將英偉達(dá)領(lǐng)先的 AI 計(jì)算平臺(tái)與 Arm 龐大的生態(tài)系統(tǒng)相結(jié)合，旨在打造人工智能時(shí)代領(lǐng)先的計(jì)算公司，在拓展大規(guī)模、高增長市場的同時(shí)加速創(chuàng)新。

2020-09-15 09:43:30

1566

英偉達(dá)：更強(qiáng)的GPU，更快的AI超算

以400億美元現(xiàn)金加股票的方式，對(duì)軟銀旗下芯片設(shè)計(jì)公司、全球重要芯片架構(gòu)提供商Arm進(jìn)行收購。這兩件事情的成功，為英偉達(dá)在芯片領(lǐng)域的發(fā)展帶來了更深入、更廣泛的發(fā)展前景，以及更為利好的影響。從資本市場的表現(xiàn)就可見一斑，按周一美東時(shí)間11月16日16：00收盤時(shí)的價(jià)格計(jì)算，英偉

2020-11-19 18:00:06

2837

解讀AI芯片發(fā)展現(xiàn)狀及前景

，對(duì)大規(guī)模并行計(jì)算能力有很高的要求，CPU和傳統(tǒng)計(jì)算架構(gòu)無法滿足對(duì)于并行計(jì)算能力的需求［5］，需要特殊定制的芯片。目前，AI芯片行業(yè)已經(jīng)起步并且發(fā)展迅速［6］。 1. AI芯片定義及技術(shù)架構(gòu) 1.1 AI芯片定義廣義上所有面向AI應(yīng)用的芯片都可以稱為AI芯片。目前一般認(rèn)為是針對(duì)A

2021-04-30 09:32:06

5082

AMD全力追趕英偉達(dá)推出新一代AI芯片

AMD在舊金山發(fā)布會(huì)上推出了新一代AI芯片、數(shù)據(jù)中心CPU和DPU。在生成式AI浪潮下，最受關(guān)注的新品是AI芯片Instinct MI 300X，直接與英偉達(dá)的H100競爭。

2023-06-15 16:16:41

1306

AMD正式出擊！推出最新AI芯片挑戰(zhàn)英偉達(dá)

盡管近段時(shí)間，英偉達(dá)在AI領(lǐng)域嶄露頭角，但AMD今日的發(fā)布，勢必要在算力芯片領(lǐng)域掀起一場“腥風(fēng)血雨”。

2023-06-16 08:57:54

660

國產(chǎn)AI芯片進(jìn)展幾何？國產(chǎn)AI芯片之爭才剛剛開始

近日，芯片巨頭AMD推出全新AI GPU MI300系列芯片，與英偉達(dá)在AI 算力市場展開競爭。

2023-07-04 09:45:45

1623

如何取替英偉達(dá)？如何顛覆英偉達(dá)？

隨著生成式AI的火熱以及英偉達(dá)市值沖破萬億美元，如何取替英偉達(dá)，成為AI芯片市場新貴，又成為了一個(gè)熱門話題。

2023-07-10 11:21:26

942

AI芯片市場“百舸爭流”！英偉達(dá)的“鐵王座”還能坐多久？

除了AMD外，英特爾也同樣有望成為攪局者。該公司近來反駁了所謂“只有英偉達(dá)的芯片才能運(yùn)行生成式AI”的說法。英特爾在上月底的一篇博客文章中吹噓了其在最近AI芯片研發(fā)中的表現(xiàn)，稱其芯片可能是“希望擺脫封閉生態(tài)系統(tǒng)的客戶的令人信服的選擇”。

2023-07-12 11:14:19

366

角逐AI算力，比英偉達(dá)最多快10倍，光芯片能成為國產(chǎn)之光嗎？

中信建投指出，近年來光計(jì)算在AI領(lǐng)域呈現(xiàn)高速的發(fā)展，具有廣闊的應(yīng)用前景。以Lightmatter和Lightelligence為代表的公司，推出了新型的硅光計(jì)算芯片，性能遠(yuǎn)超目前的AI算力芯片，據(jù)Lightmatter的數(shù)據(jù)，他們推出的Envise芯片的運(yùn)行速度比英偉達(dá)的A100芯片快1.5到10倍。

2023-07-17 14:47:47

1080

英偉達(dá)全球首發(fā)超級(jí)AI芯片訓(xùn)練大模型成本更低

黃仁勛向數(shù)千名開發(fā)者和圖形專業(yè)人士發(fā)表講話，宣布更新 GH200 Grace Hopper 超級(jí)芯片、英偉達(dá) AI Workbench，并將把生成式 AI 引入英偉達(dá) Omniverse。

2023-08-09 14:42:55

814

鴻海再奪英偉達(dá)大單躍AI服務(wù)器芯片基板最大供應(yīng)商

從nvidia ai供應(yīng)鏈的作用來看，在供應(yīng)鏈分析中，鴻海是gpu模塊（huida ai module）的唯一供應(yīng)商。英偉達(dá)由鴻海（hon hai）和威斯特龍（vestron）供貨。英偉達(dá)的ai基板供應(yīng)商有鴻海、廣達(dá)、video和cmu等。

2023-08-14 09:23:20

633

AI芯片的誕生和發(fā)展背景 AI芯片發(fā)展的技術(shù)方向 AI芯片的發(fā)展趨勢

高算力需求正催生AI芯片的快速迭代，“無芯片，不AI”，以AI芯片為載體實(shí)現(xiàn)的算力正成為人工智能發(fā)展水平的重要衡量標(biāo)準(zhǔn)。

2023-08-16 10:11:50

2400

大摩：英偉達(dá)財(cái)報(bào)超預(yù)期，臺(tái)積電等AI供應(yīng)鏈將受益

摩根士丹利在報(bào)告中表示，英偉達(dá)公布業(yè)績將為ai半導(dǎo)體供應(yīng)鏈中的營業(yè)帶來上升空間。特別是，大摩表示，臺(tái)積電作為英偉達(dá)ai芯片的主要晶片工廠和cowos尖端包裝的主要供應(yīng)企業(yè)，將獲得利潤。

2023-08-24 11:27:22

542

英偉達(dá)是如何成為AI芯片霸主的？

該公司是 ChatGPT 和其他生成人工智能(AI) 應(yīng)用程序興起的最大受益者，幾乎所有這些應(yīng)用程序都由其非常強(qiáng)大的圖形處理器提供支持。在此之前，英偉達(dá)的芯片也被廣泛用于為傳統(tǒng)人工智能系統(tǒng)提供動(dòng)力，在加密貨幣繁榮期間，對(duì)芯片的需求有所增加，因?yàn)樵撔袠I(yè)的系統(tǒng)也依賴于其處理能力。

2023-08-25 15:40:28

638

英國加入全球AI芯片大戰(zhàn)

GPU最初是為視頻游戲設(shè)計(jì)的產(chǎn)品，現(xiàn)已成為英偉達(dá)成功的核心。ChatGPT等AI模型的動(dòng)力就是由英偉達(dá)芯片提供的。目前英偉達(dá)的GPU是全球應(yīng)用最為廣泛的AI 芯片，據(jù)稱《財(cái)富》100強(qiáng)企業(yè)中有一半以上都安裝了英偉達(dá)的AI芯片。

2023-08-26 14:50:28

777

傳微軟砍單英偉達(dá)H100芯片

但中國臺(tái)灣工廠的ai供應(yīng)鏈條方面英偉達(dá)ai芯片仍供不應(yīng)求，但微軟到2024年的需求成倍增加有望保持gh200芯片訂單上調(diào)，ai服務(wù)器的長期成長動(dòng)力是不會(huì)改變?！?/div>

2023-09-20 11:37:00

634

擺脫重度依賴英偉達(dá)，傳微軟自研首款AI芯片下月問世

聊天機(jī)器人chatgpt的問世全球ai熱潮，激發(fā)了市場對(duì)生成式ai技術(shù)應(yīng)用的引起了激烈的爭論，企業(yè)高層人瘋狂地跑在ai芯片的情況下，顯卡芯片龍頭企業(yè)——英偉達(dá)的ai芯片供應(yīng)遠(yuǎn)遠(yuǎn)跟不上需求?！?/div>

2023-10-09 11:06:50

532

OpenAI計(jì)劃自研AI芯片，試圖超越英偉達(dá)的市場份額

據(jù)了解，OpenAI至少從去年開始就開始討論解決AI芯片短缺的方案，包括自研AI芯片、與英偉達(dá)等制造商加強(qiáng)合作，并實(shí)現(xiàn)供應(yīng)商多元化，以超越目前市場上占有80%份額的英偉達(dá)。

2023-10-09 18:24:40

811

大模型AI芯片群雄逐鹿，誰主沉?。?b class="flag-6" style="color: red">英偉達(dá)NVIDIA？AMD？華為？

將探討推進(jìn)芯片快速發(fā)展的技術(shù)（穩(wěn)態(tài)微聚束加速器光源）、華為和英偉達(dá)顯卡的對(duì)比以及賦能生成式AI和LLM大模型負(fù)載L40S服務(wù)器。

2023-10-13 16:26:24

927

4090顯卡全面下架 AI芯片出口管制趨嚴(yán)

4090顯卡全面下架 AI芯片出口管制趨嚴(yán) 英偉達(dá)民用消費(fèi)級(jí)的高端顯卡4090在各個(gè)網(wǎng)上店鋪都顯示無貨，有網(wǎng)友吐槽沒有想到就是玩?zhèn)€網(wǎng)絡(luò)游戲，這也被美國制裁了。 4090顯卡全面下架是因?yàn)槊绹柚?b class="flag-6" style="color: red">英偉

2023-10-19 17:24:32

1513

AI芯片，國產(chǎn)發(fā)展如何了？

gigaflops芯片都會(huì)禁止，同時(shí)，英偉達(dá)A100/A800/H800/H800/L40/L40S/RTX4090、英特爾Gaudi 2、AMD計(jì)劃的中國版GPU等特供版AI芯片的供應(yīng)；先進(jìn)芯片

2023-10-20 08:43:51

1181

英偉達(dá)確認(rèn)為中國推三款改良AI芯片性能暴降80%

據(jù)報(bào)道，nvidia的3種ai芯片不是“改良版”，而是“縮水版”，分別是hgx h20、l20 pcle和l2 pcle。用于ai模型訓(xùn)練的hgx h20雖然帶寬和計(jì)算速度有限，但整體計(jì)算能力理論上比英偉達(dá)h100 gpu芯片低80%左右。

2023-11-13 10:46:07

418

英偉達(dá)推出新款AI芯片H200 性能飆升90%但是估計(jì)依然被出口管制

生成式AI火爆全球之后，英偉達(dá)的AI芯片一張難求，就在英偉達(dá)重量級(jí)選手H100 AI芯片目前依然是一貨難求的情況下，英偉達(dá)推出新款AI芯片H200。 H100目前算是算力市場硬通貨，而H200則更強(qiáng)

2023-11-14 16:45:50

956

英偉達(dá)真是贏麻了！深夜推出最強(qiáng)AI芯片霸場！

10月14日凌晨，英偉達(dá)在2023年全球超算大會(huì)（Supercomputing Conference，SC）上正式宣布，升級(jí)旗艦AI芯片，推出全新的H200芯片，以處理更強(qiáng)大的人工智能系統(tǒng)。包括

2023-11-16 11:27:59

310

騰訊：已儲(chǔ)備足夠英偉達(dá)芯片！

劉熾平表示，騰訊已經(jīng)儲(chǔ)備足夠的英偉達(dá)芯片，可以繼續(xù)開發(fā)名為“混元”的人工智能模型，“至少再持續(xù)幾代”。因此，新的芯片限制短期內(nèi)不會(huì)影響騰訊AI能力的發(fā)展。

2023-11-22 17:00:15

325

英偉達(dá)“閹割版”AI芯片遇阻，推遲至明年發(fā)布

近日，英偉達(dá)（Nvidia）為遵守美國出口規(guī)定而推遲在中國市場推出的新款人工智能（AI）芯片引起了業(yè)界廣泛關(guān)注。

2023-11-28 14:20:52

478

英偉達(dá)擴(kuò)大臺(tái)積電投片，滿足AI處理器需求

雖然美方的出口限制對(duì)英偉達(dá)的AI芯片銷售造成困擾，但英偉達(dá)仍然依靠于各大核心客戶如微軟、Meta、谷歌、AWS、甲骨文和CoreWeave等強(qiáng)大的AI芯片需求市場。

2023-12-15 09:38:09

246

英偉達(dá)與中國市場的博弈英偉達(dá)特供芯片遇冷

英偉達(dá)在面臨美國新規(guī)的挑戰(zhàn)時(shí)，迅速為中國市場開發(fā)了特供版AI芯片，旨在滿足中國對(duì)尖端人工智能技術(shù)的需求。

2024-01-08 17:07:10

596

英偉達(dá)：AI計(jì)算的領(lǐng)導(dǎo)者與市場前景展望

英偉達(dá)在全球AI芯片市場中的份額一直處于領(lǐng)先地位。有數(shù)據(jù)顯示，英偉達(dá)在中國AI芯片市場的規(guī)模預(yù)計(jì)在2023年將達(dá)到110億美元，并且占據(jù)了該市場90%的份額。

2024-01-10 10:04:22

349

印度Yotta公司擬斥資10億購買英偉達(dá)AI芯片

值得注意的是，鑒于美國的相關(guān)限制，英偉達(dá)在向中國及其他部分市場供應(yīng)部分芯片時(shí)遇到了困難。為此，2023年9月，英偉達(dá)成功牽手印度信實(shí)工業(yè)集團(tuán)及塔塔集團(tuán)，共同發(fā)展云基礎(chǔ)設(shè)施、研發(fā)語言模型及應(yīng)用生成性AI技術(shù)。

2024-01-12 10:27:56

341

印度廠商Yotta采購10億美元英偉達(dá)AI芯片

印度數(shù)據(jù)中心運(yùn)營商Yotta近日宣布，計(jì)劃從合作伙伴英偉達(dá)（Nvidia）額外訂購價(jià)值5億美元的AI芯片，使得訂單總額達(dá)到10億美元。這一合作將進(jìn)一步推動(dòng)Yotta在AI云端服務(wù)領(lǐng)域的業(yè)務(wù)發(fā)展。

2024-01-12 15:09:44

537

英特爾推出汽車版AI芯片，與高通、英偉達(dá)展開競爭

在2024年的國際消費(fèi)電子展（CES）上，英特爾正式發(fā)布了一款專為汽車領(lǐng)域設(shè)計(jì)的人工智能（AI）芯片。這一創(chuàng)新產(chǎn)品標(biāo)志著英特爾正式進(jìn)軍車載AI市場，與高通和英偉達(dá)等強(qiáng)勁對(duì)手展開正面競爭。

2024-01-15 15:43:55

334

英偉達(dá)DRIVE Thor超級(jí)芯片首搭極氪新車

英偉達(dá)和極氪汽車宣布了一項(xiàng)令人振奮的合作，新款極氪電動(dòng)汽車將全球首發(fā)搭載英偉達(dá)DRIVE Thor超級(jí)芯片。這款新車預(yù)計(jì)將在2025年正式上市，而DRIVE Thor超級(jí)芯片將為其帶來前所未有的AI功能。

2024-01-25 17:25:42

666

英偉達(dá)涉足定制芯片，聚焦云計(jì)算與AI市場

　作為全球高端AI芯片市場80%份額的霸主，英偉達(dá)自2023以來股價(jià)上漲超過兩倍，2024年市值高達(dá)1.73萬億美元。知名公司如微軟、OpenAI、Meta紛紛采購英偉達(dá)高端AI芯片，以保持其在迅猛發(fā)展的AI行業(yè)中的領(lǐng)先地位

2024-02-18 11:08:31

222

英偉達(dá)再為中國市場特供兩款新型AI芯片樣品

在全球科技舞臺(tái)上，英偉達(dá)一直以其領(lǐng)先的AI芯片技術(shù)備受矚目。然而，在美國政府的出口限制之下，英偉達(dá)為確保在中國市場的地位，不得不推出性能較低但符合出口管制規(guī)定的AI芯片。盡管這一策略在美國備受爭議，但英偉達(dá)似乎并未放棄中國市場。

2024-02-25 11:21:06

445

“網(wǎng)紅”芯片Groq讓英偉達(dá)蒸發(fā)5600億

鑒于ChatGPT的廣泛應(yīng)用，引發(fā)了AI算力需求的迅猛增長，使得英偉達(dá)的AI芯片供不應(yīng)求，出現(xiàn)大規(guī)模短缺。如今，英偉達(dá)似乎在面對(duì)更多挑戰(zhàn)。

2024-02-27 15:10:55

372

英偉達(dá)要小心了！爆火的Groq芯片能翻盤嗎？AI推理速度「吊打」英偉達(dá)？

隨著科技的飛速發(fā)展，人工智能公司Groq挑戰(zhàn)了英偉達(dá)的王者地位，其AI芯片不僅展現(xiàn)出卓越的實(shí)力，還擁有巨大的潛力。Groq設(shè)計(jì)了一種獨(dú)特的推理代幣經(jīng)濟(jì)學(xué)模式，該模式背后牽動(dòng)著眾多因素，卻也引發(fā)了深度

2024-03-08 09:44:52

263

英偉達(dá)最新AI芯片售價(jià)將超3萬美元

英偉達(dá)最新AI芯片Blackwell的售價(jià)引發(fā)了業(yè)界的廣泛關(guān)注。據(jù)公司創(chuàng)始人黃仁勛透露，這款芯片的售價(jià)預(yù)計(jì)將在3萬美元至4萬美元之間。這一價(jià)格定位不僅彰顯了英偉達(dá)在AI芯片領(lǐng)域的強(qiáng)大實(shí)力，更凸顯了公司對(duì)于技術(shù)創(chuàng)新的執(zhí)著追求。

2024-03-21 10:50:01

221

已全部加載完成

搜索歷史

全面解讀英偉達(dá)AI芯片發(fā)展藍(lán)圖

評(píng)論