新的一年已經(jīng)成為我們一段時(shí)間以來數(shù)據(jù)中心芯片領(lǐng)域最重要的一年。每個(gè)主要芯片公司都計(jì)劃在未來 12 個(gè)月內(nèi)更新其 CPU 和/或 GPU 產(chǎn)品線。
Nvidia 計(jì)劃在 2024 年推出大量新的加速器、GPU 架構(gòu)和網(wǎng)絡(luò)套件。英特爾將與新的 Habana Gaudi AI 芯片一起推出可以說是多年來最引人注目的 Xeon。與此同時(shí),AMD 憑借 MI300 系列的推出,計(jì)劃將其第五代 Epyc 處理器推向市場。
讓我們深入了解 2024 年我們關(guān)注的一些大型數(shù)據(jù)中心芯片的發(fā)布(排名不分先后)。
01.?Nvidia 搭載 HBM3e 的 H200 AI 芯片到貨
Nvidia 的 H200 加速器將是 2024 年首批投放市場的新芯片之一。GPU 本質(zhì)上是久負(fù)盛名的 H100 的更新版。
您可能期望最新的芯片能夠比老款芯片提供更高的性能提升,但事實(shí)并非如此。仔細(xì)閱讀規(guī)格表,您會(huì)發(fā)現(xiàn)浮點(diǎn)性能與 H100 相同。相反,該部件的性能提升(Nvidia 聲稱 Llama 70B 等 LLM 的性能提升了一倍)取決于該芯片的 HBM3e 內(nèi)存堆棧。
我們承諾 H200 將配備高達(dá) 141 GB 的 HBM3e 內(nèi)存,可實(shí)現(xiàn)高達(dá) 4.8TB/s 的帶寬。隨著 LLM 的普及(例如 Meta 的 Llama 2、Falcon 40B、Stable Diffusion 等),內(nèi)存容量和帶寬對(duì)推理性能產(chǎn)生巨大影響,即單個(gè)加速器或服務(wù)器可以容納多大的模型,以及您可以同時(shí)處理多少個(gè)請(qǐng)求。
正如我們最近在對(duì) AMD 和 Nvidia 基準(zhǔn)測試失敗的分析中所探討的那樣,對(duì)于此類 AI 工作負(fù)載,F(xiàn)LOPS 并不像內(nèi)存容量和帶寬那么重要。
02.?Hopper的繼任者采用“Blackwell”架構(gòu)
根據(jù) 2023 年的投資者演示,H200 將不會(huì)是我們?cè)?2024 年看到的 Nvidia 唯一的 GPU。為了鞏固其領(lǐng)導(dǎo)地位,Nvidia 正在轉(zhuǎn)向每年發(fā)布新芯片和我們看到的第一個(gè)新部件的發(fā)布節(jié)奏。格林隊(duì)將成為 B100。
據(jù)我們了解,這里的“B”是微架構(gòu)名稱 Blackwell 的縮寫,大概是對(duì)美國統(tǒng)計(jì)學(xué)家 David Blackwell 的致敬。除了 2024 年推出之外,我們對(duì)該部件的了解仍然不多。
就目前情況而言,AMD 新推出的 MI300X GPU 不僅比 H200 具有更高的 FLOPS,而且還具有更多、更快的啟動(dòng)內(nèi)存。我們無法想象英偉達(dá)對(duì)此感到高興,特別是考慮到這家美國巨頭最近的防御性有多強(qiáng)。因此,我們完全期望 B100 能夠提供更高的 FLOPS 和更多的 HBM3e 堆棧,從而將加速器的內(nèi)存容量和帶寬推向新的高度。
除了 GPU 本身之外,Nvidia 的路線圖還包括更多 CPU-GPU 超級(jí)芯片,稱為 GB200 和 GB200NVL。這些處理器是否會(huì)繼續(xù)使用當(dāng)前 Grace 和 Grace-Hopper 超級(jí)芯片中基于 Arm Neoverse V2 的 CPU 內(nèi)核,或者是否會(huì)采用一些下一代內(nèi)核,還有待觀察。
然后是B40。從歷史上看,此類卡針對(duì)的是可以在單個(gè) GPU 中運(yùn)行的較小企業(yè)工作負(fù)載。該部件將取代 L40 和 L40S,并將 Nvidia 的企業(yè) GPU 系列整合到單一總體架構(gòu)下。
可以說,英偉達(dá)加速路線圖中最有趣的部分與網(wǎng)絡(luò)有關(guān)。Nvidia 正在尋求與 Blackwell 實(shí)現(xiàn) 800Gb/s 連接,盡管正如我們之前探討的那樣,這帶來了一些獨(dú)特的挑戰(zhàn),因?yàn)?PCIe 5.0 的速度還遠(yuǎn)遠(yuǎn)不夠,而 PCIe 6.0 仍然有一些距離。
當(dāng)我們看到這些Blackwell仍然懸而未決時(shí),但是,如果歷史可以回顧的話,我們可能不必等待那么久。Nvidia 在加速器實(shí)際可供購買之前幾個(gè)月(當(dāng)然有時(shí)是幾年)預(yù)先發(fā)布加速器的歷史由來已久。
Nvidia 在 2022 年初預(yù)告了其 Grace-Hopper 超級(jí)芯片,但據(jù)我們了解,這些部件現(xiàn)在才進(jìn)入客戶手中。因此,我們最早可以在 GTC 上獲得有關(guān)基于 Blackwell 的部件的更多詳細(xì)信息。
03.?英特爾推出自己的全新加速器迎接新年
與加速器主題保持一致,英特爾計(jì)劃于 2024 年某個(gè)時(shí)候發(fā)布其第三代 Gaudi AI 芯片。
這一部分意義重大,因?yàn)殡S著Ponte Vecchio后繼者Rialto Bridge的取消,Habana Lab 的 Gaudi3 代表了英特爾提供的最好的人工智能訓(xùn)練和推理平臺(tái)——至少在 Falcon Shores 于 2025 年到來之前是這樣。
雖然英偉達(dá)和 AMD 幾個(gè)月來一直習(xí)慣于調(diào)侃和炒作他們的產(chǎn)品發(fā)布,但英特爾卻對(duì)此守口如瓶。到目前為止,我們看到的大部分內(nèi)容都來自這張演示幻燈片,至少從9 月份的創(chuàng)新活動(dòng)開始,它就一直在展示這張幻燈片:
該幻燈片聲稱,5nm 芯片 Gaudi3 的 Brain Float 16 (BF16) 性能是 7nm 版本 2 的 4 倍,網(wǎng)絡(luò)帶寬是兩倍,HBM 帶寬是 1.5 倍。
通常這些數(shù)字可以為我們提供推斷相對(duì)績效數(shù)據(jù)的起點(diǎn)。不幸的是,要做到這一點(diǎn),英特爾必須告訴我們 Gaudi2 的 BF16 性能實(shí)際上是什么。我們問過,他們不想談?wù)撨@個(gè)問題,盡管他們聲稱 Gaudi3 改進(jìn)了 4 倍。相反,英特爾希望關(guān)注實(shí)際性能而不是基準(zhǔn)比較。
坦率地說,這是一個(gè)令人困惑的營銷決定,因?yàn)槿绻麤]有參考框架,這種說法基本上毫無意義。此外,從表面上看,x86 巨頭這次使用了 8 個(gè) HBM 堆棧,而不是 6 個(gè)。
除了 Gaudi3 之外,我們還獲悉,Gaudi2 的版本將再次針對(duì)中國市場進(jìn)行調(diào)低(以符合美國對(duì)中國的出口限制),英特爾聲稱它將在之前發(fā)貨傳聞中的Nvidia H20芯片已登陸大陸。
04.?英特爾與 Sierra Forest?攜手加入云 CPU 隊(duì)伍
與此同時(shí),在 CPU 方面,英特爾計(jì)劃在 2024 年推出一項(xiàng)雙重功能,將使用其推遲已久的 Intel 3 處理技術(shù)。需要明確的是,英特爾并不是突然轉(zhuǎn)向 3nm。多年來,該公司一直致力于這個(gè)節(jié)點(diǎn)(以前稱為 7nm)。它最終被重新命名為 Intel 4 和 Intel 3,以使其在營銷方面與競爭節(jié)點(diǎn)的晶體管密度更加一致。
我們將在 2024 年上半年推出首款基于 Intel-3 的 Xeon 處理器。該芯片代號(hào)為 Sierra Forest,可配備一對(duì) 144 核芯片,每個(gè)插槽總共有 288 個(gè) CPU 核心。當(dāng)然,這些核心與我們?cè)谶^去的至強(qiáng)中看到的核心不同。它們是英特爾效率核心架構(gòu)的演變,早在 2021 年,隨著Alder Lake的推出,該架構(gòu)就開始出現(xiàn)在 PC 和筆記本處理器中。
不過,雖然這些芯片通常配有一組性能核心,但 Sierra Forest 都是電子核心,旨在與 Ampere、AMD 以及 AWS 和微軟等云提供商部署的大量定制 Arm CPU 競爭。
英特爾聲稱的優(yōu)勢在于,它可以在單個(gè)插槽或機(jī)箱中裝入比其他任何產(chǎn)品更多的內(nèi)核,同時(shí)保持與大多數(shù) x86 二進(jìn)制文件的兼容性。我們說“大多數(shù)”是因?yàn)?e-core 不具有與過去的 Xeon 相同的功能集。
兩個(gè)最大的區(qū)別是完全缺乏 AVX512 和高級(jí)矩陣擴(kuò)展 (AMX) 支持。這里的論點(diǎn)是,我們看到廣泛部署在云中的許多工作負(fù)載(例如 Nginx)不一定受益于這些功能,因此,與其將大量的芯片空間專用于大型向量和矩陣計(jì)算,不如將該空間相反,可以用于將更多核心封裝到每個(gè)芯片上。
然而,并非所有芯片公司都同意這種做法。AMD 于 2023 年春季推出的Bergamo Epycs 采用了截然不同的方法。這些服務(wù)器處理器使用 AMD Zen 4 核心的緊湊版本,稱為 Zen 4c,以時(shí)鐘速度換取更小的占地面積。這使得 AMD 能夠?qū)?128 個(gè)核心封裝到每個(gè)處理器封裝的 8 個(gè)計(jì)算芯片中,而無需犧牲功能。
兩種方法都有優(yōu)點(diǎn)。根據(jù)虛擬機(jī)管理程序的不同,缺乏某些 CPU 功能可能會(huì)導(dǎo)致將工作負(fù)載從一個(gè)機(jī)器遷移到另一個(gè)機(jī)器時(shí)出現(xiàn)問題。英特爾希望通過 AVX10 來克服這個(gè)問題,我們?cè)诮衲晗奶鞂?duì)其進(jìn)行了深入研究。簡而言之,它旨在向后移植許多更具吸引力的功能,例如從 AVX512 到 AVX2 的 FP16 和 BF16 支持。結(jié)果是您不太可能遇到這種遷移問題,除非您確實(shí)需要 512 位寬向量寄存器。
05.?英特爾與 Granite Rapids 腳踏實(shí)地
進(jìn)入鮮為人知的領(lǐng)域,英特爾的 Granite Rapids Xeon 將于 2024 年晚些時(shí)候推出。雖然 Sierra Forest 優(yōu)先考慮微型核心的負(fù)載,但 Granite Rapids 是圍繞 x86 巨頭的性能核心構(gòu)建的更傳統(tǒng)的Xeon 服務(wù)器處理器。
我們?nèi)匀徊恢浪鼘⒂卸嗌賯€(gè)核心,也不知道頂級(jí)部件的時(shí)鐘速度有多快,但我們被告知它將超過 Emerald Rapids。我們確實(shí)知道,該芯片將采用比 Sapphire 或 Emerald Rapids 更加模塊化的小芯片架構(gòu),每個(gè)封裝最多有五個(gè)芯片——三個(gè)計(jì)算芯片和兩個(gè) I/O。
根據(jù) SKU 的不同,該芯片將配備更多或更少的計(jì)算芯片,使英特爾能夠利用 AMD 多年來享有的模塊化優(yōu)勢。此前,2023 年的 Xeon 要么在所謂的“極端核心數(shù) (XCC) 芯片上配備一個(gè)大型中等核心數(shù) (MCC) 芯片,要么在所謂的“極端核心數(shù) (XCC) 芯片上配備兩個(gè)大型 (Emerald) 或四個(gè)較小 (Sapphire) 計(jì)算芯片。
英特爾的下一代 Xeon 將 I/O 功能分解到一對(duì)三明治結(jié)構(gòu)的芯片中。這些 I/O 芯片非常重要,因?yàn)樗鼈冇兄诳s小與 AMD 的差距,AMD 不僅在過去五年中保持著核心數(shù)量優(yōu)勢,而且通常還提供更多、更快的 PCIe 通道和內(nèi)存通道。
正如我們?cè)?2023 年 Hot Chips 會(huì)議上了解到的那樣,Granite Rapids 將具有 12 個(gè)內(nèi)存通道(與 AMD 的 Epyc 4 相同),并將支持 8,800MT/s MCR DIMM。MCR 相當(dāng)酷,因?yàn)樗试S芯片向芯片提供 845GB/s 的內(nèi)存帶寬。這還達(dá)不到英特爾第 4 代 Xeon Max 部件通過板載 HBM所能達(dá)到的1TB/s速度,但 MCR DIMM 將接近并允許更高的容量。
該芯片系列還將支持多達(dá) 136 個(gè) PCIe/CXL 通道,但僅支持 PCIe 5.0 速度。PCIe 6.0可能會(huì)在 2024 年推出,但對(duì)于英特爾的“下一代”Xeon 來說還來不及。
06.?AMD Zen 5 來了
當(dāng)然,AMD 將推出 Turin,這是其第五代 Epyc 服務(wù)器處理器,由新的 Zen 5 內(nèi)核提供支持。目前,我們對(duì)這一部分沒什么可說的,只能說它會(huì)在 2024 年的某個(gè)時(shí)候發(fā)布。
考慮到時(shí)間,我們可以做出一些假設(shè)。我們打賭該芯片將在其計(jì)算塊中使用臺(tái)積電的 4nm 或 3nm 工藝技術(shù),但很難說 I/O 芯片是否會(huì)縮小工藝。
除此之外,我們只能指出最近通過 Xitter分享的泄密事件,這些泄密事件表明 AMD 可能會(huì)再次增加其產(chǎn)品線的核心數(shù)量。如果泄漏屬實(shí),我們可能會(huì)看到具有多達(dá) 128 個(gè) Zen 5 核心或 192 個(gè) Zen 5c 核心的 Epyc 處理器。
核心復(fù)合芯片 (CCD) 本身與Genoa和Bergamo相比似乎沒有太大變化,每個(gè)小芯片分別有 8 個(gè)或 16 個(gè)核心。據(jù)報(bào)道,AMD 將在其通用用途上使用 16 個(gè)計(jì)算芯片,并在以云為中心的平臺(tái)上使用 12 個(gè)計(jì)算芯片,以實(shí)現(xiàn)聲稱的核心數(shù)量。話雖如此,我們還得拭目以待,看看泄露的消息是否準(zhǔn)確。
近年來,AMD 的 Eypc 產(chǎn)品線變得更加復(fù)雜,目前涵蓋通用、高性能計(jì)算、云和邊緣應(yīng)用。AMD 傳統(tǒng)上會(huì)在大約一年的時(shí)間內(nèi)推出這些芯片。Epyc 4 于 2022 年 11 月推出,Bergamo 和 Genoa-X 于 2023 年 6 月推出,其專注于邊緣的 Siena 部件直到 9 月份才出現(xiàn)。
07.?驚喜等待著您
需要絕對(duì)明確的是,這絕不是 2024 年即將推出的數(shù)據(jù)中心處理器的詳盡列表。我們完全預(yù)計(jì)未來 12 個(gè)月將會(huì)出現(xiàn)更多驚喜,特別是隨著人工智能炒作列車的速度加快以及云提供商繼續(xù)擁抱定制硅。
微軟最近涉足定制人工智能和 CPU 領(lǐng)域,而谷歌已經(jīng)擁有幾代張量處理單元,并且有傳言稱正在開發(fā)自己的 CPU。
我們還將關(guān)注 Arm 為推動(dòng)其 Neoverse 核心架構(gòu)和計(jì)算子系統(tǒng) (CSS) IP 堆棧所做的努力。后者是我們所見過的 Arm 在現(xiàn)代最接近設(shè)計(jì)整個(gè)處理器的方式。
還有大量半導(dǎo)體S初創(chuàng)公司,如 Ampere、Graphcore、Cerebras、SambaNova、Groq 等,希望在人工智能新世界秩序中開辟一席之地。到 2024 年,如果看到這些供應(yīng)商中的任何一家推出新芯片、產(chǎn)品和系統(tǒng),我們都不會(huì)感到驚訝。
審核編輯:黃飛
?
評(píng)論
查看更多