在雄心勃勃的將 CPU 和 GPU 集成到芯片中的計(jì)劃突然逆轉(zhuǎn)后,英特爾終于提供了有關(guān)其超級(jí)計(jì)算芯片路線圖的大規(guī)模更改的具體細(xì)節(jié)。
該芯片制造商分享了即將推出的名為 Falcon Shores 的芯片的更多細(xì)節(jié),該芯片最初被定為 XPU(統(tǒng)一的 CPU 和 GPU)。Falcon Shores 現(xiàn)在是一款純 GPU 產(chǎn)品,并針對(duì)科學(xué)和 AI 計(jì)算進(jìn)行了重新配置。
?
“我之前推動(dòng)并強(qiáng)調(diào)將 CPU 和 GPU 集成到 XPU 中還為時(shí)過(guò)早。原因是,我們覺(jué)得我們所處的市場(chǎng)比我們一年前想象的要活躍得多,”英特爾公司副總裁兼超級(jí)計(jì)算事業(yè)部總經(jīng)理 Jeff McVeigh 在新聞發(fā)布會(huì)上說(shuō)。
新的 Falcon Shores 芯片是面向高性能計(jì)算和 AI 的下一代獨(dú)立 GPU。它包括來(lái)自 Gaudi 系列的 AI 處理器(在 Falcon Shores 發(fā)布時(shí)將是第 3 版),還包括標(biāo)準(zhǔn)以太網(wǎng)交換、HBM3 內(nèi)存和大規(guī)模 IO。
“這提供了跨供應(yīng)商的靈活性,可以將 Falcon Shores GPU 與其他 CPU 以及 CPU 與 GPU 的結(jié)合起來(lái),同時(shí)仍然提供非常通用的基于 GPU 的編程接口,并在 CPU 和 GPU 之間共享 CXL,以提高生產(chǎn)力和性能對(duì)于這些代碼,”McVeigh 說(shuō)。
Falcon Shores GPU 是代號(hào)為 Ponte Vecchio 的 Max 系列 GPU 的繼任者,現(xiàn)在將于 2025 年推出。英特爾在 3 月份廢棄了代號(hào)為 Rialto Bridge 的超級(jí)計(jì)算機(jī) GPU,該 GPU 是 Ponte Vecchio 的指定后續(xù)產(chǎn)品。
McVeigh 說(shuō),計(jì)算環(huán)境還不成熟,無(wú)法實(shí)施 XPU 戰(zhàn)略,并補(bǔ)充說(shuō),圍繞生成式人工智能和大型語(yǔ)言模型的創(chuàng)新——其中大部分來(lái)自商業(yè)領(lǐng)域——引發(fā)了英特爾關(guān)于如何構(gòu)建下一代超級(jí)計(jì)算芯片的思維轉(zhuǎn)變。
與此同時(shí),英特爾還發(fā)布了新的 HPC 和 AI 路線圖,其中沒(méi)有顯示 Gaudi3 處理器的繼任者——相反,Gaudi 和 GPU 與 Falcon Shores GPU 合并,因?yàn)樗^承了英特爾首屈一指的 HPC 和 AI 芯片。英特爾告訴我們,它“計(jì)劃整合 Habana 和 AXG 產(chǎn)品 [GPU] 路線圖”,但整合的細(xì)節(jié)很少。
Gaudi 計(jì)算架構(gòu)與標(biāo)準(zhǔn) GPU 有很大不同,因此其計(jì)算架構(gòu)似乎無(wú)法完全集成到 GPU 中。因此,英特爾可以將Gaudi設(shè)計(jì)的較小部分(例如其網(wǎng)絡(luò)接口或其他 IP 塊)整合到其 GPU 中。回顧一下,英特爾為 Habana Labs 支付了 20 億美元,并取消了其 3.5 億美元收購(gòu) Nervana 的產(chǎn)品,以專注于 Gaudi 芯片。
然而,如上所示,F(xiàn)alcon Shores 的原始計(jì)劃確實(shí)包括通過(guò)將不同數(shù)量的 CPU 或 GPU 塊放入四塊設(shè)計(jì)中來(lái)調(diào)整 CPU/GPU 的能力,從而允許它配置最佳混合各種工作量。此外,從設(shè)計(jì)上講,處于前沿的超級(jí)計(jì)算機(jī)是針對(duì)手頭任務(wù)的高度專業(yè)化設(shè)計(jì),針對(duì)架構(gòu)的軟件調(diào)整只是運(yùn)行超級(jí)計(jì)算機(jī)業(yè)務(wù)的常規(guī)部分。這些因素意味著 CPU/GPU 比率并不是英特爾從設(shè)計(jì)中移除 CPU 內(nèi)核的唯一原因。
生成式 AI 和 LLM 將在科學(xué)計(jì)算中得到廣泛采用,CPU 和 GPU 的解耦將為具有不同工作負(fù)載的客戶提供更多選擇。
“當(dāng)您身處工作負(fù)載瞬息萬(wàn)變的動(dòng)態(tài)市場(chǎng)時(shí),您真的不想強(qiáng)迫自己走固定 CPU 與 GPU 的道路。你不想修復(fù)供應(yīng)商甚至所使用的架構(gòu)……x86,Arm?!?McVeigh說(shuō)。
CPU 和 GPU 的集成可以降低成本并節(jié)省電力,但它會(huì)將客戶鎖定在供應(yīng)商和配置上。但這將隨著新的 Falcon Shores 的出現(xiàn)而改變,McVeigh表示,他補(bǔ)充說(shuō):“我們只是覺(jué)得要對(duì)今天的市場(chǎng)進(jìn)行清算,現(xiàn)在還不是整合的時(shí)候?!?/p>
雖然在不久的將來(lái)不會(huì)將 CPU 和 GPU 合并用于超級(jí)計(jì)算,但英特爾并沒(méi)有放棄這個(gè)想法。
“我們會(huì)在合適的時(shí)間,”McVeigh說(shuō),并補(bǔ)充道,“當(dāng)天氣合適的時(shí)候,我們會(huì)這樣做。我們只是覺(jué)得這不適合下一代?!?/p>
獨(dú)立的 GPU 還將為供應(yīng)商提供更大的靈活性,讓他們可以使用具有 x86 以外的不同 CPU 的 GPU 構(gòu)建系統(tǒng)。英特爾已達(dá)成協(xié)議,可能會(huì)在其工廠生產(chǎn)基于 Arm 的芯片。
服務(wù)器設(shè)計(jì)也有望隨著 CXL(Compute Express Link)互連而改變,這鼓勵(lì)組件解耦,因此 GPU、AI 芯片和其他加速器可以輕松訪問(wèn)大型存儲(chǔ)和內(nèi)存池。
“問(wèn)題是,這通常落在我們的 OEM 合作伙伴的肩上,他們希望如何將我們的 GPU 與其他供應(yīng)商的 CPU 集成,但我們?yōu)閷?shí)現(xiàn)這一目標(biāo)敞開(kāi)大門(mén),并利用 PCI Express 等標(biāo)準(zhǔn)接口,和 CXL 等等,使我們能夠非常有效地做到這一點(diǎn),”McVeigh說(shuō)。
但英特爾面臨來(lái)自 AMD 的 Instinct MI300 的挑戰(zhàn),該產(chǎn)品預(yù)計(jì)將于今年晚些時(shí)候發(fā)貨,并將為勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室的 2 exaflops(峰值)超級(jí)計(jì)算機(jī) El Capitan 提供動(dòng)力。Nvidia 目前在商業(yè)生成人工智能市場(chǎng)占據(jù)主導(dǎo)地位,該公司的 H100 GPU 在谷歌、Facebook 和微軟運(yùn)營(yíng)的數(shù)據(jù)中心運(yùn)行。
英特爾將利用 Falcon Shores 的 GPU 編程模型,類似于 Nvidia 采用的 CUDA 編程框架。英特爾的 OneAPI 工具包有一系列編譯器、庫(kù)和編程工具,可以在 Falcon Shores GPU、Gaudi AI 處理器和英特爾將放入超級(jí)計(jì)算芯片的其他加速器上執(zhí)行。
OneAPI 中名為 SYCL 的工具可以編譯超級(jí)計(jì)算和 AI 應(yīng)用程序,以在 Intel、Nvidia 和 AMD 的一系列硬件上運(yùn)行。它還可以通過(guò)剝離特定于 CUDA 的代碼來(lái)重新編譯為 Nvidia GPU 編寫(xiě)的應(yīng)用程序。例如,LRZ 從 Fortran 移植了 DPEcho 天體物理學(xué)代碼,并且能夠在 Intel 和 Nvidia GPU 上有效運(yùn)行(下面的基準(zhǔn)測(cè)試幻燈片)。
英特爾分享了除 GPU 課程修正之外的其他披露信息。
該芯片制造商為其 Aurora 超級(jí)計(jì)算機(jī)交付了超過(guò) 10,624 個(gè)采用 HBM 的 Xeon Max 系列芯片計(jì)算節(jié)點(diǎn),其中包括 21,248 個(gè) CPU 節(jié)點(diǎn)、63,744 個(gè) GPU、10.9PB 的 DDR 內(nèi)存和 230PB 的存儲(chǔ)空間。
“在全面優(yōu)化、交付代碼和驗(yàn)收方面,我們還有很多工作要做。但這是一個(gè)至關(guān)重要的里程碑,我們……非常高興能夠?qū)崿F(xiàn),”McVeigh說(shuō)。
這個(gè)里程碑對(duì)英特爾來(lái)說(shuō)很重要,因?yàn)?Aurora 的部署已經(jīng)被推遲。這臺(tái)有望突破 2 exaflops(峰值)門(mén)檻的超級(jí)計(jì)算機(jī)將無(wú)法躋身今年 5 月全球最快超級(jí)計(jì)算機(jī) Top500 榜單。
“我們真正專注于推出整個(gè)系統(tǒng)……穩(wěn)定并運(yùn)行……獲得真正的工作負(fù)載,而不僅僅是運(yùn)行和運(yùn)行的基準(zhǔn)。我們預(yù)計(jì)到 11 月,我們將在 Top500 系統(tǒng)中提供強(qiáng)大的產(chǎn)品,”McVeigh 說(shuō)。
最近在戴爾主辦的網(wǎng)絡(luò)研討會(huì)上,Rick Stevens(阿貢實(shí)驗(yàn)室)分享說(shuō),F(xiàn)rontier 每年將為關(guān)鍵的科學(xué)工作負(fù)載貢獻(xiàn)大約 7800 萬(wàn)個(gè)四 GPU 小時(shí)。
包括英特爾、HPE 和阿貢國(guó)家實(shí)驗(yàn)室在內(nèi)的主要 HPC 參與者正在聯(lián)手開(kāi)發(fā)一種名為 AuroraGPT 的科學(xué)計(jì)算大型語(yǔ)言模型,該模型建立在 1 萬(wàn)億個(gè)參數(shù)的基礎(chǔ)模型之上,比 ChatGPT 大得多,后者是建立在 GPT-3 基礎(chǔ)模型之上。
生成式人工智能技術(shù)將基于可用的科學(xué)數(shù)據(jù)和文本以及代碼庫(kù),并像商業(yè)大型語(yǔ)言模型一樣發(fā)揮作用。目前尚不清楚該技術(shù)是否會(huì)是多模態(tài),并生成圖像和視頻。如果它是多模態(tài)的,一個(gè)例子可能是研究人員提出問(wèn)題,人工智能提供響應(yīng),或者使用人工智能生成科學(xué)圖像。
LLM將用于“推動(dòng)科學(xué)發(fā)展并利用 Aurora 進(jìn)行訓(xùn)練,其推論將成為系統(tǒng)部署方式的關(guān)鍵部分,”McVeigh 說(shuō)。
AuroraGPT 可用于材料、癌癥和氣候科學(xué)的研究。基礎(chǔ)模型包括 Megatron 和 DeepSpeed 變壓器。
英特爾還宣布將推出一款通用基板 (UBB) 系統(tǒng),該系統(tǒng)最初采用基于 Supermicro 和 Inspur 的設(shè)計(jì),配備八個(gè) Ponte Vecchio Max 系列 GPU(如標(biāo)題圖片所示)。這些服務(wù)器針對(duì) AI 部署,McVeigh 表示支持 8-GPU 配置。該產(chǎn)品于今年早些時(shí)候推出,預(yù)計(jì)將在第三季度推出。
編輯:黃飛
評(píng)論
查看更多