Intel Gaudi 3處理器產(chǎn)品細(xì)節(jié)曝光

在SC23上，英特爾和AMD在超級(jí)計(jì)算機(jī)上爭(zhēng)霸。

會(huì)上，Top500組織發(fā)布了半年度全球最快超級(jí)計(jì)算機(jī)排行榜，AMD 驅(qū)動(dòng)的 Frontier 超級(jí)計(jì)算機(jī)以 1.194 Exaflop/s (EFlop/s) 的性能穩(wěn)居榜首，擊敗了一半的超級(jí)計(jì)算機(jī)。而來(lái)自阿貢國(guó)家實(shí)驗(yàn)室基于英特爾的 Aurora 超級(jí)計(jì)算機(jī)提交的規(guī)模為 585.34 Petaflop/s (PFlop/s)。

阿貢提交的方案僅采用了?Aurora?系統(tǒng)的一半，在 Top500 中排名第二，取代日本的?Fugaku，成為世界上第二快的超級(jí)計(jì)算機(jī)。英特爾還推出了 20 款基于 Sapphire Rapids CPU 的新型超級(jí)計(jì)算機(jī)進(jìn)入榜單，但 AMD 的 EPYC（霄龍）繼續(xù)占據(jù) Top500 的位置，目前為榜單上的 140 個(gè)系統(tǒng)提供支持，同比增長(zhǎng) 39%。

英特爾和阿貢國(guó)家實(shí)驗(yàn)室目前仍在努力讓 Arora 在 2024 年全面上線。Aurora 提交代表了 10,624 個(gè)英特爾 CPU 和 31,874 個(gè)英特爾 GPU 協(xié)同工作，以總共 24.69 兆瓦 (MW) 的功率提供 585.34 PFlop/s。相比之下，AMD 的 Frontier 以 1.194 EFlop/s 的性能奪冠，這是 Aurora 性能的兩倍多，但消耗的能源卻相對(duì)較少，為 22.70 MW（是的，完整的 Frontier 超級(jí)計(jì)算機(jī)的功耗還不到 Aurora 系統(tǒng)的一半）。Aurora 在本次提交中并未進(jìn)入 Green500（最節(jié)能的超級(jí)計(jì)算機(jī)名單），但 Frontier 繼續(xù)在該名單上排名第八。

然而，Aurora 在完全上線后預(yù)計(jì)最終將達(dá)到 2 EFlop/s 的性能。完成后，Auroroa 將擁有 21,248 個(gè) Xeon Max CPU 和 63,744 個(gè) Max 系列“Ponte Vecchio”GPU，分布在 166 個(gè)機(jī)架和 10,624 個(gè)計(jì)算刀片上，使其成為世界上已知最大的 GPU 單一部署。該系統(tǒng)利用 HPE Cray EX（Intel Exascale 計(jì)算刀片）并使用 HPE 的 Slingshot-11 網(wǎng)絡(luò)互連。

AMD 正在勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室部署 El Capitan ，預(yù)計(jì)其速度比 Aurora 更快，性能可達(dá) 2 EFlop/s+。因此，英特爾不斷推遲的Aurora 可能永遠(yuǎn)不會(huì)在 Top500 榜單上占據(jù)第一的位置——下一輪 Top500 提交的競(jìng)賽肯定會(huì)在 2024 年 6 月開(kāi)始。

2018 年。當(dāng)時(shí)，系統(tǒng)設(shè)計(jì)為使用 Knights Hill 處理器，后來(lái)被取消。此后的幾年里，該系統(tǒng)經(jīng)歷了多次重新設(shè)計(jì)和重新安排，新的 Aurora 于 2019 年宣布，將于 2021 年提供 1 exaflop 的性能。2021 年末的另一次重新安排聲稱該系統(tǒng)在完成后將提供 2 exaflop 的性能，這是現(xiàn)在定于明年進(jìn)行，英特爾、阿貢和慧與將繼續(xù)致力于系統(tǒng)驗(yàn)證、驗(yàn)證以及在新系統(tǒng)中擴(kuò)展工作負(fù)載。您可以在此處查看Argonne 今天分享的其他 Aurora 基準(zhǔn)測(cè)試。

與此同時(shí)，部署在Azure云中的微軟新Eagle超級(jí)計(jì)算機(jī)目前已占據(jù)排行榜第三位，將日本富岳推至排行榜第四位。Eagle是第一個(gè)突破前十的云系統(tǒng)。芬蘭卡亞尼的 LUMI 系統(tǒng)以 379.70 PFlop/s 的性能躋身前五。

英特爾運(yùn)行 1 萬(wàn)億參數(shù)模型的超算

在 Supercomputing 2023 上，英特爾提供了有關(guān)其最新 HPC 和 AI 計(jì)劃的大量更新，包括有關(guān)第五代 Emerald Rapids 和未來(lái) Granite Rapids Xeon CPU、Guadi 加速器、針對(duì)Nvidia H100 GPU 的新Max 系列 GPU 基準(zhǔn)測(cè)試的新信息，以及公司在Aurora 超級(jí)計(jì)算機(jī)上運(yùn)行的“genAI”1 萬(wàn)億參數(shù)人工智能模型的工作。

完成后，人們普遍預(yù)計(jì) Aurora 將以 2 Exaflop/s (EFlop/s) 的性能奪得世界上最快的超級(jí)計(jì)算機(jī)的桂冠。然而，英特爾尚未透露有關(guān) Aurora 正式提交 Top500 名單的基準(zhǔn)測(cè)試的詳細(xì)信息，該公司表示將把該公告留給能源部和阿貢國(guó)家實(shí)驗(yàn)室。如果按照慣例，Top500 組織將在今天晚些時(shí)候發(fā)布這些備受期待的結(jié)果。與此同時(shí)，英特爾的更新包含了大量值得仔細(xì)研究的新花絮。

滿負(fù)荷運(yùn)行時(shí)，英特爾 Aurora 超級(jí)計(jì)算機(jī)將配備 21,248 個(gè)配備 HBM2E 的 Sapphire Rapids Xeon Max CPU 和 60,000 個(gè) Xeon Max GPU，使其成為世界上已知的最大 GPU 部署。如前所述，英特爾尚未發(fā)布 Top500 提交的基準(zhǔn)測(cè)試，但該公司確實(shí)分享了一些工作負(fù)載的性能以及系統(tǒng)運(yùn)行的部分補(bǔ)充。

英特爾和阿貢國(guó)家實(shí)驗(yàn)室在 genAI 項(xiàng)目中測(cè)試了 Aurora，這是一個(gè)萬(wàn)億參數(shù) GPT-3 LLM 基礎(chǔ)人工智能模型。由于數(shù)據(jù)中心 GPU Max“Ponte Vecchio”GPU 上存在大量?jī)?nèi)存，Aurora 可以運(yùn)行僅包含 64 個(gè)節(jié)點(diǎn)的大型模型。Argonne 已在總共 256 個(gè)節(jié)點(diǎn)上并行運(yùn)行該模型的四個(gè)實(shí)例。調(diào)整工作負(fù)載后，該工作負(fù)載最終將擴(kuò)展到 10,000 個(gè)節(jié)點(diǎn)。

英特爾還強(qiáng)調(diào)了藥物篩選人工智能推理應(yīng)用程序 ESP-ML 中從 128 個(gè)節(jié)點(diǎn)到 256 個(gè)節(jié)點(diǎn)的強(qiáng)勁擴(kuò)展，但 Argonne 針對(duì)競(jìng)爭(zhēng)對(duì)手 GPU 的基準(zhǔn)測(cè)試更有趣：英特爾聲稱，在使用 PyTorch/FP32 進(jìn)行 CosmicTagger 訓(xùn)練時(shí)，單個(gè) Max 1550 GPU 比 AMD MI250 加速器提速 56%，比 Nvidia 上一代 A100 GPU 具有 2.3 倍的優(yōu)勢(shì)。結(jié)果還表明強(qiáng)大的擴(kuò)展性，六 GPU Sunspot 測(cè)試節(jié)點(diǎn)表現(xiàn)出 83% 的性能擴(kuò)展。結(jié)果，Sunspot 節(jié)點(diǎn)的性能是使用未知 GPU 的四 GPU AMD 測(cè)試系統(tǒng)的兩倍多，是使用更老的 Polaris 的四 GPU 節(jié)點(diǎn)性能的五倍。

阿貢國(guó)家實(shí)驗(yàn)室還在模擬小鼠大腦的大腦連接組工作負(fù)載 (Connectomics ML) 中測(cè)試了 512 個(gè) Aurora 節(jié)點(diǎn)與 475 個(gè)節(jié)點(diǎn)的 Polaris 的對(duì)比，突顯了其比 Polaris 的 2 倍優(yōu)勢(shì)。

英特爾的數(shù)據(jù)中心路線圖仍在按計(jì)劃進(jìn)行，第五代 Emerald Rapids 芯片定于 12 月 14 日推出。英特爾公布了旗艦級(jí) 64 核 Xeon 8592+ 與其前身 56 核第四代 Xeon 8480+ 的基準(zhǔn)測(cè)試結(jié)果。與往常一樣，使用供應(yīng)商提供的基準(zhǔn)測(cè)試（您可以在本文的最后一個(gè)專輯中找到測(cè)試說(shuō)明）。

正如您對(duì)更高內(nèi)核數(shù)量的期望，8592+ 在 AI 語(yǔ)音識(shí)別和 LAMMPS 基準(zhǔn)測(cè)試中實(shí)現(xiàn)了 1.4 倍的增益，同時(shí)在 FFMPEG 媒體轉(zhuǎn)碼工作負(fù)載中實(shí)現(xiàn)了 1.2 倍的增益。

英特爾還提供了其未來(lái) Granite Rapids Xeon 的性能預(yù)測(cè)，該處理器將在“Intel 3”節(jié)點(diǎn)上生產(chǎn)。這些芯片將添加更多內(nèi)核、更高頻率、FP16 硬件加速，并支持 12 個(gè)內(nèi)存通道，包括可極大提高內(nèi)存吞吐量的新型MCR 內(nèi)存 DIMM ?？偠灾?，英特爾聲稱 AI 工作負(fù)載提高了 2-3 倍，內(nèi)存吞吐量提高了 2.8 倍，DeepMD+LAMMPS AI 推理工作負(fù)載提高了 2.9 倍。

英特爾配備 HBM2E 的 Xeon Max CPU 現(xiàn)已發(fā)貨。英特爾將其配備 64GB 封裝?HBM?內(nèi)存的 56 核 Intel Max 9480 與 AMD 96 核 EPYC 9654 進(jìn)行了正面交鋒。英特爾為這一系列基準(zhǔn)測(cè)試選擇的工作負(fù)載由以下目標(biāo)用例組成：內(nèi)存受限的應(yīng)用自然會(huì)讓 Xeon 芯片受益?？傮w而言，英特爾聲稱在模擬、能源、材料科學(xué)、制造和金融服務(wù)工作負(fù)載等一系列工作負(fù)載中，比 EPYC 競(jìng)爭(zhēng)者平均有 1.2 倍的優(yōu)勢(shì)。

英特爾分享了有關(guān)即將推出的 Gaudi 3 的一些細(xì)節(jié)，這將標(biāo)志著該公司將其 Gaudi 和 GPU 系列合并為一個(gè)單一產(chǎn)品——Falcon Shores之前的最后一款 Guadi 加速器。5nm Gaudi 3 在 BF16 工作負(fù)載方面的性能是 Gaudi 2 的四倍，網(wǎng)絡(luò)性能是 Gaudi 2 的兩倍（Gaudi 2 具有 24 個(gè)內(nèi)置 100 GbE RoCE 網(wǎng)卡），HBM 容量是 Gaudi 2 的 1.5 倍（Gaudi 2 具有 96 GB 的 HBM2E）。正如我們?cè)趫D中看到的那樣，Gaudi 3 轉(zhuǎn)向了具有兩個(gè)計(jì)算集群的基于圖塊的設(shè)計(jì)，而不是英特爾為 Gaudi 2 使用的單芯片解決方案。英特爾一直在緩慢提供有關(guān)其未來(lái) Falcon Shores GPU 的詳細(xì)信息。

但英特爾重申，盡管合并了 Habana Gaudi IP 和 Xe GPU IP 的各個(gè)方面，但基于圖塊的 Falcon Shores 將通過(guò) OneAPI 編程接口將外觀和功能視為單個(gè) GPU。Falcon Shores 將采用 HBM3 內(nèi)存和以太網(wǎng)交換，并支持?CXL?編程模型。此外，針對(duì) Gaudi 加速器和 Xeon Max GPU 進(jìn)行調(diào)整的應(yīng)用程序?qū)⑴c Falcon Shores 向前兼容，從而為客戶提供兩個(gè)截然不同的 GPU 和 Gaudi 系列之間的代碼連續(xù)性。

此外，英特爾的數(shù)據(jù)中心 GPU Max 系列現(xiàn)已向客戶發(fā)貨，Supermicro 提供具有 8 個(gè) OAM 規(guī)格 GPU 的系統(tǒng)，而戴爾和聯(lián)想則提供 4 個(gè) OAM GPU 服務(wù)器。GPU Max 系列 1100 PCIe 卡也可從多個(gè)供應(yīng)商處廣泛獲得。

英特爾的基準(zhǔn)測(cè)試將 OAM 外形尺寸的 Max 1550（600W GPU）與 Nvidia 的 PCIe 外形尺寸 H100（350W 競(jìng)爭(zhēng)對(duì)手）進(jìn)行比較。因此，這些基準(zhǔn)測(cè)試并不是比較性能的良好試金石。英特爾表示，基準(zhǔn)差異的原因是難以獲得 OAM 外形 H100 GPU。

現(xiàn)在我們正在等待阿貢國(guó)家實(shí)驗(yàn)室提交的 Aurora 超級(jí)計(jì)算機(jī) Top500 提交，看看英特爾能否取代 AMD 驅(qū)動(dòng)的 Frontier，成為世界上最快的超級(jí)計(jì)算機(jī)。預(yù)計(jì)該更新將于今天晚些時(shí)候進(jìn)行。

編輯：黃飛

閱讀全文