在SC23上,英特爾和AMD在超級(jí)計(jì)算機(jī)上爭(zhēng)霸。
會(huì)上,Top500組織發(fā)布了半年度全球最快超級(jí)計(jì)算機(jī)排行榜,AMD 驅(qū)動(dòng)的 Frontier 超級(jí)計(jì)算機(jī)以 1.194 Exaflop/s (EFlop/s) 的性能穩(wěn)居榜首,擊敗了一半的超級(jí)計(jì)算機(jī)。而來(lái)自阿貢國(guó)家實(shí)驗(yàn)室基于英特爾的 Aurora 超級(jí)計(jì)算機(jī)提交的規(guī)模為 585.34 Petaflop/s (PFlop/s)。
阿貢提交的方案僅采用了?Aurora?系統(tǒng)的一半,在 Top500 中排名第二,取代日本的?Fugaku,成為世界上第二快的超級(jí)計(jì)算機(jī)。英特爾還推出了 20 款基于 Sapphire Rapids CPU 的新型超級(jí)計(jì)算機(jī)進(jìn)入榜單,但 AMD 的 EPYC(霄龍)繼續(xù)占據(jù) Top500 的位置,目前為榜單上的 140 個(gè)系統(tǒng)提供支持,同比增長(zhǎng) 39%。
英特爾和阿貢國(guó)家實(shí)驗(yàn)室目前仍在努力讓 Arora 在 2024 年全面上線。Aurora 提交代表了 10,624 個(gè)英特爾 CPU 和 31,874 個(gè)英特爾 GPU 協(xié)同工作,以總共 24.69 兆瓦 (MW) 的功率提供 585.34 PFlop/s。相比之下,AMD 的 Frontier 以 1.194 EFlop/s 的性能奪冠,這是 Aurora 性能的兩倍多,但消耗的能源卻相對(duì)較少,為 22.70 MW(是的,完整的 Frontier 超級(jí)計(jì)算機(jī)的功耗還不到 Aurora 系統(tǒng)的一半)。Aurora 在本次提交中并未進(jìn)入 Green500(最節(jié)能的超級(jí)計(jì)算機(jī)名單),但 Frontier 繼續(xù)在該名單上排名第八。
然而,Aurora 在完全上線后預(yù)計(jì)最終將達(dá)到 2 EFlop/s 的性能。完成后,Auroroa 將擁有 21,248 個(gè) Xeon Max CPU 和 63,744 個(gè) Max 系列“Ponte Vecchio”GPU,分布在 166 個(gè)機(jī)架和 10,624 個(gè)計(jì)算刀片上,使其成為世界上已知最大的 GPU 單一部署。該系統(tǒng)利用 HPE Cray EX(Intel Exascale 計(jì)算刀片)并使用 HPE 的 Slingshot-11 網(wǎng)絡(luò)互連。
AMD 正在勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室部署 El Capitan ,預(yù)計(jì)其速度比 Aurora 更快,性能可達(dá) 2 EFlop/s+。因此,英特爾不斷推遲的Aurora 可能永遠(yuǎn)不會(huì)在 Top500 榜單上占據(jù)第一的位置——下一輪 Top500 提交的競(jìng)賽肯定會(huì)在 2024 年 6 月開(kāi)始。
2018 年。當(dāng)時(shí),系統(tǒng)設(shè)計(jì)為使用 Knights Hill 處理器,后來(lái)被取消。此后的幾年里,該系統(tǒng)經(jīng)歷了多次重新設(shè)計(jì)和重新安排, 新的 Aurora 于 2019 年宣布, 將于 2021 年提供 1 exaflop 的性能。2021 年末的另一次重新安排聲稱該系統(tǒng)在完成后將提供 2 exaflop 的性能,這是現(xiàn)在定于明年進(jìn)行,英特爾、阿貢和慧與將繼續(xù)致力于系統(tǒng)驗(yàn)證、驗(yàn)證以及在新系統(tǒng)中擴(kuò)展工作負(fù)載。您可以在此處查看Argonne 今天分享的其他 Aurora 基準(zhǔn)測(cè)試。
與此同時(shí),部署在Azure云中的微軟新Eagle超級(jí)計(jì)算機(jī)目前已占據(jù)排行榜第三位,將日本富岳推至排行榜第四位。Eagle是第一個(gè)突破前十的云系統(tǒng)。芬蘭卡亞尼的 LUMI 系統(tǒng)以 379.70 PFlop/s 的性能躋身前五。
英特爾運(yùn)行 1 萬(wàn)億參數(shù)模型的超算
在 Supercomputing 2023 上,英特爾提供了有關(guān)其最新 HPC 和 AI 計(jì)劃的大量更新,包括有關(guān)第五代 Emerald Rapids 和未來(lái) Granite Rapids Xeon CPU、Guadi 加速器、針對(duì)Nvidia H100 GPU 的新Max 系列 GPU 基準(zhǔn)測(cè)試的新信息,以及公司在Aurora 超級(jí)計(jì)算機(jī)上運(yùn)行的“genAI”1 萬(wàn)億參數(shù)人工智能模型的工作。
完成后,人們普遍預(yù)計(jì) Aurora 將以 2 Exaflop/s (EFlop/s) 的性能奪得世界上最快的超級(jí)計(jì)算機(jī)的桂冠。然而,英特爾尚未透露有關(guān) Aurora 正式提交 Top500 名單的基準(zhǔn)測(cè)試的詳細(xì)信息,該公司表示將把該公告留給能源部和阿貢國(guó)家實(shí)驗(yàn)室。如果按照慣例,Top500 組織將在今天晚些時(shí)候發(fā)布這些備受期待的結(jié)果。與此同時(shí),英特爾的更新包含了大量值得仔細(xì)研究的新花絮。
滿負(fù)荷運(yùn)行時(shí),英特爾 Aurora 超級(jí)計(jì)算機(jī)將配備 21,248 個(gè)配備 HBM2E 的 Sapphire Rapids Xeon Max CPU 和 60,000 個(gè) Xeon Max GPU,使其成為世界上已知的最大 GPU 部署。如前所述,英特爾尚未發(fā)布 Top500 提交的基準(zhǔn)測(cè)試,但該公司確實(shí)分享了一些工作負(fù)載的性能以及系統(tǒng)運(yùn)行的部分補(bǔ)充。
英特爾和阿貢國(guó)家實(shí)驗(yàn)室在 genAI 項(xiàng)目中測(cè)試了 Aurora,這是一個(gè)萬(wàn)億參數(shù) GPT-3 LLM 基礎(chǔ)人工智能模型。由于數(shù)據(jù)中心 GPU Max“Ponte Vecchio”GPU 上存在大量?jī)?nèi)存,Aurora 可以運(yùn)行僅包含 64 個(gè)節(jié)點(diǎn)的大型模型。Argonne 已在總共 256 個(gè)節(jié)點(diǎn)上并行運(yùn)行該模型的四個(gè)實(shí)例。調(diào)整工作負(fù)載后,該工作負(fù)載最終將擴(kuò)展到 10,000 個(gè)節(jié)點(diǎn)。
英特爾還強(qiáng)調(diào)了藥物篩選人工智能推理應(yīng)用程序 ESP-ML 中從 128 個(gè)節(jié)點(diǎn)到 256 個(gè)節(jié)點(diǎn)的強(qiáng)勁擴(kuò)展,但 Argonne 針對(duì)競(jìng)爭(zhēng)對(duì)手 GPU 的基準(zhǔn)測(cè)試更有趣:英特爾聲稱,在使用 PyTorch/FP32 進(jìn)行 CosmicTagger 訓(xùn)練時(shí),單個(gè) Max 1550 GPU 比 AMD MI250 加速器提速 56%,比 Nvidia 上一代 A100 GPU 具有 2.3 倍的優(yōu)勢(shì)。結(jié)果還表明強(qiáng)大的擴(kuò)展性,六 GPU Sunspot 測(cè)試節(jié)點(diǎn)表現(xiàn)出 83% 的性能擴(kuò)展。結(jié)果,Sunspot 節(jié)點(diǎn)的性能是使用未知 GPU 的四 GPU AMD 測(cè)試系統(tǒng)的兩倍多,是使用更老的 Polaris 的四 GPU 節(jié)點(diǎn)性能的五倍。
阿貢國(guó)家實(shí)驗(yàn)室還在模擬小鼠大腦的大腦連接組工作負(fù)載 (Connectomics ML) 中測(cè)試了 512 個(gè) Aurora 節(jié)點(diǎn)與 475 個(gè)節(jié)點(diǎn)的 Polaris 的對(duì)比,突顯了其比 Polaris 的 2 倍優(yōu)勢(shì)。
英特爾的數(shù)據(jù)中心路線圖仍在按計(jì)劃進(jìn)行,第五代 Emerald Rapids 芯片定于 12 月 14 日推出。英特爾公布了旗艦級(jí) 64 核 Xeon 8592+ 與其前身 56 核第四代 Xeon 8480+ 的基準(zhǔn)測(cè)試結(jié)果。與往常一樣,使用供應(yīng)商提供的基準(zhǔn)測(cè)試(您可以在本文的最后一個(gè)專輯中找到測(cè)試說(shuō)明)。
正如您對(duì)更高內(nèi)核數(shù)量的期望,8592+ 在 AI 語(yǔ)音識(shí)別和 LAMMPS 基準(zhǔn)測(cè)試中實(shí)現(xiàn)了 1.4 倍的增益,同時(shí)在 FFMPEG 媒體轉(zhuǎn)碼工作負(fù)載中實(shí)現(xiàn)了 1.2 倍的增益。
英特爾還提供了其未來(lái) Granite Rapids Xeon 的性能預(yù)測(cè),該處理器將在“Intel 3”節(jié)點(diǎn)上生產(chǎn)。這些芯片將添加更多內(nèi)核、更高頻率、FP16 硬件加速,并支持 12 個(gè)內(nèi)存通道,包括可極大提高內(nèi)存吞吐量的新型MCR 內(nèi)存 DIMM ??偠灾?,英特爾聲稱 AI 工作負(fù)載提高了 2-3 倍,內(nèi)存吞吐量提高了 2.8 倍,DeepMD+LAMMPS AI 推理工作負(fù)載提高了 2.9 倍。
英特爾配備 HBM2E 的 Xeon Max CPU 現(xiàn)已發(fā)貨。英特爾將其配備 64GB 封裝?HBM?內(nèi)存的 56 核 Intel Max 9480 與 AMD 96 核 EPYC 9654 進(jìn)行了正面交鋒。英特爾為這一系列基準(zhǔn)測(cè)試選擇的工作負(fù)載由以下目標(biāo)用例組成:內(nèi)存受限的應(yīng)用自然會(huì)讓 Xeon 芯片受益??傮w而言,英特爾聲稱在模擬、能源、材料科學(xué)、制造和金融服務(wù)工作負(fù)載等一系列工作負(fù)載中,比 EPYC 競(jìng)爭(zhēng)者平均有 1.2 倍的優(yōu)勢(shì)。
英特爾分享了有關(guān)即將推出的 Gaudi 3 的一些細(xì)節(jié),這將標(biāo)志著該公司將其 Gaudi 和 GPU 系列合并為一個(gè)單一產(chǎn)品——Falcon Shores之前的最后一款 Guadi 加速器。5nm Gaudi 3 在 BF16 工作負(fù)載方面的性能是 Gaudi 2 的四倍,網(wǎng)絡(luò)性能是 Gaudi 2 的兩倍(Gaudi 2 具有 24 個(gè)內(nèi)置 100 GbE RoCE 網(wǎng)卡),HBM 容量是 Gaudi 2 的 1.5 倍(Gaudi 2 具有 96 GB 的 HBM2E)。正如我們?cè)趫D中看到的那樣,Gaudi 3 轉(zhuǎn)向了具有兩個(gè)計(jì)算集群的基于圖塊的設(shè)計(jì),而不是英特爾為 Gaudi 2 使用的單芯片解決方案。英特爾一直在緩慢提供有關(guān)其未來(lái) Falcon Shores GPU 的詳細(xì)信息。
但英特爾重申,盡管合并了 Habana Gaudi IP 和 Xe GPU IP 的各個(gè)方面,但基于圖塊的 Falcon Shores 將通過(guò) OneAPI 編程接口將外觀和功能視為單個(gè) GPU。Falcon Shores 將采用 HBM3 內(nèi)存和以太網(wǎng)交換,并支持?CXL?編程模型。此外,針對(duì) Gaudi 加速器和 Xeon Max GPU 進(jìn)行調(diào)整的應(yīng)用程序?qū)⑴c Falcon Shores 向前兼容,從而為客戶提供兩個(gè)截然不同的 GPU 和 Gaudi 系列之間的代碼連續(xù)性。
此外,英特爾的數(shù)據(jù)中心 GPU Max 系列現(xiàn)已向客戶發(fā)貨,Supermicro 提供具有 8 個(gè) OAM 規(guī)格 GPU 的系統(tǒng),而戴爾和聯(lián)想則提供 4 個(gè) OAM GPU 服務(wù)器。GPU Max 系列 1100 PCIe 卡也可從多個(gè)供應(yīng)商處廣泛獲得。
英特爾的基準(zhǔn)測(cè)試將 OAM 外形尺寸的 Max 1550(600W GPU)與 Nvidia 的 PCIe 外形尺寸 H100(350W 競(jìng)爭(zhēng)對(duì)手)進(jìn)行比較。因此,這些基準(zhǔn)測(cè)試并不是比較性能的良好試金石。英特爾表示,基準(zhǔn)差異的原因是難以獲得 OAM 外形 H100 GPU。
現(xiàn)在我們正在等待阿貢國(guó)家實(shí)驗(yàn)室提交的 Aurora 超級(jí)計(jì)算機(jī) Top500 提交,看看英特爾能否取代 AMD 驅(qū)動(dòng)的 Frontier,成為世界上最快的超級(jí)計(jì)算機(jī)。預(yù)計(jì)該更新將于今天晚些時(shí)候進(jìn)行。
編輯:黃飛
?
評(píng)論
查看更多