接下來(lái)的超算普及化時(shí)代,英特爾將滿足永無(wú)止境的計(jì)算需求,并將可持續(xù)發(fā)展作為重中之重。
本文作者:Jeff McVeigh
英特爾副總裁兼超級(jí)計(jì)算事業(yè)部總經(jīng)理
隨著我們進(jìn)入E級(jí)(Exascale)計(jì)算時(shí)代并邁向Z級(jí)(Zettascale)計(jì)算時(shí)代,科技行業(yè)也越來(lái)越影響著全球的碳排放。據(jù)估計(jì),到2030年數(shù)據(jù)中心的能耗估計(jì)將達(dá)到全球能源產(chǎn)量的3%-7%①,而計(jì)算基礎(chǔ)設(shè)施將成為新增用電量的主要驅(qū)動(dòng)因素。
今年,英特爾承諾到2040年實(shí)現(xiàn)全球業(yè)務(wù)的溫室氣體凈零排放,并開(kāi)發(fā)更加可持續(xù)的技術(shù)解決方案。在創(chuàng)造可持續(xù)未來(lái)的同時(shí)滿足對(duì)計(jì)算永無(wú)止境的需求,這是高性能計(jì)算(HPC)面臨的最大挑戰(zhàn)之一。這個(gè)任務(wù)雖然艱巨,但如果我們能夠把芯片、軟件和系統(tǒng)這些HPC計(jì)算堆棧的每個(gè)部分都做好,它就是可以實(shí)現(xiàn)的。
我在德國(guó)漢堡舉行的2022國(guó)際超算大會(huì)(ISC2022)上發(fā)表了主題演講,上述內(nèi)容就是我在演講中傳達(dá)的核心信息。
從芯片和異構(gòu)計(jì)算架構(gòu)開(kāi)始
英特爾公布了直到2024年的高性能計(jì)算產(chǎn)品路線圖,期間我們將致力于提供多樣化的異構(gòu)架構(gòu)。這些架構(gòu)不僅將使我們能夠?qū)崿F(xiàn)幾個(gè)數(shù)量級(jí)的性能提升,同時(shí)亦可降低通用工作負(fù)載及諸如人工智能、加密、分析等新興工作負(fù)載的能耗。
以內(nèi)置高帶寬內(nèi)存(HBM),代號(hào)為Sapphire Rapids的英特爾至強(qiáng)處理器為例,該款處理器能夠很好地展示我們?nèi)绾卫孟冗M(jìn)的封裝技術(shù)和芯片創(chuàng)新,為高性能計(jì)算帶來(lái)性能、帶寬和節(jié)能方面的顯著提升。通過(guò)封裝高達(dá)64GB的高帶寬內(nèi)存HBM2e并把加速器集成到CPU中,我們能夠釋放內(nèi)存敏感型工作負(fù)載的潛力,為這些關(guān)鍵的高性能計(jì)算應(yīng)用場(chǎng)景大幅提升性能。在對(duì)比第三代英特爾 至強(qiáng) 可擴(kuò)展處理器和即將推出的內(nèi)置高帶寬內(nèi)存(HBM)的Sapphire Rapids處理器時(shí),我們發(fā)現(xiàn),后者把氣候研究、能源、制造和物理學(xué)工作負(fù)載的性能提升了2-3倍②。在主題演講中,Ansys首席技術(shù)官Prith Banerjee還展示了內(nèi)置高帶寬內(nèi)存的Sapphire Rapids為Ansys Fluent和ParSeNet的實(shí)際工作負(fù)載帶來(lái)了高達(dá)2倍的性能提升③。
為實(shí)現(xiàn)跨HPC和AI超算工作負(fù)載的幾個(gè)數(shù)量級(jí)的性能提升,計(jì)算密度是另一必不可少的要素。代號(hào)為Ponte Vecchio的英特爾首個(gè)旗艦級(jí)數(shù)據(jù)中心圖形處理器(GPU),已經(jīng)在復(fù)雜的金融服務(wù)應(yīng)用以及AI推理和訓(xùn)練工作負(fù)載方面展現(xiàn)出了卓越的優(yōu)勢(shì)。
創(chuàng)新不止于此。今天,我們還宣布這款出色數(shù)據(jù)中心GPU的下一代產(chǎn)品代號(hào)為Rialto Bridge。通過(guò)升級(jí)Ponte Vecchio架構(gòu),并結(jié)合使用下一代制程節(jié)點(diǎn)技術(shù)制造的增強(qiáng)型芯片子模塊,Rialto Bridge將大幅提高計(jì)算密度、性能和效率,同時(shí)提供軟件一致性。
展望未來(lái),F(xiàn)alcon Shores是我們路線圖中下一個(gè)重要的架構(gòu)創(chuàng)新,即把x86 CPU和Xe GPU集成在同一插槽中。這一架構(gòu)計(jì)劃將在2024年推出,它將在每瓦性能、計(jì)算密度、內(nèi)存容量與帶寬方面均實(shí)現(xiàn)超過(guò)5倍的性能提升④。
成功的軟件戰(zhàn)略遵循三個(gè)原則:
開(kāi)放、選擇、信任
如果沒(méi)有軟件為芯片注入活力,它將僅僅只是砂礫。英特爾的軟件策略是促進(jìn)整個(gè)堆棧的開(kāi)放式發(fā)展,并提供工具、平臺(tái)和軟件IP,以幫助開(kāi)發(fā)者提升工作效率,產(chǎn)出可擴(kuò)展、更高性能、更高效的代碼,這些代碼能充分利用最新的芯片創(chuàng)新,沒(méi)有重構(gòu)代碼的負(fù)擔(dān)。oneAPI行業(yè)計(jì)劃為HPC開(kāi)發(fā)者提供了跨架構(gòu)編程,使代碼能透明、可遷移地適用于CPU、GPU和其他專用加速器。
目前,在世界各地領(lǐng)先的科研和學(xué)術(shù)機(jī)構(gòu)中已有20多個(gè)oneAPI卓越中心(CoE),它們正取得重要的進(jìn)展。例如,布里斯托大學(xué)科學(xué)系的Simon McIntosh-Smith和他的團(tuán)隊(duì),正在使用oneAPI和Khronos Group的SYCL抽象層進(jìn)行跨架構(gòu)編程,為在E級(jí)計(jì)算規(guī)模上實(shí)現(xiàn)性能可移植性開(kāi)發(fā)最佳實(shí)踐。他們的工作將確??茖W(xué)代碼能在大規(guī)模異構(gòu)超算系統(tǒng)上實(shí)現(xiàn)高性能。
聚力整合:實(shí)現(xiàn)可持續(xù)的異構(gòu)計(jì)算
隨著數(shù)據(jù)中心和HPC工作負(fù)載越來(lái)越多采用分布式架構(gòu)和異構(gòu)計(jì)算,我們需要借助工具來(lái)幫助有效管理和應(yīng)對(duì)復(fù)雜多樣的計(jì)算環(huán)境。
今天,我們將推出一款開(kāi)源解決方案Intel XPU Manager,它可以在本地或遠(yuǎn)程監(jiān)測(cè)和管理英特爾數(shù)據(jù)中心GPU。該解決方案旨在簡(jiǎn)化管理,并通過(guò)綜合診斷更好地實(shí)現(xiàn)可靠性和延長(zhǎng)設(shè)備運(yùn)行時(shí)間,以及提升利用率并支持固件更新。
針對(duì)能耗很高的數(shù)據(jù)傳輸和存儲(chǔ)任務(wù),分布式異步對(duì)象存儲(chǔ)(DAOS)文件系統(tǒng)提供了系統(tǒng)級(jí)的優(yōu)化。DAOS可以顯著地改善文件系統(tǒng)的性能,它不僅可以縮短整體訪問(wèn)時(shí)間,而且能夠降低存儲(chǔ)所需的容量,從而減少數(shù)據(jù)中心的占用空間并提高能源效率。相比于Lustre在I/O500中的測(cè)試結(jié)果,DAOS實(shí)現(xiàn)了直接寫(xiě)入文件系統(tǒng)性能70倍⑤的提升。
應(yīng)對(duì)HPC的可持續(xù)性挑戰(zhàn)
我們很榮幸能夠與全球志同道合的客戶和行業(yè)領(lǐng)先的科研機(jī)構(gòu)合作,朝著實(shí)現(xiàn)更具可持續(xù)性和開(kāi)放性的高性能計(jì)算而努力。我們近期取得了一系列成果——我們與巴塞羅那超算中心合作建立了開(kāi)創(chuàng)性的RISC-V Z級(jí)計(jì)算實(shí)驗(yàn)室;并與劍橋大學(xué)和戴爾繼續(xù)合作,將當(dāng)前的E級(jí)計(jì)算實(shí)驗(yàn)室進(jìn)一步打造成為新的劍橋Z級(jí)計(jì)算實(shí)驗(yàn)室。
獨(dú)木難支,完整生態(tài)的構(gòu)建需要在制造、芯片、互連、軟件和系統(tǒng)等各方面攜手共進(jìn)。通過(guò)與整個(gè)生態(tài)的協(xié)作,我們致力于將本世紀(jì)最大的HPC挑戰(zhàn)轉(zhuǎn)化為前所未有的機(jī)遇,創(chuàng)造改變世界的技術(shù),讓未來(lái)更美好。
注意事項(xiàng)與免責(zé)聲明:
①《對(duì)2020年至2030年期間全球計(jì)算機(jī)的一次能源使用、電力使用和二氧化碳排放及其所占份額的假設(shè)》,作者:Anders S.G. Andrae,《WSEAS電力系統(tǒng)匯刊》,15(2020)
②測(cè)量依據(jù)如下:
CloverLeaf
由英特爾于2022年4月26日測(cè)試。1節(jié)點(diǎn),2個(gè)英特爾至強(qiáng)鉑金8360Y CPU,72個(gè)內(nèi)核,超線程開(kāi)啟,睿頻開(kāi)啟,總內(nèi)存256GB(16x16GB DDR4 3200MT/s),SE5C6200.86B.0021.D40.2101090208,Ubuntu 20.04,Kernel 5.10,0xd0002a0,ifort 2021.5,Intel MPI 2021.5.1,編譯器參數(shù):-xCORE-AVX512-qopt-zmm-usage=high
由英特爾于2022年4月19日測(cè)試。1節(jié)點(diǎn),2個(gè)早期的英特爾至強(qiáng)可擴(kuò)展處理器測(cè)試樣品,代號(hào)為Sapphire Rapids+HBM,40個(gè)以上內(nèi)核,超線程開(kāi)啟,睿頻開(kāi)啟,總內(nèi)存128GB(HBM2e以3200MHz的頻率運(yùn)行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,ifort 2021.5,Intel MPI 2021.5.1,編譯器參數(shù):-xCORE-AVX512–qopt-zmm-usage=high
OpenFOAM
由英特爾于2022年1月26日測(cè)試。1節(jié)點(diǎn),2個(gè)英特爾至強(qiáng)鉑金8380 CPU,80個(gè)內(nèi)核,超線程開(kāi)啟,睿頻開(kāi)啟,總內(nèi)存256GB(16x16GB 3200MT/s,雙面),BIOS版本SE5C6200.86B.0020.P23.2103261309,0xd000270,Rocky Linux 8.5 ,Linux版本4.18.,OpenFOAMv1912,Motorbike 28M@250次迭代;編譯說(shuō)明:工具:Intel Parallel Studio 2020u4,編譯器參數(shù):-O3-ip-xCORE-AVX512
由英特爾于2022年1月26日測(cè)試。1節(jié)點(diǎn),2個(gè)早期的英特爾至強(qiáng)可擴(kuò)展處理器測(cè)試樣品,代號(hào)為Sapphire Rapids+HBM,40個(gè)以上內(nèi)核,超線程關(guān)閉,睿頻關(guān)閉,總內(nèi)存128GB(HBM2e以3200MHz的頻率運(yùn)行),試生產(chǎn)的平臺(tái)和BIOS,CentOS 8,Linux版本5.12,OpenFOAMv1912,Motorbike 28M@250次迭代;編譯說(shuō)明:工具:Intel Parallel Studio 2020u4,編譯器參數(shù):-O3-ip-xCORE-AVX512
WRF
由英特爾于2022年5月3日測(cè)試。1節(jié)點(diǎn),2個(gè)英特爾至強(qiáng)8380 CPU,80個(gè)內(nèi)核,超線程開(kāi)啟,睿頻開(kāi)啟,總內(nèi)存256GB(16x16GB 3200MT/s,雙面),BIOS版本SE5C6200.86B.0020.P23.2103261309,ucode版本=0xd000270,Rocky Linux 8.5,Linux版本4.18,WRF v4.2.2
由英特爾于2022年5月3日測(cè)試。1節(jié)點(diǎn),2個(gè)早期的英特爾至強(qiáng)可擴(kuò)展處理器測(cè)試樣品,代號(hào)為Sapphire Rapids+HBM,40個(gè)以上內(nèi)核,超線程開(kāi)啟,睿頻開(kāi)啟,總內(nèi)存128GB(HBM2e以3200MHz的頻率運(yùn)行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,WRF v4.2.2
YASK
由英特爾于2022年5月9日測(cè)試。1節(jié)點(diǎn),2個(gè)英特爾至強(qiáng)鉑金8360Y CPU,72個(gè)內(nèi)核,超線程開(kāi)啟,睿頻開(kāi)啟,總內(nèi)存256GB(16x16GB DDR4 3200MT/s),SE5C6200.86B.0021.D40.2101090208,Rocky linux 8.5,Kernel 4.18.0,0xd000270,編譯器參數(shù):make-j YK_CXX='mpiicpc-cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
由英特爾于2022年5月3日測(cè)試。1節(jié)點(diǎn),2個(gè)早期的英特爾至強(qiáng)可擴(kuò)展處理器測(cè)試樣品,代號(hào)為Sapphire Rapids+HBM,40個(gè)以上內(nèi)核,超線程開(kāi)啟,睿頻開(kāi)啟,總內(nèi)存128GB(HBM2e以3200MHz的頻率運(yùn)行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,編譯器參數(shù):make-j YK_CXX='mpiicpc-cxx=icpx'arch=avx2 stencil=iso3dfd radius=8,
③Ansys Fluent
由英特爾于2022年2月測(cè)試。1節(jié)點(diǎn),2個(gè)英特爾至強(qiáng)鉑金8380 CPU,80個(gè)內(nèi)核,超線程開(kāi)啟,睿頻開(kāi)啟,總內(nèi)存256GB(16x16GB 3200MT/s,雙面),BIOS版本SE5C6200.86B.0020.P23.2103261309,ucode版本=0xd000270,Rocky Linux 8.5,Linux版本4.18,Ansys Fluent 2021 R2 Aircraft_wing_14m;編譯說(shuō)明:商業(yè)版本使用Intel 19.3編譯器和Intel MPI 2019u
由英特爾于2022年2月測(cè)試。1節(jié)點(diǎn),2個(gè)早期的英特爾至強(qiáng)可擴(kuò)展處理器測(cè)試樣品,代號(hào)為Sapphire Rapids+HBM,40個(gè)以上內(nèi)核,超線程關(guān)閉,睿頻關(guān)閉,總內(nèi)存128GB(HBM2e以3200MHz的頻率運(yùn)行),預(yù)生產(chǎn)的平臺(tái)和BIOS,CentOS 8,Linux版本5.12,Ansys Fluent 2021 R2 Aircraft_wing_14m;編譯說(shuō)明:商業(yè)版本使用Intel 19.3編譯器和Intel MPI 2019u8
Ansys ParSeNet
由英特爾于2022年5月24日測(cè)試。1節(jié)點(diǎn),2個(gè)英特爾至強(qiáng)鉑金8380CPU,80個(gè)內(nèi)核,超線程開(kāi)啟,睿頻開(kāi)啟,總內(nèi)存256GB(16x16GB DDR4 3200MT/s [3200 MT/s]),SE5C6200.86B.0021 .D40.2101090208,Ubuntu 20.04.1 LTS,5.10,ParSeNet (SplineNet),PyTorch 1.11.0,Torch-CCL 1.2.0,IPEX 1.10.0,MKL (2021.4-Product Build 20210904),oneDNN (V2.5.0)
由英特爾測(cè)試于2022年4月18日。1節(jié)點(diǎn),2個(gè)早期的英特爾至強(qiáng)可擴(kuò)展處理器測(cè)試樣品,代號(hào)為Sapphire Rapids+HBM,112個(gè)內(nèi)核,超線程開(kāi)啟,睿頻開(kāi)啟,總內(nèi)存128GB(HBM2e 3200 MT/s),EGSDCRB1.86B.0077.D11.2203281354,CentOS Stream 8,5.16,ParSeNet (SplineNet),PyTorch 1.11.0,Torch-CCL 1.2.0,IPEX 1.10.0,MKL(2021.4-Product Build 20210904),oneDNN(v2.5.0)
④Falcon Shores的性能目標(biāo)基于截至2022年2月相對(duì)于當(dāng)前平臺(tái)的預(yù)測(cè)。結(jié)果可能有所不同。
⑤結(jié)果可能有所不同。更多信息請(qǐng)?jiān)L問(wèn)io500和YouTube視頻《DAOS與Lustre的性能對(duì)比測(cè)試》
原文標(biāo)題:加速創(chuàng)新,打造更具可持續(xù)性和開(kāi)放性的HPC
文章出處:【微信公眾號(hào):英特爾中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
審核編輯:湯梓紅
-
英特爾
+關(guān)注
關(guān)注
60文章
9861瀏覽量
171291 -
HPC
+關(guān)注
關(guān)注
0文章
309瀏覽量
23650 -
高性能計(jì)算
+關(guān)注
關(guān)注
0文章
81瀏覽量
13367
原文標(biāo)題:加速創(chuàng)新,打造更具可持續(xù)性和開(kāi)放性的HPC
文章出處:【微信號(hào):英特爾中國(guó),微信公眾號(hào):英特爾中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論