AMD和惠普企業(yè)介紹新制造的超級(jí)計(jì)算機(jī)Frontier。
當(dāng)前全世界最快的超級(jí)計(jì)算機(jī)是美國(guó)田納西州橡樹嶺國(guó)家實(shí)驗(yàn)室打造的Frontier,該計(jì)算機(jī)運(yùn)算功能強(qiáng)大,運(yùn)算速度比其他7臺(tái)最快的超級(jí)計(jì)算機(jī)的總和還要高,是運(yùn)算速度排名第二的計(jì)算機(jī)的2倍多。Frontier不僅是第一臺(tái)突破每秒百億億次計(jì)算(exaflops)門檻的計(jì)算機(jī),還在全球高能效超級(jí)計(jì)算機(jī)中排名第二。現(xiàn)在,協(xié)作制造Frontier的超微半導(dǎo)體公司(AMD)和惠普企業(yè)揭開了該超級(jí)計(jì)算機(jī)正常運(yùn)轉(zhuǎn)的電子訣竅。
Frontier由74個(gè)惠普企業(yè)Cray EX超級(jí)計(jì)算機(jī)柜組成,這些機(jī)柜共容納超過9400個(gè)CPU。每個(gè)節(jié)點(diǎn)都包含1個(gè)優(yōu)化的第三代AMD EPYC 64核2千兆赫Trento處理器,用于一般任務(wù)處理,以及4個(gè)AMD Instinct MI250X加速器,用于高度并行超級(jí)計(jì)算和人工智能(AI)運(yùn)算,此外,還有5太字節(jié)閃存,協(xié)助向GPU快速輸送數(shù)據(jù)。Frontier總共包含9408個(gè)CPU、37632個(gè)GPU和8730112個(gè)內(nèi)核,這些組件由145千米的網(wǎng)絡(luò)電纜連接在一起。美國(guó)田納西州橡樹嶺國(guó)家實(shí)驗(yàn)室表示,這臺(tái)全球領(lǐng)先的超級(jí)計(jì)算機(jī)的功耗約為21兆瓦。
2022年5月,在德國(guó)漢堡的全球高性能計(jì)算大會(huì)上,F(xiàn)rontier展示了每秒1.1 exaflops的整體性能,成為全球500強(qiáng)超級(jí)計(jì)算機(jī)的巔峰。它還可能變得更快,理論峰值性能為2 exaflops。
另外,F(xiàn)rontier在最新的全球綠色500強(qiáng)中排名第二,該排名衡量超級(jí)計(jì)算機(jī)的能源效率。(這并不影響它在整體性能上成為全球最快的超級(jí)計(jì)算機(jī)。)不過,日本的MN-3作為先前全球綠色500強(qiáng)的榜首,每瓦能實(shí)現(xiàn)39.38 gigaflops(每秒10億浮點(diǎn)運(yùn)算),而Frontier的測(cè)試開發(fā)系統(tǒng)為每瓦52.23 gigaflops。
Frontier成功的一個(gè)關(guān)鍵在于采用AMD的Infinity Fabric互連架構(gòu),每個(gè)節(jié)點(diǎn)內(nèi)CPU和GPU連接方式有助于增加CPU和GPU的一致性,即它們的共享數(shù)據(jù)視圖完全相同。
得克薩斯州奧斯汀AMD公司GPU和加速處理數(shù)據(jù)中心的副總裁布拉德?麥克雷迪(Brad McCredie)說:“一致性對(duì)于提升性能非常重要。它能幫助你確保分配合適的處理器運(yùn)行合適的工作負(fù)載。很容易使并行CPU處理小任務(wù)和GPU處理大型任務(wù)?!?/p>
在Frontier的開發(fā)中,AMD表示,其面對(duì)的最大的挑戰(zhàn)是功率性能?!坝泻芏辔墨I(xiàn)說,要達(dá)到每秒百億億次運(yùn)算,需要幾十萬個(gè)GPU和150兆到500兆瓦功率,而我們想要使用幾萬個(gè)GPU和20兆瓦功率來實(shí)現(xiàn)?!丙溈死椎险f,“因此,開發(fā)過程中上上下下每個(gè)人都在追求效率?!?/p>
例如,F(xiàn)rontier的每個(gè)GPU上都緊密結(jié)合一個(gè)128千兆字節(jié)的高帶寬內(nèi)存。這可以幫助GPU克服計(jì)算機(jī)性能的一個(gè)著名瓶頸:內(nèi)存和處理之間的數(shù)據(jù)傳輸。
此外,F(xiàn)rontier的每個(gè)GPU還使用了臺(tái)積電生產(chǎn)的先進(jìn)6納米節(jié)點(diǎn)芯片。因此,“它們執(zhí)行雙精度浮點(diǎn)運(yùn)算的速度與單精度浮點(diǎn)運(yùn)算相同,這是一項(xiàng)重大創(chuàng)新。”麥克雷迪說。
借助這些進(jìn)步,F(xiàn)rontier只需幾萬個(gè)GPU,而不需要幾十萬個(gè)GPU?!八袚?dān)所有的并行管理,將程序員身上的負(fù)擔(dān)轉(zhuǎn)移到硬件上。這使得該系統(tǒng)更易于編程?!丙溈死椎险f。
一個(gè)“計(jì)算刀片”上有2個(gè)AMD節(jié)點(diǎn),74個(gè)機(jī)柜中的每個(gè)都裝有64個(gè)這種刀片。計(jì)算刀片通過惠普企業(yè)Slingshot連接器互連,每個(gè)連接器都有一個(gè)專門設(shè)計(jì)的64端口交換機(jī),可提供每秒12.8太字節(jié)的網(wǎng)絡(luò)帶寬。各組刀片的連接采用一種被稱為蜻蜓的拓?fù)浣Y(jié)構(gòu),數(shù)百個(gè)機(jī)柜和數(shù)十萬個(gè)節(jié)點(diǎn)都可以相互通信,任意兩個(gè)節(jié)點(diǎn)之間最多可以跳轉(zhuǎn)3次。
“Slingshot的部署得到了高度優(yōu)化,根據(jù)所需距離合理采用能效最高的電纜,直連銅纜和有源光纜?!被萜掌髽I(yè)資深會(huì)員和HPC/MCS的首席技術(shù)官邁克?伍德克(Mike Woodacre)說。他補(bǔ)充道,去除低效的通用器件“顯著降低了線纜的能耗”。
機(jī)柜中計(jì)算機(jī)刀片的降溫采用了液體冷卻?;萜掌髽I(yè)高性能計(jì)算和人工智能系統(tǒng)副總裁杰拉爾德?克萊恩(Gerald Kleyn)表示,這臺(tái)超級(jí)計(jì)算機(jī)的密度能夠達(dá)到傳統(tǒng)風(fēng)冷結(jié)構(gòu)的5倍。其結(jié)果是,這種緊湊的系統(tǒng)反過來大大降低了布線要求和運(yùn)行費(fèi)用。
“突破百億億次計(jì)算的門檻很重要,同時(shí)位列全球綠色500強(qiáng)第二更是非凡?!笨巳R恩說。此外,他說,在疫情期間和全球性供應(yīng)鏈問題的環(huán)境下,實(shí)現(xiàn)這一點(diǎn)“全靠美國(guó)橡樹嶺國(guó)家實(shí)驗(yàn)室、惠普企業(yè)和AMD之間強(qiáng)大的團(tuán)隊(duì)合作”。
Frontier下一步的工作包括繼續(xù)測(cè)試和驗(yàn)證該系統(tǒng)。該實(shí)驗(yàn)室表示,2022年后期將繼續(xù)進(jìn)行最后驗(yàn)收和早期科學(xué)應(yīng)用,計(jì)劃于2023年初全面開放應(yīng)用于科學(xué)項(xiàng)目。
已經(jīng)計(jì)劃在Frontier展開的項(xiàng)目包括癌癥研究、藥物研發(fā)、核聚變、特殊材料、超高效引擎和恒星爆炸。這臺(tái)機(jī)器的目標(biāo)是將完成這類工作所需的時(shí)間從幾周縮短到幾個(gè)小時(shí),從幾個(gè)小時(shí)縮短到幾秒。
“Frontier可幫助科學(xué)家們開展更多的科學(xué)研究,這意味著更接近高效清潔能源,更快發(fā)現(xiàn)有效的病毒疫苗。”麥克雷迪說,“Frontier成為首個(gè)百億億次級(jí)計(jì)算機(jī),這是我們整個(gè)征途的開始。看到美國(guó)橡樹嶺國(guó)家實(shí)驗(yàn)室的研究人員致力于解決氣候、能源和疫情方面的問題,以及人類面臨的其他重大挑戰(zhàn),我們已經(jīng)從制造一臺(tái)強(qiáng)大的計(jì)算機(jī)走向想要制造一些對(duì)每個(gè)人都有幫助的東西。”
審核編輯 :李倩
-
amd
+關(guān)注
關(guān)注
25文章
5376瀏覽量
133382 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7174瀏覽量
87158 -
超級(jí)計(jì)算機(jī)
+關(guān)注
關(guān)注
2文章
452瀏覽量
41820
原文標(biāo)題:首臺(tái)百億億次計(jì)算機(jī)內(nèi)部的秘密
文章出處:【微信號(hào):bdtdsj,微信公眾號(hào):中科院半導(dǎo)體所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論