去年11月,Nvidia憑借一款名為Eos的系統(tǒng)突然出現(xiàn)在全球最快超級計(jì)算機(jī)500強(qiáng)榜單的第9位,引起了一些人的注意。Eos是以每天打開黎明大門的希臘女神命名的,是英偉達(dá)的企業(yè)級AI訓(xùn)練系統(tǒng),該公司現(xiàn)在首次發(fā)布了一段視頻向公眾展示它。
Eos本質(zhì)上是英偉達(dá)自己的超級計(jì)算機(jī),員工每天都可以用它來進(jìn)行AI訓(xùn)練,或者在午休時(shí)間玩《孤島危機(jī)》。它包括一個(gè)由576臺(tái)DGX H100服務(wù)器組成的集群,由于每臺(tái)服務(wù)器都有8個(gè)H100 GPU,因此總共有4608臺(tái)H100與其Quantum-2 InfiniBand技術(shù)連接在一起。這基本上是英偉達(dá)展示其DGX SuperPod設(shè)計(jì)的極端版本,是一種企業(yè)規(guī)模的AI訓(xùn)練,它希望將其出售給擁有巨額預(yù)算和大量AI模型的公司。
英偉達(dá)將Eos描述為一個(gè)可以為“AI工廠”提供動(dòng)力的系統(tǒng),因?yàn)樗且粋€(gè)非常大規(guī)模的SuperPod DGX H100系統(tǒng)。該公司表示,正是這一點(diǎn)讓它能夠在AI方面有所突破,并展示了英偉達(dá)最新技術(shù)在放大到超大規(guī)模時(shí)的強(qiáng)大功能。
DGX H100服務(wù)器使用英特爾Xeon Platinum8480C CPU,具有56核和112線程。與4608個(gè)H100 GPU相結(jié)合,它提供了121 PetaFLOPS的Linpack性能,僅足以在Top500中排名第9,但這更像是一個(gè)通用指標(biāo)。如果純粹以AI訓(xùn)練來衡量,它很容易成為目前世界上最快的系統(tǒng)之一。
當(dāng)該系統(tǒng)去年首次亮相時(shí),英偉達(dá)展示了比之前基于Ampere的A100系統(tǒng)的巨大改進(jìn)。例如,在一個(gè)模擬訓(xùn)練GPT-3模型的測試中,Eos只花了4分鐘,而基于A100的系統(tǒng)花了11分鐘。然而,之前的系統(tǒng)只使用512個(gè)GPU,而Eos更大、使用更強(qiáng)大的GPU,所以預(yù)期會(huì)有顯著的提升。
然而,我們在研究英偉達(dá)的最新聲明時(shí)發(fā)現(xiàn)了一個(gè)差異。早在2023年11月,英偉達(dá)就表示Eos配備了10,752個(gè)H100GPU。在最新的公告中,這個(gè)數(shù)字已經(jīng)減少到4608,所以我們不確定發(fā)生了什么變化,或者Eos是否已經(jīng)縮小了一些。
我們通過電子郵件向英偉達(dá)尋求澄清,一位發(fā)言人回應(yīng)說:“為了提供一些清晰的信息,用于MLPerf LLM訓(xùn)練的超級計(jì)算機(jī)具有10,752個(gè)H100 GPU,是使用相同DGX SuperPOD架構(gòu)構(gòu)建的不同系統(tǒng)。在2023年TOP500榜單上排名第九的系統(tǒng)是現(xiàn)在博客和視頻中介紹的4608 GPU Eos系統(tǒng)?!?/p>
當(dāng)問及為什么這兩個(gè)系統(tǒng)都被命名為Eos時(shí),發(fā)言人回答說:“我們在Eos一代中部署了多個(gè)系統(tǒng),它們都基于相同的NVIDIA DGX SuperPOD架構(gòu)。”
審核編輯:黃飛
-
超級計(jì)算機(jī)
+關(guān)注
關(guān)注
2文章
459瀏覽量
41904 -
AI
+關(guān)注
關(guān)注
87文章
29805瀏覽量
268098 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3720瀏覽量
90675
原文標(biāo)題:揭秘:英偉達(dá)用于AI訓(xùn)練的Eos超級計(jì)算機(jī)!
文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論