電子發(fā)燒友網(wǎng)報道(文/周凱揚)要說HPC對更高算力等級的追求,往往在很長一段時間之前就開始了,比如最近才開始冒頭的Exascale超算,其實也是從2007年左右才開始規(guī)劃的,直到去年才有了Frontier的出現(xiàn),以及將在今年上線的Aurora和El Captitan超算。其中經(jīng)歷了不少阻礙,比如處理器的設(shè)計問題、供應(yīng)鏈的短缺加上正式上線前持續(xù)的優(yōu)化等。
然而,在達成了一個目標后,我們就會忍不住去設(shè)想下一個目標,Zettascale到底離我們有多遠?到了現(xiàn)在我們也都知道,肯定不會像Intel前圖形部門負責人Raja Koduri說的那樣,在2027年左右實現(xiàn)??晌覀円捕贾垃F(xiàn)在是一個算力指數(shù)增長的時代,為何真正的Zettascale系統(tǒng)卻還要那么久才能出現(xiàn)呢?除了技術(shù)演進外,自然就是成本問題。
規(guī)模硬件成本
首先考慮到的就是規(guī)模成本,目前的Exascale級別系統(tǒng)中,擁有成千上萬個節(jié)點已經(jīng)不是什么稀奇事了,而作為Exascale千倍的Zettascale系統(tǒng),除非通用算力有了飛躍式的提升,不然這樣的規(guī)?;渴鸺幢闶谴笮驮品?wù)廠商或國家實驗室都難以負擔。
就已上面提到的Frontier為例,這臺超算由9472塊AMD Epyc 7453 CPU和37888塊Radeon Instinct MI250X GPU組成,單是硬件成本就達到了6億美元左右。同樣,如此龐大規(guī)模的系統(tǒng)在運營規(guī)模上也不可小覷,根據(jù)超算實驗室負責人透露,在這類機器上運行應(yīng)用程序兩周的成本大概在700萬美元。
以上還只是規(guī)?;挠嬎阌布杀荆恳粋€超算系統(tǒng)還要考慮到規(guī)?;?a target="_blank">電源、冷卻和線纜帶來的成本。如果節(jié)點數(shù)量翻倍的話,以上附加硬件費用也都要統(tǒng)統(tǒng)翻倍,甚至可能會指數(shù)級上漲。
至于可用的規(guī)模化量子計算超算,解決藥物代謝之類的復(fù)雜科學問題,那需要的物理量子位可能要在千萬級以上,總的硬件成本范圍大概在50億美元和200億美元之間??梢哉f,如果無法把這個成本降下幾個數(shù)量級,那么為HPC付出的成本代價勢必會令所有人退卻。
設(shè)計成本
要想及時進入Zettascale時代,直接購買第三方供應(yīng)的處理器必然是最省事的,但對比近來幾個超算系統(tǒng)的部署進度,供應(yīng)商不一定能保證按時交付,有太多因素會影響到原本的部署計劃。而且這種方式因為其通用性缺失省了不少麻煩,卻不一定省錢。那么自研處理器是否會是更加省錢的方法呢?
以日本的富岳超算為例,雖然該系統(tǒng)整個項目的成本達到了10億美元,但其中包括了A64FX這一ARM CPU的設(shè)計與硬件成本。更不用說同樣的架構(gòu)未來可以用于打造下一代超算系統(tǒng)。而不需要購買時下昂貴的第三方處理器。
擁有同樣想法的還有印度政府,他們?yōu)閲鴥?nèi)超算系統(tǒng)打造的AUM處理器同樣采用了ARM架構(gòu),甚至由于采用了96核的Arm Neoverse V1設(shè)計,并采用了臺積電的5nm工藝,在性能上甚至要高于A64FX。
可由于采用了先進工藝,其設(shè)計成本本身就很難降低下來,以目前的市價來看,臺積電N5節(jié)點的設(shè)計成本大概在5億美元,所以如果不是真的打算把自研一直走下去,這種方法反而是最費錢的一種。
小結(jié)
我們是靠吃到了工藝、設(shè)計雙雙爆發(fā)的紅利,才能以這么快的速度進入了Exascale時代,至于64位下的Zettascale系統(tǒng),我們很可能還是要等到2035年才能得見真容。但這并不代表我們不能從現(xiàn)在開始準備,雖然離部署還很遙遠,但對各大處理器和架構(gòu)的評估,其實早就在各大研究機構(gòu)中開展了。尤其是隨著AI負載的加入,任何HPC系統(tǒng)都必須決定未來通用計算與AI計算各自的占比,并研究專為AI打造的一套全新HPC應(yīng)用程序。
-
HPC
+關(guān)注
關(guān)注
0文章
309瀏覽量
23650
發(fā)布評論請先 登錄
相關(guān)推薦
評論