全球最強超級計算機神威·太湖之光搭載的申威26010處理器每片處理器包含4個核心,片上的4個核心通過片上網(wǎng)絡(luò)互聯(lián),并通過PCI-E 3.0對外連接,每個核心擁有獨立的128位DDR3控制器連接到8GB DDR3-2133內(nèi)存,這樣4個核心一共擁有32GB的DDR3內(nèi)存。
從這里可以看出SW26010實際上類似于用膠水把4個獨立的處理器粘在了一起,整合到了一個芯片里面,但是每個核心還是可以獨立工作,而且擁有獨立的128bit 8GB內(nèi)存。這樣單個核心的內(nèi)存帶寬達到了34GB/s,整個處理器達到了136GB/s,這樣設(shè)計最大的好處就是每個核心的帶寬是完全獨享的,缺點是空閑核心的帶寬無法共享給其他核心。
其中每個核心包含一個主處理器(MPE)和一個8*8的計算單元陣列(CPEs),主處理器是一個64位的RISC架構(gòu)核心,用來跑操作系統(tǒng),并且支持264位的矢量指令集,擁有32KB的L1指令緩存和32KB的L1數(shù)據(jù)緩存(總共64KB L1 cache),和256KB L2 Cache,應(yīng)該說這樣的緩存配置并不算大,應(yīng)該是為了節(jié)約芯片面積考慮,4個核心的主處理器加起來一共有256KB L1 cache和1MB L2 cache。
計算單元陣列(CPEs)是一個由64個簡化的62bit處理器(不是常見的64bit)組成,每個處理器只有16KB的L1指令緩存和64KB本地儲存,沒有L1數(shù)據(jù)緩存,并且和主處理器一樣支持264位的矢量指令集,單片處理器擁有一共256個這樣的計算單元。
于是加上4個主處理器,單片處理器一共擁有260個處理器核心。
神威·太湖之光的每個處理器卡有兩片SW26010處理器,和一共64GB內(nèi)存,長得像這樣,每個處理器算一個計算節(jié)點,這樣一塊處理器卡和intel xeon phi協(xié)處理器卡類似,只是intel這樣一塊計算卡只有區(qū)區(qū)60個核心,而且不能獨立工作,還需要另外購買一個獨立的xeon主機作為管理處理器使用。而SW26010處理器集成了管理處理器,可以獨立工作,并且單個處理器卡擁有高達520個處理器核心。
對比一下intel xeon phi計算系統(tǒng)的結(jié)構(gòu):
KNC Card就是一塊intelXeon Phi協(xié)處理器卡,協(xié)處理器卡通過PCIE-X16和主處理器相連,其實看上去就像是一臺PC上面插著好幾塊顯卡。這樣一臺PC構(gòu)成一個計算節(jié)點。
對比SW26010處理器的方案,單個節(jié)點來看,一塊SW26010的核心數(shù)量和一臺帶有4塊xeon phi計算卡的功能相當。Intel方案的麻煩在于,這樣一個計算節(jié)點的功耗和體積遠遠大于SW26010,而且intel主處理器內(nèi)存和協(xié)處理器卡的內(nèi)存是分離的,需要先將要處理的數(shù)據(jù)通過PCI-E x16傳輸至計算卡內(nèi)存,然后計算卡才能計算,最后將結(jié)果通過PCI-E x16讀回主處理器,這樣一來一回的性能損失很多時候遠大于計算卡帶來的好處。
SW26010的主處理器和協(xié)處理器的內(nèi)存是共享的,這樣無需來回從協(xié)處理器倒騰數(shù)據(jù),而且可以實現(xiàn)類似AMD APU的統(tǒng)一內(nèi)存尋址,大幅度提高了協(xié)處理器的使用效率,從這點來說SW26010的方案是優(yōu)于intel方案的。
從單個核心對比來看,Intel的phi協(xié)處理器據(jù)說是基于最早的奔騰x86方案改進而成,多了一個512位的矢量處理器,而SW26010只有264位的矢量處理器,phi擁有32KB的L1指令緩存,32KB的L1數(shù)據(jù)緩存和512KB的L2 緩存,對比SW26010的協(xié)處理器只有16KB的L1指令緩存和64KB的本地存儲,而且intel的phi核心可以支持4個物理線程,也就是超線程技術(shù),單純從技術(shù)來講,intel的phi處理器拿出來單挑應(yīng)該可以吊打單獨的SW26010的計算核心。
理論性能可以看出,單個intel的phi處理器是高于SW26010的計算核心,得益于超寬的512位矢量處理器(VPU),intel phi上的處理器每個時鐘可以執(zhí)行16個單精度運算或8個雙精度計算,而SW26010上的計算核心只有一半的寬度,所以最多也就8個單精度和4個雙精度,不過SW26010的核心頻率是1.45GHz,要比intel phi的1.3GHz稍高,但是這樣也很難追平intel的單個核心的理論性能優(yōu)勢。
但是光比理論峰值性能是沒有什么意義的,SW26010的VPU雖然比intel phi的寬度小,但是264bit的寬度而不是256bit的寬度可以提供比intel的單雙精度浮點更高的計算精度,單精度浮點可以比intel的高一倍,而雙精度可以高4倍,這在科學計算中是能夠獲得更大的優(yōu)勢,而且intel的512bit寬度的矢量運算需要更多的數(shù)據(jù)來填飽它,加上需要用PCI-E傳輸數(shù)據(jù)的瓶頸,大部分時候也只能挨餓,而SW26010可以直接訪問主存,因此在實際使用效率上不見得就會比intel phi低多少,并且某些應(yīng)用場合甚至可能大幅度超過intel。
而且最重要的是,SW26010這樣的設(shè)計,大幅度降低了系統(tǒng)復雜度,單個計算節(jié)點只需要一片SW26010,而intel就很杯具的需要一整臺機架服務(wù)器,大概長得像這樣:
或是這樣:
對比一下sw26010,只需要這樣,一塊插件板上有8個節(jié)點:
然后這樣:
得益于SW26010的超低功耗,大幅度降低了散熱壓力,一個小小的機箱塞進了256個計算節(jié)點。。。。同體積秒殺intel。不要小看體積因素,更小的體積意味著可以用更快的總線和更低的成本將所有節(jié)點連接起來。而SW26010的節(jié)點輕松用PCI-E 3.0就連起來了,又便宜又快,噴總線瓶頸的可以省省了,天河二號用的自制TH-Express-2連接計算節(jié)點,使用PCI-E 2.0連接,根據(jù)資料顯示速度是6.36GB/s,延遲是85us;而SW26010的計算節(jié)點連接性能高達12GB/s,延遲只有區(qū)區(qū)的1us,性能遠超intel方案的天河二號。然后這樣一個小小的機柜,居然塞進了8機箱,像這樣:
下面說說超算閑置問題 針對此某HPC從業(yè)者這樣回答
1.中國無論天河-1還是天河-2現(xiàn)在都是滿負荷運轉(zhuǎn),根本沒有閑置問題,天河1不說了,現(xiàn)在用得排隊,天河2的國防科大自己想測試下節(jié)點都經(jīng)常沒資源,所謂天河-2上利用效率不高也是相對于去目的的,把資源滿負荷當然容易,以前跟袁學峰教授合作過,這么說吧,人家所謂利用不充分是說重大科研課題放在天河-2上的沒他們期望的比例高,至于金融類動漫類低層次的應(yīng)用,人家根本沒把它們當正經(jīng)應(yīng)用(這類應(yīng)用由于門檻低,并行度高,很容易占用大量計算資源),國防科大和廣州天河的袁教授期望的是天河-2在國家重大專項等高層次應(yīng)用上更多做出貢獻,比如核物理,流體力學等代表超算頂尖水平的應(yīng)用更多(這也是天河-3繼續(xù)獲得國家撥款的主要依據(jù),國家一點都不傻),這當然有一定難度,因為天河-2是異構(gòu)計算機,想充分利用這些資源,代碼幾乎都得重寫,實際上,在美國TITAN上由于用了GPU, 這類應(yīng)用推進的也不怎么樣。
2.以我在HPC工作接觸的情況來看,江南所這個超算完全不用擔心上述問題,因為江南所是軍方背景,他們搞得計算機一個主要應(yīng)用就是核物理仿真,中國在核物理仿真方面幾乎全部代碼都是自主搞得,而且很多代碼都是針對江南所的計算硬件專門設(shè)計的,編譯器加速庫等生態(tài)系統(tǒng)一應(yīng)俱全,因此這些在天河-2上遇到的問題,反而在神威上可能不是太大問題,一個例子就是神威超算剛上線,一個核物理仿真在神威上就取得了40P的驚人效率,并且有三個應(yīng)用已經(jīng)入圍超算應(yīng)用國際大獎評選了(效率3占到理論峰值多30%的超算應(yīng)用是驚人的,實際上寫過程序的都知道,別說超算,即便多核計算機,一般的應(yīng)用能達到系統(tǒng)浮點峰值30%都是挺不錯了)。
當然相應(yīng)的,神威上部署民用應(yīng)用,比如金融/動漫渲染之類低層次應(yīng)用,反而難度會大一些,基本上代碼得重寫或者大改,但是對這種層次的超算,這些低水平應(yīng)用本來就不是重點。
對很多核物理和流體,計算電磁學等高端計算來講,現(xiàn)在超算不是能力太強,是太弱,因此只能千方百計地降低計算復雜度+各種簡化,實際上即便是天河-2,做流體的直接數(shù)值模擬,也根本達不到可用的尺度!
以超算速率做為面積比重,分國家做出來的圖,黃色部分為中國,紅色是美國,然后是其它國家。
上榜的超算具體分布如下
歐洲共有105臺超算上榜(比2015年11月的107臺少2臺),總體數(shù)量下降,遠遜于亞洲國家。亞洲國家的超算高達218臺,雄霸榜單,比上次的173臺有了顯著的增長。德國的超算數(shù)量在歐洲居冠,共有26臺,法國以18臺緊隨其后,英國有12臺。亞洲方面,日本以29臺位于中國之后(比2015年的37臺有顯著下降)。
克雷系繼續(xù)獨領(lǐng)風騷,在所有的超算運算性能中占據(jù)19.9%的份額(比上次的25%有所下滑)。中國國家并行計算機工程中心僅憑借一臺神威太湖之光在性能上名列第二,占16.4%。IBM則獲得季軍,占10.7%,比六個月前的14.9%下降不少?;萜照?2.9%,比半年前的14.2%略微下滑。。
1.所有上榜超算的性能共計達566.7 pflop/s,而半年前為420 pflop/s,一年前則為363 pflop/s。性能提升的同時,漲幅較以往明顯放緩。
2.共有95臺超算的性能超過一億億次每秒,半年前僅有81臺。
3.英特爾處理器仍占有絕對多數(shù)份額——在全球超算500強中,有455臺超算采用該公司芯片,比重高達91%。IBM處理器的比重從半年前的26臺降至如今的23臺。13臺超算采用AMD皓龍系列(占2.6%),不及半年前的4.2%。
4.惠普公司的產(chǎn)品最多,為127臺(占25.4%),聯(lián)想緊隨其后,有84臺。克雷則有60臺,不及半年前的69臺。半年前上榜的惠普公司產(chǎn)品為155臺,而IBM本期上榜超算為38臺,名列第五。
5.共用93臺上榜超算采用了加速器或協(xié)處理器技術(shù),比半年前的104臺有所下滑。其中67臺采用NVIDIA芯片,26臺采用英特爾至強Phi技術(shù),3臺采用ATI Radeon,還有兩臺采用PEZY技術(shù)。3臺超算同時采用NVIDIA和至強Phi加速器或協(xié)處理器。每臺超算平均采用7.6萬顆加速核心。
6.上榜門檻提高至LINPACK測試的285.9 tflop/s(每秒285.9萬億次運算——MIKADO譯注),半年前的門檻則是206.3 tflop/s(每秒206.3萬億次運算——MIKADO譯注)。 本次榜單的最后一名可排在上次榜單的第351位。
7.本榜單最后一名的性能增幅繼續(xù)低于之前6年的增長水平,現(xiàn)在這一趨勢得到進一步加強。 從1994年至2008年,增幅為平均每年90%,但2008年以后的增幅僅為平均每年55%。
國產(chǎn)超算發(fā)展史
90年代初,為了徹底打破國外對高性能計算機的壟斷,國家派出一支年輕精干的科研小分隊,遠赴美國硅谷去進行曙光一號的研究。當時的科學計算所所長李國杰在黑板上寫下了“人生能有幾回搏”七個大字,斬釘截鐵的對幾個年輕人說:“派你們?nèi)?,就相信你們一定能把機器給造出來!” 在每天工作十五、六個小時,長達11個月的封閉式研究后,科研小分隊成功設(shè)計出曙光一號核心部分。
在曙光一號的研發(fā)過程中,一些國外公司和國內(nèi)買辦對曙光一號研究小組的領(lǐng)頭人李國杰院士說,“把錢給我,我給你造出來不就完了”。但李國杰院士堅持認為,高性能計算的核心技術(shù)必須掌握在中國人手中,這是一絲一毫都不能讓步的,不僅要做整機研制,包括存儲器在內(nèi)的配件都要自己做。
1.1993年,中國一臺高性能計算機曙光一號并行機終于研制成功。曙光一號的戰(zhàn)略效應(yīng)可以說是立竿見影:就在這臺高性能計算機誕生的第三天,美國便宣布解除10億次計算機對中國的禁運!成功打破了國外IT巨頭對我國信息技術(shù)的壟斷,推動信息產(chǎn)業(yè)走上了自主發(fā)展的道路。
2.1995年,在只有十余名研究員及500萬元經(jīng)費的情況下,中國成功研發(fā)出曙光1000大規(guī)模并行計算機。曙光1000在整體技術(shù)上居中國之首,并達到了20世紀90年代前期的國際先進水平,其運行速度的峰值達到了每秒25億次,在當時我國大規(guī)??茖W工程計算中發(fā)揮了重大作用。曙光1000也榮獲了1996年中國科學院科技進步特等獎和1997年國家科學技術(shù)進步一等獎。
3.1998年,曙光2000問世,總體水平達到了90年代同期國際先進水平,有些方面如機群操作系統(tǒng)、集成化并行編程環(huán)境和服務(wù)器聚集軟件等已處于國際領(lǐng)先水平。
4.2001年,曙光3000誕生,標志著我國超算產(chǎn)品正在走向成熟,能兼顧大規(guī)??茖W計算、事物處理和網(wǎng)絡(luò)信息服務(wù),已然是國民經(jīng)濟信息化建設(shè)的重大裝備。
5.2004年,曙光公司研發(fā)出4000A,成為國內(nèi)首臺每秒運算超過10萬億次的超級計算機,并代表中國首次進入全球超級計算機TOP 500排行榜,位列第十位。
6.2008年,曙光5000降生,曙光5000的系統(tǒng)峰值運算速度達到每秒230萬億次浮點運算,使中國成為繼美國之后第二個能制造和應(yīng)用超百萬億次商用高性能計算機的國家,也表明我國生產(chǎn)、應(yīng)用、維護高性能計算機的能力達到世界先進水平。
7.2009年,作為第一臺國產(chǎn)千萬億次超級計算機的天河一號在湖南長沙亮相。天河一號超級計算機性能為每秒1206萬億次的峰值速度,Linpack實測性能為每秒563.1萬億次,強勁的性能使天河一號位列中國超級計算機前100強之首,也使中國成為繼美國之后世界上第二個能夠自主研制千萬億次超級計算機的國家。2010年,國防科大對天河1號進行了升級,天河1A的實測運算能力從天河1號的每秒563.1萬億次,提升至2507萬億次,成為當時世界上最快的超級計算機。
8.2010年,曙光6000問世,曙光6000以實測每秒達1271萬億次的Linpack峰值速度,在2010年第35屆全球超級計算機500強排名中名列第二。
9.2012年,神威藍光超級計算機投入使用。該超算使用了8704片申威1600,搭載神威睿思操作系統(tǒng),雖然超算絕對性能并不高,但卻是中國在“市場換技術(shù)”之后,首次實現(xiàn)了超算CPU和操作系統(tǒng)的全部國產(chǎn)化。神威藍光超算峰值計算性能為每秒一千萬億次,持續(xù)性能為每秒796萬億次,性能功耗比超過741MFlops/W(百萬次浮點運算/秒?瓦),LINPACK效率為74%。
10.2013年,國防科大成功研制出天河2號,其高達55PFlops的性能使其傲視群雄,六度蟬聯(lián)TOP500排行榜首位。雖然在計算節(jié)點上使用的是美國Intel的CPU,但天河2號也使用了4096片飛騰1500,用于高速互聯(lián)網(wǎng)絡(luò)系統(tǒng)。
如果說天河2號、曙光6000、天河1號等超算使用了國外CPU是白璧微瑕,那么,本次發(fā)布的新超算“神威太湖之光”則實現(xiàn)了CPU、操作系統(tǒng)、高速互聯(lián)網(wǎng)絡(luò)等核心軟硬件的全面國產(chǎn)化——其CPU申威26010由260個核心構(gòu)成,雙精浮點峰值高達3TFlops,完全追平了Intel最好的超算芯片。
11.2016年6月20日,全球超級計算機500強榜單公布,使用中國自主芯片制造的“神威太湖之光”取代“天河二號”登上榜首,成為世界首臺運算速度超過10億億次的超級計算機,其每秒浮點運算峰值達到12.54億億次,持續(xù)運算能力達每秒9.3億億次,運算速度是使用intel芯片天河二號的三倍。
評論
查看更多