電子發(fā)燒友網(wǎng)報道(文/李彎彎)3月3日,Graphcore發(fā)布最新一代IPU,性能比上一代提升40%,電源效率提升16%,這是全球首款基于臺積電3D Wafer-on-Wafer的處理器。從上一代IPU到新的IPU,開發(fā)者無需修改代碼,價格保持不變,現(xiàn)在已經(jīng)上市。
世界首顆基于臺積電3D Wafer-on-Wafer的處理器
Graphcore大中華區(qū)總裁兼全球首席營收官盧濤向媒體介紹,新一代IPU名叫Bow IPU,是一個3D封裝的芯片,單個封裝中有超過600億個晶體管,具有350 TeraFLOPS的人工智能計算的性能,上一代MK2 IPU是250 TeraFLOPS。
Bow IPU在供電方面也做了很多優(yōu)化,片內(nèi)存儲保持了0.9 GB的容量,但吞吐量從47.5TB/s提高到65TB/s。
處理器內(nèi)核個數(shù)、獨立線程個數(shù)等等,包括外部的一些接口,Bow IPU跟上一代處理器相比都沒有變化。相比上一代,Bow IPU變化主要體現(xiàn)在它是一個3D封裝的處理器,晶體管的規(guī)模有所增加,以及算力和吞吐量有所提升。
Bow IPU由2顆裸片疊在一起構(gòu)成,使用了臺積電的SoIC-WoW技術(shù)。一個IPU的裸片在下面,另一個裸片在上面。上面的裸片為供電、節(jié)能等功能提供幫助。
盧濤表示,跟之前的處理器相比,這個設(shè)計使得新產(chǎn)品在實際運算算力提高的情況下,能效方面也有所提升。
從某種意義來說,這是Graphcore跟臺積電一起聯(lián)合創(chuàng)新的結(jié)果。
基于Bow IPU的Bow系統(tǒng)性能大幅提升
除了BowIPU,Graphcore同時發(fā)布了基于Bow IPU的Bow系統(tǒng),包括Bow Pod16、Bow Pod32、Bow Pod64、Bow Pod256,以及Bow Pod1024。以Bow Pod16為例,Bow Pod16中包括4臺1U的Bow-2000,還包括1臺CPU服務(wù)器,能提供5.6 PetaFLOPS算力。
以Bow Pod16縱向擴展的Bow Pod32、Bow Pod64分別包括8臺Bow-2000、16臺Bow-2000。基于Bow Pod64可以再橫向擴展到Bow Pod256、Bow Pod1024等。Bow Pod1024包括256臺Bow-2000,可以提供358.4 PetaFLOPS的人工智能計算。目前,除了Bow Pod1024在早期訪問階段外,Bow Pod16、Bow Pod32、Bow Pod64、Bow Pod256均已量產(chǎn)。
性能擴展方面,以IPU-POD16的性能作為基準,Bow Pod16的性能可以提升1.4倍,Bow Pod256可以提升18倍。
盧濤介紹,Bow-2000 IPUMachine使用了4顆Bow IPU。此前,在這樣一個1U刀片里,Graphcore提供了1 PetaFLOPS的算力,現(xiàn)在Graphcore提供了1.4 PetaFLOPS的算力。Bow-2000具有3.6 GB處理器內(nèi)存儲,吞吐量為260TB/s,IPU流存儲多達256 GB,IPU-Fabric為2.8 Tbps。
100%軟件兼容,開箱即用無需更改代碼
盧濤強調(diào),新一代產(chǎn)品跟前一代產(chǎn)品百分之百軟件兼容,基本上能做到開箱即用。用戶得到性能提升的同時不需要修改代碼,不僅是應(yīng)用軟件,包括底層軟件、驅(qū)動等都不需要做任何修改,可以無縫集成到正在不斷變得更加廣泛的IPU軟件合作伙伴生態(tài)中。
這一點特別關(guān)鍵。很多產(chǎn)品在從一代往另一代演進的時候,在實現(xiàn)性能提升的同時,還需要很多的軟件適配工作。而100%的軟件兼容,意味著已經(jīng)使用Graphcore上一代IPU的用戶在未來購置新的Bow IPU后,不需要做任何軟件適配工作就能獲得性能提升。
提供完整軟件棧生態(tài)系統(tǒng)
Graphcore中國工程副總裁、AI算法科學(xué)家金琛對媒體表示,上述的這些性能提升,除了硬件新架構(gòu)外,也要歸功于Graphcore的軟件棧和生態(tài)系統(tǒng),其中的核心部分就是Poplar SDK。
金琛表示,Poplar SDK包括driver,上層XLA的backend,以及Graphcore自研的PopART等,這些軟件的加持使得Graphcore能夠?qū)崿F(xiàn)在不同應(yīng)用的性能上的廣泛和通用的提升。
除此之外,Graphcore還提供比較豐富的生態(tài)。比如AI軟件框架,支持PyTorch、TensorFlow、HALO、PaddlePaddle,以及Keras等。在用戶方面,支持Jupyter NoteBook,以及Inference Deployment Toolkit等,幫助客戶實現(xiàn)推算一體的部署。
在開發(fā)者社區(qū)方面,Graphcore提供廣泛的代碼用例,以及各種文檔、視頻的示范。Graphcore在機器學(xué)習(xí)應(yīng)用上提供了特別多模型范例,覆蓋了不同的AI垂直領(lǐng)域,如圖像識別、物體檢測,語音模型、語言模型等,這個模型庫還在不停迭代和增加。
在云上,Graphcore也提供了廣泛的部署。此外,Graphcore的PopVision工具可以幫助用戶和Poplar編程者更有效地提升應(yīng)用在Graphcore的平臺上的性能優(yōu)化。
提供10倍的總體擁有成本優(yōu)勢
Graphcore不僅提供高效的性能,在性價比上也有比較顯著的優(yōu)勢。比如,上圖左邊是Bow Pod的一個形態(tài),右邊是DGX-A100的一個形態(tài)??梢钥吹?,在DGX-A100上需要70個小時的訓(xùn)練時間,在Bow Pod16上,EfficientNet-B4的backbone的訓(xùn)練只需要14個小時左右,基本快了5倍,性價比又有優(yōu)勢,總體擁有成本(TCO)的增益可以達到接近10倍左右。
Graphcore未來還要做什么?
人的大腦大概有860億個神經(jīng)元,100萬億個突觸,這個突觸相當(dāng)于人工智能里面模型的參數(shù)個數(shù)。也就是說,最大的人工智能模型的參數(shù)跟真正的人的大腦比較起來,還有100倍左右的差距。
盧濤談到,目前Graphcore正在開發(fā)一款可以用來超越人腦處理的超級智能機器——Good Computer,即古德計算機。這個命名有兩層含義,一層是好的計算機,希望計算機能夠帶來正面的影響,另外也是向前輩致敬——JackGood是一位非常知名的計算機科學(xué)家。
Good Computer大概能夠達到8192個未來的IPU,提供超過10 Exa-Flops的AI算力,未來也許會繼續(xù)向3D Wafer-on-Wafer演進,可以實現(xiàn)4 PB的存儲,可以助力超過500萬億參數(shù)規(guī)模的人工智能模型的開發(fā),Poplar SDK完全支持。
預(yù)計價格取決于不同的配置,大概在100萬美元到1.5億美元的規(guī)模。盧濤表示,從Bow IPU往前展望,這是Graphcore正在做的一個產(chǎn)品。
-
臺積電
+關(guān)注
關(guān)注
43文章
5596瀏覽量
165971 -
IPU
+關(guān)注
關(guān)注
0文章
34瀏覽量
15534
發(fā)布評論請先 登錄
相關(guān)推薦
評論