一家英國芯片初創(chuàng)公司推出了它聲稱是世界上最復雜的AI芯片Colossus MK2或GC200 IPU(智能處理單元)。Graphcore將其MK2與Nvidia的適用于AI應用的Ampere A100 GPU進行對比。
MK2及其前身MK1專為處理非常大型的機器學習模型而設計。MK2處理器具有1,472個獨立的處理器核心和8,832個獨立的并行線程,所有這些均由900MB的處理器內RAM支持。
Graphcore表示,MK2的BERT-Large訓練性能比MK1改進了9.3倍,BERT-3Layer推理性能提高了8.5倍,EfficientNet-B3培訓的性能提高了7.4倍。
BERT,即來自變壓器的雙向編碼器表示形式,是Google為基于自然語言的搜索而開發(fā)的自然語言處理預訓練技術。
Graphcore不僅會提供芯片。對于一家相對較新的創(chuàng)業(yè)公司(成立于2016年),Graphcore圍繞其芯片構建了卓越的生態(tài)系統(tǒng)。大多數(shù)芯片初創(chuàng)公司只關注其硅片,但是Graphcore提供了更多的東西。
它通過其新的IPU機器M2000出售GC200,該IPU機器M2000在1U盒中包含四個GC200芯片,并提供1 petaflop的總計算能力。Graphcore指出,您可以從直接連接到現(xiàn)有x86服務器的單個IPU-Machine M2000盒子開始,或者添加總共八個連接到一臺服務器的IPU-Machine M2000。對于大型系統(tǒng),它提供IPU-POD64,其中包括內置在標準19英寸機架中的16臺IPU-Machine M2000。
通過Graphcore的全新IPU-Fabric技術可以大規(guī)模連接IPU-Machine M2000和IPU-POD,該技術是專為機器智能通信而設計的,并提供了專用的低延遲結構,可以在整個數(shù)據(jù)中心連接IPU。
Graphcore的Virtual-IPU軟件與工作量管理和編排軟件集成在一起,可為許多不同的用戶提供培訓和推理服務,并且它允許對可用資源進行調整,并根據(jù)工作進行重新配置。
這家初創(chuàng)公司表示,其新硬件完全是即插即用的,客戶將能夠將多達64,000個IPU連接在一起,總共擁有16 exaFLOP的計算能力。
這是一個很大的要求。英特爾,ARM,AMD,富士通和Nvidia仍在朝著exaflop的目標邁進,而Graphcore聲稱是后者的16倍。
Graphcore的另一個關鍵要素是其Poplar軟件堆棧,該堆棧由IPU從頭開始設計,并與標準機器學習框架完全集成,因此開發(fā)人員可以輕松移植現(xiàn)有模型,并在熟悉的環(huán)境中快速啟動并運行。對于希望完全控制以利用IPU發(fā)揮最大性能的開發(fā)人員,Poplar支持使用Python和C ++直接進行IPU編程。
Graphcore有一些重要的MK2系統(tǒng)早期采用者,包括牛津大學,美國能源部的勞倫斯·伯克利國家實驗室和JP Morgan,后者致力于自然語言處理和語音識別。
IPU-Machine M2000和IPU-POD64系統(tǒng)現(xiàn)已開始預訂,并于2020年第四季度開始批量生產(chǎn)。早期訪問客戶可以通過Graphcore的云合作伙伴Cirrascale在云中評估IPU-POD系統(tǒng)。它計劃在未來幾個月內宣布OEM和渠道合作伙伴。
-
處理器
+關注
關注
68文章
19100瀏覽量
228814 -
芯片
+關注
關注
452文章
50206瀏覽量
420887 -
機器學習
+關注
關注
66文章
8349瀏覽量
132312
發(fā)布評論請先 登錄
相關推薦
評論