日前,在斯坦福大學(xué)舉行的IEEE Hot Chips研討會(huì)上,創(chuàng)業(yè)公司Cerebras推出了有史以來最大的芯片。按照他們的說法,這個(gè)大致是硅晶片尺寸的系統(tǒng)旨在將AI訓(xùn)練時(shí)間從幾個(gè)月縮短到幾分鐘。
這是自二十世紀(jì)八十年代Trilogy Systems任務(wù)失敗以來,業(yè)界再一次出現(xiàn)對(duì)晶圓級(jí)處理器的商業(yè)嘗試。
下面,我們來談一下有關(guān)這個(gè)芯片,你必須知道的六點(diǎn)::
數(shù)據(jù)
作為有史以來最大的芯片,Cerebras的Wafer Scale Engine(WSE)自然帶有一堆最高級(jí)的。這是當(dāng)中的一部分:
尺寸:46,225平方毫米。這大約是一張信紙大小的紙張的75%,但卻是最大GPU的56倍。
晶體管:1.2萬億。Nvidia的GV100 Volta僅為21億。
處理器核心:400,000。而GV100只有5,660。
內(nèi)存:18千兆字節(jié)的片上SRAM,大約是GV100的3000倍。
內(nèi)存帶寬:每秒9 PB。據(jù)Cerebras稱,這是我們最喜歡的GPU的10,000倍。
你為什么需要這個(gè)怪物?
Cerebras在其白皮書中提出了一個(gè)非常好的案例,為什么這么大的芯片有意義。
基本上,該公司認(rèn)為,訓(xùn)練深度學(xué)習(xí)系統(tǒng)和其他人工智能系統(tǒng)的需求已經(jīng)失控。該公司表示,訓(xùn)練將出現(xiàn)一種新模式——?jiǎng)?chuàng)建一個(gè)這樣的系統(tǒng),那就是一旦經(jīng)過訓(xùn)練,就可以識(shí)別人或贏得Go游戲。但這在過去需要花費(fèi)數(shù)周或數(shù)月的時(shí)間,并耗費(fèi)數(shù)十萬美元的計(jì)算時(shí)間。這個(gè)成本意味著實(shí)驗(yàn)的空間很小,這會(huì)扼殺新的想法和創(chuàng)新。
這家公司的答案是,全世界需要更多,更便宜的訓(xùn)練計(jì)算資源。而訓(xùn)練也需要幾分鐘而不是幾個(gè)月,為此,您需要更多內(nèi)核,更多靠近這些內(nèi)核的內(nèi)存,以及內(nèi)核之間的低延遲,高帶寬連接。
這些目標(biāo)將對(duì)AI行業(yè)中的每個(gè)人造成影響。但是Cerebras也承認(rèn),這個(gè)想法推向了它的邏輯極端。一塊大芯片為處理器內(nèi)核和需要依賴它的內(nèi)存提供了更多的硅片面積。只有當(dāng)數(shù)據(jù)永遠(yuǎn)不必離開芯片上的短而密集的互連時(shí),才能實(shí)現(xiàn)高帶寬,低延遲的連接。因此這也是他們打造這樣一個(gè)大芯片的原因。
在這400,000個(gè)內(nèi)核中有什么?
根據(jù)該公司的說法,WSE的內(nèi)核專門用于人工智能,但仍然具有可編程性,那就意味著該芯片并不會(huì)僅僅被限定在AI當(dāng)中。這就是他們所謂的稀疏線性代數(shù)(Sparse Linear Algebra:SLA)核心。這些處理單元專門用于“人工智能”工作的“張量”操作,但它們還包括一項(xiàng)減少工作的功能,特別是對(duì)于深度學(xué)習(xí)網(wǎng)絡(luò)。據(jù)該公司稱,深度學(xué)習(xí)訓(xùn)練集中所有數(shù)據(jù)的50%至98%為zero。因此,非零數(shù)據(jù)“Sparse ”。
SLA核心通過簡(jiǎn)單地不將任何東西乘以零來減少工作量。內(nèi)核具有內(nèi)置的數(shù)據(jù)流元素,可以根據(jù)數(shù)據(jù)觸發(fā)計(jì)算操作,因此當(dāng)數(shù)據(jù)遇到零時(shí),不會(huì)浪費(fèi)時(shí)間。
他們是怎么做到的?
Cerebras龐大的單芯片背后的基本理念已經(jīng)存在了幾十年,但它也是不切實(shí)際的。
早在20世紀(jì)80年代,并行計(jì)算的先驅(qū) Gene Amdahl就制定了加速大型機(jī)計(jì)算的計(jì)劃——硅片大小的處理器。換句話說,就是將大部分?jǐn)?shù)據(jù)保留在處理器本身而不是將其通過電路板推送到存儲(chǔ)器和其他芯片。這樣的計(jì)算將更快且更節(jié)能。
借助從風(fēng)險(xiǎn)投資家手上拿到的2.3億美金,Amdahl創(chuàng)立了Trilogy Systems,并實(shí)現(xiàn)了他的愿望。但我們不得不承認(rèn),“晶圓級(jí)整合”的第一次商業(yè)嘗試是一場(chǎng)災(zāi)難,據(jù)當(dāng)時(shí)報(bào)道,它成功地將動(dòng)詞“to crater”引入金融新聞詞典。
最基本的問題是芯片越大,良率越差。從邏輯上講,這應(yīng)該意味著晶圓級(jí)芯片將無利可圖,因?yàn)槟?a target="_blank">產(chǎn)品總會(huì)存在缺陷。Cerebras的解決方案是添加一定量的冗余。據(jù)EE Times稱,Swarm通信網(wǎng)絡(luò)具有冗余鏈路,讓產(chǎn)品工作時(shí)可以繞過受損核心。據(jù)透露,當(dāng)中大約有1%的核心是備用的。
Cerebras還必須解決一些關(guān)鍵的制造限制問題。例如,芯片工具設(shè)計(jì)用于將其特征定義圖案投射到相對(duì)較小的矩形上,并在晶圓上完美地反復(fù)進(jìn)行。由于在晶片上的不同位置鑄造不同圖案的成本和難度,僅此一點(diǎn)就會(huì)使許多系統(tǒng)不能構(gòu)建在單個(gè)晶片上。
但WSE就像一個(gè)典型的晶圓,完全由相同的芯片組成,就像你通常制造的一樣。最大的不同之處在于他們與臺(tái)積電合作開發(fā)了一種方法,用于在芯片之間的空間建立連接,這個(gè)區(qū)域稱為scribe lines。而這個(gè)空間通常留空,因?yàn)樾酒刂切┚€切割。
根據(jù)Tech Crunch的說法,Cerebras還必須發(fā)明一種方法,為芯片提供15千瓦的電源和冷卻系統(tǒng),并創(chuàng)造新的連接器,以便在加熱時(shí)處理它擴(kuò)展的方式。
這是制作晶圓級(jí)計(jì)算機(jī)的唯一方法嗎?
當(dāng)然不是。例如,加利福尼亞大學(xué)洛杉磯分校和 Illinois Urbana-Champaign的團(tuán)隊(duì)正在研究一種類似的系統(tǒng),該系統(tǒng)也構(gòu)建了裸處理器并進(jìn)行了測(cè)試,并將它們安裝在已經(jīng)圖案化所需的密集互連網(wǎng)絡(luò)的硅片上。這種稱為硅互連結(jié)構(gòu)的概念允許這些小芯片緊密相連(相隔100微米),這就使得芯片間通信接近單個(gè)芯片的特性。
“這是我們一直在進(jìn)行驗(yàn)證的研究”,伊利諾伊大學(xué)的 Rakesh Kumar說。
Kumar認(rèn)為硅互連結(jié)構(gòu)方法與Cerebras的單片晶圓級(jí)方案相比具有一些優(yōu)勢(shì)。首先,它允許設(shè)計(jì)師混合和匹配技術(shù),并為每個(gè)技術(shù)使用最佳制造工藝。單片方法意味著為最關(guān)鍵的子系統(tǒng)邏輯選擇最佳的制程,并將其用于存儲(chǔ)器和其他原件,即使不適合它們。
Kumar建議,在這種方法中,Cerebras可以限制它可以放在處理器上的內(nèi)存量?!八麄?cè)诰A上有18千兆位的SRAM。也許這對(duì)今天的某些型號(hào)來說已經(jīng)足夠了,但明天和后天的型號(hào)呢?“
什么時(shí)候出來?
據(jù)“財(cái)富”雜志報(bào)道,Cerebras9月份將會(huì)向客戶發(fā)貨首批系統(tǒng)。據(jù)EE Times稱,部分系統(tǒng)已經(jīng)收到原型。該公司計(jì)劃在11月的超級(jí)計(jì)算大會(huì)上公布完整系統(tǒng)的結(jié)果。
-
處理器
+關(guān)注
關(guān)注
68文章
18926瀏覽量
227218 -
芯片
+關(guān)注
關(guān)注
450文章
49636瀏覽量
417141 -
晶體管
+關(guān)注
關(guān)注
77文章
9500瀏覽量
136933
原文標(biāo)題:對(duì)于這顆有史以來最大的芯片,這六點(diǎn)你需要知道!
文章出處:【微信號(hào):icbank,微信公眾號(hào):icbank】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論