摩爾定律的終結(jié)——真正的摩爾定律,即晶體管隨著工藝的每次縮小而變得更便宜、更快——正在讓芯片制造商瘋狂。
有兩種不同的方法可以制造容量更大但通常不是更快的計算引擎——將設備分解成小芯片并將它們連接在一起或?qū)⑺鼈兾g刻在整個硅晶圓上——再加上第三種覆蓋層,這兩種方法都可以與 2.5D 和 3D 堆疊一起使用,以擴展容量和功能。
無論如何,所有這些方法都受到用于蝕刻芯片的光刻設備的掩模版限制的限制。
目前的設備是針對 300 mm 硅晶圓定制的,該屏障為 858 mm 2,僅此而已。它就像終結(jié)者,或者真空中的光速。你不能與它爭論或討價還價。沒有任何芯片可以蝕刻得比這更大。在過去的三十年里,從 150 毫米晶圓到 200 毫米晶圓到 300 毫米晶圓并沒有改變掩模版極限,從可見光光刻到水浸光刻再到極紫外光刻也沒有改變掩模版極限。假設轉(zhuǎn)向 450 毫米晶圓也不會改變掩模版限制。
盡管我們會指出,到 2023 年,擁有 450 毫米晶圓將允許更大容量的晶圓級計算引擎。但 450 毫米晶圓的工程挑戰(zhàn)對于 IBM、英特爾、三星、臺積電、GlobalFoundries 和尼康來說太難解決,但這一努力于 2015 年被放棄。
光罩限制(光穿過芯片掩模以在硅晶圓上蝕刻晶體管的孔徑大?。┎粌H定義了小芯片的設計方式,而且還限制了離散計算和內(nèi)存塊的大小單個晶圓。如果我們有 450 毫米的晶圓,并且晶圓級計算機的所有邏輯都可以用比晶圓更大的掩模版一次性蝕刻,那將是令人驚奇的,但這不是光刻設備的工作原理??偠灾⌒酒途A級之間的區(qū)別實際上在于如何構(gòu)建互連,以利用計算和內(nèi)存的離散元件來構(gòu)建計算引擎插槽。
盡管存在這樣的限制,業(yè)界始終需要構(gòu)建更強大的計算引擎,并且在摩爾定律結(jié)束時,如果能夠找到一種方法,讓這些設備的制造成本也更低,那就太好了。
中國科學院計算技術研究所的研究人員剛剛在《Fundamental Research》雜志上發(fā)表了一篇論文,討論了光刻和小芯片的局限性,并提出了一種他們稱之為“Big Chip”的架構(gòu),該架構(gòu)模仿了不幸的晶圓級公司Trilogy Systems 在 20 世紀 80 年代的努力以及Cerebras Systems 在 2020 年代成功的晶圓級架構(gòu)。埃隆·馬斯克 (Elon Musk) 的特斯拉正在打造自己的“Dojo”超級計算機芯片,但這不是晶圓級設計,而是將Dojo D1 核心復雜地封裝成某種東西,如果你瞇著眼睛看,它看起來就像是由 360 個小芯片構(gòu)建的晶圓級插槽。也許通過 Dojo2 芯片,特斯拉將轉(zhuǎn)向真正的晶圓級設計??雌饋聿⒉恍枰龊芏喙ぷ骶湍芡瓿蛇@樣的壯舉。
中國科學院整理的這篇論文討論了很多關于為什么需要開發(fā)晶圓級器件的問題,但沒有提供太多關于他們開發(fā)的大芯片架構(gòu)實際上是什么樣子的細節(jié)。它并沒有表明 Big Chip 是否會像特斯拉對 Dojo 那樣采用小芯片方法,或者像 Cerebras 從一開始就一路向晶圓級發(fā)展。但其含義很明顯,就像特斯拉一樣。
據(jù)中科院研究人員介紹,名為“Zhejiang”的大芯片將使用22 納米工藝制造。
“Zhejiang”大芯片由 16 個小芯片組成,每個小芯片有 16 個 RISC-V 內(nèi)核。研究人員表示,該設計能夠在單個分立器件中擴展至 100 個小芯片,我們過去稱之為插槽,但對我們來說聽起來更像是系統(tǒng)板。目前尚不清楚這 100 個小芯片將如何配置,也不清楚這些小芯片將實現(xiàn)什么樣的內(nèi)存架構(gòu)(陣列中將有 1,600 個內(nèi)核)。
我們所知道的是,隨著大芯片“Zhejiang”的迭代,有 16 個 RISC-V 處理器使用芯片上的網(wǎng)絡在共享主內(nèi)存上進行對稱多處理,相互連接,并且小芯片之間有 SMP 鏈接,因此每個塊可以在整個復合體中共享內(nèi)存。
以下是“Zhejiang” RISC-V 小芯片的框圖:
?
以下是如何使用中介層將 16 個小芯片捆綁在一起形成具有共享內(nèi)存的 256 核計算復合體,從而實現(xiàn)芯片間 (D2D) 互連:
CAS 研究人員表示,絕對沒有什么可以阻止這種小芯片設計以晶圓級實現(xiàn)。然而,對于這次迭代,看起來它將是使用 2.5D 中介層互連的小芯片。
互連與計算元件一樣重要,這在系統(tǒng)和子系統(tǒng)設計中始終如此。
“該接口是使用基于時間復用機制的通道共享技術設計的,”研究人員在談到 D2D 互連時寫道?!斑@種方法減少了芯片間信號的數(shù)量,從而最大限度地減少了 I/O 凸塊和內(nèi)插器布線資源的面積開銷,從而可以顯著降低基板設計的復雜性。小芯片終止于頂部金屬層,微型 I/O 焊盤就建在該金屬層上。”
雖然一個大芯片計算引擎作為多芯片或晶圓級復合體可能很有趣,但重要的是如何將這些設備互連以提供百億億級計算系統(tǒng)。以下是 CAS 研究人員對此的看法:
研究人員在談到這種計算和內(nèi)存的分層結(jié)構(gòu)時寫道:“對于當前和未來的億億級計算,我們預測分層小芯片架構(gòu)將是一種強大而靈活的解決方案?!比缦聢D所示?!胺謱有⌒酒軜?gòu)被設計為具有多個內(nèi)核和許多具有分層互連的小芯片。在chiplet內(nèi)部,內(nèi)核使用超低延遲互連進行通信,而chiplet之間則以得益于先進封裝技術的低延遲互連,從而在這種高可擴展性系統(tǒng)中實現(xiàn)片上延遲和NUMA效應可以最小化。存儲器層次結(jié)構(gòu)包含核心存儲器、片內(nèi)存儲器和片外存儲器。這三個級別的內(nèi)存在內(nèi)存帶寬、延遲、功耗和成本方面有所不同。在分層chiplet架構(gòu)的概述中,多個核心通過交叉交換機連接并共享緩存。這就形成了一個pod結(jié)構(gòu),并且pod通過chiplet內(nèi)網(wǎng)絡互連。多個pod形成一個chiplet,chiplet通過chiplet間網(wǎng)絡互連,然后連接到片外存儲器。需要仔細設計才能充分利用這種層次結(jié)構(gòu)。合理利用內(nèi)存帶寬來平衡不同計算層次的工作負載可以顯著提高chiplet系統(tǒng)效率。正確設計通信網(wǎng)絡資源可以確保小芯片協(xié)同執(zhí)行共享內(nèi)存任務?!?br />
?
我們很難反駁這句話中所說的任何內(nèi)容,但 CAS 研究人員并沒有說明他們將如何實際處理這些問題。這是最困難的部分。
有趣的是,該圖中的內(nèi)核被稱為“可編程”和“可重新配置”,但我們不確定這意味著什么。它可能需要使用可變線程技術(例如 IBM 的 Power8、Power9 和 Power10 處理器)來完成更多工作,而不是在核心中混合使用 CPU 和 FPGA 元件。這很難說。
CAS 研究人員表示,大芯片計算引擎將由超過 1 萬億個晶體管組成,占據(jù)數(shù)千平方毫米的總面積,采用小芯片封裝或計算和存儲塊的晶圓級集成。對于百億億次 HPC 和 AI 工作負載,我們認為 CAS 很可能正在考慮 HBM 堆疊 DRAM 或其他一些替代雙泵浦主內(nèi)存,例如英特爾和 SK Hynix 開發(fā)的 MCR 內(nèi)存。RISC-V 內(nèi)核可能會有大量本地 SRAM 進行計算,這可能會消除對 HBM 內(nèi)存的需求,并允許使用 MCR 雙泵浦技術加速 DDR5 內(nèi)存。很大程度上取決于工作負載以及它們對內(nèi)存容量和內(nèi)存帶寬的敏感程度。
Big Chip 論文列出了一份未來技術的愿望清單,例如光電計算、近內(nèi)存計算以及可以添加到 Big Chip 復合體中的 3D 堆棧式緩存和主內(nèi)存 - 看起來像是使用光學 I /O 處理器是首選。但 CAS 并未透露其正在研究的內(nèi)容以及何時可以交付。
據(jù)我們所知,大芯片及其大系統(tǒng)已經(jīng)建成,CAS現(xiàn)在只是在談論它。例如,谷歌就是這樣做的,但隨著像谷歌這樣的公司使用有趣的系統(tǒng)作為招聘技術人員的方式,將某些東西投入該領域和談論它之間的時間一直在縮短。
審核編輯:劉清
-
處理器
+關注
關注
68文章
19100瀏覽量
228814 -
摩爾定律
+關注
關注
4文章
630瀏覽量
78892 -
晶體管
+關注
關注
77文章
9609瀏覽量
137655 -
芯片制造
+關注
關注
9文章
607瀏覽量
28750 -
RISC-V
+關注
關注
44文章
2204瀏覽量
45958
原文標題:終結(jié)摩爾定律?中國團隊公開“Big Chip”架構(gòu)
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論