生成式人工智能和大模型的驅(qū)動下,我們正置身于一個算力領(lǐng)域千載難逢的拐點(diǎn):一個類似于個人電腦、互聯(lián)網(wǎng)、移動設(shè)備和云誕生的時刻。面對持續(xù)以10倍/年增長的大模型參數(shù),一切傳統(tǒng)上設(shè)計(jì)和構(gòu)建算力基礎(chǔ)設(shè)施的方式均已不再奏效,異構(gòu)、Chiplet 及其引發(fā)的各種片內(nèi)互聯(lián)創(chuàng)新被推向臺前。
作為一種已被多次證實(shí)有效尚富有生命力的技術(shù),Chiplet 迅速激發(fā)了巨頭們的斗志,并藉此武器,再次踏入一場數(shù)據(jù)中心算力形態(tài)的戰(zhàn)爭。
總體而言,在數(shù)據(jù)中心處理器領(lǐng)域,采用 Chiplet 化具有幾大優(yōu)勢:
1、降低設(shè)計(jì)成本:
隨著最新工藝制程的發(fā)展,芯片設(shè)計(jì)成本已增至令人望而卻步的地步,根據(jù) IBS?預(yù)估,2nm 芯片從頭開發(fā)的總成本將達(dá)到 7.25 億美元。使用 Chiplet?可以顯著減少芯片研發(fā)時間和成本:只需對關(guān)鍵模塊進(jìn)行更新,就擁有了一個全新的芯片。從成本方面考慮,在不久的將來,隨著制程的不斷提升,如果不使用 Chiplet,幾乎不可能構(gòu)建領(lǐng)先的芯片。
2、降低量產(chǎn)成本:
總擁有成本(TCO)是在數(shù)據(jù)中心將模型投入生產(chǎn)的主要制約因素之一,而芯片的量產(chǎn)成本則是?TCO?的重要組成部分。當(dāng)數(shù)據(jù)中心規(guī)模不斷擴(kuò)大,對 TCO 的影響也越大。根據(jù)?Tirias Research 預(yù)測,到 2028 年,一個典型 GenAI 數(shù)據(jù)中心服務(wù)器基礎(chǔ)設(shè)施+運(yùn)營成本將超過 760 億美元。而 Chiplet 允許開發(fā)人員為每個模塊選擇不同工藝,靈活平衡性能與成本,而不必將所有功能都押寶在昂貴而難以獲得的尖端制程上。
3、提升性能&集成度:
在摩爾定律和光照尺寸的限制下,Chiplet 已成為繼續(xù)增強(qiáng)芯片性能經(jīng)濟(jì)而可持續(xù)的方式,通過?2.5D 平鋪/ 3D 堆疊芯粒,可以有效擴(kuò)展芯片性能,提升芯片的復(fù)雜度。當(dāng)然,這也帶來了互聯(lián)的問題,畢竟,如果這些芯粒不能有效的連接在一起,就什么也做不了。
4、加速 TTM 時間:
Chiplet 的另一項(xiàng)關(guān)鍵優(yōu)勢是可以縮短開發(fā)芯片的上市時間(TTM)。通過將復(fù)雜的功能隱藏在可重復(fù)使用的已驗(yàn)證芯粒中,企業(yè)可以有效縮短開發(fā)定制全新芯片所需的上市時間,并加速下一代產(chǎn)品的開發(fā)和創(chuàng)新。
本文將以英特爾和 Google 的代表性產(chǎn)品為例,分析數(shù)據(jù)中心 GPU 的發(fā)展趨勢。
Intel - GPU Max
作為GPU 領(lǐng)域的新入局者,英特爾可謂野心勃勃,入場即從集成 GPU、中端獨(dú)立 GPU 迅速殺至數(shù)據(jù)中心和超算市場。其首款面向服務(wù)中心的 GPU MAX(前代號 Ponte Vecchio)正是這樣一款野心之作,基于 Intel Xe HPC 微架構(gòu),將超過1000億個晶體管集成在47個芯粒里,堪稱算力怪獸。
量產(chǎn)成本下降
作為英特爾的首款服務(wù)中心 GPU,GPU MAX 的物理設(shè)計(jì)堪稱 Chiplet 集大成者。通過將功能模塊分離為 47 個芯粒,為每個不同芯粒單元分配多達(dá) 5 種不同制程。其中,Base tile 和 HBM2e SerDes 使用 Intel 7 工藝,計(jì)算單元采用 TSMC N5 工藝,從而實(shí)現(xiàn)成本的控制。
性能提升
GPU MAX 系列通過多達(dá) 47 顆芯粒的堆疊,提供多達(dá) 128 個 Xe-HPC 核心,408 MB 二級緩存和 64MB 一級緩存,以提高吞吐量和性能。英特爾表示,使用 Max 系列 GPU 的大型二級服務(wù)器,其 AI 工作負(fù)載的性能獲得了 2 倍提升。
阿貢國家實(shí)驗(yàn)室是首批GPU Max系列采用者。其團(tuán)隊(duì)計(jì)劃部署 60,000 個 Max 系列 GPU,平均分配給 10,000 個服務(wù)器刀片。每個刀片還依靠兩個 Intel Xeon CPU Max 系列處理器來最大限度地提高 Aurora 的架構(gòu),以應(yīng)對一些有史以來最重要的科學(xué)工作負(fù)載。一旦 ANL 在其旗艦 Aurora 系統(tǒng)上部署全套 Max 系列 GPU 和 CPU,雙精度計(jì)算性能將超過 2 exaFLOPS。
47 顆芯粒,如何高速連在一起?
大型 GPU 上的 die 間傳輸數(shù)據(jù)并不容易,尤其對?GPU MAX 這樣極度復(fù)雜的大型芯片來說,必須依靠高效的互連設(shè)計(jì)。
High level X e?HPC Stack Component Overview, source: Intel
Base Tile(die):英特爾在 Max GPU 系列中引入了 Base Tile 的概念。Base Tile 是一種基礎(chǔ)芯粒,與 interposer 的功能類似,用于承載計(jì)算核心和高速 I/O,但功能更加豐富。Max GPU 的?Base Tile 采用了英特爾 7nm 制程,將高速 I/O 的 SerDes 與計(jì)算核心解耦后重新打包在同一制程內(nèi),以降低量產(chǎn)成本。
此外,Base die 中還集成了一個容量為 144 MB的 RAMBO,以及 L3 Cache 的交換網(wǎng)絡(luò)(Switch Fabric),通過 Switch Fabric 將144MB Cache 與 8 顆計(jì)算芯粒、4 顆 RAMBO 芯粒的 60MB Cache 連接在一起,最后通過3D Foveros 技術(shù)將計(jì)算芯粒堆疊在 Base die 之上,從而使得 GPU MAX 的互聯(lián)效率大為增強(qiáng),讓芯粒間以最短的垂直路徑互連為一個整體,從而極大的提升算力密度和更高的內(nèi)存帶寬。
Co-EMIB:EMIB + Foveros
為保障互聯(lián)速度,每個 GPU MAX 被整合為兩組鏡像的 Chiplet 堆棧,堆棧間由 Co-EMIB 連接。Co-EMIB 是英特爾 2.5D EMIB 技術(shù)與3D 技術(shù)的 Foveros 結(jié)合產(chǎn)物,在堆棧間形成高密度互連的橋梁,互聯(lián)密度可達(dá) Base die 的兩倍。
其中,EMIB 負(fù)責(zé)芯粒與芯粒之間的 2.5D 互連,而 Foveros 則在兩個 3D 堆疊的芯粒堆棧間建立了密集的 die-to-die 垂直連接陣列,信號和電源通過硅通孔進(jìn)入堆棧,較寬的垂直互連則直接穿透芯粒,形成距離更短的互聯(lián)。
Chiplet 為英特爾這個?GPU 領(lǐng)域遲到的野心家按下了加速鍵,通過 Base die 和 2.5D、3D 互聯(lián)技術(shù)的整合,為這款超級芯片注入驚人的性能和快速上市、快速迭代的基因,以實(shí)現(xiàn)與?AI 芯片霸主的正面競爭。
在今天,通過2.5D /?3D Chiplet?堆疊的形式擴(kuò)展處理器的算力,已成為數(shù)據(jù)中心的主流路徑。其中,Base die 作為3D Chiplet 的實(shí)現(xiàn)基礎(chǔ),已廣泛應(yīng)用于全球范圍內(nèi)的數(shù)據(jù)中心。隨著 AIGC 應(yīng)用的擴(kuò)大化,通用化的 Base die 將迎來巨大的市場空間。國內(nèi)市場通用 Base die 代表企業(yè)如奇異摩爾,旗下?Base die 將于年內(nèi)流片。
Google TPU v5e
2023年8月,Goole Cloud 在 Next23 上,發(fā)布了其最新一代云端 AI 芯片 TPU v5e,TPUv5e?是 TPUv4i (TPUv4 lite) 的后繼產(chǎn)品,一款專注于中大規(guī)模模型的訓(xùn)練和推理性能的精簡版芯片。相比尚未發(fā)布的 TPUv5,TPU v5e 更加經(jīng)濟(jì)、高效,具有更小的尺寸和更低的功耗、內(nèi)存帶寬、FLOPS,功耗僅為 H100 的 20%。
降低成本
TPU 是一種特殊計(jì)算單元,可理解為針對張量計(jì)算的專用 GPU。與通用 GPU 相比,TPU 在特定任務(wù)方面的速度和能效方面表現(xiàn)更好。基于 Chiplet 架構(gòu)的靈活性優(yōu)勢,Google 得以在 TPUv5 推出前,精簡、優(yōu)化架構(gòu),迅速推出這樣一款極具成本效益的 TPU。
在面向 <200B 參數(shù)模型AI訓(xùn)練和推理時,TPUv5e 運(yùn)行成本不到 TPU v4 一半(運(yùn)行 TPU v4 的價格約為 3.2 美元/小時,TPU v5e 僅需 1.2 美元/小時),成本的大幅降低使組織能夠以相同成本訓(xùn)練和部署更大、更復(fù)雜的 AI 模型。這對于許多第三方使用者來說,無疑具有巨大的成本優(yōu)勢。?
Throughput per dollar of Google’s Cloud TPU v5e compared to Cloud TPU v4. Souce:Google Cloud
根據(jù)版本大小不同,Google TPU會配備1個或2個 Tensor Core。相比未發(fā)布的全尺寸 TPU v5 芯片,TPUv5e 只保留了一個 Tensor Core和一半的 HBM 堆棧,大幅縮減了成本。不同于英偉達(dá)不惜犧牲功耗追求極致性能的策略,Google TPU 更好的利用了 Chiplet 的靈活性優(yōu)勢,快速推出多款面向不同客戶需求的產(chǎn)品,并可以根據(jù)推出的精簡版產(chǎn)品反饋靈活調(diào)整全尺寸芯片策略。
TPU v5e:更小而更強(qiáng)
盡管通過芯片減半降低實(shí)現(xiàn)了成本優(yōu)化,TPU v5e 也實(shí)現(xiàn)了性能的大幅提升。Google 表示,TPU v5e 在各種人工智能負(fù)載實(shí)現(xiàn)高性能和高成本效益的推理,其性能較前代產(chǎn)品提高了 2-4 倍,成本效益提高超 2 倍。每個TPU v5e 芯片每秒可提供高達(dá) 393 萬億次int8 運(yùn)算(TOPS),顯著優(yōu)于全尺寸的前代產(chǎn)品 TPU v4 的 275 petaflops,可對最復(fù)雜的模型進(jìn)行快速預(yù)測。
?
Key chip specifications | v5e values |
Peak compute per chip (bf16) | 197 TFLOPs |
Peak compute per chip (Int8) | 393 TFLOPs |
HBM2 capacity and bandwidth | 16 GB, 819 GBps |
Interchip Interconnect BW | 1600 Gbps |
?
Tensor Core 同樣基于?Chiplet 架構(gòu),每個?Tensor Core?由 4 個矩陣乘法單元 ?(MXU)、1 個向量單元和 1 個標(biāo)量單元組成。通過對核心計(jì)算單元的優(yōu)化,每個 MXU 每個周期可執(zhí)行 16,000 次乘法累加運(yùn)算。其中,6 個芯粒單元通過?2.5D interposer 進(jìn)行單元間的高速互聯(lián),并與 HBM2E 內(nèi)存進(jìn)行通信,總內(nèi)存帶寬為 819.2GB/s。
TPUv4 & TPUv5e 架構(gòu)對比
左為TPUv4,右為TPUv5e,Source:Google??????? ?
2.5D interposer:
2.5D interposer即硅中介層,通常位于芯片底層 Substrate 和頂層芯粒間,通過硅通孔(Silicon Through Via, TSV)和 ubump 實(shí)現(xiàn)芯粒間的互連。2.5D Interposer 采用硅工藝,具有更小的線寬線距,ubump 尺寸更小,二者相結(jié)合,可以共同提升 IO 密度并降低傳輸延遲與功耗。
作為 Chiplet 架構(gòu)的物理實(shí)現(xiàn)基礎(chǔ),2.5D interposer 已成為數(shù)據(jù)中心產(chǎn)品的普遍解決方案。可以讓客戶用更短的時間、更低的成本實(shí)現(xiàn)性能擴(kuò)展。據(jù) Yole 報(bào)告顯示,2020年到 2025 年期間,2.5D interposer 的年復(fù)合增長率達(dá) 44%。
巨大的市場空間和加劇了競爭,2.5D interposer 的產(chǎn)能逐漸成為數(shù)據(jù)中心芯片供應(yīng)的瓶頸,國內(nèi)也應(yīng)勢產(chǎn)生了一系列2.5D interposer的廠商,奇異摩爾作為其中的代表,核心產(chǎn)品涵蓋2.5D interposer、2.5D IO Die、3D Base Die等高性能互聯(lián)芯粒、網(wǎng)絡(luò)加速芯粒、及全系列Die2Die IP,及相關(guān)Chiplet系統(tǒng)解決方案,是目前國內(nèi)少有的專注于Chiplet 互聯(lián)賽道的企業(yè)。
高速發(fā)展的 AIGC 為世界帶來了巨大的機(jī)遇與變革。同時,它也對我們所處的世界提出了更高的要求。在未來數(shù)年里,數(shù)據(jù)中心將會比現(xiàn)在強(qiáng)大上百倍,其訓(xùn)練和推理需要更強(qiáng)大的計(jì)算處理能力,更靈活、高效的架構(gòu),更低成本,更快的市場反應(yīng)速度,這使得 Chiplet 及其互聯(lián)技術(shù)在以 GPU 為代表的數(shù)據(jù)中心處理器架構(gòu)中將成為必然。Chiplet 的統(tǒng)治地位才剛剛開始。
編輯:黃飛
評論
查看更多