Chiplet有翻譯成小芯片或小晶粒,也有叫MCM(Multi-Chip-Module,可以看做初級(jí)版Chiplet),與之對(duì)應(yīng)的則是Monolithic。目前為止,汽車領(lǐng)域還未出現(xiàn)Chiplet設(shè)計(jì)。
Chiplet的出現(xiàn)有三個(gè)驅(qū)動(dòng)力,一個(gè)是AI運(yùn)算中的內(nèi)存墻,一個(gè)是高性能運(yùn)算,最后是靈活性和復(fù)用率。
AI運(yùn)算中存儲(chǔ)瓶頸非常明顯,AI運(yùn)算有大量的內(nèi)存讀寫(xiě)問(wèn)題,內(nèi)存讀取速度遠(yuǎn)遠(yuǎn)低于計(jì)算單元的速度,大部分時(shí)間計(jì)算單元都在等待內(nèi)存讀取,有時(shí)候效率會(huì)下降90%,最有效解決內(nèi)存墻問(wèn)題的辦法就是縮短運(yùn)算單元與存儲(chǔ)器之間的物理距離,在每秒萬(wàn)億次計(jì)算時(shí),幾微米的距離縮短都足以影響芯片性能。除了緩解內(nèi)存瓶頸外,還能降低功耗減少發(fā)熱。
各種技術(shù)存儲(chǔ)器的性能對(duì)比
來(lái)源:互聯(lián)網(wǎng)
上表很明顯,SRAM性能最優(yōu),但Cell Size最大,這意味著成本也最高,是NAND的20倍以上。因此一級(jí)緩存多SRAM,并且容量很小。PCMMRAMReRAM這三種新興存儲(chǔ)器目前還不成熟,性能與SRAM也有明顯差距。這也是為什么處理器都是三級(jí)緩存設(shè)計(jì),最靠近運(yùn)算單元的都是SRAM,但由于成本高,所以容量有限。離運(yùn)算單元遠(yuǎn)的就可以是DRAM。
為解決這個(gè)問(wèn)題,臺(tái)積電提出了CoWoS封裝,將大容量的DRAM與運(yùn)算單元距離拉得最近,而成本又在可接受的范圍內(nèi),這就是最早的Chiplet。
圖片來(lái)源:互聯(lián)網(wǎng)
CoWoS簡(jiǎn)單說(shuō)就是用硅中介層將邏輯運(yùn)算器件與DRAM(HBM)合成一個(gè)大芯片,CoWoS缺點(diǎn)就是中介層價(jià)格太高,對(duì)價(jià)格敏感的手機(jī)和汽車市場(chǎng)都不合適,不過(guò)服務(wù)器和數(shù)據(jù)中心市場(chǎng)非常合適,因此臺(tái)積電幾乎壟斷高性能AI芯片市場(chǎng)。
圖片來(lái)源:互聯(lián)網(wǎng)
華為昇騰910的裸晶面積高達(dá)1228平方毫米,兩個(gè)假Die只是為了增加機(jī)械一致性,是空的,這也是臺(tái)積電CoWoS工藝的缺點(diǎn),如果是英特爾的EMIB,這兩個(gè)假Die可以不要。
華為昇騰910的外觀
圖片來(lái)源:互聯(lián)網(wǎng)
第二個(gè)驅(qū)動(dòng)力是高性能運(yùn)算,無(wú)論是AI運(yùn)算還是常規(guī)標(biāo)量運(yùn)算,增加核心數(shù)都是最有效最可行的方法,但是芯片面積不能無(wú)限增大,芯片面積越大意味著良率越低,成本越高。半導(dǎo)體業(yè)內(nèi)有一條不成文的共識(shí),單一芯片的裸晶面積不超過(guò)800平方毫米,超過(guò)800平方毫米,成本會(huì)飛速增加,不具備實(shí)用性。這也是為何英偉達(dá)的芯片都那么貴的原因。
圖片來(lái)源:互聯(lián)網(wǎng)
上圖可以看出,單一芯片的面積越大,其良率就越低,成本就越高。
圖片來(lái)源:互聯(lián)網(wǎng)
典型的是AMD的32核(應(yīng)該是32核小芯片)EPYC,這種方式最大優(yōu)點(diǎn)是成本低,如果將32核封裝到一塊芯片中成本是1,那它們的MCM(Chiplet)方式只有0.59,換言之,節(jié)省了41%的成本。
通常16核是個(gè)分水嶺,16核以上的采用Chiplet才更有優(yōu)勢(shì)。16核以下,Monolithic更占優(yōu)勢(shì)。
GPU方面,英偉達(dá)下一代GPU會(huì)使用初級(jí)版的Chiplet即MCM。而AMD在2022年8月底就會(huì)推出第三代RNDA GPU,采用Chiplet技術(shù),性價(jià)比會(huì)遠(yuǎn)高于英偉達(dá)的GPU,英偉達(dá)明顯落后AMD,AMD市值超越英特爾主要原因并非CPU,而是AMD足以挑戰(zhàn)英偉達(dá)在GPU領(lǐng)域的統(tǒng)治地位。
基本上4096核心(流處理器,英偉達(dá)叫SM或CUDA核)是個(gè)分水嶺,4096以下Monolithic更占優(yōu)勢(shì),4096核以上Chiplet優(yōu)勢(shì)明顯。
第三是靈活性和IP復(fù)用率。
圖片來(lái)源:互聯(lián)網(wǎng)
上圖是華為的Chiplet搭配,就像積木自由搭配,降低開(kāi)發(fā)成本,減少開(kāi)發(fā)周期,提高IP復(fù)用率。
圖片來(lái)源:互聯(lián)網(wǎng)
英特爾的CPU設(shè)計(jì),性能核P核,效率核E核,可以靈活調(diào)整其數(shù)量,一個(gè)設(shè)計(jì)可以針對(duì)無(wú)數(shù)種市場(chǎng)需求。這里不僅是設(shè)計(jì)上IP復(fù)用率,實(shí)際物理die也可以,只需要生產(chǎn)標(biāo)準(zhǔn)的die,產(chǎn)品由這些die物理拼湊膠合而成,大大節(jié)約了成本,便于生產(chǎn)管理和庫(kù)存管理。
Chiplet有沒(méi)有可能用在汽車領(lǐng)域?顯然除了自動(dòng)駕駛或座艙SoC外,Chiplet絕無(wú)容身之地。自動(dòng)駕駛或座艙SoC領(lǐng)域目前只有三家即英偉達(dá)、高通和英特爾(Mobileye),或許還可以加上三星。英偉達(dá)明確不會(huì)使用Chiplet,只不過(guò)下一代GPU可能使用MCM。高通的核心是手機(jī)市場(chǎng),車載和筆記本電腦都是手機(jī)的延伸,手機(jī)領(lǐng)域是絕無(wú)可能用Chiplet的,因?yàn)镃hiplet的封裝基板面積巨大,根本塞不進(jìn)手機(jī)。英特爾旗下的Mobileye倒是有這個(gè)可能。不過(guò)鑒于Mobileye獨(dú)立性很強(qiáng),這個(gè)可能性不高。
Chiplet對(duì)中國(guó)廠家友好度很低,能做Chiplet的基本只有英特爾和臺(tái)積電,三星能做最初級(jí)的封裝HBM的芯片,再進(jìn)一步的Chiplet完全不能勝任。今年3月,以下科技巨頭成立了UCIe聯(lián)盟,包括中國(guó)臺(tái)灣日月光(全球第一大芯片封裝廠家)、中國(guó)臺(tái)灣臺(tái)積電、微軟、谷歌云、Meta、高通、三星、AMD、ARM、英特爾,此外,英偉達(dá)和阿里巴巴也剛加入。
圖片來(lái)源:互聯(lián)網(wǎng)
鑒于美國(guó)剛剛通過(guò)的芯片方案,這12大廠家除阿里外都是受益者,特別是三星、臺(tái)積電和英特爾。
實(shí)際這個(gè)UCIe是英特爾主導(dǎo)的,就是CXL的翻版,Chiplet最難的部分是緩存一致性問(wèn)題。圍繞緩存一致性出現(xiàn)了多個(gè)標(biāo)準(zhǔn),有以IBM牽頭的OpenCAPI,ARM為代表支持的CCIX,英特爾為代表的CXL,AMD為代表的Gen-Z。CCIX(Cache Coherent Interconnect for Accelerators,針對(duì)加速器的緩存一致性互聯(lián))聯(lián)盟是由AMD、ARM、Mellanox、華為、賽靈思、高通六家巨頭公司成立的標(biāo)準(zhǔn)化組織。
Compute Express Link簡(jiǎn)稱CXL,2019年3月由英特爾牽頭成立。
CXL的頂級(jí)會(huì)員包括AMD、阿里、ARM、思科、戴爾、谷歌、惠普、華為、IBM、英特爾、Meta、微軟、英偉達(dá)、Rambus、Xilinx。CXL協(xié)議包括三個(gè)子協(xié)議:CXL. io 是IO類型,與傳統(tǒng)PCIe類似,CXL.cache 允許設(shè)備訪問(wèn)主存和cache,CXL.memory 允許CPU訪問(wèn)設(shè)備的內(nèi)存。
UCIe分層
圖片來(lái)源:互聯(lián)網(wǎng)
UCIe主要包括協(xié)議層(Protocol Layer)、適配層(Adapter Layer)和物理層(Physical Layer)。
UCIe協(xié)議層支持已經(jīng)廣泛使用的協(xié)議PCIe6.0、CXL2.0、CXL3.0,還支持用戶自定義的Streaming 協(xié)議來(lái)映射其他傳輸協(xié)議,協(xié)議層把數(shù)據(jù)轉(zhuǎn)換成Flit包進(jìn)行傳輸。用戶通過(guò)用UCIe的適配層和PHY來(lái)替換PCIe/CXL的PHY和Link重傳功能,就可以實(shí)現(xiàn)更低功耗和性能更優(yōu)的Die-to-Die互連接口。
適配層在協(xié)議層和物理層中間,當(dāng)協(xié)議層有多個(gè)協(xié)議同時(shí)工作時(shí),ARB/MUX用來(lái)在多個(gè)協(xié)議之間進(jìn)行選擇和仲裁。協(xié)議層提供CRC和Retry機(jī)制以獲得更好的BER(BitError Rate)指標(biāo)。同時(shí)負(fù)責(zé)Link狀態(tài)的管理,與對(duì)端UCIe Link進(jìn)行協(xié)議相關(guān)參數(shù)的交換。
物理層主要用來(lái)解析Flit包在UCIe Data Lane上進(jìn)行傳輸,主要包括Link Training、LaneRepair、Lane Reversal、Scrambling/De-scrambling、Sideband Training等。
UCIe支持兩種封裝,Standard Package (2D) 和Advanced Package (2.5D)。StandardPackage主要用于低成本、長(zhǎng)距離(10mm到25mm)互連,Bump間距要求為100μm到130μm,互連線在有機(jī)襯底上進(jìn)行布局布線即可實(shí)現(xiàn)Die間數(shù)據(jù)傳輸?;旧舷冗M(jìn)封裝被臺(tái)積電和英特爾壟斷。UCIe表面上是開(kāi)放的,實(shí)際是臺(tái)積電和英特爾操控的。
短期內(nèi)恐怕看不到Chiplet在汽車領(lǐng)域的應(yīng)用,如果有的話,AMD或許是第一個(gè)。
審核編輯 :李倩
-
芯片
+關(guān)注
關(guān)注
453文章
50253瀏覽量
421121 -
存儲(chǔ)器
+關(guān)注
關(guān)注
38文章
7439瀏覽量
163529 -
chiplet
+關(guān)注
關(guān)注
6文章
416瀏覽量
12542
原文標(biāo)題:Chiplet會(huì)用在汽車芯片上嗎?
文章出處:【微信號(hào):zuosiqiche,微信公眾號(hào):佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論