在最近由AspenCore主辦的2023中國(guó)IC領(lǐng)袖峰會(huì)上,中國(guó)半導(dǎo)體行業(yè)協(xié)會(huì)IC設(shè)計(jì)分會(huì)理事長(zhǎng)魏少軍教授在《集成電路發(fā)展中的“正”與“奇”》的主題演講中提到,中國(guó)半導(dǎo)體產(chǎn)業(yè)的發(fā)展要在“守正”的市場(chǎng)發(fā)展道路上穩(wěn)步前行,同時(shí)也需要在新的賽道“出奇”。比如在高性能計(jì)算領(lǐng)域,在先進(jìn)工藝、技術(shù)和芯片產(chǎn)品受到外界限制的情況下,我們?nèi)绾卫脟?guó)產(chǎn)工藝技術(shù)實(shí)現(xiàn)創(chuàng)新而跟全球高性能計(jì)算和AI發(fā)展保持同步甚至超越?更具體一點(diǎn),就目前炒作火熱的AIGC大模型所需要的大算力AI芯片來(lái)說(shuō),能否利用我們現(xiàn)在可用的工藝和技術(shù)來(lái)開發(fā)在性能上可以跟英偉達(dá)GPGPU對(duì)標(biāo)的AI芯片呢?一些“守正且出奇”的技術(shù)包括:軟件定義芯片、chiplet、3D堆疊和先進(jìn)封裝、存算一體等。
自從OpenAI的ChatGPT于2022年11月推出以來(lái),AIGC迅速在全球掀起一股熱潮。與OpenAI有深度合作的微軟在BING搜索方面有了明顯的收益,谷歌和百度等搜索引擎和互聯(lián)網(wǎng)巨頭紛紛發(fā)布各自的大語(yǔ)言模型(LLM)。在這些熱潮的背后是GPU芯片的瘋狂購(gòu)買囤貨,因?yàn)橛?xùn)練LLM需要龐大的算力支持。要支撐這類AI大模型的訓(xùn)練和基于這些模型的AIGC應(yīng)用,需要投入數(shù)十億美元的資金,同時(shí)還需要巨大的電力供應(yīng),因?yàn)樗懔?qiáng)大的GPGPU耗電量也十分驚人。
據(jù)統(tǒng)計(jì)預(yù)測(cè),全球算力需求呈現(xiàn)高速發(fā)展態(tài)勢(shì)。2021年,全球計(jì)算設(shè)備算力總規(guī)模達(dá)到615EFLOPS(每秒一百京次(=10^18)浮點(diǎn)運(yùn)算);到2025年,全球算力規(guī)模將達(dá)6.8 ZFLOPS( 每秒十萬(wàn)京(=10^21)次的浮點(diǎn)運(yùn)算 ),與2020年相比提升30倍;到2030年,有望增至56ZFLOPS。算力翻倍時(shí)間在明顯縮短,大模型出現(xiàn)后,帶來(lái)了新的算力增長(zhǎng)趨勢(shì),平均算力翻倍時(shí)間約為9.9個(gè)月。
伴隨著算力的提升,數(shù)據(jù)中心和AI服務(wù)器的耗電量也大幅提升。2022年Intel第四代服務(wù)器處理器單CPU功耗已突破350瓦,英偉達(dá)單GPU芯片功耗突破700瓦,AI集群算力密度普遍達(dá)到50kW/柜。根據(jù)ChatGPT在使用訪問(wèn)階段所需算力和耗電費(fèi)用估計(jì),使用英偉達(dá)DGX A100服務(wù)器的標(biāo)準(zhǔn)機(jī)柜需要542臺(tái)(每臺(tái)機(jī)柜的功率為45.5kw),折算為每日電費(fèi)大約4.7萬(wàn)美元。
對(duì)國(guó)內(nèi)AI應(yīng)用企業(yè)來(lái)說(shuō),即便資金不是問(wèn)題,能否購(gòu)買到最先進(jìn)的GPU芯片也是個(gè)大問(wèn)題。即便部署了足夠的GPU和服務(wù)器機(jī)柜,日常運(yùn)營(yíng)的耗電成本也不容小覷。盡管最近兩年有不少國(guó)產(chǎn)GPU初創(chuàng)公司發(fā)布性能不錯(cuò)的GPU芯片,但到目前為止還難以跟英偉達(dá)的GPU相提并論。面對(duì)算力和能耗這兩大挑戰(zhàn),國(guó)產(chǎn)AI芯片公司能否想出“出奇”之道?
02. “存算一體”沖破能耗墻
“存算一體”技術(shù)可以解決傳統(tǒng)馮諾伊曼架構(gòu)處理器所面臨的三堵墻:存儲(chǔ)墻、能耗墻、編譯墻。存算一體架構(gòu)沒(méi)有深度多層級(jí)存儲(chǔ)的概念,所有的計(jì)算都放在存儲(chǔ)器內(nèi)實(shí)現(xiàn),這就從根本上消除了因?yàn)榇嫠惝悩?gòu)帶來(lái)的存儲(chǔ)墻及相應(yīng)的額外開銷;存儲(chǔ)墻的消除可大量減少數(shù)據(jù)搬運(yùn),不但提升了數(shù)據(jù)傳輸和處理速度,而且能效比得以數(shù)倍提升,這意味著支持與傳統(tǒng)架構(gòu)處理器同等算力所需的功耗可以大大降低;存儲(chǔ)和計(jì)算單元之間的調(diào)用和數(shù)據(jù)搬運(yùn)需要復(fù)雜的編程模型,而存算一體的數(shù)據(jù)狀態(tài)都是編譯器可以感知的,因此編譯效率很高,可以繞開傳統(tǒng)架構(gòu)的編譯墻(生態(tài)墻)。
在存算一體這一賽道上,最早是美國(guó)的Mythic公司在2010年左右推出了存算一體芯片,國(guó)內(nèi)在2017年左右出現(xiàn)了存算一體技術(shù)路徑的創(chuàng)業(yè)團(tuán)隊(duì),到現(xiàn)在為止已有數(shù)家,比如知存科技、千芯科技、蘋芯科技、九天睿芯、后摩智能和億鑄科技等。但這些初創(chuàng)公司在存儲(chǔ)器的選擇上出現(xiàn)了三種主要方向,最早從傳統(tǒng)存儲(chǔ)器開始,如Flash,SRAM再到新型憶阻器ReRAM。算力也從微小算力(《1T)、500T到1P的大算力。存算一體最大的優(yōu)勢(shì)在于高能效比,但微小算力場(chǎng)景與大算力場(chǎng)景最大的應(yīng)用區(qū)別是對(duì)計(jì)算精度要求的滿足及成本。這也決定著這些存算一體初創(chuàng)公司通向了不同的應(yīng)用場(chǎng)景,比如九天睿芯的芯片產(chǎn)品主要面向小算力的邊緣和端側(cè)應(yīng)用。而ChatGPT等大模型的出現(xiàn)勢(shì)必對(duì)AI大算力芯片提出新的要求。
基于“存算一體”架構(gòu)開發(fā)的AI芯片在克服能耗挑戰(zhàn)方面有很大的潛力,但如何實(shí)現(xiàn)高性能和大算力呢?
存算一體+chiplet也許是一種可行的“出奇”之道。
03. ReRAM:材料、工藝和AI應(yīng)用潛力
在傳統(tǒng)馮諾依曼計(jì)算架構(gòu)中,占據(jù)主要地位的DRAM和Flash等傳統(tǒng)存儲(chǔ)技術(shù)面臨技術(shù)瓶頸,面對(duì)低功耗和高性能的需求,無(wú)法實(shí)現(xiàn)根本性的改善,而新型存儲(chǔ)技術(shù)成為業(yè)界重點(diǎn)布局與探索的方向。經(jīng)過(guò)10多年的努力,MRAM(磁性存儲(chǔ)器)、PCRAM(相變存儲(chǔ)器)、FRAM(鐵電存儲(chǔ)器)和ReRAM(阻變存儲(chǔ)器)等新型存儲(chǔ)技術(shù)也逐步走出實(shí)驗(yàn)室,進(jìn)入試用甚至商用階段。
ReRAM(阻變存儲(chǔ)器,或憶阻器)是以非導(dǎo)性材料的電阻在外加電場(chǎng)作用下,在高阻態(tài)和低阻態(tài)之間實(shí)現(xiàn)可逆轉(zhuǎn)換為基礎(chǔ)的非易失性存儲(chǔ)器。ReRAM包括許多不同的技術(shù)類別,比如氧空穴存儲(chǔ)器(OxRAM)、導(dǎo)通橋聯(lián)存儲(chǔ)器(CBRAM)等。ReRAM的單元面積極小,可做到4F2,讀寫速度是NAND Flash的1000倍,同時(shí)功耗可降低10倍以上。
導(dǎo)通橋聯(lián)CBRAM基本結(jié)構(gòu)。(來(lái)源:Crossbar)
由于電阻切換機(jī)制基于金屬導(dǎo)絲,Crossbar ReRAM(CBRAM)單元非常穩(wěn)定,能夠承受從-40°C到125°C的溫度波動(dòng),寫周期為1M+,在85°C的溫度下可保存10年。從密度、能效比、成本、工藝制程和良率各方面綜合衡量,ReRAM存儲(chǔ)器在目前已有的新型存儲(chǔ)器中具備明顯優(yōu)勢(shì)。
基于導(dǎo)通橋聯(lián)的ReRAM具有高達(dá)1000倍的低/高阻態(tài)差異,使其不易受外界運(yùn)行環(huán)境的干擾影響,具有很強(qiáng)的穩(wěn)定性。同時(shí),以ReRAM組成的存算陣列單元因?yàn)樽钁B(tài)區(qū)分度大,所實(shí)現(xiàn)的存內(nèi)計(jì)算可以更好地滿足大算力應(yīng)用場(chǎng)景對(duì)算力、精度、能效比和可靠性的嚴(yán)格要求。
ReRAM以其密度增長(zhǎng)空間大、生產(chǎn)工藝與CMOS兼容等優(yōu)勢(shì),吸引了國(guó)內(nèi)外眾多IP技術(shù)企業(yè)、大型晶圓代工廠、傳統(tǒng)存儲(chǔ)企業(yè)和半導(dǎo)體初創(chuàng)企業(yè)投入到其商業(yè)化進(jìn)程中。目前,臺(tái)積電、聯(lián)電、Crossbar、昕原半導(dǎo)體、松下、東芝、索尼、美光、海力士和富士通等廠商都在積極開展ReRAM技術(shù)的研究和產(chǎn)業(yè)化推進(jìn)。國(guó)內(nèi)新型存儲(chǔ)器ReRAM的生產(chǎn)工藝及產(chǎn)線已經(jīng)實(shí)現(xiàn)了規(guī)?;慨a(chǎn)商用。
基于ReRAM工藝的芯片主要用于存儲(chǔ)和存算一體兩個(gè)方面,其中采用”存算一體“結(jié)構(gòu)和技術(shù)的AI芯片將有可能實(shí)現(xiàn)AI大算力突破,成為可以應(yīng)對(duì)AIGC大算力挑戰(zhàn)的GPGPU有力競(jìng)爭(zhēng)者,有望在AIoT、智能汽車、數(shù)據(jù)中心和高性能計(jì)算等方面獲得廣泛的應(yīng)用。存算一體AI芯片初創(chuàng)公司億鑄科技基于憶阻器這種新型存儲(chǔ)器件,創(chuàng)新性地采用全數(shù)字化的實(shí)現(xiàn)方式,將存算一體架構(gòu)應(yīng)用于AI大算力芯片,從而讓存算一體真正在高精度、大算力AI方向?qū)崿F(xiàn)商用落地。
04. 存算一體+Chiplet助力AI算力第二增長(zhǎng)曲線
由于AI模型規(guī)模不斷擴(kuò)大,用于深度學(xué)習(xí)的存內(nèi)計(jì)算 (IMC) 單芯片方案在芯片面積、良率和片上互連成本等方面面臨著巨大挑戰(zhàn)。存算一體AI芯片能否借助芯粒(chiplet)和2.5D/3D堆疊封裝技術(shù)實(shí)現(xiàn)異構(gòu)集成,從而形成大型計(jì)算系統(tǒng),提供超越單一架構(gòu)IMC芯片的大型深度學(xué)習(xí)模型訓(xùn)練和推理方案?
美國(guó)亞利桑那州立大學(xué)的學(xué)者于2021年發(fā)布了一種基于chiplet 的IMC架構(gòu)基準(zhǔn)測(cè)試仿真器SIAM,用于評(píng)估這種新型架構(gòu)在AI大模型訓(xùn)練上的潛力。SIAM集成了器件、電路、架構(gòu)、片上網(wǎng)絡(luò)(NoC)、封裝網(wǎng)絡(luò)(NoP)和DRAM訪問(wèn)模型,以實(shí)現(xiàn)一種端到端的高性能計(jì)算系統(tǒng)。SIAM 在支持深度神經(jīng)網(wǎng)絡(luò) (DNN) 方面具有可擴(kuò)展性,可針對(duì)各種網(wǎng)絡(luò)結(jié)構(gòu)和配置進(jìn)行定制。其研究團(tuán)隊(duì)通過(guò)使用 CIFAR-10、CIFAR-100 和 ImageNet 數(shù)據(jù)集對(duì)不同的先進(jìn)DNN進(jìn)行基準(zhǔn)測(cè)試來(lái)展示SIAM的靈活性、可擴(kuò)展性和仿真速度。據(jù)稱,相對(duì)于英偉達(dá)V100和T4 GPU,通過(guò)SIAM獲得的chiplet +IMC架構(gòu)顯示ResNet-50在ImageNet數(shù)據(jù)集上的能效分別提高了130和72。
SIAM采用基于chiplet的 IMC 架構(gòu)。(來(lái)源:SIAM/GOKUL KRISHNAN)
上圖顯示了SIAM使用的基于同構(gòu)chiplet的IMC架構(gòu)。整個(gè)架構(gòu)由一系列chiplet組成,其中包括IMC計(jì)算單元、全局累加器、全局緩沖區(qū)和DRAM。Chiplet陣列利用封裝上網(wǎng)絡(luò)(NoP)實(shí)現(xiàn)互聯(lián)。SIAM支持基于SRAM或RRAM的IMC Crossbar存算單元,這些存算單元陣列組成處理元素(PE);PE陣列又構(gòu)成IMC Tile陣列,然后構(gòu)成IMC chiplet。
盡管SIAM仿真器僅針對(duì)同質(zhì)架構(gòu)或定制架構(gòu),但為異構(gòu)集成實(shí)現(xiàn)的存算一體+Chiplet架構(gòu)提供了很有價(jià)值的設(shè)計(jì)思路。就存算一體、Chiplet和2.5D/3D先進(jìn)封裝技術(shù)的發(fā)展而言,國(guó)內(nèi)廠商跟國(guó)外同行基本處于同一起跑線上。在兼容CMOS的國(guó)產(chǎn)ReRAM工藝上,通過(guò)Chiplet和先進(jìn)封裝集成IMC單元、GPU和CPU等不同工藝節(jié)點(diǎn)的處理單元,來(lái)實(shí)現(xiàn)大算力AI芯片以應(yīng)對(duì)算力和功耗的挑戰(zhàn),看來(lái)是可行的。
有業(yè)界專家總結(jié)出AI算力增長(zhǎng)的階段性曲線,自2018年至今的GPGPU和AI芯片算力增長(zhǎng)屬于第一增長(zhǎng)曲線階段。這一階段的參與者有英偉達(dá)和AMD等國(guó)際GPU巨頭,也有眾多國(guó)內(nèi)廠商參與其中,包括百度昆侖芯、華為海思、天數(shù)智芯、寒武紀(jì)和壁仞科技等。這些公司所采用的晶圓工藝從14nm到5nm不等;算力從130T到485T;功耗從70W到150W。這一階段的AI芯片的共同點(diǎn)在于都是采用傳統(tǒng)的處理器架構(gòu),伴隨著算力的提升,功耗和成本也隨之上升。工藝節(jié)點(diǎn)到了5nm,一顆芯片的研發(fā)成本以億美元計(jì)算,不是每一家公司都能夠支撐得起的。即便有這個(gè)實(shí)力可以繼續(xù)支撐下去,但算力與功耗的矛盾也是難以解決的,因?yàn)樘幚砥骷軜?gòu)在本質(zhì)上決定了其局限性。
對(duì)于國(guó)內(nèi)廠商來(lái)說(shuō),要在成熟工藝上以低成本實(shí)現(xiàn)500T以上的算力,就必須采用“出奇“的架構(gòu)。存算一體+chiplet組合似乎是一種可行的實(shí)現(xiàn)方式,據(jù)稱億鑄科技正在這條路上探索,其第一代存算一體AI大算力商用芯片可實(shí)現(xiàn)單卡算力500T以上,功耗在75W以內(nèi)。也許這將開啟AI算力第二增長(zhǎng)曲線的序幕。
審核編輯 :李倩
-
芯片
+關(guān)注
關(guān)注
452文章
50216瀏覽量
420953 -
集成電路
+關(guān)注
關(guān)注
5377文章
11314瀏覽量
360405 -
AI
+關(guān)注
關(guān)注
87文章
29815瀏覽量
268109 -
chiplet
+關(guān)注
關(guān)注
6文章
416瀏覽量
12541
原文標(biāo)題:存算一體+Chiplet能否應(yīng)對(duì)AI大算力和高能耗的挑戰(zhàn)?
文章出處:【微信號(hào):算力基建,微信公眾號(hào):算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論