ChatGPT開(kāi)啟大模型“軍備賽”,存儲(chǔ)作為計(jì)算機(jī)重要組成部分明顯受益:?
ChatGPT開(kāi)啟算力軍備賽,大模型參數(shù)呈現(xiàn)指數(shù)規(guī)模,引爆海量算力需求,模型計(jì)算量增長(zhǎng)速度遠(yuǎn)超人工智能硬件算力增長(zhǎng)速度,同時(shí)也對(duì)數(shù)據(jù)傳輸速度提出了更高的要求。XPU、內(nèi)存、硬盤(pán)組成完整的馮諾依曼體系,以一臺(tái)通用服務(wù)器為例,芯片組+存儲(chǔ)的成本約占70%以上,芯片組、內(nèi)部存儲(chǔ)和外部存儲(chǔ)是組成核心部件;存儲(chǔ)是計(jì)算機(jī)的重要組成結(jié)構(gòu),“內(nèi)存”實(shí)為硬盤(pán)與CPU之間的中間人,存儲(chǔ)可按照介質(zhì)分類(lèi)為ROM和RAM兩部分。
存算一體,后摩爾時(shí)代的必然發(fā)展:?
過(guò)去二十年中,算力發(fā)展速度遠(yuǎn)超存儲(chǔ),“存儲(chǔ)墻”成為加速學(xué)習(xí)時(shí)代下的一代挑戰(zhàn),原因是在后摩爾時(shí)代,存儲(chǔ)帶寬制約了計(jì)算系統(tǒng)的有效帶寬,芯片算力增長(zhǎng)步履維艱。因此存算一體有望打破馮諾依曼架構(gòu),是后摩時(shí)代下的必然選擇,存算一體即數(shù)據(jù)存儲(chǔ)與計(jì)算融合在同一個(gè)芯片的同一片區(qū)之中,極其適用于大數(shù)據(jù)量大規(guī)模并行的應(yīng)用場(chǎng)景。存算一體優(yōu)勢(shì)顯著,被譽(yù)為AI芯片的“全能戰(zhàn)士”,具有高能耗、低成本、高算力等優(yōu)勢(shì);存算一體按照計(jì)算方式分為數(shù)字計(jì)算和模擬計(jì)算,應(yīng)用場(chǎng)景較為廣泛,SRAM、RRAM有望成為云端存算一體主流介質(zhì)。
存算一體前景廣闊、漸入佳境:?
存算一體需求旺盛,有望推動(dòng)下一階段的人工智能發(fā)展,原因是我們認(rèn)為現(xiàn)在存算一體主要AI的算力需求、并行計(jì)算、神經(jīng)網(wǎng)絡(luò)計(jì)算等;大模型興起,存算一體適用于從云至端各類(lèi)計(jì)算,端測(cè)方面,人工智能更在意及時(shí)響應(yīng),即“輸入”即“輸出”,目前存算一體已經(jīng)可以完成高精度計(jì)算;云端方面,隨著大模型的橫空出世,參數(shù)方面已經(jīng)達(dá)到上億級(jí)別,存算一體有望成為新一代算力因素;存算一體適用于人工智能各個(gè)場(chǎng)景,如穿戴設(shè)備、移動(dòng)終端、智能駕駛、數(shù)據(jù)中心等。我們認(rèn)為存算一體為下一代技術(shù)趨勢(shì)并有望廣泛應(yīng)用于人工智能神經(jīng)網(wǎng)絡(luò)相關(guān)應(yīng)用、感存算一體,多模態(tài)的人工智能計(jì)算、類(lèi)腦計(jì)算等場(chǎng)景。
01.?存算一體,開(kāi)啟算力新篇章
1.1 ChatGPT開(kāi)啟大模型“軍備賽”,算力呈現(xiàn)明顯缺口
ChatGPT開(kāi)啟算力軍備賽:?我們已經(jīng)在《ChatGPT: 百度文心一言暢想》中證明數(shù)據(jù)、平臺(tái)、算力是打造大模型生態(tài)的必備基礎(chǔ),且算力是訓(xùn)練大模型的底層動(dòng)力源泉,一個(gè)優(yōu)秀的算力底座在大模型(AI算法)的訓(xùn)練和推理具備效率優(yōu)勢(shì);同時(shí),我們?cè)凇禖hatGPT打響AI算力“軍備戰(zhàn)”》中證明算力是AI技術(shù)角逐“入場(chǎng)券”,其中AI服務(wù)器、AI芯片等為核心產(chǎn)品;此外,我們還在《ChatGPT ,英偉達(dá)DGX引爆AI “核聚變”》中證明以英偉達(dá)為代表的科技公司正在快速補(bǔ)足全球AI算力需求,為大模型增添必備“燃料”。
大模型參數(shù)呈現(xiàn)指數(shù)規(guī)模,引爆海量算力需求:?根據(jù)財(cái)聯(lián)社和OpenAI數(shù)據(jù),ChatGPT浪潮下算力缺口巨大,根據(jù)OpenAI數(shù)據(jù),模型計(jì)算量增長(zhǎng)速度遠(yuǎn)超人工智能硬件算力增長(zhǎng)速度,存在萬(wàn)倍差距。運(yùn)算規(guī)模的增長(zhǎng),帶動(dòng)了對(duì)AI訓(xùn)練芯片單點(diǎn)算力提升的需求,并對(duì)數(shù)據(jù)傳輸速度提出了更高的要求。根據(jù)智東西數(shù)據(jù),過(guò)去五年,大模型發(fā)展呈現(xiàn)指數(shù)級(jí)別,部分大模型已達(dá)萬(wàn)億級(jí)別,因此對(duì)算力需求也隨之攀升。
資料來(lái)源:新浪,智東西,可創(chuàng)辦日?qǐng)?bào),華西證券研究所
1.2 深度拆解服務(wù)器核心硬件組成部分
服務(wù)器的組成:?我們以一臺(tái)通用服務(wù)器為例,服務(wù)器主要由主板、內(nèi)存、芯片組、磁盤(pán)、網(wǎng)卡、顯卡、電源、主機(jī)箱等硬件設(shè)備組成;其中芯片組、內(nèi)部存儲(chǔ)和外部存儲(chǔ)是組成核心部件。
GPU服務(wù)器優(yōu)勢(shì)顯著: GPU服務(wù)器超強(qiáng)的計(jì)算功能可應(yīng)用于海量數(shù)據(jù)處理方面的運(yùn)算,如搜索、大數(shù)據(jù)推薦、智能輸入法等,相較于通用服務(wù)器,在數(shù)據(jù)量和計(jì)算量方面具有成倍的效率優(yōu)勢(shì)。此外,GPU可作為深度學(xué)習(xí)的訓(xùn)練平臺(tái),優(yōu)勢(shì)在于1、GPU 服務(wù)器可直接加速計(jì)算服務(wù),亦可直接與外界連接通信;2、GPU服務(wù)器和云服務(wù)器搭配使用,云服務(wù)器為主,GPU服務(wù)器負(fù)責(zé)提供計(jì)算平臺(tái);3、對(duì)象存儲(chǔ)COS 可以為GPU 服務(wù)器提供大數(shù)據(jù)量的云存儲(chǔ)服務(wù)。
AI服務(wù)器芯片組價(jià)值成本凸顯:?以一臺(tái)通用服務(wù)器為例,主板或芯片組占比最高,大約占成本50%以上,內(nèi)存(內(nèi)部存儲(chǔ)+外部存儲(chǔ))占比約為20%。此外,根據(jù)Wind及芯語(yǔ)的數(shù)據(jù),AI服務(wù)器相較于高性能服務(wù)器、基礎(chǔ)服務(wù)器在芯片組(CPU+GPU)的價(jià)格往往更高,AI服務(wù)器(訓(xùn)練)芯片組的成本占比高達(dá)83%、AI服務(wù)器(推理)芯片組占比為50%,遠(yuǎn)遠(yuǎn)高于通用服務(wù)器芯片組的占比。
資料來(lái)源:H3C UniServer R4900 G5技術(shù)白皮書(shū),華西證券研究所
1.3 存儲(chǔ),計(jì)算機(jī)的重要組成結(jié)構(gòu)
存儲(chǔ)是計(jì)算機(jī)的重要組成結(jié)構(gòu):?存儲(chǔ)器是用來(lái)存儲(chǔ)程序和數(shù)據(jù)的部件,對(duì)于計(jì)算機(jī)來(lái)說(shuō),有了存儲(chǔ)器才有記憶功能,才能保證正常工作。存儲(chǔ)器按其用途可分為主存儲(chǔ)器和輔助存儲(chǔ)器,主存儲(chǔ)器又稱內(nèi)存儲(chǔ)器(簡(jiǎn)稱內(nèi)存),輔助存儲(chǔ)器又稱外存儲(chǔ)器(簡(jiǎn)稱外存)。
內(nèi)存:?主板上的存儲(chǔ)結(jié)構(gòu),與CPU直接溝通,并用其存儲(chǔ)數(shù)據(jù)的部件,存放當(dāng)前正在使用的(即執(zhí)行中)的數(shù)據(jù)和程序,一旦斷電,其中的程序和數(shù)據(jù)就會(huì)丟失;
外存:?磁性介質(zhì)或光盤(pán),像硬盤(pán),軟盤(pán),CD等,能長(zhǎng)期保存信息,并且不依賴于電力來(lái)保存信息。
XPU、內(nèi)存、硬盤(pán)組成完整的馮諾依曼體系: “內(nèi)存”實(shí)為硬盤(pán)與CPU之間的中間人,CPU如果直接從硬盤(pán)中抓數(shù)據(jù),時(shí)間會(huì)太久。所以“內(nèi)存”作為中間人,從硬盤(pán)里面提取數(shù)據(jù),再讓CPU直接到內(nèi)存中拿數(shù)據(jù)做運(yùn)算。這樣會(huì)比直接去硬盤(pán)抓數(shù)據(jù),快百萬(wàn)倍;CPU里面有一個(gè)存儲(chǔ)空間Register(寄存器),運(yùn)算時(shí),CPU會(huì)從內(nèi)存中把數(shù)據(jù)載入Register, 再讓Register中存的數(shù)字做運(yùn)算,運(yùn)算完再將結(jié)果存回內(nèi)存中,因此運(yùn)算速度Register > 內(nèi)存> 硬盤(pán),速度越快,價(jià)格越高,容量越低。
資料來(lái)源:CSDN,華西證券研究所
存儲(chǔ)按照易失性分類(lèi):?分別為ROM(只讀存儲(chǔ)器)是Read Only Memory的縮寫(xiě),RAM(隨機(jī)存取存儲(chǔ)器)是Random Access Memory的縮寫(xiě)。ROM在系統(tǒng)停止供電的時(shí)候仍然可以保持?jǐn)?shù)據(jù),而RAM通常都是在掉電之后就丟失數(shù)據(jù),典型的RAM就是計(jì)算機(jī)的內(nèi)存。
RAM(隨機(jī)存取存儲(chǔ)器)作為內(nèi)存架構(gòu)廣泛應(yīng)用于計(jì)算機(jī)中:是與中央處理器直接交換數(shù)據(jù)的內(nèi)部存儲(chǔ)器??梢噪S時(shí)讀寫(xiě)且速度很快,通常作為操作系統(tǒng)或其他正在運(yùn)行中的程序的臨時(shí)資料存儲(chǔ)介質(zhì)。RAM可分為靜態(tài)SRAM與動(dòng)態(tài)DRAM,SRAM速度非??欤悄壳白x寫(xiě)最快的存儲(chǔ)設(shè)備了,但是價(jià)格昂貴,所以只在要求很苛刻的地方使用,譬如CPU的一級(jí)緩沖,二級(jí)緩沖;DRAM保留數(shù)據(jù)的時(shí)間很短,速度也比SRAM慢,不過(guò)比任何的ROM都要快,但從價(jià)格上來(lái)說(shuō)DRAM相比SRAM要便宜,因此計(jì)算機(jī)內(nèi)存大部分為DRAM架構(gòu);
ROM(只讀存儲(chǔ)器)作為硬盤(pán)介質(zhì)廣泛使用: Flash內(nèi)存的存儲(chǔ)特性相當(dāng)于硬盤(pán),它結(jié)合了ROM和RAM的長(zhǎng)處,不僅具備了電子可擦除可編程的性能,還不會(huì)斷電丟失數(shù)據(jù)同時(shí)可以快速讀取數(shù)據(jù),近年來(lái)Flash已經(jīng)全面替代傳統(tǒng)ROM在嵌入式系統(tǒng)的定位,目前Flash主要有兩種NOR Flash和NAND Flash。Nand-flash存儲(chǔ)器具有容量較大,改寫(xiě)速度快等優(yōu)點(diǎn),適用于大量數(shù)據(jù)的存儲(chǔ),因此被廣泛應(yīng)用在各種存儲(chǔ)卡,U盤(pán),SSD,eMMC等等大容量設(shè)備中;NOR-Flash則由于特點(diǎn)是芯片內(nèi)執(zhí)行,因此應(yīng)用于眾多消費(fèi)電子領(lǐng)域。
資料來(lái)源:CSDN,華西證券研究所
1.4 存算一體,后摩爾時(shí)代的必然發(fā)展
算力發(fā)展速度遠(yuǎn)超存儲(chǔ),存儲(chǔ)帶寬限制計(jì)算系統(tǒng)的速度:?在過(guò)去二十年,處理器性能以每年大約55%的速度提升,內(nèi)存性能的提升速度每年只有10%左右。因此,目前的存儲(chǔ)速度嚴(yán)重滯后于處理器的計(jì)算速度。能耗方面,從處理單元外的存儲(chǔ)器提取所需的時(shí)間往往是運(yùn)算時(shí)間的成百上千倍,因此能效非常低;“存儲(chǔ)墻”成為加速學(xué)習(xí)時(shí)代下的一代挑戰(zhàn),原因是數(shù)據(jù)在計(jì)算單元和存儲(chǔ)單元的頻繁移動(dòng)。
存儲(chǔ)墻、帶寬墻和功耗墻成為首要限制關(guān)鍵:?在傳統(tǒng)計(jì)算機(jī)架構(gòu)中,存儲(chǔ)與計(jì)算分離,存儲(chǔ)單元服務(wù)于計(jì)算單元,因此會(huì)考慮兩者優(yōu)先級(jí);如今由于海量數(shù)據(jù)和AI加速時(shí)代來(lái)臨,不得不考慮以最佳的配合方式為數(shù)據(jù)采集、傳輸、處理服務(wù),然而存儲(chǔ)墻、帶寬墻和功耗墻成為首要挑戰(zhàn),雖然多核并行加速技術(shù)也能提升算力,但在后摩爾時(shí)代,存儲(chǔ)帶寬制約了計(jì)算系統(tǒng)的有效帶寬,芯片算力增長(zhǎng)步履維艱。
存算一體有望打破馮諾依曼架構(gòu),是后摩時(shí)代下的必然選擇:?存算一體是在存儲(chǔ)器中嵌入計(jì)算能力,以新的運(yùn)算架構(gòu)進(jìn)行二維和三維矩陣乘法/加法運(yùn)算。存內(nèi)計(jì)算和存內(nèi)邏輯,即存算一體技術(shù)優(yōu)勢(shì)在于可直接利用存儲(chǔ)器進(jìn)行數(shù)據(jù)處理或計(jì)算,從而把數(shù)據(jù)存儲(chǔ)與計(jì)算融合在同一個(gè)芯片的同一片區(qū)之中,可以徹底消除馮諾依曼計(jì)算架構(gòu)瓶頸,特別適用于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)這種大數(shù)據(jù)量大規(guī)模并行的應(yīng)用場(chǎng)景。
資料來(lái)源:知乎@陳巍談芯,華西證券研究所
存算一體概念已有50年歷史:早在1969年,斯坦福研究所的Kautz等人提出了存算一體計(jì)算機(jī)的概念。但受限于當(dāng)時(shí)的芯片制造技術(shù)和算力需求的匱乏,那時(shí)存算一體僅僅停留在理論研究階段,并未得到實(shí)際應(yīng)用。然而為了打破馮諾依曼架構(gòu),降低“存儲(chǔ)-內(nèi)存-處理單元”過(guò)程數(shù)據(jù)搬移帶來(lái)的開(kāi)銷(xiāo), 業(yè)內(nèi)廣泛采用3D封裝技術(shù)實(shí)現(xiàn)3D堆疊提供更大帶寬,但是并沒(méi)有改變數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)處理分離的問(wèn)題;
近年來(lái),存算一體隨著人工智能的驅(qū)動(dòng)得到較快發(fā)展:?隨著半導(dǎo)體制造技術(shù)突破,以及AI等算力密集的應(yīng)用場(chǎng)景的崛起,為存算一體技術(shù)提供新的制造平臺(tái)和產(chǎn)業(yè)驅(qū)動(dòng)力。2016年,美國(guó)加州大學(xué)團(tuán)隊(duì)提出使用RRAM構(gòu)建存算一體架構(gòu)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(PRIME)。相較于傳統(tǒng)馮諾伊曼架構(gòu)的傳統(tǒng)方案,PRIME可以實(shí)現(xiàn)功耗降低約20倍、速度提升約50倍;此外,2017年,英偉達(dá)、微軟、三星等提出存算一體原型;同年起,國(guó)產(chǎn)存算一體芯片企業(yè)開(kāi)始“扎堆”入場(chǎng),例如千芯科技、智芯微、億鑄科技、后摩時(shí)代、蘋(píng)芯科技等。
資料來(lái)源:知乎@陳巍談芯,與非望,華西證券研究所
1.5 存算一體: AI芯片的“全能戰(zhàn)士”
存算一體優(yōu)勢(shì)顯著,被譽(yù)為AI芯片的“全能戰(zhàn)士”其優(yōu)勢(shì)如下:?
1、成百上千倍的提高計(jì)算效率,降低成本:存算一體的優(yōu)勢(shì)是打破存儲(chǔ)墻,消除不必要的數(shù)據(jù)搬移延遲和功耗,使用存儲(chǔ)單元提升算力;
2、特定領(lǐng)域提供更高算力與能效:存算一體架構(gòu)消除了計(jì)算與存儲(chǔ)的界限,直接在存儲(chǔ)器內(nèi)完成計(jì)算,因此屬于非馮諾伊曼架構(gòu),在特定領(lǐng)域可以提供更大算力(1000TOPS以上)和更高能效(超過(guò)10-100TOPS/W),明顯超越現(xiàn)有ASIC算力芯片;
3、存算一體代表了未來(lái)AI計(jì)算芯片的主流架構(gòu): 除AI計(jì)算外,存算技術(shù)也可用于感存算一體芯片和類(lèi)腦芯片,可減少不必要的數(shù)據(jù)搬運(yùn)與使用存儲(chǔ)單元參與邏輯計(jì)算提升算力,原因在于等效于在面積不變的情況下規(guī)模化增加計(jì)算核心數(shù)。
目前存算技術(shù)按照歷史路線順序演進(jìn):
A、查存計(jì)算: GPU中對(duì)于復(fù)雜函數(shù)就采用了這種計(jì)算方法,通過(guò)在存儲(chǔ)芯片內(nèi)部查表來(lái)完成計(jì)算操作,目前應(yīng)用較為廣闊,且技術(shù)相較成熟;
B、近存計(jì)算: 計(jì)算操作由位于存儲(chǔ)區(qū)域外部的獨(dú)立計(jì)算芯片/模塊完成。這種架構(gòu)設(shè)計(jì)的代際設(shè)計(jì)成本較低,適合傳統(tǒng)架構(gòu)芯片轉(zhuǎn)入。例如AMD的Zen系列CPU、三星的HBM-PIM、特斯拉Dojo(AI訓(xùn)練計(jì)算機(jī))、阿里達(dá)摩院等,近存計(jì)算技術(shù)早已成熟,被廣泛應(yīng)用在各類(lèi)CPU和GPU上;
C、存內(nèi)計(jì)算: 計(jì)算操作由位于存儲(chǔ)芯片/區(qū)域內(nèi)部的獨(dú)立計(jì)算單元完成,存儲(chǔ)和計(jì)算可以是模擬的也可以是數(shù)字的。這種路線一般用于算法固定的場(chǎng)景算法計(jì)算,典型代表如Mythic、千芯科技、閃億、知存、九天睿芯等;
D、存內(nèi)邏輯: 這種架構(gòu)數(shù)據(jù)傳輸路徑最短,同時(shí)能滿足大模型的計(jì)算精度要求。通過(guò)在內(nèi)部存儲(chǔ)中添加計(jì)算邏輯,直接在內(nèi)部存儲(chǔ)執(zhí)行數(shù)據(jù)計(jì)算。典型代表為T(mén)SMC和千芯科技等。
存算一體按照計(jì)算方式分為數(shù)字計(jì)算和模擬計(jì)算:?
模擬計(jì)算:?模擬存算一體通常使用FLASH、RRAM、PRAM等非易失性介質(zhì)作為存儲(chǔ)器件,存儲(chǔ)密度大,并行度高,但是對(duì)環(huán)境噪聲和溫度非常敏感。模擬存算一體模型權(quán)重保持在存儲(chǔ)器中,輸入數(shù)據(jù)流入存儲(chǔ)器內(nèi)部基于電流或電壓實(shí)現(xiàn)模擬乘加計(jì)算,并由外設(shè)電路對(duì)輸出數(shù)據(jù)實(shí)現(xiàn)模數(shù)轉(zhuǎn)換。由于模擬存算一體架構(gòu)能夠?qū)崿F(xiàn)低功耗低位寬的整數(shù)乘加計(jì)算,因此非常適合邊緣端AI場(chǎng)景。
數(shù)字計(jì)算:?隨著AI任務(wù)的復(fù)雜性和應(yīng)用范圍增加,高精度的大規(guī)模AI模型不斷涌現(xiàn)。這些模型需要在數(shù)據(jù)中心等云端AI場(chǎng)景完成訓(xùn)練和推理,產(chǎn)生巨大的算力需求,相比于邊緣端AI場(chǎng)景,云端AI場(chǎng)景具有更多樣的任務(wù)需求,因此云端AI芯片必須兼顧能效、精度、靈活性等方面以保證各種大規(guī)模AI推理和訓(xùn)練;數(shù)字存算一體主要以SRAM和RRAM作為存儲(chǔ)器件,采用先進(jìn)邏輯工藝,具有高性能高精度的優(yōu)勢(shì),且具備很好的抗噪聲能力和可靠性,因此較為適合在云端大算力高能效的商用場(chǎng)景。
02.?存算一體,打開(kāi)海量應(yīng)用空間
存算一體需求旺盛,有望推動(dòng)下一階段的人工智能發(fā)展:?我們認(rèn)為現(xiàn)在存算一體主要AI的算力需求、并行計(jì)算、神經(jīng)網(wǎng)絡(luò)計(jì)算等,因此存算一體需求旺盛;以數(shù)據(jù)中心為例,百億億次(E級(jí))的超級(jí)計(jì)算機(jī)成為各國(guó)比拼算力的關(guān)鍵點(diǎn),為此美國(guó)能源部啟動(dòng)了“百億億次計(jì)算項(xiàng)目”,我國(guó)則聯(lián)合國(guó)防科大、中科曙光等機(jī)構(gòu)推出首臺(tái)E級(jí)超算,而E級(jí)超算面臨的主要問(wèn)題為功耗過(guò)高、現(xiàn)有技術(shù)超算功率高達(dá)千兆瓦,需要一個(gè)專門(mén)的核電站來(lái)給它供電,而其中50%以上的功耗都來(lái)源于數(shù)據(jù)的“搬運(yùn)”,本質(zhì)原因是計(jì)算與存儲(chǔ)分離所致。
大模型興起,存算一體適用于從云至端各類(lèi)計(jì)算: ChatGPT等“大模型”興起,本質(zhì)即為神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等計(jì)算,因此,我們認(rèn)為對(duì)算力需求旺盛;端測(cè)方面,人工智能更在意及時(shí)響應(yīng),即“輸入”即“輸出”,同時(shí),隨著存算一體發(fā)展,存內(nèi)計(jì)算和存內(nèi)邏輯,已經(jīng)可以完成高精度計(jì)算;云端方面,隨著大模型的橫空出世,參數(shù)方面已經(jīng)達(dá)到上億級(jí)別,因此對(duì)算力的能耗方面考核更加嚴(yán)格,隨著SRAM和PRAM等技術(shù)進(jìn)一步成熟,存算一體有望成為新一代算力因素,從而推動(dòng)人工智能產(chǎn)業(yè)的發(fā)展。
資料來(lái)源:網(wǎng)易、知乎,華西證券研究所
編輯:黃飛
?
評(píng)論
查看更多