隨著邊緣人工智能的興起,對(duì)存儲(chǔ)系統(tǒng)提出了一系列新要求。當(dāng)今的內(nèi)存技術(shù)能否滿足這一具有挑戰(zhàn)性的新應(yīng)用的嚴(yán)格要求,新興內(nèi)存技術(shù)對(duì)邊緣 AI 的長(zhǎng)期承諾是什么?
首先要意識(shí)到的是,沒(méi)有標(biāo)準(zhǔn)的“邊緣人工智能”應(yīng)用;最廣泛解釋的邊緣涵蓋了云外所有支持人工智能的電子系統(tǒng)。這可能包括“近邊緣”,通常涵蓋企業(yè)數(shù)據(jù)中心和本地服務(wù)器。
更進(jìn)一步的是用于自動(dòng)駕駛的計(jì)算機(jī)視覺(jué)等應(yīng)用。用于制造的網(wǎng)關(guān)設(shè)備執(zhí)行 AI 推理以檢查生產(chǎn)線上產(chǎn)品的缺陷。電線桿上的 5G“邊緣盒”分析智能城市應(yīng)用(如交通管理)的視頻流。5G 基礎(chǔ)設(shè)施在邊緣使用人工智能來(lái)實(shí)現(xiàn)復(fù)雜但高效的波束形成算法。
在“遠(yuǎn)端”,人工智能在手機(jī)等設(shè)備中得到支持——想想 Snapchat 過(guò)濾器——在將結(jié)果發(fā)送到另一個(gè)網(wǎng)關(guān)設(shè)備之前,工廠中執(zhí)行傳感器融合的設(shè)備和物聯(lián)網(wǎng)傳感器節(jié)點(diǎn)的語(yǔ)音控制。
內(nèi)存在邊緣 AI 系統(tǒng)中的作用——存儲(chǔ)神經(jīng)網(wǎng)絡(luò)權(quán)重、模型代碼、輸入數(shù)據(jù)和中間激活——對(duì)于大多數(shù) AI 應(yīng)用程序來(lái)說(shuō)都是相同的。必須加速工作負(fù)載以最大化 AI 計(jì)算能力以保持高效,因此對(duì)容量和帶寬的要求通常很高。然而,特定應(yīng)用的需求是多種多樣的,可能包括尺寸、功耗、低電壓操作、可靠性、熱/冷卻考慮和成本。
邊緣數(shù)據(jù)中心
邊緣數(shù)據(jù)中心是一個(gè)關(guān)鍵的邊緣市場(chǎng)。用例范圍從醫(yī)學(xué)成像、研究和復(fù)雜的金融算法,其中隱私阻止上傳到云。另一個(gè)是自動(dòng)駕駛汽車,延遲會(huì)阻止它。
這些系統(tǒng)使用與其他應(yīng)用程序中的服務(wù)器相同的內(nèi)存。
“在開(kāi)發(fā)和訓(xùn)練 AI 算法的應(yīng)用中,將低延遲 DRAM 用于快速、字節(jié)級(jí)的主內(nèi)存非常重要,”內(nèi)存產(chǎn)品設(shè)計(jì)師和開(kāi)發(fā)商 Smart Modular Technologies 的解決方案架構(gòu)師 Pekon Gupta 說(shuō)?!按笮蛿?shù)據(jù)集需要高容量 RDIMM 或 LRDIMM。系統(tǒng)加速需要 NVDIMM——我們將它們用于寫(xiě)入緩存和檢查點(diǎn),而不是速度較慢的 SSD。”
佩孔古普塔
將計(jì)算節(jié)點(diǎn)定位在靠近最終用戶的位置是電信運(yùn)營(yíng)商采用的方法。
“我們看到了使這些[電信] 邊緣服務(wù)器更有能力運(yùn)行復(fù)雜算法的趨勢(shì),”Gupta 說(shuō)。因此,“服務(wù)提供商正在使用 RDIMM、LRDIMM 和 NVDIMM 等高可用性持久內(nèi)存等設(shè)備為這些邊緣服務(wù)器增加更多內(nèi)存和處理能力?!?/p>
Gupta 認(rèn)為英特爾 Optane 是該公司的 3D-Xpoint 非易失性內(nèi)存,其特性介于 DRAM 和閃存之間,是服務(wù)器 AI 應(yīng)用程序的良好解決方案。
“Optane DIMM 和 NVDIMM 都被用作 AI 加速器,”他說(shuō)?!癗VDIMM 為 AI 應(yīng)用程序加速提供了非常低延遲的分層、緩存、寫(xiě)入緩沖和元數(shù)據(jù)存儲(chǔ)功能。Optane 數(shù)據(jù)中心 DIMM 用于內(nèi)存數(shù)據(jù)庫(kù)加速,其中數(shù)百 GB 到 TB 的持久內(nèi)存與 DRAM 結(jié)合使用。盡管這些都是用于 AI/ML 加速應(yīng)用程序的持久內(nèi)存解決方案,但它們有不同且獨(dú)立的用例?!?/p>
英特爾 Optane 產(chǎn)品營(yíng)銷總監(jiān) Kristie Mann 告訴EE Times , Optane正在服務(wù)器 AI 領(lǐng)域獲得應(yīng)用。
英特爾的克里斯蒂曼
“我們的客戶現(xiàn)在已經(jīng)在使用 Optane 持久內(nèi)存來(lái)支持他們的 AI 應(yīng)用程序,”她說(shuō)。“他們正在成功地為電子商務(wù)、視頻推薦引擎和實(shí)時(shí)財(cái)務(wù)分析應(yīng)用提供支持。由于可用容量的增加,我們看到了向內(nèi)存應(yīng)用程序的轉(zhuǎn)變?!?/p>
DRAM 的高價(jià)格使 Optane 越來(lái)越成為有吸引力的替代品。配備兩個(gè) Intel Xeon Scalable 處理器和 Optane 持久內(nèi)存的服務(wù)器可以為需要大量數(shù)據(jù)的應(yīng)用程序容納多達(dá) 6 TB 的內(nèi)存。
“DRAM 仍然是最受歡迎的,但從成本和容量的角度來(lái)看,它有其局限性,”Mann 說(shuō)?!坝捎谄涑杀?、容量和性能優(yōu)勢(shì),Optane 持久內(nèi)存和 Optane SSD 等新的內(nèi)存和存儲(chǔ)技術(shù)正在 [新興] 作為 DRAM 的替代品。Optane SSD 是特別強(qiáng)大的緩存 HDD 和 NAND SSD 數(shù)據(jù),可以持續(xù)為 AI 應(yīng)用程序提供數(shù)據(jù)?!?/p>
她補(bǔ)充說(shuō),Optane 還優(yōu)于目前尚未完全成熟或可擴(kuò)展的其他新興存儲(chǔ)器。
英特爾傲騰 200 系列模塊。英特爾表示,Optane 目前
已用于為 AI 應(yīng)用程序提供動(dòng)力。(來(lái)源:英特爾)
GPU 加速
對(duì)于高端邊緣數(shù)據(jù)中心和邊緣服務(wù)器應(yīng)用程序,GPU 等 AI 計(jì)算加速器正在獲得關(guān)注。除 DRAM 外,這里的內(nèi)存選擇還包括GDDR,一種用于為高帶寬 GPU 供電的特殊 DDR SDRAM,以及HBM,一種相對(duì)較新的芯片堆疊技術(shù),它將多個(gè)內(nèi)存芯片與 GPU 本身放在同一個(gè)封裝中。
兩者都是為 AI 應(yīng)用程序所需的極高內(nèi)存帶寬而設(shè)計(jì)的。
對(duì)于最苛刻的 AI 模型訓(xùn)練,HBM2E 提供 3.6 Gbps 并提供 460 GB/s 的內(nèi)存帶寬(兩個(gè) HBM2E 堆棧提供接近 1 TB/s)。這是可用的性能最高的內(nèi)存之一,在最小的區(qū)域內(nèi)具有最低的功耗。GPU 領(lǐng)導(dǎo)者Nvidia 在其所有數(shù)據(jù)中心產(chǎn)品中都使用 HBM 。
Rambus IP 內(nèi)核產(chǎn)品營(yíng)銷高級(jí)總監(jiān) Frank Ferro 表示,GDDR6 還用于邊緣的 AI 推理應(yīng)用程序。Ferro 表示,GDDR6 可以滿足邊緣 AI 推理系統(tǒng)的速度、成本和功耗要求。例如,GDDR6 可以提供 18 Gbps 并提供 72 GB/s。擁有四個(gè) GDDR6 DRAM 可提供接近 300 GB/s 的內(nèi)存帶寬。
“GDDR6 用于 AI 推理和 ADAS 應(yīng)用,”Ferro 補(bǔ)充道。
在將 GDDR6 與 LPDDR(從 Jetson AGX Xavier 到 Jetson Nano 的大多數(shù)非數(shù)據(jù)中心邊緣解決方案的 Nvidia 方法)進(jìn)行比較時(shí),F(xiàn)erro 承認(rèn) LPDDR 適用于邊緣或端點(diǎn)的低成本 AI 推理。
“LPDDR 的帶寬限制為 LPDDR4 的 4.2 Gbps 和 LPDDR5 的 6.4 Gbps,”他說(shuō)。“隨著內(nèi)存帶寬需求的增加,我們將看到越來(lái)越多的設(shè)計(jì)使用 GDDR6。這種內(nèi)存帶寬差距有助于推動(dòng)對(duì) GDDR6 的需求?!?/p>
Rambus 的弗蘭克·費(fèi)羅
盡管設(shè)計(jì)為與 GPU 一起使用,但其他處理加速器可以利用 GDDR 的帶寬。Ferro 重點(diǎn)介紹了 Achronix Speedster7t,這是一款基于 FPGA 的 AI 加速器,用于推理和一些低端訓(xùn)練。
“在邊緣 AI 應(yīng)用中,HBM 和 GDDR 內(nèi)存都有空間,”Ferro 說(shuō)。HBM“將繼續(xù)用于邊緣應(yīng)用。對(duì)于 HBM 的所有優(yōu)點(diǎn),由于 3D 技術(shù)和 2.5D 制造,成本仍然很高。鑒于此,GDDR6 是成本和性能之間的良好權(quán)衡,尤其是對(duì)于網(wǎng)絡(luò)中的 AI 推理?!?/p>
HBM 用于高性能數(shù)據(jù)中心 AI ASIC,例如Graphcore IPU。雖然它提供了出色的性能,但對(duì)于某些應(yīng)用來(lái)說(shuō),它的價(jià)格可能很高。
高通公司就是使用這種方法的公司之一。其 Cloud AI 100 針對(duì)邊緣數(shù)據(jù)中心、5G“邊緣盒”、ADAS/自動(dòng)駕駛和 5G 基礎(chǔ)設(shè)施中的 AI 推理加速。
“與 HBM 相比,使用標(biāo)準(zhǔn) DRAM 對(duì)我們來(lái)說(shuō)很重要,因?yàn)槲覀兿M档筒牧铣杀荆备咄ㄓ?jì)算和邊緣云部門(mén)總經(jīng)理 Keith Kressin 說(shuō)?!拔覀兿M褂每梢詮亩鄠€(gè)供應(yīng)商處購(gòu)買的標(biāo)準(zhǔn)組件。我們有客戶想要在芯片上做所有事情,我們也有客戶想要跨卡。但他們都希望保持合理的成本,而不是選擇 HBM 甚至更奇特的內(nèi)存。
“在訓(xùn)練中,”他繼續(xù)說(shuō),“你有可以跨越[多個(gè)芯片]的非常大的模型,但對(duì)于推理[Cloud AI 100的市場(chǎng)],很多模型都更加本地化?!?/p>
遙遠(yuǎn)的邊緣
在數(shù)據(jù)中心之外,邊緣人工智能系統(tǒng)通常專注于推理,但有一些明顯的例外,例如聯(lián)邦學(xué)習(xí)和其他增量訓(xùn)練技術(shù)。
一些用于功耗敏感應(yīng)用的 AI 加速器使用內(nèi)存進(jìn)行 AI 處理?;诙嗑S矩陣乘法的推理適用于具有用于執(zhí)行計(jì)算的存儲(chǔ)單元陣列的模擬計(jì)算技術(shù)。使用這種技術(shù),Syntiant 的設(shè)備專為消費(fèi)電子產(chǎn)品的語(yǔ)音控制而設(shè)計(jì),而Gyrfalcon 的設(shè)備已被設(shè)計(jì)成智能手機(jī),用于處理相機(jī)效果的推理。
在另一個(gè)例子中,智能處理單元專家Mythic使用閃存單元的模擬操作在單個(gè)閃存晶體管上存儲(chǔ)一個(gè) 8 位整數(shù)值(一個(gè)權(quán)重參數(shù)),使其比其他內(nèi)存計(jì)算技術(shù)更密集。編程的閃存晶體管用作可變電阻器;輸入作為電壓提供,輸出作為電流收集。結(jié)合 ADC 和 DAC,結(jié)果是一個(gè)高效的矩陣乘法引擎。
Mythic 的 IP 在于補(bǔ)償和校準(zhǔn)技術(shù),可消除噪聲并實(shí)現(xiàn)可靠的 8 位計(jì)算。
Mythic 使用閃存晶體管陣列來(lái)制造密集的乘法累加引擎(來(lái)源:Mythic)
除了內(nèi)存計(jì)算設(shè)備外,ASIC 在特定的邊緣領(lǐng)域也很受歡迎,特別是低功耗和超低功耗系統(tǒng)。ASIC 的內(nèi)存系統(tǒng)使用多種內(nèi)存類型的組合。分布式本地 SRAM 是最快、最節(jié)能的,但不是很節(jié)省面積。在芯片上擁有一個(gè)大容量 SRAM 的面積效率更高,但會(huì)帶來(lái)性能瓶頸。片外 DRAM 更便宜,但耗電量更大。
Flex Logix 的首席執(zhí)行官 Geoff Tate 表示,要為其 InferX X1 在分布式 SRAM、大容量 SRAM 和片外 DRAM 之間找到適當(dāng)?shù)钠胶?,需要進(jìn)行一系列性能模擬。目標(biāo)是最大化每美元的推理吞吐量——這是芯片尺寸、封裝成本和使用的 DRAM 數(shù)量的函數(shù)。
“最佳點(diǎn)是單個(gè) x32 LPDDR4 DRAM;4K MAC(933MHz 時(shí)為 7.5 TOPS);和大約 10MB 的 SRAM,”他說(shuō)?!癝RAM 速度很快,但與 DRAM 相比價(jià)格昂貴。使用臺(tái)積電的16納米制程技術(shù),1MB的SRAM大約需要1.1mm 2。“我們的 InferX X1 只有 54mm 2,由于我們的架構(gòu),DRAM 訪問(wèn)很大程度上與計(jì)算重疊,因此沒(méi)有性能影響。對(duì)于具有單個(gè) DRAM 的大型模型來(lái)說(shuō),這是正確的權(quán)衡,至少對(duì)于我們的架構(gòu)而言,”Tate 說(shuō)。
Flex Logix 芯片將用于需要實(shí)時(shí)操作的邊緣 AI 推理應(yīng)用,包括以低延遲分析流視頻。這包括 ADAS 系統(tǒng)、安全鏡頭分析、醫(yī)學(xué)成像和質(zhì)量保證/檢查應(yīng)用程序。
在這些應(yīng)用中,什么樣的 DRAM 將與 InferX X1 一起使用?
“我們認(rèn)為 LPDDR 將是最受歡迎的:?jiǎn)蝹€(gè) DRAM 提供超過(guò) 10GB/秒的帶寬……但有足夠的位來(lái)存儲(chǔ)權(quán)重/中間激活,”Tate 說(shuō)。“任何其他 DRAM 都需要更多的芯片和接口,并且需要購(gòu)買更多未使用的位?!?/p>
這里有任何新興內(nèi)存技術(shù)的空間嗎?
“當(dāng)使用任何新興存儲(chǔ)器時(shí),晶圓成本會(huì)急劇上升,而 SRAM 是‘免費(fèi)的’,除了硅片面積,”他補(bǔ)充道?!半S著經(jīng)濟(jì)的變化,臨界點(diǎn)也可能發(fā)生變化,但它會(huì)更進(jìn)一步?!?/p>
涌現(xiàn)的記憶
盡管具有規(guī)模經(jīng)濟(jì)性,但其他內(nèi)存類型為人工智能應(yīng)用提供了未來(lái)的可能性。
MRAM(磁阻式 RAM)通過(guò)由施加電壓控制的磁體方向存儲(chǔ)每一位數(shù)據(jù)。如果電壓低于翻轉(zhuǎn)位所需的電壓,則只有位翻轉(zhuǎn)的可能性。這種隨機(jī)性是不受歡迎的,因此用更高的電壓驅(qū)動(dòng) MRAM 以防止它發(fā)生。盡管如此,一些人工智能應(yīng)用程序可以利用這種固有的隨機(jī)性(可以被認(rèn)為是隨機(jī)選擇或生成數(shù)據(jù)的過(guò)程)。
實(shí)驗(yàn)已將其 MRAM 的隨機(jī)性功能應(yīng)用于Gyrfalcon 的設(shè)備,這是一種將所有權(quán)重和激活的精度降低到 1 位的技術(shù)。這用于顯著降低遠(yuǎn)端應(yīng)用程序的計(jì)算和功率要求。取決于重新訓(xùn)練網(wǎng)絡(luò)的方式,可能會(huì)在準(zhǔn)確性上進(jìn)行權(quán)衡。一般來(lái)說(shuō),盡管精度降低,神經(jīng)網(wǎng)絡(luò)仍可以可靠地運(yùn)行。
“二值化神經(jīng)網(wǎng)絡(luò)的獨(dú)特之處在于,即使數(shù)字為 -1 或 +1 的確定性降低,它們也能可靠地運(yùn)行,”Spin Memory 產(chǎn)品副總裁 Andy Walker 說(shuō)?!拔覀儼l(fā)現(xiàn),這種 BNN 仍然可以以高準(zhǔn)確度運(yùn)行,因?yàn)?[通過(guò)] 引入錯(cuò)誤寫(xiě)入的內(nèi)存位的所謂‘誤碼率’降低了這種確定性?!?/p>
自旋記憶的安迪沃克
MRAM 可以在低電壓水平下以受控方式自然地引入誤碼率,在保持精度的同時(shí)進(jìn)一步降低功耗要求。關(guān)鍵是在最低電壓和最短時(shí)間下確定最佳精度。沃克說(shuō),這轉(zhuǎn)化為最高的能源效率。
雖然這項(xiàng)技術(shù)也適用于更高精度的神經(jīng)網(wǎng)絡(luò),但它特別適用于 BNN,因?yàn)?MRAM 單元有兩種狀態(tài),與 BNN 中的二進(jìn)制狀態(tài)相匹配。
Walker 表示,在邊緣使用 MRAM 是另一個(gè)潛在應(yīng)用。
“對(duì)于邊緣人工智能,MRAM 能夠在不需要高性能精度的應(yīng)用中以較低的電壓運(yùn)行,但提高能效和內(nèi)存耐用性非常重要,”他說(shuō)?!按送?,MRAM 固有的非易失性允許在沒(méi)有電源的情況下保存數(shù)據(jù)。
一種應(yīng)用是作為所謂的統(tǒng)一存儲(chǔ)器,“這種新興存儲(chǔ)器可以作為嵌入式閃存和 SRAM 的替代品,節(jié)省芯片面積并避免 SRAM 固有的靜態(tài)功耗?!?/p>
雖然 Spin Memory 的 MRAM 正處于商業(yè)應(yīng)用的邊緣,但 BNN 的具體實(shí)施最好在基本 MRAM 單元的變體上工作。因此,它仍處于研究階段。
神經(jīng)形態(tài) ReRAM
用于邊緣 AI 應(yīng)用的另一種新興內(nèi)存是 ReRAM。Politecnico Milan 最近使用 Weebit Nano 的氧化硅 (SiOx) ReRAM 技術(shù)進(jìn)行的研究顯示了神經(jīng)形態(tài)計(jì)算的前景。ReRAM 為神經(jīng)網(wǎng)絡(luò)硬件增加了一個(gè)可塑性維度;也就是說(shuō),它可以隨著條件的變化而發(fā)展——神經(jīng)形態(tài)計(jì)算中的一個(gè)有用品質(zhì)。
當(dāng)前的神經(jīng)網(wǎng)絡(luò)無(wú)法在不忘記他們接受過(guò)訓(xùn)練的任務(wù)的情況下學(xué)習(xí),而大腦可以很容易地做到這一點(diǎn)。在 AI 術(shù)語(yǔ)中,這是“無(wú)監(jiān)督學(xué)習(xí)”,算法在沒(méi)有標(biāo)簽的數(shù)據(jù)集上執(zhí)行推理,在數(shù)據(jù)中尋找自己的模式。最終的結(jié)果可能是支持 ReRAM 的邊緣 AI 系統(tǒng),它可以就地學(xué)習(xí)新任務(wù)并適應(yīng)周圍的環(huán)境。
總體而言,內(nèi)存制造商正在引入提供人工智能應(yīng)用所需的速度和帶寬的技術(shù)。各種內(nèi)存,無(wú)論是與 AI 計(jì)算在同一芯片上、在同一封裝中還是在單獨(dú)的模塊上,都可用于適應(yīng)許多邊緣 AI 應(yīng)用。
雖然邊緣 AI 的內(nèi)存系統(tǒng)的確切性質(zhì)取決于應(yīng)用程序,但 GDDR、HBM 和 Optane 被證明在數(shù)據(jù)中心中很受歡迎,而 LPDDR 與片上 SRAM 競(jìng)爭(zhēng)端點(diǎn)應(yīng)用程序。
新興記憶正在將其新穎的特性用于研究,旨在推動(dòng)神經(jīng)網(wǎng)絡(luò)超越當(dāng)今硬件的能力,以實(shí)現(xiàn)未來(lái)的節(jié)能、受大腦啟發(fā)的系統(tǒng)。
、審核編輯 黃昊宇
-
內(nèi)存
+關(guān)注
關(guān)注
8文章
2903瀏覽量
73541 -
AI
+關(guān)注
關(guān)注
87文章
28877瀏覽量
266237 -
EDGE
+關(guān)注
關(guān)注
0文章
176瀏覽量
42577
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論