0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

存內(nèi)計算原理分類——數(shù)字存內(nèi)計算與模擬存內(nèi)計算

廖慧敏 ? 來源:jf_13681693 ? 作者:jf_13681693 ? 2024-05-21 16:26 ? 次閱讀

存算一體作為一種新型架構(gòu),將數(shù)據(jù)存儲和計算融合一體化,有望突破算力與功耗瓶頸。存內(nèi)計算可分為模擬和數(shù)字兩大類別。接下來我們將重點介紹數(shù)字存內(nèi)計算與模擬存內(nèi)計算及其優(yōu)劣。

一.數(shù)字存內(nèi)計算

數(shù)字存內(nèi)計算利用全數(shù)字電路執(zhí)行計算,指將數(shù)字邏輯集成到存內(nèi)計算中,能夠?qū)⒅鹞粩?shù)字乘積累加運算直接集成到存儲器陣列。由于數(shù)字存內(nèi)計算結(jié)構(gòu)上對乘積累加計算有良好的支持,在神經(jīng)網(wǎng)絡(luò)需求的運算場景中應(yīng)用潛力巨大,如智能手表、藍牙耳機中的語音處理,智能手機中的神經(jīng)網(wǎng)絡(luò)運算加速,模型訓(xùn)練加速卡等。

數(shù)字存內(nèi)計算的主要優(yōu)勢就是存儲器中權(quán)重可更換、高帶寬以及高魯棒性,但面積和功耗開銷都比較大,適用于高精度、對功耗等要求不高的應(yīng)用場景。

wKgZomZG_NWAIoJ9ABRwhzlRrNg851.png

圖 1 數(shù)字存內(nèi)計算核結(jié)構(gòu)[1]

以ISSCC 2022中的文獻[1]中展示的數(shù)字存內(nèi)計算總體結(jié)構(gòu)為例,解釋數(shù)字存內(nèi)計算的運算方式,其結(jié)構(gòu)如圖1所示。

該運算核結(jié)構(gòu)由64個如圖中頂層所示的MAC array構(gòu)成。在每一個MAC array中,存儲器存儲權(quán)重數(shù)據(jù)(圖1中左側(cè)12T bitcell array部分),乘法器計算輸入數(shù)據(jù)與權(quán)重數(shù)據(jù)的元素乘積結(jié)果,加法器樹計算元素乘積結(jié)果的和(圖中4b×1b multiplier & 6 stages adder tree部分),移位累加器將加法器樹計算得到的結(jié)果移位累加(圖中Bit shifter & accumulator部分)。

運算核計算64×1的4bit輸入向量XIN[63:0][3:0]與64×64的4bit權(quán)重矩陣的內(nèi)積結(jié)果,其結(jié)果為一列64×1的14bit向量NOUT[63:0][13:0]。計算過程為:權(quán)重矩陣的權(quán)重信息被拆分為64個64×1的4bit權(quán)重向量存儲在每一層MAC array的存儲器中,寫入過程受到WA[7:0]信號控制,每次寫入向量中一個元素的4bit信息D[4:0],一共64個MAC array,一次需要寫入D[255:0]。輸入向量受XINSEL[3:0]控制按比特由高到低依次輸入,每個時鐘周期計算一個輸入比特64 XINLBs與權(quán)重向量256 RBLBs的元素乘積,并求和,將四個周期的結(jié)果移位累加便得到該MAC array的權(quán)重向量與輸入向量的內(nèi)積,將每層MAC array的結(jié)果組成為一個向量,即為NOUT[63:0][13:0]。

據(jù)悉已有基于數(shù)字存內(nèi)計算的產(chǎn)品產(chǎn)出。后摩于2023年5月推出鴻途?H30,該芯片基于SRAM存儲介質(zhì),據(jù)其官網(wǎng)信息,該產(chǎn)品擁有極低的訪存功耗和超高的計算密度,在Int8數(shù)據(jù)精度條件下,其AI核心IPU能效比高達15Tops/W,是傳統(tǒng)架構(gòu)芯片的7倍以上,暫未落地到市場化應(yīng)用實測性能。

二.模擬存內(nèi)計算[2]

不同于前述的數(shù)字存內(nèi)計算,模擬存內(nèi)計算主要基于物理定律(歐姆定律和基爾霍夫定律),在存算陣列上實現(xiàn)乘積累加運算。對于模擬存內(nèi)計算,其存內(nèi)計算電路的計算模式通過定制模擬計算電路模塊來實現(xiàn),通過這些模擬計算電路與存儲單元的結(jié)合來實現(xiàn)高能效存內(nèi)計算,一般使用RRAM(阻變隨機存儲器,又名憶阻器)和Flash(閃存)。

模擬存內(nèi)計算面積、功耗等開銷小,能量效率高,但是缺乏準確性,適用于需要低功耗、對精度要求不高的應(yīng)用場景。

下面以RRAM為例,來描述模擬存內(nèi)計算的原理。

憶阻器電路可以做成陣列結(jié)構(gòu),如下圖2所示,與矩陣類似,利用其矩陣運算能力,可以廣泛應(yīng)用于人工智能推理場景中。在推理過程中,通過輸入矢量與模型的參數(shù)(也即權(quán)重)矩陣完成乘加運算,便可以得到推理結(jié)果。

wKgaomZG_OiATnDxAAhdquKGvv0392.png

圖 2 3×3交叉陣列的模擬型憶阻器[3]

wKgZomZG_PaAesR-AAhSaKQqs_k666.png

圖 3 交叉陣列進行矩陣乘加運算示意圖[4]

關(guān)于矩陣乘加運算,如上圖3所示,將模型的輸入數(shù)據(jù)設(shè)為矩陣[V],模型的參數(shù)設(shè)為矩陣[G],運算后的輸出數(shù)據(jù)設(shè)為矩陣[I]。運算前,先將模型參數(shù)矩陣按行列位置存入憶阻器(即[G]),在輸入端給定電壓值來表示輸入矢量(即[V]),根據(jù)歐姆定律,便可在輸出端得到對應(yīng)的電流矢量,再根據(jù)基爾霍夫定律將電流相加,即得到輸出結(jié)果(即[I])。此外,多個存算陣列并行,便可完成多個矩陣乘加計算。

目前模擬存內(nèi)計算研究已經(jīng)有了很多成果。例如,2023年10月,清華錢鶴、吳華強帶領(lǐng)團隊創(chuàng)新設(shè)計出適用于RRAM存算一體的高效片上學(xué)習(xí)的新型通用算法和架構(gòu)(STELLAR),研制出全球首顆全系統(tǒng)集成的、支持高效片上學(xué)習(xí)的RRAM存算一體芯片,該成果已發(fā)表在《Science》上。此外,基于Flash的模擬存內(nèi)計算也是研究重點。2022年,國內(nèi)的知存科技率先量產(chǎn)商用WTM2101芯片,結(jié)合了RISC-V指令集與NOR Flash存內(nèi)計算陣列,使用特殊的電路設(shè)計抑制閾值電壓漂移對計算精度的影響,可實現(xiàn)低功耗計算與低功耗控制,其陣列結(jié)構(gòu)與芯片架構(gòu)如圖4所示,包括1.8 MB NOR Flash存內(nèi)計算陣列,一個RISC-V核,一個數(shù)字計算加速器組,320 kB RAM以及多種外設(shè)接口[5]。WTM2101芯片適配低功耗AIoT應(yīng)用,可使用微瓦到毫瓦級功耗完成大規(guī)模深度學(xué)習(xí)運算,可應(yīng)用于智能語音、智能健康等市場領(lǐng)域,目前已完成批量生產(chǎn)和市場應(yīng)用。此外,知存科技也推出了WTM-8系列產(chǎn)品芯片,這是針對視頻增強處理的一款高性能低功耗的存算一體AI處理芯片,采用第二代3D存內(nèi)計算架構(gòu),為全球首粒端側(cè)大算力存算一體芯片,即將量產(chǎn),具備高算力、低功耗、高能效、低成本的核心優(yōu)勢,應(yīng)用于1080P-4K視頻的實時處理和空間計算[6]。WTM2101和WTM-8的主要產(chǎn)品性能如下表1所示, 未公開的數(shù)據(jù)用“-”表示,請酌情采信。

wKgZomZG_RmAQ0UMAAESXije9Ts124.png

備注:用于智能可穿戴設(shè)備的高算力低功耗定位,主要應(yīng)用于智能語音和智能健康

定位為移動設(shè)備計算視覺芯片,具有4核高精度存內(nèi)計算,支持linux,支持AI超分、插幀、HDR、識別和檢測,應(yīng)用于1080P-4K視頻實時處理和空間計算

wKgaomZG_TKAIwtUAA4t5zg-Des335.png

圖 4 WTM2101芯片陣列及架構(gòu)[7]

三.二者優(yōu)劣對比分析

數(shù)字存內(nèi)計算與模擬存內(nèi)計算都是存算一體發(fā)展進程中的重點發(fā)展路徑,二者有著不同的優(yōu)缺點與應(yīng)用場景。

數(shù)字存內(nèi)計算主要以SRAM作為存儲器件,采用先進邏輯工藝,具有高性能高精度的優(yōu)勢,且具備很好的抗噪聲能力和可靠性,可以避免由于工藝變化、數(shù)據(jù)轉(zhuǎn)換開銷和模擬電路的可縮放性差而導(dǎo)致的不準確,因此更適合大規(guī)模高計算精度芯片的實現(xiàn)。然而,數(shù)字存內(nèi)計算單位面積功耗高,在功率和面積等方面都遇到了新的問題,比如一個一般的CMOS全加器單元就需要28個晶體管,面積和功耗開銷都比較大。綜上,數(shù)字存內(nèi)計算更適用于高精度、對功耗不敏感的大算力計算場景,比如云邊AI場景。

模擬存內(nèi)計算通常以RRAM、Flash等非易失性介質(zhì)作為存儲器件,存儲密度大,并行度高,面積、功耗等開銷小,成本較低,能量效率高。但是模擬存內(nèi)計算對環(huán)境噪聲和溫度非常敏感,由于晶體管變化和ADC模數(shù)轉(zhuǎn)換器)等的影響,SNR(信噪比)不足,模擬存內(nèi)計算往往缺乏準確性,更適用于低功耗、功能靈活性要求不高、對精度要求不高的高能效小算力應(yīng)用場景,如端側(cè)可穿戴設(shè)備等[8]。兩種存內(nèi)計算模式的優(yōu)劣對比如下表2所示。

總而言之,數(shù)字存內(nèi)計算與模擬存內(nèi)計算各有優(yōu)劣,都是存算一體發(fā)展進程中的重點發(fā)展路徑,數(shù)字存內(nèi)計算由于其高速、高精度、抗噪性強、工藝技術(shù)成熟、能效比高等特點,更適用于大算力、云計算、邊緣計算等應(yīng)用場景;模擬存內(nèi)計算由于其非易失性、高密度、低成本、功耗低等特點,更適用于小算力、端側(cè)、需長時待機等的應(yīng)用場景。在如今可穿戴設(shè)備、智能家具、玩具機器人等應(yīng)用走進千家萬戶的背景下,模擬存內(nèi)計算的高能效、小面積、低成本等市場優(yōu)勢逐漸凸顯,比如前面所提到的知存科技WTM2101已率先進入市場規(guī)模化應(yīng)用,在商業(yè)化進程中處于領(lǐng)先地位,且更高算力WTM-8系列即將量產(chǎn),在端側(cè)AI市場具有極大的應(yīng)用潛力。

不論是數(shù)字存內(nèi)計算還是模擬存內(nèi)計算,目前都面臨各自的一些挑戰(zhàn),比如編程模型的復(fù)雜性、硬件設(shè)計的復(fù)雜性、硬件系統(tǒng)的可靠性等等,但隨著研究人員的不斷努力,這些難題將逐步得到解決,存內(nèi)計算芯片的未來將大有可期。

參考文獻

[1] Yan B, Hsu J L, Yu P C, et al. A 1.041-Mb/MM 2 27.38-TOPS/W signed-INT8 dynamic-logic-based ADC-less SRAM compute-in-memory macro in 28nm with reconfigurable bitwise operation for AI and embedded applications[C]//2022 IEEE International Solid-State Circuits Conference (ISSCC). IEEE, 2022, 65: 188-190.

[2][4] 存算一體白皮書(2022年),中國移動通信有限公司研究院.

[3] 針對憶阻器的工作原理和發(fā)展的研究-知乎.

[5][7] 郭昕婕,王光燿,王紹迪.存內(nèi)計算芯片研究進展及應(yīng)用[J].電子與信息學(xué)報,2023,45(05):1888-1898.

[6] 知存科技官網(wǎng) (witintech.com).

[8] Chih Y D, Lee P H, Fujiwara H, et al. 16.4 An 89TOPS/W and 16.3 TOPS/mm 2 all-digital SRAM-based full-precision compute-in memory macro in 22nm for machine-learning edge applications[C]//2021 IEEE International Solid-State Circuits Conference (ISSCC). IEEE, 2021, 64: 252-254.

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲器
    +關(guān)注

    關(guān)注

    38

    文章

    7365

    瀏覽量

    163085
  • 模擬
    +關(guān)注

    關(guān)注

    7

    文章

    1416

    瀏覽量

    83824
  • 矩陣運算
    +關(guān)注

    關(guān)注

    1

    文章

    5

    瀏覽量

    7460
  • RRAM
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    21317
  • 存內(nèi)計算
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    1348
收藏 人收藏

    評論

    相關(guān)推薦

    內(nèi)計算并不滿足于現(xiàn)有的算力

    談到內(nèi)計算,大部分人的第一印象就是超低功耗和大算力。內(nèi)計算技術(shù)打破了馮諾依曼架構(gòu)的限制,沖破
    的頭像 發(fā)表于 05-11 00:08 ?2780次閱讀

    內(nèi)生態(tài)構(gòu)建重要一環(huán)- 內(nèi)計算工具鏈

    本篇文章重點講述內(nèi)計算相關(guān)工具鏈,我們將從工具鏈定義出發(fā),依次講述工具鏈研究背景及現(xiàn)有工具鏈、內(nèi)計算
    的頭像 發(fā)表于 05-16 14:37 ?849次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b>生態(tài)構(gòu)建重要一環(huán)- <b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>計算</b>工具鏈

    內(nèi)計算技術(shù)工具鏈——量化篇

    本篇文章將重點講述內(nèi)計算技術(shù)工具鏈之“量化”,我們將從面向內(nèi)計算芯片的深度學(xué)習(xí)編譯工具鏈、神
    的頭像 發(fā)表于 05-16 12:35 ?893次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>計算</b>技術(shù)工具鏈——量化篇

    內(nèi)計算芯片研究進展及應(yīng)用

    在NOR Flash內(nèi)計算芯片當(dāng)中,向量-矩陣乘法運算基于電流/電壓的跨導(dǎo)與基爾霍夫定律進行物理實現(xiàn),如圖7(a)所示。因此,其核心是設(shè)計NOR Flash單元陣列以滿足大規(guī)模高能效向量-矩陣乘法
    的頭像 發(fā)表于 05-16 15:30 ?965次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>計算</b>芯片研究進展及應(yīng)用

    探索內(nèi)計算—基于 SRAM 的內(nèi)計算與基于 MRAM 的算一體的探究

    本文深入探討了基于SRAM和MRAM的算一體技術(shù)在計算領(lǐng)域的應(yīng)用和發(fā)展。首先,介紹了基于SRAM的內(nèi)邏輯計算技術(shù),包括其原理、優(yōu)勢以及在
    的頭像 發(fā)表于 05-16 16:10 ?1885次閱讀
    探索<b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>計算</b>—基于 SRAM 的<b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>計算</b>與基于 MRAM 的<b class='flag-5'>存</b>算一體的探究

    論基于電壓域的SRAM內(nèi)計算技術(shù)的嶄新前景

    能耗。 特別關(guān)注了基于電壓域的SRAM內(nèi)計算技術(shù),這一技術(shù)利用SRAM存儲單元的電壓變化來實現(xiàn)計算功能。通過將數(shù)字量轉(zhuǎn)化為電壓值,利
    的頭像 發(fā)表于 05-17 14:38 ?732次閱讀
    論基于電壓域的SRAM<b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>計算</b>技術(shù)的嶄新前景

    從MRAM的演進看內(nèi)計算的發(fā)展

    我國的內(nèi)計算產(chǎn)業(yè)也開始迅猛發(fā)展,知科技、九天睿芯、智芯科、后摩智能、蘋芯科技等國內(nèi)專注內(nèi)
    的頭像 發(fā)表于 05-17 14:25 ?922次閱讀
    從MRAM的演進看<b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>計算</b>的發(fā)展

    內(nèi)計算——助力實現(xiàn)28nm等效7nm功效

    當(dāng)?shù)男阅堋?b class='flag-5'>存算一體嘗試通過集成存儲和計算在一個芯片甚至一個容器內(nèi),來突破訪限制,發(fā)揮芯片的最大算力。下面我們將重點介紹算一體技術(shù)。
    的頭像 發(fā)表于 05-17 15:03 ?1347次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>計算</b>——助力實現(xiàn)28nm等效7nm功效

    內(nèi)計算WTM2101編譯工具鏈 資料

    內(nèi)計算是突破物理極限的下一代算力技術(shù)- AIGC等人工智能新興產(chǎn)業(yè)的快速發(fā)展離不開算力,算力的基礎(chǔ)是人工智能芯片。 當(dāng)前CPU/GPU在執(zhí)行計算密集型任務(wù)時需要將海量參數(shù)(ωij)
    發(fā)表于 05-16 16:33

    淺談內(nèi)計算生態(tài)環(huán)境搭建以及軟件開發(fā)

    在當(dāng)今數(shù)據(jù)驅(qū)動的商業(yè)世界中,能夠快速處理和分析大量數(shù)據(jù)的能力變得越來越重要。而內(nèi)計算開發(fā)環(huán)境在此領(lǐng)域發(fā)揮其關(guān)鍵作用。內(nèi)
    發(fā)表于 05-16 16:40

    三星基于HMB的內(nèi)計算芯片有何亮點?

    算一體或者叫內(nèi)計算技術(shù)隨著AI的火熱再一次成為業(yè)內(nèi)關(guān)注的焦點,存儲和計算的融合有望解決AI芯片內(nèi)存墻的限制,當(dāng)然,實現(xiàn)的方法也各不相同。
    的頭像 發(fā)表于 02-19 10:16 ?3001次閱讀

    ?什么是內(nèi)計算

    蘋芯科技成立于2021年,專注于內(nèi)計算AI芯片研究與應(yīng)用,希望通過SRAM技術(shù)路線突破傳統(tǒng)馮·諾依曼結(jié)構(gòu)所造成的存儲墻局限,為人工智能行業(yè)下的多元場景提供底層算力。
    發(fā)表于 08-08 09:05 ?5040次閱讀

    內(nèi)計算的前景如何

    科技介紹,WTM2101可使用sub-mW級功耗完成大規(guī)模深度學(xué)習(xí)運算,特別適合可穿戴設(shè)備中的智能語音和智能健康服務(wù)。
    的頭像 發(fā)表于 02-09 16:27 ?1475次閱讀

    科技WTM內(nèi)計算芯片原理分析

    區(qū)別于傳統(tǒng)馮諾依曼架構(gòu),算一體架構(gòu)是直接使用存儲器件單元完成乘加計算,無需數(shù)據(jù)讀寫與搬運,可以在極低功耗下完成大規(guī)模的深度學(xué)習(xí)運算,大大提升運算效率,降低時延。
    的頭像 發(fā)表于 05-11 15:29 ?1755次閱讀
    知<b class='flag-5'>存</b>科技WTM<b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>計算</b>芯片原理分析

    淺談內(nèi)計算生態(tài)環(huán)境搭建以及軟件開發(fā)

    在當(dāng)今數(shù)據(jù)驅(qū)動的商業(yè)世界中,能夠快速處理和分析大量數(shù)據(jù)的能力變得越來越重要。而內(nèi)計算開發(fā)環(huán)境在此領(lǐng)域發(fā)揮其關(guān)鍵作用。內(nèi)
    的頭像 發(fā)表于 05-15 17:10 ?355次閱讀
    淺談<b class='flag-5'>存</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>計算</b>生態(tài)環(huán)境搭建以及軟件開發(fā)