清華大學(xué)基于多個憶阻器陣列的全硬件完整存算一體系統(tǒng),能夠高效的運行卷積神經(jīng)網(wǎng)絡(luò)算法,證明了存算一體架構(gòu)全硬件實現(xiàn)的可行性,對今后AI算力瓶頸的突破有著極大意義。
集微網(wǎng)消息,近日來,清華大學(xué)微電子學(xué)研究所、未來芯片技術(shù)高精尖創(chuàng)新中心的錢鶴、吳華強教授團隊與合作者在《自然》在線發(fā)表了題為“Fully hardware-implemented memristor convolutional neural network”的研究論文,報道了基于憶阻器陣列芯片卷積網(wǎng)絡(luò)的完整硬件實現(xiàn)。該成果所研發(fā)的基于多個憶阻器陣列的存算一體系統(tǒng),在處理卷積神經(jīng)網(wǎng)絡(luò)時的能效遠高于GPU,大幅提升了計算設(shè)備的算力,成功實現(xiàn)了以更小的功耗和更低的硬件成本完成復(fù)雜的計算。
隨著以人工智能為代表的信息技術(shù)革命興起,基于各種深度神經(jīng)網(wǎng)絡(luò)的算法可以實現(xiàn)圖像識別與分割、物體探測以及完成對語音和文本的翻譯、生成等處理。然而深度神經(jīng)網(wǎng)絡(luò)算法是一類以數(shù)據(jù)為中心的計算,實現(xiàn)該算法的硬件平臺需要具有高性能、低功耗的處理能力,這就對集成電路芯片技術(shù)提出了的更高要求。目前傳統(tǒng)實現(xiàn)該算法的硬件平臺是基于存儲和計算分離的馮諾依曼架構(gòu),這種架構(gòu)在計算時需要將數(shù)據(jù)在存儲器件和計算器件之間來回搬移,因此在包含大量參數(shù)的深度神經(jīng)網(wǎng)絡(luò)的計算過程中,該架構(gòu)的能效較低。為此,開發(fā)一種新型計算硬件來運行深度神經(jīng)網(wǎng)絡(luò)算法成為當前亟需解決的問題。
基于這種情況,清華大學(xué)團隊于2019年11月7日提出一項名為“基于憶阻器的神經(jīng)網(wǎng)絡(luò)的并行加速方法及處理器、裝置”的發(fā)明專利(申請?zhí)枺?01911082236.3),申請人為清華大學(xué)。此專利針對復(fù)雜神經(jīng)網(wǎng)絡(luò)的運算,提供了一種基于憶阻器的存算一體化架構(gòu)和并行加速方法,并在該系統(tǒng)架構(gòu)上高效運行了卷積神經(jīng)網(wǎng)絡(luò)。
圖1 憶阻器單元及陣列示意圖
圖一展示了憶阻器單元及陣列,是此專利所用的核心硬件結(jié)構(gòu)。憶阻器是一種可以通過施加外部激勵,調(diào)節(jié)其電導(dǎo)狀態(tài)的非易失型器件。由憶阻器構(gòu)成的陣列可以并行的完成乘累加計算,并同時進行計算和存儲,因此基于這種特性可以對大量數(shù)據(jù)實現(xiàn)存算一體計算。由于乘累加是運行神經(jīng)網(wǎng)絡(luò)需要的核心計算任務(wù)。將憶阻器的的電導(dǎo)表示為權(quán)重值,可以實現(xiàn)高能效的神經(jīng)網(wǎng)絡(luò)運算,圖1右側(cè)展示的憶阻器陣列即為一個m行n列的神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣。
圖2 基于憶阻器陣列的卷積神經(jīng)網(wǎng)絡(luò)卷積計算與全連接計算示意圖
卷積神經(jīng)網(wǎng)絡(luò)包括卷積層、下采樣層、池化層和全連接層,每一層都需要做模塊化的功能處理。在卷積層中,通過卷積核替代標量的權(quán)重,加上偏置量,并在每一層添加非線性激活函數(shù),通過多個卷積層來解決較為復(fù)雜的問題。圖2展示了基于憶阻器陣列的卷積計算和全連接計算示意圖,用一個憶阻器陣列來實現(xiàn)一個卷積層的卷積計算,如對輸入圖像 “ 2”進行卷積處理,同時該卷積層包括多個卷積核,每個卷積核對應(yīng)憶阻器陣列的一行,且每行的多個憶阻器分別用于表示一個卷積核的各個元素的值。而對于全連接型的計算,該憶阻器陣列的每一列用于接收全連接層的輸入,各行用于提供全連接層的輸出,每一行的多個憶阻器分別用于表示該行的輸出對應(yīng)的各個權(quán)重。
圖3 基于憶阻器的神經(jīng)網(wǎng)絡(luò)并行加速示意圖
基于憶阻器的神經(jīng)網(wǎng)絡(luò)并行加速示意圖如圖3所示,主要將多個第一憶阻器陣列并行地執(zhí)行卷積層的操作,并將結(jié)果輸出至第二功能層。通常卷積層需要多個子輸入數(shù)據(jù),可以按照任意順序分別提供給多個第一憶阻器陣列,由于各子輸入數(shù)據(jù)由憶阻器陣列進行卷積處理需要耗用的時間基本相同,因此加快卷積層的處理速度,即加快神經(jīng)網(wǎng)絡(luò)的處理速度,利用并行處理方式可以大大縮短處理時間。
圖4 神經(jīng)網(wǎng)絡(luò)片外訓(xùn)練方法
圖4展示了基于憶阻器陣列的神經(jīng)網(wǎng)絡(luò)片外訓(xùn)練方法,首先利用數(shù)學(xué)軟件構(gòu)建神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型,進而基于處理器和存儲器等運行及訓(xùn)練上述數(shù)學(xué)模型,最后將訓(xùn)練好的數(shù)學(xué)模型的權(quán)重參數(shù)寫入神經(jīng)網(wǎng)絡(luò)對應(yīng)的憶阻器陣列,此時則可執(zhí)行并行加速的計算過程,并同時對數(shù)據(jù)進行存儲,實現(xiàn)存算一體加速。
隨著計算存儲一體化的發(fā)展趨勢,基于憶阻器在硬件架構(gòu)方面的革新,將數(shù)據(jù)存儲單元和計算單元融合為一體,能顯著減少數(shù)據(jù)搬運,極大提高計算并行度和能效。清華大學(xué)的錢鶴、吳華強教授團隊搭建的這一基于多個憶阻器陣列的全硬件完整存算一體系統(tǒng),并能夠高效的運行卷積神經(jīng)網(wǎng)絡(luò)算法,并驗證了圖像識別功能,證明了存算一體架構(gòu)全硬件實現(xiàn)的可行性,對今后AI算力瓶頸的突破有著極大意義。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4718瀏覽量
100077 -
憶阻器
+關(guān)注
關(guān)注
8文章
69瀏覽量
19739 -
存算一體
+關(guān)注
關(guān)注
0文章
99瀏覽量
4257
發(fā)布評論請先 登錄
相關(guān)推薦
評論