91九色国产porny,中文动漫av纯肉无码免费播放

如前所述，數(shù)據(jù)緩存是創(chuàng)建高效DNN加速器的關(guān)鍵組件之一。因此，除了選擇適當?shù)臄?shù)據(jù)流(控制數(shù)據(jù)緩存的位置和時間)外，DNN加速器還需要一個緩存方案，該方案應(yīng)尋求實現(xiàn)以下目標：

l 以高效并及時的方式準確地傳送數(shù)據(jù)的consumer需要的數(shù)據(jù)；

l 將未來所需數(shù)據(jù)的接收與當前正在使用的數(shù)據(jù)的使用重疊；

l 在不再需要數(shù)據(jù)時刪除數(shù)據(jù)；

l 通過同步來完成上述所有操作。

一般來說，可以實現(xiàn)這些目標的稱為實現(xiàn)良好的數(shù)據(jù)編排。[170]中對當前數(shù)據(jù)編排方法的分類如圖5.29所示。在圖中，buffer的用法沿著兩個軸進行劃分。在較高的層次上，沿一個軸的implicit/explicit區(qū)分是指利用工作負載來控制數(shù)據(jù)緩沖決策的程度，而在另一個軸上的coupled/decoupled是指內(nèi)存響應(yīng)和請求是往返(請求-響應(yīng))還是向前流(自動將數(shù)據(jù)推送給consumer)。

圖5.29: 數(shù)據(jù)編排方法的分類。假設(shè)通信（帶箭頭的線）在硬件通道（通常是 NoC 鏈路）上傳輸。（圖來自[170]）

5.8.1 隱式與顯式編排

在通用計算中，cache是主要的緩沖機制，并且基于加載/存儲操作。緩存有幾個理想的屬性，例如以不可見的方式組合成層次結(jié)構(gòu)。內(nèi)存級并行性（多個未完成的填充以及填充和訪問當前內(nèi)容之間的并發(fā)性）可以使用經(jīng)過充分研究的附加硬件（通常稱為無鎖緩存結(jié)構(gòu)）來實現(xiàn)。

Cache可以被描述為執(zhí)行implicit式數(shù)據(jù)編排，因為加載請求發(fā)起者不直接控制緩存層次結(jié)構(gòu)關(guān)于響應(yīng)數(shù)據(jù)是否保留在存儲層次結(jié)構(gòu)的任何給定級別上的決策，也不直接控制何時刪除響應(yīng)數(shù)據(jù)。啟發(fā)式替換策略在通用場景中是有利的，因為它們與工作負載無關(guān)。另一方面，對于DNN加速器來說，標簽匹配和關(guān)聯(lián)集等特征的面積和能量開銷很高。

Cache的另一種替代方法是使用scratchpad，它為加載和存儲了特定暫存緩沖區(qū)的地址范圍，從而支持對數(shù)據(jù)編排的顯式和精確控制 (在圖5.29中，這是由管理本地和全局請求/響應(yīng)的數(shù)據(jù)路徑表示的)。GPU的共享scratchpad [171]是這種顯式數(shù)據(jù)編排習(xí)慣用法的一個例子。scratchpad的大小和地址范圍在體系結(jié)構(gòu)上是公開的，數(shù)據(jù)進出scratchpad的傳輸是通過明確的指令進行管理的。雖然scratchpad避免了緩存的硬件開銷，但提取內(nèi)存并行性(跨填充和重疊填充和訪問)既繁瑣又容易出錯，因此很難將它們組合成層次結(jié)構(gòu)。

5.8.2 耦合和解耦編排

緩存和暫存區(qū)都使用加載/存儲模式，其中請求的發(fā)起方也接收響應(yīng)。這被稱為數(shù)據(jù)的耦合分段，反映在圖5.29的左列中。有了這種設(shè)置，數(shù)據(jù)需求和數(shù)據(jù)可用性之間的同步既高效又直觀——當相應(yīng)的響應(yīng)返回時（load-use）會通知請求者。缺點是，由于單個requester/consumer必須在請求和使用響應(yīng)之間交替，它使數(shù)據(jù)塊的填充和訪問重疊（例如，通過雙緩沖）變得復(fù)雜。此外，傳入數(shù)據(jù)tile的“l(fā)anding zone”必須在整個往返加載延遲期間保留（因此是空閑的），這增加了內(nèi)存資源的壓力，否則內(nèi)存資源可能會用于更大的瓦tile size。

另一種選擇是將負載請求啟動器與響應(yīng)接收器解耦（在圖5.29中，這由指向不同模塊的請求/響應(yīng)箭頭表示）。在這種設(shè)置中，一個單獨的硬件模塊（例如DMA引擎或地址生成器（AGEN））負責將數(shù)據(jù)推入一個或多個功能單元的緩沖器。為了容忍延遲，這些緩沖器通常是雙緩沖的，有時被稱為ping-pong buffers [172, 173]。這種方法的主要優(yōu)點是，請求者可以以自己的速率運行，并且可以將數(shù)據(jù)多播到多個同時使用的用戶。此外，pipeline的前饋特性意味著只需要按層次結(jié)構(gòu)相鄰級別之間的延遲比例保留tile landing zone，而不是整個層次結(jié)構(gòu)遍歷往返，從而增加對同等大小內(nèi)存的利用率。最后，這種方法通?？梢詡鬏敶髷?shù)據(jù)塊(即批量傳輸，這比小請求更有效)，這些數(shù)據(jù)塊必須動態(tài)地重新合并對同一內(nèi)存行的訪問。

這種分離的producer/consumer方法類似于Smith[174]的通用計算架構(gòu)的decoupled access execute (DAE)風(fēng)格。在DAE組織中，兩個處理器通過硬件隊列連接。訪問處理器負責執(zhí)行所有地址計算和生成負載——類似于DMA引擎。負載響應(yīng)被傳遞給執(zhí)行處理器——類似于加速器的功能單元及其本地staging緩沖區(qū)。DAE提高了并行性，減少了指令的關(guān)鍵路徑，同時允許兩個處理器以其自然速率進行計算。然而經(jīng)典的DAE并沒有顯式地控制數(shù)據(jù)編排緩沖區(qū)——關(guān)于暫存在數(shù)據(jù)的決策仍然由緩存層次管理，因此圖5.29將DAE歸類為隱式解耦。

5.8.3 顯式解耦數(shù)據(jù)編排(EDDO)

DNN加速器中最常見的緩沖方法是顯式解耦數(shù)據(jù)編排(EDDO)。硬件FIFO[175,176]是一種傳統(tǒng)的可重用EDDO分段緩沖結(jié)構(gòu)。其優(yōu)點是FIFO通過頭指針和尾指針清晰地封裝了同步，并且易于分層組合。然而在實踐中FIFO不夠靈活，無法滿足DNN加速器的需求，因為DNN加速器經(jīng)常在一個窗口內(nèi)重復(fù)訪問(例如，在執(zhí)行卷積時)。此外，對于部分和之類的數(shù)據(jù)類型，分級數(shù)據(jù)必須在清除之前進行多次修改。這在沒有昂貴的再循環(huán)的單寫端口FIFO中是不可能的。

一些深度神經(jīng)網(wǎng)絡(luò)加速器[142, 152, 159, 177, 178]已經(jīng)將顯式解耦數(shù)據(jù)編排(EDDO)方案作為定制緩沖機制納入其中，并提出了其他特定的EDDO緩沖方案，如DESC[179]。然而，為了說明典型的EDDO方案將描述buffets[170]，它是Eyeriss[101]中數(shù)據(jù)編排方案的概括。

從本質(zhì)上講，buffet的操作就像FIFO一樣，值從輸入NoC鏈路(即硬件通信通道)填充到由頭和尾指針控制的圓形緩沖區(qū)中。只有當填充發(fā)生時，值才會從填充NoC鏈接中刪除。對緩沖區(qū)中的數(shù)據(jù)的訪問是由讀取命令提供的，但是與只能在其頭部讀取的FIFO不同，buffet讀取增加了一個地址，這被解釋為頭部的偏移量。在buffet中保留一組值并多次讀取它們可以重用數(shù)據(jù)塊。與填充類似，read命令只在讀取值可以在讀取值NoC鏈路上發(fā)送時才會執(zhí)行(即，NoC鏈路沒有阻塞)。

Buffets還支持在其緩沖區(qū)中更新值。只允許更新之前讀過的值，并使用read+update命令讀取位置的值。這使得buffet支持存儲和更新partial sum。

最后，buffet提供了一個shrink操作，從緩沖區(qū)的頭部刪除指定數(shù)量的項。shrink可以讓人輕松地釋放tile占用的空間。為了避免在切換tile時發(fā)生延遲，可以定義一個比buffet尺寸小的tile。因此，在處理前一個tile片時，可以開始填充下一個tile。然而，額外的空間只需要足夠大，就避免在下一個tile上開始工作之前的啟動瞬態(tài)。這通常比雙緩沖所需的空間要小得多。

shrink不需要移除整個tile。只移除tile的一部分（例如，只移除一個值），然后從零偏移開始按順序再次讀取，這樣buffets就可以支持滑動窗口。

圖5.30給出了buffet的框圖。當操作(命令或填充)所需的所有輸入NoC鏈接上都有值，并且輸出NoC鏈接中有空間(僅用于讀取)時，就會發(fā)生操作。圖中所示的活動如下。

圖5.30: buffet框圖: 主要的輸入是一個fill value; a read address and read value; an update address, and update value; 以及一個command，可以指定是執(zhí)行讀取、讀取+更新還是shrink。唯一的輸出是一個read value。head、tail和date單元在內(nèi)部提供了同步，通過暫停操作來保持正確的順序。

l 正在調(diào)用read命令（r），該read命令將讀取地址（1）作為從head的偏移量來產(chǎn)生read value（d）

l Update address （3）處的更新正在將update value（f’）寫入buffet。請注意，這是允許的，因為較早的命令必須是偏移量3處的read+update

l Fill value（k）即將寫入buffet的尾部tail

上述所有活動都是在buffet內(nèi)部通過head、tail和最新狀態(tài)進行協(xié)調(diào)的，這保證了正確的ordering。例如，一個read操作必須等待數(shù)據(jù)filled and updated (如果之前有一個read+update)。fill必須等到緩沖區(qū)有空間。

這里沒有說明shrink命令，它只是在等待未完成的更新后調(diào)整頭部指針，從buffet頭部刪除給定數(shù)量的值。

圖5.31展示了一個簡單的示例，演示了buffet是如何自然組合的，并可以用來處理滑動窗口和更新。L1輸入buffet與L0輸入buffet的自然組合允許外部無同步填充，因為填充由每個buffet的內(nèi)部排序控件控制。在L0 Input Buffet中的1個shrink會創(chuàng)建一個輸入滑動窗口，因此輸入的相對序列將是0, 1, 2, 1, 2, 3, 2, 3, 4......內(nèi)部同步還控制partial sum的更新。

圖5.31: buffet示例——一個類似于Eyeriss的全局緩沖區(qū)和使用buffet構(gòu)建的PE的示例。對L1輸入buffet的讀取填充L0 buffet，L0 buffet執(zhí)行讀取，將輸入滑動窗口傳遞給乘法器。L0輸出緩沖區(qū)執(zhí)行一系列read+update命令來生成partial sum。Weight buffet沒有顯示。

總之，在DNN加速器設(shè)計中需要有效的數(shù)據(jù)編排，并且通常由管理數(shù)據(jù)移動的機制(如buffet)提供。這通常在設(shè)計中表現(xiàn)為明確的控制，其中數(shù)據(jù)在存儲層次結(jié)構(gòu)中被確定地推送，避免了昂貴的往返通信，并最大限度地減少了“l(fā)anding space”存儲需求。通過解耦的活動還可以提高效率，其中硬件提供所需值的本地確定和本地同步控制。顯然，并非每個存儲緩沖區(qū)都需要buffet的完整語義，因此可以采用這些語義子集的優(yōu)化實現(xiàn)或其他提供類似好處的自定義設(shè)計。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

加速器

加速器

+關(guān)注

關(guān)注
2

文章
785

瀏覽量
37139
緩沖器

緩沖器

+關(guān)注

關(guān)注
6

文章
1903

瀏覽量
45319
FIFO存儲

FIFO存儲

+關(guān)注

關(guān)注
0

文章
103

瀏覽量
5944
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
1828

瀏覽量
34661

深入理解DNN加速器中的基本單元——DSP

DNN加速器的設(shè)計一直在兩個方面使力：通用架構(gòu)和高效性能。通用性需要自頂向下的設(shè)計，首先綜合各種神經(jīng)網(wǎng)絡(luò)的算子設(shè)計一套標準的指令集，然后根據(jù)硬件平臺的特點，考察計算資源，存儲資源以及帶寬，進行硬件

發(fā)表于 07-28 17:56 ?7082次閱讀

家居智能化，推動AI加速器的發(fā)展

電子發(fā)燒友網(wǎng)報道（文/黃山明）AI加速芯片，也稱為人工智能加速器（AI Accelerator），是一種專為執(zhí)行機器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)而設(shè)計

發(fā)表于 02-23 00:18 ?4402次閱讀

#硬聲創(chuàng)作季電子制作：磁性加速器

加速器DIY

Mr_haohao

發(fā)布于 :2022年10月19日 00:19:38

使用AMD-Xilinx FPGA設(shè)計一個AI加速器通道

介紹使用 AMD-Xilinx FPGA設(shè)計一個全連接DNN核心現(xiàn)在比較容易（Vitis AI），但是利用這個核心在 DNN 計算中使用它是另一回事。本項目主要是設(shè)計AI

發(fā)表于 02-21 15:01

【書籍評測活動NO.18】 AI加速器架構(gòu)設(shè)計與實現(xiàn)

創(chuàng)新的芯片架構(gòu)設(shè)計，這正面臨新的挑戰(zhàn)。本書從神經(jīng)網(wǎng)絡(luò)的分析出發(fā)，總結(jié)和提煉了AI加速器架構(gòu)設(shè)計中常見的難點，以及解決這些難點的技術(shù)、方法和思想，是AI軟硬件架構(gòu)師、設(shè)計師非常寶貴的參考

發(fā)表于 07-28 10:50

《 AI加速器架構(gòu)設(shè)計與實現(xiàn)》+第2章的閱讀概括

首先感謝電子發(fā)燒友論壇提供的書籍和閱讀評測的機會。拿到書，先看一下封面介紹。這本書的中文名是《AI加速器架構(gòu)設(shè)計與實現(xiàn)》，英文名是Accelerator Based on CNN Design

發(fā)表于 09-17 16:39

一種基于FPGA的高性能DNN加速器自動生成方案

可是，設(shè)計一個基于FPGA的高性能DNN推理加速器還是充滿了困難，它需要寄存器傳輸級（RTL）編程技巧，硬件驗證知識和豐富的硬件資源分配經(jīng)驗等硬件設(shè)計相關(guān)知識，對于在算法層面關(guān)注深度學(xué)習(xí)的研究人員來說是非常不友好的。

發(fā)表于 11-16 10:39 ?5445次閱讀

UIUC推出最新DNN/FPGA協(xié)同方案助力物聯(lián)網(wǎng)終端設(shè)備AI應(yīng)用

UIUC、IBM 和 Inspirit IoT, Inc（英睿物聯(lián)網(wǎng)）的研究人員提出 DNN 和 FPGA 加速器的協(xié)同設(shè)計方案（DNN/FPGA co-design），通過首創(chuàng)的「Auto-

發(fā)表于 06-10 14:39 ?1164次閱讀

借助 NVIDIA 融合加速器開發(fā)套件加速數(shù)據(jù)中心 AI

安全和自主管理式數(shù)據(jù)中心的唯一出路。 NVIDIA 融合加速器在業(yè)界率先推出 AI 增強型 DPU。它將 GPU 的強大計算能力與 DPU 的網(wǎng)絡(luò)加速和安全優(yōu)勢相結(jié)合，為

發(fā)表于 11-16 16:12 ?1934次閱讀

什么是AI加速器如何確需要AI加速器

AI加速器是一類專門的硬件加速器或計算機系統(tǒng)旨在加速人工智能的應(yīng)用，主要應(yīng)用于人工智能、人工神經(jīng)網(wǎng)絡(luò)、機器視覺和機器學(xué)習(xí)。

發(fā)表于 02-06 12:47 ?4311次閱讀

用于 AI 應(yīng)用的硬件加速器設(shè)計師指南

當 AI 設(shè)計人員將硬件加速器整合到用于訓(xùn)練和推理應(yīng)用的定制芯片中時，應(yīng)考慮以下四個因素

發(fā)表于 08-19 11:35 ?1510次閱讀

使用AXI CDMA制作FPGA AI加速器通道

使用 AMD-Xilinx FPGA設(shè)計一個全連接DNN核心現(xiàn)在比較容易（Vitis AI），但是利用這個核心在 DNN 計算中使用它是另一回事。本項目主要是設(shè)計AI

發(fā)表于 02-08 09:33 ?1639次閱讀

使用賽靈思Alveo加速器卡加速DNN

電子發(fā)燒友網(wǎng)站提供《使用賽靈思Alveo加速器卡加速DNN.pdf》資料免費下載

發(fā)表于 09-18 09:27 ?1次下載

PCIe在AI加速器中的作用

從線上購物時的“猜你喜歡”、到高等級自動駕駛汽車上的實時交通信息接收，再到在線視頻游戲，所有的這些都離不開人工智能（AI）加速器。AI加速器是一種高性能的并行計算設(shè)備，旨在高效處理神經(jīng)

發(fā)表于 11-18 10:36 ?1768次閱讀

粒子加速器的加速原理是啥呢？

粒子加速器的加速原理是啥呢？粒子加速器是一種重要的實驗設(shè)備，用于研究粒子物理學(xué)、核物理學(xué)等領(lǐng)域。其主要原理是通過電場和磁場的作用，對帶電粒子進行加速，在高速運動過程中使其獲得較大的動

發(fā)表于 12-18 13:52 ?1665次閱讀

搜索歷史

AI芯片設(shè)計DNN加速器buffer管理策略

5.8.1 隱式與顯式編排

5.8.2 耦合和解耦編排

5.8.3 顯式解耦數(shù)據(jù)編排(EDDO)

評論

深入理解DNN加速器中的基本單元——DSP

家居智能化，推動AI加速器的發(fā)展

#硬聲創(chuàng)作季電子制作：磁性加速器

使用AMD-Xilinx FPGA設(shè)計一個AI加速器通道

【書籍評測活動NO.18】 AI加速器架構(gòu)設(shè)計與實現(xiàn)

《 AI加速器架構(gòu)設(shè)計與實現(xiàn)》+第2章的閱讀概括

一種基于FPGA的高性能DNN加速器自動生成方案

UIUC推出最新DNN/FPGA協(xié)同方案助力物聯(lián)網(wǎng)終端設(shè)備AI應(yīng)用

借助 NVIDIA 融合加速器開發(fā)套件加速數(shù)據(jù)中心 AI

什么是AI加速器如何確需要AI加速器

用于 AI 應(yīng)用的硬件加速器設(shè)計師指南

使用AXI CDMA制作FPGA AI加速器通道

使用賽靈思Alveo加速器卡加速DNN

PCIe在AI加速器中的作用

粒子加速器的加速原理是啥呢？