japanese色视频在线播放,亚洲精品无码永久中文字幕

如果在數(shù)據(jù)中心和邊緣設(shè)備中部署上人工智能（AI）加速器，那么它們將能夠快速處理PB級(jí)的數(shù)據(jù)量，還能幫助克服傳統(tǒng)的馮·諾依曼瓶頸。在Chat GPT、高級(jí)駕駛輔助系統(tǒng)（ADAS）、攝像頭和傳感器等智能邊緣設(shè)備中，我們都能看到AI加速器的身影。

在半導(dǎo)體領(lǐng)域，實(shí)現(xiàn)出色的性能功耗比永遠(yuǎn)都是首要目標(biāo)。AI加速器的能效比通用系統(tǒng)的能效通常會(huì)高出100倍甚至1000倍，但生成出色AI模型所需的算力資源每3.4個(gè)月就會(huì)翻一番。AI產(chǎn)生的能耗不容小覷，以GPT3為例，僅訓(xùn)練這一個(gè)深度學(xué)習(xí)模型所產(chǎn)生的二氧化碳就高達(dá)500噸，相當(dāng)于一輛普通燃油車行駛100多萬(wàn)英里。

降低能耗不僅能夠盡量減少對(duì)環(huán)境的影響，還能降低運(yùn)營(yíng)成本，并在有限的功耗預(yù)算內(nèi)盡可能地提高性能，緩解熱挑戰(zhàn)。

本文將進(jìn)一步討論開發(fā)者們?nèi)绾卫枚说蕉斯姆治鼋鉀Q方案，打造新一代更高效節(jié)能的AI加速器。

為十億門級(jí)以上設(shè)計(jì)優(yōu)化功耗

AI加速器的端到端節(jié)能方法必須從設(shè)計(jì)流程的初始階段開始，涵蓋架構(gòu)和微架構(gòu)層面，并一直延續(xù)到簽核階段。因此，AI芯片開發(fā)者需要利用架構(gòu)探索平臺(tái)，對(duì)具體訓(xùn)練或推理應(yīng)用的功耗、性能和面積（PPA）進(jìn)行權(quán)衡分析和評(píng)估，并主動(dòng)識(shí)別后續(xù)分析的關(guān)鍵矢量。

由于AI硬件通常包括多個(gè)由數(shù)千個(gè)處理單元組成的大型陣列，因此十億門級(jí)以上設(shè)計(jì)需要進(jìn)行多域軟硬件功耗驗(yàn)證，盡可能降低能耗和漏電。然而，要想分析關(guān)鍵功耗模塊和時(shí)間窗口，需要先進(jìn)的硬件加速系統(tǒng)，以便運(yùn)行數(shù)十億個(gè)循環(huán)并快速精確地實(shí)現(xiàn)多次迭代。只有在完成這一步后，寄存器傳輸級(jí)（RTL）功耗分析和物理實(shí)現(xiàn)工具才能有效地優(yōu)化動(dòng)態(tài)（晶體管門開關(guān)）功耗和靜態(tài)（漏電）功耗。

為了始終提供準(zhǔn)確的結(jié)果，用于AI芯片設(shè)計(jì)的RTL功耗分析工具應(yīng)具備以下功能：

時(shí)序驅(qū)動(dòng)型快速綜合：內(nèi)部功耗計(jì)算錯(cuò)誤通常是基于扇出的快速綜合工具未能根據(jù)時(shí)序約束正確地確定單元大小。同后續(xù)的布局布線工具相同，RTL功耗分析工具中嵌入的快速綜合功能必須由時(shí)序驅(qū)動(dòng)。

物理感知型快速綜合：RTL功耗分析工具應(yīng)該具備“物理感知”能力，能夠通過(guò)完成一次設(shè)計(jì)單元擺放以及全局布線就可以獲得準(zhǔn)確的連線電容值。與基于扇出的方法不同，基于物理感知的電容估算能夠?yàn)槊織l連線提供唯一的準(zhǔn)確值。

簽核質(zhì)量的功耗計(jì)算引擎：傳統(tǒng)的RTL功耗分析工具使用word-level邏輯推理進(jìn)行快速綜合，這種方法只能采用啟發(fā)式算法來(lái)計(jì)算毛刺功耗，因此并不準(zhǔn)確。要準(zhǔn)確計(jì)算毛刺功耗（可能高達(dá)芯片總功耗的40%）并減少高度重復(fù)的處理單元，RTL功耗分析工具必須具備簽核質(zhì)量功耗分析引擎、網(wǎng)表級(jí)設(shè)計(jì)表示并集成時(shí)序計(jì)算引擎。

在完成RTL功耗分析和優(yōu)化后，便可使用物理實(shí)現(xiàn)（綜合和布局布線）工具來(lái)進(jìn)一步優(yōu)化PPA。為確?？煽啃?、可擴(kuò)展性以及良好的用戶體驗(yàn)，這些實(shí)現(xiàn)工具應(yīng)包含統(tǒng)一的集成式數(shù)據(jù)模型架構(gòu)、交錯(cuò)式引擎和統(tǒng)一的命令界面。同樣重要的是，實(shí)現(xiàn)工具應(yīng)能對(duì)先進(jìn)節(jié)點(diǎn)效應(yīng)和毛刺功耗進(jìn)行精確建模，從而加速工程變更命令（ECO）和最終設(shè)計(jì)收斂。

出色的能效與性能

新思科技提供全面的端到端功耗解決方案，幫助AI芯片開發(fā)者以經(jīng)濟(jì)高效的方式達(dá)成或超越充滿挑戰(zhàn)性的性能和能效目標(biāo)，同時(shí)縮短產(chǎn)品上市時(shí)間。新思科技的Platform Architect用于設(shè)計(jì)流程的初始階段，能夠?yàn)锳I芯片開發(fā)者提供SystemC事務(wù)級(jí)建模（TLM）工具和高效方法，幫助開發(fā)者快速地對(duì)復(fù)雜的芯片架構(gòu)進(jìn)行建模、分析和優(yōu)化。新思科技ZeBu Empower是一款快速的功耗分析工具，用于AI芯片設(shè)計(jì)流程的下一階段：基于數(shù)億個(gè)循環(huán)來(lái)分析和調(diào)試軟件實(shí)際工作負(fù)載下的能耗。

許多業(yè)內(nèi)領(lǐng)先的半導(dǎo)體公司借助新思科技ZeBu Empower大幅降低了功耗，其中包括美國(guó)硅谷的AI芯片初創(chuàng)公司SiMa.ai，該公司致力于為智能邊緣設(shè)計(jì)高性能、低能耗的AI芯片。具體而言，該公司的SiMa.ai低功耗MLSoC實(shí)現(xiàn)了每瓦特幀率（FPS）提升2.5倍的成果。在2023年硅谷SNUG大會(huì)上，SiMa.ai公司的芯片開發(fā)總監(jiān)Sounil Biswas指出，流片后驗(yàn)證結(jié)果表明，新思科技ZeBu Empower給出的數(shù)據(jù)與電路板的測(cè)量結(jié)果之間具有出色的相關(guān)性。

為了補(bǔ)充ZeBu Empower并助力實(shí)現(xiàn)低功耗RTL設(shè)計(jì)，新思科技提供了PrimePower RTL，這是一款RTL功耗分析與優(yōu)化工具，通過(guò)將時(shí)序驅(qū)動(dòng)型綜合、物理感知型綜合與集成式計(jì)算引擎相結(jié)合，可以持續(xù)獲得準(zhǔn)確的結(jié)果（與布線后實(shí)現(xiàn)的結(jié)果相比誤差在+/- 15%以內(nèi)）。新思科技PrimePower RTL還提供分步指導(dǎo)，幫助AI芯片開發(fā)者進(jìn)一步減少毛刺并降低總功耗。

新思科技的Fusion Compiler是一款綜合的集成式RTL-to-GDSII實(shí)現(xiàn)系統(tǒng)，可幫助實(shí)現(xiàn)進(jìn)一步的PPA優(yōu)化。在這之后，可以使用新思科技的黃金功耗簽核解決方案PrimePower對(duì)AI設(shè)計(jì)進(jìn)行分析。新思科技的PrimePower通過(guò)了全球多家領(lǐng)先代工廠的認(rèn)證，3nm工藝能夠在簽核時(shí)實(shí)現(xiàn)高精度，同SPICE的芯片測(cè)量的誤差極小。

為邊緣AI推理設(shè)計(jì)差異化芯片

AI加速器使許多熱門應(yīng)用能夠在幾毫秒內(nèi)快速分析海量信息并準(zhǔn)確推斷結(jié)果。與此同時(shí)，實(shí)現(xiàn)出色的性能功耗比依然是芯片開發(fā)者的首要目標(biāo)。這一點(diǎn)在邊緣領(lǐng)域尤為明顯，在該領(lǐng)域，為了縮小芯片尺寸并盡可能地降低功耗，性能通常會(huì)受到限制。

然而，這些限制也為半導(dǎo)體公司創(chuàng)造了新的機(jī)遇，讓半導(dǎo)體公司可以通過(guò)精確校準(zhǔn)PPA來(lái)滿足低延遲、高帶寬應(yīng)用的特定要求，從而設(shè)計(jì)出差異化芯片。例如，自主導(dǎo)航應(yīng)用要求計(jì)算響應(yīng)延遲時(shí)間限制在20μs以內(nèi)，而語(yǔ)音和視頻助手則要求能夠在10μs之內(nèi)理解語(yǔ)音關(guān)鍵詞，并在幾百毫秒內(nèi)理解手勢(shì)含義。要想成功實(shí)現(xiàn)PPA權(quán)衡，芯片開發(fā)者應(yīng)該采用整體性方法，利用端到端解決方案，從早期架構(gòu)探索到最后的黃金功耗簽核，持續(xù)優(yōu)化功耗。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

加速器

加速器

+關(guān)注

關(guān)注
2

文章
785

瀏覽量
37139
晶體管

晶體管

+關(guān)注

關(guān)注
77

文章
9499

瀏覽量
136926
人工智能

人工智能

+關(guān)注

關(guān)注
1787

文章
46060

瀏覽量
234946
RTL

RTL

+關(guān)注

關(guān)注
1

文章
384

瀏覽量
59513
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
1828

瀏覽量
34661

原文標(biāo)題：邊緣端也要跑大模型：低功耗下，高能效AI加速器如何設(shè)計(jì)？

文章出處：【微信號(hào)：Synopsys_CN，微信公眾號(hào)：新思科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

什么是神經(jīng)網(wǎng)絡(luò)加速器？它有哪些特點(diǎn)？

）和圖形處理器（GPU）雖然可以處理神經(jīng)網(wǎng)絡(luò)計(jì)算，但在能效比和計(jì)算密度上往往難以滿足特定應(yīng)用場(chǎng)景的需求。因此，神經(jīng)網(wǎng)絡(luò)加速器應(yīng)運(yùn)而生，它通過(guò)優(yōu)化硬件架構(gòu)和算法實(shí)現(xiàn)，針對(duì)神經(jīng)網(wǎng)絡(luò)計(jì)算的特點(diǎn)進(jìn)行定制化設(shè)計(jì)，以達(dá)到更高的計(jì)算效率和更低

發(fā)表于 07-11 10:40 ?246次閱讀

美國(guó)限制向中東AI加速器出口，審查國(guó)家安全

AI加速器能協(xié)助數(shù)據(jù)中心處理大量人工智能聊天機(jī)器人和其他工具的開發(fā)信息。如今，它們已然成為構(gòu)建AI基礎(chǔ)設(shè)施的企業(yè)和政府的必需品。

發(fā)表于 05-31 09:20 ?396次閱讀

芯品#MAX78002 新型AI MCU，能夠使神經(jīng)網(wǎng)絡(luò)以超低功耗運(yùn)行

人工智能(AI)需要超強(qiáng)的計(jì)算能力，而Maxim則大大降低了AI計(jì)算所需的功耗。MAX78002是一款新型的AI微控制器，使神經(jīng)網(wǎng)絡(luò)能夠在互

發(fā)表于 05-07 17:47 ?2687次閱讀

芯品#MAX78002 新型<b class='flag-5'>AI</b> MCU，能夠使神經(jīng)網(wǎng)絡(luò)以超<b class='flag-5'>低功耗</b>運(yùn)行

Arm發(fā)布新一代Ethos-U AI加速器 Arm旨在瞄準(zhǔn)國(guó)產(chǎn)CPU市場(chǎng)

Arm發(fā)布的新一代Ethos-U AI加速器確實(shí)在業(yè)界引起了廣泛關(guān)注。

發(fā)表于 04-18 15:59 ?611次閱讀

MCX N系列微處理器之NPU使用方法簡(jiǎn)析

MCX N系列是高性能、低功耗微控制器，配備智能外設(shè)和加速器，可提供多任務(wù)功能和高能效。

發(fā)表于 04-18 10:32 ?1339次閱讀

MCX N系列微處理<b class='flag-5'>器</b>之NPU使用方法簡(jiǎn)析

MCX N微處理器SmartDMA對(duì)圖像數(shù)據(jù)的定制處理實(shí)現(xiàn)

MCX N系列是高性能、低功耗微控制器，配備智能外設(shè)和加速器，可提供多任務(wù)功能和高能效。

發(fā)表于 03-28 11:42 ?977次閱讀

MCX N微處理<b class='flag-5'>器</b>SmartDMA對(duì)圖像數(shù)據(jù)的定制處理實(shí)現(xiàn)

瑞薩發(fā)布下一代動(dòng)態(tài)可重構(gòu)人工智能處理器加速器

瑞薩最新發(fā)布的動(dòng)態(tài)可重構(gòu)人工智能處理器（DRP-AI）加速器，在業(yè)界引起了廣泛關(guān)注。這款加速器擁有卓越的10 TOPS/W高功率效率，相比傳統(tǒng)技術(shù)，效率提升了驚人的10倍。其獨(dú)特之處在

發(fā)表于 03-08 13:45 ?586次閱讀

家居智能化，推動(dòng)AI加速器的發(fā)展

電子發(fā)燒友網(wǎng)報(bào)道（文/黃山明）AI加速芯片，也稱為人工智能加速器（AI Accelerator），是一種專為執(zhí)行機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)而設(shè)計(jì)的ASIC或定制化處理

發(fā)表于 02-23 00:18 ?4402次閱讀

回旋加速器原理回旋加速器的影響因素

回旋加速器（Cyclotron）是一種用于加速帶電粒子的可再生粒子加速器。它的工作原理基于帶電粒子在恒定強(qiáng)磁場(chǎng)中的運(yùn)動(dòng)。本文將詳細(xì)介紹回旋加速器的原理以及影響因素。一、回旋

發(fā)表于 01-30 10:02 ?3031次閱讀

粒子加速器的加速原理是啥呢？

高能量的目的。粒子加速器的加速原理可以分為兩個(gè)主要部分：電場(chǎng)加速和磁場(chǎng)導(dǎo)引。一、電場(chǎng)加速粒子加速器

發(fā)表于 12-18 13:52 ?1665次閱讀

ADI超低功耗人工智能(AI)MCU MAX78002介紹

、更快的CNN加速器，更高的模型維度。本視頻將介紹邊緣AI的概念、ADI邊緣AI低功耗微處理器的架構(gòu)、以及MAX78002的主要參數(shù)。

發(fā)表于 12-15 12:36 ?967次閱讀

在CCES環(huán)境下如何使用21489的IIR加速器？

在VDSP++的環(huán)境下程序已經(jīng)實(shí)現(xiàn)，但是到了CCES下，把中斷初始化函數(shù)修改了，還是無(wú)法正確配置中斷，直接返回IIR的中斷初始化失敗，請(qǐng)問(wèn)CCES下怎么使用IIR加速器？

發(fā)表于 11-30 08:20

21489的IIR加速器濾波參數(shù)設(shè)置如何對(duì)應(yīng)加速器的濾波參數(shù)？

目前在用21489內(nèi)部的IIR加速器去做一個(gè)低通濾波器，在例程的基礎(chǔ)上修改參數(shù)。通過(guò)平板的fda 工具工具去設(shè)計(jì)參數(shù)，但是設(shè)計(jì)出來(lái)的參數(shù)不知道如何對(duì)應(yīng)加速器的濾波參數(shù)，手冊(cè)里也看得不是很明白。設(shè)計(jì)的參數(shù)如下：請(qǐng)問(wèn)

發(fā)表于 11-30 08:11

PCIe在AI加速器中的作用

從線上購(gòu)物時(shí)的“猜你喜歡”、到高等級(jí)自動(dòng)駕駛汽車上的實(shí)時(shí)交通信息接收，再到在線視頻游戲，所有的這些都離不開人工智能（AI）加速器。AI加速器是一種高性能的并行計(jì)算設(shè)備，旨在高效處理神經(jīng)

發(fā)表于 11-18 10:36 ?1774次閱讀

AI芯片設(shè)計(jì)DNN加速器buffer管理策略

如前所述，數(shù)據(jù)緩存是創(chuàng)建高效DNN加速器的關(guān)鍵組件之一。因此，除了選擇適當(dāng)?shù)臄?shù)據(jù)流(控制數(shù)據(jù)緩存的位置和時(shí)間)外，DNN加速器還需要一個(gè)緩存方案

發(fā)表于 10-17 17:23 ?1190次閱讀

搜索歷史

低功耗下，高能效AI加速器如何設(shè)計(jì)？

評(píng)論

什么是神經(jīng)網(wǎng)絡(luò)加速器？它有哪些特點(diǎn)？

美國(guó)限制向中東AI加速器出口，審查國(guó)家安全

芯品#MAX78002 新型AI MCU，能夠使神經(jīng)網(wǎng)絡(luò)以超低功耗運(yùn)行

Arm發(fā)布新一代Ethos-U AI加速器 Arm旨在瞄準(zhǔn)國(guó)產(chǎn)CPU市場(chǎng)

MCX N系列微處理器之NPU使用方法簡(jiǎn)析

MCX N微處理器SmartDMA對(duì)圖像數(shù)據(jù)的定制處理實(shí)現(xiàn)

瑞薩發(fā)布下一代動(dòng)態(tài)可重構(gòu)人工智能處理器加速器

家居智能化，推動(dòng)AI加速器的發(fā)展

回旋加速器原理回旋加速器的影響因素

粒子加速器的加速原理是啥呢？

ADI超低功耗人工智能(AI)MCU MAX78002介紹

在CCES環(huán)境下如何使用21489的IIR加速器？

21489的IIR加速器濾波參數(shù)設(shè)置如何對(duì)應(yīng)加速器的濾波參數(shù)？

PCIe在AI加速器中的作用

AI芯片設(shè)計(jì)DNN加速器buffer管理策略

搜索歷史

低功耗下，高能效AI加速器如何設(shè)計(jì)？

評(píng)論

低功耗下，高能效AI加速器如何設(shè)計(jì)？