在AI芯片或神經(jīng)加速處理器(Neural Network Processing Unit, NPU或Deep Learning Accelerator, DLA)領(lǐng)域中,大家也都說自家的芯片世界最棒,對手看不到車尾燈,難道沒有一個較為公正衡量芯片運行(推論)效能,就像手機跑分軟件一樣,讓大家比較信服的基準嗎?
其實在AI芯片領(lǐng)域中所謂的「效能」,可能因關(guān)心的重點不同而會有不同定義和解讀。分別可從硬件每秒可執(zhí)行乘加的次數(shù)(又可細分FP32,FP16及INT8等)、對于特定模型在指定推論精度下每秒可執(zhí)行次數(shù)或推論一次所需時間(包含有無模型優(yōu)化處理)、特定模型推論功耗(推論一次耗費焦耳數(shù))、每瓦特可執(zhí)行乘加指令次數(shù)及其它特定規(guī)范時的表現(xiàn),甚至有用每塊美金獲得算力來當成基準。所以常會遇到誰也不服誰,老王賣瓜自賣自夸的現(xiàn)象。
目前較被大家接受的就是ML Commons所提出的MLPerf規(guī)范,其中包含訓(xùn)練及推論兩大項,而推論部份又可細分為數(shù)據(jù)中心(Datacenter)、邊緣(Edge)、行動(Mobile)及微型(Tiny,大多為MCU)。前不久(2023/6/27)才剛公布了Tiny v1.1測試結(jié)果報告,接下來就幫大家解讀一下這份報告,讓大家能更了解未來單芯片運行AI的方向及可行性。
評測場景及項目
目前ML Commons在Tiny部份先前已經(jīng)過三輪(v0.5, v0.7, v1.0)測試,此次公布的是v1.1結(jié)果。測試時分為封閉(Closed)及開放(Open)型式,前者依官方規(guī)范測,而后者廠商可提出依自己規(guī)范測試更優(yōu)的結(jié)果,不過不是每輪評測都會有開放型式。
目前主要評測項目如Fig.1 所示,共有四個項目,包含關(guān)鍵詞偵測(Keyword Spoting, KS)、視覺喚醒字(Visual Wake Words, VW)、影像分類(Image Classification, IC)及異常偵測(Anomaly Detection, AD)。而每個項目都是采單串流數(shù)據(jù)(Single Stream)方式進行,即推論完一筆再取下一筆進行推論。依照不同項目,分別使用對應(yīng)的數(shù)據(jù)集和模型,并在指定的推論質(zhì)量下進行評量。
Fig.1 MLPerf v1.1 工作場景及效能評量項目
參與評測公司、硬件及軟件
本次參與評測的項目共有32項,以下依不同項目分別介紹。
參與評測公司:共有10家,Krai, Nuvoton(新唐科技), STMicroelectronics(簡稱STM), Skymizer(臺灣發(fā)展軟件科技), cTuning, fpgaconvnet, Plumerai, Syntiant, Robert Bosh GmbH, kai-jiang(個人)。
參與評測開發(fā)板:共有14種,規(guī)格下如下所示。
STM NUCLEO-H7A3ZI-Q, Arm Cortex-M7(DSP+FPU) @280MHz
STM NUCLEO-L4R5ZI, Arm Cortex-M4(DSP+FPU) @120MHz
STM NUCLEO-U575ZI-Q, Arm Cortex-M33(DSP+FPU) @160MHz
STM NUCLEO-G0B1RE, Arm Cortex-M0+ @64MHz
STM DISCO-F746NG, Arm Cortex-M7(DSP+FPU) @216MHz
Nordic nRF5340 DK, Arm Cortex-M33(DSP+FPU) @128MHz
Nuvoton NUMAKER-M467HJ, Arm Cortex-M4F @200MHz
DIGILENT Cora Z7, Arm Cortex-A9 @667MHz
DIGILENT ZC706, Arm Cortex-A9 @650MHz
DIGILENT ZedBoard, Arm Cortex-A9 @650MHz
DIGILENT ZyBo, Arm Cortex-A9 @650MHz
Infineon CY8CPROTO-062-4343W, Arm Cortex-M4 (DSP + FPU) @150MHz
Syntiant NDP9120, HiFi3+M0 @30.7MHz/98.7MHz
ZCU106, RISC-V @20MHz
主要CPU規(guī)格:共有7大類。只有1項使用RISC-V,1項為MCU+NPU,其余皆是Arm Based。Cortex-M為單芯片(MCU)等級,Cortex-A為微處理器(MPU)等級芯片,用于手機或單板微電腦。
Arm Cortex-M0+ (1項)
Arm Cortex-M33 (4項)
Arm Cortex-M4/M4F (13項)
Arm Cortex-M7 (7項)
Arm Cortex-A9 (4項)
Syntiant HiFi3+M0 (2項)
RISC-V (1項)
主要軟件及函式庫:共有9種。
Skymizer ONNC
MicroTVM
Plumerai Inference Engine
Bosch Hardware-Aware Lowering Engine(HALE)
STM X-CUBE-AI
fpgaConvNet(Model+Optimiser)
Arm CMSIS-5
TVM
評測結(jié)果:
由于芯片等級落差頗大,單從推論時間(毫秒ms)及能耗(微焦耳uJ 比較可能會有點不公平,所以這里依CPU等級及工作頻率來分會更清楚些。Fig. 2分別列出各等級中推論速度表現(xiàn)最好的。
Fig.2 MLPerf Tiny v1.1各等級CPU及不同應(yīng)用表現(xiàn)最佳清單。
另外從此次提交的項目亦可看出Arm Cortex-M4已成為TinyML的主流,若推論仍不夠快時,則可再提升到Cortex-M7。而新上市的Cortex-M33效能已高過Cortex-M4,略低于Cortex-M7,讓使用者有多一點性價比的選擇空間。
小結(jié)
在邊緣智能(Edge AI)裝置及智能物聯(lián)網(wǎng)(AIoT)應(yīng)用中使用單芯片(MCU)來運行AI(TinyML)已是現(xiàn)在進行式,透過此次的評比結(jié)果,可讓大家更了解各家芯片性能及模型優(yōu)化工具的進展,未來隨著MCU+NPU的普及,相信下一次的評比結(jié)果可能就有更大躍升,就讓大家一起期待吧!
審核編輯:劉清
-
ARM處理器
+關(guān)注
關(guān)注
6文章
360瀏覽量
41634 -
MPU
+關(guān)注
關(guān)注
0文章
340瀏覽量
48701 -
Cortex-M4
+關(guān)注
關(guān)注
6文章
89瀏覽量
46494 -
加速處理器
+關(guān)注
關(guān)注
0文章
8瀏覽量
6436 -
AI芯片
+關(guān)注
關(guān)注
17文章
1851瀏覽量
34860
原文標題:TinyML (MCU AI) 運行效能誰說了算?
文章出處:【微信號:易心Microbit編程,微信公眾號:易心Microbit編程】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論