電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))邊緣計(jì)算從始至終都是一個(gè)讓業(yè)界苦思冥想的問題,與云端計(jì)算這種集中式結(jié)構(gòu)不同,邊緣計(jì)算的分布式結(jié)構(gòu)杜絕了“齊心辦大事”的可能性。而且并非將體積依然不可小視的計(jì)算服務(wù)器部署在邊緣端,就能解決邊緣計(jì)算的一切要求,尤其是在邊緣AI需求持續(xù)高漲的當(dāng)下。
根據(jù)IDC的統(tǒng)計(jì),到了2025年全球互聯(lián)設(shè)備將達(dá)到416億臺,與此同時(shí)邊緣傳感器收集的數(shù)據(jù)將達(dá)到79.4ZB。在這么龐大的量下,邊緣AI提出的要求卻是高性能、低功耗,挑戰(zhàn)確實(shí)不亞于手機(jī)SoC的開發(fā)了。即便如此,雨后春筍一般冒頭的AI芯片公司還是在挑戰(zhàn)“卷”的限度。
軟件定義的邊緣AI加速器
平時(shí)留意RISC-V動(dòng)向的小伙伴們應(yīng)該有所耳聞,3月中旬IP廠商Alphawave花了2億美元收購SiFive旗下OpenFive。然而同樣在3月,在收購之前,專注于高速連接SoC IP的OpenFive宣布了與AI初創(chuàng)公司EdgeCortix的合作,共同打造下一代的邊緣AI加速器。
在軟件定義的AI加速中,靈活度最高的還得屬通用CPU,但一談到能耗,就有些相形見絀了,與較為專一的GPU相比,從性能和能效上都有一定差距。然而GPU雖說能效高于GPU,但放在邊緣端動(dòng)輒幾百瓦的功耗又太夸張了,因此特定領(lǐng)域的AI加速器雖然犧牲了一定的靈活性,但做到了最高的能效比,也因此被邊緣AI所看重。
在這一理念下,EdgeCortix推出了動(dòng)態(tài)神經(jīng)加速器(DNA),一個(gè)運(yùn)行時(shí)可重構(gòu)的特定領(lǐng)域加速器設(shè)計(jì),用于低功耗的實(shí)時(shí)AI推理應(yīng)用,既可以部署在FPGA上,也可以部署在自研設(shè)計(jì)的ASIC芯片上。
SAKURA,正是基于該設(shè)計(jì)打造的一款高能效的邊緣AI協(xié)處理器。與部分AI芯片不一樣,SAKURA并沒有選擇5nm之類的先進(jìn)工藝,而是選擇了12nm的成熟工藝。在800MHz的頻率下,SAKURA可以達(dá)到40TOPS的算力,在多芯片組合下更是可以達(dá)到200TOPS,搭載該芯片的PCIe板卡典型功耗只有10W到15W。
SAKURA與AGX Xavier的面積對比 / EdgeCortix
只談性能不談規(guī)模是毫無意義的,AI芯片廠商最喜歡拿來對比還是英偉達(dá)的各大GPU,這不,EdgeCortix也選擇了同用臺積電12nm工藝的英偉達(dá)AGX XavierGPU來進(jìn)行對比,可以看出AGX Xavier的面積近乎是SAKURA的四倍,在算力上依然比后者低上25%,兩者能耗相差不大,但PPA上明顯是SAKURA更勝一籌。
不過這也不是實(shí)際場景的比較,我們還是拿深度學(xué)習(xí)模型的測試結(jié)果來看,由于軟件定義的特性,無論是在單芯多核和多芯的擴(kuò)展下,SAKURA的異構(gòu)計(jì)算單元都可以得到有效的利用。EdgeCortix給出了在YOLOv3這一實(shí)時(shí)物體檢測算法中的比較,在同規(guī)模的數(shù)據(jù)下SAKURA的推理耗時(shí)最高可以做到AGX Xavier的16分之一。
這倒不是說SAKURA就一定是邊緣AI的最優(yōu)解,在給出的諸多對比中,大部分是BatchSize只有1下的測試結(jié)果,這是因?yàn)镾AKURA對低BatchSize和INT8做過優(yōu)化。更何況SAKURA對標(biāo)的還是英偉達(dá)AGX Xavier、AGX Orin和高通CloudAI 100這一檔的邊緣AI芯片。
模擬與AI
不久前,筆者曾介紹了AI初創(chuàng)公司Aspinity的AML100邊緣AI芯片,主打處理傳感器輸出的模擬數(shù)據(jù),來實(shí)現(xiàn)降低功耗的作用。近日,Aspinity透露了更多這款芯片的細(xì)節(jié),并更新了一些數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)AlwaysOn方案無論是在智能手機(jī)、智能手表還是智能家居產(chǎn)品中都已經(jīng)普及,而且主打的就是低功耗,甚至低至數(shù)十uW。那么這種模擬AI芯片的優(yōu)勢又在哪呢?
傳統(tǒng)的超低功耗芯片在提及功耗時(shí),其實(shí)還是自身的功耗乃至待機(jī)時(shí)的功耗,而從傳感器和ADC再到芯片的功耗,以及整個(gè)系統(tǒng)的功耗還是沒那么容易忽略的。比如傳統(tǒng)的AlwaysOn數(shù)字處理器架構(gòu)系統(tǒng)在檢測語音事件時(shí),總功耗大概在3700uW左右,數(shù)字處理器的功耗還是占大頭。
AML100芯片和評估板 / Aspinity
而在AML100組成的AlwaysOn系統(tǒng)中,傳感器的功耗不變,而AML100可以做到40uW以下的功耗,這時(shí)由于AML100從模擬端接手了預(yù)處理和機(jī)器學(xué)習(xí)的任務(wù),ADC和數(shù)字處理器端的功耗無限約接近0uW,因此總功耗要小于140uW,將整個(gè)系統(tǒng)的功耗降低了95%以上。
AML100終究還是一個(gè)用于事件喚醒的邊緣AI芯片,面向破窗安全監(jiān)測、語音喚醒之類的AlwaysOn應(yīng)用,那么針對通用的邊緣AI應(yīng)用,它能否派上用場呢?
其實(shí)作用也是有的,AML100的定位本質(zhì)上就是一個(gè)模擬層面上的預(yù)處理,可以有效減小數(shù)據(jù)集的大小,這樣交給MCU或云端的數(shù)據(jù)會(huì)減少至多百倍,對于大部分邊緣應(yīng)用來說,處理數(shù)據(jù)的減少也近似等效于延長電池壽命了。
-
芯片
+關(guān)注
關(guān)注
453文章
50251瀏覽量
421121 -
AI
+關(guān)注
關(guān)注
87文章
29859瀏覽量
268152 -
AI芯片
+關(guān)注
關(guān)注
17文章
1851瀏覽量
34860
發(fā)布評論請先 登錄
相關(guān)推薦
評論