0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Plumerai利用Arm Helium矢量擴(kuò)展技術(shù)加速人員檢測神經(jīng)網(wǎng)絡(luò)

Arm社區(qū) ? 來源:Arm社區(qū) ? 2024-09-14 09:39 ? 次閱讀

概述

目前,視覺應(yīng)用在物聯(lián)網(wǎng)發(fā)展領(lǐng)域備受關(guān)注。不論是可視門鈴、會(huì)議室監(jiān)控、家庭安全攝像頭或者是智能零售應(yīng)用,諸多創(chuàng)新型公司紛紛借助人工智能 (AI) 和機(jī)器學(xué)習(xí) (ML) 技術(shù),大力開發(fā)經(jīng)濟(jì)高效的成像解決方案。對(duì)于這一領(lǐng)域的開發(fā)者來說,提高準(zhǔn)確性和效率變得越來越重要。

簡介

Plumerai 總部位于倫敦,專注于在小型嵌入式設(shè)備上高效地執(zhí)行復(fù)雜的 AI 輔助計(jì)算機(jī)視覺任務(wù),諸如人員檢測,包括可識(shí)別熟悉的面孔、車輛和寵物。Plumerai 工程師開發(fā)了一個(gè)實(shí)時(shí)人員檢測應(yīng)用程序,并將其移植到了基于 Arm Cortex-M85 的瑞薩 RA8D1 微控制器 (MCU) 上運(yùn)行,從而利用 Arm Helium 矢量擴(kuò)展技術(shù),加速神經(jīng)網(wǎng)絡(luò),通過少量的系統(tǒng)資源便可實(shí)現(xiàn)每秒 13 幀的高性能。

挑戰(zhàn)

在資源受限的嵌入式設(shè)備上運(yùn)行基于神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺任務(wù)(例如人員檢測)頗具挑戰(zhàn)性。此類應(yīng)用程序需具備高計(jì)算性能和低內(nèi)存占用。

傳統(tǒng)上,微控制器不支持 SIMD (單指令多數(shù)據(jù)) 指令,無法實(shí)現(xiàn)并行處理和性能的提升。引入 Helium 矢量擴(kuò)展(也稱為 Cortex-M 矢量擴(kuò)展技術(shù),MVE)可以有效彌補(bǔ)這一欠缺。

將所有數(shù)據(jù)都保留在設(shè)備端,而不依賴于云連接,以保障用戶隱私性并增強(qiáng)解決方案的安全性。

解決方案

Plumerai 利用 Cortex-M85 上的 Helium 矢量擴(kuò)展來加速其人員檢測神經(jīng)網(wǎng)絡(luò)。

Plumerai 構(gòu)建緊湊型神經(jīng)網(wǎng)絡(luò)的方法涉及到垂直整合,需同時(shí)考慮所有 AI 層。換句話說,他們并不是將數(shù)據(jù)、模型、訓(xùn)練、推理和硬件分開來處理。這種整體方法對(duì)于能效而言至關(guān)重要。

Plumerai 的方法不僅關(guān)注模型架構(gòu),這只是整個(gè)處理過程的一部分,在此基礎(chǔ)上,還要考慮如何將組件與數(shù)據(jù)緊密地聯(lián)系在一起。數(shù)據(jù)對(duì)于小型神經(jīng)網(wǎng)絡(luò)來說至關(guān)重要,因此收集、整理和正確標(biāo)記訓(xùn)練數(shù)據(jù)非常關(guān)鍵。

鑒于 Arm 技術(shù)在市場的應(yīng)用普及性和豐富廣泛的生態(tài)系統(tǒng),Plumerai 選用了 Arm 架構(gòu)。通過在 Cortex-M MCU 上運(yùn)行軟件,Plumerai 實(shí)現(xiàn)了穩(wěn)定的圖像捕捉性能,每秒可捕捉 2-5 幀。當(dāng)采用 Cortex-M85 Helium 擴(kuò)展的高性能 RA8x1 MCU 面向市場時(shí),他們表現(xiàn)出了濃厚的興趣。

Helium 是 Cortex-M 系列處理器的矢量擴(kuò)展,可以為執(zhí)行 AI 和 ML 工作負(fù)載的小型節(jié)能設(shè)備提供增強(qiáng)性能。Helium 包含硬件和軟件優(yōu)化,有助于在 Cortex-M 處理器上更快地執(zhí)行神經(jīng)網(wǎng)絡(luò)模型,使其適用于各種應(yīng)用,包括智能傳感器、物聯(lián)網(wǎng)設(shè)備、可穿戴設(shè)備等

他們借助 Helium 更寬的矢量寄存器和增強(qiáng)型點(diǎn)積 EDP 等新的 SIMD 指令,加速卷積和矩陣乘法等關(guān)鍵神經(jīng)網(wǎng)絡(luò)層。

Plumerai 的優(yōu)化推理引擎在性能最大化方面也發(fā)揮了關(guān)鍵作用。經(jīng)測量,它比在采用 Helium 技術(shù)的微控制器上運(yùn)行 TensorFlow Lite 推理模型的速度快 3.5 倍。得益于 Helium 的加速能力,Plumerai 將人員檢測的工作速度提高了 4 倍;在運(yùn)行速度僅為 480 Mhz 基于 Cortex-M85 的 RA8D1 MCU 上,其性能提升到了 13 幀率 (FPS)。

wKgaombk6W2ARMnwAACkHMxYdeg165.jpg

這不僅提高了成像速度,還提升了準(zhǔn)確率,進(jìn)而為人員統(tǒng)計(jì)等新應(yīng)用帶來了全新可能。此外,它還可降低整體系統(tǒng)功耗:更高的幀速率意味著更快地捕捉和分析幀數(shù)。因此,如果幀中沒有檢測到人員,系統(tǒng)便可以更快地進(jìn)入休眠狀態(tài)。

Plumerai 能夠在配備基于 Cortex-M85 的 RA8D1 MCU 的瑞薩評(píng)估板上實(shí)現(xiàn)這一點(diǎn),且僅需占用 300 KB RAM (隨機(jī)存取存儲(chǔ)器)。對(duì)于較為復(fù)雜的 AI 視覺任務(wù),整個(gè)可執(zhí)行二進(jìn)制文件的大小僅為 1.5 MB。RA8D1 MCU 具備 2MB 閃存、1MB 片上 SRAM 存儲(chǔ)器以及 16 位攝像頭接口,無需任何外部存儲(chǔ)器或其他組件即可打造高質(zhì)量的人員檢測全面解決方案,并且能夠應(yīng)對(duì)遮擋、不同姿勢和照明不佳等棘手情況。除此之外,Plumerai 還能夠?qū)崿F(xiàn)公司的一大關(guān)鍵用戶目標(biāo),即提供隱私友好的解決方案,可以完全在設(shè)備端運(yùn)行,無需云端處理。因此不會(huì)在云端存儲(chǔ)或傳輸任何圖像。

此外,公司還構(gòu)建了自己的優(yōu)化推理引擎和框架,并被 ML Commons 聯(lián)盟評(píng)為全球最快的推理引擎及框架。

結(jié)論

Helium 矢量擴(kuò)展助力 Plumerai 在資源受限的嵌入式設(shè)備上打造高性能計(jì)算機(jī)視覺應(yīng)用。相關(guān)實(shí)現(xiàn)方案既展示了 Helium 的出色能力,也為其他從事嵌入式 AI 工作負(fù)載的開發(fā)者提供了參考模型。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微控制器
    +關(guān)注

    關(guān)注

    48

    文章

    7334

    瀏覽量

    150080
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    8965

    瀏覽量

    364991
  • 物聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    2894

    文章

    43264

    瀏覽量

    366326
  • 嵌入式設(shè)備
    +關(guān)注

    關(guān)注

    0

    文章

    109

    瀏覽量

    16903

原文標(biāo)題:案例分享 | Plumerai 借助 Arm Helium 矢量擴(kuò)展在嵌入式設(shè)備上實(shí)現(xiàn)人員檢測

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    神經(jīng)網(wǎng)絡(luò)解決方案讓自動(dòng)駕駛成為現(xiàn)實(shí)

    學(xué)習(xí)技術(shù)無疑為其指明了道路。以知名品牌為首的汽車制造業(yè)正在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)上進(jìn)行投資,并向先進(jìn)的計(jì)算企業(yè)、硅谷等技術(shù)引擎及學(xué)術(shù)界看齊。在中國,百度一直在此技術(shù)上保持領(lǐng)先。百度計(jì)劃在
    發(fā)表于 12-21 17:11

    基于BP神經(jīng)網(wǎng)絡(luò)的手勢識(shí)別系統(tǒng)

      摘 要:本文給出了采用ADXL335加速度傳感器來采集五個(gè)手指和手背的加速度三軸信息,并通過ZigBee無線網(wǎng)絡(luò)傳輸來提取手勢特征量,同時(shí)利用BP
    發(fā)表于 11-13 16:04

    【PYNQ-Z2申請(qǐng)】基于PYNQ的卷積神經(jīng)網(wǎng)絡(luò)加速

    項(xiàng)目名稱:基于PYNQ的卷積神經(jīng)網(wǎng)絡(luò)加速試用計(jì)劃:申請(qǐng)理由:本人研究生在讀,想要利用PYNQ深入探索卷積神經(jīng)網(wǎng)絡(luò)的硬件加速,在PYNQ上實(shí)現(xiàn)
    發(fā)表于 12-19 11:37

    如何設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法?

    神經(jīng)網(wǎng)絡(luò)的并行特點(diǎn),而且它還可以根據(jù)設(shè)計(jì)要求配置硬件結(jié)構(gòu),例如根據(jù)實(shí)際需要,可靈活設(shè)計(jì)數(shù)據(jù)的位寬等。隨著數(shù)字集成電路技術(shù)的飛速發(fā)展,F(xiàn)PGA芯片的處理能力得到了極大的提升,已經(jīng)完全可以承擔(dān)神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)壓縮
    發(fā)表于 08-08 06:11

    怎么設(shè)計(jì)ARM神經(jīng)網(wǎng)絡(luò)處理器的通信方案?

    人工神經(jīng)網(wǎng)絡(luò)在很多領(lǐng)域得到了很好的應(yīng)用,尤其是具有分布存儲(chǔ)、并行處理、自學(xué)習(xí)、自組織以及非線性映射等特點(diǎn)的網(wǎng)絡(luò)應(yīng)用更加廣泛。嵌入式便攜設(shè)備也越來越多地得到應(yīng)用,多數(shù)是基于ARM內(nèi)核及現(xiàn)場可編程門陣列
    發(fā)表于 09-20 06:15

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測的計(jì)算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)化輸入變量權(quán)重的層,以提高模型的預(yù)測
    發(fā)表于 07-12 08:02

    基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

    最近在學(xué)習(xí)電機(jī)的智能控制,上周學(xué)習(xí)了基于單神經(jīng)元的PID控制,這周研究基于BP神經(jīng)網(wǎng)絡(luò)的PID控制。神經(jīng)網(wǎng)絡(luò)具有任意非線性表達(dá)能力,可以通過對(duì)系統(tǒng)性能的學(xué)習(xí)來實(shí)現(xiàn)具有最佳組合的PID控制。利用
    發(fā)表于 09-07 07:43

    基于深度神經(jīng)網(wǎng)絡(luò)的激光雷達(dá)物體識(shí)別系統(tǒng)

    的激光雷達(dá)物體識(shí)別技術(shù)一直難以在嵌入式平臺(tái)上實(shí)時(shí)運(yùn)行。經(jīng)緯恒潤經(jīng)過潛心研發(fā),攻克了深度神經(jīng)網(wǎng)絡(luò)在嵌入式平臺(tái)部署所面臨的算子定制與加速、量化策略、模型壓縮等難題,率先實(shí)現(xiàn)了高性能激光檢測
    發(fā)表于 12-21 07:59

    隱藏技術(shù): 一種基于前沿神經(jīng)網(wǎng)絡(luò)理論的新型人工智能處理器

    隱藏技術(shù): 一種基于前沿神經(jīng)網(wǎng)絡(luò)理論的新型人工智能處理器 Copy東京理工大學(xué)的研究人員開發(fā)了一種名為“ Hiddenite”的新型加速器芯片,該芯片可以在計(jì)算稀疏“隱藏
    發(fā)表于 03-17 19:15

    請(qǐng)問一下fpga加速神經(jīng)網(wǎng)絡(luò)為什么要用arm核呢

    請(qǐng)問一下fpga加速神經(jīng)網(wǎng)絡(luò)為什么要用arm核呢?用其他的不行嗎
    發(fā)表于 07-25 14:37

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于圖像分類、目標(biāo)檢測、語義分割以及自然語言處理等領(lǐng)域。首先分析了典型卷積神經(jīng)網(wǎng)絡(luò)模型為提高其性能增加網(wǎng)絡(luò)深度以及寬度的模型結(jié)構(gòu),分析了采用注意力機(jī)制進(jìn)一步提升模型性
    發(fā)表于 08-02 10:39

    ARM Cortex-M系列芯片神經(jīng)網(wǎng)絡(luò)推理庫CMSIS-NN詳解

    1、ARM Cortex-M系列芯片神經(jīng)網(wǎng)絡(luò)推理庫CMSIS-NN詳解CMSIS-NN是用于ARM Cortex-M系列的芯片的神經(jīng)網(wǎng)絡(luò)推理庫,用于低性能芯片/架構(gòu)的
    發(fā)表于 08-19 16:06

    Arm Helium技術(shù)手冊(cè)

    本指南介紹了Arm Helium技術(shù),這是m -剖面矢量擴(kuò)展(MVE)Arm Cortex-M系
    發(fā)表于 08-02 08:27

    什么是Arm Helium矢量處理技術(shù)?

    ArmArm Cortex-M 處理器帶來增強(qiáng)機(jī)器學(xué)習(xí) (ML) 和數(shù)字信號(hào)處理 (DSP) 能力的技術(shù) —— Arm? Helium
    發(fā)表于 09-26 14:28 ?1500次閱讀

    Arm Helium技術(shù)誕生的由來 為何不直接采用Neon?

    經(jīng)過 Arm 研究團(tuán)隊(duì)多年的不懈努力,Arm 于 2019 年推出了適用于 Armv8?M 架構(gòu)的 Arm Cortex-M 矢量擴(kuò)展
    的頭像 發(fā)表于 02-29 17:01 ?1613次閱讀
    <b class='flag-5'>Arm</b> <b class='flag-5'>Helium</b><b class='flag-5'>技術(shù)</b>誕生的由來 為何不直接采用Neon?