0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

輕量級視覺模型設(shè)計的新啟發(fā)

云天勵飛 ? 來源:云天勵飛 ? 作者:云天勵飛 ? 2022-07-28 09:33 ? 次閱讀

計算機視覺兩大門派功力合體,給移動端視覺任務(wù)減負(fù)增速。

當(dāng)下,計算機視覺領(lǐng)域最熱議的方向,莫過于近兩年越來越火的視覺Transformer(ViT)和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(ConvNet),誰才能主宰計算機視覺的未來?

風(fēng)頭正盛的ViT,是計算機視覺領(lǐng)域過去十年最矚目的研究突破之一。2020年,谷歌視覺大模型Vision Transformer(ViT)橫空出世,憑借碾壓各路ConvNet的性能表現(xiàn),一舉掀起Transformer在計算機視覺領(lǐng)域的研究熱潮。

但“ConvNet派”還沒到低頭認(rèn)輸?shù)臅r候。2022年1月,Meta AI研究院、加州大學(xué)伯克利分校的研究人員發(fā)表了卷積神經(jīng)網(wǎng)絡(luò)的“扛鼎之作”——ConvNeXt,基于純ConvNet新架構(gòu),取得了超過先進ViT的計算速度和精度。

6804b1ee-0e14-11ed-ba43-dac502259ad0.png

▲ConvNet與ViT模型圖像分類實驗結(jié)果對比

ViT論文:https://arxiv.org/abs/2010.11929

ConvNeXt論文:https://arxiv.org/abs/2201.03545

那如果將這兩類模型的優(yōu)勢互補,會不會產(chǎn)生1+1》2的效果?

近日,基于這一思路的論文《ParC-Net:繼承ConvNet和Transformer優(yōu)點的位置敏感的循環(huán)卷積》入選了計算機視覺頂會ECCV 2022,并引發(fā)國內(nèi)外廣泛關(guān)注。

這篇論文提出了一種面向移動端、融入ViT優(yōu)點的純卷積結(jié)構(gòu)模型ParC-Net,能以更小的參數(shù)量,在常見視覺任務(wù)中實現(xiàn)比主流輕量級ConvNet更好的性能。

68108d5c-0e14-11ed-ba43-dac502259ad0.png

▲ParC-Net在三種視覺任務(wù)實驗中均以更小參數(shù)量取得最佳性能表現(xiàn)

值得一提的是,論文提出一種既有全局感受野、又對位置信息保持敏感的基礎(chǔ)卷積算子ParC,它能與現(xiàn)有主流網(wǎng)絡(luò)結(jié)構(gòu)融合,兼顧模型性能和計算速度的提升,相關(guān)代碼現(xiàn)已開源。

具體是怎么實現(xiàn)的?我們聯(lián)系到論文第一作者張?zhí)栧硬┦?,并與其進行深入交流。

ParC論文:https://arxiv.org/abs/2203.03952

源代碼:https://github.com/hkzhang91/ParC-Net

01.

取ViT的三個亮點,將純卷積結(jié)構(gòu)變強

在計算機視覺領(lǐng)域,ViT模型性能彪悍,門檻和成本卻驚人,無論是龐大數(shù)據(jù)量,還是超高算力需求,都離不開“鈔能力”的支撐。

相比之下,輕量級ConvNet雖然性能難以與ViT媲美,但具有易訓(xùn)練、參數(shù)量少、計算成本低、推理速度快等優(yōu)勢,對硬件資源的需求不像ViT那么受限,可部署在各種移動或邊緣計算設(shè)備上。此前較流行的輕量級ConvNet有ShuffleNet、MobileNet、EfficientNet、TinyNet等等。

經(jīng)對比,云天勵飛的研究人員借鑒ViT的優(yōu)點,基于卷積結(jié)構(gòu)設(shè)計了一個輕量級骨干模型ParC-Net。

論文作者認(rèn)為,ViT和ConvNet有三個主要區(qū)別:ViT更擅長提取全局特征,采用meta-former結(jié)構(gòu),而且信息集成由數(shù)據(jù)驅(qū)動。ParC的設(shè)計思路便是從這三點著手來優(yōu)化ConvNet。

6826304e-0e14-11ed-ba43-dac502259ad0.png

▲普通ConvNet和ViT之間的三個主要區(qū)別。(a) ConvNet常用的Residual block;(b) ViT中常用的Meta-Former 結(jié)構(gòu);(c) 本文提出的ParC block。

具體而言,研究人員設(shè)計了一種位置信息敏感的循環(huán)卷積(Position aware circular convolution, ParC)。這是一種簡單有效的輕量卷積運算算子,既擁有像ViT類結(jié)構(gòu)的全局感受野,同時產(chǎn)生了像局部卷積那樣的位置敏感特征,能克服依賴自注意力結(jié)構(gòu)提取全局特征的問題。

ParC結(jié)構(gòu)主要包含三部分改動:1)結(jié)合circular padding和大感受野低秩分解卷積核提取全局特征;2)引入位置嵌入,保證輸出特征對于空間位置信息的敏感性;3)動態(tài)插值實時生成尺寸適配的卷積核和位置編碼,應(yīng)對輸入分辨率變化情況,這增強了對不同尺寸輸入的適應(yīng)能力。

6834f4a8-0e14-11ed-ba43-dac502259ad0.png

▲ParC結(jié)構(gòu)示例

研究人員還將ParC和squeeze exictation(SE)操作結(jié)合起來,構(gòu)建了一個純卷積結(jié)構(gòu)的meta former結(jié)構(gòu)。該結(jié)構(gòu)舍棄了自注意力硬件支持不友好的操作,但保留了傳統(tǒng)Transformer塊提取全局特征的特點。

然后,研究人員在channel mixer部分引入硬件支持較友好的通道注意力機制,使其純卷積meta former結(jié)構(gòu)也具備自注意力的特點。

基于ParC結(jié)構(gòu)最終得到的ParC塊,可作為一個即插即用的基礎(chǔ)單元,替換現(xiàn)有ViT或ConvNet模型中的相關(guān)塊,從而提升精度,并降低計算成本,有效克服硬件支持的問題。

683fad62-0e14-11ed-ba43-dac502259ad0.png

▲ParC實驗結(jié)果

02.

三大視覺任務(wù)表現(xiàn)出色 多項指標(biāo)打敗蘋果MobileViT

“據(jù)我們所知,這是第一次嘗試結(jié)合ConvNet和ViT的優(yōu)點來設(shè)計一個輕量級Pure-ConvNet的結(jié)構(gòu)。”論文作者如此描述ParC-Net的開創(chuàng)性。

實驗結(jié)果表明,在圖像分類、物體檢測、語義分割這三類常見的視覺任務(wù)中,混合結(jié)構(gòu)的模型性能表現(xiàn)普遍高于當(dāng)前主流的一些純卷積結(jié)構(gòu)、ViT結(jié)構(gòu)的模型,其中ParC-Net模型取得了最好的整體性能表現(xiàn)。

68550856-0e14-11ed-ba43-dac502259ad0.png

▲對于ImageNet-1k的圖像分類實驗結(jié)果

在圖像分類實驗中,對于ImageNet-1k的分類,ParC-Net使用的參數(shù)規(guī)模最?。ù蠹s500萬個參數(shù)),卻實現(xiàn)了最高準(zhǔn)確率78.6%。

MobileViT是蘋果公司2022年在國際深度學(xué)習(xí)頂會ICLR22上提出的輕量級通用ViT模型。同樣部署在基于Arm瑞芯微RK3288芯片上,相較基線模型MobileViT,ParC-Net節(jié)省了11%的參數(shù)和13%的計算成本,同時準(zhǔn)確率提高了0.2%,推理速度提高了23%。

6863bc5c-0e14-11ed-ba43-dac502259ad0.png

▲與基準(zhǔn)模型的推理速度對比

與基于ViT結(jié)構(gòu)的模型相比,ParC-Net的參數(shù)量只有Meta AI團隊DeiT模型參數(shù)的一半左右,準(zhǔn)確率卻比DeiT提高了2.7%。

在MS-COCO物體檢測和PASCAL VOC分割任務(wù)中,ParC-Net同樣基于較少的參數(shù),實現(xiàn)了更好的性能、更快的推理速度。

686fb822-0e14-11ed-ba43-dac502259ad0.png

▲MS-COCO物體檢測實驗結(jié)果

688845fe-0e14-11ed-ba43-dac502259ad0.png

▲PASCAL VOC分割任務(wù)實驗結(jié)果

張?zhí)栧硬┦渴荘arC-Net論文的第一作者,現(xiàn)任深圳云天勵飛資深算法研究員,研究領(lǐng)域包括網(wǎng)絡(luò)結(jié)構(gòu)搜索、深度估計、輕量化骨干模型、信息檢索及高光譜圖像分類等。

他告訴智東西,傳統(tǒng)ConvNet可以適應(yīng)視覺任務(wù)中輸入分辨率的變化,而具有全局感受野的純卷積結(jié)構(gòu)的缺陷是卷積核必須跟輸入分辨率保持一致,為了更好應(yīng)對分辨率的變化,其團隊正在研究將模型做成動態(tài)卷積的形式,以提高魯棒性。

目前這項研究成果已經(jīng)可以用在算力受限的移動端或邊緣設(shè)備中,實現(xiàn)更高準(zhǔn)確率的視覺任務(wù)。如果進行一些小的改動,ParC-Net還可以被用于其他的視覺任務(wù),例如6DOF姿態(tài)評估及其他dense prediction的任務(wù)。

03.

與自研芯片協(xié)同 運算速度可提升快3~4倍

那么ParC-Net模型的研究成果,具體如何在實際業(yè)務(wù)場景中發(fā)揮價值?

據(jù)介紹,一方面,ParC-Net模型可以集成到開源算法訓(xùn)練平臺YMIR中,然后被部署至終端設(shè)備;另一方面,通過與云天勵飛自研芯片協(xié)同,它能將運算速度和精度進一步提升。

YMIR是一個高度自動化的AI模型開發(fā)平臺,能做到利用鼠標(biāo)簡單操作就可以完成數(shù)據(jù)收集、模型訓(xùn)練、數(shù)據(jù)挖掘、數(shù)據(jù)標(biāo)注等功能。將擁有高運算效率的ParC-Net模型版本上傳至YMIR后,用戶可在該平臺上直接選用ParC-Net模型,也可以針對具體業(yè)務(wù)場景,添加相應(yīng)的數(shù)據(jù)集對ParC-Net進行再訓(xùn)練,從而獲得能更好滿足業(yè)務(wù)需求的模型。

以前有些對精度要求高或者采用ViT結(jié)構(gòu)的移動端視覺任務(wù),受限于計算效率問題,難以在攝像頭設(shè)備或手機上運行,而上傳到云端做運算,對有較高實時性要求的視覺任務(wù)不是很友好。

ParC-Net則較好地改善了這類問題,在模型精度和推理效率之間實現(xiàn)平衡,使得邊緣設(shè)備可以在本地運行一些對精度要求高的視覺任務(wù)。比如,人臉識別終端設(shè)備可運用ParC-Net直接對路過的人進行高質(zhì)量特征值提取,無需將數(shù)據(jù)傳輸?shù)皆贫耍湍芘c數(shù)據(jù)庫進行檢索比對。

與云天勵飛自研芯片搭配后,ParC-Net模型的性能表現(xiàn)還能再上一個臺階。

張?zhí)栧硬┦空劦?,其團隊考慮到軟硬件設(shè)計協(xié)同問題,在研發(fā)之初參考了云天勵飛自研芯片工具鏈的設(shè)計及算子支持情況,然后進行模型網(wǎng)絡(luò)結(jié)構(gòu)及算子的設(shè)計,以更好地發(fā)揮出芯片算力。

研究人員將ParC-Net和基線模型MobileVit均部署到自研低功耗芯片DP上進行推理速度測試。從實驗結(jié)果可以看到,ParC-Net的推理速度能夠達(dá)到MobileViT速度的3~4倍。

68938162-0e14-11ed-ba43-dac502259ad0.png

▲與基準(zhǔn)模型在不同芯片平臺上的推理速度對比

這也是研究團隊決定選擇基于純卷積結(jié)構(gòu)來設(shè)計ParC-Net的原因之一。ConvNet已經(jīng)統(tǒng)治計算機視覺領(lǐng)域十年之久,而ViT在這一領(lǐng)域興起時間較短,很多現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器、硬件優(yōu)化策略,都是圍繞卷積結(jié)構(gòu)設(shè)計。因此部署在移動端時,純ConvNet往往能比ViT享有更好的軟硬件及工具鏈支持,并實現(xiàn)更快的推理速度。

即便搭載在對支持ViT更友好的芯片上,張?zhí)栧硬┦空f,ParC-Net依然能取得比現(xiàn)有其他混合模型更好的性能表現(xiàn)。

絕大多數(shù)視覺任務(wù)可以分為兩類:一類對位置信息不敏感,如圖像分類等;另一類對位置信息較敏感,如物體檢測、3D姿態(tài)估計、AR試穿等。對于這些視覺任務(wù),無論用在智能門禁、手機識圖還是自動駕駛汽車的攝像頭,ParC-Net都能夠發(fā)揮出其兼顧模型精度和計算效率的優(yōu)勢,并且不會受部署終端設(shè)備配置的限制。

04.

結(jié)語:輕量級視覺模型設(shè)計的新啟發(fā)

當(dāng)前ViT與ConvNet兩大研究方向在計算機視覺領(lǐng)域旗鼓相當(dāng),ViT在學(xué)術(shù)界四處屠榜,ConvNet則在工業(yè)界主導(dǎo)地位難以撼動,將兩者融合的相關(guān)研究也如雨后春筍般涌現(xiàn)。

此次入選ECCV頂會的ParC-Net模型,既顧及邊緣設(shè)備對模型規(guī)模的限制,基于純卷積結(jié)構(gòu),確保其具備易訓(xùn)練、易部署、推理效率高、硬件更友好等特點,又吸納了ViT的設(shè)計特征,實現(xiàn)比其他ConvNet模型更高的精度。這可以給移動端視覺任務(wù)的模型設(shè)計帶來一些啟發(fā)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4717

    瀏覽量

    100004
  • 計算機視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1685

    瀏覽量

    45811
  • 輕量級
    +關(guān)注

    關(guān)注

    0

    文章

    16

    瀏覽量

    7239

原文標(biāo)題:媒體關(guān)注丨云天勵飛論文入選ECCV2022,提出輕量級視覺模型新架構(gòu)

文章出處:【微信號:IntelliFusion2,微信公眾號:云天勵飛】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    電裝與京瓷合作開展輕量級太陽能發(fā)電系統(tǒng)實證實驗

    株式會社電裝(以下簡稱電裝)與京瓷株式會社(以下簡稱京瓷)共同宣布,為提高現(xiàn)有工廠自發(fā)電率,將從2024年10月到2025年9月在電裝的西尾工廠進行輕量級太陽能發(fā)電系統(tǒng)的實證實驗。
    的頭像 發(fā)表于 08-16 16:36 ?385次閱讀

    國產(chǎn)芯上運行TinyMaxi輕量級的神經(jīng)網(wǎng)絡(luò)推理庫-米爾基于芯馳D9國產(chǎn)商顯板

    是面向單片機的超輕量級的神經(jīng)網(wǎng)絡(luò)推理庫,即 TinyML 推理庫,可以讓你在任意單片機上運行輕量級深度學(xué)習(xí)模型~ 開源地址:https://github.com/sipeed/TinyMaix搭建
    發(fā)表于 08-09 18:26

    國產(chǎn)芯上運行TinyMaxi輕量級的神經(jīng)網(wǎng)絡(luò)推理庫-米爾基于芯馳D9國產(chǎn)商顯板

    D9360國產(chǎn)開發(fā)板)的TinyMaxi輕量級的神經(jīng)網(wǎng)絡(luò)推理庫方案測試。 算力測試 TinyMaix 是面向單片機的超輕量級的神經(jīng)網(wǎng)絡(luò)推理庫,即 TinyML 推理庫,可以讓你在任意單片機上運行輕量級深度
    發(fā)表于 08-07 18:06

    鴻蒙語言基礎(chǔ)類庫:ohos.data.storage 輕量級存儲

    輕量級存儲為應(yīng)用提供key-value鍵值型的文件數(shù)據(jù)處理能力,支持應(yīng)用對數(shù)據(jù)進行輕量級存儲及查詢。數(shù)據(jù)存儲形式為鍵值對,鍵的類型為字符串型,值的存儲數(shù)據(jù)類型包括數(shù)字型、字符型、布爾型。
    的頭像 發(fā)表于 07-15 18:21 ?782次閱讀

    國產(chǎn)芯上運行TinyMaxi輕量級的神經(jīng)網(wǎng)絡(luò)推理庫-米爾基于芯馳D9國產(chǎn)商顯板

    TinyMaix是面向單片機的超輕量級的神經(jīng)網(wǎng)絡(luò)推理庫,即TinyML推理庫,可以讓你在任意單片機上運行輕量級深度學(xué)習(xí)模型~開源地址:https://github.com/s
    的頭像 發(fā)表于 07-05 08:02 ?1708次閱讀
    國產(chǎn)芯上運行TinyMaxi<b class='flag-5'>輕量級</b>的神經(jīng)網(wǎng)絡(luò)推理庫-米爾基于芯馳D9國產(chǎn)商顯板

    消息稱蘋果正在研發(fā)輕量級AR眼鏡

    在科技巨頭們競相探索未來穿戴設(shè)備的浪潮中,蘋果公司的一則消息引起了業(yè)界的廣泛關(guān)注。據(jù)多家媒體報道,蘋果正在秘密研發(fā)一款名為“Apple Glass”的輕量級增強現(xiàn)實(AR)眼鏡,這款眼鏡旨在為用戶
    的頭像 發(fā)表于 06-24 11:34 ?610次閱讀

    部署在邊緣設(shè)備上的輕量級模型

    的地方進行智能決策和數(shù)據(jù)處理。 ? 邊緣AI 算法通常是經(jīng)過優(yōu)化和壓縮的輕量級模型 ? 邊緣AI算法的工作原理涉及三個關(guān)鍵要素:終端設(shè)備、邊緣計算和人工智能算法。終端設(shè)備收集到的數(shù)據(jù)被認(rèn)為是邊緣數(shù)據(jù),需要進行實時處理和分析。邊緣
    的頭像 發(fā)表于 05-11 00:17 ?2454次閱讀

    深度詳解嵌入式系統(tǒng)專用輕量級框架設(shè)計

    MR 框架是專為嵌入式系統(tǒng)設(shè)計的輕量級框架。充分考慮了嵌入式系統(tǒng)在資源和性能方面的需求。通過提供標(biāo)準(zhǔn)化的設(shè)備管理接口,極大簡化了嵌入式應(yīng)用開發(fā)的難度,幫助開發(fā)者快速構(gòu)建嵌入式應(yīng)用程序。
    發(fā)表于 04-27 02:32 ?697次閱讀
    深度詳解嵌入式系統(tǒng)專用<b class='flag-5'>輕量級</b>框架設(shè)計

    未來輕量級深度學(xué)習(xí)技術(shù)探索

    除了輕量級架構(gòu)設(shè)計外,作者提到了可以應(yīng)用于壓縮給定架構(gòu)的各種高效算法。例如,量化方法 旨在減少數(shù)據(jù)所需的存儲空間,通常是通過用8位或16位數(shù)字代替32位浮點數(shù),甚至使用二進制值表示數(shù)據(jù)。
    發(fā)表于 04-23 15:54 ?294次閱讀
    未來<b class='flag-5'>輕量級</b>深度學(xué)習(xí)技術(shù)探索

    百度智能云推出全新輕量級模型

    在近日舉辦的百度智能云千帆產(chǎn)品發(fā)布會上,三款全新的輕量級模型——ERNIE Speed、ERNIE Lite以及ERNIE Tiny,引起了業(yè)界的廣泛關(guān)注。相較于傳統(tǒng)的千億級別參數(shù)大模型,這些
    的頭像 發(fā)表于 03-22 10:28 ?515次閱讀

    百度智能云發(fā)布三款輕量級模型和兩款特定場景大模型

    百度智能云在千帆產(chǎn)品發(fā)布會上震撼推出了一系列創(chuàng)新產(chǎn)品,其中包括三款輕量級模型:ERNIE Speed、ERNIE Lite和ERNIE Tiny,以及兩款專為特定場景打造的ERNIE
    的頭像 發(fā)表于 03-22 10:28 ?499次閱讀

    輕量級數(shù)據(jù)庫有哪些類型

    輕量級數(shù)據(jù)庫是指具有小巧、靈活、高效的特點,適用于小規(guī)模項目和嵌入式設(shè)備的數(shù)據(jù)庫管理系統(tǒng)。下面是對輕量級數(shù)據(jù)庫類型的詳細(xì)介紹,包括關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫等等。 關(guān)系型數(shù)據(jù)庫
    的頭像 發(fā)表于 12-20 11:29 ?1015次閱讀

    Linux輕量級工具集合Busybox的特點和使用

    Busybox是一個開源的、輕量級的軟件工具集合,旨在提供一個精簡的Unix工具集,適用于嵌入式系統(tǒng)和資源受限的環(huán)境。它將許多常用的Unix工具(如ls、cp、cat、mv、grep、find、telnet等)合并為一個可執(zhí)行文件,從而減少了系統(tǒng)的存儲空間和資源占用。
    的頭像 發(fā)表于 11-10 09:50 ?1211次閱讀

    Mara-pipelines:輕量級的數(shù)據(jù)轉(zhuǎn)換框架

    Mara-pipelines 是一個輕量級的數(shù)據(jù)轉(zhuǎn)換框架,具有透明和低復(fù)雜性的特點。其他特點如下: 基于非常簡單的Python代碼就能完成流水線開發(fā)。 使用 PostgreSQL 作為數(shù)據(jù)處理引擎
    的頭像 發(fā)表于 10-30 10:47 ?467次閱讀
    Mara-pipelines:<b class='flag-5'>輕量級</b>的數(shù)據(jù)轉(zhuǎn)換框架

    一個輕量級的權(quán)限認(rèn)證框架:Sa-Token

    Java有很多優(yōu)秀的權(quán)限認(rèn)證框架,如 Apache Shiro 、 Spring Security 等,但是集成起來實在是有些復(fù)雜;今天給大家介紹一個輕量級的權(quán)限認(rèn)證框架:Sa-Token,只需引入
    的頭像 發(fā)表于 09-30 16:46 ?1560次閱讀
    一個<b class='flag-5'>輕量級</b>的權(quán)限認(rèn)證框架:Sa-Token