0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Apple提出FastViT:快速卷積和Transformer混合架構(gòu)

CVer ? 來源:極市平臺(tái) ? 2023-09-20 17:12 ? 次閱讀

導(dǎo)讀

本文提出了一種通用的 CNN 和 Transformer 混合的視覺基礎(chǔ)模型,移動(dòng)設(shè)備和 ImageNet 數(shù)據(jù)集上的精度相同的前提下,F(xiàn)astViT 比 CMT 快3.5倍,比 EfficientNet 快4.9倍,比 ConvNeXt 快1.9倍

太長不看版

本文是 MobileOne 原班人馬打造,可以看做是 MobileOne 的方法在 Transformer 上的一個(gè)改進(jìn)型的應(yīng)用。作者取名 FastViT,是一種 CNN,Transformer 混合架構(gòu)的低延時(shí)模型。作者引入了一種新的 token mixer,叫做 RepMixer,它使用結(jié)構(gòu)重新參數(shù)化技術(shù),通過刪除網(wǎng)絡(luò)中的 Shortcut 來降低內(nèi)存訪問成本。

進(jìn)一步使用大核卷積使得 FastViT 精度得到提升,而且不怎么影響延時(shí)。在移動(dòng)設(shè)備和 ImageNet 數(shù)據(jù)集上的精度相同的前提下,F(xiàn)astViT 比 CMT 快3.5倍,比 EfficientNet 快4.9倍,比 ConvNeXt 快1.9倍。在類似的延遲下,F(xiàn)astViT 在 ImageNet 上獲得的 Top-1 準(zhǔn)確率比 MobileOne 高 4.2%,是一種極具競爭力的混合架構(gòu)模型。

1 FastViT:快速卷積 Transformer 的混合視覺架構(gòu)

論文名稱:FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

f9052922-5773-11ee-939d-92fbcf53809c.png

在CVer微信公眾號(hào)后臺(tái)回復(fù):FastViT,可以下載本論文pdf、代碼

論文:https://arxiv.org/pdf/2303.14189

代碼:https://github.com/apple/ml-fastvit

1.1 背景和動(dòng)機(jī)

本文的目標(biāo)是做一個(gè)卷積,Attention 的低延時(shí)混合架構(gòu),因?yàn)檫@種架構(gòu)有效地結(jié)合了 CNN 和 Transformer 的優(yōu)勢,在多個(gè)視覺任務(wù)上有競爭力。本文的目標(biāo)是建立一個(gè)模型,實(shí)現(xiàn) SOTA 的精度-延時(shí) Trade-off。

本文的出發(fā)點(diǎn)是最近的像 CMT[1],LIT[2]等 CNN 和 Transformer 混合架構(gòu)的模型都遵循 MetaFormer[3] 的架構(gòu),它由帶有 skip-connection 的 token mixer 和帶有 skip-connection 的前饋網(wǎng)絡(luò) (Feed Forward Network) 組成。由于增加了內(nèi)存訪問成本 (memory access cost),這些跳過連接在延遲方面占了很大的開銷。為了解決這個(gè)延遲開銷,本文提出 RepMixer,這是一個(gè)完全可以重參數(shù)化的令牌混合器,它的特點(diǎn)1是使用結(jié)構(gòu)重參數(shù)化來刪除 skip-connection。

RepMixer 的特點(diǎn)2是在訓(xùn)練期間為主要的層添加一些過參數(shù)化的額外的分支,以在訓(xùn)練時(shí)提升模型的精度,在推理時(shí)全部消除。RepMixer 的特點(diǎn)3是在網(wǎng)絡(luò)中使用了大核卷積在前幾個(gè)階段替換掉 Self-Attention。具體是在前饋網(wǎng)絡(luò) (FFN) 層和 Patch Embedding 層中加入了大核卷積。這些更改對(duì)模型的總體延遲影響很小,同時(shí)提高了性能。

對(duì)于性能這塊作者在 iPhone 12 Pro 設(shè)備和 NVIDIA RTX-2080Ti desktop GPU 上進(jìn)行了詳盡的分析,實(shí)驗(yàn)結(jié)果如下圖1所示??梢钥吹皆趦煞N設(shè)備上,F(xiàn)astViT 都實(shí)現(xiàn)了最佳的精度-延時(shí)的權(quán)衡。

f915a748-5773-11ee-939d-92fbcf53809c.png

圖1:iPhone 12 Pro 設(shè)備和 NVIDIA RTX-2080Ti desktop GPU 上的精度-延時(shí)比較

1.2 FastViT 模型架構(gòu)

FastViT 整體架構(gòu)如下圖2所示。

Stage 的內(nèi)部架構(gòu)

FastViT 采用了4個(gè) stage 的架構(gòu),每個(gè) stage 相對(duì)于前一個(gè)的分辨率減半,通道數(shù)加倍。前3個(gè) stage 的內(nèi)部架構(gòu)是一樣的,都是訓(xùn)練的時(shí)候采用下式:

f92b6894-5773-11ee-939d-92fbcf53809c.png

推理的時(shí)候采用結(jié)構(gòu)重參數(shù)化得到下式:

f934fe9a-5773-11ee-939d-92fbcf53809c.png

第4個(gè) stage 的內(nèi)部架構(gòu)如圖2 (a) 所示,采用 Attention 來作為 token mixer,可能是為了性能考慮,寧愿不采用結(jié)構(gòu)重參數(shù)化,犧牲延時(shí)成本,以換取更好的性能。

值得注意的是,每個(gè) Stage 中的 FFN 使用的并不是傳統(tǒng)的 FFN 架構(gòu),而是如圖2 (c) 所示的,帶有大核 7×7 卷積的 ConvFFN 架構(gòu)。

f9416464-5773-11ee-939d-92fbcf53809c.png

圖2:FastViT 模型架構(gòu)

Stem 的結(jié)構(gòu)

Stem 是整個(gè)模型的起點(diǎn),如圖2 (b) 所示,F(xiàn)astViT 的 Stem 在推理時(shí)的結(jié)構(gòu)是 3×3 卷積 + 3×3 Depth-wise 卷積 + 1×1 卷積。在訓(xùn)練時(shí)分別加上 1×1 分支或者 Identity 分支做結(jié)構(gòu)重參數(shù)化。

Patch Embedding 的架構(gòu)

Patch Embedding 是模型在 Stage 之間過渡的部分,F(xiàn)astViT 的 Patch Embedding 如圖2 (a) 所示,在推理時(shí)的結(jié)構(gòu)是 7×7 大 Kernel 的 Depth-wise 卷積 + 1×1 卷積。在訓(xùn)練時(shí)分別加上 3×3 分支做結(jié)構(gòu)重參數(shù)化。

位置編碼

位置編碼使用條件位置編碼,它是動(dòng)態(tài)生成的,并以輸入 token 的局部鄰域?yàn)闂l件。這些編碼是由 depth-wise 運(yùn)算符生成的,并添加到 Patch Embedding 中。

1.3 RepMixer 的延時(shí)優(yōu)勢

如下圖3所示,作者對(duì)比了 RepMixer 和高效的 Pooling 操作的延時(shí)情況。架構(gòu)使用的是 MetaFormer S12,大概有 1.8 GFLOPs。作者在 iPhone 12 Pro 移動(dòng)設(shè)備上為從 224×224 到 1024×1024 的各種輸入分辨率的模型計(jì)時(shí)??梢钥吹?RepMixer 明顯優(yōu)于 Pooling,尤其是在較高分辨率的時(shí)候。在分辨率為 384×384 時(shí),使用 RepMixer 可以降低 25.1% 的延遲,而在分辨率為 1024×1024 時(shí),使用 RepMixer 可以降低 43.9% 的延遲。

f95a3318-5773-11ee-939d-92fbcf53809c.png

圖3:RepMixer 的延時(shí)優(yōu)勢

1.4 FastViT 的大核卷積

RepMixer 的感受野是局部的。我們知道 Self-Attention 操作的感受野是全局的,但是 Self-Attention 操作計(jì)算量昂貴,因此之前有工作說使用大核卷積可以在計(jì)算量得到控制的情況下有效增加感受野的大小。FastViT 在兩個(gè)位置引入了大核卷積,分別是 Patch Embedding 層和 FFN。對(duì)比實(shí)驗(yàn)的結(jié)果如下圖4所示。將 V5 與 V3 進(jìn)行比較,模型大小增加了 11.2%,延遲增加了 2.3 倍,而 Top-1 精度的增益相對(duì)較小,只有 0.4%,說明使用大核卷積來替換 Self-Attention 是一種高效,節(jié)約延時(shí)的方式。V2 比 V4 大 20%,延時(shí)比 V4 高 7.1%,同時(shí)在 ImageNet 上獲得相似的 Top-1 精度。

f9698dcc-5773-11ee-939d-92fbcf53809c.png

圖4:大核卷積的消融實(shí)驗(yàn)

隨著感受野的增加,大核卷積也有助于提高模型的魯棒性。FastViT 各種模型的超參數(shù)配置如下圖5所示。

f97a1afc-5773-11ee-939d-92fbcf53809c.png

圖5:FastViT 的超參數(shù)配置

1.5 實(shí)驗(yàn)結(jié)果

ImageNet-1K 圖像分類實(shí)驗(yàn)結(jié)果

如下圖6所示是 ImageNet-1K 圖像分類實(shí)驗(yàn)結(jié)果。對(duì)于 iPhone 設(shè)備延時(shí)的測量,作者使用 Core ML Tools (v6.0) 導(dǎo)出模型,并在帶有 iOS 16 的 iPhone12 Pro Max 上運(yùn)行,并將所有模型的 Batch Size 大小設(shè)置為1。對(duì)于 GPU延時(shí)的測量,作者把模型導(dǎo)出為 TensorRT (v8.0.1.6) 格式,并在 NVIDIA RTX-2080Ti 上運(yùn)行,Batch Size 大小為8,報(bào)告100次運(yùn)行的中位數(shù)。

與 SOTA 模型的性能比較如下圖6所示。本文的 FastViT 實(shí)現(xiàn)了最佳的精度-延時(shí)均衡,比如 FastViT-S12 在 iPhone 12 Pro 上比 MobileOne-S4 快 26.3%,GPU 上快 26.9%。在 83.9% 的 Top-1 精度下,F(xiàn)astViT-MA36 比 iPhone 12 Pro 上優(yōu)化的 ConvNeXt-B 模型快 1.9倍, GPU上快2.0倍。

f9901fa0-5773-11ee-939d-92fbcf53809c.png

圖6:ImageNet-1K 圖像分類實(shí)驗(yàn)結(jié)果

知識(shí)蒸餾實(shí)驗(yàn)結(jié)果

如下圖7所示是 FastViT 作為學(xué)生模型的知識(shí)蒸餾實(shí)驗(yàn)結(jié)果。作者遵循 DeiT 中的實(shí)驗(yàn)設(shè)置,RegNet16GF 作為教師模型,使用 Hard Distillation,其中教師的輸出設(shè)置為 true label,一共訓(xùn)練300個(gè) Epochs。FastViT 優(yōu)于最近最先進(jìn)的模型 EfficientFormer。FastViT-SA24 的性能與 EfficientFormer-L7 相似,但參數(shù)少3.8倍,F(xiàn)LOPs 少2.7倍,延遲低2.7倍。

f9a66594-5773-11ee-939d-92fbcf53809c.png

圖7:知識(shí)蒸餾實(shí)驗(yàn)結(jié)果

目標(biāo)檢測和語義分割實(shí)驗(yàn)結(jié)果

對(duì)于語義分割,作者在 ADE20k 上驗(yàn)證了模型的性能語義分割模型頭使用的是 Semantic FPN,所有的模型都是用預(yù)先訓(xùn)練好的對(duì)應(yīng)圖像分類模型的權(quán)重進(jìn)行初始化。在 512×512 的設(shè)置上估計(jì) FLOPs 和延遲。由于輸入圖像的分辨率較高,在表9和表10中,GPU 延遲在測量時(shí)使用了大小為2的 Batch Size。在圖8中,作者將 FastViT 與最近的工作進(jìn)行了比較。FastViT-MA36 的 mIoU 比 PoolFormer-M36 高 5.2%,但是 PoolFormer 具有更高的 FLOPs、參數(shù)量和延遲。

f9bfcffc-5773-11ee-939d-92fbcf53809c.png

圖8:語義分割實(shí)驗(yàn)結(jié)果

目標(biāo)檢測和實(shí)例分割實(shí)驗(yàn)實(shí)驗(yàn) MS-COCO 數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果如下圖9所示。所有模型都使用 Mask-RCNN 目標(biāo)檢測和實(shí)例分割頭按照 1x schedule 進(jìn)行訓(xùn)練。所有的模型都是用預(yù)先訓(xùn)練好的對(duì)應(yīng)圖像分類模型的權(quán)重進(jìn)行初始化。結(jié)果顯示出 FastViT 在多種延遲機(jī)制下實(shí)現(xiàn)了最先進(jìn)的性能。FastViT-MA36 模型的性能與 CMT-S 相似,但在桌面GPU 和移動(dòng)設(shè)備上分別快2.4倍和4.3倍。

f9d58ee6-5773-11ee-939d-92fbcf53809c.png

圖9:目標(biāo)檢測和實(shí)例分割實(shí)驗(yàn)結(jié)果

總結(jié)

本文提出了一種通用的 CNN 和 Transformer 混合的視覺基礎(chǔ)模型,是由 MobileOne 原班人馬打造,可以看做是 MobileOne 的方法在 Transformer 上的一個(gè)改進(jìn)型的應(yīng)用。作者引入了一種新的 token mixer,叫做 RepMixer,它使用結(jié)構(gòu)重新參數(shù)化技術(shù),通過刪除網(wǎng)絡(luò)中的 Shortcut 來降低內(nèi)存訪問成本,尤其是在較高分辨率時(shí)。作者還提出了進(jìn)一步的架構(gòu)更改,以提高 ImageNet 分類任務(wù)和其他下游任務(wù)的性能。在移動(dòng)設(shè)備和 ImageNet 數(shù)據(jù)集上的精度相同的前提下,F(xiàn)astViT 比 CMT 快3.5倍,比 EfficientNet 快4.9倍,比 ConvNeXt 快1.9倍。在類似的延遲下,F(xiàn)astViT 在 ImageNet 上獲得的 Top-1 準(zhǔn)確率比 MobileOne 高 4.2%,是一種極具競爭力的混合架構(gòu)模型。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    501

    瀏覽量

    25374
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24538
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    349

    瀏覽量

    21963

原文標(biāo)題:ICCV 2023 | Apple提出FastViT:快速卷積和Transformer混合架構(gòu)

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于卷積的基礎(chǔ)模型InternImage網(wǎng)絡(luò)技術(shù)分析

    近年來大規(guī)模視覺 Transformer 的蓬勃發(fā)展推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域的性能邊界。視覺 Transformer 模型通過擴(kuò)大模型參數(shù)量和訓(xùn)練數(shù)據(jù)從而擊敗了卷積神經(jīng)網(wǎng)絡(luò)。
    發(fā)表于 11-18 10:49 ?621次閱讀
    基于<b class='flag-5'>卷積</b>的基礎(chǔ)模型InternImage網(wǎng)絡(luò)技術(shù)分析

    基于MLP的快速醫(yī)學(xué)圖像分割網(wǎng)絡(luò)UNeXt相關(guān)資料分享

    緩慢。這篇文章提出了基于卷積多層感知器(MLP)改進(jìn) U型架構(gòu)的方法,可以用于圖像分割。設(shè)計(jì)了一個(gè) tokenized MLP 塊有效地標(biāo)記和投影卷積特征,使用 MLPs 來建模表示。
    發(fā)表于 09-23 14:53

    利用卷積調(diào)制構(gòu)建一種新的ConvNet架構(gòu)Conv2Former

    構(gòu)建了一種新的ConvNet架構(gòu)Conv2Former。ImageNet分類、COCO檢測以及ADE20K分割任務(wù)上的實(shí)驗(yàn)結(jié)果表明:所提Conv2Former取得了優(yōu)于主流ConvNet(如ConvNeXt)、ViT(如Swin Transformer)的性能?! ”疚姆?/div>
    發(fā)表于 12-19 17:37

    一層卷積能做啥?一層卷積可以做超分嗎?

    深度學(xué)習(xí)超分之間的空白。作為從經(jīng)典到深度學(xué)習(xí)上采樣之間的過渡,我們提出了edge-SR(eSR):一層架構(gòu),它采用可解釋機(jī)制進(jìn)行圖像上采樣。當(dāng)然,一層架構(gòu)無法達(dá)到與深度學(xué)習(xí)方法的性能,但是,對(duì)于高速度
    發(fā)表于 03-06 14:05

    簡談卷積—幽默笑話談卷積

    的物理意義呢?那下面咱們就來看一看詳細(xì)的卷積本質(zhì)以及物理意義的介紹。 一、來源 卷積其實(shí)就是為沖擊函數(shù)誕生的?!皼_擊函數(shù)”是狄拉克為了解決一些瞬間作用的物理現(xiàn)象而提出的符號(hào)。古人曰:“說一堆
    發(fā)表于 05-25 18:08

    基于多步分解算法的解卷積混合盲源分離新方法

    基于多步分解算法的解卷積混合盲源分離新方法:該文提出一種基于二階統(tǒng)計(jì)量的時(shí)域多步分解算法求解卷積混合盲源分離問題。引入白化處理,將混迭矩陣轉(zhuǎn)
    發(fā)表于 10-29 13:08 ?26次下載

    一種混合卷積窗及其在諧波分析中的應(yīng)用

    電力系統(tǒng)穩(wěn)態(tài)信號(hào)非同步采樣時(shí),利用離散傅里葉變換分析諧波會(huì)使各頻率成分產(chǎn)生頻譜泄漏,增大了諧波參數(shù)的測量誤差。為進(jìn)一步抑制頻譜泄漏,提高諧波測量的準(zhǔn)確度,提出一種由矩形窗和余弦窗經(jīng)過卷積運(yùn)算
    發(fā)表于 03-28 10:22 ?1次下載

    谷歌將AutoML應(yīng)用于Transformer架構(gòu),翻譯結(jié)果飆升!

    為了探索AutoML在序列域中的應(yīng)用是否能夠取得的成功,谷歌的研究團(tuán)隊(duì)在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索(NAS)之后,使用了翻譯作為一般的序列任務(wù)的代理,并找到了Evolved Transformer這一新的Transformer
    的頭像 發(fā)表于 06-16 11:29 ?2961次閱讀

    基于卷積的框架有效實(shí)現(xiàn)及視覺Transformer背后的關(guān)鍵成分

    來自清華大學(xué)和 Meta AI 的研究者證明了視覺 Transformer 的關(guān)鍵,即輸入自適應(yīng)、長程和高階空間交互,也可以通過基于卷積的框架有效實(shí)現(xiàn)。
    的頭像 發(fā)表于 09-09 15:44 ?1060次閱讀

    利用Transformer和CNN 各自的優(yōu)勢以獲得更好的分割性能

    概述 在這篇論文中,提出了一種新的醫(yī)學(xué)圖像分割混合架構(gòu):PHTrans,它在主要構(gòu)建塊中并行混合 Transformer 和 CNN,分別從
    的頭像 發(fā)表于 11-05 11:38 ?6279次閱讀

    PyTorch教程8.8之設(shè)計(jì)卷積網(wǎng)絡(luò)架構(gòu)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程8.8之設(shè)計(jì)卷積網(wǎng)絡(luò)架構(gòu).pdf》資料免費(fèi)下載
    發(fā)表于 06-05 10:02 ?0次下載
    PyTorch教程8.8之設(shè)計(jì)<b class='flag-5'>卷積</b>網(wǎng)絡(luò)<b class='flag-5'>架構(gòu)</b>

    基于魯棒神經(jīng)架構(gòu)的設(shè)計(jì)

    導(dǎo)讀 繼卷積神經(jīng)網(wǎng)絡(luò)之后,Transformer又推進(jìn)了圖像識(shí)別的發(fā)展,成為視覺領(lǐng)域的又一主導(dǎo)。最近有人提出Transformer的這種優(yōu)越性應(yīng)歸功于Self-Attention的
    的頭像 發(fā)表于 07-17 14:35 ?393次閱讀
    基于魯棒神經(jīng)<b class='flag-5'>架構(gòu)</b>的設(shè)計(jì)

    RetNet架構(gòu)Transformer架構(gòu)對(duì)比分析

    微軟研究院最近提出了一個(gè)新的 LLM 自回歸基礎(chǔ)架構(gòu) Retentive Networks (RetNet)[1,4],該架構(gòu)相對(duì)于 Transformer
    發(fā)表于 07-26 10:44 ?1104次閱讀
    RetNet<b class='flag-5'>架構(gòu)</b>和<b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>對(duì)比分析

    介紹一種基于卷積和VIT的混合網(wǎng)絡(luò)

    論文提出了一種基于卷積和VIT的混合網(wǎng)絡(luò),利用Transformers捕獲遠(yuǎn)程依賴關(guān)系,利用cnn提取局部信息。構(gòu)建了一系列模型cmt,它在準(zhǔn)確性和效率方面有更好的權(quán)衡。
    的頭像 發(fā)表于 09-08 16:42 ?994次閱讀
    介紹一種基于<b class='flag-5'>卷積</b>和VIT的<b class='flag-5'>混合</b>網(wǎng)絡(luò)

    Transformer架構(gòu)在自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)提出,為NLP領(lǐng)域帶來了革命性的變革。本文將深入探討Transformer
    的頭像 發(fā)表于 07-09 11:42 ?525次閱讀