0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在不增加額外參數(shù)量的前提下把模型的表達(dá)能力挖掘到極致

電子工程師 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-08-08 16:25 ? 次閱讀

今天跟大家分享一篇來自CMU等機(jī)構(gòu)的論文《Sliced Recursive Transformer》,該論文已被 ECCV 2022 接收。

目前 vision transformer 在不同視覺任務(wù)上如分類、檢測等都展示出了強(qiáng)大的性能,但是其巨大的參數(shù)量和計(jì)算量阻礙了該模型進(jìn)一步在實(shí)際場景中的應(yīng)用?;谶@個(gè)考慮,本文重點(diǎn)研究了如何在不增加額外參數(shù)量的前提下把模型的表達(dá)能力挖掘到極致,同時(shí)還要保證模型計(jì)算量在合理范圍內(nèi),從而可以在一些存儲(chǔ)容量小,計(jì)算能力弱的嵌入式設(shè)備上部署。

基于這個(gè)動(dòng)機(jī),Zhiqiang Shen、邢波等研究者提出了一個(gè) SReT 模型,通過循環(huán)遞歸結(jié)構(gòu)來強(qiáng)化每個(gè) block 的特征表達(dá)能力,同時(shí)又提出使用多個(gè)局部 group self-attention 來近似 vanilla global self-attention,在顯著降低計(jì)算量 FLOPs 的同時(shí),模型沒有精度的損失。

6f84e69e-16c2-11ed-ba43-dac502259ad0.png

論文地址:https://arxiv.org/abs/2111.05297

代碼和模型:https://github.com/szq0214/SReT

總結(jié)而言,本文主要有以下兩個(gè)創(chuàng)新點(diǎn):

使用類似 RNN 里面的遞歸結(jié)構(gòu)(recursive block)來構(gòu)建 ViT 主體,參數(shù)量不漲的前提下提升模型表達(dá)能力;

使用 CNN 中 group-conv 類似的 group self-attention 來降低 FLOPs 的同時(shí)保持模型的高精度

此外,本文還有其他一些小的改動(dòng):

網(wǎng)絡(luò)最前面使用三層連續(xù)卷積,卷積核為 3x3,結(jié)構(gòu)直接使用了研究者之前 DSOD 里面的 stem 結(jié)構(gòu);

Knowledge distillation 只使用了單獨(dú)的 soft label,而不是 DeiT 里面 hard 形式的 label 加 one-hot ground-truth,因?yàn)檠芯空哒J(rèn)為 soft label 包含的信息更多,更有利于知識(shí)蒸餾;

使用可學(xué)習(xí)的 residual connection 來提升模型表達(dá)能力;

如下圖所示,本文所提出的模型在參數(shù)量(Params)和計(jì)算量(FLOPs)方面相比其他模型都有明顯的優(yōu)勢:

6f9bf410-16c2-11ed-ba43-dac502259ad0.png

下面我們來解讀這篇文章: 1.ViT 中的遞歸模塊 遞歸操作的基本組成模塊如下圖:

6fac3848-16c2-11ed-ba43-dac502259ad0.png

該模塊非常簡單明了,類似于 RNN 結(jié)構(gòu),將模塊當(dāng)前 step 的輸出作為下個(gè) step 的輸入重新輸進(jìn)該模塊,從而增強(qiáng)模型特征表達(dá)能力。 研究者展示了將該設(shè)計(jì)直接應(yīng)用在 DeiT 上的結(jié)果,如下所示:

6fb76088-16c2-11ed-ba43-dac502259ad0.png

可以看到在加入額外一次簡單遞歸操作之后就可以得到將近 2% 的精度提升。 當(dāng)然具體到全局網(wǎng)絡(luò)結(jié)構(gòu)層面還有不同的遞歸構(gòu)建方法,如下圖:

6fcb1b1e-16c2-11ed-ba43-dac502259ad0.png

其中 NLL 層(Non-linear Projection Layer)是用來保證每個(gè)遞歸模塊輸入輸出不完全一致。論文提出使用這個(gè)模塊的主要原因是發(fā)現(xiàn)在上述 Table 1 里面更多次數(shù)的遞歸操作并沒有進(jìn)一步提升性能,說明網(wǎng)絡(luò)可能學(xué)到了一個(gè)比較簡單的狀態(tài),而 NLL 層可以強(qiáng)制模型輸入輸出不一致從而緩解這種情況。同時(shí),研究者從實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)上圖 (1) internal loop 相比 external loop 設(shè)計(jì)擁有更好的 accuracy-FLOPs 結(jié)果。 2. 分組的 Group Self-attention 模塊 如下圖所示,研究者提出了一種分組的 group self-attention 策略來降低模型的 FLOPs,同時(shí)保證 self-attention 的全局注意力,從而使得模型沒有明顯精度損失:

6fd2573a-16c2-11ed-ba43-dac502259ad0.png

Group Self-attention 模塊具體形式如下:

6fe58ecc-16c2-11ed-ba43-dac502259ad0.png

Group self-attention 的缺點(diǎn)是只有局部區(qū)域會(huì)相互作用,研究者提出通過使用 Permutation 操作來近似全局 self-attention 的機(jī)制,同時(shí)通過 Inverse Permutation 來復(fù)原和保留 tokens 的次序信息,針對(duì)這個(gè)部分的消融實(shí)驗(yàn)如下所示:

6fee80d6-16c2-11ed-ba43-dac502259ad0.png

其中 P 表示加入 Permutation,I 表示加入 Inverse Permutation,-L 表示如果 group 數(shù)為 1,就不使用 P 和 I(比如模型最后一個(gè) stage)。根據(jù)上述表格的結(jié)果,研究者最后采用了 [8, 2][4,1][1,1] 這種分組設(shè)計(jì)。 3. 其他設(shè)計(jì) 可學(xué)習(xí)的殘差結(jié)構(gòu) (LRC):

6ffd0804-16c2-11ed-ba43-dac502259ad0.png

研究者嘗試了上圖三種結(jié)構(gòu),圖(3)結(jié)果最佳。具體而言,研究者在每個(gè)模塊里面添加了 6 個(gè)額外參數(shù)(4+2,2 個(gè)在 NLL 層),這些參數(shù)會(huì)跟模型其他參數(shù)一起學(xué)習(xí),從而使網(wǎng)絡(luò)擁有更強(qiáng)的表達(dá)能力,參數(shù)初始化都為 1,在訓(xùn)練過程 6 個(gè)參數(shù)的數(shù)值變化情況如下所示:

7009c85a-16c2-11ed-ba43-dac502259ad0.png

Stem 結(jié)構(gòu)組成:

702da22a-16c2-11ed-ba43-dac502259ad0.png

如上表所示,Stem 由三個(gè) 3x3 的連續(xù)卷積組成,每個(gè)卷積 stride 為 2。 整體網(wǎng)絡(luò)結(jié)構(gòu): 研究者進(jìn)一步去掉了 class token 和 distillation token,并且發(fā)現(xiàn)精度有少量提升。

70388b2c-16c2-11ed-ba43-dac502259ad0.png

消融實(shí)驗(yàn):

7045dea8-16c2-11ed-ba43-dac502259ad0.png

模型混合深度訓(xùn)練: 研究者進(jìn)一步發(fā)現(xiàn)分組遞歸設(shè)計(jì)還有一個(gè)好處就是:可以支持模型混合深度訓(xùn)練,這種訓(xùn)練方式可以大大降低深度網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化復(fù)雜度,研究者展示了 108 層不同模型結(jié)構(gòu)優(yōu)化過程的 landscape 可視化,如下圖所示,可以很明顯的看到混合深度結(jié)構(gòu)優(yōu)化過程困難程度顯著低于另外兩種結(jié)構(gòu)。

7050dbc8-16c2-11ed-ba43-dac502259ad0.png

最后,分組 group self-attention 算法 PyTorch 偽代碼如下:

705f16ca-16c2-11ed-ba43-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3121

    瀏覽量

    48663
  • 遞歸
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    9003
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    350

    瀏覽量

    22143

原文標(biāo)題:ECCV 2022 | 視覺Transformer上進(jìn)行遞歸!SReT:不增參數(shù),計(jì)算量還少!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    PCB層數(shù)增加對(duì)成本有哪些影響

    :設(shè)計(jì)工程師需要在保證設(shè)計(jì)信號(hào)質(zhì)量的前提下,盡量使用較少的層數(shù)來完成PCB的設(shè)計(jì),以此來控制成本。 PCB層數(shù)增加的其他影響因素 制造難度與成本 :隨著層數(shù)的增加,PCB的制造難度也會(huì)相應(yīng)
    的頭像 發(fā)表于 11-07 09:12 ?151次閱讀

    PCB層數(shù)增加對(duì)成本的影響分析

    還會(huì)導(dǎo)致制造難度的提升,如最小線寬、最小線間距、最小鉆孔等參數(shù)的設(shè)置更為嚴(yán)格,這些都可能增加生產(chǎn)成本。 PCB尺寸與層數(shù)的關(guān)系 在層數(shù)一定的情況下,PCB的尺寸越小,價(jià)格就會(huì)越低。設(shè)計(jì)工程師在PCB設(shè)計(jì)中,在不影響電氣性能的前提下
    的頭像 發(fā)表于 09-04 19:11 ?424次閱讀
    PCB層數(shù)<b class='flag-5'>增加</b>對(duì)成本的影響分析

    PCB上在拆掉集成塊的前提下怎么能測其好壞?

    想請(qǐng)問一下,PCB上在拆掉集成塊的前提下怎么能測其好壞,謝謝了
    發(fā)表于 09-02 07:56

    OPA320與OPA320S在確保運(yùn)放精度能達(dá)到穩(wěn)定的前提下盡量做到低功耗應(yīng)該如何選擇?

    OPA320與OPA320S主要區(qū)別在于是否有使能引腳,如果用于低功耗電路中,需要快速切換運(yùn)放的開關(guān)工作狀態(tài),是選擇增加外部供電切換電路好還是使用帶有使能引腳的運(yùn)放好?在確保運(yùn)放精度能達(dá)到穩(wěn)定的前提下盡量做到低功耗應(yīng)該如何選擇?
    發(fā)表于 08-21 06:14

    USB頻譜分析儀在滿足低成本預(yù)算的前提下能夠提供出色的性能

    USB頻譜分析儀在滿足低成本預(yù)算的前提下能夠提供出色的性能,USB頻譜分析儀緊湊的設(shè)計(jì),本身不自帶電源,USB頻譜分析儀體積非常小,是因?yàn)殡娫础⑻幚?、顯示都依附于PC。
    的頭像 發(fā)表于 08-08 10:51 ?253次閱讀

    安寶特產(chǎn)品 3D Evolution : 基于特征實(shí)現(xiàn)無損CAD格式轉(zhuǎn)換

    安寶特3D Evolution具有強(qiáng)大的3D CAD模型轉(zhuǎn)換功能,可在保留模型特征參數(shù)、注釋、約束的前提下,完成不同格式3D CAD模型的無
    的頭像 發(fā)表于 08-06 17:26 ?281次閱讀
    安寶特產(chǎn)品   3D Evolution : 基于特征實(shí)現(xiàn)無損CAD格式轉(zhuǎn)換

    科普講座 | 讓AIGC提高你的專業(yè)表達(dá)和創(chuàng)作能力

    的專題講座,激發(fā)工程師專業(yè)文章創(chuàng)作靈感,提高個(gè)人的專業(yè)表達(dá)能力,從而在電力電子領(lǐng)域展現(xiàn)更加卓越的才華!舉辦時(shí)間7月2日1900講座內(nèi)容:技術(shù):AIGC時(shí)代到來方法:讓A
    的頭像 發(fā)表于 06-23 08:14 ?289次閱讀
    科普講座 | 讓AIGC提高你的專業(yè)<b class='flag-5'>表達(dá)</b>和創(chuàng)作<b class='flag-5'>能力</b>

    微軟發(fā)布MatterSim模型,精準(zhǔn)預(yù)測材料性能與行為

    材料創(chuàng)新對(duì)于諸如納米電子學(xué)、能源儲(chǔ)存以及醫(yī)學(xué)健康等關(guān)鍵領(lǐng)域的技術(shù)進(jìn)步有著重大影響。而材料設(shè)計(jì)中的難點(diǎn)在于如何在無需實(shí)際合成和測試的前提下預(yù)測其特性。
    的頭像 發(fā)表于 05-15 16:01 ?580次閱讀

    STM32跟wifi模塊通過USB在沒有host的前提下如何交互呢?

    后不需要再插拔。是不是可以通過USB簡單的進(jìn)行設(shè)備與設(shè)備的連接,不用考慮是否是host? 2. 如果1假設(shè)成立,那STM32跟wifi模塊通過USB在沒有host的前提下如何交互呢?
    發(fā)表于 05-13 08:25

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    。 關(guān)于大語言模型是否具備與人類“系統(tǒng)2”相似的能力,存在廣泛的爭議。然而,隨著模型參數(shù)量增加和大規(guī)模預(yù)訓(xùn)練的實(shí)施,大語言
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

    大語言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    豐富的常識(shí)知識(shí),能夠基于常識(shí)進(jìn)行推理,填補(bǔ)信息空白,并作出合理推斷。隨著訓(xùn)練規(guī)模和參數(shù)量增加,大語言模型的推理能力將持續(xù)提升,為解決實(shí)際問題和推動(dòng)人工智能發(fā)展提供有力支持。 大語言
    發(fā)表于 05-04 23:55

    NTT、NEC聯(lián)手完成首個(gè)跨洋7280千米光網(wǎng)絡(luò)傳輸實(shí)驗(yàn),提升帶寬

    市面上主流的海底光纜大多采用單個(gè)核心(single-core fiber),即每個(gè)光纖僅具有一個(gè)傳輸光束的能力。然而,這次實(shí)驗(yàn)的最大突破就在于如何在保持現(xiàn)有的光纜直徑不變的前提下,增加
    的頭像 發(fā)表于 03-26 16:43 ?574次閱讀

    5G RedCap通信標(biāo)準(zhǔn)化工作進(jìn)程

    RedCap技術(shù)是在確保應(yīng)用需求和性能的前提下,通過減少帶寬、收發(fā)天線數(shù)量、降低速率、調(diào)整調(diào)制方式、引入半雙工模式等方式削減設(shè)備的能力,降低終端設(shè)備的復(fù)雜度。
    的頭像 發(fā)表于 02-01 14:09 ?1697次閱讀
    5G RedCap通信標(biāo)準(zhǔn)化工作進(jìn)程

    AD7656BSTZ在保證供電和輸入模擬信號(hào)超的前提下,什么原因會(huì)導(dǎo)致芯片±15V引腳被燒?

    您好,如題,AD7656BSTZ在保證供電和輸入模擬信號(hào)超的前提下,什么原因會(huì)導(dǎo)致芯片±15V(VDD和VSS)引腳被燒,謝謝!手冊中提到每個(gè)引腳最大的電流不能超過10mA。
    發(fā)表于 12-14 08:23