0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

傳統(tǒng)卷積運算,有了一種全新的替代方法

DPVg_AI_era ? 來源:lp ? 2019-05-01 08:36 ? 次閱讀

Facebook AI、新加坡國立大學(xué)、360 人工智能研究院的研究人員提出一種新的卷積操作OctConv,可以直接替代傳統(tǒng)卷積,持續(xù)提高圖像和視頻識別任務(wù)的精度,同時降低內(nèi)存和計算成本。

傳統(tǒng)卷積運算,有了一種全新的替代方法。

近日,F(xiàn)acebook AI、新加坡國立大學(xué)、360人工智能研究院的研究人員提出一種新的卷積操作——Octave Convolution (OctConv)。

論文地址:

https://export.arxiv.org/pdf/1904.05049

其中,論文一作陳云鵬現(xiàn)于新加坡國立大學(xué)讀博士,師從顏水成和馮佳時,兩人也是這篇論文的作者。其他作者來自Facebook AI。

作者表示,OctConv 是一種即插即用的卷積單元,可以直接替代傳統(tǒng)的卷積,而無需對網(wǎng)絡(luò)架構(gòu)進(jìn)行任何調(diào)整。

在自然的圖像中,信息以不同的頻率傳遞,其中較高的頻率通常以精細(xì)的細(xì)節(jié)編碼,較低的頻率通常以全局結(jié)構(gòu)編碼。

類似地,卷積層的輸出特征圖也可以看做是不同頻率的信息的混合。

在這項工作中,作者提出將混合特征映射根據(jù)其頻率進(jìn)行分解,并設(shè)計了一種全新的卷積運算:Octave Convolution (OctConv),用以存儲和處理在較低空間分辨率下空間變化 “較慢” 的特征圖,從而降低了內(nèi)存和計算成本。

Octave 一詞表示 “八音階” 或 “八度”,音樂里降 8 個音階表示頻率減半。通過降低低頻特征的分辨率,從而節(jié)省內(nèi)存和計算。

實驗表明,通過簡單地用OctConv 替代卷積,我們可以持續(xù)提高圖像和視頻識別任務(wù)的精度,同時降低內(nèi)存和計算成本。

采用 OctConv 的 ResNet-152 僅用 22.2 GFLOPs 就能在 ImageNet 上實現(xiàn) 82.9% 的top-1 分類精度。

完美替代傳統(tǒng)卷積,即插即用無需調(diào)參

卷積神經(jīng)網(wǎng)絡(luò) (CNNs) 在許多計算機視覺任務(wù)中都取得了顯著的成功,并且隨著最近的研究在降低密集模型參數(shù)和特征圖通道維數(shù)的固有冗余,它們的效率不斷提高。然而,CNN 生成的特征圖在空間維度上也存在大量冗余,其中每個位置獨立存儲自己的特征描述符,忽略了可以一起存儲和處理的相鄰位置之間的公共信息。

圖 1:(a) 動機。視覺的空間頻率模型的相關(guān)研究表明,自然圖像可以分解為低空間頻率和高空間頻率兩個部分。(b) 卷積層的輸出圖也可以根據(jù)其空間頻率進(jìn)行分解和分組。(c) 所提出的多頻特征表示將平滑變化的低頻映射存儲在低分辨率張量中,以減少空間冗余。(d) 所提出的 Octave Convolution 直接作用于這個表示。它會更新每個組的信息,并進(jìn)一步支持組之間的信息交換。

如圖 1(a) 所示,自然圖像可以分解為描述平穩(wěn)變化結(jié)構(gòu)的低空間頻率分量和描述快速變化的精細(xì)細(xì)節(jié)的高空間頻率分量。

類似地,我們認(rèn)為卷積層的輸出特征映射也可以分解為不同空間頻率的特征,并提出了一種新的多頻特征表示方法,將高頻和低頻特征映射存儲到不同的組中,如圖 1(b) 所示。因此,通過相鄰位置間的信息共享,可以安全地降低低頻組的空間分辨率,減少空間冗余,如圖 1(c) 所示。

為了適應(yīng)新的特征表示,我們提出 Octave Convolution (OctConv),它接收包含兩個頻率的特征映射,并直接從低頻映射中提取信息,而無需解碼回到高頻,如圖 1(d) 所示。

作為傳統(tǒng)卷積的替代,OctConv 消耗的內(nèi)存和計算資源都大大減少。此外,OctConv利用相應(yīng)的 (低頻) 卷積處理低頻信息,有效地擴大了原始像素空間的感受野,從而提高識別性能。

我們以一種通用的方式設(shè)計 OctConv,使它成為卷積的替代,而且即插即用。由于OctConv 主要側(cè)重于處理多空間頻率的特征映射并減少其空間冗余,它與現(xiàn)有的方法是相交且互補的,現(xiàn)有的方法側(cè)重于構(gòu)建更好的 CNN 拓?fù)浣Y(jié)構(gòu),減少卷積特征映射中的信道冗余和密集模型參數(shù)中的冗余。

此外,與利用多尺度信息的方法不同,OctConv 可以很容易地部署為即插即用單元,以替代卷積,而不需要改變網(wǎng)絡(luò)結(jié)構(gòu)或需要超參數(shù)調(diào)優(yōu)。

我們的實驗證明,通過簡單地用 OctConv 代替?zhèn)鹘y(tǒng)卷積,可以持續(xù)提高流行的 2D CNN 模型的 ImageNet 圖像識別性能,包括 ResNet ResNeXt, DenseNet, MobileNet,以及 SE-Net。

采用 OctConv 的 Oct-ResNet-152 超過了手工設(shè)計的 state-of-the-art 網(wǎng)絡(luò),并且所需的內(nèi)存和計算成本更低。

我們的貢獻(xiàn)可以總結(jié)如下:

我們提出將卷積特征映射分解成不同空間頻率的兩個組,并分別以相應(yīng)的頻率處理不同的卷積,相隔一個八度 (octave)。由于可以降低低頻圖的分辨率,因此能夠節(jié)省存儲和計算。這也有助于每一層獲得更大的感受野,以捕獲更多的上下文信息。

我們設(shè)計了一種即插即用的運算,名為 OctConv,用來代替?zhèn)鹘y(tǒng)的卷積運算。OctConv直接對新的特征表示進(jìn)行運算,減少了空間冗余。更重要的是,OctConv 在實踐中速度很快,達(dá)到了接近理論極限的加速。

我們廣泛研究了所提出的 OctConv 在用于圖像和視頻任務(wù)的各種骨干 CNN 上的特性,并獲得了顯著的性能提高,甚至可以與最好的 AutoML 網(wǎng)絡(luò)相媲美。

Octave Convolution:方法詳解

octave feature representation 減少了空間冗余,比原始表示更加緊湊。然而,由于輸入特征的空間分辨率不同,傳統(tǒng)卷積不能直接對這種表示進(jìn)行操作。

避免這個問題的一種簡單方法是將低頻部分上采樣到原始的空間分辨率,將它與連接起來,然后進(jìn)行卷積,這將導(dǎo)致額外的計算和內(nèi)存開銷。

為了充分利用緊湊的多頻特征表示,我們提出 Octave Convolution,它可以直接在分解張量上運行,而不需要任何額外的計算或內(nèi)存開銷。

傳統(tǒng)卷積(Vanilla Convolution)

表示一個 k×k 卷積核,表示輸入張量和輸出張量。中的每個 feature map 可以下面的公式計算:

式中 (p, q) 為位置坐標(biāo),

定義了一個局部鄰域。

Octave Convolution.

我們的設(shè)計目標(biāo)是有效地處理相應(yīng)頻率張量中的低頻和高頻分量,同時使我們的 Octave特征表示的高頻分量和低頻分量之間能夠有效地通信。

設(shè) X, Y 為分解輸入和輸出張量。那么輸出的高頻和低頻特征映射將由 給出。

Octave Convolution 的設(shè)計細(xì)節(jié)。綠色箭頭表示信息更新,紅色箭頭表示兩個頻率之間的信息交換。

Octave Convolution kernel。k×k Octave 卷積核與普通卷積核等價,即二者具有完全相同的參數(shù)量。

實驗和評估

在實驗和評估部分,我們驗證了 Octave Convolution 在 2D 和 3D 網(wǎng)絡(luò)中的有效性和效率。

我們分別進(jìn)行了 ImageNet 上圖像分類的研究,然后將其與目前最先進(jìn)的方法進(jìn)行了比較。

然后,我們用 Kinetics-400 和 dynamics 600 數(shù)據(jù)集,證明所提出的 OctConv 也適用于 3D CNN。

圖 4:ImageNet 上的結(jié)果

如圖 4 所示,采用 OctConv 的模型比基線模型更有效、更準(zhǔn)確。圖中每條線的黑色標(biāo)記表示不采用 OctConv 的相應(yīng)基線模型的精度。

表 2:ResNet-50 的結(jié)果

表 4:ImageNet 分類精度

表 5:小型模型的 ImageNet 分類精度

表 6:中型模型的 ImageNet 分類精度

表 7:大型模型的 ImageNet 分類精度

表 8:視頻動作識別的結(jié)果

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4717

    瀏覽量

    100018
  • 圖像識別
    +關(guān)注

    關(guān)注

    9

    文章

    514

    瀏覽量

    38150
  • Facebook
    +關(guān)注

    關(guān)注

    3

    文章

    1429

    瀏覽量

    54479

原文標(biāo)題:完美代替?zhèn)鹘y(tǒng)卷積!Facebook等提出全新卷積操作OctConv,速度接近理論極限

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    verilog實現(xiàn)卷積運算

    在Verilog中實現(xiàn)卷積運算,你可以使用以下示例代碼。這里假設(shè)輸入數(shù)據(jù)是符號8位數(shù),輸出數(shù)據(jù)也是符號8位數(shù)。卷積在數(shù)字信號處理中通常指
    發(fā)表于 03-26 07:51

    基于labview的卷積運算

    就是信號與系統(tǒng)里面的相關(guān)運算,比如卷積什么的可以用labview做嗎?
    發(fā)表于 03-09 14:33

    Nexar如何為FPGA設(shè)計提供一種全新方法?

     本文概述開發(fā)這種系統(tǒng)所必須面對的各種設(shè)計挑戰(zhàn),并講解了Altium公司的最新電子設(shè)計環(huán)境Nexar如何為FPGA設(shè)計提供一種全新方法。這種方法
    發(fā)表于 05-08 06:02

    一種伺服電機的控制方法

    本發(fā)明涉及機械控制技術(shù)領(lǐng)域,尤其涉及一種伺服電機的控制方法。背景技術(shù):隨著機械控制領(lǐng)域的高速發(fā)展,對于伺服電機的需要也日益增加,因此對于伺服 電機的控制已引起越來越多人的重視。目前傳統(tǒng)的伺服電機
    發(fā)表于 09-03 08:53

    利用卷積調(diào)制構(gòu)建一種新的ConvNet架構(gòu)Conv2Former

    1、利用卷積探索一種更高效的編碼空域特征的方式  本文旨在通過充分利用卷積探索一種更高效的編碼空域特征的方式:通過組合ConvNet與ViT的設(shè)計理念,本文利用
    發(fā)表于 12-19 17:37

    簡談卷積—幽默笑話談卷積

    分享。據(jù)說卷積這種運算式物理學(xué)家發(fā)明的,在實際中用得不亦樂乎,而數(shù)學(xué)家卻直沒有把運算的意義徹底搞明白。仔細(xì)品下,還是
    發(fā)表于 05-25 18:08

    一種全新的深亞微米IC設(shè)計方法

    一種全新的深亞微米IC設(shè)計方法 本文分析傳統(tǒng)IC設(shè)計流程存在的些缺陷,并且提出了
    發(fā)表于 12-27 13:28 ?667次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>全新</b>的深亞微米IC設(shè)計<b class='flag-5'>方法</b>

    一種級數(shù)混合運算產(chǎn)生SPWM波新方法

    一種級數(shù)混合運算產(chǎn)生SPWM波新方法_耿衛(wèi)東
    發(fā)表于 01-07 18:39 ?0次下載

    一種卷積神經(jīng)網(wǎng)絡(luò)和極限學(xué)習(xí)機相結(jié)合的人臉識別方法_余丹

    一種卷積神經(jīng)網(wǎng)絡(luò)和極限學(xué)習(xí)機相結(jié)合的人臉識別方法_余丹
    發(fā)表于 01-08 11:20 ?0次下載

    一種改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測方法

    為了在行人檢測任務(wù)中使卷積神經(jīng)網(wǎng)絡(luò)(CNN)選擇出更優(yōu)模型并獲得定位更準(zhǔn)確的檢測框,提出一種改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測方法。改進(jìn)主要涉及兩個方面:如何決定CNN樣本迭代學(xué)習(xí)次數(shù)和
    發(fā)表于 12-01 15:23 ?0次下載
    <b class='flag-5'>一種</b>改進(jìn)的基于<b class='flag-5'>卷積</b>神經(jīng)網(wǎng)絡(luò)的行人檢測<b class='flag-5'>方法</b>

    一種基于深度學(xué)習(xí)的焊點位置檢測方法

    的問題,提出一種基于深度學(xué)習(xí)的焊點位置檢測方法。引入 Mobilenetv2的卷積結(jié)構(gòu)代替 YOLOV2的卷積層,并借鑒YOLOⅴ2的細(xì)粒度特征的
    發(fā)表于 03-17 11:18 ?9次下載
    <b class='flag-5'>一種</b>基于深度學(xué)習(xí)的焊點位置檢測<b class='flag-5'>方法</b>

    一種輕量級時間卷積網(wǎng)絡(luò)設(shè)計方案

    時間卷積網(wǎng)絡(luò)(TCN)在處理時間序列預(yù)測問題時存在計算量大和參數(shù)冗余問題,導(dǎo)致其難以應(yīng)用于存儲空間和計算能力受限的手機、平板電腦、筆記本電腦等移動終端。為此,設(shè)計一種輕量級時間卷積網(wǎng)絡(luò)(L-TCN
    發(fā)表于 03-22 16:04 ?6次下載
    <b class='flag-5'>一種</b>輕量級時間<b class='flag-5'>卷積</b>網(wǎng)絡(luò)設(shè)計方案

    一種基于DSCNN-BILSTM的入侵檢測方法

    針對傳統(tǒng)的入侵檢測方法無法有效提取網(wǎng)絡(luò)流量數(shù)據(jù)特征的問題,提出了一種基于 DSCNN- BILSTM的入侵檢測方法,該方法引入了深度可分離
    發(fā)表于 04-16 15:41 ?14次下載
    <b class='flag-5'>一種</b>基于DSCNN-BILSTM的入侵檢測<b class='flag-5'>方法</b>

    卷積神經(jīng)網(wǎng)絡(luò)分類方法哪些

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像分類、目標(biāo)檢測、語義分割等計算機視覺任務(wù)。本文將詳細(xì)介紹卷積神經(jīng)網(wǎng)絡(luò)的分類
    的頭像 發(fā)表于 07-03 09:40 ?265次閱讀

    圖像處理中的卷積運算

    卷積運算是圖像處理中一種極其重要的操作,廣泛應(yīng)用于圖像濾波、邊緣檢測、特征提取等多個方面。它基于個核(或稱為卷積核、濾波器)與圖像進(jìn)行相乘
    的頭像 發(fā)表于 07-11 15:15 ?742次閱讀