0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個LSTM被分解成垂直和水平的LSTM

OpenCV學堂 ? 來源:OpenCV學堂 ? 作者:OpenCV學堂 ? 2022-05-07 16:29 ? 次閱讀

在最近的計算機視覺研究中,ViT的出現(xiàn)迅速改變了各種架構(gòu)設計工作:ViT利用自然語言處理中的Self-Attention實現(xiàn)了最先進的圖像分類性能,MLP-Mixer利用簡單的多層感知器也實現(xiàn)了具有競爭性的結(jié)果。相比之下,一些研究也表明,精心設計的卷積神經(jīng)網(wǎng)絡(CNNs)可以實現(xiàn)媲美ViT的先進性能,而無需借助這些新想法。在這種背景下,人們對什么是適合于計算機視覺的歸納偏差越來越感興趣。

在這里,作者提出Sequencer,一個全新且具有競爭性的架構(gòu),可以替代ViT,為分類問題提供了一個全新的視角。與ViT不同,Sequencer使用LSTM(而不是Self-Attention)對遠程依賴關(guān)系進行建模。

作者還提出了一個二維的Sequencer模塊,其中一個LSTM被分解成垂直和水平的LSTM,以提高性能。

雖然結(jié)構(gòu)簡單,但是經(jīng)過實驗表明,Sequencer的表現(xiàn)令人印象深刻:Sequencer2D-L在ImageNet-1K上僅使用54M參數(shù),實現(xiàn)84.6%的top-1精度。不僅如此,作者還證明了它在雙分辨率波段上具有良好的可遷移性和穩(wěn)健性。

1背景

Vision Transformer成功的原因被認為是由于Self-Attention建模遠程依賴的能力。然而,Self-Attention對于Transformer執(zhí)行視覺任務的有效性有多重要還不清楚。事實上,只基于多層感知器(MLPs)的MLP-Mixer被提議作為ViTs的一個有吸引力的替代方案。

此外,一些研究表明,精心設計的CNN在計算機視覺方面仍有足夠的競爭力。因此,確定哪些架構(gòu)設計對計算機視覺任務具有內(nèi)在的有效性是當前研究的一大熱點。本文通過提出一種新穎的、具有競爭力的替代方案,為這一問題提供了一個新的視角。

本文提出了Sequencer體系結(jié)構(gòu),使用LSTM(而不是Self-Attention)進行序列建模。Sequencer的宏觀架構(gòu)設計遵循ViTs,迭代地應用Token Mixing和Channel Mixing,但Self-Attention被基于LSTMs的Self-Attention層取代。特別是,Sequencer使用BiLSTM作為一個構(gòu)建塊。簡單的BiLSTM表現(xiàn)出一定的性能水平,而Sequencer可以通過使用類似Vision Permutator(ViP)的思想進一步提高。ViP的關(guān)鍵思想是平行處理垂直軸和水平軸。

作者還引入了2個BiLSTM,用于并行處理上/下和左/右方向。這種修改提高了Sequencer的效率和準確性,因為這種結(jié)構(gòu)減少了序列的長度,并產(chǎn)生一個有空間意義的感受野。

在ImageNet-1K數(shù)據(jù)集上進行預訓練時,新的Sequencer架構(gòu)的性能優(yōu)于類似規(guī)模的Swin和ConvNeXt等高級架構(gòu)。它還優(yōu)于其他無注意力和無CNN的架構(gòu),如MLP-Mixer和GFNet,使Sequencer在視覺任務中的Self-Attention具有吸引力的新替代方案。

值得注意的是,Sequencer還具有很好的領(lǐng)域穩(wěn)健性以及尺度穩(wěn)定性,即使在推理過程中輸入的分辨率增加了一倍,也能強烈防止精度退化。此外,對高分辨率數(shù)據(jù)進行微調(diào)的Sequencer可以達到比Swin-B更高的精度。在峰值內(nèi)存上,在某些情況下,Sequencer往往比ViTs和cnn更經(jīng)濟。雖然由于遞歸,Sequencer需要比其他模型更多的FLOPs,但更高的分辨率提高了峰值內(nèi)存的相對效率,提高了在高分辨率環(huán)境下的精度/成本權(quán)衡。因此,Sequencer作為一種實用的圖像識別模型也具有吸引人的特性。

2全新范式

2.1 LSTM的原理

LSTM是一種特殊的遞歸神經(jīng)網(wǎng)絡(RNN),用于建模序列的長期依賴關(guān)系。Plain LSTM有一個輸入門,它控制存儲輸入,一個控制前單元狀態(tài)的遺忘的遺忘門,以及一個輸出門,它控制當前單元狀態(tài)的單元輸出。普通LSTM的公式如下:

3c0deb4a-cd29-11ec-bce3-dac502259ad0.png

其中σ是logistic sigmoid function,是Hadamard product。

BiLSTM對于預期相互依賴的序列是有利的。一個BiLSTM由2個普通的LSTM組成。設為輸入,為反向重排。和分別是用相應的LSTM處理和得到的輸出。設為按原順序重新排列的輸出,BiLSTM的輸出如下:

3c1be47a-cd29-11ec-bce3-dac502259ad0.png

假設和具有相同的隱藏維數(shù)D,這是BiLSTM的超參數(shù)。因此,向量h的維數(shù)為二維。

2.2 Sequencer架構(gòu)

1、架構(gòu)總覽

本文用LSTM取代Self-Attention層:提出了一種新的架構(gòu),旨在節(jié)省內(nèi)存和參數(shù),同時具有學習遠程建模的能力。

3c276110-cd29-11ec-bce3-dac502259ad0.png

圖2a顯示了Sequencer體系結(jié)構(gòu)的整體結(jié)構(gòu)。Sequencer架構(gòu)以不重疊的Patches作為輸入,并將它們投影到特征圖上。Sequencer Block是Sequencer的核心組件,由以下子組件組成:

BiLSTM層可以經(jīng)濟、全局地Mixing空間信息

MLP用于Channel Mixing

當使用普通BiLSTM層時,Sequencer Block稱為Vanilla Sequencer block;當使用BiLSTM2D層作為Sequencer Block時,Sequencer Block稱為Sequencer2D block。最后一個塊的輸出通過全局平均池化層送到線性分類器。

2、BiLSTM2D layer

作者提出了BiLSTM2D層作為一種有效Mixing二維空間信息的技術(shù)。它有2個普通的BiLSTM,一個垂直的BiLSTM和一個水平的BiLSTM。

對于輸入被視為一組序列,其中是垂直方向上的Token數(shù)量,W是水平方向上的序列數(shù)量,C是通道維度。所有序列都輸入到垂直BiLSTM中,共享權(quán)重和隱藏維度D:

3c57b7de-cd29-11ec-bce3-dac502259ad0.png

用與上述相似的方式,被視為一組序列,所有序列被輸入到水平BiLSTM中,共享權(quán)重和隱藏維度D:

3c664416-cd29-11ec-bce3-dac502259ad0.png

然后將合并到中,同時將合并到。最后送入FC層。這些流程制定如下:

3c766bca-cd29-11ec-bce3-dac502259ad0.png

偽代碼如下:

3c82a8b8-cd29-11ec-bce3-dac502259ad0.png

3、架構(gòu)變體

為了比較由Sequencer 2D組成的不同深度的模型,本文準備了3種不同深度的模型:18、24和36。模型的名稱分別為Sequencer2D-S、Sequencer2D-M和Sequencer2D-L。隱藏維度設置為D=C/4。

3c913946-cd29-11ec-bce3-dac502259ad0.png

3ca309c8-cd29-11ec-bce3-dac502259ad0.png

3實驗

3.1 ImageNet-1K

3cdadf06-cd29-11ec-bce3-dac502259ad0.png

3.2 遷移學習

3cf029b0-cd29-11ec-bce3-dac502259ad0.png

3.3 穩(wěn)健性實驗

3cff1d58-cd29-11ec-bce3-dac502259ad0.png

3.4 可視化分析

一般來說,CNN具有局部化的、逐層擴展的感受野,而沒有移動窗口的ViT捕獲的是全局依賴。相比之下,作者Sequencer不清楚信息是如何處理的。因此作者計算了ResNet-50、DeiT-S和Sequencer2D-S的ERF,如圖5所示。

3d10d2c8-cd29-11ec-bce3-dac502259ad0.png

Sequencer2D-S的ERFs在所有層中形成十字形。這一趨勢使其不同于DeiT-S和ResNet-50等著名模型。更值得注意的是,在淺層中,Sequencer2D-S比ResNet-50的ERF更寬,盡管沒有DeiT那么寬。這一觀察結(jié)果證實了Sequencer中的lstm可以像預期的那樣建模長期依賴關(guān)系,并且Sequencer可以識別足夠長的垂直或水平區(qū)域。因此,可以認為,Sequencer識別圖像的方式與CNN或ViT非常不同。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1685

    瀏覽量

    45811
  • LSTM
    +關(guān)注

    關(guān)注

    0

    文章

    43

    瀏覽量

    3721

原文標題:CV全新范式 | LSTM在CV領(lǐng)域殺出一條血路,完美超越Swin與ConvNeXt等前沿算法

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    水平垂直燃燒試驗機是什么?

    水平垂直燃燒試驗機,作為種專業(yè)的測試設備,廣泛應用于材料科學領(lǐng)域,尤其是在塑料、紡織品、電子產(chǎn)品外殼等材料的阻燃性能評估中扮演著至關(guān)重要的角色。這種試驗機的核心功能在于模擬材料在火災中的行為,通過
    的頭像 發(fā)表于 07-19 13:52 ?695次閱讀
    <b class='flag-5'>水平</b><b class='flag-5'>垂直</b>燃燒試驗機是什么?

    LSTM模型的基本組成

    的梯度消失或梯度爆炸問題。LSTM通過引入三“門”控制結(jié)構(gòu)——遺忘門、輸入門和輸出門,以及記憶細胞(memory cell),實現(xiàn)了對信息的有效存儲和更新。本文將對
    的頭像 發(fā)表于 07-10 17:01 ?584次閱讀

    如何理解RNN與LSTM神經(jīng)網(wǎng)絡

    在深入探討RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡)與LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡)神經(jīng)網(wǎng)絡之前,我們首先需要明確它們
    的頭像 發(fā)表于 07-09 11:12 ?258次閱讀

    示波器如何進行光標水平垂直切換?

    示波器光標是種測量工具,用于在示波器屏幕上測量信號的電壓、時間、周期等參數(shù)。光標通常以兩條垂直水平線表示,可以移動以測量信號的特定部分。
    的頭像 發(fā)表于 05-31 16:36 ?1681次閱讀

    直線電機模組水平安裝和垂直安裝的重點區(qū)別之

    眾所周知,直線電機模組是種系統(tǒng)集成,由直線電機、導軌、滑塊、底板、結(jié)構(gòu)零構(gòu)件以及編碼器組成,驅(qū)動器屬于選配件。 當前,隨著直線電機模組技術(shù)的日益成熟,其廣泛運用于包括激光加工、噴涂、產(chǎn)品組立
    的頭像 發(fā)表于 05-28 08:14 ?691次閱讀
    直線電機模組<b class='flag-5'>水平</b>安裝和<b class='flag-5'>垂直</b>安裝的重點區(qū)別之<b class='flag-5'>一</b>

    利用深度循環(huán)神經(jīng)網(wǎng)絡對心電圖降噪

    部狀態(tài)。LSTM 單元可以通過以下方式連接更大的結(jié)構(gòu)。第一個是將單元存儲器 的輸出和單元的隱藏門連接到遺忘門的輸 入和輸出,從而形成單
    發(fā)表于 05-15 14:42

    基于毫米波的人體跟蹤和識別算法

    了RadHAR,這是利用生成的點云進行人類活動識別的框架。為了解決毫米波雷達點云稀疏性,RadHAR利用了這概念人類活動通常持續(xù)幾秒鐘以上在
    發(fā)表于 05-14 18:40

    助聽器降噪神經(jīng)網(wǎng)絡模型

    包含兩 LSTM 層,后跟全連接(FC)層和用于創(chuàng)建掩碼輸出的 sigmoid 激活層
    發(fā)表于 05-11 17:15

    STM32使用stemwin中的listview,如何加listview寬水平垂直的滾動條?

    (hItem,1); LISTVIEW_SetFixed(hItem,2); LISTVIEW_SetFixed(hItem,3); 問題二:如何加listview寬水平垂直的滾動條,像圖3DROPDOWN樣寬的下拉滾動
    發(fā)表于 05-10 06:52

    ST60A2的發(fā)射方向是垂直方向還是水平方向?

    ST60A2的發(fā)射方向是垂直方向還是水平方向
    發(fā)表于 03-29 08:06

    什么是時分復用TDM?時分復用類型 時分復用優(yōu)劣勢

    定的順序交錯傳輸。 時分復用的基本原理是根據(jù)信號的特點將其分解成若干個時間片段,然后依次將這些時間片段按照固定的順序放在起形成復合信號進行傳輸。接收端根據(jù)預先約定好的時間順序,將
    的頭像 發(fā)表于 01-16 16:03 ?1472次閱讀

    Python軸承故障診斷—短時傅里葉變換STFT簡析

    將信號分解成系列不同頻率的連續(xù)正弦波的疊加;
    的頭像 發(fā)表于 12-06 18:13 ?2342次閱讀
    Python軸承故障診斷—短時傅里葉變換STFT簡析

    基于CNN-LSTM網(wǎng)絡的電力負荷預測

    為了及時掌握電力負荷的變動信息,就需要對電力負荷進行準確預測。鑒于此,探究出種CNN和LSTM的組合模型來預測日到周的電力短期負荷波動情況。CNN模型負責從輸入信息中提取特征,
    的頭像 發(fā)表于 11-09 14:13 ?3252次閱讀
    基于CNN-<b class='flag-5'>LSTM</b>網(wǎng)絡的電力負荷預測

    Arduino篇—RGB彩燈的應用控制

    光的色散:太陽光通過三菱鏡,分解成彩色光帶的現(xiàn)象,是1666年由英國物理學家牛頓首先發(fā)現(xiàn)的。
    的頭像 發(fā)表于 11-01 11:29 ?2823次閱讀
    Arduino篇—RGB彩燈的應用控制

    TFT Crosstalk分析 幾種水平垂直Crosstalk的可能發(fā)生的原因

    由于TFT LCD 的架構(gòu),是以像素在水平垂直方向上展開成陣列,因此TFT LCD 中所發(fā)生的Crosstalk 現(xiàn)象,也會是水平或是垂直的,以下舉出幾種
    的頭像 發(fā)表于 10-30 10:48 ?2953次閱讀
    TFT Crosstalk分析 幾種<b class='flag-5'>水平</b>和<b class='flag-5'>垂直</b>Crosstalk的可能發(fā)生的原因