0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在時空表示學習框架中使用 MLP 所面臨的挑戰(zhàn)

lhl545545 ? 來源:機器之心 ? 作者:機器之心 ? 2022-09-05 14:42 ? 次閱讀

美圖影像研究院(MT Lab)與新加坡國立大學提出高效的 MLP(多層感知機模型)視頻主干網絡,用于解決極具挑戰(zhàn)性的視頻時空建模問題。該方法僅用簡單的全連接層來處理視頻數據,提高效率的同時有效學習了視頻中細粒度的特征,進而提升了視頻主干網絡框架的精度。此外,將此網絡適配到圖像域(圖像分類分割),也取得了具有競爭力的結果。

0631a450-2c63-11ed-ba43-dac502259ad0.png

引言

由于 Vision Transformer (ViT)[1] 的開創(chuàng)性工作,基于注意力的架構在各種計算機視覺任務中顯示出強大的能力,從圖像域到視頻域都取得了良好的效果。然而近期的研究表明,自注意力可能并不重要,因其可以被簡單的多層感知器 (MLP) 取代,目前通過替代注意力框架的方法已經在圖像域任務上開發(fā)了許多類似 MLP 的架構,且取得了可喜的成果。但在視頻域該應用仍屬空白,因此是否有可能設計一個通用的 MLP 視頻域架構成為受到關注的新問題。

美圖影像研究院(MT Lab)聯合新加坡國立大學 Show Lab 提出了一種 MLP 視頻主干網絡,實現了在視頻分類上的高效視頻時空建模。該網絡模型在空間上提出 MorphFC,在早期層關注局部細節(jié),隨著網絡的加深,逐漸轉變?yōu)閷h程信息進行建模,從而克服了當前 CNN 和 MLP 模型只能進行局部或者全局建模的問題。在時間上,該網絡模型引入了時間路徑來捕獲視頻中的長期時間信息,將所有相同空間位置幀的像素進行連接,并合并為一個塊。同時,每個塊都會經過全連接層處理得到一個新的塊。

基于空間和時間上的建模,研究者們廣泛探索了建立視頻主干的各種方法,最終按照串聯的順序依次對空間和時間信息進行建模,并以高效的時空表示學習框架表示。該網絡模型首次提出不借助卷積和自注意力機制,僅用全連接層進行高效的視頻時空建模的方法,對比之前的視頻 CNN 和 Transformer 架構,該網絡模型在提升精度的同時還降低了計算量。此外,將此網絡適配到圖像域(圖像分類分割),也取得了具有競爭力的結果。該論文目前已被國際會議 ECCV 2022 接收。

背景介紹

由于 MLP 模型尚未在視頻領域進行應用,研究者們首先分析了在時空表示學習框架中使用 MLP 所面臨的挑戰(zhàn)。

從空間角度上看,當前的 MLP 模型缺乏對語義細節(jié)的深刻理解。這主要是因為它們在空間中的所有令牌上全局操作 MLP,同時忽略了分層學習視覺表征(如下圖 1 所示)。從時間角度上看,學習視頻中幀的長期依賴關系目前基于視頻的 Transformers 來實現,但計算時間成本巨大。因此,如何有效地利用連接層替換遠程聚合的自注意力對節(jié)省計算時間至關重要。

圖 1:特征可視化

為了應對這些挑戰(zhàn),研究者們提出了一種高效的 MLP 視頻表示學習架構,即MorpMLP,它由 MorphFCs 和 MorphFCt 兩個關鍵層組成。研究者們沿著長和寬的方向逐漸擴大了感受野,使得 MorphFC 可以有效地捕捉空間中的核心語義(如下圖 2 所示)。

067e5642-2c63-11ed-ba43-dac502259ad0.png

圖 2:操作概覽

這種漸進式的模式與現有的 MLP 模型設計相比,在空間建模方面帶來了以下兩個優(yōu)勢。

首先,它可以通過從小到大的空間區(qū)域操作全連接層,學習分層交互以發(fā)現判別性細節(jié);

其次,這種從小到大的區(qū)域建模可以有效減少用于空間建模的全連接層的操作計算量。

此外,MorphFCt 可以自適應地捕獲對幀的時序遠程依賴。研究者們將所有幀中每個空間位置的特征連接到一個時間塊中,通過這種方式,全連接層可以有效地處理每個時間塊,并對長期時間依賴進行建模。最后,通過依次排列 MorphFC 和 MorphFCt 構建一個 MorphMLP 塊,并將這些塊堆疊到通用的 MorphMLP 主干網絡中進行視頻建模。

一方面,這種分層方式可以擴大 MorphFCs 和 MorphFCt 的協作能力,用以學習視頻中復雜的時空交互;另一方面,這種多尺度和多維度的分解方法在準確性和效率之間取得了更好的平衡。MorphMLP 是首個為視頻領域構建的高效 MLP 架構,與此前最先進的視頻模型相比,該模型顯著減少了計算量且精度更高。

MorphMLP 的時空建模模型

空間建模

如上所述,挖掘核心語義對于視頻識別至關重要。典型的 CNN 和以前的 MLP-Like 架構只關注局部或全局信息建模,因此它們無法做到這一點。

為了應對這一挑戰(zhàn),研究者們提出了一種新穎的 MorphFC 層,它可以分層擴展全連接層的感受野,使其從小區(qū)域到大區(qū)域運行,按水平和垂直方向獨立地處理每一幀。以水平方向處理為例(如下圖 3 中藍色塊部分),給定某一幀,首先沿水平方向拆分該幀形成塊,并將每個塊沿通道維度分成多個組,以降低計算成本。

接下來,將每個組展平為一維向量,并應用全連接層來進行特征轉換。特征轉換完成后,重塑所有組回到該幀原來的維度,垂直方向處理方式相同(如圖 3 中綠色塊部分)。除了沿水平和垂直方向拆分,還應用了一個全連接層來單獨處理每個空間位置,以保證組與組之間能夠沿著通道維度進行通信。

最后,再將水平、垂直和通道特征相加。隨著網絡的加深,塊長度分層增加,從而使得全連接層能夠從小空間區(qū)域到大空間區(qū)域逐步發(fā)現更多核心語義。

069497ae-2c63-11ed-ba43-dac502259ad0.png

圖 3:空間建模

時間建模

除了水平和垂直通路外,研究者們還引入了另一個時間通路,旨在使用簡單的全連接層以低計算成本捕獲長期時間信息。

具體而言,給定輸入視頻后,先沿通道維度分成幾個組以降低計算成本,再將每個空間位置中所有幀的特征連接成一個塊,接著應用全連接層來轉換時間特征,最后將所有塊重塑回原始維度。通過這種方式,全連接層可以簡單地聚合塊中沿時間維度的依賴關系,以對時間進行建模(如下圖 4 中橙色塊部分)。

06ad8034-2c63-11ed-ba43-dac502259ad0.png

圖 4:空間建模

時空建模

將時間和空間的全連接層串聯在一起,以實現更穩(wěn)定的時空優(yōu)化收斂并降低計算復雜度,最終構建完成利用全連接層提取視頻特征的主干網絡,具體如下圖 5 所示。在此基礎上,只需簡單地丟棄時間維度就可以完成到圖像域的適配。

06d54cfe-2c63-11ed-ba43-dac502259ad0.png

圖 5:網絡架構

結果

06ef6184-2c63-11ed-ba43-dac502259ad0.png

表 1:在 k400 數據集上的準確率和計算量表現

0740a954-2c63-11ed-ba43-dac502259ad0.png

表 2:在 Something-Something 數據集上的準確率和計算量表現

0769fc78-2c63-11ed-ba43-dac502259ad0.png

表 3:圖像領域適配在 ImageNet 上的準確率和計算量表現

07c5643c-2c63-11ed-ba43-dac502259ad0.png

表 4:圖像分割表現

總結

在本文中,研究者們提出了一種用于視頻表示學習的無自注意力、類似 MLP 的主干網絡 MorphMLP。該方法能夠逐步發(fā)現核心語義并捕獲長期時間信息,這也是第一個在視頻領域應用 MLP 架構的主干網絡。實驗表明,這種無自注意力模型可以與基于自注意力的架構一樣強大,甚至優(yōu)于基于自注意力的架構。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 計算機視覺
    +關注

    關注

    8

    文章

    1685

    瀏覽量

    45811
  • 網絡模型
    +關注

    關注

    0

    文章

    43

    瀏覽量

    8387
  • MLP
    MLP
    +關注

    關注

    0

    文章

    57

    瀏覽量

    4183

原文標題:ECCV 2022 | MorphMLP:一種用于視頻時空建模的MLP類主干網絡

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    移動電視射頻技術面臨什么挑戰(zhàn)

    隨著數字移動電視不斷向移動設備的應用轉移,應用和系統工程師正面臨著各種挑戰(zhàn),比如外形尺寸的小型化、更低的功耗以及信號完整性。對現有移動電視標準的研究重點將放在了DVB-H上。本文將從系統角度討論DVB-H接收器設計
    發(fā)表于 06-03 06:28

    DVB-H接收器設計面臨的機遇和挑戰(zhàn)討論

    隨著數字移動電視不斷向移動設備的應用轉移,應用和系統工程師正面臨著各種挑戰(zhàn),比如外形尺寸的小型化、更低的功耗以及信號完整性。對現有移動電視標準的研究重點將放在了DVB-H上。本文將從系統角度討論DVB-H接收器設計
    發(fā)表于 07-08 07:35

    電力系統設計面臨什么挑戰(zhàn)?

    電力系統設計工程師們正面臨著較之以往更大的挑戰(zhàn)。更加復雜的傳感算法、最新的能源效率挑戰(zhàn)和新一代高級傳感器的應用,都意味著電力設計師們需要學習比以往更加廣泛的技能,同時不斷吸收新的設計思
    發(fā)表于 08-20 07:33

    如何應對傳感器信號調節(jié)面臨挑戰(zhàn)?

    所有類型的傳感器在過去幾年中都有了很大發(fā)展,而且與之前的產品相比,更加精確也更穩(wěn)定。有的時候,這些傳感器使用起來并不簡單。面向這些傳感器的調節(jié)電路設計師,經常發(fā)現此類電路的開發(fā)多少有些令人頭疼。然而,只需少量基礎知識并使用新的在線傳感器設計工具,這個過程面臨的很多挑戰(zhàn)都能
    發(fā)表于 10-17 06:27

    精確測量阻抗面臨挑戰(zhàn)有哪些

    精確測量阻抗面臨挑戰(zhàn)
    發(fā)表于 01-27 07:34

    調試速度高達幾個Gb每秒的連接時面臨挑戰(zhàn)

    本文將討論信號集成和硬件工程師設計或調試速度高達幾個Gb每秒的連接時面臨挑戰(zhàn)。無論是進行下一代高分辨率視頻顯示、醫(yī)學成像、數據存儲或是
    發(fā)表于 03-01 10:17

    電子系統設計面臨挑戰(zhàn)是什么

    電子系統設計面臨挑戰(zhàn)是什么什么是高速電路?高速電路面臨的問題怎么解決?
    發(fā)表于 04-26 06:55

    LED汽車領域應用面臨哪些挑戰(zhàn)?

    控制LED的方法有哪些?LED汽車領域應用面臨哪些挑戰(zhàn)?LED主要應用于哪些領域?
    發(fā)表于 05-11 06:08

    DVB-H接收器設計面臨的機遇和挑戰(zhàn)是什么?

    本文將從系統角度討論DVB-H接收器設計面臨的機遇和挑戰(zhàn),并重點介紹射頻前端。
    發(fā)表于 06-02 06:35

    5G終端天線研發(fā)面臨的主要挑戰(zhàn)有哪些?如何去解決?

    5G終端天線研發(fā)面臨的主要挑戰(zhàn)有哪些?哪些關鍵技術能層層突破這些困難?
    發(fā)表于 06-30 06:11

    復雜信號內部捕獲面臨的常見挑戰(zhàn)分析

    本文將討論復雜的信號內部捕獲關心的事件面臨的某些常見挑戰(zhàn),以及怎樣使用可視觸發(fā)功能克服這些挑戰(zhàn)。
    發(fā)表于 01-21 17:09 ?2235次閱讀

    討論設計之初面臨挑戰(zhàn)及解決方案

    觀看Ian Fountain和Jarrod Slocum討論嵌入式軟件驗證面臨挑戰(zhàn)。設計階段,通過創(chuàng)建軟件、系統和環(huán)境模擬,你可以更快地設計、原型和部署系統。 NI Veri
    的頭像 發(fā)表于 06-25 00:27 ?3109次閱讀

    LiDAR系統面臨的五大挑戰(zhàn)及如何應對

    本文探討了當今LiDAR系統面臨的五大挑戰(zhàn)以及如何應對這些挑戰(zhàn)。一旦消除這些障礙,LiDAR將發(fā)揮廣泛的應用潛力。
    的頭像 發(fā)表于 01-22 10:38 ?7372次閱讀

    一個通用的時空預測學習框架

    。這篇論文介紹了一種用于高效時空預測的時間注意力單元(Temporal Attention Unit,TAU)。該方法改進了現有框架,對時間和空間上的依賴關系分別學習,提出了時間維度上的可并行化時序注意力單元
    的頭像 發(fā)表于 06-19 10:27 ?1255次閱讀
    一個通用的<b class='flag-5'>時空</b>預測<b class='flag-5'>學習</b><b class='flag-5'>框架</b>

    深度學習算法mlp介紹

    計算,深度學習模型可以自動學習輸入數據的內在特征表示,從而實現各種計算任務。 MLP的本質是一種前饋(feedforward)神經網絡模型,由多個神經元層組成。網絡的輸入層接受原始數據
    的頭像 發(fā)表于 08-17 16:11 ?3842次閱讀