本周的重要論文包括來自谷歌大腦的研究團隊提出了一種舍棄卷積和自注意力且完全使用多層感知機(MLP)的視覺網(wǎng)絡架構(gòu),在 ImageNet 數(shù)據(jù)集上實現(xiàn)了媲美 CNN 和 ViT 的性能表現(xiàn);清華大學圖形學實驗室 Jittor 團隊提出了一種新的注意機制,通過控制記憶單元的大小,External-attention 可以輕松實現(xiàn)線性的復雜度等研究。
論文 1:MLP-Mixer: An all-MLP Architecture for Vision
摘要:計算機視覺的發(fā)展史證明,規(guī)模更大的數(shù)據(jù)集加上更強的計算能力往往能夠促成范式轉(zhuǎn)變。雖然卷積神經(jīng)網(wǎng)絡已經(jīng)成為計算機視覺領域的標準,但最近一段時間,基于自注意力層的替代方法 Vision Transformer(ViT)實現(xiàn)新的 SOTA 性能。從技術(shù)上講,ViT 模型延續(xù)了長久以來去除模型中手工構(gòu)建特征和歸納偏置的趨勢,并進一步依賴基于原始數(shù)據(jù)的學習。
近日,原 ViT 團隊提出了一種不使用卷積或自注意力的 MLP-Mixer 架構(gòu)(簡稱 Mixer),這是一種頗具競爭力并且在概念和技術(shù)上都非常簡單的替代方案。Mixer 架構(gòu)完全基于在空間位置或特征通道重復利用的多層感知機(MLP),并且僅依賴于基礎矩陣乘法運算、數(shù)據(jù)布局變換(如 reshape 和 transposition)和非線性層。
JAX/Flax 編寫的 MLP-Mixer 代碼。
推薦:CV 領域網(wǎng)絡架構(gòu)的演變從 MLP 到 CNN 到 Transformer 再回到 MLP,真是太有意思了。
論文 2:Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks
摘要:清華大學圖形學實驗室 Jittor 團隊提出了一種新的注意機制,稱之為「External Attention」,基于兩個外部的、小的、可學習的和共享的存儲器,只用兩個級聯(lián)的線性層和歸一化層就可以取代了現(xiàn)有流行的學習架構(gòu)中的「Self-attention」,揭示了線性層和注意力機制之間的關(guān)系。自注意力機制一個明顯的缺陷在于計算量非常大,存在一定的計算冗余。通過控制記憶單元的大小,External-attention 可以輕松實現(xiàn)線性的復雜度。
Self Attention 和 External Attention 的區(qū)別。
推薦:External Attention 的部分計圖代碼已經(jīng)在 Github 開源,后續(xù)將盡快開源全部計圖代碼。
論文 3:Learning Skeletal Articulations with Neural Blend Shapes
摘要:該論文由北京大學陳寶權(quán)教授研究團隊、北京電影學院未來影像高精尖創(chuàng)新中心、Google Research、特拉維夫大學以及蘇黎世聯(lián)邦理工學院合作,針對骨骼驅(qū)動的模型動畫的高質(zhì)量自動化生成進行改進,提出了神經(jīng)融合形狀技術(shù)。實驗證明,該方法顯著減少了已有方法中需要的人工干預,大大提升了生成動畫的質(zhì)量。
具體而言,為了簡化骨骼搭建和蒙皮權(quán)重綁定的過程、高效利用動作捕捉數(shù)據(jù)以及生成高質(zhì)量的動畫,研究者開發(fā)了一套能生成具有指定結(jié)構(gòu)的骨骼以及精準綁定權(quán)重的神經(jīng)網(wǎng)絡。加以他們提出的神經(jīng)融合形狀(neural blend shapes)技術(shù),研究者實現(xiàn)了實時高質(zhì)量三維人物模型動畫的端到端自動生成。
框架概覽。
推薦:該論文已被計算機圖形學頂級會議 SIGGRAPH 2021 接收。
論文 4:A Survey of Modern Deep Learning based Object Detection Models
摘要:在本文中,來自阿斯隆理工學院的研究者概述了基于深度學習的目標檢測器的最新發(fā)展,提供了用于檢測的基準數(shù)據(jù)集和評估指標的簡要概述以及用于識別任務的主要主干架構(gòu)。
文章結(jié)構(gòu)。
推薦:基于現(xiàn)代深度學習的目標檢測模型綜述。
論文 5:Total Relighting: Learning to Relight Portraits for Background Replacement
摘要:在人像摳圖中,前景預測背景替換是至關(guān)重要的組成部分,此前也出現(xiàn)過各種效果不錯的摳圖方法,如商湯等提出的只需單張圖像、單個模型的方法 MODNet、華盛頓大學單塊 GPU 實現(xiàn) 4K 分辨率每秒 30 幀的 Background Matting 2.0 等。這些方法或多或少都有其局限性。
近日,來自谷歌的幾位研究者提出了一種全新的人像重照明(portrait relighting)和背景替換系統(tǒng),該系統(tǒng)不僅保留了高頻邊界細節(jié),并精確地合成了目標人像在新照明下的外觀,從而為任何所需場景生成逼真的合成圖像。該研究的亮點是通過前景蒙版(alpha matting)、重照明(relighting)和合成(compositing)進行前景估計。
推薦:該論文已被 SIGGRAPH 2021 會議接收。
論文 6:Graph Learning: A Survey
摘要:本文是對圖學習的最全面綜述,重點關(guān)注四類已有的圖學習方法,包括圖信號處理、矩陣分解、隨機游走和深度學習,回顧了采用這四類方法的主要模型和算法。此外,研究者探討了文本、圖像、科學、知識圖譜和組合優(yōu)化等領域的圖學習應用。本文作者來自澳大利亞聯(lián)邦大學、大連理工、莫納什大學和亞利桑那州立大學。
推薦:最新圖機器學習論文綜述。
論文 7:Locate then Segment: A Strong Pipeline for Referring Image Segmentation
摘要:如何通過自然語言定位并分割出場景中的目標物體?比如給定一張圖片,語言指示 「分割出穿白色襯衫的人」。這個任務在學術(shù)界叫做指代性物體分割(Referring Image Segmentation)。目前指代性分割的工作通常著重于設計一種隱式的遞歸特征交互機制用于融合視覺 - 語言特征來直接生成最終的分割結(jié)果,而沒有顯式建模被指代物體的位置。
為了強調(diào)語言描述的指代作用,來自中科院自動化所、字節(jié)跳動的研究者將該任務解耦為先定位再分割的方案(LTS, Locate then Segment),它在直觀上也與人類的視覺感知機制相同。比如給定一句語言描述,人們通常首先會注意相應的目標圖像區(qū)域,然后根據(jù)對象的環(huán)境信息生成關(guān)于對象的精細分割結(jié)果。該方法雖然很簡單但效果較好。在三個流行的基準數(shù)據(jù)集上,該方法大幅度優(yōu)于所有以前的方法。這個框架很有希望作為指代性分割的通用框架。
編輯:jq
-
gpu
+關(guān)注
關(guān)注
28文章
4678瀏覽量
128612 -
機器學習
+關(guān)注
關(guān)注
66文章
8356瀏覽量
132324 -
視覺感知
+關(guān)注
關(guān)注
0文章
44瀏覽量
3176
原文標題:7 Papers & Radios | CV架構(gòu)回歸多層感知機;自動生成模型動畫
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論