0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種用于自監(jiān)督單目深度估計(jì)的輕量級(jí)CNN和Transformer架構(gòu)

3D視覺(jué)工坊 ? 來(lái)源:泡泡機(jī)器人SLAM ? 2023-03-14 17:54 ? 次閱讀

摘要

大家好,今天為大家?guī)?lái)的文章:Lite-Mono:A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation 自監(jiān)督單目深度估計(jì)不需要地面實(shí)況訓(xùn)練,近年來(lái)受到廣泛關(guān)注。

設(shè)計(jì)輕量級(jí)但有效的模型非常有意義,這樣它們就可以部署在邊緣設(shè)備上。許多現(xiàn)有的體系結(jié)構(gòu)受益于以模型大小為代價(jià)使用更重的主干。

在本文中,我們實(shí)現(xiàn)了與輕量級(jí)ar結(jié)構(gòu)相當(dāng)?shù)慕Y(jié)果。具體來(lái)說(shuō),我們研究了cnn和transformer的有效結(jié)合,并設(shè)計(jì)了一個(gè)混合架構(gòu)Lite-Mono。提出了連續(xù)擴(kuò)展卷積(CDC)模塊和局部全局特征交互(LGFI)模塊。

前者用于提取豐富的多尺度局部特征,后者利用自注意機(jī)制將長(zhǎng)范圍的全局信息編碼到特征中。實(shí)驗(yàn)證明,我們的完整模型在精度上優(yōu)于Monodepth2,可訓(xùn)練參數(shù)減少了80%左右。

c0a807c4-c24b-11ed-bfe3-dac502259ad0.png

圖1 我們的完整模型Lite-Mono的參數(shù)比Monodepth2[15]和R-MSFM[44]少,但生成的深度圖更準(zhǔn)確。

主要工作與貢獻(xiàn)

綜上所述,我們的貢獻(xiàn)如下:

我們提出了一種新的輕量級(jí)架構(gòu),稱為L(zhǎng)ite-Mono,用于自監(jiān)督單目深度估計(jì)。我們證明了它的有效性與模型大小和FLOPs

與競(jìng)爭(zhēng)較大的模型相比,所提出的架構(gòu)在KITTI[13]數(shù)據(jù)集上顯示出更高的精度。它用最少的可訓(xùn)練參數(shù)達(dá)到了最先進(jìn)的水平。在Make3D[31]數(shù)據(jù)集上進(jìn)一步驗(yàn)證了模型的泛化能力。為了驗(yàn)證不同設(shè)計(jì)方案的有效性,還進(jìn)行了額外的消融實(shí)驗(yàn)

在Nvidia Titan XP和Jetson Xavier平臺(tái)上測(cè)試了該方法的推理時(shí)間,驗(yàn)證了該方法在模型復(fù)雜度和推理速度之間的良好平衡。

算法流程

1.總體結(jié)構(gòu)

多篇論文證明,一個(gè)好的編碼器可以提取更多有效的特征,從而改善最終結(jié)果[15,17,42]。本文著重設(shè)計(jì)了一種輕量級(jí)編碼器,可以對(duì)輸入圖像中的有效特征進(jìn)行編碼。圖2顯示了建議的體系結(jié)構(gòu)。它由一個(gè)編解碼器DepthNet(章節(jié)3.2)和一個(gè)PoseNet(章節(jié)3.3)組成。DepthNet估計(jì)輸入圖像的多尺度反深度圖,PoseNet估計(jì)兩個(gè)相鄰幀之間的相機(jī)運(yùn)動(dòng)。然后生成重建目標(biāo)圖像,計(jì)算損失以優(yōu)化模型(章節(jié)3.4)。

增強(qiáng)局部特特征:使用較淺的網(wǎng)絡(luò)而不是較深的網(wǎng)絡(luò)可以有效地減小模型的大小。如前所述,淺層cnn的接受野非常有限,而使用擴(kuò)張卷積[41]有助于擴(kuò)大接受野。通過(guò)疊加提出的連續(xù)擴(kuò)張卷積(CDC),網(wǎng)絡(luò)能夠在更大的區(qū)域“觀察”輸入,同時(shí)不引入額外的訓(xùn)練參數(shù)。

c1171ff6-c24b-11ed-bfe3-dac502259ad0.png

圖2 擬議的Lite-Mono概述。我們的Lite-Mono有一個(gè)用于深度預(yù)測(cè)的編碼器-解碼器DepthNet,以及一個(gè)常用的PoseNet[15,44]來(lái)估計(jì)相鄰單目幀之間的姿勢(shì)。深度網(wǎng)絡(luò)的編碼器由四個(gè)階段組成,我們提出使用連續(xù)擴(kuò)張卷積(CDC)模塊和局部全局特征交互(LGFI)模塊來(lái)提取豐富的層次特征。這些模塊的詳細(xì)信息如圖3所示。

低計(jì)算量的全局信息:增強(qiáng)的局部特征不足以在沒(méi)有Transform的幫助下學(xué)習(xí)輸入的全局表示來(lái)建模遠(yuǎn)程信息。原Transformer[8]中的MHSA模塊的計(jì)算復(fù)雜度與輸入維數(shù)呈線性關(guān)系,因此限制了輕量化模型的設(shè)計(jì)。局部全局特征交互(Local-Global Features Interaction, LGFI)模塊采用跨協(xié)方差注意力[1]來(lái)計(jì)算沿特征通道的注意力,而不是跨空間維度計(jì)算注意力

c13c8746-c24b-11ed-bfe3-dac502259ad0.png

圖3 所提出的連續(xù)擴(kuò)展卷積(CDC)模塊和局部全局特征交互(LGFI)模塊的結(jié)構(gòu)。在每個(gè)階段,不同擴(kuò)張速率的CDC模塊重復(fù)N次。

2.DepthNet

2.1 編碼器

深度編碼器。Lite-Mono在四個(gè)階段聚合了多尺度特征。大小為H ×W ×3的輸入圖像首先被輸入到卷積干中,在那里圖像被3 ×3卷積向下采樣。接下來(lái)進(jìn)行兩個(gè)額外的3個(gè)×3卷積(stride =1)進(jìn)行局部特征提取,我們得到大小為H2 ×W2 ×C1的特征映射。

在第二階段,將特征與池化后的三通道輸入圖像進(jìn)行拼接,再使用stride =2的3 ×3卷積對(duì)特征圖進(jìn)行下采樣,得到大小為H 4 H 4 ×W4 ×C2的特征圖。在下采樣層中,將特征與平均池化的輸入圖像進(jìn)行拼接,可以減少特征尺寸減小所造成的空間信息損失,這是受到ESPNetv2[3]的啟發(fā)。然后,我們使用提出的連續(xù)擴(kuò)張卷積(CDC)模塊和局部-全局特征交互(LGFI)模塊來(lái)學(xué)習(xí)豐富的分層特征表示。

2.2 連續(xù)擴(kuò)張卷積(CDC

連續(xù)擴(kuò)張卷積(CDC)。提出的CDC模塊利用擴(kuò)張卷積提取多尺度局部特征。不同于只在網(wǎng)絡(luò)的最后一層使用并行擴(kuò)張卷積模塊[6],我們?cè)诿總€(gè)階段插入幾個(gè)連續(xù)的不同擴(kuò)張速率的擴(kuò)張卷積,以實(shí)現(xiàn)足夠的多尺度上下文聚合。

c15d1600-c24b-11ed-bfe3-dac502259ad0.png

2.3局部全局特征交互(LGFI)

給定一個(gè)維度為H的輸入特征映射X ×W ×C,我們可以將其投影到相同維度的查詢Q =XWq,鍵K =XWk,值V =XWv,其中Wq、Wk和Wv是權(quán)重矩陣。我們使用交叉協(xié)方差注意[1]來(lái)增強(qiáng)輸入X:

c16d35e4-c24b-11ed-bfe3-dac502259ad0.png

2.4 解碼器

不同于使用復(fù)雜的上采樣方法[44]或引入額外的注意模塊[3],我們使用了從[15]改編而來(lái)的深度解碼器。作為 如圖2所示,它使用雙線性上采樣來(lái)增加空間維度,并使用卷積層來(lái)連接編碼器的三個(gè)階段的特征。每個(gè)向上采樣塊跟隨一個(gè)預(yù)測(cè)頭,分別以全分辨率、12分辨率和14分辨率輸出逆深度圖。

c17efe28-c24b-11ed-bfe3-dac502259ad0.png

圖3 網(wǎng)絡(luò)結(jié)構(gòu)表

實(shí)驗(yàn)結(jié)果
c0982430-c24b-11ed-bfe3-dac502259ad0.png ? c1b8af92-c24b-11ed-bfe3-dac502259ad0.png

表1我們的模型與KITTI基準(zhǔn)上使用特征分割[9]的一些最近的代表性方法的比較。除非另有說(shuō)明,否則所有輸入圖像都將調(diào)整為640 ×192。最佳和次優(yōu)結(jié)果分別用粗體和下劃線突出顯示?!盡”:KITTI單目視頻,“M+Se”:單目視頻+語(yǔ)義分割,“*”:輸入分辨率1024 ×320,“My”:未經(jīng)ImageNet預(yù)訓(xùn)練[7]。

c1dade64-c24b-11ed-bfe3-dac502259ad0.png

圖4 KITTI的定性結(jié)果。我們分別展示了Monodepth2 [15],R-MSFM3 [44],R-MSFM6 [44],Lite-Mono-small(我們的)和Lite-Mono(我們的)生成的一些深度圖。Monodepth2和R-MSFM的接受域有限,因此它們的深度預(yù)測(cè)有些不準(zhǔn)確。相反,我們的模型可以產(chǎn)生更好的結(jié)果

c2221266-c24b-11ed-bfe3-dac502259ad0.png

圖5 Make3D數(shù)據(jù)集上的定性結(jié)果。我們比較Monodepth2[15]和R-MSFM[44]。我們的模型可以感知不同大小的物體 圖3KITTI數(shù)據(jù)集上的DRAFT預(yù)測(cè)示例。從(a)輸入的RGB圖像中,我們顯示(b)光流估計(jì),(c)深度估計(jì),和(d)從深度和場(chǎng)景流估計(jì)中預(yù)測(cè)的光流 。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • RGB
    RGB
    +關(guān)注

    關(guān)注

    4

    文章

    785

    瀏覽量

    58204
  • 編解碼器
    +關(guān)注

    關(guān)注

    0

    文章

    234

    瀏覽量

    24133
  • CDC
    CDC
    +關(guān)注

    關(guān)注

    0

    文章

    56

    瀏覽量

    17718

原文標(biāo)題:CVPR 2023 | Lite-Mono:一種用于自監(jiān)督單目深度估計(jì)的輕量級(jí)CNN和Transformer架構(gòu)

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于transformer監(jiān)督學(xué)習(xí)的路面異常檢測(cè)方法分享

    鋪設(shè)異常檢測(cè)可以幫助減少數(shù)據(jù)存儲(chǔ)、傳輸、標(biāo)記和處理的壓力。本論文描述了一種基于Transformer監(jiān)督學(xué)習(xí)的新方法,有助于定位異常區(qū)域。
    的頭像 發(fā)表于 12-06 14:57 ?1215次閱讀
    基于<b class='flag-5'>transformer</b>和<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)的路面異常檢測(cè)方法分享

    輕量級(jí)深度學(xué)習(xí)網(wǎng)絡(luò)是什么

    輕量級(jí)深度學(xué)習(xí)網(wǎng)絡(luò)概覽
    發(fā)表于 04-23 14:53

    一種輕量級(jí)的flashKV數(shù)據(jù)存儲(chǔ)方案分享

    tinyFlash一種輕量級(jí)的flash KV數(shù)據(jù)存儲(chǔ)方案Github 地址:https://github.com/ospanic/tinyFlash設(shè)計(jì)原理本方案采用兩個(gè)扇區(qū)輪流使用的方法存儲(chǔ)
    發(fā)表于 12-20 06:08

    基于深度估計(jì)的紅外圖像彩色化方法_戈曼

    基于深度估計(jì)的紅外圖像彩色化方法_戈曼
    發(fā)表于 03-17 10:13 ?0次下載

    基于圖像的深度估計(jì)算法,大幅度提升基于圖像深度估計(jì)的精度

    雙目匹配需要把左圖像素和右圖中其對(duì)應(yīng)像素進(jìn)行匹配,再由匹配的像素差算出左圖像素對(duì)應(yīng)的深度,而之前的深度估計(jì)方法均不能顯式引入類似的幾何約
    的頭像 發(fā)表于 06-04 15:46 ?3.5w次閱讀
    基于<b class='flag-5'>單</b><b class='flag-5'>目</b>圖像的<b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>算法,大幅度提升基于<b class='flag-5'>單</b><b class='flag-5'>目</b>圖像<b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>的精度

    深度探析7大類深度CNN創(chuàng)新架構(gòu)

    深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種特殊類型的神經(jīng)網(wǎng)絡(luò),在各種競(jìng)賽基準(zhǔn)上表現(xiàn)出了當(dāng)前最優(yōu)結(jié)果。本綜述將最近的 CNN 架構(gòu)創(chuàng)新分為七個(gè)不同的類別
    的頭像 發(fā)表于 01-27 11:01 ?4135次閱讀
    <b class='flag-5'>深度</b>探析7大類<b class='flag-5'>深度</b><b class='flag-5'>CNN</b>創(chuàng)新<b class='flag-5'>架構(gòu)</b>

    一種輕量級(jí)的通信協(xié)議 - MAVLink

    一種輕量級(jí)的通信協(xié)議 - MAVLink
    的頭像 發(fā)表于 03-12 14:14 ?4422次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>輕量級(jí)</b>的通信協(xié)議 -  MAVLink

    一種輕量級(jí)時(shí)間卷積網(wǎng)絡(luò)設(shè)計(jì)方案

    時(shí)間卷積網(wǎng)絡(luò)(TCN)在處理時(shí)間序列預(yù)測(cè)問(wèn)題時(shí)存在計(jì)算量大和參數(shù)冗余問(wèn)題,導(dǎo)致其難以應(yīng)用于存儲(chǔ)空間和計(jì)算能力受限的手機(jī)、平板電腦、筆記本電腦等移動(dòng)終端。為此,設(shè)計(jì)一種輕量級(jí)時(shí)間卷積網(wǎng)絡(luò)(L-TCN
    發(fā)表于 03-22 16:04 ?6次下載
    <b class='flag-5'>一種</b><b class='flag-5'>輕量級(jí)</b>時(shí)間卷積網(wǎng)絡(luò)設(shè)計(jì)方案

    采用監(jiān)督CNN進(jìn)行圖像深度估計(jì)的方法

    為了提高利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)圖像深度信息的精確度,提出了一種采用監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行
    發(fā)表于 04-27 16:06 ?13次下載
    采用<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>CNN</b>進(jìn)行<b class='flag-5'>單</b>圖像<b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>的方法

    一種新的輕量級(jí)視覺(jué)Transformer

    既然都叫 EfficientFormerV2,那必然是在上版的基礎(chǔ)上改進(jìn)了,如圖(a)所示。沒(méi)什么特別新奇的,個(gè)很常規(guī)的 ViT 型架構(gòu)。下面的圖表是作者統(tǒng)計(jì)的實(shí)驗(yàn)改進(jìn)結(jié)果
    的頭像 發(fā)表于 12-19 14:00 ?1121次閱讀

    介紹第個(gè)結(jié)合相對(duì)和絕對(duì)深度的多模態(tài)深度估計(jì)網(wǎng)絡(luò)

    深度估計(jì)分為兩個(gè)派系,metric depth estimation(度量深度估計(jì),也稱絕對(duì)
    的頭像 發(fā)表于 03-21 18:01 ?4467次閱讀

    一種端到端的立體深度感知系統(tǒng)的設(shè)計(jì)

    ? ? 本文提出了一種生產(chǎn)化的端到端立體深度感知系統(tǒng)設(shè)計(jì),可以完成預(yù)處理、在線立體校正和立體深度估計(jì),并支持糾偏失敗后的
    的頭像 發(fā)表于 05-26 16:12 ?643次閱讀
    <b class='flag-5'>一種</b>端到端的立體<b class='flag-5'>深度</b>感知系統(tǒng)的設(shè)計(jì)

    一種利用幾何信息的監(jiān)督深度估計(jì)框架

    本文方法是一種監(jiān)督深度估計(jì)框架,名為GasM
    發(fā)表于 11-06 11:47 ?322次閱讀
    <b class='flag-5'>一種</b>利用幾何信息的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>框架

    動(dòng)態(tài)場(chǎng)景下的監(jiān)督深度估計(jì)方案

    監(jiān)督深度估計(jì)的訓(xùn)練可以在大量無(wú)標(biāo)簽視頻序列來(lái)進(jìn)行,訓(xùn)練集獲取很方便。但問(wèn)題是,實(shí)際采集的視
    發(fā)表于 11-28 09:21 ?480次閱讀
    動(dòng)態(tài)場(chǎng)景下的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>方案

    深度估計(jì)開(kāi)源方案分享

    可以看一下單深度估計(jì)效果,這個(gè)深度圖的分辨率是真的高,物體邊界分割的非常干凈!這里也推薦工坊推出的新課程《
    的頭像 發(fā)表于 12-17 10:01 ?674次閱讀
    <b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>開(kāi)源方案分享