0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹第一個結(jié)合相對和絕對深度的多模態(tài)單目深度估計網(wǎng)絡(luò)

3D視覺工坊 ? 來源:CVHub ? 2023-03-21 18:01 ? 次閱讀

背景

單目深度估計分為兩個派系,metric depth estimation(度量深度估計,也稱絕對深度估計)和relative depth estimation(相對深度估計)。

絕對深度估計:估計物體絕對物理單位的深度,即米。預(yù)測絕對深度的優(yōu)點是在計算機視覺機器人技術(shù)的許多下游應(yīng)用中具有實用價值,如建圖、規(guī)劃、導(dǎo)航、物體識別、三維重建和圖像編輯。然而,絕對深度股即泛化能力(室外、室內(nèi))極差。因此,目前的絕對深度估計模型通常在特定的數(shù)據(jù)集上過擬合,而不能很好地推廣到其他數(shù)據(jù)集。

相對深度估計:估計每個像素與其它像素的相對深度差異,深度無尺度信息,可以各種類型環(huán)境中的估計深度。應(yīng)用場景有限。

導(dǎo)讀

現(xiàn)有的單目深度估計工作,要么關(guān)注于泛化性能而忽略尺度,即相對深度估計,要么關(guān)注于特定數(shù)據(jù)集上的最先進的結(jié)果,即度量深度(絕對深度)估計。論文提出了第一種結(jié)合這兩種形態(tài)的方法,從而得到一個在泛化性能良好的同時,保持度量尺度的模型:ZoeD-M12-NK。

具體來說,論文框架包括兩個關(guān)鍵組成部分:相對深度估計網(wǎng)絡(luò)絕對深度估計網(wǎng)絡(luò)。相對深度估計網(wǎng)絡(luò)學(xué)習(xí)提取相鄰像素之間的深度差異信息,而絕對深度估計網(wǎng)絡(luò)則直接預(yù)測絕對深度值。

使用這種框架,論文方法能夠?qū)⒁延袛?shù)據(jù)集的深度信息轉(zhuǎn)移到新的目標(biāo)數(shù)據(jù)集上,從而實現(xiàn)零樣本(Zero-shot)深度估計。在實驗中,論文方法使用了幾個標(biāo)準(zhǔn)數(shù)據(jù)集進行測試,并證明了所提方法在零樣本深度估計方面比現(xiàn)有SOTA表現(xiàn)更好。

貢獻

57523e52-c3ae-11ed-bfe3-dac502259ad0.png

本文中,作者提出了一個兩階段的框架,使用一個通用的編碼-解碼器架構(gòu)進行相對深度估計的預(yù)訓(xùn)練,在第二階段添加絕對深度估計的輕量級head(metric bins module),并使用絕對深度數(shù)據(jù)集進行微調(diào)。本文的主要貢獻是:

ZoeDepth 是第一個結(jié)合了相對深度和絕對深度的方法,在保持度量尺度的同時,實現(xiàn)了卓越的泛化性能。

ZoeDepth 的旗艦?zāi)P?ZoeD-M12-NK 在12個數(shù)據(jù)集上使用相對深度進行預(yù)訓(xùn)練,并在兩個數(shù)據(jù)集上使用絕對深度進行微調(diào),使其在現(xiàn)有SOTA上有了明顯的提高

ZoeDepth 是第一個可以在多個數(shù)據(jù)集(NYU Depth v2 和 KITTI)上聯(lián)合訓(xùn)練而性能不明顯下降的模型,在室內(nèi)和室外域的8個未見過的數(shù)據(jù)集上實現(xiàn)了前所未有的零樣本泛化性能

ZoeDepth 彌補了相對深度估計和絕對深度估計之間的差距,并且可以通過在更多的數(shù)據(jù)集上定義更細化的域和,并在更多的絕對深度數(shù)據(jù)集微調(diào)來進一步改進網(wǎng)絡(luò)性能。

方法

論文首先使用一個Encoder-Decoder的backbone進行相對深度預(yù)測,然后將提出的metric bins 模塊附加在decoder上得到絕對深度預(yù)測頭(head),通過添加一個或多個head(每個數(shù)據(jù)集一個)來進行絕對深度估計。最后再進行端到端的微調(diào)。下面介紹每個head(metric bins mdule)是怎么設(shè)計的:

LocalBins review

57c14f2c-c3ae-11ed-bfe3-dac502259ad0.png

global adaptive bins vs local adaptive bins

不同RGB輸入對應(yīng)的深度分布會有很大的不同,目前的神經(jīng)網(wǎng)絡(luò)架構(gòu)主要是在低分辨率的bottleneck獲取全局信息,而不能很好地在高分辨率特征獲取全局特征,深度分布的這種變化使得端到端的深度回歸變得困難。因此,此前的一些方法提出將深度范圍劃分為一定數(shù)量的bin,將每個像素分配給每個bin,將深度回歸任務(wù)轉(zhuǎn)換為分類任務(wù)。

最終深度估計是bin中心值的線性組合。上圖介紹了兩種劃分bin的方法,AdaBins預(yù)測了完整圖像的分布,LocalBins預(yù)測了每個像素周圍區(qū)域的分布。本文采用了類似于LocalBins的這種方式。

57dd49c0-c3ae-11ed-bfe3-dac502259ad0.png

Metric bins

具體來說,LocalBins使用一個標(biāo)準(zhǔn)的encoder-decoder作為基本模型,并附加一個模塊,該模塊將encoder-decoder的多尺度特征作為輸入,預(yù)測每個像素深度區(qū)間上的個bins中心值(channel)。一個像素最終深度,由個bin經(jīng)過softmax得到的概率加權(quán)其bin中心值的線性組合得到

57fc686e-c3ae-11ed-bfe3-dac502259ad0.png

Metric bins module

581e6ad6-c3ae-11ed-bfe3-dac502259ad0.png

Metric Bins Module

如上圖所示,Metric bins模塊以MiDaS[1](一種有監(jiān)督的Zero-shot深度估計方法)的解碼器的多尺度(五層)特征作為輸入,預(yù)測用于絕對深度估計的深度區(qū)間的bins的中心。注意論文在bottleneck層就直接預(yù)測每個像素上所有的bins(即channel的維度直接就是)。然后在decoder上使用attractor layers逐步進行細化bin區(qū)間。

Attract instead of split

論文通過調(diào)整bin,在深度區(qū)間上向左或向右移動它們,來實現(xiàn)對bin的多尺度細化。利用多尺度特征,論文預(yù)測了深度區(qū)間上的一組點用來”吸引“bin的中心。

具體地說,在第1個decoder層,MLP將一個像素處的特征作為輸入,并預(yù)測該像素位置的吸引點。調(diào)整后的bin中心為,調(diào)整如下:

5831688e-c3ae-11ed-bfe3-dac502259ad0.png

其中,超參數(shù)和決定了attractor(吸引子)的強度。論文把這個attractor命名為inverse attractor。此外,論文還實驗了一個指數(shù)變量:

584cf54a-c3ae-11ed-bfe3-dac502259ad0.png

實驗表明,inverse attractor可以導(dǎo)致更好的性能。論文中,深度區(qū)間設(shè)置了個bin,decoder設(shè)置了個attractor。

Log-binomial instead of softmax

為了得到最終的絕對深度預(yù)測,每個像素上深度區(qū)間內(nèi)的每個bin通過softmax可以得到其概率,所有的bin的中心進行按照片概率線性組合得到該像素的深度值。

盡管softmax在無序類中運行得很好,但由于深度區(qū)間內(nèi)bin本身是有序的,softmax方法可能導(dǎo)致附近的bin的概率大大不同,因此論文使用具有排序感知的概率預(yù)測:

論文使用一個二項式分來預(yù)測概率,將相對深度預(yù)測與解碼器特征連接起來,并從解碼器特征中預(yù)測一個2通道輸出(q - mode和t - temperature),通過以下方法獲得第k個bin中心的概率得分:

5867a192-c3ae-11ed-bfe3-dac502259ad0.png

然后再通過:

587adff0-c3ae-11ed-bfe3-dac502259ad0.png

得到最終的概率值。

訓(xùn)練策略

Metric fine-tuning on multiple datasets

在具有各種場景的混合數(shù)據(jù)集上訓(xùn)練一個絕對深度模型是很困難的,論文首先預(yù)訓(xùn)練一個的相對深度估計的backbone,在一定程度上減輕了對多個數(shù)據(jù)集的微調(diào)問題。然后為模型配備多個Metric bins模塊,每個場景類型(室內(nèi)和室外)對應(yīng)一個。最后再對完整的模型進行端到端微調(diào)。

Routing to metric heads

當(dāng)模型有多個絕對深度頭時,在推理的時候,算法需要根據(jù)輸入數(shù)據(jù)的類型,通過一個“路由器”來選擇用于特定輸入的絕對深度頭

論文提供了三種“路由”策略:

Labeled Router(R.1):訓(xùn)練多個模型,給它們打上場景標(biāo)簽,推理時根據(jù)場景手動選擇模型

Trained Router(R.2):訓(xùn)練一個MLP分類器,它根據(jù)bottleneck預(yù)測輸入圖像的場景類型,然后“路由”到相應(yīng)的head,訓(xùn)練的時候需要提供場景類型的標(biāo)簽

Auto Router(R.3):跟第二種類似,但是訓(xùn)練和推理過程中不提供場景的標(biāo)簽

實驗

Comparison to SOTA on NYU Depth V2

58845b48-c3ae-11ed-bfe3-dac502259ad0.png

表1 Quantitative comparison on NYU-Depth v2

沒有任何相對深度預(yù)訓(xùn)練的情況下,論文的模型ZoeD-X-N預(yù)測的絕對深度可以比目前的SOTA NeWCRFs提高13.7% (REL = 0.082)。

通過對12個數(shù)據(jù)集進行相對深度預(yù)訓(xùn)練,然后對NYU Depth v2進行絕對深度微調(diào),論文的模型ZoeD-M12-N可以在ZoeD-X-N上進一步提高8.5%,比SOTA NeWCRFs提高21%(REL = 0.075)。

58aa1658-c3ae-11ed-bfe3-dac502259ad0.png

Qualitative comparison on NYU Depth v2

上面的可視化可以看出,論文方法始終以更少的誤差,產(chǎn)生更好的深度預(yù)測(藍色表示誤差?。?/p>

Universal Metric SIDE

58d9fb5c-c3ae-11ed-bfe3-dac502259ad0.png

表2 Comparison with existing works when trained on NYU and KITTI

使用跨域數(shù)據(jù)集(室內(nèi)NYU和室外KITTI(NK))進行絕對深度訓(xùn)練的模型通常表現(xiàn)更差,如上表2與表1的對比所示,論文將最近的一些方法在室內(nèi)和室外數(shù)據(jù)集上進行聯(lián)合訓(xùn)練,從結(jié)果可以看到,這些方法的性能都顯著下降,甚至直接無法收斂。而本文的方法ZoeD-M12-NK**只下降了8%**(REL 0.075 to 0.081),顯著優(yōu)于SOTA NeWCRFs。

表2中,“”表示使用一個head,可以看到,使用多head的網(wǎng)絡(luò),泛化能力更強,這些結(jié)果表明,Metric Bins模塊比現(xiàn)有的工作更好地利用了預(yù)訓(xùn)練,從而改進了跨域的自適應(yīng)和泛化(Zero-shot性能)。

Zero-shot Generalization

論文將所提模型在8個未訓(xùn)練的室內(nèi)和室外數(shù)據(jù)上進行Zero-shot測試,來評估所提方法的泛化能力。

591343ee-c3ae-11ed-bfe3-dac502259ad0.png

Zero-shot transfer

59df1370-c3ae-11ed-bfe3-dac502259ad0.png

Zero-shot transfer

5a002132-c3ae-11ed-bfe3-dac502259ad0.png

表3 Quantitative results for zero-shot transfer to four unseen indoor datasets

5a11d260-c3ae-11ed-bfe3-dac502259ad0.png

表4 Quantitative results for zero-shot transfer to four unseen outdoor datasets

表3所示,在室內(nèi)數(shù)據(jù)測試中,ZoeD-M12-N能夠取得最好的效果(在12個相對深度數(shù)據(jù)集上預(yù)訓(xùn)練,只對NYU數(shù)據(jù)集進行微調(diào)),同時在室內(nèi)NYU數(shù)據(jù)集和室外KITTI數(shù)據(jù)集進行微調(diào)效果次之,不使用12個相對深度數(shù)據(jù)集上預(yù)訓(xùn)練最差但都顯著高于SOTA。如表4上圖所示,在室外數(shù)據(jù)測試中,結(jié)論類似。甚至在達到了976.4%的提升!,這證明了它前所未有的Zero-shot能力。

消融實驗

Backbones

5a548cae-c3ae-11ed-bfe3-dac502259ad0.png

Backbone ablation study

在圖像分類task中的backbone性能與深度估計性能之間有很強的相關(guān)性。較大的backbone可以實現(xiàn)較低的絕對相對誤差(REL)。

Metric Bins Module

5a687ee4-c3ae-11ed-bfe3-dac502259ad0.png

Metric head variants

不同的MLP中的分裂因子(Splitter)和吸引子(Attractor)的數(shù)量對結(jié)果有影響。

Routers

5a79a4da-c3ae-11ed-bfe3-dac502259ad0.png

Router variants

Trained Router效果顯著由于另外兩種路由策略。

總結(jié)

論文提出了ZoeDepth,第一個結(jié)合了相對深度和絕對深度而性能沒有顯著下降的方法,彌補相對和絕對深度估計性能之間的差距,在保持度量尺度的同時,實現(xiàn)了卓越的泛化性能。ZoeDepth是一個兩階段的工作,在第一階段,論文使用相對深度數(shù)據(jù)集對encoder-decoder架構(gòu)進行預(yù)訓(xùn)練。在第二階段,論文基于所提的Metric bins 模塊得到domain-specific頭,將其添加到解碼器中,并在一個或多個數(shù)據(jù)集上對模型進行微調(diào),用于絕對深度預(yù)測。

提出的架構(gòu)顯著地改進了NYU Depth v2的SOTA(高達21%),也顯著提高了zero-transfer的技術(shù)水平。論文希望在室內(nèi)和室外之外定義更細粒度的領(lǐng)域,并在更多的絕對深度數(shù)據(jù)集上進行微調(diào),可以進一步改善論文的結(jié)果。在未來的工作中,論文希望研究ZoeDepth的移動架構(gòu)版本,例如,設(shè)備上的照片編輯,并將該工作擴展到雙目深度估計。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1107

    瀏覽量

    40443
  • 機器人
    +關(guān)注

    關(guān)注

    210

    文章

    27838

    瀏覽量

    204571
  • RGB
    RGB
    +關(guān)注

    關(guān)注

    4

    文章

    785

    瀏覽量

    58199
  • 機器人技術(shù)
    +關(guān)注

    關(guān)注

    18

    文章

    186

    瀏覽量

    31552

原文標(biāo)題:Intel 開源新作 | ZoeDepth: 第一個結(jié)合相對和絕對深度的多模態(tài)單目深度估計網(wǎng)絡(luò)

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Adafruit Huzzah無法從深度睡眠中醒來怎么辦?

    型號:v09f0c112 ~ld … 醒來 然后代碼運行正常。 當(dāng)它從深度睡眠中醒來時,我得到以下響應(yīng): ets 2013 年 1 月 8 日,第一個原因:5,啟動模式:(3,6) ets_main.c 紅色 LED 亮起。然后,它將無限期地保持該模式。
    發(fā)表于 07-19 15:04

    殘差網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    殘差網(wǎng)絡(luò)(Residual Network,通常簡稱為ResNet) 是深度神經(jīng)網(wǎng)絡(luò)種 ,其獨特的結(jié)構(gòu)設(shè)計在解決深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失
    的頭像 發(fā)表于 07-11 18:13 ?725次閱讀

    利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)對心電圖降噪

    曼濾波。因此,通過這種方式訓(xùn) 練網(wǎng)絡(luò),無法獲得比卡爾曼濾波本身更好的 性能。本文介紹種利用深度遞歸神經(jīng)網(wǎng)絡(luò) (DRNN)對 ECG 信號
    發(fā)表于 05-15 14:42

    助聽器降噪神經(jīng)網(wǎng)絡(luò)模型

    本文介紹種用于實時語音增強的雙信號變換LSTM 網(wǎng)絡(luò) (DTLN),作為深度噪聲抑制挑戰(zhàn) (DNS-Challenge) 的部分。該方
    發(fā)表于 05-11 17:15

    【有獎】 百度智能云度推出首款模態(tài) AI 模組,應(yīng)用場景有獎?wù)骷?/a>

    他來了,他來了 大模型時代悄然到來 百度首款大模型落地的硬件產(chǎn)品 度模態(tài)AI模組LUCA系列正式亮相 度LUCA深度集成百度語音芯片
    的頭像 發(fā)表于 02-26 15:19 ?456次閱讀

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    在如今的網(wǎng)絡(luò)時代,錯綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境,讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年,深度學(xué)習(xí)逐漸走進人們的視線,通過
    的頭像 發(fā)表于 01-11 10:51 ?1594次閱讀
    詳解<b class='flag-5'>深度</b>學(xué)習(xí)、神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>與卷積神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>的應(yīng)用

    OneLLM:對齊所有模態(tài)的框架!

    OneLLM 是第一個在單個模型中集成八種不同模態(tài)的MLLM。通過統(tǒng)的框架和漸進式模態(tài)對齊pipelines,可以很容易地擴展OneLL
    的頭像 發(fā)表于 01-04 11:27 ?707次閱讀
    OneLLM:對齊所有<b class='flag-5'>模態(tài)</b>的框架!

    深度估計開源方案分享

    可以看一下單深度估計效果,這個深度圖的分辨率是真的高,物體邊界分割的非常干凈!這里也推薦工坊推出的新課程《
    的頭像 發(fā)表于 12-17 10:01 ?672次閱讀
    <b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計</b>開源方案分享

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和
    的頭像 發(fā)表于 12-15 14:28 ?7255次閱讀

    動態(tài)場景下的自監(jiān)督深度估計方案

    自監(jiān)督深度估計的訓(xùn)練可以在大量無標(biāo)簽視頻序列來進行,訓(xùn)練集獲取很方便。但問題是,實際采集的視頻序列往往會有很多動態(tài)物體,而自監(jiān)督訓(xùn)練本身就是基于靜態(tài)環(huán)境假設(shè),動態(tài)環(huán)境下會失效。
    發(fā)表于 11-28 09:21 ?471次閱讀
    動態(tài)場景下的自監(jiān)督<b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計</b>方案

    用語言對齊模態(tài)信息,北大騰訊等提出LanguageBind,刷新多個榜單

    目前的 VL 預(yù)訓(xùn)練方法通常僅適用于視覺和語言模態(tài),而現(xiàn)實世界中的應(yīng)用場景往往包含更多的模態(tài)信息,如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息,并且能夠在多個
    的頭像 發(fā)表于 11-23 15:46 ?562次閱讀
    用語言對齊<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息,北大騰訊等提出LanguageBind,刷新多個榜單

    北大&amp;華為提出:模態(tài)基礎(chǔ)大模型的高效微調(diào)

    深度學(xué)習(xí)的大模型時代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩明顯缺點
    的頭像 發(fā)表于 11-08 16:20 ?557次閱讀
    北大&amp;華為提出:<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>基礎(chǔ)大模型的高效微調(diào)

    種利用幾何信息的自監(jiān)督深度估計框架

    本文方法是種自監(jiān)督的深度估計框架,名為GasMono,專門設(shè)計用于室內(nèi)場景。本方法通過應(yīng)用
    發(fā)表于 11-06 11:47 ?322次閱讀
    <b class='flag-5'>一</b>種利用幾何信息的自監(jiān)督<b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計</b>框架

    長短距離循環(huán)更新(LRRU)網(wǎng)絡(luò)的輕量級深度網(wǎng)絡(luò)框架介紹

    1. 文章覽 本文介紹種名為長短距離循環(huán)更新(LRRU)網(wǎng)絡(luò)的輕量級深度網(wǎng)絡(luò)框架,用于
    的頭像 發(fā)表于 11-03 09:24 ?797次閱讀
    長短距離循環(huán)更新(LRRU)<b class='flag-5'>網(wǎng)絡(luò)</b>的輕量級<b class='flag-5'>深度</b><b class='flag-5'>網(wǎng)絡(luò)</b>框架<b class='flag-5'>介紹</b>

    淺析深度神經(jīng)網(wǎng)絡(luò)壓縮與加速技術(shù)

    深度神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的種框架,它是種具備至少
    的頭像 發(fā)表于 10-11 09:14 ?595次閱讀
    淺析<b class='flag-5'>深度</b>神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>壓縮與加速技術(shù)