欧美亚洲中文字幕的影片,无码亚洲一本aa午夜在线

R3D3是一種用于密集三維重建和自我運(yùn)動估計(jì)的多攝像頭算法，該方法通過迭代地結(jié)合多攝像頭的幾何估計(jì)和單目深度細(xì)化來實(shí)現(xiàn)一致的密集三維重建。R3D3的核心思想是將單目線索與來自多攝像頭的空間-時間信息的幾何深度估計(jì)相結(jié)合，通過在共視圖中迭代密集對應(yīng)關(guān)系，計(jì)算準(zhǔn)確的幾何深度和位姿估計(jì)。為了在多攝像頭設(shè)置中確定共視幀，作者提出了一種簡單而有效的多攝像頭算法，用于平衡性能和效率。深度細(xì)化網(wǎng)絡(luò)以幾何深度和對應(yīng)的不確定性為輸入，并生成細(xì)化深度，以改善例如移動物體和低紋理區(qū)域的重建，細(xì)化的深度估計(jì)作為下一次幾何估計(jì)迭代的基礎(chǔ)，從而在增量幾何重建和單目深度估計(jì)之間閉合循環(huán)。R3D3在DDAD和NuScenes基準(zhǔn)測試中實(shí)現(xiàn)了最優(yōu)異的多攝像頭深度估計(jì)性能，與單目SLAM方法相比有更高的精度和魯棒性。

1. 引言

密集三維重建和自我運(yùn)動估計(jì)是自動駕駛和機(jī)器人領(lǐng)域的關(guān)鍵挑戰(zhàn)。與當(dāng)前復(fù)雜的多模態(tài)系統(tǒng)相比，多攝像頭系統(tǒng)提供了一種更簡單、低成本的替代方案，然而，基于攝像頭的復(fù)雜動態(tài)場景的三維重建一直面臨極大的困難，因?yàn)楝F(xiàn)有的解決方案通常會產(chǎn)生不完整或不連貫的結(jié)果。作者提出了R3D3，一種用于密集3D重建和自我運(yùn)動估計(jì)的多攝像頭系統(tǒng)，通過迭代地結(jié)合多攝像頭的幾何估計(jì)和單目深度細(xì)化來實(shí)現(xiàn)一致的密集三維模型。

將感知輸入轉(zhuǎn)化為環(huán)境的密集三維模型，并跟蹤觀察者的位置是機(jī)器人學(xué)和自動駕駛的主要研究內(nèi)容之一。現(xiàn)代系統(tǒng)依賴于融合多種傳感器模態(tài)，如攝像頭、激光雷達(dá)、雷達(dá)、慣性測量單元等，使硬件和軟件棧變得復(fù)雜且昂貴，相比之下，多攝像頭系統(tǒng)提供了一種更簡單、低成本的替代方案，已廣泛應(yīng)用于現(xiàn)代消費(fèi)者汽車。然而，基于圖像的密集3D重建和自我運(yùn)動估計(jì)在大規(guī)模動態(tài)場景中仍是一個開放性的研究問題，因?yàn)橐苿游矬w、重復(fù)紋理以及光學(xué)退化等方面都帶來了顯著的算法挑戰(zhàn)。

圖 1 R3D3網(wǎng)絡(luò)結(jié)構(gòu)概略圖這篇論文的主要貢獻(xiàn)包括以下三點(diǎn)：

提出了一種用于密集三維重建和自我運(yùn)動估計(jì)的多攝像頭算法R3D3。

通過一種新穎的多攝像頭密集束調(diào)整（DBA）方法和多攝像頭共視圖，實(shí)現(xiàn)了準(zhǔn)確的幾何深度和位姿估計(jì)。

通過深度細(xì)化網(wǎng)絡(luò)，整合了先驗(yàn)幾何深度和不確定性以及單目線索，從而提高了密集三維重建的質(zhì)量。

2. 相關(guān)工作

這篇論文的相關(guān)工作部分主要討論了多視點(diǎn)立體（MVS）方法、視覺SLAM方法和自監(jiān)督深度估計(jì)方法。MVS方法旨在從具有已知位姿的一組圖像中恢復(fù)密集的3D場景結(jié)構(gòu)；視覺SLAM方法關(guān)注從視覺輸入中聯(lián)合映射環(huán)境和跟蹤觀察者的軌跡，即一個或多個RGB攝像頭；自監(jiān)督深度估計(jì)方法關(guān)注從單目線索預(yù)測密集深度，如透視物體表面和場景上下文。

Multi-view Stereo（MVS）方法旨在從具有已知位姿的一組圖像中恢復(fù)密集的3D場景結(jié)構(gòu)。盡管早期的研究主要關(guān)注經(jīng)典優(yōu)化方法，但近年來，許多研究開始利用卷積神經(jīng)網(wǎng)絡(luò)（CNN）來估計(jì)多個深度假設(shè)平面上的特征匹配，從而在3D代價體中進(jìn)行匹配。早期方法采用多個圖像對之間的多個代價體，而最近的方法則使用整個圖像集的單一代價體，這些方法假設(shè)在一個受控環(huán)境中有許多高度重疊的圖像和已知的位姿來創(chuàng)建三維代價體。相反，本文的目標(biāo)是從未知軌跡的移動平臺上的任意多攝像頭設(shè)置中實(shí)現(xiàn)穩(wěn)健的密集3D重建。

傳統(tǒng)的SLAM系統(tǒng)通常分為不同階段，首先將圖像處理為關(guān)鍵點(diǎn)匹配，然后使用這些匹配來估計(jì)3D場景幾何和相機(jī)軌跡，另一類方法直接基于像素強(qiáng)度優(yōu)化3D幾何和相機(jī)軌跡。最近的方法將基于CNN的深度和姿態(tài)預(yù)測集成到SLAM流程中，這些方法面臨的共同挑戰(zhàn)是由于低紋理區(qū)域、動態(tài)物體或光學(xué)退化引起的像素對應(yīng)中的離群值，需要使用魯棒估計(jì)技術(shù)來過濾這些離群值。

自監(jiān)督深度估計(jì)的開創(chuàng)性工作是由Zhou等人[1]提出的，他們通過最小化視圖合成損失來學(xué)習(xí)深度估計(jì)，該損失使用幾何約束將參考視圖中的顏色信息變形到目標(biāo)視圖。后續(xù)的研究主要關(guān)注改進(jìn)網(wǎng)絡(luò)架構(gòu)、損失正則化和訓(xùn)練策略，最近的方法從多視圖立體視覺中汲取靈感，提出使用3D代價體來整合時間信息。然而，這些方法仍然關(guān)注單攝像頭、前向場景，而這并不能反映自動駕駛汽車中真實(shí)世界的傳感器設(shè)置。另一類最近的研究關(guān)注利用多攝像頭設(shè)置中重疊攝像頭的空間信息，這些方法利用空間上下文來提高準(zhǔn)確性，并實(shí)現(xiàn)絕對尺度深度學(xué)習(xí)。然而，這些方法忽略了時間域，而時間域?qū)ι疃裙烙?jì)提供了有用的線索。

3.方法

R3D3 算法通過結(jié)合單目視覺線索和來自多攝像頭的空間-時間信息的幾何深度估計(jì)，實(shí)現(xiàn)了在動態(tài)室外環(huán)境中的密集、一致的三維重建。該方法首先利用多攝像頭系統(tǒng)的空間-時間信息進(jìn)行幾何深度估計(jì)和相機(jī)位姿估計(jì)，為了提高幾何深度不可靠的區(qū)域（如移動物體或低紋理區(qū)域）的重建質(zhì)量，作者引入了一個深度細(xì)化網(wǎng)絡(luò)，該網(wǎng)絡(luò)接受幾何深度和不確定性作為輸入，并產(chǎn)生細(xì)化后的深度。此外，細(xì)化后的深度估計(jì)作為下一次幾何估計(jì)迭代的基礎(chǔ)，從而在增量幾何重建和單目深度估計(jì)之間形成閉環(huán)。

圖 2 R3D3網(wǎng)絡(luò)結(jié)構(gòu)圖

3.1 特征提取和相關(guān)性

本小節(jié)詳細(xì)介紹了如何從每個圖像中提取相關(guān)特征和上下文特征，以及如何構(gòu)建共視圖和計(jì)算特征相關(guān)性。主要內(nèi)容包括：

特征提?。和ㄟ^深度相關(guān)編碼器（）和上下文編碼器（）從每個圖像中分別提取相關(guān)特征和上下文特征。

共視圖：將相關(guān)特征和上下文特征存儲在一個圖中。作者構(gòu)建了具有三種邊的共視圖：時間邊、空間邊和空間-時間邊。為了在多攝像頭設(shè)置中實(shí)現(xiàn)高效的共視圖構(gòu)建，作者設(shè)計(jì)了一個簡單而有效的共視圖構(gòu)建算法。

特征相關(guān)性：對于圖中的每條邊，計(jì)算特征相關(guān)性。通過點(diǎn)積計(jì)算4D特征相關(guān)體，并使用查找操作符限制相關(guān)搜索區(qū)域。

這一部分的核心是如何從圖像中提取特征并構(gòu)建共視圖，以便在后續(xù)步驟中進(jìn)行幾何深度估計(jì)和相機(jī)位姿估計(jì)。

3.2 深度和位姿估計(jì)

闡述了如何根據(jù)共視圖中的每條邊來估計(jì)相對位姿和深度。這部分主要包括流量校正、多相機(jī)密集束調(diào)整以及深度和位姿聚合。首先，給定和的初始估計(jì)，計(jì)算誘導(dǎo)流以采樣相關(guān)體；然后將采樣的相關(guān)特征、上下文特征和誘導(dǎo)流輸入到卷積GRU中。GRU預(yù)測流殘差和置信權(quán)重；接著，作者提出了一種多相機(jī)密集束調(diào)整（DBA）算法，用于在共視圖中的每條邊上迭代地優(yōu)化深度和相對位姿估計(jì)；最后，在多次迭代后，作者使用加權(quán)平均法聚合每個節(jié)點(diǎn)的深度和位姿估計(jì)，以得到最終的深度圖和相機(jī)位姿。

3.3 深度細(xì)化

本小節(jié)提出了一種深度優(yōu)化方法，通過結(jié)合幾何深度估計(jì)和單目視覺線索，可以在幾何估計(jì)不可靠的情況下改善重建效果。作者使用了一個由參數(shù)表示的卷積神經(jīng)網(wǎng)絡(luò)，將深度、置信度和對應(yīng)的圖像作為輸入。網(wǎng)絡(luò)預(yù)測改進(jìn)后的密集深度。通過使用每個邊緣置信度權(quán)重的最大值，計(jì)算每個幀的深度置信度。對于低于閾值β的置信度區(qū)域，將輸入深度和置信度權(quán)重設(shè)為零。將這些與圖像進(jìn)行連接，并將深度和置信度與1/8縮放的特征進(jìn)行連接。與之前的方法類似，輸出深度在四個尺度上進(jìn)行預(yù)測。為了適應(yīng)傳感器設(shè)置中不同攝像頭之間的焦距差異，對輸出進(jìn)行焦距縮放。

不同于幾何方法，單目深度估計(jì)器從語義線索中推斷深度，這使得它們在不同領(lǐng)域之間的泛化能力受到限制。因此，作者在原始的真實(shí)世界視頻上通過自監(jiān)督的方式訓(xùn)練，最小化視圖合成損失。通過計(jì)算目標(biāo)圖像Itc和參考圖像It'c'在目標(biāo)視點(diǎn)上的光度誤差，實(shí)現(xiàn)自監(jiān)督深度估計(jì)。自監(jiān)督深度估計(jì)是一個經(jīng)過充分研究的領(lǐng)域，作者遵循了應(yīng)用正則化技術(shù)過濾光度誤差的通用做法。

3.4 推理過程

在論文的 3.4 小節(jié)中，作者詳細(xì)描述了整個推理過程，包括如何從多個攝像頭獲取數(shù)據(jù)、估計(jì)深度和相對姿態(tài)、以及如何優(yōu)化和融合這些信息以獲得稠密的三維重建結(jié)果。

首先，從C個攝像頭在時間t處獲取幀，并將其編碼并整合到具有初始深度圖dtc和自我姿態(tài)Pt的共視圖G=(V,E)中；然后，對于共視圖中的每條邊(i,j)∈E，從深度di和相對攝像頭姿態(tài)（由自我姿態(tài)P和攝像頭外參T導(dǎo)出）計(jì)算誘導(dǎo)流，從中聚合特征相關(guān)性，作為GRU的輸入，該GRU估計(jì)流更新和置信度，通過多攝像頭DBA操作在k次迭代中使用新的流估計(jì)f全局對齊深度d和姿態(tài)P；最后，對于共視圖中的每個節(jié)點(diǎn)i∈V，文中使用深度優(yōu)化網(wǎng)絡(luò)優(yōu)化深度圖。

整個推理過程包括以下幾個關(guān)鍵步驟：

將來自多個攝像頭的幀編碼并整合到共視圖中。

估計(jì)每條邊的深度和相對姿態(tài)。

使用 GRU 預(yù)測流更新和置信度。

通過多攝像頭 DBA 方法全局對齊深度和姿態(tài)。

使用深度優(yōu)化網(wǎng)絡(luò)優(yōu)化每個節(jié)點(diǎn)的深度圖。

4. 實(shí)驗(yàn)

在實(shí)驗(yàn)部分，作者展示了他們的方法在兩個廣泛使用的多攝像頭深度估計(jì)基準(zhǔn)測試（DDAD和NuScenes）上的性能，并與現(xiàn)有的SOTA方法進(jìn)行了比較。此外，他們還展示了與單目SLAM方法的精度和魯棒性比較。實(shí)驗(yàn)結(jié)果表明，通過共同利用多攝像頭約束以及單目深度線索，他們的方法在動態(tài)戶外環(huán)境中實(shí)現(xiàn)了魯棒的密集3D重建和自我運(yùn)動估計(jì)。此外，他們還對共視圖構(gòu)建算法進(jìn)行了評估，并將其與現(xiàn)有算法進(jìn)行了比較，實(shí)驗(yàn)結(jié)果證實(shí)了他們的方法在幾何深度估計(jì)、單目深度估計(jì)和完整方法之間有效地結(jié)合了各自的優(yōu)勢，同時避免了各自的弱點(diǎn)。這里也推薦「3D視覺工坊」新課程《徹底搞透視覺三維重建：原理剖析、代碼講解、及優(yōu)化改進(jìn)》。

圖 3 動態(tài)場景中稠密三維重建的對比實(shí)驗(yàn)

圖 4 在DDAD數(shù)據(jù)集上的效果

圖 5 在NuScenes數(shù)據(jù)集上的效果

圖 6 在DDAD數(shù)據(jù)集上的定量評價

圖 7 在NuScenes數(shù)據(jù)集上的定量評價

5. 結(jié)論

R3D3算法通過共同利用多攝像頭約束以及單目深度線索，在動態(tài)戶外環(huán)境中實(shí)現(xiàn)了魯棒的密集3D重建和自我運(yùn)動估計(jì)。作者提出了一種新穎的多攝像頭密集束調(diào)整方法，并設(shè)計(jì)了一個深度細(xì)化網(wǎng)絡(luò)，將幾何深度和不確定性與單目線索相結(jié)合。實(shí)驗(yàn)結(jié)果表明，R3D3方法在兩個廣泛使用的多攝像頭深度估計(jì)基準(zhǔn)測試（DDAD和NuScenes）上取得了最優(yōu)異的性能，此外，與單目SLAM方法相比，R3D3算法具有更高的精度和魯棒性?？傊?，R3D3方法為動態(tài)場景的密集三維重建和自我運(yùn)動估計(jì)提供了一種有效的解決方案。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴