我們介紹一篇2022 CVPR Oral的三維場景重建論文:Neural 3D Scene Reconstruction with the Manhattan-world Assumption,該論文由浙江大學CAD&CG國家重點實驗室/浙大-商湯三維視覺聯(lián)合實驗室提出。
論文鏈接:https://arxiv.org/abs/2205.02836
論文代碼:https://github.com/zju3dv/manhattan_sdf
Project page:https://zju3dv.github.io/manhattan_sdf/
1. 引言
1.1 論文的問題描述
輸入在室內(nèi)場景采集的圖像序列,論文希望能生成該室內(nèi)場景的三維模型。該問題有許多應用,例如虛擬與增強現(xiàn)實、機器人等。
1.2 當前方法在這個問題的局限性
傳統(tǒng)方法一般通過MVS(Multi-View Stereo) [1,2] 做場景重建,首先根據(jù)多視角匹配來估計每個視角的深度圖,然后將每個視角的深度在三維空間中做融合。這類方法最大的問題在于難以處理弱紋理區(qū)域、非朗伯表面,原因是這些區(qū)域難以做匹配,從而導致重建不完整。
Multi-view Stereo via Depth Map Fusion: A Coordinate Decent Optimization Method
最近,有方法提出基于隱式神經(jīng)表示做三維重建。NeRF [3] 通過可微分的體積渲染技術從圖像中學習隱式輻射場。NeRF可以實現(xiàn)有真實感的視角合成,但是幾何重建結(jié)果噪音很嚴重,主要是因為缺乏表面約束。NeuS [4] 和 VolSDF [5] 使用有SDF(向距離場)建模場景的幾何,并實現(xiàn)了基于SDF的體積渲染,可以得到相比于NeRF更加平滑的幾何重建結(jié)果。此類方法都是基于光度一致性原理,因而難以處理弱紋理區(qū)域,在室內(nèi)場景的重建質(zhì)量很差。
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
1.3 我們的觀察和對問題的解決
為了克服室內(nèi)場景重建在弱紋理平面區(qū)域的歧義性,我們在優(yōu)化過程中基于曼哈頓假設采取了相應的幾何約束。曼哈頓假設是一個被廣泛使用的室內(nèi)場景假設,即室內(nèi)場景的地面、墻面、天花板通常被對齊在三個互相垂直的主方向,基于此我們對地面、墻面區(qū)域設計了對應的幾何約束。
曼哈頓假設示意圖
2. 論文方法
2.1 方法概述
論文使用神經(jīng)隱式表示建模場景的幾何、外觀和語義,并從多視角圖像優(yōu)化該表示。具體步驟為:
1)使用可微分體積渲染技術,根據(jù)輸入圖像優(yōu)化幾何、外觀。
2)預測墻面、地面的語義分割,并基于曼哈頓假設對這些區(qū)域采用相應的幾何約束。
3)為了提升對語義分割不準確性的魯棒性,我們提出聯(lián)合優(yōu)化策略來同時優(yōu)化幾何和語義,從而實現(xiàn)更高質(zhì)量的重建結(jié)果。
2.2 基于SDF的體積渲染
為了采用體積渲染技術,我們首先將有向距離場轉(zhuǎn)換為體積密度:
2.3 幾何約束
我們首先使用DeepLabV3+ [6] 在圖像空間分割地面、墻面區(qū)域。對于地面區(qū)域的每個像素,我們首先做體積渲染得到對應的表面點,通過計算有向距離場在該處的梯度得到法向方向,設計損失函數(shù)約束其法向豎直向上:
2.4 聯(lián)合優(yōu)化
幾何約束在語義分割準確的區(qū)域可以起到很好的效果,但網(wǎng)絡預測的語義分割在部分區(qū)域可能是不準確的,這會影響重建結(jié)果。如下圖所示,由于語義分割不準確,導致加上幾何約束之后重建結(jié)果變得更加糟糕。
為了克服這個問題,我們在3D空間中學習語義場。我們使用體積渲染技術將語義渲染到圖像空間,并通過softmax歸一化得到每個像素屬于地面、墻面區(qū)域的概率,我們利用這個概率來加權(quán)幾何約束:
?joint=∑?∈??^?(?)??(?)+∑?∈??^?(?)??(?)
同時,為了避免trivial solution(屬于地面、墻面的概率被降為0),我們同時也用2D語義分割網(wǎng)絡的預測計算交叉熵作為監(jiān)督:
??=?∑?∈?∑?∈{?,?,?}??(?)log?^?(?)
3. 實驗分析
3.1 Ablation studies
通過定性、定量的實驗結(jié)果,我們發(fā)現(xiàn)使用體積約束能夠提升在平面區(qū)域的重建效果,但也會由于語義分割的不準確性導致一些非平面區(qū)域的重建變差,通過使用我們提出的聯(lián)合優(yōu)化策略,可以全面地提升重建結(jié)果。
3.2 與SOTA方法的對比
我們在ScanNet和7-Scenes數(shù)據(jù)集上進行了和之前MVS方法、基于volume rendering的方法的對比,數(shù)值結(jié)果大幅領先于之前的方法。
審核編輯 :李倩
-
機器人
+關注
關注
210文章
28128瀏覽量
205889 -
三維模型
+關注
關注
0文章
48瀏覽量
13090
原文標題:浙大提出Manhattan-SDF:從多視角圖像做三維場景重建 (CVPR'22 Oral)
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論