0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

從多視角圖像做三維場景重建 (CVPR'22 Oral)

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-02-20 10:11 ? 次閱讀

我們介紹一篇2022 CVPR Oral的三維場景重建論文:Neural 3D Scene Reconstruction with the Manhattan-world Assumption,該論文由浙江大學CAD&CG國家重點實驗室/浙大-商湯三維視覺聯(lián)合實驗室提出。

9530d45c-b0aa-11ed-bfe3-dac502259ad0.jpg

論文鏈接:https://arxiv.org/abs/2205.02836

論文代碼:https://github.com/zju3dv/manhattan_sdf

Project page:https://zju3dv.github.io/manhattan_sdf/

1. 引言

1.1 論文的問題描述

輸入在室內(nèi)場景采集的圖像序列,論文希望能生成該室內(nèi)場景的三維模型。該問題有許多應用,例如虛擬與增強現(xiàn)實、機器人等。

954a36b8-b0aa-11ed-bfe3-dac502259ad0.jpg

1.2 當前方法在這個問題的局限性

傳統(tǒng)方法一般通過MVS(Multi-View Stereo) [1,2] 做場景重建,首先根據(jù)多視角匹配來估計每個視角的深度圖,然后將每個視角的深度在三維空間中做融合。這類方法最大的問題在于難以處理弱紋理區(qū)域、非朗伯表面,原因是這些區(qū)域難以做匹配,從而導致重建不完整。

9571595a-b0aa-11ed-bfe3-dac502259ad0.jpg

Multi-view Stereo via Depth Map Fusion: A Coordinate Decent Optimization Method

最近,有方法提出基于隱式神經(jīng)表示做三維重建。NeRF [3] 通過可微分的體積渲染技術從圖像中學習隱式輻射場。NeRF可以實現(xiàn)有真實感的視角合成,但是幾何重建結(jié)果噪音很嚴重,主要是因為缺乏表面約束。NeuS [4] 和 VolSDF [5] 使用有SDF(向距離場)建模場景的幾何,并實現(xiàn)了基于SDF的體積渲染,可以得到相比于NeRF更加平滑的幾何重建結(jié)果。此類方法都是基于光度一致性原理,因而難以處理弱紋理區(qū)域,在室內(nèi)場景的重建質(zhì)量很差。

95928a62-b0aa-11ed-bfe3-dac502259ad0.jpg

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

1.3 我們的觀察和對問題的解決

為了克服室內(nèi)場景重建在弱紋理平面區(qū)域的歧義性,我們在優(yōu)化過程中基于曼哈頓假設采取了相應的幾何約束。曼哈頓假設是一個被廣泛使用的室內(nèi)場景假設,即室內(nèi)場景的地面、墻面、天花板通常被對齊在三個互相垂直的主方向,基于此我們對地面、墻面區(qū)域設計了對應的幾何約束。

95a92268-b0aa-11ed-bfe3-dac502259ad0.jpg

曼哈頓假設示意圖

2. 論文方法

2.1 方法概述

論文使用神經(jīng)隱式表示建模場景的幾何、外觀和語義,并從多視角圖像優(yōu)化該表示。具體步驟為:

1)使用可微分體積渲染技術,根據(jù)輸入圖像優(yōu)化幾何、外觀。

2)預測墻面、地面的語義分割,并基于曼哈頓假設對這些區(qū)域采用相應的幾何約束。

3)為了提升對語義分割不準確性的魯棒性,我們提出聯(lián)合優(yōu)化策略來同時優(yōu)化幾何和語義,從而實現(xiàn)更高質(zhì)量的重建結(jié)果。

95cd53f4-b0aa-11ed-bfe3-dac502259ad0.jpg

2.2 基于SDF的體積渲染

為了采用體積渲染技術,我們首先將有向距離場轉(zhuǎn)換為體積密度:

95efec7a-b0aa-11ed-bfe3-dac502259ad0.png

2.3 幾何約束

我們首先使用DeepLabV3+ [6] 在圖像空間分割地面、墻面區(qū)域。對于地面區(qū)域的每個像素,我們首先做體積渲染得到對應的表面點,通過計算有向距離場在該處的梯度得到法向方向,設計損失函數(shù)約束其法向豎直向上:

961f2972-b0aa-11ed-bfe3-dac502259ad0.png

2.4 聯(lián)合優(yōu)化

幾何約束在語義分割準確的區(qū)域可以起到很好的效果,但網(wǎng)絡預測的語義分割在部分區(qū)域可能是不準確的,這會影響重建結(jié)果。如下圖所示,由于語義分割不準確,導致加上幾何約束之后重建結(jié)果變得更加糟糕。

964333a8-b0aa-11ed-bfe3-dac502259ad0.jpg

為了克服這個問題,我們在3D空間中學習語義場。我們使用體積渲染技術將語義渲染到圖像空間,并通過softmax歸一化得到每個像素屬于地面、墻面區(qū)域的概率,我們利用這個概率來加權(quán)幾何約束:

?joint=∑?∈??^?(?)??(?)+∑?∈??^?(?)??(?)

同時,為了避免trivial solution(屬于地面、墻面的概率被降為0),我們同時也用2D語義分割網(wǎng)絡的預測計算交叉熵作為監(jiān)督:

??=?∑?∈?∑?∈{?,?,?}??(?)log?^?(?)

3. 實驗分析

3.1 Ablation studies

通過定性、定量的實驗結(jié)果,我們發(fā)現(xiàn)使用體積約束能夠提升在平面區(qū)域的重建效果,但也會由于語義分割的不準確性導致一些非平面區(qū)域的重建變差,通過使用我們提出的聯(lián)合優(yōu)化策略,可以全面地提升重建結(jié)果。

965d662e-b0aa-11ed-bfe3-dac502259ad0.jpg

968f27fe-b0aa-11ed-bfe3-dac502259ad0.jpg

3.2 與SOTA方法的對比

我們在ScanNet和7-Scenes數(shù)據(jù)集上進行了和之前MVS方法、基于volume rendering的方法的對比,數(shù)值結(jié)果大幅領先于之前的方法。

96b35e3a-b0aa-11ed-bfe3-dac502259ad0.jpg

96ddb432-b0aa-11ed-bfe3-dac502259ad0.jpg

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    210

    文章

    28128

    瀏覽量

    205889
  • 三維模型
    +關注

    關注

    0

    文章

    48

    瀏覽量

    13090

原文標題:浙大提出Manhattan-SDF:從多視角圖像做三維場景重建 (CVPR'22 Oral)

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于安芯一號SLH89F5162的真三維立體圖形顯示

    相應方位圖像的一種空間三維顯示,具有較高密度的視角間隔,視角數(shù)量,可供多人360度視場裸眼同時觀看,能自動調(diào)節(jié)正確的水平和垂直視差。本項目
    發(fā)表于 10-19 15:16

    基于紋理映射的醫(yī)學圖像三維重建

    提出了一種基于紋理映射的體繪制算法,提高了圖像重建效率,增強了圖像重建效果。算法實現(xiàn)了對二醫(yī)學圖像
    發(fā)表于 12-14 11:10 ?19次下載

    基于FPGA的醫(yī)學圖像三維重建系統(tǒng)設計與實現(xiàn)

    目前大部分的醫(yī)學圖像三維重建過程都是在PC機上完成的,由于PC機本身性能的限制和重建算法的復雜性,使得重建效率不高。針對這個問題,設計與實現(xiàn)了一個基于FPGA(Field Progra
    發(fā)表于 03-15 13:52 ?44次下載

    AI+AR將用于智能三維重建領域

    AI與AR的關系日漸微妙,正在不斷融合、相互促進。在計算機視覺中, 三維重建是指根據(jù)單視圖或者視圖的二圖像重建
    發(fā)表于 09-21 10:33 ?4597次閱讀

    如何使用單目視覺進行高精度三維場景重建技術研究

    近年來,隨著計算機硬件的不斷快速更新,計算機的處理能力也不斷變強。同時場景三維模型的獲取技術越來越成熟,我們獲得場景三維模型數(shù)據(jù)的方式更多也更加方便了。而目前在基于單目和雙目的
    發(fā)表于 12-24 15:55 ?7次下載
    如何使用單目視覺進行高精度<b class='flag-5'>三維</b><b class='flag-5'>場景</b><b class='flag-5'>重建</b>技術研究

    無人機圖像處理技術之三維還原重建技術簡介

    無人機圖像處理技術精髓匯總 (一) 三維還原重建技術簡介 demi 在 周一, 04/01/2019 - 11:30 提交 航拍是無人機在實際場景中的重要應用。本系列文章將簡單介紹無人
    發(fā)表于 03-24 16:24 ?7189次閱讀

    透明物體的三維重建研究綜述

    透明物體的三維重建一直以來都被認為是很有挑戰(zhàn)性的問題。不同于傳統(tǒng)重建算法對物體表面的漫反射屬性假設,因為透明物體與光線之間存在復雜的,如反射和折射等,與視角相關的光學效應,將導致傳統(tǒng)重建
    發(fā)表于 04-21 14:21 ?4次下載
    透明物體的<b class='flag-5'>三維重建</b>研究綜述

    基于視角圖片的高精度三維人臉重建綜述

    提岀了一種多階段優(yōu)化的方法來解決基于視角圖片在未知姿態(tài)、表情以及光照條件下的高精度三維人臉重建問題。首先,通過重新渲染合成的方法將參數(shù)化模型擬合到輸入的
    發(fā)表于 06-07 14:27 ?5次下載

    三維CT層間圖像超分辨率重建與修復綜述

    三維CT層間圖像超分辨率重建與修復綜述
    發(fā)表于 06-27 10:56 ?25次下載

    NVIDIA Omniverse平臺助力三維重建服務協(xié)同發(fā)展

    計算機視覺的進步為元宇宙的數(shù)字孿生應用打下堅實基礎。在計算機視覺中,三維重建是指根據(jù)單視圖或者視圖的圖像重建三維信息的過程。數(shù)字孿生開發(fā)者
    的頭像 發(fā)表于 10-13 09:45 ?1135次閱讀

    深度學習背景下的圖像三維重建技術進展綜述

    根據(jù)三維模型的表示形式可以將圖像三維重建方法分類為基于體素的三維重建、基于點云的三維重建和基于網(wǎng)格的三維
    的頭像 發(fā)表于 01-09 14:26 ?2255次閱讀

    NerfingMVS:引導優(yōu)化神經(jīng)輻射場實現(xiàn)室內(nèi)視角三維重建

    既然Nerf可以表示場景三維信息,一個自然的想法是能不能將NeRF應用到室內(nèi)場景三維重建任務中呢。NeRF有著一些優(yōu)勢:相較于傳統(tǒng)的MVS,SfM算法,NeRF蘊含了整個
    的頭像 發(fā)表于 02-13 11:20 ?2913次閱讀

    三維重建入門到入土

    經(jīng)典三維重建系統(tǒng)的整個pipeline相機標定、基礎矩陣與本質(zhì)矩陣估計、特征匹配到運動恢復結(jié)構(gòu)(SFM),SFM到稠密點云重建、表面重建
    的頭像 發(fā)表于 03-03 10:17 ?1117次閱讀

    三維場景點云理解與重建技術

    三維場景理解與重建技術主要包含場景點云特征提取、掃描點云配準與融合、場景理解與語義分割、掃描物體點云補全與細粒度
    的頭像 發(fā)表于 08-08 16:58 ?1240次閱讀
    <b class='flag-5'>三維</b><b class='flag-5'>場景</b>點云理解與<b class='flag-5'>重建</b>技術

    如何實現(xiàn)整個三維重建過程

    在計算機視覺中,三維重建是指根據(jù)單視圖或者視圖的圖像重建三維信息的過程。由于單視頻的信息不完全,因此
    發(fā)表于 09-01 11:06 ?1591次閱讀
    如何實現(xiàn)整個<b class='flag-5'>三維重建</b>過程