0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CVPR2023 RobustNeRF: 從單張圖像生成3D形狀

3D視覺(jué)工坊 ? 來(lái)源:媒礦工廠 ? 2023-11-09 16:35 ? 次閱讀


簡(jiǎn)介:神經(jīng)輻射場(chǎng)(NeRF)學(xué)習(xí)時(shí)數(shù)據(jù)包含不在圖像拍攝期間持續(xù)存在的干擾物(如移動(dòng)物體、光照變化、陰影)時(shí),會(huì)出現(xiàn)偽影。為了處理這些干擾物,本工作提出一種用于NeRF訓(xùn)練的魯棒性估計(jì),將訓(xùn)練數(shù)據(jù)中的干擾物建模為優(yōu)化問(wèn)題的離群值。我們的方法成功地從場(chǎng)景中去除了離群值,并在合成和真實(shí)場(chǎng)景上改進(jìn)了目前NeRF方法的結(jié)果。本方法只需很少的超參數(shù)就能加入到各種類(lèi)型的NeRF算法中。

介紹

盡管NeRF在新視角合成方面表現(xiàn)出色并且方法直接,但它隱藏了一些假設(shè)。由于模型通常是為了最小化在RGB顏色空間中的誤差而訓(xùn)練的,因此圖像的光照一致性非常重要——從相同視角拍攝的兩張照片應(yīng)該是相同的,除了噪聲。應(yīng)該手動(dòng)保持相機(jī)的焦點(diǎn)、曝光、白平衡和ISO固定。

c1b971f8-7eb0-11ee-939d-92fbcf53809c.png

圖1

然而,正確配置相機(jī)并不是捕捉高質(zhì)量NeRF的全部要求,還有一個(gè)重要的要求是避免干擾物:即在整個(gè)捕捉過(guò)程中并不持續(xù)存在的任何干擾物體。干擾物以多種形式出現(xiàn),從拍攝者影子,到突然出現(xiàn)的寵物等。手動(dòng)去除干擾物是繁瑣的,需要逐像素的標(biāo)記。檢測(cè)干擾物也很繁瑣,因?yàn)榈湫偷腘eRF場(chǎng)景是從數(shù)百?gòu)堓斎雸D像中訓(xùn)練的,而干擾物的類(lèi)型事先是未知的。如果忽略干擾物,重建場(chǎng)景的質(zhì)量會(huì)顯著降低,如圖1。

在通常使用的nerf數(shù)據(jù)中,一個(gè)場(chǎng)景往往無(wú)法從同一視角捕捉多幅圖像,這使得數(shù)學(xué)建模干擾物變得困難。更具體地說(shuō),雖然視角相關(guān)效應(yīng)(View-Dependent)是使NeRF看起來(lái)逼真的因素,但模型如何區(qū)分干擾物和視角相關(guān)效果呢?

盡管存在挑戰(zhàn),研究界已經(jīng)設(shè)計(jì)了幾種方法來(lái)克服這個(gè)問(wèn)題:

如果已知干擾物屬于特定類(lèi)別(例如人),可以使用預(yù)訓(xùn)練的語(yǔ)義分割模型將其去除,這個(gè)過(guò)程不適用于“意外”干擾物,如陰影。

可以將干擾物建模為每張圖像的瞬時(shí)的現(xiàn)象,并控制瞬時(shí)/永久建模的平衡,就像NeRF in the wild一樣處理,但是這個(gè)優(yōu)化問(wèn)題是困難的。

可以將數(shù)據(jù)建模為時(shí)間(即高幀率視頻)并將場(chǎng)景分解為靜態(tài)和動(dòng)態(tài)(即干擾物)兩部分,但這顯然僅適用于視頻捕捉而不是照片收集捕捉。

相反,本工作通過(guò)將它們建模為NeRF優(yōu)化中的離群值來(lái)解決干擾物問(wèn)題。我們從魯棒性估計(jì)的角度進(jìn)行了分析,從而能理解干擾物的特征,并設(shè)計(jì)出一種不僅可以簡(jiǎn)單實(shí)現(xiàn),而且更有效的方法,需要很少或不需要超參數(shù)調(diào)整,并實(shí)現(xiàn)了SOTA的性能。

方法

傳統(tǒng)的NeRF訓(xùn)練損失在捕獲光照一致的場(chǎng)景方面非常有效,然而,當(dāng)場(chǎng)景中存在不在整個(gè)拍攝場(chǎng)景中持續(xù)存在的元素時(shí)會(huì)發(fā)生什么?這種場(chǎng)景的簡(jiǎn)單示例包括只在某些觀察圖像的一部分中存在的對(duì)象,或者可能不在所有觀察圖像中的相同位置。例如,圖2描繪了一個(gè)包含持久對(duì)象(卡車(chē))以及幾個(gè)瞬時(shí)對(duì)象(如人和狗)的2D場(chǎng)景。盡管來(lái)自三臺(tái)相機(jī)的藍(lán)色光線與卡車(chē)相交,但來(lái)自相機(jī)1和3的綠色和橙色光線與瞬時(shí)對(duì)象相交。對(duì)于視頻捕捉和時(shí)空NeRF模型,持久對(duì)象組成了場(chǎng)景的“靜態(tài)”部分,而其余部分被稱(chēng)為“動(dòng)態(tài)”。

c1d81dce-7eb0-11ee-939d-92fbcf53809c.png

圖2

對(duì)離群值的敏感性

對(duì)于Lambertian場(chǎng)景,光照一致的結(jié)構(gòu)是視角無(wú)關(guān)的,因?yàn)閳?chǎng)景輻射僅取決于入射光線。對(duì)于這種場(chǎng)景,視角相關(guān)NeRF模型,通過(guò)最小化RGB L2 Loss進(jìn)行訓(xùn)練,可以產(chǎn)生解釋瞬時(shí)對(duì)象的局部最優(yōu)解。圖2右解釋了這一點(diǎn),出射顏色對(duì)應(yīng)于離群值的記憶顏色——即視角相關(guān)顏色。這種模型利用模型的視角相關(guān)容量來(lái)過(guò)擬合訓(xùn)練數(shù)據(jù),有效地記憶瞬時(shí)對(duì)象。可以改變模型以消除對(duì)的依賴(lài)性,但L2損失仍然有問(wèn)題,因?yàn)樽钚《耍↙S)估計(jì)對(duì)離群值或重尾噪聲分布敏感。

在更自然的條件下,放棄Lambertian假設(shè),問(wèn)題變得更加復(fù)雜,因?yàn)榉荓ambertian反射現(xiàn)象和離群值d都可以被解釋為視角相關(guān)輻射。雖然我們希望模型能夠捕捉光照一致的視角相關(guān)輻射,但理想情況下,離群值和其他瞬時(shí)現(xiàn)象應(yīng)該被忽略。在這種情況下,使用L2損失進(jìn)行優(yōu)化會(huì)導(dǎo)致重建中出現(xiàn)明顯的錯(cuò)誤,如圖1 MipNeRF360所示。這種問(wèn)題在NeRF模型擬合中普遍存在,特別是在不受控的環(huán)境中,具有復(fù)雜的反射、非剛性或獨(dú)立運(yùn)動(dòng)的物體。

對(duì)離群值的魯棒性

通過(guò)語(yǔ)義分割實(shí)現(xiàn)的魯棒性

在NeRF模型優(yōu)化期間減少離群值污染的一種方法是依賴(lài)于一個(gè)Mask,該Mask指定給定像素是否為離群值,并且不計(jì)算該像素的Loss,在實(shí)際應(yīng)用中,可以使用一個(gè)預(yù)訓(xùn)練的語(yǔ)義分割網(wǎng)絡(luò)提供mask。例如,NeRF in the Wild使用語(yǔ)義分割模型來(lái)刪除被人占據(jù)的像素,因?yàn)樵诼糜握掌瑪?shù)據(jù)集中,短暫存在的人群為離群值。Urban Radiance Fields分割了天空像素,這種方法的明顯問(wèn)題在于需要一個(gè)可以檢測(cè)任意干擾物的分割網(wǎng)絡(luò)。

Robust Loss

本文提出了一種用于NeRF模型擬合的帶有修剪最小二乘(LS)損失的迭代重新加權(quán)最小二乘(IRLS)形式,如圖3所示。

c1e2a370-7eb0-11ee-939d-92fbcf53809c.png

圖3

IRLS是一種廣泛使用的用于魯棒性估計(jì)的方法,它涉及求解一系列加權(quán)最小二乘問(wèn)題,這些問(wèn)題的權(quán)重根據(jù)逐漸減小離群值的影響而調(diào)整。但是為NeRF優(yōu)化選擇合適的權(quán)重函數(shù)(即Kernel函數(shù),權(quán)重函數(shù))是不容易的,這主要是因?yàn)橐暯窍嚓P(guān)輻射現(xiàn)象與離群值之間的相似性。一個(gè)可能的方法是通過(guò)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)重函數(shù)來(lái)解決這個(gè)問(wèn)題,但是生成足夠的標(biāo)注訓(xùn)練數(shù)據(jù)比較困難。相反,本文所提出的Kerner函數(shù)利用離群值結(jié)構(gòu)中的先驗(yàn),利用了修剪最小二乘估計(jì)的簡(jiǎn)潔,便達(dá)到了目標(biāo)效果。

Robust Kernel

RobustNeRF提出一種用于迭代加權(quán)最小二乘優(yōu)化的權(quán)重函數(shù)(圖3),能既簡(jiǎn)單又捕獲了用于NeRF優(yōu)化的有用歸納誤差。為了簡(jiǎn)單起見(jiàn),RobustNeRF選擇了一種具有直觀參數(shù)的二進(jìn)制權(quán)重函數(shù),它在模型擬合過(guò)程中自然地適應(yīng),以便快速學(xué)習(xí)非離群值的細(xì)粒度圖像細(xì)節(jié)。Robust Kernel捕獲了典型離群值的結(jié)構(gòu)化性質(zhì),根據(jù)結(jié)構(gòu)先驗(yàn),干擾物通常具有局部連續(xù)性,因此離群值預(yù)計(jì)占據(jù)圖像的大塊連續(xù)區(qū)域(例如,從旅游照片數(shù)據(jù)集中分割出一個(gè)人的輪廓)。

實(shí)驗(yàn)

與Mip-NeRF 360比較

在自然場(chǎng)景中,RobustNeRF通常比MipNeRF360的變體在PSNR上高出1.3到4.7 dB。由于、和Charbonnier損失同等對(duì)待所有像素,MipNeRF360被迫將干擾物表示為具有視角相關(guān)外觀的“云”而不是忽略它們。我們發(fā)現(xiàn)當(dāng)干擾物在多個(gè)幀中保持靜止時(shí),云最為明顯。相比之下,RobustNeRF的損失將干擾物像素隔離出來(lái),并將它們的權(quán)重設(shè)為零。為了確定重建準(zhǔn)確性的上限,我們使用Charbonnier損失在每個(gè)場(chǎng)景的不包含干擾物的版本上訓(xùn)練MipNeRF360,這些圖像從(大致)相同的視角拍攝。RobustNeRF在訓(xùn)練沒(méi)有干擾物的幀時(shí),實(shí)現(xiàn)了幾乎相同的性能,見(jiàn)圖4。

c1f93a4a-7eb0-11ee-939d-92fbcf53809c.png

圖4

與D2NeRF比較

定量上,RobustNeRF與D2NeRF相當(dāng),具體取決于場(chǎng)景中離群的對(duì)象數(shù)量。在Statue和Android中,分別移動(dòng)了一個(gè)和三個(gè)非剛性對(duì)象。D2NeRF能夠?qū)@些對(duì)象進(jìn)行建模,因此可以將它們與場(chǎng)景的靜態(tài)內(nèi)容分開(kāi)。在其余的場(chǎng)景中,使用了更多干擾物體,包含100到150個(gè)唯一的非靜態(tài)對(duì)象——這對(duì)于D2NeRF來(lái)說(shuō)太多了,無(wú)法有效地建模。因此,在其靜態(tài)表示中出現(xiàn)了偽影,類(lèi)似于MipNeRF360產(chǎn)生的偽影。相比之下,RobustNeRF將非靜態(tài)內(nèi)容識(shí)別為離群值,并在重建過(guò)程中省略它。盡管這兩種方法使用了類(lèi)似數(shù)量的參數(shù),但D2NeRF的內(nèi)存使用峰值比RobustNeRF高2.3倍,而在批處理大小歸一化時(shí)高出37倍。這是模型結(jié)構(gòu)差異的直接結(jié)果D2NeRF專(zhuān)門(mén)用于同時(shí)建模靜態(tài)和動(dòng)態(tài)內(nèi)容,因此具有更高的復(fù)雜性。

c2138c38-7eb0-11ee-939d-92fbcf53809c.png

表1

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3112

    瀏覽量

    48660
  • 數(shù)據(jù)建模
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    6963
  • 圖像生成
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    6880

原文標(biāo)題:CVPR2023 | RobustNeRF: 從單張圖像生成3D形狀

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    3D圖像的速度控制

    你好! 現(xiàn)在我有個(gè)問(wèn)題想請(qǐng)教大家, 我怎么做一個(gè)3D圖像的渦輪扇葉然后通過(guò)控制器調(diào)整它的速度然后再3D圖像中開(kāi)始轉(zhuǎn)并且根據(jù)控制量改變?cè)?b class='flag-5'>3D
    發(fā)表于 11-30 23:25

    3D圖像生成算法的原理是什么?

    什么是3D圖形芯片?3D圖像生成算法的原理是什么?
    發(fā)表于 06-04 06:29

    3D圖像引擎,3D圖像引擎原理

    3D圖像引擎,3D圖像引擎原理 產(chǎn)生的背景和定義 隨著計(jì)算機(jī)軟、硬件突飛猛進(jìn)的發(fā)展,計(jì)算機(jī)圖形學(xué)在各個(gè)行業(yè)的應(yīng)用也得
    發(fā)表于 03-26 15:54 ?1458次閱讀

    人工智能系統(tǒng)VON,生成最逼真3D圖像

    研究團(tuán)隊(duì)寫(xiě)道:“我們的關(guān)鍵思想是將圖像生成過(guò)程分解為三個(gè)要素:形狀、視角和紋理,這種分離的3D表示方式使我們能夠在對(duì)抗學(xué)習(xí)框架下
    的頭像 發(fā)表于 12-07 09:28 ?7735次閱讀

    CVPR 2019,曠視14篇論文全覽!

    近年來(lái),對(duì)單張圖像中人體 3D 姿態(tài)和形狀估計(jì)的研究得到了廣泛關(guān)注。然而,在圖像 3D 紋理
    的頭像 發(fā)表于 03-06 09:28 ?9989次閱讀

    深度學(xué)習(xí)不是萬(wàn)靈藥 神經(jīng)網(wǎng)絡(luò)3D建模其實(shí)只是圖像識(shí)別

    隨著深度學(xué)習(xí)的大熱,許多研究都致力于如何單張圖片生成3D模型。但近期一項(xiàng)研究表明,幾乎所有基于深度神經(jīng)網(wǎng)絡(luò)的3D中重建工作,實(shí)際上并不是重
    的頭像 發(fā)表于 06-17 11:21 ?4682次閱讀

    谷歌發(fā)明的由2D圖像生成3D圖像技術(shù)解析

    谷歌發(fā)明的由2D圖像生成3D圖像的技術(shù),利用3D估計(jì)神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 12-24 12:55 ?4693次閱讀
    谷歌發(fā)明的由2<b class='flag-5'>D</b><b class='flag-5'>圖像</b><b class='flag-5'>生成</b><b class='flag-5'>3D</b><b class='flag-5'>圖像</b>技術(shù)解析

    首個(gè)能根據(jù)單一圖像生成較高分辨率3D人臉模型的系統(tǒng)

    分辨率的3D人臉模型。 AvatarMe是首個(gè)能根據(jù)單一圖像生成較高分辨率3D人臉模型的系統(tǒng)。在未來(lái),AvatarMe或可用于視頻會(huì)議等各個(gè)VR應(yīng)用場(chǎng)景。 這項(xiàng)研究發(fā)表于
    的頭像 發(fā)表于 01-27 17:02 ?3580次閱讀
    首個(gè)能根據(jù)單一<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>較高分辨率<b class='flag-5'>3D</b>人臉模型的系統(tǒng)

    華為基于AI技術(shù)實(shí)現(xiàn)3D圖像數(shù)字服務(wù)

    華為3D建模服務(wù)(3D Modeling Kit)是華為在圖形圖像領(lǐng)域又一技術(shù)開(kāi)放,面向有3D模型、動(dòng)畫(huà)制作等能力訴求的應(yīng)用開(kāi)發(fā)者,基于AI技術(shù),提供
    的頭像 發(fā)表于 08-12 14:50 ?4861次閱讀

    NVIDIA 3D MoMa:基于2D圖像創(chuàng)建3D物體

    可逆渲染流程 NVIDIA 3D MoMa 將于本周在新奧爾良舉行的計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議 CVPR 上亮相。
    的頭像 發(fā)表于 06-23 11:00 ?1248次閱讀

    CVPR2023:IDEA與清華提出首個(gè)一階段3D全身人體網(wǎng)格重建算法

    三維全身人體網(wǎng)格重建(3D Whole-Body Mesh Recovery)是人類(lèi)行為建模的一個(gè)重要環(huán)節(jié),用于單目圖像中估計(jì)出人體姿態(tài)(Body Pose), 手勢(shì)(Hand Gesture)和臉部表情(Facial Exp
    的頭像 發(fā)表于 04-07 09:56 ?1096次閱讀

    基于單張RGB圖像定位被遮擋行人設(shè)計(jì)案例

    基于單張RGB圖像3D場(chǎng)景空間中定位行人對(duì)于各種下游應(yīng)用至關(guān)重要。目前的單目定位方法要么利用行人的包圍盒,要么利用他們身體的可見(jiàn)部分進(jìn)行定位。
    的頭像 發(fā)表于 09-08 09:29 ?697次閱讀
    基于<b class='flag-5'>單張</b>RGB<b class='flag-5'>圖像</b>定位被遮擋行人設(shè)計(jì)案例

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動(dòng)起來(lái)的新方法!

    因此,本文研究者的目標(biāo)是實(shí)現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類(lèi)別擴(kuò)散模型,能直接根據(jù)模型文字或
    的頭像 發(fā)表于 01-30 16:20 ?779次閱讀
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!讓文本、<b class='flag-5'>圖像</b>都動(dòng)起來(lái)的新方法!

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,該模型以其獨(dú)特的功能吸引了眾多關(guān)注。此模型具備單張圖像生成
    的頭像 發(fā)表于 03-22 10:30 ?752次閱讀

    NVIDIA生成式AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉(zhuǎn) 3D 生成式 AI 模型)實(shí)現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?452次閱讀
    NVIDIA<b class='flag-5'>生成</b>式AI研究實(shí)現(xiàn)在1秒內(nèi)<b class='flag-5'>生成</b><b class='flag-5'>3D</b><b class='flag-5'>形狀</b>