在這項(xiàng)工作中,研究人員以大型城市場(chǎng)景渲染為目標(biāo),提出一個(gè)新的框架,集成了基于 MLP 的 NeRF 與顯式 3D 重建的特征網(wǎng)格,以有效地編碼局部和全局場(chǎng)景信息。該方法克服了現(xiàn)有方法在大規(guī)模場(chǎng)景中應(yīng)用的各種缺點(diǎn),即使在大規(guī)模城市場(chǎng)景中也能實(shí)現(xiàn)高保真度的渲染,這對(duì)于現(xiàn)實(shí)世界的應(yīng)用場(chǎng)景至關(guān)重要。
純基于 MLP 的神經(jīng)輻射場(chǎng)(NeRF)由于模型容量有限,在大規(guī)模場(chǎng)景模糊渲染中往往存在欠擬合現(xiàn)象。最近有研究者提出對(duì)場(chǎng)景進(jìn)行地理劃分、并采用多個(gè)子 NeRF,分別對(duì)每個(gè)區(qū)域進(jìn)行建模,然而,這樣做帶來(lái)的問(wèn)題是隨著場(chǎng)景的逐漸擴(kuò)展,訓(xùn)練成本和子 NeRF 的數(shù)量呈線性擴(kuò)大。
另一種解決方案是使用體素特征網(wǎng)格表示,該方法計(jì)算效率高,可以自然地?cái)U(kuò)展到具有增加網(wǎng)格分辨率的大場(chǎng)景。然而,特征網(wǎng)格由于約束較少往往只能達(dá)到次優(yōu)解,在渲染中產(chǎn)生一些噪聲偽影,特別是在具有復(fù)雜幾何和紋理的區(qū)域。
本文中,來(lái)自香港中文大學(xué)、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)的研究者提出了一個(gè)新的框架,用來(lái)實(shí)現(xiàn)高保真渲染的城市(Ubran)場(chǎng)景,同時(shí)兼顧計(jì)算效率,入選 CVPR 2023。該研究使用一個(gè)緊湊的多分辨率 ground 特征平面表示來(lái)粗略地捕獲場(chǎng)景,并通過(guò)一個(gè) NeRF 分支網(wǎng)絡(luò)用位置編碼輸入來(lái)補(bǔ)充它,以聯(lián)合學(xué)習(xí)的方式進(jìn)行渲染。這種方式集成了兩種方案的優(yōu)點(diǎn):在特征網(wǎng)格表示的指導(dǎo)下,輕加權(quán) NeRF 足以呈現(xiàn)具有細(xì)節(jié)的逼真新視角;聯(lián)合優(yōu)化的 ground 特征平面可以獲得進(jìn)一步的細(xì)化,形成更精確、更緊湊的特征空間,輸出更自然的渲染結(jié)果。
論文地址:https://arxiv.org/pdf/2303.14001.pdf
項(xiàng)目主頁(yè):https://city-super.github.io/gridnerf/
下圖為該研究方法對(duì)真實(shí)世界 Ubran 場(chǎng)景的示例結(jié)果,給人一種沉浸式城市漫游體驗(yàn):
?方法介紹
為了有效利用隱式神經(jīng)表示重建大型城市場(chǎng)景,該研究提出了一個(gè)雙分支模型架構(gòu),它采用統(tǒng)一的場(chǎng)景表示,集成了基于顯式體素網(wǎng)格和基于隱式的 NeRF 方法,這兩種類型的表示可以互補(bǔ)。
首先在預(yù)訓(xùn)練階段使用特征網(wǎng)格對(duì)目標(biāo)場(chǎng)景進(jìn)行建模,從而粗糙地捕捉場(chǎng)景的幾何形狀和外觀。然后使用粗特征網(wǎng)格,1) 引導(dǎo) NeRF 點(diǎn)采樣,使其集中在場(chǎng)景表面周圍;2) 為 NeRF 的位置編碼提供關(guān)于場(chǎng)景幾何形狀和在采樣位置上的外觀額外特征。在這樣的指導(dǎo)下,NeRF 可以在一個(gè)大大壓縮的采樣空間中有效地獲取更精細(xì)的細(xì)節(jié)。此外,由于粗層級(jí)的幾何圖形和外觀信息被明確地提供給 NeRF,一個(gè)輕量級(jí)的 MLP 就足以學(xué)習(xí)從全局坐標(biāo)到體積密度和顏色值的映射。在第二個(gè)聯(lián)合學(xué)習(xí)階段,通過(guò)來(lái)自 NeRF 分支的梯度對(duì)粗特征網(wǎng)格進(jìn)行進(jìn)一步優(yōu)化,并對(duì)其進(jìn)行規(guī)范化,從而在單獨(dú)應(yīng)用時(shí)產(chǎn)生更準(zhǔn)確和自然的渲染結(jié)果。
該研究的核心是一個(gè)新的雙分支結(jié)構(gòu),即網(wǎng)格分支和 NeRF 分支。1) 研究人員首先在預(yù)訓(xùn)練階段捕捉特征平面的金字塔場(chǎng)景,并通過(guò)淺 MLP 渲染器(網(wǎng)格分支)對(duì)射線點(diǎn)進(jìn)行粗略的采樣,并預(yù)測(cè)它們的輻射值,由體積積分像素顏色上的 MSE 損失監(jiān)督。這一步生成一組信息豐富的多分辨率密度 / 外觀特征平面。2) 接下來(lái),研究人員進(jìn)入聯(lián)合學(xué)習(xí)階段,并進(jìn)行更精細(xì)的抽樣。研究人員使用學(xué)習(xí)到的特征網(wǎng)格來(lái)指導(dǎo) NeRF 分支采樣,以集中在場(chǎng)景表面。通過(guò)在特征平面上的雙線性插值法,推導(dǎo)出采樣點(diǎn)的網(wǎng)格特征。然后將這些特征與位置編碼連接,并輸入 NeRF 分支以預(yù)測(cè)體積密度和顏色。請(qǐng)注意,在聯(lián)合訓(xùn)練過(guò)程中,網(wǎng)格分支的輸出仍然使用 ground 真實(shí)圖像以及來(lái)自 NeRF 分支的精細(xì)渲染結(jié)果進(jìn)行監(jiān)督。
目標(biāo)場(chǎng)景:在這項(xiàng)工作中,該研究使用新穎的網(wǎng)格引導(dǎo)神經(jīng)輻射場(chǎng)執(zhí)行大型城市場(chǎng)景渲染。下圖左側(cè)顯示了一個(gè)大型城市場(chǎng)景的示例,它跨越 2.7km^2 的地面區(qū)域,由超過(guò) 5k 的無(wú)人機(jī)圖像捕獲。研究表明,基于 NeRF 方法渲染結(jié)果模糊且過(guò)度平滑且模型容量有限,而基于特征網(wǎng)格的方法在適應(yīng)具有高分辨率特征網(wǎng)格的大規(guī)模場(chǎng)景時(shí)往往會(huì)顯示嘈雜的偽影。該研究提出的雙分支模型結(jié)合了兩種方法的優(yōu)點(diǎn),并通過(guò)對(duì)現(xiàn)有方法的顯著改進(jìn)實(shí)現(xiàn)了逼真的新穎視圖渲染。這兩個(gè)分支都比各自的基線獲得了顯著增強(qiáng)。
實(shí)驗(yàn)
研究人員在下圖和表格中報(bào)告了 baseline 的性能和研究人員的方法作對(duì)比。無(wú)論從定性和定量上看。在視覺(jué)質(zhì)量和所有指標(biāo)方面都可以觀察到顯著的改善。與純粹的基于 MLP 的方法(NeRF 和 Mega-NeRF)相比,研究人員的方法揭示了更清晰的幾何形狀和更精細(xì)的細(xì)節(jié)。特別是由于 NeRF 的有限容量和光譜偏差,它總是不能模擬幾何形狀和顏色的快速變化,如操場(chǎng)上的植被和條紋。盡管像 Mega-NeRF 的 baseline 中顯示的那樣,在地理位置上將場(chǎng)景劃分為小區(qū)域稍有幫助,但呈現(xiàn)的結(jié)果仍然顯得過(guò)于平滑。相反,在學(xué)習(xí)特征網(wǎng)格的引導(dǎo)下,NeRF 的采樣空間被有效地、大大地壓縮到場(chǎng)景表面附近。從 ground 特征平面采樣的密度和外觀特征明確地表示了場(chǎng)景內(nèi)容,如圖 3 所示。盡管不那么準(zhǔn)確,但它已經(jīng)提供了信息豐富的局部幾何圖形和紋理,并鼓勵(lì) NeRF 的位置編碼來(lái)收集缺失的場(chǎng)景細(xì)節(jié)。
下表 1 為定量結(jié)果:
圖 6 可以觀察到渲染保真度的快速提高:
審核編輯 :李倩
-
模型
+關(guān)注
關(guān)注
1文章
3115瀏覽量
48660 -
網(wǎng)格
+關(guān)注
關(guān)注
0文章
139瀏覽量
15990 -
MLP
+關(guān)注
關(guān)注
0文章
57瀏覽量
4217
原文標(biāo)題:聯(lián)合NeRF與特征網(wǎng)格,實(shí)現(xiàn)超大規(guī)模城市渲染,高效且逼真
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論