极品粉嫩小仙女自慰喷水,公交车大龟廷进我身体里

攝像機姿態(tài)對于多視角三維建模是否必要？現(xiàn)有的方法主要假設可以獲得準確的攝像機姿態(tài)。雖然這個假設對于密集視圖可能成立，但對于稀疏視圖，準確估計攝像機姿態(tài)常常是困難的。作者的分析顯示，噪聲估計的姿態(tài)會導致現(xiàn)有稀疏視圖三維建模方法的性能下降。為了解決這個問題，作者提出了LEAP，一種新穎的無姿態(tài)方法，挑戰(zhàn)了攝像機姿態(tài)不可或缺的普遍觀念。LEAP舍棄了基于姿態(tài)的操作，從數(shù)據(jù)中學習幾何知識。LEAP配備了一個神經(jīng)體積，該體積在場景之間共享，并且通過參數(shù)化編碼幾何和紋理先驗。對于每個輸入的場景，作者通過按特征相似性驅(qū)動的方式聚合2D圖像特征來更新神經(jīng)體積。更新后的神經(jīng)體積被解碼為輻射場，從而可以從任意視點合成新的視圖。通過對物體為中心和場景級別的數(shù)據(jù)集進行實驗，作者展示了LEAP在使用最先進的姿態(tài)估計器預測的姿態(tài)時顯著優(yōu)于先前的方法。值得注意的是，LEAP的性能與使用真實姿態(tài)的先前方法相當，同時比PixelNeRF運行速度快400倍。作者還展示了LEAP泛化到新的物體類別和場景，并且學習的知識與極線幾何密切相關。

讀者理解：

LEAP方法：一種新的三維建模方法，可以從稀疏的視圖中重建高質(zhì)量的三維模型，而不需要知道相機的姿態(tài)（位置和方向）。這種方法利用了深度神經(jīng)網(wǎng)絡和幾何約束，可以處理任意數(shù)量和分布的視圖，甚至是單張圖片。

與現(xiàn)有的三維建模方法相比，LEAP有以下優(yōu)勢：

不需要相機姿態(tài)信息，可以處理任意視角的圖片。

可以從極少量的視圖中重建出高質(zhì)量的三維模型，甚至是單張圖片。

可以處理不同尺度、不同光照、不同背景的圖片，具有很強的泛化能力。

可以實現(xiàn)實時的三維建模，只需要幾秒鐘就可以生成三維模型。

LEAP實驗：作者在多個數(shù)據(jù)集上進行了實驗，包括ShapeNet、PASCAL3D+、Pix3D和自采集數(shù)據(jù)集。實驗結果表明，LEAP在三維重建質(zhì)量、運行速度和泛化能力方面都優(yōu)于現(xiàn)有的方法。作者還展示了一些LEAP生成的三維模型的可視化效果。

1 引言

本文介紹了一種基于神經(jīng)輻射場的3D建模方法LEAP，其與傳統(tǒng)方法不同的是摒棄了使用攝像機姿態(tài)的操作，并通過學習數(shù)據(jù)中與姿態(tài)相關的幾何知識和表示來進行建模。LEAP使用神經(jīng)音量來初始化輻射場，并通過聚合方式更新神經(jīng)音量。而在聚合2D圖像特征時，LEAP采用注意力機制而非攝像機姿態(tài)來確定待聚合的像素。此外，LEAP還通過多視角編碼器來提高非規(guī)范視角圖像特征的一致性。訓練中，LEAP使用真實的攝像機姿態(tài)生成2D渲染圖像，并通過2D重建損失進行優(yōu)化。實驗結果表明LEAP在多種數(shù)據(jù)集上表現(xiàn)出了優(yōu)越的性能、快速的推理速度、強大的泛化能力以及易解釋的先驗知識。這里也推薦「3D視覺工坊」新課程徹底搞透視覺三維重建：原理剖析、代碼講解、及優(yōu)化改進》。

2 相關工作

本文主要介紹了兩個與NeRF（Neural Radiance Fields）相關的工作，分別是針對稀疏視角輸入的NeRF變體和稀疏視角相機姿態(tài)估計。針對NeRF的稀疏視角輸入，有兩種不同的方法：一種是針對特定場景的NeRF，通過從頭開始優(yōu)化輻射場來實現(xiàn)；另一種是通用的NeRF變體，通過預測2D圖像特征條件下的輻射場來實現(xiàn)。然而，這些方法在推理3D點之間關聯(lián)性和假設獲取地面真實相機姿態(tài)方面存在一些局限性。而LEAP方法具有3D推理能力，在沒有姿態(tài)的情況下可以處理圖像。稀疏視角相機姿態(tài)估計是一個具有挑戰(zhàn)性的問題，相比于密集視角，由于圖像之間的最小或缺失重疊，對于準確的相機姿態(tài)估計來說，跨視角對應線索的形成十分困難。除了傳統(tǒng)的基于密集視角的相機姿態(tài)估計技術的局限性外，還有一些方法通過引入能量模型、多視圖信息和預訓練模型等方法來提高姿態(tài)估計的準確性。然而，LEAP方法不需要專門的相機姿態(tài)估計模塊，不受相機姿態(tài)估計的影響，可以更接近使用地面真實姿態(tài)的結果。對于沒有準確或沒有相機姿態(tài)的NeRF建模，有一些方法通過將相機姿態(tài)作為可調(diào)參數(shù)，并與輻射場一起進行優(yōu)化來解決該問題。而LEAP方法通過3D感知的設計和基于特征相似性的2D-3D信息映射來消除對相機姿態(tài)的依賴，從而得到與使用地面真實姿態(tài)更接近的結果。

3 方法

本文介紹了LEAP方法的任務形式化和概述。給定一組k個場景的2D圖像觀測值，表示為{ ｜i = 1，..., k}，LEAP預測了一個神經(jīng)輻射場，可以從任意目標視點合成一張2D圖像。需要注意的是，在我們的稀疏源視圖設置中，由于寬基線相機拍攝的視圖數(shù)量通常小于5，并且這些視圖在推理過程中沒有任何相關的相機姿態(tài)信息。

3.1 模型架構

LEAP首先從所有視角提取2D圖像特征，使用一個DINOv2初始化的ViT作為特征提取器，以建?？缫暯窍嚓P性。然后，LEAP引入了一個可學習的神經(jīng)體積，對幾何和紋理先驗進行編碼，并在所有場景中充當初始的3D表示。對于每個場景，LEAP通過查詢多視圖特征，將2D信息映射到3D領域，更新了神經(jīng)體積，并預測了輻射場。具體來說，LEAP通過多視圖圖像編碼器實現(xiàn)了對規(guī)范視圖選擇的感知，并通過捕捉交叉視角相關性來改善特征的一致性。接下來，LEAP引入了一個2D-3D信息映射模塊，使用Transformer層對特征進行更新和整合，并進行了多次的2D-3D信息映射，以粗到細的方式重建對象的潛在體積。最后，LEAP使用更新后的神經(jīng)體積預測了基于體素的神經(jīng)輻射場，然后利用體積渲染技術生成渲染圖像和對象掩碼?？傮w來說，LEAP的模型架構可以在沒有姿態(tài)信息的情況下，通過特征一致性和2D-3D信息映射來實現(xiàn)對場景的建模和圖像合成。

3.2 LEAP的訓練與推理

LEAP通過光度損失函數(shù)在沒有任何3D監(jiān)督的情況下對渲染結果和輸入之間進行訓練。首先定義了應用于RGB圖像的損失函數(shù)LI，其中 = (?, ) + (?, )。其中L_{mse}I_{i}(?分別表示原始圖像和渲染后的圖像，λp是用于平衡損失函數(shù)的超參數(shù)，Lp是感知損失函數(shù)（Johnson等，2016）。然后定義了應用于密度掩模的損失函數(shù)LM，即 = (?, )，其中?和分別表示原始和渲染后的密度掩模。最終損失函數(shù)定義為L = + ?，其中是用于平衡權重的超參數(shù)。如果掩模不可用，則只使用。推斷和評估。在推斷過程中，LEAP在不依賴于任何姿態(tài)的情況下預測輻射場。為了評估新視角合成的質(zhì)量，作者使用測試相機姿態(tài)在特定視點下渲染輻射場。

4 實驗

本文介紹了LEAP方法在不同類型的數(shù)據(jù)集上進行的評估實驗，并給出了實現(xiàn)細節(jié)和數(shù)據(jù)集說明。在實驗中，LEAP表現(xiàn)出相對于其他基線模型的更好性能，包括更高的PSNR和更低的LPIPS值。此外，LEAP還展示了強大的泛化能力，能夠適應不同幾何和紋理特性的對象。LEAP還在場景級別數(shù)據(jù)集上取得了較好的結果，在性能上超過了PixelNeRF和與SPARF相媲美。該研究還進行了消融實驗，探索了LEAP模型中各個組成部分的影響，并對LEAP的解釋進行了可視化展示。結果表明，LEAP方法有效地利用多視角信息進行3D建模。這里也推薦「3D視覺工坊」新課程徹底搞透視覺三維重建：原理剖析、代碼講解、及優(yōu)化改進》

5 總結

本文提出了一種名為LEAP的無姿勢方法，用于從一組非定姿稀疏視圖圖像進行三維建模。通過適當設置三維坐標并聚合二維圖像特征，LEAP展示了令人滿意的新視角合成質(zhì)量。在我們的實驗中，LEAP在從物體居中到場景級別，從合成圖像到真實圖像，以及從小規(guī)模到大規(guī)模數(shù)據(jù)的范圍內(nèi)，與使用估計姿勢或噪聲姿勢的先前基于姿勢的方法相比，始終表現(xiàn)出更好的性能。LEAP還與使用基準真實姿勢的先前方法的版本取得了可比較的結果。此外，LEAP展示了強大的泛化能力，快速推理速度和可解釋的學習知識。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴