日本国产欧美三级在线,chinese中国精品自拍

1、筆者導讀

我們提出了一種名為OccNeRF的方法，用于自監(jiān)督多相機3D占用預測。該方法通過參數(shù)化重建的占用場來表示無限空間，并通過神經渲染將占用場轉換為多相機深度圖。為了提供幾何和語義監(jiān)督，該方法利用多幀圖像之間的光度一致性進行監(jiān)督。此外，為了語義占用預測，該方法還設計了幾種策略來處理預訓練的開放詞匯模型。

2、解決了什么？

本研究提出了一種自監(jiān)督的多攝相機3D占據(jù)預測方法，名為OccNeRF。該方法旨在解決無界場景的建模問題。

3、方法

主要包括以下幾個方面：

參數(shù)化占用場景表示：

使用神經輻射場（Neural Radiance Fields，NeRF）來表示占用場景。

引入參數(shù)化坐標系，將無界的場景表示為有界的占用場景。

使用參數(shù)化坐標系中的體素來表示占用場景的內部和外部區(qū)域。

使用占用場景的體素表示來訓練網絡。

多攝像頭特征聚合

對于每個攝像頭，將其對應的圖像特征投影到參數(shù)化坐標系中的體素上。

使用雙線性插值將投影后的特征聚合為體素特征。

使用三維卷積網絡提取特征并預測最終的占用輸出。

多幀深度估計

使用體素渲染技術將占用場景投影到多攝像頭的深度圖上。

通過沿著攝像頭中心到像素的射線采樣一系列點，計算對應像素的深度值。

使用渲染權重代替密度來適應占用場景的表示。

使用多幀光度損失來訓練深度估計模型。

開放詞匯語義監(jiān)督

使用多攝像頭圖像的二維語義標簽提供像素級的語義監(jiān)督。

通過將預訓練的開放詞匯模型的輸出與圖像特征進行對齊，生成二維語義標簽。

使用二維語義標簽來訓練網絡，提高幾何一致性和體素之間的空間關系的捕捉能力。

4、損失函數(shù)

研究所涉及的損失函數(shù)有以下幾種：

渲染損失：用于訓練神經輻射場（Neural Radiance Fields，NeRF）模型的監(jiān)督信號。通過計算渲染的像素顏色與真實像素顏色之間的差異來衡量模型的性能。

時序光度損失：用于多幀深度估計的監(jiān)督信號。通過將相鄰幀投影到當前幀，并計算投影圖像與原始圖像之間的重構誤差來訓練模型。

語義損失：用于語義三維占據(jù)預測的監(jiān)督信號。通過提供多相機圖像的二維語義標簽，幫助網絡捕捉幾何一致性和體素之間的空間關系。

5、實驗結果

本研究采用了自監(jiān)督的多相機占據(jù)預測方法，稱為OccNeRF。我們的實驗方法和結果如下：

數(shù)據(jù)集：本研究在nuScenes數(shù)據(jù)集上進行實驗，該數(shù)據(jù)集包含600個場景用于訓練，150個場景用于驗證，150個場景用于測試。數(shù)據(jù)集包含大約40000幀圖像和17個類別。

自監(jiān)督深度估計：首先，將LiDAR點云投影到每個視角上，得到深度圖作為自監(jiān)督深度估計的輸入。然后，使用神經輻射場（Neural Radiance Fields，NeRF）方法進行深度估計。NeRF使用渲染方程將3D場景中的顏色和深度信息映射到2D圖像中。本研究在NeRF的基礎上進行改進，引入了時間光度約束和多幀渲染，以提高深度估計的準確性。

占據(jù)預測：為了預測場景中的占據(jù)情況，本研究使用了Grounding DINO模型和Grounded-SAM模型。首先，使用Grounding DINO模型生成檢測邊界框和對應的logits和短語。然后，將這些信息輸入到Grounded-SAM模型中，生成精確的語義分割二值掩碼。最后，使用體素渲染技術將語義標簽投影到圖像空間中，得到占據(jù)預測結果。

實驗評估：本研究使用了多個評估指標來評估深度估計和占據(jù)預測的性能，包括絕對相對誤差（Abs Rel）、平方相對誤差（Sq Rel）、均方根誤差（RMSE）等。同時，與其他自監(jiān)督和有監(jiān)督方法進行了比較，以驗證OccNeRF方法的優(yōu)越性。