0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于神經輻射場的自監(jiān)督多相機占用預測

3D視覺工坊 ? 來源:3DCV ? 2024-01-02 14:53 ? 次閱讀

1、筆者導讀

我們提出了一種名為OccNeRF的方法,用于自監(jiān)督多相機3D占用預測。該方法通過參數(shù)化重建的占用場來表示無限空間,并通過神經渲染將占用場轉換為多相機深度圖。為了提供幾何和語義監(jiān)督,該方法利用多幀圖像之間的光度一致性進行監(jiān)督。此外,為了語義占用預測,該方法還設計了幾種策略來處理預訓練的開放詞匯模型。

2、解決了什么?

本研究提出了一種自監(jiān)督的多攝相機3D占據(jù)預測方法,名為OccNeRF。該方法旨在解決無界場景的建模問題。

3、方法

主要包括以下幾個方面:

參數(shù)化占用場景表示

使用神經輻射場(Neural Radiance Fields,NeRF)來表示占用場景。

引入參數(shù)化坐標系,將無界的場景表示為有界的占用場景。

使用參數(shù)化坐標系中的體素來表示占用場景的內部和外部區(qū)域。

使用占用場景的體素表示來訓練網絡。

多攝像頭特征聚合

對于每個攝像頭,將其對應的圖像特征投影到參數(shù)化坐標系中的體素上。

使用雙線性插值將投影后的特征聚合為體素特征。

使用三維卷積網絡提取特征并預測最終的占用輸出。

多幀深度估計

使用體素渲染技術將占用場景投影到多攝像頭的深度圖上。

通過沿著攝像頭中心到像素的射線采樣一系列點,計算對應像素的深度值。

使用渲染權重代替密度來適應占用場景的表示。

使用多幀光度損失來訓練深度估計模型。

開放詞匯語義監(jiān)督

使用多攝像頭圖像的二維語義標簽提供像素級的語義監(jiān)督。

通過將預訓練的開放詞匯模型的輸出與圖像特征進行對齊,生成二維語義標簽。

使用二維語義標簽來訓練網絡,提高幾何一致性和體素之間的空間關系的捕捉能力。

4、損失函數(shù)

研究所涉及的損失函數(shù)有以下幾種:

渲染損失:用于訓練神經輻射場(Neural Radiance Fields,NeRF)模型的監(jiān)督信號。通過計算渲染的像素顏色與真實像素顏色之間的差異來衡量模型的性能。

時序光度損失:用于多幀深度估計的監(jiān)督信號。通過將相鄰幀投影到當前幀,并計算投影圖像與原始圖像之間的重構誤差來訓練模型。

語義損失:用于語義三維占據(jù)預測的監(jiān)督信號。通過提供多相機圖像的二維語義標簽,幫助網絡捕捉幾何一致性和體素之間的空間關系。

5、實驗結果

本研究采用了自監(jiān)督的多相機占據(jù)預測方法,稱為OccNeRF。我們的實驗方法和結果如下:

數(shù)據(jù)集:本研究在nuScenes數(shù)據(jù)集上進行實驗,該數(shù)據(jù)集包含600個場景用于訓練,150個場景用于驗證,150個場景用于測試。數(shù)據(jù)集包含大約40000幀圖像和17個類別。

自監(jiān)督深度估計:首先,將LiDAR點云投影到每個視角上,得到深度圖作為自監(jiān)督深度估計的輸入。然后,使用神經輻射場(Neural Radiance Fields,NeRF)方法進行深度估計。NeRF使用渲染方程將3D場景中的顏色和深度信息映射到2D圖像中。本研究在NeRF的基礎上進行改進,引入了時間光度約束和多幀渲染,以提高深度估計的準確性。

占據(jù)預測:為了預測場景中的占據(jù)情況,本研究使用了Grounding DINO模型和Grounded-SAM模型。首先,使用Grounding DINO模型生成檢測邊界框和對應的logits和短語。然后,將這些信息輸入到Grounded-SAM模型中,生成精確的語義分割二值掩碼。最后,使用體素渲染技術將語義標簽投影到圖像空間中,得到占據(jù)預測結果。

實驗評估:本研究使用了多個評估指標來評估深度估計和占據(jù)預測的性能,包括絕對相對誤差(Abs Rel)、平方相對誤差(Sq Rel)、均方根誤差(RMSE)等。同時,與其他自監(jiān)督和有監(jiān)督方法進行了比較,以驗證OccNeRF方法的優(yōu)越性。

69db56ea-a72d-11ee-8b88-92fbcf53809c.png

69e2e770-a72d-11ee-8b88-92fbcf53809c.png

5、總結

本研究通過自監(jiān)督深度估計和占據(jù)預測方法,實現(xiàn)了對多攝像頭場景中的占據(jù)情況的準確預測。實驗結果表明,OccNeRF方法在深度估計和占據(jù)預測方面取得了較好的性能。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 攝像頭
    +關注

    關注

    59

    文章

    4752

    瀏覽量

    94390
  • 相機圖像
    +關注

    關注

    0

    文章

    7

    瀏覽量

    6003
  • LIDAR
    +關注

    關注

    10

    文章

    316

    瀏覽量

    29256

原文標題:清華最新發(fā)布!OccNeRF:基于神經輻射場的自監(jiān)督多相機占用預測

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    有提供編寫神經網絡預測程序服務的嗎?

    有提供編寫神經網絡預測程序服務的嗎?
    發(fā)表于 12-10 13:50

    關于BP神經網絡預測模型的確定!!

    請問用matlab編程進行BP神經網絡預測時,訓練結果很多都是合適的,但如何確定最合適的?且如何用最合適的BP模型進行外推預測
    發(fā)表于 02-08 14:23

    如何用卷積神經網絡方法去解決機器監(jiān)督學習下面的分類問題?

    人工智能下面有哪些機器學習分支?如何用卷積神經網絡(CNN)方法去解決機器學習監(jiān)督學習下面的分類問題?
    發(fā)表于 06-16 08:09

    基于小波包_神經網絡的太陽逐時輻射預測_陳杰

    基于小波包_神經網絡的太陽逐時輻射預測_陳杰
    發(fā)表于 12-31 14:45 ?1次下載

    多相機視域下行人目標匹配

    針對多相機視域下行人目標匹配正確率不高的問題,基于無監(jiān)督顯著性學習和局部特征匹配提出一種全局最優(yōu)匹配模型。將不同視域間的目標匹配進行關聯(lián),每對相機的直接匹配受制于其間接匹配的監(jiān)督,同時
    發(fā)表于 03-07 16:12 ?0次下載

    監(jiān)督學習與Transformer相關論文

    學習、Transformer、圖神經網絡、自然語言處理、模型壓縮等熱點領域,將分多期為大家?guī)硐盗姓撐慕庾x。 本期的關注焦點是監(jiān)督學習與
    的頭像 發(fā)表于 11-02 15:50 ?2601次閱讀
    <b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>學習與Transformer相關論文

    基于主動學習的半監(jiān)督神經網絡模型來對分子性質進行預測方法

    總體來講,本文使用教師模型和學生模型來迭代訓練。每個模型都是一個圖神經網絡。在教師模型中,使用半監(jiān)督的方式來獲得分子圖的一般表示。我們聯(lián)合訓練分子的無監(jiān)督表示和基于屬性預測的embed
    的頭像 發(fā)表于 11-24 09:59 ?3970次閱讀

    采用監(jiān)督CNN進行單圖像深度估計的方法

    為了提高利用深度神經網絡預測單圖像深度信息的精確度,提出了一種采用監(jiān)督卷積神經網絡進行單圖像深度估計的方法。首先,該方法通過在編解碼結構中
    發(fā)表于 04-27 16:06 ?13次下載
    采用<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>CNN進行單圖像深度估計的方法

    基于多相機捕捉系統(tǒng)下的通用物體運動捕捉方法

    基于多相機捕捉系統(tǒng)下的通用物體運動捕捉方法
    發(fā)表于 06-25 10:34 ?29次下載

    介紹一種神經成對配準的技術NeRF2NeRF

    我們介紹了一種神經成對配準的技術,它擴展了基于優(yōu)化的經典局部配準(即ICP)以操作神經輻射(NeRF)。
    的頭像 發(fā)表于 02-20 10:29 ?549次閱讀

    NeRF2NeRF神經輻射的配對配準介紹

    我們介紹了一種神經成對配準的技術,它擴展了基于優(yōu)化的經典局部配準(即ICP)以操作神經輻射(NeRF)。
    的頭像 發(fā)表于 03-31 16:49 ?796次閱讀

    基于神經輻射(NeRFs)的自動駕駛模擬器

    如今,自動駕駛汽車可以在普通情況下平穩(wěn)駕駛,人們普遍認為,真實的傳感器模擬將在通過模擬解決剩余的極端情況方面發(fā)揮關鍵作用。為此,我們提出了一種基于神經輻射(NeRFs)的自動駕駛模擬器。
    發(fā)表于 08-01 14:46 ?643次閱讀
    基于<b class='flag-5'>神經</b><b class='flag-5'>輻射</b><b class='flag-5'>場</b>(NeRFs)的自動駕駛模擬器

    SHERF:可泛化可驅動人體神經輻射的新方法

    人體神經輻射的目標是從 2D 人體圖片中恢復高質量的 3D 數(shù)字人并加以驅動,從而避免耗費大量人力物力去直接獲取 3D 人體幾何信息。這個方向的探索對于一系列應用場景,比如虛擬現(xiàn)實和輔助現(xiàn)實場景,有著非常大潛在性的影響。
    的頭像 發(fā)表于 08-15 11:46 ?722次閱讀
    SHERF:可泛化可驅動人體<b class='flag-5'>神經</b><b class='flag-5'>輻射</b><b class='flag-5'>場</b>的新方法

    WACV 2023 I從ScanNeRF到元宇宙:神經輻射的未來

    神經輻射(NeRF)通過將三維場景編碼成隱式表示,在視覺領域中廣泛應用。通過學習多層感知機(MLP)來建立隱式映射,其中包括中間的MLP(pos)用于推斷密度和嵌入,淺層的MLP(rgb)用于
    的頭像 發(fā)表于 09-01 16:14 ?514次閱讀
    WACV 2023 I從ScanNeRF到元宇宙:<b class='flag-5'>神經</b><b class='flag-5'>輻射</b><b class='flag-5'>場</b>的未來

    基于幾何分析的神經輻射編輯方法

    神經輻射作為近期一個廣受關注的隱式表征方法,能合成照片級真實的多視角圖像。但因為其隱式建模的性質,用戶難以直觀編輯神經輻射
    的頭像 發(fā)表于 11-20 16:56 ?434次閱讀
    基于幾何分析的<b class='flag-5'>神經</b><b class='flag-5'>輻射</b><b class='flag-5'>場</b>編輯方法