0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于RGB-D圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng)

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-11-29 10:35 ? 次閱讀

2. 摘要

提出了一種基于RGB-D圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng),該系統(tǒng)由完整的前端和后端模塊組成,包括里程計(jì)、回環(huán)檢測(cè)、子圖融合和全局優(yōu)化。為了在一個(gè)統(tǒng)一的框架中啟用所有這些模塊,我們提出了一種新的基于神經(jīng)點(diǎn)的3D場景表示,其中每個(gè)點(diǎn)都保持用于場景編碼的可學(xué)習(xí)神經(jīng)特征,并且與某個(gè)關(guān)鍵幀相關(guān)聯(lián)。此外,還提出了一種從分布式到集中式的協(xié)作隱式SLAM學(xué)習(xí)策略,以提高一致性和協(xié)調(diào)性。與傳統(tǒng)的光束法平差一樣,本文還提出了一種新的全局優(yōu)化框架來提高系統(tǒng)精度。在不同數(shù)據(jù)集上的實(shí)驗(yàn)證明了該方法在相機(jī)跟蹤和建圖方面的優(yōu)越性。

3. 算法解析

重新理一下思路,NeRF SLAM為啥火?

因?yàn)镹eRF和SLAM可以相互輔助,SLAM為NeRF訓(xùn)練提供位姿,NeRF可以重建高清晰度的地圖、做空洞補(bǔ)全、或者用光度損失反過來優(yōu)化位姿。

有什么問題?

個(gè)人感覺現(xiàn)在NeRF SLAM有兩個(gè)問題,一個(gè)是計(jì)算量大難以落地,一個(gè)是因?yàn)樽霾涣嘶丨h(huán)和全局優(yōu)化導(dǎo)致定位精度低。

CP-SLAM的核心思想是什么?

傳統(tǒng)的NeRF地圖不好做回環(huán)和優(yōu)化,但是改成基于點(diǎn)的NeRF地圖,就可以像傳統(tǒng)SLAM那樣去優(yōu)化了!

具體是如何實(shí)現(xiàn)的?

CP-SLAM本身是一個(gè)多機(jī)協(xié)同SLAM,輸入是RGB-D數(shù)據(jù)流,每個(gè)SLAM系統(tǒng)分別執(zhí)行跟蹤和建圖,最后執(zhí)行子地圖融合。每個(gè)SLAM系統(tǒng)都維護(hù)一個(gè)神經(jīng)點(diǎn)輻射場,借助3個(gè)MLP(特征融合、顏色場、占用場)來渲染深度圖和顏色圖。通過計(jì)算光度和幾何損失來優(yōu)化輻射場和相機(jī)位姿。同時(shí)每個(gè)單獨(dú)的SLAM不斷地用NetVLAD提取關(guān)鍵幀描述子,并發(fā)送到描述子池(有點(diǎn)像ORB-SLAM的關(guān)鍵幀數(shù)據(jù)庫),中央服務(wù)器檢測(cè)到回環(huán)以后融合子地圖,并執(zhí)行全局BA。最后再做一個(gè)以關(guān)鍵幀為中心的地圖優(yōu)化。

cc4d2ee8-8d79-11ee-939d-92fbcf53809c.png

下面來逐個(gè)聊聊每個(gè)子模塊的具體原理。

這個(gè)神經(jīng)點(diǎn)是啥?

神經(jīng)點(diǎn)輻射場來源于CVPR 2022 oral的文章Point-NeRF,用神經(jīng)點(diǎn)表示三維場景。其實(shí)就是讓空間中的點(diǎn)同時(shí)存儲(chǔ)位置信息(xyz)和局部場景信息(單層CNN提取的神經(jīng)特征向量,CP-SLAM里是32維),原始Point-NeRF的神經(jīng)點(diǎn)里還存儲(chǔ)了[0, 1]范圍的置信度,表示這個(gè)點(diǎn)有多大概率離真實(shí)物體很近。

當(dāng)然,使用神經(jīng)點(diǎn)輻射場也有優(yōu)點(diǎn)有缺點(diǎn):

優(yōu)點(diǎn):執(zhí)行回環(huán)檢測(cè)和BA優(yōu)化時(shí),3D點(diǎn)比原始NeRF場景更好調(diào)整,所以就很容易引入回環(huán)和局部地圖優(yōu)化。

缺點(diǎn):由于神經(jīng)點(diǎn)分布在觀察對(duì)象的表面周圍,因此未見區(qū)域的空洞填補(bǔ)能力弱于特征網(wǎng)格方法。

位姿跟蹤和NeRF建圖如何進(jìn)行?

輻射場采樣上也用到了一個(gè)trick,就是盡量讓采樣點(diǎn)貼近物體表面。對(duì)于深度有效的點(diǎn),分別從[0.95D, 1.05D]和[0.95Dmin, 1.05Dmax]區(qū)間內(nèi)均勻采樣,D表示點(diǎn)的深度值,Dmin和Dmax表示整個(gè)深度圖的最小最大深度。

對(duì)每個(gè)采樣點(diǎn)xi,首先檢索它半徑r范圍內(nèi)的K個(gè)鄰域點(diǎn),用一個(gè)MLP(框圖中的C)分別處理這K個(gè)點(diǎn),使每個(gè)點(diǎn)的特征向量都融合了跟采樣點(diǎn)的距離信息(對(duì)應(yīng)f~k,x~):

cc66f8be-8d79-11ee-939d-92fbcf53809c.png

再用一個(gè)MLP(框圖中的U)來學(xué)習(xí)采樣點(diǎn)xi的RGB信息,這里就需要用到上一步K個(gè)點(diǎn)的特征向量了:

cc7b753c-8d79-11ee-939d-92fbcf53809c.png

最后還需要用一個(gè)MLP(框圖中的G)來學(xué)習(xí)采樣點(diǎn)xi的占用概率,這里還是用到上上步計(jì)算的K個(gè)特征向量,當(dāng)然如果沒有鄰域點(diǎn)那占用肯定就是0了:

cc9d8cc6-8d79-11ee-939d-92fbcf53809c.png

這兩步預(yù)測(cè)的占用和顏色信息實(shí)際上表示了射線中止的概率α,再加上深度值z(mì)就可以渲染得到當(dāng)前視角的深度圖和RGB圖:

ccba8682-8d79-11ee-939d-92fbcf53809c.png

然后就可以使用深度圖和RGB圖計(jì)算幾何損失和光度損失來優(yōu)化位姿、點(diǎn)特征向量、還有3個(gè)MLP:

ccd41fa2-8d79-11ee-939d-92fbcf53809c.png

這里還有幾個(gè)需要注意的點(diǎn):

1、整個(gè)序列的第一幀需要采樣很多的點(diǎn)來初始化,優(yōu)化步驟達(dá)到3000~5000次;

2、位姿表示成四元數(shù)和平移格式,當(dāng)前幀位姿的初始值設(shè)置為上一幀的位姿,優(yōu)化時(shí)要固定神經(jīng)特征向量和3個(gè)MLP權(quán)重;

3、優(yōu)化位姿沒有用到光度損失,作者認(rèn)為RGB圖是一個(gè)高度非凸問題。

基于學(xué)習(xí)的回環(huán)檢測(cè)如何實(shí)現(xiàn)?

這部分主要是用于融合多個(gè)SLAM系統(tǒng)分別建立的子地圖,并減少位姿的累計(jì)漂移。首先對(duì)每個(gè)關(guān)鍵幀用預(yù)訓(xùn)練的NetVLAD提取描述子,并把描述子扔到池子里(類似ORB-SLAM的關(guān)鍵幀數(shù)據(jù)庫),然后用余弦相似性來檢測(cè)回環(huán)。

局部優(yōu)化很吃初值,如果兩幀運(yùn)動(dòng)太快的話,就很容易陷入局部最優(yōu),所以CP-SLAM采用了一個(gè)由粗到精的回環(huán)檢測(cè)策略。如果相似性超過λfine的話直接執(zhí)行回環(huán)優(yōu)化和子地圖融合,如果低于λfine但高于λcoarse的話就只做一個(gè)位姿圖優(yōu)化。當(dāng)然子地圖融合之后肯定有大量的冗余點(diǎn),還需要做一步非極大值抑制(網(wǎng)格過濾)。

cceb995c-8d79-11ee-939d-92fbcf53809c.png

SLAM協(xié)同如何實(shí)現(xiàn)?

CP-SLAM本身就是一個(gè)協(xié)同SLAM,協(xié)同部分是設(shè)計(jì)了一個(gè)兩階段(從分布式到集中式)的MLP訓(xùn)練策略,來提高協(xié)作一致性。分布式階段就是每個(gè)SLAM單獨(dú)做跟蹤和優(yōu)化,執(zhí)行回環(huán)和子地圖融合以后就進(jìn)入集中式階段,注意集中式階段需要一個(gè)中心服務(wù)器來做子圖和優(yōu)化的全局管理。

這個(gè)階段用的是聯(lián)合學(xué)習(xí),也就是以共享的方式訓(xùn)練單個(gè)網(wǎng)絡(luò)。在子地圖融合的同時(shí),對(duì)每組MLP進(jìn)行平均處理,并對(duì)所有關(guān)鍵幀上的平均MLP進(jìn)行微調(diào),隨后將共享MLP轉(zhuǎn)移到每個(gè)SLAM做訓(xùn)練,并且平均每個(gè)SLAM權(quán)重作為共享MLP的最終優(yōu)化結(jié)果。

cd04875a-8d79-11ee-939d-92fbcf53809c.png

最后簡單說一下位姿圖優(yōu)化

這個(gè)模塊分為兩部分,一部分是維護(hù)子地圖的共視圖,一部分是是基于幀的地圖優(yōu)化。在執(zhí)行子地圖融合后做全局優(yōu)化,位姿圖中每幀的位姿是頂點(diǎn),序列相對(duì)位姿和回環(huán)相對(duì)位姿是邊,優(yōu)化還是用的L-M算法。

為了方便優(yōu)化3D點(diǎn)云位置,作者還做了一個(gè)trick:每個(gè)3D點(diǎn)都與一個(gè)關(guān)鍵幀相關(guān)聯(lián)。

cd2abdf8-8d79-11ee-939d-92fbcf53809c.png

4. 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)這一塊分別對(duì)比了單機(jī)SLAM和協(xié)作SLAM模式,單機(jī)SLAM對(duì)比在Replica數(shù)據(jù)集進(jìn)行,對(duì)比傳統(tǒng)SLAM(ORB-SLAM3)和NeRF SLAM(NICE-SLAM和Vox-Fusion),協(xié)同SLAM對(duì)比的傳統(tǒng)SLAM方案(CCM-SLAM、Swarm-SLAM、ORB-SLAM3)。CP-SLAM的運(yùn)行環(huán)境是一塊3090,如果需要做協(xié)同的話,就再需要一塊3090做為中心服務(wù)器。

雙機(jī)協(xié)作精度的定量對(duì)比,注意ORB-SLAM3本身不是協(xié)作SLAM,所以作者的實(shí)驗(yàn)方法是融合數(shù)據(jù)集,然后用ORB-SLAM3的多地圖系統(tǒng)來執(zhí)行地圖融合。

cd408340-8d79-11ee-939d-92fbcf53809c.png

4個(gè)場景上CP-SLAM和CCM-SLAM的協(xié)作實(shí)驗(yàn)軌跡對(duì)比,可以發(fā)現(xiàn)CP-SLAM的地圖融合效果還是比較好的。

cd5829f0-8d79-11ee-939d-92fbcf53809c.png

單機(jī)SLAM的精度對(duì)比,這個(gè)就說明CP-SLAM的精度超越ORB-SLAM3了。當(dāng)然如果不加入回環(huán)的話,CP-SLAM精度還是不夠,這一點(diǎn)上說明限制NeRF SLAM精度提升的關(guān)鍵就在局部地圖優(yōu)化和回環(huán)優(yōu)化。

cd6e7868-8d79-11ee-939d-92fbcf53809c.png

單機(jī)SLAM軌跡的定性對(duì)比,對(duì)比的NICE-SLAM和Vox-Fusion這兩個(gè)NeRF SLAM方案,沒有對(duì)比ORB-SLAM3。

cd955438-8d79-11ee-939d-92fbcf53809c.png

TUM數(shù)據(jù)集上精度和魯棒性的定量對(duì)比,但對(duì)比的還是只有Co-SLAM和ESLAM這兩個(gè)NeRF SLAM方案,沒對(duì)比ORB-SLAM3。這里也推薦工坊推出的新課程《徹底剖析激光-視覺-IMU-GPS融合SLAM算法:理論推導(dǎo)、代碼講解和實(shí)戰(zhàn)》。

cdc0fe4e-8d79-11ee-939d-92fbcf53809c.png

NeRF建圖的定量對(duì)比,證明三維重建的精度超越了之前的NeRF SLAM方案。

cde68786-8d79-11ee-939d-92fbcf53809c.png

NeRF建圖的定性對(duì)比。

ce0fe216-8d79-11ee-939d-92fbcf53809c.png

神經(jīng)點(diǎn)密度的消融實(shí)驗(yàn),證明神經(jīng)點(diǎn)不是越多越好,也不是越少越好。

ce3fa58c-8d79-11ee-939d-92fbcf53809c.png

Office-0-loop場景上運(yùn)行時(shí)間和內(nèi)存消耗的定量對(duì)比,包括單幀跟蹤時(shí)間、建圖時(shí)間、MLP大小、整個(gè)神經(jīng)場的內(nèi)存大小。NICE-SLAM神經(jīng)場的尺寸超級(jí)大,這是因?yàn)樗鼮榱私鉀Q遺忘問題設(shè)計(jì)的多層特征網(wǎng)格。

ce650bba-8d79-11ee-939d-92fbcf53809c.png

地圖優(yōu)化和采樣點(diǎn)融合的消融實(shí)驗(yàn),還是驗(yàn)證它們的策略是對(duì)的。

ce80a596-8d79-11ee-939d-92fbcf53809c.png

5. 總結(jié)

本文介紹了浙大最新的工作CP-SLAM,號(hào)稱是第一個(gè)基于NeRF的協(xié)作SLAM,跟傳統(tǒng)SLAM一樣具備前后端,定位精度和建圖質(zhì)量都有了很大提升??上]有開源。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • RGB
    RGB
    +關(guān)注

    關(guān)注

    4

    文章

    796

    瀏覽量

    58336
  • CCM
    CCM
    +關(guān)注

    關(guān)注

    0

    文章

    144

    瀏覽量

    23898
  • SLAM
    +關(guān)注

    關(guān)注

    23

    文章

    415

    瀏覽量

    31758
  • MLP
    MLP
    +關(guān)注

    關(guān)注

    0

    文章

    57

    瀏覽量

    4215

原文標(biāo)題:NeurlPS'23 | 第一個(gè)協(xié)作神經(jīng)隱式SLAM?。ㄕ愦驨ICE-SLAM團(tuán)隊(duì)最新力作)

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一種完全分布的點(diǎn)線協(xié)同視覺慣性導(dǎo)航系統(tǒng)

    在本文中,我們提出了一種完全分布的點(diǎn)線協(xié)同視覺慣性導(dǎo)航系統(tǒng)。我們通過蒙特卡羅模擬和真實(shí)環(huán)境數(shù)據(jù)集,在稠密特征或稀疏特征環(huán)境下將所提出的算法與其他四
    的頭像 發(fā)表于 09-30 14:45 ?281次閱讀
    <b class='flag-5'>一種</b>完全分布<b class='flag-5'>式</b>的點(diǎn)線<b class='flag-5'>協(xié)同</b>視覺慣性導(dǎo)航<b class='flag-5'>系統(tǒng)</b>

    一種半動(dòng)態(tài)環(huán)境中的定位方法

    和終身定位方法,以識(shí)別非靜態(tài)環(huán)境中的半動(dòng)態(tài)物體,并提出了個(gè)通用框架,將主流物體檢測(cè)算法與定位算法集成在
    的頭像 發(fā)表于 09-30 14:40 ?183次閱讀
    <b class='flag-5'>一種</b>半動(dòng)態(tài)環(huán)境中的<b class='flag-5'>定位</b>方法

    一種適用于動(dòng)態(tài)環(huán)境的實(shí)時(shí)視覺SLAM系統(tǒng)

    既能保證效率和精度,又無需GPU,行業(yè)第個(gè)達(dá)到此目標(biāo)的視覺動(dòng)態(tài)SLAM系統(tǒng)。
    的頭像 發(fā)表于 09-30 14:35 ?334次閱讀
    <b class='flag-5'>一種</b>適用于動(dòng)態(tài)環(huán)境的實(shí)時(shí)視覺<b class='flag-5'>SLAM</b><b class='flag-5'>系統(tǒng)</b>

    rnn是遞歸神經(jīng)網(wǎng)絡(luò)還是循環(huán)神經(jīng)網(wǎng)絡(luò)

    RNN(Recurrent Neural Network)是循環(huán)神經(jīng)網(wǎng)絡(luò),而非遞歸神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)是一種具有時(shí)間序列特性的
    的頭像 發(fā)表于 07-05 09:52 ?463次閱讀

    rnn神經(jīng)網(wǎng)絡(luò)基本原理

    RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))是一種具有循環(huán)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),它能夠處理序列數(shù)據(jù),并且能夠捕捉時(shí)間序列
    的頭像 發(fā)表于 07-04 15:02 ?594次閱讀

    鼾聲監(jiān)測(cè)神經(jīng)網(wǎng)絡(luò)

    序列,包括心理學(xué)、物理學(xué)、醫(yī)學(xué)和經(jīng)濟(jì)學(xué)48,49,50,51。在本文中,我們將時(shí)間序列的關(guān)聯(lián)視為圖像,這使得能夠進(jìn)行基于CNN的分析。 對(duì)于聲音片段及其相應(yīng)的可見性
    發(fā)表于 05-15 12:14

    常用的RGB-D SLAM解決方案

    BundleFusion是一種稠密的實(shí)時(shí)室內(nèi)場景三維重建算法框架。輸入為RGB-D相機(jī)采集的并且是對(duì)齊好的RGB圖像和深度的數(shù)據(jù)流。輸出為
    的頭像 發(fā)表于 04-16 09:37 ?837次閱讀
    常用的<b class='flag-5'>RGB-D</b> <b class='flag-5'>SLAM</b>解決方案

    從基本原理到應(yīng)用的SLAM技術(shù)深度解析

    LSD-SLAM 即 Large-Scale Direct SLAM,兼容單目相機(jī)和雙目相機(jī)。LSD-SLAM一種基于光流跟蹤的直接法SLAM
    發(fā)表于 02-26 09:41 ?8851次閱讀
    從基本原理到應(yīng)用的<b class='flag-5'>SLAM</b>技術(shù)深度解析

    移動(dòng)協(xié)作機(jī)器人的RGB-D感知的端到端處理方案

    本文提出了一種用于具有雙目視覺的自主機(jī)器人的三維語義場景感知的端到端流程。該流程包括實(shí)例分割、特征匹配和點(diǎn)集配準(zhǔn)。首先,利用RGB圖像進(jìn)行單視圖三維語義場景分割,將2D數(shù)據(jù)集中的常見對(duì)
    發(fā)表于 02-21 15:55 ?590次閱讀
    移動(dòng)協(xié)作機(jī)器人的<b class='flag-5'>RGB-D</b>感知的端到端處理方案

    動(dòng)態(tài)環(huán)境中基于神經(jīng)表示的RGB-D SLAM

    神經(jīng)表示已經(jīng)被探索用于增強(qiáng)視覺SLAM掩碼算法,特別是在提供高保真的密集地圖方面。
    的頭像 發(fā)表于 01-17 10:39 ?848次閱讀
    動(dòng)態(tài)環(huán)境中基于<b class='flag-5'>神經(jīng)</b><b class='flag-5'>隱</b><b class='flag-5'>式</b>表示的<b class='flag-5'>RGB-D</b> <b class='flag-5'>SLAM</b>

    坐標(biāo)系在動(dòng)態(tài)SLAM中究竟有多重要?

    大多同時(shí)定位SLAM系統(tǒng)在傳統(tǒng)上假定的都是靜態(tài)世界,這與現(xiàn)實(shí)世界的場景不符。
    的頭像 發(fā)表于 01-05 13:46 ?800次閱讀
    坐標(biāo)系在動(dòng)態(tài)<b class='flag-5'>SLAM</b>中究竟有多重要?

    應(yīng)用于3D對(duì)象檢測(cè)的點(diǎn)云深度學(xué)習(xí)方法

    隨著激光雷達(dá)傳感器(“光檢測(cè)和測(cè)距”的縮寫,有時(shí)稱為“激光掃描”,現(xiàn)在在些最新的 iPhone 上可用)或 RGB-D 攝像頭(一種 RGB-D 攝像頭)的興起,3
    的頭像 發(fā)表于 01-03 10:32 ?866次閱讀
    兩<b class='flag-5'>種</b>應(yīng)用于3<b class='flag-5'>D</b>對(duì)象檢測(cè)的點(diǎn)云深度學(xué)習(xí)方法

    手持RGB-D傳感器廣泛應(yīng)用的情況

    DisCo方法:提出了一種基于擴(kuò)散的跨模態(tài)形狀重建方法。該方法利用三平面擴(kuò)散模型,結(jié)合部分點(diǎn)云和多視圖圖像,實(shí)現(xiàn)了高保真度的3D形狀重建?;旌咸卣骶酆蠈佑行诤狭瞬煌斎肽B(tài)的局部特征,提高了特征對(duì)齊效果。
    的頭像 發(fā)表于 12-26 16:44 ?433次閱讀
    手持<b class='flag-5'>RGB-D</b>傳感器廣泛應(yīng)用的情況

    什么是激光雷達(dá)3D SLAM技術(shù)?

    什么是激光雷達(dá)3DSLAM?在了解這個(gè)概念之前,我們首先需要弄懂什么是“SLAM”。SLAM,英文是SimultaneousLocalizationandMapping,意思是即時(shí)定位
    的頭像 發(fā)表于 11-25 08:23 ?1517次閱讀
    什么是激光雷達(dá)3<b class='flag-5'>D</b> <b class='flag-5'>SLAM</b>技術(shù)?

    基于幾何分析的神經(jīng)輻射場編輯方法

    神經(jīng)輻射場作為近期個(gè)廣受關(guān)注的表征方法,能合成照片級(jí)真實(shí)的多視角圖像。但因?yàn)槠?b class='flag-5'>隱
    的頭像 發(fā)表于 11-20 16:56 ?527次閱讀
    基于幾何分析的<b class='flag-5'>神經(jīng)</b>輻射場編輯方法