0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

實(shí)時(shí)語義建圖與潛在先驗(yàn)網(wǎng)絡(luò)和準(zhǔn)平面分割

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-07-19 15:55 ? 次閱讀

e5bae73e-25bf-11ee-962d-dac502259ad0.png

文章摘要

實(shí)時(shí)語義的可獲得性極大地提高了SLAM系統(tǒng)的基本幾何功能,使得許多機(jī)器人和AR/VR應(yīng)用成為可能。論文提出了一種新的基于RGB-D序列的實(shí)時(shí)語義建圖方法,該方法結(jié)合了2D神經(jīng)網(wǎng)絡(luò)和基于SLAM系統(tǒng)的3D網(wǎng)絡(luò)。在分割新幀時(shí),論文基于可微渲染進(jìn)行從先前幀的潛在特征重投影。與獨(dú)立處理圖像的基線相比,融合重投影的特征圖極大地改善了圖像分割質(zhì)量。對(duì)于3D地圖處理,論文提出了一種新的基于幾何的準(zhǔn)平面超分段方法,依靠表面法線對(duì)可能屬于相同語義類別的3D地圖元素進(jìn)行分組。論文還描述了語義地圖后處理的新型輕量級(jí)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)。論文的系統(tǒng)在2D-3D網(wǎng)絡(luò)為基礎(chǔ)的系統(tǒng)中實(shí)現(xiàn)了最先進(jìn)的語義建圖質(zhì)量,并與三個(gè)真實(shí)室內(nèi)數(shù)據(jù)集上的基于3D網(wǎng)絡(luò)的方法相匹配,同時(shí)仍保持實(shí)時(shí)性能。此外,與僅基于3D網(wǎng)絡(luò)相比,它顯示了更好的跨傳感器泛化能力。代碼和數(shù)據(jù)將在項(xiàng)目頁面上發(fā)布//jingwenwang95.github.io/SeMLaPS。

背景補(bǔ)充

3D網(wǎng)絡(luò)用于語義建圖。這一類方法直接處理場景的3D重建,并生成語義標(biāo)簽作為輸出。基于PointNet的語義分割方法在多個(gè)尺度上處理無序點(diǎn)云。PointConv和KPConv提出了點(diǎn)云上的卷積操作。稀疏子流形卷積和MinkowskiNet僅處理密集體素網(wǎng)格中的占用表面體素,具有合理的內(nèi)存需求。BP-Net利用了3D網(wǎng)絡(luò)和2D網(wǎng)絡(luò),由特征投影機(jī)制連接。INS-Conv展示了一種在線運(yùn)行基于3D網(wǎng)絡(luò)的推理的方式,匹配離線3D網(wǎng)絡(luò)的精度,然而它不能產(chǎn)生SLAM其他語義任務(wù)所需的圖像級(jí)語義標(biāo)簽。

論文方法介紹

A. 系統(tǒng)概述

論文在III-B部分描述了論文方法背后的SLAM管道。論文的2D潛在先驗(yàn)網(wǎng)絡(luò)(LPN)在III-C中描述。LPN輸出融合到論文在III-D中描述的論文新穎的準(zhǔn)平面超分段(QPOS)方法分割的地圖中。接下來,論文運(yùn)行III-E中描述的Section-Convolutional Network,以獲得估計(jì)的語義類別。圖1顯示了整體管道。

e61e7452-25bf-11ee-962d-dac502259ad0.png

B. 實(shí)時(shí)稠密3D占用建圖

論文依靠一個(gè)特征為基礎(chǔ)的視覺慣性SLAM系統(tǒng),它另外輸出全局校正軌跡,當(dāng)檢測到環(huán)路閉合并進(jìn)行優(yōu)化時(shí)。論文將深度圖像和6自由度(DoF)姿態(tài)融合到一個(gè)子圖為基礎(chǔ)的3D占用地圖中。在每個(gè)子圖內(nèi)部,占用信息存儲(chǔ)在遵循的自適應(yīng)分辨率八叉樹中。

C. 潛在先驗(yàn)網(wǎng)絡(luò)

論文的方法通過使用序列中的其他幀的知識(shí)來改進(jìn)RGB-D幀分割,見圖3。大多數(shù)系統(tǒng)重復(fù)獨(dú)立地分割幀。論文旨在盡可能早地將這種先驗(yàn)知識(shí)注入管道中。論文采用SSMA,使用RGB和深度輸入的獨(dú)立編碼器,但將ResNet-50編碼器替換為計(jì)算復(fù)雜性方面的輕量級(jí)MobileNetV3,見圖2。

e68881b2-25bf-11ee-962d-dac502259ad0.png

為了強(qiáng)制執(zhí)行來自多個(gè)先前視圖的潛在先驗(yàn),論文提出重新投影不同分辨率的特征圖到一個(gè)共同的參考視圖,使用SLAM系統(tǒng)提供的深度圖和相機(jī)姿態(tài)。論文使用x4、x8和x16下采樣的特征圖進(jìn)行重投影,見圖2。為了獲得平滑的梯度傳播,論文使用PyTorch3D提供的可微分渲染器來獲得重投影的特征圖。然后使用平均池化將重投影的特征圖與參考視圖特征圖融合。

在訓(xùn)練過程中,在每次迭代中,論文對(duì)N個(gè)相鄰幀進(jìn)行采樣,并隨機(jī)選擇一個(gè)作為參考視圖。來自N-1個(gè)相鄰視圖的潛在特征先驗(yàn)被變形到參考視圖上。然后論文計(jì)算交叉熵?fù)p失:Lsem來自參考視圖輸出,和Laux鄰近視圖,以鼓勵(lì)單視圖預(yù)測的合理性。論文的最終損失是加權(quán)和L = Lsem + wLaux。

注意,論文的LPN設(shè)計(jì)為從附近的幀中編碼潛在先驗(yàn)知識(shí)提供了靈活性。首先,盡管N在訓(xùn)練期間是固定的,但在測試時(shí)論文的LPN可以接受任意數(shù)量的視圖。其次,論文可以以順序模式進(jìn)行推理,即按順序即時(shí)處理幀。這允許論文重用在先前視圖中計(jì)算的特征圖,因此LPN僅對(duì)每個(gè)幀進(jìn)行一次處理。最后,雖然論文的LPN需要深度進(jìn)行特征重投影和跨視圖融合,但在特征提取階段,論文可以僅依賴于RGB輸入并刪除深度編碼器(圖3中的紅色部分)。

D. 準(zhǔn)平面超分段

論文旨在通過將體素分組為段來減少地圖基數(shù),提取表面體素的列表,并使用距離場估計(jì)它們的法線,構(gòu)建帶權(quán)無向圖(V,E,w),其中體素為頂點(diǎn)V,邊E在共面體素之間。超分段S將體素映射到段標(biāo)簽。論文設(shè)S(i)=i,按權(quán)重排序邊,如果代價(jià)F(S)減小則逐個(gè)合并:

其中L(S)是段標(biāo)簽集合,是期望的空間段大小。

為了改善段邊界的質(zhì)量,論文應(yīng)用一個(gè)快速的后處理步驟,將體素分配給關(guān)聯(lián)成本最低的段:

其中,是體素i的位置和法線,,,是段l的中心,協(xié)方差和法線,是加權(quán)因子。 為了效率,論文使用段中心的KD樹。

QPOS方法具有O(|E|)復(fù)雜度,論文以增量方式在地圖更新后使用它,僅使用更新的V和E中的體素,在使用(2)與觀察到的段關(guān)聯(lián)之前,試圖將新體素與觀察到的段關(guān)聯(lián)。論文將QPOS結(jié)果用作輸入到下面描述的分段卷積網(wǎng)絡(luò)。

E. 分段卷積網(wǎng)絡(luò)

段的大小可能不同:在低頻場景部分如地板或墻壁中它們更大,而對(duì)于桌面上的物體它們更小。論文提出定制非均勻大小段的卷積操作,而SVCNN假設(shè)大小統(tǒng)一。

與PointConv 類似,論文將權(quán)重網(wǎng)W(·)定義為多層感知器(MLP)以預(yù)測卷積核,將特征網(wǎng)Φ(·)定義為特征處理的MLP:

其中是x的相鄰段,,是段的中心, 是段內(nèi)平均特征, 是10D特征向量定義為:

其中是段的表面法線,是兩個(gè)段之間的位移向量,r、v、w通過格拉姆-施米特正交化過程從和構(gòu)建正交基。,,其中,表示和的空間協(xié)方差。論文的通過方差,增強(qiáng)了中提出的視點(diǎn)不變(VI)特征。 輸入段特征,論文使用體素級(jí)預(yù)測類概率的平均值以及由RGB顏色、位置和表面法線組成的9D幾何特征。 對(duì)于每個(gè)段卷積層,論文使用隱藏維度為8的2層MLP作為W(·),使用隱藏維度為64的2層MLP作為Φ(·)。論文堆疊3個(gè)段卷積層形成論文的分段卷積網(wǎng)絡(luò)。

F. 使用RealSense的語義建圖

為了理解不同語義建圖方法的跨傳感器泛化能力,論文提出了一個(gè)使用RealSense D455 [17]采集的四個(gè)RGB-D測試序列數(shù)據(jù)集。它具有使用論文的視覺慣性SLAM系統(tǒng)獲得的真實(shí)姿態(tài),并使用基于體素大小為0.01米的TSDF融合的稠密映射系統(tǒng)重建網(wǎng)格。 網(wǎng)格使用與ScanNet一致的語義標(biāo)簽進(jìn)行手動(dòng)注釋。 有四個(gè)室內(nèi)場景(會(huì)議室、實(shí)驗(yàn)室、廚房和休息室)

G. 系統(tǒng)實(shí)現(xiàn)細(xì)節(jié)

最后,論文提供了整個(gè)系統(tǒng)及所提出網(wǎng)絡(luò)的實(shí)現(xiàn)細(xì)節(jié),以執(zhí)行在線實(shí)時(shí)語義建圖。

潛在先驗(yàn)網(wǎng)絡(luò)。論文在ScanNet v2數(shù)據(jù)集的1201個(gè)訓(xùn)練序列上訓(xùn)練LPN,相鄰幀之間的步長為20,使用Adam訓(xùn)練20個(gè)epoch,初始學(xué)習(xí)率為1e-4和one-cycle學(xué)習(xí)率計(jì)劃器;論文使用N=3并對(duì)數(shù)據(jù)進(jìn)行隨機(jī)縮放、裁剪、翻轉(zhuǎn)、高斯模糊和隨機(jī)視圖順序排列以進(jìn)行數(shù)據(jù)增強(qiáng)。 在單個(gè)nVidia RTX-3090ti GPU上訓(xùn)練大約需要3天,批量大小為8。

分段卷積網(wǎng)絡(luò)。論文在ScanNet v2訓(xùn)練拆分的1201個(gè)網(wǎng)格上訓(xùn)練III-E部分描述的分段卷積網(wǎng)絡(luò)。論文首先對(duì)具有段大小ar{s}=60頂點(diǎn)的網(wǎng)格運(yùn)行論文的QPOS,并通過多數(shù)投票將頂點(diǎn)級(jí)GT標(biāo)簽傳輸?shù)蕉渭?jí)GT標(biāo)簽。論文順序地在每個(gè)場景上運(yùn)行論文訓(xùn)練好的LPN,使用貝葉斯融合將2D標(biāo)簽預(yù)測轉(zhuǎn)移到3D網(wǎng)格。

上述數(shù)據(jù)生成過程總共創(chuàng)建了約200萬個(gè)段。論文使用初始學(xué)習(xí)率為5e-4和one-cycle調(diào)度器的Adam 優(yōu)化器訓(xùn)練分段卷積網(wǎng)絡(luò)。在單個(gè)Nvidia RTX-3090ti GPU上,批量大小為12,訓(xùn)練100個(gè)epoch需要大約2小時(shí)。

系統(tǒng)設(shè)計(jì)細(xì)節(jié)。論文按照順序運(yùn)行潛在先驗(yàn)網(wǎng)絡(luò),并在后端SLAM系統(tǒng)更新地圖幾何時(shí)在每個(gè)關(guān)鍵幀處執(zhí)行貝葉斯融合。因此,每個(gè)幀僅由LPN處理一次,參考幀將非參考幀的重投影特征圖作為輸入。接下來,如III-D所述,論文僅針對(duì)地圖更新受影響的區(qū)域執(zhí)行QPOS。這將更新這些段的屬性(特征、段中心、連接拓?fù)涞?。最后,受影響的那些段及其K近鄰被饋送到分段卷積網(wǎng)絡(luò)以預(yù)測更新后的類別標(biāo)簽。

方法結(jié)論

論文提出了SeMLaPS方法,一個(gè)遵循2D-3D通道的實(shí)時(shí)在線語義建圖系統(tǒng)。它受益于利用新穎的潛在先驗(yàn)網(wǎng)絡(luò)融合歷史視圖的潛在特征,而準(zhǔn)平面超分段和分段卷積網(wǎng)絡(luò)進(jìn)一步改善了最終結(jié)果,與3D離線方法相匹敵,同時(shí)仍保持實(shí)時(shí)性能。與僅3D網(wǎng)絡(luò)相比,SeMLaPS實(shí)現(xiàn)了更好的跨傳感器泛化能力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2545

    文章

    50445

    瀏覽量

    751049
  • SLAM
    +關(guān)注

    關(guān)注

    23

    文章

    415

    瀏覽量

    31758
  • 感知器
    +關(guān)注

    關(guān)注

    0

    文章

    34

    瀏覽量

    11823

原文標(biāo)題:arXiv2023 | 實(shí)時(shí)語義建圖與潛在先驗(yàn)網(wǎng)絡(luò)和準(zhǔn)平面分割

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    PCB中的平面分割

    ,距離越小越好?而電容兩端的網(wǎng)絡(luò)分別對(duì)應(yīng)信號(hào)穿過的參考平面網(wǎng)絡(luò),見圖一中電容兩端連接的網(wǎng)絡(luò),兩種顏色高亮的兩種不同網(wǎng)絡(luò):B.跨線橋接?常見
    發(fā)表于 10-09 13:10

    【Altium小課專題 第117篇】如何對(duì)PCB的電源平面進(jìn)行平面分割

    的區(qū)域一定是封閉的區(qū)域,如圖5-68所示。2)然后雙擊被分割的封閉區(qū)域平面,在彈出的平面分割的窗口中輸出相對(duì)應(yīng)的電源網(wǎng)絡(luò),即可完成
    發(fā)表于 07-21 16:35

    van-自然和醫(yī)學(xué)圖像的深度語義分割網(wǎng)絡(luò)結(jié)構(gòu)

    ?;诖俗髡咭敕淳矸e(deconvolution)操作,對(duì)縮小后的特征進(jìn)行上采樣,恢復(fù)原始圖像大小。跳躍結(jié)構(gòu):語義分割包括語義識(shí)別和目標(biāo)定位。卷積網(wǎng)絡(luò)的高層特征
    發(fā)表于 12-28 11:03

    van-自然和醫(yī)學(xué)圖像的深度語義分割網(wǎng)絡(luò)結(jié)構(gòu)

    ?;诖俗髡咭敕淳矸e(deconvolution)操作,對(duì)縮小后的特征進(jìn)行上采樣,恢復(fù)原始圖像大小。跳躍結(jié)構(gòu):語義分割包括語義識(shí)別和目標(biāo)定位。卷積網(wǎng)絡(luò)的高層特征
    發(fā)表于 12-28 11:06

    聚焦語義分割任務(wù),如何用卷積神經(jīng)網(wǎng)絡(luò)處理語義圖像分割

    同一對(duì)象。作者將沿著該領(lǐng)域的研究脈絡(luò),說明如何用卷積神經(jīng)網(wǎng)絡(luò)處理語義圖像分割的任務(wù)。 更具體地講,語義圖像分割的目標(biāo)在于標(biāo)記圖片中每一個(gè)像素
    發(fā)表于 09-17 15:21 ?549次閱讀

    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來同時(shí)完成實(shí)例分割語義分割

    這一新架構(gòu)“全景 FPN ”在 Facebook 2017 年發(fā)布的 Mask R-CNN 的基礎(chǔ)上添加了一個(gè)用于語義分割的分支。這一新架構(gòu)可以同時(shí)對(duì)圖像進(jìn)行實(shí)例和語義分割,而且精確度
    的頭像 發(fā)表于 04-22 11:46 ?2847次閱讀
    Facebook AI使用單一神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>架構(gòu)來同時(shí)完成實(shí)例<b class='flag-5'>分割</b>和<b class='flag-5'>語義</b><b class='flag-5'>分割</b>

    用圖卷積網(wǎng)絡(luò)解決語義分割問題

    為了避免上述問題,來自中科院自動(dòng)化所、北京中醫(yī)藥大學(xué)的研究者們提出一個(gè)執(zhí)行圖像語義分割任務(wù)的模型 Graph-FCN,該模型由全卷積網(wǎng)絡(luò)(FCN)進(jìn)行初始化。
    的頭像 發(fā)表于 05-13 15:21 ?7028次閱讀

    RGPNET:復(fù)雜環(huán)境下實(shí)時(shí)通用語義分割網(wǎng)絡(luò)

    本文介紹的論文提出了一種新的實(shí)時(shí)通用語義分割體系結(jié)構(gòu)RGPNet,在復(fù)雜環(huán)境下取得了顯著的性能提升。作者: Tom Hardy首發(fā):3D視覺工坊...
    的頭像 發(fā)表于 12-10 19:15 ?618次閱讀

    詳解ENet:CPU可以實(shí)時(shí)的道路分割網(wǎng)絡(luò)

    OpenCV DNN模塊支持的圖像語義分割網(wǎng)絡(luò)FCN是基于VGG16作為基礎(chǔ)網(wǎng)絡(luò),運(yùn)行速度很慢,無法做到實(shí)時(shí)
    的頭像 發(fā)表于 12-15 00:18 ?650次閱讀

    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展及其在語義分割領(lǐng)域的廣泛應(yīng)用,語義分割效果得到顯著提升。對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的圖像
    發(fā)表于 03-19 14:14 ?21次下載
    分析總結(jié)基于深度神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>的圖像<b class='flag-5'>語義</b><b class='flag-5'>分割</b>方法

    基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    對(duì)應(yīng)用于圖像語義分割的幾種深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行簡單介紹,接著詳細(xì)闡述了現(xiàn)有主流的基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義
    發(fā)表于 04-02 13:59 ?11次下載
    基于深度神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>的圖像<b class='flag-5'>語義</b><b class='flag-5'>分割</b>方法

    普通視覺Transformer(ViT)用于語義分割的能力

    本文探討了普通視覺Transformer(ViT)用于語義分割的能力,并提出了SegViT。以前基于ViT的分割網(wǎng)絡(luò)通常從ViT的輸出中學(xué)習(xí)像素級(jí)表示。不同的是,本文利用基本的組件注意
    的頭像 發(fā)表于 10-31 09:57 ?4911次閱讀

    PyTorch教程-14.9. 語義分割和數(shù)據(jù)集

    劃分為屬于不同語義類的區(qū)域。與目標(biāo)檢測不同,語義分割在像素級(jí)別識(shí)別和理解圖像中的內(nèi)容:它對(duì)語義區(qū)域的標(biāo)記和預(yù)測是在像素級(jí)別。 14.9
    的頭像 發(fā)表于 06-05 15:44 ?601次閱讀
    PyTorch教程-14.9. <b class='flag-5'>語義</b><b class='flag-5'>分割</b>和數(shù)據(jù)集

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心
    的頭像 發(fā)表于 07-09 11:51 ?599次閱讀

    圖像語義分割的實(shí)用性是什么

    圖像語義分割是一種重要的計(jì)算機(jī)視覺任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、圖像語義
    的頭像 發(fā)表于 07-17 09:56 ?336次閱讀