文章摘要
實(shí)時(shí)語義的可獲得性極大地提高了SLAM系統(tǒng)的基本幾何功能,使得許多機(jī)器人和AR/VR應(yīng)用成為可能。論文提出了一種新的基于RGB-D序列的實(shí)時(shí)語義建圖方法,該方法結(jié)合了2D神經(jīng)網(wǎng)絡(luò)和基于SLAM系統(tǒng)的3D網(wǎng)絡(luò)。在分割新幀時(shí),論文基于可微渲染進(jìn)行從先前幀的潛在特征重投影。與獨(dú)立處理圖像的基線相比,融合重投影的特征圖極大地改善了圖像分割質(zhì)量。對(duì)于3D地圖處理,論文提出了一種新的基于幾何的準(zhǔn)平面超分段方法,依靠表面法線對(duì)可能屬于相同語義類別的3D地圖元素進(jìn)行分組。論文還描述了語義地圖后處理的新型輕量級(jí)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)。論文的系統(tǒng)在2D-3D網(wǎng)絡(luò)為基礎(chǔ)的系統(tǒng)中實(shí)現(xiàn)了最先進(jìn)的語義建圖質(zhì)量,并與三個(gè)真實(shí)室內(nèi)數(shù)據(jù)集上的基于3D網(wǎng)絡(luò)的方法相匹配,同時(shí)仍保持實(shí)時(shí)性能。此外,與僅基于3D網(wǎng)絡(luò)相比,它顯示了更好的跨傳感器泛化能力。代碼和數(shù)據(jù)將在項(xiàng)目頁面上發(fā)布//jingwenwang95.github.io/SeMLaPS。
背景補(bǔ)充
3D網(wǎng)絡(luò)用于語義建圖。這一類方法直接處理場景的3D重建,并生成語義標(biāo)簽作為輸出。基于PointNet的語義分割方法在多個(gè)尺度上處理無序點(diǎn)云。PointConv和KPConv提出了點(diǎn)云上的卷積操作。稀疏子流形卷積和MinkowskiNet僅處理密集體素網(wǎng)格中的占用表面體素,具有合理的內(nèi)存需求。BP-Net利用了3D網(wǎng)絡(luò)和2D網(wǎng)絡(luò),由特征投影機(jī)制連接。INS-Conv展示了一種在線運(yùn)行基于3D網(wǎng)絡(luò)的推理的方式,匹配離線3D網(wǎng)絡(luò)的精度,然而它不能產(chǎn)生SLAM其他語義任務(wù)所需的圖像級(jí)語義標(biāo)簽。
論文方法介紹
A. 系統(tǒng)概述
論文在III-B部分描述了論文方法背后的SLAM管道。論文的2D潛在先驗(yàn)網(wǎng)絡(luò)(LPN)在III-C中描述。LPN輸出融合到論文在III-D中描述的論文新穎的準(zhǔn)平面超分段(QPOS)方法分割的地圖中。接下來,論文運(yùn)行III-E中描述的Section-Convolutional Network,以獲得估計(jì)的語義類別。圖1顯示了整體管道。
B. 實(shí)時(shí)稠密3D占用建圖
論文依靠一個(gè)特征為基礎(chǔ)的視覺慣性SLAM系統(tǒng),它另外輸出全局校正軌跡,當(dāng)檢測到環(huán)路閉合并進(jìn)行優(yōu)化時(shí)。論文將深度圖像和6自由度(DoF)姿態(tài)融合到一個(gè)子圖為基礎(chǔ)的3D占用地圖中。在每個(gè)子圖內(nèi)部,占用信息存儲(chǔ)在遵循的自適應(yīng)分辨率八叉樹中。
C. 潛在先驗(yàn)網(wǎng)絡(luò)
論文的方法通過使用序列中的其他幀的知識(shí)來改進(jìn)RGB-D幀分割,見圖3。大多數(shù)系統(tǒng)重復(fù)獨(dú)立地分割幀。論文旨在盡可能早地將這種先驗(yàn)知識(shí)注入管道中。論文采用SSMA,使用RGB和深度輸入的獨(dú)立編碼器,但將ResNet-50編碼器替換為計(jì)算復(fù)雜性方面的輕量級(jí)MobileNetV3,見圖2。
為了強(qiáng)制執(zhí)行來自多個(gè)先前視圖的潛在先驗(yàn),論文提出重新投影不同分辨率的特征圖到一個(gè)共同的參考視圖,使用SLAM系統(tǒng)提供的深度圖和相機(jī)姿態(tài)。論文使用x4、x8和x16下采樣的特征圖進(jìn)行重投影,見圖2。為了獲得平滑的梯度傳播,論文使用PyTorch3D提供的可微分渲染器來獲得重投影的特征圖。然后使用平均池化將重投影的特征圖與參考視圖特征圖融合。
在訓(xùn)練過程中,在每次迭代中,論文對(duì)N個(gè)相鄰幀進(jìn)行采樣,并隨機(jī)選擇一個(gè)作為參考視圖。來自N-1個(gè)相鄰視圖的潛在特征先驗(yàn)被變形到參考視圖上。然后論文計(jì)算交叉熵?fù)p失:Lsem來自參考視圖輸出,和Laux鄰近視圖,以鼓勵(lì)單視圖預(yù)測的合理性。論文的最終損失是加權(quán)和L = Lsem + wLaux。
注意,論文的LPN設(shè)計(jì)為從附近的幀中編碼潛在先驗(yàn)知識(shí)提供了靈活性。首先,盡管N在訓(xùn)練期間是固定的,但在測試時(shí)論文的LPN可以接受任意數(shù)量的視圖。其次,論文可以以順序模式進(jìn)行推理,即按順序即時(shí)處理幀。這允許論文重用在先前視圖中計(jì)算的特征圖,因此LPN僅對(duì)每個(gè)幀進(jìn)行一次處理。最后,雖然論文的LPN需要深度進(jìn)行特征重投影和跨視圖融合,但在特征提取階段,論文可以僅依賴于RGB輸入并刪除深度編碼器(圖3中的紅色部分)。
D. 準(zhǔn)平面超分段
論文旨在通過將體素分組為段來減少地圖基數(shù),提取表面體素的列表,并使用距離場估計(jì)它們的法線,構(gòu)建帶權(quán)無向圖(V,E,w),其中體素為頂點(diǎn)V,邊E在共面體素之間。超分段S將體素映射到段標(biāo)簽。論文設(shè)S(i)=i,按權(quán)重排序邊,如果代價(jià)F(S)減小則逐個(gè)合并:
其中L(S)是段標(biāo)簽集合,是期望的空間段大小。
為了改善段邊界的質(zhì)量,論文應(yīng)用一個(gè)快速的后處理步驟,將體素分配給關(guān)聯(lián)成本最低的段:
其中,是體素i的位置和法線,,,是段l的中心,協(xié)方差和法線,是加權(quán)因子。 為了效率,論文使用段中心的KD樹。
QPOS方法具有O(|E|)復(fù)雜度,論文以增量方式在地圖更新后使用它,僅使用更新的V和E中的體素,在使用(2)與觀察到的段關(guān)聯(lián)之前,試圖將新體素與觀察到的段關(guān)聯(lián)。論文將QPOS結(jié)果用作輸入到下面描述的分段卷積網(wǎng)絡(luò)。
E. 分段卷積網(wǎng)絡(luò)
段的大小可能不同:在低頻場景部分如地板或墻壁中它們更大,而對(duì)于桌面上的物體它們更小。論文提出定制非均勻大小段的卷積操作,而SVCNN假設(shè)大小統(tǒng)一。
與PointConv 類似,論文將權(quán)重網(wǎng)W(·)定義為多層感知器(MLP)以預(yù)測卷積核,將特征網(wǎng)Φ(·)定義為特征處理的MLP:
其中是x的相鄰段,,是段的中心, 是段內(nèi)平均特征, 是10D特征向量定義為:
其中是段的表面法線,是兩個(gè)段之間的位移向量,r、v、w通過格拉姆-施米特正交化過程從和構(gòu)建正交基。,,其中,表示和的空間協(xié)方差。論文的通過方差,增強(qiáng)了中提出的視點(diǎn)不變(VI)特征。 輸入段特征,論文使用體素級(jí)預(yù)測類概率的平均值以及由RGB顏色、位置和表面法線組成的9D幾何特征。 對(duì)于每個(gè)段卷積層,論文使用隱藏維度為8的2層MLP作為W(·),使用隱藏維度為64的2層MLP作為Φ(·)。論文堆疊3個(gè)段卷積層形成論文的分段卷積網(wǎng)絡(luò)。
F. 使用RealSense的語義建圖
為了理解不同語義建圖方法的跨傳感器泛化能力,論文提出了一個(gè)使用RealSense D455 [17]采集的四個(gè)RGB-D測試序列數(shù)據(jù)集。它具有使用論文的視覺慣性SLAM系統(tǒng)獲得的真實(shí)姿態(tài),并使用基于體素大小為0.01米的TSDF融合的稠密映射系統(tǒng)重建網(wǎng)格。 網(wǎng)格使用與ScanNet一致的語義標(biāo)簽進(jìn)行手動(dòng)注釋。 有四個(gè)室內(nèi)場景(會(huì)議室、實(shí)驗(yàn)室、廚房和休息室)
G. 系統(tǒng)實(shí)現(xiàn)細(xì)節(jié)
最后,論文提供了整個(gè)系統(tǒng)及所提出網(wǎng)絡(luò)的實(shí)現(xiàn)細(xì)節(jié),以執(zhí)行在線實(shí)時(shí)語義建圖。
潛在先驗(yàn)網(wǎng)絡(luò)。論文在ScanNet v2數(shù)據(jù)集的1201個(gè)訓(xùn)練序列上訓(xùn)練LPN,相鄰幀之間的步長為20,使用Adam訓(xùn)練20個(gè)epoch,初始學(xué)習(xí)率為1e-4和one-cycle學(xué)習(xí)率計(jì)劃器;論文使用N=3并對(duì)數(shù)據(jù)進(jìn)行隨機(jī)縮放、裁剪、翻轉(zhuǎn)、高斯模糊和隨機(jī)視圖順序排列以進(jìn)行數(shù)據(jù)增強(qiáng)。 在單個(gè)nVidia RTX-3090ti GPU上訓(xùn)練大約需要3天,批量大小為8。
分段卷積網(wǎng)絡(luò)。論文在ScanNet v2訓(xùn)練拆分的1201個(gè)網(wǎng)格上訓(xùn)練III-E部分描述的分段卷積網(wǎng)絡(luò)。論文首先對(duì)具有段大小ar{s}=60頂點(diǎn)的網(wǎng)格運(yùn)行論文的QPOS,并通過多數(shù)投票將頂點(diǎn)級(jí)GT標(biāo)簽傳輸?shù)蕉渭?jí)GT標(biāo)簽。論文順序地在每個(gè)場景上運(yùn)行論文訓(xùn)練好的LPN,使用貝葉斯融合將2D標(biāo)簽預(yù)測轉(zhuǎn)移到3D網(wǎng)格。
上述數(shù)據(jù)生成過程總共創(chuàng)建了約200萬個(gè)段。論文使用初始學(xué)習(xí)率為5e-4和one-cycle調(diào)度器的Adam 優(yōu)化器訓(xùn)練分段卷積網(wǎng)絡(luò)。在單個(gè)Nvidia RTX-3090ti GPU上,批量大小為12,訓(xùn)練100個(gè)epoch需要大約2小時(shí)。
系統(tǒng)設(shè)計(jì)細(xì)節(jié)。論文按照順序運(yùn)行潛在先驗(yàn)網(wǎng)絡(luò),并在后端SLAM系統(tǒng)更新地圖幾何時(shí)在每個(gè)關(guān)鍵幀處執(zhí)行貝葉斯融合。因此,每個(gè)幀僅由LPN處理一次,參考幀將非參考幀的重投影特征圖作為輸入。接下來,如III-D所述,論文僅針對(duì)地圖更新受影響的區(qū)域執(zhí)行QPOS。這將更新這些段的屬性(特征、段中心、連接拓?fù)涞?。最后,受影響的那些段及其K近鄰被饋送到分段卷積網(wǎng)絡(luò)以預(yù)測更新后的類別標(biāo)簽。
方法結(jié)論
論文提出了SeMLaPS方法,一個(gè)遵循2D-3D通道的實(shí)時(shí)在線語義建圖系統(tǒng)。它受益于利用新穎的潛在先驗(yàn)網(wǎng)絡(luò)融合歷史視圖的潛在特征,而準(zhǔn)平面超分段和分段卷積網(wǎng)絡(luò)進(jìn)一步改善了最終結(jié)果,與3D離線方法相匹敵,同時(shí)仍保持實(shí)時(shí)性能。與僅3D網(wǎng)絡(luò)相比,SeMLaPS實(shí)現(xiàn)了更好的跨傳感器泛化能力。
-
傳感器
+關(guān)注
關(guān)注
2545文章
50445瀏覽量
751049 -
SLAM
+關(guān)注
關(guān)注
23文章
415瀏覽量
31758 -
感知器
+關(guān)注
關(guān)注
0文章
34瀏覽量
11823
原文標(biāo)題:arXiv2023 | 實(shí)時(shí)語義建圖與潛在先驗(yàn)網(wǎng)絡(luò)和準(zhǔn)平面分割
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論