手机播放国自产拍在,老王亚洲福利在线观看,亚洲日韩av无码一区二区三区

摘要

? 大家好，今天為大家?guī)淼奈恼率?Multi-modal Semantic SLAM for Complex Dynamic Environments 同時定位和建圖（SLAM）是許多現(xiàn)實世界機(jī)器人應(yīng)用中最重要的技術(shù)之一。靜態(tài)環(huán)境的假設(shè)在大多數(shù) SLAM 算法中很常見，但是對于大多數(shù)應(yīng)用程序來說并非如此。最近關(guān)于語義 SLAM 的工作旨在通過執(zhí)行基于圖像的分割來理解環(huán)境中的對象并從場景上下文中區(qū)分動態(tài)信息。然而，分割結(jié)果往往不完善或不完整，這會降低映射的質(zhì)量和定位的準(zhǔn)確性。在本文中，我們提出了一個強(qiáng)大的多模態(tài)語義框架來解決復(fù)雜和高度動態(tài)環(huán)境中的 SLAM 問題。我們建議學(xué)習(xí)更強(qiáng)大的對象特征表示，并將三思而后行的機(jī)制部署到主干網(wǎng)絡(luò)，從而為我們的基線實例分割模型帶來更好的識別結(jié)果。此外，將純幾何聚類和視覺語義信息相結(jié)合，以減少由于小尺度物體、遮擋和運(yùn)動模糊造成的分割誤差的影響。已經(jīng)進(jìn)行了徹底的實驗來評估所提出方法的性能。結(jié)果表明，我們的方法可以在識別缺陷和運(yùn)動模糊下精確識別動態(tài)對象。此外，所提出的 SLAM 框架能夠以超過 10 Hz 的處理速率有效地構(gòu)建靜態(tài)密集地圖，這可以在許多實際應(yīng)用中實現(xiàn)。訓(xùn)練數(shù)據(jù)和建議的方法都是開源的。?

主要工作與貢獻(xiàn)

? 1. 本文提出了一個魯棒且快速的多模態(tài)語義 SLAM 框架，旨在解決復(fù)雜和動態(tài)環(huán)境中的 SLAM 問題。具體來說，將僅幾何聚類和視覺語義信息相結(jié)合，以減少由于小尺度對象、遮擋和運(yùn)動模糊導(dǎo)致的分割誤差的影響。 2. 本文提出學(xué)習(xí)更強(qiáng)大的對象特征表示，并將三思機(jī)制部署到主干網(wǎng)絡(luò)，從而為基線實例分割模型帶來更好的識別結(jié)果。 3. 對所提出的方法進(jìn)行了全面的評估。結(jié)果表明，本文的方法能夠提供可靠的定位和語義密集的地圖

算法流程

? 圖 2 是框架的概述。它主要由四個模塊組成，分別是實例分割模塊、多模態(tài)融合模塊、定位模塊和全局優(yōu)化與映射模塊。 1.實例分割和語義學(xué)習(xí) 使用2D實例分割網(wǎng)絡(luò)，一張圖像的實例分割結(jié)果： C代表類別，M是物體的掩碼信息，n代表當(dāng)前圖像中存在物體數(shù)量。圖像在空間上被分成 N × N 個網(wǎng)格單元。如果一個對象的中心落入一個網(wǎng)格單元，該網(wǎng)格單元負(fù)責(zé)分別預(yù)測類別分支Bc和掩碼分支P m 中對象的語義類別Cij和語義掩碼Mij： λ 是類的數(shù)量。φ 是網(wǎng)格單元的總數(shù)。為了滿足實時性的要求：采用SOLOv2 的輕量級版本，但精度較低，可實現(xiàn)實時實例分割。為了提高分割精度：實施了多種方法來在骨干網(wǎng)絡(luò)中構(gòu)建更有效和更健壯的特征表示鑒別器。輸出是每個動態(tài)對象的像素級實例掩碼，以及它們對應(yīng)的邊界框和類類型。為了更好地將動態(tài)信息集成到 SLAM 算法中，輸出二進(jìn)制掩碼被轉(zhuǎn)換為包含場景中所有像素級實例掩碼的單個圖像。蒙版落在其上的像素被認(rèn)為是“動態(tài)狀態(tài)”，否則被認(rèn)為是“靜態(tài)”。然后將二進(jìn)制掩碼應(yīng)用于語義融合模塊以生成 3D 動態(tài)掩碼。 2.多模態(tài)融合 1.移動模糊補(bǔ)償： 目前實例分割的性能已經(jīng)是不錯的，但是移動的物體會出現(xiàn)物體識別不完整導(dǎo)致物體的邊界不明確最終影響定位精度。因此，本文首先實現(xiàn)形態(tài)膨脹，將 2D 像素級掩模圖像與結(jié)構(gòu)元素進(jìn)行卷積，以逐漸擴(kuò)展動態(tài)對象的區(qū)域邊界。形態(tài)膨脹結(jié)果標(biāo)志著動態(tài)對象周圍的模糊邊界。我們將動態(tài)對象及其邊界作為動態(tài)信息，將在多模態(tài)融合部分進(jìn)一步細(xì)化。 2.幾何聚類和語義融合： 通過歐幾里得空間的連通性分析進(jìn)行補(bǔ)償也在本文的工作中實現(xiàn)。實例分割網(wǎng)絡(luò)在大多數(shù)實際情況下都具有出色的識別能力，但是由于區(qū)域之間的模糊像素，運(yùn)動模糊限制了分割性能，導(dǎo)致了不希望的分割錯誤。因此，將點(diǎn)云聚類結(jié)果和分割結(jié)果結(jié)合起來，以更好地細(xì)化動態(tài)對象。特別是，對幾何信息進(jìn)行連通性分析，并與基于視覺的分割結(jié)果合并。為了提高工作效率，首先將 3D 點(diǎn)云縮小以減少數(shù)據(jù)規(guī)模，并將其用作點(diǎn)云聚類的輸入。然后將實例分割結(jié)果投影到點(diǎn)云坐標(biāo)上，對每個點(diǎn)進(jìn)行標(biāo)注。當(dāng)大多數(shù)點(diǎn)（90％）是動態(tài)標(biāo)記點(diǎn)時，點(diǎn)云簇將被視為動態(tài)簇。當(dāng)靜態(tài)點(diǎn)靠近動態(tài)點(diǎn)簇時，它會被重新標(biāo)記為動態(tài)標(biāo)簽。并且當(dāng)附近沒有動態(tài)點(diǎn)聚類時，動態(tài)點(diǎn)將被重新標(biāo)記。 3.定位與位姿估計 1.特征提取： 多模態(tài)動態(tài)分割后，點(diǎn)云分為動態(tài)點(diǎn)云PD和靜態(tài)點(diǎn)云PS?；谠戎暗墓ぷ?，靜態(tài)點(diǎn)云隨后用于定位和建圖模塊。與現(xiàn)有的 SLAM 方法（如 LOAM ）相比，原先之前的工作中提出的框架能夠支持 30 Hz 的實時性能，速度要快幾倍。與 ORB-SLAM2和 VINS-MONO 等視覺 SLAM 相比，它還可以抵抗光照變化。對于每個靜態(tài)點(diǎn) pk ∈ PS ，可以在歐幾里得空間中通過半徑搜索來搜索其附近的靜態(tài)點(diǎn)集 Sk。讓 |S|是集合 S 的基數(shù)，因此局部平滑度定義為：邊緣特征由 σk 大的點(diǎn)定義，平面特征由 σk 小的點(diǎn)定義。 2.數(shù)據(jù)關(guān)聯(lián)： 通過最小化點(diǎn)到邊緣和點(diǎn)到平面的距離來計算最終的機(jī)器人位姿。對于邊緣特征點(diǎn) pE ∈ PE ，可以通過 p^E = T·pE 將其轉(zhuǎn)換為局部地圖坐標(biāo)，其中 T ∈ SE(3) 是當(dāng)前位姿。從局部邊緣特征圖中搜索 2 個最近的邊緣特征 p 1 E 和 p 2 E，點(diǎn)到邊緣殘差定義：類似地，給定一個平面特征點(diǎn) pL ∈ PL 及其變換點(diǎn) p^L = T·pL，我們可以從局部平面圖中搜索 3 個最近點(diǎn) 。點(diǎn)到平面殘差定義為： 3.位姿估計： 通過最小化點(diǎn)到平面和點(diǎn)到邊緣殘差的總和來計算最終的機(jī)器人位姿： 4.特征地圖更新和關(guān)鍵幀選擇： 一旦位姿優(yōu)化解決，特征點(diǎn)將被更新到局部地圖和平面地圖當(dāng)中。這些點(diǎn)將被用于一下幀的數(shù)據(jù)關(guān)聯(lián)。當(dāng)平移或者旋轉(zhuǎn)的值大于閾值時候，該幀將被選作關(guān)鍵幀。 4.全局地圖構(gòu)建 全局語義地圖由靜態(tài)地圖和動態(tài)地圖構(gòu)成。視覺信息用于構(gòu)建測色密集靜態(tài)地圖。視覺信息能夠反投影3D點(diǎn)到圖像平面。為防止內(nèi)存溢出的問題采用3d is here: Point cloud library (pcl)。

實驗結(jié)果

? 1.數(shù)據(jù)獲取 在自動駕駛、智能倉儲物流等諸多場景中，人往往被視為動態(tài)對象。因此，本文從 COCO 數(shù)據(jù)集中選擇了 5,000 張人體圖像。在實驗中，所提出的方法在倉庫環(huán)境中進(jìn)行評估，如圖 4 所示。除了將人視為動態(tài)對象之外，先進(jìn)的工廠還需要人與機(jī)器人和機(jī)器人與機(jī)器人之間的協(xié)作，因此自動導(dǎo)引車 ( AGV）也是潛在的動態(tài)對象。因此，總共收集了 3,000 張 AGV 圖像來訓(xùn)練實例分割網(wǎng)絡(luò)，其中一些 AGV 如圖 4 所示。 2.評估實例分割性能 評估 COCO 數(shù)據(jù)集上關(guān)于分割損失和平均精度（mAP）的分割性能。該評估的目的是將我們采用的實例分割網(wǎng)絡(luò) SOLOv2 與所提出的方法進(jìn)行比較。結(jié)果如表I所示。分割結(jié)果在圖 3 中進(jìn)一步可視化： 3. 稠密建圖和動態(tài)跟蹤 建圖如圖5所示，能夠識別潛在移動的物體并且從靜態(tài)地圖中將其分離開來。定位結(jié)果如圖6所示： 4.定位漂移的消融實驗

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

3D

3D

+關(guān)注

關(guān)注
9

文章
2836

瀏覽量
107003
應(yīng)用程序

應(yīng)用程序

+關(guān)注

關(guān)注
37

文章
3198

瀏覽量
57360
SLAM算法

SLAM算法

+關(guān)注

關(guān)注
0

文章
10

瀏覽量
2520

原文標(biāo)題：復(fù)雜動態(tài)環(huán)境的多模態(tài)語義 SLAM(arxiv 2022)

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

采用ANSYS的三浮陀螺儀框架的模態(tài)分析

本帖最后由 richthoffen 于 2020-5-14 09:35 編輯采用ANSYS的三浮陀螺儀框架的模態(tài)分析

發(fā)表于 05-14 09:31

HOOFR-SLAM的系統(tǒng)框架及其特征提取

Intelligent Vehicles Applications1. 介紹2. HOOFR-SLAM2.1 系統(tǒng)框架2.2 HOOFR特征提取2.3 映射線程2.3.1 特征匹配1. 介紹提出一種HOOFR-...

發(fā)表于 12-21 06:35

lABCIWQmultyWindows多模態(tài)窗口2010

lABCIWQmultyWindows多模態(tài)窗口2010。

發(fā)表于 05-17 17:47 ?0次下載

多文化場景下的多模態(tài)情感識別

自動情感識別是一個非常具有挑戰(zhàn)性的課題，并且有著廣泛的應(yīng)用價值．本文探討了在多文化場景下的多模態(tài)情感識別問題．我們從語音聲學(xué)和面部表情等模態(tài)分別提取了不同的情感特征。包括傳統(tǒng)的手工定制

發(fā)表于 12-18 14:47 ?0次下載

多模態(tài)生物特征識別系統(tǒng)框架

針對多模態(tài)生物特征識別系統(tǒng)并行融合模式中使用方便性和使用效率方面的問題，在現(xiàn)有序列化多模態(tài)生物特征識別系統(tǒng)的基礎(chǔ)上，提出了一種結(jié)合并行融合和序列化融合的

發(fā)表于 01-02 18:47 ?0次下載

<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>生物特征識別系統(tǒng)<b class='flag-5'>框架</b>

高仙SLAM具體的技術(shù)是什么？SLAM2.0有哪些優(yōu)勢？

高仙的SLAM2.0技術(shù)體系核心，是基于多傳感器融合+深度學(xué)習(xí)的架構(gòu)，即語義SLAM。高仙SLAM2.0技術(shù)方案以

發(fā)表于 05-15 16:48 ?8860次閱讀

基于語義耦合相關(guān)的判別式跨模態(tài)哈希特征表示學(xué)習(xí)算法

基于哈希的跨模態(tài)檢索以其存儲消耗低、査詢速度快等優(yōu)點(diǎn)受到廣泛的關(guān)注。跨模態(tài)哈希學(xué)習(xí)的核心問題是如何對不同模態(tài)數(shù)據(jù)進(jìn)行有效地共享語義空間嵌入學(xué)習(xí)。大多數(shù)算法在對

發(fā)表于 03-31 11:28 ?12次下載

基于<b class='flag-5'>語義</b>耦合相關(guān)的判別式跨<b class='flag-5'>模態(tài)</b>哈希特征表示學(xué)習(xí)算法

基于語義耦合相關(guān)的判別式跨模態(tài)哈希學(xué)習(xí)算法

基于語義耦合相關(guān)的判別式跨模態(tài)哈希學(xué)習(xí)算法

發(fā)表于 06-07 16:36 ?7次下載

自動駕駛深度多模態(tài)目標(biāo)檢測和語義分割:數(shù)據(jù)集、方法和挑戰(zhàn)

了許多解決深度多模態(tài)感知問題的方法。然而，對于網(wǎng)絡(luò)架構(gòu)的設(shè)計，并沒有通用的指導(dǎo)方針，關(guān)于“融合什么”、“何時融合”和“如何融合”的問題仍然沒有定論。本文系統(tǒng)地總結(jié)了自動駕駛中深度多模態(tài)

發(fā)表于 06-06 10:37 ?0次下載

TRO新文：用于數(shù)據(jù)關(guān)聯(lián)、建圖和高級任務(wù)的對象級SLAM框架

總的來說,框架實現(xiàn)穩(wěn)健的數(shù)據(jù)關(guān)聯(lián)、精確的物體參數(shù)化以及基于語義對象地圖的高層應(yīng)用,解決了對象SLAM涉及的主要挑戰(zhàn)。語義對象地圖能為機(jī)器人抓取、導(dǎo)航、規(guī)劃等復(fù)雜任務(wù)提供必要信息,有助于

發(fā)表于 07-14 16:49 ?591次閱讀

UniVL-DR: 多模態(tài)稠密向量檢索模型

模態(tài)數(shù)據(jù)的信息獲取需求在用戶搜索過程中尤為重要。 ▲?圖1. 不同多模態(tài)檢索框架示意圖為了實現(xiàn)多模態(tài)

發(fā)表于 08-06 22:00 ?740次閱讀

中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場景的多模態(tài)大模型

如上圖所示，UniDoc基于預(yù)訓(xùn)練的視覺大模型及大語言模型，將文字的檢測、識別、spotting(圖中未畫出)、多模態(tài)理解等四個任務(wù)，通過多模態(tài)指令微調(diào)的方式，統(tǒng)一到一個框架中。具體地

發(fā)表于 08-31 15:29 ?1330次閱讀

DreamLLM：多功能多模態(tài)大型語言模型，你的DreamLLM~

由于固有的模態(tài)缺口，如CLIP語義主要關(guān)注模態(tài)共享信息，往往忽略了可以增強(qiáng)多模態(tài)理解的模態(tài)特定知識。因此，這些研究并沒有充分認(rèn)識到

發(fā)表于 09-25 17:26 ?614次閱讀

用語言對齊多模態(tài)信息，北大騰訊等提出LanguageBind，刷新多個榜單

目前的 VL 預(yù)訓(xùn)練方法通常僅適用于視覺和語言模態(tài)，而現(xiàn)實世界中的應(yīng)用場景往往包含更多的模態(tài)信息，如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息，并且能夠在多個模態(tài)之間建立準(zhǔn)確的

發(fā)表于 11-23 15:46 ?564次閱讀

OneLLM：對齊所有模態(tài)的框架！

OneLLM 是第一個在單個模型中集成八種不同模態(tài)的MLLM。通過統(tǒng)一的框架和漸進(jìn)式多模態(tài)對齊pipelines，可以很容易地擴(kuò)展OneLLM以包含更多數(shù)據(jù)模式。

發(fā)表于 01-04 11:27 ?712次閱讀