0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種動態(tài)環(huán)境下的直接視覺里程計

jf_pmFSk4VX ? 來源:GiantPandaCV ? 作者:泡椒味的口香糖 ? 2022-10-12 09:22 ? 次閱讀

引言

大部分SLAM系統(tǒng)都應(yīng)用了靜態(tài)環(huán)境假設(shè),這使得它們難以在復(fù)雜動態(tài)環(huán)境中部署。此外,傳統(tǒng)的基于學(xué)習(xí)的SLAM方法往往都是利用目標檢測或語義分割剔除動態(tài)物體上的特征,但這樣有兩個弊端:其一是實際環(huán)境中的動態(tài)物體不一定被預(yù)訓(xùn)練,另一是算法無法區(qū)分"動態(tài)物體"和"靜止但可能移動的物體"。

2. 摘要

基于學(xué)習(xí)的視覺里程計(VO)算法在常見的靜態(tài)場景中取得了顯著的性能,受益于高容量模型和大規(guī)模注釋數(shù)據(jù),但在動態(tài)、人口稠密的環(huán)境中往往會失敗。語義分割主要用于在估計相機運動之前丟棄動態(tài)關(guān)聯(lián),但是以丟棄靜態(tài)特征為代價,并且難以擴展到看不見的類別。

在本文中,我們利用相機自我運動和運動分割之間的相互依賴性,并表明這兩者可以在一個單一的基于學(xué)習(xí)的框架中共同優(yōu)化。特別地,我們提出了DytanVO,第一個基于監(jiān)督學(xué)習(xí)的VO方法來處理動態(tài)環(huán)境。它實時拍攝兩個連續(xù)的單目幀,并以迭代的方式預(yù)測相機的自我運動。

在真實動態(tài)環(huán)境中,我們的方法在ATE方面比最先進的VO解決方案平均提高了27.7%,甚至在優(yōu)化后端軌跡的動態(tài)視覺SLAM系統(tǒng)中也具有競爭力。大量未知環(huán)境上的實驗也證明了該方法的普適性。

3. 算法分析

如圖1所示是作者提出的DytanVO的整體架構(gòu),整個網(wǎng)絡(luò)是基于TartanVO開發(fā)的。DytanVO由從兩幅連續(xù)圖像中估計光流的匹配網(wǎng)絡(luò)、基于無動態(tài)運動的光流估計位姿的位姿網(wǎng)絡(luò)和輸出動態(tài)概率掩碼的運動分割網(wǎng)絡(luò)組成。

匹配網(wǎng)絡(luò)僅向前傳播一次,而位姿網(wǎng)絡(luò)和分割網(wǎng)絡(luò)被迭代以聯(lián)合優(yōu)化位姿估計和運動分割。停止迭代的標準很簡單,即兩個迭代之間旋轉(zhuǎn)和平移差異小于閾值,并且閾值不固定,而是預(yù)先確定一個衰減參數(shù),隨著時間的推移,經(jīng)驗地降低輸入閾值,以防止在早期迭代中出現(xiàn)不準確的掩碼,而在后期迭代中使用改進的掩碼。

00b35bd8-49c1-11ed-a3b6-dac502259ad0.png

圖1 DytanVO架構(gòu)總覽

如圖2所示是DytanVO是運行示例,包含兩個輸入的圖像幀、估計的光流、運動分割以及在高動態(tài)AirDOS-Shibuya數(shù)據(jù)集上的軌跡評估結(jié)果。結(jié)果顯示DytanVO精度超越TartanVO達到了最高,并且漂移量很小。

00c31ef6-49c1-11ed-a3b6-dac502259ad0.png

圖2 DytanVO運行示例

綜上所述,作者提出了第一個基于監(jiān)督學(xué)習(xí)的動態(tài)環(huán)境的VO,主要貢獻如下:

(1) 引入了一種新的基于學(xué)習(xí)的VO來平衡相機自身運動、光流和運動分割之間的相互依賴關(guān)系。

(2) 引入了一個迭代框架,其中自我運動估計和運動分割可以在實時應(yīng)用的時間限制內(nèi)快速收斂。

(3) 在基于學(xué)習(xí)的VO解決方案中,DytanVO在真實世界動態(tài)場景中實現(xiàn)了最先進的性能,而無需微調(diào)。此外,DytanVO甚至可以與優(yōu)化后端軌跡的視覺SLAM解決方案相媲美。

3.1 運動分割

早期使用運動分割的動態(tài)VO方法依賴于由對極幾何和剛性變換產(chǎn)生的純幾何約束,因此它們可以閾值化用于考慮運動區(qū)域的殘差光流。

然而,在兩種情況下,它們?nèi)菀装l(fā)生嚴重退化:

(1) 在3D移動中,沿著極線移動的點無法從單目圖像中識別出來;

(2) 純幾何學(xué)方法對噪聲光流和較不準確的相機運動估計沒有魯棒性。

因此,DytanVO通過光學(xué)擴展將2D光流升級到3D后,顯式地將代價地圖建模為分割網(wǎng)絡(luò)的輸入,該網(wǎng)絡(luò)根據(jù)重疊圖像塊的尺度變化估計相對深度。

3.2 相機運動迭代優(yōu)化

在推理過程中,匹配網(wǎng)絡(luò)只前向傳播一次,而姿態(tài)網(wǎng)絡(luò)和分割網(wǎng)絡(luò)進行迭代,共同優(yōu)化自運動估計和運動分割。在第一次迭代中,使用隨機初始化分割掩膜。直覺上會認為,在早期迭代過程中估計的運動不太準確,并導(dǎo)致分割輸出(對靜態(tài)區(qū)域賦予高概率)中的誤報。然而,由于光流圖仍然提供了足夠的對應(yīng)關(guān)系,因此相機運動實際上較為合理。在以后的迭代中,估計越來越準確。

在實際應(yīng)用中,3次迭代足以使相機運動和分割都得到細化。圖3所示是迭代過程中的可視化結(jié)果,第一次迭代時的掩碼包含了大量的假陽性,但在第二次迭代后迅速收斂。這也說明姿態(tài)網(wǎng)絡(luò)對分割結(jié)果中的假陽性具有魯棒性。

01201e94-49c1-11ed-a3b6-dac502259ad0.png

圖3 當(dāng)未見數(shù)據(jù)上測試時每次迭代的運動分割輸出。(a) 使用DytanVO在多人向不同方向移動的情況下,對AirDOS-Shibuya中最難的序列進行推斷;(b) 從動態(tài)物體占據(jù)超過60%面積的FlyingThings3D推斷序列。

3.3 損失函數(shù)

DytanVO可以以端到端的方式進行訓(xùn)練,損失函數(shù)包括光流損失LM,相機運動損失LP和運動分割損失LU。其中LM為預(yù)測流和真實流之間的L1范數(shù),而LU是預(yù)測概率和分割標簽之間的二元交叉熵損失。具體表達形式為:

01300854-49c1-11ed-a3b6-dac502259ad0.png

4. 實驗

4.1 數(shù)據(jù)集

DytanVO在TartanAir和SceneFlow上訓(xùn)練,其中前者包含超過40萬個數(shù)據(jù)幀,具有僅在靜態(tài)環(huán)境中的光流和相機姿態(tài)真值。后者在高度動態(tài)的環(huán)境中提供了3.9萬幀,每個軌跡具有向后/向前通過、不同的對象和運動特征。雖然場景流不提供運動分割的真值,但可以通過利用其視差、光流和視差變化圖來恢復(fù)真值。而在評估方面,作者使用AirDOS-Shibuya和KITTI進行測試。

4.2 實施細節(jié)

DytanVO使用TartanVO的預(yù)訓(xùn)練模型初始化匹配網(wǎng)絡(luò),使用來自CVPR論文"Learning to segment rigid motions from two frames"的預(yù)訓(xùn)練權(quán)重來固定運動分割網(wǎng)絡(luò),使用ResNet50作為姿態(tài)網(wǎng)絡(luò)的backbone,并刪除了BN層,同時為旋轉(zhuǎn)和平移添加了兩個輸出頭。

DytanVO使用的深度學(xué)習(xí)框架為PyTorch,并在2臺NVIDIA A100上訓(xùn)練。在推理時間方面作者在RTX 2080進行測試,不進行迭代的話推理時間為40ms,進行一次迭代推理時間為100ms,進行兩次迭代推理時間為160ms。

4.3 AirDOS-Shibuya數(shù)據(jù)集測試

如表1所示是關(guān)于迭代次數(shù)(iter)的消融實驗,數(shù)據(jù)使用來自AirDOS-Shibuya的三個序列。其中姿態(tài)網(wǎng)絡(luò)在第一次迭代后快速收斂,后續(xù)迭代顯示出較少的改進,這是因為AirDOS-Shibuya上的光流估計已經(jīng)具有高質(zhì)量。

表1 關(guān)于迭代次數(shù)的ATE消融實驗

013c873c-49c1-11ed-a3b6-dac502259ad0.png

表2所示是在AirDOS-Shibuya的七個序列上,與現(xiàn)有的最先進的VO算法進行的定量對比結(jié)果。該基準涵蓋了更具挑戰(zhàn)性的多種運動模式。這七個序列分為三個難度等級:大多數(shù)人站著不動,很少人在路上走來走去,穿越(容易)包含多個人類進出相機的視野,而在穿越道路(困難)中,人類突然進入相機的視野。

除了VO方法之外,作者還將DytanVO與能夠處理動態(tài)場景的SLAM方法進行了比較。包括DROID-SLAM、AirDOS、VDO-SLAM以及DynaSLAM。

表2 來自AirDOS-Shibuya的動態(tài)序列的ATE (m)結(jié)果。最佳和次佳VO性能以粗體和下劃線顯示,"-"來表示初始化失敗

01565b9e-49c1-11ed-a3b6-dac502259ad0.png

結(jié)果顯示,DytanVO在VO基線的所有序列中實現(xiàn)了最好的性能,甚至在SLAM方法中也是有競爭力的。DeepVO,TrianFlow和CC在AirDOS-Shibuya數(shù)據(jù)集上表現(xiàn)很差,因為它們只在KITTI上訓(xùn)練,不能泛化。TartanVO表現(xiàn)更好,但它仍然容易受到動態(tài)對象的干擾。

DytanVO優(yōu)于動態(tài)SLAM方法,如AirDOS,VDO-SLAM和dyna SLAM 80%以上。雖然DROID-SLAM在大部分時間都保持競爭力,但一旦行人占據(jù)了圖像中的大部分區(qū)域,它就會跟蹤失敗。此外,DytanVO的2次迭代每次推理0.16秒,但DROID- SLAM需要額外的4.8秒來優(yōu)化軌跡。

4.4 KITTI數(shù)據(jù)集測試

表3所示是DytanVO和其他VO方法在KITTI數(shù)據(jù)集上的定量對比結(jié)果,DytanVO在8個動態(tài)序列中的6個中優(yōu)于其他VO基線,比第二個最好的方法平均提高了27.7 %。注意,DeepVO、TrianFlow和CC是在KITTI中的部分序列上訓(xùn)練的,而DytanVO沒有在KITTI上進行微調(diào),純粹使用合成數(shù)據(jù)進行訓(xùn)練。

此外,DytanVO在VO和SLAM中的3個序列上實現(xiàn)了最佳的ATE,無需任何優(yōu)化。圖4中提供了關(guān)于快速移動的車輛或動態(tài)物體在圖像中占據(jù)大片區(qū)域的四個具有挑戰(zhàn)性的序列的定性結(jié)果。注意,從經(jīng)過的高速車輛開始的序列01,ORB-SLAM和DynaSLAM都無法初始化,而DROID-SLAM從一開始就跟蹤失敗。在序列10中,當(dāng)一輛巨大的貨車占據(jù)圖像中心的顯著區(qū)域時,DytanVO是唯一保持穩(wěn)健跟蹤的VO。

表3 KITTI里程計動態(tài)序列的ATE (m)結(jié)果

0160084c-49c1-11ed-a3b6-dac502259ad0.png01aab50e-49c1-11ed-a3b6-dac502259ad0.png

圖4 KITTI里程計01、03、04和10中動態(tài)序列的定性結(jié)果

5. 結(jié)論

作者提出了一種基于學(xué)習(xí)的動態(tài)VO (DytanVO),它可以聯(lián)合優(yōu)化相機姿態(tài)的估計和動態(tài)物體的分割。作者證明了自運動估計和運動分割都可以在實時應(yīng)用的時間約束內(nèi)快速收斂,并在KITTI和AirDOS-Shibuya數(shù)據(jù)集上評估了DytanVO,還展示了在動態(tài)環(huán)境中的一流性能,無需在后端進行微調(diào)或優(yōu)化。DytanVO為動態(tài)視覺SLAM算法引入了新的方向。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SLAM
    +關(guān)注

    關(guān)注

    23

    文章

    405

    瀏覽量

    31711
  • ATE
    ATE
    +關(guān)注

    關(guān)注

    5

    文章

    120

    瀏覽量

    26545

原文標題:DytanVO:動態(tài)環(huán)境中視覺里程計和運動分割的聯(lián)合優(yōu)化

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    關(guān)于自行車速度里程計的設(shè)計?求大神指點?。?!

    誰能幫幫小弟我! 十分感謝! 要求:用c語言編寫個自行車速度里程計! 基于芯片AT89C51,用霍爾元件測速度!用lcd1602顯示最好!不要求報警!能有個開關(guān)暫停顯示!小弟的
    發(fā)表于 04-16 20:01

    如何去提高汽車里程計電路的抗干擾能力?

    里程計工作原理是什么?汽車里程計的受擾現(xiàn)象有哪些?
    發(fā)表于 05-19 07:26

    如何理解SLAM用到的傳感器輪式里程計IMU、雷達、相機的工作原理與使用場景?精選資料分享

    視覺慣性里程計 綜述 VIO Visual Inertial Odometry msckf ROVIO ssf msf okvis ORB-VINS VINS-Mono gtsam目錄里程計
    發(fā)表于 07-27 07:21

    如何去實現(xiàn)一種送餐機器人產(chǎn)品設(shè)計

    、 系統(tǒng)設(shè)計關(guān)鍵部件:器件選型2 關(guān)鍵技術(shù)選型2.1 基于二維碼+輪子里程計的機器人定位方案主流方案效果循線根據(jù)電磁線行走存在路線固定的問題純視覺室內(nèi)相似場景較多,存在重定位問題純激光成本高,存在
    發(fā)表于 11-11 07:10

    基于全景視覺里程計的移動機器人自定位方法

    通過分析全景視覺里程計傳感器的感知模型的不確定性,提出了一種基于路標觀測的 移動機器人 自定位算法. 該算法利用卡爾曼濾波器,融合多種傳感器在不同觀測點獲取的觀測數(shù)據(jù)完
    發(fā)表于 06-28 10:58 ?41次下載
    基于全景<b class='flag-5'>視覺</b>與<b class='flag-5'>里程計</b>的移動機器人自定位方法

    視覺里程計的研究和論文資料說明免費下載

    使用幾何假設(shè)和測試架構(gòu)從特征軌跡產(chǎn)生相機運動的魯棒估計。這就產(chǎn)生了我們稱之為視覺測徑法,即僅從視覺輸入的運動估計。沒有事先知道的場景或運動是必要的。視覺里程計還可以結(jié)合來自其他來源的信
    發(fā)表于 12-03 08:00 ?1次下載

    視覺里程計的詳細介紹和算法過程

    在導(dǎo)航系統(tǒng)中,里程計(odometry)是一種利用致動器的移動數(shù)據(jù)來估算機器人位置隨時間改變量的方法。例如,測量輪子轉(zhuǎn)動的旋轉(zhuǎn)編碼器設(shè)備。里程計總是會遇到精度問題,例如輪子的打滑就會導(dǎo)致產(chǎn)生機器人移動的距離與輪子的旋轉(zhuǎn)圈數(shù)不
    的頭像 發(fā)表于 08-08 14:21 ?2.6w次閱讀
    <b class='flag-5'>視覺</b><b class='flag-5'>里程計</b>的詳細介紹和算法過程

    視覺語義里程計的詳細資料說明

    中,我們提出個新的視覺語義里程計(VSO)架構(gòu),使中期連續(xù)追蹤點使用語義。我們提出的框架可以很容易地集成到現(xiàn)有的直接和間接視覺
    發(fā)表于 10-28 08:00 ?0次下載
    <b class='flag-5'>視覺</b>語義<b class='flag-5'>里程計</b>的詳細資料說明

    計算機視覺方向簡介之視覺慣性里程計

    VIO-SLAM Visual-Inertial Odometry(VIO)即視覺慣性里程計,有時也叫視覺慣性系統(tǒng)(VINS,visual-inertial system),是融合相機和IMU數(shù)據(jù)
    的頭像 發(fā)表于 04-07 16:57 ?2409次閱讀
    計算機<b class='flag-5'>視覺</b>方向簡介之<b class='flag-5'>視覺</b>慣性<b class='flag-5'>里程計</b>

    基于單個全景相機的視覺里程計

    本文提出了一種新的直接視覺里程計算法,利用360度相機實現(xiàn)魯棒的定位和建圖。本系統(tǒng)使用球面相機模型來處理無需校正的等距柱狀圖像,擴展稀疏直接
    的頭像 發(fā)表于 12-14 14:53 ?734次閱讀

    輪式移動機器人里程計分析

    但凡涉及到可移動的機器人的導(dǎo)航系統(tǒng),大概率會涉及到里程計的計算,比如輪式移動機器人、無人機、無人艇,以及多足機器人等,而計算里程計的方案也有很多種,比如基于編碼器合成里程計的方案、基于視覺
    的頭像 發(fā)表于 04-19 10:17 ?1681次閱讀

    介紹一種基于編碼器合成里程計的方案

    摘要:本文主要分析輪式移動機器人的通用里程計模型,并以兩輪差速驅(qū)動機器人的里程計計算為案例,給出簡化后的兩輪差速驅(qū)動機器人里程計模型。
    的頭像 發(fā)表于 04-19 10:16 ?1851次閱讀

    介紹一種新的全景視覺里程計框架PVO

    論文提出了PVO,這是一種新的全景視覺里程計框架,用于實現(xiàn)場景運動、幾何和全景分割信息的更全面建模。
    的頭像 發(fā)表于 05-09 16:51 ?1665次閱讀
    介紹<b class='flag-5'>一種</b>新的全景<b class='flag-5'>視覺</b><b class='flag-5'>里程計</b>框架PVO

    基于相機和激光雷達的視覺里程計和建圖系統(tǒng)

    提出一種新型的視覺-LiDAR里程計和建圖系統(tǒng)SDV-LOAM,能夠綜合利用相機和激光雷達的信息,實現(xiàn)高效、高精度的姿態(tài)估計和實時建圖,且性能優(yōu)于現(xiàn)有的相機和激光雷達系統(tǒng)。
    發(fā)表于 05-15 16:17 ?598次閱讀
    基于相機和激光雷達的<b class='flag-5'>視覺</b><b class='flag-5'>里程計</b>和建圖系統(tǒng)

    在城市地區(qū)使用低等級IMU的單目視覺慣性車輪里程計

    受簡化慣性傳感器系統(tǒng)(RISS)[23]的啟發(fā),我們開發(fā)了視覺慣性車輪里程計(VIWO)。具體而言,我們將MSCKF中的系統(tǒng)模型重新設(shè)計為3DRISS,而不是INS,使用里程表、3軸陀螺儀和2軸(向前和橫向)加速
    的頭像 發(fā)表于 06-06 14:30 ?1336次閱讀
    在城市地區(qū)使用低等級IMU的單目<b class='flag-5'>視覺</b>慣性車輪<b class='flag-5'>里程計</b>