0. 這篇文章干了啥?
機(jī)器人能否像人類一樣利用有限的度量和空間信息進(jìn)行導(dǎo)航呢?目前,大多數(shù)機(jī)器人的導(dǎo)航系統(tǒng)依賴于詳細(xì)的幾何地圖和精確的度量定位。然而,人類通??梢詰{借著抽象的、不準(zhǔn)確的環(huán)境表示(例如手繪草圖或基于語言的指示)以及對(duì)自己位置的近似語義概念,找到前往目的地的路線。這種技能的一個(gè)關(guān)鍵因素是我們能夠使用導(dǎo)航行為來表示和導(dǎo)航環(huán)境,這些行為是語義行動(dòng)抽象,如向左轉(zhuǎn)或沿走廊前進(jìn)。人類可以使用幾何不準(zhǔn)確的地圖或表示,因?yàn)檫@些地圖依然可以抽象地捕捉環(huán)境中的路徑,作為導(dǎo)航行為序列:例如,平面圖可以讓我們推斷出轉(zhuǎn)彎和沿走廊行動(dòng)的抽象序列,以達(dá)到給定房間的目的,盡管它們?nèi)狈ΜF(xiàn)實(shí)感。我們還可以感知導(dǎo)航機(jī)會(huì),即在當(dāng)?shù)丨h(huán)境中執(zhí)行導(dǎo)航行為的潛力,并將它們用作我們位置的非度量、視覺線索:例如,觀察到附近的交叉口只能讓我們左轉(zhuǎn)和前進(jìn),可以暗示我們?cè)诮ㄖ镏械奈恢谩N覀兗僭O(shè)使用導(dǎo)航行為來表示和遍歷環(huán)境賦予了機(jī)器人利用有限的度量和空間信息進(jìn)行導(dǎo)航的能力。
為了測(cè)試這一假設(shè),我們?cè)O(shè)計(jì)了一個(gè)基于場(chǎng)景動(dòng)作地圖(SAM)的導(dǎo)航行為系統(tǒng),SAM是一個(gè)由關(guān)鍵位置(節(jié)點(diǎn))和導(dǎo)航行為(邊)連接而成的拓?fù)浔硎荆С址嵌攘恳?guī)劃和定位。特別是,我們提出了一個(gè)可學(xué)習(xí)的地圖閱讀管道,從各種現(xiàn)成的環(huán)境二維地圖中提取SAM,例如手繪草圖和平面圖。雖然許多系統(tǒng)難以使用這些地圖,因?yàn)樗鼈兇嬖诙攘可系牟粶?zhǔn)確和抽象性,但我們的系統(tǒng)利用了這些地圖中編碼的底層SAM,從而利用了這些豐富的現(xiàn)有地圖信息。
視覺導(dǎo)航的先前工作已經(jīng)證明了學(xué)習(xí)類人導(dǎo)航行為和與之相關(guān)的導(dǎo)航機(jī)會(huì)定位的實(shí)用性,并在此基礎(chǔ)上,我們實(shí)現(xiàn)了一個(gè)使用SAM的行為導(dǎo)航棧,并將其部署到真實(shí)機(jī)器人上,以驗(yàn)證從地圖中提取的SAM對(duì)導(dǎo)航的有用性。具體來說,我們使用DECISION控制器的避障導(dǎo)航行為,并為基于導(dǎo)航機(jī)會(huì)的定位改進(jìn)了圖形定位網(wǎng)絡(luò)。我們從手繪地圖、平面圖和衛(wèi)星地圖中"讀取"SAM,并證明這些提取出的SAM可用于有效的實(shí)際導(dǎo)航。
下面一起來閱讀一下這項(xiàng)工作~
1. 論文信息
標(biāo)題:Scene Action Maps: Behavioural Maps for Navigation without Metric Information
作者:Joel Loo, David Hsu
機(jī)構(gòu):新加坡國立大學(xué)
原文鏈接:http://arxiv.org/abs/2405.07948
代碼鏈接:https://scene-action-maps.github.io/
官方主頁:https://scene-action-maps.github.io/
2. 摘要
人類在沒有度量信息的情況下導(dǎo)航能力非凡。我們可以閱讀抽象的2D地圖,比如平面圖或手繪草圖,并利用它們?cè)谖匆娺^的豐富3D環(huán)境中導(dǎo)航,而無需先前的遍歷來詳細(xì)繪制這些場(chǎng)景。我們認(rèn)為,這是通過將環(huán)境抽象地表示為相互連接的導(dǎo)航行為來實(shí)現(xiàn)的,例如"沿走廊前進(jìn)"或"向右轉(zhuǎn)",同時(shí)避免了在度量級(jí)別上詳細(xì)、準(zhǔn)確的空間信息。我們引入了場(chǎng)景行動(dòng)地圖(SAM),這是一個(gè)行為拓?fù)鋱D,并提出了一種可學(xué)習(xí)的地圖閱讀方法,將各種2D地圖解析成SAM。地圖閱讀從現(xiàn)有的、抽象的和不準(zhǔn)確的地圖中提取出關(guān)于導(dǎo)航行為的顯著信息,這些地圖從平面圖到草圖不等。我們通過在四足機(jī)器人上構(gòu)建和部署行為導(dǎo)航堆棧來評(píng)估SAM在導(dǎo)航中的性能。視頻和更多信息可在此網(wǎng)址獲得:https://scene-action-maps.github.io/。
3. 效果展示
我們提出了一個(gè)可學(xué)習(xí)的地圖閱讀系統(tǒng),該系統(tǒng)從現(xiàn)有的二維地圖中提取場(chǎng)景行動(dòng)地圖,用于行為導(dǎo)航。
4. 基本原理是啥?
我們考慮在機(jī)器人之前可能沒有見過或探索過的環(huán)境中導(dǎo)航到目標(biāo)的任務(wù)。這自然需要導(dǎo)航具有有限的度量和空間信息,因?yàn)槿狈ο惹暗臄?shù)據(jù)意味著規(guī)劃和定位可能無法獲得詳細(xì)的幾何地圖。然而,我們假設(shè)可以訪問到環(huán)境的現(xiàn)有的2D地圖,例如平面圖、手繪地圖和衛(wèi)星地圖。盡管它們可能是抽象的和不準(zhǔn)確的,但它們保留了有關(guān)環(huán)境的導(dǎo)航方面的信息,對(duì)規(guī)劃和定位是有用的。
這個(gè)任務(wù)的一些關(guān)鍵挑戰(zhàn)包括指定目標(biāo)、使用一系列抽象、不準(zhǔn)確的地圖進(jìn)行規(guī)劃和定位。我們的方法是從地圖中提取環(huán)境的行為拓?fù)鋱D,即場(chǎng)景動(dòng)作圖(SAM),并用它導(dǎo)航。我們假設(shè)可以訪問一組像DECISION一樣的導(dǎo)航行為,它們能夠進(jìn)行局部障礙物避讓,并且足夠多樣化,可以讓我們到達(dá)目標(biāo)環(huán)境的大部分地方。我們的離線地圖閱讀系統(tǒng)是一個(gè)可學(xué)習(xí)的流水線,它可以根據(jù)特定的行為集從各種2D地圖中提取SAM。在線行為導(dǎo)航系統(tǒng)接收在SAM上指定的目標(biāo),規(guī)劃SAM上的路徑并執(zhí)行它。由于我們不能依賴于準(zhǔn)確的度量信息,我們使用基于能力的定位和學(xué)習(xí)的導(dǎo)航行為。
將fep應(yīng)用于標(biāo)記為橙色的節(jié)點(diǎn):1) 使用?_edge和Sinkhorn預(yù)測(cè)軟分配矩陣,2) 閾值處理以生成出射邊。
5. 實(shí)驗(yàn)結(jié)果
我們收集了3種地圖類型的數(shù)據(jù):手繪地圖(Hand)和校園建筑的平面圖(Flr),以及工業(yè)區(qū)域的衛(wèi)星地圖(SatMap)。對(duì)于Hand和Flr數(shù)據(jù)集中的地圖,我們進(jìn)行手動(dòng)注釋。對(duì)于SatMap地圖,我們使用OpenStreetMap的道路/交叉口信息進(jìn)行注釋。我們?yōu)槊糠N地圖類型訓(xùn)練了一個(gè)單獨(dú)的地圖閱讀模塊實(shí)例。為了回答Q1,我們?cè)诹舫龅臄?shù)據(jù)集上進(jìn)行測(cè)試:Hand/Flr各有4張地圖,每張地圖平均有27個(gè)節(jié)點(diǎn)和64條邊,SatMap有1張大型地圖,包含137個(gè)節(jié)點(diǎn)和414條邊。我們計(jì)算了3個(gè)任務(wù)的精度和召回率:(A)預(yù)測(cè)節(jié)點(diǎn)/變點(diǎn),(B)僅預(yù)測(cè)邊(忽略行為的正確性),以及(C)預(yù)測(cè)邊以及它們關(guān)聯(lián)的行為。直觀地說,(B)顯示了環(huán)境的結(jié)構(gòu)和連接性被捕捉的程度。(C)進(jìn)一步檢查每條邊的分配行為是否與人工注釋的地圖相符。結(jié)果見表I。
我們的節(jié)點(diǎn)預(yù)測(cè)在所有地圖類型上都能很好地預(yù)測(cè)變點(diǎn)。從質(zhì)量上來看,?node能夠可靠地捕捉地圖中的視覺特征,如交叉口或轉(zhuǎn)彎,在使用DECISION行為集時(shí)可以指示變點(diǎn)。失敗主要發(fā)生在環(huán)境結(jié)構(gòu)不夠明確的開放區(qū)域,導(dǎo)致更多的假陽性和假陰性。SatMap的相對(duì)較低的召回率分?jǐn)?shù)主要是由于交叉口等特征被高樓遮擋在密集建筑區(qū)域中,導(dǎo)致更多的假陰性。我們的邊緣預(yù)測(cè)在任務(wù)(B)上表現(xiàn)良好,特別是在SatMap上,因?yàn)樾l(wèi)星地圖中固有的豐富視覺信息。較低的召回率分?jǐn)?shù)表明fep的主要限制在于偶爾無法識(shí)別有效邊緣。與(B)相比,任務(wù)(C)的性能較低表明,雖然?edge能夠很好地學(xué)習(xí)節(jié)點(diǎn)之間的可達(dá)性,但學(xué)習(xí)正確的視覺特征來分配正確的行為要困難得多。這一觀察得到了支持,即大多數(shù)失敗都涉及將前進(jìn)行為錯(cuò)誤地分配為轉(zhuǎn)彎行為,反之亦然。我們連接節(jié)點(diǎn)和邊的預(yù)測(cè),并在圖4中端到端生成SAMs。
我們的方法可以追蹤出捕捉地圖拓?fù)涞倪B接圖,相當(dāng)準(zhǔn)確。雖然預(yù)測(cè)的SAMs中存在一些噪音 - 如缺失的變點(diǎn)、標(biāo)記錯(cuò)誤的邊緣等 - 但我們證明這些SAMs仍然可以有效用于行為導(dǎo)航。我們通過展示,可以使用"嘈雜"的預(yù)測(cè)SAMs進(jìn)行有效的行為導(dǎo)航,這些SAMs可能包含諸如用錯(cuò)誤行為標(biāo)記的邊緣或缺少節(jié)點(diǎn)/邊緣等缺陷(見圖4)。我們?cè)u(píng)估了SLS和SLS-Aug在嘈雜的SAMs上,其中SLS-Aug使用了我們提出的數(shù)據(jù)增強(qiáng)方法訓(xùn)練的GLN,以提高噪聲魯棒性。我們從表II中得出兩個(gè)結(jié)論。首先,當(dāng)用預(yù)測(cè)的嘈雜SAMs替換人工注釋的SAMs時(shí),導(dǎo)航性能幾乎沒有受到不利影響,這表明SLS系統(tǒng)在人工注釋和預(yù)測(cè)的SAMs之間最多只見到少量的PC下降。從經(jīng)驗(yàn)上看,SLS和SLS-Aug似乎對(duì)常見的噪聲模式 - 即在交叉口處缺失邊緣或混淆的前進(jìn)和轉(zhuǎn)彎行為 - 具有魯棒性,并且通常能夠利用剩余的正確拓?fù)涮卣鱽矶ㄎ缓蛯?dǎo)航。其次,我們的數(shù)據(jù)增強(qiáng)方法提高了包含噪音和偽跡的預(yù)測(cè)SAMs的定位和導(dǎo)航性能。在預(yù)測(cè)的SAMs上,SLS-Aug通常優(yōu)于其他測(cè)試設(shè)置,甚至在人工注釋的SAMs上也優(yōu)于SLS??偟膩碚f,即使在包含多個(gè)變點(diǎn)轉(zhuǎn)換的100米Hard路線上,SLS-Aug在預(yù)測(cè)2D地圖的SAMs上顯示出了有希望的性能,從而證實(shí)了從2D地圖預(yù)測(cè)SAMs以在現(xiàn)實(shí)世界中定位和導(dǎo)航的可行性。
6. 總結(jié) & 未來工作
我們引入了場(chǎng)景行為地圖,這是一種用于導(dǎo)航的行為拓?fù)浔硎?。我們認(rèn)識(shí)到,常見的預(yù)先存在的地圖,如平面圖,通常編碼了有關(guān)導(dǎo)航可供性和行為的信息,并提出了一個(gè)"地圖閱讀"系統(tǒng),從這些地圖中提取SAMs。我們還展示了從草圖和平面圖中提取的SAMs進(jìn)行有效的現(xiàn)實(shí)世界導(dǎo)航。SAMs做出了一種權(quán)衡:通過受限于特定行為集(因此機(jī)器人動(dòng)力學(xué))來減少對(duì)度量信息的依賴。相比之下,幾何地圖需要準(zhǔn)確的數(shù)據(jù),不能從抽象輸入構(gòu)建,但足夠豐富地表示世界,以使得具有各種機(jī)器人動(dòng)力學(xué)的導(dǎo)航成為可能。在未來的工作中,我們打算在室外環(huán)境中測(cè)試我們的系統(tǒng),并將更豐富的信息源納入SAMs中。
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28132瀏覽量
205921 -
導(dǎo)航
+關(guān)注
關(guān)注
7文章
519瀏覽量
42343 -
SAM
+關(guān)注
關(guān)注
0文章
112瀏覽量
33481
原文標(biāo)題:ICRA'24開源 | 機(jī)器人沒有度量信息怎么導(dǎo)航?
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論