今天為什么又講SLAM呢?主要是國內(nèi)有公司宣布要趟這個坑。在美國那頭,AR云也正是領域里比較熱門的一個方向。在很多做AR云的方向的公司的想象中的AR云,也大多是以SLAM作為基礎的。大家怎么看?歡迎留言討論
眾所周知,SLAM,即同時定位與地圖構建,主要解決在未知環(huán)境中,如何進行自身方位的定位,并同時構建三維環(huán)境的地圖。它是機器人和計算機視覺領域的一個基本問題,基本上,需要定位和三維感知的應用都需要用到SLAM技術。然而,最近幾年中,SLAM技術幾乎沒有什么變化。
最近,倫敦帝國學院的 Andrew Davison 發(fā)表了一篇論文,主要闡述由于增強現(xiàn)實眼鏡或機器人等設備所要求的視覺感知性能與現(xiàn)實產(chǎn)品的實際條件之間存在的巨大差距,而對未來空間人工智能算法的計算結構和硬件開發(fā)方面的探索。
Andrew Davison最知名的成就是其 2003 年的 MonoSLAM 系統(tǒng),而且他是第一個展示如何在單個攝像頭上構建 SLAM 系統(tǒng)的人,而那時候其他所有人都還認為打造 SLAM 系統(tǒng)需要一個立體的雙目攝像頭套件。
舉個例子來說,想象一下未來的AR系統(tǒng)應該具有怎樣的空間記憶能力,對于用戶所到達的地點,遇到的人和物體,用戶在空間中放置的虛擬筆記或其他注釋等等都要有所記錄。另外,為了實現(xiàn)廣泛應用,該設備應該具備標準眼鏡的尺寸和重量,整天無需電池充電即可運行。
顯然,這種理想中的AR系統(tǒng)依靠現(xiàn)在的設備和算法是遠遠達不到的,這篇論文也就是闡述對于現(xiàn)在的硬件和算法可能的優(yōu)化方向。
現(xiàn)在的SLAM技術,大多是所謂的閉環(huán)SLAM,即從攝像頭和傳感器捕捉新圖像數(shù)據(jù)后,系統(tǒng)與當前的世界模型進行比較,進行對當前世界模型的更新。而當前的世界模型,則來源于更早一次同樣的更新。
這種方法所有獲得的有用數(shù)據(jù),都來源于傳感器(如深度攝像頭),最終在實時循環(huán)中用于數(shù)據(jù)關聯(lián)和跟蹤。
而論文中提到一種新的混合型SLAM系統(tǒng),把SLAM 作為卷積神經(jīng)網(wǎng)絡和深度學習的補充:SLAM 關注于幾何問題,而深度學習是感知、識別問題的大師。如果你想要一個能走到你的冰箱面前而不撞到墻壁的機器人,那就使用 SLAM。如果你想要一個能識別冰箱中的物品的機器人,那就使用卷積神經(jīng)網(wǎng)絡。這種系統(tǒng)同樣適用在前面提到的閉環(huán)輸出,表現(xiàn)可能會更好。
未來大多數(shù)計算可能會涉及世界模型的塑造,這就要求一個不斷地改變和改進數(shù)據(jù)存儲的系統(tǒng)。在此系統(tǒng)中,一些主要的計算元素有:
標注:對圖像進行經(jīng)驗性標注(例如CNN)。
渲染:從世界獲得密集的預測,并映射到圖像空間。
跟蹤:將預測與新圖像數(shù)據(jù)對齊,包括尋找離群值和檢測獨立運動。
融合:將更新的幾何圖形和標簽重新融合
地圖。
地圖合并:將元素融合到對象中,使元素平滑,正規(guī)化。
重新定位/閉環(huán)檢測:檢測總地圖中的相似性。
映射一致性優(yōu)化,即緊固閉環(huán)。
自我學習:系統(tǒng)從運行中進行自我學習
原文:這是一個可視化AlexNet圖像分類CNN的結果,支持訓練和運行時操作,其中空間配置和著色表示不同的緊密連接需要處理模型。(不明白也沒關系,這只是論文中談到世界模型時提到的例子)
隨著技術工藝的進步,摩爾定律的瓶頸似乎開始出現(xiàn),追求單核更大功率的處理器還是比較困難的,而在SLAM中, 單指令,多線程GPU提供的并行性,也非常適合實時視覺的計算要求。
因此,論文預測,系統(tǒng)將具備異構,多元素,專業(yè)化的架構,在這個架構中,低功率運行必須與高功率一起實現(xiàn),而由于架構的靈活性和其中數(shù)量巨大的CPU和GPU,可以提高系統(tǒng)中運行的有用軟件的數(shù)量。但是,它也可能會優(yōu)化一些專門的處理器,進而實現(xiàn)低功耗實時視覺。當然,專門為這種架構設計的系統(tǒng)算法也會出現(xiàn),以期提高效率。
另外,云計算資源的容量可能將繼續(xù)擴大,未來的系統(tǒng)可能大部分時間都是云連接的。主地圖將存儲在云中, 設備將根據(jù)需要在其中輸出數(shù)據(jù)。這種情況下,每個設備需要做的事情都理論上會大大減少。但這就需要高幀率傳輸?shù)闹С郑笳咭彩潜容^難解決的問題。
對于傳感器而言,傳感器得到的數(shù)據(jù)龐大然而存在冗余,舉例來說,圖片中相鄰像素之間的數(shù)據(jù)有可能非常相似,相鄰兩幀圖片的信息也有可能很相似。所以有時龐大的數(shù)據(jù)處理并不必要。
因此,論文中提出一種簡化數(shù)據(jù)的方法,將所有傳感器接入一個總處理器中進行預處理,但考慮到散熱等問題,又改為在傳感器單元中嵌入簡易的處理器,從而簡化數(shù)據(jù),得到更高的效率。
論文中還表示,從長遠來看,SLAM由于其實時性和廣泛的實用性,不同應用的輸出和性能水平不同,特別難以通過像數(shù)據(jù)集評估之類的手段確定一個SLAM的基準。因此SLAM的基準應該走向預測可能需要執(zhí)行的任務的一般化標準。其中可能的指標包括:
?新探索的區(qū)域中的局部姿態(tài)準確性(視覺
里程漂移率)。
?良好映射的長期度量姿態(tài)重復性區(qū)域。
?跟蹤魯棒性百分比。
?重新定位魯棒性百分比。
?SLAM系統(tǒng)延遲。
?每個像素的密集距離預測精度。
?對象分割的準確性。
?對象分類準確性。
?AR像素配準精度。
?場景變化檢測精度。
?電力使用情況。
?數(shù)據(jù)移動
總之,作者認為,由于SLAM的在各個領域中的重要性,對SLAM的研究仍將保持下去,在這些方面越來越優(yōu)化。
這篇論文是建立在作者對大部分現(xiàn)有的SLAM技術和困難了解的基礎上完成的一個總結,比較有參考價值。對原文感興趣的同學也可以戳閱讀原文下載
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4733瀏覽量
100420 -
人工智能
+關注
關注
1789文章
46652瀏覽量
237090 -
SLAM
+關注
關注
23文章
415瀏覽量
31758
發(fā)布評論請先 登錄
相關推薦
評論