国产精品小视频一区,角色扮演系统(NPN)赵青蔓

SLAM (simultaneous localization and mapping),也稱為CML (Concurrent Mapping and Localization), 即時定位與地圖構建，或并發(fā)建圖與定位。問題可以描述為：將一個機器人放入未知環(huán)境中的未知位置，是否有辦法讓機器人一邊逐步描繪出此環(huán)境完全的地圖，所謂完全的地圖（a consistent map）是指不受障礙行進到房間可進入的每個角落。SLAM最早由Smith、Self和Cheeseman于1988年提出。由于其重要的理論與應用價值，被很多學者認為是實現(xiàn)真正全自主移動機器人的關鍵。

詞語解釋

Simultaneous Localization and MappingSimultaneous Localization and Mapping, 同步定位與建圖。 SLAM問題可以描述為: 機器人在未知環(huán)境中從一個未知位置開始移動,在移動過程中根據(jù)位置估計和地圖進行自身定位,同時在自身定位的基礎上建造增量式地圖，實現(xiàn)機器人的自主定位和導航。Scanning Laser Acoustic MicroscopeScanning Laser Acoustic Microscope, 激光掃描聲學顯微鏡。激光掃描聲學顯微鏡是一種強有力的廣泛應用于諸如工業(yè)用材料和生物醫(yī)學領域的無損檢測工具，其使用的頻率范圍為10MHz ~ 500MHz。Lymphocyte Activation MoleculeLymphocyte Activation Molecule, 醫(yī)學用語。Supersonic Low Altitude MissileSLAM — Supersonic Low Altitude Missile（超音速低空導彈）的縮寫，是美國的一項導彈研制計劃。Symmetrically Loaded Acoustic ModuleSLAM是Symmetrically Loaded Acoustic Module的英文縮寫 [1] ，中文意思是平衡裝載聲學模塊。Satellite Link Attenuation ModelSLM是Satellite Link Attenuation Model的英文縮寫 [2] ，中文意思是衛(wèi)星鏈路衰減模型。

實時SLAM的未來以及深度學習與SLAM的比較

第一部分：為什么 SLAM 很重要？

視覺 SLAM 算法可以實時構建世界的 3D 地圖，并同時追蹤攝像頭（手持式或增強現(xiàn)實設備上的頭戴式或安裝在機器人上）的位置和方向。SLAM 是卷積神經網絡和深度學習的補充：SLAM 關注于幾何問題而深度學習是感知、識別問題的大師。如果你想要一個能走到你的冰箱面前而不撞到墻壁的機器人，那就使用 SLAM。如果你想要一個能識別冰箱中的物品的機器人，那就使用卷積神經網絡。

SfM/SLAM 基本原理：一個場景的 3D 結構是根據(jù)點觀察和固有的攝像頭參數(shù)，從攝像頭的估計的運動中計算出來的.

SLAM 是 SfM（運動恢復結構：Structure from Motion）的一種實時版本。視覺 SLAM 或基于視覺的 SLAM 是 SLAM 的一種僅使用攝像頭的變體，放棄了昂貴的激光傳感器和慣性測量單元。單眼 SLAM僅使用單個攝像頭，而非單眼 SLAM通常使用一個預校準的固定基線的立體相機套件。SLAM 是計算機視覺領域所謂的幾何方法中最好案例。事實上，卡內基梅隆大學的機器人研究所將研究生水平的計算機視覺課程分成了一個基于學習的視覺方法和一個單獨的基于幾何的視覺方法的課程。

1.運動恢復結構 vs 視覺 SLAM運動恢復結構（SfM）和 SLAM 所解決的問題非常相似，但 SfM 傳統(tǒng)上是以離線形式進行的，而 SLAM 則已經慢慢走向了低功耗/實時/單 RGB 相機的運行模式。今天許多運動恢復結構方面的專家都在為世界上一些最大的科技公司，幫助打造更好的地圖。如果沒有關于多視圖幾何、SfM 和 SLAM 的豐富知識，像谷歌地圖這種成功的地圖產品根本就不可能出現(xiàn)。典型的 SfM 問題遵循：給定一個單個室外結構（如大劇場/大體育館）的大型照片集合，構建該結構的 3D 模型并確定每個相機的姿勢。這個照片集合以離線形式處理，而且大型結構重建所需時間從幾小時到幾天不等。

SfM 軟件：Bundler 是最成功的 SfM 開源庫之一

這里給出一些流行的 SfM 相關的軟件庫：

Bundler：一個開源的運動恢復結構工具包

Libceres：一個非線性最小二乘極小化工具（對束調整（bundle adjustment）問題很有用）

Andrew Zisserman 的多視圖幾何 MATLAB 函數(shù)

2.視覺 SLAM vs 自動駕駛研討會的組織者之一 Andrew Davison 表示，盡管自動駕駛汽車是 SLAM 最重要的應用之一，但用于自動化載具的 SLAM 應該有其自己的研究軌道。（而且正如我們所見，研討會的展示者中沒有一個談到了自動駕駛汽車。）在接下來的許多年里，獨立于任何一個圣杯級的應用而繼續(xù)在研究的角度上研究 SLAM 是有意義的。盡管在自動化載具方面存在著太多的系統(tǒng)級細節(jié)和技巧，但研究級的 SLAM 系統(tǒng)所需的不過是一個網絡攝像頭、算法知識和一點辛勞而已。視覺 SLAM 作為一個研究課題對數(shù)以千計的博士生的早期階段要友好得多，他們將首先需要好幾年的使用 SLAM 的實驗室經驗，然后才能開始考慮無人駕駛汽車等昂貴的機器人平臺。

谷歌無人駕駛汽車的感知系統(tǒng)

第二部分：實時 SLAM 的未來

現(xiàn)在是時候正式總結和評論實時 SLAM 的未來研討會上的演講了。Andrew Davison 以一個名叫基于視覺的 SALM 的十五年的精彩歷史概述開篇，他的幻燈片中還有一個介紹機器人學課程的好內容。

你也許不知道 Andrew 是誰，他是倫敦帝國學院獨一無二的 Andrew Davison 教授。他最知名的成就是其 2003 年的 MonoSLAM 系統(tǒng)，他是第一個展示如何在單個攝像頭上構建 SLAM 系統(tǒng)的人，而那時候其他所有人都還認為打造 SLAM 系統(tǒng)需要一個立體的雙目攝像頭套件。最近，他的研究成果已經對戴森（Dyson）等公司的發(fā)展軌跡和他們的機器人系統(tǒng)的能力產生了影響（如全新的 Dyson360）。

我還記得 Davidson 教授曾在 2007 年的 BMVC（英國機器視覺大會）上給出了一個視覺 SLAM 教程。讓人驚訝的是，和主要的視覺大會上其它機器學習技術的紛繁成果相比，SLAM 的變化真是非常之少。過去八年里，對象識別已經經歷了兩三次小型變革，而今天的 SLAM 系統(tǒng)和其八年前的樣子看起來并沒有多大不同。了解 SLAM 的進展的最好方法是看最成功和最讓人難忘的系統(tǒng)。在 Davidson 的研討會介紹演講中，他討論了一些過去 10-15 年里科研界所打造的典范系統(tǒng)：

MonoSLAM

PTAM

FAB-MAP

DTAM

KinectFusion

1.Davison vs Horn：機器人視覺的下一篇章Davison 還提到他正在寫一本關于機器人視覺的新書，這對計算機視覺、機器人和人工智能領域的研究者來說應該是一個激動人心的好消息。上一本機器人視覺的書是由 B.K. Horn 寫的（出版于 1986 年），現(xiàn)在也到該更新的時候了。

機器人視覺的一本新書？

盡管我很樂意閱讀一本重在機器人視覺原理的巨著，但我個人希望該書關注的是機器人視覺的實用算法，就像 Hartley 和 Zissermann 的杰作《多視圖幾何》或 Thrun、Burgard 和 Fox 所著的《概率機器人學》那樣。這本關于視覺 SLAM 問題的書籍將會受到所有專注視覺研究者歡迎。

演講一：Christian Kerl 談 SLAM 中的連續(xù)軌跡第一個演講來自 Christian Kerl，他提出了一種用于估計連續(xù)時間軌跡的密集跟蹤方法。其關鍵觀察結果發(fā)現(xiàn)：大部分 SLAM 系統(tǒng)都在離散數(shù)目的時間步驟上估計攝像頭的位置（要么是相隔幾秒的關鍵幀，要么是相隔大約 1/25 秒的各個幀。

連續(xù)軌跡 vs 離散時間點 SLAM/SfM 通常使用離散時間點，但為什么不使用連續(xù)的呢？

Kerl 的大部分演講都集中于解決卷簾式快門相機的危害，而 Kerl 演示的系統(tǒng)還對建模給予謹慎的關注并消除了這些卷簾式快門的不利影響。

解決視覺 SLAM 中卷簾式快門相機的危害

演講二：Jakob Engel 談半密集直接 SLAM（Semi-Dense Direct SLAM）LSD-SLAM（大規(guī)模直接單眼 SLAM）在2014 ECCV 上公開，也是我現(xiàn)在最喜歡的 SLAM 系統(tǒng)之一！Jakob Engel 在那里展示了他的系統(tǒng)并向觀眾展示了當時最炫酷的一些 SLAM 可視化。對 SLAM 研究者來說，LSD-SLAM 是一個非常重要的系統(tǒng)，因為它不使用邊角或其它任何本地特性。通過使用一種帶有穩(wěn)健的 Huber 損失的由粗到細的算法，直接跟蹤可由圖像到圖像對準完成。這和那些基于特征的系統(tǒng)非常不同。深度估計使用了逆深度參數(shù)化（和許多其它系統(tǒng)一樣）并使用了大量或相對小的基準圖像對。該算法并不依賴于圖像特征，而是靠有效地執(zhí)行紋理跟蹤。全局映射是通過創(chuàng)建和解決姿態(tài)圖形的束調整優(yōu)化問題而執(zhí)行的，而且這所有都是實時工作的。這個方法是半密集的，因為它僅估計靠近圖像邊界的像素深度。LSD-SLAM 輸出比傳統(tǒng)的特征更密集，但并不如 Kinect 類型的 RGBD SLAM 那樣完全密集。

工作中的 LSD-SLAM：LSD-SLAM 同時生成一個攝像頭軌跡和一個半密集的 3D 場景重建。這種方法實時工作，不使用特征點作為圖元，并執(zhí)行直接的圖像到圖像對準。

Engel 概述了原來的 LSD-SLAM 系統(tǒng)以及一些新成果，將它們最初的系統(tǒng)擴展成更有創(chuàng)造性的應用并實現(xiàn)了更有趣的部署。

全方位 LSD-SLAM是 LSD-SLAM 的一種延伸，因觀察到針孔模型不能用于大視場的觀測而被創(chuàng)造出來。這項成果提出于 IROS 2015（2015 年智能機器人和系統(tǒng)國際大會）（Caruso 是第一作者），能用于大視場（理想情況下可超過 180 度）。Engel 的演講很清楚地表示，你可以拿著相機以芭蕾舞般的動作極限旋轉在你的辦公室內走來走去。這是窄視場 SLAM 最糟糕的應用場景之一，但卻在 Omni LSD-SLAM 中效果良好。

全方位的 LSD-SLAM 模型

立體 LSD-SLAM是 LSD-SLAM 的一種用于雙眼攝像頭套件的延伸。這有助于獲得沒有限制的規(guī)模，而且其初始化是瞬時的，強烈旋轉也不存在問題。盡管從學術的角度看，單眼 SLAM 是很激動人心，但如果你的機器人是一輛 30,000 美元的車或 10,000 美元的無人機原型，你應該有足夠的理由使用一套帶有兩個乃至更多攝像頭的套件。Stereo LSD-SLAM 在 SLAM 基準上表現(xiàn)出了相當強的競爭力。

Stereo LSD-SLAM 在 KITTI vehicle-SLAM 數(shù)據(jù)集上得到了優(yōu)異結果

Stereo LSD-SLAM 相當實用，能優(yōu)化 SE(3) 中的姿態(tài)圖形，并包含了對自動曝光的校正。自動曝光校正的目標是讓誤差函數(shù)相對于仿射光照變化而不變。顏色空間仿射轉換的基本參數(shù)是在匹配過程中估算出來的，但也被扔掉以估計圖像到圖像變換中的錯誤。Engel 在演講中稱，離群值（outliers）（通常是由過度曝光的圖像像素造成的）往往會帶來問題，需要很仔細才能處理它們的影響。

在他后面的演示中，Engel 讓我們一窺了關于立體和慣性傳感器的整合新研究。為了了解詳情，你只能跟蹤 arXiv 上的更新或向 Usenko/Engel 本人了解。在應用方面，Engel 的演示中包含了由 LSD-SLAM 驅動的自動化四軸無人機的更新視頻。其飛行一開始是上下運動的，以獲得對尺寸的估計，然后又使用了自由空間的三維測繪（octomap）以估計自由空間，從而讓該四軸無人機可以在空間中為自己導航。

運行 Stereo LSD-SLAM 的四軸無人機

LSD-SLAM 的故事也是基于特征 vs 直接方法的故事，Engel 給了辯論雙方公正的待遇?；谔卣鞯姆椒ū辉O計用在 Harris 那樣的邊角之上，而直接方法則是用整個圖像進行對準?；谔卣鞯姆椒ǜ欤ń刂?2015 年），但直接方法在并行處理上效果很好。離群值可以通過追溯的方法從基于特征的系統(tǒng)中移除，而直接方法在離群值處理上沒那么靈活。卷簾式快門是直接方法的一個更大的問題，而且使用全局快門或卷簾式快門模型是有意義的?；谔卣鞯姆椒ㄐ枰褂貌煌暾?a target="_blank">信息進行決策，而直接方法可以使用更多信息?；谔卣鞯姆椒ú恍枰芎玫某跏蓟?，而直接方法在初始化上需要更巧妙的技巧。對直接方法的研究只有 4 年，稀疏方法則有 20 多年的歷史了。Engel 樂觀地認為直接方法未來將上升成為頂級方法，我也這么想。

SLAM 系統(tǒng)構建上，基于特征的方法 vs 直接方法

在 Engel 演講最后，Davison 問到了語義分割方面的問題，而 Engel 不知道語義分割是否可以在半密集的接近圖像邊界的數(shù)據(jù)上直接執(zhí)行。但是，我個人的看法是，有更好的方法可將語義分割應用到 LSD 類型的 SLAM 系統(tǒng)上。半密集 SLAM 可以專注于靠近邊界的幾何信息，而對象識別可以專注于遠離這同一邊界的可靠語義，從而有可能創(chuàng)造出一個混合了幾何和語義的圖像解讀。

演講三：Torsten Sattler 談大規(guī)模定位與地圖構建面臨的挑戰(zhàn)Torsten Sattler 的演講談論了大規(guī)模定位與地圖構建。這項工作的目的是在已有的地圖內執(zhí)行六個自由度的定位，尤其是移動定位。演講中的一個關鍵點是：當你使用傳統(tǒng)的基于特征的方法時，存儲你的描述很快就將變得非常昂貴。視覺詞匯表（記得產品量化嗎？）等技術可以顯著減少存儲開銷，再加上某種程度的巧妙優(yōu)化，描述的存儲將不再成為存儲瓶頸。

Sattler 的演講給出的另一個重要的關鍵信息是正確數(shù)據(jù)的數(shù)量實際上并不是相機姿態(tài)估計的很好的置信度測量。當特征點全都集中于圖像的單一一個部分時，相機定位可能會在千里之外！一個更好的置信度測量是有效正確數(shù)據(jù)計數(shù)，其可以將正確數(shù)據(jù)所在的區(qū)域作為整體圖像區(qū)域的一個部分來進行審查。你真正希望得到的是整體圖像上的特征匹配——如果信息散布在整個圖像上，你能得到更好的姿態(tài)估計。

Sattler 對未來實時 SLAM 的演講是這樣的：我們應該關注緊湊型的地圖表征，我們應該對相機姿態(tài)估計置信度有更好的理解（如樹上權重下降的特征），我們應該在更有挑戰(zhàn)性的場景中研發(fā)（如帶有平面結構的世界和在白天的地圖上的夜間定位）。

移動定位：Sattler 的關鍵問題是使用單張智能手機圖片在大城市里定位你自己演講四：Mur-Artal 談基于特征的方法 vs 直接方法ORB-SLAM 的創(chuàng)造者 Mur-Artal 的演講內容全部圍繞著 SLAM 領域內基于特征的方法 vs 直接方法的爭論，而他顯然站在基于特征的方法一邊。ORB-SLAM 可通過一個開源的 SLAM 軟件包獲取，而且它很難被擊敗。在他對 ORB-SLAM vs PTAM 的評價中，似乎 PTAM 實際上常常失?。ㄖ辽僭?TUM RGB-D 基準上）。LSD-SLAM 在 TUM RGB-D 基準上的錯誤通常遠高于預期。

基于特征的方法 vs 直接方法演講五：Tango 項目和用于圖像到圖像限制的視覺環(huán)路閉合簡單來說，谷歌的 Tango 項目是世界上第一個商業(yè)化 SLAM 的嘗試。來自 Google Zurich 的 Simon Lynen（之前屬于 ETH Zurich）帶著一個 Tango 現(xiàn)場演示（在一臺平板電腦上）來到了研討會，并展示了 Tango 世界的新內容。你可能不知道，谷歌希望將 SLAM 能力集成到下一代安卓設備中。

谷歌的Tango項目

Tango 項目展示討論了一種通過在圖像到圖像匹配矩陣中尋找特定的模式以進行環(huán)路閉合的新方法。這個方法是來自沒有固定位置的位置識別成果。他們也做帶有基于視覺的環(huán)路閉合的在線束調整。

Tango 項目里的循環(huán)閉合這種圖像到圖像矩陣揭示一種尋找環(huán)路閉合的新方法?？稍谠?YouTube 視頻中查看工作中的算法。

Tango 項目的人也在研究將谷歌多個眾包地圖結合起來，其目標是將由不同的人使用配置有 Tango 的設備創(chuàng)造的多個迷你地圖結合起來。

Simon 展示了一個山地自行車軌跡跟蹤的視頻，這在實踐中實際上是相當困難的。其中的想法是使用一個 Tango 設備跟蹤一輛山地自行車，并創(chuàng)建一份地圖，然后后續(xù)的目標是讓另外一個人沿著這條軌跡走。這個目前只是半有效狀態(tài)——當在地圖構建和跟蹤步驟之前有幾個小時時間時有效，但過了幾周、幾個月就沒效果了。

在 Tango 相關的討論中，Richard Newcombe 指出 Tango 項目所使用的 “特征” 在更深度地理解環(huán)境上還是相當落后的，而且看起來類似 Tango 項目的方法無法在室外場景中起作用——室外場景有非剛性大量光照變化等。所以我們有望見到為室外環(huán)境設計的不同系統(tǒng)嗎？Tango 項目將成為一個室內地圖構建設備嗎？

演講六：ElasticFusion 是沒有姿態(tài)圖形的密集型 SLAMElasticFusion 是一種需要 Kinect 這樣的 RGBD 傳感器的密集型 SLAM 技術。2-3 分鐘就能獲得單個房間的高質量 3D 掃描，這真是相當酷。許多 SLAM 系統(tǒng)的場景背后都使用了姿態(tài)圖形，這種技術有一種不同的（以地圖為中心）方法。該方法專注于構建地圖，但其訣竅是其構建的地圖可以變形，也因此得名 ElasticFusion（彈性融合）。其中算法融合的部分是向 KinectFusion 致敬——KinectFusion 是第一個高質量的基于 Kinect 的重建方式。Surfels 也被用作底層的基元。

圖片來自 Kintinuous，Whelan 的 Elastic Fusion 的早期版本

恢復光源：我們一窺了來自倫敦帝國學院/戴森機器人實驗室的尚未發(fā)表的新研究成果。其中的想法是通過探測光源方向和探測鏡面反射，你可以提升 3D 重建的結果。關于恢復光源位置的炫酷視頻顯示其最多能處理 4 個獨立光源。

演講七：Richard Newcombe 的 DynamicFusionRichard Newcombe（他最近成立的公司被 Oculus 收購）是最后一位展示者。Richard Newcombe 是 DTAM、KinectFusion 和 DynamicFusion 背后的人，見到他真是非常酷；他目前從事虛擬現(xiàn)實領域的研發(fā)。

Newcombe 的 DynamicFusion 算法。該技術在聲望很高的 CVPR 2015中獲得最佳論文獎。

2.研討會演示在演示會議期間（在研討會中間舉行），許多展示者展示了他們的 SLAM 系統(tǒng)工作中的樣子。這些系統(tǒng)中許多都是以開源軟件包的形式提供的，所以如果你對實時 SLAM 感興趣，可以嘗試下載這些代碼。但是，最亮眼的演示是 Andrew Davison 展柜上他的來自 2004 年的 MonoSLAM 演示。Andrew 不得不恢復了已有 15 年歲月的計算機（運行的是 Redhat Linux）來展示他原來的系統(tǒng)，運行在原來的硬件上。如果計算機視覺社區(qū)將決定舉辦一場復古視覺的演示會議，那我馬上就將會提名 Andrew 應得最佳論文獎。

Andrew 復古的視覺 SLAM 配置

看著 SLAM 系統(tǒng)專家揮動自己的 USB 攝像頭真是一件有趣的事——他們在展示他們的系統(tǒng)圍繞他們的筆記本電腦構建周圍桌子大小區(qū)域的 3D 地圖。如果你仔細看了這些專家移動攝像頭的方式（即平穩(wěn)的圓圈運動），你幾乎就能看出一個人在 SLAM 領域工作了多長時間。當一位非專家級的人拿著攝像頭時，跟蹤失敗的概率明顯更高。

我有幸在演示會議期間和 Andrew 進行了交談，我很好奇這一系列的成果（過去 15 年中）中哪一個最讓他感到驚訝。他的回答是 PTAM 最讓他吃驚，因為其表明了實時束調整執(zhí)行的方式。PTAM 系統(tǒng)本質上是 MonoSLAM++ 系統(tǒng)，但因為采用了一種重量級算法（束調整）而顯著提高了跟蹤效果并做到了實時——在 2000 年早期 Andrew 還認為“實時”是不可能辦到的。第三部分：深度學習 vs SLAM

SLAM 小組討論真是樂趣無窮。在我們進入重要的深度學習 vs SLAM討論之前，我應該說明每一位研討會展示者都同意：語義對構建更大更好的 SLAM 系統(tǒng)是必需的。關于未來的方向，這里有很多有趣的小對話。在爭論中，Marc Pollefeys（一位知名的 SfM 和多視角幾何研究者）提醒所有人，機器人是 SLAM 的一個殺手級應用，并建議我們保持對大獎的關注。這令人非常驚訝，因為 SLAM 傳統(tǒng)上是適用于機器人問題的，但過去幾十年機器人并沒有什么成功（谷歌機器人？），導致 SLAM 的關注重點從機器人轉移到了大規(guī)模地圖構建（包括谷歌地圖）和增強現(xiàn)實上。研討會上沒人談論過機器人。

1.將語義信息集成到 SLAM 中人們對將語義整合到今天最出色的 SLAM 系統(tǒng)中有很大興趣。當涉及語義時， SLAM 社區(qū)不幸地卡在了視覺詞袋（bags-of-visual-words）的世界里，而在如何將語義信息整合進他們的系統(tǒng)上沒有什么新想法。在語義一端，我們現(xiàn)在已經看到 CVPR/ICCV/ECCV 上冒出了很多實時語義分割演示（基于卷積神經網絡）；在我看來，SLAM 需要深度學習，而深度學習也一樣需要 SLAM。

人們經常談到將語義整合進 SLAM，但說起來容易做起來難。圖片來自 Moreno 的博士論文（142 頁）：密集型語義 SLAM

2.端到端學習會主宰 SLAM 嗎？在 SLAM 研討會小組討論結束時，Zeeshan Zia 博士提出了一個震驚所有人的問題，并引發(fā)了一場充滿能量的討論，令人難忘。你應該看看小組成員們臉上的表情。那就像是將一個深度學習的火球投向一群幾何學家。他們的面部表情表達出了他們的困惑、憤怒和厭惡。他們想：你怎么敢質疑我們？正是在這些稍縱即逝的時刻，我們才能真正體會到大會的體驗。Zia 的問題基本上是：在構建今天的 SLAM 系統(tǒng)時，端到端學習很快就將取代大部分人工勞動嗎？

Zia 的問題非常重要，因為端到端的可訓練系統(tǒng)已經慢慢進入到了很多高級的計算機問題中，相信 SLAM 會是一個例外是沒有道理的。有好幾位展示者都指出當前的 SLAM 系統(tǒng)過于依賴幾何，以至于讓完全基于深度學習的 SLAM 系統(tǒng)看起來不合理了——我們應該使用學習技術得到更好的點描述，而不要管幾何。你可以使用深度學習做一個計算器，并不意味你應該這么做。

通過卷積神經網絡學習立體相似度函數(shù)，來自 Yan LeCun 及其合作者

盡管許多小組討論發(fā)言人都使用了有些肯定不行回應，但讓人驚訝的是，卻是 Newcombe 聲援了深度學習和 SLAM 聯(lián)姻的可能。

3.Newcombe 的提議：使用 SLAM 助力深度學習盡管 Newcombe 在深度學習可能如何幫助 SLAM 上沒有提供很多證據(jù)或想法，但他卻為 SLAM 如何可能為深度學習提供幫助給出了一條清晰的路徑。想想看我們使用大規(guī)模 SLAM 已經構建出的地圖以及這些系統(tǒng)所提供的對應——這難道不是一個構建能幫助深度學習的萬億級圖像到圖像相關數(shù)據(jù)集的清晰路徑嗎？其基本思路是：今天的 SLAM 系統(tǒng)是大規(guī)模的對應引擎，可以用來生成大規(guī)模數(shù)據(jù)集，而這正是深度卷積神經網絡所需要的。

第四部分：結語

這次 ICCV 大會上主流的工作（重在機器學習）和本次實時 SLAM 研討會所呈現(xiàn)出現(xiàn)的工作（重在束調整等幾何方法）之間存在相當大的脫節(jié)。主流的計算機視覺社區(qū)在過去十年內已經見證了多次小型變革（如：Dalal-Triggs、DPM、ImageNet、ConvNets、R-CNN），而今天的 SLAM 系統(tǒng)和它們八年前的樣子并沒有很大的不同。Kinect 傳感器可能是 SLAM 領域唯一的最大的徹底變革的技術，但基礎算法仍舊保持著原樣。

集成語義信息：視覺 SLAM 的下一個前沿. 來自 Arwen Wallington 博客的腦圖

今天的 SLAM 系統(tǒng)能幫助機器在幾何上理解眼前的世界（即在本地坐標系中構建關聯(lián)），而今天的深度學習系統(tǒng)能幫助機器進行分類推理（即在不同的對象實例之上構建關聯(lián)）?？偟膩碚f，在視覺 SLAM 上，我與 Newcombe 和 Davison 一樣興奮，因為基于視覺的算法將會將增強現(xiàn)實和虛擬現(xiàn)實轉變成一個價值數(shù)十億美元的產業(yè)。但是，我們不應忘記保持對那個萬億美元市場的關注，那個將重新定義 “工作” 的市場——機器人。機器人 SLAM 的時代很快就要到來了。

SLAM的前世今生

▌SLAM的前世

我之前從本科到研究生，一直在導航與定位領域學習，一開始偏重于高精度的慣性導航、衛(wèi)星導航、星光制導及其組合導航。出于對實現(xiàn)無源導航的執(zhí)念，我慢慢開始研究視覺導航中的SLAM方向，并與傳統(tǒng)的慣性器件做組合，實現(xiàn)獨立設備的自主導航定位。定位、定向、測速、授時是人們惆悵千年都未能完全解決的問題，最早的時候，古人只能靠夜觀天象和司南來做簡單的定向。直至元代，出于對定位的需求，才華橫溢的中國人發(fā)明了令人嘆為觀止的牽星術，用牽星板測量星星實現(xiàn)緯度估計。 1964年美國投入使用GPS，突然就打破了大家的游戲規(guī)則。軍用的P碼可以達到1-2米級精度，開放給大眾使用的CA碼也能夠實現(xiàn)5-10米級的精度。后來大家一方面為了突破P碼封鎖，另一方面為了追求更高的定位定姿精度，想出了很多十分具有創(chuàng)意的想法來挺升GPS的精度。利用RTK的實時相位差分技術，甚至能實現(xiàn)厘米的定位精度，基本上解決了室外的定位和定姿問題。但是室內這個問題就難辦多了，為了實現(xiàn)室內的定位定姿，一大批技術不斷涌現(xiàn)，其中，SLAM技術逐漸脫穎而出。SLAM是一個十分交叉學科的領域，我先從它的傳感器講起。

▌離不開這兩類傳感器

目前用在SLAM上的Sensor主要分兩大類，激光雷達和攝像頭。

這里面列舉了一些常見的雷達和各種深度攝像頭。激光雷達有單線多線之分，角分辨率及精度也各有千秋。SICK、velodyne、Hokuyo以及國內的北醒光學、Slamtech是比較有名的激光雷達廠商。他們可以作為SLAM的一種輸入形式。這個小視頻里展示的就是一種簡單的2D SLAM。

這個小視頻是賓大的教授kumar做的特別有名的一個demo，是在無人機上利用二維激光雷達做的SLAM。

而VSLAM則主要用攝像頭來實現(xiàn)，攝像頭品種繁多，主要分為單目、雙目、單目結構光、雙目結構光、ToF幾大類。他們的核心都是獲取RGB和depth map(深度信息)。簡單的單目和雙目（Zed、leapmotion）我這里不多做解釋，我主要解釋一下結構光和ToF。

▌最近流行的結構光和TOF

結構光原理的深度攝像機通常具有激光投射器、光學衍射元件（DOE）、紅外攝像頭三大核心器件。

這個圖（下圖）摘自primesense的專利。

可以看到primesense的doe是由兩部分組成的，一個是擴散片，一個是衍射片。先通過擴散成一個區(qū)域的隨機散斑，然后復制成九份，投射到了被攝物體上。根據(jù)紅外攝像頭捕捉到的紅外散斑，PS1080這個芯片就可以快速解算出各個點的深度信息。這兒還有兩款結構光原理的攝像頭。

第一頁它是由兩幅十分規(guī)律的散斑組成，最后同時被紅外相機獲得，精度相對較高。但據(jù)說DOE成本也比較高。還有一種比較獨特的方案（最后一幅圖），它采用mems微鏡的方式，類似DLP投影儀，將激光器進行調頻，通過微鏡反射出去，并快速改變微鏡姿態(tài)，進行行列掃描，實現(xiàn)結構光的投射。（產自ST，ST經常做出一些比較炫的黑科技）。 ToF（time of flight）也是一種很有前景的深度獲取方法。傳感器發(fā)出經調制的近紅外光，遇物體后反射，傳感器通過計算光線發(fā)射和反射時間差或相位差，來換算被拍攝景物的距離，以產生深度信息。類似于雷達，或者想象一下蝙蝠，softkinetic的DS325采用的就是ToF方案（TI設計的），但是它的接收器微觀結構比較特殊，有2個或者更多快門，測ps級別的時間差，但它的單位像素尺寸通常在100um的尺寸，所以目前分辨率不高。以后也會有不錯的前景，但我覺得并不是顛覆性的。好，那在有了深度圖之后呢，SLAM算法就開始工作了，由于Sensor和需求的不同，SLAM的呈現(xiàn)形式略有差異。大致可以分為激光SLAM（也分2D和3D）和視覺SLAM（也分Sparse、semiDense、Dense）兩類，但其主要思路大同小異。

這個是Sparse（稀疏）的

這個偏Dense（密集）的

▌SLAM算法實現(xiàn)的4要素

SLAM算法在實現(xiàn)的時候主要要考慮以下4個方面吧：

1. 地圖表示問題，比如dense和sparse都是它的不同表達方式，這個需要根據(jù)實際場景需求去抉擇 2. 信息感知問題，需要考慮如何全面的感知這個環(huán)境，RGBD攝像頭FOV通常比較小，但激光雷達比較大 3. 數(shù)據(jù)關聯(lián)問題，不同的sensor的數(shù)據(jù)類型、時間戳、坐標系表達方式各有不同，需要統(tǒng)一處理 4. 定位與構圖問題，就是指怎么實現(xiàn)位姿估計和建模，這里面涉及到很多數(shù)學問題，物理模型建立，狀態(tài)估計和優(yōu)化

其他的還有回環(huán)檢測問題，探索問題（exploration），以及綁架問題（kidnapping）。

這個是一個比較有名的SLAM算法，這個回環(huán)檢測就很漂亮。但這個調用了cuda，gpu對運算能力要求挺高，效果看起來比較炫。

▌以VSLAM舉個栗子

我大概講一種比較流行的VSLAM方法框架。整個SLAM大概可以分為前端和后端，前端相當于VO（視覺里程計），研究幀與幀之間變換關系。首先提取每幀圖像特征點，利用相鄰幀圖像，進行特征點匹配，然后利用RANSAC去除大噪聲，然后進行匹配，得到一個pose信息（位置和姿態(tài)），同時可以利用IMU（Inertial measurement unit慣性測量單元）提供的姿態(tài)信息進行濾波融合后端則主要是對前端出結果進行優(yōu)化，利用濾波理論（EKF、UKF、PF）、或者優(yōu)化理論TORO、G2O進行樹或者圖的優(yōu)化。最終得到最優(yōu)的位姿估計。后端這邊難點比較多，涉及到的數(shù)學知識也比較多，總的來說大家已經慢慢拋棄傳統(tǒng)的濾波理論走向圖優(yōu)化去了。因為基于濾波的理論，濾波器穩(wěn)度增長太快，這對于需要頻繁求逆的EKF（擴展卡爾曼濾波器），PF壓力很大。而基于圖的SLAM，通常以keyframe（關鍵幀）為基礎，建立多個節(jié)點和節(jié)點之間的相對變換關系，比如仿射變換矩陣，并不斷地進行關鍵節(jié)點的維護，保證圖的容量，在保證精度的同時，降低了計算量。列舉幾個目前比較有名的SLAM算法：PTAM,MonoSLAM, ORB-SLAM,RGBD-SLAM,RTAB-SLAM,LSD-SLAM。

所以大家如果想學習SLAM的話，各個高校提高的素材是很多的，比如賓大、MIT、ETH、香港科技大學、帝國理工等等都有比較好的代表作品，還有一個比較有前景的就是三維的機器視覺，普林斯頓大學的肖劍雄教授結合SLAM和Deep Learning做一些三維物體的分類和識別，實現(xiàn)一個對場景深度理解的機器人感知引擎。

http://robots.princeton.edu/talks/2016_MIT/RobotPerception.pdf這是他們的展示。總的來說，SLAM技術從最早的軍事用途（核潛艇海底定位就有了SLAM的雛形）到今天，已經逐步走入人們的視野，掃地機器人的盛行更是讓它名聲大噪。同時基于三維視覺的VSLAM越來越顯主流。在地面/空中機器人、VR/AR/MR、汽車/AGV自動駕駛等領域，都會得到深入的發(fā)展，同時也會出現(xiàn)越來越多的細分市場等待挖掘。

這個是occipital團隊出的一個產品，是個很有意思的應用，國內賣4000+，大概一個月1000出貨量吧（雖然不是很多，但是效果不錯，pad可玩）虛擬家居、無人飛行／駕駛、虛擬試衣、3D打印、刑偵現(xiàn)場記錄、沉浸式游戲、增強現(xiàn)實、商場推送、設計輔助、地震救援、工業(yè)流水線、GIS采集等等，都等待著VSLAM技術一展宏圖

▌SLAM的今生——還存在著問題

多傳感器融合、優(yōu)化數(shù)據(jù)關聯(lián)與回環(huán)檢測、與前端異構處理器集成、提升魯棒性和重定位精度都是SLAM技術接下來的發(fā)展方向，但這些都會隨著消費刺激和產業(yè)鏈的發(fā)展逐步解決。就像手機中的陀螺儀一樣，在不久的將來，也會飛入尋常百姓家，改變人類的生活。不過說實話，SLAM在全面進入消費級市場的過程中，也面對著一些阻力和難題。比如Sensor精度不高、計算量大、Sensor應用場景不具有普適性等等問題。多傳感器融合、優(yōu)化數(shù)據(jù)關聯(lián)與回環(huán)檢測、與前端異構處理器集成、提升魯棒性和重定位精度都是SLAM技術接下來的發(fā)展方向，但這些都會隨著消費刺激和產業(yè)鏈的發(fā)展逐步解決。就像手機中的陀螺儀一樣，在不久的將來，也會飛入尋常百姓家，改變人類的生活。（激光雷達和攝像頭兩種 SLAM 方式各有什么優(yōu)缺點呢，有沒有一種綜合的方式互補各自的缺點的呢？）激光雷達優(yōu)點是可視范圍廣，但是缺點性價比低，低成本的雷達角分辨率不夠高，影響到建模精度。vSLAM的話缺點就是FOV通常不大，50-60degree，這樣高速旋轉時就容易丟，解決方案有的，我們公司就在做vSLAM跟雷達還有IMU的組合。（請問目前基于視覺的SLAM的計算量有多大？嵌入式系統(tǒng)上如果要做到實時30fps，是不是只有Nvidia的芯片（支持cuda）才可以？）第一個問題，雖然基于視覺的SLAM計算量相對較大，但在嵌入式系統(tǒng)上是可以跑起來的，Sparse的SLAM可以達到30-50hz（也不需要GPU和Cuda），如果dense的話就比較消耗資源，根據(jù)點云還有三角化密度可調，10－20hz也是沒有問題。并不一定要用cuda，一些用到cuda和GPU的算法主要是用來加速SIFT、ICP，以及后期三角化和mesh的過程，即使不用cuda可以采用其他的特征點提取和匹配策略也是可以的。

▌最后一個問題

想了解下，您對機器人的未來趨勢怎么看？這個問題就比較大了。機器人產業(yè)是個很大的Ecosystem，短時間來講，可能產業(yè)鏈不夠完整，消費級市場缺乏爆點爆款。雖然大家都在談論做機器人，但是好多公司并沒有解決用戶痛點，也沒有為機器人產業(yè)鏈創(chuàng)造什么價值。但是大家可以看到，大批缺乏特色和積淀的機器人公司正在被淘汰，行業(yè)格局越來越清晰，分工逐漸完善，一大批細分市場成長起來。從機器人的感知部分來說，傳感器性能提升、前端處理（目前的sensor前端處理做的太少，給主CPU造成了很大的負擔）、多傳感器融合是一個很大的增長點。現(xiàn)在人工智能也開始揚頭，深度學習、神經網絡專用的分布式異構處理器及其協(xié)處理器成為緊急需求，我個人很希望國內有公司能把這塊做好。也有好多創(chuàng)業(yè)公司做底層工藝比如高推重比電機、高能量密度電池、復合材料，他們和機器人產業(yè)的對接，也會加速機器人行業(yè)的發(fā)展。整個機器人生態(tài)架構會越來越清晰，從硬件層到算法層到功能層到SDK 再到應用層，每一個細分領域都有公司切入，隨著這些產業(yè)節(jié)點的完善，能看到機器人行業(yè)的前景還是很棒的，相信不久之后就會迎來堪比互聯(lián)網的指數(shù)式增長！

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器人

機器人

+關注

關注
210

文章
28103

瀏覽量
205853
算法

算法

+關注

關注
23

文章
4587

瀏覽量
92505
SLAM

SLAM

+關注

關注
23

文章
415

瀏覽量
31758

原文標題：深度好文 | 超全SLAM技術及應用介紹｜0glasses低調分享

文章出處：【微信號：KingseeAR，微信公眾號：AR工業(yè)應用】歡迎添加關注！文章轉載請注明出處。

華為與華潤燃氣合作，云南首個全液冷重卡超充站啟動運營

近日，華潤燃氣重卡超充第一站——彌渡重卡超充站，在大理州彌渡縣成功舉辦了現(xiàn)場啟動儀式，標志著該站正式投入運營使用。彌渡重卡超充站采用了華為全液冷超

發(fā)表于 10-27 10:11 ?345次閱讀

從算法角度看 SLAM（第 2 部分）

作者： Aswin S Babu 正如我們在[第 1 部分]中所討論的，SLAM 是指在無地圖區(qū)域中估計機器人車輛的位置，同時逐步繪制該區(qū)域地圖的過程。根據(jù)使用的主要技術，SLAM 算法可分為三種

發(fā)表于 10-02 16:39 ?219次閱讀

視頻超分技術是指什么？

??超分辨率技術（SuperResolution），是通過硬件或軟件的方法提高圖像或視頻幀的分辨率，通過一系列低分辨率圖像獲取到高分辨率圖像的過程。目前超分辨率技術主要可以分為兩類，單

發(fā)表于 09-04 08:05 ?301次閱讀

超透鏡的設計與分析

的透鏡組。在這個例子中，我們展示了使用圓柱形介電納米柱超構透鏡的設計過程。由于其納米級結構和高折射率對比度，電磁場的全矢量建模是必不可少的。對于初始配置，使用E. Bayata工作中的參數(shù)。 **設計任務

發(fā)表于 08-06 13:48

超結MOS在全橋電路上的應用

全橋電路MOS管選型，推薦瑞森半導體超結MOS系列

發(fā)表于 05-29 14:46 ?454次閱讀

機器人高效導航定位背后SLAM專用芯片的崛起

。 ? SLAM技術是定位與地圖構建技術，其重要的理論與應用價值被認為是實現(xiàn)自動駕駛和全自主移動機器人的關鍵技術。小到掃地機器人，大到自動駕

發(fā)表于 05-28 00:20 ?3287次閱讀

深度解析深度學習下的語義SLAM

隨著深度學習技術的興起，計算機視覺的許多傳統(tǒng)領域都取得了突破性進展，例如目標的檢測、識別和分類等領域。近年來，研究人員開始在視覺SLAM算法中引入深度學習技術，使得深度學習SLAM系統(tǒng)

發(fā)表于 04-23 17:18 ?1227次閱讀

工程實踐中VINS與ORB-SLAM的優(yōu)劣分析

ORB-SLAM是一種基于特征的單目視覺SLAM系統(tǒng)，廣泛用于實時三維地圖構建和機器人定位。該系統(tǒng)使用ORB特征進行高效的視覺識別和地圖重建，支持關鍵幀技術和回環(huán)檢測來優(yōu)化地圖的準確性。

發(fā)表于 04-08 10:17 ?2515次閱讀

什么是SLAM？SLAM算法涉及的4要素

SLAM技術可以應用在無人駕駛汽車、無人機、機器人、虛擬現(xiàn)實等領域中，為這些領域的發(fā)展提供了支持。SLAM技術的發(fā)展已經逐漸從單純的定位和地圖構建轉向了基于場景理解的功能。

發(fā)表于 04-04 11:50 ?2131次閱讀

什么是SLAM？基于3D高斯輻射場的SLAM優(yōu)勢分析

基于NeRF的SLAM算法采用全局地圖和圖像重建損失函數(shù)，通過可微分渲染捕獲稠密的光度信息，具有高保真度。

發(fā)表于 04-01 12:44 ?656次閱讀

從基本原理到應用的SLAM技術深度解析

LSD-SLAM 即 Large-Scale Direct SLAM，兼容單目相機和雙目相機。LSD-SLAM是一種基于光流跟蹤的直接法SLAM，但是實現(xiàn)了半稠密建圖，建圖規(guī)模大，可以

發(fā)表于 02-26 09:41 ?8851次閱讀

基于NeRF/Gaussian的全新SLAM算法

基于NeRF的SLAM算法采用全局地圖和圖像重建損失函數(shù)，通過可微分渲染捕獲稠密的光度信息，具有高保真度。

發(fā)表于 01-26 10:48 ?603次閱讀

超快激光技術及其應用

超快激光技術及其應用? 超快激光技術是一種非常先進的光學技術，它利用超快激光脈沖進行高精度的物質

發(fā)表于 12-20 15:35 ?773次閱讀

基于視覺SLAM的研究現(xiàn)狀

目前視覺SLAM系統(tǒng)可以在微型個人計算機（PC）和嵌入式設備中運行，甚至可以在智能手機等移動設備中運行（Klein和Murray，2009）。與室內或室外移動機器人不同，自動駕駛車輛具有更復雜的參數(shù)，尤其是當車輛在城市環(huán)境中自動駕駛時。

發(fā)表于 12-04 09:22 ?972次閱讀

什么是激光雷達3D SLAM技術？

理解，SLAM的主要功能就是讓機器人一邊計算自身位置，一邊構建環(huán)境地圖，這兩個過程相輔相成?？梢哉f，SLAM技術是機器人后續(xù)自主行動和實現(xiàn)交互的基礎，SLAM也被認

發(fā)表于 11-25 08:23 ?1518次閱讀