0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么SLAM很重要 SLAM算法實(shí)現(xiàn)的4要素

h1654155999.2342 ? 來(lái)源:圖像處理知識(shí)庫(kù)整理 ? 作者:圖像處理知識(shí)庫(kù)整 ? 2021-08-26 16:07 ? 次閱讀

SLAM (simultaneous localization and mapping),也稱為CML (Concurrent Mapping and Localization), 即時(shí)定位與地圖構(gòu)建,或并發(fā)建圖與定位。問(wèn)題可以描述為:將一個(gè)機(jī)器人放入未知環(huán)境中的未知位置,是否有辦法讓機(jī)器人一邊逐步描繪出此環(huán)境完全的地圖,所謂完全的地圖(a consistent map)是指不受障礙行進(jìn)到房間可進(jìn)入的每個(gè)角落。SLAM最早由Smith、Self和Cheeseman于1988年提出。由于其重要的理論與應(yīng)用價(jià)值,被很多學(xué)者認(rèn)為是實(shí)現(xiàn)真正全自主移動(dòng)機(jī)器人的關(guān)鍵。

詞語(yǔ)解釋

Simultaneous Localization and Mapping

Simultaneous Localization and Mapping, 同步定位與建圖。

SLAM問(wèn)題可以描述為: 機(jī)器人在未知環(huán)境中從一個(gè)未知位置開(kāi)始移動(dòng),在移動(dòng)過(guò)程中根據(jù)位置估計(jì)和地圖進(jìn)行自身定位,同時(shí)在自身定位的基礎(chǔ)上建造增量式地圖,實(shí)現(xiàn)機(jī)器人的自主定位和導(dǎo)航。

Scanning Laser Acoustic Microscope

Scanning Laser Acoustic Microscope, 激光掃描聲學(xué)顯微鏡。

激光掃描聲學(xué)顯微鏡是一種強(qiáng)有力的廣泛應(yīng)用于諸如工業(yè)用材料和生物醫(yī)學(xué)領(lǐng)域的無(wú)損檢測(cè)工具,其使用的頻率范圍為10MHz ~ 500MHz。

Lymphocyte Activation Molecule

Lymphocyte Activation Molecule, 醫(yī)學(xué)用語(yǔ)。

Supersonic Low Altitude Missile

SLAM — Supersonic Low Altitude Missile(超音速低空導(dǎo)彈)的縮寫(xiě),是美國(guó)的一項(xiàng)導(dǎo)彈研制計(jì)劃。

Symmetrically Loaded Acoustic Module

SLAM是Symmetrically Loaded Acoustic Module的英文縮寫(xiě) [1] ,中文意思是平衡裝載聲學(xué)模塊。

Satellite Link Attenuation Model

SLM是Satellite Link Attenuation Model的英文縮寫(xiě) [2] ,中文意思是衛(wèi)星鏈路衰減模型。

實(shí)時(shí)SLAM的未來(lái)以及深度學(xué)習(xí)與SLAM的比較

第一部分:為什么 SLAM 很重要?

視覺(jué) SLAM 算法可以實(shí)時(shí)構(gòu)建世界的 3D 地圖,并同時(shí)追蹤攝像頭(手持式或增強(qiáng)現(xiàn)實(shí)設(shè)備上的頭戴式或安裝在機(jī)器人上)的位置和方向。SLAM 是卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的補(bǔ)充:SLAM 關(guān)注于幾何問(wèn)題而深度學(xué)習(xí)是感知、識(shí)別問(wèn)題的大師。如果你想要一個(gè)能走到你的冰箱面前而不撞到墻壁的機(jī)器人,那就使用 SLAM。如果你想要一個(gè)能識(shí)別冰箱中的物品的機(jī)器人,那就使用卷積神經(jīng)網(wǎng)絡(luò)。

SLAM 是 SfM(運(yùn)動(dòng)恢復(fù)結(jié)構(gòu):Structure from Motion)的一種實(shí)時(shí)版本。視覺(jué) SLAM 或基于視覺(jué)的 SLAM 是 SLAM 的一種僅使用攝像頭的變體,放棄了昂貴的激光傳感器和慣性測(cè)量單元。單眼 SLAM僅使用單個(gè)攝像頭,而非單眼 SLAM通常使用一個(gè)預(yù)校準(zhǔn)的固定基線的立體相機(jī)套件。

SLAM 是計(jì)算機(jī)視覺(jué)領(lǐng)域所謂的幾何方法中最好案例。事實(shí)上,卡內(nèi)基梅隆大學(xué)的機(jī)器人研究所將研究生水平的計(jì)算機(jī)視覺(jué)課程分成了一個(gè)基于學(xué)習(xí)的視覺(jué)方法和一個(gè)單獨(dú)的基于幾何的視覺(jué)方法的課程。

1.運(yùn)動(dòng)恢復(fù)結(jié)構(gòu) vs 視覺(jué) SLAM

運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)和 SLAM 所解決的問(wèn)題非常相似,但 SfM 傳統(tǒng)上是以離線形式進(jìn)行的,而 SLAM 則已經(jīng)慢慢走向了低功耗/實(shí)時(shí)/單 RGB 相機(jī)的運(yùn)行模式。今天許多運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)方面的專家都在為世界上一些最大的科技公司,幫助打造更好的地圖。如果沒(méi)有關(guān)于多視圖幾何、SfM 和 SLAM 的豐富知識(shí),像谷歌地圖這種成功的地圖產(chǎn)品根本就不可能出現(xiàn)。典型的 SfM 問(wèn)題遵循:給定一個(gè)單個(gè)室外結(jié)構(gòu)(如大劇場(chǎng)/大體育館)的大型照片集合,構(gòu)建該結(jié)構(gòu)的 3D 模型并確定每個(gè)相機(jī)的姿勢(shì)。這個(gè)照片集合以離線形式處理,而且大型結(jié)構(gòu)重建所需時(shí)間從幾小時(shí)到幾天不等。

這里給出一些流行的 SfM 相關(guān)的軟件庫(kù):

Bundler:一個(gè)開(kāi)源的運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)工具包

Libceres:一個(gè)非線性最小二乘極小化工具(對(duì)束調(diào)整(bundle adjustment)問(wèn)題很有用)

Andrew Zisserman 的多視圖幾何 MATLAB 函數(shù)

2.視覺(jué) SLAM vs 自動(dòng)駕駛

研討會(huì)的組織者之一 Andrew Davison 表示,盡管自動(dòng)駕駛汽車是 SLAM 最重要的應(yīng)用之一,但用于自動(dòng)化載具的 SLAM 應(yīng)該有其自己的研究軌道。(而且正如我們所見(jiàn),研討會(huì)的展示者中沒(méi)有一個(gè)談到了自動(dòng)駕駛汽車。)在接下來(lái)的許多年里,獨(dú)立于任何一個(gè)圣杯級(jí)的應(yīng)用而繼續(xù)在研究的角度上研究 SLAM 是有意義的。盡管在自動(dòng)化載具方面存在著太多的系統(tǒng)級(jí)細(xì)節(jié)和技巧,但研究級(jí)的 SLAM 系統(tǒng)所需的不過(guò)是一個(gè)網(wǎng)絡(luò)攝像頭、算法知識(shí)和一點(diǎn)辛勞而已。視覺(jué) SLAM 作為一個(gè)研究課題對(duì)數(shù)以千計(jì)的博士生的早期階段要友好得多,他們將首先需要好幾年的使用 SLAM 的實(shí)驗(yàn)室經(jīng)驗(yàn),然后才能開(kāi)始考慮無(wú)人駕駛汽車等昂貴的機(jī)器人平臺(tái)。

第二部分:實(shí)時(shí) SLAM 的未來(lái)

現(xiàn)在是時(shí)候正式總結(jié)和評(píng)論實(shí)時(shí) SLAM 的未來(lái)研討會(huì)上的演講了。Andrew Davison 以一個(gè)名叫基于視覺(jué)的 SALM 的十五年的精彩歷史概述開(kāi)篇,他的幻燈片中還有一個(gè)介紹機(jī)器人學(xué)課程的好內(nèi)容。

你也許不知道 Andrew 是誰(shuí),他是倫敦帝國(guó)學(xué)院獨(dú)一無(wú)二的 Andrew Davison 教授。他最知名的成就是其 2003 年的 MonoSLAM 系統(tǒng),他是第一個(gè)展示如何在單個(gè)攝像頭上構(gòu)建 SLAM 系統(tǒng)的人,而那時(shí)候其他所有人都還認(rèn)為打造 SLAM 系統(tǒng)需要一個(gè)立體的雙目攝像頭套件。最近,他的研究成果已經(jīng)對(duì)戴森(Dyson)等公司的發(fā)展軌跡和他們的機(jī)器人系統(tǒng)的能力產(chǎn)生了影響(如全新的 Dyson360)。

我還記得 Davidson 教授曾在 2007 年的 BMVC(英國(guó)機(jī)器視覺(jué)大會(huì))上給出了一個(gè)視覺(jué) SLAM 教程。讓人驚訝的是,和主要的視覺(jué)大會(huì)上其它機(jī)器學(xué)習(xí)技術(shù)的紛繁成果相比,SLAM 的變化真是非常之少。過(guò)去八年里,對(duì)象識(shí)別已經(jīng)經(jīng)歷了兩三次小型變革,而今天的 SLAM 系統(tǒng)和其八年前的樣子看起來(lái)并沒(méi)有多大不同。了解 SLAM 的進(jìn)展的最好方法是看最成功和最讓人難忘的系統(tǒng)。在 Davidson 的研討會(huì)介紹演講中,他討論了一些過(guò)去 10-15 年里科研界所打造的典范系統(tǒng):

MonoSLAM

PTAM

FAB-MAP

DTAM

KinectFusion

1.Davison vs Horn:機(jī)器人視覺(jué)的下一篇章

Davison 還提到他正在寫(xiě)一本關(guān)于機(jī)器人視覺(jué)的新書(shū),這對(duì)計(jì)算機(jī)視覺(jué)、機(jī)器人和人工智能領(lǐng)域的研究者來(lái)說(shuō)應(yīng)該是一個(gè)激動(dòng)人心的好消息。上一本機(jī)器人視覺(jué)的書(shū)是由 B.K. Horn 寫(xiě)的(出版于 1986 年),現(xiàn)在也到該更新的時(shí)候了。

盡管我很樂(lè)意閱讀一本重在機(jī)器人視覺(jué)原理的巨著,但我個(gè)人希望該書(shū)關(guān)注的是機(jī)器人視覺(jué)的實(shí)用算法,就像 Hartley 和 Zissermann 的杰作《多視圖幾何》或 Thrun、Burgard 和 Fox 所著的《概率機(jī)器人學(xué)》那樣。這本關(guān)于視覺(jué) SLAM 問(wèn)題的書(shū)籍將會(huì)受到所有專注視覺(jué)研究者歡迎。

演講一:Christian Kerl 談 SLAM 中的連續(xù)軌跡

第一個(gè)演講來(lái)自 Christian Kerl,他提出了一種用于估計(jì)連續(xù)時(shí)間軌跡的密集跟蹤方法。其關(guān)鍵觀察結(jié)果發(fā)現(xiàn):大部分 SLAM 系統(tǒng)都在離散數(shù)目的時(shí)間步驟上估計(jì)攝像頭的位置(要么是相隔幾秒的關(guān)鍵幀,要么是相隔大約 1/25 秒的各個(gè)幀。

Kerl 的大部分演講都集中于解決卷簾式快門相機(jī)的危害,而 Kerl 演示的系統(tǒng)還對(duì)建模給予謹(jǐn)慎的關(guān)注并消除了這些卷簾式快門的不利影響。

演講二:Jakob Engel 談半密集直接 SLAM(Semi-Dense Direct SLAM)

LSD-SLAM (大規(guī)模直接單眼 SLAM)在2014 ECCV 上公開(kāi),也是我現(xiàn)在最喜歡的 SLAM 系統(tǒng)之一!Jakob Engel 在那里展示了他的系統(tǒng)并向觀眾展示了當(dāng)時(shí)最炫酷的一些 SLAM 可視化。對(duì) SLAM 研究者來(lái)說(shuō),LSD-SLAM 是一個(gè)非常重要的系統(tǒng),因?yàn)樗皇褂眠吔腔蚱渌魏伪镜靥匦浴?/p>

通過(guò)使用一種帶有穩(wěn)健的 Huber 損失的由粗到細(xì)的算法,直接跟蹤可由圖像到圖像對(duì)準(zhǔn)完成。這和那些基于特征的系統(tǒng)非常不同。深度估計(jì)使用了逆深度參數(shù)化(和許多其它系統(tǒng)一樣)并使用了大量或相對(duì)小的基準(zhǔn)圖像對(duì)。該算法并不依賴于圖像特征,而是靠有效地執(zhí)行紋理跟蹤。

全局映射是通過(guò)創(chuàng)建和解決姿態(tài)圖形的束調(diào)整優(yōu)化問(wèn)題而執(zhí)行的,而且這所有都是實(shí)時(shí)工作的。這個(gè)方法是半密集的,因?yàn)樗鼉H估計(jì)靠近圖像邊界的像素深度。LSD-SLAM 輸出比傳統(tǒng)的特征更密集,但并不如 Kinect 類型的 RGBD SLAM 那樣完全密集。

Engel 概述了原來(lái)的 LSD-SLAM 系統(tǒng)以及一些新成果,將它們最初的系統(tǒng)擴(kuò)展成更有創(chuàng)造性的應(yīng)用并實(shí)現(xiàn)了更有趣的部署。

全方位 LSD-SLAM是 LSD-SLAM 的一種延伸,因觀察到針孔模型不能用于大視場(chǎng)的觀測(cè)而被創(chuàng)造出來(lái)。這項(xiàng)成果提出于 IROS 2015(2015 年智能機(jī)器人和系統(tǒng)國(guó)際大會(huì))(Caruso 是第一作者),能用于大視場(chǎng)(理想情況下可超過(guò) 180 度)。Engel 的演講很清楚地表示,你可以拿著相機(jī)以芭蕾舞般的動(dòng)作極限旋轉(zhuǎn)在你的辦公室內(nèi)走來(lái)走去。這是窄視場(chǎng) SLAM 最糟糕的應(yīng)用場(chǎng)景之一,但卻在 Omni LSD-SLAM 中效果良好。

立體 LSD-SLAM是 LSD-SLAM 的一種用于雙眼攝像頭套件的延伸。這有助于獲得沒(méi)有限制的規(guī)模,而且其初始化是瞬時(shí)的,強(qiáng)烈旋轉(zhuǎn)也不存在問(wèn)題。盡管從學(xué)術(shù)的角度看,單眼 SLAM 是很激動(dòng)人心,但如果你的機(jī)器人是一輛 30,000 美元的車或 10,000 美元的無(wú)人機(jī)原型,你應(yīng)該有足夠的理由使用一套帶有兩個(gè)乃至更多攝像頭的套件。Stereo LSD-SLAM 在 SLAM 基準(zhǔn)上表現(xiàn)出了相當(dāng)強(qiáng)的競(jìng)爭(zhēng)力。

Stereo LSD-SLAM 相當(dāng)實(shí)用,能優(yōu)化 SE(3) 中的姿態(tài)圖形,并包含了對(duì)自動(dòng)曝光的校正。自動(dòng)曝光校正的目標(biāo)是讓誤差函數(shù)相對(duì)于仿射光照變化而不變。顏色空間仿射轉(zhuǎn)換的基本參數(shù)是在匹配過(guò)程中估算出來(lái)的,但也被扔掉以估計(jì)圖像到圖像變換中的錯(cuò)誤。Engel 在演講中稱,離群值(outliers)(通常是由過(guò)度曝光的圖像像素造成的)往往會(huì)帶來(lái)問(wèn)題,需要很仔細(xì)才能處理它們的影響。

在他后面的演示中,Engel 讓我們一窺了關(guān)于立體和慣性傳感器的整合新研究。為了了解詳情,你只能跟蹤 arXiv 上的更新或向 Usenko/Engel 本人了解。在應(yīng)用方面,Engel 的演示中包含了由 LSD-SLAM 驅(qū)動(dòng)的自動(dòng)化四軸無(wú)人機(jī)的更新視頻。其飛行一開(kāi)始是上下運(yùn)動(dòng)的,以獲得對(duì)尺寸的估計(jì),然后又使用了自由空間的三維測(cè)繪(octomap)以估計(jì)自由空間,從而讓該四軸無(wú)人機(jī)可以在空間中為自己導(dǎo)航。

LSD-SLAM 的故事也是基于特征 vs 直接方法的故事,Engel 給了辯論雙方公正的待遇?;谔卣鞯姆椒ū辉O(shè)計(jì)用在 Harris 那樣的邊角之上,而直接方法則是用整個(gè)圖像進(jìn)行對(duì)準(zhǔn)?;谔卣鞯姆椒ǜ欤ń刂?2015 年),但直接方法在并行處理上效果很好。

離群值可以通過(guò)追溯的方法從基于特征的系統(tǒng)中移除,而直接方法在離群值處理上沒(méi)那么靈活。卷簾式快門是直接方法的一個(gè)更大的問(wèn)題,而且使用全局快門或卷簾式快門模型是有意義的?;谔卣鞯姆椒ㄐ枰褂貌煌暾?a target="_blank">信息進(jìn)行決策,而直接方法可以使用更多信息。

基于特征的方法不需要很好的初始化,而直接方法在初始化上需要更巧妙的技巧。對(duì)直接方法的研究只有 4 年,稀疏方法則有 20 多年的歷史了。Engel 樂(lè)觀地認(rèn)為直接方法未來(lái)將上升成為頂級(jí)方法,我也這么想。

在 Engel 演講最后,Davison 問(wèn)到了語(yǔ)義分割方面的問(wèn)題,而 Engel 不知道語(yǔ)義分割是否可以在半密集的接近圖像邊界的數(shù)據(jù)上直接執(zhí)行。但是,我個(gè)人的看法是,有更好的方法可將語(yǔ)義分割應(yīng)用到 LSD 類型的 SLAM 系統(tǒng)上。半密集 SLAM 可以專注于靠近邊界的幾何信息,而對(duì)象識(shí)別可以專注于遠(yuǎn)離這同一邊界的可靠語(yǔ)義,從而有可能創(chuàng)造出一個(gè)混合了幾何和語(yǔ)義的圖像解讀。

演講三:Torsten Sattler 談大規(guī)模定位與地圖構(gòu)建面臨的挑戰(zhàn)

Torsten Sattler 的演講談?wù)摿舜笠?guī)模定位與地圖構(gòu)建。這項(xiàng)工作的目的是在已有的地圖內(nèi)執(zhí)行六個(gè)自由度的定位,尤其是移動(dòng)定位。演講中的一個(gè)關(guān)鍵點(diǎn)是:當(dāng)你使用傳統(tǒng)的基于特征的方法時(shí),存儲(chǔ)你的描述很快就將變得非常昂貴。視覺(jué)詞匯表(記得產(chǎn)品量化嗎?)等技術(shù)可以顯著減少存儲(chǔ)開(kāi)銷,再加上某種程度的巧妙優(yōu)化,描述的存儲(chǔ)將不再成為存儲(chǔ)瓶頸。

Sattler 的演講給出的另一個(gè)重要的關(guān)鍵信息是正確數(shù)據(jù)的數(shù)量實(shí)際上并不是相機(jī)姿態(tài)估計(jì)的很好的置信度測(cè)量。當(dāng)特征點(diǎn)全都集中于圖像的單一一個(gè)部分時(shí),相機(jī)定位可能會(huì)在千里之外!一個(gè)更好的置信度測(cè)量是有效正確數(shù)據(jù)計(jì)數(shù),其可以將正確數(shù)據(jù)所在的區(qū)域作為整體圖像區(qū)域的一個(gè)部分來(lái)進(jìn)行審查。你真正希望得到的是整體圖像上的特征匹配——如果信息散布在整個(gè)圖像上,你能得到更好的姿態(tài)估計(jì)。

Sattler 對(duì)未來(lái)實(shí)時(shí) SLAM 的演講是這樣的:我們應(yīng)該關(guān)注緊湊型的地圖表征,我們應(yīng)該對(duì)相機(jī)姿態(tài)估計(jì)置信度有更好的理解(如樹(shù)上權(quán)重下降的特征),我們應(yīng)該在更有挑戰(zhàn)性的場(chǎng)景中研發(fā)(如帶有平面結(jié)構(gòu)的世界和在白天的地圖上的夜間定位)。

演講四:Mur-Artal 談基于特征的方法 vs 直接方法

ORB-SLAM 的創(chuàng)造者 Mur-Artal 的演講內(nèi)容全部圍繞著 SLAM 領(lǐng)域內(nèi)基于特征的方法 vs 直接方法的爭(zhēng)論,而他顯然站在基于特征的方法一邊。ORB-SLAM 可通過(guò)一個(gè)開(kāi)源的 SLAM 軟件包獲取,而且它很難被擊敗。在他對(duì) ORB-SLAM vs PTAM 的評(píng)價(jià)中,似乎 PTAM 實(shí)際上常常失?。ㄖ辽僭?TUM RGB-D 基準(zhǔn)上)。LSD-SLAM 在 TUM RGB-D 基準(zhǔn)上的錯(cuò)誤通常遠(yuǎn)高于預(yù)期。

演講五:Tango 項(xiàng)目和用于圖像到圖像限制的視覺(jué)環(huán)路閉合

簡(jiǎn)單來(lái)說(shuō),谷歌的 Tango 項(xiàng)目是世界上第一個(gè)商業(yè)化 SLAM 的嘗試。來(lái)自 Google Zurich 的 Simon Lynen(之前屬于 ETH Zurich)帶著一個(gè) Tango 現(xiàn)場(chǎng)演示(在一臺(tái)平板電腦上)來(lái)到了研討會(huì),并展示了 Tango 世界的新內(nèi)容。你可能不知道,谷歌希望將 SLAM 能力集成到下一代安卓設(shè)備中。

Tango 項(xiàng)目展示討論了一種通過(guò)在圖像到圖像匹配矩陣中尋找特定的模式以進(jìn)行環(huán)路閉合的新方法。這 個(gè)方法是來(lái)自沒(méi)有固定位置的位置識(shí)別成果。他們也做帶有基于視覺(jué)的環(huán)路閉合的在線束調(diào)整。

這種圖像到圖像矩陣揭示一種尋找環(huán)路閉合的新方法??稍谠?YouTube 視頻中查看工作中的算法。

Tango 項(xiàng)目的人也在研究將谷歌多個(gè)眾包地圖結(jié)合起來(lái),其目標(biāo)是將由不同的人使用配置有 Tango 的設(shè)備創(chuàng)造的多個(gè)迷你地圖結(jié)合起來(lái)。

Simon 展示了一個(gè)山地自行車軌跡跟蹤的視頻,這在實(shí)踐中實(shí)際上是相當(dāng)困難的。其中的想法是使用一個(gè) Tango 設(shè)備跟蹤一輛山地自行車,并創(chuàng)建一份地圖,然后后續(xù)的目標(biāo)是讓另外一個(gè)人沿著這條軌跡走。這個(gè)目前只是半有效狀態(tài)——當(dāng)在地圖構(gòu)建和跟蹤步驟之前有幾個(gè)小時(shí)時(shí)間時(shí)有效,但過(guò)了幾周、幾個(gè)月就沒(méi)效果了。

在 Tango 相關(guān)的討論中,Richard Newcombe 指出 Tango 項(xiàng)目所使用的 “特征” 在更深度地理解環(huán)境上還是相當(dāng)落后的,而且看起來(lái)類似 Tango 項(xiàng)目的方法無(wú)法在室外場(chǎng)景中起作用——室外場(chǎng)景有非剛性大量光照變化等。所以我們有望見(jiàn)到為室外環(huán)境設(shè)計(jì)的不同系統(tǒng)嗎?Tango 項(xiàng)目將成為一個(gè)室內(nèi)地圖構(gòu)建設(shè)備嗎?

演講六:ElasticFusion 是沒(méi)有姿態(tài)圖形的密集型 SLAM

ElasticFusion 是一種需要 Kinect 這樣的 RGBD 傳感器的密集型 SLAM 技術(shù)。2-3 分鐘就能獲得單個(gè)房間的高質(zhì)量 3D 掃描,這真是相當(dāng)酷。許多 SLAM 系統(tǒng)的場(chǎng)景背后都使用了姿態(tài)圖形,這種技術(shù)有一種不同的(以地圖為中心)方法。該方法專注于構(gòu)建地圖,但其訣竅是其構(gòu)建的地圖可以變形,也因此得名 ElasticFusion(彈性融合)。其中算法融合的部分是向 KinectFusion 致敬——KinectFusion 是第一個(gè)高質(zhì)量的基于 Kinect 的重建方式。Surfels 也被用作底層的基元。

恢復(fù)光源:我們一窺了來(lái)自倫敦帝國(guó)學(xué)院/戴森機(jī)器人實(shí)驗(yàn)室的尚未發(fā)表的新研究成果。其中的想法是通過(guò)探測(cè)光源方向和探測(cè)鏡面反射,你可以提升 3D 重建的結(jié)果。關(guān)于恢復(fù)光源位置的炫酷視頻顯示其最多能處理 4 個(gè)獨(dú)立光源。

演講七:Richard Newcombe 的 DynamicFusion

Richard Newcombe(他最近成立的公司被 Oculus 收購(gòu))是最后一位展示者。Richard Newcombe 是 DTAM、KinectFusion 和 DynamicFusion 背后的人,見(jiàn)到他真是非常酷;他目前從事虛擬現(xiàn)實(shí)領(lǐng)域的研發(fā)。

2.研討會(huì)演示

在演示會(huì)議期間(在研討會(huì)中間舉行),許多展示者展示了他們的 SLAM 系統(tǒng)工作中的樣子。這些系統(tǒng)中許多都是以開(kāi)源軟件包的形式提供的,所以如果你對(duì)實(shí)時(shí) SLAM 感興趣,可以嘗試下載這些代碼。但是,最亮眼的演示是 Andrew Davison 展柜上他的來(lái)自 2004 年的 MonoSLAM 演示。

Andrew 不得不恢復(fù)了已有 15 年歲月的計(jì)算機(jī)(運(yùn)行的是 Redhat Linux)來(lái)展示他原來(lái)的系統(tǒng),運(yùn)行在原來(lái)的硬件上。如果計(jì)算機(jī)視覺(jué)社區(qū)將決定舉辦一場(chǎng)復(fù)古視覺(jué)的演示會(huì)議,那我馬上就將會(huì)提名 Andrew 應(yīng)得最佳論文獎(jiǎng)。

看著 SLAM 系統(tǒng)專家揮動(dòng)自己的 USB 攝像頭真是一件有趣的事——他們?cè)谡故舅麄兊南到y(tǒng)圍繞他們的筆記本電腦構(gòu)建周圍桌子大小區(qū)域的 3D 地圖。如果你仔細(xì)看了這些專家移動(dòng)攝像頭的方式(即平穩(wěn)的圓圈運(yùn)動(dòng)),你幾乎就能看出一個(gè)人在 SLAM 領(lǐng)域工作了多長(zhǎng)時(shí)間。當(dāng)一位非專家級(jí)的人拿著攝像頭時(shí),跟蹤失敗的概率明顯更高。

我有幸在演示會(huì)議期間和 Andrew 進(jìn)行了交談,我很好奇這一系列的成果(過(guò)去 15 年中)中哪一個(gè)最讓他感到驚訝。他的回答是 PTAM 最讓他吃驚,因?yàn)槠浔砻髁藢?shí)時(shí)束調(diào)整執(zhí)行的方式。PTAM 系統(tǒng)本質(zhì)上是 MonoSLAM++ 系統(tǒng),但因?yàn)椴捎昧艘环N重量級(jí)算法(束調(diào)整)而顯著提高了跟蹤效果并做到了實(shí)時(shí)——在 2000 年早期 Andrew 還認(rèn)為“實(shí)時(shí)”是不可能辦到的。

第三部分:深度學(xué)習(xí) vs SLAM

SLAM 小組討論真是樂(lè)趣無(wú)窮。在我們進(jìn)入重要的深度學(xué)習(xí) vs SLAM討論之前,我應(yīng)該說(shuō)明每一位研討會(huì)展示者都同意:語(yǔ)義對(duì)構(gòu)建更大更好的 SLAM 系統(tǒng)是必需的。關(guān)于未來(lái)的方向,這里有很多有趣的小對(duì)話。在爭(zhēng)論中,Marc Pollefeys(一位知名的 SfM 和多視角幾何研究者)提醒所有人,機(jī)器人是 SLAM 的一個(gè)殺手級(jí)應(yīng)用,并建議我們保持對(duì)大獎(jiǎng)的關(guān)注。

這令人非常驚訝,因?yàn)?SLAM 傳統(tǒng)上是適用于機(jī)器人問(wèn)題的,但過(guò)去幾十年機(jī)器人并沒(méi)有什么成功(谷歌機(jī)器人?),導(dǎo)致 SLAM 的關(guān)注重點(diǎn)從機(jī)器人轉(zhuǎn)移到了大規(guī)模地圖構(gòu)建(包括谷歌地圖)和增強(qiáng)現(xiàn)實(shí)上。研討會(huì)上沒(méi)人談?wù)撨^(guò)機(jī)器人。

1.將語(yǔ)義信息集成到 SLAM 中

人們對(duì)將語(yǔ)義整合到今天最出色的 SLAM 系統(tǒng)中有很大興趣。當(dāng)涉及語(yǔ)義時(shí), SLAM 社區(qū)不幸地卡在了視覺(jué)詞袋(bags-of-visual-words)的世界里,而在如何將語(yǔ)義信息整合進(jìn)他們的系統(tǒng)上沒(méi)有什么新想法。在語(yǔ)義一端,我們現(xiàn)在已經(jīng)看到 CVPR/ICCV/ECCV 上冒出了很多實(shí)時(shí)語(yǔ)義分割演示(基于卷積神經(jīng)網(wǎng)絡(luò));在我看來(lái),SLAM 需要深度學(xué)習(xí),而深度學(xué)習(xí)也一樣需要 SLAM。

2.端到端學(xué)習(xí)會(huì)主宰 SLAM 嗎?

在 SLAM 研討會(huì)小組討論結(jié)束時(shí),Zeeshan Zia 博士提出了一個(gè)震驚所有人的問(wèn)題,并引發(fā)了一場(chǎng)充滿能量的討論,令人難忘。你應(yīng)該看看小組成員們臉上的表情。那就像是將一個(gè)深度學(xué)習(xí)的火球投向一群幾何學(xué)家。他們的面部表情表達(dá)出了他們的困惑、憤怒和厭惡。他們想:你怎么敢質(zhì)疑我們?正是在這些稍縱即逝的時(shí)刻,我們才能真正體會(huì)到大會(huì)的體驗(yàn)。Zia 的問(wèn)題基本上是:在構(gòu)建今天的 SLAM 系統(tǒng)時(shí),端到端學(xué)習(xí)很快就將取代大部分人工勞動(dòng)嗎?

Zia 的問(wèn)題非常重要,因?yàn)槎说蕉说目捎?xùn)練系統(tǒng)已經(jīng)慢慢進(jìn)入到了很多高級(jí)的計(jì)算機(jī)問(wèn)題中,相信 SLAM 會(huì)是一個(gè)例外是沒(méi)有道理的。有好幾位展示者都指出當(dāng)前的 SLAM 系統(tǒng)過(guò)于依賴幾何,以至于讓完全基于深度學(xué)習(xí)的 SLAM 系統(tǒng)看起來(lái)不合理了——我們應(yīng)該使用學(xué)習(xí)技術(shù)得到更好的點(diǎn)描述,而不要管幾何。你可以使用深度學(xué)習(xí)做一個(gè)計(jì)算器,并不意味你應(yīng)該這么做。

盡管許多小組討論發(fā)言人都使用了有些肯定不行回應(yīng),但讓人驚訝的是,卻是 Newcombe 聲援了深度學(xué)習(xí)和 SLAM 聯(lián)姻的可能。

3.Newcombe 的提議:使用 SLAM 助力深度學(xué)習(xí)

盡管 Newcombe 在深度學(xué)習(xí)可能如何幫助 SLAM 上沒(méi)有提供很多證據(jù)或想法,但他卻為 SLAM 如何可能為深度學(xué)習(xí)提供幫助給出了一條清晰的路徑。想想看我們使用大規(guī)模 SLAM 已經(jīng)構(gòu)建出的地圖以及這些系統(tǒng)所提供的對(duì)應(yīng)——這難道不是一個(gè)構(gòu)建能幫助深度學(xué)習(xí)的萬(wàn)億級(jí)圖像到圖像相關(guān)數(shù)據(jù)集的清晰路徑嗎?其基本思路是:今天的 SLAM 系統(tǒng)是大規(guī)模的對(duì)應(yīng)引擎,可以用來(lái)生成大規(guī)模數(shù)據(jù)集,而這正是深度卷積神經(jīng)網(wǎng)絡(luò)所需要的。

第四部分:結(jié)語(yǔ)

這次 ICCV 大會(huì)上主流的工作(重在機(jī)器學(xué)習(xí))和本次實(shí)時(shí) SLAM 研討會(huì)所呈現(xiàn)出現(xiàn)的工作(重在束調(diào)整等幾何方法)之間存在相當(dāng)大的脫節(jié)。主流的計(jì)算機(jī)視覺(jué)社區(qū)在過(guò)去十年內(nèi)已經(jīng)見(jiàn)證了多次小型變革(如:Dalal-Triggs、DPM、ImageNet、ConvNets、R-CNN),而今天的 SLAM 系統(tǒng)和它們八年前的樣子并沒(méi)有很大的不同。Kinect 傳感器可能是 SLAM 領(lǐng)域唯一的最大的徹底變革的技術(shù),但基礎(chǔ)算法仍舊保持著原樣。

今天的 SLAM 系統(tǒng)能幫助機(jī)器在幾何上理解眼前的世界(即在本地坐標(biāo)系中構(gòu)建關(guān)聯(lián)),而今天的深度學(xué)習(xí)系統(tǒng)能幫助機(jī)器進(jìn)行分類推理(即在不同的對(duì)象實(shí)例之上構(gòu)建關(guān)聯(lián))??偟膩?lái)說(shuō),在視覺(jué) SLAM 上,我與 Newcombe 和 Davison 一樣興奮,因?yàn)榛谝曈X(jué)的算法將會(huì)將增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)轉(zhuǎn)變成一個(gè)價(jià)值數(shù)十億美元的產(chǎn)業(yè)。但是,我們不應(yīng)忘記保持對(duì)那個(gè)萬(wàn)億美元市場(chǎng)的關(guān)注,那個(gè)將重新定義 “工作” 的市場(chǎng)——機(jī)器人。機(jī)器人 SLAM 的時(shí)代很快就要到來(lái)了。

SLAM的前世今生

SLAM的前世

我之前從本科到研究生,一直在導(dǎo)航與定位領(lǐng)域?qū)W習(xí),一開(kāi)始偏重于高精度的慣性導(dǎo)航、衛(wèi)星導(dǎo)航、星光制導(dǎo)及其組合導(dǎo)航。出于對(duì)實(shí)現(xiàn)無(wú)源導(dǎo)航的執(zhí)念,我慢慢開(kāi)始研究視覺(jué)導(dǎo)航中的SLAM方向,并與傳統(tǒng)的慣性器件做組合,實(shí)現(xiàn)獨(dú)立設(shè)備的自主導(dǎo)航定位。

定位、定向、測(cè)速、授時(shí)是人們惆悵千年都未能完全解決的問(wèn)題,最早的時(shí)候,古人只能靠夜觀天象和司南來(lái)做簡(jiǎn)單的定向。直至元代,出于對(duì)定位的需求,才華橫溢的中國(guó)人發(fā)明了令人嘆為觀止的牽星術(shù),用牽星板測(cè)量星星實(shí)現(xiàn)緯度估計(jì)。

1964年美國(guó)投入使用GPS,突然就打破了大家的游戲規(guī)則。軍用的P碼可以達(dá)到1-2米級(jí)精度,開(kāi)放給大眾使用的CA碼也能夠?qū)崿F(xiàn)5-10米級(jí)的精度。

后來(lái)大家一方面為了突破P碼封鎖,另一方面為了追求更高的定位定姿精度,想出了很多十分具有創(chuàng)意的想法來(lái)挺升GPS的精度。利用RTK的實(shí)時(shí)相位差分技術(shù),甚至能實(shí)現(xiàn)厘米的定位精度,基本上解決了室外的定位和定姿問(wèn)題。

但是室內(nèi)這個(gè)問(wèn)題就難辦多了,為了實(shí)現(xiàn)室內(nèi)的定位定姿,一大批技術(shù)不斷涌現(xiàn),其中,SLAM技術(shù)逐漸脫穎而出。SLAM是一個(gè)十分交叉學(xué)科的領(lǐng)域,我先從它的傳感器講起。

離不開(kāi)這兩類傳感器

目前用在SLAM上的Sensor主要分兩大類,激光雷達(dá)和攝像頭。

這里面列舉了一些常見(jiàn)的雷達(dá)和各種深度攝像頭。激光雷達(dá)有單線多線之分,角分辨率及精度也各有千秋。SICK、velodyne、Hokuyo以及國(guó)內(nèi)的北醒光學(xué)、Slamtech是比較有名的激光雷達(dá)廠商。他們可以作為SLAM的一種輸入形式。

這個(gè)小視頻里展示的就是一種簡(jiǎn)單的2D SLAM。

這個(gè)小視頻是賓大的教授kumar做的特別有名的一個(gè)demo,是在無(wú)人機(jī)上利用二維激光雷達(dá)做的SLAM。

而VSLAM則主要用攝像頭來(lái)實(shí)現(xiàn),攝像頭品種繁多,主要分為單目、雙目、單目結(jié)構(gòu)光、雙目結(jié)構(gòu)光、ToF幾大類。他們的核心都是獲取RGB和depth map(深度信息)。簡(jiǎn)單的單目和雙目(Zed、leapmotion)我這里不多做解釋,我主要解釋一下結(jié)構(gòu)光和ToF。

最近流行的結(jié)構(gòu)光和TOF

結(jié)構(gòu)光原理的深度攝像機(jī)通常具有激光投射器、光學(xué)衍射元件(DOE)、紅外攝像頭三大核心器件。

可以看到primesense的doe是由兩部分組成的,一個(gè)是擴(kuò)散片,一個(gè)是衍射片。先通過(guò)擴(kuò)散成一個(gè)區(qū)域的隨機(jī)散斑,然后復(fù)制成九份,投射到了被攝物體上。根據(jù)紅外攝像頭捕捉到的紅外散斑,PS1080這個(gè)芯片就可以快速解算出各個(gè)點(diǎn)的深度信息。

這兒還有兩款結(jié)構(gòu)光原理的攝像頭。

第一頁(yè)它是由兩幅十分規(guī)律的散斑組成,最后同時(shí)被紅外相機(jī)獲得,精度相對(duì)較高。但據(jù)說(shuō)DOE成本也比較高。

還有一種比較獨(dú)特的方案(最后一幅圖),它采用mems微鏡的方式,類似DLP投影儀,將激光器進(jìn)行調(diào)頻,通過(guò)微鏡反射出去,并快速改變微鏡姿態(tài),進(jìn)行行列掃描,實(shí)現(xiàn)結(jié)構(gòu)光的投射。(產(chǎn)自ST,ST經(jīng)常做出一些比較炫的黑科技)。

ToF(time of flight)也是一種很有前景的深度獲取方法。

傳感器發(fā)出經(jīng)調(diào)制的近紅外光,遇物體后反射,傳感器通過(guò)計(jì)算光線發(fā)射和反射時(shí)間差或相位差,來(lái)?yè)Q算被拍攝景物的距離,以產(chǎn)生深度信息。類似于雷達(dá),或者想象一下蝙蝠,softkinetic的DS325采用的就是ToF方案(TI設(shè)計(jì)的),但是它的接收器微觀結(jié)構(gòu)比較特殊,有2個(gè)或者更多快門,測(cè)ps級(jí)別的時(shí)間差,但它的單位像素尺寸通常在100um的尺寸,所以目前分辨率不高。以后也會(huì)有不錯(cuò)的前景,但我覺(jué)得并不是顛覆性的。

好,那在有了深度圖之后呢,SLAM算法就開(kāi)始工作了,由于Sensor和需求的不同,SLAM的呈現(xiàn)形式略有差異。大致可以分為激光SLAM(也分2D和3D)和視覺(jué)SLAM(也分Sparse、semiDense、Dense)兩類,但其主要思路大同小異。

SLAM算法實(shí)現(xiàn)的4要素

SLAM算法在實(shí)現(xiàn)的時(shí)候主要要考慮以下4個(gè)方面吧:

1. 地圖表示問(wèn)題,比如dense和sparse都是它的不同表達(dá)方式,這個(gè)需要根據(jù)實(shí)際場(chǎng)景需求去抉擇

2. 信息感知問(wèn)題,需要考慮如何全面的感知這個(gè)環(huán)境,RGBD攝像頭FOV通常比較小,但激光雷達(dá)比較大

3. 數(shù)據(jù)關(guān)聯(lián)問(wèn)題,不同的sensor的數(shù)據(jù)類型、時(shí)間戳、坐標(biāo)系表達(dá)方式各有不同,需要統(tǒng)一處理

4. 定位與構(gòu)圖問(wèn)題,就是指怎么實(shí)現(xiàn)位姿估計(jì)和建模,這里面涉及到很多數(shù)學(xué)問(wèn)題,物理模型建立,狀態(tài)估計(jì)和優(yōu)化

其他的還有回環(huán)檢測(cè)問(wèn)題,探索問(wèn)題(exploration),以及綁架問(wèn)題(kidnapping)。

這個(gè)是一個(gè)比較有名的SLAM算法,這個(gè)回環(huán)檢測(cè)就很漂亮。但這個(gè)調(diào)用了cuda,gpu對(duì)運(yùn)算能力要求挺高,效果看起來(lái)比較炫。

以VSLAM舉個(gè)栗子

我大概講一種比較流行的VSLAM方法框架。

整個(gè)SLAM大概可以分為前端和后端,前端相當(dāng)于VO(視覺(jué)里程計(jì)),研究幀與幀之間變換關(guān)系。首先提取每幀圖像特征點(diǎn),利用相鄰幀圖像,進(jìn)行特征點(diǎn)匹配,然后利用RANSAC去除大噪聲,然后進(jìn)行匹配,得到一個(gè)pose信息(位置和姿態(tài)),同時(shí)可以利用IMU(Inertial measurement unit慣性測(cè)量單元)提供的姿態(tài)信息進(jìn)行濾波融合

后端則主要是對(duì)前端出結(jié)果進(jìn)行優(yōu)化,利用濾波理論(EKF、UKF、PF)、或者優(yōu)化理論TORO、G2O進(jìn)行樹(shù)或者圖的優(yōu)化。最終得到最優(yōu)的位姿估計(jì)。

后端這邊難點(diǎn)比較多,涉及到的數(shù)學(xué)知識(shí)也比較多,總的來(lái)說(shuō)大家已經(jīng)慢慢拋棄傳統(tǒng)的濾波理論走向圖優(yōu)化去了。

因?yàn)榛跒V波的理論,濾波器穩(wěn)度增長(zhǎng)太快,這對(duì)于需要頻繁求逆的EKF(擴(kuò)展卡爾曼濾波器),PF壓力很大。而基于圖的SLAM,通常以keyframe(關(guān)鍵幀)為基礎(chǔ),建立多個(gè)節(jié)點(diǎn)和節(jié)點(diǎn)之間的相對(duì)變換關(guān)系,比如仿射變換矩陣,并不斷地進(jìn)行關(guān)鍵節(jié)點(diǎn)的維護(hù),保證圖的容量,在保證精度的同時(shí),降低了計(jì)算量。

列舉幾個(gè)目前比較有名的SLAM算法:PTAM,MonoSLAM, ORB-SLAM,RGBD-SLAM,RTAB-SLAM,LSD-SLAM。

所以大家如果想學(xué)習(xí)SLAM的話,各個(gè)高校提高的素材是很多的,比如賓大、MIT、ETH、香港科技大學(xué)、帝國(guó)理工等等都有比較好的代表作品,還有一個(gè)比較有前景的就是三維的機(jī)器視覺(jué),普林斯頓大學(xué)的肖劍雄教授結(jié)合SLAM和Deep Learning做一些三維物體的分類和識(shí)別, 實(shí)現(xiàn)一個(gè)對(duì)場(chǎng)景深度理解的機(jī)器人感知引擎。

http://robots.princeton.edu/talks/2016_MIT/RobotPerception.pdf 這是他們的展示。

總的來(lái)說(shuō),SLAM技術(shù)從最早的軍事用途(核潛艇海底定位就有了SLAM的雛形)到今天,已經(jīng)逐步走入人們的視野,掃地機(jī)器人的盛行更是讓它名聲大噪。同時(shí)基于三維視覺(jué)的VSLAM越來(lái)越顯主流。在地面/空中機(jī)器人、VR/AR/MR、汽車/AGV自動(dòng)駕駛等領(lǐng)域,都會(huì)得到深入的發(fā)展,同時(shí)也會(huì)出現(xiàn)越來(lái)越多的細(xì)分市場(chǎng)等待挖掘。

這個(gè)是occipital團(tuán)隊(duì)出的一個(gè)產(chǎn)品,是個(gè)很有意思的應(yīng)用,國(guó)內(nèi)賣4000+,大概一個(gè)月1000出貨量吧(雖然不是很多,但是效果不錯(cuò),pad可玩)虛擬家居、無(wú)人飛行/駕駛、虛擬試衣、3D打印、刑偵現(xiàn)場(chǎng)記錄、沉浸式游戲、增強(qiáng)現(xiàn)實(shí)、商場(chǎng)推送、設(shè)計(jì)輔助、地震救援、工業(yè)流水線、GIS采集等等,都等待著VSLAM技術(shù)一展宏圖

SLAM的今生——還存在著問(wèn)題

多傳感器融合、優(yōu)化數(shù)據(jù)關(guān)聯(lián)與回環(huán)檢測(cè)、與前端異構(gòu)處理器集成、提升魯棒性和重定位精度都是SLAM技術(shù)接下來(lái)的發(fā)展方向,但這些都會(huì)隨著消費(fèi)刺激和產(chǎn)業(yè)鏈的發(fā)展逐步解決。就像手機(jī)中的陀螺儀一樣,在不久的將來(lái),也會(huì)飛入尋常百姓家,改變?nèi)祟惖纳睢?/p>

不過(guò)說(shuō)實(shí)話,SLAM在全面進(jìn)入消費(fèi)級(jí)市場(chǎng)的過(guò)程中,也面對(duì)著一些阻力和難題。比如Sensor精度不高、計(jì)算量大、Sensor應(yīng)用場(chǎng)景不具有普適性等等問(wèn)題。

多傳感器融合、優(yōu)化數(shù)據(jù)關(guān)聯(lián)與回環(huán)檢測(cè)、與前端異構(gòu)處理器集成、提升魯棒性和重定位精度都是SLAM技術(shù)接下來(lái)的發(fā)展方向,但這些都會(huì)隨著消費(fèi)刺激和產(chǎn)業(yè)鏈的發(fā)展逐步解決。就像手機(jī)中的陀螺儀一樣,在不久的將來(lái),也會(huì)飛入尋常百姓家,改變?nèi)祟惖纳睢?/p>

(激光雷達(dá)和攝像頭兩種 SLAM 方式各有什么優(yōu)缺點(diǎn)呢,有沒(méi)有一種綜合的方式互補(bǔ)各自的缺點(diǎn)的呢?)

激光雷達(dá)優(yōu)點(diǎn)是可視范圍廣,但是缺點(diǎn)性價(jià)比低,低成本的雷達(dá)角分辨率不夠高,影響到建模精度。vSLAM的話缺點(diǎn)就是FOV通常不大,50-60degree,這樣高速旋轉(zhuǎn)時(shí)就容易丟,解決方案有的,我們公司就在做vSLAM跟雷達(dá)還有IMU的組合。

(請(qǐng)問(wèn)目前基于視覺(jué)的SLAM的計(jì)算量有多大?嵌入式系統(tǒng)上如果要做到實(shí)時(shí)30fps,是不是只有Nvidia的芯片(支持cuda)才可以?)

第一個(gè)問(wèn)題,雖然基于視覺(jué)的SLAM計(jì)算量相對(duì)較大,但在嵌入式系統(tǒng)上是可以跑起來(lái)的,Sparse的SLAM可以達(dá)到30-50hz(也不需要GPU和Cuda),如果dense的話就比較消耗資源,根據(jù)點(diǎn)云還有三角化密度可調(diào),10-20hz也是沒(méi)有問(wèn)題。

并不一定要用cuda,一些用到cuda和GPU的算法主要是用來(lái)加速SIFT、ICP,以及后期三角化和mesh的過(guò)程,即使不用cuda可以采用其他的特征點(diǎn)提取和匹配策略也是可以的。

最后一個(gè)問(wèn)題

想了解下,您對(duì)機(jī)器人的未來(lái)趨勢(shì)怎么看?

這個(gè)問(wèn)題就比較大了。

機(jī)器人產(chǎn)業(yè)是個(gè)很大的Ecosystem,短時(shí)間來(lái)講,可能產(chǎn)業(yè)鏈不夠完整,消費(fèi)級(jí)市場(chǎng)缺乏爆點(diǎn)爆款。雖然大家都在談?wù)撟鰴C(jī)器人,但是好多公司并沒(méi)有解決用戶痛點(diǎn),也沒(méi)有為機(jī)器人產(chǎn)業(yè)鏈創(chuàng)造什么價(jià)值。

但是大家可以看到, 大批缺乏特色和積淀的機(jī)器人公司正在被淘汰,行業(yè)格局越來(lái)越清晰,分工逐漸完善,一大批細(xì)分市場(chǎng)成長(zhǎng)起來(lái)。

從機(jī)器人的感知部分來(lái)說(shuō),傳感器性能提升、前端處理(目前的sensor前端處理做的太少,給主CPU造成了很大的負(fù)擔(dān))、多傳感器融合是一個(gè)很大的增長(zhǎng)點(diǎn)。

現(xiàn)在人工智能也開(kāi)始揚(yáng)頭,深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)專用的分布式異構(gòu)處理器及其協(xié)處理器成為緊急需求,我個(gè)人很希望國(guó)內(nèi)有公司能把這塊做好。

也有好多創(chuàng)業(yè)公司做底層工藝比如高推重比電機(jī)、高能量密度電池、復(fù)合材料,他們和機(jī)器人產(chǎn)業(yè)的對(duì)接,也會(huì)加速機(jī)器人行業(yè)的發(fā)展。整個(gè)機(jī)器人生態(tài)架構(gòu)會(huì)越來(lái)越清晰,從硬件層到算法層到功能層到SDK 再到應(yīng)用層,每一個(gè)細(xì)分領(lǐng)域都有公司切入,隨著這些產(chǎn)業(yè)節(jié)點(diǎn)的完善,能看到機(jī)器人行業(yè)的前景還是很棒的,相信不久之后就會(huì)迎來(lái)堪比互聯(lián)網(wǎng)的指數(shù)式增長(zhǎng)!

本文由圖像處理知識(shí)庫(kù)整理轉(zhuǎn)載自計(jì)算機(jī)視覺(jué)life僅用于學(xué)術(shù)交流,若侵權(quán)請(qǐng)聯(lián)系刪除

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2545

    文章

    50445

    瀏覽量

    751075
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10804

    瀏覽量

    210845
  • SLAM
    +關(guān)注

    關(guān)注

    23

    文章

    415

    瀏覽量

    31758
  • 激光掃描
    +關(guān)注

    關(guān)注

    0

    文章

    113

    瀏覽量

    11419

原文標(biāo)題:深度好文 | 超全SLAM技術(shù)及應(yīng)用介紹

文章出處:【微信號(hào):gh_f39db674fbfd,微信公眾號(hào):尖刀視】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是SLAM?視覺(jué)SLAM怎么實(shí)現(xiàn)?

    上周的組會(huì)上,我給研一的萌新們講解什么是SLAM,為了能讓他們?cè)跊](méi)有任何基礎(chǔ)的情況下大致聽(tīng)懂,PPT只能多圖少字沒(méi)公式,這里我就把上周的組會(huì)匯報(bào)總結(jié)一下。 這次匯報(bào)的題目我定為“視覺(jué)SLAM:一直在
    的頭像 發(fā)表于 08-21 10:02 ?9789次閱讀
    什么是<b class='flag-5'>SLAM</b>?視覺(jué)<b class='flag-5'>SLAM</b>怎么<b class='flag-5'>實(shí)現(xiàn)</b>?

    SLAM技術(shù)的應(yīng)用及發(fā)展現(xiàn)狀

    應(yīng)用行業(yè)也可分為兩大類,即工業(yè)領(lǐng)域和商業(yè)領(lǐng)域。商業(yè)用途方面,目前應(yīng)用最為成熟的應(yīng)該是掃地機(jī)行業(yè),而掃地機(jī)也算機(jī)器人里最早用到SLAM技術(shù)這一批了,國(guó)內(nèi)的科沃斯、塔米掃地機(jī)、嵐豹掃地機(jī)通過(guò)用SLAM算法
    發(fā)表于 12-06 10:25

    激光SLAM與視覺(jué)SLAM有什么區(qū)別?

    在機(jī)器人運(yùn)動(dòng)控制系統(tǒng)架構(gòu)中,可分為最底層、中間通信層和決策層三大層面,最底層包含了機(jī)器人本身的電機(jī)驅(qū)動(dòng)和控制部分,中間通信層是底層部分和決策層的通信通路,而決策層則是實(shí)現(xiàn)機(jī)器人的定位建圖及導(dǎo)航。在
    發(fā)表于 07-05 06:41

    基于視覺(jué)的slam自動(dòng)駕駛

    基于視覺(jué)的slam自動(dòng)駕駛,這是我們測(cè)試的視頻《基于slam算法的智能機(jī)器人》調(diào)研分析報(bào)告項(xiàng)目背景分析機(jī)器人曾經(jīng)是科幻電影中的形象,可目前已經(jīng)漸漸走入我們的生活。機(jī)器人技術(shù)以包含機(jī)械、電子、自動(dòng)控制
    發(fā)表于 08-09 09:37

    SLAM的相關(guān)知識(shí)點(diǎn)分享

    研究生期間進(jìn)行了基于2D激光雷達(dá)的SLAM的研究,當(dāng)時(shí)主要做了二維激光雷達(dá)的數(shù)據(jù)處理。小弟不才,沒(méi)有入得了SLAM的坑,卻一直謎之向往,如今得以機(jī)會(huì),決定正式邁出第一步,徹底進(jìn)入SLAM的坑!心中
    發(fā)表于 08-30 06:13

    基于SLAM的移動(dòng)機(jī)器人設(shè)計(jì)

    題目:基于SLAM的移動(dòng)機(jī)器人設(shè)計(jì)嵌入式PPT應(yīng)具有的幾個(gè)部分1、有哪些硬件  1)小車  2)STM32F429開(kāi)發(fā)板  3)樹(shù)莓派3b+開(kāi)發(fā)板  44g通信模塊  5)GPS模塊  6
    發(fā)表于 11-08 06:17

    單目視覺(jué)SLAM仿真系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    實(shí)現(xiàn)單目視覺(jué)同時(shí)定位與建圖(SLAM)仿真系統(tǒng),描述其設(shè)計(jì)過(guò)程。該系統(tǒng)工作性能良好,其SLAM算法可擴(kuò)展性強(qiáng),可以精確逼近真實(shí)單目視覺(jué)SLAM
    發(fā)表于 04-15 08:50 ?82次下載

    機(jī)器人SLAM實(shí)現(xiàn)

    針對(duì)復(fù)雜環(huán)境下機(jī)器人的同時(shí)定位與地圖構(gòu)建( SLAM)存在實(shí)時(shí)性與魯棒性下降等問(wèn)題,將一種基于ORB特征點(diǎn)的關(guān)鍵幀閉環(huán)檢測(cè)匹配算法應(yīng)用到定位與地圖構(gòu)建巾。研究并分析了特征點(diǎn)提取與描述符建立、幀間配準(zhǔn)
    發(fā)表于 03-26 10:57 ?6次下載

    高仙SLAM具體的技術(shù)是什么?SLAM2.0有哪些優(yōu)勢(shì)?

    高仙的SLAM2.0技術(shù)體系核心,是基于多傳感器融合+深度學(xué)習(xí)的架構(gòu),即語(yǔ)義SLAM。高仙SLAM2.0技術(shù)方案以語(yǔ)義分析、機(jī)器學(xué)習(xí)為基礎(chǔ),結(jié)合云端實(shí)時(shí)信息處理以及專為多傳感器融合而開(kāi)發(fā)的專業(yè)
    的頭像 發(fā)表于 05-15 16:48 ?8936次閱讀

    激光雷達(dá)SLAM算法有哪些?

    一般將使用單線雷達(dá)建構(gòu)二維地圖的SLAM算法,稱為2D Lidar SLAM。大家熟知的2D Lidar SLAM算法有:gmapping,
    的頭像 發(fā)表于 04-18 10:18 ?1.3w次閱讀
    激光雷達(dá)<b class='flag-5'>SLAM</b><b class='flag-5'>算法</b>有哪些?

    SLAM的原理 手持SLAM的優(yōu)缺點(diǎn)講解

    手持SLAM設(shè)備最大的特點(diǎn)肯定要放到手持這個(gè)動(dòng)作上面,由于SLAM算法的優(yōu)越性,手持可以做到走到哪里測(cè)到哪里。
    發(fā)表于 12-27 10:43 ?4983次閱讀

    有哪些激光雷達(dá)SLAM算法?

    一般將使用單線雷達(dá)建構(gòu)二維地圖的SLAM算法,稱為2D Lidar SLAM。大家熟知的2D Lidar SLAM算法有:gmapping,
    的頭像 發(fā)表于 03-27 11:06 ?2065次閱讀

    視覺(jué)SLAM開(kāi)源方案匯總 視覺(jué)SLAM設(shè)備選型

    SLAM至今已歷經(jīng)三十多年的研究,這里給出經(jīng)典視覺(jué)SLAM框架,這個(gè)框架本身及其包含的算法已經(jīng)基本定型,并且已經(jīng)在許多視覺(jué)程序庫(kù)和機(jī)器人程序庫(kù)中提供。
    發(fā)表于 08-10 14:15 ?962次閱讀
    視覺(jué)<b class='flag-5'>SLAM</b>開(kāi)源方案匯總 視覺(jué)<b class='flag-5'>SLAM</b>設(shè)備選型

    視覺(jué)SLAM是什么?視覺(jué)SLAM的工作原理 視覺(jué)SLAM框架解讀

    近年來(lái),SLAM技術(shù)取得了驚人的發(fā)展,領(lǐng)先一步的激光SLAM已成熟的應(yīng)用于各大場(chǎng)景中,視覺(jué)SLAM雖在落地應(yīng)用上不及激光SLAM,但也是目前研究的一大熱點(diǎn),今天我們就來(lái)詳細(xì)聊聊視覺(jué)
    的頭像 發(fā)表于 09-05 09:31 ?3686次閱讀
    視覺(jué)<b class='flag-5'>SLAM</b>是什么?視覺(jué)<b class='flag-5'>SLAM</b>的工作原理 視覺(jué)<b class='flag-5'>SLAM</b>框架解讀

    什么是SLAM?SLAM算法涉及的4要素

    SLAM技術(shù)可以應(yīng)用在無(wú)人駕駛汽車、無(wú)人機(jī)、機(jī)器人、虛擬現(xiàn)實(shí)等領(lǐng)域中,為這些領(lǐng)域的發(fā)展提供了支持。SLAM技術(shù)的發(fā)展已經(jīng)逐漸從單純的定位和地圖構(gòu)建轉(zhuǎn)向了基于場(chǎng)景理解的功能。
    發(fā)表于 04-04 11:50 ?2131次閱讀