【摘要】3D視覺(jué)定位指的是根據(jù)事先構(gòu)建的3D模型及相關(guān)信息,計(jì)算取得某張圖像在拍攝時(shí)相機(jī)的位置和姿態(tài)。這是3D視覺(jué)的一項(xiàng)十分重要的技術(shù),可以用來(lái)幫助實(shí)現(xiàn)人員定位與導(dǎo)航。本博文將基于2019年CVPR論文From Coarse to Fine: Robust Hierarchical Localization at Large Scale所采用的分級(jí)定位方案對(duì)該技術(shù)進(jìn)行簡(jiǎn)要的介紹?;驹?D.。.
引言
所謂3D視覺(jué)定位指的是根據(jù)事先構(gòu)建的3D模型及相關(guān)信息,計(jì)算取得某張圖像在拍攝時(shí)相機(jī)的位置和姿態(tài)。這是3D視覺(jué)的一項(xiàng)十分重要的技術(shù),可以用來(lái)幫助實(shí)現(xiàn)人員定位與導(dǎo)航。本博文將基于2019年CVPR論文From Coarse to Fine: Robust Hierarchical Localization at Large Scale所采用的分級(jí)定位方案對(duì)該技術(shù)進(jìn)行簡(jiǎn)要的介紹。
基本原理
3D視覺(jué)定位的直接目標(biāo)是計(jì)算當(dāng)前圖像的照相機(jī)位姿,解決該問(wèn)題的直接方案是建立3D點(diǎn)與2D點(diǎn)之間的匹配關(guān)系,通過(guò)二者的匹配關(guān)系估計(jì)相機(jī)位姿,這一問(wèn)題被稱作PnP(Pespective-n-Point)問(wèn)題。求解PnP問(wèn)題的方法有很多,常見(jiàn)的有P3P、EPnP、UPnP等,具體的如何實(shí)現(xiàn)本文不做介紹,讀者可以自行搜索PnP問(wèn)題的相關(guān)理論。而視覺(jué)定位需要解決的一大關(guān)鍵問(wèn)題是如何建立3D點(diǎn)與2D點(diǎn)之間的匹配關(guān)系。對(duì)于這一點(diǎn),論文作者Sarlin提出過(guò)一種分級(jí)定位的方案,以下將詳細(xì)介紹該方案。
分級(jí)定位
分級(jí)定位的框架大約可以分成三步:預(yù)檢索、共視聚類、局部匹配與定位。
預(yù)檢索
預(yù)檢索的意義在于獲取前k張與當(dāng)前圖像最相似的圖像,判斷相似的依據(jù)通常是通過(guò)匹配圖像的全局特征。一般而言,產(chǎn)生全局特征的方法可以依賴于局部特征所組成的詞袋,不過(guò)近些年,一些深度學(xué)習(xí)方案也被引入了進(jìn)來(lái),例如NetVLAD或更加輕量級(jí)的MobileNetVLAD。最終通過(guò)獲取當(dāng)前圖像的全局特征的k個(gè)最近鄰來(lái)獲取預(yù)檢索得到的相近圖集。
共視聚類
然而由于可能產(chǎn)生的錯(cuò)誤匹配,所獲取到的預(yù)檢索圖集并不一定全部都面向同一場(chǎng)景,這時(shí)就需要先將面向不同場(chǎng)景的圖像區(qū)分開(kāi)來(lái),這項(xiàng)技術(shù)就被稱作共視聚類,簡(jiǎn)而言之就是將具有共視關(guān)系的圖像聚成一類。
這一過(guò)程實(shí)際十分簡(jiǎn)單,它是通過(guò)匹配同名點(diǎn)來(lái)獲取的,這些同名點(diǎn)在早先進(jìn)行的3D建模過(guò)程中通過(guò)特征的提取與匹配已經(jīng)建立了對(duì)應(yīng)的關(guān)系。若兩個(gè)圖像中存在穩(wěn)定的同名點(diǎn),則認(rèn)為二者共視,分成一類,否則分成兩類。
局部匹配與定位
一般認(rèn)為圖像數(shù)量較多的類所對(duì)應(yīng)的場(chǎng)景是正確場(chǎng)景的可能性較大。因此從這一場(chǎng)景開(kāi)始,嘗試獲取相機(jī)位姿。獲取的方式主要依賴求解PnP問(wèn)題,因此需要首先構(gòu)建當(dāng)前圖像的2D關(guān)鍵點(diǎn)在3D模型中的坐標(biāo)位置。在尚不知道相機(jī)姿態(tài)前,這一信息的獲取需要首先匹配當(dāng)前圖像和場(chǎng)景內(nèi)的圖像,特別要匹配那些能夠?qū)?yīng)到3D位置的2D特征點(diǎn),若能夠匹配上則確定了當(dāng)前圖像中的2D點(diǎn)和3D點(diǎn)的對(duì)應(yīng)關(guān)系,繼而即可通過(guò)對(duì)PnP問(wèn)題的求解獲取相機(jī)位姿。
總結(jié)
本博文基于當(dāng)前被廣泛采用的分級(jí)視覺(jué)定位方法對(duì)在3D視覺(jué)領(lǐng)域廣泛使用的視覺(jué)定位方法進(jìn)行了簡(jiǎn)要介紹,其主要可以被分為三個(gè)步驟,即預(yù)檢索、共視聚類、局部匹配與定位,最終通過(guò)求解PnP問(wèn)題來(lái)獲取當(dāng)前圖像的位姿,從而確定拍攝者的位置。筆者后續(xù)將繼續(xù)保持對(duì)3D視覺(jué)領(lǐng)域的研究和關(guān)注,并繼續(xù)輸出相關(guān)博文。
編輯:lyn
-
定位
+關(guān)注
關(guān)注
5文章
1288瀏覽量
35312 -
3D模型
+關(guān)注
關(guān)注
1文章
71瀏覽量
15673 -
3D視覺(jué)
+關(guān)注
關(guān)注
4文章
428瀏覽量
27471
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論