來源:3D視覺工坊
0. 這篇文章干了啥?
視覺定位旨在估計(jì)在已知環(huán)境中捕獲的給定圖像的旋轉(zhuǎn)和位置,大致可以分為絕對姿態(tài)回歸(APR),場景坐標(biāo)回歸(SCR)和分層方法(HM)。APR將地圖嵌入到高級姿態(tài)特征中,并使用多層感知器(MLP)預(yù)測6自由度姿態(tài);它們對于大規(guī)模場景來說速度很快,但由于隱式3D信息表示,精度有限。與APR不同,SCR對像素進(jìn)行3D坐標(biāo)回歸以直接構(gòu)建2D-3D匹配,并使用PnP和RANSAC估計(jì)姿態(tài)。盡管在室內(nèi)環(huán)境中具有很高的精度,但SCR無法擴(kuò)展到室外大規(guī)模場景。HMs不使用端到端的2D-3D匹配預(yù)測,而是采用全局特征在數(shù)據(jù)庫中搜索參考圖像,然后建立提取的查詢關(guān)鍵點(diǎn)和參考圖像之間的對應(yīng)關(guān)系;這些2D-2D匹配被提升為2D-3D匹配,并用于使用PnP和RANSAC的絕對姿態(tài)估計(jì),就像SCR一樣。由于精度高和靈活性強(qiáng),HMs最近被廣泛使用。然而,2D關(guān)鍵點(diǎn)存儲的巨大內(nèi)存成本損害了它們在實(shí)際應(yīng)用中的效率。
這篇文章旨在找到一種高效準(zhǔn)確的大規(guī)模視覺定位任務(wù)的解決方案。為了實(shí)現(xiàn)這一目標(biāo),作者采用了一種混合地圖的方法,僅通過渲染有用的稀疏像素來實(shí)現(xiàn)NeRFs的高效定位?;旌系貓D由兩部分組成:顯式幾何地圖(EGM)和隱式學(xué)習(xí)地圖(ILM)。EGM包含稀疏的3D點(diǎn)以及它們在參考圖像上的2D觀測。ILM是由NeRFs表示的隱式地圖。在測試時,參考圖像的2D觀測提供先驗(yàn)的稀疏像素位置和相機(jī)姿態(tài)作為NeRFs的輸入。NeRFs返回每個稀疏像素的RGB值。為了提高精度,為每個像素渲染一個具有恒定大小的補(bǔ)丁。這些渲染的補(bǔ)丁進(jìn)一步用于使用PnP和RANSAC進(jìn)行絕對姿態(tài)估計(jì)的2D-3D匹配。
2. 摘要
視覺重定位是自動駕駛、機(jī)器人技術(shù)和虛擬/增強(qiáng)現(xiàn)實(shí)的關(guān)鍵技術(shù)。經(jīng)過數(shù)十年的探索,絕對姿態(tài)回歸(APR)、場景坐標(biāo)回歸(SCR)和分層方法(HMs)已成為最流行的框架。然而,盡管 APR 和 SCR 具有較高的效率,但在大規(guī)模室外場景中精度有限;HMs 具有較高的精度,但需要存儲大量用于匹配的 2D 描述符,導(dǎo)致效率低下。在本文中,我們提出了一種高效且準(zhǔn)確的框架,稱為 VRS-NeRF,用于稀疏神經(jīng)輻射場的視覺重定位。具體來說,我們引入了顯式幾何地圖(EGM)用于 3D 地圖表示和隱式學(xué)習(xí)地圖(ILM)用于稀疏補(bǔ)丁渲染。在這個定位過程中,EGP 提供了稀疏 2D 點(diǎn)的先驗(yàn)信息,ILM 利用這些稀疏點(diǎn)使用稀疏 NeRF 渲染補(bǔ)丁進(jìn)行匹配。這使我們能夠丟棄大量的 2D 描述符以減小地圖大小。此外,僅為有用的點(diǎn)渲染補(bǔ)丁,而不是整個圖像中的所有像素,可以顯著減少渲染時間。這個框架繼承了 HMs 的精度,但丟棄了它們的低效率。對 7Scenes、CambridgeLandmarks 和 Aachen 數(shù)據(jù)集的實(shí)驗(yàn)表明,我們的方法比 APR 和 SCR 具有更好的準(zhǔn)確性,并且與 HMs 的性能相近,但效率更高。
3. 效果展示
亞琛數(shù)據(jù)集上場景劃分的可視化。場景的統(tǒng)一劃分導(dǎo)致了不平衡的片段(左),在參考姿勢上的聚類給出了更平衡的結(jié)果(右)。
渲染圖像的可視化。可視化了來自7 scenes(上圖)、Cambridge landmarks(中圖)和Aachen(下圖)數(shù)據(jù)集的渲染和地面實(shí)況圖像。
匹配的可視化??梢暬藖碜? scenes(頂部)、Cambridge landmarks(中間)和Aachen(底部)數(shù)據(jù)集的查詢圖像(左)和參考圖像(右)之間的匹配。
4. 主要貢獻(xiàn)
(1)提出了一種混合方法,結(jié)合顯式幾何地圖和隱式學(xué)習(xí)地圖進(jìn)行視覺定位,使定位系統(tǒng)高效且準(zhǔn)確。
(2)僅為有用的稀疏關(guān)鍵點(diǎn)渲染補(bǔ)丁,而不是渲染圖像,避免了耗時的渲染過程。
(3)采用基于聚類的策略進(jìn)行場景劃分,使NeRFs能夠在大規(guī)模室外環(huán)境中工作。
5. 基本原理是啥?
借助EGM和ILM,VRS-NeRF能夠在線渲染有用的像素,而不是依賴離線2D描述符進(jìn)行匹配,從而使定位系統(tǒng)更加高效。為了使當(dāng)前的NeRFs在大規(guī)模場景中工作,VRS-NeRF采用了基于聚類的策略來自適應(yīng)自動地將場景劃分為較小的場景。
6. 實(shí)驗(yàn)結(jié)果
將VRS-NeRF與之前的APRs和HMs進(jìn)行比較。APRs給出了最大的誤差,因?yàn)樗鼈冊诙ㄎ贿^程中與圖像檢索具有相似的行為,導(dǎo)致姿態(tài)精度有限。由于大多數(shù)APRs只報(bào)告中位誤差,因此它們的成功率不可用。SCRs由于其顯式的三維坐標(biāo)回歸,獲得比APRs高得多的準(zhǔn)確性。HMs在中位誤差方面實(shí)現(xiàn)了最佳準(zhǔn)確性。然而,由于依賴稀疏關(guān)鍵點(diǎn),它們對無紋理區(qū)域的魯棒性較差,因此其報(bào)告的準(zhǔn)確性比某些SCRs,如DSAC*和ACE稍差一些。盡管VRS-NeRF用于定位稀疏補(bǔ)丁,但其在中位誤差方面的表現(xiàn)接近于HMs,并且在中位誤差方面明顯優(yōu)于APRs和SCRs。與HMs類似,VRS-NeRF也對無紋理區(qū)域敏感。由于EGM繼承了HMs的優(yōu)點(diǎn),它優(yōu)于以前的方法LENS和NeRF-loc,它們分別將NeRFs引入了APRs和SCRs。
劍橋地標(biāo)數(shù)據(jù)集上先前方法和VRS-NeRF的結(jié)果。報(bào)告中位平移(厘米)和旋轉(zhuǎn)(°)誤差以及誤差閾值為25厘米,2°內(nèi)的姿勢成功率。由于缺少嵌入的三維信息,APRs的誤差比SCRs大2倍以上。SCRs在中位平移和旋轉(zhuǎn)誤差方面報(bào)告了令人滿意的準(zhǔn)確性。然而,它們在25厘米,2°誤差閾值內(nèi)的成功率遠(yuǎn)遠(yuǎn)低于HMs。即使是最先進(jìn)的DSAC*和ACE也無法達(dá)到與HMs相當(dāng)?shù)臏?zhǔn)確性。這些比較揭示了SCRs在戶外場景中的準(zhǔn)確性并不如預(yù)期那樣高。HMs仍然是中位誤差和成功率方面最準(zhǔn)確的方法。由于VRS-NeRF也保留了顯式的幾何信息作為顯式幾何圖,其結(jié)果與HMs一樣準(zhǔn)確,并且比APRs和SCRs準(zhǔn)確得多。與先前基于NeRF的LENS和NeRF-loc相比,VRS-NeRF也實(shí)現(xiàn)了顯著更好的準(zhǔn)確性。
地圖大小和時間分析。地圖大小。在表IV中,展示了APRs,SCRs,HMs和VRS-NeRF的地圖大小。對于APRs和SCRs,地圖大小是模型大小。對于HMs,地圖大小是局部描述符,全局描述符和三維點(diǎn)的總和。由于VRS-NeRF舍棄了局部描述符并引入了NeRFs,VRS-NeRF的地圖大小是全局描述符,三維點(diǎn)和NeRFs的總和。APRs和SCRs都是內(nèi)存有效的,因?yàn)樗鼈儗⒌貓D壓縮到神經(jīng)網(wǎng)絡(luò)中,以損失準(zhǔn)確性為代價。由于存儲了2D描述符,HMs的地圖大小較大。SFD2+IMP的地圖大小比SP+SG小,因?yàn)镾FD2具有較小的2D描述符維度。通過舍棄2D描述符,VRS-NeRF顯著減小了地圖大小。
消融研究,探討了不同補(bǔ)丁大小對姿勢準(zhǔn)確性的影響。表V顯示,隨著補(bǔ)丁大小從8×9增加到15×15,姿勢準(zhǔn)確性也增加。在國王學(xué)院這樣的戶外場景中,這一點(diǎn)更為明顯,因?yàn)椴樵兒蛥⒖紙D像的視角和照明變化較大。然而,對于室內(nèi)場景,由于查詢和參考圖像之間的變化很小,增加補(bǔ)丁大小的改進(jìn)并不明顯。此外,隨著補(bǔ)丁大小的增加,渲染一個補(bǔ)丁所需的時間也會增加。因此,最終的解決方案是在準(zhǔn)確性和效率之間取得平衡。對于沒有查詢和參考圖像之間大變化的室內(nèi)場景,作者建議使用較小的補(bǔ)丁大小以提高效率。對于查詢和參考圖像之間有大視角,照明變化的室外場景,較大的補(bǔ)丁大小可以帶來更好的準(zhǔn)確性。
7. 總結(jié) & 未來工作
這篇文章提出了一種將NeRFs應(yīng)用于視覺定位任務(wù)的新方法。具體來說,引入了顯式幾何地圖(EGM)和隱式學(xué)習(xí)地圖(ILM),以提供稀疏關(guān)鍵點(diǎn)和渲染補(bǔ)丁,以建立查詢和渲染圖像之間的稀疏匹配。通過從EGM提供的稀疏點(diǎn)進(jìn)行稀疏渲染,VRS-NeRF避免了耗時的全圖像渲染。通過NeRFs表示的ILM,VRS-NeRF舍棄了消耗內(nèi)存的2D描述符。因此,VRS-NeRF更加高效。然而,與最先進(jìn)的方法相比,在大規(guī)模亞琛數(shù)據(jù)集上的準(zhǔn)確性仍然有限。作者希望這項(xiàng)工作可以成為一個基線,更多的研究人員可以在將來使其變得更好。
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28086瀏覽量
205787 -
自動駕駛
+關(guān)注
關(guān)注
782文章
13616瀏覽量
165899 -
視覺定位
+關(guān)注
關(guān)注
5文章
49瀏覽量
12360
原文標(biāo)題:VRS-NeRF:基于神經(jīng)輻射場的視覺重定位了解一下?
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論