前情提要:
閱讀本篇論文的“實(shí)驗(yàn)”部分時(shí),覺(jué)得作者的實(shí)驗(yàn)方案很完善且描述清晰,受益匪淺,因此本篇小記淡化了方法闡述,主要記錄作者的數(shù)據(jù)處理及分析過(guò)程,為自己之后設(shè)計(jì)類似實(shí)驗(yàn)時(shí)提供方法參考及思路拓展。
摘要
對(duì)于圖像匹配任務(wù)來(lái)說(shuō),除了特征點(diǎn)之外,線特征也提供了額外的約束以解決機(jī)器人和計(jì)算機(jī)視覺(jué)(CV)中的視覺(jué)幾何問(wèn)題。盡管最近基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的線描述符有望用于視點(diǎn)變化或動(dòng)態(tài)環(huán)境,但我們認(rèn)為CNN架構(gòu)在將可變線長(zhǎng)度抽象為固定維描述符方面存在先天缺陷。
在本文中,我們有效地介紹了處理可變線段的Line-Transformers。自然語(yǔ)言處理(NLP)任務(wù)可以在神經(jīng)網(wǎng)絡(luò)中很好地理解和抽象句子。受此啟發(fā)我們將線段視為包含點(diǎn)(詞)的句子,通過(guò)動(dòng)態(tài)地關(guān)注線上的可描述點(diǎn),我們的描述符在可變線長(zhǎng)度上表現(xiàn)出色。我們還提出了將線的幾何屬性共享到鄰域的線簽名網(wǎng)絡(luò)。
作為組描述符,網(wǎng)絡(luò)通過(guò)理解線的相對(duì)幾何結(jié)構(gòu)來(lái)增強(qiáng)線描述符。最后,我們?cè)邳c(diǎn)線定位(PL-Loc)中展示了所提出的線描述符和匹配。實(shí)驗(yàn)表明,使用本文線特征可以改進(jìn)帶有特征點(diǎn)的視覺(jué)定位,并驗(yàn)證了所提出的單應(yīng)性估計(jì)和視覺(jué)定位方法。
引言
雖然在SLAM和SFM中,特征點(diǎn)已經(jīng)被廣泛研究,但在圖像中分布不均勻的特征點(diǎn)可能會(huì)導(dǎo)致不穩(wěn)定和不準(zhǔn)確的姿態(tài)估計(jì)。最近的研究表明,即使在弱紋理環(huán)境中,也可以通過(guò)使用點(diǎn)線特征增強(qiáng)SLAM性能。例如SLAM中廣泛使用的LBD線描述符,對(duì)于連續(xù)幀來(lái)說(shuō)性能比較可靠,但對(duì)于寬基線圖像來(lái)說(shuō),會(huì)阻止基于線的方法在視覺(jué)定位中直接適應(yīng)線特征導(dǎo)致LBD描述符性能下降。
因此開(kāi)始研究利用CNN來(lái)學(xué)習(xí)線描述符的表示,但CNN在研究可變線段的長(zhǎng)度方面存在固有的弊端,基于上述問(wèn)題,本文主要貢獻(xiàn)如下:
通過(guò)將線段視為句子,將點(diǎn)視為單詞,提出了一種使用transformer架構(gòu)的新型線段描述符。利用NLP作為線段描述符,可以處理各種可變長(zhǎng)度的線段;
提出的線段描述符通過(guò)關(guān)注線段上更有意義的點(diǎn)來(lái)理解線段的上下文。它有效地將各種長(zhǎng)度的線段抽象為固定大小的描述符;
建議在鄰域之間共享線屬性(例如,位置、角度、長(zhǎng)度和描述符)信息的線簽名網(wǎng)絡(luò)。
方法
本文提出的Line-Transformers旨在線段的給定點(diǎn)上構(gòu)建線段描述符,如圖1所示,Line-Transformers由兩個(gè)主要部件組成:line transformers和line signature networks。
第一個(gè)組件使用線標(biāo)記器從線段中提取點(diǎn)標(biāo)記和嵌入。考慮到點(diǎn)嵌入的上下文,transformers將其歸納為線嵌入或線描述符。第二個(gè)組件通過(guò)與鄰域共享線的位置上下文來(lái)增強(qiáng)線描述符。
圖1 提出的Line-Transformers架構(gòu)
具體實(shí)施時(shí),為了檢測(cè)圖像上的線段,文章使用了環(huán)境適用性較高的線段檢測(cè)器LSD,選擇SuperPoint作為前端描述符地圖。
實(shí)驗(yàn)
本文根據(jù)單應(yīng)性估計(jì)和視覺(jué)定位性能評(píng)估所提出的線描述符。對(duì)于兩個(gè)測(cè)試場(chǎng)景,分別將所提方法與SuperPoint、LBD(手工繪制)、LLD、WLD和比較,此處LBD、LLD和WLD使用最近鄰匹配器,使用自身的線匹配器完成線特征匹配,同時(shí)將SuperPoint作為基于點(diǎn)特征的匹配參考。
A、單應(yīng)性估計(jì)
(1)數(shù)據(jù)集:使用Oxford和Paris數(shù)據(jù)集進(jìn)行單應(yīng)性估計(jì)。為了從圖像對(duì)中建立真實(shí)線段對(duì)應(yīng)關(guān)系,首先從原始圖像及其增強(qiáng)圖像中檢測(cè)線段。然后使用已知的單應(yīng)矩陣將每條線的兩個(gè)端點(diǎn)投影到另外的線上。正確對(duì)應(yīng)的標(biāo)準(zhǔn)是:存在重疊、重投影誤差小于4個(gè)像素、角度差小于2度。得到的真實(shí)對(duì)應(yīng)關(guān)系表示為重疊相似矩陣。兩條線之間的重疊相似性用重疊線長(zhǎng)度和較小線長(zhǎng)度之間的比率表示:
其中重疊線長(zhǎng)度是兩條線段的四個(gè)端點(diǎn)里面中間兩個(gè)端點(diǎn)間距離值。對(duì)于SuperPoint來(lái)說(shuō),真實(shí)點(diǎn)對(duì)應(yīng)關(guān)系由點(diǎn)投影誤差小于4個(gè)像素來(lái)表示。 (2)指標(biāo):首先利用2000次迭代的RANSAC實(shí)現(xiàn)基于線段的單應(yīng)性矩陣估計(jì),基于此計(jì)算4個(gè)圖像角的平均重投影誤差,并記錄閾值為5、10和20個(gè)像素處累積誤差曲線(AUC)下的面積。
同時(shí)還基于匹配真值計(jì)算了匹配精度(P)和召回率(R)。 (3)結(jié)果:表1列出了各方法定量比較的結(jié)果??梢钥闯?,本文提出方法在F分?jǐn)?shù)方面比其他線描述符方法有很大的優(yōu)勢(shì)(10.1%)。我們的方法除了低于5個(gè)像素的AUC之外,優(yōu)于其他所有單應(yīng)性估計(jì)指標(biāo)。與SuperPoint相比,Line-Transformers在10和20像素以下的AUC下產(chǎn)生了更穩(wěn)定的性能。LLD在這個(gè)數(shù)據(jù)集上的性能很低,因?yàn)樗畛跏窃谶B續(xù)幀中訓(xùn)練的,沒(méi)有大的視點(diǎn)變化。 表1 單應(yīng)性估計(jì)結(jié)果對(duì)比
準(zhǔn)確率和召回率是對(duì)線匹配性能的直接而明確的度量,其僅取決于正確/錯(cuò)誤匹配的數(shù)量。當(dāng)性能取決于匹配的數(shù)量、分布和質(zhì)量時(shí),可以從單應(yīng)性估計(jì)中分析更多的隱藏性能。在這個(gè)意義上,所提出的方法滿足了可靠匹配的數(shù)量和質(zhì)量。
圖2 單應(yīng)性估計(jì)和視覺(jué)定位的線匹配定性結(jié)果對(duì)比
圖2顯示了基于單應(yīng)性估計(jì)的線匹配的定性結(jié)果。與其他線描述符相比,Line-Transformers通過(guò)產(chǎn)生更多正確匹配和更少錯(cuò)誤匹配而具有更好的性能,其中LBD有許多不正確的匹配,導(dǎo)致匹配精度較低。
B、視覺(jué)定位
除了上述評(píng)價(jià)指標(biāo)外,本文還通過(guò)估計(jì)三維線圖中的相機(jī)姿態(tài)評(píng)估線描述符,這里使用了ScanNet和Oxford Radar RobotCar數(shù)據(jù)集進(jìn)行室內(nèi)外實(shí)驗(yàn),為了驗(yàn)證本文所提方法的可推廣性,分別對(duì)室內(nèi)外環(huán)境應(yīng)用不同的訓(xùn)練方法。
(1)室內(nèi):首先生成線段對(duì)應(yīng)真值和三維線圖?;谏疃葓D選擇了滿足一定重疊的圖像對(duì)(40-80%)。由于深度圖中的潛在不確定性,此處將線分解為點(diǎn)序列,并檢查中間點(diǎn)以驗(yàn)證線的對(duì)應(yīng)性。
(2)室外:在隨機(jī)選擇的序列影像中執(zhí)行視覺(jué)位置識(shí)別,以篩選出具有3D線特征的對(duì)應(yīng)參考圖像。此處沒(méi)有使用不可靠的GPS數(shù)據(jù),而是基于查詢圖像和參考圖像的點(diǎn)云,通過(guò)迭代最近點(diǎn)ICP來(lái)計(jì)算它們之間的真實(shí)相對(duì)姿態(tài),并排除了ICP適應(yīng)度較差的查詢參考圖像對(duì)。
(3)指標(biāo):記錄使用不同閾值(即室內(nèi)0.25m、10°/0.5m、10°/1.0m、10°,室外0.25m、2°/0.5m,5°/5.0m和10°)時(shí)正確定位的查詢圖像的百分比。此處使用20次迭代的RANSAC,通過(guò)PnPL估計(jì)相機(jī)姿態(tài)。相應(yīng)的利用PnP評(píng)估SuperPoint。本文分析了分別使用點(diǎn)、線、點(diǎn)和線的姿態(tài)估計(jì)結(jié)果,同時(shí)還分析了基于室內(nèi)匹配真值的匹配精度(P)和召回率(R)。
(4)結(jié)果:如表2所示,對(duì)于室內(nèi)外實(shí)驗(yàn),Line-Transformers在視覺(jué)定位和精確召回指標(biāo)方面達(dá)到了其他線描述符中的最高性能。圖2中的定性結(jié)果也表明,Line-Transformers在成像變化(如模糊、視點(diǎn)和照明)方面表現(xiàn)強(qiáng)勁。 表2 視覺(jué)定位結(jié)果對(duì)比
但與單應(yīng)性估計(jì)不同,利用PnP的基于點(diǎn)的方法優(yōu)于所有基于線的方法。其中一個(gè)原因是在深度驗(yàn)證期間3D線內(nèi)點(diǎn)的數(shù)量較少。雖然3D特征點(diǎn)直接由其對(duì)應(yīng)的深度像素確定,但一些3D線特征會(huì)在RANSAC中的深度線性驗(yàn)證期間被過(guò)濾掉。
因此,在本文的映射方法中,基于線的定位比基于點(diǎn)的定位容易導(dǎo)致性能下降。然而,線特征還是可以補(bǔ)充點(diǎn)的性能,特別是當(dāng)點(diǎn)特征數(shù)較少或有偏差時(shí)。
C、可變線段長(zhǎng)度
圖3(a)說(shuō)明了整個(gè)圖具有向上的軌跡,從而表明當(dāng)線段延伸時(shí),本文方法比其他基于CNN的線描述符表現(xiàn)得更好。
圖3 不同線段長(zhǎng)度的性能差異
D、關(guān)于評(píng)估指標(biāo)的討論
與假定一對(duì)一匹配的點(diǎn)特征不同,線檢測(cè)器傾向于在每個(gè)圖像對(duì)中將相同的線段分割成不同的小線段,因此線匹配是一個(gè)多對(duì)多的問(wèn)題。例如,由于遮擋和分割,兩條不重疊的線可能源自一條線,它們?cè)谡Z(yǔ)義上應(yīng)該被認(rèn)為是正確的對(duì)應(yīng)關(guān)系。因此精確召回度量的評(píng)估結(jié)果可能不太精確,因?yàn)樗鼈儾荒芸紤]非重疊的線段對(duì)應(yīng)關(guān)系。
此時(shí),視覺(jué)定位和單應(yīng)性估計(jì)相對(duì)來(lái)說(shuō)更適合作為評(píng)估指標(biāo)。因?yàn)樵谝曈X(jué)定位中,因?yàn)镻nL算法不考慮端點(diǎn)位置,所以非重疊但語(yǔ)義相同的線段也被認(rèn)為是正確的匹配。另外單應(yīng)性估計(jì)雖然也不考慮端點(diǎn),但僅限于真實(shí)場(chǎng)景中的平面,所以綜上所述,基于線的視覺(jué)定位是一種更好的選擇,可以同時(shí)評(píng)估大視角差異下的重疊和非重疊線匹配情況。
E、了解Line-Transformers
圖4(a)描述了點(diǎn)嵌入對(duì)構(gòu)建線描述符的貢獻(xiàn)。由圖4(b)可看出線描述符之間的注意力得分最初很低且分布廣泛,在稍后的層中逐漸收斂到少量相鄰線上。
圖4 可視化注意力得分
F、基于點(diǎn)線特征的視覺(jué)定位
盡管表2中基于特征點(diǎn)定位的表現(xiàn)總體較好,但仍可能會(huì)因少量點(diǎn)或有偏差的特征分布而導(dǎo)致結(jié)果惡化,因此可以引入線特征以互補(bǔ)的方式增強(qiáng)基于特征點(diǎn)的視覺(jué)定位。這里使用3D特征的重投影誤差定義基于點(diǎn)的定位失敗,并在重投影誤差小于四個(gè)像素時(shí)計(jì)算內(nèi)點(diǎn)。
然后,當(dāng)內(nèi)點(diǎn)的數(shù)量小于5或20時(shí),額外執(zhí)行PL-Loc。如圖5(b)所示,PL-Loc為視覺(jué)定位提供了額外的增強(qiáng)效果,61%的情況下點(diǎn)表現(xiàn)優(yōu)于線段,這表明剩余39%的情況有可能通過(guò)線段得到改善。這也意味著點(diǎn)和線的適當(dāng)組合將提高整體定位性能。
圖5 點(diǎn)線特征互補(bǔ)定位
結(jié)論
本文受NLP任務(wù)處理不同長(zhǎng)度的句子和段落的啟發(fā),提出了一種利用注意力機(jī)制有效處理可變長(zhǎng)度的新型線描述符,同時(shí)還展示了一個(gè)同時(shí)利用特征點(diǎn)和特征線進(jìn)行視覺(jué)定位的PL-Loc方法。實(shí)驗(yàn)表明,本文所提線描述符在單應(yīng)性估計(jì)和視覺(jué)定位數(shù)據(jù)集中達(dá)到了最先進(jìn)的性能。
審核編輯:劉清
-
SLAM
+關(guān)注
關(guān)注
23文章
415瀏覽量
31758 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1694瀏覽量
45901 -
AUC
+關(guān)注
關(guān)注
0文章
9瀏覽量
6653 -
卷積神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
4文章
359瀏覽量
11831
原文標(biāo)題:用于視覺(jué)定位的上下文感知線描述符(IEEE2021)
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論