本篇文章為大家介紹一種2D圖像和LiDAR的3D點(diǎn)云之間的配準(zhǔn)方法。
不同模態(tài)之間的配準(zhǔn),即來(lái)自攝像機(jī)的2D圖像和LiDAR的3D點(diǎn)云之間的配準(zhǔn),是計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域中的關(guān)鍵任務(wù)。先前的方法通過(guò)匹配神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的點(diǎn)和像素模式來(lái)估計(jì)2D-3D對(duì)應(yīng)關(guān)系,并使用 Perspective-n-Points(PnP)在后處理階段估計(jì)剛性變換。然而這些方法在將點(diǎn)和像素魯棒地映射到共享的潛在空間方面存在困難,因?yàn)辄c(diǎn)和像素具有非常不同的特征,用不同的方式學(xué)習(xí)模式,而且它們也無(wú)法直接在變換上構(gòu)建監(jiān)督,因?yàn)镻nP是不可微分的,導(dǎo)致不穩(wěn)定的配準(zhǔn)結(jié)果。為解決這些問(wèn)題提出通過(guò)可微分的概率PnP求解器學(xué)習(xí)結(jié)構(gòu)化的跨模態(tài)潛在空間,以表示像素特征和3D特征。
具體而言設(shè)計(jì)了一個(gè)三元網(wǎng)絡(luò)來(lái)學(xué)習(xí)VoxelPoint-to-Pixel匹配,其中我們使用體素和點(diǎn)來(lái)表示3D元素,以通過(guò)像素學(xué)習(xí)跨模態(tài)潛在空間。我們基于CNN設(shè)計(jì)了體素和像素分支,以在表示為網(wǎng)格的體素/像素上執(zhí)行卷積,并集成了額外的點(diǎn)分支,以在體素化過(guò)程中丟失的信息。我們通過(guò)在概率PnP求解器上直接施加監(jiān)督來(lái)端到端地訓(xùn)練我們的框架。為了探索跨模態(tài)特征的獨(dú)特模式,我們?cè)O(shè)計(jì)了一種具有自適應(yīng)權(quán)重優(yōu)化的新型損失來(lái)描述跨模態(tài)特征。在KITTI和nuScenes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,與最先進(jìn)的方法相比,我們的方法取得了顯著的改進(jìn)。
主要貢獻(xiàn)
1. 提出了一個(gè)新穎的框架,通過(guò)學(xué)習(xí)一個(gè)結(jié)構(gòu)化的跨模態(tài)潛在空間,通過(guò)自適應(yīng)權(quán)重優(yōu)化,通過(guò)可微的PnP求解器進(jìn)行端到端訓(xùn)練,從而學(xué)習(xí)圖像到點(diǎn)云的配準(zhǔn)。?
2. 提出將3D元素表示為體素和點(diǎn)的組合,以克服點(diǎn)云和像素之間的模態(tài)差距,其中設(shè)計(jì)了一個(gè)三元網(wǎng)絡(luò)來(lái)學(xué)習(xí)體素點(diǎn)到像素的匹配。?
3. 通過(guò)在KITTI和nuScenes數(shù)據(jù)集上進(jìn)行廣泛實(shí)驗(yàn),展示了我們?cè)谧钕冗M(jìn)技術(shù)上的卓越性能。
內(nèi)容概述
首先詳細(xì)介紹了VoxelPoint-to-Pixel匹配的框架,該框架用于學(xué)習(xí)結(jié)構(gòu)化的跨模態(tài)潛在空間。接著提出了一種新穎的損失函數(shù),具有自適應(yīng)加權(quán)優(yōu)化,用于學(xué)習(xí)獨(dú)特的跨模態(tài)模式。最后引入了可微分的概率PnP求解器,這推動(dòng)了我們的端到端學(xué)習(xí)模式??傮w而言,該方法框架如圖1所示。
圖1:我們方法的概述。給定一對(duì)未正確配準(zhǔn)的圖像I和點(diǎn)云P作為輸入,(a) 我們首先對(duì)稀疏體素進(jìn)行操作以生成稀疏體素V,然后應(yīng)用三元網(wǎng)絡(luò)從三個(gè)模態(tài)中提取模式。我們將2D模式表示為像素特征,將3D模式表示為體素和點(diǎn)特征的組合,分別使用自適應(yīng)加權(quán)損失來(lái)學(xué)習(xí)獨(dú)特的2D-3D跨模態(tài)模式。(b) 我們使用跨模態(tài)特征融合檢測(cè)2D/3D空間中的交集區(qū)域。(c) 我們根據(jù)交集檢測(cè)的結(jié)果去除異常區(qū)域,并使用2D-3D特征匹配建立2D-3D對(duì)應(yīng)關(guān)系,然后應(yīng)用概率PnP來(lái)預(yù)測(cè)外參姿勢(shì)的分布,通過(guò)與真值位姿一起進(jìn)行端到端的監(jiān)督。
VoxelPoint-to-Pixel匹配框架
? 該框架采用三元網(wǎng)絡(luò),包括Voxel、Point和Pixel分支,以獲取2D和3D特征。
? 在voxel分支中使用稀疏卷積,以有效捕捉空間模式。
? 引入point分支,受PointNet++啟發(fā),用于恢復(fù)在voxel化期間丟失的詳細(xì)3D模式。
? pixel分支基于卷積U-Net,提取全局2D圖像特征。
2D-3D特征匹配
? 將3D元素表示為voxels和points的組合。
? 引入一種新方法,通過(guò)將它們映射到共享的潛在空間中,匹配2D和3D特征。
? VoxelPoint-to-Pixel匹配創(chuàng)建了一個(gè)結(jié)構(gòu)化的跨模態(tài)潛在空間,提供均勻的特征分布。
用于異常處理的交叉檢測(cè)
? 由于圖像和LiDAR點(diǎn)云采集方式的不同,存在大量離群值區(qū)域,無(wú)法找到對(duì)應(yīng)關(guān)系。
? 將交叉區(qū)域定義為L(zhǎng)iDAR點(diǎn)云使用地面實(shí)況相機(jī)參數(shù)的2D投影與參考圖像之間的重疊部分。
? 通過(guò)檢測(cè)策略,預(yù)測(cè)每個(gè)2D/3D元素位于交叉區(qū)域的概率,有助于在推斷2D-3D對(duì)應(yīng)關(guān)系之前去除兩個(gè)模態(tài)上的離群區(qū)域。
圖2:使用點(diǎn)對(duì)像素(P2P)和體素點(diǎn)對(duì)像素(VP2P)匹配學(xué)習(xí)的潛在空間的 t-SNE 可視化
自適應(yīng)加權(quán)優(yōu)化策略
自適應(yīng)加權(quán)優(yōu)化旨在解決2D和3D任務(wù)中的特征匹配問(wèn)題。通常情況下,傳統(tǒng)的對(duì)比損失和三元損失等優(yōu)化方法在處理2D-3D特征匹配時(shí)存在問(wèn)題,提出了一種自適應(yīng)加權(quán)的優(yōu)化策略,該策略針對(duì)一組2D-3D配對(duì)樣本,通過(guò)自適應(yīng)權(quán)重因子對(duì)正對(duì)和負(fù)對(duì)進(jìn)行加權(quán),以更靈活地進(jìn)行優(yōu)化。
圖3:自適應(yīng)加權(quán)優(yōu)化的說(shuō)明
可微分 PnP
建立2D-3D的對(duì)應(yīng)關(guān)系首先通過(guò)交叉區(qū)域檢測(cè),在兩個(gè)模態(tài)中去除離群區(qū)域,然后利用交叉模態(tài)潛在空間的最近鄰原則進(jìn)行2D-3D特征匹配。為了建立對(duì)應(yīng)關(guān)系,使用 arg max 操作在交叉模態(tài)潛在空間中搜索具有最大相似度的點(diǎn)坐標(biāo)。這一操作是非可微的,但通過(guò) Gumbel 估計(jì)器獲得梯度以實(shí)現(xiàn)端到端訓(xùn)練。概率 PnP 方法將輸出解釋為概率分布,用于解決非可微的 PnP 問(wèn)題,通過(guò)計(jì)算 KL 散度損失最小化預(yù)測(cè)姿態(tài)分布與地面真實(shí)姿態(tài)分布之間的距離,進(jìn)行監(jiān)督。此外,通過(guò)基于 Gauss-Newton 算法的迭代 PnP 求解器求解精確的姿態(tài),并計(jì)算姿態(tài)損失。姿態(tài)損失也參與優(yōu)化,因?yàn)?GN 算法的迭代部分是可微分的。
實(shí)驗(yàn)
我們?cè)趦蓚€(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集KITTI和nuScenes上評(píng)估我們?cè)趫D像到點(diǎn)云配準(zhǔn)任務(wù)上的性能。在兩個(gè)數(shù)據(jù)集上,圖像和點(diǎn)云是通過(guò)2D相機(jī)和3D激光雷達(dá)同時(shí)捕獲的。
定量與定性比較實(shí)驗(yàn)
定量比較:我們的方法在KITTI和nuScenes數(shù)據(jù)集上展現(xiàn)出卓越性能,尤其在RTE方面比最新的CorrI2P方法提高了大約4倍。我們的方法通過(guò)端到端訓(xùn)練框架,結(jié)合概率PnP求解器,能夠?qū)W習(xí)穩(wěn)健的2D-3D對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)了更準(zhǔn)確的預(yù)測(cè),如表1。
視覺比較:圖5中的視覺比較顯示,我們的方法在不同道路情況下實(shí)現(xiàn)了更好的配準(zhǔn)精度。與其他方法相比,尤其是在調(diào)校困難的情況下,如第1行和第2行,我們的方法能夠更準(zhǔn)確地解決配準(zhǔn)問(wèn)題,而其他方法(如DeepI2P和CorrI2P)無(wú)法正確匹配樹木和汽車的投影與圖像中相應(yīng)的像素。
圖5:在KITTI數(shù)據(jù)集下進(jìn)行的圖像到點(diǎn)云配準(zhǔn)結(jié)果的可視比較
特征匹配的精度
圖6展示了特征匹配的可視化,通過(guò)計(jì)算兩個(gè)模態(tài)上的匹配距離生成雙側(cè)誤差圖。對(duì)于2D到3D的匹配,我們?cè)诮徊鎱^(qū)域的每個(gè)2D像素上尋找相似度最大的點(diǎn),計(jì)算投影匹配點(diǎn)與2D像素之間的歐拉距離,結(jié)果顯示我們的方法在2D到3D和3D到2D匹配中均明顯優(yōu)于CorrI2P。我們的方法在大多數(shù)匹配中能夠?qū)崿F(xiàn)小于2像素的輕微錯(cuò)誤,表明我們學(xué)到的共享潛在空間能夠準(zhǔn)確區(qū)分交叉模態(tài)模式,實(shí)現(xiàn)準(zhǔn)確的特征匹配。在圖像和點(diǎn)云邊緣處可能存在相對(duì)較大的錯(cuò)誤,因?yàn)樵谶吘墔^(qū)域完美執(zhí)行交叉區(qū)域檢測(cè)通常是困難的。
運(yùn)行效率
與其他方法在NVIDIA RTX 3090 GPU和Intel(R) Xeon(R) E5-2699 CPU上進(jìn)行了效率比較。在表2中,我們的方法參數(shù)更少,性能顯著更好。此外我們的方法僅需0.19秒進(jìn)行網(wǎng)絡(luò)推斷和一個(gè)幀的姿態(tài)估計(jì),比先前的方法快了大約50倍(或更多)。
消融實(shí)驗(yàn)
進(jìn)行了消融研究以驗(yàn)證我們方法中每個(gè)設(shè)計(jì)的有效性以及一些重要參數(shù)的影響,報(bào)告了在KITTI數(shù)據(jù)集下RTE/RRE/Acc.的性能。
框架設(shè)計(jì)驗(yàn)證:我們通過(guò)四種變體驗(yàn)證了框架中每個(gè)設(shè)計(jì)的有效性,包括去除體素分支、去除點(diǎn)云分支、替換自適應(yīng)加權(quán)優(yōu)化損失以及去除可微PnP驅(qū)動(dòng)的端到端監(jiān)督。結(jié)果如表3,顯示了全模型在所有變體中表現(xiàn)最佳,證明了每個(gè)設(shè)計(jì)在框架中的有效性。特別是,相較于去掉點(diǎn)云分支,體素分支在框架中扮演更重要的角色,表明體素模態(tài)更適合學(xué)習(xí)圖像到點(diǎn)云的配準(zhǔn)。
輸入分辨率影響:我們進(jìn)一步研究了輸入圖像分辨率和點(diǎn)云密度的影響。結(jié)果如表4顯示,在兩個(gè)模態(tài)上使用更高分辨率會(huì)帶來(lái)更好的效果,因?yàn)榈头直媛蕡D像可能丟失一些視覺信息,而低密度點(diǎn)云則可能失去詳細(xì)的幾何結(jié)構(gòu),我們選擇在性能和效率之間找到平衡的適當(dāng)設(shè)置。
總結(jié)
這項(xiàng)工作提出了一個(gè)新穎的框架,通過(guò)VoxelPoint-to-Pixel匹配學(xué)習(xí)圖像到點(diǎn)云的配準(zhǔn),其中我們使用一種新穎的自適應(yīng)加權(quán)損失學(xué)習(xí)結(jié)構(gòu)化的跨模態(tài)潛在空間。將3D元素表示為體素和點(diǎn)的組合,以克服點(diǎn)云和像素之間的域差異。此外通過(guò)在可微的PnP求解器上直接對(duì)預(yù)測(cè)的姿態(tài)分布進(jìn)行監(jiān)督,端到端地訓(xùn)練我們的框架,在KITTI和nuScenes數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)證明了我們的卓越性能。
審核編輯:黃飛
?
評(píng)論
查看更多