0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種用于視覺(jué)定位的2D-3D匹配方法GAM

3D視覺(jué)工坊 ? 來(lái)源:3D視覺(jué)工坊 ? 2023-02-16 10:18 ? 次閱讀

主要內(nèi)容:

提出了一種新的2D-3D匹配方法,幾何輔助匹配(GAM),使用外觀信息和幾何上下文來(lái)改進(jìn)2D-3D特征匹配,可以在保持高精度的同時(shí)增強(qiáng)2D-3D匹配的recall,將GAM插入到分層視覺(jué)定位pipeline中,表明GAM可以有效地提高定位的魯棒性和準(zhǔn)確性,其實(shí)驗(yàn)表明,GAM可以找到比手工啟發(fā)式和學(xué)習(xí)的方法更正確的匹配,在多個(gè)視覺(jué)定位數(shù)據(jù)集上獲得了最先進(jìn)的結(jié)果。

Contributions:

提出了GAM,首先根據(jù)視覺(jué)外觀為每個(gè)2D點(diǎn)建立多個(gè)候選匹配,然后根據(jù)幾何上下文過(guò)濾不正確的匹配。

提出了一種稱為BMNet的深度神經(jīng)網(wǎng)絡(luò)來(lái)處理多對(duì)多候選匹配,它可以預(yù)測(cè)每個(gè)2D-3D匹配的幾何先驗(yàn)并輸出全局最優(yōu)匹配集。

提出了一種具有新場(chǎng)景檢索策略的分層視覺(jué)定位方法,進(jìn)一步提高了姿態(tài)估計(jì)的魯棒性。

所提出的定位方法在多個(gè)數(shù)據(jù)集上優(yōu)于最先進(jìn)的方法。

幾何輔助匹配:

583fcf36-ad34-11ed-bfe3-dac502259ad0.png

58593cbe-ad34-11ed-bfe3-dac502259ad0.png

網(wǎng)絡(luò)架構(gòu):

5877fa6e-ad34-11ed-bfe3-dac502259ad0.png

589dd0e0-ad34-11ed-bfe3-dac502259ad0.png

58b3f028-ad34-11ed-bfe3-dac502259ad0.png

Hungarian Pooling:

如果直接訓(xùn)練g(g;θ),網(wǎng)絡(luò)參數(shù)將很難學(xué)習(xí),因?yàn)閹缀我恢滦钥赡芘c監(jiān)督?jīng)_突,如下圖所示。

58cad842-ad34-11ed-bfe3-dac502259ad0.png

2D圖像點(diǎn)與在3D空間中接近的兩個(gè)3D點(diǎn)匹配,在相同的相機(jī)姿勢(shì)下,它們可能都有小的重投影誤差,網(wǎng)絡(luò)易于根據(jù)提取的幾何特征為它們生成相似的權(quán)重,這兩種對(duì)應(yīng)關(guān)系都被認(rèn)為是幾何一致的。

然而其中只有一個(gè)是inlier,其余的則是outlier,多個(gè)對(duì)應(yīng)具有相似的幾何特征但具有不同標(biāo)簽的這種差異使得網(wǎng)絡(luò)難以收斂。

為了解決這個(gè)問(wèn)題,將匈牙利算法引入到網(wǎng)絡(luò)中進(jìn)行端到端訓(xùn)練。匈牙利算法可以找到全局最優(yōu)的一對(duì)一匹配,因?yàn)橹贿x擇了兩個(gè)對(duì)應(yīng)關(guān)系中的一個(gè),所以可以消除幾何一致性和監(jiān)督之間的差異。

基于由g(g;θ)預(yù)測(cè)的權(quán)重向量w和二分圖g,權(quán)重矩陣w被構(gòu)造為:

58e217c8-ad34-11ed-bfe3-dac502259ad0.png

其中W的未填充元素被設(shè)置為0,然后將匈牙利算法應(yīng)用于該權(quán)重矩陣W獲得匹配M的最大權(quán)重。分配向量s由下列公式獲得:

58efcd46-ad34-11ed-bfe3-dac502259ad0.png

由于輸出邊緣來(lái)自輸入邊緣的子集,引入匈牙利算法的層可以被視為一個(gè)特殊的采樣層,稱之為匈牙利池,端到端訓(xùn)練中使用的反向傳播公式如下:

590280bc-ad34-11ed-bfe3-dac502259ad0.png

分層定位pipeline:

59195f26-ad34-11ed-bfe3-dac502259ad0.png

對(duì)于查詢圖像,提取其全局特征和局部特征,全局特征用于粗略定位以確定要匹配的3D點(diǎn)集,提取的局部特征和結(jié)合相應(yīng)描述符的3D點(diǎn)集都被送到GAM中以獲得全局最優(yōu)2D-3D對(duì)應(yīng)。

整個(gè)定位過(guò)程分為三個(gè)模塊,即場(chǎng)景檢索、2D-3D特征匹配和先驗(yàn)引導(dǎo)姿態(tài)估計(jì)。

場(chǎng)景檢索:

594184ba-ad34-11ed-bfe3-dac502259ad0.png

596cbdce-ad34-11ed-bfe3-dac502259ad0.png

2D-3D特征匹配:

根據(jù)場(chǎng)景檢索的順序執(zhí)行GAM并輸出匹配的2D-3D對(duì)應(yīng),對(duì)于第k個(gè)場(chǎng)景597d6ad4-ad34-11ed-bfe3-dac502259ad0.png,獲取其3D點(diǎn)和相應(yīng)的描述子來(lái)構(gòu)建3D特征集,在從查詢圖像提取的2D局部特征和3D特征之間執(zhí)行GAM,輸出匹配M的最大權(quán)重,根據(jù)歐氏距離執(zhí)行kNN比率匹配,當(dāng)描述子被歸一化時(shí),這可以通過(guò)矩陣運(yùn)算有效地實(shí)現(xiàn)。

先驗(yàn)引導(dǎo)的姿態(tài)估計(jì):

由于M中仍然存在一些錯(cuò)誤匹配,在RANSAC循環(huán)中應(yīng)用PnP解算器,在RANSAC loop中,采樣2D-3D對(duì)應(yīng)的概率由BMNet預(yù)測(cè)的似然決定,這使得能夠以更大的機(jī)會(huì)對(duì)可能的inlier進(jìn)行采樣。

實(shí)驗(yàn):

首先進(jìn)行了2D-3D匹配實(shí)驗(yàn),表明GAM以比手工制作的方法和學(xué)習(xí)方法更高的精度找到更多的真實(shí)匹配。

數(shù)據(jù)集:MegaDepth數(shù)據(jù)集中選擇一個(gè)位置作為2D-3D匹配評(píng)估的測(cè)試數(shù)據(jù)集。

將GAM與傳統(tǒng)手工制作方法和學(xué)習(xí)匹配方法進(jìn)行了比較 使用最近鄰(NN)匹配器從描述符空間中的每個(gè)2D點(diǎn)的所有3D點(diǎn)中找到最近鄰,手工制作的異常值剔除方法包括比率測(cè)試(ratio)、距離閾值(distance)和彼此最近的鄰居(cross check),因?yàn)闆](méi)有其他基于學(xué)習(xí)的方法直接用于2D-3D特征匹配,因此將最近提出的一些在2D-2D匹配中表現(xiàn)良好的方法遷移到2D-3D進(jìn)行比較,將LGCNet和OANet的輸入從2D-2D對(duì)應(yīng)替換為2D3D對(duì)應(yīng),即LGCNet-2D3D和OANet2D3D

598c397e-ad34-11ed-bfe3-dac502259ad0.png

評(píng)估GAM在視覺(jué)定位方面的有效性以及提出的視覺(jué)定位框架: 數(shù)據(jù)集:Aachen Day-Night

599b47a2-ad34-11ed-bfe3-dac502259ad0.png

與SOTA定位方法的比較: 數(shù)據(jù)集:Cambridge Landmarks 和Aachen Day-Night

59b3d696-ad34-11ed-bfe3-dac502259ad0.png59cbcd96-ad34-11ed-bfe3-dac502259ad0.png

總結(jié):


提出了一種用于視覺(jué)定位的2D-3D匹配方法GAM,同時(shí)使用外觀信息和幾何上下文來(lái)提高匹配性能,在保持高精度的同時(shí)提高了2D-3D匹配的召回率,其引入了一種新的二部匹配神經(jīng)網(wǎng)絡(luò)BMNet以提取2D-3D對(duì)應(yīng)的幾何特征,并可以學(xué)習(xí)全局幾何一致性以預(yù)測(cè)每個(gè)對(duì)應(yīng)的真實(shí)匹配的可能性,還將匈牙利算法集成到BMNet中作為一個(gè)特殊的池層以端到端的方式找到最大權(quán)重匹配,使得定位能夠獲得更正確的匹配從而提高了定位的魯棒性和準(zhǔn)確性。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4717

    瀏覽量

    100003
  • gam
    gam
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    7255
  • 匹配器
    +關(guān)注

    關(guān)注

    0

    文章

    6

    瀏覽量

    5710

原文標(biāo)題:用幾何信息來(lái)輔助基于特征的視覺(jué)定位(arxiv 2022)

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    用于3D機(jī)器視覺(jué)的高度可擴(kuò)展的TI DLP技術(shù)

    電子發(fā)燒友網(wǎng)站提供《適用于3D機(jī)器視覺(jué)的高度可擴(kuò)展的TI DLP技術(shù).pdf》資料免費(fèi)下載
    發(fā)表于 08-23 09:57 ?0次下載
    適<b class='flag-5'>用于</b><b class='flag-5'>3D</b>機(jī)器<b class='flag-5'>視覺(jué)</b>的高度可擴(kuò)展的TI DLP技術(shù)

    3D視覺(jué)引導(dǎo)的多SKU紙箱拆解

    在物流和包裝行業(yè)中,處理多種SKU紙箱的拆解是個(gè)常見(jiàn)的操作難題。傳統(tǒng)方法往往因?yàn)榧埾涞某叽?、形狀和重量多樣性而遇到困難。為了解決這個(gè)問(wèn)題,富唯智能提出了一種基于3D
    的頭像 發(fā)表于 07-05 18:11 ?465次閱讀
    <b class='flag-5'>3D</b><b class='flag-5'>視覺(jué)</b>引導(dǎo)的多SKU紙箱拆解

    蘇州吳中區(qū)多色PCB板元器件3D視覺(jué)檢測(cè)技術(shù)

    3D視覺(jué)檢測(cè)相較于2D視覺(jué)檢測(cè),有其獨(dú)特的優(yōu)勢(shì),不受產(chǎn)品表面對(duì)比度影響,精確檢出產(chǎn)品形狀,可以測(cè)出高度(厚度)、體積、平整度等。在實(shí)際應(yīng)用中可以與2
    的頭像 發(fā)表于 06-14 15:02 ?248次閱讀
    蘇州吳中區(qū)多色PCB板元器件<b class='flag-5'>3D</b><b class='flag-5'>視覺(jué)</b>檢測(cè)技術(shù)

    英倫科技的15.6寸2D-3D可切換光場(chǎng)裸眼3D顯示屏有哪些特點(diǎn)?

    隨著科技的快速發(fā)展,人類對(duì)于視覺(jué)體驗(yàn)的追求也在不斷攀升。從平面的2D圖像到立體的3D影像,我們直在探索如何讓虛擬世界更加逼真。如今,英倫科技憑借其創(chuàng)新實(shí)力,推出了
    的頭像 發(fā)表于 05-28 11:17 ?229次閱讀
    英倫科技的15.6寸<b class='flag-5'>2D-3D</b>可切換光場(chǎng)裸眼<b class='flag-5'>3D</b>顯示屏有哪些特點(diǎn)?

    有了2D NAND,為什么要升級(jí)到3D呢?

    2D NAND和3D NAND都是非易失性存儲(chǔ)技術(shù)(NVM Non-VolatileMemory),屬于Memory(存儲(chǔ)器)的一種
    的頭像 發(fā)表于 03-17 15:31 ?757次閱讀
    有了<b class='flag-5'>2D</b> NAND,為什么要升級(jí)到<b class='flag-5'>3D</b>呢?

    Nullmax提出多相機(jī)3D目標(biāo)檢測(cè)新方法QAF2D

    今天上午,計(jì)算機(jī)視覺(jué)領(lǐng)域頂會(huì)CVPR公布了最終的論文接收結(jié)果,Nullmax感知部門(mén)的3D目標(biāo)檢測(cè)研究《Enhancing 3D Object Detection with 2D De
    的頭像 發(fā)表于 02-27 16:38 ?928次閱讀
    Nullmax提出多相機(jī)<b class='flag-5'>3D</b>目標(biāo)檢測(cè)新<b class='flag-5'>方法</b>QAF<b class='flag-5'>2D</b>

    工業(yè)自動(dòng)化,3D視覺(jué)在五金件上下料中的應(yīng)用

    3D視覺(jué)引導(dǎo)五金件上下料是一種先進(jìn)的自動(dòng)化解決方案,結(jié)合了3D視覺(jué)技術(shù)和機(jī)器人技術(shù),實(shí)現(xiàn)對(duì)五金件的高效、準(zhǔn)確上下料操作。以下是關(guān)于
    的頭像 發(fā)表于 02-21 11:38 ?391次閱讀
    工業(yè)自動(dòng)化,<b class='flag-5'>3D</b><b class='flag-5'>視覺(jué)</b>在五金件上下料中的應(yīng)用

    介紹一種使用2D材料進(jìn)行3D集成的新方法

    美國(guó)賓夕法尼亞州立大學(xué)的研究人員展示了一種使用2D材料進(jìn)行3D集成的新穎方法
    的頭像 發(fā)表于 01-13 11:37 ?895次閱讀

    一種用于2D/3D圖像處理算法的指令集架構(gòu)以及對(duì)應(yīng)的算法部署方法

    二維(2D)和三維(3D)雙模視覺(jué)信息在自動(dòng)駕駛、工業(yè)機(jī)器人、人機(jī)交互等前沿領(lǐng)域具有廣泛的應(yīng)用前景。
    的頭像 發(fā)表于 01-05 10:35 ?358次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>用于</b><b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>圖像處理算法的指令集架構(gòu)以及對(duì)應(yīng)的算法部署<b class='flag-5'>方法</b>

    應(yīng)用于3D對(duì)象檢測(cè)的點(diǎn)云深度學(xué)習(xí)方法

    隨著激光雷達(dá)傳感器(“光檢測(cè)和測(cè)距”的縮寫(xiě),有時(shí)稱為“激光掃描”,現(xiàn)在在些最新的 iPhone 上可用)或 RGB-D 攝像頭(一種 RGB-D 攝像頭)的興起,
    的頭像 發(fā)表于 01-03 10:32 ?668次閱讀
    兩<b class='flag-5'>種</b>應(yīng)<b class='flag-5'>用于</b><b class='flag-5'>3D</b>對(duì)象檢測(cè)的點(diǎn)云深度學(xué)習(xí)<b class='flag-5'>方法</b>

    OpenHarmony開(kāi)源GPU庫(kù)Mesa3D適配說(shuō)明

    介紹的是另外一種開(kāi)源實(shí)現(xiàn)的方式:mesa3D。 Mesa3D 圖形庫(kù)就是OpenGL API的一種開(kāi)源實(shí)現(xiàn)。新版本還支持OpenCL、OpenGL ES等等。Mesa
    發(fā)表于 12-25 11:38

    文了解3D視覺(jué)2D視覺(jué)的區(qū)別

    文了解3D視覺(jué)2D視覺(jué)的區(qū)別 3D視覺(jué)
    的頭像 發(fā)表于 12-25 11:15 ?2344次閱讀

    2D圖像和LiDAR的3D點(diǎn)云之間的配準(zhǔn)方法

    建立2D-3D的對(duì)應(yīng)關(guān)系首先通過(guò)交叉區(qū)域檢測(cè),在兩個(gè)模態(tài)中去除離群區(qū)域,然后利用交叉模態(tài)潛在空間的最近鄰原則進(jìn)行2D-3D特征匹配
    發(fā)表于 12-22 11:29 ?1453次閱讀
    <b class='flag-5'>2D</b>圖像和LiDAR的<b class='flag-5'>3D</b>點(diǎn)云之間的配準(zhǔn)<b class='flag-5'>方法</b>

    2D3D視覺(jué)技術(shù)的比較

    作為個(gè)多年經(jīng)驗(yàn)的機(jī)器視覺(jué)工程師,我將詳細(xì)介紹2D3D視覺(jué)技術(shù)的不同特點(diǎn)、應(yīng)用場(chǎng)景以及它們能夠解決的問(wèn)題。在這個(gè)領(lǐng)域內(nèi),
    的頭像 發(fā)表于 12-21 09:19 ?907次閱讀

    通過(guò)將異步獲取的圖像與LiDAR點(diǎn)云對(duì)準(zhǔn)的方案

    實(shí)現(xiàn)圖像與其重建對(duì)象之間的精確2D-3D對(duì)應(yīng)關(guān)系對(duì)于準(zhǔn)確的圖像定位至關(guān)重要,一種有前景的方法涉及在圖像和激光雷達(dá)平面之間建立對(duì)應(yīng)關(guān)系,激光雷達(dá)平面可以被視為來(lái)自激光雷達(dá)點(diǎn)云地圖的重建對(duì)
    發(fā)表于 12-12 14:46 ?556次閱讀