0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SuperPoint語(yǔ)義 SLAM深度學(xué)習(xí)用于特征提取

新機(jī)器視覺(jué) ? 來(lái)源:古月居 ? 2023-12-10 10:52 ? 次閱讀

1. 概況

作者的寫作思路很清晰,把各個(gè)技術(shù)點(diǎn)這么做的原因?qū)懙暮芮宄?,全文共三篇,可以看清作者在使?a target="_blank">深度學(xué)習(xí)進(jìn)行位姿估計(jì)這一方法上的思路演變過(guò)程,為了把這一脈絡(luò)理清楚,我們按照時(shí)間順序?qū)@三篇文章分別解讀,分別是:

1)Deep Image Homography Estimation

2)Toward Geometric Deep SLAM

3)SuperPoint: Self-Supervised Interest Point Detection and Description

本期,我們首先對(duì)Deep Image Homography Estimation進(jìn)行解讀。

2. 第一篇

Deep Image Homography Estimation

礦視成果

參考R TALK |圖像對(duì)齊及其應(yīng)用(https://zhuanlan.zhihu.com/p/99758095Deep)

1.1. 概述


Deep Image Homography Estimation 是通過(guò)端到端的方式估計(jì)一對(duì)圖像的單應(yīng)矩陣。訓(xùn)練數(shù)據(jù)集是從MS-COCO上選取圖片,然后把這張圖片進(jìn)行單應(yīng)性變換得到圖象對(duì)的方式生成的。為了得到矩陣變換的置信度(比如slam中設(shè)置方差需要這些東西),作者把網(wǎng)絡(luò)分成兩部分,分別對(duì)應(yīng)兩種輸出,一種輸出單一變換結(jié)果,另一種輸出多個(gè)可能的變換結(jié)果,并給出每種變換結(jié)果的置信度,實(shí)際使用時(shí),選擇置信度最高的那個(gè)。

1.2. 算法流程


1.2.1 基礎(chǔ)知識(shí)


本篇文章所提出的方法輸出的是單應(yīng)性矩陣,所謂單應(yīng)性矩陣,就是圖象中的目標(biāo)點(diǎn)認(rèn)為是在一個(gè)平面上,相應(yīng)的,如果不在一個(gè)平面上則被成為基礎(chǔ)矩陣。

在實(shí)際的slam應(yīng)用中,單應(yīng)矩陣在以下這三種情況時(shí)需要用到:

相機(jī)只有旋轉(zhuǎn)而無(wú)平移的時(shí)候,兩視圖的對(duì)極約束不成立,基礎(chǔ)矩陣F為零矩陣,這時(shí)候需要使用單應(yīng)矩陣H場(chǎng)景中的點(diǎn)都在同一個(gè)平面上,可以使用單應(yīng)矩陣計(jì)算像點(diǎn)的匹配點(diǎn)。

相機(jī)的平移距離相對(duì)于場(chǎng)景的深度較小的時(shí)候,也可以使用單應(yīng)矩陣H。

在大家熟悉的ORB-SLAM中初始化的時(shí)候,就是單應(yīng)矩陣和基礎(chǔ)矩陣同時(shí)估計(jì),然后根據(jù)兩種方法估計(jì)出的結(jié)果計(jì)算重投影誤差,選擇重投影誤差最小的那個(gè)作為初始化結(jié)果。

1.2.2 建立模型

一個(gè)單應(yīng)矩陣其實(shí)就是一個(gè)3X3的矩陣,通過(guò)這個(gè)矩陣,可以把圖像中的一個(gè)點(diǎn),投影到對(duì)應(yīng)的圖像對(duì)上去,對(duì)應(yīng)的公式為

8c5cdf68-9698-11ee-8b88-92fbcf53809c.png

在這篇文章中,作者為了更好的訓(xùn)練模型和評(píng)估算法效果,采用了另外一種模型,來(lái)等效代替上面的公式。我們知道,一張圖片進(jìn)行單應(yīng)性變換的時(shí)候,圖像上的點(diǎn)的坐標(biāo)會(huì)根據(jù)變換矩陣發(fā)生變化(如上式),那么反過(guò)來(lái),如果我知道n個(gè)變換前后的點(diǎn)的坐標(biāo),那么這兩張圖片之間的變換矩陣便可以得到,在平面關(guān)系中,n為4,即至少知道四個(gè)點(diǎn)就可以。因此作者用四個(gè)點(diǎn)對(duì)應(yīng)的變化量來(lái)建立一個(gè)新的模型,如下式所示

8c6d262a-9698-11ee-8b88-92fbcf53809c.png

它和單應(yīng)性矩陣具有一一對(duì)應(yīng)的關(guān)系

8c774f60-9698-11ee-8b88-92fbcf53809c.png

這樣做的好處是,把圖片對(duì)之間的矩陣關(guān)系,轉(zhuǎn)換成了點(diǎn)和點(diǎn)之間的關(guān)系,在進(jìn)行精度評(píng)估時(shí),可以直接根據(jù)轉(zhuǎn)換后的點(diǎn)的坐標(biāo)與真實(shí)的坐標(biāo)計(jì)算距離,作為誤差評(píng)估指標(biāo),而且,還可以用于網(wǎng)絡(luò)中損失函數(shù)的計(jì)算。

1.2.3 生成數(shù)據(jù)集

作者采用MS-COCO作為數(shù)據(jù)集,不過(guò)該數(shù)據(jù)集中沒(méi)有圖像對(duì),也即沒(méi)有單應(yīng)矩陣的真值,這是沒(méi)法進(jìn)行訓(xùn)練的。因此作者根據(jù)數(shù)據(jù)集中原有圖像,自動(dòng)生成了圖像對(duì)。具體方法如下圖所示

8c83ca6a-9698-11ee-8b88-92fbcf53809c.png

具體步驟為:

1.在圖像中選取一個(gè)長(zhǎng)方形區(qū)域,區(qū)域就可以用上面說(shuō)的四個(gè)點(diǎn)的模型來(lái)表示;

2.把區(qū)域的四個(gè)點(diǎn)隨機(jī)進(jìn)行平移,這樣就得到一個(gè)四邊形,這兩個(gè)四邊形之間的單應(yīng)矩陣也就是已知的;

3.把圖像按照這個(gè)單應(yīng)矩陣進(jìn)行變換,并選取被四邊形框住的區(qū)域;

4.這樣1)中和3)中得到的圖像就形成了一個(gè)已知真實(shí)單應(yīng)矩陣的圖像對(duì)。

1.2.4 設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)


本文的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示

8ca27064-9698-11ee-8b88-92fbcf53809c.png

網(wǎng)絡(luò)分成兩部分,分別是Classification HomographyNet 和 Regression HomograhyNet,后者是直接輸出8個(gè)量,這8個(gè)量自然就是四個(gè)點(diǎn)各自的x和y坐標(biāo)值。但這樣的缺點(diǎn)也很明顯,就是不知道每個(gè)坐標(biāo)值的置信度是多少,比如在slam中設(shè)置方差時(shí)就沒(méi)有根據(jù)。因此Classification HomographyNet就是在Regression HomograhyNet的基礎(chǔ)上,把輸出端改成了8X21的輸出向量,這里的8仍然是四個(gè)點(diǎn)各自的x和y坐標(biāo),這里的21是每個(gè)坐標(biāo)值的可能值之一,并且給出了該值的概率,這樣就可以定量分析置信度了。該網(wǎng)絡(luò)所輸出的置信度的可視化效果如下圖所示

8cb19b98-9698-11ee-8b88-92fbcf53809c.png

1.2.5 實(shí)驗(yàn)結(jié)果


實(shí)驗(yàn)結(jié)果的精度評(píng)測(cè)方法就是根據(jù)每個(gè)點(diǎn)的坐標(biāo)按照單應(yīng)矩陣進(jìn)行轉(zhuǎn)換后,和真實(shí)坐標(biāo)進(jìn)行L2距離測(cè)量,再把四個(gè)點(diǎn)的誤差值取平均得到。作者把網(wǎng)絡(luò)兩部分的輸出和ORB特征計(jì)算的結(jié)果分別進(jìn)行了評(píng)測(cè),對(duì)比結(jié)果如下:

8cba2614-9698-11ee-8b88-92fbcf53809c.png

從這張表里看,并沒(méi)有比ORB表現(xiàn)出明顯的優(yōu)勢(shì),但是作者展示了幾張圖片,每個(gè)圖片里顯示了矯正之后的方框?qū)?,從方框?qū)χ锌梢悦黠@看出區(qū)別。左邊是ORB方法的,右邊是本文方法的。

1.3. 總結(jié)與思考


設(shè)計(jì)了一種端到端的單應(yīng)矩陣的估計(jì)方法,采用提取定點(diǎn)的結(jié)構(gòu)等效單應(yīng)矩陣,基于這種結(jié)構(gòu)設(shè)計(jì)了數(shù)據(jù)集產(chǎn)生方法和精度評(píng)測(cè)方法,最終的結(jié)果顯示效果要明顯高于ORB進(jìn)行的提取。

可以看到回歸的方法效果最好,但是分類的方法可以得到置信度,且可以可視化地糾正實(shí)驗(yàn)結(jié)果,在某些應(yīng)用中是有優(yōu)勢(shì)的。

作者總結(jié)了這個(gè)系統(tǒng)的兩個(gè)優(yōu)勢(shì):

第一,速度快,借助英偉達(dá)的泰坦顯卡,可以實(shí)現(xiàn)每秒處理300幀的圖像。

第二,將計(jì)算機(jī)視覺(jué)中最基礎(chǔ)的單應(yīng)矩陣的估計(jì)問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的問(wèn)題,可以針對(duì)應(yīng)用情景如使用SLAM的室內(nèi)導(dǎo)航機(jī)器人做特定優(yōu)化。

事實(shí)上,單應(yīng)矩陣在圖像拼接,ORB-SLAM算法和Augmented Reality(AR),相機(jī)標(biāo)定中都有很重要的應(yīng)用。這篇文章的三個(gè)作者都來(lái)自Magic Leap公司,一家做AR的公司,已經(jīng)得到了Google和阿里巴巴等公司是十幾億美金的投資。

新的思考:


1)這種將深度學(xué)習(xí)用于解決傳統(tǒng)方法中遇到的困難的設(shè)計(jì)模式值的我們思考與學(xué)習(xí),這樣可以充分的將誒和傳統(tǒng)與深度學(xué)習(xí)的共同特點(diǎn)。

2)這種從圖像中產(chǎn)生真值,然后在利用這些圖像去估計(jì)矩陣的方式是由于過(guò)擬合導(dǎo)致效果好?

3)單應(yīng)矩陣一般特征共面時(shí)使用,論文中最后對(duì)比效果所列的圖片明顯不是這種情況(展示數(shù)據(jù)可以理解為遠(yuǎn)視角場(chǎng)景),它之所以能對(duì)齊,是因?yàn)樗眠@個(gè)訓(xùn)練的,而ORB是根據(jù)真實(shí)的場(chǎng)景估計(jì)的,沒(méi)有共面假設(shè),對(duì)比實(shí)驗(yàn)設(shè)計(jì)的合理性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4592

    瀏覽量

    92532
  • SLAM
    +關(guān)注

    關(guān)注

    23

    文章

    417

    瀏覽量

    31758
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5471

    瀏覽量

    120904

原文標(biāo)題:【SLAM】SuperPoint 語(yǔ)義 SLAM 深度學(xué)習(xí)用于特征提取

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于卷積神經(jīng)網(wǎng)絡(luò)的雙重特征提取方法

    機(jī)器學(xué)習(xí)技術(shù)已被廣泛接受,并且很適合此類分類問(wèn)題?;诰矸e神經(jīng)網(wǎng)絡(luò)的雙重特征提取方法。提出的模型使用Radon拉冬變換進(jìn)行第一次特征提取,然后將此特征輸入卷積層進(jìn)行第二次
    發(fā)表于 10-16 11:30 ?585次閱讀
    基于卷積神經(jīng)網(wǎng)絡(luò)的雙重<b class='flag-5'>特征提取</b>方法

    模擬電路故障診斷中的特征提取方法

    實(shí)現(xiàn)時(shí)與神經(jīng)網(wǎng)絡(luò)有兩種結(jié)合方式:一是松散型結(jié)合,二是緊致型結(jié)合。松散型結(jié)構(gòu)是數(shù)據(jù)預(yù)處理采用的最常見的方式,目前緊致型結(jié)構(gòu)的小波神經(jīng)網(wǎng)絡(luò)也已成功用于模擬電路的去噪和特征提取。由于緊致型小波神經(jīng)網(wǎng)絡(luò)是用
    發(fā)表于 12-09 18:15

    HOOFR-SLAM的系統(tǒng)框架及其特征提取

    Intelligent Vehicles Applications1. 介紹2. HOOFR-SLAM2.1 系統(tǒng)框架2.2 HOOFR特征提取2.3 映射線程2.3.1 特征匹配1. 介紹提出一種HOOFR-...
    發(fā)表于 12-21 06:35

    基于已知特征項(xiàng)和環(huán)境相關(guān)量的特征提取算法

    在現(xiàn)有基于已知特征項(xiàng)特征提取算法的基礎(chǔ)上,提出一種基于已知特征項(xiàng)和環(huán)境相關(guān)量的特征提取算法。該算法通過(guò)已知特征項(xiàng)搜索頻繁項(xiàng)集,提高了
    發(fā)表于 04-18 09:37 ?17次下載

    故障特征提取的方法研究

    摘要:針對(duì)常規(guī)特征提取方法存在著問(wèn)題不足,提出了基于BP神經(jīng)網(wǎng)絡(luò)和基于互信息熵的特征提取方法,并通過(guò)特征提取實(shí)例加以說(shuō)明。結(jié)果表明這兩種方法是可行和有效的。
    發(fā)表于 03-11 13:14 ?1468次閱讀
    故障<b class='flag-5'>特征提取</b>的方法研究

    基于Gabor的特征提取算法在人臉識(shí)別中的應(yīng)用

    針對(duì)人臉識(shí)別中的特征提取問(wèn)題,提出一種新的基于Gabor的特征提取算法,利用Gabor小波變換良好的提取區(qū)分能力和LDA所具有的判別性優(yōu)勢(shì)來(lái)進(jìn)行特征提取。首先利用Gabor小波變換來(lái)
    發(fā)表于 01-22 14:25 ?54次下載

    Curvelet變換用于人臉特征提取與識(shí)別

    人臉檢測(cè)是一個(gè)非常復(fù)雜的模式,人臉面部特征提取及識(shí)別成為當(dāng)前計(jì)算機(jī)圖像處理相關(guān)學(xué)科的一個(gè)極具挑戰(zhàn)的課題。而基于Carvelet變換的人臉特征提取及識(shí)別的意義在于Curvelet繼承了小波分析優(yōu)良
    發(fā)表于 11-30 15:09 ?3786次閱讀
    Curvelet變換<b class='flag-5'>用于</b>人臉<b class='flag-5'>特征提取</b>與識(shí)別

    基于LBP的深度圖像手勢(shì)特征提取算法

    針對(duì)復(fù)雜環(huán)境下的深度圖像手勢(shì)特征提取信息冗余量大、編碼不穩(wěn)定等問(wèn)題,提出了一種改進(jìn)的基于曲率局部二值模式( LBP)的深度圖像手勢(shì)特征提取算法。該算法首先通過(guò)坐標(biāo)轉(zhuǎn)換將分割出的手勢(shì)
    發(fā)表于 12-11 16:21 ?4次下載

    基于主成分分析方向深度梯度直方圖的特征提取算法

    針對(duì)立體視覺(jué)深度特征提取精確度低、復(fù)雜度高的問(wèn)題,提出了一種基于主成分分析方向深度梯度直方圖( PCA-HODG)的特征提取算法。首先,對(duì)雙目立體視覺(jué)圖像進(jìn)行視差計(jì)算和
    發(fā)表于 12-26 14:32 ?0次下載
    基于主成分分析方向<b class='flag-5'>深度</b>梯度直方圖的<b class='flag-5'>特征提取</b>算法

    基于HTM架構(gòu)的時(shí)空特征提取方法

    針對(duì)人體動(dòng)作識(shí)別中時(shí)空特征提取問(wèn)題,提出一種基于層次時(shí)間記憶( HTM)架構(gòu)的深度學(xué)習(xí)模型,用來(lái)提取圖像幀的時(shí)空特征。將圖像幀構(gòu)建成樹型節(jié)點(diǎn)
    發(fā)表于 01-17 17:27 ?0次下載
    基于HTM架構(gòu)的時(shí)空<b class='flag-5'>特征提取</b>方法

    機(jī)器學(xué)習(xí)特征提取 VS 特征選擇

    機(jī)器學(xué)習(xí)特征選擇和特征提取區(qū)別 demi 在 周四, 06/11/2020 - 16:08 提交 1. 特征提取 V.S 特征選擇
    的頭像 發(fā)表于 09-14 16:23 ?4069次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>之<b class='flag-5'>特征提取</b> VS <b class='flag-5'>特征</b>選擇

    計(jì)算機(jī)視覺(jué)中不同的特征提取方法對(duì)比

    特征提取是計(jì)算機(jī)視覺(jué)中的一個(gè)重要主題。不論是SLAM、SFM、三維重建等重要應(yīng)用的底層都是建立在特征點(diǎn)跨圖像可靠地提取和匹配之上。特征提取
    的頭像 發(fā)表于 07-11 10:28 ?3165次閱讀

    如何看待SLAM技術(shù)不用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取?

    深度學(xué)習(xí)提取特征就一定好?顯然不是的。因?yàn)閿?shù)據(jù)集的原因,利用深度學(xué)習(xí)訓(xùn)練出的
    的頭像 發(fā)表于 05-19 10:21 ?1005次閱讀

    為什么目前落地的主流SLAM技術(shù)很少用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取

    深度學(xué)習(xí)提取特征就一定好?顯然不是的。因?yàn)閿?shù)據(jù)集的原因,利用深度學(xué)習(xí)訓(xùn)練出的
    的頭像 發(fā)表于 05-19 10:25 ?1123次閱讀
    為什么目前落地的主流<b class='flag-5'>SLAM</b>技術(shù)很少用神經(jīng)網(wǎng)絡(luò)進(jìn)行<b class='flag-5'>特征提取</b>?

    深度解析深度學(xué)習(xí)下的語(yǔ)義SLAM

    隨著深度學(xué)習(xí)技術(shù)的興起,計(jì)算機(jī)視覺(jué)的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展,例如目標(biāo)的檢測(cè)、識(shí)別和分類等領(lǐng)域。近年來(lái),研究人員開始在視覺(jué)SLAM算法中引入深度
    發(fā)表于 04-23 17:18 ?1228次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>下的<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>SLAM</b>