王一波,梁偉鄯,趙 云
(柳州工學(xué)院,廣西 柳州 545616)
摘 要 :視覺(jué)SLAM相比激光SLAM成本低、潛在功能強(qiáng)大,VO(前端)算法是視覺(jué)SLAM走向應(yīng)用的關(guān)鍵。針對(duì)VO特征點(diǎn)法存在計(jì)算復(fù)雜、耗時(shí)長(zhǎng)的問(wèn)題,從理論上研究了圖像配準(zhǔn)的一致性問(wèn)題,分別定義了基于像素、信息熵、內(nèi)容以及特征的圖像一致性,建立了基本的圖像配準(zhǔn)評(píng)價(jià)框架。提出了基于信息熵最大化原則RGB變換灰度圖像算法,分析了基于像素圖像配準(zhǔn)算法潛在問(wèn)題,提出了基于邊緣特征的圖像配準(zhǔn)算法,包括灰度變換、高斯濾波、基于canny算子的邊緣檢測(cè)和邊緣修剪等,利用Hausdorff距離求解二值圖像相似度,Hausdorff距離越小則圖像越相似。實(shí)驗(yàn)對(duì)圖像平移和旋轉(zhuǎn),比較其與原始圖像的相似度,表明該評(píng)價(jià)算法可以比較可靠地評(píng)價(jià)圖像配準(zhǔn)質(zhì)量,為重建圖像幀間運(yùn)動(dòng)提供依據(jù)。
中圖分類(lèi)號(hào) :TP391 文獻(xiàn)標(biāo)識(shí)碼 :A? ? ?
文章編號(hào) :2095-1302(2022)08-0027-04
0 引 言
視覺(jué)SLAM(Simultaneous Localization and Mapping,SLAM)具有成本低、應(yīng)用場(chǎng)景廣的特點(diǎn),但目前尚未廣泛落地,主要受限于其算法復(fù)雜、魯棒性較差等問(wèn)題。目前的視覺(jué) SLAM 架構(gòu)一般包含前端(視覺(jué)里程計(jì))、后端、回環(huán)檢測(cè)和建圖,其中前端即VO(Visual Odometry, VO),這是決定算法表現(xiàn)優(yōu)劣的重要因素。目前VO的實(shí)現(xiàn)方法主要有特征點(diǎn)法和光流法[1-2]。前者存在關(guān)鍵點(diǎn)提取耗時(shí)長(zhǎng)、信息利用不充分以及對(duì)場(chǎng)景的紋理要求高等問(wèn)題,光流法的優(yōu)點(diǎn)在于光流不僅攜帶了運(yùn)動(dòng)物體的運(yùn)動(dòng)信息,而且還攜帶了場(chǎng)景三維結(jié)構(gòu)的豐富信息,但同樣存在計(jì)算耗時(shí)、實(shí)時(shí)性、實(shí)用性較差等問(wèn)題[3-6]。為此,改進(jìn)VO的處理算法非常重要??紤]到攝像機(jī)運(yùn)動(dòng)過(guò)程中姿態(tài)的連續(xù)變化,若采樣圖像時(shí)間間隔足夠小,則攝像機(jī)姿態(tài)變化將發(fā)生在相對(duì)有限的范圍,反映在圖像上,相鄰幀圖像將具有足夠的相似度,為采用直接圖像配準(zhǔn)算法創(chuàng)造了條件。本文將面向視覺(jué)SLAM應(yīng)用實(shí)際,充分挖掘圖像特征,構(gòu)建直接圖像配準(zhǔn)評(píng)價(jià)算法,提高VO的處理效率。
1 圖像一致性
1.1 基于像素的圖像一致性 定義1圖像 I1(x, y)、I2(x',y'),對(duì)于任意像素 (x,y),如果I2(x',y')=T(I1(x,y),x,y),且存在 I1(x,y)=T-1(I2(x',y'),x',y'),則圖像I1(x,y)、I2(x',y') 為理想一致。由上述定義可知,當(dāng)圖像經(jīng)過(guò)某種變換或者組合變換得到新的圖像,可以找到相應(yīng)的逆變換,使變換后的圖像完全恢復(fù)到原圖像。例如,圖像發(fā)生平移、旋轉(zhuǎn)、錯(cuò)切等變換,可通過(guò)逆變換加以恢復(fù)。 定義2圖像I1(x,y)、I2(x,y),對(duì)于任意像素 (x,y),如果I2(x',y')=aI1(x,y),a為任意正實(shí)數(shù),則圖像I1(x,y)、I2(x',y')為完全一致。 定義3圖像I1(x,y)、I2(x',y'),對(duì)于任意像素 (x,y)∈D,D為I1(x,y) 的有限非空集,如果 I2(x',y')=T(I1(x,y),x,y),且存在I1(x,y)=T-1(I2(x',y'),x',y'),則圖像I1(x,y)、I2(x',y')為部分一致。 實(shí)際應(yīng)用中,圖像為二維有限序列,圖像間的一致性判別通常是在有限區(qū)域內(nèi)進(jìn)行,這樣部分一致性更具有應(yīng)用價(jià)值。根據(jù)以上定義,不同的應(yīng)用對(duì)于圖像一致性的要求不同,以下分別定義基于信息熵的一致性、基于內(nèi)容的一致性和基于特征的一致性,以滿(mǎn)足不同的應(yīng)用。
1.2 基于信息熵的圖像一致性 按照Marr計(jì)算理論 [7],圖像中的信息即圖像中顏色或亮度的變化,呈現(xiàn)出的是物體和物體的關(guān)系以及與人的關(guān)系的要素。如果把一幅圖像看作一個(gè)虛構(gòu)零記憶“信源”的輸出時(shí),可以通過(guò)觀察圖像的直方圖來(lái)估計(jì)該信源的符號(hào)概率。假設(shè)圖像I大小為M×N,灰度范圍為[0,L-1],rk為此區(qū)間的離散灰度隨機(jī)變量,nk為第k級(jí)灰度在圖像中出現(xiàn)的次數(shù)。這時(shí),信源的熵變?yōu)?:
式中,
定義4圖像I1(x,y)、I2(x',y'),對(duì)于任意像素 (x,y),如果H(I2)=H(I1),則圖像I1(x,y)、I2(x',y') 信息熵完全一致;如果H(I2)-H(I1)
顯然信息完全一致在實(shí)際中很難滿(mǎn)足。在圖像傳輸及圖像壓縮過(guò)程中,圖像信息熵一致性判別十分重要。
1.3 基于內(nèi)容的圖像一致性
定義5I1(x,y)→struct{w1, w2, ..., wn},I2(x',y')→struct{w1',w2', ..., wn'},其中,wk、wk'表示I1(x, y)、I2(x', y' ) 經(jīng)語(yǔ)義分割得到的語(yǔ)義實(shí)體,struct表示語(yǔ)義實(shí)體間的結(jié)構(gòu)關(guān)系,如果struct{w1,w2, ...,wn}=struct{w1',w2', ...,wn'},則圖像I1(x,y)、I2(x',y' ) 為內(nèi)容完全一致;如果w1=w1', w2=w2', ..., wn=wn',則圖像I1(x,y)、I2(x',y') 為內(nèi)容部分一致。顯然,滿(mǎn)足內(nèi)容完全一致條件必然滿(mǎn)足內(nèi)容部分一致條件。基于內(nèi)容的圖像一致性判別,對(duì)于圖像跟蹤、場(chǎng)景識(shí)別等應(yīng)用領(lǐng)域具有重要意義。
1.4 基于特征的圖像一致性
定義6特征一致定義:圖像I1(x,y) →{f1, f2, ..., fn},圖像I2(x, y) →{f1', f2', ..., fn'},fk、fk' 表示I1(x,y)、I2(x',y' ) 經(jīng)特征提取得到的特征,如果對(duì)于任意特征,滿(mǎn)足F(f1)=F(f1'),F(xiàn)(f2)=F(f2'), ..., F(fn)=F(fn'),其中,F(xiàn)(·) 為對(duì)特征進(jìn)行某種運(yùn)算,則圖像I1(x, y)、I2(x', y' ) 為特征完全一致;如果F(fk)=F(fk'), k=1, 2, ..., m, m
同樣,滿(mǎn)足特征完全一致條件必然滿(mǎn)足特征部分一致條件?;谔卣饕恢屡袆e的意義在于可以為某些場(chǎng)景配準(zhǔn)提供理論依據(jù)。
2 圖像配準(zhǔn)評(píng)價(jià)算法
視覺(jué)SLAM的VO,主要任務(wù)即確定相鄰幀圖像間的運(yùn)動(dòng)關(guān)系。如果采用優(yōu)化技術(shù)對(duì)運(yùn)動(dòng)參數(shù)空間進(jìn)行搜索,則需確定優(yōu)化目標(biāo)函數(shù),它反映的是相鄰兩幀圖像的配準(zhǔn)程度。根據(jù)上一節(jié)的定義,在VO中可以基于像素的一致性來(lái)對(duì)配準(zhǔn)進(jìn)行初始評(píng)價(jià),也可基于特征的一致性來(lái)對(duì)配準(zhǔn)進(jìn)行深層次評(píng)價(jià)。一般,VO中采集的圖像為RGB圖像,首先需將其變換為灰度圖像。
2.1 RGB 圖像灰度變換
為最大限度利用RGB 圖像信息,本文將基于圖像信息熵確定灰度變換的權(quán)值,算法步驟如下 :
(1)計(jì)算RGB圖像三個(gè)通道IR、IG、IB的信息熵 :
式中:HR、HG、HB 分別為IR、IG、IB三個(gè)圖層對(duì)應(yīng)的信息熵;pR(Rk)、pG(Gk)、pB(Bk) 分別是IR、IG、IB三個(gè)通道的直方圖統(tǒng)計(jì)量。
(2)根據(jù)圖像信息量確定三個(gè)通道的權(quán)重。為最大限度保留圖像信息,按照信息量的大小分配權(quán)重 :
(3)基于信息量RGB圖像線性變換為灰度圖像 :
式中,R、G、B分別是RGB圖像任意像素的分量。
2.2 基于像素的圖像配準(zhǔn)評(píng)價(jià)
假設(shè)VO采集的兩幀圖像依次為I1(x,y)、I2(x',y' ),大小同為M×N,將I1(x,y)看作參考圖像,則I2' (x,y)=T(I2(x',y'), x',y'),其中T 包含了攝像機(jī)的運(yùn)動(dòng) :平移tx、ty、tz,旋轉(zhuǎn) θ(pitch)、φ(roll)、ψ(yaw)。理想情況下,評(píng)價(jià)函數(shù)定義為 : 式中,A={(x,y)|I1(x,y)=I2'(x,y)},Num(A) 越大則圖像配準(zhǔn)度越高,當(dāng)Num(A)=M×N 時(shí),則完全配準(zhǔn),即基于像素完全一致。 攝像機(jī)在采集兩幅圖像時(shí)光照條件可能存在差異,如果考慮光照的影響,則評(píng)價(jià)函數(shù)定義仍為式(1),A={(x,y)|I1(x,y)=αI2'(x,y)},α為亮度調(diào)節(jié)參數(shù),取值不同,則A不同,A包含的元素?cái)?shù)量也將不同。因此,Num(A)=max{Num({(x,y)|I1(x,y)=αI2'(x,y)})}。 基于像素的圖像配準(zhǔn)評(píng)價(jià)思想簡(jiǎn)單,但實(shí)現(xiàn)相對(duì)復(fù)雜。圖像比較時(shí)需考慮參數(shù)α的影響,需要進(jìn)行優(yōu)化計(jì)算,耗時(shí)較長(zhǎng)。同時(shí)由于數(shù)字圖像在變換過(guò)程中會(huì)進(jìn)行插值運(yùn)算,相應(yīng)像素的亮度值取決于插值算法,這也給配準(zhǔn)評(píng)價(jià)帶來(lái)了不確定性。
2.3 基于邊緣特征的圖像配準(zhǔn)評(píng)價(jià)
假設(shè)VO采集的兩幀圖像依次為I1(x,y)、I2(x',y' ),大小同為M×N,將I1(x,y) 看作參考圖像,算法步驟如下 : (1)對(duì)圖像I1(x,y)、I2(x',y' ) 進(jìn)行高斯濾波 : 式中,。 (2)運(yùn)用canny算子提取濾波后圖像邊緣,假設(shè)前一幀圖像邊緣特征集合Ω1={f1, f2, ..., fn},后一幀邊緣特征集合Ω2={f1', f2', ..., fm'}。 (3)從圖像中直接提取的邊緣既包含環(huán)境中物體的紋理或邊界,也包含因圖像噪聲導(dǎo)致的灰度突變而產(chǎn)生的噪聲邊緣 [8]。和正確邊緣相比,噪聲邊緣因噪聲點(diǎn)具有隨機(jī)性的原因,其長(zhǎng)度更短。對(duì)Ω1、Ω2進(jìn)行預(yù)處理,包括刪除細(xì)小邊緣、剪除細(xì)小枝節(jié)。 if L(fk)
首先,計(jì)算集合Ω1中的任意點(diǎn)ai到集合Ω2' 的最短距離,然后對(duì)Ω1中的所有點(diǎn)進(jìn)行排序。假設(shè)集合Ω1邊緣點(diǎn)個(gè)數(shù)NΩ1,則前向部分Hausdorff距離為以上序列的第 Kth=fF×NΩ1;同理,后向部分 Hausdorff 距離為Ω2' 序列的第Kth=fR×NΩ2'。
HfF fR(Ω1,Ω2') 越小,則兩幅圖像的配準(zhǔn)越高,當(dāng)HfF fR(Ω1,Ω2')=0時(shí),表示完全配準(zhǔn),即基于特征完全一致。
3 實(shí)驗(yàn)及分析
為驗(yàn)證本文提出的圖像配準(zhǔn)評(píng)價(jià)算法,任意采集一幅圖像,依次對(duì)其進(jìn)行不同距離的平移和不同角度的旋轉(zhuǎn),比較變換后圖像與原始圖像的Hausdorff 距離。首先根據(jù)上節(jié)提出的算法步驟,對(duì)圖像進(jìn)行預(yù)處理,其結(jié)果如圖1所示。
原始圖像依次沿x軸、y軸平移50、100、150,然后提取其邊緣特征并做修剪處理,其結(jié)果如圖2、圖3所示。分別計(jì)算平移后圖像與原始圖像的Hausdorff 距離為45.07、62.14、77.62,平移越小,Hausdorff 距離越小,配準(zhǔn)程度也越高,與視覺(jué)感受一致。
原始圖像依次以圖像原點(diǎn)為軸逆時(shí)針旋轉(zhuǎn),然后提取其邊緣特征并做修剪處理,其結(jié)果如圖4、圖5所示。分別計(jì)算平移后圖像與原始圖像Hausdorff距離為50.60、59.48、68.94,旋轉(zhuǎn)越小,Hausdorff 距離越小,配準(zhǔn)程度越高,與視覺(jué)感受一致。
4 結(jié) 語(yǔ)
本文針對(duì)視覺(jué)SLAM的VO廣泛使用的特征點(diǎn)法以及光流法存在的問(wèn)題,尋求建立一種更加簡(jiǎn)便且穩(wěn)定的圖像配準(zhǔn)算法,該算法以圖像一致性為理論基礎(chǔ),利用VO順序采集圖像的幀間特點(diǎn),最后通過(guò)實(shí)驗(yàn)驗(yàn)證了所設(shè)計(jì)的基于邊緣特征一致性的圖像配準(zhǔn)評(píng)價(jià)符合VO應(yīng)用的視覺(jué)要求。今后,將按照此思路繼續(xù)開(kāi)展圖像運(yùn)動(dòng)參數(shù)搜索算法研究,完善以圖像配準(zhǔn)為基礎(chǔ)的VO技術(shù)框架。
注:本文通訊作者為梁偉鄯。
參考文獻(xiàn)
[1] CADENA C,CARLONE L,CARRILLO H,et al. Past, present,and future of simultaneous localization and mapping: toward therobust perception age [J]. IEEE transactions on robotics,2016,32(6):1309-1332.
[2] GUILLAUME B,ZAYED A,LI Y,et al. Simultaneouslocalization and mapping: A survey of current trends in autonomousdriving [J]. IEEE transactions on intelligent vehicles,2017,2(3):194-220.
[3] 陳致遠(yuǎn),涂群章,張?jiān)斊?,?. 足式爬行機(jī)器人研究進(jìn)展與發(fā)展趨勢(shì) [J]. 兵器裝備工程學(xué)報(bào),2020,41(9):1-12.
[4] 胡章芳,張杰,程亮 . 融合特征法與直接法的 RGB-D 稠密視覺(jué)SLAM 算法 [J]. 半導(dǎo)體光電,2020,41(4):548-554.
[5] 郝洛瑩 . 基于視覺(jué)慣性里程計(jì)的 SLAM 系統(tǒng)研究 [D]. 深圳:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院),2020.
[6] 王勃 . 基于光流法運(yùn)動(dòng)估計(jì)的室內(nèi)視覺(jué)定位方法研究 [D]. 重慶:重慶理工大學(xué),2019.
[7] Marr David. Vision[M].San Franci-sco: Freeman Publishers,1982.
[8] 田超然 . 面向視覺(jué) SLAM 的聯(lián)合特征匹配和跟蹤算法研究 [D]. 深圳:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院),2020.
[9] 楊維 . 面向場(chǎng)景理解的景象匹配方法研究 [D]. 成都:電子科技大學(xué),2017.
[10] HUTTENLOCHER D,KLANDERMAN G,RUCKLIDGEW. Comparing images using the hausdorff distance [J]. IEEEtransactions on pattern analysis & machine intelligence,1993,15(9):850-863.
作者簡(jiǎn)介: 王一波(1981—),男,山西大同人,博士,高級(jí)工程師,研究方向?yàn)?a href="http://ttokpm.com/tags/機(jī)器視覺(jué)/" target="_blank">機(jī)器視覺(jué)、人工智能、工業(yè)控制。 梁偉鄯(1989—),男,廣西貴港人,碩士,講師,研究方向?yàn)?a href="http://ttokpm.com/v/tag/232/" target="_blank">嵌入式開(kāi)發(fā)、信號(hào)處理。 趙 云(1982—),女,廣西柳州人,碩士,講師,研究方向?yàn)樾畔⑻幚怼??
編輯:黃飛
?
評(píng)論
查看更多