?
今天介紹一下深度圖像的獲取方法主要有哪些,以及這些方法會(huì)導(dǎo)致深度圖像中存在什么樣的問(wèn)題。
在計(jì)算機(jī)視覺(jué)系統(tǒng)中,三維場(chǎng)景信息為圖像分割、目標(biāo)檢測(cè)、物體跟蹤等各類計(jì)算機(jī)視覺(jué)應(yīng)用提供了更多的可能性,而深度圖像(Depth map)作為一種普遍的三維場(chǎng)景信息表達(dá)方式得到了廣泛的應(yīng)用。深度圖像的每個(gè)像素點(diǎn)的灰度值可用于表征場(chǎng)景中某一點(diǎn)距離攝像機(jī)的遠(yuǎn)近。
獲取深度圖像的方法可以分為兩類:被動(dòng)測(cè)距傳感和主動(dòng)深度傳感。
In short:深度圖像的像素值反映場(chǎng)景中物體到相機(jī)的距離,獲取深度圖像的方法=被動(dòng)測(cè)距傳感+主動(dòng)深度傳感。
被動(dòng)測(cè)距傳感
被動(dòng)測(cè)距傳感中最常用的方法是雙目立體視覺(jué)[1,2],該方法通過(guò)兩個(gè)相隔一定距離的攝像機(jī)同時(shí)獲取同一場(chǎng)景的兩幅圖像,通過(guò)立體匹配算法找到兩幅圖像中對(duì)應(yīng)的像素點(diǎn),隨后根據(jù)三角原理計(jì)算出時(shí)差信息,而視差信息通過(guò)轉(zhuǎn)換可用于表征場(chǎng)景中物體的深度信息?;诹Ⅲw匹配算法,還可通過(guò)拍攝同一場(chǎng)景下不同角度的一組圖像來(lái)獲得該場(chǎng)景的深度圖像。除此之外,場(chǎng)景深度信息還可以通過(guò)對(duì)圖像的光度特征[3]、明暗特征[4]等特征進(jìn)行分析間接估算得到。
上圖展示了Middlebury Stereo Dataset中Tsukuba場(chǎng)景的彩色圖像、視差實(shí)際值與用Graph cuts算法得到的立體匹配誤差估計(jì)結(jié)果,該視差圖像可以用于表征場(chǎng)景中物體的三維信息。
可以看到,通過(guò)立體匹配算法得到的視差圖雖然可以得到場(chǎng)景的大致三維信息,但是部分像素點(diǎn)的時(shí)差存在較大誤差。雙目立體視覺(jué)獲得視差圖像的方法受限于基線長(zhǎng)度以及左右圖像間像素點(diǎn)的匹配精確度,其所獲得的視差圖像的范圍與精度存在一定的限制。
In short, 常用于深度圖像增強(qiáng)領(lǐng)域的測(cè)試數(shù)據(jù)集Middlebury Stereo Dataset屬于被動(dòng)測(cè)距傳感;被動(dòng)測(cè)距傳感=兩個(gè)相隔一定距離的相機(jī)獲得兩幅圖像+立體匹配+三角原理計(jì)算視差(disparity)
主動(dòng)測(cè)距傳感
主動(dòng)測(cè)距傳感相比較于被動(dòng)測(cè)距傳感最明顯的特征是:設(shè)備本身需要發(fā)射能量來(lái)完成深度信息的采集。這也就保證了深度圖像的獲取獨(dú)立于彩色圖像的獲取。近年來(lái),主動(dòng)深度傳感在市面上的應(yīng)用愈加豐富。主動(dòng)深度傳感的方法主要包括了TOF(Time of Flight)、結(jié)構(gòu)光、激光掃描等。
TOF相機(jī)
TOF相機(jī)獲取深度圖像的原理是:通過(guò)對(duì)目標(biāo)場(chǎng)景發(fā)射連續(xù)的近紅外脈沖,然后用傳感器接收由物體反射回的光脈沖。通過(guò)比較發(fā)射光脈沖與經(jīng)過(guò)物體反射的光脈沖的相位差,可以推算得到光脈沖之間的傳輸延遲進(jìn)而得到物體相對(duì)于發(fā)射器的距離,最終得到一幅深度圖像。
TOF相機(jī)所獲得的深度圖像有以下的缺陷:
1. 深度圖像的分辨率遠(yuǎn)不及彩色圖像的分辨率
2. 深度圖像的深度值受到顯著的噪聲干擾
3. 深度圖像在物體的邊緣處的深度值易出現(xiàn)誤差,而這通常是由于一個(gè)像素點(diǎn)所對(duì)應(yīng)的場(chǎng)景涵蓋了不同的物體表面所引起的。
除此之外,TOF相機(jī)的通常價(jià)格不菲。
結(jié)構(gòu)光與Kinect
結(jié)構(gòu)光是具有特定模式的光,其具有例如點(diǎn)、線、面等模式圖案。
基于結(jié)構(gòu)光的深度圖像獲取原理是:將結(jié)構(gòu)光投射至場(chǎng)景,并由圖像傳感器捕獲相應(yīng)的帶有結(jié)構(gòu)光的圖案。
由于結(jié)構(gòu)光的模式圖案會(huì)因?yàn)槲矬w的形狀發(fā)生變形,因此通過(guò)模式圖像在捕捉得到的圖像中的位置以及形變程度利用三角原理計(jì)算即可得到場(chǎng)景中各點(diǎn)的深度信息。
結(jié)構(gòu)光測(cè)量技術(shù)提供了高精度并且快速的三維信息,其在汽車(chē)、游戲、醫(yī)療等領(lǐng)域均已經(jīng)得到了廣泛的應(yīng)用。
基于結(jié)構(gòu)光的思想,微軟公司推出了一款低價(jià)優(yōu)質(zhì)的結(jié)合彩色圖像與深度圖像的體感設(shè)備Kinect,該設(shè)備被應(yīng)用于如人機(jī)交互(Xbox系列游戲機(jī))、三維場(chǎng)景重建、機(jī)器視覺(jué)等諸多領(lǐng)域。
微軟公司的Kinect有三個(gè)鏡頭,除了獲取RGB彩色圖像的攝像機(jī)之外,左右兩邊的鏡頭分別是紅外線發(fā)射器和紅外線CMOS攝像機(jī),這兩個(gè)鏡頭共同構(gòu)成了Kinect的深度傳感裝置,其投影和接收區(qū)域相互重疊,如下圖所示。
Kinect采用了一種名為光編碼(Light Coding)的技術(shù),不同于傳統(tǒng)的結(jié)構(gòu)光方法投射一幅二維模式圖案的方法,Kinect的光編碼的紅外線發(fā)射機(jī)發(fā)射的是一個(gè)具有三維縱深的“立體編碼”。光編碼的光源被稱為激光散斑,其形成原理是激光照射到粗糙物體或穿透毛玻璃后得到了隨機(jī)的衍射斑點(diǎn)。激光散斑具有高度的三維空間隨機(jī)性。當(dāng)完成一次光源標(biāo)定后,整個(gè)空間的散斑圖案都被記錄,因此,當(dāng)物體放進(jìn)該空間后,只需得知物體表面的散斑圖案,就可以知道該物體所處的位置,進(jìn)而獲取該場(chǎng)景的深度圖像。紅外攝像機(jī)捕獲的紅外散斑圖像如下圖所示,其中左側(cè)的圖片展現(xiàn)了右側(cè)圖片中框中的細(xì)節(jié)。
Kinect低廉的價(jià)格與實(shí)時(shí)高分辨率的深度圖像捕捉特性使得其在消費(fèi)電子領(lǐng)域得到了迅猛發(fā)展,然而Kinect的有效測(cè)距范圍僅為800毫米到4000毫米,對(duì)處在測(cè)距范圍之外的物體,Kinect并不能保證準(zhǔn)確深度值的獲取。Kinect捕獲的深度圖像存在深度缺失的區(qū)域,其體現(xiàn)為深度值為零,該區(qū)域意味著Kinect無(wú)法獲得該區(qū)域的深度值。而除此之外,其深度圖像還存在著深度圖像邊緣與彩色圖像邊緣不對(duì)應(yīng)、深度噪聲等問(wèn)題。Kinect所捕獲的彩色圖像與深度圖像如下圖所示。
Kinect所捕獲的深度圖像產(chǎn)生深度缺失區(qū)域的原因多種多樣。除了受限于測(cè)距范圍,一個(gè)重要的原因是目標(biāo)空間中的一個(gè)物體遮擋了其背后區(qū)域。這種情況導(dǎo)致了紅外發(fā)射器所投射的圖案無(wú)法照射到背后區(qū)域上,而背后區(qū)域卻有可能被處在另一個(gè)視角的紅外攝像機(jī)捕捉到,然而該區(qū)域并不存在散斑圖案,該區(qū)域的深度信息也就無(wú)法被獲得?!綩ops,原來(lái)遮擋是這樣導(dǎo)致了深度值缺失,作者果然厲害,兩句話讓人茅塞頓開(kāi)!】物體表面的材質(zhì)同樣會(huì)影響Kinect深度圖像的獲取。當(dāng)材質(zhì)為光滑的平面時(shí),紅外投射散斑光束在物體表面產(chǎn)生鏡面反射,紅外攝像機(jī)無(wú)法捕捉該物體反射的紅外光,因此也就無(wú)法捕獲到該表面的深度;當(dāng)材質(zhì)為吸光材料時(shí),紅外投射散斑被該表面所吸收而不存在反射光,紅外攝像機(jī)同樣無(wú)法捕捉到該表面的深度信息?!静馁|(zhì)對(duì)深度缺失的影響,分析到位】除此之外,Kinect所捕獲的深度圖像存在的與彩色圖像邊緣不一致的問(wèn)題主要是由彩色攝像機(jī)與紅外攝像機(jī)的光學(xué)畸變引起的。
激光雷達(dá)
激光雷達(dá)測(cè)距技術(shù)通過(guò)激光掃描的方式得到場(chǎng)景的三維信息。其基本原理是按照一定時(shí)間間隔向空間發(fā)射激光,并記錄各個(gè)掃描點(diǎn)的信號(hào)從激光雷達(dá)到被測(cè)場(chǎng)景中的物體,隨后又經(jīng)過(guò)物體反射回到激光雷達(dá)的相隔時(shí)間,據(jù)此推算出物體表面與激光雷達(dá)之間的距離。
激光雷達(dá)由于其測(cè)距范圍廣、測(cè)量精度高的特性被廣泛地用于室外三維空間感知的人工智能系統(tǒng)中,例如自主車(chē)的避障導(dǎo)航、三維場(chǎng)景重建等應(yīng)用中。下圖展示的是激光雷達(dá)Velodyne HDL-64E在自主車(chē)中的應(yīng)用,該激光雷達(dá)能夠獲取360°水平方向上的全景三維信息,其每秒能夠輸出超過(guò)130萬(wàn)個(gè)掃描點(diǎn)的數(shù)據(jù)。全向激光雷達(dá)曾在美國(guó)舉辦的DARPA挑戰(zhàn)賽中被許多隊(duì)伍所采用,其也成為了自主行駛車(chē)輛的標(biāo)準(zhǔn)配置。
然而,激光雷達(dá)所捕獲的三維信息體現(xiàn)在彩色圖像坐標(biāo)系下是不均勻并且稀疏的。由于單位周期內(nèi),激光掃描的點(diǎn)數(shù)是有限的,當(dāng)把激光雷達(dá)捕獲的三維點(diǎn)投射到彩色圖像坐標(biāo)系下得到深度圖像時(shí),其深度圖像的深度值以離散的點(diǎn)的形式呈現(xiàn),深度圖像中許多區(qū)域的深度值是未知的。這也就意味著彩色圖像中的某些像素點(diǎn)并沒(méi)有對(duì)應(yīng)的深度信息。
總結(jié)
用一個(gè)圖來(lái)總結(jié)下內(nèi)容吧。
參考論文:
浙大2014年劉俊毅的碩士論文《彩色圖像引導(dǎo)的深度圖像增強(qiáng)》
編輯:黃飛
?
評(píng)論
查看更多