轉(zhuǎn)載自:數(shù)智地球
航空建筑深度估計(jì)是三維數(shù)字城市重建中的一項(xiàng)重要任務(wù),基于深度學(xué)習(xí)的多視圖立體(MVS)方法在該領(lǐng)域取得了較好的成果。目前的主要方法通過修改MVS 框架實(shí)現(xiàn)建筑物的深度估計(jì),缺乏對(duì)建筑物內(nèi)在結(jié)構(gòu)的考慮,易導(dǎo)致精度不足等問題。
本文提出了一種新穎的由粗到細(xì)的多視圖立體三維重建框架 EG-MVSNet,利用邊緣信息感知抽取機(jī)制以及邊緣信息多維融合機(jī)制實(shí)現(xiàn)了建筑物邊緣信息指導(dǎo)的深度估計(jì),使得模型能夠估計(jì)準(zhǔn)確的建筑物深度圖,進(jìn)而實(shí)現(xiàn)高精度的建筑物三維點(diǎn)云重建。
我們分別在WHU-MVS 數(shù)據(jù)集和LuoJia-MVS 數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明我們的方法達(dá)到了最佳水平,并具有在其他領(lǐng)域推廣使用的潛力。本文相關(guān)科研成果已于2023年12月被ISPRS期刊接收。
背景介紹
近年來,MVSNet通過構(gòu)建基于CNN特征的代價(jià)體,并使用3D CNN對(duì)其進(jìn)行正則化,在獲取深度圖等任務(wù)中表現(xiàn)出色。一些研究人員嘗試將該方法應(yīng)用于基于航空?qǐng)D像的大規(guī)模航空MVS重建,如 RED-Net、MS-REDNet 和 HDC-MVSNet,卻未考慮建筑物體本身結(jié)構(gòu)特征,導(dǎo)致重建精度較低。
具體來說,航拍視角通常會(huì)將建筑物與相鄰地形緊緊相連,因此當(dāng)航拍圖像采用傾斜攝影、照明不足或圖像分辨率較低時(shí),較難分辨出建筑物與地形的邊緣,導(dǎo)致相鄰地形的邊緣干擾建筑物表面深度值的分布,我們將該現(xiàn)象定義為深度粘連。該問題會(huì)導(dǎo)致航拍建筑物深度估計(jì)不準(zhǔn)確,進(jìn)一步影響到建筑物的精確重建。
如圖1中(b)所示,可以清楚地觀察到,不考慮建筑物邊緣信息的通用方法在航空建筑物圖像深度估計(jì)結(jié)果中容易出現(xiàn)前景(建筑物)與背景(地形)之間深度粘連的問題。
圖1 深度粘連問題的對(duì)比結(jié)果
在邊緣檢測(cè)領(lǐng)域,邊緣信息明確對(duì)應(yīng)著劇烈的梯度變化,因此融合邊緣信息有助于獲得更精確、更銳利的遮罩,緩解深度粘連問題。如圖1中(c)和(d)所示,在引入邊緣特征信息后可獲得更加精確的結(jié)果。綜上所述,如何提取有效的建筑物邊緣信息,同時(shí)將其融合至MVSNet網(wǎng)絡(luò)框架中是本文的主要研究?jī)?nèi)容。
方法介紹
2.1 整體框架
圖2 EG-MVSNet框架。網(wǎng)絡(luò)由兩部分組成,分別獲得邊緣圖、粗深度圖和精深度圖(紅框中展示了各圖的細(xì)節(jié)對(duì)比)。圖中粗體部分為提出的模塊,SFENet和代價(jià)體正則化網(wǎng)絡(luò)的架構(gòu)源自RED-Net。
網(wǎng)絡(luò)流程描述:
(1)建筑物邊緣特征提?。?/strong>第一部分的目的是獲取精確可靠的建筑邊緣特征,以便實(shí)現(xiàn)特征融合。具體來說,為了有效編碼邊緣特征,我們提出了一個(gè)邊緣感知網(wǎng)絡(luò)(Edge-Sensitive Network, ESNet)?;谔崛〉倪吘壧卣鳎梢酝ㄟ^可微的單映性變換構(gòu)建邊緣特征體 ,該特征體可以和標(biāo)準(zhǔn)代價(jià)體進(jìn)行融合,從而在第二部分對(duì)深度估計(jì)隱式地三維引導(dǎo)正則化。為確保 ESNet 主要關(guān)注建筑邊緣特征而非其他無關(guān)特征,我們利用類似于 UNet 的邊緣預(yù)測(cè)分支(EPB)預(yù)測(cè)邊緣圖 ,并利用建筑邊緣深度損失(BED-Loss)計(jì)算邊緣圖與生成的GT真實(shí)邊緣圖之間的損失,從而實(shí)現(xiàn)對(duì)于邊緣提取分支的約束。
(2)建筑物邊緣特征融合:第二部分旨在將建筑邊緣特征融合至標(biāo)準(zhǔn)MVS框架,即分別從2D和3D兩個(gè)維度對(duì)深度圖預(yù)測(cè)進(jìn)行引導(dǎo)。為了實(shí)現(xiàn)隱式的三維引導(dǎo),設(shè)計(jì)體間自適應(yīng)融合模塊(Inter-volume Adaptive Fusion Module, IAFM)融合邊緣特征體和標(biāo)準(zhǔn)代價(jià)體,從而得到邊緣引導(dǎo)代價(jià)體,進(jìn)一步通過3D-UNet來預(yù)測(cè)粗深度圖。為了實(shí)現(xiàn)顯式的2D引導(dǎo),設(shè)計(jì)邊緣深度細(xì)化模塊(EDRM),利用邊緣特征來細(xì)化粗糙深度圖,得到細(xì)化的深度圖。
2.2 邊緣感知網(wǎng)絡(luò)(ESNet)
為提取精確的建筑物邊緣特征我們提出ESNet 。目前的邊緣檢測(cè)網(wǎng)絡(luò)缺乏識(shí)別航空?qǐng)D像中建筑物邊緣的能力,因此ESNet 的設(shè)計(jì)考慮到了建筑物和MVSNet的特點(diǎn)。具體來說,由于索貝爾算子在經(jīng)典的邊緣檢測(cè)算法中被廣泛用于獲取線性信息,因此為了捕捉建筑物的剛性結(jié)構(gòu),我們將傳統(tǒng)的索貝爾算子轉(zhuǎn)化為動(dòng)態(tài)的索貝爾核(DSK),如圖3所示。
圖3 不同形式的索貝爾算子和可學(xué)習(xí)索貝爾核的圖示。(a) 顯示了四種不同形式的不可學(xué)習(xí)索貝爾算子。(b) 顯示參數(shù)化后的可微分索貝爾核
基于上述動(dòng)態(tài)的索貝爾核,可以將索貝爾算子轉(zhuǎn)換為可學(xué)習(xí)的卷積核實(shí)現(xiàn)模型優(yōu)化,提高模型對(duì)于線性特征的編碼能力。線性特征是由水平線、垂直線和斜線組成的,如果僅使用單一方向的線性特征提取 DSK(如 0° DSK 或 90° DSK),提取的斜線特征往往不夠充分。因此,我們將上述不同的 DSK 組合至同一層中,實(shí)現(xiàn)對(duì)任意方向的線性特征進(jìn)行編碼,有效捕捉了建筑物的邊緣結(jié)構(gòu)。
圖4 ESNet圖示。左圖:ESNet 由三個(gè)級(jí)聯(lián) DSK卷積組成。右圖:每個(gè)DSK卷積層的四路DSK
DSK 卷積層示意圖如圖4所示,使用四個(gè)不同方向的可微分DSK構(gòu)建 DSK卷積層從而實(shí)現(xiàn)對(duì)于復(fù)雜建筑的邊緣感知,進(jìn)一步將每個(gè)分支提取的特征圖串聯(lián)起來,得到最終的建筑物邊緣特征圖。每個(gè)分支分別對(duì)應(yīng) 0° DSK、45° DSK、90° DSK 和 135° DSK,每個(gè)分支使用不同類型的可微分 DSK 來提取線性特征。使用兩個(gè)卷積層對(duì)特征進(jìn)行去噪和降采樣,融合各分支提取的特征之后,得到最終的建筑邊緣特征圖。DSK卷積層的公式定義如下:
其中,[·]表示連接操作,wbi 分別代表各分支的卷積權(quán)重。
2.3 邊緣預(yù)測(cè)網(wǎng)絡(luò)(EPB)
基于ESNet提取的邊緣特征,我們提出了一個(gè)類似于UNet的邊緣預(yù)測(cè)分支。通過對(duì)邊緣特征進(jìn)行回歸,約束ESNet,使網(wǎng)絡(luò)重點(diǎn)關(guān)注建筑物邊緣特征,同時(shí)減少對(duì)其他無關(guān)特征的提取。考慮到邊緣圖預(yù)測(cè)類似于語義分割任務(wù),且UNet在語義分割任務(wù)中已經(jīng)取得了巨大成功,因此我們考慮在UNet的基礎(chǔ)上設(shè)計(jì)我們的邊緣圖預(yù)測(cè)分支,對(duì)邊緣特征進(jìn)行回歸以生成邊緣圖用于損失計(jì)算。EPB的整體架構(gòu)如圖2右上角所示。
具體來說,EPB使用2D UNet網(wǎng)絡(luò)回歸參考圖像邊緣特征,得到邊緣圖。EPB采用了編碼器-解碼器結(jié)構(gòu),可以有效地從寬廣的感受野中收集鄰近信息,而不會(huì)產(chǎn)生過多的內(nèi)存和計(jì)算消耗。在下采樣階段,邊緣特征被逐步下采樣為對(duì)應(yīng)于不同尺度的四個(gè)邊緣中間特征圖。隨后,解碼器對(duì)邊緣中間特征圖進(jìn)行上采樣,以恢復(fù)原始圖像大小,獲得邊緣圖。
EPB明確利用邊緣特征,同時(shí)隱式地優(yōu)化了深度圖,有效減輕了深度粘連問題。這一預(yù)測(cè)過程提高了邊緣特征的準(zhǔn)確性和可靠性,而邊緣特征在我們的整體框架中發(fā)揮著關(guān)鍵作用。此外,EPB提供可視化結(jié)果,對(duì)于驗(yàn)證方法的有效性并確保其達(dá)到預(yù)期目標(biāo)至關(guān)重要。
2.4 體間自適應(yīng)融合模塊(IAFM)
IAFM 的設(shè)計(jì)目的是將第1部分提取的2D建筑邊緣特征融入到MVS框架中,以此來指導(dǎo)3D代價(jià)體的正則化。因此需要將2D邊緣特征轉(zhuǎn)換為3D特征,以實(shí)現(xiàn)這種結(jié)合。MVSNet中的3D代價(jià)體是通過匹配不同深度、不同視圖以及不同空間位置的2D特征點(diǎn)之間的相似性來構(gòu)建的。受這一機(jī)制的啟發(fā),我們也采用了可微分單映性變換(differentiable homography warping)來構(gòu)建3D邊緣特征體,變換公式如下所示:
式中,T, K 分別代表相機(jī)的內(nèi)外參數(shù)。通過上述操作,我們將2D邊緣特征轉(zhuǎn)換至3D域。然而,在構(gòu)建的邊緣特征體中,并非所有的邊緣匹配信息都是有效的,我們的目標(biāo)是在融合過程中只將有效信息有選擇地融合到3D代價(jià)體中,而忽略無關(guān)信息。直接求和可能會(huì)導(dǎo)致邊緣特征體中的無效代價(jià)信息影響到代價(jià)體中的有效代價(jià)信息,如表面代價(jià)信息。因此,如果能自適應(yīng)地將有效的邊緣代價(jià)信息整合到代價(jià)體中,就能減輕無效代價(jià)信息的影響。
受啟發(fā)于注意力機(jī)制,我們提出了一種基于注意力機(jī)制的體間自適應(yīng)融合模塊(IFAM),通過利用注意力機(jī)制(由多個(gè)疊加卷積構(gòu)建)來增強(qiáng)邊緣代價(jià)信息,抑制非邊緣代價(jià)信息,從而增強(qiáng)邊緣特征體與代價(jià)體的融合。我們的IFAM 結(jié)構(gòu)如圖5所示。
圖5 IFAM圖示
具體來說,IFAM 通過應(yīng)用多個(gè)帶跳轉(zhuǎn)連接的疊加卷積來計(jì)算邊緣特征體的邊緣增強(qiáng)體。同樣,標(biāo)準(zhǔn)代價(jià)體的信息增強(qiáng)體也通過類似的機(jī)制獲得。IFAM 通過元素相加的方式實(shí)現(xiàn)融合,在兩個(gè)卷積層之后得到最終的邊緣引導(dǎo)代價(jià)體。因此,IFAM可以定義成如下公式:
綜上,IAFM即可通過使用邊緣特征引導(dǎo)標(biāo)準(zhǔn)代價(jià)體,進(jìn)而獲得更精確、更有效的深度圖。
2.5 邊緣深度細(xì)化模塊(EDRM)
然從概率體中得到深度圖是一個(gè)有效的輸出,但由于正則化過程中涉及到較大的感受野,可能會(huì)出現(xiàn)深度邊界過度平滑或模糊等問題,這是語義分割和圖像去噪任務(wù)中的一個(gè)常見問題。因此,可以在粗深度圖中加入邊緣特征,以獲得更詳細(xì)的邊緣信息并明確深度邊界,進(jìn)而緩解上述問題。
受此啟發(fā),通過探索使用2D邊緣特征完善初始粗深度圖,進(jìn)而增強(qiáng)建筑邊緣深度估計(jì)結(jié)果并提高深度圖的整體質(zhì)量。因此提出邊緣深度細(xì)化模塊(EDRM),利用提取的參考邊緣特征來優(yōu)化深度圖。
EDRM的結(jié)構(gòu)見圖2右下方。在該模塊中,我們首先將粗深度圖Dc與邊緣特征Fe0連接起來,然后將通過應(yīng)用于粗深度圖的兩個(gè)卷積層獲得的邊緣殘差信息納入其中。這一聚合過程能夠整合邊緣信息,并生成邊緣增強(qiáng)深度圖。最后,使用四個(gè)卷積層對(duì)邊緣增強(qiáng)深度圖進(jìn)行過濾,生成細(xì)化深度圖Dr。EDRM的公式可以定義為:
實(shí)驗(yàn)結(jié)果
3.1 WHU-MVS數(shù)據(jù)集
EG-MVSNet在WHU-MVS數(shù)據(jù)集上的結(jié)果如下表1所示:
表1 EG-MVSNet在WHU-MVS數(shù)據(jù)集定量分析
我們?cè)赪HU-MVS數(shù)據(jù)集上與現(xiàn)有最優(yōu)方法的定量對(duì)比如上表所示。我們具體對(duì)比了兩種視圖作為輸入(三視圖和五視圖)的結(jié)果,從結(jié)果上可以看出我們的方法都取得了最優(yōu)性能。其中,我們的方法在MAE指標(biāo)上,在三視圖上得到了0.097的結(jié)果,在五視圖上得到了0.081的結(jié)果,相較其他方法均得到了顯著提升。
EG-MVSNet在WHU-MVS數(shù)據(jù)集上深度估計(jì)對(duì)比圖如下圖6所示:
圖6 EG-MVSNet在WHU-MVS數(shù)據(jù)集深度估計(jì)對(duì)比圖
圖6展示了EG-MVSNet與大多數(shù)最優(yōu)方法的定性結(jié)果對(duì)比。如圖中邊緣圖的結(jié)果可以看出,我們的方法能夠準(zhǔn)確的估計(jì)出建筑物的邊緣圖。對(duì)比圖中局部細(xì)節(jié)的深度圖結(jié)果可以看出,我們的方法能夠估計(jì)出更加準(zhǔn)確的深度結(jié)果,有效的解決了深度粘連的問題。
3.2 LuoJia-MVS數(shù)據(jù)集
EG-MVSNet在Luo-Jia-MVS數(shù)據(jù)集上的結(jié)果如下表2所示:
表2 EG-MVSNet在LuoJia-MVS數(shù)據(jù)集定量分析
表2展示了我們的模型的其他地物要素類型數(shù)據(jù)集上的泛化能力。從上表可以看出無論是在三視圖估計(jì)亦或五視圖的深度估計(jì)上,我們的模型均可以取得相對(duì)不錯(cuò)的效果。
EG-MVSNet在LuoJia-MVS數(shù)據(jù)集上可視化效果對(duì)比圖如下圖7所示:
圖7 EG-MVSNet 在LuoJia-MVS數(shù)據(jù)集上可視化效果對(duì)比圖
從圖7可以看出,相比較于其他方法深度估計(jì)結(jié)果所展現(xiàn)出的深度粘連問題,我們的方法得益于能夠準(zhǔn)確的估計(jì)出建筑物的深度圖并且進(jìn)行充分的融合,能夠有效的解決深度粘連的問題,進(jìn)一步的提升了模型深度估計(jì)的質(zhì)量。
3.3 邊緣特征可視化
圖8 邊緣特征可視化結(jié)果
圖8為模型提取的邊緣特征圖可視化結(jié)果,觀察可知基于DSK卷積層,模型提取了十分準(zhǔn)確的建筑邊緣線性特征。從圖中右側(cè)部分可以看出模型估計(jì)的邊緣圖和原始圖像中建筑物的邊緣十分貼合,進(jìn)一步證明了模型估計(jì)邊緣的準(zhǔn)確性。
3.4 重建結(jié)果
如圖9所示是我們的模型對(duì)于城市區(qū)域的點(diǎn)云重建結(jié)果:
圖9 城市區(qū)域點(diǎn)云重建實(shí)驗(yàn)結(jié)果
如圖9所示,EG-MVSNet通過引入建筑物邊緣信息,基于高精度深度圖,較好地完成了城市區(qū)域的點(diǎn)云重建任務(wù)。
結(jié)論
我們提出了一種用于大規(guī)模航空建筑物多視圖立體的邊緣信息引導(dǎo)深度推理網(wǎng)絡(luò) EG-MVSNet,通過引入建筑物邊緣特征信息緩解深度粘連的問題,從而進(jìn)一步提高了估計(jì)深度圖的精度。
該網(wǎng)絡(luò)包括用于提取建筑物邊緣特征的邊緣感知網(wǎng)絡(luò)(ESNet)、用于建筑物邊緣預(yù)測(cè)網(wǎng)絡(luò)(EPB)和用于邊緣信息融合的體間自適應(yīng)融合模塊(IAFM)以及邊緣深度細(xì)化模塊(EDRM)。
實(shí)驗(yàn)結(jié)果表明,我們提出的方法達(dá)到了最先進(jìn)的性能,與所有列出的方法相比,具有極強(qiáng)的泛化能力。此外通過額外的定性實(shí)驗(yàn)以及可視化展示證明了我們的方法能夠有效的提取建筑物的邊緣信息,有效的解決了深度粘連的問題。
-
航空
+關(guān)注
關(guān)注
2文章
775瀏覽量
27284 -
三維重建
+關(guān)注
關(guān)注
0文章
26瀏覽量
9891 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5462瀏覽量
120874
原文標(biāo)題:建筑物邊緣感知和邊緣融合的多視圖立體三維重建方法
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論