摘要:我們提出了一種帶有分層分類器的卷積網(wǎng)絡(luò),可針對每個(gè)像素進(jìn)行語義分割,能夠在多個(gè)異構(gòu)數(shù)據(jù)集上進(jìn)行訓(xùn)練并可開發(fā)它們的語義層次結(jié)構(gòu)。我們的網(wǎng)絡(luò)是第一個(gè)同時(shí)在智能交通工具領(lǐng)域的三個(gè)不同數(shù)據(jù)集(即Cityscapes,GTSDB和Mapillary Vistas)上訓(xùn)練的網(wǎng)絡(luò),并且能夠處理不同的細(xì)節(jié)語義級別、類別不平衡和不同的注釋類型,即密集的每像素和稀疏的邊界框標(biāo)簽。我們通過與平面,非等級分類器進(jìn)行比較來評估我們的分層方法,并且我們顯示Cityscapes類的平均像素精度為13.0%,Vistas類為2.4%,GTSDB類為32.3%。對于在GPU上運(yùn)行的108個(gè)類,我們在520 x 706的分辨率下實(shí)現(xiàn)了17 fps的推理速率。
作者:Panagiotis Meletis and Gijs Dubbelman
第一節(jié),介紹:
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,按照像素分類提出的分割任務(wù)在過去幾年中取得了很大進(jìn)展[2],語義分類成為自動(dòng)駕駛汽車感知子系統(tǒng)中的一項(xiàng)關(guān)鍵任務(wù)。然而,兩個(gè)關(guān)鍵挑戰(zhàn)仍然需要解決:1)盡可能多地利用各種訓(xùn)練數(shù)據(jù); 2)將可識(shí)別類的數(shù)量從幾十個(gè)增加到幾乎任何場景可以包含的內(nèi)容。
在這項(xiàng)工作中,為了解決這兩個(gè)挑戰(zhàn),我們積極采取措施并提出一種方法,利用具有不同類和注釋類型的多個(gè)異構(gòu)數(shù)據(jù)集,來訓(xùn)練一個(gè)完全卷積網(wǎng)絡(luò)進(jìn)行每個(gè)像素語義分割。這種方法有助于更好地使用可用數(shù)據(jù)集,從而減少注釋工作量,并增加可識(shí)別的類的數(shù)量。我們在高度自動(dòng)駕駛(HAD)環(huán)境中使用的數(shù)據(jù)集是Cityscapes[3],Mapillary Vistas [4]和GTSDB [5]。
第一個(gè)挑戰(zhàn),即對具有不同注釋的語義分段的訓(xùn)練,在先前的工作[6][7]中一般會(huì)通過外部組件到網(wǎng)絡(luò)中進(jìn)行處理,以便生成偽的每個(gè)像素基礎(chǔ)事實(shí)。相比之下,我們的方法是自包含的,使用網(wǎng)絡(luò)自身的輸出來細(xì)化不兼容的、多樣的注釋以進(jìn)行監(jiān)督。
第二個(gè)挑戰(zhàn),即增加可識(shí)別類的數(shù)量,可以通過兩種方式來完成: 1 )用額外(子)類(例如[8] )繼續(xù)按像素注釋現(xiàn)有數(shù)據(jù)集;2 )僅對新(子)類使用現(xiàn)有輔助數(shù)據(jù)集。第一種方法對于大數(shù)據(jù)集來說可能非常昂貴,并且是不必要的,因?yàn)榇嬖诖罅烤哂屑?xì)粒度(子)類的數(shù)據(jù)集(例如交通標(biāo)志類型、汽車模型、行人)。
圖1.我們在推理過程中的層次分類卷積網(wǎng)絡(luò)。輸入圖像被轉(zhuǎn)換為共享特征表示,其通過適配子網(wǎng)連接到分類器的層次結(jié)構(gòu)。Level-1分類器輸出對圖像的每個(gè)像素的預(yù)測,而每個(gè)后續(xù)分類器僅推斷其自己的一組類。將所有級別的輸出進(jìn)行組合,形成最終的細(xì)粒度每像素分割。
在我們的工作中,我們研究的是第二種方法。為此,數(shù)據(jù)集的異質(zhì)性(即不同的標(biāo)簽空間和注釋類型)對于將它們與傳統(tǒng)的“平面”(即非分層的)分類器組合提出了挑戰(zhàn)。因此,我們建議使用分層分類器,它明確地利用數(shù)據(jù)集之間的語義關(guān)系,并與平面分類器進(jìn)行比較。我們的層次結(jié)構(gòu)與[9][10]相當(dāng),但它提供的可擴(kuò)展性不同。
在第二節(jié),我們描述了我們的分層方法所解決的確切挑戰(zhàn)。一個(gè)例子是Cityscapes和GTSDB的綜合培訓(xùn)。在這種情況下,所有GTSDB類都是Cityscapes中交通標(biāo)志類的子類。在傳統(tǒng)的平面分類器中直接結(jié)合兩個(gè)數(shù)據(jù)集的類的簡單方法是不可行的,因?yàn)橐粋€(gè)交通標(biāo)志像素不能根據(jù)它來自的數(shù)據(jù)集有不同的標(biāo)簽。這給平面分類器的端到端訓(xùn)練和推理帶來了挑戰(zhàn),而我們的分級分類方案可以解決這些挑戰(zhàn)。
第三節(jié)我們提供了一般分層方法的基本原理;第四節(jié)我們提供了實(shí)施的細(xì)節(jié);在第五節(jié),我們演示了使用三個(gè)異構(gòu)數(shù)據(jù)集的層次分類器的性能增益,而不是使用平面的、非層次的分類器。此外,我們展示了使用我們提出的方法可對公共特征表示進(jìn)行多數(shù)據(jù)集訓(xùn)練可以提高所有數(shù)據(jù)集的性能,而不管它們的結(jié)構(gòu)差異如何。
綜上所述,本研究對每個(gè)像素語義分割的貢獻(xiàn)如下:
一種對數(shù)據(jù)集進(jìn)行組合訓(xùn)練的方法,該數(shù)據(jù)集具有分離但語義相連的標(biāo)簽空間。
分層分類器的模塊化體系結(jié)構(gòu),可以取代現(xiàn)代卷積網(wǎng)絡(luò)中的分類階段。
我們的系統(tǒng)實(shí)施可供研究界[11]使用。此外,我們?yōu)镚TSDB交通標(biāo)志子類提供了Cityscapes數(shù)據(jù)集的每個(gè)像素注釋,我們將其用于驗(yàn)證目的,但不需要進(jìn)行訓(xùn)練。在本文中,我們將此數(shù)據(jù)集稱為Cityscapes Extended。
第二節(jié),來自多個(gè)數(shù)據(jù)集訓(xùn)練的挑戰(zhàn)
由于數(shù)據(jù)集的結(jié)構(gòu)差異,對多個(gè)數(shù)據(jù)集的端到端監(jiān)督訓(xùn)練可能面臨許多挑戰(zhàn)。其中最重要的挑戰(zhàn)可分為以下幾類:
語義層面的細(xì)節(jié):每個(gè)數(shù)據(jù)集都標(biāo)有一組語義類。在樸素平面分類方法中,分類器的輸出將是來自所有數(shù)據(jù)集的類的聯(lián)合。一個(gè)數(shù)據(jù)集中的類的語義很可能包含在另一個(gè)數(shù)據(jù)集的類的語義中。如果這些類被放置在相同的級別上,就像在平面分類器中一樣,則會(huì)發(fā)生監(jiān)督?jīng)_突,因?yàn)閷儆谕徽Z義類的一些像素將被標(biāo)記為不同的類。
對于我們的三個(gè)數(shù)據(jù)集來說,這一挑戰(zhàn)出現(xiàn)在三種情況下: 1 ) Cityscapes將其道路等級定義為“汽車通常行駛的部分地面”,包括車道標(biāo)記、自行車道、坑洼等。在Vistas中,除了道路類之外,這些細(xì)粒度的子類被單獨(dú)標(biāo)記,導(dǎo)致標(biāo)簽的語義細(xì)節(jié)層次的沖突。2)Cityscapes和Vistas包含一個(gè)高級交通標(biāo)志類,而GTSDB有43個(gè)交通標(biāo)志子類。3)Cityscapes只有一個(gè)騎手類,而Vistas區(qū)分三個(gè)不同的騎手子類。如圖2所示,引入標(biāo)簽層次結(jié)構(gòu)有效地解決了這一挑戰(zhàn),將在第三節(jié)A部分中更詳細(xì)地討論。
注釋類型:根據(jù)定義,語義分割是每個(gè)像素的問題,因此必須在像素級提供監(jiān)督。不幸的是,許多現(xiàn)有數(shù)據(jù)集具有邊界框或每個(gè)圖像注釋,這對于每個(gè)像素訓(xùn)練是不兼容的。使它們兼容的直接方法是將這些注釋轉(zhuǎn)換為掩碼。然而,這些掩碼將包括不屬于感興趣對象的像素,例如,邊界框可能包含許多非相關(guān)的背景像素,這些像素將被分配給前臺(tái)類。最終,在訓(xùn)練期間,對網(wǎng)絡(luò)的監(jiān)督將從錯(cuò)誤標(biāo)記的像素流出,導(dǎo)致權(quán)重混亂。
在我們的例子中,Cityscapes和Vistas有每個(gè)像素注釋,但GTSDB只有邊界框注釋。為了將GTSDB包含在訓(xùn)練中,我們提出了一種新的層次損失,它在第三節(jié)的D部分中提供,統(tǒng)一處理來自不同注釋類型的監(jiān)督。
訓(xùn)練樣本不平衡:批量訓(xùn)練受到類別不平衡的影響,特別是當(dāng)每批次的例子有限時(shí)。在我們的例子中,我們面臨著強(qiáng)大的數(shù)據(jù)集內(nèi)和數(shù)據(jù)集間的不平衡。數(shù)據(jù)集之間的不平衡是由于注釋像素的巨大差異造成的,例如,以103的順序(詳見表一)。相同數(shù)據(jù)集的類之間的不平衡在街道場景數(shù)據(jù)集中是常見的,因?yàn)榇蠖鄶?shù)像素都屬于大型表面的類,比如道路和建筑物。我們的方法通過在相同的分類器中放置具有相似的示例順序的類來處理不平衡,因此所有類具有更大的概率在同一批次中表示。這種策略非常有益,如第五節(jié)的E部分有所展示。
第三節(jié),利用語義層次結(jié)構(gòu)培養(yǎng)和推斷異構(gòu)數(shù)據(jù)集
在本節(jié)中,我們描述了針對任意數(shù)量的異構(gòu)數(shù)據(jù)集的一般分層分類方法的組件。這些組件為第二節(jié)的挑戰(zhàn)提供了解決方案,并為每一個(gè)組件提供了我們所選擇的數(shù)據(jù)集的具體情況。我們目前的實(shí)驗(yàn),詳見第五節(jié),是基于使用3個(gè)數(shù)據(jù)集的具有3級層次結(jié)構(gòu)的實(shí)現(xiàn)。第四節(jié)中提供了此實(shí)現(xiàn)的細(xì)節(jié)。
A.標(biāo)簽空間的語義層次結(jié)構(gòu)
多個(gè)數(shù)據(jù)集訓(xùn)練需要為所有選定的數(shù)據(jù)集提供一個(gè)公共標(biāo)簽空間。我們建議將單獨(dú)的標(biāo)簽空間合并到公共空間中,其中包含來自所有數(shù)據(jù)集的標(biāo)簽,通過分層的方式合并到標(biāo)簽的語義樹中。這種方法通過引入必要的父節(jié)點(diǎn)或中間節(jié)點(diǎn)和/或現(xiàn)有標(biāo)簽的分組來解決標(biāo)簽語義定義中的任何沖突。
圖2描繪了使用本文三個(gè)選定數(shù)據(jù)集的所有標(biāo)簽的3級層次結(jié)構(gòu)。第二節(jié)中介紹了將這三個(gè)標(biāo)簽空間組合起來所帶來的挑戰(zhàn),解決辦法如下: 1)引入了一個(gè)新的高級驅(qū)動(dòng)類來解決Cityscapes和Vistas道路類語義沖突,2)增加了一類超級交通標(biāo)志和一個(gè)中間節(jié)點(diǎn),用于區(qū)分Vistas和前方交通標(biāo)志,3)引入了一個(gè)騎手超類,包括Cityscapes騎手類和3 Vistas騎手子類。
圖2.三級語義標(biāo)簽層次結(jié)構(gòu),結(jié)合了來自Cityscapes,Mapillary Vistas和GTSDB數(shù)據(jù)集的108個(gè)類。標(biāo)記為黑色的類別對應(yīng)于圖1的L1,L2和L3分類器。
標(biāo)簽的語義層次結(jié)構(gòu)引起相應(yīng)的分類器層次結(jié)構(gòu)。每個(gè)分類器都對一個(gè)節(jié)點(diǎn)的子標(biāo)簽進(jìn)行分類,并且對整個(gè)分類器樹進(jìn)行訓(xùn)練,以一種端到端、完全卷積的方式對共享的特性表示進(jìn)行訓(xùn)練。
B .卷積網(wǎng)絡(luò)體系結(jié)構(gòu)
所提出的網(wǎng)絡(luò)架構(gòu)(例如,參見圖1)包括用于計(jì)算密集的共享表示的完全卷積特征提取器和一組分類器,每個(gè)分類器對應(yīng)于語義層次的內(nèi)部類節(jié)點(diǎn)。每個(gè)分類器都可以與層次結(jié)構(gòu)中一級向下的分類器連接,以便將其預(yù)測傳遞給推理和注釋類型獨(dú)立訓(xùn)練,如第三節(jié)中CD部分所述。每個(gè)分類器之前可以有一個(gè)淺適應(yīng)網(wǎng)絡(luò),它使共同表征、深度和接受域適應(yīng)分類器的需要。這使網(wǎng)絡(luò)設(shè)計(jì)人員有機(jī)會(huì)為每個(gè)分類器選擇不同的特性維度和接受域。例如,區(qū)別交通標(biāo)志比較容易[12],因?yàn)榕c高級別區(qū)別相比,需要較少的特征,如道路對人行道和灌木叢對樹木[ 3 ]。根據(jù)分類器的對象平均大小,將不同的視圖字段應(yīng)用到不同的分類器上具有一定的靈活性,可以或多或少的實(shí)現(xiàn)上下文聚合,例如,交通標(biāo)志通常比建筑物或汽車更小。
C.推理:分層決策規(guī)則
在softmax分類器樹中,以分層方式按像素進(jìn)行推斷。為自己的一組像素集p∈Pj和一組類Cj= {0,1….}每個(gè)分類器j計(jì)算類概率的每個(gè)像素的歸一化向量σj,p,以及輸出每像素的決定
yj,p^=argmaxiσij,p,這里yj,p^∈Cj。這一組每個(gè)分類器都必須為此做出決定的Pj,由其父代根據(jù)自己的決定生成。來自可用的標(biāo)簽集{y^j,p}j∈J,輸入的每個(gè)像素都標(biāo)有所需的細(xì)節(jié),其中J是為這個(gè)特定像素生成決策的分類器。
D.訓(xùn)練:等級分類損失
如第二節(jié)所述,許多數(shù)據(jù)集的注釋類型與語義分割所需的每個(gè)像素監(jiān)督是不兼容的。我們提出的方法是使用統(tǒng)一的方法處理不兼容的注釋,不需要外部組件,如[6][7],并且對系統(tǒng)的計(jì)算負(fù)荷可以忽略不計(jì)。處理各種基本事實(shí)的靈活性與根分類器上的類的唯一約束交換,應(yīng)該具有每個(gè)像素注釋的示例。任何其他級別的注釋可以是任何類型的,甚至可以是混合的。
我們提出了分級分類損失,它將監(jiān)視與像素級的注釋類型分離開來。每個(gè)分類器j在所有標(biāo)記像素Pj=Pj1 +PJ2上訓(xùn)練,所述標(biāo)記像素對應(yīng)于標(biāo)簽層級中的其相應(yīng)節(jié)點(diǎn)。使用標(biāo)準(zhǔn)的單熱交叉熵?fù)p失訓(xùn)練具有每個(gè)像素注釋的像素Pj1。為了實(shí)現(xiàn)這一點(diǎn),我們的方法在訓(xùn)練過程中使用父分類器的在線、每個(gè)像素的決定,來細(xì)化偽每個(gè)像素的標(biāo)簽。該過程如圖3所示。首先,將不兼容的注釋轉(zhuǎn)換為每個(gè)像素偽地面實(shí)況。
圖3.訓(xùn)練期間的在線程序,用于從邊界框標(biāo)簽生成每像素地面實(shí)況。
然后,在每個(gè)訓(xùn)練步驟中,父分類器的決定與該偽基礎(chǔ)事實(shí)相交,以產(chǎn)生用于監(jiān)督的每像素地面實(shí)況。
兩種損失都按照分類器累積到所謂的等級損失:
其中|·|是像素集的基數(shù),并且yj,p∈Cj為分類器j選擇對應(yīng)于像素p的地真類的σ元素。最后,收集所有分類器的損失并用不同的超參數(shù)j加權(quán),以獲得最小化的總目標(biāo):
第四節(jié),具有CITYSCAPES,MAPILLARYVISTAS和GTSDB的的三級標(biāo)簽層次結(jié)構(gòu)
在本節(jié)中,我們概述了實(shí)現(xiàn)細(xì)節(jié),以提高我們實(shí)驗(yàn)的可重復(fù)性。
卷積網(wǎng)絡(luò)架構(gòu):網(wǎng)絡(luò)如圖1所示。特征提取器由ResNet- 50架構(gòu)[ 13 ]的特征層和1 x1卷積層(具有ReLU和批處理規(guī)范化)組成,以將特征維數(shù)減少到256。使用擴(kuò)張的卷積,輸入上的步幅從32減小到8。該表示具有深度256,空間維度1/8的輸入,并在5個(gè)分支中共享。每個(gè)分支都有一個(gè)額外的瓶頸模塊[ 13 ],并以一個(gè)softmax分類器結(jié)束,該分類器包括一個(gè)混合上采樣模塊。我們選擇每個(gè)分類器適配子網(wǎng)的特征維度和視野對于所有分支是相同的。在實(shí)驗(yàn)了不同的上行采樣技術(shù)(分步卷積、雙線性、卷積)后,我們得出結(jié)論,通過混合上采樣獲得最佳性能和減少偽像,其中包括一個(gè)2x2可學(xué)習(xí)的分?jǐn)?shù)跨度卷積層,然后是雙線性上采樣以達(dá)到輸入維度。
實(shí)施細(xì)節(jié):我們使用Tensorflow[14]和Titan X(Pascal架構(gòu))GPU進(jìn)行訓(xùn)練和推理。由于內(nèi)存有限,我們將批量大小設(shè)置為4(Cityscapes:Vistas:GTSDB = 1:2:1),將訓(xùn)練尺寸設(shè)置為512x706(Vistas圖像的平均值縮放到較小的Cityscapes維度)。在訓(xùn)練期間,按照原長寬比縮小圖像,然后隨機(jī)裁剪。該網(wǎng)絡(luò)針對17個(gè)Vistas時(shí)期(早期停止)進(jìn)行訓(xùn)練,,隨機(jī)梯度下降,動(dòng)量為0.9,L2權(quán)重正則化,衰減為0.00017,初始學(xué)習(xí)率為0.01,三次減半,批量標(biāo)準(zhǔn)化和指數(shù)移動(dòng)平均衰減均設(shè)為0.9。將Eq的超參數(shù)λj分別選擇為1.0、0.1和0.1,分別用于三個(gè)層次的層次結(jié)構(gòu)。作為推論,我們目前達(dá)到17 fps的幀速率,即每幀58毫秒。
第五節(jié),評價(jià)
我們進(jìn)行以下實(shí)驗(yàn)來評估我們的分級分類方法:
1 )平面分類基線:設(shè)置用于單數(shù)據(jù)集和多數(shù)據(jù)集訓(xùn)練的平面分類器基線。
2 )三個(gè)異構(gòu)數(shù)據(jù)集的分層分類:演示了我們的完整方法在三個(gè)異構(gòu)數(shù)據(jù)集(Cityscapes、GTSDB、Vistas )上進(jìn)行組合訓(xùn)練的好處,這些數(shù)據(jù)集具有不相交的標(biāo)簽空間和不同的注釋類型。
3)Cityscapes Extended上的分層與平面分類:通過在具有兩級標(biāo)簽空間的每像素注釋Cityscapes Extended數(shù)據(jù)集上隔離它來驗(yàn)證我們的分層方法對極不平衡類的有效性。
A.數(shù)據(jù)集
我們總結(jié)了表I中使用的數(shù)據(jù)集。接下來,我們將描述實(shí)驗(yàn)所需的額外注釋。請注意,這些注釋僅用于驗(yàn)證目的,而不用于訓(xùn)練網(wǎng)絡(luò)。
1)用交通標(biāo)志類標(biāo)記城市景觀:我們使用GTSDB的43個(gè)交通標(biāo)志類擴(kuò)展了Cityscapes的標(biāo)簽空間。Cityscapes只提供每個(gè)像素的交通標(biāo)志注釋,而不區(qū)分實(shí)例。我們設(shè)計(jì)了一種基于8鄰域距離的自動(dòng)分割算法,用于分離地面真實(shí)交通標(biāo)志遮罩中連接的交通標(biāo)志實(shí)例,并設(shè)計(jì)了一個(gè)GUI應(yīng)用程序,提出了用于標(biāo)注的圖像區(qū)域。我們把原來的和新的注釋打包成Cityscapes Extended的名字。該數(shù)據(jù)集分別包含列車中的2778個(gè)和380個(gè)交通標(biāo)志以及驗(yàn)證拆分。
2)用每個(gè)像素標(biāo)簽標(biāo)注GTSDB:只有在涉及平面分類器的特定實(shí)驗(yàn)中,我們才使用交通標(biāo)志形狀(圓形、三角形、六邊形)將GTSDB邊界框注釋轉(zhuǎn)換為精細(xì)的每個(gè)像素注釋。這個(gè)程序?qū)τ诮煌?biāo)志的面內(nèi)旋轉(zhuǎn)可能是有問題的,但是在數(shù)據(jù)集檢查之后,我們觀察到只有很少的面內(nèi)旋轉(zhuǎn)存在。
表一
數(shù)據(jù)集統(tǒng)計(jì)。圖像包含訓(xùn)練和驗(yàn)證拆分。在括號(hào)中顯示了被評估的類的數(shù)量。
表二
對每個(gè)像素注釋數(shù)據(jù)集的平面分類性能基線。
B.度量和評估慣例
我們使用多類平均像素精度(mPA)和聯(lián)合的平均交叉點(diǎn)(mIoU),它們與自動(dòng)駕駛相關(guān),它們代表了先進(jìn)的地方和地區(qū)的標(biāo)準(zhǔn),遵循了[ 15 ]中給出的定義。對于Cityscapes,我們報(bào)告了27個(gè)課程的結(jié)果(官方基準(zhǔn)測試中的19個(gè)和Vistas中常見的8個(gè))。對于交通標(biāo)志類,我們評估滿足兩種條件的43個(gè)交通標(biāo)志的子集:1 )在GTSDB訓(xùn)練集中具有少于103個(gè)像素。2) GTSDB和Cityscapes擴(kuò)展驗(yàn)證集的像素都小于103像素。請注意,我們選擇了103像素的限值,因?yàn)樗菴ityscapes中最少代表的類要小2個(gè)數(shù)量級。對于Vistas,我們報(bào)告關(guān)于官方65級基準(zhǔn)的結(jié)果。最后,我們每隔一個(gè)時(shí)期評估模型的性能,并報(bào)告最近兩次運(yùn)行的平均值。
本文介紹了一種新的公平比較評價(jià)的協(xié)議,該協(xié)議僅適用于第五節(jié)的C部分的實(shí)驗(yàn),該實(shí)驗(yàn)是在兩個(gè)數(shù)據(jù)集上訓(xùn)練平面分類器。它解決了高級別交通符號(hào)類與交通符號(hào)子類相同級別的語義沖突(第二節(jié))。交通標(biāo)志像素的判定是正確的:1)如果正確標(biāo)注了任何交通標(biāo)志子類, 2)如果它被標(biāo)記為交通標(biāo)志,第二個(gè)最可能的選擇是正確的交通標(biāo)志子類。為清楚起見,我們不將此評估方案用于分層分類器,而僅用于扁平分類器。
C.平面分類的基線
在表二中,我們?yōu)閭鹘y(tǒng)的平面分類方法設(shè)置了相同和跨數(shù)據(jù)集的基線,使用第四節(jié)中描述的實(shí)現(xiàn)細(xì)節(jié)中相同的輸入維度和批量大小,為了能夠與表三的分層結(jié)果進(jìn)行公平比較。在第1 – 3列中,我們在三個(gè)數(shù)據(jù)集上獨(dú)立訓(xùn)練三個(gè)模型,并為表一的評估類提供結(jié)果。在第4欄中,我們提供了聯(lián)合訓(xùn)練Cityscapes和GTSDB的Cityscapes Extended交叉數(shù)據(jù)集結(jié)果。
為了進(jìn)行公平的比較,第3和第4列的模型是通過GTSDB數(shù)據(jù)集的生成的每個(gè)像素注釋來訓(xùn)練的(詳細(xì)細(xì)節(jié)請參見第五節(jié)A2部分)。由于每個(gè)圖像的訓(xùn)練像素?cái)?shù)量有限,因此43類GTSDB的訓(xùn)練不會(huì)收斂,因此我們將未標(biāo)記的像素作為額外的類包括在內(nèi),以解決此問題。可以觀察到,Cityscapes和GTSDB的同時(shí)訓(xùn)練未能在Cityscapes Extended的交通標(biāo)志類別上獲得令人滿意的跨數(shù)據(jù)集結(jié)果。
表三
4種數(shù)據(jù)集中完全分層分類方法的表現(xiàn)。
圖4.Cityscapes val拆分圖像示例。網(wǎng)絡(luò)預(yù)測包括來自層次結(jié)構(gòu)的L1-L3級別的決策。請注意,地面實(shí)況僅包括一個(gè)交通標(biāo)志超類(黃色)且沒有道路屬性標(biāo)記。
D. 3個(gè)異構(gòu)數(shù)據(jù)集的層次分類
該實(shí)驗(yàn)評估了我們在三個(gè)異構(gòu)數(shù)據(jù)集(Cityscapes,Mapillary Vistas和GTSDB)上的完整層次分類方法。在表三中,我們提供了關(guān)于模型訓(xùn)練的三個(gè)數(shù)據(jù)集的驗(yàn)證分割的評估結(jié)果(第1-3列)和Cityscapes Extended(第4列)上的交通標(biāo)志子類的結(jié)果,這在訓(xùn)練期間未使用。在圖4、5、6中描述了定性結(jié)果。
對于所有數(shù)據(jù)集,通過比較表二第1-3列和表三第1-3列,我們實(shí)現(xiàn)了平均PA(在+ 2.4%至+ 32.3%范圍內(nèi))和IoU(在+ 2.3%至+ 24.3%范圍內(nèi))的顯著性能提升。通過比較表二第4列和表三第4列,我們還觀察到交通標(biāo)志子類的交叉數(shù)據(jù)集性能的增加。值得注意的是,該模型未經(jīng)過Cityscapes Extended交通標(biāo)志類別的任何示例訓(xùn)練,平均PA增加10.6%僅僅是由于我們的分層多數(shù)據(jù)集訓(xùn)練方案的結(jié)果。我們得出結(jié)論,當(dāng)數(shù)據(jù)集具有不同的類,不同的注釋類型以及數(shù)據(jù)集內(nèi)和數(shù)據(jù)集之間的不平衡時(shí),層次分類對于組合的異構(gòu)數(shù)據(jù)集訓(xùn)練非常有利。
E. Cityscapes Extended的層次分類與平面分類
在本實(shí)驗(yàn)中,我們使用每像素注釋和兩級標(biāo)簽空間評估Cityscapes Extended上的層次分類方法。我們的目標(biāo)是將我們的方法隔離在一個(gè)數(shù)據(jù)集中,以顯示它在高度不平衡的數(shù)據(jù)集中對平面分類的有效性。我們使用512 x 1024輸入尺寸,批量為2。
圖5.Mapillary Vistas驗(yàn)證分割圖像示例。網(wǎng)絡(luò)預(yù)測包括來自層次結(jié)構(gòu)的L1-L3級別的決策。請注意,基本事實(shí)不包括交通標(biāo)志子類。
圖6.GTSDB測試分割圖像示例。網(wǎng)絡(luò)預(yù)測包括來自層次結(jié)構(gòu)的L1-L3級別的決策。請注意,基本事實(shí)僅包括交通標(biāo)志邊界框,因?yàn)槠溆嘞袼匚礃?biāo)記。
從表IV中,我們觀察到相對于平面分類器的mPA(+ 26.0%)和mIoU(+ 16.1%)層次分類顯著增加了L2類(即GTSDB交通標(biāo)志子類),而對于L1類(即Cityscapes類) mPA和IoU的增幅均超過+ 6%。
我們得出的結(jié)論是,即使是在單個(gè)數(shù)據(jù)集中使用每個(gè)像素的注釋,分層分類對于類的不平衡是穩(wěn)健的,因?yàn)樗诿總€(gè)級別的類中都有相同的示例順序。
表四
在Cityscapes Extended上的平面與建議的分級分類性能。(在括號(hào)內(nèi)表現(xiàn)為交通標(biāo)志L1類)。
第六節(jié),結(jié)論與未來工作
在本論文中,我們考慮了對三個(gè)異構(gòu)但語義相連的數(shù)據(jù)集進(jìn)行同時(shí)訓(xùn)練的挑戰(zhàn),以解決每個(gè)像素的語義分割問題。主要?jiǎng)訖C(jī)是最大限度地重用資源(數(shù)據(jù)集和計(jì)算)并消除人類標(biāo)記工作。為了實(shí)現(xiàn)這一點(diǎn),我們利用數(shù)據(jù)集標(biāo)簽之間的語義關(guān)系來構(gòu)建分類器的層次結(jié)構(gòu),并介紹相應(yīng)的分層訓(xùn)練和推理規(guī)則。我們最終的網(wǎng)絡(luò)可以將一個(gè)輸入圖像從8個(gè)高級的街道場景類別中分成108個(gè)類。結(jié)果表明,采用層次分類方法進(jìn)行多異構(gòu)數(shù)據(jù)集訓(xùn)練具有明顯的優(yōu)越性。在未來的工作中,我們將擴(kuò)展我們的成果,包括更多具有更多不同特征的數(shù)據(jù)集,以展示我們方法的可擴(kuò)展性。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1201瀏覽量
24622 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
782文章
13633瀏覽量
165989 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5471瀏覽量
120904
原文標(biāo)題:IEEE IV2018論文:基于多異構(gòu)數(shù)據(jù)集的卷積網(wǎng)絡(luò)街道場景語義分割
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論