概述
目標(biāo)檢測(cè)是具有廣泛實(shí)際應(yīng)用的計(jì)算機(jī)視覺任務(wù),如自動(dòng)駕駛和醫(yī)學(xué)影像。隨著DETR 的出現(xiàn),基于Transformer的檢測(cè)器的發(fā)展令人矚目,并且在最新的DETR系列方法在COCO挑戰(zhàn)中以明顯的優(yōu)勢(shì)擊敗了基于CNN的檢測(cè)器。
但是,現(xiàn)有DETR系列模型在非COCO數(shù)據(jù)集上表現(xiàn)較差,且預(yù)測(cè)框不夠準(zhǔn)確。
本文提出了Cascade-DETR用于高質(zhì)量通用目標(biāo)檢測(cè)。我們通過提出Cascade Attention層同時(shí)解決不同域的泛化問題和定位精度問題,它通過限制注意力到先前的預(yù)測(cè)框,將以對(duì)象中心的信息直接輸入到檢測(cè)解碼器中。為進(jìn)一步提高準(zhǔn)確性,我們還重新訪問查詢分?jǐn)?shù)。我們預(yù)測(cè)查詢期望的IoU,而不再依賴于分類分?jǐn)?shù),從而大大提高了校準(zhǔn)后的置信度。最后,我們引入了通用目標(biāo)檢測(cè)基準(zhǔn)UDB10,其中包含10個(gè)數(shù)據(jù)集。同時(shí)在COCO上也推進(jìn)了最先進(jìn)的技術(shù),Cascade-DETR大大改進(jìn)了UDB10中所有數(shù)據(jù)集上的基于DETR的檢測(cè)器的性能 ,在某些情況下甚至提高了超過10 mAP。在嚴(yán)格的質(zhì)量要求下,提升甚至更加明顯。這里也推薦「3D視覺工坊」新課程《國(guó)內(nèi)首個(gè)面向自動(dòng)駕駛目標(biāo)檢測(cè)領(lǐng)域的Transformer原理與實(shí)戰(zhàn)課程》。
背景簡(jiǎn)述
現(xiàn)有的DETR系列模型在非COCO數(shù)據(jù)集上表現(xiàn)較差,且預(yù)測(cè)框不夠準(zhǔn)確。其主要原因是:DETR在檢測(cè)頭中用全局交叉注意力替換了原來的卷積,刪除了以中心為中心的先驗(yàn)知識(shí);另一方面,DETR僅依賴分類分?jǐn)?shù)評(píng)分查詢提議,忽略了定位質(zhì)量??紤]到這些問題,我們主要進(jìn)行了以下兩個(gè)方面創(chuàng)新:
方法:(1) 提出連續(xù)注意力機(jī)制,將交叉注意力逐層限制在先前預(yù)測(cè)框內(nèi),以聚焦對(duì)象區(qū)域并引入對(duì)象中心先驗(yàn)知識(shí)。(2) 添加IoU預(yù)測(cè)分支,以感知每一個(gè)查詢建議的定位質(zhì)量,用于重新標(biāo)定查詢得分。
網(wǎng)絡(luò):(1) 引入連續(xù)注意力的檢測(cè)Transformer解碼器,包含多個(gè)解碼層。(2) 每層連續(xù)注意力使用上一層的預(yù)測(cè)框約束其注意力區(qū)域。
圖1 Cascade DETR 的transformer解碼器
方法解析
在本節(jié)中,首先介紹了標(biāo)準(zhǔn)DETR解碼器的設(shè)計(jì)。然后分析了Cascade-DETR整體架構(gòu),最后逐一解釋了連續(xù)注意力、IoU感知查詢、再標(biāo)定訓(xùn)練和推理細(xì)節(jié)。
1.標(biāo)準(zhǔn)DETR解碼器
標(biāo)準(zhǔn)DETR解碼器是由一組交叉注意層和自注意層組成,這些層迭代更新一組查詢,初始化為可學(xué)習(xí)的常量。在第i層,查詢Q∈RN×D首先輸入到自注意模塊,接著進(jìn)行圖像特征的交叉注意,其大小為H×W×D。交叉注意力計(jì)算為對(duì)整個(gè)特征圖的加權(quán)和,
其中K和V分別表示從圖像特征中提取的鍵和值圖。索引i表示交叉注意力層,j是圖像上的2D空間位置,fq表示查詢變換函數(shù)。
更新的查詢Qi+1然后分別通過兩個(gè)并行線性層fbox和fscore輸入到邊界框B(i+1)和查詢分?jǐn)?shù)S(i+1)的預(yù)測(cè)中,即B(i+1)=fbox(Q(i+1))和S(i+1)=fcls(Q(i+1))。大小為N×(C+1)的查詢分?jǐn)?shù)矩陣S(i+1)包含數(shù)據(jù)集所有C類的所有輸入查詢的類別概率。
2.Cascade-DETR架構(gòu)
在這一節(jié)中,我們介紹Cascade-DETR的架構(gòu),其向標(biāo)準(zhǔn)轉(zhuǎn)換解碼器引入局部目標(biāo)中心偏置。與現(xiàn)有的基于DETR的方法(如DAB-DETR和DN-DETR)類似,我們的架構(gòu)包含transformer編碼器來提取圖像特征。編碼的特征與位置編碼一起輸入到transformer解碼器??蓪W(xué)習(xí)查詢也輸入到解碼器中,以通過交叉注意力進(jìn)行目標(biāo)定位和分類。Cascade-DETR中,連續(xù)注意力和IoU感知查詢重新標(biāo)定是兩個(gè)新模塊,這兩個(gè)模塊幾乎不增加計(jì)算時(shí)間或模型參數(shù),但顯著提高了檢測(cè)質(zhì)量和泛化能力。
3.連續(xù)注意力
圖2 DNDETR和Cascade-DN-DETR在COCO和Cityscapes數(shù)據(jù)集上的交叉注意力圖的可視化比較
在標(biāo)準(zhǔn)DETR解碼器中,可學(xué)習(xí)查詢?cè)谡麄€(gè)圖像要素上全局參與,如式1所示。然而,為了準(zhǔn)確實(shí)現(xiàn)目標(biāo)分類和定位,我們認(rèn)為對(duì)象周圍的局部信息最為關(guān)鍵。全局上下文可以通過查詢之間的自注意提取。在圖2中,我們觀察到在COCO訓(xùn)練期間,交叉注意力分布趨于收斂到預(yù)測(cè)對(duì)象位置周圍的區(qū)域。盡管transformer模型可以端到端學(xué)習(xí)這種歸納偏置,但它需要大量的數(shù)據(jù)。當(dāng)訓(xùn)練數(shù)據(jù)集較小或圖像樣式與ImageNet中的樣式完全不同時(shí),這個(gè)問題變得更加顯著。
為解決上述問題,我們將對(duì)象中心先驗(yàn)視為已知約束,以將其整合到初始化過程和訓(xùn)練程序中,如圖1所示。我們?cè)诘趇+1層設(shè)計(jì)連續(xù)注意力為:
其中Si是前一解碼層i中的預(yù)測(cè)邊界框Bi內(nèi)的2D位置集合。連續(xù)結(jié)構(gòu)利用DETR系列檢測(cè)器中每個(gè)解碼層后預(yù)測(cè)的Bi將更準(zhǔn)確的屬性。因此,框約束的交叉注意力區(qū)域Si不僅帶來對(duì)象中心偏置,而且會(huì)逐層加強(qiáng)(參見圖1)。隨著每層可以獲得更準(zhǔn)確的交叉注意特征,連續(xù)注意力反過來也可提升每層的檢測(cè)準(zhǔn)確率。
我們通過圖2中的注意力圖驗(yàn)證了我們的假設(shè)。我們同時(shí)展示了COCO和Cityscapes上DN-DETR模型的初始和最終注意力圖。在COCO上,我們觀察到無論使用DN-DETR還是Cascade-DN-DETR,隨機(jī)初始化查詢的交叉注意力最終都會(huì)收斂到語義明顯不同的位置。然而,在Cityscapes上,兩種方法之間存在明顯對(duì)比,對(duì)象中心知識(shí)的融合將注意力集中在圖像最相關(guān)的部分更為重要。
與其他方法相比,我們的Cascade-DETR設(shè)計(jì)更簡(jiǎn)單。DETR解碼器中的每層預(yù)測(cè)框都直接用于約束下一層的交叉注意力范圍。這種歸納偏置使DETR能夠快速收斂,并且在特別是小型和多樣化數(shù)據(jù)集上擁有卓越的性能。
4.IoU感知查詢?cè)贅?biāo)定
大多數(shù)基于DETR的檢測(cè)器將300甚至900個(gè)可學(xué)習(xí)查詢作為輸入提供給transformer解碼器,并為每個(gè)查詢預(yù)測(cè)一個(gè)框。在計(jì)算最終檢測(cè)結(jié)果時(shí),采用分類置信度作為所有查詢提議的排序標(biāo)準(zhǔn)。然而,分類分?jǐn)?shù)并沒有明確考慮預(yù)測(cè)邊界框的準(zhǔn)確性,這對(duì)于選擇高質(zhì)量提議至關(guān)重要。因此,我們引入了IoU感知查詢重新標(biāo)定,通過添加IoU預(yù)測(cè)分支來重新標(biāo)定查詢的置信度,以獲得更準(zhǔn)確的校準(zhǔn)置信度,這更好地反映了預(yù)測(cè)的質(zhì)量。
我們不再使用分類置信度對(duì)查詢進(jìn)行評(píng)分,而是使用其與真值框的期望IoU進(jìn)行評(píng)分。令E(IoUq)為查詢q的期望真值IoU。此外,令P(objq)表示從分類概率獲得的q指示對(duì)象的概率。查詢的期望IoU計(jì)算為
這里,?表示否定二值隨機(jī)變量。第二個(gè)等號(hào)遵循非對(duì)象的期望IoU為零:E(IoUq|?objq)=0。
為預(yù)測(cè)期望IoU(4),我們引入一個(gè)額外的分支來預(yù)測(cè)存在地面實(shí)況的期望IoU E(IoUq|objq),如圖1所示。具體而言,我們?cè)谄叫杏诜诸惡涂蚧貧w分支之外簡(jiǎn)單地再使用一個(gè)線性層。如式(4)中導(dǎo)出的,最后的查詢分?jǐn)?shù)然后計(jì)算為預(yù)測(cè)IoU與原始分類置信度P(objq)的乘積。
我們用L2損失監(jiān)督IoU預(yù)測(cè)與地面真值IoUGTq之間的差異,
僅當(dāng)查詢q具有分配的對(duì)應(yīng)真值時(shí)才應(yīng)用損失,因?yàn)槲覀冊(cè)谄谕抵袑?duì)對(duì)象的存在進(jìn)行了條件化。注意,L2損失意味著學(xué)習(xí)高斯分布上IoU值的均值,即期望值。我們?cè)趯?shí)驗(yàn)部分的表5中對(duì)這個(gè)損失選擇進(jìn)行分析。這里也推薦「3D視覺工坊」新課程《國(guó)內(nèi)首個(gè)面向自動(dòng)駕駛目標(biāo)檢測(cè)領(lǐng)域的Transformer原理與實(shí)戰(zhàn)課程》。
圖3 查詢定位質(zhì)量(IoU到GT框)和查詢?cè)u(píng)分之間的稀疏圖
為分析我們的IoU感知查詢?cè)贅?biāo)定的優(yōu)勢(shì),我們?cè)贑OCO上的所有預(yù)測(cè)上生成稀疏化圖,如圖3所示。根據(jù)置信度對(duì)所有預(yù)測(cè)進(jìn)行排序。然后繪制擁有最高置信度的前N個(gè)預(yù)測(cè)的平均IoU,通過在x軸上變化N。Oracle表示上確界,通過考慮地面真值IoU獲得。與不進(jìn)行查詢?cè)贅?biāo)定的Cascade-DN-DETR(藍(lán)色曲線)相比,我們的再標(biāo)定結(jié)果(橙色曲線)得出了明顯更好的結(jié)果排序,從而導(dǎo)致更高的IoU。
5.訓(xùn)練和推理細(xì)節(jié)
我們使用多任務(wù)損失函數(shù)端到端訓(xùn)練我們的Cascade-DETR,
其中LDetect同時(shí)監(jiān)督位置預(yù)測(cè)和類別分類,源自DETR檢測(cè)器。超參數(shù)λ1和λ2平衡損失函數(shù)在驗(yàn)證集上分別設(shè)置為{1.0,2.0}。在每個(gè)解碼層后采用FFN和匈牙利損失。FFN在每個(gè)預(yù)測(cè)層中共享模型參數(shù)。
在推理期間,我們一致使用連續(xù)注意力,因?yàn)樗鼉H依賴于DETR解碼器中每層的預(yù)測(cè)框。對(duì)于查詢?cè)u(píng)分的校準(zhǔn)方式,如第4節(jié)所述,我們僅將其應(yīng)用于最終的transformer解碼器層。
實(shí)驗(yàn)結(jié)果
我們?cè)贑OCO、UVO、Cityscapes和構(gòu)建的UDB10基準(zhǔn)測(cè)試集上將Cascade-DETR與最新目標(biāo)檢測(cè)方法進(jìn)行了比較。我們將Cascade-DETR集成到三個(gè)代表性方法中,發(fā)現(xiàn)Cascade-DETR相對(duì)于強(qiáng)基線獲得了一致的大幅提升。
結(jié)論
我們提出了Cascade-DETR,是適用于高質(zhì)量通用目標(biāo)檢測(cè)的第一個(gè)基于DETR的檢測(cè)器。通過引入局部對(duì)象中心先驗(yàn)知識(shí),Cascade-DETR在通用檢測(cè)應(yīng)用中實(shí)現(xiàn)顯著優(yōu)勢(shì),特別是在更高的IoU閾值下。與其他基于DETR的檢測(cè)器相比,我們的方法不僅在COCO數(shù)據(jù)集表現(xiàn)優(yōu)異,也可以在更多的現(xiàn)實(shí)生活和實(shí)際應(yīng)用場(chǎng)景中展現(xiàn)出良好的性能。
-
解碼器
+關(guān)注
關(guān)注
9文章
1129瀏覽量
40636 -
檢測(cè)器
+關(guān)注
關(guān)注
1文章
857瀏覽量
47623 -
目標(biāo)檢測(cè)
+關(guān)注
關(guān)注
0文章
200瀏覽量
15578
原文標(biāo)題:ICCV2023 | 第一個(gè)基于DETR的高質(zhì)量通用目標(biāo)檢測(cè)方法
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論