1. 寫在前面
目標檢測到底是DETR好還是YOLO好?感覺也沒有一個明確的答案,YOLO在不停的平衡精度和效率,DETR也在不停的提高實時性。今天筆者為大家推薦一篇最新的DETR開源工作MS-DETR,通過一對一監(jiān)督和一對多監(jiān)督相結合的方式,提高DETR的訓練效率。
下面一起來閱讀一下這項工作
2. 摘要
DETR通過迭代地生成基于圖像特征的多個候選目標,并為每個真值目標提升一個候選目標,從而實現(xiàn)端到端的目標檢測。原始DETR中采用一對一監(jiān)督的傳統(tǒng)訓練過程缺乏對目標檢測候選的直接監(jiān)督。
我們旨在通過一對一監(jiān)督和一對多監(jiān)督相結合的方式,對候選生成過程進行明確監(jiān)督,從而提高DETR的訓練效率。我們的方法,即MS - DETR,簡單,并且對用于推理的主解碼器的對象查詢進行一對多的監(jiān)督。與現(xiàn)有的一對多監(jiān)督的DETR變體(如Group DETR和Hybrid DETR )相比,我們的方法不需要額外的解碼器分支或對象查詢。在我們的方法中,主解碼器的對象查詢直接受益于一對多的監(jiān)督,因此在對象候選預測方面具有優(yōu)勢。實驗結果表明,我們的方法優(yōu)于相關DETR變體,如DN - DETR、Hybrid DETR和Group DETR,與相關DETR變體的結合進一步提高了性能。
3. 效果展示
這篇文章的思想就是使用一對一監(jiān)督和一對多監(jiān)督相結合的混合監(jiān)督。混合監(jiān)督會產生更好的檢測候選。Top:box真值。Middle:與基線匹配的前20個查詢的候選框。Bottom:使用MS - DETR從前20個查詢中選出候選框。可以看出,MS - DETR比基線產生了更好的檢測候選。
4. 具體原理是什么?
混合監(jiān)督會產生比基線更低的一對一損失。x軸對應epoch,y軸對應一對一監(jiān)督的訓練損失。虛線和實線分別對應于Deformable DETR基線和MS - DETR的損失曲線。
不同架構的差異。( a )原始DETR:采用一對一監(jiān)督的方式對其進行訓練。( b ) MS -- DETR:通過混合一對一和一對多監(jiān)督的方式進行訓練。這兩種監(jiān)督都施加在初級解碼器上。( c ) DETR組和DN - DETR組。引入了額外的并行譯碼器,并對額外的譯碼器進行一對一的監(jiān)督。DETR和DN - DETR可能會使用更多的額外解碼器。(d) 混合DETR:增加了一個額外的并行譯碼器,并對額外的譯碼器施加一對多的監(jiān)督。
MS-DETR的具體實現(xiàn)。( a )對每個解碼器層的輸出對象查詢進行一對一和一對多的監(jiān)督。( b )對每個稍作修改的解碼器層的輸出對象查詢進行兩次監(jiān)督:首先執(zhí)行交叉注意力,然后執(zhí)行自注意力。( c )和( d )對內部對象查詢進行一對多監(jiān)督。cls11和box11是一對一監(jiān)督的class和box預測子,cls1m和box1m是一對多監(jiān)督的class和box預測子。
5. 和其他SOTA方法的對比
MS - DETR與一對多( O2M )監(jiān)督的其他方法在不同基線上的比較。MS - DETR一致地改進了各種流行的DETR基線。
與其他方法相結合的對比, MS - DETR是現(xiàn)有O2M方法的一種補充方法。
6. 總結
這篇文章在原有一對一監(jiān)督的基礎上增加了一對多的監(jiān)督,用于DETR訓練。主要特點是顯式地監(jiān)督了對象查詢。MS-DETR是對相關方法的補充,這些方法主要是修改交叉注意力結構或使用額外的查詢或額外的解碼器來學習解碼器權重。
審核編輯:黃飛
-
解碼器
+關注
關注
9文章
1129瀏覽量
40637 -
目標檢測
+關注
關注
0文章
200瀏覽量
15578
原文標題:MS-DETR:全面提升目標檢測的效率和精度!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論