0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MS-DETR和其他SOTA方法的對比

3D視覺工坊 ? 來源:3D視覺工坊 ? 2024-01-23 14:14 ? 次閱讀

1. 寫在前面

目標檢測到底是DETR好還是YOLO好?感覺也沒有一個明確的答案,YOLO在不停的平衡精度和效率,DETR也在不停的提高實時性。今天筆者為大家推薦一篇最新的DETR開源工作MS-DETR,通過一對一監(jiān)督和一對多監(jiān)督相結合的方式,提高DETR的訓練效率。

下面一起來閱讀一下這項工作

2. 摘要

DETR通過迭代地生成基于圖像特征的多個候選目標,并為每個真值目標提升一個候選目標,從而實現(xiàn)端到端的目標檢測。原始DETR中采用一對一監(jiān)督的傳統(tǒng)訓練過程缺乏對目標檢測候選的直接監(jiān)督。

我們旨在通過一對一監(jiān)督和一對多監(jiān)督相結合的方式,對候選生成過程進行明確監(jiān)督,從而提高DETR的訓練效率。我們的方法,即MS - DETR,簡單,并且對用于推理的主解碼器的對象查詢進行一對多的監(jiān)督。與現(xiàn)有的一對多監(jiān)督的DETR變體(如Group DETR和Hybrid DETR )相比,我們的方法不需要額外的解碼器分支或對象查詢。在我們的方法中,主解碼器的對象查詢直接受益于一對多的監(jiān)督,因此在對象候選預測方面具有優(yōu)勢。實驗結果表明,我們的方法優(yōu)于相關DETR變體,如DN - DETR、Hybrid DETR和Group DETR,與相關DETR變體的結合進一步提高了性能。

3. 效果展示

這篇文章的思想就是使用一對一監(jiān)督和一對多監(jiān)督相結合的混合監(jiān)督。混合監(jiān)督會產生更好的檢測候選。Top:box真值。Middle:與基線匹配的前20個查詢的候選框。Bottom:使用MS - DETR從前20個查詢中選出候選框。可以看出,MS - DETR比基線產生了更好的檢測候選。

4. 具體原理是什么?

混合監(jiān)督會產生比基線更低的一對一損失。x軸對應epoch,y軸對應一對一監(jiān)督的訓練損失。虛線和實線分別對應于Deformable DETR基線和MS - DETR的損失曲線。

f7538902-b164-11ee-8b88-92fbcf53809c.jpg

不同架構的差異。( a )原始DETR:采用一對一監(jiān)督的方式對其進行訓練。( b ) MS -- DETR:通過混合一對一和一對多監(jiān)督的方式進行訓練。這兩種監(jiān)督都施加在初級解碼器上。( c ) DETR組和DN - DETR組。引入了額外的并行譯碼器,并對額外的譯碼器進行一對一的監(jiān)督。DETR和DN - DETR可能會使用更多的額外解碼器。(d) 混合DETR:增加了一個額外的并行譯碼器,并對額外的譯碼器施加一對多的監(jiān)督。

f75ce43e-b164-11ee-8b88-92fbcf53809c.jpg

MS-DETR的具體實現(xiàn)。( a )對每個解碼器層的輸出對象查詢進行一對一和一對多的監(jiān)督。( b )對每個稍作修改的解碼器層的輸出對象查詢進行兩次監(jiān)督:首先執(zhí)行交叉注意力,然后執(zhí)行自注意力。( c )和( d )對內部對象查詢進行一對多監(jiān)督。cls11和box11是一對一監(jiān)督的class和box預測子,cls1m和box1m是一對多監(jiān)督的class和box預測子。

f7832108-b164-11ee-8b88-92fbcf53809c.jpg

5. 和其他SOTA方法的對比

MS - DETR與一對多( O2M )監(jiān)督的其他方法在不同基線上的比較。MS - DETR一致地改進了各種流行的DETR基線。

f789fa50-b164-11ee-8b88-92fbcf53809c.jpg

與其他方法相結合的對比, MS - DETR是現(xiàn)有O2M方法的一種補充方法。

f7968252-b164-11ee-8b88-92fbcf53809c.jpg

6. 總結

這篇文章在原有一對一監(jiān)督的基礎上增加了一對多的監(jiān)督,用于DETR訓練。主要特點是顯式地監(jiān)督了對象查詢。MS-DETR是對相關方法的補充,這些方法主要是修改交叉注意力結構或使用額外的查詢或額外的解碼器來學習解碼器權重。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1129

    瀏覽量

    40637
  • 目標檢測
    +關注

    關注

    0

    文章

    200

    瀏覽量

    15578

原文標題:MS-DETR:全面提升目標檢測的效率和精度!

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    旋變位置不變的情況下,當使能SOTA功能與關閉SOTA功能時,APP中DSADC采樣得到的旋變sin和cos兩者值不一樣,為什么?

    旋變位置不變的情況下,當使能SOTA功能與關閉SOTA功能時,APP中DSADC采樣得到的旋變sin和cos兩者值不一樣,用示波器采的輸入到MCU端的差分電壓是一樣的,難道是SOTA使能后影響了MCU芯片內部的等效阻抗嗎,有專家
    發(fā)表于 05-17 08:13

    NB81是否支持OneNet SOTA功能?應該如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,應該如何激活SOTA?
    發(fā)表于 06-04 06:14

    SOTA的定義是什么?常規(guī)的實現(xiàn)方式有哪些

    1.SOTA的定義SOTA即軟件在線升級(Software updates Over The Air),是指在不連接燒寫器的情況下,通過CAN、UART或其它通訊方式,實現(xiàn)應用程序的更新。在進行
    發(fā)表于 02-14 06:14

    實體關系聯(lián)合抽取取得SOTA的三種方法

    2020實體關系聯(lián)合抽取一片紅海,各種SOTA方法你方唱罷我方登場,在一些數(shù)據集上也是不斷刷出新高度,為信息抽取領域帶來了新思路,推動了信息抽取領域的發(fā)展。本文梳理了實體關系聯(lián)合抽取取得SOTA
    的頭像 發(fā)表于 02-10 17:08 ?1.2w次閱讀
    實體關系聯(lián)合抽取取得<b class='flag-5'>SOTA</b>的三種<b class='flag-5'>方法</b>

    SOTA機制詳解

    1.SOTA的定義SOTA即軟件在線升級(Software updates Over The Air),是指在不連接燒寫器的情況下,通過CAN、UART或其它通訊方式,實現(xiàn)應用程序的更新。在進行
    發(fā)表于 12-09 15:06 ?10次下載
    <b class='flag-5'>SOTA</b>機制詳解

    RT-DETR用114FPS實現(xiàn)54.8AP遠超YOLOv8

    最近,基于Transformer的端到端檢測器(DETR)已經取得了顯著的性能。然而,DETR的高計算成本問題尚未得到有效解決,這限制了它們的實際應用,并使它們無法充分利用無后處理的好處,如非最大值抑制(NMS)。
    的頭像 發(fā)表于 04-20 09:59 ?965次閱讀

    介紹RT-DETR兩種風格的onnx格式和推理方式

    RT-DETR是由百度近期推出的DETR-liked目標檢測器,該檢測器由HGNetv2、混合編碼器和帶有輔助預測頭的Transformer編碼器組成
    的頭像 發(fā)表于 05-17 17:46 ?3096次閱讀
    介紹RT-<b class='flag-5'>DETR</b>兩種風格的onnx格式和推理方式

    Focus-DETR:30%Token就能實現(xiàn)SOTA性能,效率倍增

    目前 DETR 類模型已經成為了目標檢測的一個主流范式。但 DETR 算法模型復雜度高,推理速度低,嚴重影響了高準確度目標檢測模型在端側設備的部署,加大了學術研究和產業(yè)應用之間的鴻溝。
    的頭像 發(fā)表于 08-02 15:12 ?731次閱讀
    Focus-<b class='flag-5'>DETR</b>:30%Token就能實現(xiàn)<b class='flag-5'>SOTA</b>性能,效率倍增

    一種新型的DETR輕量化模型Focus-DETR

    作者對多個 DETR 類檢測器的 GFLOPs 和時延進行了對比分析,如圖 1 所示。從圖中發(fā)現(xiàn),在 Deformable-DETR 和 DINO 中,encoder 的計算量分別是 decoder
    的頭像 發(fā)表于 08-02 15:34 ?605次閱讀
    一種新型的<b class='flag-5'>DETR</b>輕量化模型Focus-<b class='flag-5'>DETR</b>

    人工智能SOTA什么意思

    中,SOTA通常用于描述當前最先進的算法或者模型在一個特定數(shù)據集上的表現(xiàn)。 SOTA是一個極其重要的標準,因為它可以衡量研究人員的技術水平,并且可以用于比較不同算法的性能優(yōu)劣。SOTA是數(shù)據科學家們努力工作的目標之一,通過不斷地
    的頭像 發(fā)表于 08-22 16:45 ?1.9w次閱讀

    DETR架構的內部工作方式分析

    這是一個Facebook的目標檢測Transformer (DETR)的完整指南。 ? 介紹 DEtection TRansformer (DETR)是Facebook研究團隊巧妙地利
    的頭像 發(fā)表于 08-30 10:53 ?933次閱讀
    <b class='flag-5'>DETR</b>架構的內部工作方式分析

    基于OpenVINO Python API部署RT-DETR模型

    RT-DETR 是在 DETR 模型基礎上進行改進的,一種基于 DETR 架構的實時端到端檢測器,它通過使用一系列新的技術和算法,實現(xiàn)了更高效的訓練和推理,我們將在 Python、C++、C# 三個
    的頭像 發(fā)表于 10-20 11:15 ?892次閱讀
    基于OpenVINO Python API部署RT-<b class='flag-5'>DETR</b>模型

    第一個基于DETR的高質量通用目標檢測方法

    現(xiàn)有的DETR系列模型在非COCO數(shù)據集上表現(xiàn)較差,且預測框不夠準確。其主要原因是:DETR在檢測頭中用全局交叉注意力替換了原來的卷積,刪除了以中心為中心的先驗知識;另一方面,DETR僅依賴分類分數(shù)評分查詢提議,忽略了定位質量。
    的頭像 發(fā)表于 11-01 16:12 ?648次閱讀
    第一個基于<b class='flag-5'>DETR</b>的高質量通用目標檢測<b class='flag-5'>方法</b>

    基于OpenVINO C++ API部署RT-DETR模型

    RT-DETR 是在 DETR 模型基礎上進行改進的,一種基于 DETR 架構的實時端到端檢測器,它通過使用一系列新的技術和算法,實現(xiàn)了更高效的訓練和推理,在前文我們發(fā)表了《基于 OpenVINO
    的頭像 發(fā)表于 11-03 14:30 ?746次閱讀
    基于OpenVINO C++ API部署RT-<b class='flag-5'>DETR</b>模型

    基于OpenVINO C# API部署RT-DETR模型

    在 C# 環(huán)境下使用該模型應用到工業(yè)檢測中,因此在本文中,我們將向大家展示使用 OpenVINO Csharp API 部署 RT-DETR 模型,并對比不同編程平臺下模型部署的速度。
    的頭像 發(fā)表于 11-10 16:59 ?698次閱讀
    基于OpenVINO C# API部署RT-<b class='flag-5'>DETR</b>模型