0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

COCO單模型測試取得新紀(jì)錄:60.6 AP

新機(jī)器視覺 ? 來源:新智元 ? 作者:袁路 ? 2021-06-23 16:02 ? 次閱讀

隨著注意力機(jī)制在自然語言處理和計算機(jī)視覺等多個人工智能領(lǐng)域風(fēng)靡,計算機(jī)視覺領(lǐng)域刷榜之爭可謂是進(jìn)入白熱化階段。

近期大量工作刷新現(xiàn)有各項(xiàng)任務(wù)SOTA:前腳谷歌剛在圖像識別ImageNet上準(zhǔn)確度超過90,緊接著微軟又在目標(biāo)檢測COCO上AP超過60。

在一篇CVPR 2021 論文中,來自微軟的研究者提出多重注意力機(jī)制統(tǒng)一目標(biāo)檢測頭方法Dynamic Head, 可插拔特性提高多種目標(biāo)檢測框架的性能。

在Transformer骨干和額外數(shù)據(jù)加持下,COCO單模型測試取得新紀(jì)錄:60.6 AP。

方法概述

本文首先對現(xiàn)有目標(biāo)檢測頭的改進(jìn)工作進(jìn)行了總結(jié),發(fā)現(xiàn)近期方法主要通過三個不同的角度出發(fā)進(jìn)行目標(biāo)檢測性能的提升:

尺度感知:目標(biāo)尺度的差異對應(yīng)了不同尺度的特征,改進(jìn)不同級的表達(dá)能力可以有效提升目標(biāo)檢測器的尺度感知能力;

空間位置:不相似目標(biāo)形狀的不同幾何變換對應(yīng)了特征的不同空間位置,改進(jìn)不同空間位置的表達(dá)能力可以有效提升目標(biāo)檢測器的空間位置感知能力;

多任務(wù):目標(biāo)表達(dá)與任務(wù)的多樣性對應(yīng)了不同通道特征,改進(jìn)不同通道的表達(dá)能力可以有效提升目標(biāo)檢測的任務(wù)感知能力。

本文提出一種新穎的動態(tài)頭框架,它采用多注意力機(jī)制將不同的目標(biāo)檢測頭進(jìn)行統(tǒng)一。

通過特征層次之間的注意力機(jī)制用于尺度感知,空間位置之間的注意力機(jī)制用于空間感知,輸出通道內(nèi)的注意力機(jī)制用于任務(wù)感知,該方法可以在不增加計算量的情況顯著提升模型目標(biāo)檢測頭的表達(dá)能力。

為了達(dá)成以上目的,本文對特征金字塔進(jìn)行重構(gòu),將不同層級的特征統(tǒng)一到一個3D張量,并發(fā)現(xiàn)在不同維度引入注意力機(jī)制可以提高對尺度,空間位置和多任務(wù)的感知能力。

因此上述方向可以統(tǒng)一到一個高效注意力學(xué)習(xí)問題中。本文也是首個嘗試采用多注意力機(jī)制將三個維度組合構(gòu)建統(tǒng)一頭并最大化其性能的工作。

作者將注意力函數(shù)轉(zhuǎn)換為三個序列子注意力函數(shù)來解決傳統(tǒng)注意力函數(shù)在高維度導(dǎo)致計算量激增的問題。

每個注意力函數(shù)僅聚焦一個維度:基于SE模塊的尺度自注意函數(shù)π_L, 基于可變形卷積的空間自注意函數(shù)π_S 和 基于動態(tài)ReLU激活函數(shù)的多任務(wù)的自注意函數(shù)π_C。

作者將三種自注意函數(shù)進(jìn)行堆疊,形成一個可輕易插拔的模塊DyHead,并將其應(yīng)用于多種目標(biāo)檢測框架中。

實(shí)驗(yàn)結(jié)果

作者首先分析了的計算效率。當(dāng)采用6個模塊時,模型性能提升達(dá)到最大,而計算量提升相比骨干網(wǎng)絡(luò)可以忽略。

作者將DyHead集成到不同檢測器進(jìn)行性能對比,發(fā)現(xiàn)所提DyHead可以一致性提升所有主流目標(biāo)檢測器性能:1.2~3.2AP,展示了優(yōu)異的可插拔擴(kuò)展性能。

在與其他目標(biāo)檢測方法的對比中,所提方案以較大的優(yōu)勢超越了流行方案。相比僅采用多尺度尋覽的方法,所提方案僅需2x訓(xùn)練即可取得新的SOTA指標(biāo)52.3AP。相對于谷歌提出的EfficientDet與SpineNet,所提方法訓(xùn)練時間更少(僅1/20);

當(dāng)同時采用多尺度訓(xùn)練與測試時,所提方法取得了新的SOTA指標(biāo)54.0AP,以1.3AP指標(biāo)優(yōu)于此前最佳。

當(dāng)引入更優(yōu)異的Transformer骨干網(wǎng)絡(luò)、以及通過類似于谷歌自我學(xué)習(xí)方法生成的額外偽框的ImageNet數(shù)據(jù)后,所提方案取得了COCO新的記錄:60.6 AP,成為首個超過60的單模型方法。

責(zé)任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1695

    瀏覽量

    45910
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    603

    瀏覽量

    13489

原文標(biāo)題:刷新記錄! CVPR2021全新目標(biāo)檢測機(jī)制達(dá)到SOTA!

文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    NVIDIA文本嵌入模型NV-Embed的精度基準(zhǔn)

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分?jǐn)?shù)創(chuàng)下了嵌入準(zhǔn)確率的新紀(jì)錄海量文本嵌入基準(zhǔn)測試(MTEB)涵蓋 56 項(xiàng)嵌入任務(wù)。
    的頭像 發(fā)表于 08-23 16:54 ?1921次閱讀
    NVIDIA文本嵌入<b class='flag-5'>模型</b>NV-Embed的精度基準(zhǔn)

    單模單纖與單模雙纖的哪個穩(wěn)定?

    單模單纖與單模雙纖是兩種常見的光纖通信方式,它們在穩(wěn)定性、傳輸距離、成本等方面存在一定的差異。 一、單模單纖與單模雙纖的基本概念 1.1 單模
    的頭像 發(fā)表于 08-08 17:03 ?685次閱讀

    單模單纖與單模雙纖的優(yōu)缺點(diǎn)是什么

    單模單纖和單模雙纖是光纖通信系統(tǒng)中的兩種常見配置方式。它們在光纖通信系統(tǒng)中有著各自的優(yōu)缺點(diǎn)。 一、單模單纖 定義 單模單纖是指在光纖通信系統(tǒng)中,只使用一根
    的頭像 發(fā)表于 08-08 17:01 ?1178次閱讀

    單模鎧裝光纜與室外單模光纜區(qū)別

    單模鎧裝光纜與室外單模光纜在多個方面存在顯著區(qū)別,以下是對兩者區(qū)別的詳細(xì)分析: 一、外觀與結(jié)構(gòu) 外觀顏色:單模鎧裝光纜一般是黑色的,而室外單模光纜通常是黃色的。這種顏色差異有助于在實(shí)際
    的頭像 發(fā)表于 07-29 10:04 ?423次閱讀

    如何不用wifi_station_scan() 取得當(dāng)前已經(jīng)連線AP的BSSID?

    請問如何不用 wifi_station_scan() 取得當(dāng)前已經(jīng)連線 AP 的 BSSID? 使用 wifi_station_scan() 會造成當(dāng)前連線出現(xiàn)斷線等問題,是否有其他不影響連線的取得方式?
    發(fā)表于 07-12 15:25

    如何使用AP525測試泰凌硬件的音頻指標(biāo)(二)— AP525測試平臺介紹

    本章節(jié)將以AP525為例,介紹儀器硬件接口及AP測試軟件界面及常規(guī)的序列測試操作流程,熟悉本章節(jié)后將以泰凌TLSR9518A EVB作為DUT測試
    發(fā)表于 06-26 09:32 ?795次閱讀
    如何使用<b class='flag-5'>AP</b>525<b class='flag-5'>測試</b>泰凌硬件的音頻指標(biāo)(二)— <b class='flag-5'>AP</b>525<b class='flag-5'>測試</b>平臺介紹

    ESP8266 STA+AP模式下丟包如何解決?

    AT命令模式下ESP8266 STA+AP模式下,發(fā)送數(shù)據(jù)(at命令發(fā)送 上位機(jī)發(fā)送modbus命令詢問13個寄存器每秒發(fā)送一次,ESP8266做出回應(yīng)),經(jīng)過測試發(fā)送成功率在95%;但如果在
    發(fā)表于 06-26 06:25

    單模光纖能用多模光模塊嗎為什么

    單模光纖和多模光纖是兩種不同的光纖傳輸方式。單模光纖通常用于長距離傳輸和高速傳輸,而多模光纖則主要用于短距離傳輸。由于它們之間存在一些差異,因此不能直接使用多模光模塊進(jìn)行單模光纖的傳輸。 首先,
    的頭像 發(fā)表于 04-03 16:50 ?2921次閱讀

    單模光纖和多模光纖有什么區(qū)別?單模、多模能混合使用嗎?

    單模光纖和多模光纖有什么區(qū)別?單模、多模能混合使用嗎? 單模光纖和多模光纖是兩種主要用于傳輸光信號的光纖。它們在傳輸特性、傳輸距離以及傳輸帶寬等方面存在顯著的區(qū)別。本文將詳細(xì)介紹單模
    的頭像 發(fā)表于 01-04 15:40 ?1758次閱讀

    單模單纖和單模雙纖有什么區(qū)別

    單模單纖和單模雙纖是光纖傳輸中兩種常見的模式。單模指的是一種傳輸光信號的模式,單纖和雙纖指的是光纖中的纖芯數(shù)量。下面將詳細(xì)介紹單模單纖和單模
    的頭像 發(fā)表于 12-20 14:40 ?8305次閱讀

    捷報頻傳!諾安智能以智能傳感器項(xiàng)目強(qiáng)勢入選“深圳企業(yè)創(chuàng)新紀(jì)錄

    近日,第22屆深圳企業(yè)創(chuàng)新紀(jì)錄審定結(jié)果出爐,經(jīng)深圳市企業(yè)創(chuàng)新紀(jì)錄審定委員會全體委員審議,157家企業(yè)209個項(xiàng)目榜上有名。諾安智能憑借先進(jìn)的研發(fā)和技術(shù)創(chuàng)新能力,榮獲2項(xiàng)榮譽(yù),包含一項(xiàng)國際紀(jì)錄。本屆
    的頭像 發(fā)表于 12-13 09:01 ?471次閱讀
    捷報頻傳!諾安智能以智能傳感器項(xiàng)目強(qiáng)勢入選“深圳企業(yè)創(chuàng)<b class='flag-5'>新紀(jì)錄</b>”

    單模單纖與單模雙纖的區(qū)別

    單模單纖與單模雙纖的區(qū)別? 單模單纖(single mode single fiber,SMF)和單模雙纖(single mode dual fiber,SMDF)是光纖通信中常見的兩
    的頭像 發(fā)表于 12-08 10:41 ?4512次閱讀

    光纜單模多模怎么區(qū)分?

    光纜單模多模怎么區(qū)分? 光纜是一種用于傳輸光信號的通信線纜,主要分為單模光纜和多模光纜。它們在傳輸性能、適用距離、成本等方面有所不同。接下來,我將詳盡、詳實(shí)、細(xì)致地為您介紹單模光纜和多模光纜的區(qū)別
    的頭像 發(fā)表于 12-07 15:17 ?1743次閱讀

    單模雙纖和單模單纖的區(qū)別 單模單纖和雙纖哪個好 效果一樣嗎

    單模雙纖和單模單纖的區(qū)別 單模單纖和雙纖哪個好 單纖和雙纖效果一樣嗎? 單模雙纖和單模單纖是光纖通信領(lǐng)域中常用的概念。它們指的是在一對光纖中
    的頭像 發(fā)表于 12-07 10:09 ?1w次閱讀

    單模光纖的優(yōu)點(diǎn)和用途 單模光纖的性能優(yōu)于多模光纖嗎

    單模光纖的優(yōu)點(diǎn)和用途 單模光纖的性能優(yōu)于多模光纖嗎? 單模光纖是一種常用的光纖傳輸介質(zhì),優(yōu)點(diǎn)眾多。它能夠更有效地傳輸光信號,克服了多模光纖的一些限制,因此在一些特定的應(yīng)用領(lǐng)域更具優(yōu)勢。本文將詳細(xì)探討
    的頭像 發(fā)表于 11-28 14:18 ?1097次閱讀