0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

你認(rèn)為Grid R-CNN會(huì)成為Faster R-CNN那樣的傳世經(jīng)典嗎?

電子工程師 ? 來(lái)源:lq ? 2018-12-25 10:42 ? 次閱讀

Grid R-CNN是商湯科技最新發(fā)表于arXiv的一篇目標(biāo)檢測(cè)的論文,對(duì)Faster R-CNN架構(gòu)的目標(biāo)坐標(biāo)回歸部分進(jìn)行了替換,取得了更加精確的定位精度,是最近非常值得一讀的論文。

今天就跟大家一起來(lái)細(xì)品此文妙處。

一、作者信息

該文所有作者均來(lái)自商湯科技:

該文直取Grid(網(wǎng)格)修飾R-CNN,意即將目標(biāo)檢測(cè)中位置定位轉(zhuǎn)化為目標(biāo)區(qū)域網(wǎng)格點(diǎn)的定位。

二、算法思想

如下圖所示:

在目前的R-CNN目標(biāo)檢測(cè)算法中,目標(biāo)的2個(gè)點(diǎn)(比如左上和右下)就能表征其位置,將目標(biāo)的定位看為回歸問(wèn)題,即將ROI特征flatten成向量,后接幾個(gè)全連接層回歸目標(biāo)的坐標(biāo)偏移量和寬高。

作者認(rèn)為,這種處理方式?jīng)]能很好的利用特征的空間信息。

作者希望利用全卷積網(wǎng)絡(luò)的精確定位能力計(jì)算目標(biāo)位置,將2個(gè)目標(biāo)點(diǎn)的回歸問(wèn)題,轉(zhuǎn)化為目標(biāo)區(qū)域網(wǎng)格點(diǎn)(Grid Points)的定位問(wèn)題。目標(biāo)區(qū)域的網(wǎng)格點(diǎn)位置是全卷積網(wǎng)絡(luò)的監(jiān)督信息,因?yàn)槭侵苯訉⒛繕?biāo)區(qū)域等分,是可以直接計(jì)算的。網(wǎng)絡(luò)推斷時(shí),計(jì)算heatmap的極值,即為求得的網(wǎng)格點(diǎn)(Grid Points)。

上圖展示了使用3*3網(wǎng)格點(diǎn)的情況。

三、算法流程

作者改造的是Faster R-CNN的目標(biāo)定位部分,其算法流程如下:

前半部分與Faster R-CNN相同,在得到目標(biāo)候選區(qū)域和ROI特征后,分類(lèi)部分進(jìn)行目標(biāo)分類(lèi),而定位部分接全卷積網(wǎng)絡(luò),其監(jiān)督信息來(lái)自根據(jù)目標(biāo)位置計(jì)算得到的網(wǎng)格監(jiān)督信息。

流程圖中作者特別標(biāo)出了特征融合模塊(feature fusion module),其意在使用網(wǎng)格中相鄰網(wǎng)格點(diǎn)的位置相關(guān)性,融合特征使得定位更加精確。

以下針對(duì)其中關(guān)鍵步驟進(jìn)行詳細(xì)說(shuō)明。

3.1 網(wǎng)格引導(dǎo)定位

將目標(biāo)區(qū)域劃為網(wǎng)格,目標(biāo)的定位即轉(zhuǎn)化為網(wǎng)格點(diǎn)的定位。

訓(xùn)練時(shí),ROI特征(14*14大?。┩ㄟ^(guò)8個(gè)3*3空洞卷積,再通過(guò)兩個(gè)反卷積把尺寸擴(kuò)大(56*56),再通過(guò)一個(gè)卷積生成與網(wǎng)格點(diǎn)相關(guān)的 heatmaps(9 個(gè)點(diǎn)就是 9 張圖,后文實(shí)驗(yàn)也使用了4個(gè)點(diǎn)的情況)。監(jiān)督信息是每一個(gè)點(diǎn)所處位置的交叉十字形狀的5個(gè)點(diǎn)的位置。最后再接sigmoid函數(shù),在heapmaps上得到概率圖。

推斷時(shí),將heapmaps極值的位置映射回原圖,即得到了網(wǎng)格點(diǎn)的位置。

讀到這里,讀者可能會(huì)有一個(gè)疑問(wèn),即計(jì)算得到的網(wǎng)格點(diǎn)組成的形狀是方方正正的,而Heapmaps極值得到的網(wǎng)格點(diǎn)未必組合在一起是方方正正的,不好確定目標(biāo)區(qū)域。

作者的方法是對(duì)原本應(yīng)該具有相同x或者y坐標(biāo)的網(wǎng)格點(diǎn)的坐標(biāo)進(jìn)行平均。

到此,即得到了目標(biāo)位置。

3.2 網(wǎng)格點(diǎn)特征融合

很顯然,網(wǎng)格點(diǎn)之間具有內(nèi)在的聯(lián)系,相鄰網(wǎng)格點(diǎn)之間可以相互校正位置提高定位精度。

為此,作者設(shè)計(jì)了網(wǎng)格點(diǎn)特征融合的機(jī)制。

首先,在計(jì)算網(wǎng)格點(diǎn)heapmaps時(shí),每個(gè)網(wǎng)格點(diǎn)使用不同的濾波器組,防止它們之間共用特征以至相互影響。

然后在每個(gè)網(wǎng)格點(diǎn)的Heapmap出來(lái)后,將相鄰網(wǎng)格點(diǎn)的Heapmaps經(jīng)過(guò)卷積濾波與其相加,形成新的heapmap。

作者將距離特定網(wǎng)格點(diǎn)最近的相鄰網(wǎng)格點(diǎn)(1個(gè)單位網(wǎng)格長(zhǎng)度)組成的網(wǎng)格點(diǎn)集合的特征融合稱為一階特征融合,次近的相鄰網(wǎng)格點(diǎn)(2個(gè)單位網(wǎng)格長(zhǎng)度)組成的網(wǎng)格點(diǎn)集合的特征融合稱為二階特征融合。下圖中(a)(b)分別展示了此融合過(guò)程。

3.3 擴(kuò)展區(qū)域映射

這一步主要是為了應(yīng)對(duì)在實(shí)際使用中,RPN 給出的 proposal并不總是將完整物體包含在內(nèi)。如下圖:

圖中白色的實(shí)線框表示 RPN 給出的候選框,它沒(méi)有完全包含所有的網(wǎng)格點(diǎn)。

而作者指出,簡(jiǎn)單的擴(kuò)大候選框的大小,不會(huì)帶來(lái)提升,甚至降低對(duì)小物體檢測(cè)的精度(后面有實(shí)驗(yàn)驗(yàn)證)。

作者認(rèn)為heatmap的感受野其實(shí)是很大的,并不限于候選框內(nèi),所以就干脆直接將heatmap對(duì)應(yīng)的區(qū)域看成候選框覆蓋的區(qū)域兩倍大(如圖中虛線圍起來(lái)的區(qū)域)。

這么做的好處是,只需簡(jiǎn)單修改網(wǎng)格引導(dǎo)定位中的位置映射公式。即

四、實(shí)驗(yàn)結(jié)果

作者首先研究了算法中網(wǎng)格點(diǎn)數(shù)對(duì)精度的影響。如下圖:

相比回歸的方法,Grid R-CNN精度更高,而且隨著點(diǎn)數(shù)增加精度也在提高。

比較AP0.5和AP0.75發(fā)現(xiàn),精度提升主要來(lái)自高IoU閾值的情況。

其次,作者實(shí)驗(yàn)了網(wǎng)格點(diǎn)特征融合策略對(duì)性能的影響。如下圖:

可見(jiàn)該文提出的特征融合策略是有效的,而且二階特征融合更加有效。

然后,作者實(shí)驗(yàn)了擴(kuò)展區(qū)域映射對(duì)精度的影響。如下圖:

可見(jiàn),直接擴(kuò)大候選框區(qū)域的方法傷害了精度,而本文提出的擴(kuò)展區(qū)域映射(extended region mapping)的方法則使精度有較大的提高(1.2個(gè)AP)。

作者又在主流的目標(biāo)檢測(cè)數(shù)據(jù)庫(kù)上與state-of-the-art進(jìn)行了比較。

下圖展示了在Pascal VOC數(shù)據(jù)集上,相比R-FCN、FPN,使用相同骨干網(wǎng)的情況下,精度取得了極大的提升!

在COCO minival數(shù)據(jù)集上的實(shí)驗(yàn),同樣取得了較大幅度精度提升。

在COCO test-dev數(shù)據(jù)集上也實(shí)現(xiàn)了一騎絕塵!如下圖:

與Faster R-CNN相比,發(fā)現(xiàn)精度提升主要來(lái)自高IoU閾值的部分,如下圖所示。

所以作者猜測(cè),Grid定位分支也許輕微影響了分類(lèi)的分支。

下圖是一些目標(biāo)的定位示例(請(qǐng)點(diǎn)擊大圖查看):

作者最后列出了Grid R-CNN對(duì)各目標(biāo)類(lèi)別的精度增益,發(fā)現(xiàn)那些矩形和長(zhǎng)方形目標(biāo)(例如鍵盤(pán),筆記本電腦,叉子,火車(chē)和冰箱)往往獲得更大的精度增益,而具有圓形性質(zhì)的物體(例如運(yùn)動(dòng)球,飛盤(pán),碗,鐘和杯子)則性能下降或獲得較小的增益。

五、總結(jié)

該文反思了目標(biāo)檢測(cè)中的定位問(wèn)題,提出以覆蓋目標(biāo)的網(wǎng)格點(diǎn)作為監(jiān)督信息使用全卷積網(wǎng)絡(luò)定位網(wǎng)格點(diǎn)的方法,大幅提高了目標(biāo)定位精度。值得研究目標(biāo)檢測(cè)的朋友學(xué)習(xí)~

文中沒(méi)有提及推斷速度、代碼是否會(huì)開(kāi)源,希望有進(jìn)一步的消息出來(lái)。

目標(biāo)定位的方法還有什么可挖掘的嗎?

你認(rèn)為Grid R-CNN會(huì)成為Faster R-CNN那樣的傳世經(jīng)典嗎?

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 濾波器
    +關(guān)注

    關(guān)注

    158

    文章

    7596

    瀏覽量

    176603
  • 數(shù)據(jù)庫(kù)
    +關(guān)注

    關(guān)注

    7

    文章

    3712

    瀏覽量

    64027
  • 網(wǎng)格
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    15940

原文標(biāo)題:Grid R-CNN解讀:商湯最新目標(biāo)檢測(cè)算法,定位精度超越Faster R-CNN

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法解析

    本節(jié)主要將近年來(lái)基于候選區(qū)域的目標(biāo)檢測(cè)算法分為五個(gè)部分進(jìn)行綜述,首先介紹了Faster R-CNN[14]框架的發(fā)展歷程,然后綜述了對(duì)Faster R-CNN算法的四個(gè)重要組成部分(特
    發(fā)表于 01-09 10:52 ?1042次閱讀

    手把手教你使用LabVIEW實(shí)現(xiàn)Mask R-CNN圖像實(shí)例分割(含源碼)

    使用LabVIEW實(shí)現(xiàn)Mask R-CNN圖像實(shí)例分割
    的頭像 發(fā)表于 03-21 13:39 ?2025次閱讀
    手把手教你使用LabVIEW實(shí)現(xiàn)Mask <b class='flag-5'>R-CNN</b>圖像實(shí)例分割(含源碼)

    深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)中的進(jìn)展

    深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在圖像分類(lèi)和識(shí)別上取得了很顯著的提高?;仡檹?014到2016這兩年多的時(shí)間,先后涌現(xiàn)出了R-CNN,F(xiàn)ast R-CNN, Faster R-CNN, I
    發(fā)表于 11-16 01:41 ?5141次閱讀
    深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)中的進(jìn)展

    介紹目標(biāo)檢測(cè)工具Faster R-CNN,包括它的構(gòu)造及實(shí)現(xiàn)原理

    在本篇文章中,公司的研究人員介紹了他們?cè)谘芯窟^(guò)程中所使用的先進(jìn)目標(biāo)檢測(cè)工具Faster R-CNN,包括它的構(gòu)造及實(shí)現(xiàn)原理。
    的頭像 發(fā)表于 01-27 11:49 ?1.8w次閱讀
    介紹目標(biāo)檢測(cè)工具<b class='flag-5'>Faster</b> <b class='flag-5'>R-CNN</b>,包括它的構(gòu)造及實(shí)現(xiàn)原理

    Mask R-CNN:自動(dòng)從視頻中制作目標(biāo)物體的GIF動(dòng)圖

    用深度學(xué)習(xí)模型——Mask R-CNN,自動(dòng)從視頻中制作目標(biāo)物體的GIF動(dòng)圖。
    的頭像 發(fā)表于 02-03 14:19 ?1.1w次閱讀

    什么是Mask R-CNN?Mask R-CNN的工作原理

    它的概念很簡(jiǎn)單:對(duì)于每個(gè)目標(biāo)對(duì)象,Faster R-CNN都有兩個(gè)輸出,一是分類(lèi)標(biāo)簽,二是候選窗口;為了分割目標(biāo)像素,我們可以在前兩個(gè)輸出的基礎(chǔ)上增加第三個(gè)輸出——指示對(duì)象在窗口中像素位置的二進(jìn)制
    的頭像 發(fā)表于 07-20 08:53 ?6.8w次閱讀

    引入Mask R-CNN思想通過(guò)語(yǔ)義分割進(jìn)行任意形狀文本檢測(cè)與識(shí)別

    網(wǎng)絡(luò)架構(gòu)由四部分組成,骨干網(wǎng)feature pyramid network (FPN) ,文本候選區(qū)域生成網(wǎng)絡(luò)region proposal network (RPN) ,文本包圍盒回歸網(wǎng)絡(luò)Fast R-CNN ,文本實(shí)例分割與字符分割網(wǎng)絡(luò)mask branch。
    的頭像 發(fā)表于 08-07 14:24 ?1.4w次閱讀

    手把手教你操作Faster R-CNN和Mask R-CNN

    Mask R-CNN是承繼于Faster R-CNN,Mask R-CNN只是在Faster R-CNN
    的頭像 發(fā)表于 04-04 16:32 ?1.3w次閱讀

    一種新的帶有不確定性的邊界框回歸損失,可用于學(xué)習(xí)更準(zhǔn)確的目標(biāo)定位

    目標(biāo)檢測(cè)是一種多任務(wù)學(xué)習(xí)問(wèn)題,包含目標(biāo)定位和目標(biāo)分類(lèi)。當(dāng)前最佳的目標(biāo)檢測(cè)器(比如 Faster RCNN、Cascade R-CNN 和 Mask R-CNN)都依靠邊界框回歸來(lái)定位目標(biāo)。
    的頭像 發(fā)表于 04-23 16:38 ?6333次閱讀
    一種新的帶有不確定性的邊界框回歸損失,可用于學(xué)習(xí)更準(zhǔn)確的目標(biāo)定位

    基于改進(jìn)Faster R-CNN的目標(biāo)檢測(cè)方法

    為提高小尺度行人檢測(cè)的準(zhǔn)確性,提出一種基于改進(jìn) Faster r-CNN的目標(biāo)檢測(cè)方法。通過(guò)引入基于雙線性插值的對(duì)齊池化層,避免感興趣區(qū)域池化過(guò)程中兩次量化操作導(dǎo)致的位置偏差,同時(shí)設(shè)計(jì)基于級(jí)聯(lián)的多層
    發(fā)表于 03-23 14:52 ?3次下載
    基于改進(jìn)<b class='flag-5'>Faster</b> <b class='flag-5'>R-CNN</b>的目標(biāo)檢測(cè)方法

    基于Mask R-CNN的遙感圖像處理技術(shù)綜述

    較為密集,且容易與港口混合。當(dāng)前對(duì)艦船檢測(cè)的輸岀結(jié)果主要是檢測(cè)框,缺少對(duì)艦船掩碼的輸岀,使得無(wú)法全面分析岀模型存在的不足;冋時(shí),由于遙感圖像中的艦船??棵芗菀桩a(chǎn)生漏檢問(wèn)題。為解決上述問(wèn)題,利用 Mask r-cnn對(duì)艦
    發(fā)表于 05-08 16:39 ?3次下載

    用于實(shí)例分割的Mask R-CNN框架

    我們的方法稱為 Mask R-CNN,擴(kuò)展了 Faster RCNN ,方法是在每個(gè)感興趣區(qū)域 (RoI) 上添加一個(gè)用于預(yù)測(cè)分割掩碼的分支,與用于分類(lèi)和邊界框回歸的現(xiàn)有分支并行(圖 1)。掩碼分支
    的頭像 發(fā)表于 04-13 10:40 ?2501次閱讀

    深入了解目標(biāo)檢測(cè)深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

    本文將討論目標(biāo)檢測(cè)的基本方法(窮盡搜索、R-CNN、Fast R-CNNFaster R-CNN),并嘗試?yán)斫饷總€(gè)模型的技術(shù)細(xì)節(jié)。為了讓經(jīng)驗(yàn)水平各不相同的讀者都能夠理解,文章不會(huì)使用
    發(fā)表于 01-05 16:27 ?323次閱讀

    PyTorch教程14.8之基于區(qū)域的CNN(R-CNN)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程14.8之基于區(qū)域的CNN(R-CNN).pdf》資料免費(fèi)下載
    發(fā)表于 06-05 11:09 ?0次下載
    PyTorch教程14.8之基于區(qū)域的<b class='flag-5'>CNN</b>(<b class='flag-5'>R-CNN</b>)

    PyTorch教程-14.8?;趨^(qū)域的 CNN (R-CNN)

    )、faster R-CNN ( Ren et al. , 2015 )和掩模 R-CNN ( He等,2017)。由于篇幅有限,我們將只關(guān)注這些模型的設(shè)計(jì)。 14.8.1。R
    的頭像 發(fā)表于 06-05 15:44 ?551次閱讀
    PyTorch教程-14.8。基于區(qū)域的 <b class='flag-5'>CNN</b> (<b class='flag-5'>R-CNN</b>)