91桃色污片网址,96在线视频亚洲国产,中文字幕乱码一区久久麻豆樱花

Grid R-CNN是商湯科技最新發(fā)表于arXiv的一篇目標(biāo)檢測(cè)的論文，對(duì)Faster R-CNN架構(gòu)的目標(biāo)坐標(biāo)回歸部分進(jìn)行了替換，取得了更加精確的定位精度，是最近非常值得一讀的論文。

今天就跟大家一起來(lái)細(xì)品此文妙處。

一、作者信息

該文所有作者均來(lái)自商湯科技：

該文直取Grid（網(wǎng)格）修飾R-CNN，意即將目標(biāo)檢測(cè)中位置定位轉(zhuǎn)化為目標(biāo)區(qū)域網(wǎng)格點(diǎn)的定位。

二、算法思想

如下圖所示：

在目前的R-CNN目標(biāo)檢測(cè)算法中，目標(biāo)的2個(gè)點(diǎn)（比如左上和右下）就能表征其位置，將目標(biāo)的定位看為回歸問(wèn)題，即將ROI特征flatten成向量,后接幾個(gè)全連接層回歸目標(biāo)的坐標(biāo)偏移量和寬高。

作者認(rèn)為，這種處理方式?jīng)]能很好的利用特征的空間信息。

作者希望利用全卷積網(wǎng)絡(luò)的精確定位能力計(jì)算目標(biāo)位置，將2個(gè)目標(biāo)點(diǎn)的回歸問(wèn)題，轉(zhuǎn)化為目標(biāo)區(qū)域網(wǎng)格點(diǎn)（Grid Points）的定位問(wèn)題。目標(biāo)區(qū)域的網(wǎng)格點(diǎn)位置是全卷積網(wǎng)絡(luò)的監(jiān)督信息，因?yàn)槭侵苯訉⒛繕?biāo)區(qū)域等分，是可以直接計(jì)算的。網(wǎng)絡(luò)推斷時(shí)，計(jì)算heatmap的極值，即為求得的網(wǎng)格點(diǎn)（Grid Points）。

上圖展示了使用3*3網(wǎng)格點(diǎn)的情況。

三、算法流程

作者改造的是Faster R-CNN的目標(biāo)定位部分，其算法流程如下：

前半部分與Faster R-CNN相同，在得到目標(biāo)候選區(qū)域和ROI特征后，分類(lèi)部分進(jìn)行目標(biāo)分類(lèi)，而定位部分接全卷積網(wǎng)絡(luò)，其監(jiān)督信息來(lái)自根據(jù)目標(biāo)位置計(jì)算得到的網(wǎng)格監(jiān)督信息。

流程圖中作者特別標(biāo)出了特征融合模塊（feature fusion module），其意在使用網(wǎng)格中相鄰網(wǎng)格點(diǎn)的位置相關(guān)性，融合特征使得定位更加精確。

以下針對(duì)其中關(guān)鍵步驟進(jìn)行詳細(xì)說(shuō)明。

3.1 網(wǎng)格引導(dǎo)定位

將目標(biāo)區(qū)域劃為網(wǎng)格，目標(biāo)的定位即轉(zhuǎn)化為網(wǎng)格點(diǎn)的定位。

訓(xùn)練時(shí)，ROI特征（14*14大?。┩ㄟ^(guò)8個(gè)3*3空洞卷積，再通過(guò)兩個(gè)反卷積把尺寸擴(kuò)大（56*56），再通過(guò)一個(gè)卷積生成與網(wǎng)格點(diǎn)相關(guān)的 heatmaps（9 個(gè)點(diǎn)就是 9 張圖，后文實(shí)驗(yàn)也使用了4個(gè)點(diǎn)的情況）。監(jiān)督信息是每一個(gè)點(diǎn)所處位置的交叉十字形狀的5個(gè)點(diǎn)的位置。最后再接sigmoid函數(shù)，在heapmaps上得到概率圖。

推斷時(shí)，將heapmaps極值的位置映射回原圖，即得到了網(wǎng)格點(diǎn)的位置。

讀到這里，讀者可能會(huì)有一個(gè)疑問(wèn)，即計(jì)算得到的網(wǎng)格點(diǎn)組成的形狀是方方正正的，而Heapmaps極值得到的網(wǎng)格點(diǎn)未必組合在一起是方方正正的，不好確定目標(biāo)區(qū)域。

作者的方法是對(duì)原本應(yīng)該具有相同x或者y坐標(biāo)的網(wǎng)格點(diǎn)的坐標(biāo)進(jìn)行平均。

到此，即得到了目標(biāo)位置。

3.2 網(wǎng)格點(diǎn)特征融合

很顯然，網(wǎng)格點(diǎn)之間具有內(nèi)在的聯(lián)系，相鄰網(wǎng)格點(diǎn)之間可以相互校正位置提高定位精度。

為此，作者設(shè)計(jì)了網(wǎng)格點(diǎn)特征融合的機(jī)制。

首先，在計(jì)算網(wǎng)格點(diǎn)heapmaps時(shí)，每個(gè)網(wǎng)格點(diǎn)使用不同的濾波器組，防止它們之間共用特征以至相互影響。

然后在每個(gè)網(wǎng)格點(diǎn)的Heapmap出來(lái)后，將相鄰網(wǎng)格點(diǎn)的Heapmaps經(jīng)過(guò)卷積濾波與其相加，形成新的heapmap。

作者將距離特定網(wǎng)格點(diǎn)最近的相鄰網(wǎng)格點(diǎn)（1個(gè)單位網(wǎng)格長(zhǎng)度）組成的網(wǎng)格點(diǎn)集合的特征融合稱為一階特征融合，次近的相鄰網(wǎng)格點(diǎn)（2個(gè)單位網(wǎng)格長(zhǎng)度）組成的網(wǎng)格點(diǎn)集合的特征融合稱為二階特征融合。下圖中（a）（b）分別展示了此融合過(guò)程。

3.3 擴(kuò)展區(qū)域映射

這一步主要是為了應(yīng)對(duì)在實(shí)際使用中，RPN 給出的 proposal并不總是將完整物體包含在內(nèi)。如下圖：

圖中白色的實(shí)線框表示 RPN 給出的候選框，它沒(méi)有完全包含所有的網(wǎng)格點(diǎn)。

而作者指出，簡(jiǎn)單的擴(kuò)大候選框的大小，不會(huì)帶來(lái)提升，甚至降低對(duì)小物體檢測(cè)的精度（后面有實(shí)驗(yàn)驗(yàn)證）。

作者認(rèn)為heatmap的感受野其實(shí)是很大的，并不限于候選框內(nèi)，所以就干脆直接將heatmap對(duì)應(yīng)的區(qū)域看成候選框覆蓋的區(qū)域兩倍大（如圖中虛線圍起來(lái)的區(qū)域）。

這么做的好處是，只需簡(jiǎn)單修改網(wǎng)格引導(dǎo)定位中的位置映射公式。即

四、實(shí)驗(yàn)結(jié)果

作者首先研究了算法中網(wǎng)格點(diǎn)數(shù)對(duì)精度的影響。如下圖：

相比回歸的方法，Grid R-CNN精度更高，而且隨著點(diǎn)數(shù)增加精度也在提高。

比較AP0.5和AP0.75發(fā)現(xiàn)，精度提升主要來(lái)自高IoU閾值的情況。

其次，作者實(shí)驗(yàn)了網(wǎng)格點(diǎn)特征融合策略對(duì)性能的影響。如下圖：

可見(jiàn)該文提出的特征融合策略是有效的，而且二階特征融合更加有效。

然后，作者實(shí)驗(yàn)了擴(kuò)展區(qū)域映射對(duì)精度的影響。如下圖：

可見(jiàn)，直接擴(kuò)大候選框區(qū)域的方法傷害了精度，而本文提出的擴(kuò)展區(qū)域映射(extended region mapping)的方法則使精度有較大的提高（1.2個(gè)AP）。

作者又在主流的目標(biāo)檢測(cè)數(shù)據(jù)庫(kù)上與state-of-the-art進(jìn)行了比較。

下圖展示了在Pascal VOC數(shù)據(jù)集上，相比R-FCN、FPN，使用相同骨干網(wǎng)的情況下，精度取得了極大的提升！

在COCO minival數(shù)據(jù)集上的實(shí)驗(yàn)，同樣取得了較大幅度精度提升。

在COCO test-dev數(shù)據(jù)集上也實(shí)現(xiàn)了一騎絕塵！如下圖：

與Faster R-CNN相比，發(fā)現(xiàn)精度提升主要來(lái)自高IoU閾值的部分，如下圖所示。

所以作者猜測(cè)，Grid定位分支也許輕微影響了分類(lèi)的分支。

下圖是一些目標(biāo)的定位示例（請(qǐng)點(diǎn)擊大圖查看）：

作者最后列出了Grid R-CNN對(duì)各目標(biāo)類(lèi)別的精度增益，發(fā)現(xiàn)那些矩形和長(zhǎng)方形目標(biāo)（例如鍵盤(pán)，筆記本電腦，叉子，火車(chē)和冰箱）往往獲得更大的精度增益，而具有圓形性質(zhì)的物體（例如運(yùn)動(dòng)球，飛盤(pán)，碗，鐘和杯子）則性能下降或獲得較小的增益。

五、總結(jié)

該文反思了目標(biāo)檢測(cè)中的定位問(wèn)題，提出以覆蓋目標(biāo)的網(wǎng)格點(diǎn)作為監(jiān)督信息使用全卷積網(wǎng)絡(luò)定位網(wǎng)格點(diǎn)的方法，大幅提高了目標(biāo)定位精度。值得研究目標(biāo)檢測(cè)的朋友學(xué)習(xí)~

文中沒(méi)有提及推斷速度、代碼是否會(huì)開(kāi)源，希望有進(jìn)一步的消息出來(lái)。

目標(biāo)定位的方法還有什么可挖掘的嗎？

你認(rèn)為Grid R-CNN會(huì)成為Faster R-CNN那樣的傳世經(jīng)典嗎？

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

濾波器

濾波器

+關(guān)注

關(guān)注
158

文章
7596

瀏覽量
176603
數(shù)據(jù)庫(kù)

數(shù)據(jù)庫(kù)

+關(guān)注

關(guān)注
7

文章
3712

瀏覽量
64027
網(wǎng)格

網(wǎng)格

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
15940

原文標(biāo)題：Grid R-CNN解讀：商湯最新目標(biāo)檢測(cè)算法，定位精度超越Faster R-CNN

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法解析

本節(jié)主要將近年來(lái)基于候選區(qū)域的目標(biāo)檢測(cè)算法分為五個(gè)部分進(jìn)行綜述，首先介紹了Faster R-CNN[14]框架的發(fā)展歷程，然后綜述了對(duì)Faster R-CNN算法的四個(gè)重要組成部分(特

發(fā)表于 01-09 10:52 ?1042次閱讀

手把手教你使用LabVIEW實(shí)現(xiàn)Mask R-CNN圖像實(shí)例分割（含源碼）

使用LabVIEW實(shí)現(xiàn)Mask R-CNN圖像實(shí)例分割

發(fā)表于 03-21 13:39 ?2025次閱讀

手把手教你使用LabVIEW實(shí)現(xiàn)Mask <b class='flag-5'>R-CNN</b>圖像實(shí)例分割（含源碼）

深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)中的進(jìn)展

深度卷積神經(jīng)網(wǎng)絡(luò)（DCNN）在圖像分類(lèi)和識(shí)別上取得了很顯著的提高?；仡檹?014到2016這兩年多的時(shí)間，先后涌現(xiàn)出了R-CNN，F(xiàn)ast R-CNN, Faster R-CNN, I

發(fā)表于 11-16 01:41 ?5141次閱讀

深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)中的進(jìn)展

介紹目標(biāo)檢測(cè)工具Faster R-CNN，包括它的構(gòu)造及實(shí)現(xiàn)原理

在本篇文章中，公司的研究人員介紹了他們?cè)谘芯窟^(guò)程中所使用的先進(jìn)目標(biāo)檢測(cè)工具Faster R-CNN，包括它的構(gòu)造及實(shí)現(xiàn)原理。

發(fā)表于 01-27 11:49 ?1.8w次閱讀

介紹目標(biāo)檢測(cè)工具<b class='flag-5'>Faster</b> <b class='flag-5'>R-CNN</b>，包括它的構(gòu)造及實(shí)現(xiàn)原理

Mask R-CNN：自動(dòng)從視頻中制作目標(biāo)物體的GIF動(dòng)圖

用深度學(xué)習(xí)模型——Mask R-CNN，自動(dòng)從視頻中制作目標(biāo)物體的GIF動(dòng)圖。

發(fā)表于 02-03 14:19 ?1.1w次閱讀

什么是Mask R-CNN？Mask R-CNN的工作原理

它的概念很簡(jiǎn)單：對(duì)于每個(gè)目標(biāo)對(duì)象，Faster R-CNN都有兩個(gè)輸出，一是分類(lèi)標(biāo)簽，二是候選窗口；為了分割目標(biāo)像素，我們可以在前兩個(gè)輸出的基礎(chǔ)上增加第三個(gè)輸出——指示對(duì)象在窗口中像素位置的二進(jìn)制

發(fā)表于 07-20 08:53 ?6.8w次閱讀

引入Mask R-CNN思想通過(guò)語(yǔ)義分割進(jìn)行任意形狀文本檢測(cè)與識(shí)別

網(wǎng)絡(luò)架構(gòu)由四部分組成，骨干網(wǎng)feature pyramid network (FPN) ，文本候選區(qū)域生成網(wǎng)絡(luò)region proposal network (RPN) ，文本包圍盒回歸網(wǎng)絡(luò)Fast R-CNN ，文本實(shí)例分割與字符分割網(wǎng)絡(luò)mask branch。

發(fā)表于 08-07 14:24 ?1.4w次閱讀

手把手教你操作Faster R-CNN和Mask R-CNN

Mask R-CNN是承繼于Faster R-CNN，Mask R-CNN只是在Faster R-CNN

發(fā)表于 04-04 16:32 ?1.3w次閱讀

一種新的帶有不確定性的邊界框回歸損失，可用于學(xué)習(xí)更準(zhǔn)確的目標(biāo)定位

目標(biāo)檢測(cè)是一種多任務(wù)學(xué)習(xí)問(wèn)題，包含目標(biāo)定位和目標(biāo)分類(lèi)。當(dāng)前最佳的目標(biāo)檢測(cè)器（比如 Faster RCNN、Cascade R-CNN 和 Mask R-CNN）都依靠邊界框回歸來(lái)定位目標(biāo)。

發(fā)表于 04-23 16:38 ?6333次閱讀

基于改進(jìn)Faster R-CNN的目標(biāo)檢測(cè)方法

為提高小尺度行人檢測(cè)的準(zhǔn)確性，提出一種基于改進(jìn) Faster r-CNN的目標(biāo)檢測(cè)方法。通過(guò)引入基于雙線性插值的對(duì)齊池化層，避免感興趣區(qū)域池化過(guò)程中兩次量化操作導(dǎo)致的位置偏差，同時(shí)設(shè)計(jì)基于級(jí)聯(lián)的多層

發(fā)表于 03-23 14:52 ?3次下載

基于Mask R-CNN的遙感圖像處理技術(shù)綜述

較為密集，且容易與港口混合。當(dāng)前對(duì)艦船檢測(cè)的輸岀結(jié)果主要是檢測(cè)框，缺少對(duì)艦船掩碼的輸岀，使得無(wú)法全面分析岀模型存在的不足;冋時(shí)，由于遙感圖像中的艦船?？棵芗菀桩a(chǎn)生漏檢問(wèn)題。為解決上述問(wèn)題，利用 Mask r-cnn對(duì)艦

發(fā)表于 05-08 16:39 ?3次下載

用于實(shí)例分割的Mask R-CNN框架

我們的方法稱為 Mask R-CNN，擴(kuò)展了 Faster RCNN ，方法是在每個(gè)感興趣區(qū)域 (RoI) 上添加一個(gè)用于預(yù)測(cè)分割掩碼的分支，與用于分類(lèi)和邊界框回歸的現(xiàn)有分支并行(圖 1)。掩碼分支

發(fā)表于 04-13 10:40 ?2501次閱讀

深入了解目標(biāo)檢測(cè)深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

本文將討論目標(biāo)檢測(cè)的基本方法(窮盡搜索、R-CNN、Fast R-CNN和Faster R-CNN)，并嘗試?yán)斫饷總€(gè)模型的技術(shù)細(xì)節(jié)。為了讓經(jīng)驗(yàn)水平各不相同的讀者都能夠理解，文章不會(huì)使用

發(fā)表于 01-05 16:27 ?323次閱讀

PyTorch教程14.8之基于區(qū)域的CNN(R-CNN)

電子發(fā)燒友網(wǎng)站提供《PyTorch教程14.8之基于區(qū)域的CNN(R-CNN).pdf》資料免費(fèi)下載

發(fā)表于 06-05 11:09 ?0次下載

PyTorch教程-14.8?；趨^(qū)域的 CNN (R-CNN)

)、faster R-CNN ( Ren et al. , 2015 )和掩模 R-CNN ( He等，2017）。由于篇幅有限，我們將只關(guān)注這些模型的設(shè)計(jì)。 14.8.1。R

發(fā)表于 06-05 15:44 ?551次閱讀

搜索歷史

你認(rèn)為Grid R-CNN會(huì)成為Faster R-CNN那樣的傳世經(jīng)典嗎？

評(píng)論

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法解析

手把手教你使用LabVIEW實(shí)現(xiàn)Mask R-CNN圖像實(shí)例分割（含源碼）

深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)中的進(jìn)展

介紹目標(biāo)檢測(cè)工具Faster R-CNN，包括它的構(gòu)造及實(shí)現(xiàn)原理

Mask R-CNN：自動(dòng)從視頻中制作目標(biāo)物體的GIF動(dòng)圖

什么是Mask R-CNN？Mask R-CNN的工作原理

引入Mask R-CNN思想通過(guò)語(yǔ)義分割進(jìn)行任意形狀文本檢測(cè)與識(shí)別

手把手教你操作Faster R-CNN和Mask R-CNN

一種新的帶有不確定性的邊界框回歸損失，可用于學(xué)習(xí)更準(zhǔn)確的目標(biāo)定位

基于改進(jìn)Faster R-CNN的目標(biāo)檢測(cè)方法

基于Mask R-CNN的遙感圖像處理技術(shù)綜述

用于實(shí)例分割的Mask R-CNN框架

深入了解目標(biāo)檢測(cè)深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

PyTorch教程14.8之基于區(qū)域的CNN(R-CNN)

PyTorch教程-14.8?；趨^(qū)域的 CNN (R-CNN)

搜索歷史

你認(rèn)為Grid R-CNN會(huì)成為Faster R-CNN那樣的傳世經(jīng)典嗎？

評(píng)論

你認(rèn)為Grid R-CNN會(huì)成為Faster R-CNN那樣的傳世經(jīng)典嗎？