0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種新的、更精細(xì)的對象表示方法 ——RepPoints ,比邊界框更好用的目標(biāo)檢測方法

DPVg_AI_era ? 來源:lq ? 2019-05-05 10:58 ? 次閱讀

來自北京大學(xué)、清華大學(xué)和微軟亞洲研究院的研究人員提出一種新的、更精細(xì)的對象表示方法RepPoints,拋棄了流行的邊界框表示,結(jié)果與最先進(jìn)的基于 anchor 的檢測方法同樣有效。

目標(biāo)檢測是計算機(jī)視覺中最基本的任務(wù)之一,也是許多視覺應(yīng)用的關(guān)鍵組成部分,包括實例分割、人體姿態(tài)分析、視覺推理等。

目標(biāo)檢測的目的是在圖像中定位目標(biāo),并提供目標(biāo)的類別標(biāo)簽。

近年來,隨著深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,目標(biāo)檢測問題也取得了長足的進(jìn)展。

當(dāng)前先進(jìn)的目標(biāo)檢測器很大程度上依賴于矩形邊界框來表示不同識別階段的對象,如 anchors、proposals 以及最終的預(yù)測。

邊界框使用方便,但它只提供目標(biāo)的粗略定位,導(dǎo)致對目標(biāo)特征的提取也相當(dāng)粗略。

近日,來自北京大學(xué)、清華大學(xué)和微軟亞洲研究院的楊澤、王立威、Shaohui Liu 等人在他們的最新論文中,提出了一種新的、更精細(xì)的對象表示方法 ——RepPoints (representative points),這是一組對定位和識別都很有用的樣本點(diǎn) (sample points)。

論文地址:

https://arxiv.org/pdf/1904.11490.pdf

給定訓(xùn)練的 ground truth 定位和識別目標(biāo),RepPoints 學(xué)會自動以限制目標(biāo)的空間范圍的方式來排列自己,并表示在語義上重要的局部區(qū)域。此外,RepPoints 不需要使用 anchor 來對邊界框的空間進(jìn)行采樣。

作者展示了一個基于 RepPoints 的、anchor-free 的目標(biāo)檢測器,不需要多尺度訓(xùn)練和測試就可以實現(xiàn),而且與最先進(jìn)的基于 anchor 的檢測方法同樣有效,在 COCO test-dev 檢測基準(zhǔn)上達(dá)到了42.8 AP 和 65.0 AP??。

拋棄邊界框,更細(xì)粒度的目標(biāo)表示RepPoints

在目標(biāo)檢測過程中,邊界框是處理的基本元素。邊界框描述了目標(biāo)檢測器各階段的目標(biāo)位置。

雖然邊界框便于計算,但它們僅提供目標(biāo)的粗略定位,并不完全擬合對象的形狀和姿態(tài)。因此,從邊界框的規(guī)則單元格中提取的特征可能會受到包含少量語義信息的背景內(nèi)容或無信息的前景區(qū)域的嚴(yán)重影響。這可能導(dǎo)致特征質(zhì)量降低,從而降低了目標(biāo)檢測的分類性能。

本文提出一種新的表示方法,稱為 RepPoints,它提供了更細(xì)粒度的定位和更方便的分類。

如圖 1 所示,RepPoints 是一組點(diǎn),學(xué)習(xí)自適應(yīng)地將自己置于目標(biāo)之上,其方式限定了目標(biāo)的空間范圍,并表示語義上重要的局部區(qū)域。

圖 1:RepPoints 是一種新的目標(biāo)檢測表示方法

RepPoints 的訓(xùn)練由目標(biāo)定位和識別目標(biāo)共同驅(qū)動,因此,RepPoints 與 ground-truth 的邊界框緊密相關(guān),并引導(dǎo)檢測器正確地分類目標(biāo)。

這種自適應(yīng)、可微的表示可以在現(xiàn)代目標(biāo)檢測器的不同階段連貫地使用,并且不需要使用 anchors 來對邊界框空間進(jìn)行采樣。

RepPoints 不同于用于目標(biāo)檢測現(xiàn)有的非矩形表示,它們都是以自底向上的方式構(gòu)建的。這些自底向上的表示方法會識別單個的點(diǎn) (例如,邊界框角或?qū)ο蟮哪┒?。此外,它們的表示要么像邊界框那樣仍然是軸對齊的,要么需要 ground truth 對象掩碼作為額外的監(jiān)督。

相反,RepPoints 是通過自頂向下的方式從輸入圖像 / 對象特征中學(xué)習(xí)的,允許端到端訓(xùn)練和生成細(xì)粒度的定位,而無需額外的監(jiān)督。

為了證明 RepPoints 表示的強(qiáng)大能力,我們提出了一種基于可變形 ConvNets 框架的實現(xiàn),該框架在保證特征提取方便的同時,提供了適合指導(dǎo)自適應(yīng)采樣的識別反饋。

我們發(fā)現(xiàn),這個無 anchor 的檢測系統(tǒng)在對目標(biāo)進(jìn)行精確定位的同時,具有較強(qiáng)的分類能力。在沒有多尺度訓(xùn)練和測試的情況下,我們的檢測器在 COCO 基準(zhǔn)上實現(xiàn)了 42.8 AP 和 65.0 AP?? 的精度,不僅超過了所有現(xiàn)有的 anchor-free 檢測器,而且性能與最先進(jìn)的 anchor-based 的基線模型相當(dāng)。

RepPoints vs 邊界框

本節(jié)將描述 RepPoints,以及它與邊界框的區(qū)別。

邊界框表示

邊界框是一個 4-d 表示,編碼目標(biāo)的空間位置,即 B = (x, y, w, h), x, y 表示中心點(diǎn),w, h 表示寬度和高度。

由于其使用簡單方便,現(xiàn)代目標(biāo)檢測器嚴(yán)重依賴于邊界框來表示檢測 pipeline 中各個階段的對象。

性能最優(yōu)的目標(biāo)檢測器通常遵循一個 multi-stage 的識別范式,其中目標(biāo)定位是逐步細(xì)化的。其中,目標(biāo)表示的角色如下:

RepPoints

如前所述,4-d 邊界框是目標(biāo)位置的一個粗略表示。邊界框表示只考慮目標(biāo)的矩形空間范圍,不考慮形狀、姿態(tài)和語義上重要的局部區(qū)域的位置,這些可用于更好的定位和更好的目標(biāo)特征提取。

為了克服上述限制,RepPoints 轉(zhuǎn)而對一組自適應(yīng)樣本點(diǎn)進(jìn)行建模:

其中 n 為表示中使用的樣本點(diǎn)的總數(shù)。在這項工作中,n 默認(rèn)設(shè)置為 9。

Learning RepPoints

RepPoints 的學(xué)習(xí)是由目標(biāo)定位損失和目標(biāo)識別損失共同驅(qū)動的。為了計算目標(biāo)定位損失,我們首先用一個轉(zhuǎn)換函數(shù) T 將 RepPoints 轉(zhuǎn)換為偽框 (pseudo box)。然后,計算轉(zhuǎn)換后的偽框與 ground truth 邊界框之間的差異。

圖 3 顯示,當(dāng)訓(xùn)練由目標(biāo)定位損失和目標(biāo)識別損失組合驅(qū)動時,目標(biāo)的極值點(diǎn)和語義關(guān)鍵點(diǎn)可以自動學(xué)習(xí)。

圖 3: 學(xué)習(xí)的 RepPoints 的可視化和來自 COCO minival set 的幾個例子的檢測結(jié)果。通常,學(xué)習(xí)的 RepPoints 位于目標(biāo)的端點(diǎn)或語義關(guān)鍵點(diǎn)上。

RPDet: 無需 Anchor 的目標(biāo)檢測器

我們設(shè)計了一種不使用 anchor 的對象檢測器,它利用 RepPoints 代替邊界框作為基本表示。

目標(biāo)表示的演化過程如下:

RepPoints Detector (RPDet) 由兩個基于可變形卷積的識別階段構(gòu)成,如圖 2 所示。

圖 2:RPDet (RepPoints detector) 的概覽,以特征金字塔網(wǎng)絡(luò) (FPN) 為主干

可變形卷積與 RepPoints 很好地結(jié)合在一起,因為它的卷積是在一組不規(guī)則分布的采樣點(diǎn)上計算的,反之,它的識別反饋可以指導(dǎo)訓(xùn)練這些點(diǎn)的定位。

實驗和結(jié)果

表 1:目標(biāo)檢測中 RepPoints 與邊界框表示的比較。除了處理給定的目標(biāo)表示之外,網(wǎng)絡(luò)結(jié)構(gòu)是相同的。

從表 1 可以看出,將目標(biāo)表示從邊界框變?yōu)?RepPoints,可以帶來一定程度的性能提升,如使用 ResNet-50 作為主干網(wǎng)絡(luò)時提升了 2.1 mAP,使用 ResNet-101 時提升了 2.0 mAP。這表明相對于邊界框,RepPoints 表示在對象檢測方面具有優(yōu)勢。

表 7:將所提出的 RPDet 與 COCO test-dev 上最先進(jìn)的檢測器進(jìn)行比較。

如表 7 所示,在沒有 multi-scale 訓(xùn)練和測試的情況下,所提出的框架使用 ResNet-101-DCN 主干網(wǎng)絡(luò)實現(xiàn)了 42.8 AP,與基于 anchor 的 Cascade R-CNN 方法相當(dāng),性能優(yōu)于現(xiàn)有的所有不采用 anchor 的檢測器。此外,RPDet 獲得了 65.0 的 AP??,大大超過了所有基線。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:北大、清華、微軟聯(lián)合提出RepPoints,比邊界框更好用的目標(biāo)檢測方法

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    對象檢測邊界損失函數(shù)–從IOU到ProbIOU介紹

    目標(biāo)檢測損失函數(shù)的選擇在目標(biāo)檢測問題建模中至關(guān)重要。通常,目標(biāo)檢測需要兩個損失函數(shù),
    的頭像 發(fā)表于 01-24 10:50 ?2092次閱讀
    <b class='flag-5'>對象</b><b class='flag-5'>檢測</b><b class='flag-5'>邊界</b><b class='flag-5'>框</b>損失函數(shù)–從IOU到ProbIOU介紹

    一種基于圖像平移的目標(biāo)檢測框架

    1、摘要近年來,在深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的幫助下,圖像和視頻監(jiān)控在智能交通系統(tǒng)(ITS)中取得了長足的進(jìn)展。作為一種先進(jìn)的感知方法,智能交通系統(tǒng)對視頻監(jiān)控中每幀感興趣的目標(biāo)進(jìn)行
    發(fā)表于 08-31 07:43

    結(jié)合預(yù)測目標(biāo)之間的歸化距離來提出距離-IoU (DIoU) Loss

    存在這些不 同的檢測框架,但邊界回歸預(yù)測個矩形來定位目標(biāo)
    發(fā)表于 11-14 15:46

    基于YOLOX目標(biāo)檢測算法的改進(jìn)

    并應(yīng)用于邊界回歸損失中,提高了 YOLOX 在 KITTI 數(shù)據(jù)集上的檢測精度,檢測出更多的遮擋目標(biāo);采用動態(tài)錨
    發(fā)表于 03-06 13:55

    一種局部優(yōu)化邊界的支持向量數(shù)據(jù)描述方法_陳君

    一種局部優(yōu)化邊界的支持向量數(shù)據(jù)描述方法_陳君
    發(fā)表于 01-08 13:15 ?0次下載

    一種目標(biāo)飛機(jī)分割提取方法

    提出了一種目標(biāo)飛機(jī)分割提取方法,該方法采用改進(jìn)的使用金字塔式分割策略的以彩色高斯混合模型CMM(Gaussian Mixture Model)和迭代能量最小化為基礎(chǔ)的CJrabCut算
    發(fā)表于 11-10 15:46 ?7次下載
    <b class='flag-5'>一種</b><b class='flag-5'>目標(biāo)</b>飛機(jī)分割提取<b class='flag-5'>方法</b>

    一種非靜止背景下的運(yùn)動目標(biāo)檢測方法

    對于運(yùn)動中的攝像機(jī)所拍攝視頻的分析,會發(fā)現(xiàn)目標(biāo)和背景都在運(yùn)動的現(xiàn)象,因此難以較好地對運(yùn)動目標(biāo)進(jìn)行檢測。針對此問題提出了一種適應(yīng)該類對象的運(yùn)動
    發(fā)表于 11-15 14:53 ?8次下載
    <b class='flag-5'>一種</b>非靜止背景下的運(yùn)動<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b><b class='flag-5'>方法</b>

    基于稀疏表示的可變形部件模型目標(biāo)檢測

    基于可變形部件模型DPM的目標(biāo)檢測算法采用方向梯度直方圖HOG進(jìn)行特征表示,由于HOG無法處理模糊的邊界而且忽略了平滑的特征區(qū)域,從而影響了DPM算法的性能。為了提高DPM的性能,提出
    發(fā)表于 11-21 16:52 ?11次下載

    一種圖像拼接的運(yùn)動目標(biāo)檢測方法

    圖像拼接中出現(xiàn)的運(yùn)動目標(biāo)可能使拼接出現(xiàn)不能正常拼接或者拼接出多重影像的現(xiàn)象。本文提出一種圖像拼接的運(yùn)動目標(biāo)檢測方法,去除運(yùn)動
    發(fā)表于 12-08 10:05 ?2次下載

    關(guān)于一種基于動態(tài)規(guī)劃的機(jī)動目標(biāo)檢測前跟蹤方法

    檢測前跟蹤(Track-Before-Detect,TBD)技術(shù)是一種有效的雷達(dá)微弱目標(biāo)檢測方法,并且在多個領(lǐng)域有著廣泛的應(yīng)用。這種技術(shù)不對
    的頭像 發(fā)表于 06-21 09:09 ?8432次閱讀
    關(guān)于<b class='flag-5'>一種</b>基于動態(tài)規(guī)劃的機(jī)動<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b>前跟蹤<b class='flag-5'>方法</b>

    如何使用級聯(lián)網(wǎng)絡(luò)進(jìn)行行人檢測方法說明

    針對復(fù)雜環(huán)境下行人檢測不能同時滿足高召回率與高效率檢測的問題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的行人檢測方法。首先,采用CNN中的單步
    發(fā)表于 04-12 17:30 ?6次下載
    如何使用級聯(lián)網(wǎng)絡(luò)進(jìn)行行人<b class='flag-5'>檢測</b>的<b class='flag-5'>方法</b>說明

    一種新的帶有不確定性的邊界回歸損失,可用于學(xué)習(xí)更準(zhǔn)確的目標(biāo)定位

    目標(biāo)檢測一種多任務(wù)學(xué)習(xí)問題,包含目標(biāo)定位和目標(biāo)分類。當(dāng)前最佳的目標(biāo)
    的頭像 發(fā)表于 04-23 16:38 ?6329次閱讀
    <b class='flag-5'>一種</b>新的帶有不確定性的<b class='flag-5'>邊界</b><b class='flag-5'>框</b>回歸損失,可用于學(xué)習(xí)更準(zhǔn)確的<b class='flag-5'>目標(biāo)</b>定位

    RepPoints 邊界更好用目標(biāo)檢測方法

    來自北京大學(xué)、清華大學(xué)和微軟亞洲研究院的研究人員提出一種新的、更精細(xì)對象表示方法RepPoints
    的頭像 發(fā)表于 05-09 17:25 ?5753次閱讀
    <b class='flag-5'>RepPoints</b> <b class='flag-5'>比</b><b class='flag-5'>邊界</b><b class='flag-5'>框</b><b class='flag-5'>更好用</b>的<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b><b class='flag-5'>方法</b>

    一種基于邊界和中心關(guān)系的顯著性檢測方法

    為提高顯著性檢測模型生成顯著圖時的準(zhǔn)確率和對比度,提出一種基于邊界和中心關(guān)系的顯著性檢測方法。對圖像進(jìn)行引導(dǎo)濾波平滑處理并利用SLIC實現(xiàn)超
    發(fā)表于 04-01 11:15 ?11次下載
    <b class='flag-5'>一種</b>基于<b class='flag-5'>邊界</b>和中心關(guān)系的顯著性<b class='flag-5'>檢測</b><b class='flag-5'>方法</b>

    目標(biāo)檢測EDA方法有哪些 eda和pcb的區(qū)別

    目標(biāo)檢測(Object Detection)是計算機(jī)視覺領(lǐng)域中的重要任務(wù),用于在圖像或視頻中定位和識別出多個感興趣的對象。EDA(Enhancement, Detection, and Augmentation)
    發(fā)表于 07-20 14:43 ?1525次閱讀