0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

FPN(特征金字塔網(wǎng)絡(luò))的直覺(jué)、架構(gòu)和表現(xiàn)簡(jiǎn)要介紹

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-08 09:20 ? 次閱讀

編者按:深度學(xué)習(xí)知名博主Jonathan Hui簡(jiǎn)要介紹了FPN(特征金字塔網(wǎng)絡(luò))的直覺(jué)、架構(gòu)和表現(xiàn)。

檢測(cè)不同尺度的目標(biāo)(尤其是其中的小目標(biāo))很有挑戰(zhàn)性。我們可以使用同一圖像的不同尺度版本來(lái)檢測(cè)目標(biāo)(下圖左部)。然而,處理多尺度圖像很費(fèi)時(shí),內(nèi)存需求過(guò)高,難以同時(shí)進(jìn)行端到端訓(xùn)練。因此,我們可能只在推理階段使用這種方法,以盡可能提高精確度,特別是在競(jìng)賽之類(lèi)不顧及速度的場(chǎng)景中。我們也可以創(chuàng)建特征金字塔來(lái)檢測(cè)目標(biāo)(下圖右部)。然而接近圖像的、由低層結(jié)構(gòu)組成的特征映射在精確目標(biāo)預(yù)測(cè)上效果不佳。

來(lái)源:FPN論文

特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,FPN)是為這一金字塔概念設(shè)計(jì)的特征提取器,設(shè)計(jì)時(shí)考慮到了精確性和速度。它代替了Faster R-CNN之類(lèi)的檢測(cè)模型的特征提取器,生成多層特征映射(多尺度特征映射),信息的質(zhì)量比普通的用于特征檢測(cè)的特征金字塔更好。

數(shù)據(jù)流

來(lái)源:FPN論文

FPN由自底向上和自頂向下兩個(gè)路徑組成。自底向上的路徑是通常的提取特征的卷積網(wǎng)絡(luò)。自底向上,空間分辨率遞減,檢測(cè)更多高層結(jié)構(gòu),網(wǎng)絡(luò)層的語(yǔ)義值相應(yīng)增加。

FPN特征提?。ㄐ薷淖訤PN論文中的圖片)

SSD基于多個(gè)特征映射進(jìn)行檢測(cè)。然而,低層并不用于目標(biāo)檢測(cè)——這些層的分辨率很高,但語(yǔ)義值不夠高,因此,為了避免顯著的速度下降,目標(biāo)檢測(cè)時(shí)不使用這些層。因?yàn)镾SD檢測(cè)時(shí)僅適用高層,所以在小目標(biāo)上的表現(xiàn)要差很多。

修改自FPN論文中的圖片

而FPN提供了自頂向下的路徑,基于語(yǔ)義較豐富的層構(gòu)建分辨率較高的層。

修改自FPN論文中的圖片

盡管重建的層語(yǔ)義足夠豐富,但經(jīng)過(guò)這些下采樣和上采樣過(guò)程,目標(biāo)的位置不再準(zhǔn)確了。因此FPN在重建層和相應(yīng)的特征映射間增加了橫向連接,以幫助檢測(cè)器更好地預(yù)測(cè)位置。這些橫向連接同時(shí)起到了跳躍連接(skip connection)的作用(類(lèi)似殘差網(wǎng)絡(luò)的做法)。

修改自FPN論文中的圖片

自底向上路徑

自底向上路徑由很多卷積模塊組成,每個(gè)模塊包含許多卷積層。自底向上的過(guò)程中,空間維度逐模塊減半(步長(zhǎng)翻倍)。每個(gè)卷積模塊的輸出將在自頂向下的路徑中使用。

自頂向下路徑

上圖中,F(xiàn)PN使用一個(gè)1x1的卷積過(guò)濾器將C5(最上面的卷積模塊)的頻道深度降至256維,得到M5。接著應(yīng)用一個(gè)3x3的卷積得到P5,P5正是用于目標(biāo)預(yù)測(cè)的第一個(gè)特征映射。

沿著自頂向下的路徑往下,F(xiàn)PN對(duì)之前的層應(yīng)用最近鄰上采樣(x2)。同時(shí),F(xiàn)PN對(duì)自底向上通路中的相應(yīng)特征映射應(yīng)用1x1卷積。接著應(yīng)用分素相加。最后同樣應(yīng)用3x3卷積得到目標(biāo)檢測(cè)的特征映射。這一過(guò)濾器減輕了上采樣的混疊效應(yīng)。

這一過(guò)程在P2后停止,因?yàn)镃1的空間維度太高了。如果不停,依法炮制得到P1的話,會(huì)大大拖慢進(jìn)程。

FPN搭配RPN

FPN自身并不是目標(biāo)檢測(cè)器,而是一個(gè)配合目標(biāo)檢測(cè)器使用的特征檢測(cè)器。例如,使用FPN提取多層特征映射后將其傳給RPN(基于卷積和錨的目標(biāo)檢測(cè)器)檢測(cè)目標(biāo)。RPN在特征映射上應(yīng)用3x3卷積,之后在為分類(lèi)預(yù)測(cè)和包圍盒回歸分別應(yīng)用1x1卷積。這些3x3和1x1卷積層稱(chēng)為RPN頭(head)。其他特征映射應(yīng)用同樣的RPN頭。

FPN搭配Fast R-CNN和Faster R-CNN

首先簡(jiǎn)短地概覽下Fast R-CNN和Faster R-CNN的數(shù)據(jù)流。它基于特征映射層創(chuàng)建ROI(感興趣區(qū)域)。然后使用ROI和特征映射層創(chuàng)建特征片,以傳給ROI池化。

FPN生成了特征映射金字塔后,應(yīng)用RPN(見(jiàn)上一節(jié))生成ROI。根據(jù)ROI的尺寸,選擇最合適的尺度上的特征映射以提取特征片。

基于ROI尺寸選擇特征映射的具體公式為:

其中,w和h為ROI的寬度和高度,k0= 4,k對(duì)應(yīng)FPN中的Pk層。

所以,如果k = 3,我們將選擇P3作為特征映射,應(yīng)用ROI池化,并將結(jié)果傳給Fast R-CNN/Faster R-CNN頭(兩者的頭一致),以完成預(yù)測(cè)。

分割

類(lèi)似Mask R-CNN,F(xiàn)PN也是一個(gè)優(yōu)良的圖像分割提取掩碼。下圖中,應(yīng)用5x5的滑窗于特征映射,以生成14x14分割。之后,合并不同尺度的掩碼以形成最終的掩碼預(yù)測(cè)。

來(lái)源:FPN論文

結(jié)果

FPN搭配RPN,提升AR(average recall,平均召回)至56.3,相比RPN基線提升了8. 在小目標(biāo)上的提升更是達(dá)到了12.9.

來(lái)源:FPN論文

基于FPN的Faster R-CNN的推理時(shí)間為0.148秒/張(單Nvidia M40 GPU,ResNet-50),單尺度ResNet-50基線的速度是0.32秒/張。

來(lái)源:FPN論文

FPN和當(dāng)前最先進(jìn)的檢測(cè)器實(shí)力相當(dāng)。事實(shí)上,F(xiàn)PN擊敗了COCO 2016和2015挑戰(zhàn)的贏家。

來(lái)源:FPN論文

經(jīng)驗(yàn)總結(jié)

下面是從試驗(yàn)數(shù)據(jù)中總結(jié)出的一些經(jīng)驗(yàn)。

在單個(gè)高分辨率特征映射層上增加更多錨不足以提升精確度。

自頂向下路徑重建了富含語(yǔ)義信息的分辨率。

但我們需要橫向連接,以便將更多準(zhǔn)確的目標(biāo)空間信息加回來(lái)。

在COCO數(shù)據(jù)集上,自頂向下路徑和橫向連接將精確度提升了8。小目標(biāo)的提升達(dá)到了12.9.

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 檢測(cè)器
    +關(guān)注

    關(guān)注

    1

    文章

    847

    瀏覽量

    47558
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1075

    瀏覽量

    40274
  • 數(shù)據(jù)流
    +關(guān)注

    關(guān)注

    0

    文章

    117

    瀏覽量

    14272

原文標(biāo)題:特征金字塔網(wǎng)絡(luò)FPN的直覺(jué)與架構(gòu)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    PCB工程師金字塔分級(jí)標(biāo)準(zhǔn)

    PCB工程師金字塔分級(jí)標(biāo)準(zhǔn)
    發(fā)表于 08-06 13:21

    自制for循環(huán)打印金字塔

    自制for循環(huán)打印金字塔
    發(fā)表于 09-18 08:46

    基于金字塔模型的地形網(wǎng)格裂縫消除算法

    本文針對(duì)基于多分辨金字塔模型繪制海量地形時(shí)的網(wǎng)格裂縫問(wèn)題,提出了一種網(wǎng)格裂縫消除算法。該算法利用分裂標(biāo)記表,結(jié)合金字塔模型本身分塊與多分辨率的特性,從整體上
    發(fā)表于 12-30 12:02 ?8次下載

    基于壓縮金字塔核稀疏表示的人臉識(shí)別_周凱

    基于壓縮金字塔核稀疏表示的人臉識(shí)別_周凱
    發(fā)表于 01-08 11:13 ?0次下載

    繪制金字塔程序?qū)崿F(xiàn)

    用c語(yǔ)言編程繪制金字塔
    發(fā)表于 11-27 16:24 ?767次閱讀

    可控特性的金字塔變換

    本文設(shè)計(jì)了一種具有平移不變性、方向和尺度聯(lián)合可控特性的金字塔變換,稱(chēng)為幾何變形可控金字塔變換(DPT)。此DPT從一種數(shù)值形式表示的方向可控金字塔變換(SPT)發(fā)展而來(lái)。我們以SPT的每一個(gè)方向可控
    發(fā)表于 12-14 16:41 ?4次下載
    可控特性的<b class='flag-5'>金字塔</b>變換

    基于梯度方向直方圖與高斯金字塔的車(chē)牌模糊漢字識(shí)別方法

    針對(duì)現(xiàn)有車(chē)牌識(shí)別方法中對(duì)模糊車(chē)牌識(shí)別率不高的問(wèn)題,提出一種結(jié)合高斯金字塔與梯度方向直方圖(HOG)特征的車(chē)牌識(shí)別算法。利用金字塔模型多尺度表達(dá)的方法,首先對(duì)車(chē)牌模糊漢字圖像建立兩層高斯金字塔
    發(fā)表于 12-25 10:43 ?0次下載
    基于梯度方向直方圖與高斯<b class='flag-5'>金字塔</b>的車(chē)牌模糊漢字識(shí)別方法

    一種金字塔注意力網(wǎng)絡(luò),用于處理圖像語(yǔ)義分割問(wèn)題

    基于以上觀察,我們提出了特征金字塔注意力模塊 (FPA),該模塊能夠融合來(lái)自 U 型網(wǎng)絡(luò) (如特征金字塔
    的頭像 發(fā)表于 06-05 09:21 ?1.2w次閱讀
    一種<b class='flag-5'>金字塔</b>注意力<b class='flag-5'>網(wǎng)絡(luò)</b>,用于處理圖像語(yǔ)義分割問(wèn)題

    FAIR何愷明團(tuán)隊(duì)最新論文提出“全景FPN”,聚焦于圖像的全景分割任務(wù)

    特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network):首先簡(jiǎn)要回顧一下FPNFPN
    的頭像 發(fā)表于 01-11 08:57 ?6067次閱讀

    谷歌大腦采用神經(jīng)結(jié)構(gòu)搜索發(fā)現(xiàn)了一種新的特征金字塔結(jié)構(gòu)NAS-FPN

    的挑戰(zhàn),即在多種尺度和位置上檢測(cè)和定位多個(gè)對(duì)象。為了解決這一問(wèn)題,許多先進(jìn)的目標(biāo)檢測(cè)器通常使用金字塔特征表示,它以多尺度特征層來(lái)表示圖像。
    的頭像 發(fā)表于 04-21 09:35 ?5005次閱讀
    谷歌大腦采用神經(jīng)結(jié)構(gòu)搜索發(fā)現(xiàn)了一種新的<b class='flag-5'>特征</b><b class='flag-5'>金字塔</b>結(jié)構(gòu)NAS-<b class='flag-5'>FPN</b>

    中國(guó)集成電路封裝行業(yè)市場(chǎng)現(xiàn)狀——金字塔的尖頂與基座

    中國(guó)集成電路封裝行業(yè)技術(shù)演變路程漫漫集成電路封裝在電子學(xué)金字塔中的位置既是金字塔的尖頂又是金字塔的基座。
    的頭像 發(fā)表于 07-11 14:51 ?3224次閱讀

    如何實(shí)現(xiàn)多聚焦圖像融合的拉普拉斯金字塔方法

    本文檔的主要內(nèi)容詳細(xì)介紹的是如何實(shí)現(xiàn)多聚焦圖像融合的拉普拉斯金字塔方法。
    發(fā)表于 02-03 11:40 ?2次下載
    如何實(shí)現(xiàn)多聚焦圖像融合的拉普拉斯<b class='flag-5'>金字塔</b>方法

    基于全局特征金字塔網(wǎng)絡(luò)的信息融合方法

    特征不平衡問(wèn)題是影響神經(jīng)網(wǎng)絡(luò)檢測(cè)效率的關(guān)鍵因素。針對(duì) Mask r-CNN中的特征不平衡問(wèn)題,提出種基于全局特征金字塔
    發(fā)表于 03-24 14:51 ?13次下載
    基于全局<b class='flag-5'>特征</b><b class='flag-5'>金字塔</b><b class='flag-5'>網(wǎng)絡(luò)</b>的信息融合方法

    基于規(guī)范化函數(shù)的深度金字塔模型算法

    傳統(tǒng)深度金字塔模型作為一種有效的行人檢測(cè)算法備受關(guān)注,融合可變形部件模型和卷積神經(jīng)網(wǎng)絡(luò)模型,但特征提取部分使用的算法像素區(qū)堿的大小不冋,導(dǎo)致模型之間不能完全融合,在行人數(shù)量多、姿勢(shì)復(fù)雜和有遮擋情況
    發(fā)表于 03-30 14:09 ?14次下載
    基于規(guī)范化函數(shù)的深度<b class='flag-5'>金字塔</b>模型算法

    DIY自制基于51單片機(jī)的LED金字塔

    電子發(fā)燒友網(wǎng)站提供《DIY自制基于51單片機(jī)的LED金字塔.pdf》資料免費(fèi)下載
    發(fā)表于 10-25 10:27 ?0次下載
    DIY自制基于51單片機(jī)的LED<b class='flag-5'>金字塔</b>