論文地址：http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Perf ormance_Visual_CVPR_2018_paper.pdf

摘要

大多數(shù)性能優(yōu)越的視覺(jué)目標(biāo)跟蹤器很難有實(shí)時(shí)速度。在這篇文章中，我們提出了孿生候選區(qū)域生成網(wǎng)絡(luò)（Siamese region proposal network），簡(jiǎn)稱Siamese-RPN，它能夠利用大尺度的圖像對(duì)離線端到端訓(xùn)練。具體來(lái)講，這個(gè)結(jié)構(gòu)包含用于特征提取的 孿生子網(wǎng)絡(luò) （Siamese subnetwork）和 候選區(qū)域生成網(wǎng)絡(luò) （region proposal subnetwork），其中候選區(qū)域生成網(wǎng)絡(luò)包含分類(lèi)和回歸兩條支路。在跟蹤階段，我們提出的方法被構(gòu)造成為單樣本檢測(cè)任務(wù)（one-shot detection task）。

我們預(yù)先計(jì)算孿生子網(wǎng)絡(luò)中的模板支路，也就是第一幀，并且將它構(gòu)造成一個(gè)檢測(cè)支路中區(qū)域提取網(wǎng)絡(luò)里面的一個(gè)卷積層，用于在線跟蹤。得益于這些改良，傳統(tǒng)的多尺度測(cè)試和在線微調(diào)可以被舍棄，這樣做也大大提高了速度。Siamese-RPN跑出了160FPS的速度，并且在VOT2015,VOT2016和VOT2017上取得了領(lǐng)先的成績(jī)。

1.引言

與適當(dāng)設(shè)計(jì)的最先進(jìn)的基于相關(guān)濾波器的方法相比，基于離線訓(xùn)練的基于深度學(xué)習(xí)的跟蹤器可以獲得較好的結(jié)果。關(guān)鍵是候選的孿生候選區(qū)域生成網(wǎng)絡(luò)（Siamese-RPN）。它由模板分支和檢測(cè)分支組成，它們以端到端的方式對(duì)大規(guī)模圖像對(duì)進(jìn)行離線訓(xùn)練。受到最先進(jìn)的候選區(qū)域提取方法RPN 的啟發(fā)，我們對(duì)相關(guān)feature map進(jìn)行提議提取。與標(biāo)準(zhǔn)RPN不同，我們使用兩個(gè)分支的相關(guān)特征映射進(jìn)行提議提取。在跟蹤任務(wù)中，我們沒(méi)有預(yù)定義的類(lèi)別，因此我們需要模板分支將目標(biāo)的外觀信息編碼到RPN要素圖中以區(qū)分前景和背景。

在跟蹤階段，作者將此任務(wù)視為單目標(biāo)檢測(cè)任務(wù)（one-shot detection），什么意思呢，就是把第一幀的bb視為檢測(cè)的樣例，在其余幀里面檢測(cè)與它相似的目標(biāo)。

綜上所述，作者的貢獻(xiàn)有以下三點(diǎn)：

1.提出了Siamese region proposal network，能夠利用ILSVRC和YouTube-BB大量的數(shù)據(jù)進(jìn)行離線端到端訓(xùn)練。

2.在跟蹤階段將跟蹤任務(wù)構(gòu)造出局部單目標(biāo)檢測(cè)任務(wù)。

3.在VOT2015, VOT2016和VOT2017上取得了領(lǐng)先的性能，并且速度能都達(dá)到160fps。

2.相關(guān)工作

2.1 RPN

RPN即Region Proposal Network，是用RON來(lái)選擇感興趣區(qū)域的，即proposal extraction。例如，如果一個(gè)區(qū)域的p>0.5，則認(rèn)為這個(gè)區(qū)域中可能是80個(gè)類(lèi)別中的某一類(lèi)，具體是哪一類(lèi)現(xiàn)在還不清楚。到此為止，網(wǎng)絡(luò)只需要把這些可能含有物體的區(qū)域選取出來(lái)就可以了，這些被選取出來(lái)的區(qū)域又叫做ROI（Region of Interests），即感興趣的區(qū)域。當(dāng)然RPN同時(shí)也會(huì)在feature map上框定這些ROI感興趣區(qū)域的大致位置，即輸出Bounding Box。

RPN詳細(xì)介紹：https://mp.weixin.qq.com/s/VXgbJPVoZKjcaZjuNwgh-A

2.2 One-shot learning

最常見(jiàn)的例子就是人臉檢測(cè)，只知道一張圖片上的信息，用這些信息來(lái)匹配出要檢測(cè)的圖片，這就是單樣本檢測(cè)，也可以稱之為一次學(xué)習(xí)。

3 Siamese-RPN framework

3.1 SiamFC

SiamFC詳細(xì)介紹：https://mp.weixin.qq.com/s/kS9osb2JBXbgb_WGU_3mcQ

所謂的Siamese（孿生）網(wǎng)絡(luò)，是指網(wǎng)絡(luò)的主體結(jié)構(gòu)分上下兩支，這兩支像雙胞胎一樣，共享卷積層的權(quán)值。上面一支（z）稱為模板分支（template），用來(lái)提取模板幀的特征。φ表示一種特征提取方法，文中提取的是深度特征，經(jīng)過(guò)全卷積網(wǎng)絡(luò)后得到一個(gè)6×6×128的feature map φ(z)。下面一支（x）稱為檢測(cè)分支（search），是根據(jù)上一幀的結(jié)果在當(dāng)前幀上crop出的search region。同樣提取了深度特征之后得到一個(gè)22×22×128的feature map φ(x)。模版支的feature map在當(dāng)前幀的檢測(cè)區(qū)域的feature map上做匹配操作，可以看成是φ(z)在φ(x)上滑動(dòng)搜索，最后得到一個(gè)響應(yīng)圖，圖上響應(yīng)最大的點(diǎn)就是對(duì)應(yīng)這一幀目標(biāo)的位置。

Siamese網(wǎng)絡(luò)的優(yōu)點(diǎn)在于，把tracking任務(wù)做成了一個(gè)檢測(cè)/匹配任務(wù)，整個(gè)tracking過(guò)程不需要更新網(wǎng)絡(luò)，這使得算法的速度可以很快（FPS：80+）。此外，續(xù)作CFNet將特征提取和特征判別這兩個(gè)任務(wù)做成了一個(gè)端到端的任務(wù)，第一次將深度網(wǎng)絡(luò)和相關(guān)濾波結(jié)合在一起學(xué)習(xí)。

Siamese也有明顯的缺陷：

1.模板支只在第一幀進(jìn)行，這使得模版特征對(duì)目標(biāo)的變化不是很適應(yīng)，當(dāng)目標(biāo)發(fā)生較大變化時(shí)，來(lái)自第一幀的特征可能不足以表征目標(biāo)的特征。至于為什么只在第一幀提取模版特征，我認(rèn)為可能因?yàn)椋?/p>

（1）第一幀的特征最可靠也最魯棒，在tracking過(guò)程中無(wú)法確定哪一幀的結(jié)果可靠的情況下，只用第一幀特征足以得到不錯(cuò)的精度。

（2）只在第一幀提取模板特征的算法更精簡(jiǎn)，速度更快。

2.Siamese的方法只能得到目標(biāo)的中心位置，但是得不到目標(biāo)的尺寸，所以只能采取簡(jiǎn)單的多尺度加回歸，這即增加了計(jì)算量，同時(shí)也不夠精確。

網(wǎng)絡(luò)訓(xùn)練原理

如圖所示，上一幀的目標(biāo)模板與下一幀的搜索區(qū)域可以構(gòu)成很多對(duì)的模板-候選對(duì)（exemplar-candidate pair），但是根據(jù)判別式跟蹤原理，僅僅下一幀的目標(biāo)與上一幀的目標(biāo)區(qū)域(即 exemplar of T frame-exemplar of T+1 frame）屬于模型的正樣本，其余大量的exemplar-candidate pair都是負(fù)樣本。這樣就完成了網(wǎng)絡(luò)結(jié)構(gòu)的端到端的訓(xùn)練。

3.2 Siamese-RPN

左邊是孿生網(wǎng)絡(luò)結(jié)構(gòu)，上下支路的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)完全相同，上面是輸入第一幀的bounding box，靠此信息檢測(cè)候選區(qū)域中的目標(biāo)，即模板幀。下面是待檢測(cè)幀，顯然，待檢測(cè)幀的搜索區(qū)域比模板幀的區(qū)域大。中間是RPN結(jié)構(gòu)，又分為兩部分，上部分是分類(lèi)支路，模板幀和檢測(cè)幀的經(jīng)過(guò)孿生網(wǎng)絡(luò)后的特征再經(jīng)過(guò)一個(gè)卷積層，模板幀特征經(jīng)過(guò)卷積層后變?yōu)?k×256通道，k是anchor數(shù)量，因?yàn)榉譃閮深?lèi)，所以是2k。下面是邊界框回歸支路，因?yàn)橛兴膫€(gè)量[x, y, w, h]，所以是4k右邊是輸出。

3.3 孿生特征提取子網(wǎng)絡(luò)

預(yù)訓(xùn)練的AlexNet，剔除了conv2 conv4兩層。φ(z)是模板幀輸出，φ(x)是檢測(cè)幀輸出

3.4 候選區(qū)域提取子網(wǎng)絡(luò)

分類(lèi)支路和回歸支路分別對(duì)模板幀和檢測(cè)幀的特征進(jìn)行卷積運(yùn)算：

A^{cls}{w×h×2k}=[\\psi(x)]{cls}×[\\psi(z)]{cls}\\
A^{reg}{w×h×4k}=[\\psi(x)]{reg}×[\\psi(z)]{reg}

**A^{cls}{w×h×2k}**包含2k個(gè)通道向量，中的每個(gè)點(diǎn)表示正負(fù)激勵(lì)，通過(guò)交叉熵?fù)p失分類(lèi)；**A^{reg}{w×h×4k}**包含4k個(gè)通道向量，每個(gè)點(diǎn)表示anchor和gt之間的dx,dy,dw,dh，通過(guò)smooth L1 損失得到:

\\delta[0]=\\frac{T_x-A_x}{A_w}，
\\delta[1]=\\frac{T_y-A_y}{A_h}\\
\\delta[2]=ln\\frac{T_w}{A_w}，
\\delta[3]=ln\\frac{T_h}{A_h}

Ax, Ay, Aw, Ah是anchor boxes中心點(diǎn)坐標(biāo)和長(zhǎng)寬； Tx, Ty, Tw, Th是gt boxes，為什么要這樣呢，因?yàn)椴煌瑘D片之間的尺寸存在差異，要對(duì)它們做正規(guī)化。

smoothL1損失：

smooth_{L1}(x,\\sigma)=\\begin{cases} 0.5\\sigma^2x^2, & \\text |x|<\\frac{1}{{\\sigma^2}} \\ |x|-\\frac{1}{{2\\sigma^2}}, & \\text |x|≥\\frac{1}{{\\sigma^2}} \\end{cases}

3.5 訓(xùn)練階段：端到端訓(xùn)練孿生RPN

因?yàn)楦欀羞B續(xù)兩幀的變化并不是很大，所以anchor只采用一種尺度，5種不同的長(zhǎng)寬比（與RPN中的3×3個(gè)anchor不同）。當(dāng)IoU大于0.6時(shí)是前景，小于0.3時(shí)是背景。

4. Tracking as one-shot detection

平均損失函數(shù)L：

\\min_{W'} \\frac{1}{n} \\sum_{i=1}^n L(\\psi(x_i;w(z_i,W')),l_i)

如上所述，讓z表示模板patch，x表示檢測(cè)patch，函數(shù)φ表示Siamese特征提取子網(wǎng)，函數(shù)ζ表示區(qū)域建議子網(wǎng)，則一次性檢測(cè)任務(wù)可以表示為：

\\min_{W} \\frac{1}{n} \\sum_{i=1}^n L(\\zeta(\\psi(x_i;W);\\psi(z_i;W)),l_i)

如圖，紫色的部分像原始的Siamese網(wǎng)絡(luò)，經(jīng)過(guò)同一個(gè)CNN之后得到了兩個(gè)feature map，藍(lán)色的部分是RPN。模板幀在RPN中經(jīng)過(guò)卷積層，** \\phi (x){reg}** 和 ** \\phi (x){cls}** 當(dāng)作檢測(cè)所用的核。

簡(jiǎn)單的說(shuō)，就是預(yù)訓(xùn)練模版分支，利用第一幀的目標(biāo)特征輸出一系列weights，而這些weights，包含了目標(biāo)的信息，作為檢測(cè)分支RPN網(wǎng)絡(luò)的參數(shù)去detect目標(biāo)。這樣做的好處是：

（1）模板支能學(xué)到一個(gè)encode了目標(biāo)的特征，用這個(gè)特征去尋找目標(biāo)，這會(huì)比直接用第一幀的feature map去做匹配更魯棒。

（2）相比原始的Siamese網(wǎng)絡(luò)，RPN網(wǎng)絡(luò)可以直接回歸出目標(biāo)的坐標(biāo)和尺寸，既精確，又不需要像multi-scale一樣浪費(fèi)時(shí)間。

經(jīng)過(guò)網(wǎng)絡(luò)后，我們將分類(lèi)和回歸特征映射表示為點(diǎn)集：

A^{cls}{w×h×2k}={(x_i^{cls},y_j^{cls},c_l^{cls})}\\
A^{reg}{w×h×4k}={(x_i^{reg},y_i^{reg},dx_p^{reg},dy_p^{reg},dw_p^{reg},dh_p^{reg})}\\
i∈[0,w),j∈[0,h),l∈[0,2k),p∈[0,k)

由于分類(lèi)特征圖上的奇數(shù)通道代表正激活，我們收集所有**A^{cls}_{w×h×2k}**中的前K個(gè)點(diǎn)，其中l(wèi)是奇數(shù)，并表示點(diǎn)集為：

CLS^*={(x_i^{cls},y_j^{cls},c_l^{cls})_{i∈I,j∈J,l∈L}}

其中I，J，L是一些索引集。

變量i和j分別編碼相應(yīng)錨點(diǎn)的位置，l編碼相應(yīng)錨點(diǎn)的比率，因此我們可以導(dǎo)出相應(yīng)的錨點(diǎn)集合為：

ANC^*={(x_i^{an},y_j^{an},w_l^{an},h_l^{an})_{i∈I,j∈J,l∈L}}

此外，我們發(fā)現(xiàn)**A^{cls}_{w×h×2k}**上ANC*的激活得到相應(yīng)的細(xì)化坐標(biāo)為：

FEG^*={(x_i^{reg},y_j^{reg},dx_l^{reg},dy_l^{reg},dw_l^{reg},dh_l^{reg})_{i∈I,j∈J,l∈L}}

因?yàn)槭欠诸?lèi)，**A^{cls}_{w×h×2k}**選前k個(gè)點(diǎn)，分兩步選擇：

第一步，舍棄掉距離中心太遠(yuǎn)的bb，只在一個(gè)比原始特征圖小的固定正方形范圍里選擇，如下圖：

中心距離為7，仔細(xì)看圖可以看出，每個(gè)網(wǎng)格都有k個(gè)矩形。

第二步，用余弦窗（抑制距離過(guò)大的）和尺度變化懲罰（抑制尺度大變化）來(lái)對(duì)proposal進(jìn)行排序，選最好的。具體公式可看論文。

用這些點(diǎn)對(duì)應(yīng)的anchor box結(jié)合回歸結(jié)果得出bounding box：

x_i^{pro}=x_i^{an}+dx_l^{reg}*w_l^{an}

y_j^{pro}=y_j^{an}+dy_l^{reg}*h_l^{an}\\

w_l^{pro}=w_l^{an}*e^{dw_l}\\

h_l^{pro}=h_l^{an}*e^{dh_l}

an就是anchor的框，pro是最終得出的回歸后的邊界框至此，proposals set就選好了。

然后再通過(guò)非極大抑制(NMS)，顧名思義，就是將不是極大的框都去除掉，由于anchor一般是有重疊的overlap，因此，相同object的proposals也存在重疊。為了解決重疊proposal問(wèn)題，采用NMS算法處理：兩個(gè)proposal間IoU大于預(yù)設(shè)閾值，則丟棄score較低的proposal。

IoU閾值的預(yù)設(shè)需要謹(jǐn)慎處理，如果IoU值太小，可能丟失objects的一些 proposals；如果IoU值過(guò)大，可能會(huì)導(dǎo)致objects出現(xiàn)很多proposals。IoU典型值為0.6。

5.實(shí)施細(xì)節(jié)

我們使用從ImageNet [28]預(yù)訓(xùn)練的改進(jìn)的AlexNet，前三個(gè)卷積層的參數(shù)固定，只調(diào)整Siamese-RPN中的最后兩個(gè)卷積層。這些參數(shù)是通過(guò)使用SGD優(yōu)化等式5中的損耗函數(shù)而獲得的。共執(zhí)行了50個(gè)epoch，log space的學(xué)習(xí)率從10-2降低到10-6。我們從VID和Youtube-BB中提取圖像對(duì)，通過(guò)選擇間隔小于100的幀并執(zhí)行進(jìn)一步的裁剪程序。如果目標(biāo)邊界框的大小表示為（w，h），我們以大小A×A為中心裁剪模板補(bǔ)丁，其定義如下：

(w+p)×(h+p)=A^2

其中p =(w + h)/2

之后將其調(diào)整為127×127。以相同的方式在當(dāng)前幀上裁剪檢測(cè)補(bǔ)丁，其大小是模板補(bǔ)丁的兩倍，然后調(diào)整為255×255。

在推理階段，由于我們將在線跟蹤制定為一次性檢測(cè)任務(wù)，因此沒(méi)有在線適應(yīng)。我們的實(shí)驗(yàn)是在帶有Intel i7,12G RAM，NVidia GTX 1060的PC上使用PyTorch實(shí)現(xiàn)的。

學(xué)習(xí)更多編程知識(shí)，請(qǐng)關(guān)注我的公眾號(hào)：

[代碼的路]

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4717

瀏覽量
99999
圖像處理

圖像處理

+關(guān)注

關(guān)注
26

文章
1268

瀏覽量
56369
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8306

瀏覽量
131840

評(píng)論

相關(guān)推薦

HIP5061 HIGH EFFICIENCY, HIGH PERFORMANCE,HIGH POWER CONVERTER

efficiency, high performance andhigh power converters continues to expand. Demand forsmaller, lighter

發(fā)表于 05-12 11:13

Wallys launches high-performance Tri-Band solutions/ipq4019+qca9882.

the overall network capacity and performance by distributing devices across multiple bands. This helps

發(fā)表于 06-08 09:59

high performance stereo routin

high performance stereo routing switcher

發(fā)表于 04-18 20:37 ?48次下載

<b class='flag-5'>high</b> <b class='flag-5'>performance</b> stereo routin

Designing a High Performance S

Designing a High Performance SDRAM Controller Using ispMACH Devices Synchronous DRAMs have become

發(fā)表于 06-14 08:55 ?24次下載

High-performance RF design for

High-performance RF design for PXI:PXI presents a significant opportunity for RF instrumentation.

發(fā)表于 07-23 22:50 ?11次下載

GC5325 Envelope Tracking

Solutiondevice operating in conjunction with a Nujira High Accuracy Tracking (HAT) Voltage Modulator in anEnvelope Tr

發(fā)表于 07-08 17:40 ?13次下載

Use high-performance simultane

This application note will help the designer of high-performance multichannel data acquisition

發(fā)表于 07-04 12:15 ?7483次閱讀

文本匹配任務(wù)中常用的孿生網(wǎng)絡(luò)

“Siamese”中的“Siam”是古時(shí)泰國(guó)的稱呼，中文譯作暹羅，所以“Siamese”就是指“暹羅”人或“泰國(guó)”人?！?b class='flag-5'>Siamese”在英語(yǔ)中同時(shí)表示“孿生”，這又是為什么呢？

發(fā)表于 03-05 15:47 ?3506次閱讀

文本匹配任務(wù)中常用的<b class='flag-5'>孿生</b><b class='flag-5'>網(wǎng)絡(luò)</b>

基于信息熵的級(jí)聯(lián)Siamese網(wǎng)絡(luò)目標(biāo)跟蹤方法

目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究方向，針對(duì)目前算法對(duì)于目標(biāo)外觀變化的魯棒性較差等問(wèn)題，提出了一種基于信息熵的級(jí)聯(lián) Siamese網(wǎng)絡(luò)目標(biāo)跟蹤方法。首先利用孿生神經(jīng)網(wǎng)絡(luò)（

發(fā)表于 05-07 14:11 ?1次下載

RPN：Region Proposal Networks (區(qū)域候選網(wǎng)絡(luò))

圖片在輸入網(wǎng)絡(luò)后，依次經(jīng)過(guò)一系列卷積+ReLU得到的51×39×256維feature map，準(zhǔn)備后續(xù)用來(lái)選取proposal。

發(fā)表于 01-11 16:55 ?1218次閱讀

RPN：<b class='flag-5'>Region</b> <b class='flag-5'>Proposal</b> Networks (區(qū)域候選<b class='flag-5'>網(wǎng)絡(luò)</b>)

SiamFC：用于目標(biāo)跟蹤的全卷積孿生網(wǎng)絡(luò) fully-convolutional siamese networks for object tracking

原文鏈接 SiamFC網(wǎng)絡(luò) 圖中z代表的是模板圖像，算法中使用的是第一幀的ground truth；x代表的是search region，代表在后面的待跟蹤幀中的候選框搜索區(qū)域；?代表的是一種特征

發(fā)表于 01-11 17:35 ?1240次閱讀

SiamFC：用于目標(biāo)跟蹤的全卷積<b class='flag-5'>孿生</b><b class='flag-5'>網(wǎng)絡(luò)</b> fully-convolutional <b class='flag-5'>siamese</b> networks for object <b class='flag-5'>tracking</b>

SiamRPN++： Evolution of Siamese Visual Tracking with Very Deep Networks 深層網(wǎng)絡(luò)連體視覺(jué)跟蹤的演變

/SiamRPN_plus_plus_PyTorch 摘要基于孿生網(wǎng)絡(luò)的跟蹤器將跟蹤表述為目標(biāo)模板和搜索區(qū)域之間的卷積特征互相關(guān)。然而孿生網(wǎng)絡(luò)

發(fā)表于 01-11 17:52 ?1007次閱讀

SA-Siam：用于實(shí)時(shí)目標(biāo)跟蹤的孿生網(wǎng)絡(luò)A Twofold Siamese Network for Real-Time Object Tracking

/He_A_Twofold_Siamese_CVPR_2018_paper.pdf 摘要 1.本文核心一：將圖像分類(lèi)任務(wù)中的語(yǔ)義特征（Semantic features）與相似度匹配任務(wù)中的外觀特征（Appearance features）互補(bǔ)結(jié)合，非常適合

發(fā)表于 01-11 17:54 ?893次閱讀

DW-Siam：Deeper and Wider Siamese Networks for Real-Time Visual Tracking 更寬更深的孿生網(wǎng)絡(luò)

原文鏈接論文地址：https://arxiv.org/pdf/1901.01660.pdf 摘要目前在孿生網(wǎng)絡(luò)追蹤器中使用的主干網(wǎng)絡(luò)相對(duì)較淺，例AlexNet。本文研究如何利用更深和更廣的卷積

發(fā)表于 01-12 09:24 ?691次閱讀

GA-RPN：Region Proposal by Guided Anchoring 引導(dǎo)錨點(diǎn)的建議區(qū)域網(wǎng)絡(luò)

Detection Toolbox and Benchmark 1.RPN RPN即Region Proposal Network，是用RON來(lái)選擇感興趣區(qū)域的，即proposal

發(fā)表于 01-12 09:32 ?638次閱讀

搜索歷史

SiamRPN：High Performance Visual Tracking with Siamese Region Proposal Network 孿生網(wǎng)絡(luò)

摘要