久久这里只有精品热免费,国产精品18久久久久久vr,国产精品VR专区

本文旨在介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用，包括分類(圖a)、定位、檢測(圖b)、語義分割(圖c)、和實(shí)例分割(圖d)。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

圖像分類(image classification)

給定一張輸入圖像，圖像分類任務(wù)旨在判斷該圖像所屬類別。

(1) 圖像分類常用數(shù)據(jù)集

以下是幾種常用分類數(shù)據(jù)集，難度依次遞增。http://rodrigob.github.io/are_we_there_yet/build/列舉了各算法在各數(shù)據(jù)集上的性能排名。

MNIST60k訓(xùn)練圖像、10k測試圖像、10個(gè)類別、圖像大小1×28×28、內(nèi)容是0-9手寫數(shù)字。

CIFAR-1050k訓(xùn)練圖像、10k測試圖像、10個(gè)類別、圖像大小3×32×32。

CIFAR-10050k訓(xùn)練圖像、10k測試圖像、100個(gè)類別、圖像大小3×32×32。

ImageNet1.2M訓(xùn)練圖像、50k驗(yàn)證圖像、1k個(gè)類別。2017年及之前，每年會(huì)舉行基于ImageNet數(shù)據(jù)集的ILSVRC競賽，這相當(dāng)于計(jì)算機(jī)視覺界奧林匹克。

(2) 圖像分類經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)

基本架構(gòu)我們用conv代表卷積層、bn代表批量歸一層、pool代表匯合層。最常見的網(wǎng)絡(luò)結(jié)構(gòu)順序是conv -> bn -> relu -> pool，其中卷積層用于提取特征、匯合層用于減少空間大小。隨著網(wǎng)絡(luò)深度的進(jìn)行，圖像的空間大小將越來越小，而通道數(shù)會(huì)越來越大。

針對(duì)你的任務(wù)，如何設(shè)計(jì)網(wǎng)絡(luò)？當(dāng)面對(duì)你的實(shí)際任務(wù)時(shí)，如果你的目標(biāo)是解決該任務(wù)而不是發(fā)明新算法，那么不要試圖自己設(shè)計(jì)全新的網(wǎng)絡(luò)結(jié)構(gòu)，也不要試圖從零復(fù)現(xiàn)現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)。找已經(jīng)公開的實(shí)現(xiàn)和預(yù)訓(xùn)練模型進(jìn)行微調(diào)。去掉最后一個(gè)全連接層和對(duì)應(yīng)softmax，加上對(duì)應(yīng)你任務(wù)的全連接層和softmax，再固定住前面的層，只訓(xùn)練你加的部分。如果你的訓(xùn)練數(shù)據(jù)比較多，那么可以多微調(diào)幾層，甚至微調(diào)所有層。

LeNet-560k參數(shù)。網(wǎng)絡(luò)基本架構(gòu)為：conv1 (6) -> pool1 -> conv2 (16) -> pool2 -> fc3 (120) -> fc4 (84) -> fc5 (10) -> softmax。括號(hào)中的數(shù)字代表通道數(shù)，網(wǎng)絡(luò)名稱中有5表示它有5層conv/fc層。當(dāng)時(shí)，LeNet-5被成功用于ATM以對(duì)支票中的手寫數(shù)字進(jìn)行識(shí)別。LeNet取名源自其作者姓LeCun。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

AlexNet60M參數(shù)，ILSVRC 2012的冠軍網(wǎng)絡(luò)。網(wǎng)絡(luò)基本架構(gòu)為：conv1 (96) -> pool1 -> conv2 (256) -> pool2 -> conv3 (384) -> conv4 (384) -> conv5 (256) -> pool5 -> fc6 (4096) -> fc7 (4096) -> fc8 (1000) -> softmax。AlexNet有著和LeNet-5相似網(wǎng)絡(luò)結(jié)構(gòu)，但更深、有更多參數(shù)。conv1使用11×11的濾波器、步長為4使空間大小迅速減小(227×227 -> 55×55)。AlexNet的關(guān)鍵點(diǎn)是：(1).使用了ReLU激活函數(shù)，使之有更好的梯度特性、訓(xùn)練更快。(2).使用了隨機(jī)失活(dropout)。(3).大量使用數(shù)據(jù)擴(kuò)充技術(shù)。AlexNet的意義在于它以高出第二名10%的性能取得了當(dāng)年ILSVRC競賽的冠軍，這使人們意識(shí)到卷機(jī)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢。此外，AlexNet也使人們意識(shí)到可以利用GPU加速卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練。AlexNet取名源自其作者名Alex。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

VGG-16/VGG-19138M參數(shù)，ILSVRC 2014的亞軍網(wǎng)絡(luò)。VGG-16的基本架構(gòu)為：conv1^2 (64) -> pool1 -> conv2^2 (128) -> pool2 -> conv3^3 (256) -> pool3 -> conv4^3 (512) -> pool4 -> conv5^3 (512) -> pool5 -> fc6 (4096) -> fc7 (4096) -> fc8 (1000) -> softmax。 ^3代表重復(fù)3次。VGG網(wǎng)絡(luò)的關(guān)鍵點(diǎn)是：(1).結(jié)構(gòu)簡單，只有3×3卷積和2×2匯合兩種配置，并且重復(fù)堆疊相同的模塊組合。卷積層不改變空間大小，每經(jīng)過一次匯合層，空間大小減半。(2).參數(shù)量大，而且大部分的參數(shù)集中在全連接層中。網(wǎng)絡(luò)名稱中有16表示它有16層conv/fc層。(3).合適的網(wǎng)絡(luò)初始化和使用批量歸一(batch normalization)層對(duì)訓(xùn)練深層網(wǎng)絡(luò)很重要。VGG-19結(jié)構(gòu)類似于VGG-16，有略好于VGG-16的性能，但VGG-19需要消耗更大的資源，因此實(shí)際中VGG-16使用得更多。由于VGG-16網(wǎng)絡(luò)結(jié)構(gòu)十分簡單，并且很適合遷移學(xué)習(xí)，因此至今VGG-16仍在廣泛使用。VGG-16和VGG-19取名源自作者所處研究組名(Visual Geometry Group)。

GoogLeNet5M參數(shù)，ILSVRC 2014的冠軍網(wǎng)絡(luò)。GoogLeNet試圖回答在設(shè)計(jì)網(wǎng)絡(luò)時(shí)究竟應(yīng)該選多大尺寸的卷積、或者應(yīng)該選匯合層。其提出了Inception模塊，同時(shí)用1×1、3×3、5×5卷積和3×3匯合，并保留所有結(jié)果。網(wǎng)絡(luò)基本架構(gòu)為：conv1 (64) -> pool1 -> conv2^2 (64, 192) -> pool2 -> inc3 (256, 480) -> pool3 -> inc4^5 (512, 512, 512, 528, 832) -> pool4 -> inc5^2 (832, 1024) -> pool5 -> fc (1000)。GoogLeNet的關(guān)鍵點(diǎn)是：(1).多分支分別處理，并級(jí)聯(lián)結(jié)果。(2). 為了降低計(jì)算量，用了1×1卷積降維。GoogLeNet使用了全局平均匯合替代全連接層，使網(wǎng)絡(luò)參數(shù)大幅減少。GoogLeNet取名源自作者所處單位(Google)，其中L大寫是為了向LeNet致敬，而Inception的名字來源于盜夢空間中的"we need to go deeper"梗。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

Inception v3/v4在GoogLeNet的基礎(chǔ)上進(jìn)一步降低參數(shù)。其和GoogLeNet有相似的Inception模塊，但將7×7和5×5卷積分解成若干等效3×3卷積，并在網(wǎng)絡(luò)中后部分把3×3卷積分解為1×3和3×1卷積。這使得在相似的網(wǎng)絡(luò)參數(shù)下網(wǎng)絡(luò)可以部署到42層。此外，Inception v3使用了批量歸一層。Inception v3是GoogLeNet計(jì)算量的2.5倍，而錯(cuò)誤率較后者下降了3%。Inception v4在Inception模塊基礎(chǔ)上結(jié)合了residual模塊(見下文)，進(jìn)一步降低了0.4%的錯(cuò)誤率。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

ResNetILSVRC 2015的冠軍網(wǎng)絡(luò)。ResNet旨在解決網(wǎng)絡(luò)加深后訓(xùn)練難度增大的現(xiàn)象。其提出了residual模塊，包含兩個(gè)3×3卷積和一個(gè)短路連接(左圖)。短路連接可以有效緩解反向傳播時(shí)由于深度過深導(dǎo)致的梯度消失現(xiàn)象，這使得網(wǎng)絡(luò)加深之后性能不會(huì)變差。短路連接是深度學(xué)習(xí)又一重要思想，除計(jì)算機(jī)視覺外，短路連接也被用到了機(jī)器翻譯、語音識(shí)別/合成領(lǐng)域。此外，具有短路連接的ResNet可以看作是許多不同深度而共享參數(shù)的網(wǎng)絡(luò)的集成，網(wǎng)絡(luò)數(shù)目隨層數(shù)指數(shù)增加。ResNet的關(guān)鍵點(diǎn)是：(1). 使用短路連接，使訓(xùn)練深層網(wǎng)絡(luò)更容易，并且重復(fù)堆疊相同的模塊組合。(2). ResNet大量使用了批量歸一層。(3). 對(duì)于很深的網(wǎng)絡(luò)(超過50層)，ResNet使用了更高效的瓶頸(bottleneck)結(jié)構(gòu)(下圖右)。ResNet在ImageNet上取得了超過人的準(zhǔn)確率。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

下表對(duì)比了上述幾種網(wǎng)絡(luò)結(jié)構(gòu)。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

preResNetResNet的改進(jìn)。preResNet整了residual模塊中各層的順序。相比經(jīng)典residual模塊(a)，(b)將BN共享會(huì)更加影響信息的短路傳播，使網(wǎng)絡(luò)更難訓(xùn)練、性能也更差；(c)直接將ReLU移到BN后會(huì)使該分支的輸出始終非負(fù)，使網(wǎng)絡(luò)表示能力下降；(d)將ReLU提前解決了(e)的非負(fù)問題，但ReLU無法享受BN的效果；(e)將ReLU和BN都提前解決了(d)的問題。preResNet的短路連接(e)能更加直接的傳遞信息，進(jìn)而取得了比ResNet更好的性能。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

ResNeXtResNet的另一改進(jìn)。傳統(tǒng)的方法通常是靠加深或加寬網(wǎng)絡(luò)來提升性能，但計(jì)算開銷也會(huì)隨之增加。ResNeXt旨在不改變模型復(fù)雜度的情況下提升性能。受精簡而高效的Inception模塊啟發(fā)，ResNeXt將ResNet中非短路那一分支變?yōu)槎鄠€(gè)分支。和Inception不同的是，每個(gè)分支的結(jié)構(gòu)都相同。ResNeXt的關(guān)鍵點(diǎn)是：(1). 沿用ResNet的短路連接，并且重復(fù)堆疊相同的模塊組合。(2).多分支分別處理。(3). 使用1×1卷積降低計(jì)算量。其綜合了ResNet和Inception的優(yōu)點(diǎn)。此外，ResNeXt巧妙地利用分組卷積進(jìn)行實(shí)現(xiàn)。ResNeXt發(fā)現(xiàn)，增加分支數(shù)是比加深或加寬更有效地提升網(wǎng)絡(luò)性能的方式。ResNeXt的命名旨在說明這是下一代(next)的ResNet。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

隨機(jī)深度ResNet的改進(jìn)。旨在緩解梯度消失和加速訓(xùn)練。類似于隨機(jī)失活(dropout)，其以一定概率隨機(jī)將residual模塊失活。失活的模塊直接由短路分支輸出，而不經(jīng)過有參數(shù)的分支。在測試時(shí)，前饋經(jīng)過全部模塊。隨機(jī)深度說明residual模塊是有信息冗余的。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

DenseNet其目的也是避免梯度消失。和residual模塊不同，dense模塊中任意兩層之間均有短路連接。也就是說，每一層的輸入通過級(jí)聯(lián)(concatenation)包含了之前所有層的結(jié)果，即包含由低到高所有層次的特征。和之前方法不同的是，DenseNet中卷積層的濾波器數(shù)很少。DenseNet只用ResNet一半的參數(shù)即可達(dá)到ResNet的性能。實(shí)現(xiàn)方面，作者在大會(huì)報(bào)告指出，直接將輸出級(jí)聯(lián)會(huì)占用很大GPU存儲(chǔ)。后來，通過共享存儲(chǔ)，可以在相同的GPU存儲(chǔ)資源下訓(xùn)練更深的DenseNet。但由于有些中間結(jié)果需要重復(fù)計(jì)算，該實(shí)現(xiàn)會(huì)增加訓(xùn)練時(shí)間。

目標(biāo)定位(object localization)

在圖像分類的基礎(chǔ)上，我們還想知道圖像中的目標(biāo)具體在圖像的什么位置，通常是以包圍盒的(bounding box)形式。

基本思路

多任務(wù)學(xué)習(xí)，網(wǎng)絡(luò)帶有兩個(gè)輸出分支。一個(gè)分支用于做圖像分類，即全連接+softmax判斷目標(biāo)類別，和單純圖像分類區(qū)別在于這里還另外需要一個(gè)“背景”類。另一個(gè)分支用于判斷目標(biāo)位置，即完成回歸任務(wù)輸出四個(gè)數(shù)字標(biāo)記包圍盒位置(例如中心點(diǎn)橫縱坐標(biāo)和包圍盒長寬)，該分支輸出結(jié)果只有在分類分支判斷不為“背景”時(shí)才使用。

人體位姿定位/人臉定位

目標(biāo)定位的思路也可以用于人體位姿定位或人臉定位。這兩者都需要我們對(duì)一系列的人體關(guān)節(jié)或人臉關(guān)鍵點(diǎn)進(jìn)行回歸。

弱監(jiān)督定位

由于目標(biāo)定位是相對(duì)比較簡單的任務(wù)，近期的研究熱點(diǎn)是在只有標(biāo)記信息的條件下進(jìn)行目標(biāo)定位。其基本思路是從卷積結(jié)果中找到一些較高響應(yīng)的顯著性區(qū)域，認(rèn)為這個(gè)區(qū)域?qū)?yīng)圖像中的目標(biāo)。

目標(biāo)檢測(object detection)

在目標(biāo)定位中，通常只有一個(gè)或固定數(shù)目的目標(biāo)，而目標(biāo)檢測更一般化，其圖像中出現(xiàn)的目標(biāo)種類和數(shù)目都不定。因此，目標(biāo)檢測是比目標(biāo)定位更具挑戰(zhàn)性的任務(wù)。

(1) 目標(biāo)檢測常用數(shù)據(jù)集

PASCAL VOC包含20個(gè)類別。通常是用VOC07和VOC12的trainval并集作為訓(xùn)練，用VOC07的測試集作為測試。

MS COCOCOCO比VOC更困難。COCO包含80k訓(xùn)練圖像、40k驗(yàn)證圖像、和20k沒有公開標(biāo)記的測試圖像(test-dev)，80個(gè)類別，平均每張圖7.2個(gè)目標(biāo)。通常是用80k訓(xùn)練和35k驗(yàn)證圖像的并集作為訓(xùn)練，其余5k圖像作為驗(yàn)證，20k測試圖像用于線上測試。

mAP(mean average precision) 目標(biāo)檢測中的常用評(píng)價(jià)指標(biāo)，計(jì)算方法如下。當(dāng)預(yù)測的包圍盒和真實(shí)包圍盒的交并比大于某一閾值(通常為0.5)，則認(rèn)為該預(yù)測正確。對(duì)每個(gè)類別，我們畫出它的查準(zhǔn)率-查全率(precision-recall)曲線，平均準(zhǔn)確率是曲線下的面積。之后再對(duì)所有類別的平均準(zhǔn)確率求平均，即可得到mAP，其取值為[0, 100%]。

交并比(intersection over union, IoU) 算法預(yù)測的包圍盒和真實(shí)包圍盒交集的面積除以這兩個(gè)包圍盒并集的面積，取值為[0, 1]。交并比度量了算法預(yù)測的包圍盒和真實(shí)包圍盒的接近程度，交并比越大，兩個(gè)包圍盒的重疊程度越高。

(2) 基于候選區(qū)域的目標(biāo)檢測算法

基本思路

使用不同大小的窗口在圖像上滑動(dòng)，在每個(gè)區(qū)域，對(duì)窗口內(nèi)的區(qū)域進(jìn)行目標(biāo)定位。即，將每個(gè)窗口內(nèi)的區(qū)域前饋網(wǎng)絡(luò)，其分類分支用于判斷該區(qū)域的類別，回歸分支用于輸出包圍盒?；诨瑒?dòng)窗的目標(biāo)檢測動(dòng)機(jī)是，盡管原圖中可能包含多個(gè)目標(biāo)，但滑動(dòng)窗對(duì)應(yīng)的圖像局部區(qū)域內(nèi)通常只會(huì)有一個(gè)目標(biāo)(或沒有)。因此，我們可以沿用目標(biāo)定位的思路對(duì)窗口內(nèi)區(qū)域逐個(gè)進(jìn)行處理。但是，由于該方法要把圖像所有區(qū)域都滑動(dòng)一遍，而且滑動(dòng)窗大小不一，這會(huì)帶來很大的計(jì)算開銷。

R-CNN

先利用一些非深度學(xué)習(xí)的類別無關(guān)的無監(jiān)督方法，在圖像中找到一些可能包含目標(biāo)的候選區(qū)域。之后，對(duì)每個(gè)候選區(qū)域前饋網(wǎng)絡(luò)，進(jìn)行目標(biāo)定位，即兩分支(分類+回歸)輸出。其中，我們?nèi)匀恍枰貧w分支的原因是，候選區(qū)域只是對(duì)包含目標(biāo)區(qū)域的一個(gè)粗略的估計(jì)，我們需要有監(jiān)督地利用回歸分支得到更精確的包圍盒預(yù)測結(jié)果。R-CNN的重要性在于當(dāng)時(shí)目標(biāo)檢測已接近瓶頸期，而R-CNN利于在ImageNet預(yù)訓(xùn)練模型微調(diào)的方法一舉將VOC上mAP由35.1%提升至53.7%，確定了深度學(xué)習(xí)下目標(biāo)檢測的基本思路。一個(gè)有趣之處是R-CNN論文開篇第一句只有兩個(gè)詞"Features matter." 這點(diǎn)明了深度學(xué)習(xí)方法的核心。

候選區(qū)域(region proposal)

候選區(qū)域生成算法通?；趫D像的顏色、紋理、面積、位置等合并相似的像素，最終可以得到一系列的候選矩陣區(qū)域。這些算法，如selective search或EdgeBoxes，通常只需要幾秒的CPU時(shí)間，而且，一個(gè)典型的候選區(qū)域數(shù)目是2k，相比于用滑動(dòng)窗把圖像所有區(qū)域都滑動(dòng)一遍，基于候選區(qū)域的方法十分高效。另一方面，這些候選區(qū)域生成算法的查準(zhǔn)率(precision)一般，但查全率(recall)通常比較高，這使得我們不容易遺漏圖像中的目標(biāo)。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

Fast R-CNN

R-CNN的弊端是需要多次前饋網(wǎng)絡(luò)，這使得R-CNN的運(yùn)行效率不高，預(yù)測一張圖像需要47秒。Fast R-CNN同樣基于候選區(qū)域進(jìn)行目標(biāo)檢測，但受SPPNet啟發(fā)，在Fast R-CNN中，不同候選區(qū)域的卷積特征提取部分是共享的。也就是說，我們先將整副圖像前饋網(wǎng)絡(luò)，并提取conv5卷積特征。之后，基于候選區(qū)域生成算法的結(jié)果在卷積特征上進(jìn)行采樣，這一步稱為興趣區(qū)域匯合。最后，對(duì)每個(gè)候選區(qū)域，進(jìn)行目標(biāo)定位，即兩分支(分類+回歸)輸出。

興趣區(qū)域匯合(region of interest pooling, RoI pooling)

興趣區(qū)域匯合旨在由任意大小的候選區(qū)域?qū)?yīng)的局部卷積特征提取得到固定大小的特征，這是因?yàn)橄乱徊降膬煞种ЬW(wǎng)絡(luò)由于有全連接層，需要其輸入大小固定。其做法是，先將候選區(qū)域投影到卷積特征上，再把對(duì)應(yīng)的卷積特征區(qū)域空間上劃分成固定數(shù)目的網(wǎng)格(數(shù)目根據(jù)下一步網(wǎng)絡(luò)希望的輸入大小確定，例如VGGNet需要7×7的網(wǎng)格)，最后在每個(gè)小的網(wǎng)格區(qū)域內(nèi)進(jìn)行最大匯合，以得到固定大小的匯合結(jié)果。和經(jīng)典最大匯合一致，每個(gè)通道的興趣區(qū)域匯合是獨(dú)立的。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

Faster R-CNN

Fast R-CNN測試時(shí)每張圖像前饋網(wǎng)絡(luò)只需0.2秒，但瓶頸在于提取候選區(qū)域需要2秒。Faster R-CNN不再使用現(xiàn)有的無監(jiān)督候選區(qū)域生成算法，而利用候選區(qū)域網(wǎng)絡(luò)從conv5特征中產(chǎn)生候選區(qū)域，并且將候選區(qū)域網(wǎng)絡(luò)集成到整個(gè)網(wǎng)絡(luò)中端到端訓(xùn)練。Faster R-CNN的測試時(shí)間是0.2秒，接近實(shí)時(shí)。后來有研究發(fā)現(xiàn)，通過使用更少的候選區(qū)域，可以在性能損失不大的條件下進(jìn)一步提速。

候選區(qū)域網(wǎng)絡(luò)(region proposal networks, RPN)在卷積特征上的通過兩層卷積(3×3和1×1卷積)，輸出兩個(gè)分支。其中，一個(gè)分支用于判斷每個(gè)錨盒是否包含了目標(biāo)，另一個(gè)分支對(duì)每個(gè)錨盒輸出候選區(qū)域的4個(gè)坐標(biāo)。候選區(qū)域網(wǎng)絡(luò)實(shí)際上延續(xù)了基于滑動(dòng)窗進(jìn)行目標(biāo)定位的思路，不同之處在于候選區(qū)域網(wǎng)絡(luò)在卷積特征而不是在原圖上進(jìn)行滑動(dòng)。由于卷積特征的空間大小很小而感受野很大，即使使用3×3的滑動(dòng)窗，也能對(duì)應(yīng)于很大的原圖區(qū)域。Faster R-CNN實(shí)際使用了3組大小(128×128、256×256、512×512)、3組長寬比(1:1、1:2、2:1)，共計(jì)9個(gè)錨盒，這里錨盒的大小已經(jīng)超過conv5特征感受野的大小。對(duì)一張1000×600的圖像，可以得到20k個(gè)錨盒。

為什么要使用錨盒(anchor box)

錨盒是預(yù)先定義形狀和大小的包圍盒。使用錨盒的原因包括：(1). 圖像中的候選區(qū)域大小和長寬比不同，直接回歸比對(duì)錨盒坐標(biāo)修正訓(xùn)練起來更困難。(2). conv5特征感受野很大，很可能該感受野內(nèi)包含了不止一個(gè)目標(biāo)，使用多個(gè)錨盒可以同時(shí)對(duì)感受野內(nèi)出現(xiàn)的多個(gè)目標(biāo)進(jìn)行預(yù)測。(3). 使用錨盒也可以認(rèn)為這是向神經(jīng)網(wǎng)絡(luò)引入先驗(yàn)知識(shí)的一種方式。我們可以根據(jù)數(shù)據(jù)中包圍盒通常出現(xiàn)的形狀和大小設(shè)定一組錨盒。錨盒之間是獨(dú)立的，不同的錨盒對(duì)應(yīng)不同的目標(biāo)，比如高瘦的錨盒對(duì)應(yīng)于人，而矮胖的錨盒對(duì)應(yīng)于車輛。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

R-FCN

Faster R-CNN在RoI pooling之后，需要對(duì)每個(gè)候選區(qū)域單獨(dú)進(jìn)行兩分支預(yù)測。R-FCN旨在使幾乎所有的計(jì)算共享，以進(jìn)一步加快速度。由于圖像分類任務(wù)不關(guān)心目標(biāo)具體在圖像的位置，網(wǎng)絡(luò)具有平移不變性。但目標(biāo)檢測中由于要回歸出目標(biāo)的位置，所以網(wǎng)絡(luò)輸出應(yīng)當(dāng)受目標(biāo)平移的影響。為了緩和這兩者的矛盾，R-FCN顯式地給予深度卷積特征各通道以位置關(guān)系。在RoI匯合時(shí)，先將候選區(qū)域劃分成3×3的網(wǎng)格，之后將不同網(wǎng)格對(duì)應(yīng)于候選卷積特征的不同通道，最后每個(gè)網(wǎng)格分別進(jìn)行平均匯合。R-FCN同樣采用了兩分支(分類+回歸)輸出。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

小結(jié)

基于候選區(qū)域的目標(biāo)檢測算法通常需要兩步：第一步是從圖像中提取深度特征，第二步是對(duì)每個(gè)候選區(qū)域進(jìn)行定位(包括分類和回歸)。其中，第一步是圖像級(jí)別計(jì)算，一張圖像只需要前饋該部分網(wǎng)絡(luò)一次，而第二步是區(qū)域級(jí)別計(jì)算，每個(gè)候選區(qū)域都分別需要前饋該部分網(wǎng)絡(luò)一次。因此，第二步占用了整體主要的計(jì)算開銷。R-CNN, Fast R-CNN, Faster R-CNN, R-FCN這些算法的演進(jìn)思路是逐漸提高網(wǎng)絡(luò)中圖像級(jí)別計(jì)算的比例，同時(shí)降低區(qū)域級(jí)別計(jì)算的比例。R-CNN中幾乎所有的計(jì)算都是區(qū)域級(jí)別計(jì)算，而R-FCN中幾乎所有的計(jì)算都是圖像級(jí)別計(jì)算。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

(3) 基于直接回歸的目標(biāo)檢測算法

基本思路

基于候選區(qū)域的方法由于有兩步操作，雖然檢測性能比較好，但速度上離實(shí)時(shí)仍有一些差距。基于直接回歸的方法不需要候選區(qū)域，直接輸出分類/回歸結(jié)果。這類方法由于圖像只需前饋網(wǎng)絡(luò)一次，速度通常更快，可以達(dá)到實(shí)時(shí)。

YOLO

將圖像劃分成7×7的網(wǎng)格，其中圖像中的真實(shí)目標(biāo)被其劃分到目標(biāo)中心所在的網(wǎng)格及其最接近的錨盒。對(duì)每個(gè)網(wǎng)格區(qū)域，網(wǎng)絡(luò)需要預(yù)測：每個(gè)錨盒包含目標(biāo)的概率(不包含目標(biāo)時(shí)應(yīng)為0，否則為錨盒和真實(shí)包圍盒的IoU)、每個(gè)錨盒的4個(gè)坐標(biāo)、該網(wǎng)格的類別概率分布。每個(gè)錨盒的類別概率分布等于每個(gè)錨盒包含目標(biāo)的概率乘以該網(wǎng)格的類別概率分布。相比基于候選區(qū)域的方法，YOLO需要預(yù)測包含目標(biāo)的概率的原因是，圖像中大部分的區(qū)域不包含目標(biāo)，而訓(xùn)練時(shí)只有目標(biāo)存在時(shí)才對(duì)坐標(biāo)和類別概率分布進(jìn)行更新。

YOLO的優(yōu)點(diǎn)在于：(1). 基于候選區(qū)域的方法的感受野是圖像中的局部區(qū)域，而YOLO可以利用整張圖像的信息。(2). 有更好的泛化能力。

YOLO的局限在于：(1). 不能很好處理網(wǎng)格中目標(biāo)數(shù)超過預(yù)設(shè)固定值，或網(wǎng)格中有多個(gè)目標(biāo)同時(shí)屬于一個(gè)錨盒的情況。(2). 對(duì)小目標(biāo)的檢測能力不夠好。(3). 對(duì)不常見長寬比的包圍盒的檢測能力不強(qiáng)。(4). 計(jì)算損失時(shí)沒有考慮包圍盒大小。大的包圍盒中的小偏移和小的包圍盒中的小偏移應(yīng)有不同的影響。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

SSD

相比YOLO，SSD在卷積特征后加了若干卷積層以減小特征空間大小，并通過綜合多層卷積層的檢測結(jié)果以檢測不同大小的目標(biāo)。此外，類似于Faster R-CNN的RPN，SSD使用3×3卷積取代了YOLO中的全連接層，以對(duì)不同大小和長寬比的錨盒來進(jìn)行分類/回歸。SSD取得了比YOLO更快，接近Faster R-CNN的檢測性能。后來有研究發(fā)現(xiàn)，相比其他方法，SSD受基礎(chǔ)模型性能的影響相對(duì)較小。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

FPN

之前的方法都是取高層卷積特征。但由于高層特征會(huì)損失一些細(xì)節(jié)信息，F(xiàn)PN融合多層特征，以綜合高層、低分辨率、強(qiáng)語義信息和低層、高分辨率、弱語義信息來增強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)的處理能力。此外，和通常用多層融合的結(jié)果做預(yù)測的方法不同，F(xiàn)PN在不同層獨(dú)立進(jìn)行預(yù)測。FPN既可以與基于候選區(qū)域的方法結(jié)合，也可以與基于直接回歸的方法結(jié)合。FPN在和Faster R-CNN結(jié)合后，在基本不增加原有模型計(jì)算量的情況下，大幅提高對(duì)小目標(biāo)的檢測性能。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

RetinaNet

RetinaNet認(rèn)為，基于直接回歸的方法性能通常不如基于候選區(qū)域方法的原因是，前者會(huì)面臨極端的類別不平衡現(xiàn)象。基于候選區(qū)域的方法可以通過候選區(qū)域過濾掉大部分的背景區(qū)域，但基于直接回歸的方法需要直接面對(duì)類別不平衡。因此，RetinaNet通過改進(jìn)經(jīng)典的交叉熵?fù)p失以降低對(duì)已經(jīng)分的很好的樣例的損失值，提出了焦點(diǎn)(focal)損失函數(shù)，以使模型訓(xùn)練時(shí)更加關(guān)注到困難的樣例上。RetinaNet取得了接近基于直接回歸方法的速度，和超過基于候選區(qū)域的方法的性能。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

(4) 目標(biāo)檢測常用技巧

非最大抑制(non-max suppression, NMS)

目標(biāo)檢測可能會(huì)出現(xiàn)的一個(gè)問題是，模型會(huì)對(duì)同一目標(biāo)做出多次預(yù)測，得到多個(gè)包圍盒。NMS旨在保留最接近真實(shí)包圍盒的那一個(gè)預(yù)測結(jié)果，而抑制其他的預(yù)測結(jié)果。NMS的做法是，首先，對(duì)每個(gè)類別，NMS先統(tǒng)計(jì)每個(gè)預(yù)測結(jié)果輸出的屬于該類別概率，并將預(yù)測結(jié)果按該概率由高至低排序。其次，NMS認(rèn)為對(duì)應(yīng)概率很小的預(yù)測結(jié)果并沒有找到目標(biāo)，所以將其抑制。然后，NMS在剩余的預(yù)測結(jié)果中，找到對(duì)應(yīng)概率最大的預(yù)測結(jié)果，將其輸出，并抑制和該包圍盒有很大重疊(如IoU大于0.3)的其他包圍盒。重復(fù)上一步，直到所有的預(yù)測結(jié)果均被處理。

在線困難樣例挖掘(online hard example mining, OHEM)

目標(biāo)檢測的另一個(gè)問題是類別不平衡，圖像中大部分的區(qū)域是不包含目標(biāo)的，而只有小部分區(qū)域包含目標(biāo)。此外，不同目標(biāo)的檢測難度也有很大差異，絕大部分的目標(biāo)很容易被檢測到，而有一小部分目標(biāo)卻十分困難。OHEM和Boosting的思路類似，其根據(jù)損失值將所有候選區(qū)域進(jìn)行排序，并選擇損失值最高的一部分候選區(qū)域進(jìn)行優(yōu)化，使網(wǎng)絡(luò)更關(guān)注于圖像中更困難的目標(biāo)。此外，為了避免選到相互重疊很大的候選區(qū)域，OHEM對(duì)候選區(qū)域根據(jù)損失值進(jìn)行NMS。

在對(duì)數(shù)空間回歸

回歸相比分類優(yōu)化難度大了很多。L2\ell_損失對(duì)異常值比較敏感，由于有平方，異常值會(huì)有大的損失值，同時(shí)會(huì)有很大的梯度，使訓(xùn)練時(shí)很容易發(fā)生梯度爆炸。而L1\el損失的梯度不連續(xù)。在對(duì)數(shù)空間中，由于數(shù)值的動(dòng)態(tài)范圍小了很多，回歸訓(xùn)練起來也會(huì)容易很多。此外，也有人用平滑的L1\el損失進(jìn)行優(yōu)化。預(yù)先將回歸目標(biāo)規(guī)范化也會(huì)有助于訓(xùn)練。

語義分割(semantic segmentation)

語義分割是目標(biāo)檢測更進(jìn)階的任務(wù)，目標(biāo)檢測只需要框出每個(gè)目標(biāo)的包圍盒，語義分割需要進(jìn)一步判斷圖像中哪些像素屬于哪個(gè)目標(biāo)。

(1) 語義分割常用數(shù)據(jù)集

PASCAL VOC 2012 1.5k訓(xùn)練圖像，1.5k驗(yàn)證圖像，20個(gè)類別(包含背景)。

MS COCO COCO比VOC更困難。有83k訓(xùn)練圖像，41k驗(yàn)證圖像，80k測試圖像，80個(gè)類別。

(2) 語義分割基本思路

基本思路

逐像素進(jìn)行圖像分類。我們將整張圖像輸入網(wǎng)絡(luò)，使輸出的空間大小和輸入一致，通道數(shù)等于類別數(shù)，分別代表了各空間位置屬于各類別的概率，即可以逐像素地進(jìn)行分類。

全卷積網(wǎng)絡(luò)+反卷積網(wǎng)絡(luò)

為使得輸出具有三維結(jié)構(gòu)，全卷積網(wǎng)絡(luò)中沒有全連接層，只有卷積層和匯合層。但是隨著卷積和匯合的進(jìn)行，圖像通道數(shù)越來越大，而空間大小越來越小。要想使輸出和輸入有相同的空間大小，全卷積網(wǎng)絡(luò)需要使用反卷積和反匯合來增大空間大小。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

反卷積(deconvolution)/轉(zhuǎn)置卷積(transpose convolution)

標(biāo)準(zhǔn)卷積的濾波器在輸入圖像中進(jìn)行滑動(dòng)，每次和輸入圖像局部區(qū)域點(diǎn)乘得到一個(gè)輸出，而反卷積的濾波器在輸出圖像中進(jìn)行滑動(dòng)，每個(gè)由一個(gè)輸入神經(jīng)元乘以濾波器得到一個(gè)輸出局部區(qū)域。反卷積的前向過程和卷積的反向過程完成的是相同的數(shù)學(xué)運(yùn)算。和標(biāo)準(zhǔn)卷積的濾波器一樣，反卷積的濾波器也是從數(shù)據(jù)中學(xué)到的。

反最大匯合(max-unpooling)

通常全卷積網(wǎng)絡(luò)是對(duì)稱的結(jié)構(gòu)，在最大匯合時(shí)需要記下最大值所處局部區(qū)域位置，在對(duì)應(yīng)反最大匯合時(shí)將對(duì)應(yīng)位置輸出置為輸入，其余位置補(bǔ)零。反最大匯合可以彌補(bǔ)最大匯合時(shí)丟失的空間信息。反最大匯合的前向過程和最大匯合的反向過程完成的是相同的數(shù)學(xué)運(yùn)算。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

(3) 語義分割常用技巧

擴(kuò)張卷積(dilated convolution)

經(jīng)常用于分割任務(wù)以增大有效感受野的一個(gè)技巧。標(biāo)準(zhǔn)卷積操作中每個(gè)輸出神經(jīng)元對(duì)應(yīng)的輸入局部區(qū)域是連續(xù)的，而擴(kuò)張卷積對(duì)應(yīng)的輸入局部區(qū)域在空間位置上不連續(xù)。擴(kuò)張卷積保持卷積參數(shù)量不變，但有更大的有效感受野。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

條件隨機(jī)場(conditional random field, CRF)

條件隨機(jī)場是一種概率圖模型，常被用于微修全卷積網(wǎng)絡(luò)的輸出結(jié)果，使細(xì)節(jié)信息更好。其動(dòng)機(jī)是距離相近的像素、或像素值相近的像素更可能屬于相同的類別。此外，有研究工作用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks)近似條件隨機(jī)場。條件隨機(jī)場的另一弊端是會(huì)考慮兩兩像素之間的關(guān)系，這使其運(yùn)行效率不高。

利用低層信息

綜合利用低層結(jié)果可以彌補(bǔ)隨著網(wǎng)絡(luò)加深丟失的細(xì)節(jié)和邊緣信息。

實(shí)例分割(instance segmentation)

語義分割不區(qū)分屬于相同類別的不同實(shí)例。例如，當(dāng)圖像中有多只貓時(shí)，語義分割會(huì)將兩只貓整體的所有像素預(yù)測為“貓”這個(gè)類別。與此不同的是，實(shí)例分割需要區(qū)分出哪些像素屬于第一只貓、哪些像素屬于第二只貓。

基本思路

目標(biāo)檢測+語義分割。先用目標(biāo)檢測方法將圖像中的不同實(shí)例框出，再用語義分割方法在不同包圍盒內(nèi)進(jìn)行逐像素標(biāo)記。

Mask R-CNN

用FPN進(jìn)行目標(biāo)檢測，并通過添加額外分支進(jìn)行語義分割(額外分割分支和原檢測分支不共享參數(shù))，即Master R-CNN有三個(gè)輸出分支(分類、坐標(biāo)回歸、和分割)。此外，Mask R-CNN的其他改進(jìn)有：(1). 改進(jìn)了RoI匯合，通過雙線性差值使候選區(qū)域和卷積特征的對(duì)齊不因量化而損失信息。(2). 在分割時(shí)，Mask R-CNN將判斷類別和輸出模板(mask)這兩個(gè)任務(wù)解耦合，用sigmoid配合對(duì)率(logistic)損失函數(shù)對(duì)每個(gè)類別的模板單獨(dú)處理，取得了比經(jīng)典分割方法用softmax讓所有類別一起競爭更好的效果。

介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

定位

定位

+關(guān)注

關(guān)注
5

文章
1250

瀏覽量
35234
分類

分類

+關(guān)注

關(guān)注
0

文章
61

瀏覽量
12890
計(jì)算機(jī)視覺

計(jì)算機(jī)視覺

+關(guān)注

關(guān)注
8

文章
1685

瀏覽量
45811
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5422

瀏覽量
120593

原文標(biāo)題：【計(jì)算機(jī)視覺必讀干貨】圖像分類、定位、檢測，語義分割和實(shí)例分割方法梳理

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評(píng)論

相關(guān)推薦

前百度深度學(xué)習(xí)研究院科學(xué)家分享：機(jī)器視覺開發(fā)實(shí)戰(zhàn)經(jīng)驗(yàn)

視頻分析技術(shù)。參與直播您將獲得以下干貨分享：1.機(jī)器視覺/計(jì)算機(jī)視覺的基本概念和任務(wù)類型；2.智能視頻分析的基本概念，基本任務(wù)和基本方法；3

發(fā)表于 07-20 11:06

請問計(jì)算機(jī)視覺與深度學(xué)習(xí)要看什么書？

計(jì)算機(jī)視覺與深度學(xué)習(xí)，看這本書就夠了

發(fā)表于 05-21 12:43

深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域圖像應(yīng)用總結(jié) 精選資料下載

突破的領(lǐng)域，真正讓大家大吃一驚的顛覆傳統(tǒng)方法的應(yīng)用領(lǐng)域是語音識(shí)別，做出來的公司是微軟，而不是當(dāng)時(shí)如日中天的谷歌。計(jì)算機(jī)視覺應(yīng)用深度

發(fā)表于 07-28 08:22

超全！深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用一覽（附鏈接）精選資料分享

這是一份深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的超全應(yīng)用預(yù)覽~簡單回顧的話，2006年Geof...

發(fā)表于 07-28 07:35

驅(qū)動(dòng)電路的基本任務(wù)

1、驅(qū)動(dòng)電路的基本任務(wù) 驅(qū)動(dòng)電路是主電路與控制電路之間的接口電路。驅(qū)動(dòng)電路的基本任務(wù)是將信息電子電路傳來的信號(hào)轉(zhuǎn)換為加在器件控制回路中的電壓或者電流。 2、驅(qū)動(dòng)電路的要求 ①具有一定的功率，使器件

發(fā)表于 11-15 09:01

深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺簡介

文章目錄1 簡介1.1 深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺1.2 性能考量1.3 社區(qū)支持2 結(jié)論3 參考在計(jì)算機(jī)

發(fā)表于 12-23 06:17

介紹了計(jì)算機(jī)視覺領(lǐng)域內(nèi)比較成功的10個(gè)深度學(xué)習(xí)架構(gòu)

近年來，深度學(xué)習(xí)的發(fā)展勢頭迅猛，要跟上深度學(xué)習(xí)的進(jìn)步速度變得越來越困難了。幾乎每一天都有關(guān)于深度學(xué)習(xí)

發(fā)表于 01-11 10:49 ?9154次閱讀

密鑰管理的基本任務(wù)與要求介紹

本文開始闡述了密鑰管理的定義，其次闡述了密鑰的種類，最后介紹了密鑰管理目的和適用范圍以及密鑰管理的基本任務(wù)與要求。

發(fā)表于 03-14 16:48 ?1.3w次閱讀

技術(shù) | 深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的瓶頸已至

霍金的弟子，約翰霍普金斯大學(xué)教授Alan Yuille提出“深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的瓶頸已至。

發(fā)表于 07-05 10:07 ?2467次閱讀

深度學(xué)習(xí)后的計(jì)算機(jī)視覺應(yīng)用領(lǐng)域解析

計(jì)算機(jī)視覺是使用計(jì)算機(jī)及相關(guān)設(shè)備對(duì)生物視覺的一種模擬，是人工智能領(lǐng)域的一個(gè)重要部分，它主要任務(wù)是

發(fā)表于 07-22 16:49 ?1785次閱讀

深度學(xué)習(xí)在計(jì)算機(jī)視覺上的四大應(yīng)用

計(jì)算機(jī)視覺中比較成功的深度學(xué)習(xí)的應(yīng)用，包括人臉識(shí)別，圖像問答，物體檢測，物體跟蹤。

發(fā)表于 08-24 16:16 ?4376次閱讀

深度學(xué)習(xí)和傳統(tǒng)計(jì)算機(jī)視覺技術(shù)在新興領(lǐng)域的比較

是不是深度學(xué)習(xí)就可以解決所有問題呢？是不是它就比傳統(tǒng)計(jì)算機(jī)視覺方法好呢？但是深度學(xué)習(xí)無法解決所有

發(fā)表于 11-28 11:01 ?1435次閱讀

淺談深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的三大瓶頸

深度學(xué)習(xí)能夠?qū)崿F(xiàn)的前提是大量經(jīng)過標(biāo)注的數(shù)據(jù)，這使得計(jì)算機(jī)視覺領(lǐng)域的研究人員傾向于在數(shù)據(jù)資源豐富的領(lǐng)域

發(fā)表于 06-11 10:22 ?361次閱讀

計(jì)算機(jī)視覺中的九種深度學(xué)習(xí)技術(shù)

計(jì)算機(jī)視覺中仍有許多具有挑戰(zhàn)性的問題需要解決。然而，深度學(xué)習(xí)方法正在針對(duì)某些特定問題取得最新成果。在

發(fā)表于 08-21 09:56 ?497次閱讀

深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

深度學(xué)習(xí)技術(shù)的引入，極大地推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域的發(fā)展，使其能夠處理更加復(fù)雜和多樣化的視覺

發(fā)表于 07-01 11:38 ?433次閱讀