0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探究深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用與展望

mK5P_AItists ? 來源:cc ? 2019-01-13 10:59 ? 次閱讀

目標(biāo)視覺檢測計(jì)算機(jī)視覺領(lǐng)域的一個重要問題,在視頻監(jiān)控、自主駕駛、人機(jī)交互等方面具有重要的研究意義和應(yīng)用價值.近年來,深度學(xué)習(xí)在圖像分類研究中取得了突破性進(jìn)展,也帶動著目標(biāo)視覺檢測取得突飛猛進(jìn)的發(fā)展.本文綜述了深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展與展望.首先對目標(biāo)視覺檢測的基本流程進(jìn)行總結(jié),并介紹了目標(biāo)視覺檢測研究常用的公共數(shù)據(jù)集;然后重點(diǎn)介紹了目前發(fā)展迅猛的深度學(xué)習(xí)方法在目標(biāo)視覺檢測中的最新應(yīng)用進(jìn)展;最后討論了深度學(xué)習(xí)方法應(yīng)用于目標(biāo)視覺檢測時存在的困難和挑戰(zhàn),并對今后的發(fā)展趨勢進(jìn)行展望.

目標(biāo)視覺檢測是計(jì)算機(jī)視覺領(lǐng)域中一個非常重要的研究問題.隨著電子設(shè)備的應(yīng)用在社會生產(chǎn)和人們生活中越來越普遍,數(shù)字圖像已經(jīng)成為不可缺少的信息媒介,每時每刻都在產(chǎn)生海量的圖像數(shù)據(jù).與此同時,對圖像中的目標(biāo)進(jìn)行精確識別變得越來越重要[1].我們不僅關(guān)注對圖像的簡單分類,而且希望能夠準(zhǔn)確獲得圖像中存在的感興趣目標(biāo)及其位置[2],并將這些信息應(yīng)用到視頻監(jiān)控、自主駕駛等一系列現(xiàn)實(shí)任務(wù)中,因此目標(biāo)視覺檢測技術(shù)受到了廣泛關(guān)注[3].

目標(biāo)視覺檢測具有巨大的實(shí)用價值和應(yīng)用前景.應(yīng)用領(lǐng)域包括智能視頻監(jiān)控、機(jī)器人導(dǎo)航、數(shù)碼相機(jī)中自動定位和聚焦人臉的技術(shù)、飛機(jī)航拍或衛(wèi)星圖像中道路的檢測、車載攝像機(jī)圖像中的障礙物檢測等.同時,目標(biāo)視覺檢測也是眾多高層視覺處理和分析任務(wù)的重要前提,例如行為分析、事件檢測、場景語義理解等都要求利用圖像處理和模式識別技術(shù),檢測出圖像中存在的目標(biāo),確定這些目標(biāo)對象的語義類型,并且標(biāo)出目標(biāo)對象在圖像中的具體區(qū)域[4].

在自然環(huán)境條件下,目標(biāo)視覺檢測經(jīng)常遇到以下幾個方面的挑戰(zhàn):

1)類內(nèi)和類間差異

對于很多物體,它們自身就存在很大的差異性,同類物體的不同實(shí)例在顏色、材料、形狀等方面可能存在巨大的差異,很難訓(xùn)練一個能夠包含所有類內(nèi)變化的特征描述模型.另外,不同類型物體之間又可能具有很大的相似性,甚至非專業(yè)人員從外觀上很難區(qū)分它們.類內(nèi)差異可能很大,而類間差異可能很小,給目標(biāo)視覺檢測提出了挑戰(zhàn).

2)圖像采集條件

在圖像采集過程中,由于環(huán)境、光照、天氣、拍攝視角和距離的不同、物體自身的非剛體形變以及可能被其他物體部分遮擋,導(dǎo)致物體在圖像中的表觀特征具有很大的多樣性,對視覺算法的魯棒性提出了很高要求.

3)語義理解的差異

對同一幅圖像,不同的人可能會有不同的理解,這不僅與個人的觀察視角和關(guān)注點(diǎn)有關(guān),也與個人的性格、心理狀態(tài)和知識背景等有關(guān),這明顯增加了從仿生或類腦角度來研究視覺算法的難度.

4)計(jì)算復(fù)雜性和自適應(yīng)性

目標(biāo)視覺檢測的計(jì)算復(fù)雜性主要來自于待檢測目標(biāo)類型的數(shù)量、特征描述子的維度和大規(guī)模標(biāo)記數(shù)據(jù)集的獲取.由于在真實(shí)世界中存在大量的目標(biāo)類型,每種類型都包含大量的圖像,同時識別每種類型需要很多視覺特征,這導(dǎo)致高維空間稀疏的特征描述[4].另外,目標(biāo)模型經(jīng)常從大規(guī)模標(biāo)記數(shù)據(jù)集中學(xué)習(xí)得到,在許多情況下,數(shù)據(jù)采集和標(biāo)注很困難,需要耗費(fèi)大量的人力物力.這些情況導(dǎo)致目標(biāo)檢測的計(jì)算復(fù)雜性很高,需要設(shè)計(jì)高效的目標(biāo)檢測算法.同時,在動態(tài)變化的環(huán)境中,為了提高目標(biāo)檢測精度,還需要探索合適的機(jī)制來自動更新視覺模型,提高模型對復(fù)雜環(huán)境的自適應(yīng)能力.

為了克服上述挑戰(zhàn),已經(jīng)提出了許多目標(biāo)視覺檢測算法,它們在目標(biāo)區(qū)域建議、圖像特征表示、候選區(qū)域分類等步驟采用了不同的處理策略.近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,很多基于深度學(xué)習(xí)的目標(biāo)視覺檢測方法陸續(xù)被提出,在精度上顯著優(yōu)于傳統(tǒng)方法,成為最新的研究熱點(diǎn).本文首先介紹目標(biāo)視覺檢測的基本流程,然后重點(diǎn)介紹深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展.

本文內(nèi)容安排如下:第1節(jié)介紹目標(biāo)視覺檢測的基本流程;第2節(jié)對目標(biāo)視覺檢測研究常用的公共數(shù)據(jù)集進(jìn)行概述;第3節(jié)介紹深度學(xué)習(xí)技術(shù)在目標(biāo)視覺檢測中的最新應(yīng)用進(jìn)展;第4節(jié)討論深度學(xué)習(xí)技術(shù)應(yīng)用于目標(biāo)視覺檢測時存在的困難和挑戰(zhàn),并對今后的發(fā)展趨勢進(jìn)行展望;第5節(jié)對本文進(jìn)行總結(jié).

1目標(biāo)視覺檢測的基本流程

目標(biāo)視覺檢測的根本問題是估計(jì)特定類型目標(biāo)出現(xiàn)在圖像中的哪些位置.如圖1所示,目標(biāo)視覺檢測技術(shù)在流程上大致分為三個步驟:區(qū)域建議(Region proposal)、特征表示(Feature representation)和區(qū)域分類(Region classification).首先對圖像中可能的目標(biāo)位置提出建議,也就是提出一些可能含有目標(biāo)的候選區(qū)域.然后采用合適的特征模型得到特征表示.最后借助分類器判斷各個區(qū)域中是否含有特定類型的目標(biāo),并且通過一些后處理操作,例如非極大值抑制、邊框位置回歸等,得到最終的目標(biāo)邊框.該基本流程被許多工作所采用,例如文獻(xiàn)[5]提出的HOG-SVM檢測方法、文獻(xiàn)[6]提出的Selective search區(qū)域建議方法、目前在PASCAL VOC、MS COCO、ImageNet等數(shù)據(jù)集上取得領(lǐng)先精度的Faster R-CNN[7]檢測方法以及Faster R-CNN采用的特征表示和區(qū)域分類方法ResNet[8]等.

圖1目標(biāo)視覺檢測的基本流程

Figure 1Basic procedure for object detection

本節(jié)接下來從區(qū)域建議、特征表示和區(qū)域分類三個方面來總結(jié)目標(biāo)視覺檢測的關(guān)鍵技術(shù).

1.1區(qū)域建議

目標(biāo)檢測要求獲得目標(biāo)的位置和尺度信息,這需要借助區(qū)域建議來實(shí)現(xiàn).區(qū)域建議是指在輸入圖像中搜尋特定類型目標(biāo)的可能區(qū)域的一種策略.傳統(tǒng)的區(qū)域建議策略包括三種[4]:基于滑動窗的區(qū)域建議、基于投票機(jī)制的區(qū)域建議和基于圖像分割的區(qū)域建議.

1.1.1基于滑動窗的區(qū)域建議

基于滑動窗的方法是在輸入圖像所有可能的子窗口中執(zhí)行目標(biāo)檢測算法來定位潛在的目標(biāo).在文獻(xiàn)[5]中,檢測窗口是一個給定大小的矩形框,在整幅圖像的所有位置和尺度上進(jìn)行掃描,并對區(qū)域分類結(jié)果做非極大值抑制.基于滑動窗的區(qū)域建議方法采用窮舉搜索,原理簡單,易于實(shí)現(xiàn),但是計(jì)算復(fù)雜性高,太過耗時.于是一些研究者提出加快窗口搜索的方法. Lampert等[9]提出了一種高效的子窗口搜索策略(簡稱為ESS),采用分支限界法來減少搜索范圍.但是它的性能在很大程度上取決于輸入圖像中的物體,當(dāng)沒有物體出現(xiàn)時,該算法退化到窮舉搜索. An等[10]提出一種改進(jìn)的ESS算法. Wei等[11]提出一種在直方圖維度上具有常數(shù)復(fù)雜度的滑動窗口策略. Van de Sande等[12]引入圖像分割信息,將其作為目標(biāo)假設(shè)區(qū)域,從而只對這些假設(shè)區(qū)域進(jìn)行目標(biāo)檢測.

1.1.2基于投票機(jī)制的區(qū)域建議

基于投票機(jī)制的方法主要用于基于部件的模型,通常投票機(jī)制的實(shí)現(xiàn)可歸納為兩步[13-14]: 1)找到輸入圖像與模型中各個局部區(qū)域最匹配的區(qū)域,并最大化所有局部區(qū)域的匹配得分; 2)利用拓?fù)湓u價方法取得最佳的結(jié)構(gòu)匹配.由于投票機(jī)制是一種貪心算法,可能得不到最優(yōu)的拓?fù)浼僭O(shè),并且部件匹配通常采用窮舉搜索來實(shí)現(xiàn),計(jì)算代價很高.

1.1.3基于圖像分割的區(qū)域建議

基于圖像分割的區(qū)域建議建立在圖像分割的基礎(chǔ)上,分割的圖像區(qū)域就是目標(biāo)的位置候選.語義分割是一種最直接的圖像分割方法,需要對每個像素所屬的目標(biāo)類型進(jìn)行標(biāo)注[15].目前主要采用的方法是概率圖模型,例如采用CRF[16]或MRF[17]方法來鼓勵相鄰像素之間的標(biāo)記一致性.圖像分割是一個耗時而又復(fù)雜的過程,而且很難將單個目標(biāo)完整地分割出來.

不同于以上策略,文獻(xiàn)[6]先將圖片分割成若干小區(qū)域,然后再聚合,通過對聚合后的區(qū)域打分并排序,獲得較有可能是目標(biāo)區(qū)域的窗口.文獻(xiàn)[18-19]中采用生成大量窗口并打分,然后過濾掉低分的方法.文獻(xiàn)[20]對這些方法進(jìn)行了討論和比較.這些方法存在的主要問題是,采樣數(shù)目較少時召回率不高、定位精度較低等.對于一個目標(biāo)檢測系統(tǒng)來說,少量的候選區(qū)域不僅可以減少運(yùn)行時間,而且使得檢測準(zhǔn)確率更高,因此保證采樣數(shù)目少的情況下召回率仍然很高是至關(guān)重要的.為了解決這些問題,一些研究者開始采用深度學(xué)習(xí)方法來產(chǎn)生候選區(qū)域.在MultiBox[21-22]中,通過采用深度神經(jīng)網(wǎng)絡(luò)回歸模型定位出若干可能的包圍邊框.在Deepbox[23]中, Kuo等采用訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型來給通過EdgeBoxes[19]產(chǎn)生的候選區(qū)域進(jìn)行排序.在DeepProposal[24]中, Ghodrati等評估了用卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生目標(biāo)候選區(qū)域的質(zhì)量,發(fā)現(xiàn)最后一層卷積層可以以很高的召回率找到感興趣的目標(biāo),但是定位精度很低,而第一層網(wǎng)絡(luò)可以很好地定位目標(biāo),但是召回率很低.基于此發(fā)現(xiàn),他們設(shè)計(jì)了一種通過多層CNN特征由粗到細(xì)地串聯(lián)來產(chǎn)生候選區(qū)域的方法.文獻(xiàn)[7]提出區(qū)域建議網(wǎng)絡(luò)(Region proposal network, RPN),把產(chǎn)生候選區(qū)域和區(qū)域分類聯(lián)合到一個深度神經(jīng)網(wǎng)絡(luò),通過端到端訓(xùn)練,在提高精度的同時降低了計(jì)算時間.最近, Gidaris等[25]使用概率預(yù)測方式來進(jìn)一步提高目標(biāo)檢測的定位精度,不同于邊框位置回歸的方法,該方法首先將搜索區(qū)域劃分成若干個水平區(qū)域和豎直區(qū)域,然后給搜索區(qū)域的每列或每行分配概率,利用這些概率信息來不斷迭代獲得更精確的檢測框.

1.2特征表示

特征表示是實(shí)現(xiàn)目標(biāo)視覺檢測必備的步驟,選擇合適的特征模型將圖像區(qū)域映射為特征向量,然后利用從訓(xùn)練樣本學(xué)習(xí)到的分類器對該特征向量進(jìn)行分類,判斷其所屬類型.特征的表達(dá)能力直接影響分類器精度,決定了算法的最終性能.特征模型主要分為手工設(shè)計(jì)的特征和自動學(xué)習(xí)的特征.

1.2.1手工設(shè)計(jì)的特征

在深度學(xué)習(xí)熱潮之前,主要采用手工設(shè)計(jì)的特征.手工特征數(shù)目繁多,可以分為三大類:基于興趣點(diǎn)檢測的方法、基于密集提取的方法和基于多種特征組合的方法.

1)基于興趣點(diǎn)檢測的方法

興趣點(diǎn)檢測方法通過某種準(zhǔn)則,選擇具有明確定義并且局部紋理特征比較明顯的像素、邊緣和角點(diǎn)等[3].其中Sobel、Prewitt、Roberts、Canny和LoG (Laplacian of Gaussian)等是典型的邊緣檢測算子[26-29].而Harris、FAST (Features from accelerated segment test)、CSS (Curvature scale space)和DOG (Difference of Gaussian)等是典型的角點(diǎn)檢測算子[30-32].興趣點(diǎn)檢測方法通常具有一定的幾何不變性,能夠以較小的計(jì)算代價得到有意義的表達(dá).

2)基于密集提取的方法

密集提取方法主要提取局部特征.區(qū)別于顏色直方圖等全局特征,局部特征有利于處理目標(biāo)部分遮擋問題.常用的局部特征有SIFT (Scale-invariant feature transform)[33]、HOG (Histogram of oriented gradient)[5]、Haar-like[34]和LBP (Local binary pattern)[35-36]等.局部特征包含的信息豐富、獨(dú)特性好,并且具有較強(qiáng)的不變性和可區(qū)分性,能夠最大程度地對圖像進(jìn)行底層描述.但是其計(jì)算一般比較復(fù)雜,近些年圖像的局部特征正在向快速和低存儲方向發(fā)展.

3)基于多種特征組合的方法

手工特征具有良好的可擴(kuò)展性,將興趣點(diǎn)檢測與密集提取相結(jié)合的多種特征組合方法,能夠彌補(bǔ)利用單一特征進(jìn)行目標(biāo)表示的不足. DPM (Deformable part-based model)[2]提出了一種有效的多種特征組合模型,被廣泛應(yīng)用于目標(biāo)檢測任務(wù)并取得了良好效果,例如行人檢測[37-38]、人臉檢測[39-40]和人體姿態(tài)估計(jì)[41]等.另外,文獻(xiàn)[42]提出了一種改進(jìn)的DPM方法,大大提升了檢測速度.

依靠手工設(shè)計(jì)特征,需要豐富的專業(yè)知識并且花費(fèi)大量的時間.特征的好壞在很大程度上還要依靠經(jīng)驗(yàn)和運(yùn)氣,往往整個算法的測試和調(diào)節(jié)工作都集中于此,需要手工完成,十分費(fèi)力.與之相比,近年來受到廣泛關(guān)注的深度學(xué)習(xí)理論中的一個重要觀點(diǎn)就是手工設(shè)計(jì)的特征描述子作為視覺計(jì)算的第一步,往往過早地丟失掉有用信息,而直接從圖像中學(xué)習(xí)到與任務(wù)相關(guān)的特征表示,比手工設(shè)計(jì)特征更加有效[3].

1.2.2自動學(xué)習(xí)的特征

近年來,深度學(xué)習(xí)在圖像分類和目標(biāo)檢測等領(lǐng)域取得了突破性進(jìn)展,成為目前最有效的自動特征學(xué)習(xí)方法.深度學(xué)習(xí)模型具有強(qiáng)大的表征和建模能力,通過監(jiān)督或非監(jiān)督的方式,逐層自動地學(xué)習(xí)目標(biāo)的特征表示,將原始數(shù)據(jù)經(jīng)過一系列非線性變換,生成高層次的抽象表示,避免了手工設(shè)計(jì)特征的繁瑣低效.深度學(xué)習(xí)在目標(biāo)視覺檢測中的研究現(xiàn)狀是本文的核心內(nèi)容,將在第3節(jié)進(jìn)行詳細(xì)介紹.

1.3區(qū)域分類

區(qū)域分類是指把候選區(qū)域的特征向量作為分類器輸入,預(yù)測候選區(qū)域所屬的目標(biāo)類型.分類器在目標(biāo)檢測中的作用可以概括為:先利用訓(xùn)練數(shù)據(jù)集進(jìn)行模型學(xué)習(xí),然后利用學(xué)習(xí)到的模型對新的候選區(qū)域進(jìn)行類型預(yù)測.分類器一般是利用監(jiān)督學(xué)習(xí)方法訓(xùn)練得到的,常用的有支持向量機(jī)(Support vector machine, SVM)、Adaboost、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等.目前,圖像識別任務(wù)中廣泛采用一對多(One-vs-others)的分類器訓(xùn)練方式[43],就是把其中一類模式作為正樣本,其余模式作為負(fù)樣本,針對每一類模式分別訓(xùn)練一個分類器;在測試階段,將圖像特征分別輸入到所有的分類器,選擇分類器響應(yīng)最大的一類模式作為類型預(yù)測. Girshick等[44]就是采用這種方式,提取候選區(qū)域的特征表示,利用一對多SVM分類器實(shí)現(xiàn)對PASCAL VOC圖像集20種目標(biāo)的檢測.

2目標(biāo)視覺檢測的公共數(shù)據(jù)集

為了促進(jìn)目標(biāo)視覺檢測的研究進(jìn)展,建設(shè)大規(guī)模的公共數(shù)據(jù)集成為必然要求.目前,目標(biāo)視覺檢測研究常用的公共數(shù)據(jù)集有ImageNet、PASCAL VOC、SUN和MS COCO等.下面將從這些數(shù)據(jù)集包含的圖像數(shù)目、類型數(shù)目、每類樣本數(shù)等方面對它們進(jìn)行介紹.直觀對比如圖2所示.

圖2幾種公共數(shù)據(jù)集的對比圖

Figure 2Comparison of several common datasets

1) ImageNet數(shù)據(jù)集[45]

該數(shù)據(jù)集是目前世界上最大的圖像分類數(shù)據(jù)集,包含1 400萬幅圖像、2.2萬個類型,平均每個類型包含1 000幅圖像.此外, ImgeNet還建立了一個包含1 000類物體,有120萬圖像的數(shù)據(jù)集,并將該數(shù)據(jù)集作為圖像識別競賽的數(shù)據(jù)平臺.

2) PASCAL VOC數(shù)據(jù)集[46]

2005 ~ 2012年,該數(shù)據(jù)集每年都發(fā)布關(guān)于圖像分類、目標(biāo)檢測和圖像分割等任務(wù)的數(shù)據(jù)集,并在相應(yīng)數(shù)據(jù)集上舉行算法競賽,極大地推動了計(jì)算機(jī)視覺領(lǐng)域的研究進(jìn)展.該數(shù)據(jù)集最初只提供了4個類型的圖像,到2007年穩(wěn)定在20個類;測試圖像的數(shù)量從最初的1 578幅,到2011年穩(wěn)定在11 530幅.雖然該數(shù)據(jù)集類型數(shù)目比較少,但是由于圖像中物體變化極大,每幅圖像可能包含多個不同類型目標(biāo)對象,并且目標(biāo)尺度變化很大,因而檢測難度非常大.

3) SUN數(shù)據(jù)集[47]

該數(shù)據(jù)集是一個覆蓋較大場景、位置、物體變化的數(shù)據(jù)集,其中的場景名主要是從WorldNet中描述場景、位置、環(huán)境等任何具體的名詞得來. SUN數(shù)據(jù)集包含兩個評測集:一個是場景識別數(shù)據(jù)集,稱為SUN 397,共包含397類場景,每類至少包含100幅圖像,總共有108 754幅圖像;另一個評測集為物體檢測數(shù)據(jù)集,稱為SUN 2012,包含16 873幅圖像.

4) MS COCO數(shù)據(jù)集[48]

該數(shù)據(jù)集包含約30多萬幅圖像、200多萬個標(biāo)注物體、91個物體類型.雖然比ImageNet和SUN包含的類型少,但是每一類物體的圖像多,另外圖像中包含精確的分割信息,是目前每幅圖像平均包含目標(biāo)數(shù)最多的數(shù)據(jù)集. MS COCO不但能夠用于目標(biāo)視覺檢測研究,還能夠用來研究圖像中目標(biāo)之間的上下文關(guān)系.

3深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展

3.1深度學(xué)習(xí)簡介

深度學(xué)習(xí)模型具有強(qiáng)大的表征和建模能力,通過監(jiān)督或非監(jiān)督的訓(xùn)練方式,能夠逐層、自動地學(xué)習(xí)目標(biāo)的特征表示,實(shí)現(xiàn)對物體層次化的抽象和描述. 1986年, Rumelhart等[49]提出人工神經(jīng)網(wǎng)絡(luò)的反向傳播(Back propagation, BP)算法. BP算法指導(dǎo)機(jī)器如何從后一層獲取誤差而改變前一層的內(nèi)部參數(shù),深度學(xué)習(xí)能夠利用BP算法發(fā)現(xiàn)大數(shù)據(jù)中的復(fù)雜結(jié)構(gòu),把原始數(shù)據(jù)通過一些簡單的非線性函數(shù)變成高層次的抽象表達(dá)[50],使計(jì)算機(jī)自動學(xué)習(xí)到模式特征,從而避免了手工設(shè)計(jì)特征的繁瑣低效問題. Hinton等[51-52]于2006年首次提出以深度神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù),引起學(xué)術(shù)界的關(guān)注.之后, Bengio[53]、LeCun[54]和Lee[55]等迅速開展了重要的跟進(jìn)工作,開啟了深度學(xué)習(xí)研究的熱潮.深度學(xué)習(xí)技術(shù)首先在語音識別領(lǐng)域取得了突破性進(jìn)展[56].在圖像識別領(lǐng)域, Krizhevsky等[57]于2012年構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò),在大規(guī)模圖像分類問題上取得了巨大成功.隨后在目標(biāo)檢測任務(wù)中,深度學(xué)習(xí)方法[7,44,58]也超過了傳統(tǒng)方法。

目前應(yīng)用于圖像識別和分析研究的深度學(xué)習(xí)模型主要包括堆疊自動編碼器(Stacked auto-encoders, SAE)[53]、深度信念網(wǎng)絡(luò)(Deep belief network, DBN)[51-52]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)[59]等.

SAE模型的實(shí)質(zhì)是多個自動編碼器(Auto-encoder, AE)的堆疊.一個自動編碼器是由編碼器和解碼器兩部分組成,能夠盡可能復(fù)現(xiàn)輸入信號.作為一種無監(jiān)督學(xué)習(xí)的非線性特征提取方法,其輸出與輸入具有相同的維度,隱藏層則被用來進(jìn)行原始數(shù)據(jù)的特征表示或編碼. SAE模型將前一層自動編碼器的輸出作為后一層自動編碼器的輸入,逐層地對自動編碼器進(jìn)行預(yù)訓(xùn)練,然后利用BP算法對整個網(wǎng)絡(luò)進(jìn)行微調(diào).目前基于SAE的擴(kuò)展模型有很多,例如,堆疊去噪自動編碼器(Stacked denoising autoencoders, SDA)[60],以及堆疊卷積自動編碼器(Stacked convolutional auto-encoders, SCAE)[61].

DBN類似于SAE,它的基本單元是受限玻爾茲曼機(jī)(Restricted Boltzmann machines, RBM),整個網(wǎng)絡(luò)的訓(xùn)練分為兩個階段:預(yù)訓(xùn)練和全局微調(diào).首先以原始輸入為可視層,訓(xùn)練一個單層的RBM,該RBM訓(xùn)練完成后,其隱層輸出作為下一層RBM的輸入,繼續(xù)訓(xùn)練下一層RBM.以此類推,逐層訓(xùn)練,直至將所有RBM訓(xùn)練完成,通過這種貪婪式的無監(jiān)督訓(xùn)練,使整個DBN模型得到一個比較好的初始值,然后加入數(shù)據(jù)標(biāo)簽對整個網(wǎng)絡(luò)進(jìn)行有監(jiān)督的微調(diào),進(jìn)一步改善網(wǎng)絡(luò)性能.

CNN是圖像和視覺識別中的研究熱點(diǎn),近年來取得了豐碩成果.圖3給出了由LeCun等[59]提出的用于數(shù)字手寫體識別的CNN網(wǎng)絡(luò)結(jié)構(gòu), CNN通常包含卷積層、池化層和全連接層.卷積層通過使用多個濾波器與整個圖像進(jìn)行卷積,可以得到圖像的多個特征圖表示;池化層實(shí)際上是一個下采樣層,通過求局部區(qū)域的最大值或平均值來達(dá)到降采樣的目的,進(jìn)一步減少特征空間;全連接層用于進(jìn)行高層推理,實(shí)現(xiàn)最終分類. CNN的權(quán)值共享和局部連接大大減少了參數(shù)的規(guī)模,降低了模型的訓(xùn)練復(fù)雜度,同時卷積操作保留了圖像的空間信息,具有平移不變性和一定的旋轉(zhuǎn)、尺度不變性. 2012年, Krizhevsky等[57]將CNN模型用于ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ImageNet large scale visual recognition challenge, ILSVRC)的圖像分類問題,使錯誤率大幅降低,在國際上引起了對CNN模型的高度重視,也因此推動了目標(biāo)視覺檢測的研究進(jìn)展.

圖3卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)[59]

Figure 3Basic structure of convolutional neural network[59]

3.2 AlexNet及其改進(jìn)模型

隨著深度學(xué)習(xí)的發(fā)展,人們將深度學(xué)習(xí)應(yīng)用于圖像分類和目標(biāo)檢測任務(wù)中,在許多公開競賽中取得了明顯優(yōu)于傳統(tǒng)方法的結(jié)果. Krizhevsky等[57]提出了一種新型卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet,隨后其他研究者相繼提出ZFNet[62]、VGG[63]、GoogLeNet[64]和ResNet[8]等改進(jìn)模型,進(jìn)一步提高了模型精度.表1顯示了幾種經(jīng)典CNN模型在圖像分類任務(wù)中的性能對比. ILSVRC的圖像分類錯誤率每年都在被刷新,如圖4所示.隨著模型變得越來越深,圖像分類的Top-5錯誤率也越來越低,目前已經(jīng)降低到3.08%附近[65].而在同樣的ImageNet數(shù)據(jù)集上,人眼的辨識錯誤率大約在5.1%.盡管這些模型都是針對圖像分類來做的,但是都在解決一個最根本的問題,即更強(qiáng)大的特征表示.采用這些CNN模型得到更強(qiáng)大的特征表示,然后應(yīng)用到目標(biāo)檢測任務(wù),可以獲得更高的檢測精度.

表1經(jīng)典CNN模型在ILSVRC圖像分類任務(wù)上的性能對比

Table 1Performance comparison of classical CNN model in image classification task of ILSVRC

圖4ILSVRC圖像分類任務(wù)歷年冠軍方法的Top-5錯誤率(下降曲線)和網(wǎng)絡(luò)層數(shù)(上升曲線)

Figure 4Top-5 error rate (descent curve) and network layers (rise curve) of the champion methods each year in image classification task of ILSVRC

AlexNet[57]在ILSVRC 2012圖像分類任務(wù)上取得了Top-5錯誤率16.4%,明顯優(yōu)于基于傳統(tǒng)方法的第2名的結(jié)果(Top-5錯誤率26.2%). AlexNet神經(jīng)網(wǎng)絡(luò)由5個卷積層、最大池化層、Dropout層和3個全連接層組成,網(wǎng)絡(luò)能夠?qū)? 000個圖像類型進(jìn)行分類.由于AlexNet的成功,許多研究人員開始關(guān)注和改進(jìn)CNN結(jié)構(gòu). Zeiler等[62]通過可視化AlexNet網(wǎng)絡(luò),發(fā)現(xiàn)第1層濾波器是非常高頻和低頻信息的混合,很少覆蓋中間頻率.并且由于第2層卷積采用比較大的步長,導(dǎo)致第2層出現(xiàn)混疊失真(Aliasing artifacts).為了解決這些問題,他們將第1層濾波器的尺寸從11 × 11減小到7 × 7,將步長從4減小到2,形成ZFNet模型. ZFNet在網(wǎng)絡(luò)的第1層和第2層保留了更多信息,降低了分類錯誤率.

Simonyan等[63]隨后提出VGG網(wǎng)絡(luò),探索在網(wǎng)絡(luò)參數(shù)總數(shù)基本不變的情況下, CNN隨著層數(shù)的增加,導(dǎo)致其性能的變化.不同于AlexNet, VGG采用的濾波器尺寸是3 × 3,通過將多個3 × 3濾波器堆疊的方式來代替一個大尺寸的濾波器,因?yàn)槎鄠€3 × 3尺寸的卷積層比一個大尺寸濾波器卷積層具有更高的非線性,使模型更有判別能力,而且多個3 × 3尺寸的卷積層比一個大尺寸的濾波器有更少的參數(shù).通過加入1 × 1卷積層,在不影響輸入輸出維數(shù)的情況下,進(jìn)一步增加網(wǎng)絡(luò)的非線性表達(dá)能力.

Szegedy等[64]提出了一種新的深度CNN模型GoogLeNet,習(xí)慣上稱為Inception-v1.只利用了比AlexNet[57]少12倍的參數(shù),但分類錯誤率更低. GoogLeNet采用Inception結(jié)構(gòu),上一層的輸出經(jīng)過1×1、3×3、5×5的卷積層和3×3的池化層,然后拼接在一起作為Inception的輸出.并且在3×3、5 × 5卷積層之前采用1×1卷積層來降維,既增加了網(wǎng)絡(luò)的深度,又減少了網(wǎng)絡(luò)參數(shù). Inception結(jié)構(gòu)既提高了網(wǎng)絡(luò)對尺度的適應(yīng)性,又提高了網(wǎng)絡(luò)計(jì)算資源的利用率.但是深度網(wǎng)絡(luò)在訓(xùn)練時,由于模型參數(shù)在不斷更新,各層輸入的概率分布在不斷變化,因此必須使用較小的學(xué)習(xí)率和較好的參數(shù)初值,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練很慢,同時也導(dǎo)致采用飽和的非線性激活函數(shù)(例如Sigmoid)時訓(xùn)練困難.為了解決這些問題,又出現(xiàn)了GoogLeNet的續(xù)作Inception-v2[66].它加入了批規(guī)范化(Batch normalization)處理,將每一層的輸出都進(jìn)行規(guī)范化,保持各層輸入的分布穩(wěn)定,使得梯度受參數(shù)初值的影響減小.批規(guī)范化加快了網(wǎng)絡(luò)訓(xùn)練速度,并且在一定程度上起到正則化的作用. Inception-v2在ILSVRC 2012圖像分類任務(wù)上的Top-5錯誤率降低到4.8%.隨著Szegedy等研究GoogLeNet的深入,網(wǎng)絡(luò)的復(fù)雜度也逐漸提高. Inception-v3[67]變得更加復(fù)雜,它通過將大的濾波器拆解成若干個小的濾波器的堆疊,在不降低網(wǎng)絡(luò)性能的基礎(chǔ)上,增加了網(wǎng)絡(luò)的深度和非線性. Inception-v3在ILSVRC 2012圖像分類任務(wù)上的Top-5錯誤率降低到3.5%.

2015年, He等[8]提出了深度高達(dá)上百層的殘差網(wǎng)絡(luò)ResNet,網(wǎng)絡(luò)層數(shù)(152層)比以往任何成功的神經(jīng)網(wǎng)絡(luò)的層數(shù)多5倍以上,在ImageNet測試集上的圖像分類錯誤率低至3.57%. ResNet使用一種全新的殘差學(xué)習(xí)策略來指導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),重新定義了網(wǎng)絡(luò)中信息流動的方式,重構(gòu)了網(wǎng)絡(luò)學(xué)習(xí)的過程,很好地解決了深度神經(jīng)網(wǎng)絡(luò)層數(shù)與錯誤率之間的矛盾(即網(wǎng)絡(luò)達(dá)到一定層數(shù)后,更深的網(wǎng)絡(luò)導(dǎo)致更高的訓(xùn)練和測試錯誤率). ResNet具有很強(qiáng)的通用性,不但在圖像分類任務(wù),而且在ImageNet數(shù)據(jù)集的目標(biāo)檢測、目標(biāo)定位任務(wù)以及MS COCO數(shù)據(jù)集的目標(biāo)檢測和分割任務(wù)上都取得了當(dāng)時最好的競賽成績.此后, Szegedy等[65]通過將Inception結(jié)構(gòu)與ResNet結(jié)構(gòu)相結(jié)合,提出了Inception-ResNet-v1和Inception-ResNet-v2兩種混合網(wǎng)絡(luò),極大地加快了訓(xùn)練速度,并且性能也有所提升.除了這種混合結(jié)構(gòu),他們還設(shè)計(jì)了一個更深更優(yōu)化的Inception-v4網(wǎng)絡(luò),單純依靠Inception結(jié)構(gòu),達(dá)到與Inception-ResNet-v2相近的性能. Szegedy等[65]將3個Inception-ResNet-v2網(wǎng)絡(luò)和1個Inception-v4網(wǎng)絡(luò)相集成,在ILSVRC 2012圖像分類任務(wù)上的Top-5錯誤率降低到3.08%.

3.3深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用

深度學(xué)習(xí)技術(shù)的發(fā)展,極大推動了目標(biāo)視覺檢測研究.目標(biāo)檢測與圖像分類最主要的不同在于目標(biāo)檢測關(guān)注圖像的局部結(jié)構(gòu)信息,而圖像分類關(guān)注圖像的全局表達(dá).與圖像分類一樣,目標(biāo)檢測的輸入也是整幅圖像.目標(biāo)檢測和圖像分類在特征表示和分類器設(shè)計(jì)上有很大的相通性.

接下來,我們從基于區(qū)域建議的方法和無區(qū)域建議的方法兩方面來介紹深度學(xué)習(xí)在目標(biāo)視覺檢測中的研究現(xiàn)狀.

3.3.1基于區(qū)域建議(Proposal-based)的方法

Girshick等[44]提出的R-CNN (Region-based convolutional neural networks)方法,是近年來基于深度學(xué)習(xí)的目標(biāo)檢測研究的重要參考方法. R-CNN將目標(biāo)區(qū)域建議(Region proposal)和CNN相結(jié)合,在PASCAL VOC 2012上的檢測平均精度mAP (Mean average precision)達(dá)到53.3%,比傳統(tǒng)方法有了明顯改進(jìn). R-CNN的基本流程如圖5所示,首先對每一幅輸入圖像,采用選擇性搜索(Selective search)[6]來提取候選區(qū)域;然后用CNN網(wǎng)絡(luò)從每個區(qū)域提取一個固定長度的特征向量,這里采用AlexNet[57]結(jié)構(gòu),圖像經(jīng)過5個卷積層和2個全連接層,得到一個4 096維的特征向量;接著把提取到的特征向量送入支持向量機(jī)進(jìn)行分類.由于一些區(qū)域存在高度交疊, Girshick等采用非極大值抑制(Non-maximum suppression)來舍棄那些與更高得分區(qū)域的IoU (Intersection-over-Union)過大的區(qū)域.為了得到更精確的結(jié)果,還采用了邊框回歸方法來進(jìn)一步改善檢測結(jié)果.在R-CNN模型的訓(xùn)練過程中,由于目標(biāo)檢測標(biāo)注數(shù)據(jù)集的規(guī)模不夠, Girshick等先將網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集ImageNet上進(jìn)行預(yù)訓(xùn)練,然后用N+1類(N個目標(biāo)類和1個背景類)的輸出層來替換1 000類的Softmax層,再針對目標(biāo)檢測任務(wù),用PASCAL VOC數(shù)據(jù)集進(jìn)行微調(diào).這種方法很好地解決了訓(xùn)練數(shù)據(jù)不足的問題,進(jìn)一步提升了檢測精度.得益于CNN的參數(shù)共享以及更低維度的特征,整個檢測算法更加高效.但是, R-CNN也存在一些不容忽視的問題: 1)候選區(qū)域之間的交疊使得特征被重復(fù)提取,造成了嚴(yán)重的速度瓶頸,降低了計(jì)算效率; 2)將候選區(qū)域直接縮放到固定大小,破壞了物體的長寬比,可能導(dǎo)致物體的局部細(xì)節(jié)損失; 3)使用邊框回歸有助于提高物體的定位精度,但是如果待檢測物體存在遮擋,該方法將難以奏效.

圖5R-CNN的計(jì)算流程[44]

Figure 5Calculation flow of R-CNN[44]

He等[68]針對R-CNN速度慢{以及要求輸入圖像塊尺寸固定}的問題,提出空間金字塔池化(Spatial pyramid pooling, SPP)模型.在R-CNN中,要將提取到的目標(biāo)候選區(qū)域變換到固定尺寸,再輸入到卷積神經(jīng)網(wǎng)絡(luò), He等加入了一個空間金字塔池化層來避免了這個限制. SPP-net網(wǎng)絡(luò)不論輸入圖像的尺寸大小,都能產(chǎn)生固定長度的特征表示. SPP-net是對整幅圖像提取特征,在最后一層卷積層得到特征圖后,再針對每個候選區(qū)域在特征圖上進(jìn)行映射,由此得到候選區(qū)域的特征.因?yàn)楹蜻x區(qū)域的尺寸各不相同,導(dǎo)致它們映射所得到的特征圖大小也不同,但CNN的全連接層需要固定維度的輸入,因此引入了空間金字塔池化層來把特征轉(zhuǎn)換到相同的維度.空間金字塔池化的思想來源于空間金字塔模型(Spatial pyramid model, SPM)[43],它采用多個尺度的池化來替代原來單一的池化. SPP層用不同大小的池化窗口作用于卷積得到的特征圖,池化窗口的大小和步長根據(jù)特征圖的尺寸進(jìn)行動態(tài)計(jì)算. SPP-net對于一幅圖像的所有候選區(qū)域,只需要進(jìn)行一次卷積過程,避免了重復(fù)計(jì)算,顯著提高了計(jì)算效率,而且空間金字塔池化層使得檢測網(wǎng)絡(luò)可以處理任意尺寸的圖像,因此可以采用多尺度圖像來訓(xùn)練網(wǎng)絡(luò),從而使得網(wǎng)絡(luò)對目標(biāo)的尺度有很好的魯棒性.該方法在速度上比R-CNN提高24 ~ 102倍,并且在PASCAL VOC 2007和Caltech 101數(shù)據(jù)集上取得了當(dāng)時最好的成績.但是它存在以下缺點(diǎn): 1) SPP-net的檢測過程是分階段的,在提取特征后用SVM分類,然后還要進(jìn)一步進(jìn)行邊框回歸,這使得訓(xùn)練過程復(fù)雜化; 2) CNN提取的特征存儲需要的空間和時間開銷大; 3)在微調(diào)階段, SPP-net只能更新空間金字塔池化層后的全連接層,而不能更新卷積層,這限制了檢測性能的提升.

后來, Girshick等[58]對R-CNN和SPP-net進(jìn)行了改進(jìn),提出能夠?qū)崿F(xiàn)特征提取、區(qū)域分類和邊框回歸的端到端聯(lián)合訓(xùn)練的Fast R-CNN算法,計(jì)算流程如圖6所示.與R-CNN類似, Fast R-CNN首先在圖像中提取感興趣區(qū)域(Regions of Interest, RoI);然后采用與SPP-net相似的處理方式,對每幅圖像只進(jìn)行一次卷積,在最后一個卷積層輸出的特征圖上對每個RoI進(jìn)行映射,得到相應(yīng)的RoI的特征圖,并送入RoI池化層(相當(dāng)于單層的SPP層,通過該層把各尺寸的特征圖統(tǒng)一到相同的大小);最后經(jīng)過全連接層得到兩個輸出向量,一個進(jìn)行Softmax分類,另一個進(jìn)行邊框回歸.在微調(diào)階段, Fast R-CNN采用一種新的層級采樣方法,先采樣圖像,再從采樣出的圖像中對RoI進(jìn)行采樣,同一幅圖像的RoI共享計(jì)算和內(nèi)存,使得訓(xùn)練更加高效. Fast R-CNN采用Softmax分類與邊框回歸一起進(jìn)行訓(xùn)練,省去了特征存儲,提高了空間和時間利用率,同時分類和回歸任務(wù)也可以共享卷積特征,相互促進(jìn).與R-CNN相比,在訓(xùn)練VGG網(wǎng)絡(luò)時, Fast R-CNN的訓(xùn)練階段快9倍,測試階段快213倍;與SPP-net相比, Fast R-CNN的訓(xùn)練階段快3倍,測試階段快10倍,并且檢測精度有一定提高.然而, Fast R-CNN仍然存在速度上的瓶頸,就是區(qū)域建議步驟耗費(fèi)了整個檢測過程的大量時間.

圖6Fast R-CNN的計(jì)算流程[58]

Figure 6Calculation flow of Fast R-CNN[58]

為了解決區(qū)域建議步驟消耗大量計(jì)算資源,導(dǎo)致目標(biāo)檢測不能實(shí)時的問題, Ren等[7]提出區(qū)域建議網(wǎng)絡(luò)(Region proposal network, RPN),并且把RPN和Fast R-CNN融合到一個統(tǒng)一的網(wǎng)絡(luò)(稱為Faster R-CNN),共享卷積特征. RPN將一整幅圖像作為輸入,輸出一系列的矩形候選區(qū)域.它是一個全卷積網(wǎng)絡(luò)模型,通過在與Fast R-CNN共享卷積層的最后一層輸出的特征圖上滑動一個小型網(wǎng)絡(luò),這個網(wǎng)絡(luò)與特征圖上的小窗口全連接,每個滑動窗口映射到一個低維的特征向量,再輸入給兩個并列的全連接層,即分類層(cls layer)和邊框回歸層(reg layer),由于網(wǎng)絡(luò)是以滑動窗的形式來進(jìn)行操作,所以全連接層的參數(shù)在所有空間位置是共享的.因此該結(jié)構(gòu)由一個卷積層后連接兩個并列的1×1卷積層實(shí)現(xiàn),如圖7所示.對于每個小窗口,以中心點(diǎn)為基準(zhǔn)點(diǎn)選取k(作者采用k=9)個不同尺度、不同長寬比的Anchor.對于每個Anchor,分類層輸出2個值,分別表示其屬于目標(biāo)的概率與屬于背景的概率;邊框回歸層輸出4個值,表示其坐標(biāo)位置. RPN的提出,以及與Fast R-CNN進(jìn)行卷積特征的共享,使得區(qū)域建議步驟的計(jì)算代價很小.與以前的方法相比,提取的候選區(qū)域數(shù)量大幅減少,同時改進(jìn)了候選區(qū)域的質(zhì)量,從而提高了整個目標(biāo)檢測網(wǎng)絡(luò)的性能,幾乎可以做到實(shí)時檢測.在PASCAL VOC 2007和2012、MS COCO等數(shù)據(jù)集上, Faster R-CNN取得了當(dāng)時最高的檢測精度.但是由于深度特征丟失了物體的細(xì)節(jié)信息,造成定位性能差, Faster R-CNN對小尺寸物體的檢測效果不好.

圖7區(qū)域建議網(wǎng)絡(luò)的基本結(jié)構(gòu)[7]

Figure 7Basic structure of region proposal network[7]

Bell等[69]提出的ION (Inside-outside net)也是基于區(qū)域建議的目標(biāo)檢測方法.為了提高檢測精度, ION同時利用RoI的內(nèi)部和外部信息.其中內(nèi)部信息是指多尺度的信息提取.不同于以前的方法將最后一層卷積層輸出作為特征圖, Bell等將不同卷積層的特征連接在一起,作為一個多尺度特征用來預(yù)測,這樣做的目的是對于一些很小的物體,不會丟失在低層的高分辨率信息. RoI的外部信息是指上下文信息,在視覺識別中上下文信息具有很重要的作用.為了得到上下文特征, Bell等采用沿著圖像的橫軸或縱軸獨(dú)立地使用RNN的方法,并把它們的輸出組合在一起,重復(fù)該過程得到的輸出作為上下文特征.最后把這兩種特征組合在一起,并調(diào)整到固定的大小輸入到全連接層,進(jìn)行Softmax分類和邊框回歸.該方法在檢測小物體上的性能比以前的方法更好,在PASCAL VOC 2012目標(biāo)檢測任務(wù)上將平均精度mAP從73.9 %提高到76.4 %,在MS COCO 2015目標(biāo)檢測任務(wù)上取得第3名的成績.

Yang等[70]為了處理不同尺度的目標(biāo),并且提高對候選區(qū)域的計(jì)算效率,提出了兩個策略,統(tǒng)稱為SDP-CRC.一個策略是采用與尺度相關(guān)的池化層(Scale-dependent pooling, SDP),由于不同尺寸的物體可能在不同的卷積層上得到不同的響應(yīng),小尺寸物體會在淺層得到強(qiáng)響應(yīng),而大尺寸物體可能在深層得到強(qiáng)響應(yīng).基于這一思想, SDP根據(jù)每個候選區(qū)域的尺寸,從對應(yīng)的卷積特征圖上池化特征.對于小尺度的候選區(qū)域,從第三層卷積特征圖上池化特征;對于中等尺度的候選區(qū)域,從第四層卷積特征圖上池化特征;對于大尺度的候選區(qū)域,從第五層卷積特征圖上池化特征.另一個策略是采用級聯(lián)拒絕分類器(Cascaded rejection classifier, CRC),快速排除一些明顯不包含目標(biāo)的候選區(qū)域,只保留那些更可能包含目標(biāo)的候選區(qū)域,交由Fast R-CNN做最終分類.與Fast R-CNN相比,該方法能夠更加準(zhǔn)確地檢測小尺寸目標(biāo),在平均檢測精度和檢測速度上都有很大提升.

為了提高Fast R-CNN訓(xùn)練時的效率, Shrivastava等[71]提出了困難樣本在線挖掘(Online hard example mining, OHEM)的思想,該方法利用Bootstrapping[72]技術(shù),對隨機(jī)梯度下降算法進(jìn)行修改,使得在訓(xùn)練過程中加入在線挖掘困難樣本的策略. OHEM機(jī)制的加入提高了Fast R-CNN方法在PASCAL VOC 2007和2012上的檢測精度.

在Faster R-CNN基礎(chǔ)上, Kong等[73]提出了HyperNet,計(jì)算流程如圖8所示.通過把不同卷積層得到的特征圖像聚集起來得到超特征(Hyper feature)來獲得質(zhì)量更高的候選區(qū)域.由于不同卷積層的輸出尺寸不同,較淺層的特征圖像分辨率較高,邊框定位精度高,但是召回率低;較深層的特征圖像分辨率低,對小尺寸物體的邊框定位精度低,但是這些特征有利于提高召回率.因此,他們通過多層特征的融合,解決了對小物體很難提取到精細(xì)特征的問題.該方法在每幅圖像中僅提取100個候選區(qū)域,在PASCAL VOC 2007和2012數(shù)據(jù)集上獲得了很好的檢測效果.

圖8HyperNet的計(jì)算流程[73]

Figure 8Calculation flow of HyperNet[73]

許多基于區(qū)域建議的目標(biāo)檢測方法存在一個共同問題,就是有一部分子網(wǎng)絡(luò)需要重復(fù)計(jì)算.例如最早提出的R-CNN,每一個候選區(qū)域都要經(jīng)歷一次CNN網(wǎng)絡(luò)提取特征,這導(dǎo)致目標(biāo)檢測速度非常慢.之后提出的Fast R-CNN和Faster R-CNN等方法,在最后一個卷積層通過RoI pooling把每一個候選區(qū)域變成一個尺寸一致的特征圖,但是對于每一個特征圖,還要經(jīng)過若干次全連接層才能得到結(jié)果.于是, Dai等[74]提出了一種新的基于區(qū)域的全卷積網(wǎng)絡(luò)檢測方法R-FCN.為了給網(wǎng)絡(luò)引入平移變化,用專門的卷積層構(gòu)建位置敏感的分?jǐn)?shù)圖(Position-sensitive score maps),編碼感興趣區(qū)域的相對空間位置信息.該網(wǎng)絡(luò)解決了Faster R-CNN由于重復(fù)計(jì)算全連接層而導(dǎo)致的耗時問題,實(shí)現(xiàn)了讓整個網(wǎng)絡(luò)中所有的計(jì)算都可以共享.

最近, Kim等[75]提出PVANET網(wǎng)絡(luò),在TITAN X上實(shí)現(xiàn)了基于輕量級模型的目標(biāo)檢測,處理一幅圖像僅需要46 ms,在PASCAL VOC 2012數(shù)據(jù)集上的檢測平均精度達(dá)到82.5 %.為了減少網(wǎng)絡(luò)參數(shù), PVANET采用了Concatenated ReLU[76]結(jié)構(gòu),在不損失精度的情況下使通道數(shù)減少一半,并在拼接操作之后加入了尺度變化和偏移.網(wǎng)絡(luò)中還加入了Inception[64]模型來更有效地捕捉各種尺度的物體,以及HyperNet[73]中多尺度特征融合的思想,來增加對細(xì)節(jié)的提取.

3.3.2無區(qū)域建議(Proposal-free)的方法

基于區(qū)域建議的目標(biāo)檢測方法不能利用局部目標(biāo)在整幅圖像中的空間信息,所以一些研究者開展了無區(qū)域建議的目標(biāo)檢測研究,主要采用回歸的思想.早期提出的無區(qū)域建議的方法,檢測效果不太理想.

DPM模型[2]是一種性能較好的傳統(tǒng)目標(biāo)檢測模型.它對目標(biāo)內(nèi)在部件進(jìn)行結(jié)構(gòu)化建模,可以更好地適應(yīng)非剛體目標(biāo)的較大形變,大大提高了檢測性能.但是DPM模型的構(gòu)建需要關(guān)于物體結(jié)構(gòu)的先驗(yàn)知識(例如部件個數(shù)),并且模型訓(xùn)練也比較復(fù)雜. Szegedy等[1]將目標(biāo)檢測看做一個回歸問題,估計(jì)圖像中的目標(biāo)位置和目標(biāo)類型概率.作者通過采用基于深度神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN)的回歸來輸出目標(biāo)包圍窗口的二元掩膜(Mask),從掩膜中提取目標(biāo)窗口.該方法的運(yùn)行框架如圖9所示,網(wǎng)絡(luò)中采用的卷積神經(jīng)網(wǎng)絡(luò)是AlexNet結(jié)構(gòu),但是用回歸層代替最后一層.基于DNN的回歸不僅能學(xué)習(xí)到有利于分類的特征表示,還能捕獲到很強(qiáng)的目標(biāo)幾何信息, Szegedy等還采用DNN定位器進(jìn)一步提高了定位準(zhǔn)確度.由于用單一的掩膜很難區(qū)分出識別的前景是單個物體還是粘連的多個物體,作者采用了多個掩膜,為每種掩膜訓(xùn)練一個單獨(dú)的DNN,這也使得網(wǎng)絡(luò)訓(xùn)練復(fù)雜度很高,很難擴(kuò)展到多種目標(biāo)類型.

圖9基于DNN回歸的目標(biāo)檢測框架[1]

Figure 9Object detection framework based on DNN regression[1]

Sermanet等[77]提出Overfeat模型,把一個卷積神經(jīng)網(wǎng)絡(luò)同時用于分類、定位和檢測這幾個不同的任務(wù).卷積層作為特征提取層保持不變,只需要針對不同的任務(wù)改變網(wǎng)絡(luò)的最后幾層為分類或回歸層. Overfeat的模型結(jié)構(gòu)與AlexNet結(jié)構(gòu)[57]基本相同.其中,前面5個卷積層為不同任務(wù)的共享層,其余的層則根據(jù)任務(wù)進(jìn)行相應(yīng)的調(diào)整,并對網(wǎng)絡(luò)做了一些改動.為了避免圖像的某些位置被忽略, Sermanet等采用偏置池化層來替換最后一層池化層,既實(shí)現(xiàn)了池化操作,也減小了采樣間隔. Overfeat訓(xùn)練分類模型時只使用單個尺度(221×221)進(jìn)行訓(xùn)練,測試時使用多個尺度輸入圖像,沒有使用AlexNet中的對比歸一化.對于檢測問題,傳統(tǒng)的方法是采用不同尺寸的滑動窗對整幅圖像進(jìn)行密集采樣,然后對每一個采樣所得的圖像塊進(jìn)行檢測,從而確定目標(biāo)物體的位置. Overfeat使用CNN來進(jìn)行滑動窗操作,避免了對各圖像塊的單獨(dú)操作,提高了算法效率;而且將全連接層看作卷積層,使得輸入圖像的尺寸不受限制.但是Overfeat對于較小尺寸目標(biāo)的識別依然存在困難.

近年來, Redmon等[78]提出了一種新的無區(qū)域建議的目標(biāo)檢測方法,稱為YOLO (You only look once).作為一種統(tǒng)一的、實(shí)時的檢測框架, YOLO的檢測速度非???可以達(dá)到45 fps (Frame per second). YOLO用一個單一的卷積網(wǎng)絡(luò)直接基于整幅圖像來預(yù)測包圍邊框的位置及所屬類型,首先將一幅圖像分成S×S個網(wǎng)格,每個網(wǎng)格要預(yù)測B個邊框,每個邊框除了要回歸自身的位置之外,還要附帶預(yù)測一個置信度.置信度不僅反映了包含目標(biāo)的可信程度,也反映了預(yù)測位置的準(zhǔn)確度.另外對每個網(wǎng)格還要預(yù)測C個類型的條件概率,將這些預(yù)測結(jié)果編碼為一個S×S×(B×5+C)維的張量(Tensor).整個網(wǎng)絡(luò)的結(jié)構(gòu)類似于GoogLeNet,包含24個卷積層和2個全連接層,卷積層用來從圖像中提取特征,全連接層預(yù)測邊框的位置坐標(biāo)和類型概率. YOLO模型通過采用空間限制,減少了對同一目標(biāo)的重復(fù)檢測,大大提高了效率,能夠達(dá)到實(shí)時的效果.但是YOLO的整體性能不如Fast R-CNN和Faster R-CNN,并且對于相鄰的目標(biāo)和成群的小尺寸目標(biāo)(例如成群的鳥)的檢測效果不好,對于新的或異常尺度的目標(biāo)泛化能力較差.

與YOLO類似, Najibi等[79]提出的G-CNN模型也著重于檢測速度的提升.該方法將目標(biāo)檢測模型轉(zhuǎn)化為迭代回歸問題,通過對整個圖像進(jìn)行不同尺度的網(wǎng)格劃分得到初始檢測框,然后采用分段回歸模型多次迭代,不斷提高邊框準(zhǔn)確度. G-CNN使用了約180個初始邊框,經(jīng)過5次迭代達(dá)到與Fast R-CNN相當(dāng)?shù)臋z測精度,但是計(jì)算速度比Fast R-CNN快5倍.

針對YOLO存在的不足, Liu等[80]提出SSD模型,在提高mAP的同時兼顧實(shí)時性的要求. SSD使用卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行卷積后,在不同層次的特征圖上生成一系列不同尺寸和長寬比的邊框.在測試階段,該網(wǎng)絡(luò)對每一個邊框中分別包含各個類型的物體的可能性進(jìn)行預(yù)測,并且調(diào)整邊框來適應(yīng)目標(biāo)物體的形狀.在PASCAL VOC、MS COCO和ILSVRC數(shù)據(jù)集上的實(shí)驗(yàn)顯示, SSD在保證精度的同時,其速度要比用候選區(qū)域的方法快很多.與YOLO相比,即使是在輸入圖像較小的情況下, SSD也能取得更高的精度.例如輸入300×300尺寸的PASCAL VOC 2007測試圖像,在單臺Nvidia Titan X上的處理速度達(dá)到58 fps,平均精度mAP達(dá)到72.1%;如果輸入圖像尺寸為500×500,平均精度mAP達(dá)到75.1%.

與基于候選區(qū)域的方法相比, YOLO定位準(zhǔn)確率低且召回率不高.因此, Redmon等[81]提出了改進(jìn)的YOLO模型,記作YOLOv2,主要目標(biāo)是在保持分類準(zhǔn)確率的同時提高召回率和定位準(zhǔn)確度.通過采用多尺度訓(xùn)練、批規(guī)范化和高分辨率分類器等多種策略,提升了檢測準(zhǔn)確率的同時速度超過其他檢測方法,例如Faster R-CNN和SSD. Redmon等還提出了一種新的聯(lián)合訓(xùn)練算法,同時在檢測數(shù)據(jù)集和分類數(shù)據(jù)集上訓(xùn)練物體檢測器,用檢測數(shù)據(jù)集的數(shù)據(jù)學(xué)習(xí)物體的準(zhǔn)確位置,用分類數(shù)據(jù)集的數(shù)據(jù)增加分類的類別量,提升健壯性,采用這種方法訓(xùn)練出來的YOLO9000模型可以實(shí)時地檢測超過9 000種物體分類.

3.3.3總結(jié)

基于區(qū)域建議的目標(biāo)檢測方法,特別是R-CNN系列方法(包括R-CNN、SPPnet、Fast R-CNN和Faster R-CNN等),取得了非常好的檢測精度,但是在速度方面還達(dá)不到實(shí)時檢測的要求.在不損失精度的情況下實(shí)現(xiàn)實(shí)時檢測,或者在提高檢測精度的同時兼顧速度,逐漸成為目標(biāo)檢測的研究趨勢. R-FCN比Faster R-CNN計(jì)算效率更高,在檢測精度和速度上平衡的很好. PVANET是一種輕量級的網(wǎng)絡(luò)結(jié)構(gòu),通過調(diào)整和結(jié)合最新的技術(shù)達(dá)到最小化計(jì)算資源的目標(biāo).無區(qū)域建議的方法(例如YOLO)雖然能夠達(dá)到實(shí)時的效果,但是其檢測精度與Faster R-CNN相比有很大的差距. SSD對YOLO進(jìn)行了改進(jìn),同時兼顧檢測精度和實(shí)時性的要求,在滿足實(shí)時性的條件下,縮小了與Faster R-CNN檢測精度的差距. YOLOv2在檢測精度和速度上都超過了SSD.一些目標(biāo)視覺檢測方法在公共數(shù)據(jù)集上的性能對比如圖10所示.

圖10一些目標(biāo)視覺檢測方法在公共數(shù)據(jù)集上的性能比較

Figure 10Performance comparison of some object visual detection methods on public datasets

4思考與展望

近年來,由于深度學(xué)習(xí)技術(shù)的迅猛發(fā)展和應(yīng)用,目標(biāo)視覺檢測研究取得了很大進(jìn)展.未來若干年,基于深度學(xué)習(xí)的目標(biāo)視覺檢測研究仍然是該領(lǐng)域的主流研究方向.不同于傳統(tǒng)方法利用手工設(shè)計(jì)的特征,可能忽視掉一些重要的特征信息,深度學(xué)習(xí)方法可以通過端到端訓(xùn)練自動學(xué)習(xí)與任務(wù)相關(guān)的特征,通過多層的非線性變換獲得圖像的高層次抽象表示.盡管深度學(xué)習(xí)在目標(biāo)視覺檢測領(lǐng)域取得了一定成功,但是還存在一些問題:

1)深度學(xué)習(xí)理論還不完善

深度學(xué)習(xí)的優(yōu)勢之一是能夠自動學(xué)習(xí)表達(dá)能力強(qiáng)的抽象特征,不需要由專家手工進(jìn)行特征設(shè)計(jì)和選擇.但是,將深度學(xué)習(xí)模型應(yīng)用于目標(biāo)檢測時還缺乏足夠的理論支撐,學(xué)習(xí)到的模型的可解釋性較弱.目前的研究通常是把深度學(xué)習(xí)模型當(dāng)作一個黑盒子(Black box)來直接使用,對于如何選擇和構(gòu)建模型、如何確定模型的深度以及深度學(xué)習(xí)的本質(zhì)等基本問題還沒有給出很好的解釋.理論的不完善導(dǎo)致研究時缺乏充分的原理性指導(dǎo),在設(shè)計(jì)新的模型時往往只能憑借經(jīng)驗(yàn)和運(yùn)氣. Pepik等[82]利用Pascal 3D+[83]數(shù)據(jù)集對R-CNN方法進(jìn)行分析,結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)對于場景和目標(biāo)的各種外觀因素的變化不具有視覺不變性,目前大多數(shù)深度學(xué)習(xí)方法在處理多目標(biāo)遮擋和小尺寸目標(biāo)等困難問題時效果還不是很好,增加額外的訓(xùn)練數(shù)據(jù)并不能克服這些缺陷,有必要對模型結(jié)構(gòu)做出改變.因此必須進(jìn)一步完善深度學(xué)習(xí)理論,為改進(jìn)模型結(jié)構(gòu)、加速模型訓(xùn)練和提高檢測效果等提供指導(dǎo).

2)大規(guī)模多樣性數(shù)據(jù)集還很缺乏

深度學(xué)習(xí)模型主要是數(shù)據(jù)驅(qū)動的,依賴于大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集.對一個特定的任務(wù),增加訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性,可以提高深度學(xué)習(xí)模型的泛化能力,避免過擬合.但是目前缺乏可用于目標(biāo)檢測的大規(guī)模多樣性數(shù)據(jù)集,即便是最大的公共數(shù)據(jù)集也只提供了很有限的標(biāo)記類型,比如PASCAL VOC有20個類型, MS COCO有80個類型, ImageNet有1 000個類型.由人工采集和標(biāo)注含有大量目標(biāo)類型的大規(guī)模多樣性數(shù)據(jù)集非常費(fèi)時耗力,并且由于光照、天氣、復(fù)雜背景、目標(biāo)外觀、攝像機(jī)視角和物體遮擋等導(dǎo)致的復(fù)雜性和挑戰(zhàn)性,同一類型目標(biāo)在不同圖像中可能看起來非常不同,使得人工標(biāo)注變得困難甚至容易出錯.雖然可以采用眾包方法(例如Amazon MTurk[84])進(jìn)行數(shù)據(jù)標(biāo)注,但是同樣要耗費(fèi)大量的人力財力,并且標(biāo)注困難.另外在一些特殊領(lǐng)域(例如在醫(yī)療和軍事等領(lǐng)域)很難獲得大規(guī)模實(shí)際圖像.標(biāo)記數(shù)據(jù)集的不足,可能導(dǎo)致訓(xùn)練出的目標(biāo)檢測模型的可靠性和魯棒性達(dá)不到要求.目前許多目標(biāo)檢測模型都采用先在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,再針對具體任務(wù)進(jìn)行微調(diào)的方式.如果針對具體的目標(biāo)檢測任務(wù),有大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集可供使用,那么目標(biāo)檢測效果可以得到進(jìn)一步提高.

為了解決上述問題,我們認(rèn)為可以采用平行視覺[85-86]的思路進(jìn)行研究. 2016年,王坤峰等[85]將復(fù)雜系統(tǒng)建模與調(diào)控的ACP (Artificial societies, computational experiments, and parallel execution)理論[87-89]推廣到視覺計(jì)算領(lǐng)域,提出平行視覺的基本框架和關(guān)鍵技術(shù).其核心是利用人工場景來模擬和表示復(fù)雜挑戰(zhàn)的實(shí)際場景,通過計(jì)算實(shí)驗(yàn)進(jìn)行各種視覺模型的設(shè)計(jì)與評估,最后借助平行執(zhí)行來在線優(yōu)化視覺系統(tǒng),實(shí)現(xiàn)對復(fù)雜環(huán)境的智能感知與理解.圖11顯示了平行視覺的基本框架.為了解決復(fù)雜環(huán)境下的目標(biāo)視覺檢測問題,我們可以按照平行視覺的ACP三步曲開展研究.

圖11平行視覺的基本框架[85]

Figure 11Basic framework of parallel vision[85]

1)人工場景(Artificial scenes)

構(gòu)建色彩逼真的人工場景,模擬實(shí)際場景中可能出現(xiàn)的環(huán)境條件,自動得到精確的目標(biāo)位置、尺寸和類型等標(biāo)注信息,生成大規(guī)模多樣性數(shù)據(jù)集.另外,實(shí)際場景通常不可重復(fù),而人工場景具有可重復(fù)性,通過固定一些物理模型和參數(shù),改變另外一些,可以定制圖像生成要素,以便從各種角度評價視覺算法.人工場景可以不受現(xiàn)有實(shí)際場景的限制,預(yù)見未來的實(shí)際場景,為視覺算法設(shè)計(jì)與評估提供超前信息.總之,人工場景能夠提供一種可靠的數(shù)據(jù)來源,是對實(shí)際場景數(shù)據(jù)的有效補(bǔ)充.

2)計(jì)算實(shí)驗(yàn)(Computational experiments)

結(jié)合人工場景數(shù)據(jù)集和實(shí)際場景數(shù)據(jù)集,進(jìn)行全面充分的計(jì)算實(shí)驗(yàn),把計(jì)算機(jī)變成視覺計(jì)算實(shí)驗(yàn)室,設(shè)計(jì)和評價視覺算法,提高其在復(fù)雜環(huán)境下的性能.與基于實(shí)際場景的實(shí)驗(yàn)相比,在人工場景中實(shí)驗(yàn)過程可控、可觀、可重復(fù),并且可以真正地產(chǎn)生實(shí)驗(yàn)大數(shù)據(jù),用于知識提取和算法優(yōu)化.計(jì)算實(shí)驗(yàn)包含兩種操作模式,即學(xué)習(xí)與訓(xùn)練、實(shí)驗(yàn)與評估.學(xué)習(xí)與訓(xùn)練是針對視覺算法設(shè)計(jì)而言,實(shí)驗(yàn)與評估是針對視覺算法評價而言.兩種操作模式都需要結(jié)合人工場景數(shù)據(jù)集和實(shí)際場景數(shù)據(jù)集,能夠增加實(shí)驗(yàn)的深度和廣度.

3)平行執(zhí)行(Parallel execution)

將視覺算法在實(shí)際場景與人工場景中平行執(zhí)行,使模型訓(xùn)練和評估在線化、長期化,通過實(shí)際與人工之間的虛實(shí)互動,持續(xù)優(yōu)化視覺系統(tǒng).由于應(yīng)用環(huán)境的復(fù)雜性、挑戰(zhàn)性和變化性,不存在一勞永逸的解決方案,只能接受這些困難,在系統(tǒng)運(yùn)行過程中不斷調(diào)節(jié)和改善.平行執(zhí)行基于物理和網(wǎng)絡(luò)空間的大數(shù)據(jù),以人工場景的在線構(gòu)建和利用為主要手段,通過在線自舉(Online bootstrapping)或困難實(shí)例挖掘(Hard example mining),自動挖掘?qū)е乱曈X算法失敗或性能不佳的實(shí)例,利用它們重新調(diào)節(jié)視覺算法和系統(tǒng),提高對動態(tài)變化環(huán)境的自適應(yīng)能力.

目前,已經(jīng)有一些工作基于人工場景數(shù)據(jù)進(jìn)行目標(biāo)檢測模型的訓(xùn)練.例如, Peng等[90]利用3D CAD模型自動合成2D圖像,使用這種虛擬圖像數(shù)據(jù)來擴(kuò)大深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集非常有效,尤其是在真實(shí)的訓(xùn)練數(shù)據(jù)很有限或不能很好地匹配目標(biāo)領(lǐng)域的情況下,避免了代價昂貴的大規(guī)模手工標(biāo)注. Johnson-Roberson等[91]利用游戲引擎生成逼真的虛擬圖像,用于目標(biāo)檢測模型的訓(xùn)練.實(shí)驗(yàn)表明,在KITTI數(shù)據(jù)集上,使用大規(guī)模的虛擬圖像集訓(xùn)練的模型比基于較小規(guī)模的真實(shí)世界數(shù)據(jù)集訓(xùn)練的檢測器精度更高.但是,已有的工作主要集中在人工場景和計(jì)算實(shí)驗(yàn),忽視了平行執(zhí)行.我們認(rèn)為,將視覺算法在實(shí)際場景與人工場景中平行執(zhí)行,持續(xù)優(yōu)化視覺系統(tǒng),提高其在復(fù)雜環(huán)境下的魯棒性和適應(yīng)性是非常重要的.

許多機(jī)器學(xué)習(xí)算法假設(shè)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)具有相同的數(shù)據(jù)分布以及特征空間[92],然而使用ACP時會遇到虛擬數(shù)據(jù)與真實(shí)數(shù)據(jù)的分布差異問題.遷移學(xué)習(xí)[93]能夠很好解決分布差異問題.通過遷移學(xué)習(xí),我們能夠運(yùn)用ACP中人工模擬出的虛擬數(shù)據(jù)來不斷提高模型的精準(zhǔn)度與魯棒性.

另外,在深度學(xué)習(xí)模型自身方面,如何提高模型的可解釋性,改善模型結(jié)構(gòu),設(shè)計(jì)新的優(yōu)化方法,降低模型訓(xùn)練和應(yīng)用時的計(jì)算復(fù)雜性,提高計(jì)算效率,得到更加有用(More effective)和更加有效的(More efficient)深度學(xué)習(xí)模型,這些問題都需要深入研究.目前,基于候選區(qū)域的目標(biāo)檢測方法精度最高,而基于回歸的SSD方法在實(shí)時性上表現(xiàn)最好,如何將這兩類方法相結(jié)合,借鑒和吸收彼此的優(yōu)點(diǎn),在檢測精度和速度上取得新的突破還有待研究.

5結(jié)論

目標(biāo)視覺檢測在計(jì)算機(jī)視覺領(lǐng)域具有重要的研究意義和應(yīng)用價值,深度學(xué)習(xí)是目前最熱門的機(jī)器學(xué)習(xí)方法,被廣泛研究和應(yīng)用.本文綜述了深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展與展望.首先說明了目標(biāo)視覺檢測的基本流程和常用的公共數(shù)據(jù)集,然后重點(diǎn)介紹了深度學(xué)習(xí)方法在目標(biāo)視覺檢測中的最新應(yīng)用進(jìn)展,最后對深度學(xué)習(xí)在目標(biāo)視覺檢測研究中的困難和挑戰(zhàn)進(jìn)行了分析,對未來的發(fā)展趨勢進(jìn)行了思考與展望.

在今后的工作中,還需要進(jìn)一步完善深度學(xué)習(xí)理論,提高目標(biāo)視覺檢測的精度和效率.另外,平行視覺作為一種新的智能視覺計(jì)算方法學(xué),通過人工場景提供大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集,通過計(jì)算實(shí)驗(yàn)全面設(shè)計(jì)和評價目標(biāo)視覺檢測方法,通過平行執(zhí)行在線優(yōu)化視覺系統(tǒng),能夠激發(fā)深度學(xué)習(xí)的潛力.我們相信,深度學(xué)習(xí)與平行視覺相結(jié)合,必將大力推動目標(biāo)視覺檢測的研究和應(yīng)用進(jìn)展.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展與展望

文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    深度學(xué)習(xí)的時間序列分類方法

    的發(fā)展,基于深度學(xué)習(xí)的TSC方法逐漸展現(xiàn)出其強(qiáng)大的自動特征提取和分類能力。本文將從多個角度對深度學(xué)習(xí)時間序列分類
    的頭像 發(fā)表于 07-09 15:54 ?375次閱讀

    深度學(xué)習(xí)工業(yè)機(jī)器視覺檢測的應(yīng)用

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,其工業(yè)機(jī)器視覺檢測的應(yīng)用日益廣泛,并展現(xiàn)出巨大的潛力。工業(yè)機(jī)器
    的頭像 發(fā)表于 07-08 10:40 ?562次閱讀

    機(jī)器視覺檢測系統(tǒng)的關(guān)鍵技術(shù)和應(yīng)用場景

    隨著人工智能技術(shù)的飛速發(fā)展,機(jī)器視覺作為其中的重要組成部分,正逐漸滲透到工業(yè)制造、自動駕駛、醫(yī)療診斷、農(nóng)業(yè)自動化等多個領(lǐng)域。基于深度學(xué)習(xí)的機(jī)器視覺
    的頭像 發(fā)表于 07-08 10:33 ?447次閱讀

    深度學(xué)習(xí)視覺檢測的應(yīng)用

    深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要分支,其核心在于通過構(gòu)建具有多層次的神經(jīng)網(wǎng)絡(luò)模型,使計(jì)算機(jī)能夠從大量數(shù)據(jù)自動學(xué)習(xí)并提取特征,進(jìn)而實(shí)現(xiàn)對復(fù)
    的頭像 發(fā)表于 07-08 10:27 ?336次閱讀

    基于深度學(xué)習(xí)的小目標(biāo)檢測

    計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)檢測一直是研究的熱點(diǎn)和難點(diǎn)之一。特別是目標(biāo)
    的頭像 發(fā)表于 07-04 17:25 ?419次閱讀

    深度學(xué)習(xí)計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

    深度學(xué)習(xí)技術(shù)的引入,極大地推動了計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,使其能夠處理更加復(fù)雜和多樣化的視覺任務(wù)。本文將詳細(xì)介紹深度
    的頭像 發(fā)表于 07-01 11:38 ?433次閱讀

    深度解析深度學(xué)習(xí)下的語義SLAM

    隨著深度學(xué)習(xí)技術(shù)的興起,計(jì)算機(jī)視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展,例如目標(biāo)檢測、識別和分類等領(lǐng)域。近年來,研究人員開始
    發(fā)表于 04-23 17:18 ?992次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>下的語義SLAM

    深度學(xué)習(xí)檢測目標(biāo)常用方法

    深度學(xué)習(xí)的效果在某種意義上是靠大量數(shù)據(jù)喂出來的,小目標(biāo)檢測的性能同樣也可以通過增加訓(xùn)練集中小目標(biāo)樣本的種類和數(shù)量來提升。
    發(fā)表于 03-18 09:57 ?621次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>檢測</b>小<b class='flag-5'>目標(biāo)</b>常用方法

    基于機(jī)器視覺深度學(xué)習(xí)的焊接質(zhì)量檢測系統(tǒng)

    基于機(jī)器視覺深度學(xué)習(xí)的焊接質(zhì)量檢測系統(tǒng)是一種創(chuàng)新性的技術(shù)解決方案,它結(jié)合了先進(jìn)的計(jì)算機(jī)視覺深度
    的頭像 發(fā)表于 01-18 17:50 ?604次閱讀

    GPU深度學(xué)習(xí)的應(yīng)用與優(yōu)勢

    人工智能的飛速發(fā)展,深度學(xué)習(xí)作為其重要分支,正在推動著諸多領(lǐng)域的創(chuàng)新。在這個過程,GPU扮演著不可或缺的角色。就像超級英雄電影的主角一樣,GPU
    的頭像 發(fā)表于 12-06 08:27 ?1090次閱讀
    GPU<b class='flag-5'>在</b><b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>中</b>的應(yīng)用與優(yōu)勢

    深度學(xué)習(xí)植物病害目標(biāo)檢測研究進(jìn)展

    關(guān)注。 中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所/農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室聯(lián)手甘肅農(nóng)業(yè)大學(xué)機(jī)電工程學(xué)院,組成科研團(tuán)隊(duì),針對深度學(xué)習(xí)植物葉部病害檢測與識別展開研究, 植物病害
    的頭像 發(fā)表于 11-20 17:19 ?457次閱讀

    深度學(xué)習(xí)工業(yè)缺陷檢測的應(yīng)用

    工業(yè)制造領(lǐng)域中,產(chǎn)品質(zhì)量的保證是至關(guān)重要的任務(wù)之一。然而,人工的檢測方法不僅費(fèi)時費(fèi)力,而且容易受到主觀因素的影響,從而降低了檢測的準(zhǔn)確性和一致性。近年來,基于深度學(xué)習(xí)的技術(shù)
    的頭像 發(fā)表于 10-24 09:29 ?1150次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>在</b>工業(yè)缺陷<b class='flag-5'>檢測</b><b class='flag-5'>中</b>的應(yīng)用

    深度學(xué)習(xí)語音識別的應(yīng)用及挑戰(zhàn)

    一、引言 隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,其語音識別領(lǐng)域的應(yīng)用也日益廣泛。深度學(xué)習(xí)技術(shù)可以有效地提高語音識別的精度和效率,并且被廣泛應(yīng)用于各種
    的頭像 發(fā)表于 10-10 18:14 ?745次閱讀

    瑞薩電子深度學(xué)習(xí)算法缺陷檢測領(lǐng)域的應(yīng)用

    缺陷檢測電子制造業(yè)是非常重要的應(yīng)用。然而,由于存在的缺陷多種多樣,傳統(tǒng)的機(jī)器視覺算法很難對缺陷特征進(jìn)行完全建模和遷移缺陷特征,致使傳統(tǒng)機(jī)器視覺
    的頭像 發(fā)表于 09-22 12:19 ?742次閱讀
    瑞薩電子<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>算法<b class='flag-5'>在</b>缺陷<b class='flag-5'>檢測</b>領(lǐng)域的應(yīng)用

    視覺深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架Torchvision介紹

    Torchvision是基于Pytorch的視覺深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架,當(dāng)前支持的圖像分類、對象檢測、實(shí)例分割、語義分割、姿態(tài)評估模型的遷
    的頭像 發(fā)表于 09-22 09:49 ?748次閱讀
    <b class='flag-5'>視覺</b><b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>遷移<b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練框架Torchvision介紹