深度學(xué)習(xí)是機(jī)器學(xué)習(xí)算法研究中新開(kāi)辟的研究方向,在圖像領(lǐng)域的應(yīng)用是最開(kāi)始的嘗試。近年以來(lái),計(jì)算機(jī)視覺(jué)領(lǐng)域和 CNN 網(wǎng)絡(luò)結(jié)構(gòu)的不斷更新發(fā)展,出現(xiàn)了一批代表性的深度卷積神經(jīng)網(wǎng)絡(luò)。本章節(jié)主要介紹目標(biāo)檢測(cè)算法 YOLO 系列借鑒了設(shè)計(jì)思想的這些框架,分別是:Le Net、Alex Net、VGG、Goog Le Net和 Res Net。表 1 所示,介紹了代表性的 CNN 結(jié)構(gòu)基本情況。
1 LeNet
LeNet 卷積神經(jīng)網(wǎng)絡(luò)是由深度學(xué)習(xí)三巨頭之一的 Yan Le Cun于 1994 年提出來(lái)的。其對(duì)構(gòu)建的 MNIST手寫(xiě)字符數(shù)據(jù)集進(jìn)行分類(lèi)。LeNet 的提出確立了 CNN 的基本網(wǎng)絡(luò)架構(gòu)。如下圖所示,Le Net 通過(guò)輸入32 ×32 字符矩陣經(jīng)過(guò)卷積層、下采樣層、全連接層進(jìn)行圖像的分類(lèi)識(shí)別。但因?yàn)楫?dāng)時(shí)硬件技術(shù)的局限性和訓(xùn)練數(shù)據(jù)的不豐富性,Le Net 模型的運(yùn)算效果并不是特別突出,但此特征網(wǎng)絡(luò)的提出,為后續(xù) Alex Net 的出現(xiàn)提供了重要的參考。
2 Alex Net
Alex Net的出現(xiàn),標(biāo)志著深度卷積神經(jīng)網(wǎng)絡(luò)開(kāi)啟了創(chuàng)新的新時(shí)代。之前由于硬件技術(shù)的局限性,CNN的學(xué)習(xí)能力、圖像分類(lèi)能力有限,而在 2012 年提出的卷積神經(jīng)網(wǎng)絡(luò) Alex Net 采用了兩個(gè) GPU(NVIDIA GTX 580)來(lái)訓(xùn)練模型,然后將兩個(gè) GPU 上的特征圖進(jìn)行合并,采用的數(shù)據(jù)集是 Image Net(1500 多萬(wàn)個(gè)標(biāo)記的圖像,2.2萬(wàn)個(gè)類(lèi)別),并在2012 ILSVRC大賽以優(yōu)異的性能在計(jì)算機(jī)視覺(jué)領(lǐng)域展現(xiàn)了自己的實(shí)力。如圖下圖所示,Alex Net 的網(wǎng)絡(luò)結(jié)構(gòu)包括 5 層卷積、3 層池化和 3 層全連接,特征提取能力得到了提高,對(duì)大規(guī)模的數(shù)據(jù)集有更好的擬合能力。并且,在訓(xùn)練階段,通過(guò)在模型隨機(jī)的添加幾個(gè)轉(zhuǎn)換單元來(lái)確保網(wǎng)絡(luò)具有較好的魯棒性。其結(jié)構(gòu)創(chuàng)新的要點(diǎn)為:
(1)使用 Re LU 作為非線性激活函數(shù),減少梯度消失現(xiàn)象,提高收斂率,減少訓(xùn)練時(shí)間。
(2)使用大尺寸卷積核(5×5和11×11),提高網(wǎng)絡(luò)感受野。 (3)加入 Drop Out 層抑制過(guò)擬合。 (4)使用數(shù)據(jù)增強(qiáng)技術(shù),對(duì)圖像進(jìn)行訓(xùn)練時(shí),隨機(jī)的添加平移縮放、裁剪旋轉(zhuǎn)、翻轉(zhuǎn)或增減亮度等操作,產(chǎn)生一系列和輸入圖像相似但又不相同的數(shù)據(jù),從而擴(kuò)充了訓(xùn)練的數(shù)據(jù)集。
3 VGG
VGG(Visual Geometry Group)多層網(wǎng)絡(luò)模型,比 Alex Net 和 Zef Net 的深度多了 19 層,驗(yàn)證了在網(wǎng)絡(luò)結(jié)構(gòu)上增加深度可以直接影響模型性能。VGG 有兩種結(jié)構(gòu),分為 VGG16 和 VGG19,這二者的區(qū)別只在于網(wǎng)路深度不同。VGG 的設(shè)計(jì)思想是增加網(wǎng)絡(luò)深度,改用小尺寸的卷積核。如下圖所示,具體操作為:采用 3 個(gè)3×3 卷積核來(lái)替換 Alex Net 中的 7×7 卷積核,采用 2 個(gè)3×3 卷積核替換5×5卷積核,這樣的設(shè)計(jì)可以在保證具有相同感受野的前提下,增加網(wǎng)絡(luò)深度,提升模型效果,且改用小的3×3 Filters 可減少模型參數(shù)量和運(yùn)算量,可以更好地保留圖像特征信息。具體的改進(jìn)優(yōu)點(diǎn)總結(jié)為以下幾點(diǎn):
(1)采用3×3 小濾波器替換大尺寸卷積核
(2)替換卷積核后,卷積層的感受野相同
(3)每層卷積操作后通過(guò) Re LU 激活函數(shù)和批處理梯度下降訓(xùn)練
(4)驗(yàn)證了增加網(wǎng)絡(luò)深度,可以提升模型性能 雖然,VGG 在 2014 年因其更深的網(wǎng)絡(luò)結(jié)構(gòu)和計(jì)算低復(fù)雜度的優(yōu)勢(shì),使其在圖像分類(lèi)和定位問(wèn)題上取得了很好地成績(jī),但它使用了 1.4 億個(gè)參數(shù),計(jì)算量很大,這是它的不足之處。
4 Goog Le Net
Goog Le Net是由 Google 提出的,獲得了 Image Net 大賽冠軍。其架構(gòu)設(shè)計(jì)的核心是在保證高水準(zhǔn)的精確性 Inception 的目標(biāo)前提下,降低模型的計(jì)算成本。與 VGG 相比,Goog Le Net 是一個(gè)網(wǎng)絡(luò)深度為 22 層的卷積神經(jīng)網(wǎng)絡(luò),它不以傳統(tǒng) CNN 卷積層的串聯(lián)堆疊為架構(gòu)基礎(chǔ),而是創(chuàng)新的提出了 Inception 結(jié)構(gòu),用NIN(Networkin-Network)替換普通卷積層。如下圖所示,該結(jié)構(gòu)包含了 5×5 、 3×3 、1×1 濾波器,以便于在不同空間分辨率范圍內(nèi)捕捉通道信息和空間特征,添加一個(gè)1×1濾波器,作為 Bottle Neck ,來(lái)提高網(wǎng)絡(luò)的效率,提升模型學(xué)習(xí)特征的能力。使用平均池化層代替全連接層,將 7×7×1024 的體積降到了 1×1×1024 ,減少了大量的參數(shù)。此外,Goog Le Net 還提出了輔助分類(lèi)器 Soft Max,以加快收斂速度。但 Goog Le Net 也有短板,其表征堵塞會(huì)減少下一層的特征空間,反過(guò)來(lái)又可能會(huì)丟失有用的特征。
5 Res Net
Res Net(Residual Network)殘差網(wǎng)絡(luò)是 Kaiming He提出來(lái)的,并在 2015 ILSVRC 大賽以 3.57%的錯(cuò)誤率獲得了冠軍。在之前的網(wǎng)絡(luò)中,當(dāng)模型深度不夠,其網(wǎng)絡(luò)識(shí)別能力不強(qiáng),但當(dāng)網(wǎng)絡(luò)堆疊(Plain Network)很深的時(shí)候,網(wǎng)絡(luò)梯度消失和梯度彌散現(xiàn)象明顯,導(dǎo)致模型的運(yùn)算效果卻不升反降。因此,鑒于此深層網(wǎng)絡(luò)的退化問(wèn)題,Res Net 設(shè)計(jì)了一個(gè)不存在梯度消失問(wèn)題的超深度網(wǎng)絡(luò)。Res Net 根據(jù)層數(shù)的不同,從 18 層到 1202 層,有多種類(lèi)型。以 Res Net50 為例,它由 49 個(gè)卷積層和 1 個(gè)全連接層組成,如下圖所示。這種簡(jiǎn)單的加法并不會(huì)給網(wǎng)絡(luò)增加額外的參數(shù)和計(jì)算量,同時(shí)卻可以大大增加模型的訓(xùn)練速度、提高訓(xùn)練效果,并且當(dāng)模型的層數(shù)加深時(shí),這個(gè)簡(jiǎn)單的結(jié)構(gòu)能夠很好的解決退化問(wèn)題。Res Net 提出了短徑連接,當(dāng)網(wǎng)絡(luò)性能已達(dá)到最優(yōu),繼續(xù)加深網(wǎng)絡(luò),殘差映射將被設(shè)置為 0,只剩下恒等映射,加速網(wǎng)絡(luò)收斂,這樣就可以使得網(wǎng)絡(luò)一直處于最優(yōu)狀態(tài)了,網(wǎng)絡(luò)的性能也就不會(huì)隨著深度增加而降低了。
審核編輯 :李倩
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4749瀏覽量
100434 -
圖像分類(lèi)
+關(guān)注
關(guān)注
0文章
89瀏覽量
11898 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5471瀏覽量
120904
原文標(biāo)題:圖像分類(lèi)模型的發(fā)展
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論