采用優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的紅外目標(biāo)識(shí)別系統(tǒng)
人工智能技術(shù)與咨詢 前天
本文來自《光學(xué)精密工程》,作者劉可佳等
關(guān)注微信公眾號(hào):人工智能技術(shù)與咨詢。了解更多咨詢!
摘要
針對(duì)視頻數(shù)據(jù)利用低效和光測(cè)設(shè)備目標(biāo)識(shí)別能力較弱的問題,提出一種使用海量視頻數(shù)據(jù)建立數(shù)據(jù)庫(kù)進(jìn)而構(gòu)建紅外目標(biāo)識(shí)別系統(tǒng)的方法。首先設(shè)計(jì)快速紅外目標(biāo)檢測(cè)算法,提取目標(biāo)并分類建立數(shù)據(jù)庫(kù);然后結(jié)合特定任務(wù)建立一組較匹配且結(jié)構(gòu)不同的卷積神經(jīng)網(wǎng)絡(luò),并提出基于測(cè)試準(zhǔn)確度均值統(tǒng)計(jì)分析和參數(shù)規(guī)模的選型策略,選出泛化能力較好且結(jié)構(gòu)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)以及適當(dāng)?shù)挠?xùn)練輪數(shù);最后加載優(yōu)選模型及其參數(shù)作為分類器,與檢測(cè)器結(jié)合實(shí)現(xiàn)紅外目標(biāo)特征事件實(shí)時(shí)檢測(cè)分類。仿真結(jié)果表明,目標(biāo)分類準(zhǔn)確率均值可達(dá)95%以上,速率約為50 pixel/s。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)和選型策略有效,構(gòu)建的系統(tǒng)可以滿足紅外目標(biāo)識(shí)別的精度和實(shí)時(shí)性要求。
1 引 言
光電探測(cè)系統(tǒng)是空間目標(biāo)探測(cè)和預(yù)警的重要手段之一,被廣泛應(yīng)用于軍事領(lǐng)域。光電設(shè)備可以部署于陸基、?;?、空基或天基平臺(tái),獲取目標(biāo)在不同空域和時(shí)段的視頻圖像數(shù)據(jù),為決策者提供大量信息。陸基光電探測(cè)系統(tǒng)常采用紅外波段,用于飛行目標(biāo)的探測(cè)與跟蹤,具有探測(cè)距離較遠(yuǎn)、視場(chǎng)和成像較小等特點(diǎn),可以觀測(cè)和記錄目標(biāo)飛行過程中的特征事件或動(dòng)作,一般成像為黑底白像,以視頻或圖像幀方式記錄。
目前視頻數(shù)據(jù)多以磁盤存儲(chǔ),事后多以人工加軟件方式判讀,數(shù)據(jù)利用效率低,長(zhǎng)期積累的海量視頻數(shù)據(jù)信息未被充分挖掘。近年來,深度學(xué)習(xí)技術(shù)在圖像分類研究中取得突破性進(jìn)展[1],利用海量視頻數(shù)據(jù)提高設(shè)備探測(cè)和目標(biāo)識(shí)別性能的研究進(jìn)入了一個(gè)嶄新的階段。卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)[2-3]算法已逐漸代替?zhèn)鹘y(tǒng)人工模型算法成為處理圖像檢測(cè)與識(shí)別問題的主流算法,為復(fù)雜戰(zhàn)場(chǎng)環(huán)境下的軍事目標(biāo)自動(dòng)檢測(cè)、識(shí)別與分析提供了新的技術(shù)途徑。
視頻紅外目標(biāo)在其飛行周期內(nèi)外觀變化較大、成像大小可以從占據(jù)大部分屏幕到點(diǎn)目標(biāo)?;谏疃染矸e神經(jīng)網(wǎng)絡(luò)的視頻目標(biāo)檢測(cè)與識(shí)別方法可以按照是否利用時(shí)序信息分為兩類,一類是基于單幀圖像的算法,僅利用當(dāng)前幀圖像的空間信息完成目標(biāo)檢測(cè)和分類識(shí)別,如經(jīng)典的R-CNN系列[4-5]、SSD系列[6-7]和YOLO系列[8-10]算法等,這類算法研究相對(duì)較為成熟且已有大范圍的落地應(yīng)用,主要針對(duì)多類別目標(biāo)分類的通用場(chǎng)景,對(duì)中等大小目標(biāo)效果很好,模型結(jié)構(gòu)較為復(fù)雜,盡管近年提出許多輕量化的改進(jìn)模型[11-15],但是這些算法對(duì)目標(biāo)變化較大的情形尤其是特定任務(wù)中視場(chǎng)中目標(biāo)外觀很大或很小時(shí)的檢測(cè)識(shí)別能力不足。另一類是基于多幀圖像的視頻行為識(shí)別[16-17]算法,這類算法同時(shí)利用幀序列蘊(yùn)含的空間和時(shí)間信息進(jìn)行目標(biāo)分類識(shí)別,如C3D系列[18-19]、雙流網(wǎng)絡(luò)系列[20-21]、CNN加LSTM系列[22]算法,設(shè)計(jì)同時(shí)提取外觀和運(yùn)動(dòng)特征的模型較為復(fù)雜、對(duì)訓(xùn)練數(shù)據(jù)集的標(biāo)注要求較高,目前在紅外目標(biāo)識(shí)別領(lǐng)域的應(yīng)用處于起步探索階段。
國(guó)內(nèi)應(yīng)用深度學(xué)習(xí)技術(shù)研究和解決軍事圖像分類、高光譜圖像分類、海戰(zhàn)場(chǎng)圖像目標(biāo)識(shí)別、復(fù)雜背景下坦克裝甲目標(biāo)檢測(cè)、飛行器圖像識(shí)別等問題[23-27],并取得了較好的結(jié)果,但在利用海量視頻數(shù)據(jù)建立訓(xùn)練數(shù)據(jù)集、針對(duì)特定任務(wù)的CNN結(jié)構(gòu)選擇與優(yōu)化策略等重要問題上鮮有提及。針對(duì)這些問題,結(jié)合陸基紅外探測(cè)系統(tǒng)成像特點(diǎn),設(shè)計(jì)了一種基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)、快速生成紅外目標(biāo)檢測(cè)識(shí)別系統(tǒng)的構(gòu)建方法,讓實(shí)時(shí)數(shù)據(jù)“開口說話”[28]。
2 系統(tǒng)模型
紅外目標(biāo)識(shí)別系統(tǒng)的設(shè)計(jì)思路是先設(shè)計(jì)快速紅外目標(biāo)檢測(cè)器,從視頻中提取并標(biāo)注目標(biāo)區(qū)域(Region of Interesting,ROI),建立數(shù)據(jù)集并存儲(chǔ)到數(shù)據(jù)庫(kù),然后利用這些標(biāo)注數(shù)據(jù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò);再設(shè)計(jì)基于測(cè)試準(zhǔn)確度和模型復(fù)雜度的模型選擇策略,獲取紅外目標(biāo)分類識(shí)別器,達(dá)到實(shí)時(shí)識(shí)別目標(biāo)特征事件的目的。該框架可以高效、靈活利用源視頻數(shù)據(jù)快速獲取目標(biāo)識(shí)別能力。
圖1是系統(tǒng)框圖,分為建數(shù)據(jù)庫(kù)、訓(xùn)練選型和加載檢測(cè)三部分,分別用綠虛線、藍(lán)實(shí)線和紅虛線表示其流程,實(shí)線方框表示功能模塊,虛線方框表示需要一定程度的人工交互,虛線圓角框表示產(chǎn)生的過程文件,圓柱體表示數(shù)據(jù)庫(kù)(彩圖見期刊電子版)。
圖1紅外視頻處理與紅外目標(biāo)識(shí)別系統(tǒng)框圖
Fig.1Block diagram of infrared video processing and infrared target recognition system
建數(shù)據(jù)庫(kù)包括設(shè)計(jì)檢測(cè)器并從歷史視頻幀中提取目標(biāo)ROI,在人工交互模式下將目標(biāo)的飛行過程劃分為若干特征事件子類,標(biāo)明ROI的子類編號(hào)(例如子類編號(hào)1至3表示起飛、分離、拋整流罩),將ROI及其對(duì)應(yīng)的子類標(biāo)簽作為初始數(shù)據(jù)集以統(tǒng)一文件格式存儲(chǔ)到數(shù)據(jù)庫(kù)。
訓(xùn)練選型是先對(duì)初始數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),得到增強(qiáng)數(shù)據(jù)集,再根據(jù)子類數(shù)目、樣本集規(guī)模和經(jīng)驗(yàn)知識(shí)設(shè)計(jì)一組與特定任務(wù)較匹配的CNN模型,通過選型策略選出較優(yōu)的模型及其參數(shù)。
加載檢測(cè)是加載最優(yōu)模型及其參數(shù)得到分類器,用檢測(cè)器從實(shí)時(shí)紅外視頻幀中逐幀提取ROI送入分類器獲得檢測(cè)結(jié)果,通過人工交互檢驗(yàn)后可提供實(shí)戰(zhàn)信息或充實(shí)數(shù)據(jù)庫(kù)。
下面詳細(xì)敘述檢測(cè)器、建數(shù)據(jù)庫(kù)、訓(xùn)練選型和分類器等主要模塊的實(shí)現(xiàn)過程。
2.1 檢測(cè)器
飛行目標(biāo)溫度一般高于背景溫度,紅外視頻目標(biāo)成像為白色,背景為黑色,因此可以采用形心法和閾值分割方法構(gòu)造檢測(cè)器,快速檢測(cè)和提取目標(biāo)ROI,獲取目標(biāo)ROI圖像集合。
圖2是檢測(cè)器框圖,幀邊緣處理模塊將畫面字幕區(qū)域填充為背景灰度值;中值濾波用于處理壞點(diǎn)和椒鹽噪聲;二值化掩膜可依據(jù)常量門限或自適應(yīng)門限計(jì)算目標(biāo)掩膜,再根據(jù)掩膜計(jì)算目標(biāo)群外接矩形。二值化固定閾值可根據(jù)處理的紅外目標(biāo)灰度值,在[150,180]之間選擇,基于背景分離的自適應(yīng)門限功能作為可選項(xiàng)。為匹配CNN網(wǎng)絡(luò),提取ROI均為正方形,邊長(zhǎng)取ROI外接矩形長(zhǎng)和寬較大者。
圖2檢測(cè)器框圖
Fig.2Block diagram of detector
2.2 數(shù)據(jù)集的建立與存儲(chǔ)
建立數(shù)據(jù)集時(shí)先針對(duì)特定分類任務(wù),人工劃分特征事件段落,將ROI進(jìn)行子類標(biāo)注并以固定格式儲(chǔ)存,再進(jìn)行增強(qiáng)處理得到增強(qiáng)數(shù)據(jù)集,用于訓(xùn)練CNN網(wǎng)絡(luò)。
2.2.1 數(shù)據(jù)分類與標(biāo)注
紅外探測(cè)器視場(chǎng)一般約為1°,目標(biāo)飛行過程中有姿態(tài)變化、分離、釋放誘餌等動(dòng)作,距離較近時(shí)成像多為具有某種特征的灰白色亮斑,形態(tài)緩變或突變;距離較遠(yuǎn)時(shí)多成像為點(diǎn)目標(biāo)。
固定型號(hào)目標(biāo)成像一般不超過20種形態(tài),根據(jù)成像形態(tài)差異和變化規(guī)律將飛行過程劃分為若干特征事件子類,目標(biāo)具有多批次飛行視頻,對(duì)應(yīng)多組ROI樣本集,可分別作為訓(xùn)練和測(cè)試數(shù)據(jù)集。ROI子類標(biāo)注需要人工交互確定子類名稱和剔除過渡樣本,以使子類間具有更好的區(qū)分度。
2.2.2 數(shù)據(jù)增強(qiáng)
如果視頻有限、訓(xùn)練數(shù)據(jù)庫(kù)數(shù)量少、形式單一或子類樣本量不均衡時(shí),可采用數(shù)據(jù)增強(qiáng)技術(shù),通過隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、剪切、亮度調(diào)整、對(duì)比度調(diào)整及其組合方法處理初始數(shù)據(jù)集中的ROI,改善數(shù)據(jù)集。
如劃分6個(gè)子類,建立訓(xùn)練和測(cè)試集,初始樣本數(shù)為1 920,增強(qiáng)擴(kuò)充為12 800,選擇同型號(hào)目標(biāo)另一批次紅外視頻建立測(cè)試數(shù)據(jù)集,因某些目標(biāo)動(dòng)作時(shí)間短、幀數(shù)少,某些狀態(tài)持續(xù)時(shí)間長(zhǎng)、變化慢,只選其子類中具有代表性的195幀并覆蓋所有子類的ROI建立測(cè)試集。
2.2.3 數(shù)據(jù)存儲(chǔ)
實(shí)際問題中的數(shù)據(jù)格式和屬性并不統(tǒng)一,TensorFlow[29]提供了一種統(tǒng)一的TFRecord格式存儲(chǔ)數(shù)據(jù),可以統(tǒng)一不同的原始數(shù)據(jù)格式,并更加有效的管理不同的屬性,可擴(kuò)展性也更好,在存取時(shí)間和空間上效率更高。比如增強(qiáng)數(shù)據(jù)集包括12 800幅灰度圖,大小為27 319 986 Byte,占用空間57 958 400 Byte;對(duì)應(yīng)的帶有標(biāo)簽信息的TFRecord文件大小為14 400 000 Byte,占用空間14 401 536 Byte;后者占用空間更少,訓(xùn)練模型輸入效率更高。
2.3 建立并優(yōu)選卷積神經(jīng)網(wǎng)絡(luò)模型
CNN通常包含一個(gè)標(biāo)準(zhǔn)的疊加卷積層結(jié)構(gòu)(可選擇附加對(duì)比標(biāo)準(zhǔn)化和最大池化功能)后接一個(gè)或多個(gè)全連接層[30],結(jié)構(gòu)復(fù)雜度應(yīng)當(dāng)與需要區(qū)分的類別數(shù)匹配,有助于減少欠擬合或過擬合,因此應(yīng)當(dāng)設(shè)計(jì)CNN模型結(jié)構(gòu)選擇策略,即首先根據(jù)子類數(shù)目和數(shù)據(jù)集規(guī)模設(shè)計(jì)一組較匹配的CNN模型,覆蓋不同卷積層數(shù)和卷積核深度,通過多次訓(xùn)練,取得多組測(cè)試準(zhǔn)確度(Test Accuracy,TA),利用測(cè)試準(zhǔn)確度的統(tǒng)計(jì)分析結(jié)果和模型參數(shù)規(guī)模選出泛化能力較好且結(jié)構(gòu)較簡(jiǎn)單的CNN模型。
根據(jù)MNIST,CIFAR10數(shù)據(jù)集經(jīng)驗(yàn),分類數(shù)較少時(shí),如10個(gè)左右,CNN卷積層2到4層即可達(dá)到滿意效果,這里參照較為簡(jiǎn)單的LeNet-5[31-32]網(wǎng)絡(luò)結(jié)構(gòu)。將CNN模型命名為CnnetNX,其中N表示卷積層數(shù),可選1,2,3,4k,5;X表示首層卷積核深度可選b(4),c(8),d(16),e(32),f(64),之后各層卷積核深度以2為底指數(shù)級(jí)增加。例如Cnnnet3d具有3個(gè)卷積層、首層卷積核深度為16。圖3表示3種CNN結(jié)構(gòu),從Cnnet2e到Cnnet4e網(wǎng)絡(luò)深度逐漸加深,其中卷積層包含了線性整流函數(shù)ReLU(Rectified Linear Unit)。
圖3CNN結(jié)構(gòu)框圖
Fig.3Block diagram of CNN Structure
針對(duì)自建數(shù)據(jù)庫(kù)規(guī)模小、類別少的特點(diǎn),設(shè)計(jì)21種CNN結(jié)構(gòu),如表1所示。表1給出Cnnet5e的核參數(shù)和特征圖尺寸,卷積核的節(jié)點(diǎn)矩陣尺寸即寬、高、通道數(shù)分別用w,h,c表示,卷積核的深度為d,池化層的濾波核大小均為2×2,sn表示卷積步進(jìn)值為n,輸出特征圖的寬、高、通道數(shù)用W,H,C表示。X=d(16),c(8),b(4)的數(shù)據(jù)標(biāo)于括號(hào)中,“√”表示具有該層結(jié)構(gòu),“Flat”表示最后一層池化層輸出的特征圖拉直向量維度,“FullC”表示全連接層,數(shù)值等于輸入圖的拉直向量維數(shù)。cnnet1f未標(biāo)出,其對(duì)應(yīng)的卷積核深度為64,拉直向量維度16 384。表2是21種CNN的參數(shù)數(shù)量,卷積層越多,全連接層參數(shù)占比越低,總參數(shù)越少;卷積核深度越深,總參數(shù)越多。
表121種具有不同卷積層和卷積核深度的CNN結(jié)構(gòu)參數(shù)
Tab.121 kinds of CNN structure parameter with different convolution layer and convolution kernel depth
cnnet |
5e(d,c,b) |
4e(d,c,b) |
3e(d,c,b) |
2e(d,c,b) |
1e(d,c,b) |
|
---|---|---|---|---|---|---|
層名 |
核參數(shù) (w×h×c/d/stride) |
特征圖(W×H×C) (輸入圖32×32×1) |
||||
Conv1 |
5×5×1/32(16,8,4)/s1 |
32×32×32(16,8,4) |
√ |
√ |
√ |
√ |
MaxP1 |
2×2/s2 |
16×16×32(16,8,4) |
√ |
√ |
√ |
√ |
Conv2 |
3×3×32/64(32,16,8)/s1 |
16×16×64(32,16,8) |
√ |
√ |
√ |
? |
MaxP2 |
2×2/s2 |
8×8×64(32,16,8) |
√ |
√ |
√ |
? |
Conv3 |
3×3×64/128(64,32,16)/s1 |
8×8×128(64,32,16) |
√ |
√ |
? | ? |
MaxP3 |
2×2/s2 |
4×4×128(64,32,16) |
√ |
√ |
? | ? |
Conv4 |
3×3×128/256(128,64,32)/s1 |
4×4×256(128,64,32) |
√ |
? | ? | ? |
MaxP4 |
2×2/s2 |
2×2×256(128,64,32) |
√ |
? | ? | ? |
Conv5 |
3×3×256/512(256,128,64)/s1 |
2×2×512(256,128,64) |
? | ? | ? | ? |
MaxP5 |
2×2/s2 |
1×1×512(256,128,64) |
? | ? | ? | ? |
Flat |
? |
512(256,128,64) |
1 024 (512, 256, 128) |
2 048 (1 024, 512, 256) |
4 096 (2 048, 1 024, 512) |
8 192 (4096, 2 048, 1 024) |
FullC1 |
? |
1 024 |
1 024 |
1 024 |
1 024 |
1 024 |
FullC2 |
? |
6 |
6 |
6 |
6 |
6 |
表221種CNN網(wǎng)絡(luò)參數(shù)數(shù)量(括號(hào)中為卷積層參數(shù)/全連接層參數(shù)個(gè)數(shù))
Tab.2Number of 21 CNN network parameters(In parentheses, is the number of convolution layer /full connection layer parameters)
CNN |
1 |
2 |
3 |
4 |
5 |
---|---|---|---|---|---|
b(4) ? c(8) ? d(16) ? e(32) ? f(64) |
1 054 824 (104/1 054 720) 2 103 504 (208/2 103 296) 4 200 864 (416/4 200 448) 8 395 584 (832/8 394 752) 16 785 024 (1 664/16 783 360) |
530 832 (400/530 432) 1 056 096 (1 376/1 054 720) 2 108 352 (5 056/2 103 296) 4 219 776 (19 328/4 200 448) ? |
269 856 (1 568/268 288) 536 448 (6 016/530 432) 1 078 272 (23 552/1 054 720) 2 196 480 (93 184/2 103 296) ? |
143 424 (6 208/137 216) 292 800 (24 512/268 288) 627 840 (97 408/530 432) 1 443 072 (388 352/1 054 720) ? |
96 384 (24 704/71 680) 235 584 (98 368/137 216) 660 864 (392 576/268 288) 2 098 944 (1 568 512/530 432) ? |
2.4 分類器
使用增強(qiáng)數(shù)據(jù)集按預(yù)設(shè)超參數(shù)和優(yōu)化策略訓(xùn)練優(yōu)選的模型,訓(xùn)練結(jié)束后將模型結(jié)構(gòu)、學(xué)習(xí)到的參數(shù)和類別標(biāo)簽以文件形式保存;構(gòu)造分類器時(shí),加載模型、參數(shù)和子類標(biāo)簽文件,獲得分類器函數(shù),該函數(shù)輸入圖片,輸出圖片標(biāo)簽編號(hào)。使用檢測(cè)器檢測(cè)實(shí)時(shí)視頻幀并提取目標(biāo)ROI,逐幀輸入分類器進(jìn)行判斷,輸出該目標(biāo)所屬的子類編號(hào)。
3 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)分圖像增強(qiáng)、模型訓(xùn)練選型和分類性能分析三部分。仿真計(jì)算機(jī)配置為Intel?Core? i7-6700HQ CPU @ 2.60 GHz,仿真軟件采用Anaconda3-5.2.0,Python-3.5.2。CNN網(wǎng)絡(luò)搭建與訓(xùn)練、目標(biāo)檢測(cè)實(shí)現(xiàn)基于TensorFlow框架和python-OpenCV庫(kù)。
3.1 圖像增強(qiáng)及其效果仿真
圖4用網(wǎng)絡(luò)圖片展示增強(qiáng)效果,末行中間是原圖,自上而下為亮度、對(duì)比度、隨機(jī)剪切和旋轉(zhuǎn)四種處理結(jié)果,組合處理樣本更加豐富。
圖4亮度、對(duì)比度、隨機(jī)剪切和旋轉(zhuǎn)處理
Fig.4Brightness, contrast, random cut and rotation processing
如圖5所示,用增強(qiáng)前后的數(shù)據(jù)集分別訓(xùn)練cnnet3e模型各5次,“src”和“aug”分別表示源數(shù)據(jù)集和增強(qiáng)數(shù)據(jù)集訓(xùn)練結(jié)果,測(cè)試準(zhǔn)確度均值(Mean Test Accuracy,MTA)表明,數(shù)據(jù)增強(qiáng)技術(shù)在同等條件下使MTA提高約10%,且標(biāo)準(zhǔn)差更小,幫助模型學(xué)習(xí)到更好更穩(wěn)定的泛化能力。
圖5數(shù)據(jù)增強(qiáng)前后訓(xùn)練cnnet3e網(wǎng)絡(luò)5次TA及MTA曲線
Fig.5Training cnnet3e network TA and MTA for 5 times before and after data enhancement
3.2 訓(xùn)練模型與選型策略實(shí)驗(yàn)
影響CNN模型性能的主要有網(wǎng)絡(luò)結(jié)構(gòu)、超參數(shù)以及損失函數(shù)和優(yōu)化策略等,這里主要研究CNN結(jié)構(gòu)尤其是網(wǎng)絡(luò)深度變化對(duì)訓(xùn)練結(jié)果的影響,進(jìn)而設(shè)計(jì)選型策略。實(shí)驗(yàn)選擇的超參數(shù)有學(xué)習(xí)速率0.000 1、最小批處理數(shù)量50、隨機(jī)失活比例0.5、訓(xùn)練輪數(shù)10 000輪;損失函數(shù)為交叉熵,優(yōu)化采用自適應(yīng)矩估計(jì)方法(adaptive moment estimation,Adam)[29]。
由于對(duì)批處理數(shù)據(jù)進(jìn)行了隨機(jī)擾亂,因此學(xué)習(xí)參數(shù)和測(cè)試準(zhǔn)確度等訓(xùn)練結(jié)果具有隨機(jī)性,而測(cè)試準(zhǔn)確度是反映模型泛化能力的重要指標(biāo),為減少隨機(jī)性干擾,使用增強(qiáng)前后的數(shù)據(jù)集分別對(duì)21種CNN進(jìn)行5次訓(xùn)練,每次訓(xùn)練10 000步,每200步記錄一次測(cè)試準(zhǔn)確度結(jié)果,分別計(jì)算各CNN的5次訓(xùn)練結(jié)果的MTA,如圖6~圖7所示。從MTA變化趨勢(shì)看,前者收斂較快,多數(shù)曲線呈現(xiàn)先升后降趨勢(shì),后者收斂較慢,大部分曲線由升轉(zhuǎn)穩(wěn),且幅度有較大提高;原因是前者樣本少,收斂快,后期出現(xiàn)過擬合,而后者樣本數(shù)量和多樣性都有改善,訓(xùn)練輪數(shù)也比較合適。可見MTA即能反映泛化能力,又能反映擬合狀態(tài),是選擇模型和訓(xùn)練輪數(shù)的重要參考。
圖621種CNN 5次MTA曲線(未增強(qiáng)數(shù)據(jù))
Fig.6MTA of 21 CNN for 5 times with unenhanced data
圖721種CNN5次MTA曲線(增強(qiáng)數(shù)據(jù))
Fig.7MTA of 21 CNN for 5 times with enhanced data
圖8能更清晰地展示這種趨勢(shì),按順序取每5個(gè)相鄰的MTA為一段求均值,得到分段測(cè)試準(zhǔn)確度均值(Partitioned Mean Test Accuracy,PMTA),幅度更穩(wěn)定。
圖821種CNN 5次PMTA曲線
Fig.8PMTA of 21 CNN for 5 times
對(duì)比圖8的(a)和(b),前者5b,1b,2e較高,2d,3b,2b較低,后者1e,2b,2e較高,4e,5c,5d較低。這表明同等條件下增強(qiáng)樣本會(huì)影響訓(xùn)練收斂過程和結(jié)果;前后兩個(gè)2e幅度都較高,但曲線形態(tài)明顯不同,前者先升后降,后者先升后穩(wěn),這說明同等條件下還應(yīng)按數(shù)據(jù)集規(guī)模選擇適當(dāng)?shù)挠?xùn)練輪數(shù),防止欠擬合和過擬合。
基于上述分析,將各CNN中MTA類指標(biāo)和參數(shù)規(guī)模繪制成熱度圖,如圖9所示。優(yōu)選模型主要依據(jù)PMTA和MTA的最大值,以及參數(shù)總數(shù)“total num”,前者反映模型泛化能力,后者表示模型復(fù)雜度,其他指標(biāo)(FMTA表示MTA前5個(gè)最大值的均值,“fclayer num”和“convlayer num”表示全連接層和卷積層參數(shù)量)作參考。首先排除參數(shù)很多(>1 000 000)且MTA類指標(biāo)并未顯著提升者(1b~1f,2c~2e,3d,3e,4e,5e)和參數(shù)雖少但是MTA類指標(biāo)明顯較低者(3b,4c,4d,5c,5d),余下2b,3c,4b和5b(箭頭所示)。其次2b,5b的參數(shù)規(guī)模分別略低于3c,4b但MTA更高,可淘汰后者。最后,余下的網(wǎng)絡(luò)參數(shù)規(guī)模都不大,因此應(yīng)以MTA為主;若MTA相等,根據(jù)奧卡姆剃刀原則,選參數(shù)少者。2b與5b模型相比,各有優(yōu)勢(shì),前者以5倍左右的參數(shù)量,將MTA提高了近1%,在參數(shù)總數(shù)可接受的情況下,可提供更好的模型泛化能力。
圖9基于MTA類指標(biāo)和參數(shù)規(guī)模的選型策略(參數(shù)數(shù)量單位:萬)
Fig.9Selection strategy based on MTA class index and parameter scale (parameter unit: ten thousand)
綜上所述,首先設(shè)計(jì)一組與特定任務(wù)較匹配的CNN,通過多次訓(xùn)練獲得MTA類指標(biāo),繪制MTA類指標(biāo)和參數(shù)規(guī)模熱度圖;再用排除法、對(duì)比法縮小選擇范圍;最后按照簡(jiǎn)單有效原則,可選出潛在的模型復(fù)雜度較低且泛化能力較高的CNN,用于構(gòu)造分類器。
3.3 圖像檢測(cè)實(shí)驗(yàn)
TensorFlow提供多種方法保存和加載(部署)模型[33]。加載Cnnet2b結(jié)構(gòu)、參數(shù)和標(biāo)簽文件,這里構(gòu)造分類器函數(shù)用于仿真,輸入為一幅歸一化為32×32大小的ROI灰度圖,輸出為該圖子類編號(hào)。仿真時(shí)先用檢測(cè)器實(shí)時(shí)提取視頻幀中的目標(biāo)ROI,然后傳入分類器函數(shù)判斷其子類編號(hào),這就構(gòu)成一個(gè)快速目標(biāo)識(shí)別系統(tǒng)。
圖10上中下子圖左側(cè)是對(duì)Cnnet2b進(jìn)行三次訓(xùn)練的訓(xùn)練準(zhǔn)確度(Train Accuracy)和測(cè)試準(zhǔn)確度,訓(xùn)練準(zhǔn)確度在后期基本達(dá)到100%,測(cè)試準(zhǔn)確度分別達(dá)98.46%,94.35%和95.89%;右側(cè)是對(duì)應(yīng)模型的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽比較,可見模型訓(xùn)練結(jié)果具有隨機(jī)性,但是在預(yù)期的范圍。
圖10Cnnet2b模型三次訓(xùn)練和測(cè)試準(zhǔn)確度及其分類結(jié)果
Fig.10Three times training and testing accuracy of cnnet2b model and its classification results
從預(yù)測(cè)結(jié)果看,錯(cuò)誤幀分別為第3,9,7幀,其中分別有第2,6,5幀的錯(cuò)誤發(fā)生在狀態(tài)變換附近,約占68%,因此在選擇訓(xùn)練測(cè)試樣本時(shí),通過減少過渡狀態(tài)的樣本,提高類間區(qū)分度,可進(jìn)一步提高預(yù)測(cè)準(zhǔn)確度。
在采用固定灰度閾值時(shí),視頻檢測(cè)速率可達(dá)1 000 FPS,增加中值濾波和自適應(yīng)灰度閾值功能時(shí)約為100 FPS,分類器運(yùn)算時(shí)間約為100 FPS,檢測(cè)分類總時(shí)間約為50 FPS,達(dá)到實(shí)時(shí)要求。
4 結(jié) 論
為快速利用現(xiàn)有數(shù)據(jù)提升設(shè)備能力,基于海量紅外視頻數(shù)據(jù)和卷積神經(jīng)網(wǎng)絡(luò),分建立數(shù)據(jù)庫(kù)、增強(qiáng)數(shù)據(jù)、選擇CNN訓(xùn)練模型和設(shè)計(jì)檢測(cè)器、分類器等若干步驟,設(shè)計(jì)了一種構(gòu)建實(shí)時(shí)紅外目標(biāo)識(shí)別系統(tǒng)的方法。重點(diǎn)闡述了如何根據(jù)測(cè)試準(zhǔn)確度均值及其分類統(tǒng)計(jì)結(jié)果、參數(shù)規(guī)模等要素選擇適合特定任務(wù)的CNN卷積層層數(shù)和卷積核深度,在模型復(fù)雜度較低時(shí),選出泛化能力較好的模型。實(shí)驗(yàn)結(jié)果表明,特征事件分類準(zhǔn)確度可達(dá)95%,幀率約為50 FPS,選擇CNN結(jié)構(gòu)的策略合理有效,建立的系統(tǒng)模型可達(dá)到紅外目標(biāo)識(shí)別精度和實(shí)時(shí)性要求。
?【轉(zhuǎn)載聲明】轉(zhuǎn)載目的在于傳遞更多信息。如涉及作品版權(quán)和其它問題,請(qǐng)?jiān)?0日內(nèi)與本號(hào)聯(lián)系,我們將在第一時(shí)間刪除
關(guān)注微信公眾號(hào):人工智能技術(shù)與咨詢。了解更多咨詢!
編輯:fqj
評(píng)論
查看更多