史珊珊,史鶴歡
(1.西安航空學(xué)院電子工程學(xué)院,西安 710077;2.空軍工程大學(xué)航空航天工程學(xué)院,西安 710038)
對(duì)圖像中目標(biāo)的精確和魯棒識(shí)別是圖像處理與模式識(shí)別領(lǐng)域的重要內(nèi)容,在環(huán)境監(jiān)測(cè)、戰(zhàn)場(chǎng)偵察、精確打擊等方面有著重要的作用和廣泛的前景。近年來,隨著機(jī)器學(xué)習(xí)的蓬勃發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在模式識(shí)別領(lǐng)域取得了非常好的效果,受到了學(xué)術(shù)界、工業(yè)界及軍事界的廣泛重視。
對(duì)飛機(jī)目標(biāo)的準(zhǔn)確識(shí)別,在精確打擊、高空或地面?zhèn)刹椤?zhàn)場(chǎng)態(tài)勢(shì)的掌握、作戰(zhàn)戰(zhàn)術(shù)戰(zhàn)法的制定等方面具有重要的意義,但飛機(jī)因姿態(tài)多樣、數(shù)據(jù)背景復(fù)雜,且同類型飛機(jī)涂層多變、改進(jìn)版本多,掛載武器的多少,以及數(shù)據(jù)采集中可能引入運(yùn)動(dòng)模糊和噪聲等,導(dǎo)致飛機(jī)目標(biāo)識(shí)別難度非常大?,F(xiàn)有飛機(jī)識(shí)別算法按特征主要分為不變矩、邊緣特征、對(duì)稱性、小波特征、核方法[1]等;按識(shí)別原理主要分為神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、目標(biāo)匹配等算法[2]。文獻(xiàn)[3]采用優(yōu)化組合矩特征對(duì)飛機(jī)目標(biāo)進(jìn)行識(shí)別,在多種不變矩中篩選出7 維不變矩作為識(shí)別特征,使用SVM 識(shí)別分類,該方法可以克服單一特征描述信息能力不強(qiáng)的缺陷。文獻(xiàn)[4]采用顯著圖和對(duì)稱性對(duì)飛機(jī)進(jìn)行目標(biāo)識(shí)別,首先提取遙感圖像中的顯著目標(biāo),然后判斷目標(biāo)是否有對(duì)稱性,若有則為目標(biāo),否則為背景,該算法能較快地檢測(cè)識(shí)別圖像中的飛機(jī)目標(biāo)。以上兩個(gè)算法均在飛機(jī)目標(biāo)識(shí)別中取得了不錯(cuò)的效果,特別在簡(jiǎn)單場(chǎng)景中俯視飛機(jī)時(shí)判斷目標(biāo)是否為飛機(jī)取得了很好的效果,而在實(shí)際應(yīng)用中飛機(jī)的姿態(tài)多變、場(chǎng)景復(fù)雜,以上兩種算法的識(shí)別效果比較差,因此,選擇怎樣的算法提取到魯棒的特征并取得較高的識(shí)別率仍是比較困難的。
目標(biāo)的精確識(shí)別因目標(biāo)多變、光照和背景的變化、非剛性形變等因素,使其成為模式識(shí)別的重點(diǎn)和難點(diǎn),解決這個(gè)問題越來越趨向于使用深度學(xué)習(xí)的方法,文獻(xiàn)[5]就采用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的SAR遮擋目標(biāo)的高效魯棒識(shí)別。由多層可訓(xùn)練權(quán)值的網(wǎng)絡(luò)層堆疊而成的多層卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在ImageNet 和NORB 等數(shù)據(jù)庫上取得了非常好的識(shí)別效果[6-9],該算法取得成功的一個(gè)非常關(guān)鍵的因素是使用了卷積。但算法采用監(jiān)督的訓(xùn)練方式,需要大量標(biāo)簽數(shù)據(jù)對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行調(diào)整,當(dāng)數(shù)據(jù)量小時(shí)會(huì)導(dǎo)致網(wǎng)絡(luò)無法充分地訓(xùn)練。目前主流的解決方法是通過非監(jiān)督訓(xùn)練從原始數(shù)據(jù)中學(xué)習(xí)得到網(wǎng)絡(luò)的初始權(quán)值,再利用相對(duì)較少的標(biāo)簽樣本對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練使其達(dá)到最優(yōu)。文獻(xiàn)[10-11]采用稀疏編碼和獨(dú)立成分分析的方法進(jìn)行非監(jiān)督訓(xùn)練,取得了較好的結(jié)果。然而這些算法的網(wǎng)絡(luò)層數(shù)太多,對(duì)數(shù)據(jù)量相對(duì)較少的飛機(jī)目標(biāo)即使使用非監(jiān)督訓(xùn)練也無法使網(wǎng)絡(luò)得到充分訓(xùn)練,因此,選擇和設(shè)計(jì)怎樣的網(wǎng)絡(luò)模型實(shí)現(xiàn)對(duì)飛機(jī)目標(biāo)的準(zhǔn)確識(shí)別需要探索。文獻(xiàn)[12]基于文獻(xiàn)[9]提出了一種基于主成分分析的非監(jiān)督訓(xùn)練網(wǎng)絡(luò),在手寫字符等經(jīng)典的數(shù)據(jù)庫上取得了比較好的效果,但由于主成分分析時(shí)只會(huì)選取主要的幾個(gè)成分,其余成分將被刪除,導(dǎo)致了一定程度的特征損失。文獻(xiàn)[6-12]都采用了一種目前非常流行并且行之有效的方法——卷積,文獻(xiàn)[13]利用該技術(shù)實(shí)現(xiàn)了人臉檢測(cè)、姿勢(shì)以及性別的高效識(shí)別,文獻(xiàn)[14]實(shí)現(xiàn)了對(duì)手寫漢字的離線識(shí)別。
目前對(duì)于飛機(jī)目標(biāo)的識(shí)別只是集中在飛機(jī)目標(biāo)在二維空間(俯視飛機(jī))上的變化,而在三維空間中的相關(guān)工作還屬于空白,而這種變化不僅僅只是維度上的增加,更重要的是對(duì)目標(biāo)識(shí)別模型特征提取的挑戰(zhàn),特別考驗(yàn)?zāi)P蛯?duì)旋轉(zhuǎn)變換的魯棒性。根據(jù)以上分析,本文基于文獻(xiàn)[9]和文獻(xiàn)[12]的思想,提出一種針對(duì)飛機(jī)目標(biāo)的基于卷積自動(dòng)編碼器的目標(biāo)識(shí)別算法。首先利用CAE 非監(jiān)督訓(xùn)練得到卷積濾波器組,與輸入數(shù)據(jù)卷積提取圖像目標(biāo)的卷積特征;接著再次利用CAE 訓(xùn)練卷積濾波器集合,第2次提取卷積特征;然后對(duì)提取到的卷積特征進(jìn)行哈希變換和直方圖統(tǒng)計(jì);最后利用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行識(shí)別分類。
卷積自動(dòng)編碼器[13]是在自動(dòng)編碼器(Auto-Encoder,AE)和噪聲抑制自動(dòng)編碼器(Denoising Auto-Encoder,DAE)的基礎(chǔ)上提出的,三者都基于非監(jiān)督訓(xùn)練提取特征,而AE 和DAE 需要將輸入數(shù)據(jù)按照光柵掃描順序拉成一維向量進(jìn)行處理,必然會(huì)引起圖像二維結(jié)構(gòu)信息的損失,并可能引入冗余。在AE 和DAE 的基礎(chǔ)上,引入CNN 的卷積和下采樣方法,提出CAE,它是一種針對(duì)二位數(shù)據(jù)具有層次結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,與圖像的二維拓?fù)浣Y(jié)構(gòu)恰好吻合,可以將圖像數(shù)據(jù)直接作為CAE 的輸入,避免了圖像重構(gòu)導(dǎo)致二維信息的損失。
CAE 的目的是對(duì)輸入數(shù)據(jù)進(jìn)行卷積的編碼和解碼,通過卷積和下采樣的編碼找出數(shù)據(jù)中局部特征的結(jié)構(gòu)和規(guī)律,通過逆向解碼還原數(shù)據(jù)。如圖1所示CAE 示意圖,包含卷積層、下采樣層、上采樣層、反卷積層。
圖1 卷積自動(dòng)編碼器(CAE)示意圖
式中,*表示二維卷積,bk為編碼階段第k 個(gè)通道的偏置,σ 為非線性函數(shù),采用sigmoid 函數(shù)。
卷積層后是下采樣層,下采樣主要是對(duì)卷積層輸出的特征降維和模糊,二次特征提取,能夠使模型對(duì)輸入數(shù)據(jù)的局部變化有一定的魯棒性,采樣層輸出的特征圖數(shù)目與輸入個(gè)數(shù)相同。目前常見的采樣方式一般有最小值、均值、中值、最大值等。最大值下采樣是把大小為m'×n'塊中的最大值作為下一層的值:
式中,i 表示層數(shù),(x,y)表示下采樣后坐標(biāo),(j,k)表示上一層特征圖被采樣點(diǎn)坐標(biāo),N(x,y)為采樣塊。
最后一層反卷積層為:
CAE 對(duì)原始數(shù)據(jù)編碼再解碼,并不斷學(xué)習(xí)來調(diào)整卷積核W 和偏置b,使式(4)成立。
學(xué)習(xí)主要通過優(yōu)化損失函數(shù),一般采用均方誤差(MSE)作為損失函數(shù),如式(5),通過最小化均方誤差E(θ),使用BP 算法對(duì)網(wǎng)絡(luò)參數(shù)調(diào)整學(xué)習(xí)。
一般的目標(biāo)識(shí)別模型中,特征提取通常由一組或幾組濾波器,一個(gè)非線性變換,和某種特征采樣層組成,對(duì)原始數(shù)據(jù)進(jìn)行特定特征的提取,這種利用層級(jí)的模型對(duì)數(shù)據(jù)的特征提取相當(dāng)于提取物體局部邊緣等基本圖案。濾波器可由人工設(shè)定或通過某種形式的非監(jiān)督訓(xùn)練的方法獲得;非線性操作主要有量化、稀疏化、標(biāo)準(zhǔn)化等;采樣層可由最大值、平均值、灰度直方圖等實(shí)現(xiàn)。根據(jù)這個(gè)思路提出本文特征提取模型。
特征提取模型如圖2 所示,包含3 個(gè)級(jí)聯(lián)階段:第一和第二階段原理和方法一致,利用CAE 從該階段輸入數(shù)據(jù)中學(xué)習(xí)卷積濾波器,與輸入數(shù)據(jù)卷積提取卷積特征,第一階段的輸入為原始數(shù)據(jù),第二階段為第一階段輸出的卷積特征;接著對(duì)特征進(jìn)行哈希變換和直方圖統(tǒng)計(jì)。
圖2 特征提取模型流程圖
哈希變換的作用是非線性變換,使特征數(shù)據(jù)稀疏,并使模型具有非線性泛化能力;直方圖統(tǒng)計(jì)本質(zhì)上是采樣,對(duì)哈希變換后的特征進(jìn)行下采樣,首先得到特征的灰度特性,并且能對(duì)數(shù)據(jù)降維。
不失一般性,特征提取模型按照一般模型的構(gòu)建思路,由兩層卷積層,一層哈希變換和灰度直方圖構(gòu)建,形成了一個(gè)從提取卷積特征,到特征非線性,再到降采樣的完整體系,并通過非監(jiān)督訓(xùn)練來調(diào)節(jié)模型參數(shù),提取魯棒的特征,提供給分類器進(jìn)行分類識(shí)別。
本文仿真實(shí)驗(yàn)使用網(wǎng)絡(luò)上公開的可見光飛機(jī)圖像數(shù)據(jù),由多種型號(hào)、不同場(chǎng)景、不同姿態(tài)的飛機(jī)數(shù)據(jù)組成。實(shí)驗(yàn)選用7 種型號(hào)飛機(jī)目標(biāo)(如圖3),包含5種美制飛機(jī):P8 反潛巡邏機(jī)、P3c 反潛巡邏機(jī)、F15 戰(zhàn)斗機(jī)、F16 戰(zhàn)斗機(jī)、F18 戰(zhàn)斗機(jī),2 種俄制飛機(jī)。2 種俄制飛機(jī)相似,視為一類,故7 種型號(hào)飛機(jī)組成6 類飛機(jī)的數(shù)據(jù)庫,其中訓(xùn)練樣本總數(shù)為7 000 幅,測(cè)試樣本總數(shù)為600 幅。經(jīng)校正調(diào)整使目標(biāo)基本處于圖像的中央位置,并將圖像大小調(diào)整為60×60 的圖像塊。其次為增強(qiáng)網(wǎng)絡(luò)模型對(duì)圖像噪聲和模糊的泛化能力和魯棒性,將原始圖像數(shù)據(jù)進(jìn)行加噪和模糊處理(圖4),對(duì)數(shù)據(jù)庫進(jìn)行擴(kuò)充。實(shí)驗(yàn)環(huán)境為CPU3.1 GHz、內(nèi)存16 G 的計(jì)算機(jī),軟件平臺(tái)為matlab(2010b)。
特征提取模型兩個(gè)卷積階段濾波器大小設(shè)定為k1'×k2',個(gè)數(shù)L1=L2=8,直方圖統(tǒng)計(jì)階段收集圖像塊大小為a×b,CAE 的訓(xùn)練周期為600,下采樣采用最大值下采樣,采樣塊大小為2×2。
圖3 部分飛機(jī)數(shù)據(jù)庫
圖4 數(shù)據(jù)擴(kuò)展
圖5 CAE 非監(jiān)督訓(xùn)練兩個(gè)階段的濾波器組(歸一化)
圖6 特征提取模型各階段提取的特征(歸一化)
如圖5 和圖6 所示CAE 非監(jiān)督訓(xùn)練所得到的卷積濾波器和單幅圖像識(shí)別所提取的特征,利用CAE 訓(xùn)練的卷積濾波器與原始數(shù)據(jù)卷積提取兩個(gè)階段的特征,圖5 中雖然無法從直觀上得到濾波器的規(guī)律,但從圖6 可以看出,卷積所提取的特征為圖像目標(biāo)的邊緣結(jié)構(gòu)特征信息,并且在每一個(gè)階段中的8 個(gè)濾波器所提取出目標(biāo)的邊緣結(jié)構(gòu)特征信息是不同的,這些卷積特征能夠從不同的角度描述原始輸入圖像,并且能很好地減弱背景對(duì)特征提取的影響。接著對(duì)卷積特征進(jìn)行哈希變換和直方圖統(tǒng)計(jì),這樣相當(dāng)于CNN 的非線性和下采樣,使提取到的特征對(duì)平移、旋轉(zhuǎn)或局部形變有一定魯棒性。
利用SVM 進(jìn)行目標(biāo)分類識(shí)別測(cè)試,對(duì)所提取特征的魯棒性作進(jìn)一步的測(cè)試。結(jié)果如表1,對(duì)比算法為Softmax、SVM、5 層CNN 和DBN。
表1 目標(biāo)識(shí)別測(cè)試結(jié)果對(duì)比
模型參數(shù)包含濾波器尺寸k1'×k2',直方圖統(tǒng)計(jì)階段圖像塊大小a×b,以及模型卷積層個(gè)數(shù),濾波器個(gè)數(shù)L1=L2=8。識(shí)別率與參數(shù)的關(guān)系如表2 所示。
表2 模型不同參數(shù)下的識(shí)別結(jié)果
表1 中,本文模型優(yōu)于經(jīng)典的機(jī)器學(xué)習(xí)算法,本文方法屬于深度學(xué)習(xí),因此,較淺層學(xué)習(xí)的SVM和Softmax 對(duì)復(fù)雜的飛機(jī)目標(biāo)效果好;而本文識(shí)別方法最后所采用的分類器是SVM,從這一點(diǎn)也可以說明特征提取模型的優(yōu)勢(shì);較相同層數(shù)的CNN 和DBN 識(shí)別率高,雖然兩者都是深度學(xué)習(xí)模型,但DBN 需要將二維圖像數(shù)據(jù)拉成列向量,使圖像的二維結(jié)構(gòu)信息損失,5 層的CNN 較本文方法的模型參數(shù)少,因此,本文方法的非線性能力較強(qiáng),對(duì)MNIST手寫字符數(shù)據(jù)庫兩者取得的效果相當(dāng),但對(duì)于相對(duì)比較復(fù)雜的飛機(jī)目標(biāo)就顯現(xiàn)出差距。
本文模型隨著參數(shù)的改變會(huì)對(duì)目標(biāo)識(shí)別結(jié)果有一定的影響,通過不斷調(diào)整參數(shù)并經(jīng)過大量實(shí)驗(yàn)得到表2,直接體現(xiàn)了模型在不同參數(shù)下對(duì)飛機(jī)目標(biāo)的識(shí)別效果,表中結(jié)果表明模型在卷積層數(shù)為兩層,濾波器尺寸為7×7,直方圖統(tǒng)計(jì)階段圖像塊大小為11×11 時(shí)取得最高的識(shí)別率91.67 %,并且在表中以91.67 %識(shí)別率為中心,改變層數(shù)、卷積核大小以及直方圖統(tǒng)計(jì)圖像塊大小,識(shí)別都呈現(xiàn)下降趨勢(shì)。
對(duì)于特征提取模型,2 層較1 層卷積能夠取得最好的效果,1 層卷積提取的特征較原始數(shù)據(jù)輸入SVM 的識(shí)別效果差,可進(jìn)一步推斷利用卷積能夠提取魯棒的目標(biāo)特征,并且2 層比1 層更能提取和表征原始目標(biāo)特征,并有助于提高目標(biāo)識(shí)別率。
經(jīng)統(tǒng)計(jì),本文模型對(duì)大小為60×60 的單幅灰度圖像識(shí)別平均耗時(shí)0.09 s,因此,模型實(shí)時(shí)性較好。
圖3 所示部分飛機(jī)數(shù)據(jù),包含同種機(jī)型的不同姿態(tài),及不同場(chǎng)景下的目標(biāo)。對(duì)于神經(jīng)網(wǎng)絡(luò)而言如果在訓(xùn)練數(shù)據(jù)中加入與待測(cè)目標(biāo)類似的目標(biāo)數(shù)據(jù),那么識(shí)別該待測(cè)目標(biāo)的概率會(huì)大大增加,因此,要使同種機(jī)型不同姿態(tài)得到識(shí)別,就盡量使不同姿態(tài)的目標(biāo)得到盡可能多的學(xué)習(xí),在訓(xùn)練數(shù)據(jù)中盡量遍歷所有姿態(tài),進(jìn)而提高模型對(duì)姿態(tài)變化的魯棒性。文中數(shù)據(jù)庫的最大特點(diǎn)就是飛機(jī)姿態(tài)的三維空間變化,因此,可以識(shí)別率結(jié)果直接體現(xiàn)了模型對(duì)飛機(jī)姿態(tài)變化的魯棒性。
本文提出基于CAE 的目標(biāo)識(shí)別模型,該模型首先利用CAE 在原始數(shù)據(jù)中學(xué)習(xí)卷積濾波器集合,利用濾波器提取卷積特征,得到表征原始數(shù)據(jù)不同細(xì)節(jié)信息的特征圖;經(jīng)過兩層卷積特征提取后對(duì)特征進(jìn)行哈希變換,接著對(duì)哈希變換后的特征進(jìn)行直方圖統(tǒng)計(jì)。將模型提取到的特征輸入到SVM 中進(jìn)行識(shí)別測(cè)試,結(jié)果表明模型提取的特征具有一定的魯棒性,相對(duì)于經(jīng)典的目標(biāo)識(shí)別算法,對(duì)三維空間中飛機(jī)姿態(tài)變換方面表現(xiàn)的特征提取取得了較好的效果,對(duì)飛機(jī)目標(biāo)表現(xiàn)出出色的識(shí)別效果。