鄭 卓,方 芳,劉袁緣,龔 希,郭明強(qiáng),羅忠文
1. 中國(guó)地質(zhì)大學(xué)(武漢)信息工程學(xué)院,湖北 武漢 430074; 2. 武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430079
隨著IKONOS、QuickBird等高分遙感衛(wèi)星的發(fā)射,高分辨率遙感影像比中、低分辨率的影像所包含的信息更加豐富。由于遙感影像場(chǎng)景中地物目標(biāo)具有多樣可變性、分布復(fù)雜性等特點(diǎn),如何有效地對(duì)高分辨率遙感影像場(chǎng)景進(jìn)行識(shí)別和語(yǔ)義提取成為了極具挑戰(zhàn)的課題,已引起遙感學(xué)術(shù)界的廣泛關(guān)注[1]。
為了解決遙感影像場(chǎng)景自動(dòng)識(shí)別的問題,學(xué)者們先后提出了多種分類辦法。文獻(xiàn)[2]利用貝葉斯網(wǎng)絡(luò)集成顏色特征、小波紋理特征和先驗(yàn)語(yǔ)義特征對(duì)室內(nèi)、外場(chǎng)景影像進(jìn)行分類。文獻(xiàn)[3]利用金字塔表達(dá)方法提取底層特征,并利用SVM(support vector machine)和KNN(k-nearest neighbor)完成場(chǎng)分類。文獻(xiàn)[4]提出一種基于詞袋的影像表達(dá)方法SPMK(spatial pyramid matching kernel),在UC Merced(UCM)數(shù)據(jù)集上取得準(zhǔn)確率為74%的識(shí)別結(jié)果。文獻(xiàn)[5]使用視覺詞典,結(jié)合BoVW(bag of visual words),提出了一種空間共線核方法SPCK++,相比BoVW和SPMK精度更高,取得77.38%的準(zhǔn)確率。文獻(xiàn)[6]將概率主題模型LDA(latent dirichlet allocation)用于場(chǎng)景分類,提出了P-LDA和F-LDA,提高了LDA的分類精度。這些傳統(tǒng)分類方法的關(guān)鍵在于分類器和人工特征提取。然而,在遙感場(chǎng)景影像中,復(fù)雜背景和尺度變化使得人工特征提取本身就是一個(gè)難點(diǎn)問題。
近年來,卷積神經(jīng)網(wǎng)絡(luò)CNN(convolutional neural network)作為深度學(xué)習(xí)的一個(gè)模型,在大規(guī)模圖像分類和識(shí)別中已經(jīng)取得了巨大成功[7]。CNN通過卷積層在大規(guī)模訓(xùn)練集中提取圖像的中層特征,并通過反向傳播算法[8]在全連接層中自動(dòng)學(xué)習(xí)圖像的高層特征表達(dá),最后采用Softmax函數(shù)對(duì)目標(biāo)分類。因此相比傳統(tǒng)機(jī)器學(xué)習(xí)方法,CNN具有權(quán)值共享,模型參數(shù)少,自動(dòng)高層特征表達(dá)和易于訓(xùn)練的優(yōu)點(diǎn),已經(jīng)開始應(yīng)用于高分辨率遙感影像識(shí)別領(lǐng)域[9-11]。文獻(xiàn)[9]利用顯著性采樣提取影像顯著信息塊,再利用卷積神經(jīng)網(wǎng)絡(luò)提取高層特征,最后使用SVM進(jìn)行場(chǎng)景分類。文獻(xiàn)[11],利用CaffeNet,在UCM遙感數(shù)據(jù)集上獲得了85.71%識(shí)別準(zhǔn)確率。文獻(xiàn)[11]等討論了在數(shù)據(jù)增強(qiáng)的基礎(chǔ)上,CNN提取特征后直接分類的結(jié)果和在獲得特征后做簡(jiǎn)單融合后的結(jié)果,識(shí)別準(zhǔn)確率分別為90.13%和93.05%。
可見,遙感影像場(chǎng)景分類發(fā)展迅速,由人工提取圖像底、中層特征,再到利用深度學(xué)習(xí)自動(dòng)獲取高層特征,已經(jīng)取得了不錯(cuò)的分類結(jié)果。但是還存在一些難點(diǎn)和問題。一方面,人工提取特征只能解釋一定信息量的數(shù)據(jù),且受到環(huán)境、光照、遮擋等影響,對(duì)于信息量日益豐富的遙感影像數(shù)據(jù)的穩(wěn)健性不高;另一方面,基于CNN的遙感影像場(chǎng)景分類研究中,良好的分類精度往往是依賴于大量的訓(xùn)練數(shù)據(jù),而在小數(shù)據(jù)集上容易出現(xiàn)過擬合問題[12]。
為了解決CNN在有限數(shù)據(jù)集上的訓(xùn)練問題,增強(qiáng)高分遙感影像小數(shù)據(jù)集上的高層特征表達(dá),本文提出基于JMCNN的高分遙感場(chǎng)景分類方法,如圖1所示。每一個(gè)輸入的遙感影像被提取3個(gè)尺度的隨機(jī)子區(qū)域,并傳入多通道卷積特征提取器,其提取得到的特征通過多個(gè)特征融合器進(jìn)行融合,實(shí)現(xiàn)高層特征的聯(lián)合增強(qiáng)表達(dá),最后利用Softmax分類器對(duì)聯(lián)合增強(qiáng)的特征進(jìn)行分類。不同于現(xiàn)有CNN模型,本文提出的端對(duì)端的多尺度聯(lián)合卷積神經(jīng)網(wǎng)絡(luò)模型,可以用更少的訓(xùn)練集實(shí)現(xiàn)高層特征的融合增強(qiáng)表達(dá);其次3個(gè)尺度和通道的多輸入模型,有效地解決了不同分辨率下的復(fù)雜圖像分類,增強(qiáng)了模型的抗差性;第三,通過建立多個(gè)特征融合器對(duì)多通道多尺度特征融合,可實(shí)現(xiàn)高層特征的聯(lián)合增強(qiáng)表達(dá),提高網(wǎng)絡(luò)效率。
圖1 基于JMCNN的高分遙感影像場(chǎng)景分類流程Fig.1 JMCNN framework for high resolution remote sensing image scene classification
圖2 JMCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The network architecture of JMCNN
JMCNN的多通道特征提取器是由3個(gè)單通道子卷積網(wǎng)絡(luò)構(gòu)成。每個(gè)單通道子卷積網(wǎng)絡(luò)包括3個(gè)中間層,每個(gè)中間層分別由卷積層、ReLu[14]激活函數(shù)和極大池化層構(gòu)成,如圖3所示。
單通道子卷積網(wǎng)絡(luò)的特征提取過程如下:
設(shè)輸入影像為X∈Rh×w×c,由寬卷積計(jì)算公式
Yi=F?Xi+b
(1)
其中,h、w、c分別為影像的高、寬、顏色通道總數(shù),F(xiàn)為5×5的卷積核,i為顏色通道號(hào),b為偏置項(xiàng),?代表寬卷積運(yùn)算。由于是寬卷積運(yùn)算,輸出的特征映射Y∈Rh×w×c與X維度相同。然后,通過ReLu函數(shù)激活后和極大池化層計(jì)算特征映射Mk∈Rb×w×c,其輸出特征維度與Y相同,即為所提取的單通道卷積特征矩陣Mk,k表示不同的特征通道。
圖3 單個(gè)子卷積通道特征提取器Fig.3 The single sub-convolutional feature extractor
在JMCNN中,3個(gè)不同尺度的子影像分別通過3個(gè)單通道卷積子網(wǎng)絡(luò),則最終獲得3個(gè)不同尺度的卷積特征矩陣M{M1,M2,M3}。
算法:多尺度特征聯(lián)合。
輸入:多通道特征矩陣Ft1、Ft2、Ft3,特征融合器f。
輸出:高層增強(qiáng)聯(lián)合特征表達(dá)FIN。
(1) 融合Ft1和Ft2,得到TMP=f(Ft1,F(xiàn)t2)。
(2) 融合TEM和Ft3,得到FIN=f(TEM,F(xiàn)t2)。
(3) ReturnFIN。
圖4為單個(gè)特征融合器f的結(jié)構(gòu)圖。特征融合器f的算法過程。假設(shè)任一個(gè)融合器輸入的兩個(gè)特征矩陣為M1、M2∈Rh×w×c,首先將Mk(k=1,2)以行、列、顏色通道的順序展平為特征向量Ki∈R1×(h*w*c),其中*代表數(shù)值乘法,×代表笛卡兒積。然后將特征向量分別進(jìn)入全連接層計(jì)算并使用ReLu[13]激活
Vi=KiW+b
(2)
Ti=ReLu(Vi)
(3)
其中Ti為1024維的特征向量;W∈R(h*w*c)×1024;b為偏置項(xiàng)。T1和T2通過“concat”變換成一個(gè)新的特征向量V3,再將此向量通過一個(gè)全連接層計(jì)算得出最終的高層增強(qiáng)特征表達(dá)。其中,“concat”定義為兩個(gè)特征向量的線性拼接,得到特征向量V3空間維度為V3∈R1×2048。最后,式(3)再對(duì)V3進(jìn)行激活,得到融合的高層特征向量P∈R1×512。
圖4 特征融合器Fig.4 Multi-scale feature fusion
特征融合器f的算法過程如下:
算法:特征融合算法。
輸入:特征矩陣M1、M2,權(quán)重矩陣W1、W2、W3,偏置向量b1、b2、b3。
輸出:融合特征向量P。
(1) 展平兩個(gè)特征矩陣M1、M2,得到Ki=reshape(Mk),(k=1,2)。
(2) 全連接層得到Vi=KiWi+bi。
(3) 激活得到Ti=ReLu(Vi)。
(4) 融合特征向量T1和T2,得到V3=concat(T1,T2)。
(5) 計(jì)算全連接層計(jì)并ReLu激活,得到最終的特征向量P=ReLu(V3W3+b3)。
(6) ReturnP。
此外,為了防止過擬合問題,JMCNN采用一種概率線性融合方式對(duì)兩個(gè)特征進(jìn)行融合。即在訓(xùn)練過程中每個(gè)全連接層后連接了一個(gè)dropout[16]層,即每次隨機(jī)保留一部分神經(jīng)元參與訓(xùn)練。
JMCNN模型采用Softmax分類器,因此本小節(jié)主要闡述模型的損失函數(shù)。JMCNN的損失函數(shù)為交叉熵?fù)p失與正則化項(xiàng)之和,即在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的結(jié)構(gòu)風(fēng)險(xiǎn)。
設(shè)Softmax函數(shù)輸出的向量為Y∈R1×n,Y=(y1,y2,…,yn),式中n為樣本類別數(shù);yi表示向量中第i個(gè)元素的實(shí)數(shù)值。
損失函數(shù)可表示為
(4)
其中,式(4)中前一項(xiàng)是交叉熵?fù)p失函數(shù),后一項(xiàng)是權(quán)值的L2正則項(xiàng);λ為正則項(xiàng)系數(shù),其由各權(quán)值的衰減系數(shù)乘積決定。式(4)引入了正則項(xiàng)的損失函數(shù),其作為損失函數(shù)的一個(gè)懲罰項(xiàng),平衡經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度,能有效防止過擬合現(xiàn)象。
本節(jié)主要描述了基于JMCNN的高分遙感影像場(chǎng)景分類過程。
2.2.1 多通道卷積特征提取
JMCNN由3個(gè)通道的卷積特征提取器組成,每個(gè)特征提取器由3個(gè)卷積層、ReLu激活函數(shù)和池化層構(gòu)成,每個(gè)卷積層的卷積圖個(gè)數(shù)為64。卷積層的卷積核的大小均為5×5,步長(zhǎng)為1,權(quán)重衰弱系數(shù)為0,即卷積層的權(quán)值的L2范數(shù)不加入正則項(xiàng)。池化層的卷積核的大小均為3×3,步長(zhǎng)為2。其中卷積層、池化層中的卷積運(yùn)算均采用寬卷積運(yùn)算。
2.2.2 多尺度特征聯(lián)合
多尺度特征聯(lián)合過程由兩個(gè)特征融合器構(gòu)成。特征融合器中的全連接層的權(quán)值衰減系數(shù)均設(shè)置為0.004,即全連接層的權(quán)值的L2范數(shù)均加入正則項(xiàng)。圖5描述了多尺度特征聯(lián)合中的特征向量融合過程。
圖5 多尺度特征向量融合過程Fig.5 Joint multi-scale feature vectors
如圖5所示,第一個(gè)特征融合器的輸入?yún)?shù)是兩個(gè)不同尺度影像中根據(jù)特征矩陣的稀疏程度提取的特征向量,維度為1024?!癱oncat”后維度為2048,再通過全連接層線性融合后得到特征向量,其輸出維度為512。
第二個(gè)特征融合器的輸入?yún)?shù)分別為卷積特征通道所提取的特征向量(維度為1024)和由第一個(gè)特征融合器融合的512維特征向量,通過“concat”,輸出特征向量維度為1536。接著進(jìn)入全連接層線性融合后得到的特征向量的輸出維度為512。
每個(gè)特征融合器后面加入一個(gè)dropout層,從而在訓(xùn)練過程中可降低全連接層的復(fù)雜度,防止融合得到的特征產(chǎn)生過擬合現(xiàn)象。dropout層會(huì)使得全連接層中的每個(gè)神經(jīng)元以一定的概率“失活”,使得模型復(fù)雜度降低,計(jì)算量減少,模型收斂更快和泛化增強(qiáng)。參考GoogleNet[15],將第一個(gè)特征融合器的保留概率設(shè)置為0.6,第二個(gè)則設(shè)置為0.7。
2.2.3 基于Softmax的高層聯(lián)合特征分類
Softmax分類器用于對(duì)圖7聯(lián)合提取的512維的高層增強(qiáng)特征向量進(jìn)行分類,獲得最終的影像場(chǎng)景類別。
假設(shè),輸出一個(gè)維數(shù)與場(chǎng)景類別數(shù)n相同的一個(gè)向量Y={Yi},其中Yi(i=1,2,…,n)為該場(chǎng)景影像屬于類別i的概率。Softmax采用Yi最大概率判別該場(chǎng)別影像的類別i,如圖6所示。
圖6 Softmax分類Fig.6 Classification using Softmax
為了有效地評(píng)估JMCNN模型在高分遙感影像場(chǎng)景分類,JMCNN在UCM和SIRI[17-19]兩個(gè)高分遙感影像數(shù)據(jù)集上分別進(jìn)行了試驗(yàn)和分析,并與最新方法進(jìn)行對(duì)比。試驗(yàn)均采用5-折交叉驗(yàn)證,試驗(yàn)結(jié)果表明JMCNN可以在小數(shù)據(jù)集上實(shí)現(xiàn)較好的分類結(jié)果。
試驗(yàn)環(huán)境:試驗(yàn)均在載有兩塊NVIDA GeForce GTX1080的顯卡、Inter?coreTMi7-6700K CPU@4.00 GHz、RAM:32.0 GB的工作站上進(jìn)行。本文的JMCNN與所使用的CNN模型均利用試驗(yàn)框架為TensorFlow[20]實(shí)現(xiàn)。
數(shù)據(jù)集:試驗(yàn)所采用的數(shù)據(jù)集為UCM和SIRI高分遙感數(shù)據(jù)集。UCM數(shù)據(jù)集所包含的影像尺寸為256×256,顏色通道為RGB,空間分辨率為0.3 m。該數(shù)據(jù)集影像總計(jì)為2100張,含21個(gè)場(chǎng)景類別,每類100張。類別包括(a)農(nóng)田(b)機(jī)場(chǎng)(c)棒球場(chǎng)(d)沙灘(e)建筑(f)叢林(g)密集住宅區(qū)(h)森林(i)公路(j)高爾夫球場(chǎng)(k)海港(l)十字路口(m)中等住宅區(qū)(n)房車公園(o)天橋(p)停車場(chǎng)(q)河流(r)飛機(jī)跑道(s)稀疏住宅區(qū)(t)儲(chǔ)油罐(u)網(wǎng)球場(chǎng),如圖7所示。
圖7 UCM數(shù)據(jù)集圖例Fig.7 The samples of UCM dataset
SIRI數(shù)據(jù)集為Google Earth上的影像數(shù)據(jù),主要覆蓋我國(guó)的城市及周邊區(qū)域,由文獻(xiàn)[20]的作者整理而成。影像尺寸為200×200,顏色通道為RGB,分辨率為2 m。數(shù)據(jù)集總計(jì)2400張影像,有12類,每類200張。類別分別為(a)農(nóng)田(b)商業(yè)區(qū)(c)港口(d)裸地(e)工業(yè)區(qū)(f)草地(g)交叉路口(h)公園(i)池塘(j)居民區(qū)(k)河流(l)水面,如圖8所示。
試驗(yàn)驗(yàn)證方案:在試驗(yàn)中,均采用5折交叉驗(yàn)證方案,將數(shù)據(jù)集隨機(jī)劃分為5等份,每次利用其中4份作為樣本集,余下1份即為測(cè)試集,輪流5次,取分類精度的平均值。
表1描述了使用不同網(wǎng)絡(luò)結(jié)構(gòu)和特征的場(chǎng)景分類時(shí)間和準(zhǔn)確率的比較。表1第一行中“網(wǎng)絡(luò)”、“Size”、“F”、“Acc”、“Kappa”,分別表示“網(wǎng)絡(luò)結(jié)構(gòu)”、“增強(qiáng)后數(shù)據(jù)集大小”、“單次前向計(jì)算耗時(shí)”、“識(shí)別準(zhǔn)確率”、“Kappa系數(shù)”。
圖8 SIRI數(shù)據(jù)集圖例Fig.8 The samples of SIRI dataset
試驗(yàn)中,CNN(6conv+2fc)代表卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為6個(gè)卷積層(卷積核5×5,步長(zhǎng)為1,卷積核數(shù)量分別為60、50、64、128、256、512)且每個(gè)卷積層后接一個(gè)池化層(卷積核3×3,步長(zhǎng)為2)和2個(gè)全連接層(輸出維度分別為1024、2048)和Softmax分類器。每個(gè)卷積層后均接極大池化層和ReLu激活函數(shù),第一個(gè)全連接層的激活函數(shù)為ReLu。CNN(5conv+2fc)的網(wǎng)絡(luò)結(jié)構(gòu)為5個(gè)卷積層(卷積核參數(shù)設(shè)置不變,卷積核數(shù)量分別為60、50、64、256、512)。
表1結(jié)果顯示,數(shù)據(jù)集大小同為2100張影像時(shí),JMCNN比CNN(6conv+2fc)網(wǎng)絡(luò)精度高出25.03%,該結(jié)果說明在小數(shù)據(jù)集上利用融合后的多尺度特征的分類精度遠(yuǎn)遠(yuǎn)高于單一尺度的特征。同時(shí),JMCNN所用的卷積核數(shù)量遠(yuǎn)小于CNN(6conv+2fc)和CNN(5conv+2fc),時(shí)間效率提高了30%,一次前向計(jì)算時(shí)間減少到145 ms。
表1使用不同網(wǎng)絡(luò)和特征的時(shí)間和精度比較
Tab.1Comparisonoftimeandaccuracyusingdifferentnetworksandfeatures
同時(shí),表1還對(duì)比了數(shù)據(jù)適當(dāng)增廣36倍和240倍后的分類效率和準(zhǔn)確率。試驗(yàn)中所用的數(shù)據(jù)增廣方法為在原影像上隨機(jī)提取出9張影像,再令這9張影像順時(shí)針旋轉(zhuǎn)0°、90°、180°、270°,從而獲得了36倍增廣數(shù)據(jù)集。240倍增廣數(shù)據(jù)是通過先保留圖像的60%、62%、64%、66%、68%、70%得到6個(gè)子影像,再在這6個(gè)子影像上隨機(jī)提取出10張影像,然后按上述方法旋轉(zhuǎn)4個(gè)角度,從而獲得6×10×4=240倍的增廣數(shù)據(jù)集。從試驗(yàn)結(jié)果可見,數(shù)據(jù)集大小為2100×36時(shí),JMCNN相比CNN(5conv+2fc)要高出9.78%,比CNN(6conv+2fc)網(wǎng)絡(luò)要高出3.54%。而在相同網(wǎng)絡(luò)結(jié)構(gòu)之間,通過增強(qiáng)訓(xùn)練數(shù)據(jù),JMCNN精度最大提升了9%,CNN分類精度最大提升了25.06%。數(shù)據(jù)表明,相對(duì)于傳統(tǒng)的CNN網(wǎng)絡(luò),JMCNN對(duì)大數(shù)據(jù)訓(xùn)練的依賴性更小,在小樣本訓(xùn)練的情況下可以獲得較強(qiáng)的高層特征。此外,Kappa系數(shù)的結(jié)果表明,JMCNN具有更好的分類一致性,其泛化能力更強(qiáng)。
圖9為JMCNN在UCM訓(xùn)練數(shù)據(jù)無(wú)增廣時(shí)的分類精度混淆矩陣??梢姡琂MCNN對(duì)大部分場(chǎng)景的分類準(zhǔn)確率高于90%,對(duì)于極個(gè)別(13)中等住宅區(qū)(20)儲(chǔ)油罐分類準(zhǔn)確率低于70%,相比于傳統(tǒng)CNN(6conv+2fc)的分類結(jié)果,JMCNN在(b)機(jī)場(chǎng)(c)棒球場(chǎng)(p)停車場(chǎng)(q)河流等場(chǎng)景類別的識(shí)別準(zhǔn)確率提升顯著,最高提升了28.72%,總體提升了25.03%,可見它對(duì)于尺度變化較大的場(chǎng)景類別識(shí)別更加準(zhǔn)確。
為了進(jìn)一步說明JMCNN在不同數(shù)據(jù)維度下的特征表達(dá)能力,圖10描述了JMCNN和CNN在不同維度的訓(xùn)練樣本數(shù)量下的分類準(zhǔn)確率對(duì)比結(jié)果。圖10表明,隨著數(shù)據(jù)量增加,兩種模型分類準(zhǔn)確率均有提升,精度的變化率隨數(shù)據(jù)量的增大而減小,并逐漸收斂。CNN模型隨著數(shù)據(jù)量的增加,準(zhǔn)確率顯著提升,表明其特征質(zhì)量與訓(xùn)練樣本數(shù)據(jù)量相關(guān)程度較大,模型在數(shù)據(jù)量較小時(shí)特征表達(dá)不充分。JMCNN的識(shí)別準(zhǔn)確率隨數(shù)據(jù)量的增加變化較為平緩,通過多通道多尺度高層特征的聯(lián)合增強(qiáng),能在小樣本數(shù)據(jù)集上訓(xùn)練充分,獲得較高的準(zhǔn)確率。
圖9 JMCNN在UCM數(shù)據(jù)集上的分類混淆矩陣Fig.9 Confusion matrix of JMCNN on the UCM dataset
圖10 JMCNN和CNN在不同數(shù)據(jù)量的識(shí)別準(zhǔn)確率Fig.10 The accuracies comparison on different numbers of training images using JMCNN and CNN
表2顯示了JMCNN與其他方法的對(duì)比結(jié)果。JMCNN和CNN的樣本大小均為2100*0.8張,輸入數(shù)據(jù)為圖像本身,均為高效的端對(duì)端網(wǎng)絡(luò)模型。JMCNN的識(shí)別率高于CNN25.03%。SVM+LDA[21]和SAE[22]均將數(shù)據(jù)增廣了20倍,其識(shí)別率結(jié)果比JMCNN分別低了9.03%和6.58%。MeanStd-SIFT+LDA-H[17]通過多種人工設(shè)計(jì)特征提取融合和聚類的方法,識(shí)別率提高到84.98%,仍低于JMCNN約5%。PSR[20]結(jié)合BOW特征和金字塔空間關(guān)系模型獲得了第二高的識(shí)別率89.0%,然而其模型訓(xùn)練復(fù)雜度高,模型難以泛化使用。RF(Random forest,RF)[23]采用隨機(jī)森林對(duì)SIFT特征進(jìn)行分類,在相同訓(xùn)練集下的識(shí)別率為69.5%。對(duì)比結(jié)果表明,JMCNN通過端對(duì)端訓(xùn)練模式,在不需要任何人工設(shè)計(jì)特征表達(dá)以及數(shù)據(jù)增廣的情況下,識(shí)別率均高于其他方法。
表2 JMCNN與其他方法的識(shí)別率對(duì)比
為了更好地驗(yàn)證本文提出模型的抗差性,JMCNN在SIRI數(shù)據(jù)集(總計(jì)2400張,200*200的影像數(shù)據(jù))上進(jìn)行了試驗(yàn)分析。SIRI數(shù)據(jù)集共有12類,每類200張。
表3描述了本文提出的JMCNN與CNN(6conv+2fc)、6conv+2fc+SVM、SVM-LDA[21]、SPMK[4]、MeanStd-SIFI+LDA-H[16]方法的對(duì)比結(jié)果。JMCNN在無(wú)數(shù)據(jù)增廣的SIRI數(shù)據(jù)集上獲得了88.3%的分類精度,均高于CNN和傳統(tǒng)機(jī)器學(xué)習(xí)方法。CNN(6conv+2fc)和6conv+2fc+SVM均采用6個(gè)卷積層、2個(gè)全連接層提取高層特征,然后分別用Softmax與SVM[25]分類器進(jìn)行分類,其結(jié)果均低于JMCNN的識(shí)別率約20%。同時(shí),相比于LDA-M[21]、SPM-SIFT[4]和MeanStd-SIFI+LDA-H[15]方法的復(fù)雜特征設(shè)計(jì)和提取,JMCNN模型不需要任何人工特征設(shè)計(jì),采用端對(duì)端訓(xùn)練來統(tǒng)一優(yōu)化參數(shù),訓(xùn)練難度大大降低,特征表達(dá)能力更強(qiáng),且分類準(zhǔn)確率更高。Kappa系數(shù)表示,JMCNN與CNN及上述傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,具有更好的分類一致性。
圖11為JMCNN在SIRI數(shù)據(jù)集上分類的混淆矩陣。結(jié)果顯示,JMCNN對(duì)(a)農(nóng)田(b)商業(yè)區(qū)(e)工業(yè)區(qū)(j)居民區(qū)(k)水面等場(chǎng)景類別的識(shí)別準(zhǔn)確率高于95%,對(duì)于極個(gè)別(f)草地的識(shí)別率低于70%,其余大部分在85%左右??梢?,該模型對(duì)于特征復(fù)雜的細(xì)粒度區(qū)域分類結(jié)果較好,而對(duì)于背景特征單一的區(qū)域分類結(jié)果需要進(jìn)一步提升。
表3 不同方法的對(duì)比
試驗(yàn)所用的大幅影像為USGS數(shù)據(jù)庫(kù)中美國(guó)俄亥俄州蒙哥馬利地區(qū)的影像,尺寸為10 000×9000,空間分辨率為0.6 m,如圖12(a)。在場(chǎng)景標(biāo)注試驗(yàn)中,樣本采樣自上述大幅影像,每類樣本包含50張圖像大小為150×150的子影像,人工標(biāo)注為4類,分別為住宅(圖13(a))、耕地(圖13(b))、森林(圖13(a))、停車場(chǎng)(圖13(d))。為了評(píng)估模型精度,樣本以80%、20%的比例分別劃分為訓(xùn)練集和測(cè)試集。
圖11 JMCNN在SIRI上的分類混淆矩陣Fig.11 The confusion matrix of JMCNN on SIRI dataset
在該試驗(yàn)中,使用在UCM數(shù)據(jù)集上預(yù)訓(xùn)練的JMCNN模型并將其在該場(chǎng)景影像訓(xùn)練樣本上微調(diào)。利用微調(diào)后的模型對(duì)整幅影像進(jìn)行預(yù)測(cè),如圖12(b),圖12(d)為某個(gè)預(yù)測(cè)類別為forest的區(qū)域。
通過觀察局部細(xì)節(jié)(圖12(c)),JMCNN在空間分布感知上具有一定優(yōu)勢(shì),能較好地將房屋分布結(jié)構(gòu)識(shí)別出。USGS的場(chǎng)景分類準(zhǔn)確率為98.5%,圖14為場(chǎng)景分類混淆矩陣??梢?,JMCNN在USGS大幅影像上分類同樣具有優(yōu)勢(shì)。
圖12 USGS大幅遙感影像樣本示例及分類結(jié)果Fig.12 The result of classification on USGS large image
圖13 USGS大幅遙感影像樣本示例Fig.13 Examples of USGS large image
圖14 JMCNN在USGS上分類的混淆矩陣Fig.14 The confusion matrix of JMCNN on USGS large image
本文在2400張UCM和2100張SIRI的小數(shù)據(jù)集上進(jìn)行試驗(yàn),分別獲得了89.3%和88.3%的識(shí)別準(zhǔn)確率,均高于其他分類器的識(shí)別結(jié)果。然而,在多類別場(chǎng)景分類中,對(duì)于個(gè)別模糊場(chǎng)景的類別分類效果欠佳。未來,工作將從以下3個(gè)方面進(jìn)行改進(jìn):①優(yōu)化網(wǎng)絡(luò)聯(lián)合部分,使得聯(lián)合特征更具抗差性,以提高JMCNN在模糊類別上的分類精度。②考慮調(diào)整多尺度特征提取器網(wǎng)絡(luò)結(jié)構(gòu),使提取出的多尺度特征更為有效。③引入1×1的卷積層用來減少參數(shù)量,進(jìn)一步提高模型效率。同時(shí)還將探索基于JMCNN在不同視角下的遙感影像地物檢測(cè)。
參考文獻(xiàn):
[1] CHERIYADAT A M. Unsupervised Feature Learning for Aerial Scene Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(1): 439-451.
[2] SERRANO N, SAVAKIS A E, LUO J B. Improved Scene Classification Using Efficient Low-Level Features and Semantic Cues[J]. Pattern Recognition, 2004, 37(9): 1773-1784.
[3] 殷慧, 曹永鋒, 孫洪. 基于多維金字塔表達(dá)和AdaBoost的高分辨率SAR圖像城區(qū)場(chǎng)景分類算法[J]. 自動(dòng)化學(xué)報(bào), 2010, 36(8): 1099-1106.
YIN Hui, CAO Yongfeng, SUN Hong. Urban Scene Classification Based on Multi-dimensional Pyramid Representation and AdaBoost Using High Resolution SAR Images[J]. Acta Automatica Sinica, 2010, 36(8): 1099-1106.
[4] LAZEBNIK S, SCHMID C, PONCE J. Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories[C]∥Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY: IEEE, 2006: 2169-2178.
[5] YANG Yi, NEWSAM S. Spatial Pyramid Co-occurrence for Image Classification[C]∥IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 1465-1472.
[6] ZHAO Bei, ZHONG Yanfei, ZHANG Liangpei. Scene Classification via Latent Dirichlet Allocation Using a Hybrid Generative/Discriminative Strategy for High Spatial Resolution Remote Sensing Imagery[J]. Remote Sensing Letters, 2013, 4(12): 1204-1213.
[7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks[C]∥Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: ACM, 2012: 1097-1105.
[8] HECHT-NIELSEN R. Theory of the Backpropagation Neural Network[C]∥International Joint Conference on Neural Networks. Washington, DC: IEEE, 1989(1): 593-605.
[9] 何小飛, 鄒崢嶸, 陶超, 等. 聯(lián)合顯著性和多層卷積神經(jīng)網(wǎng)絡(luò)的高分影像場(chǎng)景分類[J]. 測(cè)繪學(xué)報(bào), 2016, 45(9): 1073-1080. DOI: 10.11947/j.AGCS.2016.20150612.
HE Xiaofei, ZOU Zhengrong, TAO Chao, et al. Combined Saliency with Multi-Convolutional Neural Network for High Resolution Remote Sensing Scene Classification[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(9): 1073-1080. DOI: 10.11947/j.AGCS.2016.20150612.
[10] CASTELLUCCIO M, POGGI G, SANSONE C, et al. Land Use Classification in Remote Sensing Images by Convolutional Neural Networks[J]. Acta Ecologica Sinica, 2015, 28(2): 627-635.
[11] PENATTI O A B, NOGUEIRA K, SANTOS J A D. Do Deep Features Generalize from Everyday Objects to Remote Sensing and Aerial Scenes Domains?[C]∥IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, MA: IEEE, 2015: 44-51.
[12] 李學(xué)龍, 史建華, 董永生, 等. 場(chǎng)景圖像分類技術(shù)綜述[J]. 中國(guó)科學(xué)(信息科學(xué)), 2015, 45(7): 827-848.
LI Xuelong, SHI Jianhua, DONG Yongsheng, et al. A Survey on Scene Image Classification[J]. Scientia Sinica (Informationis), 2015, 45(7): 827-848.
[13] LI Haoxiang, LIN Zhe, SHEN Xiaohui, et al. A Convolutional Neural Network Cascade for Face Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 5325-5334.
[14] GLOROT X, BORDES A, BENGIO Y. Deep Sparse Rectifier Neural Networks[C]∥Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics. Fort Lauderdale, Florida: HAL, 2011: 315-323.
[15] SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going Deeper with Convolutions[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 1-9.
[16] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[17] ZHAO Bei, ZHONG Yanfei, XIA Guisong, et al. Dirichlet-Derived Multiple Topic Scene Classification Model for High Spatial Resolution Remote Sensing Imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(4): 2108-2123.
[18] ZHAO Bei, ZHONG Yanfei, ZHANG Liangpei, et al. The Fisher Kernel Coding Framework for High Spatial Resolution Scene Classification[J]. Remote Sensing, 2016, 8(2): 157.
[19] ZHU Qiqi, ZHONG Yanfei, ZHAO Bei, et al. Bag-of-Visual-Words Scene Classifier with Local and Global Features for High Spatial Resolution Remote Sensing Imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(6): 747-751.
[20] ABADI M, BARHAM P, CHEN Jianmin, et al. TensorFlow: A System for Large-scale Machine Learning[C]∥Proceedings of the 12th Usenix Conference on Operating Systems Design and Implementation. Berkeley, CA: USENIX Association, 2016.
[21] ZHANG Fan, DU Bo, ZHANG Liangpei. Saliency-Guided Unsupervised Feature Learning for Scene Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(4): 2175-2184.
[22] LIENOU M, MAITRE H, DATCU M. Semantic Annotation of Satellite Images Using Latent Dirichlet Allocation[J]. IEEE Geoscience and Remote Sensing Letters, 2010, 7(1): 28-32.
[23] CHEN Shizhi, TIAN YingLi. Pyramid of Spatial Relations for Scene-level Land Use Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(4): 1947-1957.
[24] BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.
[25] ADANKON M M, CHERIET M. Support Vector Machine[J]. Computer Science, 2002, 1(4): 1-28.