宋中山,梁家銳,鄭 祿*,劉振宇,帖 軍
(1.中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074;2.湖北省制造企業(yè)智能管理工程技術(shù)研究中心(中南民族大學(xué)),武漢 430074;3.中南民族大學(xué)資源與環(huán)境學(xué)院,武漢 430074)
(*通信作者電子郵箱lu2008@mail.scuec.edu.cn)
遙感場(chǎng)景分類是航空和衛(wèi)星圖像分析領(lǐng)域的一個(gè)活躍的研究課題,它根據(jù)圖像內(nèi)容將場(chǎng)景圖像劃分為不同的類別。由于遙感圖像場(chǎng)景的地物類型較為復(fù)雜,因此對(duì)其精確分類是一項(xiàng)艱巨的任務(wù)[1-2]。
遙感場(chǎng)景分類的早期研究主要是基于手工制作的特征,利用手工提取后的特征對(duì)其進(jìn)行分類。如Swain 等[3]提出的顏色直方圖和Lowe[4]提出的尺度不變特征變換(Scale Invariant Feature Transform,SIFT)等分別利用了圖像的顏色特征以及形狀特征。為了彌補(bǔ)手工制作特征的局限性,通過從圖像中學(xué)習(xí)特征而不是依靠手動(dòng)設(shè)計(jì)的特征,如Hotelling[5]提出了主成分分析(Principal Component Analysis,PCA),Olshausen 等[6]提出了K-均值聚類、稀疏編碼方法,能在降低手工設(shè)計(jì)特征成本的同時(shí)更精準(zhǔn)地對(duì)圖像進(jìn)行分類。而在深度卷積神經(jīng)網(wǎng)絡(luò)上,從Hinton 等[7]在深度特征學(xué)習(xí)方面取得了突破,以及Krizhecsky 等[8]提出的AlexNet的巨大成功開始,研究工作相繼在卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)模型上有進(jìn)一步的發(fā)展,如Simonyan 等[9]提 出 的VGGNet,Szegedy 等[10]提出的GoogleNet。在優(yōu)化深層次神經(jīng)網(wǎng)絡(luò)提高可訓(xùn)練以及訓(xùn)練的速度上,He等[11]提出了ResNet殘差網(wǎng)絡(luò)和Cheng 等[12]提出了DenseNet,解決了深層網(wǎng)絡(luò)訓(xùn)練難和訓(xùn)練慢的問題。近來研究已經(jīng)開始利用這些功能強(qiáng)大的CNN 來對(duì)遙感場(chǎng)景進(jìn)行分類。如Liang[13]采用轉(zhuǎn)移學(xué)習(xí)的方法來微調(diào)現(xiàn)有的CNN 用于遙感場(chǎng)景分類;王鑫等[14]利用CNN結(jié)合多核學(xué)習(xí)的方法進(jìn)行分類;趙春暉等[15]采用視覺詞袋結(jié)合CNN 的方法進(jìn)行分類;Wang 等[16]利用預(yù)訓(xùn)練的ResNet 的完全連接層來提取遙感場(chǎng)景表示;陳雅瓊等[17]等利用微調(diào)的AlexNet模型對(duì)遙感場(chǎng)景圖像進(jìn)行分類,其結(jié)果表明利用深度學(xué)習(xí)的方法優(yōu)于傳統(tǒng)遙感場(chǎng)景分類方法。但是,在直接利用CNN 最后一層進(jìn)行分類的方法中會(huì)忽略來自CNN 不同層次層的功能。而受到RestNet 以及DenseNet 等多層卷積特征的互補(bǔ)性啟發(fā),研究工作開始利用不同層的特征組合進(jìn)行分類。同時(shí),許多研究[18]也證明了頂部卷積層可以有效地捕獲語義特征,而底部卷積層可以提取外觀特征,為此也有一部分工作通過聚合不同的卷積層特征互補(bǔ)的方式來提高分類的精度。如Wang 等[19]提出了一種遞歸注意網(wǎng)絡(luò)結(jié)構(gòu)來捕獲遙感場(chǎng)景關(guān)鍵區(qū)域的特征;Sun 等[20]提出了一種端到端的門控雙向網(wǎng)絡(luò)(Gated Bidirectional Network,GBNet),以在統(tǒng)一的卷積網(wǎng)絡(luò)中進(jìn)行分層特征聚合和干擾信息消除。
文獻(xiàn)[20]提出的方法局限于網(wǎng)絡(luò)中的卷積特征部分,而且在做底層與頂層特征互補(bǔ)時(shí),在統(tǒng)一特征尺寸的過程中,淺層卷積特征的信息丟失過多。而淺層卷積特征是遙感場(chǎng)景外觀特征較豐富的一部分,若能充分利用淺層的外觀特征信息,對(duì)于解決遙感圖像數(shù)據(jù)集存在的紋理、形狀和顏色上存在較大差別,以及因拍攝高度和角度不同存在的尺度差異導(dǎo)致的模型分類精度不高的問題,提高遙感場(chǎng)景分類精度會(huì)有一定的促進(jìn)作用。
為此,本文提出了一種端到端的,利用主動(dòng)旋轉(zhuǎn)聚合來融合不同尺度特征,并通過雙向門控提高淺層特征與頂層特征互補(bǔ)性的特征融合補(bǔ)償卷積神經(jīng)網(wǎng)絡(luò)(Feature Aggregation Compensation CNN,F(xiàn)AC-CNN),以在進(jìn)行分層特征聚合時(shí)減少淺層卷積特征信息的丟失,提高網(wǎng)絡(luò)捕獲不同旋轉(zhuǎn)信息以及尺度信息的能力,從而提升模型的泛化能力。
由于遙感影像的獲取時(shí)間、位置的不同,導(dǎo)致對(duì)同一類場(chǎng)景的獲取時(shí)存在因?yàn)榉较虿灰恢露a(chǎn)生的紋理不一致、形狀大小有明顯的差異;同時(shí)也因?yàn)楣庹盏拳h(huán)境因素的影響使得同一類別的地物類型顏色差異大。如圖1 所示為同一類別的地物類型遙感圖像在紋理、形狀和顏色上存在的差別。
圖1 同類圖像的類內(nèi)差異示例Fig.1 Examples of intra-class differences of similar images
拍攝是在不同高度、多個(gè)角度和多個(gè)方向拍攝的,也會(huì)導(dǎo)致獲取到的圖像有著尺度上差異,如圖2所示。
經(jīng)典和有效的特征聚合操作可以分為兩類:級(jí)聯(lián)聚合和算術(shù)聚合。級(jí)聯(lián)聚合是指在特征通道上堆疊卷積特征圖,如圖3 所示;算術(shù)聚合是指在相同的空間位置和通道上進(jìn)行卷積特征的和、乘或平均等運(yùn)算,如圖4 所示。其中圖3 與圖4的feature1、feature2 和feature3 為待聚合特征,feature4 為聚合后的特征。
圖3 級(jí)聯(lián)聚合示意圖Fig.3 Schematic diagram of cascade aggregation
圖4 算術(shù)聚合示意圖Fig.4 Schematic diagram of arithmetic aggregation
1)級(jí)聯(lián)聚合。
由于CNN 的固有層次結(jié)構(gòu),不同的卷積特征xi可以串聯(lián)以生成具有豐富特征的。在進(jìn)行級(jí)聯(lián)聚合操作之前,為了通過堆疊卷積特征圖來實(shí)現(xiàn)聚合,需要將要聚合的所有卷積特征調(diào)整為相同大?。跦,W],由于是堆疊方式的聚合所以通道數(shù)C可以是任意的。級(jí)聯(lián)聚合可以表示為:
2)算術(shù)聚合。
遙感場(chǎng)景分類可以理解為通過提取場(chǎng)景特征,再以不同的特征區(qū)分為不同的類別的過程。本文以VGG-16 作為特征提取器,根據(jù)文獻(xiàn)[20]所做先驗(yàn)工作,選取conv3-3、conv5-1和conv5-3作為頂層高級(jí)語義特征組合,以用作特征互補(bǔ)。同時(shí),通過定量分析方法(本文以conv3-3 之前的卷積特征做定量分析),在淺層卷積特征中選取3 個(gè)卷積特征層進(jìn)行聚合提取淺層的外觀卷積特征,并將提取到的高級(jí)語義特征、外觀卷積特征與全局特征合并。最終通過sofmax 層進(jìn)行場(chǎng)景分類。模型結(jié)構(gòu)如圖5 所示,左框部分為淺層特征編碼提取淺層外觀卷積特征,右邊點(diǎn)虛線框部分為密集連接提取高級(jí)語義特征,實(shí)線框部分為門控連接,促進(jìn)兩個(gè)卷積特征的互補(bǔ)性,其中conv3-1 為多尺度特征融合后得到的特征圖,圖5 中省略了多尺度特征提取部分的另兩個(gè)分支結(jié)構(gòu),最后的1×1×C中的C為分類的類別數(shù)。
圖5 FAC-CNN模型結(jié)構(gòu)Fig.5 FAC-CNN model structure
針對(duì)遙感圖像由于拍攝的位置和方向不同產(chǎn)生的形狀紋理差別較大的問題,本文提出了一種主動(dòng)旋轉(zhuǎn)特征融合的方式,通過主動(dòng)旋轉(zhuǎn)后結(jié)合級(jí)聯(lián)聚合的方式來使融合后的特征圖包含不同的方向信息,以使模型擁有對(duì)從未見過的旋轉(zhuǎn)樣本的泛化能力。
通過數(shù)據(jù)增強(qiáng)的方式(如旋轉(zhuǎn))擴(kuò)充數(shù)據(jù)集可以使模型具備獲得全局或局部旋轉(zhuǎn)的捕獲能力,同樣,通過主動(dòng)旋轉(zhuǎn)的聚合方式可以在未進(jìn)行數(shù)據(jù)增強(qiáng)的情況下有效地捕獲旋轉(zhuǎn)信息。如圖6 所示,將特征圖旋轉(zhuǎn)不同的角度后進(jìn)行級(jí)聯(lián)聚合使不同的維度上保留了方向信息,增強(qiáng)特征圖的淺層特征表達(dá)能力。聚合特征由每個(gè)卷積特征xi經(jīng)過主動(dòng)旋轉(zhuǎn)后串聯(lián)生成。主動(dòng)旋轉(zhuǎn)聚合可表示為:
圖6 主動(dòng)旋轉(zhuǎn)變換示例Fig.6 Active rotation transformation example
圖7(a)可視化展示了淺層外觀卷積特征提取融合得到的特征圖,圖7(b)展示了未改進(jìn)前VGG 的底層特征圖,可以發(fā)現(xiàn)融合后的特征能有效地捕獲到圖像的結(jié)構(gòu)特征并具有方向性。
圖7 淺層卷積特征可視化Fig.7 Visualization of shallow convolution features
針對(duì)遙感圖像由于拍攝高度和角度的不同存在的尺度差異的問題,與其他方法利用圖像金字塔將不同尺度圖像輸入多個(gè)網(wǎng)絡(luò)后將最后的全連接層特征融合不同的是,本文探討了一種直接通過改進(jìn)的網(wǎng)絡(luò)分支結(jié)構(gòu)形式來提取不同尺度特征方式,以此來提高模型對(duì)不同尺度圖像的識(shí)別能力,如圖8所示。對(duì)于加州大學(xué)默塞德分校(University of California Merced,UC Merced)數(shù)據(jù)集、西北工業(yè)大學(xué)遙感場(chǎng)景分類數(shù)據(jù)集(Northwestern Polytechnical University REmote Sensing Image Scene Classification,NWPU-RESISC)中的原始圖像大小為256×256 像素,采用原圖縮小為224×224 像素后采用拉普拉斯金字塔向上采樣與高斯圖像金字塔向下采樣分別得到448×448 像素和112×112 像素的圖像。對(duì)于航空影像數(shù)據(jù)集(Aerial Image Dataset,AID)以及武漢大學(xué)遙感影像WHURS19(Wuhan University Remote Sensing)圖像數(shù)據(jù)集原始圖像大小為600×600 像素,進(jìn)行等比例縮小至448×448 后采用高斯圖像金字塔進(jìn)行向下采樣得到224×224 和112×112 像素的圖像。將獲取到的不同尺度的圖像輸入到網(wǎng)絡(luò)的不同分支中提取特征,分支網(wǎng)絡(luò)可以提取到網(wǎng)絡(luò)的底層特征所包含豐富的形狀和紋理信息。上部分為大尺度圖像的特征提取網(wǎng)絡(luò),中間部分的為VGG-16的網(wǎng)絡(luò)前5個(gè)卷積層,下部分為小尺度圖像的特征提取網(wǎng)絡(luò),最后通過主動(dòng)旋轉(zhuǎn)融合方式將提取到的不同尺度的特征表示進(jìn)行融合,并作為conv3-2 的特征輸入。
圖8 多尺度特征提取結(jié)構(gòu)Fig.8 Multi-scale feature extraction structure
通過上、中和下三個(gè)分支的卷積池化操作將圖像尺寸改變?yōu)?6×56×256,提取圖像不同尺度下的特征后利用主動(dòng)旋轉(zhuǎn)聚合的方式將不同尺度的特征融合在一起得到淺層特征表達(dá)能力強(qiáng)的特征圖。該特征圖經(jīng)過1×1 卷積改變通道數(shù)為256 后作為conv3-1 繼續(xù)輸入網(wǎng)絡(luò)conv3-2 中進(jìn)一步提取高層次的語義特征,同時(shí)該特征也作為下文中的淺層卷積編碼的一部分加強(qiáng)特征的表達(dá)能力,促進(jìn)模型分類精度的提升。
對(duì)于遙感場(chǎng)景分類,不同層的卷積特征是互補(bǔ)的。有效地利用不同層次卷積特征所包含的空間結(jié)構(gòu)信息,可以提高分類精度。如文獻(xiàn)[21-22]利用淺層的外觀信息與頂層的高級(jí)語義信息來提高分類精度。因此,設(shè)計(jì)特征聚合操作充分利用不同層的輔助信息對(duì)于提高分類精度至關(guān)重要。針對(duì)頂層與底層特征聚合過程中淺層信息丟失過多的問題,本文提出了淺層卷積編碼的方式以提高模型捕獲淺層外觀信息的能力。淺層卷積編碼與傳統(tǒng)的分別編碼各層特征的編碼方法不同,淺層卷積特征編碼同時(shí)將所有中間卷積特征作為輸入以生成卷積表示。首先,通過池化操作將不同卷積特征大小都統(tǒng)一成一個(gè)尺寸。其次,通過1×1 卷積操作將不同通道數(shù)的卷積特征統(tǒng)一成同一通道數(shù),再利用線性整流函數(shù)(Rectified Linear Unit,ReLU)操作增強(qiáng)通道上卷積特征之間的互補(bǔ)性。1×1 卷積后緊跟ReLU 運(yùn)算是一種簡(jiǎn)單有效地增加跨通道特征非線性相互作用的操作[10,23]。最后,利用主動(dòng)旋轉(zhuǎn)聚合的方式將各卷積特征聚合。
通過外觀補(bǔ)償特征選取的定量分析中,得出conv1-2、conv2-2 和conv3-1 的組合對(duì)于各數(shù)據(jù)集的準(zhǔn)確率影響最高。選取的conv1-2、conv2-2、conv3-1 尺寸分別為224×224×64,112×112×128 和56×56×256。conv1-2 經(jīng)過兩步2×2 的最大池化,conv2-2 經(jīng)過一步2×2 的最大池化,conv1-2 與conv2-2 的長(zhǎng)寬都變?yōu)?6×56,再利用主動(dòng)旋轉(zhuǎn)聚合將不同的卷積特征合并,得到56×56×448 的卷積特征,這個(gè)卷積特征再經(jīng)過1×1 的卷積以及ReLU 操作后,將通道數(shù)統(tǒng)一成1 024,以便于與密集連接層提取到的頂層卷積特征進(jìn)行互補(bǔ),并利用4×4 的最大池化操作將卷積特征大小調(diào)整14×14。最終得到編碼好的大小為14×14,通道數(shù)為1 024 的淺層外觀卷積特征。此外,采用L2 歸一化對(duì)通道間的卷積特征進(jìn)行歸一化[24]。因?yàn)椴煌矸e特征的值的大小是完全不同的,L2 歸一化可以有效地避免過擬合問題。通道L2歸一化的公式表示為:
串聯(lián)的層次網(wǎng)絡(luò)在深度增加時(shí),當(dāng)輸入或者梯度的信息通過很多層之后,可能會(huì)出現(xiàn)梯度消失或梯度爆炸。文獻(xiàn)[11-12]通過利用殘差網(wǎng)絡(luò)與密集網(wǎng)絡(luò)等跳躍連接的機(jī)制,很好地解決了此問題;同時(shí),由于不需要重新學(xué)習(xí)冗余特征圖,這種密集連接相較于傳統(tǒng)連接方式只需要更少的參數(shù)也更易于訓(xùn)練。本文的高級(jí)語義特征提取部分基于此思想,在端到端的FAC-CNN 提取頂層高級(jí)語義卷積表示的過程時(shí),采用密集連接機(jī)制,將conv3-3作為conv5-1的輸入,conv3-3和conv5-1 作為conv5-3 的輸入,最后得到的卷積特征表示作為頂層高級(jí)語義卷積特征,如圖9 所示,其中:x1、x2和x3分別對(duì)應(yīng)conv3-3、conv5-1、conv5-3。具體細(xì)節(jié)如下。
圖9 密集連接Fig.9 Dense connection
最終得到的作為頂層高級(jí)語義卷積特征表示,作為最終的場(chǎng)景分類的一部分卷積特征。
通過門控機(jī)制,可以有效地利用淺層外觀卷積特征與頂層高級(jí)語義卷積特征的互補(bǔ)性以提高遙感場(chǎng)景分類的精度。本文采用了文獻(xiàn)[20]中的門控機(jī)制,以更好地提升淺層外觀卷積特征與頂層高級(jí)語義卷積特征的互補(bǔ)性。
利用門控函數(shù)控制淺層外觀卷積特征xs互補(bǔ)信息向傳遞,如圖10所示。
圖10 雙向門控連接Fig.10 Bidirectional gated connection
激勵(lì)門控函數(shù)的結(jié)構(gòu),生成C(C為xs的通道數(shù))維門控向量gs∈R1×C,每個(gè)元素取值{0,1}。xs的第i個(gè)通道乘以gs的第i個(gè)元素,消除干擾信息。將xs饋送到一個(gè)全局平均池化層,生成一個(gè)向量,將這個(gè)1×1×C的向量饋送到一個(gè)與ReLU激活函數(shù)相結(jié)合的全連通層,以及一個(gè)與sigmoid 激活函數(shù)相結(jié)合的全連通層,生成gs。gs可以表示為:
經(jīng)過門控連接獲得淺層卷積特征xs的補(bǔ)償信息后,最終可表示為:
將得到的淺層外觀卷積特征與xs頂層高級(jí)語義卷積特征通過全局平均池化操作,將兩個(gè)特征池化為1×1×1 024的特征向量,合并后與全局特征合并得到1×1×4 096 的特征向量,最后采用線性softmax 分類器進(jìn)行分類。本文的FAC-CNN 采用交叉熵?fù)p失函數(shù)。如下所示:
其中:xcon是淺層外觀卷積特征與高級(jí)語義特征連接后的特征;y是分類場(chǎng)景標(biāo)簽;θ是線性分類器的參數(shù);K是遙感場(chǎng)景類別的數(shù)量;N是訓(xùn)練批次的大小;1{?}是一個(gè)指標(biāo)函數(shù)(如果yn等于j,則1{yn=j}=1;否則1{yn=j}=0)。
本文場(chǎng)景分類方法的總體技術(shù)路線如圖11所示。
圖11 總體技術(shù)路線圖Fig.11 Overall technology roadmap
為驗(yàn)證本文方法有效性,在UC Merced、NWPU-RESISC、AID 和WHU-RS19 四個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。為公平比較,數(shù)據(jù)集的設(shè)置與其他方法一致,選取指定比例的數(shù)據(jù),將一部分作為訓(xùn)練樣本剩余部分作為測(cè)試樣本,UC Merced 采用50%和80%的數(shù)據(jù)作為訓(xùn)練樣本,NWPU-RESISC 采用10%和20%的數(shù)據(jù)作為訓(xùn)練樣本,AID 采用20%和50%的數(shù)據(jù)作為訓(xùn)練樣本,WHU-RS19采用40%和60%的數(shù)據(jù)作為訓(xùn)練樣本。
UC Merced 數(shù)據(jù)集從美國地質(zhì)勘探局(United States Geological Survey,USGS)國家地圖城市地區(qū)圖像集[25]下載。該數(shù)據(jù)集包含21 個(gè)土地使用場(chǎng)景。每個(gè)場(chǎng)景包含100 張圖像,共2 100 張256×256像素,空間分辨率為1ft(1 ft=30.480cm)。圖12給出了部分示例。
圖12 UC Merced數(shù)據(jù)集21類遙感圖像示例Fig.12 Examples of 21 types of remote sensing images in UC Merced dataset
NWPU-RESISC數(shù)據(jù)集[26]是由西北工業(yè)大學(xué)(Northwestern Polytechnical University,NWPU)創(chuàng)建的遙感圖像場(chǎng)景分類(RESISC)的公開基準(zhǔn)。該數(shù)據(jù)集包含31 500 張圖像,涵蓋45個(gè)場(chǎng)景類別,每個(gè)類別700個(gè)圖像。
AID數(shù)據(jù)集是由華中科技大學(xué)和武漢大學(xué)于2017年發(fā)布的遙感數(shù)據(jù)集,它包含30 個(gè)遙感場(chǎng)景類別,每個(gè)類別有220~420張,整體共計(jì)10 000張600×600像素的圖像。
WHU-RS19 數(shù)據(jù)集是由武漢大學(xué)于2011 年發(fā)布的遙感數(shù)據(jù)集,它包含19 個(gè)遙感場(chǎng)景類別,總共有1 005 張,每個(gè)類別至少包含50張600×600像素的圖像。
USGS數(shù)據(jù)集大小為10 000×9 000像素,空間分辨率為2 ft的大幅遙感影像如圖13 所示,主要包含居住區(qū)、農(nóng)場(chǎng)、森林和停車場(chǎng)四個(gè)類別。
圖13 USGS遙感影像Fig.13 USGS remote sensing image
本文提出的FAC-CNN 中端到端訓(xùn)練的詳細(xì)參數(shù)設(shè)置如表1 所示。初始學(xué)習(xí)率設(shè)置為0.001,在經(jīng)過50 個(gè)epoch 后學(xué)習(xí)率除以10,批大小設(shè)置為32,采用隨機(jī)梯度下降算法訓(xùn)練參數(shù)且動(dòng)量設(shè)置為0.9,使用ImageNet 上預(yù)訓(xùn)練的VGG-16 初始化網(wǎng)絡(luò)模型的權(quán)重參數(shù)。分支網(wǎng)絡(luò)權(quán)重初始化采用XAvier初始化。
表1 超參數(shù)設(shè)置Tab.1 Hyperparameter setting
實(shí)驗(yàn)結(jié)果采用平均總體分類準(zhǔn)確率、標(biāo)準(zhǔn)差和混淆矩陣作為分類性能的評(píng)估方法??傮w分類準(zhǔn)確率計(jì)算方法如式(13)所示:
其中:N為測(cè)試樣本的總數(shù);T為各類型分類正確數(shù)的總和。
平均總體分類準(zhǔn)確率和標(biāo)準(zhǔn)差的計(jì)算公式如式(14)~(15)所示:
其中:M為重復(fù)實(shí)驗(yàn)的次數(shù),本文M為10。
混淆矩陣從不同的側(cè)面反映了圖像分類的精度,可以直觀地展示各類型之間的混淆比率。其中行為真實(shí)類型,列為預(yù)測(cè)類型。矩陣的對(duì)角線元素為各類型的分類準(zhǔn)確率,其他任意元素xi,j代表第i類被誤識(shí)為第j類場(chǎng)景占該類型的比率。
分析conv3-3 之前的conv1-1、conv1-2、conv2-1、conv2-2、conv3-1 以及conv3-2 共有6 個(gè)卷積特征,從中選取3 個(gè)特征,共20 種組合。在僅作為特征信息輔助,驗(yàn)證不同組合對(duì)場(chǎng)景分類的結(jié)果影響。在表2 中,展示了對(duì)數(shù)據(jù)集準(zhǔn)確率影響前三的淺層特征組合。
表2 每個(gè)數(shù)據(jù)集準(zhǔn)確率前三的淺層特征組合Tab.2 Top three shallow feature combinations for each dataset in accuracy
從表2可看出:對(duì)于UC Merced數(shù)據(jù)集準(zhǔn)確率影響最高的組合是conv1-2、conv2-2、conv3-1,達(dá)到了97.98%,可以發(fā)現(xiàn)conv2-2 與conv3-1 對(duì)該數(shù)據(jù)集的準(zhǔn)確率影響較高。對(duì)于NWPU-RESISC 數(shù)據(jù)集準(zhǔn)確率影響最高的組合是conv2-1、conv2-2、conv3-2,達(dá)到了93.32%,top3 中有兩個(gè)較高準(zhǔn)確率的組合都包含了conv1-2 與conv3-1。對(duì)于AID 數(shù)據(jù)集準(zhǔn)確率影響最高的組合是conv2-1、conv2-2、conv3-1,達(dá)到了94.05%,對(duì)于WHU-RS19 數(shù)據(jù)集準(zhǔn)確率影響最高的組合是conv1-1、conv2-2、conv3-1,達(dá)到了98.34%。
圖14 展示了卷積特征的不同組合的分類結(jié)果,組合序號(hào)1 表示conv1-1、conv1-2 和conv2-1 的組合;組合序號(hào)2 表示conv1-1、conv1-2 和conv2-2 的組合2;依此類推,組合序號(hào)20表示conv2-2、conv3-1 和conv3-2 的組合。從圖14 中可以看到不同組合對(duì)不同數(shù)據(jù)集的準(zhǔn)確率影響變化情況。根據(jù)實(shí)驗(yàn)結(jié)果提出的模型采用了對(duì)四個(gè)數(shù)據(jù)集都有較高的準(zhǔn)確率提升的conv1-2,conv2-2,conv3-1的組合作為外觀卷積特征。
圖14 卷積特征的不同組合的分類結(jié)果Fig.14 Classification results of different combinations of convolution features
在四個(gè)數(shù)據(jù)集上的結(jié)果表明,本文方法分類準(zhǔn)確率在UCMerced 與WHU-RS19 數(shù)據(jù)集上與最先進(jìn)的ARCNet-VGGNet16 相當(dāng),而在NWPU-RESISC 與AID 數(shù)據(jù)集上則高于其他方法。為進(jìn)一步分析本文方法的性能,在NWPU-RESISC數(shù)據(jù)集上對(duì)組合方式進(jìn)行了消融實(shí)驗(yàn)。在消融實(shí)驗(yàn)中,隨機(jī)選擇每個(gè)遙感場(chǎng)景類別中20%的圖像進(jìn)行訓(xùn)練。
1)只通過淺層特征編碼提取淺層外觀卷積特征,并將該特征與第二個(gè)全局特征(Globle Feature,CF)層合并,特征編碼模塊采用算術(shù)和聚合。
2)只通過淺層特征編碼提取淺層外觀卷積特征,并將該特征與第二個(gè)FC 層合并,特征編碼模塊采用算術(shù)最大值聚合。
3)只通過淺層特征編碼提取淺層外觀卷積特征,并將該特征與第二個(gè)FC層合并,特征編碼模塊采用算術(shù)乘聚合。
4)只通過淺層特征編碼提取淺層外觀卷積特征,并將該特征與第二個(gè)FC層合并,特征編碼模塊采用主動(dòng)旋轉(zhuǎn)聚合。
5)只采用密集連接機(jī)制提取高級(jí)語義卷積特征作為補(bǔ)償信息,并將該特征與第二個(gè)FC合并。
6)只采用特征編碼與密集連接機(jī)制分別提取淺層特征與頂層特征,兩類特征聚合后直接作為分類的特征。
7)只采用特征編碼與密集連接機(jī)制分別提取淺層特征與頂層特征,并通過門控機(jī)制將兩個(gè)卷積特征進(jìn)行互補(bǔ),進(jìn)行合并后得到的特征直接作為分類特征。
8)只采用特征編碼與密集連接機(jī)制分別提取淺層特征與頂層特征,并通過門控機(jī)制將兩個(gè)卷積特征進(jìn)行互補(bǔ),進(jìn)行合并后得到的特征與全局特征合并,再通過softmax進(jìn)行分類。
9)利用圖像金字塔和分支網(wǎng)絡(luò)提取多尺度特征,采用特征編碼與密集連接機(jī)制分別提取淺層特征與頂層特征,并通過門控機(jī)制將兩個(gè)卷積特征進(jìn)行互補(bǔ),進(jìn)行合并后得到的特征與全局特征合并,再通過softmax進(jìn)行分類。
實(shí)驗(yàn)結(jié)果如表3 所示。本文的FAC-CNN 在NWPURESISC 上的準(zhǔn)確率達(dá)到了94.96%。在采用的聚合方法中,采用主動(dòng)旋轉(zhuǎn)聚合的方法準(zhǔn)確率比采用算術(shù)和聚合的方法高0.86 個(gè)百分點(diǎn),比算數(shù)最大值聚合方法高1.63 個(gè)百分點(diǎn),比算數(shù)乘聚合的方法高2.24 個(gè)百分點(diǎn),驗(yàn)證了提出的主動(dòng)旋轉(zhuǎn)聚合的有效性。從表3 可以看出,密集連接相較于只用淺層卷積編碼要高是由于淺層卷積特征作為輔助信息會(huì)對(duì)分類結(jié)果有提升精度的作用,若淺層卷積特征直接作為分類特征,則精度會(huì)比高層語義卷積特征低。門控函數(shù)的引入有效地促進(jìn)了淺層外觀卷積特征與頂層高級(jí)語義卷積特征的互補(bǔ),使精度有一定的提升,而結(jié)合多尺度特征后使模型的準(zhǔn)確度達(dá)到了94.96%。
表3 在NWPU-RESISC數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Tab.3 Ablation experiment results on NWPU-RESISC dataset
在4 個(gè)公共遙感場(chǎng)景數(shù)據(jù)集上,將FAC-CNN 的性能與一些最新方法進(jìn)行了比較,并在USGS 大幅遙感影像上可視化展示了模型的分類結(jié)果。各數(shù)據(jù)集驗(yàn)證集驗(yàn)證過程中的準(zhǔn)確率變化曲線如圖15所示。
圖15 各數(shù)據(jù)集的準(zhǔn)確率變化曲線Fig.15 Accuracy change curve for each dataset
如表4 所示:在80%的訓(xùn)練比率下,本文的FAC-CNN 分類準(zhǔn)確率比AlexNet高4.09個(gè)百分點(diǎn),比VGG-16和ResNet分別高3.88 個(gè)百分點(diǎn)和2.9 個(gè)百分點(diǎn),與已在UC Merced 數(shù)據(jù)集上對(duì)超參數(shù)進(jìn)行了優(yōu)化的基于VGGNet 的注意循環(huán)卷積網(wǎng)絡(luò)(Attention Recurrent Convolutional Network,ARCNet-VGGNet)方法相當(dāng);在50%的訓(xùn)練比率下,優(yōu)于ARCNet-VGGNet與GBNet約1.56個(gè)百分點(diǎn)與1.32個(gè)百分點(diǎn)。
表4 不同方法在UC Mereced數(shù)據(jù)集上的分類準(zhǔn)確率 單位:%Tab.4 Classification accuracies of different methods on UC Mereced dataset unit:%
NWPU-RESISC 數(shù)據(jù)集是一個(gè)新的遙感場(chǎng)景分類公開基準(zhǔn)。此數(shù)據(jù)集包含45類場(chǎng)景,場(chǎng)景非常的復(fù)雜。如表5所示:在20%的訓(xùn)練比率下本文的FAC-CNN 分類準(zhǔn)確率比VGG-16和ResNet 高4.31 個(gè)百分點(diǎn)和3.70 個(gè)百分點(diǎn);比ARCNet-VGGNet16 和GBNet 高2.05 個(gè)百分點(diǎn)和2.69 個(gè)百分點(diǎn);在10%的訓(xùn)練比率下,分別比ARCNet-VGGNet16 和GBNet 高2.43個(gè)百分點(diǎn)和2.71個(gè)百分點(diǎn)。
表5 不同方法在NWPU-RESISC數(shù)據(jù)集上的分類準(zhǔn)確率 單位:%Tab.5 Classification accuracies of different methods on NWPU-RESISC dataset unit:%
如表6 所示:在AID 數(shù)據(jù)集50%的訓(xùn)練比率下本文的FAC-CNN分類準(zhǔn)確率與最新遙感場(chǎng)景分類方法之一ARCNet-VGGNet16 相比高出3.24 個(gè)百分點(diǎn),與GBNet 方法相比高出0.86 個(gè)百分點(diǎn);在20%訓(xùn)練比率下則分別高于這兩個(gè)方法4.14個(gè)百分點(diǎn)和0.69個(gè)百分點(diǎn)。
表6 不同方法在AID數(shù)據(jù)集上的分類準(zhǔn)確率 單位:%Tab.6 Classification accuracies of different methods on AID unit:%
如表7 所示,在WHU-RS19 數(shù)據(jù)集60%的訓(xùn)練比率下本文的FAC-CNN 分類準(zhǔn)確率VGG-16 和RestNet 相比分別高出3.10 個(gè)百分點(diǎn)和2.66 個(gè)百分點(diǎn),但卻略低于ARCNet-VGGNet16與GBNet。
表7 不同方法在WHU-RS19數(shù)據(jù)集上的分類準(zhǔn)確率 單位:%Tab.7 Classification accuracies of different methods on WHU-RS19 dataset unit:%
各數(shù)據(jù)集的混淆矩陣結(jié)果因版面限制,僅展示FAC-CNN在AID 數(shù)據(jù)集50%訓(xùn)練比率下的混淆矩陣。FAC-CNN 在UC Merced 數(shù)據(jù)集80%訓(xùn)練比率下的混淆矩陣平均準(zhǔn)確率為99.09%。FAC-CNN 在NWPU-RESISC 數(shù)據(jù)集20%訓(xùn)練比率下的混淆矩陣平均準(zhǔn)確率為94.96%。FAC-CNN 在AID 數(shù)據(jù)集50%訓(xùn)練比率下的混淆矩陣如圖16 所示,平均準(zhǔn)確率為96.34%。FAC-CNN 在WHU-RS19 數(shù)據(jù)集60%訓(xùn)練比率下的混淆矩陣平均準(zhǔn)確率為99.15%。
圖16 FAC-CNN在AID數(shù)據(jù)集上的訓(xùn)練比率為50%下的混淆矩陣Fig.16 Confusion matrix of FAC-CNN on AID dataset at training ratio of 50%
對(duì)于遙感圖像數(shù)據(jù)集類間主要依靠形狀、紋理和顏色來區(qū)分的圖像,淺層的外觀卷積特征所包含的形狀以及紋理信息往往能輔助模型區(qū)分這些類別。如圖17(a)所示從左到右分別為NWPU-RESISC 數(shù)據(jù)集中的圓形農(nóng)田、矩形農(nóng)田和梯田三個(gè)類別,整體顏色基本都以綠色為主,而其主要區(qū)別就在于形狀紋理的不同。從NWPU 數(shù)據(jù)集的混淆矩陣可以得出,這三個(gè)類別的分類準(zhǔn)確率分別達(dá)到1.0、0.99和0.99,三個(gè)類別的平均識(shí)別準(zhǔn)確率與復(fù)現(xiàn)的ARCNet-VGGNet16 以及GBNet三個(gè)類別識(shí)別準(zhǔn)確率平均值相比分別高出了0.04個(gè)百分點(diǎn)和0.03 個(gè)百分點(diǎn),相較于原始VGG-16 模型提高了0.06個(gè)百分點(diǎn)。如圖17(b)所示為AID數(shù)據(jù)集的沙漠與裸地類別,其中前兩張圖為沙漠而后兩張圖為裸地,沙漠類別呈現(xiàn)出規(guī)則的紋理形狀,而裸地呈現(xiàn)出不規(guī)則的紋理形狀,這也是區(qū)分這兩類的重要特征之一。從文獻(xiàn)[18-19]的實(shí)驗(yàn)結(jié)果中看出沙漠類別較多地被預(yù)測(cè)錯(cuò)誤為裸地,錯(cuò)誤識(shí)別比率達(dá)到0.05。而從圖16 的混淆矩陣可以看出,本文在淺層卷積特征的輔助下沙漠并沒有被錯(cuò)誤地預(yù)測(cè)為裸地,錯(cuò)誤識(shí)別比率為0。
如圖17(c)所示從左到右分別為AID數(shù)據(jù)集中的學(xué)校、旅游勝地和公園三個(gè)類別。在文獻(xiàn)[18-19]與本文的實(shí)驗(yàn)結(jié)果混淆矩陣可以發(fā)現(xiàn),學(xué)校被較多地錯(cuò)誤預(yù)測(cè)為旅游勝地類別,旅游勝地被較多地預(yù)測(cè)錯(cuò)誤為公園類別。在這類無法通過形狀以及紋理等淺層特征去有效區(qū)分的類別上,本文在沒有采用數(shù)據(jù)增強(qiáng),而是通過主動(dòng)旋轉(zhuǎn)融合以及多尺度特征提取來提升模型的泛化能力的情況下,識(shí)別準(zhǔn)確率與ARCNet-VGGNet16和GBNet效果相當(dāng)。
對(duì)于如圖1 所示類別的顏色和形狀紋理本身以及如圖2所示的因?yàn)榕臄z角度、方向或高度不同導(dǎo)致類內(nèi)產(chǎn)生較大差異的遙感影像,F(xiàn)AC-CNN、ARCNet-VGGNet16 和GBNet 在紋理差異較大的UC Merced 數(shù)據(jù)集的農(nóng)田類別中,都達(dá)到了1.0的準(zhǔn)確率,在尺度差異較大的存儲(chǔ)罐中,在尺度特征的輔助下FAC-CNN分類準(zhǔn)確率達(dá)到0.97,相較于ARCNet高了0.02,但略低于GBNet。
USGS大幅遙感影像實(shí)驗(yàn)中,居住區(qū)、農(nóng)場(chǎng)、森林和停車場(chǎng)的四個(gè)場(chǎng)景類別分別包含143、133、100 和139 個(gè)小圖像。從每個(gè)場(chǎng)景類別中隨機(jī)選擇總共50 張圖像作為訓(xùn)練樣本,其余圖像用于測(cè)試。本文將USGS 分割為150×150 像素的簡(jiǎn)單場(chǎng)景圖像,同時(shí)為了能較好保留在大影像在采樣期間丟失的空間信息,將兩個(gè)相鄰分割圖像之間的重疊設(shè)置為25 個(gè)像素。將分割好的影像分別輸入到訓(xùn)練好的4 分類模型中,USGS 最終的分類結(jié)果如圖18 所示。為了定量評(píng)估分類的結(jié)果,將分類結(jié)果與USGS 標(biāo)簽樣本的像素?cái)?shù)量進(jìn)行了對(duì)比,四個(gè)場(chǎng)景的帶標(biāo)簽樣本像素?cái)?shù)量如表8 所示,按最終分類正確的像素?cái)?shù)計(jì)算得到平均分類準(zhǔn)確率為96.28%,主要錯(cuò)誤來源于道路部分不屬于任何一類的影像。
表8 各場(chǎng)景類別中的帶標(biāo)記像素量Tab.8 Number of labeled samples in each scene category
圖18 USGS分類結(jié)果Fig.18 USGS classification result
實(shí)驗(yàn)結(jié)果表明,本文提出的主動(dòng)旋轉(zhuǎn)融合以及多尺度特征可以有效解決遙感影像數(shù)據(jù)集的圖像在形狀、紋理和顏色上存在較大差別,以及因拍攝高度和角度不同存在的尺度差異導(dǎo)致遙感場(chǎng)景分類精度不高的問題。在數(shù)據(jù)量較少的數(shù)據(jù)集情況下,這類特征引入分類網(wǎng)絡(luò)中使模型的分類準(zhǔn)確率與最新的方法之一ARCNet-VGGNet16 以及GBNet 結(jié)果相當(dāng)。在USGS 大幅遙感影像場(chǎng)景分類任務(wù)下,本文方法也取得較好的結(jié)果。
本文提出了一種端到端的基于雙向門控尺度特征融合的分類模型FAC-CNN,該網(wǎng)絡(luò)在VGG-16 卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,通過利用圖像金字塔將輸入圖像變換為不同尺度的圖像并輸入分支網(wǎng)絡(luò)中提取尺度特征,并利用主動(dòng)旋轉(zhuǎn)聚合得到的尺度特征饋入網(wǎng)絡(luò)中。同時(shí),得到的多尺度特征也將作為外觀卷積特征的一部分作用在淺層外觀卷積特征的提取過程中并利用雙向門控來提升淺層外觀卷積特征與高級(jí)語義特征的互補(bǔ)性,最終聚合這兩類特征后利用softmax 分類器完成分類任務(wù)。在5 個(gè)公開數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,對(duì)多尺度特征的提取以及結(jié)合主動(dòng)旋轉(zhuǎn)聚合,可以較好地解決遙感影像數(shù)據(jù)集的圖像在形狀、紋理和顏色上存在較大差別,以及因拍攝高度和角度不同存在的尺度差異導(dǎo)致遙感場(chǎng)景分類精度不高的問題,使模型分類準(zhǔn)確率得到進(jìn)一步提高。