徐從安 呂亞飛 張?bào)汴?劉 瑜 崔晨浩 顧祥岐
①(海軍航空大學(xué)信息融合研究所 煙臺(tái) 264000)
②(清華大學(xué)電子工程系 北京 100084)
③(91977部隊(duì) 北京 100089)
④(61646部隊(duì) 北京 100089)
⑤(32144部隊(duì) 渭南 714000)
隨著衛(wèi)星與無(wú)人機(jī)等遙感觀測(cè)技術(shù)的飛速發(fā)展,高分辨率遙感圖像的數(shù)據(jù)總量和數(shù)據(jù)類型都不斷增加,遙感信息處理正在進(jìn)入“遙感大數(shù)據(jù)時(shí)代”[1]。高分辨率遙感圖像相比于中低分辨率遙感圖像包含著更豐富的紋理、細(xì)節(jié)和地物特征,在為遙感圖像的自動(dòng)解譯工作提供了豐富信息的同時(shí),也提出了更多的挑戰(zhàn)和要求。
作為遙感圖像解譯工作中的重要組成部分,遙感圖像場(chǎng)景分類(Remote Sensing Image Scene Classification, RSISC)是根據(jù)圖像中包含的高層語(yǔ)義信息,將遙感圖像映射到預(yù)定的類別標(biāo)簽中,實(shí)現(xiàn)對(duì)圖像場(chǎng)景內(nèi)容的自動(dòng)判別。根據(jù)特征表示方法的不同,現(xiàn)有的研究方法主要可以分為基于手工特征的方法[2,3]和基于學(xué)習(xí)特征的方法[4,5]。尤其自AlexNet[6]的提出,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)為代表的基于學(xué)習(xí)特征的方法憑借較好的高層語(yǔ)義特征提取能力較大提高了算法的性能表現(xiàn),逐漸取代了基于手工特征的相關(guān)方法。
基于CNNs的網(wǎng)絡(luò)結(jié)構(gòu)在計(jì)算機(jī)視覺(jué)領(lǐng)域不斷提高著分類、識(shí)別等任務(wù)的性能表現(xiàn),但在RSISC中,由于自然場(chǎng)景圖像與遙感圖像在成像內(nèi)容和成像特點(diǎn)上的差異,用于自然場(chǎng)景圖像的深度網(wǎng)絡(luò)結(jié)構(gòu)難以直接適用于RSISC問(wèn)題。這主要是由遙感圖像俯視成像帶來(lái)的成像范圍更廣、尺度變化大和語(yǔ)義內(nèi)容更復(fù)雜等問(wèn)題導(dǎo)致的[7]。成像目標(biāo)的繁雜性和語(yǔ)義內(nèi)容的復(fù)雜性導(dǎo)致遙感圖像場(chǎng)景分類面臨著類內(nèi)差異性大、類間相似性高的難點(diǎn)。為了解決該問(wèn)題,已有較多研究方法提出,文獻(xiàn)[8]提出了鑒別性卷積神經(jīng)網(wǎng)絡(luò) (Discriminative-Convolutional Neural Networks, D-CNN)的網(wǎng)絡(luò)結(jié)構(gòu),將度量學(xué)習(xí)和CNNs相結(jié)合,以拉近同類場(chǎng)景、推遠(yuǎn)異類場(chǎng)景圖像特征表示間的距離,較好地提高了特征表示的鑒別性能力(discriminative ability),但該方法忽略了對(duì)遙感圖像局部特征的關(guān)注;文獻(xiàn)[9]提出了基于區(qū)域的深度特征提取網(wǎng)絡(luò),通過(guò)先檢測(cè)后特征表示的方式,對(duì)圖像中顯著的局部區(qū)域進(jìn)行特征提取,雖然關(guān)注了局部區(qū)域特征,但丟失了全局特征;文獻(xiàn)[10]提出了多尺度CNN結(jié)構(gòu),利用兩個(gè)不同尺度的網(wǎng)絡(luò)結(jié)構(gòu)分別提取圖像的特征表示,以學(xué)習(xí)遙感圖像中的尺度不變性特征;文獻(xiàn)[11]通過(guò)先聚類再重排的方式挑選遙感圖像中重要的局部區(qū)域進(jìn)行特征表示,方法無(wú)法端到端訓(xùn)練,算法復(fù)雜度高;文獻(xiàn)[12]利用注意力機(jī)制通過(guò)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)生成了高層特征圖的重要性權(quán)重,對(duì)高層特征中每一個(gè)元素的重要性進(jìn)行修正,雖然該方法可以端到端訓(xùn)練,但對(duì)每一個(gè)元素的修正沒(méi)有實(shí)現(xiàn)對(duì)局部區(qū)域重要性的修正。文獻(xiàn)[13]中針對(duì)遙感圖像成像范圍廣、語(yǔ)義復(fù)雜的特點(diǎn)提出了適用于遙感圖像特征表示的注意力模塊,在高層特征的基礎(chǔ)上,分別從通道維和空間維兩個(gè)維度對(duì)圖像的特征表示進(jìn)行修正,以使得圖像中顯著區(qū)域和顯著性特征更被關(guān)注,提高特征表示的鑒別性能力,該方法在遙感圖像檢索問(wèn)題上得到了有效性驗(yàn)證。不同于文獻(xiàn)[13]中注意力模塊學(xué)習(xí)的無(wú)先驗(yàn)知識(shí),文獻(xiàn)[14]提出了一種局部和全局特征融合的特征表示方法,利用循環(huán)神經(jīng)網(wǎng)絡(luò)分別讀取和捕獲不同區(qū)域特征表示間的上下文關(guān)系,以生成不同區(qū)域的重要性權(quán)重,實(shí)現(xiàn)對(duì)局部重要區(qū)域的重點(diǎn)關(guān)注,整個(gè)方法可端到端地實(shí)現(xiàn)局部和全局特征的提取與融合訓(xùn)練,在多個(gè)公開數(shù)據(jù)集上達(dá)到了最佳實(shí)現(xiàn)(State-Of-The-Art, SOTA),但該方法只是在空間維對(duì)不同區(qū)域的重要性進(jìn)行了修正,忽略了通道維重要性的作用。
基于以上討論,針對(duì)遙感圖像成像范圍廣、語(yǔ)義信息復(fù)雜的特點(diǎn),而現(xiàn)有的特征表示方法又難以同時(shí)對(duì)遙感圖像中的局部顯著區(qū)域和顯著性特征進(jìn)行關(guān)注并有效地表達(dá),本文提出了一種雙重注意力機(jī)制的遙感圖像場(chǎng)景分類特征表示方法,以CNNs提取的高層特征為先驗(yàn)信息,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)上下文信息的提取能力,分別設(shè)計(jì)了一個(gè)通道維和空間維相結(jié)合的雙重注意力模塊,通過(guò)生成不同通道和不同區(qū)域的重要性權(quán)重,對(duì)原有高層特征表示中顯著性特征和顯著性區(qū)域兩個(gè)維度的特征表示進(jìn)行增強(qiáng),減弱對(duì)非重要區(qū)域(背景區(qū)域)和非顯著性特征的關(guān)注,提高特征表示的鑒別性能力。
卷積神經(jīng)網(wǎng)絡(luò)的強(qiáng)特征表示主要?dú)w因于其對(duì)高層語(yǔ)義特征的提取能力,如圖1所示ResNet50所提取的高層特征(7×7×2048),其3維的特征結(jié)構(gòu)可以分解為空間維(7×7)和特征維(2048)兩個(gè)維度。一方面,空間維(7×7)與輸入圖像(一般為224×224)的空間位置存在著對(duì)應(yīng)關(guān)系,即高層特征空間維中每一個(gè)像素(1×1)對(duì)應(yīng)著輸入圖像中大小為32×32的圖像塊,因此,空間維(7×7)中每一個(gè)像素就可以看作輸入圖像中不同區(qū)域的特征代表;另一方面,卷積神經(jīng)網(wǎng)絡(luò)中不同的卷積層代表著不同的特征,每一層卷積層可能關(guān)注著不同類型的特征,因此,通道維的物理意義可以看作2048中不同類型的特征,對(duì)不同類別的遙感圖像來(lái)說(shuō),決定其身份信息的特征也必定不相同。因此綜上分析,為了進(jìn)一步提高CNNs特征表示的鑒別性能力,需要從空間維和通道維兩個(gè)維度進(jìn)一步對(duì)高層特征進(jìn)行修正,對(duì)重要區(qū)域和特征進(jìn)行增加,非重要區(qū)域和特征進(jìn)行減弱。
以CNNs提取的高層特征為基礎(chǔ),所提的雙重注意力模塊在通道維和空間維進(jìn)一步對(duì)高層特征進(jìn)行再權(quán)重化,方法的框架圖如圖1所示。以Res-Net50為例,以其最后一個(gè)大小為7×7×2048的卷積層為高層特征,依次連接通道維注意力模塊和空間維注意力模塊;通道維注意力模塊以高層特征中各通道展開后得到的49維向量為輸入,共2048個(gè)49維的通道向量依次輸入到以門限循環(huán)單元(Gated Recurrent Units, GRU)[15]為基本單元的循環(huán)神經(jīng)網(wǎng)絡(luò)中,以提取各通道間的上下文關(guān)系,生成各通道的重要性權(quán)重,對(duì)高層特征的通道重要性進(jìn)行加權(quán)修正;經(jīng)通道注意力模塊修正后的高層特征進(jìn)一步輸入到空間維注意力模塊中,以高層特征中不同區(qū)域的特征表示為先驗(yàn)以此輸入到以GRU為基本單元的循環(huán)神經(jīng)網(wǎng)絡(luò)中,輸出得到不同區(qū)域的重要性權(quán)重,以此實(shí)現(xiàn)對(duì)顯著性區(qū)域的增強(qiáng)、背景區(qū)域的抑制。最后,將經(jīng)過(guò)通道注意力和空間注意力修正后的高層特征以全局平均池化的方式得到維度為2048維的特征向量,并與兩個(gè)節(jié)點(diǎn)為2048的全連接層連接后,通過(guò)softmax函數(shù)預(yù)測(cè)輸入圖像的類別。
經(jīng)CNNs提取獲得的特征圖中,不同的通道代表著不同種類的特征,以ResNet50為例,高層特征圖中包含2048個(gè)通道,可以看作2048種視覺(jué)特征。不同特征對(duì)遙感圖像語(yǔ)義內(nèi)容的表達(dá)起著不同的作用,通道維注意力模塊的目的就是在CNNs提取的特征圖基礎(chǔ)上,根據(jù)不同通道的重要性程度,進(jìn)一步生成各通道的重要性權(quán)重,實(shí)現(xiàn)對(duì)顯著性特征的加強(qiáng),對(duì)非顯著特征的忽略。通道維注意力模塊的具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
將得到的高層特征F(7×7×2048)按照空間維展開得到2048個(gè)維度為49的通道特征表示:F1={f1,f2,···,f2048},fi∈d49。文獻(xiàn)[13]對(duì)通道注意力模塊的生成是以隨機(jī)初始化的方式,學(xué)習(xí)生成各通道的重要性,雖然起到了對(duì)不同通道重要性修正的目的,但對(duì)各通道間的相互關(guān)系和通道自身先驗(yàn)信息的利用不足。而循環(huán)神經(jīng)網(wǎng)絡(luò)作為處理序列信息的重要手段,能有效提取序列信息中的上下文關(guān)系,對(duì)進(jìn)一步確定不同通道間的相互關(guān)系和重要性權(quán)重提供了解決方法。因此,為了準(zhǔn)確生成不同通道間的重要性權(quán)重,本文以各通道的特征表示為先驗(yàn)信息,依次輸入到以GRU為基本單元的循環(huán)神經(jīng)網(wǎng)絡(luò)中,GRU是一種包含參數(shù)更少,但在很多序列關(guān)系提取任務(wù)中都有較好性能表現(xiàn)的一種循環(huán)神經(jīng)網(wǎng)絡(luò)。通過(guò)對(duì)不同通道間的上下文關(guān)系的提取,生成
圖1 本文算法框架圖
遙感圖像廣闊的成像范圍導(dǎo)致遙感圖像成像內(nèi)容繁雜、目標(biāo)眾多,如何更好地關(guān)注顯著性區(qū)域,忽略背景區(qū)域?qū)τ跍?zhǔn)確地實(shí)現(xiàn)遙感圖像特征表示起著關(guān)鍵作用??臻g注意力模塊的目的就是在CNNs提取的高層特征基礎(chǔ)上,進(jìn)一步捕獲不同區(qū)域特征的上下文聯(lián)系,以生成各區(qū)域的重要性權(quán)重,實(shí)現(xiàn)對(duì)顯著區(qū)域的重點(diǎn)關(guān)注,對(duì)背景區(qū)域的忽略。與通道維注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)相似,空間維注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示。
將經(jīng)通道維注意力模塊修正后的高層特征F3(7×7×2048)輸入到空間維注意力模塊中。由文獻(xiàn)[14]可知,高層特征F3空間維中每個(gè)元素的特征表示(1×1×2048)可以看作原圖像中局部區(qū)域的特征表示,因此,可以得到圖像中49(7×7)個(gè)區(qū)域的高層特征表示F4={v1,v2,···,v49},vi∈d2048。與通道維注意力模塊的結(jié)構(gòu)類似,為了充分探索不同圖像區(qū)域間的相互關(guān)系和重要性權(quán)重,利用循環(huán)神經(jīng)網(wǎng)絡(luò)作為不同區(qū)域序列信息的上下文關(guān)系提取器。將49個(gè)不同區(qū)域的特征表示依次輸入到由GRU構(gòu)成的循環(huán)神經(jīng)網(wǎng)絡(luò)中,并與共享全連接層和最后的分類全連接層相連,通過(guò)softmax函數(shù)輸出不同區(qū)域的重要性權(quán)重 WS_attention;與通道維注意力模塊相同,將空間維注意力模塊的重要性權(quán)重與輸入的高層特征按元素相乘,并與原輸入的高層特征相加,得到最終的經(jīng)通道維和空間維雙重注意力模塊修正后的高層特征F4。整個(gè)過(guò)程的計(jì)算如式(3)和式(4)所示
圖2 通道維注意力模塊網(wǎng)絡(luò)結(jié)構(gòu)圖
圖3 空間維注意力模塊網(wǎng)絡(luò)結(jié)構(gòu)圖
為驗(yàn)證所提雙重注意力模塊的有效性,選取兩個(gè)代表性數(shù)據(jù)集AID (Aerial Image Dataset)[16]和NWPU-RESISC45 dataset (NWPU45)[17]進(jìn)行實(shí)驗(yàn)驗(yàn)證。數(shù)據(jù)集AID和NWPU45是遙感圖像場(chǎng)景分類領(lǐng)域數(shù)據(jù)量最大、使用最廣泛的兩個(gè)數(shù)據(jù)集之一。AID中的數(shù)據(jù)來(lái)自谷歌地球,共包含10000張大小為600×600像素的航空?qǐng)鼍皥D像,空間分辨率為1~8 m,數(shù)據(jù)集共被劃分為30個(gè)類別,每個(gè)類別包含220~420張圖像不等。數(shù)據(jù)集NWPU45也是收集自谷歌地球,覆蓋率100多個(gè)國(guó)家的遙感圖像,共包含31500張圖像和45個(gè)場(chǎng)景類別,每類各包含700張大小為256像素×256像素的圖像,分辨率為0.2~30 m。
為便于與相關(guān)方法進(jìn)行比較,與相關(guān)文獻(xiàn)[11–14,16,17]中的數(shù)據(jù)集設(shè)置保持一致,隨機(jī)從兩個(gè)數(shù)據(jù)集中挑選部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,數(shù)據(jù)集AID分別挑選20%和50%進(jìn)行訓(xùn)練,剩余的作為測(cè)試集;數(shù)據(jù)集NWPU45中隨機(jī)挑選10%和20%的數(shù)據(jù)作為訓(xùn)練集,剩余的90%和80%作為測(cè)試集。
在實(shí)驗(yàn)中,整個(gè)網(wǎng)絡(luò)采用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)優(yōu)化器進(jìn)行訓(xùn)練,數(shù)據(jù)批次大小(batch size)為64,數(shù)據(jù)集訓(xùn)練迭代30個(gè)循環(huán)(epochs),學(xué)習(xí)率設(shè)置為1e-6。
對(duì)于高層特征的獲取,本實(shí)驗(yàn)主要采用VGG16和ResNet50作為基準(zhǔn)網(wǎng)絡(luò),與所提的雙重注意力模塊相結(jié)合;在測(cè)試階段,以整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)倒數(shù)第2個(gè)全連接層作為遙感圖像最終的特征表示;根據(jù)相關(guān)文獻(xiàn)[11,14]中的驗(yàn)證,利用支持向量機(jī)作為測(cè)試階段分類器的性能要優(yōu)于訓(xùn)練階段使用softmax的分類性能,因此,采用線性支持向量機(jī)作為測(cè)試階段的分類器。
此外,算法的評(píng)價(jià)指標(biāo)采用總體分類準(zhǔn)確率(Overall Accuracy, OA)和混淆矩陣(Confusion Matrix, CM)兩個(gè)綜合性指標(biāo)。OA的定義為測(cè)試集中分類正確的樣本數(shù)占總測(cè)試集的百分比,計(jì)算方法見式(5)
其中,T為測(cè)試集中分類正確的樣本數(shù),N為測(cè)試集的樣本總數(shù)。本實(shí)驗(yàn)中對(duì)每次測(cè)試結(jié)果重復(fù)10次,以10次的平均準(zhǔn)確率和標(biāo)準(zhǔn)差作為最終的實(shí)驗(yàn)結(jié)果。
CM是分類任務(wù)中能更直觀地表現(xiàn)算法性能表現(xiàn)的表達(dá)方式,其對(duì)角線元素表示各類別的分類準(zhǔn)確率,其余元素 amn代表第m類被誤分為第n類所占的比例,通過(guò)CM能更好地看出相近、混淆類別間的分類情況。
3.3.1 模型簡(jiǎn)化測(cè)試
為了驗(yàn)證雙重注意力模塊中各組成部分的作用,通過(guò)模型簡(jiǎn)化測(cè)試的方法對(duì)兩種注意力模塊的有效性進(jìn)行實(shí)驗(yàn)驗(yàn)證,分別用C A(C h a n n e l Attention module)和SA(Spatial Attention module)代表通道注意力模塊和空間注意力模塊,將兩類注意力模塊分別與基準(zhǔn)網(wǎng)絡(luò)VGG16[18]和Res-Net50相連,在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比如表1所示。
從實(shí)驗(yàn)結(jié)果中可以看到兩個(gè)注意力模塊的有效性,具體分析如下:首先,在兩個(gè)基準(zhǔn)網(wǎng)絡(luò)VGG16和ResNet50上,兩種注意力模塊都能提升深度卷積網(wǎng)絡(luò)所提取特征的表征能力,在兩個(gè)數(shù)據(jù)集上的整體分類準(zhǔn)確率都取得了較明顯的提升,但空間注意力模塊的性能提升要更優(yōu)于通道注意力模塊,本文認(rèn)為這主要是由于受遙感圖像在成像范圍上廣闊性的影響,通過(guò)空間注意力模塊對(duì)局部顯著區(qū)域進(jìn)行重點(diǎn)的關(guān)注更能提高對(duì)遙感圖像語(yǔ)義內(nèi)容的理解;然后,通過(guò)表1可以發(fā)現(xiàn)兩種注意力模塊的結(jié)合能更進(jìn)一步提高特征表示的鑒別性能力,使得基準(zhǔn)網(wǎng)絡(luò)的分類準(zhǔn)確率大幅提升,尤其在數(shù)據(jù)量更大、更具挑戰(zhàn)性的NWPU45數(shù)據(jù)集上,所提方法將原基準(zhǔn)網(wǎng)絡(luò)的準(zhǔn)確率提升到了99%,證實(shí)了兩種注意力模塊針對(duì)的側(cè)重點(diǎn)不同,可以相互補(bǔ)充、相互促進(jìn);最后,可以發(fā)現(xiàn),兩個(gè)基準(zhǔn)網(wǎng)絡(luò)的性能表現(xiàn)還存在著明顯差距,ResNet50的特征表征能力明顯超出VGG16,但所提的兩個(gè)注意力模塊都能較好適用于兩個(gè)基準(zhǔn)網(wǎng)絡(luò),證明了所提注意力模塊的適用性是可以與任意卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合。
3.3.2 與其他方法的對(duì)比及分析
為了進(jìn)一步驗(yàn)證所提方法的有效性,在數(shù)據(jù)集AID和NWPU45上與近幾年的相關(guān)基準(zhǔn)方法進(jìn)行比較,實(shí)驗(yàn)對(duì)比結(jié)果如表2和表3所示。
數(shù)據(jù)集AID下的對(duì)比結(jié)果如表2所示,本文所提方法在20%和50%兩種訓(xùn)練比例下都實(shí)現(xiàn)了最佳性能表現(xiàn),準(zhǔn)確率超過(guò)了現(xiàn)有基準(zhǔn)方法,分別達(dá)到了91%和95%左右的整體分類準(zhǔn)確率。其中,2019年提出的方法ResNet_LGFFE將兩種訓(xùn)練比例下原有最佳分類表現(xiàn)分別提高了2%和1.3%左右,在此基礎(chǔ)上,本文方法又將整體準(zhǔn)確率分別提高了0.5%和0.8%,達(dá)到了最佳實(shí)現(xiàn)(SOTA)。數(shù)據(jù)集NWPU45下的實(shí)驗(yàn)對(duì)比結(jié)果如表3所示,本文所提方法在兩種訓(xùn)練比例下的準(zhǔn)確率達(dá)到了98.55%和99.07%,接近于100%,較大提高了該數(shù)據(jù)集下的最佳實(shí)現(xiàn)。由此,在以上兩個(gè)數(shù)據(jù)集下的表現(xiàn)可以看出所提方法的有效性。此外,將所提的雙注意力模塊與ResNet50相結(jié)合在數(shù)據(jù)集AID下所取得的最佳混淆矩陣展示如圖4所示。
本文所提方法雖然能較明顯地提升特征表示的鑒別性能力,在兩個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上取得了較好的總體分類準(zhǔn)確率,但是對(duì)局部特征和局部區(qū)域的過(guò)分關(guān)注也反而導(dǎo)致對(duì)相似類別圖像的混淆。如圖4的混淆矩陣所示,所提方法對(duì)各個(gè)類別的分類準(zhǔn)確率都比較高,尤其在50%的訓(xùn)練比例下,各個(gè)類別的準(zhǔn)確率都接近1,但錯(cuò)誤最明顯的是將真值為類別22(度假村,resort)的圖像大量誤判為類別16(公園,park)。以圖5中兩個(gè)類別的代表性圖像為例,可以發(fā)現(xiàn)兩類圖像在部分局部特征上存在較高的相似性,如游泳池、樹木和建筑等。而所提方法是在原有特征表示的基礎(chǔ)上對(duì)局部區(qū)域和局部特征的進(jìn)一步關(guān)注,這就導(dǎo)致了所提方法在該數(shù)據(jù)集下訓(xùn)練學(xué)習(xí)后,對(duì)度假村和公園的局部相似特征過(guò)分關(guān)注,導(dǎo)致了對(duì)兩個(gè)類別信息的混淆。
針對(duì)遙感圖像場(chǎng)景分類存在的類內(nèi)差異性大、類間相似性高導(dǎo)致的分類準(zhǔn)確率不高的問(wèn)題,本文提出了一種雙重注意力模塊的特征表示方法,在CNNs提取的高層特征基礎(chǔ)上,分別從通道維和空間維各設(shè)計(jì)了一個(gè)注意力模塊,利用循環(huán)神經(jīng)網(wǎng)絡(luò)的上下文信息提取能力,捕捉不同特征和不同區(qū)域間的重要性程度,以實(shí)現(xiàn)對(duì)重點(diǎn)區(qū)域和顯著特征的重點(diǎn)關(guān)注,對(duì)背景區(qū)域和非顯著特征進(jìn)行忽略,以此提高特征表示的鑒別性能力。在兩個(gè)公開數(shù)據(jù)集上,本文方法均超過(guò)了現(xiàn)有基準(zhǔn)方法,驗(yàn)證了所提方法的有效性。但是,雙注意力模塊的引入不可避免地增加了一定的訓(xùn)練時(shí)間,對(duì)訓(xùn)練數(shù)據(jù)量有一定的要求,且通過(guò)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)對(duì)局部特征相似的部分類別容易出現(xiàn)混淆的現(xiàn)象,下一步重點(diǎn)從自監(jiān)督學(xué)習(xí)的角度出發(fā),減少模型對(duì)訓(xùn)練數(shù)據(jù)量的依賴。
表1 數(shù)據(jù)集AID和NWPU45下的模型簡(jiǎn)化測(cè)試OA(%)結(jié)果對(duì)比表
表2 數(shù)據(jù)集AID下所提方法與其他基準(zhǔn)方法的OA(%)結(jié)果對(duì)比表
表3 數(shù)據(jù)集NWPU45下所提方法與其他基準(zhǔn)方法的OA(%)結(jié)果對(duì)比表
圖4 數(shù)據(jù)集AID下所提方法的混淆矩陣圖
圖5 數(shù)據(jù)集AID在所提方法中的誤判實(shí)例