應自爐 王發(fā)官 翟懿奎 王文琪
(五邑大學智能制造學部,廣東江門 529020)
合成孔徑雷達(Synthetic Aperture Radar,SAR)采用相干成像原理,通過接收不同位置的回波信號進行相干處理,以此來獲取高分辨率的圖像。SAR具有很強的穿透能力,不受光線強度和天氣的影響,可以實時地對地監(jiān)測,因此被廣泛應用到民用和軍事領域[1]。然而,SAR圖像缺乏足夠量的標簽,對其進行標注需昂貴開銷。除此之外,SAR 圖像充斥著散斑噪聲和特有的幾何畸變特征,不能像光學圖像一樣準確地用肉眼判別出來。因此,SAR 目標識別技術成為近年來的研究熱點和難點。
針對以上挑戰(zhàn),一些傳統(tǒng)的SAR 目標識別模型通過結合機器學習和圖像特征提取方法來解決問題。文獻[2]通過目標類型以及傳感器,目標和地面的相對方向參數(shù)化了條件高斯模型,提出了用于SAR 圖像的條件高斯信號方法。文獻[3]提出了一種新的聚類模板自動生成算法,該算法解決了模板生成姿態(tài)角依賴性問題,提高了識別性能。Zhao 等人[4]將支持向量機應用到了SAR 目標識別任務,并與常規(guī)分類器進行了比較。Sun 等人[5]通過原始特征補償目標估計誤差,使用Adaboost 算法對SAR 圖像進行分類。然而,上述算法嚴重依賴于經(jīng)驗選擇,過程繁瑣復雜,而且設計的模型泛化性能差,無法得到高效的識別效果。
近年來,隨著大數(shù)據(jù)時代的來臨和計算設備的不斷更新完善,深度學習得到了快速發(fā)展。卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)是現(xiàn)有深度學習算法中最具代表性的模型,CNN 本身具有空間不變性和通道特異性,利用權值共享和局部感受野很容易從圖像中提取結構特征,從而可以有效地解決視覺分類和識別等任務,如ResNet[6]、Shuffle-NetV2[7]和MobileNetV2[8]等是近年來出現(xiàn)的經(jīng)典的CNN 架構。成功的訓練出高效的CNN 網(wǎng)絡有兩個必要條件:適當?shù)木W(wǎng)絡結構和含有豐富信息的充足的帶標簽數(shù)據(jù)集。雖然CNN 網(wǎng)絡結構的設計在不斷的改進,但現(xiàn)有的帶標簽的SAR 圖像極其有限并且難以獲得。為了緩解監(jiān)督學習方法對大量標注數(shù)據(jù)的迫切需求,提出了同時使用有限的標簽數(shù)據(jù)和未標簽數(shù)據(jù)的半監(jiān)督學習方法。文獻[9]設計了一個由分類網(wǎng)絡和重構網(wǎng)絡組成的半監(jiān)督SAR 目標識別框架,解決直接將CNN應用于SAR目標識別時,可能會產(chǎn)生過擬合的情況。文獻[10]設計的半監(jiān)督學習框架通過自一致增強規(guī)則迫使擴增前后樣本共享相同標簽,然后混合標簽和無標簽樣本,在識別SAR 圖像上得到了不錯的效果。文獻[11]將深度學習技術與與基于傳統(tǒng)散射特征分類器結合,提出了用于極化SAR 圖像半監(jiān)督分類方法。這些半監(jiān)督學習的方法在有限標注樣本的數(shù)據(jù)集上,一定程度提升了深度學習系統(tǒng)的訓練和識別能力。
Goodfellow 等人[12]在2014年提出了生成對抗網(wǎng)絡(Generative Adversarial Network,GAN),旨在學習原始圖像的特征分布,自動生成可以以假亂真的偽樣本。Radford等人[13]將CNN與傳統(tǒng)的GAN結合到一起做無監(jiān)督訓練的深度卷積生成對抗網(wǎng)絡(Deep Convolutional Generative Adversarial Netwotrks,DCGAN),利用CNN 強大的特征提取能力來提高生成對抗網(wǎng)絡的生成結果。目前,GAN 及其變體已經(jīng)應用在圖像翻譯、圖像超分辨和圖像識別等方面。Cai 等人[14]提出了深度生成對抗網(wǎng)絡,通過多任務學習來執(zhí)行聯(lián)合人臉完成和人臉超分辨率。Cao等人[15]提出通過標簽定向生成網(wǎng)絡為模型訓練提供標記樣本,提升模型的識別精度。Emami[16]將注意力機制引入到GAN 架構中,幫助生成器將注意力集中在源域和目標域之間最有區(qū)別的區(qū)域上,從而獲得更逼真的輸出圖像。GAN 除了在無監(jiān)督領域備受關注外,許多研究學者將GAN 與半監(jiān)督方法進行了結合,研究了GAN 在半監(jiān)督學習中的適用性。Salimans等人[17]首次提出了利用DCGAN 為基礎架構進行了半監(jiān)督分類訓練并取得了優(yōu)異的結果。Cui 等人[18]通過利用生成對抗網(wǎng)絡生成樣本,并為生成樣本設計一個選擇濾波器提高新生成訓練樣本的質(zhì)量。Odena[19]等人利用判別網(wǎng)絡輸出類標簽,將該網(wǎng)絡轉(zhuǎn)化為半監(jiān)督網(wǎng)絡,從而產(chǎn)生高質(zhì)量的圖像。Mirza 等人[20]通過添加類約束作為監(jiān)督信息,允許網(wǎng)絡在生成類標簽的同時生成圖像。Zheng 等人[21]使用GAN 生成的樣本作為CNN 的訓練樣本,該方法通過GAN 生成的未標記圖像擴展到真實有標記的訓練集中,并將半監(jiān)督學習方式整合到網(wǎng)絡訓練中,有效的提高了分類精度。
然而,與上述大多數(shù)研究使用的光學圖像不同,SAR 圖像的基本特征難以捕捉,難以建立跨圖像區(qū)域的長距離、多層次依賴關系,從而導致GAN網(wǎng)絡敏感性和不穩(wěn)定性加深。針對以上難點問題,本文提出了基于自注意力特征融合的半監(jiān)督生成對抗網(wǎng)絡(Semi-supervised Generative Adversarial Network Based on Self-attention Feature Fusion,SAFSGAN)用于SAR 圖像目標識別。首先,為解決長距離、多層次依賴問題,本文在網(wǎng)絡中引入了自注意力[22]模塊,有效地對SAR 圖像的全局特征進行利用。其次,將經(jīng)過不同層級的特征進行融合,捕獲SAR 圖像的關鍵信息。然后,為保證網(wǎng)絡生成圖像的細節(jié)信息分布與原始圖像保持一致,在生成器的損失中引入了特征匹配損失。最后,為使網(wǎng)絡的訓練過程更加穩(wěn)定,利用譜歸一化代替批歸一化層[23]。實驗結果表明,在訓練樣本有限的情況下,該方法的識別精度具有一定競爭力。
本文采用半監(jiān)督學習對GAN 進行訓練。與經(jīng)典GAN 不同,判別器不再是僅用于鑒別圖像真?zhèn)蔚亩诸惼?,而是將半監(jiān)督GAN 中的判別器看作一個多分類器。具體來說,判別器就是預測樣本x是否屬于真實數(shù)據(jù)分布,它從n類中賦予每個輸入圖像一個標簽y。本文提出的SAF-SGAN 算法的總體框架如圖1所示,其中,生成器和判別器都使用了譜歸一化。譜歸一化技術在判別器中可以通過譜范數(shù)達到約束利普希茨常數(shù)的目的,在生成器中使用譜歸一化可以防止參數(shù)放大和避免不尋常的梯度,從而使整個網(wǎng)絡的參數(shù)更加平滑,訓練過程更加穩(wěn)定[24-25]。同時,在生成器和判別器中集成了自注意力模塊,使兩者能夠捕獲到長范圍的依賴關系。
生成器模型如圖2 所示,將100 維的隨機噪聲作為生成器的輸入,經(jīng)過線性映射和重塑,轉(zhuǎn)換為4 維張量,再經(jīng)過反卷積和自注意力模塊,輸出為64×64 圖像。在反卷積過程中,通過將卷積核尺寸設置為4×4,有效避免了反卷積過程中容易產(chǎn)生的棋格子狀偽影現(xiàn)象。在生成器網(wǎng)絡中除了輸出層使用Tanh激活函數(shù),其他層均采用ReLU激活函數(shù)。訓練生成器時通過引入特征匹配損失,使得生成圖像更加逼真。生成器的作用就是生成無標注的圖像來輔助提高判別器的性能,生成器網(wǎng)絡的詳細參數(shù)見表1。
表1 生成器網(wǎng)絡結構表Tab.1 Generator network structure table
判別器含有8 個卷積層和3 個自注意力模塊,且使用LeakyReLU 激活函數(shù)和譜歸一化構建網(wǎng)絡。具體操作如圖3 所示,將生成圖像或原始圖像喂入到判別器中,經(jīng)過8 個卷積層,在第4、第6 和第8 層卷積層后面分別跟上自注意力模塊。在經(jīng)過前兩個自注意力模塊得到的特征圖分別經(jīng)過最大池化層與最后一個自注意力模塊得到的特征圖進行融合,隨后輸入到下一個全連接層中。最后,接入Softmax層。需要說明的是,判別器網(wǎng)絡中自注意力模塊的引入是為了有效提取圖像全局的紋理特征和幾何特征。除此之外,判別器同時采用了最大池化層,用以提取不同階段特征的顯著信息,同時也降低了卷積層對位置信息的敏感性。然后,特征顯著信息可以通過特征融合更加突出地顯現(xiàn)出來,判別器網(wǎng)絡詳細參數(shù)如表2所示。
表2 判別器網(wǎng)絡結構表Tab.2 Discriminator network structure table
受非局部均值算法的啟發(fā),文獻[22]提出了非局部模塊,又稱為自注意力模塊,此模塊能夠使神經(jīng)網(wǎng)絡獲得圖像上的任意兩個位置之間的互信息。自注意力模塊用于捕獲長范圍依賴,成為計算機視覺領域的通用模塊。具體操作如下:
首先,自注意力模塊將在前層網(wǎng)絡提取到的,含有C個通道的特征圖x經(jīng)過三個1×1卷積層分支,每個分支輸出通道數(shù)分別為C/8,C/8和C,得到特征空間f(x),g(x)和h(x),其中:
然后,f(xi)的轉(zhuǎn)置與g(xj)相乘,再經(jīng)過Softmax函數(shù)歸一化得到注意力權重βj,i。
其中,βj,i表示在合成第j個區(qū)域時對第i個區(qū)域的相似度。N表示特征圖中特征位置的數(shù)量。其次將注意力權重加權到特征空間h(x)上,將加權過后的特征圖經(jīng)過1×1 卷積層,所以注意力層的輸出oj可以表示為:
在上述公式中,Wf、Wh、Wg和Wv均是1×1 卷積層的權重矩陣。進一步,注意力層與一個尺度參數(shù)相乘,再與輸入特征圖相加,得到最終的輸出yi,如公式(7):
其中μ是一個可學習參數(shù)并且初始值為0。這使得生成器在生成樣本時不再局限于相鄰點,而是全局的任意兩個位置之間的信息計算,其相當于設計了一個和輸入特征圖一樣大小的卷積核,可以學習到豐富的全局信息,因此生成器會使生成的樣本與真實樣本更加接近,收斂速度也相應加快。
在自注意力模塊的作用下,生成對抗網(wǎng)絡克服了傳統(tǒng)神經(jīng)網(wǎng)絡只能在圖像像素領域操作的問題,從而學習到更多圖像的細節(jié)信息。在本文中,生成器和判別器中均引入了自注意力模塊,判別器可以判斷出圖像的遠端細節(jié)信息分布是否與其他細節(jié)保持一致。
損失函數(shù)是用來評估生成圖像和原始圖像之間差異的,同時也是生成對抗網(wǎng)絡的優(yōu)化目標。損失函數(shù)的值越小代表生成圖像與原始圖像之間的差異越小。恰當?shù)膿p失函數(shù)可以提供準確梯度信息,從而提高整個模型的性能。遵循上述原則,在設計生成器的損失函數(shù)時,只需最小化它的輸出虛假圖像概率Lfake,即:
其中D(G(z))表示輸入為生成圖像時,判別器輸出的第n+1維。通過在生成器損失函數(shù)中引入特征匹配損失,期望生成圖像能夠匹配真實圖像,以達到對生成模型的約束,獲得高質(zhì)量的生成圖像。特征匹配損失Lfeat定義為:
其中,θ(·)表示判別器中間層特征的激活函數(shù)的輸出。因此生成器的總損失函數(shù)LG公式(8)和公式(9)之和,如公式(10):
在本文中判別器的損失函數(shù)由無監(jiān)督學習損失Luns和監(jiān)督學習損失Ls兩個部分組成。對于無監(jiān)督學習來說,通過利用無標簽數(shù)據(jù)計算無監(jiān)督損失,不需要計算標簽損失,只依賴于對真假的判斷來構建損失:
而監(jiān)督學習部分的損失函數(shù)LS使用交叉熵:
Di(x)表示當輸入為真實圖像x時,判別器第i維的輸出。yi表示第i維標簽。在訓練判別器時引入?yún)?shù)α來控制無監(jiān)督損失。因此,判別器的總損失函數(shù)為:
本文在美國國防高等研究計劃署推出的運動與靜止目標獲取和識別(Moving and Stationary Target Acquisition and Recognition,MSTAR)公開數(shù)據(jù)集上驗證了該方法的性能,該數(shù)據(jù)集含有在各個方位角下獲取的多種車輛目標的SAR 圖像。在實際的實驗中,采用標準工作條件下(Standard Operating Conditions,SOC)采集到的十類MSTAR 數(shù)據(jù)集,以俯仰角為17°和15°的圖像分別作為訓練數(shù)據(jù)和測試數(shù)據(jù),數(shù)據(jù)集使用的具體配置見表3。
表3 SOC下十類MSTAR數(shù)據(jù)集Tab.3 Ten types of MSTAR datasets under SOC
所有樣本通過中心裁剪將圖像大小設定為64×64 像素。在訓練SAF-SGAN 過程中,SOC 下的十類MSTAR 的訓練集首先被分為兩部分:按1∶2,1∶3,1∶4,1∶8,1∶16 和1∶32 的比例隨機抽取每類數(shù)據(jù)作為有標簽樣本,剩下的訓練數(shù)據(jù)作為無標簽樣本。在測試過程中,測試集采用標準工作條件下十類MSTAR數(shù)據(jù)集的測試集的所有樣本。
本文實驗的編譯環(huán)境統(tǒng)一在Ubuntu 18.04 系統(tǒng),采用CUDA 10.1和開源的Pytorch深度學習框架進行訓練。實驗采用參數(shù)為β1=0.9,β2=0.99 的Adam 優(yōu)化器,學習率設為0.0003,LeakyReLU 層的斜率設為0.1,共訓練500輪。
為驗證本文提出的方法在含有不同數(shù)量標簽樣本下的性能,對每類MSTAR數(shù)據(jù)集分別按1∶2,1∶3,1∶4,1∶8,1∶16和1∶32的比例抽取標簽樣本。如上所述,這些標簽樣本都是隨機選取的,并且六個獨立實驗所選取的樣本也不盡相同。實驗過程中將判別器單獨作為分類器,同時利用標簽樣本對分類器上進行有監(jiān)督訓練并獲得監(jiān)督識別精度(Supervised Recognition Accuracy,SRA)。表4 分別記錄了在不同標簽樣本下SAF-SGAN 和SRA 兩種方法的實驗結果,從結果中可以看出與僅使用帶標簽樣本的監(jiān)督學習模型相比,使用半監(jiān)督生成對抗網(wǎng)絡的方法可以顯著提高識別精度。當標簽樣本數(shù)量最少時,與監(jiān)督學習模型相比,半監(jiān)督生成對抗網(wǎng)絡模型在識別準確率方面有較大改善,識別精度相對提高了9.84%,當標簽樣本數(shù)量最多時,識別精度提高了4.91%,平均相對識別精度提高了8.62%。這進而說明半監(jiān)督生成對抗網(wǎng)絡方法可以結合生成圖像、無標簽圖像和帶標簽圖像共同訓練使模型學習更多的數(shù)據(jù)特征,從而提高模型識別精度。從表4的實驗數(shù)據(jù)可以發(fā)現(xiàn),本文所提出的SAF-SGAN 隨著標簽樣本數(shù)量的增加,識別準確率也逐漸提高。在每個類別僅含有原始數(shù)據(jù)的四分之一帶標簽樣本時,本文提出的SAF-SGAN 方法訓練出來的模型識別準確率超過了監(jiān)督學習方法下使用整個數(shù)據(jù)集的識別率。
表4 不同數(shù)量樣本下的識別精度Tab.4 Recognition accuracy under different number of samples
為了展示本文方法在不同類型目標識別準確率上的改進,表5和表6分別描述了本文方法和監(jiān)督學習方法在SOC 下含有1∶32 標簽的MASTAR 數(shù)據(jù)集上的混淆矩陣。當每個類別僅有原始數(shù)據(jù)1∶32標簽樣本時,本文方法與監(jiān)督學習方法的每類識別準確率的比較如圖4所示,詳細說明了本文方法相對監(jiān)督學習方法在每個類別中的準確率的改進情況。
表5 SAF-SGAN在SOC下含有1∶32標簽的MASTAR數(shù)據(jù)集上的混淆矩陣Tab.5 Confusion matrix of SAF-SGAN on the MASTAR dataset with 1∶32 label under SOC
表6 SRA下含有1∶32標簽的MASTAR數(shù)據(jù)集上的混淆矩陣Tab.6 Confusion matrix of SRA on the MASTAR dataset with 1∶32 label under SOC
從圖4可以清楚的看到該方法將所有類別的識別準確率提高了兩個百分點以上。T72類別的識別準確率提升的精度低于5%,其他類別精度的提升均高于5%。BRDM2 識別精度提高了18%以上。T72的準確率改善不是很大的原因是因為在測試集中T72類型含有132、812和S7三種變體,而訓練集中僅有132系列一種,從而說明T72的變體之間存在很大差異難以學習。而BMP2在測試集中也含有三種變體,但利用本文方法識別精度提高了10.22%,這說明本文的模型在識別BMP2 的能力優(yōu)于識別T72 的能力。綜上所述,本文提出的模型在識別變體能力上得到了改善,提升了模型的魯棒性。
為探究最佳的半監(jiān)督生成對抗網(wǎng)絡結構設置以及自注意力模塊對網(wǎng)絡性能的影響,我們對不同結構和在網(wǎng)絡中使用不同數(shù)量的自注意力模塊在SOC 數(shù)據(jù)集上進行實驗驗證,并對生成器生成的圖像進行了可視化。
3.4.1 卷積層數(shù)和自注意力模塊的分析
為探究半監(jiān)督生成對抗網(wǎng)絡的理想狀態(tài),本小節(jié)對判別器網(wǎng)絡的構成進行了定量分析。首先,我們設計含有不同卷積層數(shù)的判別器,并在含有不同數(shù)量的標簽數(shù)據(jù)下識別MSTAR數(shù)據(jù)集,實驗結果如表7所示。實驗結果表明,適當?shù)脑黾泳矸e層數(shù)可以有效的提高判別器網(wǎng)絡的特征提取能力,從而使得整體的分類性能得到提升。由表7可以發(fā)現(xiàn),當網(wǎng)絡中的卷積層數(shù)為8時,判別器網(wǎng)絡的分類性能最佳。
表7 不同卷積層數(shù)的性能比較Tab.7 Performance comparison of different convolution layers
為進一步提升半監(jiān)督生成對抗網(wǎng)絡的識別性能,我們分析了自注意力模塊在網(wǎng)絡中的作用。通過判別器網(wǎng)絡中配置不同數(shù)量的注意力模塊,在含有不同數(shù)量的標簽數(shù)據(jù)下識別MSTAR 數(shù)據(jù)集并對識別結果進行了比較,如表8 所示。自注意力模塊通過點積運算需耗費大量計算資源,減少主干網(wǎng)絡的優(yōu)化力度,經(jīng)實驗采用三組自注意力模塊可最大限度提升效果。從而表明自注意力模塊可以通過建立長距離、多層次依賴關系,有效地對SAR 圖像的全局特征進行利用,進而提高半監(jiān)督生成對抗網(wǎng)絡的判別性能。為獲取最佳性能的網(wǎng)絡,本文所構造的判別網(wǎng)絡采用三組自注意力模塊。
表8 配置不同數(shù)量注意力模塊的性能比較Tab.8 Compares the performance of different number of attention modules configured
3.4.2 生成圖像可視化
本文在少量標注樣本的條件下,利用SAFSGAN 生成未標記圖像進行網(wǎng)絡訓練,從而提高模型的性能。這樣不僅可以將已有的標注樣本得到充分利用,而且得到的結果比僅僅使用標注樣本進行訓練的效果要好。圖5繪制了實驗過程中的生成器損失和判別器損失,從圖中曲線的走勢可以看出,在訓練過程中生成器損失和判別器損失開始時出現(xiàn)較強的波動后逐漸減小。結果表明,在經(jīng)過一定的訓練階段后本文采用的方法能夠穩(wěn)定收斂。
圖6 從左到右展示了一些輸入噪聲信號和第50、第100、第200、第300、第400 以及第500 次遍歷生成的圖像。從圖中可以看出,隨著訓練的進行SAR目標的輪廓和紋理可以更加直觀地觀察。
圖7 左邊的是SAF-SGAN 生成的圖像,右邊的圖像是MSTAR 數(shù)據(jù)中真實的SAR 圖像。通過圖7的對比圖中可以發(fā)現(xiàn),生成的SAR 目標圖像散斑噪聲減少,與原始SAR 目標圖像的相似度極高,但也有細微的差異。在生成圖像中,人類可以清楚地識別出與真實圖像相似的SAR 目標特征,很難判斷其真實性,因此可以將其作為真實樣本輔助訓練。
本小節(jié)將所提出的SAF-SGAN的識別結果與一些具有代表性的機器學習方法以及最近發(fā)表的幾種方法在表9 中進行了比較,包括SVM[4],Adaboost[5],ResNet50[6],MobileNet[8],Shufflenet-v2[7],TAI-SARNet[26],Improved-GAN[17],文獻[27]以及帶有正則化的半監(jiān)督GAN[28]。為了證明所提方法在有限數(shù)據(jù)集上的優(yōu)越性,仍采用3.3 節(jié)的數(shù)據(jù)劃分方式進行訓練。針對每個模型重復進行10次實驗,最終的識別精度為10 次結果的平均值。由表9 可知,隨著訓練樣本圖像數(shù)量的增加,所有的識別準確率均有提高。從另一方面還可以觀察到,在訓練數(shù)據(jù)有限的情況下,經(jīng)典的深度學習方法的性能劣于傳統(tǒng)機器學習的方法。利用GAN 生成的圖像來輔助訓練,基于GAN 的方法逐漸表現(xiàn)出優(yōu)越的性能。與以往基于GAN 的方法相比,SAF-SGAN 的識別準確度大約提高了2%~5%,證明了生成圖像對網(wǎng)絡訓練起到了類似正則化的效果,進而對分類性能起到了很好的輔助作用,彌補了數(shù)據(jù)不足對網(wǎng)絡訓練產(chǎn)生的影響。
表9 各方法在SOC有限數(shù)據(jù)集上的性能比較Tab.9 Performance comparison of the methods on the SOC finite dataset
針對SAR 目標識別中的難點問題,本文提出基于自注意力特征融合的半監(jiān)督生成對抗網(wǎng)絡用于SAR 目標識別。本文方法通過引入自注意力模塊構建長范圍全局依賴關系,豐富了生成圖像細節(jié),提高網(wǎng)絡學習SAR 圖像上下文信息的能力。在生成器損失中引入了特征匹配損失,此外,判別器將多個自注意力模塊的輸出進行特征融合,提高判別器鑒別能力,對生成器起到更好的約束作用。本文提出的SAR 目標識別算法生成的圖像在視覺效果上比原始SAR 圖像相比含有較少的散斑噪聲。實驗結果表明,本文方法在標注數(shù)據(jù)集有限的條件下,SAF-SGAN 超越了主流SAR 目標識別算法的準確率,證明了本文方法的有效性。