周曉玲, 張朝霞, 魯 雅, 王 倩, 王琨琨
(太原理工大學物理與光電工程學院, 山西 太原 030024)
合成孔徑雷達(synthetic aperture radar,SAR)成像是通過雷達與成像目標之間相對位移產生等效的合成天線陣列,再通過發(fā)射端發(fā)射寬帶信號與合成陣列的相干獲取距離像和方位向的高分辨實現的成像技術。因其受到外界天氣的影響相對較小,還具有一定的地表穿透能力,所以在軍事領域、國土資源、農林業(yè)、重大災害等方面應用廣泛。傳統的SAR圖像識別技術在數據量巨大且數據愈發(fā)復雜的情況下,會導致最終的識別精度和識別效率低下,而深度學習是通過將獲得的低層次特征進行非線性組合,由此來得到數據的抽象表達。深度學習在圖像識別領域的成功,為其在SAR目標識別方面的應用提供了依據。
在傳統卷積神經網絡(convolutional neural network, CNN)的基礎上,Girshick等提出了一種基于區(qū)域特征提取的卷積神經網絡(region CNN, R-CNN)模型用來實現目標檢測,R-CNN模型可以獲得比CNN更快的識別速度和更好的識別精度。但R-CNN網絡在提取大量候選區(qū)域時會占用很大磁盤空間以及巨大的計算浪費。另外,由于傳統CNN需要輸入圖像為固定尺寸(227×227),所以會進行歸一化處理,使圖像被截斷或拉伸,導致圖像信息丟失。文獻[11]提出的快速區(qū)域卷積神經網絡(Fast R-CNN)模型不需要進行圖像預處理和生成候選區(qū)域,解決了R-CNN中圖像信息丟失、計算速度慢和占用存儲空間大的問題。為了加快提取候選區(qū)域的速度,Ren等提出更快的區(qū)域卷積神經網絡(Faster R-CNN)模型,用區(qū)域建議網絡(region proposal networks, RPN)來提取候選區(qū)域(region of interest, ROI),然后利用Fast R-CNN實現目標檢測功能。由于RPN獲得建議區(qū)域只需要做一次完全卷積,能和整個檢測網絡共享全圖的卷積特征,減少了大量冗余數據的計算,加快了目標檢測速度。同時,Faster R-CNN還具有較高的檢測精度。Dai等提出一種基于區(qū)域特征的全卷積網絡(region-based fully convolutional networks, R-FCN),用于實現精確并且有效的目標檢測。為解決圖像分類中平移不可變性與目標檢測過程中平移方差的矛盾,提出了位置敏感得分圖。
在數據集中數據較少的情況下,本文提出了將遷移學習應用于改進R-FCN中實現SAR圖像目標識別的方法。
本文數據源于美國國防高級研究計劃局支持的MSTAR計劃所公布的實測SAR地面靜止目標數據。與光學圖像識別不同,雷達圖像識別更加困難,SAR的分辨率遠低于光學圖像。方位角的變化對SAR圖像識別的影響是巨大的,此外,不同背景下的SAR圖像對目標識別會產生很大的影響。
本文用于訓練的數據集是雷達俯仰角為17°時所獲得的SAR圖像,用于測試的數據集是雷達俯仰角為15°時所獲得的SAR圖像。圖1是MSTAR數據集中坦克的光學圖像和SAR圖像。
圖1 目標圖像Fig.1 Target image
對比可以看出這兩者之間存在很大的區(qū)別,光學圖像肉眼可區(qū)分出不同型號的戰(zhàn)車,而通過人眼觀察SAR圖像無法區(qū)分出戰(zhàn)車的不同型號,因而需要借助于計算機來區(qū)分。實驗采用的訓練集和測試集中分別包含五種類別的戰(zhàn)車,分別為ZSU_23_4、ZIL131、2S1、T62、D7。每類中包含299個訓練樣本和274個測試樣本。
由于用于訓練的數據集數量相對較少,使訓練參數不能達到最優(yōu),不能得到很好的識別效果,需要通過圖像增強中的灰度變換對訓練集數據進行擴充,本文利用了冪律變換、對數變換與Imadjust函數,使原始訓練集數據量擴充到原來的4倍。其中,利用冪律變換得到的灰度圖像和原始圖像如圖2所示。
圖2 灰度變換Fig.2 Gray scale transformation
人們對于圖像檢測的速度和精度的需求在逐步提高,在Faster R-CNN的基礎上提出了R-FCN模型。R-FCN網絡的主體部分可以適應不同的全卷積網絡架構,無論是ResNet101還是ResNet152都能滿足R-FCN的需求,從而提取出高質量的圖像特征,本文采用ResNet101結構。
R-FCN網絡結構如圖3所示,包括了輸入層、100層卷積層、感興趣池化層以及千級全連接層。
圖3 R-FCN網絡架構圖Fig.3 R-FCN network architecture diagram
R-FCN網絡結構由完全共享、完全卷積的體系構成,針對共享網絡檢測精度不佳的缺陷,加入了位置敏感得分圖,該部分負責對目標進行準確識別。假設最終要完成類目標的分類,對于一個待測物體,首先要對其ROI區(qū)域完成劃分,使其分為×個子網格,每一個子網格中包含了待測物體的不同部分。經過各自對應后,判斷每一個子網格內是否含有對應部分,如果符合要求,則識別成功屬于該類別,否則歸于其他類別。所以對于R-FCN來說,加上圖中背景共有+1類,每一類又要經過次處理,所以需要(+1)個通道用來輸出。
R-FCN網絡在識別時,首先由RPN提取出候選區(qū)域ROI,每一類ROI都有高、寬和橫、縱坐標4個參數,記為、、、。由于這些ROI都會被劃分為×個子網格,故每個子網格的尺寸為(×)。之后,在第101層卷積層引入位置敏感得分圖,將個子網格都與得分圖上的相應區(qū)域進行位置敏感的評比,可以通過平均池化實現。給定區(qū)域(0≤,≤-1),假設坐標為(,)的子網格需要在得分圖上尋找坐標同為(,)的位置完成池化操作,共進行+1次。平均池化原理如下:
(,|)=
(1)
式中:(,)是第個類別的第(,)個子網格中的匯集響應,所以一個ROI可以得到(+1)個分數圖;bin(,)代表ROI中個分塊中第(,)個分塊對應在特征圖中的位置集合,,,是第(,)個子網格為類的分數值;+是ROI的左上角坐標;是子網格中的像素數;表示網絡所有可學習參數。第(,)個子網格的范圍如下:
(2)
(3)
根據每一個子網格的得分圖進行相應的篩選,利用每一類ROI的平均分數來完成目標判別。每個ROI產生一個+1維的向量
(4)
計算跨類別的最大響應如下:
(5)
式(5)用于評估訓練過程中的交叉熵損失,隨后對不同的ROI進行分類。
由于每類ROI都有4個坐標,在計算出位置敏感得分后還需要對其完成回歸操作,故還需要4個卷積層用于包絡框回歸。對其進行位置敏感池化,為每一類ROI都產生4個矢量,然后平均得分可以將其聚合成4維矢量。這個4維矢量會將包絡框參數化為=[,,,]。由于包絡框回歸后沒有別的層級,所以網絡的運算速度相應加快。
在試驗中,R-FCN可以輕易完成端到端的訓練,所以把損失函數定義為交叉熵和包絡框回歸的損失。在此過程中,若ROI的交并比(intersection-over-union, IOU)所代表的候選框與原標記框的重疊程度大于05,則將其判定為本類列,否則為其他類別。
R-FCN的最初提出是對光學圖像的目標檢測,由于光學圖像的灰度變化平滑并且目標特征明顯,因此R-FCN的特征提取網絡能夠有效提取目標特征。SAR成像原理與光學成像原理不同,SAR圖像帶有很多相干斑噪聲,嚴重影響特征的提取。卷積核的大小決定著卷積神經網絡最終輸出特征向量所包含的原圖特征信息量的多少。卷積核越大,所取得的特征圖的信息量越多。此外,卷積核越大越能夠有效抑制SAR圖像中的相干斑噪聲對識別結果的影響。
殘差網絡中特殊的殘差塊可以極大提高目標圖像分類的準確率。圖4給出了本文中用到的殘差塊結構,其中殘差結構是恒等映射和殘差映射()兩部分之和,ReLU為線性整流函數。
圖4 殘差網絡結構圖Fig.4 Residual network structure diagram
R-FCN的殘差網絡中每個殘差塊均包含著一個卷積核大小為3×3的卷積層,為了使特征圖包含的信息量越大,使用5×5的卷積層替換原來的3×3的卷積層,殘差網絡能夠有效提取出不同型號目標之間的差異。
3.2.1 改進的位置敏感區(qū)域池化層
由于原始R-FCN網絡中的位置區(qū)域池化層具有一定的特殊性,原始R-FCN網絡結構的設計適用于目標檢測數據集PASCAL VOC,此數據集中目標加背景一共有21類。位置敏感區(qū)域池化層(position-sensitive ROI pooling layer, PS ROI pooling)決定著R-FCN特征提取網絡的特征圖的個數。當檢測目標類別越多時,網絡提取的特征圖個數越多,當數據集中目標加背景的類型遠小于PASCAL VOC的類別時,會導致R-FCN網絡畸形。
為了得到更好的識別率,對位置敏感區(qū)域池化層作出了更適合小類數據集的改進。首先通過RPN獲得位置敏感區(qū)域的位置,將其與特征圖結合生成位置敏感分數圖,然后對位置敏感分數圖做全局最大值池化,得到長度為(+1)的特征向量,最后對特征向量做全連接操作并放入Softmax中進行分類。將ROI pooling層改為ROI Align后采用雙線性內插的方法獲得像素點上的圖像數值,從而使特征聚集過程連續(xù)操作。
改進的位置敏感區(qū)域池化層具體步驟:將大小為×的ROI分割成個矩形小方塊,其中寬為,高為,公式如下:
(,|)=
(6)
式中:(,)表示ROI和位置敏感分數圖的每個分塊位置,(,)的取值范圍為0≤≤-1, 0≤≤-1;(,│)為位置敏感分數圖第個通道中個分塊中的第(,)個分塊;,,為特征圖中第通道的數據,的取值范圍為0≤≤(+1);(,)表示ROI的左上角坐標;(,)表示ROI中以(,)為原點時每個元素的坐標值,且(,)的取值范圍為×≤≤(+1)×,表示第(,)個塊里的像素總數,且表示網絡參數。
322 損失函數
為了使改進的R-FCN能夠準確地識別SAR圖像型號,需要依據最小化損失函數的原則訓練卷積網絡模型。損失函數由分類損失函數和定位損失函數組成,公式如下:
(7)
式中:是調節(jié)系數;是感興趣區(qū)域所屬的SAR圖像型號類別,分類損失函數由交叉熵函數表示,即
(8)
定義損失函數是Smooth L1損失函數,即
(9)
其中,Smooth L1函數為
(10)
遷移學習可以將學到的對圖像分類的理解分享到新模型中,神經網絡從數據中獲取信息并將其換成相應的權重。這些權重被提取出來遷移到其他神經網絡中,加快并優(yōu)化了模型的收斂速度。
在基于遷移學習的改進R-FCN網絡的訓練過程中,利用預訓練模型進行特征提取。去掉輸出層后將剩下的網絡當做已經訓練好的特征提取機應用到新的數據集中。這個過程中,需要對特定層進行訓練得到新的權重,凍結其他層保持其權重不變,因此加快了圖像識別的速度。
本節(jié)實驗采用Faster R-CNN網絡對SAR圖像進行識別分類。數據集上預訓練VGG16模型用來提取網絡特征圖,學習率為0.002,動量為0.9,權重衰減設置為0.000 5,最大迭代次數為45 000。
通過訓練集對Faster R-CNN模型進行訓練優(yōu)化后,利用測試集檢測該模型,得到識別結果,部分識別結果如圖5所示。在實驗中每種類別分別進行測試,若識別出的類別與目標類別不一致,則認為識別錯誤,若沒有標注出識別框,則認為漏識別。各種類別的所有測試數據集,通過Faster R-CNN網絡模型對SAR圖像進行目標識別,得到的目標識別率基本在80%以上,最高可達到95%,識別效果較好。
圖5 Faster R-CNN模型識別目標結果圖Fig.5 Target recognition results obtained by using the Faster R-CNN model
本節(jié)實驗采用R-FCN網絡對SAR圖像進行識別分類。用同樣的數據集對R-FCN網絡模型進行訓練與檢測,為了與Faster R-CNN的識別結果進行比較,實驗中的參數設置與Faster R-CNN網絡的參數設置一致。實驗得到的部分識別結果如圖6所示。利用訓練集數據對原始R-FCN網絡模型進行訓練及優(yōu)化,再將測試集數據應用到優(yōu)化后的R-FCN網絡模型。結果顯示,R-FCN網絡模型對SAR圖像識別率基本在95%以上,最高可達到97%。識別結果與Faster R-CNN的識別結果相比較,識別率得到提高,說明R-FCN對SAR圖像目標識別方法較Faster R-CNN優(yōu)越。
圖6 R-FCN模型識別目標結果圖Fig.6 Target recognition results obtained by using the R-FCN model
本節(jié)基于遷移學習的R-FCN網絡對SAR圖像識別分類,利用構建好的數據集對訓練好的模型進行仿真實驗,得到識別結果如圖7所示。通過分析實驗結果可看出,基于遷移學習的R-FCN網絡模型對SAR圖像的識別率均在98%以上,最高可達到99%,具有很好的識別結果。
圖7 遷移學習的R-FCN模型識別目標結果圖Fig.7 Target recognition results of R-FCN model based on transfer learning
將文中提到的3種方法識別結果進行統計,得到的結果如表1所示。表1是在整體測試集中利用3種模型進行測試,得到的圖像正確識別率、漏檢率和誤檢率。通過表1對比分析可得,在常用的目標識別算法中,本文提出的基于遷移學習的R-FCN網絡模型對SAR圖像的識別率已經超過傳統的識別算法,對R-FCN網絡中網絡結構以及各層參數的優(yōu)化,使得R-FCN對SAR圖像的識別能夠得到更優(yōu)的結果。
表1 3種算法檢測識別率、漏檢率及誤檢率的統計結果Table 1 Statistical results of detection and recognition rate, omission rate and error rate of the three algorithms %
本文主要研究基于深度學習的SAR圖像目標識別算法,將深度學習中全卷積網絡框架應用于SAR圖像識別中。首先通過圖像增強的方法對數據庫進行擴增,引入遷移學習方法訓練改進R-FCN模型實現對SAR圖像的識別。通過對實驗結果對比分析,可以看出改進后的R-FCN網絡模型的目標識別率略大于原始的R-FCN模型的圖像識別率,同時也減少了訓練需要的時間。所以當數據集較小時,本文所提方法很好地滿足了目標識別的精度和效率。
在本文的基礎上,還可以對R-FCN網絡作進一步改進,除了將遷移學習運用到R-FCN中,還可以改變殘差網絡的部分或者改變損失函數的參數值,進而改善圖像識別的準確性。由于現階段R-FCN網絡應用于SAR圖像識別的研究相對較少,大多數還用于識別光學圖像,所以在這方面還需要更加深入的研究,希望能設計出更適用于SAR圖像識別并且識別率更高的算法。