歐陽寧,朱 婷,林樂平
(1.認(rèn)知無線電與信息處理省部共建教育部重點實驗室(桂林電子科技大學(xué)),廣西 桂林 541004;2.桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)(*通信作者電子郵箱lin_leping@163.com)
高光譜圖像(HyperSpectral Image, HSI)具有光譜分辨率高、圖譜合一的獨特優(yōu)點[1],已被廣泛應(yīng)用于目標(biāo)追蹤、環(huán)境保護(hù)、農(nóng)業(yè)監(jiān)測及氣象預(yù)報等領(lǐng)域[2-4]。對高光譜圖像中每個像元進(jìn)行分類是高光譜遙感應(yīng)用的基石,具有極大的研究意義。
傳統(tǒng)的高光譜圖像分類方法往往僅利用光譜信息在低維空間上提取特征,典型的方法主要包括:K-均值聚類(K-means)方法[5]、流形學(xué)習(xí)(Manifold Learning)[6]、支持向量機(jī)(Support Vector Machine, SVM)[7]等。然而,這些分類方法依賴于淺層光譜特征,忽略了對高光譜空間信息的使用,同時所提取高光譜圖像特征的不變性及判別性較差。為了改善高光譜圖像的分類性能,聯(lián)合利用高光譜圖像的光譜和空間信息設(shè)計分類器已成為一個主要的研究方向。近年來,深度學(xué)習(xí)以其在視覺感知任務(wù)中的優(yōu)秀表現(xiàn)獲得了廣大高光譜分類研究者的熱切關(guān)注[8-12]。Liu等[13]將高光譜圖像的光譜帶看作一個圖像序列,使用長短期記憶網(wǎng)絡(luò)學(xué)習(xí)光譜信息的依賴關(guān)系,同時結(jié)合卷積神經(jīng)網(wǎng)絡(luò)來提取高光譜圖像的空間特征,提出了雙向卷積長短期記憶網(wǎng)絡(luò)(Bidirectional Convolutional Long Short Term Memory, Bi-CLSTM)空-譜提取模型;另一方面,Yang等[14]構(gòu)建雙通道卷積神經(jīng)網(wǎng)絡(luò)(Two-channel Convolutional Neural Network, Two-CNN)分別對光譜信息和空間信息進(jìn)行提取,繼而使用級聯(lián)(concatenate)的方式對空-譜特征進(jìn)行連接,但這種簡單的特征連接方式并不能捕捉空-譜特征之間的復(fù)雜關(guān)系;Zhang等[15]在此基礎(chǔ)上對光譜通道和空間通道不同層的特征進(jìn)行級聯(lián),實現(xiàn)空-譜分級特征融合的效果。該工作在高光譜圖像分類中,為從雙通道特征提取角度進(jìn)行空-譜特征結(jié)合提供了新思路,但該方法在特征結(jié)合方式上使用的仍是簡單的點積方式。
目前,為了聯(lián)合空-譜特征進(jìn)行高光譜圖像分類,大部分方法都采用級聯(lián)或者點積的方式獲得空-譜聯(lián)合特征向量[14-15];但這些方法僅僅是對特征進(jìn)行簡單的連接,產(chǎn)生的空-譜聯(lián)合特征向量并不能完全捕捉高光譜兩個模態(tài)之間的復(fù)雜聯(lián)系。在特征結(jié)合方式中,不同于級聯(lián)或點積,雙線性池化計算兩個向量的外積,即能夠捕捉兩個向量中所有元素之間的乘法交互關(guān)系,其已經(jīng)展示出在細(xì)粒度視覺分類中的有效性[16]。然而,雙線性池化由于采用外積計算策略,也帶來了維數(shù)急劇增加、計算復(fù)雜的問題。為了解決這一難題,Gao等[17]在單一模態(tài)下對雙線性池化維數(shù)壓縮方法進(jìn)行了研究。本文受此啟發(fā),將壓縮雙線性池化推廣到多模態(tài)條件下,從光譜和空間特征向量中每個元素相互關(guān)系的角度入手,探究高光譜圖像中光譜和空間信息之間的聯(lián)合特征表示。
根據(jù)高光譜圖像的數(shù)據(jù)特點,針對高光譜數(shù)據(jù)維數(shù)高,簡單的點積或級聯(lián)方式所獲得的空-譜聯(lián)合特征表達(dá)能力弱的問題,搭建雙通道網(wǎng)絡(luò)模型,利用1-D和2-D卷積核分別提取高光譜圖像的光譜和空間信息,并從空-譜特征融合的角度,采用多模態(tài)壓縮雙線性池化(Multimodal Compact Bilinear pooling, MCB)來獲得空-譜聯(lián)合特征,提出一種基于空-譜融合網(wǎng)絡(luò)(Spatial-Spectral Fusion Network, SSF-Net)的高光譜圖像分類方法。多模態(tài)壓縮雙線性池化先將雙通道所提取的光譜和空間特征向量的外積隨機(jī)地投射到更低的維數(shù)空間,繼而在快速傅里葉變換(Fast Fourier Transform, FFT)空間中將時域中向量的外積運(yùn)算轉(zhuǎn)換為頻域中使用點乘對兩個特征向量進(jìn)行卷積。最終,將產(chǎn)生的空-譜聯(lián)合特征輸入最后的線性分類器,用以對高光譜圖像每個像元分類。多模態(tài)壓縮雙線性池化既可以在像素級別充分融合雙通道所提取的空-譜特征,同時也避免了單特征直接外積計算所帶來的維數(shù)增加、計算困難的問題。實驗結(jié)果表明本文提出的算法可以獲得更高的像元分類精度。
為了充分利用高光譜圖像的空-譜聯(lián)合特征進(jìn)行像元分類,本文設(shè)計了雙通道(光譜通道和空間通道)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別學(xué)習(xí)光譜域和空間域的特征;同時,使用多模態(tài)壓縮雙線性池化方法對所提取的多模態(tài)特征進(jìn)行融合,以此來探索空-譜特征的相關(guān)性,改善高光譜圖像的分類性能。本文所提出的高光譜圖像分類網(wǎng)絡(luò)框架如圖1所示,其展示了網(wǎng)絡(luò)的兩個特征提取通道及多模態(tài)特征融合層的具體結(jié)構(gòu)。
光譜通道 選取原高光譜圖像第n個像素的光譜帶sn∈RM×1(其中M為光譜帶長度)作為光譜通道的輸入,此后使用1-D核對光譜輸入進(jìn)行卷積和最大池化操作,在光譜通道的全連接層獲得光譜通道的輸出特征f1(sn)∈RK×1(其中K為全連接層的神經(jīng)元個數(shù))。
圖1 空-譜融合網(wǎng)絡(luò)整體框圖
空間通道 首先,對原高光譜圖像在光譜維度上進(jìn)行主成分分析(Principal Component Analysis, PCA)降維處理,壓縮后的光譜維數(shù)為S(S?M)。這一步會丟掉一部分光譜信息,但圖像的空間信息不會受到影響;其次,在降維后的高光譜圖像中,選取與光譜通道輸入相對應(yīng)的第n個像素鄰域塊Pn∈RW×W×S(其中W為空間鄰域塊的長寬尺寸)作為空間通道的輸入,其后利用2-D核對空間輸入進(jìn)行卷積和最大池化操作,在空間通道的全連接層獲得所提取的空間特征f2(Pn)∈RK×1(其維數(shù)與光譜通道相同)。
空-譜特征融合 為了利用光譜和空間特征融合改善高光譜圖像分類的性能,將所提取的光譜特征f1(sn)與空間特征f2(Pn)傳入MCB層,以此來獲得多模態(tài)聯(lián)合特征向量Φ(f1(sn),f2(Pn))∈Rd×1,其中d?K2;由于MCB采用外積的計算概念,編碼了f1(sn)和f2(Pn)特征向量中每個元素之間的相互關(guān)系,故而所產(chǎn)生的多模態(tài)聯(lián)合特征向量比其他特征結(jié)合方式(比如級聯(lián))更具有表達(dá)性;此外MCB將f1(sn)和f2(Pn)特征向量投射到頻域空間,避免對外積的直接計算,其有效解決了原雙線性池化維數(shù)較高K2、計算復(fù)雜、容易產(chǎn)生過擬合等問題。最后,將所提取的多模態(tài)聯(lián)合特征Φ(f1(sn),f2(Pn))傳入頂端softmax線性分類器對每個像元進(jìn)行分類。
空-譜融合網(wǎng)絡(luò)結(jié)構(gòu)提取空-譜特征用于高光譜圖像分類可由{f1(sn),f2(Pn),Φ,C}四部分組成,分別對應(yīng)于雙通道網(wǎng)絡(luò)所提取的光譜特征、空間特征、空-譜聯(lián)合特征及分類函數(shù)。如何有效地將空-譜不同模態(tài)特征融合為單一特征Φ表示對從高光譜數(shù)據(jù)特點的角度研究高光譜分類具有重要價值。
Tenenbaum等[18]采用雙線性池化模型探究圖片內(nèi)容與圖片風(fēng)格之間的關(guān)系;Lin等[16]證明了雙線性模型在細(xì)粒度分類應(yīng)用中的有效性。雙線性模型采用外積策略聯(lián)合兩個單一向量,若應(yīng)用到本文來探究空-譜特征之間的關(guān)系,則有ΦBilinear(f1(sn),f2(Pn))=W[f1(sn)?f2(Pn)],其中?表示向量外積。這樣,雙線性模型允許空-譜向量的每一個元素以相乘的方式進(jìn)行特征融合,能夠充分探究空-譜特征之間的復(fù)雜關(guān)系;但雙線性模型在帶來特征高度融合性的同時,也帶來了高維數(shù)的特征表示問題。在本文中,經(jīng)過雙通道特征提取以后,所得到的光譜和空間特征分別為f1(sn)∈RK×1,f2(Pn)∈RK×1,文中取K=512,則f1(sn)?f2(Pn)∈R512×512,經(jīng)過線性運(yùn)算,所需學(xué)習(xí)的權(quán)值W∈R512×512。這樣的高維數(shù)參數(shù)學(xué)習(xí)與高光譜圖像可利用標(biāo)簽數(shù)據(jù)較少之間是矛盾的,極易引起過擬合問題,同時也帶來了高的計算花費。
根據(jù)以上分析,急需一種解決方案將向量的外積投射到低維空間中,避免對外積的直接計算。Gao等[17]在單一模態(tài)下提出壓縮雙線性池化,其利用Tensor Sketching算法的低維嵌入來近似表示同一模態(tài)的雙線性特征。本文在此基礎(chǔ)上,將壓縮雙線性池化推廣到多模態(tài)條件下,用以探究高光譜圖像的空-譜特征融合。
受壓縮雙線性池化的啟發(fā),MCB采用Count Sketch投射函數(shù)Ψ,將空-譜特征向量的外積f1(sn)?f2(Pn)投射到低維空間表示為Ψ(f1(sn)?f2(Pn),h,g)(其中h,g為哈希映射),用來解決雙線性模型維數(shù)過高、計算不靈活問題。而Pham等[19]曾解釋兩個向量外積的Count Sketch可表示為各自Count Sketch的卷積,則
Ψ(f1(sn)?f2(Pn),h,g)=Ψ(f1(sn),h1,g1)*
Ψ(f2(Pn),h2,g2)
(1)
其中*表示卷積運(yùn)算;故上述求解空-譜聯(lián)合特征的過程可轉(zhuǎn)化為f1(sn),f2(Pn)∈RK×1兩個特征向量分別使用Count Sketch函數(shù)Ψ投射為f1′(sn),f2′(Pn)∈Rd×1以便近似計算空-譜多模態(tài)雙線性特征。具體過程如下。
首先,隨機(jī)初始化兩個向量hk∈{1,2,…,d}K,gk∈{-1,1}K,其中k=1,2,hk將輸入向量fk(·)的每一個索引i映射到輸出向量的索引j∈{1,2,…,d},即j=hk[i];對于輸入向量的每一個索引i,gk[i]為1或-1;同時,hk在{1,2,…,d}及gk在{-1,1}上都是服從均勻分布的。其次,對于輸出向量的索引j所對應(yīng)的值存在關(guān)系fk′(·)[j]=fk′(·)[hk[i]]=∑gk[i]·fk(·)[i],i=1,2,…,K。這樣f1′(sn),f2′(Pn)∈Rd×1即為通過Count Sketch投射函數(shù)Ψ作用獲得的輸出向量。
此外根據(jù)卷積定理可知,時域中的卷積對應(yīng)于頻域中的乘積。故式(1)又可以表達(dá)為:
Ψ(f1(sn)?f2(Pn),h,g)=FFT-1(FFT(f1′(sn))⊙
f2′(Pn))
(2)
即
Φ(f1(sn),f2(Pn))=FFT-1(FFT(f1′(sn))⊙f2′(Pn))
(3)
其中:⊙表示點積運(yùn)算;Φ(f1(sn),f2(Pn))為最終獲得的空-譜特聯(lián)合征向量。多模態(tài)壓縮雙線性算法的偽代碼為:
輸入:光譜特征向量f1(sn)∈RK×1,空間特征向量f2(Pn)∈RK×1。
輸出:空-譜聯(lián)合特征向量Φ(f1(sn),f2(Pn))∈Rd×1。
Fork=1,2
Fori=1,2,…,K
hk[i]將i均勻映射到{1,2,…,d}
gk[i]將i均勻映射到{-1,1}
End
Fori=1,2,…,K
j=hk[i]
fk′(·)[j]=fk′(·)[hk[i]]=∑gk[i].fk(·)[i],i=1,2,…,K
End
返回結(jié)果fk′(·)=Ψ(fk(·))
End
返回Φ(f1(sn),f2(Pn))=FFT-1(FFT(f1′(sn))⊙f2′(Pn))
多模態(tài)壓縮雙線性池化能夠被嵌入到雙通道特征提取網(wǎng)絡(luò)中進(jìn)行端到端的訓(xùn)練,本節(jié)將介紹其在網(wǎng)絡(luò)中反向傳播的過程。
假設(shè)損失函數(shù)為Loss,則根據(jù)式(1)可知MCB的反向傳播能夠表示為:
(4)
(5)
(6)
(7)
其中,i=1,2,…,K,由于hk僅是關(guān)于向量索引的映射,故而在反向傳播過程中,僅需計算gk,k=1,2的梯度即可。
本文實驗使用Indian Pines和University of Pavia兩個高光譜數(shù)據(jù)集來驗證本文所提出的算法的有效性。Indian Pines數(shù)據(jù)集為航空可見紅外成像光譜儀 (Airborne Visible Infrared Imaging Spectrometer, AVIRIS) 于1992年采集得到的高光譜圖像,其包含220個波段(波長范圍為0.4~2.5 μm),有16種主要地物,圖像大小為145像素×145像素,空間分辨率為20 m,去除其中20個噪聲嚴(yán)重的波段(104~108,150~163,220),得到包含200個光譜波段的數(shù)據(jù)。圖2(a)、(b)為原始Indian Pines數(shù)據(jù)集對應(yīng)的假彩色影像和標(biāo)記模板。University of Pavia數(shù)據(jù)集為反射光學(xué)系統(tǒng)成像光譜儀(Reflective Optics System Imaging Spectrometer, ROSIS)采集得到的高光譜數(shù)據(jù),其包含115個波段(波長范圍為0.43~0.86 μm),含9種主要地物,圖像大小為610像素×340像素,空間分辨率為1.3 m,去除其中噪聲嚴(yán)重的12個波段,剩余103個光譜波段的數(shù)據(jù)用來分類。圖3(a)、(b)為University of Pavia數(shù)據(jù)集對應(yīng)的假彩色影像和標(biāo)記模板。本文實驗基于Caffe框架[20],顯卡為GTX860 4 GB的PC。
為了評價文中所提出算法的分類精度,本實驗將其與最新的基于深度學(xué)習(xí)的高光譜圖像分類方法:CNN[12]、Bi-CLSTM[13]及以級聯(lián)方式結(jié)合空-譜特征的Two-CNN[14]方法進(jìn)行對比。Indian Pines和University of Pavia數(shù)據(jù)集被隨機(jī)分為:10%為訓(xùn)練集,10%驗證集及80%測試集。同時,采用總體分類精度(Overall Accuracy, OA),平均分類精度(Average Accuracy, AA),Kappa系數(shù)及每一類的分類精度來評估模型的性能。
實驗中空-譜融合網(wǎng)絡(luò)(SSF-Net)模型各層參數(shù)如表1所示。本實驗中通過隨機(jī)梯度下降法對Two-CNN及SSF-Net進(jìn)行訓(xùn)練,使用Salinas Valley數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行微調(diào),利用“多步”(multistep)策略調(diào)整學(xué)習(xí)率,初始學(xué)習(xí)率權(quán)重base_lr為0.000 1,調(diào)整系數(shù)gamma為0.8,最大迭代次數(shù)max_iter為100 000。
表1 SSF-Net網(wǎng)絡(luò)參數(shù)設(shè)置
CNN、Bi-CLSTM、Two-CNN及本文所提出的SSF-Net在Indian Pines和University of Pavia數(shù)據(jù)集上的分類準(zhǔn)確率如表2所示,其對應(yīng)的分類效果如圖2~3所示。表2最后一列的加粗?jǐn)?shù)據(jù)為本文算法所改善的分類精度,從SSF-Net與其他深度學(xué)習(xí)方法的分類精度對比情況可以看出,SSF-Net相比CNN、Bi-CLSTM高光譜分類算法,OA、AA、Kappa等分類精度得到了明顯提高(提高2個百分點左右);與Two-CNN的分類效果相比,SSF-Net的OA、AA、Kappa精度提高2~3.5個百分點,說明了相比簡單特征級聯(lián),MCB所獲得的空-譜聯(lián)合特征能夠更充分捕捉空-譜特征之間的復(fù)雜關(guān)系,有助于高光譜分類性能的提高。而從圖2~3的分類效果中可以看出,基于MCB的雙通道網(wǎng)絡(luò)所產(chǎn)生的分類效果圖噪點更少,即錯分類的樣本點更少,如圖2(f)相比圖2(e),把Grass-pasture錯分為Corn-notill的像素點更少。
圖2 Indian Pines數(shù)據(jù)集分類效果
為了探究MCB層投射維數(shù)對SSF-Net網(wǎng)絡(luò)性能的影響,本部分將在數(shù)據(jù)集Indian Pines上,比較投射維度d對OA、AA、Kappa分類精度的作用,如圖4所示。文中F11和F21層的維數(shù)為512,從圖4可以看出,當(dāng)MCB層維數(shù)從128到512時,OA增加1%的精度,相較維數(shù)從512增加至1 024時OA值增加要快,但維數(shù)低于512時,高光譜分類的AA值較低,表明少部分類別錯誤分類較多;雖然維數(shù)為1 024時分類性能要好于維數(shù)為512的網(wǎng)絡(luò),但增加維數(shù)的同時也增加了計算量,精度提升并不明顯。相比較而言,當(dāng)雙通道各自提取的特征維度為512時,MCB層取維數(shù)為512最合適。
圖3 University of Pavia數(shù)據(jù)集分類效果
表2使用不同方法在兩個數(shù)據(jù)集上的分類結(jié)果對比%
Tab. 2 Classification results on two data sets using different methods %
數(shù)據(jù)集類別CNNBi-CLSTMTwo-CNNSSF-NetIndian PinesUniversityof PaviaAlfalfa71.2293.66100.00100.00Corn-notill90.1096.8489.3293.35Corn-mintill91.0397.2293.9898.64Corn85.7396.7198.4296.32Grass-pasture83.3692.2893.0196.11Grass-trees91.9999.3997.0999.32Grass-pasture-mowed85.6092.00100.00100.00Hay-windrowed97.3599.9195.55100.00Oats54.4576.67100.00100.00Soybean-notill75.3895.9394.2296.92Soybean-mintill94.3696.3196.8499.08Soybean-clean78.7393.3384.3992.62Wheat95.9895.7695.7397.56Woods96.8099.4997.83100.00Building-Grass-Trees96.5498.6794.1797.73Stone-Steel-Towers81.9087.38100.0093.24OA90.1496.7894.4497.50AA85.6694.4795.6697.56Kappa88.7396.3393.6597.14Asphalt96.7298.5699.28100.00Meadows96.3199.2399.47100.00Gravel97.1599.2792.5699.76Painted Metal Sheets99.8199.8798.61100.00Trees96.1698.2195.7299.02Bare Soil94.8799.5699.23100.00Bitumen97.4499.7591.5494.64Self-Blocking Bricks98.2399.8297.6699.66Shadows98.0499.5395.7897.49OA96.5599.1098.2999.67AA97.1999.2096.6598.95Kappa95.3098.7797.7499.56
針對空-譜特征簡單結(jié)合產(chǎn)生維數(shù)過高及聯(lián)合特征表達(dá)能力較弱的問題,本文提出一種基于空-譜融合網(wǎng)絡(luò)的高光譜圖像分類方法。該方法以空-譜信息為基礎(chǔ),探究雙通道特征提取網(wǎng)絡(luò)的特征融合方法。為了分析空-譜特征之間的關(guān)系,采用雙線性模型的外積計算策略尋找光譜和空間特征向量中各元素之間的復(fù)雜聯(lián)系??紤]直接外積計算會帶來維數(shù)災(zāi)難,導(dǎo)致網(wǎng)絡(luò)過擬合問題,文中提出多模態(tài)壓縮雙線性池化方法,將原特征向量的外積投射到低維空間中,轉(zhuǎn)換為傅里葉空間頻域中的點積運(yùn)算。該方法既可以汲取雙線性模型能夠?qū)庾V和空間特征向量中的每一個元素進(jìn)行融合的特點,也避免了雙線性模型直接外積運(yùn)算帶來的高維數(shù)、高計算消耗的問題。同時,實驗也驗證了MCB所獲得的空-譜聯(lián)合特征更有助于改善高光譜圖像的分類性能??紤]本文在提取高光譜的空間信息時,對光譜通道進(jìn)行了降維,這損失了一部分高光譜特征,未來將從降低光譜通道降維帶來特征損失這一角度出發(fā),對高光譜圖像特征提取方法進(jìn)行研究。
圖4 MCB層維數(shù)對分類精度的影響