龍 浩,徐 聰,姚 浩
(1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點實驗室,北京 100101;2.北京聯(lián)合大學(xué) 機器人學(xué)院,北京 100027)
近幾年,一些深度學(xué)習(xí)網(wǎng)絡(luò)模型被逐步應(yīng)用到高光譜圖像分類任務(wù)中。文獻[1]從類別的角度提出一種類特征加權(quán)的高光譜分類方法,從感興趣的類(Category of Interest)中提取三類特征(intra-CFs,inter-CFs, total CF)用于改進高光譜分類的特征。文獻[2]針對采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法處理高光譜圖像容易出現(xiàn)的過擬合問題,提出了一種新的基于多尺度協(xié)方差圖的手工特征提取方法,改進了高光譜分類效果。文獻[9]提出了一種迭代訓(xùn)練樣本增強算法及一種結(jié)合了該算法和最大邊距投影的新分類模型,該模型使小的初始樣本集和不平衡的數(shù)據(jù)集得到有效增強,從而獲得更高的分類精度。文獻[10]首先利用超像素分割法來給數(shù)據(jù)集降維,然后利用層注意力機制對分類目標進行特征自適應(yīng)選擇,實現(xiàn)端對端的半監(jiān)督分類。文獻[11]討論了基于卷積核的哈希學(xué)習(xí)方法在高光譜分類中的應(yīng)用,在核哈希學(xué)習(xí)中引入徑向基函數(shù)以提高運行效率,并采用四維卷積表達空間鄰域信息,達到了很好的分類效果。文獻[12]采用3D-CNN 在高光譜圖像數(shù)據(jù)上直接提取分類特征,與2D-CNN的特征提取方式不同,3D-CNN以空間維的某像素為中心, 提取該像素鄰域范圍內(nèi)的譜信息,組成三維空譜特征。
以上各類方法雖然取得了較好的分類結(jié)果,但與應(yīng)用于自然景觀目標分類任務(wù)的大型數(shù)據(jù)庫相比,現(xiàn)有的高光譜分類數(shù)據(jù)庫中的訓(xùn)練樣本較少,對于參數(shù)量比較多的深度學(xué)習(xí)分類方法來說容易出現(xiàn)過擬合(Over-fitting)問題。本文設(shè)計了一種新型的旋轉(zhuǎn)卷積受限波爾茲曼機(Rotating Convolutional Restricted Boltzmann Machine,RCRBM)無監(jiān)督圖像分類網(wǎng)絡(luò)框架,在沒有卷標數(shù)據(jù)的情況下對高光譜圖像進行分類。
為了能夠使用受限波爾茲曼機(Restricted Boltzmann Machine, RBM)處理高維圖像并且獲得局部旋轉(zhuǎn)不變的特征,Lee等人提出卷積受限波爾茲曼機(Convolutional Restricted Boltzmann Machine, CRBM)和卷積深度信念網(wǎng)絡(luò)(Convolutional Deep Belief Network, CDBN)[13],如圖1所示。CRBM包括一個可視層V和一個檢測層H,CRBM的目的是學(xué)習(xí)到可視層V和檢測層H之間的統(tǒng)計關(guān)系。在圖1中,H包括了K組單元,最大池化層P使用池化窗口Bα,縮減了檢測層的維度,Bα的寬度為G個像素,學(xué)習(xí)得到的卷積核Wk(k∈[1,K])在圖像中的所有位置是共享的[14]。
圖1 受限波爾茲曼機
可視節(jié)點v和檢測節(jié)點h的聯(lián)合概率為
(1)
其中,Z=∑v∑hexp(-E(v,h)),是一個歸一化的參數(shù)或者分離函數(shù)。
CRBM的能量函數(shù)定義為
1.2.4 流式細胞術(shù)檢測細胞周期 細胞轉(zhuǎn)染48 h后,收集各組細胞,加入預(yù)冷70%乙醇,4℃固定2 h,棄去上清液,PBS清洗2次,離心5 min,棄上清,每管細胞樣品中加入染色緩沖液500 μL,緩慢并充分重懸,加入碘化丙啶染色液25 μL混勻,加入 RNase A 10 μL,混勻,37 ℃避光溫育30 min,冰浴避光存放,隨即進行流式細胞術(shù)檢測。
(2)
Gibbs采樣使用的條件概率分布定義為式(3)和(4),其中sigmoid函數(shù)定義為g(x)=(1+exp(-x))-1。
(3)
(4)
(5)
其中,檢測層中第α個池化窗口Bα的寬度為G。
本文提出的RCRBM是以CRBM為基礎(chǔ)的,并且旋轉(zhuǎn)卷積深度信念網(wǎng)絡(luò)(Rotating Convolutional Deep Belief Network, RCDBN)也可由多個概率最大池化RCRBMs疊加構(gòu)成。對RCDBN的訓(xùn)練采用貪婪的學(xué)習(xí)方式,即一層一層的訓(xùn)練。當某一層RCRBM訓(xùn)練好之后,它的參數(shù)即被固定,它的激勵值被用于下一層RCRBM的訓(xùn)練。
為了解決高光譜三維數(shù)據(jù)中光譜數(shù)據(jù)無規(guī)則連接的問題,本文提出用旋轉(zhuǎn)卷積來卷積一個三維局部區(qū)域。旋轉(zhuǎn)卷積定義了一個新型的卷積窗口和一個新型的卷積窗口移動方式,是一種特殊的設(shè)計,并能夠在三維數(shù)據(jù)上直接進行卷積。
旋轉(zhuǎn)卷積采用一個扇形卷積窗,通過繞著區(qū)域中心點法向量旋轉(zhuǎn)的方式,卷積一個局部區(qū)域。如圖2所示,一個紅色扇形窗口繞著中心點法向量到達藍色扇形窗口,旋轉(zhuǎn)時保持兩個相鄰的扇形窗口具有一定的重疊區(qū)域。當該扇形區(qū)域繞著中心點法向量旋轉(zhuǎn)時,扇形區(qū)域便能夠掃描整個三維局部區(qū)域,且定義旋轉(zhuǎn)方向滿足右手定則,即當視角對著中心點法向量時,紅色扇形區(qū)域?qū)⒀刂鏁r針方向旋轉(zhuǎn)。
圖2 旋轉(zhuǎn)卷積
旋轉(zhuǎn)卷積有兩個參數(shù):扇形窗口尺寸、旋轉(zhuǎn)步長。由于在三維模型上參數(shù)化扇形窗口和旋轉(zhuǎn)步長十分困難,而二維卷積窗口的尺寸及運動與三維卷積窗口的尺寸及運動是同步的,因此使用二維扇形窗口來參數(shù)化對應(yīng)的三維扇形窗口。二維扇形窗口的頂角角度θc控制著二維扇形窗口及三維扇形窗口的覆蓋面積;二維扇形窗口的旋轉(zhuǎn)步長角度為θs。本文使用符號(*)表示旋轉(zhuǎn)卷積,依據(jù)扇形窗口及它的移動方式,將其表示為
(6)
其中:X表示三維局部區(qū)域的原始表征;W是卷積三維局部區(qū)域的卷積核。使用旋轉(zhuǎn)卷積,一個抽象圖像Y可由節(jié)點組成,節(jié)點的位置由θs確定。
總之,由于旋轉(zhuǎn)卷積能夠覆蓋整個局部區(qū)域,并且有合理的參數(shù),這兩點保證了旋轉(zhuǎn)卷積能夠編碼三維形式的空譜局部特征。
RCRBM包括三層:可視層V,檢測層H,最大池化層P。RCRBM和CRBM最大的區(qū)別在于每層節(jié)點的排列方式。RCRBM每層中的節(jié)點是排列成環(huán)狀的,而不是像CRBM中的二維矩陣。在可視層V,通過N個步長從一個局部區(qū)域計算得到fPDD,即從所有扇形窗口中提取的投影距離分布(Projection Distance Distribution, PDD)。其中,N=360°/θs。從一個扇形卷積窗口內(nèi)計算得到的PDD是一個m維的向量,其中m=25(投影距離間隔),并在所有的實驗中保持不變。然后,fPDD作為RCRBM的輸入,被傳送到可視層V的N×m個節(jié)點中。
檢測層和池化層都包括K組節(jié)點。對每個k∈[1,K],旋轉(zhuǎn)卷積使用1×m維的卷積核Wk卷積可視層,卷積的結(jié)果存放在N個節(jié)點的環(huán)狀檢測層Hk中。在檢測層Hk,通過選擇池化窗口B內(nèi)鄰近的P個節(jié)點的最大值,縮減后得到對應(yīng)的池化層Pk,并且每個池化層包括N/P個節(jié)點。通過最大池化進行縮減有兩點好處:高層表征中對低層表征的微小波動不敏感;減小后續(xù)計算過程的計算量。
輸出層通過傅立葉變換的模(Fourier Transform Modulus, FTM)變換池化層。當把環(huán)狀池化層的節(jié)點拉伸成N/P維度的向量Fk時,F(xiàn)k不可避免地依賴于切割池化層的位置。為了消除切割位置對Fk的影響,使用FTM得到不依賴于切割位置的表征Fk。局部特征通過串聯(lián)所有Fk得到,它是K×N/P維的向量。
根據(jù)RCRBM的結(jié)構(gòu),RCRBM的能量函數(shù)、可視層V和檢測層H的聯(lián)合概率分布分別定義為
(7)
(8)
RCDBN是一個為三維局部區(qū)域設(shè)計的階層式生成模型,由幾個最大池化卷積受限波爾茲曼機層疊而成。RCDBN的訓(xùn)練可以貪婪(Greedy)地對RCRBM進行逐層訓(xùn)練[17]。
盡管最大池化RCRBM能夠通過堆棧形成RCDBN,但是由于PDD是一個分布,如果PDD的分辨率太高,即投影距離間隔太多,就會引入噪聲,使PDD不能很好地獲取和表達光譜信息中的最重要特征,造成分辨率下降。所以,一般PDD的分辨率比較低,即投影間隔通常設(shè)置較少。然而,如果PDD的分辨率很低,PDD就對小的光譜變化不敏感。具體來說,PDD獲取光譜變化主要是通過扇形窗口的旋轉(zhuǎn)來獲取,當旋轉(zhuǎn)步長很小并且PDD的分辨率很低時,光譜變化就體現(xiàn)不出來或者被忽略。為了解決這個問題,旋轉(zhuǎn)步長一般被設(shè)置的相對較大,這樣就能夠在PDD分辨率很低的情況下識別光譜變化。然而,大的旋轉(zhuǎn)步長將會為高層RCRBM提供較少的池化層節(jié)點,這樣就減少了信息量的提取。作為權(quán)衡,旋轉(zhuǎn)角度步長在實驗中被設(shè)置為10°,來捕捉兩個相鄰扇形窗口的光譜和空譜信息。
RCRBM共有5個參數(shù):頂角角度θc,步長角度θs,局部區(qū)域的半徑R,卷積核個數(shù)K,以及訓(xùn)練樣本個數(shù)T。由于步長θs=10°,以便更多地獲得相鄰扇形卷積窗口之間的空譜特征的變化,相應(yīng)地,檢測層Hk的節(jié)點個數(shù)N=360°/10°。
在實驗中,當卷積核的個數(shù)K=20時,訓(xùn)練效果最好;當T= 30%樣本、θc=40°時,將R嘗試使用0.07、0.09、0.11 及0.13倍的LGD,當R為0.11倍的LGD時,取得了最好的結(jié)果。
在國際通用數(shù)據(jù)集Indian Pines及Pavia University上,對比最新的高光譜分類方法,評估本文方法的性能表現(xiàn)。為了表述方便,將數(shù)據(jù)集中的各類數(shù)據(jù)名稱用編號代替,如表1和表2所示。
表1 Indian Pines數(shù)據(jù)庫數(shù)據(jù)類型編號表
表2 Pavia University數(shù)據(jù)庫數(shù)據(jù)類型編號表
表3、表4表明了不同方法在不同數(shù)據(jù)集上的性能表現(xiàn),評價一個高光譜圖像分類方法的優(yōu)劣通常需要計算一些定量指標,主要包括總體準確度(Overall Accuracy,OA)、平均準確度(Average Accuracy,AA)和分類精度平均值Kappa系數(shù)。從表3可以看出,在Indian Pines 數(shù)據(jù)集上,具有多項式核的SVM-Poly的結(jié)果與文獻[18]中相同;CNN[19]沒有顯示數(shù)據(jù)結(jié)果,因此在表格中用“-”表示;本文的RCDBN方法比傳統(tǒng)DBN方法的性能有顯著提升;半監(jiān)督方法GL獲得了OA為90.84%、AA為93.23%、Kappa系數(shù)為0.888 4的結(jié)果,這個結(jié)果與RCDBN相近。在Indian Pines數(shù)據(jù)集中共有16類不同地物類別,然而其中8種只有少量的訓(xùn)練資料,因此為了實驗統(tǒng)計更有區(qū)分度和比較性,這8種數(shù)據(jù)被忽略不計。
表3 不同方法在Indian Pines數(shù)據(jù)集上的性能比較
表4 不同方法在Pavia University數(shù)據(jù)集上的性能比較
不同方法在Indian Pines數(shù)據(jù)集上的分類結(jié)果如圖3所示,在Pavia University數(shù)據(jù)集上的分類結(jié)果如圖4所示。RCDBN優(yōu)于其他方法的原因在于,針對高光譜特殊的三維數(shù)據(jù)特點,采用了全新設(shè)計的RCRBM網(wǎng)絡(luò)結(jié)構(gòu),用旋轉(zhuǎn)卷積對每個光譜波段進行扇形局部特征的提取。旋轉(zhuǎn)卷積能夠在每個波段與空間數(shù)據(jù)構(gòu)成的三維曲面上進行特征提取,特別是當高光譜圖像存在混合像素時,可以通過設(shè)置采樣點數(shù)來擴充空間維的分辨率,而不局限于傳統(tǒng)的2D-CNN以像素為提取單位,從而利用提取到的每個采樣點局部區(qū)域的PDD光譜數(shù)據(jù)特征對地物目標進行高精度分類。
圖3 不同方法在Indian Pines數(shù)據(jù)集上的分類結(jié)果
圖4 不同方法在 Pavia University數(shù)據(jù)集上的分類結(jié)果
本文提出的RCRBM通過疊加可以得到更深層的RCDBN,在訓(xùn)練樣本較少的情況下,可以無監(jiān)督地學(xué)習(xí)三維高光譜特征,彌補了手工設(shè)計描述符的不足,解決了使用深度網(wǎng)絡(luò)階層式學(xué)習(xí)三維模型的一些困難。本文還提出三維原始局部表征PDD,這說明RCRBM的旋轉(zhuǎn)結(jié)構(gòu)具備了通過旋轉(zhuǎn)卷積直接在三維模型表面提取特征的能力。使用RCRBM進行高光譜圖像分類,無需對高光譜數(shù)據(jù)進行PCA降維,而是采用旋轉(zhuǎn)卷積核,直接在原始數(shù)據(jù)上進行有序卷積運算,最大限度地保留了原始數(shù)據(jù)信息,因此在性能表現(xiàn)上優(yōu)于實驗中的其他方法。