池 濤 , 王 洋, 陳 明
(1.上海海洋大學 農(nóng)業(yè)部漁業(yè)信息重點實驗室, 上海 201306;2. 喀什大學計算機科學技術學院, 喀什 944104)
高光譜影像HSI(hyperspectral image)[1]含有豐富的光譜信息和空間信息在空間觀測和目標識別中有著重要地位. 它廣泛使用在現(xiàn)代軍事、精準農(nóng)業(yè)以及環(huán)境監(jiān)控等諸多領域.
高光譜圖像分類[2]是高光譜影像處理和應用的重要組成部分. 高光譜圖像包含了上百個光譜通道,并且具有高維特性、波段間高度相關性以及光譜混合等特性. 這使得高光譜圖像分類成為一個巨大的挑戰(zhàn). 由于光譜信號的高維度、不確定性、信息冗余以及表面覆蓋的異構性和同質性,使得高光譜數(shù)據(jù)結構具有高度非線性的特征,這導致基于統(tǒng)計模式識別的分類模型難以直接分類和識別高光譜數(shù)據(jù). 同時,樣本數(shù)量有限并且質量好壞不一,從而導致分類器模型的參數(shù)難以估計或者估計不準確. 在這些情況下,高光譜圖像的準確分類需要建立復雜的數(shù)學模型,從而可以真實的反映數(shù)據(jù)的內(nèi)在本質. 模型訓練過程需要繁瑣的預處理和后處理. 通過研究和實踐表明,傳統(tǒng)的遙感影像技術在分析高光譜圖像時無法解決高維數(shù)據(jù)小樣本識別、高光譜圖像分類精度等問題,目前機器學習、計算機視覺以及模式識別的理論和方法成為高光譜圖像分類的重要技術手段.
為了實現(xiàn)高效、高精度的高光譜圖像分類,曾在高光譜圖像上采用K鄰近算法、主成分分析(principal components analysis, PCA)、支持向量機SVM(support vector machine)等方法. 隨著特征提取和分類方法改進,提出了光譜空間分類法、局部Fisher判別法、U-Net卷積神經(jīng)網(wǎng)絡分割圖像法[2]等多種方法,取得了較好的結果. 其中,支持向量機SVM[3]被認為是高效和魯棒性良好的方法,適用于小規(guī)模訓練樣本. 它是一種監(jiān)督學習模型,通過非線性映射將樣本空間映射到一個高維甚至無窮維的特征空間(Hilbert空間)中. 將原始樣本空間中的非線性可分問題變成比原始樣本空間更高維度空間中的線性可分問題,并在高光譜圖像分類中有著良好的效率和正確率.
以卷積神經(jīng)網(wǎng)絡CNN(convolutional neural network)[4]為代表的深度學習技術在圖像分類和模式識別方面具有良好的性能. 隨著神經(jīng)網(wǎng)絡的發(fā)展,CNN越來越多的被應用于高光譜數(shù)據(jù)的分類. 例如,多層感知器MLP(multilayer perception)[5]和徑向基函數(shù)RBF(radial basis function)[6]的應用.
CNN方法在機器視覺方面分類效果優(yōu)于傳統(tǒng)的SVM分類器. 實際上,在高光譜圖像分類任務中,SVM在分類精度、時間復雜度和空間復雜度方面優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡的,但不能因此放棄神經(jīng)網(wǎng)絡這樣強大的工具. 在本文實驗過程中,當訓練數(shù)據(jù)足夠大時,本文提出的改進型卷積神經(jīng)網(wǎng)絡的精度可以優(yōu)于SVM.
文獻[7]提出的卷積神經(jīng)網(wǎng)絡網(wǎng)絡,只有Alexnet網(wǎng)絡參數(shù)的10%大小,在計算機視覺上的分類精度和算法效率上優(yōu)于Alexnet網(wǎng)絡. 文獻[1]中將CNN直接應用于高光譜分類中,本文通過實現(xiàn)該論文中方法作為改進前CNN網(wǎng)絡. 本文通過文獻[7]中提高卷積神經(jīng)網(wǎng)絡的非線性特征學習能力的改進策略應用對高光譜影像分類的CNN方法改進,改進后的網(wǎng)絡結構能夠有效提高對高光譜影像非線性特征的學習能力,有效提高分類精度[7].
針對高光譜圖像每個像素的不同頻譜的特征具有非線性,本文提出在傳統(tǒng)CNN網(wǎng)絡的基礎上通過改變卷積層感知器和激活函數(shù),并且引入批標準化層,實現(xiàn)多層局部感知網(wǎng)絡結構,增強其對非線性特征的學習能力.
2.1.1 多層感知器卷積層(Mlpconv layer) 經(jīng)典卷積神經(jīng)網(wǎng)絡中的卷積層實際使用線性濾波器對圖像進行內(nèi)積運算,與單層神經(jīng)網(wǎng)絡類似,卷積濾波器實際就是一種廣義線性模型GLM(generalize linear model), GLM的抽象能力相對較低. 例如Lenet-5[8]是一個經(jīng)典的卷積神經(jīng)網(wǎng)絡結構,它的卷積層為線性濾波器.
線性卷積層假設其上層一個輸入為xm,步長為s,卷積核大小為k,激活函數(shù)為f,輸出為n(指代由一個樣本數(shù)據(jù)通過n個神經(jīng)元輸出n個數(shù)據(jù),在這里沒有給定具體數(shù)值僅僅代表這個變量與圖1中下標n對應,以更好描述一個線性卷積層結構和運算過程,在2.2節(jié)中給出模型的具體數(shù)值),i代表0~n之間的第i個輸出數(shù)據(jù)或第i個神經(jīng)元;j代表輸出數(shù)據(jù)中第j個基本數(shù)據(jù);神經(jīng)元激活函數(shù)為f;權重矩陣W;偏置為b(每個神經(jīng)元由激活函數(shù)、權重矩陣和偏置三部分組成);T為轉置,該卷積層的過程如圖1所示.
圖1 線性卷積層Fig.1 Linear convolution layer
則線性卷積層中第i個神經(jīng)元的計算公式如下.
(1)
本文對卷積神經(jīng)網(wǎng)絡的卷積層進行了較大的改進,使用MLP(多層感知器)作為卷積層模型,從而提高非線性特征學習能力. 在實際使用過程中,通過在經(jīng)典卷積層后增加兩層卷積核為1*1的卷積層實現(xiàn). 由于采用了Mlpconv卷積層,網(wǎng)絡在前面卷積階段特征提取效果提高,極大地減少了參數(shù)和過擬合風險.
圖2 多層感知器卷積層Fig.2 Mlpconv layer
從圖2可以看到,Mlpconv卷積層網(wǎng)絡結構就是在圖1的基礎上增加兩層卷積核為1*1,輸出為n,步長為1,相同激活函數(shù)的卷積層. 簡而言之,多層感知器卷積層使用Mlp網(wǎng)絡結構,對局部感受野的神經(jīng)元進行更復雜的運算操作,可以對非線性特征更加敏感,而線性卷積層,局部感受野的運算僅僅只是一個單層的神經(jīng)網(wǎng)絡.
2.1.2 激活函數(shù)層(activation function layer)所謂激活函數(shù)(activation function),就是在人工神經(jīng)網(wǎng)絡的神經(jīng)元上運行的函數(shù),負責將神經(jīng)元的輸入映射到輸出端. 通過在激活函數(shù)給神經(jīng)元引入了非線性因素,從而使得神經(jīng)網(wǎng)絡可以更加逼近任何非線性函數(shù),這樣的神經(jīng)網(wǎng)絡就可以被應用于更多的非線性模型中.
常用的Relu激活函數(shù)(the rectified linear unit),被使用于隱藏層神經(jīng)元輸出. 與線性激活函數(shù)相比,Relu激活函數(shù)克服了梯度消失、訓練速度等問題,但在實驗過程中,大量局部神經(jīng)元出現(xiàn)飽和情況(也稱神經(jīng)元死亡),無法有效學習特征. 因而本文方法采取Relu激活函數(shù)(the rectified linear unit)的變種,帶泄露線性整流(Leaky ReLU)[9]. 當輸入x為負時,帶泄露線性整流函數(shù)(Leaky ReLU)的梯度為一個常數(shù)λ∈(0,1),而不是0. 當輸入為正時,帶泄露線性整流函數(shù)和Relu激活函數(shù)保持一致. 數(shù)學表達方式:
(2)
本文使用MATLAB神經(jīng)網(wǎng)絡工具箱函數(shù)提供的默認值0.01作為常數(shù)λ的取值,同時參考多數(shù)神經(jīng)網(wǎng)絡模型取較小的數(shù)值作為常數(shù)λ的取值就可以避免飽和現(xiàn)象. 通過實驗測試,當常數(shù)λ∈(0.005,0.1)時既可以避免飽和現(xiàn)象,同時加速模型收斂. 當取值過大訓練時間增加,當取值過小則無法避免飽和現(xiàn)象影響正確率.
2.1.3 批標準化層(batch normalization) 本文在每個卷積層中激活函數(shù)層之前增加批標準化層(batch normalization)[10],實際過程表現(xiàn)為對卷積層的神經(jīng)元批量標準化處理,對于在非線性函數(shù)映射后不斷向取值區(qū)間飽和區(qū)靠攏的輸入分布強行映射到比較標準的正態(tài)分布,使非線性變換函數(shù)的輸入落入對輸入值比較敏感的取值區(qū)間,從而解決梯度消失問題. 設同一最小批次B有m個樣本:B={x1...m};神經(jīng)元激活函數(shù)為f;權重矩陣W; 偏置為b; 左箭頭符號為命題的“條件”運算,一般可以根據(jù)實際數(shù)據(jù)再做調整,在本文中該符號與等號含義相同. 本文通過實驗測試最小批次樣本數(shù)為96個,可以使多數(shù)樣本數(shù)值調整到合理區(qū)間范圍內(nèi),能有效提取特征,提高訓練模型分類精度.
最小批次B均值如下式.
(3)
最小批次B方差如下式.
(4)
標準化處理如下式.
(5)
卷積激活如下式
(6)
傳統(tǒng)線性卷積層中神經(jīng)元做卷積和激活操作,改進后卷積層對同一神經(jīng)元同一批次做批標準化處理、然后在標準化后的樣本上進行卷積和激活操作. 本文將批標準化層(batch normalization)引入卷積層中,可以增加訓練速度,加快收斂過程,減小局部神經(jīng)元死亡風險.
2.2.1 多層局部感知CNN網(wǎng)絡模型 卷積神經(jīng)網(wǎng)絡是一種人工神經(jīng)網(wǎng)絡. 它實際上是一種前饋式神經(jīng)網(wǎng)絡,一般包含卷積層(convolutional layers)、池化層(pooling layers)和全連接層(fully connect layers). 每個隱藏層神經(jīng)元通過連接輸入的一部分并非全連接,通過利用過濾器的局部敏感性實現(xiàn)模型對于目標不同空間域的相關性的學習. 經(jīng)典的卷積神經(jīng)網(wǎng)絡結構為LeNet-5,每個隱藏層連接一部分輸入圖像區(qū)域. 該網(wǎng)絡結構受貓的腦部視覺皮層工作原理啟發(fā),通過模擬視覺皮層細胞對局部的視野非常敏感,敏感區(qū)域也是感受野,大量的感受野感受整個視野,同時這也會造成神經(jīng)元過多,參數(shù)過大問題,這些感受野通過共享權重的方式解決該問題. 對于大多數(shù)二維圖像識別的卷積神經(jīng)網(wǎng)絡結構,輸入層之后是由卷積層和最大池化層交替疊加構成,接近輸出層由全連接層構成. 典型的卷積網(wǎng)絡結構如圖3所示.
圖3 典型的卷積神經(jīng)網(wǎng)絡結構
在卷積神經(jīng)網(wǎng)絡中用多層感知器卷積層(Mlpconv Layer)代替線性卷積層(linear convolution layer)提高卷積神經(jīng)網(wǎng)絡對于非線性特征的學習能力. 改進后卷積神經(jīng)網(wǎng)絡結構如圖4所示.
圖4 改進后卷積神經(jīng)網(wǎng)絡結構Fig.4 Improved convolutional neural network structure
2.2.2 構建增強非線性學習的CNN分類器 本文構建的卷積神經(jīng)網(wǎng)絡結構如圖5,其中共包含7層,分別是輸入層、卷積層C1、卷積層C2、卷積層C3、最大池化層M4、全連接層FC5、輸出層. 設輸入尺寸為1*m1*1,其他各層輸出尺寸1*m2*1、1*m3*1、1*m4*1、1*m5*1、m6、m7.
圖5 多層局部感知CNN分類器Fig.5 Multi-layer local perceptual CNN classifier
高光譜圖像中的每一個像素樣本是一個三維矩陣,該矩陣的列數(shù)為1,行數(shù)m1為高光譜圖像頻譜的個數(shù)(以Pavia University數(shù)據(jù)為例,該數(shù)據(jù)集頻譜個數(shù)為115,但采用良好的103個頻段,所以行數(shù)為103),該數(shù)據(jù)同時是單通道所以通道數(shù)為1. 這樣構造方式將一個像素點作為一張圖片識別. 因此輸入層為(1*m1*1),m1為頻譜的個數(shù). 卷積層C1是n個大小為(1*k)的卷積核構成. 因此,該卷積層輸出1*m2*1*n. 最后輸出層n’,由識別物體種類決定;詳細網(wǎng)絡結構及計算過程如表1和式(7)所示.
表1 多層局部感知CNN分類器
以下是各層尺寸計算公式.
(7)
本文提出的多層局部感知卷積神經(jīng)網(wǎng)絡結構有利于高效并且準確地提取非線性特征. 但對于高光譜圖像分類,面臨另一個主要問題是如何建模和調整輸入層的數(shù)據(jù)格式.
在圖6~圖8中所展示的光譜信息,將Pavia University數(shù)據(jù)中每個像素點所包含的所有光譜通道融合成一條曲線反應在二維坐標值上. 橫坐標表示103個譜段,縱坐標代表每一個像素點該波段的幅值. 在圖6~圖8中很難直觀上判別不同地物的頻譜特征差別,但可以觀察到每一種地物的光譜曲線明顯不同于其他地物的光譜曲線.
圖6 瀝青道路像素的光譜信息Fig.6 Spectral information of asphalt road pixels
圖7 牧場像素的光譜信息Fig.7 Spectral information of pasture pixels
本文對高光譜圖像數(shù)據(jù)的分類處理方式為硬分類[11],將高光譜圖像中每個像素都賦予單個類別,劃分方式只要是通過像素的光譜特征和已知每個類別光譜特征的相似性來區(qū)分.
基于像素分類策略,通過各種方法分析和提取不同目標物之間光譜域特征,調整數(shù)據(jù)輸入格式,對不同方法進行測試.
以Pavia University數(shù)據(jù)集為例,對于該圖像640*340中的每個像素的103個譜段上的幅值組成1*103*1的矩陣作為輸入. 這種提取像素的方式,不考慮像素間的空間關系,僅僅通過每個像素在不同譜段的光譜信息特征提取用于分類.
2.4.1 正向傳播 多層局部感知卷積網(wǎng)絡結構包含7層,輸入單元n1構成輸入層,輸出單元n7構成輸出層,此外隱藏單元包含卷積層C1、卷積層C2、卷積層C3、最大池化層M4和全連接層FC5. 設第i層的輸入為xi,也是第(i-1)層的輸出,數(shù)學表示如下式.
(8)
式(8)中,W是第i層的權重矩陣,對輸入進行權重相乘;b為第i層的偏置矩陣;f為第i層的激活函數(shù). 卷積層C1、卷積層C2、卷積層C3和全連接層FC5適用.
2.4.2 動量梯度下降方式反向傳播誤差更新權重 本文使用梯度下降算法反向傳播誤差進行權重和偏置的更新. 首先我們先定義一個代價函數(shù)(誤差定義),如下.
(9)
式中,C被稱為二次代價函數(shù),也稱均分誤差或者MSE;m為訓練數(shù)據(jù)集的個數(shù);a:目標值(對應輸入x).
綜上,訓練卷積神經(jīng)網(wǎng)絡的最終目標是求出最小化二次代價函數(shù)C(w,b)的權重和偏置梯度下降算法對權重和偏置進行訓練使得代價函數(shù)最小化. 簡化的更新公式如下所示.
(10)
式中,右箭頭符號為命題的“條件”運算;η為學習率.
同過迭代上述更新權重和偏置的公式,對每一 個輸入和目標不斷訓練參數(shù),從而使得最終代價函數(shù)最小化. 一般學習率設置在0.01左右,學習率過大或者過小都會使得模型無法達到預想的精度,當加入batch normalization層后,可以增大學習率對精度影響變小,本文通過實驗測試,將學習率調整為0.035.
為進一步提高本文方法分類精度,引入加入動量的梯度下降算法,從而進一步提高訓練出模型的精度. 改進后的更新公式如下.
(11)
式中,t為更新的次數(shù),公式指代當前更新的權重和偏置;γ為動量,為考慮上次更新的權重、偏置與這次權重、偏置之間的因素對更新權重、偏置的影響. 增加動量這個常數(shù). 本文采用默認值0.9,通過增加動量優(yōu)化后,進一步提高了訓練模型的分類精度.
本文算法在MATLAB2018b上運行,PC機配置Intel(R)Core(TM)2 Duo CPU E7500,2.93 GHz處理器,ATI Radeon HD 3400 Series顯卡.
本文實驗選用的常用的高光譜數(shù)據(jù)集為Pavia University數(shù)據(jù)和Salinas數(shù)據(jù)集[12]. 通過這種小訓練樣本的方式,檢測該方法是否能夠提取不同目標物像素點光譜域的有效特征. 在輸入前數(shù)據(jù)做z-score標準化,提高其他算法的計算速度和精度,同時加快神經(jīng)網(wǎng)絡梯度訓練時候的收斂速度.
3.1.1 Pavia University數(shù)據(jù) Pavia University數(shù)據(jù)是由德國的機載反射光學光譜成像儀(reflective optics spectrographic imaging system,ROSIS-03)對帕維亞大學所拍攝的一部分高光譜數(shù)據(jù). 其中,光譜成像儀在0.43~0.86 μm 波長范圍內(nèi)的115個波段連續(xù)成像,空間分辨率為1.3 m. 其中剔除了12個受噪聲影響的波段,因此采用剩余103個光譜波段所呈的圖像. 該圖像的尺寸為 610×340,包含207 400個像素,但是其中包含164 624個背景像素,因而只有 42 776個包含地物的像素,這些像素中共有9類地物,包括樹(tree)、瀝青道路(asphalt)、牧場(meadows)、彩繪金屬板(painted metal sheets)等,詳細數(shù)據(jù)信息見表2.
表2 Pavia University高光譜數(shù)據(jù)集
3.1.2 Salinas數(shù)據(jù) Salinas數(shù)據(jù)是由 AVIRIS成像光譜儀所拍攝的美國加利福尼亞州的 Salinas山谷圖像. 該圖像的空間分辨率為3.7 m. 該圖像原本有 224個波段,因為噪聲剔除了第108~112,154~167,還有不能被水反射的第224個波段后剩下的204個波段的圖像. 該圖像的尺寸為512×217,因此包含 111 104個像素,其中包含56 975個背景像素,可用于分類的像素有54 129個,這些像素總共分為 16類,包括休耕地(Fallow)、芹菜(Celery)等,詳細數(shù)據(jù)見表3.
本文為測試各個模型的時間與空間復雜度、過擬合程度和精度三個方面,從而設計了以下實驗.
(1) 實驗中所用到的訓練集的選擇方式如下.
訓練集1 在每一類目標物當中隨機挑選400個像素點作為訓練集.
訓練集2 在每一類目標物當中隨機挑選一半像素作為訓練集.
(2) 實驗中所用到的測試集的選擇方式如下.
測試集1 在訓練集1隨機挑選完后剩余像素中的每一類目標物當中隨機挑選200個像素點作為測試集.
測試集2 所有目標物像素點作為測試集.
本文提出的多層感知卷積神經(jīng)網(wǎng)絡、改進前原型和Linear-SVM三種方法形成對比,本文方法與改進前原型的卷積核大小、參數(shù)設置、訓練方法、訓練批次、批次大小等方面完全一致. Linear-SVM和其他方法未進行參數(shù)優(yōu)化. Linear-SVM和RBF-SVM使用的是MATLAB中統(tǒng)計和機器學習工具箱實現(xiàn).
卷積神經(jīng)網(wǎng)絡都采用動量梯度下降算法,圖9展示本文方法在訓練集1上的訓練過程,其中包含正確率和損失率.
表3 Salinas高光譜數(shù)據(jù)集
表4表明,在小樣本分類中,本文方法相對于改進前CNN在精度上有著明顯提高,同時略微優(yōu)于傳統(tǒng)高光譜分類的Linear-SVM方法. 測試結果說明,在小規(guī)模訓練樣本情況下,本文改進策略有效提高了卷積神經(jīng)網(wǎng)絡高光譜分類的精度. 同時說明本文改進策略提高了模型對非線性特征的提取能力.
表4不同數(shù)據(jù)集的三種算法對比結果測試結果(訓練集1和測試集1)
Tab.4Threealgorithmcomparisonresultstestresultsofdifferentdatasets
數(shù)據(jù)集1改進前CNN精度/%Linear-SVM精度/%本文方法精度/%Pavia University86.3290.0090.23Salinas87.2191.0091.52
圖9 本文方法訓練過程Fig.9 Method training process
表5對于訓練集1和測試集1各個方法的性能對比(PaviaUniversity數(shù)據(jù)集)
Tab.5Performancecomparisonofeachmethodoftrainingset1andtestset1
方法訓練時間 /s測試時間 /s精度 /%本文方法132.000.3190.23改進前CNN86.000.2886.34LeNet-561.000.2987.94KNN(k=7最優(yōu))031.4283.86Linear-SVM11.150.4890.00RBF-SVM4.063.2582.39
在表5中,本文方法相對于改進前CNN訓練時間增加,有更多的網(wǎng)絡參數(shù)需要計算. 在僅增加0.03 s情況下提高了模型的分類精度. 同時在分類時間幾乎相等情況下,在精度上擊敗了經(jīng)典的卷積神經(jīng)網(wǎng)絡結構LeNet-5. 相對于傳統(tǒng)的SVM在小樣本分類中不僅分類速度上和分類精度上都有明顯改進.
表6對于訓練集1和測試集2各個方法的性能對比(PaviaUniversity數(shù)據(jù)集)
Tab.6Performancecomparisonofeachmethodoftrainingset1andtestset2
方法訓練時間/s測試時間/s精度/%本文方法180.068.4686.52改進前CNN87.566.5280.66LeNet-565.004.0279.49Linear-SVM7.925.8787.74
將測試集1替換成測試集2得出的表6實驗結果. 在表6中,所有模型的分類精度都有下降,出現(xiàn)不同程度過擬合現(xiàn)象. 本文方法,隨著測試集增大,測試時間相對于其他模型增長稍大,實際使用過程中依然可以接受. 傳統(tǒng)SVM依然能保持良好高效的性能.
表7量化過擬合現(xiàn)象,過擬合程度數(shù)值由第二列減第三列的差值然后與第三列的比值得出. 在小樣本訓練集情況下,傳統(tǒng)SVM能有效提取數(shù)據(jù)特征,本文方法相對于其他傳統(tǒng)卷積神經(jīng)網(wǎng)絡大大減小了過擬合程度,多層局部感知結構能有效提高對非線性特征的提取能力.
表7 對于訓練集1各個方法的過擬合程度
表8對于訓練集2和測試集2各個方法的性能對比(PaviaUniversity數(shù)據(jù)集)
Tab.8Performancecomparisonofeachmethodoftrainingset2andtestset2
訓練2測試得到表8實驗結果,通過增大訓練集卷積神經(jīng)網(wǎng)絡可以達到更高的分類精度,多層局部感知神經(jīng)網(wǎng)絡相對于其他神經(jīng)網(wǎng)絡在高光譜圖像分類上有著更高的精度,有著更好的非線性特征提取能力. SVM依然有著高效性能和分類精度,但無法提取更多的特征.
圖10 Pavia University數(shù)據(jù)集目標可視化Fig.10 Pavia University dataset target visualization
綜合上述實驗結果說明,SVM在小規(guī)模訓練樣本上的計算成本和訓練時間都是有著較高優(yōu)勢,但是隨著訓練集增大,精度無法做到最優(yōu),并且需要參數(shù)優(yōu)化,才能達到較好的精度. 改進前CNN方法和LeNet-5在小規(guī)模訓練樣本上,不能達到良好的分類精度. 在較大規(guī)模訓練樣本情況下,神經(jīng)網(wǎng)絡有著更高的分類精度. 隨著訓練集增大,可以學習到更多的有效特征. 本文提出多層局部感知神經(jīng)網(wǎng)絡能更加有效提取樣本光譜特征,同時也隨著訓練集增大,精度能有效提高. 相比傳統(tǒng)的LeNet-5深度學習網(wǎng)絡和SVM,本文提出的方法無論在小樣本分類和大樣本分類都能有效提取特征,相對于改進前的CNN分類器和LeNet-5在精度上有著明顯提升[13].
圖11~圖13展示各種方法在訓練集2訓練下的測試集2的測試可視化結果.
圖11 Linear-SVM預測結果92.40%精確度
Fig.11 Linear-SVM prediction results 92.40% accuracy
圖12 LeNet-5預測結果96.64%精確度Fig.12 LeNet-5 forecast results 96.64% accuracy
圖13 本文方法預測結果97.23%精確度Fig.13 This method predicts 97.23% accuracy
本文在Pavia University數(shù)據(jù)和Salinas數(shù)據(jù)集上進行多種方法測試,SVM在小樣本訓練中有著有效提取特征的能力,本文通過對傳統(tǒng)卷積神經(jīng)網(wǎng)絡進行改進確實有效提高了在小樣本和大樣本訓練時的非線性特征學習能力,都達到最佳的精度. 在較大規(guī)模訓練樣本時,卷積神經(jīng)網(wǎng)絡有著良好的進一步學習能力. LeNet-5網(wǎng)絡結構在大訓練樣本時表現(xiàn)出高效的分類精度,表明深度學習網(wǎng)絡在高光譜圖像分類上有著良好的潛力[14].
下一步,將U-net網(wǎng)絡和NIN網(wǎng)絡結構應用于高光譜分類中,進一步提高分類精度同時避免過擬合,在考慮新的分類策略,通過軟分類方式考慮像素空間域和光譜域相關性特征,更進一步提高分類精度[15].