趙春暉,趙艮平
(哈爾濱工程大學 信息與通信工程學院,哈爾濱150001)
隨著光學遙感技術的發(fā)展,高光譜遙感無論在軍用或民用的各個領域中都發(fā)揮著越來越重要的作用。高光譜圖像分類是遙感圖像處理定量化和智能化發(fā)展的主要方面,目前比較成熟的分類方法是基于光譜統(tǒng)計分析的方法,包括監(jiān)督分類和非監(jiān)督分類。近幾年出現了一些遙感圖像分類的新方法,如基于神經網絡的分類、基于小波分析的分類、基于分形技術的分類、模糊聚類、樹分類器等,但是分類過程仍然存在著如過學習、有限樣本、維數災難等問題。在統(tǒng)計學習理論上發(fā)展而來的支持向量機(SVM)[1]是一種能有效解決非線性、過學習、局部極值、維數災難等一系列難題的監(jiān)督分類算法,因而在高光譜圖像分類中被廣泛研究與應用。LSSVM算法提出了用等式約束求解線性方程組,有效地改善了標準支持向量機中不等式約束下求解二次規(guī)劃的復雜計算過程,同樣也能取得良好的分類效果。但無論是標準SVM還是LS-SVM都不可避免地受到噪聲或是孤立點樣本對分類性能的影響。
引入模糊理論能夠有效改善這一缺點,應運而生的模糊支持向量機最關鍵的問題是模糊隸屬度函數的確定[2]。本文引進核光譜角余弦作為一種高光譜圖像地物的相似性測度,以一種簡單的方式利用這一測度實現對模糊隸屬度函數的構造,繼而在LS-SVM基礎上實現了FLS-SVM算法。實驗仿真結果表明FLS-SVM可有效改善LS-SVM的分類性能。
設給定的訓練樣本集S= {(x1,y1),…,(xl,yl)}∈Rn,i=1,2,…,l,yi∈[-1,1]。在非線性情況下通過引入變換φ,將樣本從輸入空間映射到一個高維特征空間。標準SVM二分類問題最終可歸結為求解下面的二次規(guī)劃:
其中ξi為松弛變量;C為懲罰因子。
將標準SVM中二次規(guī)劃約束條件變?yōu)榈仁?,且損失函數變?yōu)槎魏瘮?,即為最小二乘支持向量機的數學描述形式。引入Lagrange算子αi,得到如下方程:
根據Mercer條件,存在映射φ和核函數K(·,·),使得K (xi,xj)=φ(xi)φ(xj)。令L對變量w,b,ξi,αi的偏導數等于零,并將得到的等式代入式 (2),可得下列矩陣方程:
其中y=[y1,…,yl],Iv=[1,…,1];α=[αi,…,αl];K的中元素為Kij=K (xi,xj).i,j=1,2,…,l。
求解矩陣方程(3),最后得到最小二乘支持向量機的函數估計為:
以上便是LS-SVM的數學求解描述模型。
為了解決SVM(包括LS-SVM)對噪聲及孤立點樣本同等對待而使分類性能降低的問題,Lin等將模糊隸屬度的概念引入SVM,模糊化輸入樣本集,提出了模糊支持向量機 (FSVM)的概念[3]。同樣把這種模糊理念運用到LS-SVM中,為每一個輸入樣本賦予一個模糊隸屬度,則模糊化訓練樣本集為S={(x1,y1,u1),…,(xl,yl,ul)},那么模糊化后的LS-SVM求解變換方程由式(3)變?yōu)椋?/p>
式(5)即為FLS-SVM的求解模型,也就是本文采用的算法形式。
對于FSVM,或者是FLS-SVM,關鍵部分是模糊隸屬度函數的構造。不同的隸屬度函數會對算法的處理結果以及算法實現的難易程度產生不同的影響。模糊隸屬度函數要求能夠尋找到一種可以客觀、準確地表征系統(tǒng)中樣本存在的不確定性測度,而此前提是必須找到一種有效衡量相似性測度的物理量。以往的方法中常常利用距離這種相似性測度來對樣本與樣本或是樣本與類中心的差異性度量,從而設計不同的處理過程從不同角度構造實現這種模糊性反映的函數式,即構造出模糊隸屬度矩陣。由于高光譜數據多譜段的特性,即地物光譜信息用光譜向量來表示,如果總光照增加或減少這個向量的長度會隨之相應變化但是角度方向保持不變[4]。在多維光譜空間里,不同地物的光譜角度是不同的,那么角度會是一種很好的衡量光譜向量相似性或者說差異性的測度。光譜角度間的差異大小可以理解為其互相歸屬程度的大小,也是一種不確定性的表述。本文引入核光譜角余弦從向量方向的角度來表征樣本間相似性大小的不確定性,并以這一物理量來實現隸屬度函數的構造。
1)從數學的角度考慮有其客觀性,因為光譜角余弦的范圍是0~1,這符合隸屬度的數值范圍要求。
2)上面分析的引入原因,也說明對光譜向量而言,光譜角余弦是一種相對于歐氏距離表征的亮度差異更為準確的差異性測度。以上兩點也是對上文中提到的引入模糊技術改善分類性能的前提要求,做出的一個很好解釋。
3)本文提出的新的隸屬度函數構造過程極其簡單明了,它是相對于其他文獻中的方法在效率上更為可選的一種做法,而且也改善了分類效果。
在支持向量機理論應用中,如前文所述我們把原始輸入空間通過一種非線性映射φ,將x映射到特征空間里的φ (x),所有的分類過程在特征空間實現。而且因為核函數的特點,可以不必弄清這種非線性映射的具體形式,我們可以利用:
只要知道K (·,·)的具體表達式就能回避φ(x)的求解,實際上只需簡單進行輸入空間里樣本點積運算。在特征空間里基于核的光譜向量角余弦表達式為:
將式 (6)帶入式 (7)則得到基于核的光譜角余弦表達式為:
本文選用經典的、常用的高斯徑向基核函數:
不光考慮到其良好的非線性映射性能,而且因為因子 (xi-xj)的存在形式,該核函數也是歐式距離的一種表示,體現了樣本在特征空間里光譜亮度差異,其次再與角余弦所實現的光譜向量方向表示相結合,很好地融合這兩方面的優(yōu)點來提高分類精度。將式 (9)帶入式 (8)得到高斯核下化簡后的光譜角余弦:
根據余弦角在主值區(qū)間上的單調遞減特性,余弦值越小 (大)夾角越大 (?。?,對于光譜向量間則說明二者越不相似 (越相似)。在現有的光譜向量之中,如果能找到最小和最大的光譜向量余弦值,當新的光譜向量輸入時只要求其與已知類別的光譜向量角余弦,當其超過最小、最大兩范圍界限時,可以明確賦予其0表示不屬于、1表示屬于,而位于之間的數值就是一種模糊不確定性的隸屬度值。
基于以上分析,首先計算各樣本間的光譜角余弦值,實際上計算K (xi,xj)即可。然后需要找出每一類地物中各訓練樣本間最大和最小的余弦值,二分類中則找出4個值,2個大值max1,max2,2個小值min1,min2。在2個大值里找出較小的設為zmax,在2個小值里找出較大的設為zmin,這樣做是為了放寬對相似性的要求。若是余弦值>zmax則認為兩光譜向量方向差異很小判別為一類,隸屬度為1;若反之,余弦值<zmin,則認為兩光譜向量方向差異很大判別為不同類,隸屬度為0;除此之外,余弦值介于zmin和zmax之間的則隸屬度為與該余弦值相關的一個數值表示。鑒于以上的分析,要尋找一個函數表達式u=f(cosθ)能讓隸屬度與角余弦一一對應,這樣的函數表達式理論上應該滿足以下條件:①定義域為(0~1)時,值域對應為 (0~1);②在上述定義域區(qū)間單調遞增。
嚴格來說最好滿足f(0)=0,f(1)=1,但是由于這個函數是分段的隸屬度函數的一部分,所以對于定義域里的0、1兩點一般不會出現在這一部分,因此這個條件可不嚴格滿足。
根據以上限制條件可以找出很多符合的函數表達式,其中比較常用的有指數函數、對數函數和一些三角函數等。而且可以在這些函數形式上加以改動,例如,可以引入可調參數來靈活改變函數的非線性性能從而調控分類性能。無論是哪種形式對分類結果都有一定的改善作用,只不過改善程度大小以及靈活性是不同的。綜上,可以選用模糊隸屬度矩陣為以下3種形式:
隸屬度函數Ⅰ:
其中可調參數滿足0≤d≤1;
隸屬度函數Ⅲ:)
本文采用的是AVIRIS高光譜遙感圖像。該圖像取自1992年6月拍攝的美國印第安納州西北部印第安遙感試驗區(qū)的一部分,它包含了農作物和森林植被的混合區(qū),圖像數據特點見表1。原始AVIRIS的220波段圖像第50、27、17波段作為RGB通道的假彩色圖像見圖1。實驗采用LS-SVM和FLS-SVM算法對該高光譜遙感圖像進行分類比較實驗。實驗中支持向量機均采用高斯型徑向基核函數K(xi,xj)=exp(-(xi-xj)2/σ2)。
為了驗證本文提出的FLS-SVM分類算法的有效性,用LS-SVM和FLS-SVM分類算法對高光譜圖像上相同的3類地物 (監(jiān)督圖像里的2,3,10 3類地物)進行分類。
表1 實驗圖像數據特點Table 1 Characteristic of experimental image
圖1 實驗圖像的假彩色圖像Fig.1 Pseudo-color image of experimental image
3.2.1 LS-SVM分類
在最優(yōu)參數對為(c,σ)=(1 000,0.02)下,分類結果見表2,圖2為LS-SVM分類仿真結果,總體精度用正確分類百分比pcc和Kappa系數給出。
表2 3類地物的分類精度Table 2 Classification accuracy of three objects
總體分類精度:pcc=88.75%,Kappa=82.72%。
3.2.2 FLS-SVM分類
在上述優(yōu)化參數固定的情形下,利用前文提出的模糊隸屬度構造法,下面給出3種不同形式隸屬度函數選擇下,基于核光譜余弦角的FLS-SVM分類結果的pcc和Kappa值比較,見表3。
由表3可見,采用式Ⅲ作為隸屬度函數靈活性更高,此時的混淆矩陣見表4,圖3為FLS-SVM分類仿真結果,其中圖3(a)、圖3(b)分別為真實地物分布和仿真分類圖像。
表3 基于核的光譜余弦角的FLS-SVM分類結果Table 3 Classification results of FLS-SVM based on kernel spectral angel cosine /%
表4 FLS-SVM的分類結果Table 4 Classification results of FLS-SVM
表3所示的是利用文中提出的隸屬度構造方法實現FLS-SVM算法的結果,最好的效果(表4給出的)與LS-SVM分類結果相比較,分類總體精度有所提高,但程度不是特別大。原因是原始圖像的精度不高,AVIRIS圖像是從高空拍攝,其分辨率僅為20m×20m,像元混合的概率很大。另外還有一些其它如時令、天氣等客觀存在的原因,使得分類仍存在一定誤差。
對于傳統(tǒng)支持向量機分類結果受噪聲及孤立點樣本影響,而且存在不可分區(qū)域的狀況,模糊技術逐漸引起人們的重視繼而被廣泛應用到SVM產生FSVM。而對于模糊理論,最核心的問題是解決模糊隸屬度函數的構造。本文主要對隸屬度函數做了深入研究,在LS-SVM基礎之上,通過引入核光譜角余弦構造隸屬度函數實現高光譜圖像FLS-SVM分類算法。經實驗仿真結果驗證,該方法融合了高光譜數據在特征空間光譜亮度和光譜方向角度兩方面的信息為一體,提高了LS-SVM的抗噪聲能力,改善了分類性能,雖然改善程度不是很高,但是在處理同樣的實際問題中,FLS-SVM相對于LS-SVM更適合于未能完全揭示輸入樣本特性的情況。
[1]Vapnik V.Statistical learning theory[M].New York:Wiley Springer,1998:146-175.
[2]張 英,蘇宏業(yè),褚 健.基于模糊最小二乘支持向量機的軟測量建模[J].控制與決策,2005,20(6):620-624.
[3]Lin C F,Wang S D.Fuzzy support vector machines[J].IEEE Trans on Neural Networks,2002,13(3):466-471.
[4]趙春暉,喬 蕾.基于改進的最小二乘支持向量機的高光譜遙感圖像分類[J].應用科技,2008,35(1):44-47.
[5]張秋余,竭 陽,李 凱.模糊支持向量機中隸屬度確定的新方法 [J].蘭州理工大學學報,2009,35(4):89-93.
[6]Lei Chen,Geng yang,Ying zhou Zhang,et al.Web services clustering using SOM based on kernel Cosine similarity measure[C]//2ndInternational Conference and Engineering,2010.
[7]Shiqing Zhang.Speech emotion recognition based on fuzzy least squares support vector machines[C]//Proceedings of the 7th World Congress on Intelligent Control and Automation,2008,1 299-1 302.
[8]Xiaowei Yang,Guang quan Zhang,Jie Lu,et al.A kernel fuzzy c-means clustering-based fuzzy support vector machine algorithm for classification problems with outliers or noises[J].IEE Transacations on Fuzzy Ssystems,2011,19(1):105-115.
[9]Liang Xu,Xiao Bo Zhang.Incorporating prior knowledge in a fuzzy least squares support vector machines model[C]//Sixth International Conference on Natural Computation,2010,344-348.