涂兵, 張曉飛, 張國(guó)云, 王錦萍, 周瑤
(1.湖南理工學(xué)院信息與通信工程學(xué)院,岳陽 414006; 2.湖南理工學(xué)院復(fù)雜系統(tǒng)優(yōu)化與控制湖南省普通高等學(xué)校重點(diǎn)實(shí)驗(yàn)室,岳陽 414006; 3.湖南理工學(xué)院IIP創(chuàng)新實(shí)驗(yàn)室,岳陽 414006)
高光譜遙感圖像因其具有較高的光譜分辨率和豐富的光譜信息[1],被廣泛應(yīng)用于精確農(nóng)業(yè)、環(huán)境監(jiān)測(cè)和公共安全等方面[2]。作為高光譜應(yīng)用系統(tǒng)中的關(guān)鍵技術(shù),快速高精度的高光譜圖像分類算法是實(shí)現(xiàn)各種實(shí)際應(yīng)用的前提[3]。近年來,高光譜圖像分類成為了國(guó)內(nèi)外的研究熱點(diǎn)。在早期研究中,許多經(jīng)典的模式識(shí)別與機(jī)器學(xué)習(xí)算法,如最大似然分類法[4]和支持向量機(jī)(support vector machine,SVM)分類算法[5],被有效應(yīng)用于高光譜遙感圖像分類中。但是,這些算法僅利用高光譜圖像的光譜信息,忽略了其空間結(jié)構(gòu)信息的作用,因而無法有效提高分類精度。
隨著研究人員的深入挖掘,發(fā)現(xiàn)通過將光譜信息和空間信息有效融合,可大大改善高光譜遙感圖像的分類結(jié)果。由于局部空間區(qū)域內(nèi)有較大的概率屬于同一類別,且其光譜值也可能非常相近。因此,一種基于分割的高光譜圖像分類方法[6-10]被提出,這類方法通過提取像元間相鄰的空間信息實(shí)現(xiàn)圖像分割,且可取得較好的分類效果,但大部分算法時(shí)間復(fù)雜度較高。為解決這一問題,李旭超等[11]提出了馬爾可夫隨機(jī)場(chǎng)方法,該方法通過將像素空間關(guān)系緊密地結(jié)合在一起,可用低階的馬爾可夫隨機(jī)場(chǎng)描述像素間的作用關(guān)系,減少方法時(shí)間復(fù)雜度。由于該方法對(duì)紋理結(jié)構(gòu)要求高,分割效果也需進(jìn)一步改進(jìn)。在此基礎(chǔ)上,Tarabalka等[12]提出了一種基于markers的最小傳播森林分割分類方法(minimum spanning forest,MSF),充分考慮鄰近像素的空間與光譜信息,通過選取粗分類中可信度最高的像素點(diǎn)為標(biāo)記點(diǎn)(markers)作為MSF的初始點(diǎn),實(shí)現(xiàn)對(duì)像素點(diǎn)區(qū)域的平滑與精準(zhǔn)分割,取得了較好的實(shí)驗(yàn)效果。
同時(shí)基于特征提取的空間與光譜分類[13-16]方法也被提出。Camps-Valls等[17]提出了一種基于數(shù)學(xué)形態(tài)學(xué)特征合成核的SVM分類算法,此算法利用空間統(tǒng)計(jì)特征作為空間信息,通過不同的合成核構(gòu)造方式,有效地將空間信息和光譜信息融合應(yīng)用于高光譜圖像分類; Zhang等[18]通過將光譜、紋理和形狀特征結(jié)合,構(gòu)成特征向量,進(jìn)而使用SVM算法實(shí)現(xiàn)最終分類; Kang等[19]提出了邊緣保持濾波的特征提取算法,通過利用雙邊濾波與引導(dǎo)濾波有效保持高光譜遙感圖像的邊緣特性,從而提高分類精度。
以上結(jié)合空間與光譜信息的分類方法雖然取得了較好的效果,但性能上仍有進(jìn)一步提升的空間。為此,本文提出一種融合遞歸濾波(recursive filtering,RF)與KNN(k-nearest neighbor)的高光譜遙感圖像分類方法,利用RF算法有效去除高光譜圖像中的噪聲,強(qiáng)化空間結(jié)構(gòu),充分利用地物目標(biāo)的空間上下文信息,然后利用KNN算法計(jì)算圖像像素點(diǎn)的歐式距離,進(jìn)行決策分類。
RF算法的原理為對(duì)給定的變換域Ct: Ω→Ωω和輸入圖像I,可通過域變換將輸入圖像I轉(zhuǎn)換到變換域Ωω中。首先利用圖像的空間結(jié)構(gòu)信息,計(jì)算輸入圖像I的每個(gè)像素轉(zhuǎn)換前的坐標(biāo)Ct(xm),再計(jì)算每個(gè)像素變換后的坐標(biāo)Ct(xs),計(jì)算結(jié)果表明位于同側(cè)圖像邊緣像素具有相似的坐標(biāo),而位于異側(cè)圖像邊緣像素坐標(biāo)相距較遠(yuǎn),基于此原理,可在轉(zhuǎn)換域中定義RF,即
J[m]=(1-ab)I[m]+abJ[m-1] ,
(1)
(2)
式中:I′(x)為I(x)的導(dǎo)數(shù);δr表示范圍標(biāo)準(zhǔn)差。將圖像I進(jìn)行域變換處理,當(dāng)式(1)中ab趨近于0,式(2)中的遞歸過程逐漸收斂,使得濾波后輸出結(jié)果中同一側(cè)圖像邊緣的像素會(huì)取得相近的值,不同側(cè)圖像邊緣的像素會(huì)有很大差別,從而有效保留圖像中的邊緣信息。
NN(nearest neighbor)分類器的原理是通過距離度量為測(cè)試樣本找到最鄰近的訓(xùn)練樣本,根據(jù)訓(xùn)練樣本類別來決策測(cè)試樣本的類別。KNN算法基于此原理,已知訓(xùn)練樣本標(biāo)簽的類別,尋找測(cè)試樣本的k個(gè)最相似或最鄰近的訓(xùn)練樣本,然后根據(jù)k個(gè)最鄰近的訓(xùn)練樣本類別來決策測(cè)試樣本的類別。計(jì)算測(cè)試樣本與訓(xùn)練樣本之間的歐式距離為
(3)
式中:xi為訓(xùn)練樣本集中第i類樣本;yi為測(cè)試樣本的第i類樣本;n為空間維數(shù)。
本文提出的RF-KNN分類方法實(shí)現(xiàn)過程主要為4步驟: ①利用主成分分析法(principal component analysis,PCA)對(duì)高光譜圖像進(jìn)行降維; ②對(duì)降維后的PCA分量圖像進(jìn)行RF,強(qiáng)化空間結(jié)構(gòu)信息; ③計(jì)算測(cè)試樣本與每一類訓(xùn)練樣本的歐式距離; ④選取與測(cè)試樣本距離最近的k個(gè)測(cè)試樣本,根據(jù)k個(gè)訓(xùn)練樣本的類別判斷測(cè)試樣本所屬類別。
在完成高光譜圖像分類后,需要對(duì)高光譜圖像的分類結(jié)果進(jìn)行客觀評(píng)價(jià)。通常依據(jù)地面參考數(shù)據(jù),評(píng)估分類結(jié)果的準(zhǔn)確性。采用4個(gè)常見的高光譜圖像分類精度指標(biāo)來衡量分類算法的精度: 每類分類精度(class accuracy,CA)、整體分類精度(overall accuracy,OA)、平均分類精度(average accuracy,AA)以及Kappa系數(shù)。同時(shí),為了避免實(shí)驗(yàn)存在隨機(jī)誤差,每個(gè)實(shí)驗(yàn)重復(fù)20次記錄平均結(jié)果與方差。
采用Indian Pines和 Salinas這2個(gè)高光譜數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,分別如圖1和圖2所示。2景遙感圖像均來自AVIRIS(airborne visible infra-red imaging spectrometer)光譜儀收集到的高光譜遙感圖像,Indian Pines影像為1992年在印第安納州西北部地區(qū)影像,具有20 m的空間分辨率,由于噪聲和水吸收等因素除去其中的20個(gè)波段,剩余200個(gè)波段,圖像范圍大小為145像素×145像素,其中包含16種地物。Salinas影像為美國(guó)加利福尼亞州薩利納斯山谷地區(qū)影像,含224個(gè)波段,空間分辨率為3.7 m,圖像范圍大小為512像素×217像素,其中包含16種地物,由于噪聲和水吸收等因素亦除去遙感圖像中的20個(gè)波段。
(a) B40波段影像(b) 地面參考數(shù)據(jù)(c) 顏色編碼
圖1IndianPines區(qū)域?qū)嶒?yàn)數(shù)據(jù)
Fig.1IndianPinesdataset
(a) B100波段影像(b) 地面參考數(shù)據(jù)(c) 顏色編碼
圖2Salinas區(qū)域?qū)嶒?yàn)數(shù)據(jù)
Fig.2Salinasdataset
為了得到最佳的分類精度,對(duì)RF算法中的δs和δr、最近鄰數(shù)k以及維度Dim進(jìn)行分析。分別在Indian Pines和Salinas數(shù)據(jù)集上進(jìn)行試驗(yàn),獲取最優(yōu)分類結(jié)果對(duì)應(yīng)的參數(shù)值。
通過確定RF算法中δs和δr的值,使濾波效果達(dá)到最佳。首先確定RF算法中這2個(gè)參數(shù)的取值范圍,如圖3所示。
(a) Indian Pines數(shù)據(jù)集(b) Salinas數(shù)據(jù)集
圖3RF參數(shù)對(duì)不同數(shù)據(jù)集分類精度的影響分析
Fig.3AnalysisofRFparametersonclassificationaccuracyindifferentdatasets
在分析δr影響時(shí),δs為固定值,隨著δr值增大,平均分類精度明顯降低。這是因?yàn)棣膔值較大時(shí),RF會(huì)退化為高斯濾波,造成影像過度模糊而丟失有用的形狀和輪廓等空間結(jié)構(gòu)信息,導(dǎo)致物體的分類錯(cuò)誤。而當(dāng)δs和δr取最小值時(shí),就意味著在特征提取過程中僅考慮較小鄰域的局部空間信息,而忽略整體空間信息,則會(huì)導(dǎo)致濾波效果較差。由圖3可知,在Indian Pines數(shù)據(jù)集上,當(dāng)δs=212且δr=0.9時(shí),能得到最優(yōu)分類精度; 在Salinas數(shù)據(jù)集上,當(dāng)δs=210且δr=0.7時(shí),獲得最優(yōu)分類精度。
分析最鄰近數(shù)k對(duì)分類精度的影響時(shí),僅改變k參數(shù),其余參數(shù)選為常數(shù)。如圖4所示,當(dāng)k=1時(shí),2個(gè)數(shù)據(jù)集都能獲得最高的分類精度,分別為98.96%和99.51%。隨著k的增加,引入的噪聲數(shù)據(jù)也會(huì)相應(yīng)增加,導(dǎo)致分類精度下降。
(a) Indian Pines數(shù)據(jù)集(b) Salinas數(shù)據(jù)集
圖4最近鄰數(shù)k對(duì)不同數(shù)據(jù)集分類精度的影響分析
Fig.4Analysisofthenumberofnearestneighboronclassificationaccuracyindifferentdatasets
此外,特征維度Dim也是影響高光譜分類精度的重要因素。實(shí)驗(yàn)分析如圖5所示。
(a) Indian Pines數(shù)據(jù)集(b) Salinas數(shù)據(jù)集
圖5維度對(duì)不同數(shù)據(jù)集分類精度的影響分析
Fig.5Analysisofdimensiononclassificationaccuracyindifferentdatasets
當(dāng)Dim=4時(shí),分類精度較低。其原因是圖像降維過程中會(huì)丟失大量有用的光譜信息,使分類精度降低。隨著Dim增加,2個(gè)數(shù)據(jù)集的分類精度變化趨勢(shì)類似,都是先增加再保持不變。在Indian Pines數(shù)據(jù)集上,當(dāng)Dim=20時(shí),分類精度最高; 在Salinas數(shù)據(jù)集上,當(dāng)Dim=30時(shí),分類精度最高。
為了驗(yàn)證本文提出方法的優(yōu)越性,實(shí)驗(yàn)比較了本文提出的方法與傳統(tǒng)的分類算法和幾種空譜分類算法的分類效果,其算法包括: 傳統(tǒng)分類算法SVM[5]、稀疏表示分類(sparse representation classification,SRC)[20]算法、聯(lián)合稀疏表示分類算法(joint sparse representation classification,JSRC)[21]、擴(kuò)展形態(tài)特征(extended morphological profiles,EMP)算法[22]、邊緣保持濾波(edge preserving filtering,EPF)的算法[23]、基于圖像融合和遞歸濾波(image fusion and recursive filtering,IFRF)的算法[19]以及邏輯回歸與多層回歸(logistic regression and multi-level logistic,LMLL)算法[24]。在進(jìn)行實(shí)驗(yàn)比較之前,先設(shè)置不同類算法的參數(shù)。SVM的最佳參數(shù)通過10次交叉驗(yàn)證確定。對(duì)于EMP算法,利用HSI的前3個(gè)主成分分量,形態(tài)學(xué)算子的尺寸依次遞增2個(gè)像素,共進(jìn)行4次形態(tài)學(xué)開閉和重構(gòu)運(yùn)算,構(gòu)建多尺度形態(tài)學(xué)特征。對(duì)于EPF算法,使用前4個(gè)主要部件,圓形結(jié)構(gòu)元件、二階梯形增量及4個(gè)開口和關(guān)閉構(gòu)造形態(tài)輪廓進(jìn)行參數(shù)設(shè)置。對(duì)于SRC,JSRC,IFRF和LMLL算法,實(shí)驗(yàn)均采用默認(rèn)參數(shù),通過Matlab編寫代碼實(shí)現(xiàn)。
4.2.1 Indian Pines數(shù)據(jù)集
在Indian Pines數(shù)據(jù)集中,隨機(jī)選取10%作為訓(xùn)練樣本,剩余的90%作為測(cè)試樣本。為了分析訓(xùn)練樣本數(shù)量對(duì)算法分類精度的影響,再采用1%的訓(xùn)練樣本和99%測(cè)試樣本進(jìn)行實(shí)驗(yàn)。不同算法分類結(jié)果如圖6和圖7所示。
(a) SVM(b) SRC(c) JSRC(d) EMP
(e) EPF(f) IFRF(g) LMLL(h) RF-KNN
圖6不同算法在IndianPines數(shù)據(jù)集的分類結(jié)果(10%訓(xùn)練樣本)
Fig.6ClassificationresultsofdifferentalgorithmsintheIndianPinesdataset(10%oftrainingsamples)
(a) SVM(b) SRC(c) JSRC(d) EMP
(e) EPF(f) IFRF(g) LMLL(h) RF-KNN
圖7不同算法在IndianPines數(shù)據(jù)集的分類結(jié)果(1%訓(xùn)練樣本)
Fig.7ClassificationresultsofdifferentalgorithmsintheIndianPinesdataset(1%oftrainingsamples)
對(duì)于僅使用光譜信息的SVM分類算法而言,分類結(jié)果中噪聲點(diǎn)較多,并且每種地物類型與實(shí)際地物類型對(duì)應(yīng)關(guān)系錯(cuò)誤率也較高,分類精度較低。相比SVM分類算法,EMP算法在分類時(shí)通過利用圖像空間結(jié)構(gòu)信息總是能獲得更高的分類精度,然而在分類結(jié)果中一些“噪聲”狀的誤分類仍然可見。相比EMP算法,EPF算法通過邊緣保持濾波聯(lián)合空間信息與光譜分類結(jié)果,能提升分類精度。對(duì)于本文提出的RF-KNN方法而言,不但利用RF算法平滑了噪聲,增強(qiáng)空間結(jié)構(gòu),而且還結(jié)合空間鄰域信息進(jìn)行分類,分類精度優(yōu)于其他空譜分類算法。當(dāng)訓(xùn)練樣本極少時(shí),本文提出的方法依然能獲得較好的分類精度。比如能準(zhǔn)確地識(shí)別位于實(shí)驗(yàn)區(qū)右上方的地物類別。該方法通過有效地聯(lián)合空間信息,對(duì)大多數(shù)地物類別的識(shí)別精度均優(yōu)于其他空譜分類算法。
表1和表2分別顯示了訓(xùn)練樣本數(shù)、測(cè)試樣本數(shù)和不同分類算法的分類精度。表中括號(hào)外數(shù)值表示各個(gè)精度均值,單位為%,括號(hào)內(nèi)數(shù)值表示各精度的均方差,下同。
表1 Indian Pines高光譜圖像不同算法分類精度(10%訓(xùn)練樣本)Tab.1 Indian Pines data set classification accuracy of different algorithms (10% of training samples)
表2 Indian Pines高光譜圖像不同算法分類精度(1%訓(xùn)練樣本)Tab.2 Indian Pines data set classification accuracy of different algorithms (1% of training samples)
由表1和表2可知,本文提出的RF-KNN方法在OA,AA和Kappa指標(biāo)上有相對(duì)的優(yōu)勢(shì)。SRC的分類算法精度最低,SVM算法在訓(xùn)練樣本占地面參考數(shù)據(jù)10%的情況下,能夠有效地區(qū)分Wheat,Woods和Stone等光譜區(qū)分度較大的地物,然而由于未考慮高光譜圖像的空間信息,對(duì)于一些光譜類似的地物,分類識(shí)別精度不高。例如,Oats的分類精度僅為46.35%。相比SVM算法,其他空譜分類算法能提升分類精度,但對(duì)某些類別的分類精度較低,比如對(duì)于Soybean的識(shí)別。本文的RF-KNN方法能取得最高的分類精度。例如Grass-P,Hay-W和Oats的分類精度能達(dá)到100%,大多數(shù)類別上的分類精度均高于98%; 相比SRC算法,對(duì)于Alfalfa的識(shí)別,提高了32.86%。在訓(xùn)練樣本占地面參考數(shù)據(jù)1%的情況下,大部分算法識(shí)別精度明顯下降,而本文方法依然能獲得最佳的分類精度,且對(duì)Grass-P和Hay-W的分類精度仍保持為100%。
4.2.2 Salinas數(shù)據(jù)集
在Salinas數(shù)據(jù)集中,將所有數(shù)據(jù)分為訓(xùn)練樣本和測(cè)試樣本。隨機(jī)選取參考數(shù)據(jù)中的2%作為訓(xùn)練樣本,其余作為測(cè)試樣本。并進(jìn)一步改變訓(xùn)練樣本的數(shù)量進(jìn)行實(shí)驗(yàn),隨機(jī)選取參考數(shù)據(jù)中的0.2%作為訓(xùn)練樣本,剩下99.8%的參考數(shù)據(jù)作為測(cè)試樣本。Salinas數(shù)據(jù)集不同算法分類結(jié)果如圖8和圖9所示,SVM算法分類結(jié)果中噪聲點(diǎn)較多。與僅使用光譜信息的SVM算法相比,JSRC算法通過聯(lián)合空間信息能有效去除這種類似噪聲的誤分類,提高了分類精度。相比其他7種高光譜遙感圖像分類算法,本文所提出的RF-KNN方法總能獲得更高的分類精度,其原因在于利用RF算法有效地平滑了噪聲,強(qiáng)化了地物輪廓,對(duì)圖像區(qū)域邊緣劃分效果較好。隨著訓(xùn)練樣本數(shù)量的減少,JSRC,EPF和LMLL算法分類結(jié)果中出現(xiàn)明顯誤分類現(xiàn)象,IFRF算法和RF-KNN方法均能在訓(xùn)練樣本減少時(shí)較好地區(qū)分各種地物覆蓋類別。雖然兩者均有去除圖像噪聲與增強(qiáng)影像空間結(jié)構(gòu)的特性,但是相比于IFRF算法,RF-KNN方法通過加入空間近鄰信息進(jìn)一步提高了分類精度。分類精度分別如表3和表4所示。
(a) SVM(b) SRC(c) JSRC(d) EMP
(e) EPF(f) IFRF(g) LMLL(h) RF-KNN
圖8不同算法在Salinas數(shù)據(jù)集的分類結(jié)果(2%訓(xùn)練樣本)
Fig.8ClassificationresultsofdifferentalgorithmsintheSalinasdataset(2%oftrainingsamples)
(a) SVM(b) SRC(c) JSRC(d) EMP
圖9-1不同算法在Salinas數(shù)據(jù)集的分類結(jié)果(0.2%訓(xùn)練樣本)
Fig.9-1ClassificationresultsofdifferentalgorithmsintheSalinasdataset(0.2%oftrainingsamples)
(e) EPF(f) IFRF(g) LMLL(h) RF-KNN
圖9-2不同算法在Salinas數(shù)據(jù)集的分類結(jié)果(0.2%訓(xùn)練樣本)
Fig.9-2ClassificationresultsofdifferentalgorithmsintheSalinasdataset(0.2%oftrainingsamples)
表3 Salinas高光譜圖像不同算法分類精度(2%訓(xùn)練樣本)Tab.3 Salinas data set classification accuracy of different algorithms (2% of training samples)
表4 Salinas高光譜圖像不同算法分類精度(0.2%訓(xùn)練樣本)Tab.4 Salinas data set classification accuracy of different algorithms (0.2% of training samples)
從表3和表4可以看出,本文提出的RF-KNN分類方法均能獲得最高的分類精度。相比SRC算法,對(duì)于一些識(shí)別分類不準(zhǔn)確的類別,比如Graps,從73.62%提高到了99.87%,Vinyard_U的識(shí)別精度提升了37.60%,在Soil類別中識(shí)別精度可以達(dá)到100%。相比其他的空譜分類算法,大部分類別分類精度都高于97%; 當(dāng)訓(xùn)練樣本極少時(shí),本文提出的方法識(shí)別精度均優(yōu)于其他的空譜分類算法; 對(duì)于Soil的分類精度仍保持100%。SRC,JSRC,EMP和EPF算法的分類精度明顯下降。實(shí)驗(yàn)證明,RF-KNN方法能有效聯(lián)合高光譜圖像的空間信息與光譜信息,進(jìn)而提升地物覆蓋類別的識(shí)別精度。
在本文所提出的基于遞歸濾波和KNN的高光譜圖像分類方法較好地結(jié)合光譜和空間鄰域信息,有效降低了錯(cuò)誤分類概率。該方法通過在2個(gè)經(jīng)典實(shí)驗(yàn)數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)并且與其他算法進(jìn)行了對(duì)比驗(yàn)證,結(jié)果表明,與現(xiàn)有高光譜遙感圖像分類算法相比,該方法在不同訓(xùn)練樣本下都具有較好的分類性能,并且具有較好的魯棒性,為高光譜遙感圖像分類領(lǐng)域提供了新的研究思路與方法。但在實(shí)驗(yàn)過程中,該方法的時(shí)間復(fù)雜度較高,因此如何有效降低該方法的時(shí)間復(fù)雜度是下一步研究的重點(diǎn)。
志謝: 康旭東博士提供了EPF和IFRF算法代碼,李軍教授提供了LMLL算法代碼,在此一并表示感謝。最后,感謝李樹濤教授和康旭東博士對(duì)論文給出的深刻意見。