引文格式:WANG Junshu, JIANG Nan, ZHANG Guoming,et al.Incremental Classification Algorithm of Hyperspectral Remote Sensing Images Based on Spectral-spatial Information[J]. Acta Geodaetica et Cartographica Sinica,2015,44(9):1003-1013.(王俊淑,江南,張國(guó)明,等.融合光譜-空間信息的高光譜遙感影像增量分類算法[J].測(cè)繪學(xué)報(bào),2015,44(9):1003-1013.) DOI:10.11947/j.AGCS.2015.20140388
融合光譜-空間信息的高光譜遙感影像增量分類算法
王俊淑1,2,江南1,2,張國(guó)明3,李楊1,2,呂恒1,2
1. 南京師范大學(xué)虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023; 2. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京210023; 3. 江蘇省衛(wèi)生統(tǒng)計(jì)信息中心,江蘇 南京210008
Incremental Classification Algorithm of Hyperspectral Remote Sensing Images Based on Spectral-spatial Information
WANG Junshu1,2, JIANG Nan1,2, ZHANG Guoming3, LI Yang1,2, Lü Heng1,2
1. Key Laboratory for Virtual Geographic Environment, Ministry of Education, Nanjing Normal University, Nanjing 210023, China; 2. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China; 3. Center of Health Statistics and Information of Jiangsu Province, Nanjing 210008, China
Abstract:An incremental classification algorithm INC_SPEC_MPext was proposed for hyperspectral remote sensing images based on spectral and spatial information. The spatial information was extracted by building morphological profiles based on several principle components of hyperspectral image. The morphological profiles were combined together in extended morphological profiles (MPext). Combine spectral and MPext to enrich knowledge and utilize the useful information of unlabeled data at the most extent to optimize the classifier. Pick out high confidence data and add to training set, then retrain the classifier with augmented training set to predict the rest samples. The process was performed iteratively. The proposed algorithm was tested on AVIRIS Indian Pines and Hyperion EO-1 Botswana data, which take on different covers, and experimental results show low classification cost and significant improvements in terms of accuracies and Kappa coefficient under limited training samples compared with the classification results based on spectral, MPext and the combination of sepctral and MPext.
Key words: hyperspectral remote sensing image; morphology; spatial information; spectral information; incremental classification
Foundation support: The National Natural Science Foundation of China (No.41171269); The National Environmental Protection Public Welfare Science and Technology Research Program of China (No.201309037); A Project Funded by the Priority Academic Program Development of Jiangsu Higher Education Institutions (No.164320H101); Data-sharing Network of Earth System Science (No.2005DKA32300); Program of Natural Science Research of Jiangsu Higher Education Institutions of China (No.14KJB170010); Colleges and Universities in Jiangsu Province Plans to Graduate Research and Innovation (No.1812000002A403)
摘要:提出了一種融合光譜和空間結(jié)構(gòu)信息的高光譜遙感影像增量分類算法INC_SPEC_MPext。通過主成分分析(PCA)提取高光譜影像的若干主成分,利用數(shù)學(xué)形態(tài)學(xué)提取各主分量影像對(duì)應(yīng)的形態(tài)學(xué)剖面(MP),再將所有主分量影像的形態(tài)學(xué)剖面歸并聯(lián)結(jié),組成擴(kuò)展的形態(tài)學(xué)剖面(MPext)。將MPext與光譜信息相結(jié)合以增加知識(shí),最大限度地挖掘未標(biāo)記樣本的有用信息,優(yōu)化分類器的學(xué)習(xí)能力。不斷從分類器對(duì)未標(biāo)記樣本的預(yù)測(cè)結(jié)果中甄選置信度高的樣本加入訓(xùn)練集,并迭代地利用擴(kuò)大的訓(xùn)練集進(jìn)行分類器構(gòu)建和樣本預(yù)測(cè)。以不同地表覆蓋類型的AVIRIS Indian Pines和Hyperion EO-1 Botswana作為測(cè)試數(shù)據(jù),分別與基于光譜、MPext、光譜和MPext融合的分類方法進(jìn)行比對(duì)。試驗(yàn)結(jié)果表明,在訓(xùn)練樣本數(shù)量有限情況下,INC_SPEC_MPext算法在降低分類成本的同時(shí),分類精度和Kappa系數(shù)都有不同程度的提高。
關(guān)鍵詞:高光譜遙感影像;形態(tài)學(xué);空間信息;光譜信息;增量分類
中圖分類號(hào):P237
基金項(xiàng)目:國(guó)家自然科學(xué)基金(41171269);環(huán)保公益性行業(yè)科研專項(xiàng)(201309037);江蘇高校優(yōu)勢(shì)學(xué)科建設(shè)工程資助項(xiàng)目(164320H101);地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)項(xiàng)目(2005DKA32300);江蘇省高校自然科學(xué)研究面上項(xiàng)目(14KJB170010);江蘇省普通高校研究生科研創(chuàng)新計(jì)劃(1812000002A403)
收稿日期:2014-07-21
作者簡(jiǎn)介:第一 王俊淑(1985—),女,博士生,助理研究員,研究方向?yàn)楦吖庾V遙感影像智能信息提取。
1引言
高光譜遙感影像具有超高的光譜分辨率,對(duì)地物和物質(zhì)類型的刻畫更加精細(xì),類別區(qū)分度更高。其數(shù)據(jù)的高維特性決定了傳統(tǒng)的全色和多光譜分類難以直接運(yùn)用于高光譜影像,勢(shì)必要針對(duì)其數(shù)據(jù)特點(diǎn)研究適合高光譜影像的分類方法。目前高光譜影像分類主要有兩種:一種是進(jìn)行特征提取[1-2]或選取[3]后再分類,將大部分信息集中在少數(shù)幾個(gè)特征向量上,其本質(zhì)和多光譜影像分類類似。此方法會(huì)損失許多重要的細(xì)節(jié)信息,特別是高光譜影像對(duì)地物精細(xì)表達(dá)這一優(yōu)勢(shì)沒有很好體現(xiàn)。另一種是對(duì)原始高光譜影像直接分類[4],此方法主要存在以下問題:①容易引起Hughes現(xiàn)象;②分類過程中僅依賴標(biāo)記樣本數(shù)據(jù),訓(xùn)練出的分類器容易過擬合;③需要大量標(biāo)記樣本,樣本數(shù)通常是光譜維數(shù)的數(shù)倍甚至數(shù)十倍,而獲取標(biāo)記樣本代價(jià)通常較高,相反未標(biāo)記樣本數(shù)量充足并易于獲取,且蘊(yùn)含了大量有用信息卻沒有得到充分運(yùn)用,造成了數(shù)據(jù)資源的極大的浪費(fèi);④忽略了像元間的空間位置關(guān)系。
針對(duì)上述問題,本文結(jié)合自訓(xùn)練半監(jiān)督學(xué)習(xí)技術(shù)[5-8],根據(jù)高光譜遙感影像的特點(diǎn),提出一種增量分類算法INC_SPEC_MPext。根據(jù)少量初始標(biāo)記樣本,發(fā)掘高光譜數(shù)據(jù)豐富而廉價(jià)的未標(biāo)記樣本所蘊(yùn)含的信息,不斷從中學(xué)習(xí)新的知識(shí)來(lái)改善分類器性能。將光譜和空間信息相結(jié)合,以支持向量機(jī)(SVM)[9-12]作為基礎(chǔ)分類器。
2空間信息提取
將高光譜影像光譜與空間信息聯(lián)合[13-16]參與分類可以消除光譜分類結(jié)果中的噪點(diǎn)(椒鹽噪聲)現(xiàn)象。文獻(xiàn)[17—18]分別用馬爾可夫隨機(jī)場(chǎng)(MRF)和Monte Carlo模型提取空間紋理信息,聯(lián)合光譜信息優(yōu)化分類。其缺點(diǎn)在于紋理信息提取算法的時(shí)間代價(jià)通常較高。與之相比,擴(kuò)展形態(tài)學(xué)剖面信息提取具有較低時(shí)間和空間計(jì)算復(fù)雜度[19],更適合處理數(shù)據(jù)量和復(fù)雜程度較高的高光譜影像。具體的擴(kuò)展形態(tài)學(xué)剖面信息提取過程如下:①利用主成分分析(PCA)提取影像若干主成分;②以每個(gè)主分量影像為基影像,用數(shù)學(xué)形態(tài)學(xué)方法提取開剖面和閉剖面,與基影像一起構(gòu)成形態(tài)學(xué)剖面;③將所有主分量影像的形態(tài)學(xué)剖面進(jìn)行矢量疊加,構(gòu)成擴(kuò)展的形態(tài)學(xué)剖面,即高光譜影像的空間信息。
影像I中像元x的形態(tài)學(xué)剖面(MP)[20-21]定義為
MP(x)=[CPn(x),…,I(x),…,OPn(x)]=
[0,n]
(1)
MPext=[MPPC1(x),MPPC2(x),…,MPPCq(x)]
(2)
以半徑為1,增量為3的圓形結(jié)構(gòu)元為例,對(duì)兩個(gè)主分量影像分別進(jìn)行兩次開剖面、閉剖面提取,最后組成擴(kuò)展的形態(tài)學(xué)剖面如圖1所示。
通過擴(kuò)展形態(tài)學(xué)處理,獲取了豐富的空間信息,可以對(duì)結(jié)構(gòu)性的物質(zhì)或物體進(jìn)行區(qū)分,如橋梁和建筑物[19]。使用光譜信息可以對(duì)城區(qū)的非結(jié)構(gòu)性物質(zhì)加以區(qū)分,如植被和裸地。將空間與光譜信息結(jié)合可以優(yōu)勢(shì)互補(bǔ),大大增加分類的有效信息。
3基于光譜-空間信息的增量分類算法
INC_SPEC_MPext算法分別從光譜和空間兩個(gè)不同視角審視圖像。利用少量初始標(biāo)記樣本,構(gòu)建光譜分類模型Met和空間分類模型Mat,對(duì)未標(biāo)記樣本進(jìn)行分類預(yù)測(cè)。由于光譜域、空間域蘊(yùn)含的圖像信息不同,兩個(gè)分類模型對(duì)未標(biāo)記樣本的預(yù)測(cè)標(biāo)記會(huì)有差異。通常情況下,兩個(gè)分類模型預(yù)測(cè)結(jié)果一致的樣本被正確分類的可能性更高。將二者預(yù)測(cè)結(jié)果一致的樣本作為置信樣本分別加入各自訓(xùn)練集中,這是融合光譜、空間信息的第一步。再用擴(kuò)大的訓(xùn)練集重新訓(xùn)練兩個(gè)分類模型,分別對(duì)剩余的未標(biāo)記樣本分類預(yù)測(cè),如此迭代地執(zhí)行此過程。不斷增加訓(xùn)練集樣本數(shù)量,并用擴(kuò)大的訓(xùn)練集重復(fù)訓(xùn)練分類模型來(lái)對(duì)剩余未標(biāo)記樣本分類,直至兩個(gè)分類模型再?zèng)]有預(yù)測(cè)一致樣本,迭代過程結(jié)束。再將光譜和空間信息進(jìn)行矢量疊加融合,這是融合光譜、空間信息的第二步。將光譜、空間信息綜合考慮,利用初始標(biāo)記樣本集和每次迭代過程中的新增置信樣本一起作為訓(xùn)練集訓(xùn)練分類器,對(duì)空-譜融合后的高光譜影像進(jìn)行分類。整個(gè)分類過程是增量迭代地進(jìn)行,直至所有樣本都獲得類別標(biāo)記,增量分類算法結(jié)束。算法具體描述如下。
圖1 高光譜影像兩個(gè)主分量圖像的擴(kuò)展形態(tài)學(xué)剖面MP ext (圓形結(jié)構(gòu)元半徑為1,增量為3,進(jìn)行兩次開閉操作) Fig.1 Extended morphological profiles for two principle components images of hyperspectral image with twice opening and twice closing, and circular structuring element was used with radius increment 3(r=1,4 pixels)
算法共進(jìn)行兩次信息融合,一次是選擇置信樣本時(shí),將光譜、空間信息分類結(jié)果一致的樣本加入訓(xùn)練集;另一次是增量迭代過程結(jié)束后,對(duì)影像光譜、空間信息矢量疊加融合進(jìn)行分類。算法借鑒了自訓(xùn)練分類的思想,并對(duì)其置信樣本選取規(guī)則進(jìn)行改進(jìn),摒棄按概率選取的策略,將分類模型Met和Mat預(yù)測(cè)一致的樣本加入訓(xùn)練集,可以在一定程度上減少誤標(biāo)記樣本的數(shù)量。另外,選取預(yù)測(cè)標(biāo)記一致樣本所增加的信息量要高于按概率選取所增加的信息量。
4試驗(yàn)驗(yàn)證及精度評(píng)價(jià)
試驗(yàn)選取不同傳感器、不同地區(qū)地表覆蓋類型的高光譜數(shù)據(jù)源AVIRISIndianPines和HyperionEO-1Botswana作為測(cè)試數(shù)據(jù)。兩幅高光譜影像具有很好的代表性。IndianPines數(shù)據(jù)具有較高的類間相似度,且裸地對(duì)處于生長(zhǎng)早期的植被干擾嚴(yán)重,使IndianPines數(shù)據(jù)分類較為復(fù)雜。Botswana數(shù)據(jù)一些類別光譜特征具有很好的可分性,如水體、河馬草和裸沙,而有些類別則混合了不同類型的植被,如刺槐林地、刺槐灌木地、刺槐草原,類別間具有一定的重疊,如短豆木、混合豆木,導(dǎo)致了部分類別的類間相似度較高,相似的光譜特征和混合類的存在增大了Botswana數(shù)據(jù)的分類難度。兩組數(shù)據(jù)集各類別平均光譜曲線如圖2所示。
圖2 Indian Pines和Botswana數(shù)據(jù)集各類別平均光譜曲線(類別編號(hào)分別與表2和表6相對(duì)應(yīng)) Fig.2 Average spectral signature for each class, for the two datasets(The class index corresponds to classes described in Tab. 2 and Tab. 6)
由于支持向量機(jī)(SVM)[22]適合于處理高維數(shù)據(jù),對(duì)大規(guī)模數(shù)據(jù)分類速度較快,故將SVM作為本次試驗(yàn)的基礎(chǔ)分類器。采用高斯核函數(shù),即kσ(xi,xj)=exp(-‖xi-xj‖2/2σ2),i=1,2,…,n,xi和xj是光譜向量。將INC_SPEC_MPext算法分別與基于光譜、空間信息以及光譜和空間信息直接融合的SVM分類作比對(duì),驗(yàn)證增量分類算法的有效性。
使用機(jī)載可見光/紅外成像光譜儀(AVIRIS) 1992年6月獲取的美國(guó)印第安納州西北部地區(qū)IndianPines作為試驗(yàn)區(qū)域,地表覆蓋類型混合了林地、農(nóng)田、道路、房屋建筑等。標(biāo)記樣本分布不均衡,部分類別樣本較少。各種農(nóng)作物基本都處于生長(zhǎng)初期,對(duì)地表的林冠覆蓋程度只有5%,裸地和作物殘?jiān)鼘?duì)植被像元分類影響明顯。以上原因?qū)е聰?shù)據(jù)集類間相似度非常高,分類難度大大增加。IndianPines圖像大小145像素×145像素,波長(zhǎng)范圍0.4~2.5μm,220個(gè)波段,空間分辨率20m,去除壞波段和水體吸收的波段,試驗(yàn)中使用200個(gè)波段。圖3(a)所示為IndianPines數(shù)據(jù)灰度圖像。圖3(b)是其對(duì)應(yīng)的地面參考圖,共有16種地物類別,10249個(gè)樣本。表1是其主成分所占百分比,數(shù)據(jù)顯示前3個(gè)主分量之和蘊(yùn)含超過93%的方差信息。本試驗(yàn)針對(duì)前3個(gè)主分量提取擴(kuò)展形態(tài)學(xué)剖面,使用圓形結(jié)構(gòu)元素,初始半徑是1,增量為3,對(duì)每個(gè)主分量進(jìn)行3次開、閉操作,獲得的擴(kuò)展形態(tài)學(xué)剖面維數(shù)是3×(2×3+1)=21維。隨機(jī)選擇1000個(gè)數(shù)據(jù)作為初始訓(xùn)練樣本,約占總樣本數(shù)量的10%,各類別初始訓(xùn)練樣本數(shù)和對(duì)應(yīng)的測(cè)試樣本數(shù)如表2所示。
圖3 Indian Pines數(shù)據(jù)及地面真值 Fig.3 Indian Pines data and the ground truth
主分量所占總方差百分比/(%)主分量累積所占總方差百分比/(%)λ168.4968.49λ223.5392.03λ31.5093.52
表2Indian Pines數(shù)據(jù)集各類別訓(xùn)練、測(cè)試樣本以及不同算法的總體分類精度、各類別測(cè)試精度
Tab.2Information classes and training-test samples and summary of the global and the class-specific test accuracies in percentage for different classification algorithms of Indian Pines data set
序號(hào)類別樣本訓(xùn)練樣本測(cè)試樣本SPEC/(%)200維MPext/(%)21維SPEC+MPext/(%)221維INC_SPEC_MPext/(%)221維1苜蓿54110.8782.6110.8719.572玉米未耕地140128882.4272.9783.3383.823玉米略耕地8174968.0787.1179.1686.394玉米2421362.4572.1564.9875.535草地-牧場(chǎng)4843590.0689.0392.1391.306草地-林地7265898.2297.1299.1899.327收割后草地-牧場(chǎng)32550.0067.8650.0057.148干草堆4743199.5898.5499.79100.009燕麥21810.0010.0010.0015.0010大豆未耕地9587775.7285.4977.7884.9811大豆略耕地232222384.1591.2086.6492.4212收割后的大豆5853571.8456.3276.9074.8713小麥2118499.5193.1799.0299.5114林地124114196.0595.5797.3998.1015建筑物-草地-喬木-汽車3834862.9580.5768.1372.2816石頭-鋼制品-塔108389.2574.1993.5597.85OA/(%)樣本總數(shù)83.0585.7585.7888.97κ/(%)1000 9249 80.5783.6683.7387.37
為了測(cè)試本算法的分類結(jié)果,分4組試驗(yàn)對(duì)Indian Pines數(shù)據(jù)分類結(jié)果進(jìn)行比對(duì),分別是:①使用原始光譜信息進(jìn)行SVM分類;②使用提取的擴(kuò)展形態(tài)學(xué)剖面(空間信息)進(jìn)行SVM分類;③將光譜和空間信息矢量疊加融合進(jìn)行SVM分類;④將光譜和空間信息融合后進(jìn)行增量分類。其中,①和②分別使用光譜、空間信息作為SVM的輸入,③和④用光譜空間融合信息作為SVM的輸入,參數(shù)C和σ均由十折交叉驗(yàn)證獲取。4組試驗(yàn)所用的訓(xùn)練樣本完全相同,且通過隨機(jī)選取策略獲得,剩余樣本全部作為測(cè)試樣本。試驗(yàn)采用混淆矩陣進(jìn)行分類結(jié)果精度評(píng)價(jià),INC_SPEC_MPext算法對(duì)應(yīng)的混淆矩陣如表3所示。
表3 Indian Pines數(shù)據(jù)集INC_SPEC_MP ext分類混淆矩陣
表2給出Indian Pines數(shù)據(jù)不同分類算法對(duì)應(yīng)的總體分類精度、各類別平均分類精度(OA)及Kappa系數(shù)(κ)。Indian pines試驗(yàn)數(shù)據(jù)具有一定的空間分布特征,提取的擴(kuò)展形態(tài)學(xué)剖面能夠較好地反映樣本空間信息。因此,基于MPext的Indian Pines數(shù)據(jù)分類精度要優(yōu)于光譜分類。將光譜和空間信息直接融合分類比光譜分類精度提高了2.73%,與MPext相比只提高了0.03%,說(shuō)明對(duì)于Indian Pines數(shù)據(jù),直接融合空-譜信息的分類效果優(yōu)于光譜、空間單獨(dú)分類,但對(duì)空間信息分類精度提高有限。本文算法INC_SPEC_MPext融合了光譜和空間信息,與光譜、空間分類結(jié)果相比,總體精度(OA)分別提高了5.92%、3.22%,Kappa系數(shù)(κ)分別提高了6.82%、3.73%。同時(shí),INC_SPEC_MPext對(duì)自訓(xùn)練的置信樣本選取規(guī)則進(jìn)行改進(jìn),不斷優(yōu)選Met和Mat預(yù)測(cè)標(biāo)記一致的樣本參與分類器訓(xùn)練,增加了更多有用信息。與光譜和空間信息直接融合分類相比,INC_SPEC_MPext算法總體分類精度(OA)和Kappa系數(shù)(κ)分別提高了3.19%和3.66%。算法只需3次迭代即可選出所有Met和Mat分類預(yù)測(cè)標(biāo)記一致的樣本。當(dāng)結(jié)構(gòu)元半徑取值為1,步長(zhǎng)取值為3時(shí),每次迭代Met和Mat預(yù)測(cè)一致樣本個(gè)數(shù)及對(duì)應(yīng)的光譜、空間分類精度如表4所示。前兩次迭代過程中,Met和Mat分別有6979、818個(gè)預(yù)測(cè)標(biāo)記一致的樣本,迭代至第3次時(shí)Met和Mat已沒有預(yù)測(cè)一致的樣本,此時(shí)將光譜和空間信息進(jìn)行矢量疊加融合分類。從表4可以看出,INC_SPEC_MPext算法的分類精度隨著訓(xùn)練集中樣本數(shù)量的增加而不斷提高,進(jìn)一步驗(yàn)證了增量分類算法的有效性。各算法對(duì)應(yīng)的分類圖如圖4所示。
表4Indian Pines和Botswana數(shù)據(jù)集迭代次數(shù)t=3,結(jié)構(gòu)元半徑r=1, 步長(zhǎng)step=3時(shí),對(duì)應(yīng)的光譜、空間預(yù)測(cè)標(biāo)記一致的樣本(新增樣本)個(gè)數(shù)及各自分類精度
Tab.4The number of spectral and spatial consistent label samples and classification accuracy corresponds to Indian Pines and Botswana data set when iterative timest=3, structure radiusr=1 and step value step=3
迭代次數(shù)tIndianPinesBotswana一致樣本個(gè)數(shù)(合并)SPEC/(%)MPext/(%)一致樣本個(gè)數(shù)(合并)SPEC/(%)MPext/(%)1697983.0585.75243092.1588.27281886.6287.8715694.6490.583#87.5588.23#95.1091.01
圖4 Indian Pines 數(shù)據(jù)不同算法對(duì)應(yīng)的分類結(jié)果圖 Fig.4 Classification maps for different algorithms of Indian Pines data
另外,為了說(shuō)明提取擴(kuò)展形態(tài)學(xué)剖面數(shù)據(jù)時(shí),結(jié)構(gòu)元素參數(shù)對(duì)本文算法精度的影響,采用不同結(jié)構(gòu)元素半徑和增量大小對(duì)Indian Pines數(shù)據(jù)集進(jìn)行測(cè)試。結(jié)構(gòu)元素半徑取值范圍{1,2,3,4},增量大小取值范圍{1,2,3,4},共計(jì)16組不同參數(shù)組合進(jìn)行測(cè)試。圖5為不同算法對(duì)應(yīng)的總體分類精度隨兩個(gè)參數(shù)變化的三維散點(diǎn)圖。從圖5可以看出無(wú)論哪種參數(shù)組合方式,本文提出的INC_SPEC_MPext算法都優(yōu)于光譜、空間以及光譜和空間直接融合分類,能夠獲得更好的分類效果。圖6為不同參數(shù)組合情況下新增樣本的正確率及其與INC_SPEC_MPext算法總體分類精度的關(guān)系圖。雖然步長(zhǎng)和結(jié)構(gòu)元半徑取值不同會(huì)對(duì)分類精度具有一定的影響,但從圖中可以看出,INC_SPEC_MPext算法總體分類精度與新增樣本正確率呈正相關(guān),即新增標(biāo)記樣本正確率越高,則分類效果越好。同時(shí),總體分類精度受新增訓(xùn)練樣本的數(shù)量和知識(shí)增益的影響,會(huì)隨著新增標(biāo)記樣本正確率不同呈現(xiàn)差異性。
圖5 Indian Pines數(shù)據(jù)集不同分類算法對(duì)應(yīng)的總體分類精度隨結(jié)構(gòu)元素參數(shù)變化散點(diǎn)圖 Fig.5 The scatter plot for global classification accuracy under different SE parameters and different algorithms of Indian Pines data set
圖6 Indian Pines數(shù)據(jù)集不同步長(zhǎng)和結(jié)構(gòu)元半徑組合時(shí)新增樣本的正確率及其與INC_SPEC_MP ext 算法總體分類精度關(guān)系圖 Fig.6 The plot for overall classification accuracy of INC_SPEC_MP ext algorithm corresponds to the correctness of incremental samples under different SE parameters of Indian Pines data set
第2個(gè)試驗(yàn)數(shù)據(jù)是2001年5月由Hyperion EO-1傳感器獲取的Okavango三角洲地區(qū)高光譜影像。試驗(yàn)所用樣本呈現(xiàn)了三角洲影像邊緣地區(qū)季節(jié)性沼澤、偶發(fā)性沼澤、枯林地的地表覆蓋類型,主要反映洪水對(duì)研究區(qū)植被的影響。其中類別3、4都是季節(jié)性淹沒的泛濫平原草地,而在其他的水文周期則呈現(xiàn)不同的地表覆蓋類型。類別9、10、11表示刺槐林地、灌叢帶和草原的不同類型混合,分別以面積占優(yōu)的地物命名地類。影像大小610像素×340像素,空間分辨率30m,光譜范圍0.4~2.5μm,光譜分辨率0.01μm,242個(gè)波段。去除壞波段和低信噪比波段后,共145個(gè)光譜波段可用。圖7(a)所示為Botswana數(shù)據(jù)灰度圖像。圖7(b)是其對(duì)應(yīng)的地面參考圖,共有14種地物類別,3248個(gè)樣本。表5是其主成分所占百分比,數(shù)據(jù)顯示前兩個(gè)主分量之和蘊(yùn)含超過99%的方差信息。本試驗(yàn)針對(duì)前兩個(gè)主分量提取擴(kuò)展形態(tài)學(xué)剖面。試驗(yàn)中采用圓形結(jié)構(gòu)元素,初始半徑是1,增量為3,對(duì)每個(gè)主分量進(jìn)行3次開、閉操作,擴(kuò)展形態(tài)學(xué)剖面維數(shù)是2×(2×3+1)=14維。隨機(jī)選擇300個(gè)數(shù)據(jù)作為初始訓(xùn)練樣本,約占總樣本數(shù)量的9%,各類別初始訓(xùn)練樣本數(shù)和對(duì)應(yīng)的測(cè)試樣本數(shù)如表6所示。
表5Botswana主成分特征值所占百分比
Tab.5Eigenvalues of principal components in percentage of Botswana
%
圖7 Botswana數(shù)據(jù)及地面真值 Fig.7 Botswana data and the ground truth
同樣分4組試驗(yàn)對(duì)Botswana數(shù)據(jù)分類結(jié)果進(jìn)行比對(duì),分別是:①使用原始光譜信息進(jìn)行SVM分類;②使用提取的擴(kuò)展形態(tài)學(xué)剖面(空間信息)進(jìn)行SVM分類;③將光譜和空間信息矢量疊加融合進(jìn)行SVM分類;④將光譜和空間信息融合進(jìn)行增量分類。其中,①和②分別使用光譜、空間信息作為SVM的輸入,③和④使用光譜空間融合信息作為SVM的輸入,參數(shù)C和σ均由十折交叉驗(yàn)證獲取。4組試驗(yàn)所用的訓(xùn)練樣本完全相同,且通過隨機(jī)選取策略獲得,剩余樣本全部作為測(cè)試樣本。試驗(yàn)采用混淆矩陣進(jìn)行分類結(jié)果精度評(píng)價(jià),INC_SPEC_MPext算法對(duì)應(yīng)混淆矩陣如表7所示。
表6Botswana數(shù)據(jù)集各類別訓(xùn)練、測(cè)試樣本以及不同算法的總體分類精度、各類別測(cè)試精度
Tab.6Information classes and training-test samples and summary of the global and the class-specific test accuracies in
percentage for different classification algorithms of Botswana data set
序號(hào)類別樣本訓(xùn)練樣本測(cè)試樣本SPEC/(%)145維SPEC/(%)14維SPEC+MPext/(%)159維INC_SPEC_MPext/(%)159維1水體25245100.00100.00100.00100.002河馬草99293.0769.3192.0893.073泛濫草原12322897.6192.0399.6099.604泛濫草原22019580.9381.4089.7793.025蘆葦12524492.1993.3199.2697.406河岸2524476.5873.6175.8488.487火跡22423598.0798.8498.0798.848內(nèi)島1918495.5764.5382.7672.919刺槐林地2928589.4979.9486.9496.8210刺槐灌木地2322591.9495.5697.58100.0011刺槐草原2827795.7497.7095.4198.3612短豆木1616595.5896.6998.3498.3413混合豆木2524389.9385.4594.0392.1614裸沙98697.89100.0098.96100.00OA/(%)樣本總數(shù)92.1588.2793.2695.14κ/(%)300294894.9690.8992.7094.73
表7 Botswana數(shù)據(jù)集INC_SPEC_MP ext分類混淆矩陣
表6給出Botswana數(shù)據(jù)不同分類算法對(duì)應(yīng)的總體分類精度、各類別平均分類精度及Kappa系數(shù)(κ)。由于試驗(yàn)采集樣本空間不連續(xù),因此提取的空間信息有限,導(dǎo)致空間分類精度不如光譜分類,這是由試驗(yàn)數(shù)據(jù)分布情況決定的。光譜和空間信息直接融合分類比光譜分類精度提高了1.11%,比MPext提高了4.99%。因此,光譜和空間信息直接融合的分類效果優(yōu)于光譜、空間單獨(dú)分類。本文算法INC_SPEC_MPext通過融合光譜和空間信息,比光譜、空間單獨(dú)分類的總體精度分別提高了2.99%和6.87%。同時(shí),INC_SPEC_MPext算法對(duì)自訓(xùn)練的置信樣本選取規(guī)則進(jìn)行改進(jìn),不斷優(yōu)選Met和Mat預(yù)測(cè)標(biāo)記一致的樣本參與分類器訓(xùn)練,增加了更多有用信息。與光譜和空間信息直接融合分類相比,INC_SPEC_MPext算法總體分類精度(OA)和Kappa系數(shù)(κ)分別提高了1.88%和2.03%。算法只需3次迭代即可選出所有Met和Mat分類預(yù)測(cè)標(biāo)記一致的樣本。當(dāng)結(jié)構(gòu)元半徑取值為1,步長(zhǎng)取值為3時(shí),每次迭代Met和Mat預(yù)測(cè)一致樣本個(gè)數(shù)及對(duì)應(yīng)的光譜、空間分類精度如表4所示。前兩次迭代過程中,Met和Mat分別共有2430、156個(gè)預(yù)測(cè)標(biāo)記一致的樣本。迭代至第3次時(shí)Met和Mat已沒有預(yù)測(cè)一致的樣本,此時(shí)將光譜和空間信息進(jìn)行矢量疊加融合分類。從表4可以看出,INC_SPEC_MPext算法總體分類精度隨著訓(xùn)練集中樣本數(shù)量的增加而不斷提高,進(jìn)一步驗(yàn)證了增量分類算法的有效性。
另外,為了說(shuō)明提取擴(kuò)展形態(tài)學(xué)剖面數(shù)據(jù)時(shí),結(jié)構(gòu)元素參數(shù)對(duì)本文算法精度的影響,試驗(yàn)采用不同結(jié)構(gòu)元素半徑和增量大小對(duì)Botswana數(shù)據(jù)集進(jìn)行測(cè)試。結(jié)構(gòu)元素半徑取值范圍{1,2},增量大小取值范圍{1,2,3,4},共計(jì)8組不同參數(shù)組合。圖8為不同算法對(duì)應(yīng)的總體分類精度隨兩個(gè)參數(shù)變化的三維散點(diǎn)圖。從圖8可以看出無(wú)論哪種參數(shù)組合方式,本文提出的INC_SPEC_MPext算法都優(yōu)于光譜、空間以及光譜和空間直接融合分類,能夠獲得更好的分類效果。
圖8 Botswana數(shù)據(jù)集不同分類算法總體分類精度隨結(jié)構(gòu)元素參數(shù)變化散點(diǎn)圖 Fig.8 The scatter plot for global classification accuracy under different SE parameters and different algorithms of Botswana data set
圖9為不同參數(shù)組合情況下新增樣本的正確率及其與INC_SPEC_MPext算法總體分類精度的關(guān)系圖。雖然步長(zhǎng)和結(jié)構(gòu)元半徑取值不同會(huì)對(duì)分類精度具有一定的影響,但從圖中可以看出,INC_SPEC_MPext算法總體分類精度與新增樣本正確率呈正相關(guān),即新增標(biāo)記樣本正確率越高,則分類效果越好。同時(shí),總體分類精度受新增訓(xùn)練樣本的數(shù)量和知識(shí)增益的影響,會(huì)隨著新增標(biāo)記樣本正確率不同呈現(xiàn)差異性。
圖9 Botswana數(shù)據(jù)集不同步長(zhǎng)和結(jié)構(gòu)元半徑組合時(shí)新增樣本的正確率及其與INC_SPEC_MP ext算法總體分類精度關(guān)系圖 Fig.9 The plot for overall classification accuracy of INC_SPEC_MP ext algorithm corresponds to the correctness of incremental samples under different SE parameters of Botswana data set
本文分兩次試驗(yàn)分別針對(duì)不同地表覆蓋類型的高光譜影像進(jìn)行了算法測(cè)試。Indian Pines數(shù)據(jù)空間分布特征明顯,提取的MPext信息分類精度優(yōu)于光譜分類。而Botswana影像由于試驗(yàn)樣本采樣不連續(xù),導(dǎo)致空間分布特征沒有很好地保留,故提取的MPext空間信息分類精度不如光譜分類。針對(duì)這兩種具有代表性的數(shù)據(jù)試驗(yàn)結(jié)果可以看出,與基于光譜、空間信息以及光譜和空間信息直接融合的分類方法相比,INC_SPEC_MPext算法在標(biāo)記樣本數(shù)量有限條件下,通過最大限度利用未標(biāo)記樣本蘊(yùn)含的知識(shí),不斷優(yōu)化分類器學(xué)習(xí)能力,可以獲得更好的分類效果。
5結(jié)論
針對(duì)高光譜遙感影像標(biāo)記樣本獲取成本高的問題,本文提出了高光譜遙感影像增量分類算法INC_SPEC_MPext,旨在充分利用大量未標(biāo)記樣本所蘊(yùn)含的知識(shí)的同時(shí),以獲得更好的分類性能。與基于光譜分類相比,融合高光譜遙感影像的光譜和空間結(jié)構(gòu)信息,使待分類高光譜數(shù)據(jù)的信息更加豐富,可以在一定程度上減輕同物異譜和異物同譜對(duì)分類的影響。同時(shí),改進(jìn)了傳統(tǒng)的自訓(xùn)練算法,重新定義增量迭代過程中的置信樣本選取規(guī)則,將兩個(gè)分類模型預(yù)測(cè)一致的樣本加入訓(xùn)練集,不斷優(yōu)化分類器。修改后的規(guī)則可以使分類器獲取更多的知識(shí),選取的樣本置信度更高。試驗(yàn)結(jié)果表明,對(duì)于不同地表覆蓋類型的高光譜影像,當(dāng)標(biāo)記樣本數(shù)量不充足時(shí),INC_SPEC_MPext算法將大量高置信度、高信息量的樣本加入訓(xùn)練集,只需幾次迭代即可收斂。算法在降低分類成本的同時(shí),總體分類精度(OA)和Kappa系數(shù)(κ)都有不同程度提高。同時(shí),對(duì)源于自訓(xùn)練算法本身的未標(biāo)記樣本誤分現(xiàn)象,本算法雖然降低了誤標(biāo)記樣本的數(shù)量,但并沒有將其完全消除。后續(xù)的研究需要對(duì)此作進(jìn)一步合理的分析、研究和試驗(yàn),將誤標(biāo)記樣本的數(shù)量控制在最小范圍。
參考文獻(xiàn):
[1]KUO B C, LANDGREBE D A. A Robust Classification Procedure Based on Mixture Classifiers and Nonparametric Weighted Feature Extraction[J]. IEEE Transactions on Geoscience and Remote Sensing, 2002, 40(11): 2486-2494.
[2]LEE C, LANDGREBE D A. Feature Extraction Based on Decision Boundaries[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993, 15(4): 388-400.
[3]LIU Chunhong, ZHAO Chunhui, ZHANG Lingyan. A New Method of Hyperspectral Remote Sensing Image Dimensional Reduction[J]. Journal of Image and Graphics, 2005, 10(2): 218-222. (劉春紅, 趙春暉, 張凌雁. 一種新的高光譜遙感圖像降維方法[J]. 中國(guó)圖象圖形學(xué)報(bào), 2005, 10(2): 218-222.)
[4]LUO Jiancheng, ZHOU Chenghu, LIANG Yi, et al. Support Vector Machine for Spatial Feature Extraction and Classification of Remotely Sensed Imagery[J]. Journal of Remote Sensing, 2002, 6(1): 50-55. (駱劍承, 周成虎, 梁怡, 等. 支撐向量機(jī)及其遙感影像空間特征提取和分類的應(yīng)用研究[J]. 遙感學(xué)報(bào), 2002, 6(1): 50-55.)
[5]WANG Junshu, JIANG Nan, ZHANG Guoming, et al. Semi-supervised Classification Algorithm for Hyperspectral Remote Sensing Image Based on DE-self-training[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(5): 239-244. (王俊淑, 江南, 張國(guó)明, 等. 高光譜遙感圖像DE-self-training半監(jiān)督分類算法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2015, 46(5): 239-244.)
[6]ZHOU Zhihua, ZHAN Dechuan, YANG Qiang. Semi-supervised Learning with Very Few Labeled Training Examples[C]∥Proceedings of the National Conference on Artificial Intelligence. Cambridge, MA London: [s.n.], 2007, 22(1): 675-680.
[7]CHAWLA N V, KARAKOULAS G. Learning from Labeled and Unlabeled Data: An Empirical Study across Techniques and Domains[J]. Journal of Artificial Intelligence Research, 2005, 23(1): 331-366.
[8]LI Yuanqing, GUAN Cuntai, LI Huiqi, et al. A Self-training Semi-supervised SVM Algorithm and Its Application in an EEG-based Brain Computer Interface Speller System[J]. Pattern Recognition Letters, 2008, 29(9): 1285-1294.
[9]TAN Kun, DU Peijun. Wavelet Support Vector Machines Based on Reproducing Kernel Hilbert Space for Hyperspectral Remote Sensing Image Classification[J]. Acta Geodaetica et Cartographica Sinica, 2011, 40(2): 142-147. (譚琨, 杜培軍. 基于再生核Hilbert空間的小波核函數(shù)支持向量機(jī)的高光譜遙感影像分類[J]. 測(cè)繪學(xué)報(bào), 2011, 40(2): 142-147.)
[10]MELGANI F, BRUZZONE L. Classifcation of Hyperspectral Remote Sensing Images with Support Vector Machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8): 1778-1790.
[11]MANTHIRA MOORTHI S, MISRA I, KAUR R, et al. Kernel Based Learning Approach for Satellite Image Classification Using Support Vector Machine[C]∥IEEE Recent Advances in Intelligent Computational Systems (RAICS). Trivandrum: IEEE, 2011: 107-110.
[12]DELL’ACQUA F, GAMBA P, FERRARI A, et al.Exploiting Spectral and Spatial Information in Hyperspectral Urban Data with High Resolution[J]. IEEE Geoscience and Remote Sensing Letters, 2004, 1(4): 322-326.
[13]LIANG Liang, YANG Minhua, LI Yingfang. Hyperspectral Remote Sensing Image Classification Based on ICA and SVM Algorithm[J]. Spectroscopy and Spectral Analysis, 2010, 30(10): 2724-2728. (梁亮, 楊敏華, 李英芳. 基于ICA與SVM算法的高光譜遙感影像分類[J]. 光譜學(xué)與光譜分析, 2010, 30(10): 2724-2728.)
[14]WU Jian. PENG Daoli. Vegetation Classification Technology of Hyperspectral Remote Sensing Based on Spatial Information[J]. Transactions of the Chinese Society of Agricultural Engineering, 2012, 28(5): 150-153. (吳見, 彭道黎. 基于空間信息的高光譜遙感植被分類技術(shù)[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2012, 28(5): 150-153.)
[15]GAO Hengzhen, WAN Jianwei, WANG Libao, et al. Research on Classification Technique for Hyperspectral Imagery Based on Spectral-spatial Composite Kernels[J]. Signal Processing, 2011, 27(5): 648-652. (高恒振, 萬(wàn)建偉, 王力寶, 等. 基于譜域-空域組合核函數(shù)的高光譜圖像分類技術(shù)研究[J]. 信號(hào)處理, 2011, 27(5): 648-652.)
[16]CHEN Shanjing, HU Yihua, SHI Liang, et al. Classificationof Hyperspectral Imagery Based on Ant Colony Compositely Optimizing SVM in Spatial and Spectral Features[J]. Spectroscopy and Spectral Analysis, 2013, 33(8): 2192-2197. (陳善靜, 胡以華, 石亮, 等. 空-譜二維蟻群組合優(yōu)化SVM 的高光譜圖像分類[J]. 光譜學(xué)與光譜分析, 2013, 33(8): 2192-2197.)
[17]POGGI G, SCARPA G, ZERUBIA J B. Supervised Segmentation of Remote Sensing Images Based on a Tree-structure MRF Model[J]. IEEE Transactions on Geoscience and Remote Sensing, 2005, 43(8): 1901-1911.
[18]JACKSON Q, LANDGREBE D A. Adaptive Bayesian Contextual Classification Based on Markov Random Fields[J]. IEEE Transactions on Geoscience and Remote Sensing, 2002, 40(11): 2454-2463.
[19]FAUVEL M, BENEDIKTSSON J A, CHANUSSOT J, et al. Spectral and Spatial Classification of Hyperspectral Data Using SVMs and Morphological Profiles[J]. IEEE Transactions on Geoscience and Remote Sensing, 2008, 46(11): 3804-3814.
[20]CRESPO J, SERRA J, SCHAFER R W. Theoretical Aspects of Morphological Filters by Reconstruction[J], Signal Processing, 1995, 47(2): 201-225.
[21]FAUVEL M, TARABALKA Y, BENEDIKTSSON J A, et al. Advances in Spectral-spatial Classification of Hyperspectral Images[J]. Proceedings of the IEEE, 2013, 101(3): 652-675.
[22]CHANG C C, LIN C J. LIBSVM: A Library for Support Vector Machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27.
(責(zé)任編輯:張艷玲)
修回日期: 2015-06-08
First author: WANG Junshu(1985—), female, PhD candidate, research assistant, majors in intelligent information extraction of hyperspectral remote sensing image.
E-mail: jlsdwjs@126.com
通信作者: 江南
Corresponding author: JIANG Nan
E-mail: njiang@njnu.edu.cn