馬明等
摘要:以云南省文山壯族苗族自治州麻栗坡縣2005年TM影像為試驗(yàn)數(shù)據(jù),利用最大似然分類(MLC)、支持向量機(jī)(SVM)以及隨機(jī)森林(RF)3種分類方法進(jìn)行了土地覆蓋遙感分類研究。從分類精度、樣本數(shù)量對分類器的影響、模型復(fù)雜度、分類速度等幾個方面進(jìn)行了比較分析。結(jié)果表明:隨機(jī)森林分類法最優(yōu),而經(jīng)典方法之一的最大似然分類法最穩(wěn)定。所得出的結(jié)論對在類似的應(yīng)用中如何選擇合適的分類方法具有一定的參考價(jià)值。
關(guān)鍵詞:TM影像;土地覆蓋;最大似然;支持向量機(jī);隨機(jī)森林
1引言
全球變化研究的深入開展引發(fā)了區(qū)域土地利用變化這一熱點(diǎn)問題[1,2],人類活動對環(huán)境的影響也受到各國科學(xué)家的廣泛關(guān)注,尤其是人類為了生存和發(fā)展進(jìn)行的土地開發(fā)利用以及由此引起的土地覆蓋變化[3,4]。遙感技術(shù)是獲取土地覆蓋及其變化的最重要途徑,利用影像圖進(jìn)行調(diào)查研究由來已久。美國NASA的陸地衛(wèi)星 (Landsat) 計(jì)劃[5] (1975年前稱為地球資源技術(shù)衛(wèi)星~ERTS),所獲取的多波段掃描影像具較高空間分辨率、波譜分辨率、極為豐富的信息量和較高定位精度,已經(jīng)成為世界各國廣泛應(yīng)用的重要的地球資源與環(huán)境遙感數(shù)據(jù)源。
本文研究內(nèi)容來源于亞太森林網(wǎng)絡(luò)(APFNET)資助的國際合作項(xiàng)目“大湄公河次區(qū)域森林覆蓋與碳儲量遙感制圖”的部分研究內(nèi)容。大湄公河次區(qū)域是指湄公河流域的6個國家共7個地區(qū),包括柬埔寨、越南、老撾、緬甸、泰國和我國的云南省及廣西壯族自治區(qū)。本文的研究內(nèi)容源于該項(xiàng)目中我國云南省森林覆蓋遙感制圖的重要研究內(nèi)容,其中麻栗坡縣是云南項(xiàng)目區(qū)中一個試驗(yàn)區(qū)。
云南省文山壯族苗族自治州麻栗坡縣,地理坐標(biāo)為東經(jīng)104°33′~105°18′,北緯22°48′~23°33′,總面積為2395hm2,境內(nèi)屬亞熱帶季風(fēng)氣候,地表因受盤龍河、疇陽河、八布河的強(qiáng)烈切割,形成了西北~東南向的山地與峽谷相間的地形,且土地覆蓋變化差異明顯[6],使得該地適合用作實(shí)驗(yàn)區(qū)域。
傳統(tǒng)的數(shù)據(jù)分類方法是根據(jù)數(shù)據(jù)的統(tǒng)計(jì)特征與訓(xùn)練樣本數(shù)據(jù)之間的關(guān)系來進(jìn)行分類的,其分類精度往往很不理想。近年來在采用支持向量機(jī)(Support Vector Machine,SVM)和隨機(jī)森林 (Random Forests,RF) 等新方法進(jìn)行研究的過程中,取得了很大的進(jìn)展[7]。最大似然分類 (Maximum Likelihood Classification,MLC) 是基于統(tǒng)計(jì)模型分類的最常用且精度較高的監(jiān)督分類法,但感數(shù)據(jù)的統(tǒng)計(jì)分布具有高度的復(fù)雜性和隨機(jī)性,分類結(jié)果不可避免地存在誤分、漏分的情況[8],且分類精度很大程度上依賴于分割尺度的大小[9]。支持向量機(jī)分類(SVM)是近年來在統(tǒng)計(jì)學(xué)理論基礎(chǔ)上發(fā)展起來的一種新型算法。實(shí)驗(yàn)表明SVM不但能獲得比較高的分類精度,而且在學(xué)習(xí)速度、自適應(yīng)能力、特征空間維數(shù)不限制、可表達(dá)性等方面具有優(yōu)勢,更適合于復(fù)雜、高維的數(shù)據(jù)分析處理[10],但是SVM用于解優(yōu)化問題的逼近算法會影響泛化能力。隨機(jī)森林分類 (RF) 是由Breiman[11]提出的基于決策樹分類器的融合算法,其優(yōu)點(diǎn)在于對于很多種資料,它可以產(chǎn)生高準(zhǔn)確度的分類器,應(yīng)用處理大量的輸入變量時(shí)能夠保證其高效性。但對于有不同級別的屬性數(shù)據(jù),級別劃分較多會對隨機(jī)森林產(chǎn)生更大的影響。
本文以TM影像為試驗(yàn)數(shù)據(jù),應(yīng)用以上3種圖像分類方法進(jìn)行土地覆蓋分類試驗(yàn),從分類精度、樣本數(shù)量對分類器的影響、模型復(fù)雜度、分類速度等幾個方面進(jìn)行了比較分析,以尋求整個湄公河區(qū)域土地覆蓋遙感分類的最優(yōu)技術(shù)方案。
2數(shù)據(jù)源及預(yù)處理
21數(shù)據(jù)源及預(yù)處理
遙感數(shù)據(jù)采用美國 Landsat衛(wèi)星所獲取的多波段掃描影像產(chǎn)品。成像時(shí)間為2005年5月25日,圖像軌道號:p128r43、p127r43、p128r44和p127r44。圖1為4景影像數(shù)據(jù)經(jīng)過裁剪拼接后按5(R),4(G),3(B)合成得到的研究區(qū)遙感影像圖。
22土地覆蓋分類系統(tǒng)和訓(xùn)練樣本數(shù)據(jù)
分類系統(tǒng)建立主要基于國土資源部《土地利用現(xiàn)狀分類》一級分類系統(tǒng),并考慮到整個大湄公河次區(qū)域地區(qū)土地覆蓋/土地利用分類系統(tǒng)的一致性、遙感數(shù)據(jù)的可分性等因素后最終確定將研究區(qū)的土地覆蓋/土地利用劃分建筑用地、農(nóng)地、水域、針葉林地、闊葉林地、灌木林地和裸地7種地類。
23分類數(shù)據(jù)特征選取
多光譜遙感數(shù)據(jù)的最佳波段選取是遙感圖像增強(qiáng)處理的關(guān)鍵部分,直接影響到目視解譯[13]和研究對象的信息提取。TM的7個波段中TM1~TM5、TM7這6個波段波長范圍為045~235μm,空間分辨率為30m,時(shí)間分辨率為16d,而TM6為遠(yuǎn)紅外波段,波長為104~125μm,空間分辨率為120m,數(shù)據(jù)量最小,一般不用于波段組合。3不同分類方法試驗(yàn)
31最大似然分類法 (MLC)
最大似然方法 (MLC) 是又叫貝葉斯 (Bayes) 判別分類,根據(jù)貝葉斯理論在使錯誤分類概率最小的約束條件下進(jìn)行,是遙感影像監(jiān)督分類最常用的統(tǒng)計(jì)方法之一[14,15]。
32支持向量機(jī)分類 (SVM)
SVM分類器使用高維特征空間,在高維特征空間中構(gòu)造的線性決策邊界可對應(yīng)于輸入空間的非線性決策邊界,通過使用具有很多個基函數(shù)的線性估計(jì)量,使在高維空間控制逼近函數(shù)的復(fù)雜性提供很好的推廣能力,利用線性函數(shù)的對偶核,解決數(shù)值優(yōu)化的二次規(guī)劃求解問題[16,17]。
SVM 分類器在參數(shù)選擇上,將實(shí)際問題轉(zhuǎn)換到高維空間,采用一種基于交叉驗(yàn)證的網(wǎng)格搜尋[18]的方法來尋找最優(yōu)分類面,用參數(shù)選擇模型Gridpy來搜索C和 γ 的取值[19]。33隨機(jī)森林分類(RF)
隨機(jī)森林顧名思義,是用隨機(jī)的方式建立一個森林,森林里面有很多的決策樹組成,隨機(jī)森林中的任意兩棵決策樹是相對獨(dú)立的。對于新來的測試樣本,通過每棵決策樹都對它進(jìn)行分類決策,最后的分類結(jié)果由投票法得出。雖然決策樹不是很強(qiáng)的分類器,但是通過組合起來的隨機(jī)森林,卻是一種強(qiáng)分類器。
4分類方法比較
41分類精度評價(jià)
根據(jù)二類調(diào)查小班數(shù)據(jù)選取測試樣本點(diǎn),像元個數(shù)分別為:水體338、建筑530、裸地670、農(nóng)地663、灌木林地589、針葉林地739、闊葉林地721,總的測試樣本數(shù)為4250像元,利用混淆矩陣對分類結(jié)果進(jìn)行客觀評價(jià),對本次精度進(jìn)行評價(jià)。參照二類調(diào)查小班數(shù)據(jù)及中國森林資源圖集等評定出隨機(jī)點(diǎn)的實(shí)際類別,得到誤差矩陣。
為了對比訓(xùn)練樣本數(shù)量對不同分類器的影響,減少部分樣本的數(shù)量進(jìn)行試驗(yàn)
樣本3減少了所有地類數(shù)量,分類結(jié)果三種分類器均有影響,但MLC和SVM影響較小,RF影響較大。不同訓(xùn)練樣本數(shù)的分類對比表明:MLC處理的樣本量需滿足最大似然法近似高斯分布,樣本量的增加對MLC分類精度提高不顯著。MLC是此3種分類法中最穩(wěn)定的方法;SVM在處理少量訓(xùn)練樣本數(shù)量時(shí),分類精度優(yōu)于較高,但速度較慢;RF在有大量樣本的情況下不管是在速度還是精度都能達(dá)到令人滿意的結(jié)果,但對樣本的依賴性較強(qiáng)(表4)。
表4各種分類方法綜合對比
分類法精度樣本量影響模型復(fù)雜度速度推廣MLC一般小較高很快一般SVM較高中高慢較高RF較高大高較快高
43分類結(jié)果
選取最優(yōu)分類器RF完成麻栗坡縣土地覆蓋類型遙感分類,表5為分類結(jié)果的面積統(tǒng)計(jì),將此統(tǒng)計(jì)結(jié)果與二類調(diào)查小班統(tǒng)計(jì)數(shù)據(jù)對比,每種土地覆蓋類型誤差都在±5%之內(nèi) 。表明基于隨機(jī)森林的分類方法取得了較好的效果。
5結(jié)語
先后運(yùn)用3種典型分類方法對TM影像的土地覆蓋分類進(jìn)行試驗(yàn),經(jīng)過比較與分析,總體得出以下結(jié)論。
(1)土地利用類型反射率差異大,易受擾動,SVM最優(yōu)指數(shù)的選擇,是改善其土地利用分類的精度的重要因素。
(2)綜合比較各分類器的性能,最大似然分類法 (MC) 最為簡便,且最穩(wěn)定,但精度低;支持向量機(jī) (SVM)在少量的樣本條件下分類精度也能達(dá)到令人滿意的結(jié)果;隨即森林 (RF) 在速度和精度上都具有優(yōu)勢,但對樣本的依賴較高。
(3) 從研究區(qū)數(shù)據(jù)來看,隨機(jī)森林 (RF) 分類方法可信度較高。其分類結(jié)果對比二類調(diào)查數(shù)據(jù)較為理想。
研究結(jié)果可為亞太森林網(wǎng)絡(luò)(APFNET)資助的國際合作項(xiàng)目“大湄公河次區(qū)域森林覆蓋與碳儲量遙感制圖”的研究,探索大尺度的森林分類和遙感制圖方法,為大尺度的森林制圖和變化監(jiān)測提供有效的技術(shù)手段,對于探索森林覆蓋與碳儲量增長及衰退的情況,林業(yè)技術(shù)、項(xiàng)目、貿(mào)易間的合作與交流等提供技術(shù)支持。
參考文獻(xiàn):
[1] 陳志,胡勇,劉成武咸寧市土地利用結(jié)構(gòu)時(shí)空演變及其驅(qū)動力分析[J]安徽農(nóng)業(yè)科學(xué),2007,35(26):8299~8301
[2] 祁元,王一謀,王建華,等寧夏土地利用時(shí)、空變化及其驅(qū)動機(jī)制[J]冰川凍土,2005,27(6):899~904
[3] 徐霞,王靜愛,朱玉潔,等內(nèi)蒙古中部地區(qū)土地利用變化區(qū)域差異分析[J]北京師范大學(xué)學(xué)報(bào):自然科學(xué)版,2006,42(3):310~313
[4] 俞文政,常慶瑞,寇建村青海湖流域草地類型變化及其生態(tài)服務(wù)價(jià)值研究[J]草業(yè)科學(xué),2005,22(9):14~17
[5] 周勝利美國的遙感計(jì)劃與政策[J]國際太空,2003(10):17
[6] 明慶忠,武友德,李宏云南森林生態(tài)旅游資源與可持續(xù)利用對策研究[J]熱帶地理,2000(4):321~325
[7] 蔡崇超文本分類新方法的研究與應(yīng)用[D]江南大學(xué),2008
[8] 郭健,張繼賢,張永宏,等多時(shí)相MODIS影像土地覆蓋分類比較研究[J]測繪學(xué)報(bào),2009(1):88
[9] 喬婷,張懷清,陳永富,等基于NDVI分割與面向?qū)ο蟮臇|洞庭湖濕地植被信息提取技術(shù)[J]西北林學(xué)院學(xué)報(bào),2013,28(4):170~175
[10] 駱劍承,周成虎,梁怡,等支撐向量機(jī)及其遙感影像空間特征提取和分類的應(yīng)用研究[J]遙感學(xué)報(bào),2002,6(1):50~55
[11] Breiman LRandom forest[J]Maching Learning,2001,45(1):5~32
[12] 肖興威中國森林資源圖集[M]北京:中國林業(yè)出版社,2005(9)
[13] 孫德福,王世紅利用TM影像圖進(jìn)行林業(yè)調(diào)查應(yīng)注意的問題[J]林業(yè)勘查設(shè)計(jì),2002(2):65~67
[14] Richardsja,JiaxRemote Sensing Digital I mage Analysis:An Introduction[M]Berlin:Springer,1999
[15] 劉勇洪,牛錚,徐永明,等多種分類器在華北地區(qū)土地覆蓋遙感分類中的性能評價(jià)[J]中國科學(xué)院研究生報(bào),2005,22(6):724~732
[16] Martin Brown,Hugh GLewis and Steve RGunn,Support Vector Machines For Spectral Unmixing[J]IGRASS99,1999(2):1363~1365
[17] Lothar Hermes,Dieter Frieauff,Jan Puzicha and Joachim MBushman,Support Vector Machines for Land Usage Classification in Landsat TM Imagery[J]Procof the IEEE International Geoscience and Remote Sensing Symposium,1999(1):348~350
[18] 王健峰,張磊,陳國興,等基于改進(jìn)的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J]應(yīng)用科技,2012,39(3):29
[19] Boardman J W,Kruse F AAutomated spectral analysis:a geological example using AVIRIS data,north Grapevine Mountains[C]Nevada:In Proceeding,ERIM Tenth The~matic Conference on Geologic Remote Sensing,Environmental Research Institute of Michigan,Ann Arbor,MI1994,I~407~I(xiàn)~418
[20] BenjaminJakimowEarth Observation Center EOC of DLR[ED/OL][2012-11-12]http://induscafdlrde/forum/
Abstract: This article usesMaximum Likelihood Classification (MLC),Support Vector Machine (SVM) and Random Forest (RF) to study the land cover classification based on the Thematic Mapper (TM) images of 2005 in Malipo County,Wenshan Zhuang Prefecture in Yunnan ProvinceAnd then it carries out a comparative analysis of the classification results of three classifiers from the aspects of classification accuracy,model complexity,and time efficiencyThe results show that RF is the best and MLC is more stable than other two methodsTherefore,the conclusions in this study are valuable for how to select classifiers in the similar applications
Key words: TM images;land cover;maximum likelihood classification;support vector machine;random forest2014年3月Journal of Green Science and Technology
[18] 王健峰,張磊,陳國興,等基于改進(jìn)的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J]應(yīng)用科技,2012,39(3):29
[19] Boardman J W,Kruse F AAutomated spectral analysis:a geological example using AVIRIS data,north Grapevine Mountains[C]Nevada:In Proceeding,ERIM Tenth The~matic Conference on Geologic Remote Sensing,Environmental Research Institute of Michigan,Ann Arbor,MI1994,I~407~I(xiàn)~418
[20] BenjaminJakimowEarth Observation Center EOC of DLR[ED/OL][2012-11-12]http://induscafdlrde/forum/
Abstract: This article usesMaximum Likelihood Classification (MLC),Support Vector Machine (SVM) and Random Forest (RF) to study the land cover classification based on the Thematic Mapper (TM) images of 2005 in Malipo County,Wenshan Zhuang Prefecture in Yunnan ProvinceAnd then it carries out a comparative analysis of the classification results of three classifiers from the aspects of classification accuracy,model complexity,and time efficiencyThe results show that RF is the best and MLC is more stable than other two methodsTherefore,the conclusions in this study are valuable for how to select classifiers in the similar applications
Key words: TM images;land cover;maximum likelihood classification;support vector machine;random forest2014年3月Journal of Green Science and Technology
[18] 王健峰,張磊,陳國興,等基于改進(jìn)的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J]應(yīng)用科技,2012,39(3):29
[19] Boardman J W,Kruse F AAutomated spectral analysis:a geological example using AVIRIS data,north Grapevine Mountains[C]Nevada:In Proceeding,ERIM Tenth The~matic Conference on Geologic Remote Sensing,Environmental Research Institute of Michigan,Ann Arbor,MI1994,I~407~I(xiàn)~418
[20] BenjaminJakimowEarth Observation Center EOC of DLR[ED/OL][2012-11-12]http://induscafdlrde/forum/
Abstract: This article usesMaximum Likelihood Classification (MLC),Support Vector Machine (SVM) and Random Forest (RF) to study the land cover classification based on the Thematic Mapper (TM) images of 2005 in Malipo County,Wenshan Zhuang Prefecture in Yunnan ProvinceAnd then it carries out a comparative analysis of the classification results of three classifiers from the aspects of classification accuracy,model complexity,and time efficiencyThe results show that RF is the best and MLC is more stable than other two methodsTherefore,the conclusions in this study are valuable for how to select classifiers in the similar applications
Key words: TM images;land cover;maximum likelihood classification;support vector machine;random forest2014年3月Journal of Green Science and Technology