梁晰雯 趙穎慧 甄貞 魏慶彬
(東北林業(yè)大學(xué),哈爾濱,150040)
基于旋轉(zhuǎn)森林的Landsat-8影像森林植被分類1)
梁晰雯 趙穎慧 甄貞 魏慶彬
(東北林業(yè)大學(xué),哈爾濱,150040)
以黑龍江大興安嶺塔河林業(yè)局瓦拉干林場2013年的Landsat8 OLI影像為數(shù)據(jù)源,在光譜特征基礎(chǔ)上,增加歸一化植被指數(shù)、紋理特征和地形特征,得到3種特征組合(光譜特征和NDVI (F1);光譜特征、NDVI和紋理特征結(jié)合(F2);光譜特征、NDVI、紋理特征和地形特征結(jié)合(F3)),將旋轉(zhuǎn)森林算法分別應(yīng)用于3種特征組合下的森林植被分類,獲得分類精度最高的特征組合;之后利用最佳特征組合將旋轉(zhuǎn)森林與最大似然分類法和支持矢量機(jī)2種分類方法進(jìn)行對比和精度驗(yàn)證分析。結(jié)果表明:利用旋轉(zhuǎn)森林算法并結(jié)合光譜特征、NDVI、紋理特征和地形特征的特征組合分類精度最高,為87.54%,比F1和F2特征組合的精度分別提高了11.08%和3.39%。比較不同分類方法,旋轉(zhuǎn)森林算法進(jìn)行森林植被的分類精度比最大似然法和支持矢量機(jī)方法的分類精度分別提高了13.24%和5.39%。由于旋轉(zhuǎn)森林算法穩(wěn)定性好,在植被分類中受山地陰影的影響較少,因此在分類圖中“椒鹽”現(xiàn)象最少,圖像更加清晰,分類效果最好。
Landsat-8;旋轉(zhuǎn)森林;森林植被分類;主成分分析
//Journal of Northeast Forestry University,2017,45(8):39-48.
Based on Landsat 8 OLI imageries of Walagan forest farm, Daxing’an Mountains, Heilongjiang Province in 2013, we added NDVI (Normalized Difference Vegetation Index), textural features and topological features to spectral bands, combined them as three feature groups (F1: OLI bands and NDVI; F2: OLI bands, NDVI and texture features; F3: OLI bands, NDVI, texture and topographic features), and implemented forest vegetation classification using Rotation Forest (RoF). With the optimal feature group, RoF was compared with MLC (Maximum Likelihood Classifier) and SVM (Support Vector Machine). F3 feature group yielded the highest classification accuracy using RoF, that is, 87.54%, higher than F1 and F2 group by 11.08% and 3.39%, respectively. Comparing different classification methods, RoF yielded higher classification accuracy than MLC and SVM by 13.24% and 5.39%, respectively. Due to the good stability of RoF, hill shadow had little influence on forest vegetation classification, thus, RoF could provide the best classification map with highest accuracy and least “pepper and salt” effect among the three classification methods.
森林植被是構(gòu)成森林資源的主體,準(zhǔn)確地識別森林植被是研究和利用森林資源的基礎(chǔ)和依據(jù)[1]。隨著遙感技術(shù)的發(fā)展,森林植被的信息能夠?qū)崿F(xiàn)大面積、實(shí)時(shí)、動(dòng)態(tài)地獲取[2]。但是,由于林區(qū)特殊的地理環(huán)境和生物分布特點(diǎn),森林植被普遍存在“同物異譜”和“異譜同物”的現(xiàn)象,使其分類問題成為研究難點(diǎn)。近年來,許多分類方法用于植被分類中,例如:(1)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANNs)[3-4];(2)決策樹分類[5-6];(3)支持矢量機(jī)分類[7-5];(4)隨機(jī)森林和Adaboost算法[9];(5)線性判別分析[10-11];(6)光譜角度匹配[12];(7)回歸樹分類器[13];(8)最大似然法[13]并與其他一些分類方法(或算法)進(jìn)行比較分析的研究。例如,Pu et al.[13]、Cho et al.[14]、Peerbhay et al.[15]、Deng et al.[16]和Ghosh et al.[17]以WorldView-2(或結(jié)合IKONOS、Quickbird、LiDAR)數(shù)據(jù)進(jìn)行植被分類,研究表明,支持矢量機(jī)法、隨機(jī)森林算法和回歸樹分類器等方法表現(xiàn)優(yōu)異。最大似然法分類精度極低,在高維、多源數(shù)據(jù)分類中能力有限,但其計(jì)算速度快、實(shí)施方便,還是被廣泛應(yīng)用于影像分類[18]。雖然分類方法種類很多,但是至今還沒有一種算法適用于不同地區(qū)的多種林分,而且,現(xiàn)今獲取的數(shù)據(jù)量越來越大,數(shù)據(jù)類型也趨于復(fù)雜,因此,對分類精度和算法穩(wěn)定性的要求越來越高,傳統(tǒng)的這些分類方法都屬于單一的分類系統(tǒng),當(dāng)先驗(yàn)知識不充分時(shí),除非進(jìn)行大量的實(shí)驗(yàn),否則很難確定最優(yōu)的分類器[19]。
Suen于1990年提出了集成多分類器的概念,為分類領(lǐng)域開辟出了新的道路[20]近年來,使用分類器集成來提高分類精度已成為一個(gè)重要研究方向,在遙感影像分類中具有廣闊的應(yīng)用前景。旋轉(zhuǎn)森林是Rodriguez et al.[21]在近期提出的一種新的集成算法,旋轉(zhuǎn)森林分類算法的特點(diǎn)是基于特征變換,對屬性集的分割,不僅增大了基分類器的差異性,還具有適用高維數(shù)小樣本數(shù)據(jù),不容易過擬合等優(yōu)點(diǎn),分類精度較高.國內(nèi)外對旋轉(zhuǎn)森林算法也在不斷改進(jìn)和完善。毛莎莎等[22]提出了一種使用旋轉(zhuǎn)森林策略集成2種不同模型分類器的方法,即異構(gòu)多分類器集成學(xué)習(xí)算法,該方法既縮短了運(yùn)行時(shí)間,又同時(shí)提高了分類精度,達(dá)到了較好的集成效果。劉敏[23]提出了基于旋轉(zhuǎn)森林和協(xié)同訓(xùn)練算法,用未標(biāo)記的數(shù)據(jù)提高基分類器之間的差異性,提高集成效果。陳金甌[24]將旋轉(zhuǎn)森林算法應(yīng)用在DNA微陣列數(shù)據(jù)分類的研究上,并通過實(shí)驗(yàn)證明了算法的參數(shù)只受線性變換方式和集成規(guī)模的影響,基分類器的選擇以及是否剪枝對結(jié)果的影響不大,說明該算法的穩(wěn)定性較強(qiáng)。Du et al.[25]將旋轉(zhuǎn)森林算法應(yīng)用于全極化遙感影像分類研究,對植被、居民地、水體的總體分類精度達(dá)到86.73%。
Landsat系列衛(wèi)星數(shù)據(jù)為全球的資源環(huán)境提供連續(xù)的觀測數(shù)據(jù)長達(dá)40年之久,2013年NASA在美國加州成功發(fā)射了Landsat 8衛(wèi)星,在光譜分辨率有很大的改進(jìn)[26]。為了有效的利用Landsat 8的影像信息,本研究以黑龍江大興安嶺塔河林業(yè)局瓦拉干林場2013年9月的Landsat 8影像為數(shù)據(jù)源,利用旋轉(zhuǎn)森林分類算法對研究區(qū)的森林植被類型進(jìn)行分類,并和最大似然分類法(MLC)、支持矢量機(jī)分類法(SVM)進(jìn)行精度對比分析,以期將旋轉(zhuǎn)森林算法應(yīng)用于Landsat 8遙感影像的分類,獲取高精度的森林植被類型分布圖。
黑龍江大興安嶺塔河林業(yè)局瓦拉干林場位于大興安嶺北部的塔河縣中部,地理位置123°13′~125°7′E、52°33′~53°4′N(見圖1)。南與繡峰林場相連,西與盤古鎮(zhèn)接壤,東連十八站林業(yè)局,北與開庫鄉(xiāng)為鄰。瓦拉干全境為典型的山地地帶,土壤為棕色針葉林土,屬第六積溫帶,晝夜溫差大。瓦拉干林場海拔700 m,面積199 068 hm2。有林地面積154 822 hm2,森林蓄積量9 340 984 m3。瓦拉干鎮(zhèn)物產(chǎn)資源豐富,礦產(chǎn)資源有金礦和煤礦;動(dòng)物資源有棕熊、馬鹿等50多種;森林資源有落葉松(Larixgmelinii(Rupr.) Kuzen)、樟子松(Pinussylvestrisvar.mongolicaLitv.)、白樺(BetulaplatyphyllaSuk)、云杉(Piceakoraiensis)等樹種。
a.大興安嶺地區(qū) b.塔河林業(yè)局 c.瓦拉干林場
圖1 研究區(qū)位置
遙感數(shù)據(jù):本研究從地理空間數(shù)據(jù)云網(wǎng)站(http://www.gscloud.cn/)下載Landsat-8影像數(shù)據(jù),成像時(shí)間為2013年9月3日,圖像云量為2%。發(fā)布的數(shù)據(jù)產(chǎn)品為L1T級,即已經(jīng)進(jìn)行了幾何校正的圖像。將下載后的Landsat8影像直接在ENVI5.1軟件中進(jìn)行了UTM-WGS84投影,先后進(jìn)行輻射定標(biāo)、大氣校正、全色波段與多波段圖像融合,以及通過塔河林業(yè)局瓦拉干林場矢量邊界進(jìn)行裁剪,波段組合等處理,最終得到Landsat 8 OLI 5、4、3波段假彩色影像。
輔助數(shù)據(jù):選取瓦拉干邊界矢量數(shù)據(jù);由美國太空總署(NASA)和國防部國家測繪局(NIMA)聯(lián)合測量的SRTM3數(shù)據(jù),分辨率為90 m;塔河林業(yè)局1997年的森林資源二類調(diào)查數(shù)據(jù),調(diào)查內(nèi)容包括各類林地的面積、權(quán)屬、森林覆蓋率、林木蓄積等;以及依照不同的林分類型、不同立地條件選取2010年的森林資源清查固定樣地復(fù)測數(shù)據(jù)(樣地面積為0.06 hm2)11塊(如圖2所示),樣地林分類型包括落葉松林、針葉混交林、針闊混交林等。最終以森林資源二類調(diào)查數(shù)據(jù)和固定樣地?cái)?shù)據(jù)為輔助確定林分類型,建立本研究的分類系統(tǒng)。
3.1 遙感影像特征分析
遙感影像各波段相關(guān)性:由表1可知,各波段間相關(guān)性非常高,尤其是波段1、波段2和波段3,相關(guān)系數(shù)達(dá)到0.97以上,波段6和波段7的相關(guān)系數(shù)達(dá)到0.99,說明兩個(gè)紅外波段在光譜信息上具有很強(qiáng)的一致性。由于各波段相關(guān)系數(shù)都超過0.95,因此,本研究在圖像信息提取和分析時(shí)進(jìn)行了主成分分析(PCA),以降低波段自相關(guān)性,更好地利用波段中的有效信息。
圖2 瓦拉干林場5、4、3波段假彩色融合影像及固定樣地位置
表1 各波段間相關(guān)系數(shù)矩陣
地物可分性分析:將選取的訓(xùn)練樣本,通過遙感圖片處理軟件(ENVI)的n-D mean 進(jìn)行統(tǒng)計(jì)分析,得到地物光譜反射曲線(圖3)。通過該光譜曲線,道路和居民地亮度值高,其次是灌草地,待分類地物在各個(gè)波段均能清晰的分辨出。而在有林地中的植被分類,可分性較低。所以在地物分類有植被的時(shí)候,只借助于光譜特征是遠(yuǎn)遠(yuǎn)不夠的,還要融入紋理特征、地形特征等其他特征。
圖3 不同地物的光譜反射曲線
3.2 特征提取與特征組合
對于旋轉(zhuǎn)森林分類而言,不同特征變量參與遙感影像分類在一定程度上可減少地物同物異譜、異物同譜的影響,有效提高遙感影像分類精度。同時(shí),旋轉(zhuǎn)森林算法要對特征維數(shù)進(jìn)行分割,特征維數(shù)過少,不利于分割;特征維數(shù)過多,就會導(dǎo)致數(shù)據(jù)冗余,且分類結(jié)果未必好,因此,選擇合適的特征,對分類精度至關(guān)重要[26-28]。
3.2.1 特征提取
紋理特征提?。河捎诓ǘ屋^多,且多光譜數(shù)據(jù)波段間高度相關(guān),若對每個(gè)波段都提取紋理特征圖像,并參與分類,會產(chǎn)生大量數(shù)據(jù),計(jì)算量大,信息過剩,甚至?xí)绊懛诸惥萚29]。所以,提取紋理特征之前先對影像進(jìn)行主成分分析。主成分分析通過坐標(biāo)軸旋轉(zhuǎn)來增大方差,生成互不相關(guān)的波段,從而達(dá)到隔離噪聲,減少數(shù)據(jù)維數(shù)的目的。主成分分析結(jié)果見表2,從表可看出,前3個(gè)主成分分量累計(jì)方差貢獻(xiàn)率達(dá)到了99.95%,幾乎集中了所有波段的信息。
表2 主成分分析統(tǒng)計(jì)
遙感影像大多為隨機(jī)紋理,服從統(tǒng)計(jì)分布,所以常采用灰度共生矩陣的方法來提取紋理特征。Haralick于1973年首先提出灰度共生矩陣,灰度共生矩陣是通過對影像灰度級之間二階聯(lián)合條件概率密度的計(jì)算得到的矩陣[30],用來描述各像元灰度的空間分布(方向、相鄰間隔)和結(jié)構(gòu)特征(排列規(guī)則)。通過ENVI的Co-occurrence Measures工具可以提取8個(gè)常用的紋理測度,包括:均值、方差、協(xié)同性、對比度、非相似性、熵值、二階矩、相關(guān)性,這些紋理測度可劃分為4大類:基于信息理論的特征;基于統(tǒng)計(jì)特性的特征;基于線性關(guān)系的特征、表達(dá)清晰度的特征。通過研究,最終設(shè)定窗口大小為5×5,移動(dòng)步長為1個(gè)像元,取45°方向,灰度量化級別為64 bit的前提下,將第一主成分進(jìn)行灰度共生矩陣計(jì)算,得到如圖4的8幅影像。8個(gè)紋理特征影像皆截取為瓦拉干林場的同一區(qū)域。
8個(gè)紋理測度并不都適合于參與分類,應(yīng)從變量本質(zhì)特點(diǎn)、圖像灰度值標(biāo)準(zhǔn)差大小、圖像紋理特征是否明顯三方面選擇紋理測度。變量同質(zhì)性、對比度、非相似性的特點(diǎn)相似,均用來描述圖像紋理不同區(qū)域的局部灰度變化,可以代表圖像的清晰度。從圖4上分析,只能看出非相似性的紋理特征不清晰,如圖4(e),但是無法辨別同質(zhì)性和對比度,如圖4(c)和(d),通過對比二者的標(biāo)準(zhǔn)差(見表3),可以選擇對比度參與分類。對于具有統(tǒng)計(jì)特征的3個(gè)特征變量,雖然二階矩的標(biāo)準(zhǔn)差較小,但是從圖4(g)上來看,很明顯二階矩的信息量更大一些,均值和方差的紋理特征不清晰,如圖4(a)和(b)所示,不利于植被的區(qū)分,且二階矩又稱為能量,是灰度共生矩陣元素值的平方和,可以反映圖像灰度分布均勻程度和紋理粗細(xì)度;相關(guān)性和熵的標(biāo)準(zhǔn)差雖然不高,但是相關(guān)性反映的是矩陣行列的相關(guān)度,熵反映的是紋理的隨機(jī)性和復(fù)雜性。通過分析,最終選擇相關(guān)性、熵、對比度、二階矩4個(gè)紋理特征來分別描述紋理的相關(guān)度、復(fù)雜性、清晰度、均勻性等特征,參與分類。
圖4 由第一主成分提取的8種紋理特征圖像
變量特征特征變量標(biāo)準(zhǔn)差相關(guān)度相關(guān)性0.544復(fù)雜性熵0.595清晰度同質(zhì)性0.163對比度8.907非相似性0.689統(tǒng)計(jì)特性均值3.886方差5.859二階矩0.313
歸一化植被指數(shù)的提?。涸谶b感領(lǐng)域,植被指數(shù)應(yīng)用廣泛。主要用來定性和定量評價(jià)植被覆蓋和生長狀況。遙感影像波段間的比值運(yùn)算可以消除部分地形的影響。植被指數(shù)模型有幾十種,本研究主要選擇歸一化植被指數(shù)(IN,D,V)來作為特征變量之一。歸一化植被指數(shù)的特點(diǎn)是消除綜合影響因子,增強(qiáng)對植被的反應(yīng)能力,對區(qū)分植被和非植被地有很大的幫助?;贚andsat 8 OLI的歸一化植被指數(shù)運(yùn)算公式如下[31]:
IN,D,V=(RN,I-R)/(RN,I+R)。
式中:RN,I表示近紅外波段反射值;R表示紅外波段反射值。
地形特征提?。旱匦蔚目臻g分布特征也對分類結(jié)果有影響[32]。描述地形的因素有海拔、坡度和坡向。坡度是指過地表面任一點(diǎn)的切平面與水平面的夾角,表示地表面在該點(diǎn)的傾斜程度;坡向?yàn)榈乇砻嫔先我稽c(diǎn)的切平面的法線矢量在水平面的投影與過該點(diǎn)的正北方向的夾角;高程為地面上任一點(diǎn)的海拔高度。在低平地區(qū)及陽坡,闊葉林、居民地、道路分布較多;在海拔高的地區(qū)及陰坡,針葉林分布較廣泛。本研究區(qū)域多是山地,受地形影響較大。因此,本研究引入動(dòng)力效應(yīng)模型數(shù)據(jù),通過遙感圖片處理軟件派生出坡度、坡向作為遙感分類的特征變量。
3.2.2 特征組合
本研究將不同特征組合下的分類結(jié)果進(jìn)行對比分析,特征組合方式如下。
F1:光譜特征和歸一化植被指數(shù)的8個(gè)變量(如表4所示的序號1~8)。
F2:光譜特征、歸一化植被指數(shù)和紋理特征結(jié)合20個(gè)變量(如表4所示的序號1~20)。
F3:光譜特征、歸一化植被指數(shù)、紋理特征和地形特征結(jié)合23個(gè)變量(如表4所示的序號1~23)。
通過遙感圖片處理軟件圖層疊加工具,將各特征變量疊加到一起,分別形成特征集F1、F2和F3。
表4 特征序號及其對應(yīng)的特征名稱
3.3 確定分類系統(tǒng)
根據(jù)《土地利用現(xiàn)狀分類》[33]國家標(biāo)準(zhǔn)分類體系并結(jié)合瓦拉干林場內(nèi)二類調(diào)查森林植被類型的數(shù)據(jù),將瓦拉干林場土地利用類型劃分為二個(gè)一級分類體系,即植被區(qū)和非植被區(qū)。其中,非植被區(qū)包括道路、居民地。植被區(qū)的二級體系包括灌草地和林地。林地按照樹種組成可分成針葉純林、闊葉混交林、闊葉純林、針闊混交林、針葉混交林等類型。但根據(jù)瓦拉干林場固定樣地?cái)?shù)據(jù)顯示,闊葉純林為白樺,塊數(shù)只有一塊,其余為白樺和其他闊葉樹的混交林,故將闊葉純林和闊葉混交林歸為一類,即闊葉林。因此,本研究最終將分類系統(tǒng)確定為闊葉林、針葉純林、針闊混交林、針葉混交林、灌草地、道路、居民地共7類。
3.4 采集訓(xùn)練樣本
本研究以瓦拉干林場二類調(diào)查林相圖和固定樣地?cái)?shù)據(jù)為基礎(chǔ)圖,通過目視判讀在Landsat 8 OLI 543波段標(biāo)準(zhǔn)假彩色合成影像上,按照闊葉林、針葉純林、針闊混交林、針葉混交林、居民地、道路、灌草地7個(gè)類別人機(jī)交互的分層隨機(jī)選取訓(xùn)練區(qū)。最終確定樣本共3250個(gè)樣本點(diǎn),居民地面積較小,所以只選取250個(gè)樣本點(diǎn),其余6類各選取500個(gè)樣本點(diǎn)。所有3 250個(gè)樣本點(diǎn)中80%(共計(jì)2 600個(gè)樣本點(diǎn))為訓(xùn)練樣本,20%(共計(jì)650個(gè))為測試樣本。
3.5 分類方法
旋轉(zhuǎn)森林算法:是基于特征變換的算法,首先將樣本的特征集隨機(jī)分割,再將得到的特征子集進(jìn)行特征變換,重新組合獲得新的樣本,然后再參與基分類器的分類。這樣通過對數(shù)據(jù)的預(yù)處理,增大基分類器間的差異性,用以提高分類精度[21-23]。
本研究通過MATLAB軟件和遙感圖片處理軟件平臺實(shí)現(xiàn)旋轉(zhuǎn)森林算法在遙感圖像分類中的應(yīng)用。通過遙感圖片處理軟件平臺將二類調(diào)查數(shù)據(jù)矢量圖、固定樣地?cái)?shù)據(jù)和遙感圖像疊加,分層選取訓(xùn)練樣本的感興趣區(qū)域,將采取到的樣本點(diǎn)輸出成ASCII碼的格式,最后輸入到MATLAB中。然后將遙感圖像存為TIFF格式,作為matlab的待分類矩陣數(shù)據(jù)。矩陣數(shù)據(jù)是三維的,不能直接輸入到算法里,必須先將其變?yōu)槎S數(shù)據(jù),即(像元數(shù)量×特征變量)的形式。且要將灰度值轉(zhuǎn)換成雙精度格式并歸一化到[0,1]。最后按照下述的旋轉(zhuǎn)森林分類方法步驟構(gòu)建分類器模型,并對遙感影像進(jìn)行分類,最終將分類結(jié)果用RGB顯示。
假設(shè)X為初始訓(xùn)練數(shù)據(jù)集(N×n維),N為訓(xùn)練數(shù)據(jù)的樣本個(gè)數(shù),n為選取的分類特征個(gè)數(shù);Y表示訓(xùn)練樣本集X中對應(yīng)的樣本類標(biāo)(N×1維);F表示特征集;K表示劃分的特征子集個(gè)數(shù);D1,D2,…,DL表示L個(gè)基分類器,{ω1,ω2,Λ,ωc}為類標(biāo)集合。支持矢量機(jī)法在解決高維小樣本非線性問題中有許多優(yōu)勢,在分類和回歸問題中,取得了巨大成功[34],所以本研究選擇支持矢量機(jī)法作為基分類器。旋轉(zhuǎn)森林模型構(gòu)建步驟如下:
(1)將特征集F隨機(jī)劃分為K個(gè)子集Fj(j=1,2,…,K),則每個(gè)子屬性集包含約M=n/K個(gè)特征,如果特征數(shù)不能整除,則將剩余特征加入最后一組特征中。
(2)重復(fù)步驟2,將得到的K組主成分系數(shù)存入一個(gè)系數(shù)矩陣Ri中:
其中,L為基分類器個(gè)數(shù),c為類別個(gè)數(shù)。樣本x歸屬為最大可信度所屬類別。
旋轉(zhuǎn)森林參數(shù)的設(shè)置。影響旋轉(zhuǎn)森林分類精度的主要參數(shù)有2個(gè):一個(gè)是特征子集劃分?jǐn)?shù)K,另一個(gè)是集成基分類器(SVM)的個(gè)數(shù)L,即集成規(guī)模。R為重采樣時(shí)的比率,一般對分類精度無影響[25]。
通過Matlab軟件,設(shè)置L=6,R=10、20、…、100,得到結(jié)果如圖5所示,通過圖5分析,在集成規(guī)模不變的情況下,各特征集中,總體精度隨著K的增加而增加,到一定程度趨于穩(wěn)定,最后隨著K繼續(xù)增加,呈現(xiàn)下降趨勢。要想達(dá)到較好的精度,在只有8個(gè)特征變量的F1集合中,K需要?jiǎng)澐值?,如圖5所示;而在20個(gè)特征變量F2特征組合和23個(gè)特征變量F3特征組合中,K需要?jiǎng)澐值?3。3種特征組合中,F(xiàn)3特征組合融合了光譜特征、歸一化植被
指數(shù)、紋理特征和地形特征的精度最高。無論哪種特征組合,數(shù)據(jù)重采樣比率(R)無明顯變化,所以依照慣例,令R=0.75即可[35]。
圖5 旋轉(zhuǎn)森林總體精度隨參數(shù)(特征子集數(shù)K)變化結(jié)果
集成規(guī)模L是影響旋轉(zhuǎn)森林分類精度的另一個(gè)重要的參數(shù)。首先令初值等于5,每次增加5個(gè)值,一直到50,即L=5、10、15、…、50,通過MATLAB計(jì)算,得到旋轉(zhuǎn)森林總體精度隨參數(shù)(集成規(guī)模數(shù)L)變化結(jié)果如表5所示。通過表5可以看出,總體精度在集成規(guī)模L為10以內(nèi)就可以達(dá)到很好的精度,隨著集成規(guī)模的增加,總體精度趨于平穩(wěn)。3種特征集合下,依然是在光譜特征下,結(jié)合歸一化植被指數(shù)、紋理和地形特征的集合分類精度較好。
表5 旋轉(zhuǎn)森林總體精度隨參數(shù)(集成規(guī)模L)變化結(jié)果
最大似然分類法是最經(jīng)典的分類算法之一,是建立在貝葉斯準(zhǔn)則基礎(chǔ)上分類錯(cuò)誤概率最小的一種非線性監(jiān)督分類方法。它的分類思路是求出像元數(shù)據(jù)相對于各類別的似然度,然后把像元分到似然度最大的類中去[18,36]。
支持矢量機(jī)是在特征空間上的間隔最大的線性分類器。其算法是通過尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小來提高學(xué)習(xí)機(jī)的泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化,從而利用少量樣本也能得到高效、穩(wěn)定、準(zhǔn)確的分類效果[37-38]。
女助手說:“我真沒有發(fā)現(xiàn)有什么不對的地方,以前的警察也來過幾次,我都這么說,毛老師是一個(gè)很嚴(yán)謹(jǐn)?shù)娜?,也很守信的,他失蹤前一天還答應(yīng)對我的論文進(jìn)行指導(dǎo)的,可是他那天晚上下班后就沒有再回來了,我還幫他草擬了接下來一個(gè)星期的日程安排,他還親自提筆改了幾處的?!?/p>
本研究從兩方面進(jìn)行比較分析,一是比較不同特征組合變量下,采用旋轉(zhuǎn)森林進(jìn)行分類的結(jié)果及精度評價(jià);二是在統(tǒng)一特征變量下,不同分類方法,即最大似然法、支持矢量機(jī)法和旋轉(zhuǎn)森林法的分類結(jié)果及精度評價(jià)。
4.1 不同特征組合下旋轉(zhuǎn)森林分類
采用3種特征組合(F1、F2、F3)進(jìn)行旋轉(zhuǎn)森林分類,其分類結(jié)果如圖6和表6所示。
表6 基于旋轉(zhuǎn)森林算法的不同特征集分類精度評價(jià)結(jié)果
注:Ⅰ.闊葉林;Ⅱ.針葉純林;Ⅲ.針闊混交林;Ⅳ.針葉混交林;Ⅴ.灌草地;Ⅵ.居民地;Ⅶ.道路。
圖6 基于旋轉(zhuǎn)森林算法的不同特征集分類結(jié)果圖
從表6可以看出,不同特征集下的旋轉(zhuǎn)森林分類結(jié)果區(qū)別很大,分類精度,F(xiàn)1為76.46%,F(xiàn)2為84.15%,F(xiàn)3為87.54%;Kappa系數(shù),F(xiàn)1為0.72,F(xiàn)2為0.81,F(xiàn)3為0.85。結(jié)合了光譜特征、NDVI、紋理特征和地形特征的F3,比基于光譜特征和歸一化植被指數(shù)的F1和基于光譜特征、NDVI和紋理特征的F2精度提高了11.08%和3.39%;Kappa系數(shù)分別提高了0.13和0.04。
結(jié)合圖6和表6分析可知,植被與非植被之間得到很好的區(qū)分,但是林地之間區(qū)分能力較弱。只基于歸一化植被指數(shù)和光譜特征(F1)的闊葉林、針闊混交林、針葉混交林之間發(fā)生混分現(xiàn)象,其中闊葉林和針闊混交林分類精度較低分別只有70%和68%。融合了歸一化植被指數(shù)、紋理特征之后(F2),各種林分類型的精度都有明顯提高,其中闊葉林精度提高的最多,增加了18%,原因可能是闊葉林和一些混交林光譜信息、生長的海拔高度相近,且針葉林類的形態(tài)結(jié)構(gòu)比闊葉林更規(guī)則,均質(zhì)性較好,而闊葉林的異質(zhì)性要高于針葉林,需要借助其他紋理特征才能將闊葉林類型有效的分出。F1和F2沒有融合地形特征,研究區(qū)受山區(qū)地形的影響,易產(chǎn)生陰影區(qū)域,在陰影區(qū)域,針葉純林與針葉混交林光譜信息和紋理特征相近,易發(fā)生混分現(xiàn)象。融合地形特征之后,針葉純林和針葉混交林的精度有所提高,混分現(xiàn)象減少,且各林型的空間分布規(guī)律更加清晰,瓦拉干林場地勢西南高,東北低,所以,針葉林類大多數(shù)集中分布于西南部,而闊葉林則在東北部較多。利用F3特征集后,各個(gè)類別都得到了較好的區(qū)分,對比各圖可看出(圖6),分類界限清晰,碎斑現(xiàn)像大幅度減少,分類精度高,分類效果更貼合實(shí)際。
4.2 不同分類方法下的分類結(jié)果
在對研究區(qū)進(jìn)行旋轉(zhuǎn)森林算法(RoF)分類外,還進(jìn)行了基于傳統(tǒng)的分類方法中的最大似然分類法(MLC)和支持矢量機(jī)(SVM)的分類,由旋轉(zhuǎn)森林中F3特征集分類效果最好,所以,對于不同的分類方法均采用F3組合特征,分類精度評價(jià)如表7。從表7可知,利用F3特征集的最大似然法、支持矢量機(jī)、旋轉(zhuǎn)森林3種方法的分類精度分別為74.3%,82.15%,87.54%,Kappa系數(shù)分別為0.69,0.79,0.85。旋轉(zhuǎn)森林與最大似然法和支持矢量機(jī)相比,分類精度最高。由分類結(jié)果圖8可以看出,最大似然法產(chǎn)生的“椒鹽”現(xiàn)象明顯,很多“闊葉林”和“針闊混交林”被錯(cuò)分。支持矢量機(jī)算法的分類圖中“椒鹽”得到明顯緩解。由于旋轉(zhuǎn)森林算法具有集成學(xué)習(xí)的優(yōu)勢,且在植被分類中受地形的影響較少,因此在分類圖中“椒鹽”現(xiàn)象最少,圖像更加清晰,分類效果最好。
最大似然法分類精度較低只有74.3%,分類效果較混亂。因?yàn)槭苌絽^(qū)地形影響較嚴(yán)重,陰影較多,存在嚴(yán)重的“椒鹽噪聲”現(xiàn)象,圖像較破碎。很多灌草地都被錯(cuò)分為居民地、道路,與實(shí)際不符。在針葉純林、針葉混交林、針闊混交林之間,混分現(xiàn)象嚴(yán)重,原因可能因?yàn)槎际腔旖涣郑诩y理和光譜特征上都很相似,而最大似然法需要假設(shè)訓(xùn)練樣本的光譜特征成正態(tài)分布,不適合離散的、復(fù)雜的樣本;支持矢量機(jī)的分類精度要比最大似然法高,總體精度達(dá)到82.15%,較最大似然法提高了7.85%,分類效果有所改善,錯(cuò)分和漏分現(xiàn)象也有減少。旋轉(zhuǎn)森林算法比最大似然法和支持矢量機(jī)方法總體分類精度提高了13.24%、5.39%;Kappa系數(shù)分別提高了0.16、0.06。從旋轉(zhuǎn)森林算法的圖像中(圖7),可以看出針闊混交林以及道路被很好的提取出來,各類都得到了較好的區(qū)分。大大減少了針葉純林、針葉混交林、針闊混交林之間的錯(cuò)分、漏分現(xiàn)象。
表7 利用F3特征集的不同分類器分類精度評價(jià)結(jié)果
注:Ⅰ.闊葉林;Ⅱ.針葉純林;Ⅲ.針闊混交林; Ⅳ.針葉混交林; Ⅴ.灌草地;Ⅵ.居民地; Ⅶ.道路。
圖7 利用F3特征集的不同分類方法的分類結(jié)果圖
本研究以黑龍江省塔河林業(yè)局瓦拉干林場為研究區(qū)域,以Landsat 8 OLI遙感圖像為數(shù)據(jù)源,結(jié)合森林調(diào)查數(shù)據(jù)、DEM數(shù)據(jù),采用不同特征組合的方式以旋轉(zhuǎn)森林算法對研究區(qū)域進(jìn)行森林植被分類,并進(jìn)行不同特征組合(F1:光譜特征和歸一化植被指數(shù);F2:光譜特征、NDVI和紋理特征;F3:光譜特征、歸一化植被指數(shù)、紋理特征和地形特征)和不同分類算法的對比分析,研究不同特征組合和分類算法對森林植被分類的影響。研究表明,將旋轉(zhuǎn)森林算法應(yīng)用于Landsat 8 OLI圖像進(jìn)行植被分類是可行的。旋轉(zhuǎn)森林算法,巧妙利用了特征劃分、變換增大了分類器的差異,基于F1、F2和F3的特征組合下旋轉(zhuǎn)森林的分類精度分別達(dá)到了76.46%、84.15%和87.54%。顯然,綜合了多特征變量的分類,減少了"同物異譜,同譜異物"的問題,分類精度明顯提高。在相同特征(F3)下,與最大似然法和支持矢量機(jī)方法相比,旋轉(zhuǎn)森林方法的分類精度分別提高了13.24%和5.39%。多光譜各波段之間相關(guān)系數(shù)較高,進(jìn)行主成分分析,提取波段最大信息量后,再提取特征變量,能夠突出植被特征,使得地物之間的可分性提升并能夠剔除無用的特征,避免數(shù)據(jù)的冗余。對瓦拉干林場的森林植被類型劃分中,旋轉(zhuǎn)森林對于非植被的分類精度較好;植被區(qū)中,尤其是混交林之間,依然有錯(cuò)分、混分現(xiàn)象,通常需要借助紋理、地形等輔助特征,才能更好的區(qū)分林型。但是與最大似然法和支持矢量機(jī)分類方法相比,由于旋轉(zhuǎn)森林算法穩(wěn)定性好,在植被分類中受山地陰影的影響較少,因此在分類圖中"椒鹽"現(xiàn)象最少,圖像更加清晰,分類效果最好,且植被空間分布規(guī)律更明顯。傳統(tǒng)的監(jiān)督分類方法由于受分辨率、地形、算法的局限性等影響,分類精度低,圖像碎斑較多,不能有效的區(qū)分植被類型。
從國內(nèi)外學(xué)者對旋轉(zhuǎn)森林算法分類研究來看,劉帥等[39]針對高分辨率遙感圖像,提出了一種多特征融合的分類方法,總體平均分類精度提高了10%,這與本研究達(dá)到的效果相符合。張穎等[40]對Landsat 8影像進(jìn)行了主成分分析,使得森林植被得到了更好的提取,分類精度達(dá)到84.7%,而本研究對影像進(jìn)行了主成分分析后,明顯增強(qiáng)了影像紋理信息,改善了分類精度,最高分類精度達(dá)到87.54%。Du[25]將旋轉(zhuǎn)森林算法應(yīng)用于全極化遙感分類中,在多特征變量下,對植被、居民地、水體的分類精度達(dá)到86.73%,與本研究分類精度相似。
雖然較傳統(tǒng)分類方法,旋轉(zhuǎn)森林分類精度較高,錯(cuò)分現(xiàn)象大大減少,但是受“同譜”現(xiàn)象的影響,對森林植被類型的劃分還有很大的提升空間。有研究表明[22],結(jié)合不同模型的分類器能夠增加差異性,改善分類器集成性能。如何能既增大差異性又避免過擬合等問題,還需要進(jìn)一步研究。
[1] 劉旭升,張曉麗.森林植被遙感研究進(jìn)展與對策[J].林業(yè)資源管理,2004(1):61-64.
[2] 張光輝.高光譜遙感技術(shù)在現(xiàn)代林業(yè)中的應(yīng)用與發(fā)展[J].四川林勘設(shè)計(jì),2007(16):66-69.
[3] ERBEK F S, OZKAN C, TABERNER M. Comparison of maximum likelihood classification method with supervised artificial neural network algorithms for landuseactivities[J]. International Journal of Remote Sensing,2004,25(9):1733-1748.
[4] FOODY G M. Supervised image classification by MLP and RBF neural networks with and without an exhaustively defined set of classes[J]. International Journal of Remote Sensing,2004,25(15):3091-3104.
[5] LAWRENCE R, BUNN A, POWELL S, et al. Classification of remotely sensed imagery using stochastic gradient boosting as a refinement of classification tree analysis[J]. Remote Sensing of Environment,2004,90(3):331-336.
[6] PAL M, MATHER P M. An assessment of the effectiveness of decision tree methods for land cover classification[J]. Remote Sensing of Environment,2003,86(4):554-565.
[7] DALPONTE M, BRUZZONE L, VESCOVO L, et al. The role of spectral resolution and classifier complexity in the analysis of hyperspectral images of forest areas[J]. Remote Sensing of Environment,2009,113(11):2345-2355.
[8] PLAZA A, BENEDIKTSSON J A, BOARDMAN J W, et al. Recent advances in techniques for hyperspectralimage processing[J]. Remote Sensing of Environment,2009,113(9):110-122.
[9] CHANJCW, PALINCKX D. Evaluation of Random Forest and Adaboost tree based ensemble classification and spectral band selection for ecotype mappingusing airborne hyperspectralimagery[J]. Remote Sensing of Environment, 2008,112(6):2999-3011.
[10] DU Q, REN H. Real-time constrained linear discriminant analysis to targetdetection and classification in hyperspectralimagery[J]. Pattern Recognition,2003,36(1):1-12.
[11] CLARK M L, ROBERTS D A, CLARK D B. Hyperspectral discrimination of tropical rain forest tree species at leaf to crown scales[J]. Remote Sensing of Environment,2005,96(3):375-398.
[12] CHRISTIAN B, KRISHNAYYA N S R. Classification of tropical trees growing ina sanctuary using Hyperion (EO-1) and SAM algorithm[J]. Current Science,2009,96(12):1601-1607.
[13] PU R, LANDRY S. A comparative analysis of high spatial resolution IKONOS and WorldView-2 imagery for mapping urban tree species[J]. Remote Sensing of Environment,2012,124(9):516-533.
[14] CHO M A, MATHHIEU R, ASNER G P, et al. Mapping tree species composition in South African savannas using an integrated airborne spectral and LiDAR system[J]. Remote Sensing of Environment,2012,125(10):214-226.
[15] PEERBHAY K Y, MUTANGA O, ISMAIL R. Investigating the capability of few strategically placed WorldView-2 multispectral bands to discriminate forest species in KwaZulu-Natal, South Africa[J]. IEEE Geoscience & Remote Sensing Society,2013,7(1):307-316.
[16] DENG S Q, KATOH M, GUAN Q W, et al. Interpretation of forest resources at the individual tree level at Purple Mountain, Nanjing City, China, using WorldView-2 imagery by combining GPS, RS and GIS technologies[J]. Remote Sensing,2014,6(1):87-110.
[17] GHOSH A, JOSHI P K. A comparison of selected classification algorithms for mapping bamboo patches in lower Gangetic plains using very high resolution WorldView-2 imagery[J]. International Journal of Applied Earth Observation and Geoinformation,2014,26(1):298-311.
[18] 王增林,朱大明.基于遙感影像的最大似然分類算法的探討[J].河南科學(xué),2010,28(11):458-461.
[19] ZHANG R Q, ZHU D L. Study of land cover classification based on knowledge rules using high-resolution remote sensing images[J]. Expert Systems with Applications,2011,38(4):3647-3652.
[20] SUEN C Y, NADAL C, MAI T A, et al. Recognition of totally unconstrained handwritten numerals based on the concept of multiple experts[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,1995,17(1):90-94.
[21] RODRIGUEZ J J, KUNCHEVA L I, ALONSO C J. Rotation forest: a new classifier ensemble method[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(10):1619-1630.
[22] 毛莎莎,熊霖,焦李成,等.利用旋轉(zhuǎn)森林變換的異構(gòu)多分類器集成算法[J].西安電子科技大學(xué)學(xué)報(bào),2014,41(5):48-53.
[23] 劉敏,謝伙生.一種基于旋轉(zhuǎn)森林的集成協(xié)同訓(xùn)練算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(30):172-175.
[24] 陳金甌,柳青.DNA微陣列數(shù)據(jù)判別的旋轉(zhuǎn)森林方法[J].中國衛(wèi)生統(tǒng)計(jì),2012,29(4):525-528,534.
[25] DU P J, SAMAT A, WASKE B, et al. Random Forest and Rotation Forest for fully polarized SAR image classification using polarimetric and spatial features[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2015,105(3):38-53.
[26] 韓敏,劉賁.一種改進(jìn)的旋轉(zhuǎn)森林分類算法[J].電子與信息學(xué)報(bào),2013,35(12):2896-2900.
[27] 丁要軍.基于改進(jìn)的旋轉(zhuǎn)森林算法的不平衡網(wǎng)絡(luò)流量分類方法[J].計(jì)算機(jī)應(yīng)用,2015,35(12):3348-3351.
[28] 陳齊,李新通.Landsat 8 OLI影像新增特征對土地覆蓋遙感分類的影響分析[J].亞熱帶資源與環(huán)境學(xué)報(bào),2015,10(3):79-86.
[29] 丁海勇,卞正富.基于SVM算法和紋理特征提取的遙感圖像分類[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(8):2131-2132,2136.
[30] 苑麗紅,付麗,楊勇,等.灰度共生矩陣提取紋理特征的實(shí)驗(yàn)結(jié)果分析[J].計(jì)算機(jī)應(yīng)用,2009,29(4):1018-1021.
[31] 苗慶林,田曉瑞,趙鳳君.大興安嶺不同植被火后NDVI恢復(fù)過程[J].林業(yè)科學(xué),2015,51(2):90-98.
[32] 于菲菲,曾永年,徐艷艷,等.基于植被分區(qū)的多特征遙感智能分類[J].國土資源遙感,2014,26(1):63-70.
[33] Ministry of Land and Resources of the People’s Republic of China. The current Land-use ConditionClassification[EB/OL]. (2007-09-04)[2014-08-15].http://www.mlr.gov.cn/xwdt/jrxw/200709/t20070904_652541.htm.
[34] VAPNIK V. The nature of statistical learning theory[M]. Berlin: Springer Verlag,1999.
[35] 邵良杉,馬寒.基于旋轉(zhuǎn)森林的分類器集成算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(23):149-154.
[36] 樊利恒,呂俊偉,于振濤,等.基于改進(jìn)最大似然方法的多光譜遙感圖像分類方法[J].電光與控制,2014,21(10):52-56,74.
[37] 惠文華.基于支持向量機(jī)的遙感圖像分類方法[J].地球科學(xué)與環(huán)境學(xué)報(bào),2006,28(2):93-95.
[38] 郭立萍,唐家奎,米素娟,等.基于支持向量機(jī)遙感圖像融合分類方法研究進(jìn)展[J].安徽農(nóng)業(yè)科學(xué),2010,38(17):9235-9238.
[39] 劉帥,李士進(jìn),馮鈞.多特征融合的遙感圖像分類[J].數(shù)據(jù)采集與處理,2014,29(1):108-115.
[40] 張穎,王越男,陳利,等.基于Landsat-8影像森林植被信息計(jì)算機(jī)自動(dòng)提取研究[J].中國農(nóng)學(xué)通報(bào),2014,30(28):61-66.
Forest Vegetation Classification of Landsat-8 Based on Rotation Forest//
Liang Xiwen, Zhao Yinghui, Zhen Zhen, Wei Qingbin
(Northeast Forestry University, Harbin 150040, P. R. China)
Landsat-8; Rotation forest; Forest vegetation classification; Principal components analysis
梁晰雯,女,1991年4月生,東北林業(yè)大學(xué)林學(xué)院,碩士研究生。E-mail:13206761979@163.com。
趙穎慧,東北林業(yè)大學(xué)林學(xué)院,副教授。E-mail:zyinghui0925@126.com。
2017年1月5日。
S79
1)中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(2572016CA01)。
責(zé)任編輯:潘 華。