王曉洋,姜友誼,黎 曉,胡亞軒,張家政,劉博偉
(1.西安科技大學(xué) 測繪科學(xué)與技術(shù)學(xué)院,西安 710054;2.中國地震局第二監(jiān)測中心,西安 710054)
近年來,隨著我國林業(yè)建設(shè)工作的開展,落葉松(Larixgmelinii)人工林的面積逐年增大,已成為我國北方林區(qū)主要的造林樹種,落葉松人工林信息的精確提取對我國合理利用以及科學(xué)管理森林資源至關(guān)重要[1-2]。傳統(tǒng)的森林資源調(diào)查時間久、成本高、任務(wù)量大,很難滿足生產(chǎn)實踐的要求[3]。隨著遙感技術(shù)的成熟,中低分辨率遙感影像覆蓋范圍廣,可對大范圍的植被現(xiàn)狀及森林變化進行監(jiān)測,但可能存在同一像元包含多種林分類型的情況[4],對樹種的識別精度并不理想[5]。在國內(nèi)外眾多學(xué)者的共同研究下,發(fā)現(xiàn)結(jié)合紋理特征對森林植被分類取得了較好的結(jié)果,Medina等[6]、Abdel-Hamid等[7]、Wang等[8]、陳玲等[9]、白瑩等[10]的研究均表明,相比于僅用光譜特征分類的傳統(tǒng)方法,加入紋理特征分類精度有所提高。因此,高分辨率影像結(jié)合紋理信息能更好反映不同樹種之間的特征。然而大量研究表明,紋理窗口大小對提取結(jié)果有較大的影響。Deur等[11]采用隨機森林和支持向量機的分類方法分析不同窗口大小對樹種分類的影響,結(jié)果表明:用5×5的窗口大小計算出來的GLCM特征取得了最好的結(jié)果,尤其是GLCM方差加入使得樹種分類精度分別提高了10%,7%。Lu等[12]在潮濕的熱帶地區(qū)運用光學(xué)影像融合紋理特征進行植被分類,結(jié)果表明:基于熵或二階矩的紋理特征窗口大小為9×9,在提高植被分類精度方面發(fā)揮了重要作用。Chen等[13]基于WorldView-2影像結(jié)合紋理信息對上海和連云港地區(qū)城市植被進行分類,結(jié)果表明:最佳紋理窗口大小由植被紋理的粗糙程度決定。張嵩等[14]結(jié)合支持向量機方法探討了窗口大小對礦區(qū)林地提取的影響,結(jié)果表明:窗口大小3×3對應(yīng)的均值在提取林地信息方面具有顯著優(yōu)勢。因此,紋理窗口大小是森林分類中的重要參數(shù),沒有單一的紋理窗口大小可以描述所有地物特征。
目前,隨著機器學(xué)習(xí)算法的成熟,隨機森林(Random Forest,RF)分類器在分類效率以及分類精度等方面具有較大的優(yōu)勢,且不需要先驗知識,通過學(xué)習(xí)少量的訓(xùn)練樣本集形成分類規(guī)則[15]。但為保證分類的成功,RF算法要求在分類前盡可能多地提取特征,以此顯示各類別之間的差異,這樣不僅會造成數(shù)據(jù)冗余,還可能產(chǎn)生“休斯效應(yīng)”[16]。諸多研究表明[17-18],特征優(yōu)選可以降低維度,提高分類器的效率和分類精度。
本文以黑龍江省樺南縣孟家崗林場的落葉松樹種為研究對象,以多時相的GF-1影像為數(shù)據(jù)源,以森林資源二類調(diào)查數(shù)據(jù)和實地補充調(diào)查數(shù)據(jù)為樣地依據(jù),分析紋理特征不同窗口大小對落葉松人工林的分類效果。利用Gini系數(shù)對光譜特征、植被指數(shù)、紋理特征和地形特征共32個特征進行重要性評價,結(jié)合RF算法優(yōu)選與分析,以提高落葉松人工林的分類精度,促進高分辨率遙感影像GF-1數(shù)據(jù)在落葉松人工林提取方面的深入應(yīng)用。
孟家崗林場位于黑龍江省樺南縣東北部(圖1),距離縣城21km,地理坐標(biāo)為46°20′16″~46°30′50″N,130°32′42″~130°52′36″E,屬東亞大陸性季風(fēng)氣候區(qū)。林場春季少雨,夏季短促,秋季氣溫變化大,冬季漫長且寒冷,一年四季溫度在-34.7~35.6℃之間。林場坡度較為平緩,大部分在10°~20°之間,整體地勢東北高、西南低,海拔在168~575m之間。年平均降水量約550mm。現(xiàn)林場主要經(jīng)營落葉松、紅松(Pinuskoraiensis)、云杉(Piceaasperata)、樟子松(Pinussylvestrisvar.mongolica)等人工林,面積占林場總面積(14 466.67hm2)的76.7%。
圖1 研究區(qū)地理位置及樣地分布圖
本文采用我國對地觀測系統(tǒng)的第一顆高分辨率衛(wèi)星——高分一號(GF-1)衛(wèi)星,它具有8m分辨率多光譜和2m分辨率全色影像。影像獲取的時間為2017年5月2日、7月6日、10月25日。
以研究區(qū)矢量邊界數(shù)據(jù)、30m分辨率的DEM數(shù)據(jù)、森林資源二類調(diào)查數(shù)據(jù)和0.5m分辨率的CCD(Charge Coupled Device)航片數(shù)據(jù)作為輔助數(shù)據(jù)。矢量邊界數(shù)據(jù)主要用于裁剪研究區(qū)影像;DEM數(shù)據(jù)作為輔助信息參與分類;二類小班數(shù)據(jù)和CCD航片數(shù)據(jù)用于解譯孟家崗林場的林分類型分布,其中CCD數(shù)據(jù)是由LiCHy(LiDAR,CCD and Hyperspectral)機載系統(tǒng)拍攝的。依據(jù)孟家崗林場的主要樹種,確定林分類型為落葉松人工林、紅松、云杉、樟子松、天然林、其他林地。天然林主要包括橡樹(Quercusmongolica)、椴樹(Tiliatuan)、山楊林(Populusdavidiana)等闊葉林。其他林地是指非有林地范疇的林地。
利用ENVI 5.3首先對多光譜圖像(8m)和全色圖像(2m)進行輻射定標(biāo),對多光譜圖像(8m)進行FLAASH大氣校正以及幾何校正。再借助DEM數(shù)據(jù)對GF-1影像進行正射校正。采用NNDiffuse變換方法將多光譜圖像(8m)和全色圖像(2m)融合,得到2m多光譜影像。最后通過矢量邊界數(shù)據(jù)裁剪得到研究區(qū)遙感影像。
光譜特征不僅反映地物最直接的信息,而且是數(shù)據(jù)處理的重要基礎(chǔ)[19]。地表上各種地物間具有不同的波譜特征,在遙感影像上表現(xiàn)為光譜特征的差異,根據(jù)不同的光譜特征可以判斷地物的屬性。本文基于GF-1影像分析各林分類型在不同時相上的光譜差異。
圖2為GF-1影像各林分類型光譜曲線,由圖2(a)可知,5月2日影像,整體來說,各林地處于生長初期,光譜曲線變化趨勢較一致,且各類別光譜均值又有一定的差別,其他林地的光譜均值最高。落葉松在藍波段(Band1)、綠波段(Band2)和紅波段(Band3)的光譜均值高于樟子松、云杉和紅松,可區(qū)分度明顯;在近紅外波段(Band4)4者與天然林較難區(qū)分。7月6日影像,各林地處于生長階段,前3個波段的樟子松、云杉、落葉松、紅松、天然林的光譜曲線幾乎完全重合,表現(xiàn)出較強的“異物同譜”現(xiàn)象,僅在近紅外波段落葉松與天然林區(qū)分度明顯,表明在這一時期僅使用光譜特征很難將其區(qū)分開,可能需要加入其他特征,如,紋理特征等。10月25日影像,落葉松人工林處于落葉期,在紅外波段、近紅外波段與其他林分類型可以區(qū)分,但與天然林光譜曲線值接近。從3個時相的變化趨勢來看,各樹種從B1到B4波段表現(xiàn)為先降后增。因此,僅利用光譜特征很難將各林分類型區(qū)分開。
圖2 各時期光譜曲線圖
根據(jù)前人研究以及大量實驗,選取3個植被指數(shù),分別為:歸一化植被指數(shù)(Normalized Difference Vegetation Index,NDVI),差值植被指數(shù)(Difference Vegetation Index,DVI)和紅色指數(shù)(Red Index,RI)。計算方法如式(1)—式(3)所示:
(1)
DVI=ρNIR-ρR
(2)
(3)
式中:ρNIR,ρR及ρB分別表示近紅外、紅光以及藍光波段。
1973年,Haralick等[20]提出統(tǒng)計分析法中的灰度共生矩陣(GLCM),是目前應(yīng)用最廣、穩(wěn)定性最好、魯棒性極強的一種紋理提取方法,定義為P(i,j/d,θ),是指影像上相距d,方向為θ的一對像素點i,j同時出現(xiàn)某種灰度的概率。本文選取8個常用的紋理特征,即:均值(Mean)、方差(Variance)、同質(zhì)性(Homogeneity)、對比度(Contrast)、相異性(Dissimilarity)、熵(Entropy)、二階矩(Second Moment)和相關(guān)性(Correlation)。
參照文獻研究[21-22],利用ENVI 5.3對3期GF-1影像進行主成分分析(Principal Component Analysis,PCA),分別選取第一主成分(PCA1)進行紋理特征提取。設(shè)置步長為1,灰度級數(shù)為64,角度取4個離散方向(0°,45°,90°和135°)的均值以消除方向上的影響。在紋理窗口設(shè)定時考慮到窗口過大,提取地物時可能造成錯分、誤分的現(xiàn)象;窗口過小則可能出現(xiàn)同一地類提取不完整的情況。因此,在選擇紋理特征提取時,綜合考慮影像、林分類型等方面的因素,選擇適當(dāng)?shù)拇翱诖笮?避免窗口過大或過小,影響分類精度。由于不同時期各林分類型的紋理不同,因此,本文分別對3個時期紋理窗口大小設(shè)置為3×3,5×5,7×7,9×9,共生成96個紋理特征,分析不同時相不同窗口大小對分類精度的影響。
由于研究區(qū)東北高、西南低的地形因素影響,樹種的分布具有一定的規(guī)律性。天然林主要生長在海拔較高的東北部;而人工林主要分布在平坦地區(qū)。因此,將數(shù)字高程模型(DEM)以及利用ArcGIS 10.2提取出的坡度(Slope)、坡向(Aspect)直接參與分類,有助于提高分類精度。
2.5.1隨機森林算法
隨機森林是2001年由Breiman[23]提出的一種以決策樹(CART)為基本分類器的新型機器學(xué)習(xí)算法,集成了多個學(xué)習(xí)器的預(yù)測結(jié)果。算法的主要思想是利用Bootstrap法,從原始樣本集中隨機有放回地抽樣M組,獲得M個新的訓(xùn)練樣本集,針對每個訓(xùn)練樣本集分別建立決策樹,將構(gòu)建的多棵決策樹組合,采用多數(shù)投票規(guī)則對樣本進行分類,將投票結(jié)果作為最終預(yù)測結(jié)果。其中約有1/3的樣本集未被采樣到,將未參與決策樹建立的這部分?jǐn)?shù)據(jù)稱為袋外數(shù)據(jù)(Out-of-Bag,OOB),通過OOB估計整個隨機森林的泛化誤差[24]。
目前,隨機森林算法可通過多種語言平臺實現(xiàn)。本文利用EnMAP-Box的RF分類器對整個遙感圖像分類。EnMAP-Box是基于IDL(Interactive Data Language)開發(fā)的一款提供多種處理高光譜遙感數(shù)據(jù)功能的工具包[25]。
2.5.2變量的重要性評估與優(yōu)選
將所有特征參與分類必然會造成信息冗余,也會產(chǎn)生“維數(shù)災(zāi)難”,從而導(dǎo)致分類速度降低、效果變差。因此,采用Gini系數(shù)對32個特征進行重要性評估,根據(jù)特征重要性的分值按照降序排列,其中Gini系數(shù)的數(shù)值越大,表示該特征重要性越高。首先,選擇重要性最高的特征對其分類,再累加重要性得分前二的特征進行分類,依次類推,得到32個特征組合。通過比較分類精度,選取分類精度最高的特征組合作為優(yōu)選的特征子集,在提高分類結(jié)果的同時達到降低維度的效果。
2.6.1分類方案
為探究研究區(qū)分類的最佳組合方式,本文設(shè)置了6組分類方案(表1)。
表1 分類方案
2.6.2精度評價
為了從定量方面描述各方案下的分類精度以及分類結(jié)果與真實樣本之間的差異,本文選取總體精度、Kappa系數(shù)、用戶精度、生產(chǎn)者精度以及F精度5種指標(biāo)來評價。前兩種指標(biāo)用于評價整體的分類精度;用戶精度、生產(chǎn)者精度是評價單個林分類型的分類情況;F精度用來評價落葉松人工林的分類精度,其計算公式如式4所示。
(4)
式中:PA為生產(chǎn)者精度,UA為用戶精度。
將96個紋理特征分別與3個時相的原始光譜波段組合,利用RF分類,做出總體精度隨紋理窗口變化的曲線圖(圖3),其中橫坐標(biāo)表示不同時相不同紋理窗口大小,例如:5_(3_3)代表5月2日影像紋理窗口大小為3×3。為進一步確定研究區(qū)的最佳紋理窗口和最優(yōu)紋理特征,選擇8個紋理特征在不同窗口下總體精度最高的參與分類。
注:圖中ME為均值,VAR為方差,HOM為同質(zhì)性,CON為對比度,DIS為相異性,ENT為熵,SE為二階矩,COR為相關(guān)性
從圖3中可以看出,同一紋理特征在不同窗口下的總體分類精度不同,不同紋理特征在同一紋理窗口下的分類精度也是不同的。隨著紋理窗口不斷增大,總體分類精度逐漸升高。當(dāng)紋理窗口為 9×9時,各紋理特征達到了峰值。從同一紋理特征在不同窗口下的分類精度來看,均值、方差和熵這3個紋理特征在5月2日9×9窗口下總體精度達到最高,同質(zhì)性、對比度、相關(guān)性和相異性這4個紋理特征在7月6日9×9窗口以及二階距在10月25日的9×9窗口下總體精度達到最好。此外,所有光譜特征結(jié)合紋理特征的總體精度都在80%以上,說明加入紋理特征有利于提高分類精度。綜上,9×9是此森林分類的最佳紋理窗口。因此,本文選取5月份窗口大小為9×9的均值、方差和熵,7月份窗口大小為9×9的同質(zhì)性、相異性和對比度,10月份窗口大小為9×9的二階矩這8個紋理特征參與分類,分析不同紋理特征對落葉松人工林分類的影響。
根據(jù)隨機森林Gini系數(shù)計算出32個特征的重要性分值如圖4(a)所示。其中,B1—B4代表影像波段1—波段4;NDVI,DVI,RI分別代表歸一化植被指數(shù)、差值植被指數(shù)、紅色指數(shù);ME,VAR,HOM,CON,DIS,ENT,SE,COR分別代表紋理特征中的均值、方差、同質(zhì)性、對比度、相異性、熵、二階矩、相關(guān)性;DEM代表數(shù)字高程模型;Slope代表坡度,Aspect代表坡向。變量的命名規(guī)則為“日期_特征”,如,5_B1,5_NDVI,5_(9_9)_ME,分別代表5月2日影像的原始B1波段、植被指數(shù)、第一主成分紋理窗口大小為9×9的均值。由圖4(a)可得,不同特征在分類中的重要性有明顯的差別,其中對分類精度貢獻率最大的3個特征依次是10月份的差值植被指數(shù)、5月份的歸一化植被指數(shù)、10月份的歸一化植被指數(shù);貢獻率最小的是7月份相關(guān)性紋理特征參數(shù)。整體來說,植被指數(shù)特征的貢獻率最大,前10個特征中,有8個為植被指數(shù)特征。
根據(jù)特征優(yōu)選重要性的分類精度圖4(b)可知,隨著特征數(shù)量的增加,率先加入分類中重要性高且貢獻率大的特征之間的相關(guān)性較低,這使得總體精度和落葉松人工林分類精度急劇升高。特征數(shù)量增加為20~24時,總體精度在81.30%附近,說明特征變量之間的相關(guān)性高。當(dāng)特征數(shù)量達到27時,總體精度和落葉松人工林分類精度同時達到最高,分別為82.67%,87.13%。綜合篩選出的所有特征(方案5)和優(yōu)化特征子集(方案6)均可以改善落葉松人工林漏分、錯分的情況,落葉松分類精度較僅使用原始光譜波段分別提高了0.92%,1.87%。但優(yōu)化后特征子集的分類效果更好。因此,選擇前27個特征(光譜特征11個、植被指數(shù)9個、紋理特征5個、地形特征2個)作為優(yōu)化特征子集。其中,貢獻率依次是植被指數(shù)、光譜特征、紋理特征和地形特征。
圖4 特征重要性排序與分類精度
根據(jù)局部分類結(jié)果(圖5)和整體分類結(jié)果(圖6)可以看出,僅依靠光譜特征分類的結(jié)果圖斑較為破碎,“椒鹽現(xiàn)象”嚴(yán)重,主要出現(xiàn)樟子松與云杉的錯分、誤分情況,這是因為兩者都屬于常綠樹種且分布散、范圍小。通過對比發(fā)現(xiàn),加入紋理特征比未加入時效果好,錯分為云杉的樟子松被正確識別,說明紋理特征能夠有效提高分類精度。所有特征參與分類效果較好、圖斑較為完整,錯分、混分現(xiàn)象也得到了改善。經(jīng)過特征優(yōu)選后的分類效果更好,邊界更為清晰,連續(xù)性較好,大部分區(qū)域能被正確地識別,各林分類型得到很好地區(qū)分,同時落葉松人工林提取效果最好。
注:圖中的(a)—(f)分別代表分類方案1—6,(g)代表真實地類。
注:圖中的(a)—(f)分別代表分類方案1—6。
基于6種不同分類方案下的總體精度與落葉松人工林分類精度如表2所示。在光譜特征中加入植被指數(shù),總體精度提高了0.35%,落葉松人工林的提取精度提高了0.73%(方案2)。但在光譜特征的基礎(chǔ)上加入紋理特征、地形因子的總體精度和落葉松人工林分類精度都降低了(方案3,方案4),前者是因為紋理特征之間的相關(guān)性大,RF分類器未能充分利用好8個紋理特征導(dǎo)致數(shù)據(jù)冗余,從而分類精度降低,這就說明并非加入所有的紋理特征就能提高分類精度;后者是由于DEM、坡度和坡向3者的相關(guān)性較高,導(dǎo)致分類精度降低。方案5,將所有特征參與分類,相比于前4種方案總體精度分別提高了2.45%,2.10%,2.50%,3.13%。方案6,經(jīng)過特征優(yōu)選后,相比于方案5(所有特征),生產(chǎn)者精度和用戶精度略微提高,總體精度達到82.67%,同時,落葉松人工林的分類精度最高,達到87.13%,說明特征優(yōu)選在保留貢獻率較大特征的同時,達到分類效果最佳,并減少了無關(guān)特征變量的參與。
表2 各方案的分類精度
通過RF算法分析不同紋理窗口下的8個紋理特征對分類精度的影響,所得結(jié)果表明,并不是所有紋理特征對分類精度都起到提高的作用,紋理特征過多,波段之間的相關(guān)性大,反而會造成信息重疊、數(shù)據(jù)冗余,導(dǎo)致分類精度降低。林雪等[26]、楊盼盼[27]也得出同樣的結(jié)論,將8個紋理特征全部參與分類,未必能達到最好的分類效果,反而會增加運算時間。
采用RF算法提取落葉松人工林的分布情況,方案5、方案6獲得的結(jié)果較僅使用光譜特征的分類精度明顯提高,與最近研究的一些結(jié)果一致[28-30],證實了構(gòu)建光譜特征、植被指數(shù)、紋理特征以及地形因子的多特征分類模型在植被分類方面的潛力。多特征之間存在一定的相關(guān)性,相關(guān)性越高,不僅會造成數(shù)據(jù)冗余,還易影響分類器的運行速度,因此,特征優(yōu)選尤為重要。何云等[31]、王李娟等[32]、張紅華等[33]均結(jié)合Sentinel-2影像利用RF算法進行土地利用信息提取,結(jié)果都表明優(yōu)選后的RF算法精度最高。目前,國內(nèi)外針對高分辨率遙感影像對落葉松人工林的多特征優(yōu)選方面研究較少,因此,本文結(jié)合落葉松人工林的物候特征,利用多時相多特征,通過Gini系數(shù)評估特征重要性,利用RF算法篩選并構(gòu)建最優(yōu)特征分類集取得了較好的結(jié)果,為國產(chǎn)高分辨率遙感影像在落葉松人工林提取方面提供參考。在未來的研究中可加入紋理特征方向?qū)Ψ诸惥鹊挠绊?。其?結(jié)合深度學(xué)習(xí)方法提高落葉松人工林的分類精度有待研究。
本文利用GF-1影像結(jié)合多時相、多特征對落葉松人工林進行提取得到以下結(jié)論:
1)高分辨率具有豐富的紋理特征,不同窗口下的紋理特征對分類精度的影響不同。加入紋理特征可以有效提高分類精度。通過RF分類方法將原始光譜波段與不同窗口下的紋理特征結(jié)合得出:GLCM紋理提取的最佳窗口大小為9×9。
2)利用Gini系數(shù)對32個特征變量進行重要性評估,結(jié)果表明:特征不同重要性不同,其中植被指數(shù)特征的重要性最高,其次是光譜特征、紋理特征,貢獻率最低的是地形特征。
3)特征越多,模型的復(fù)雜程度越高,分類精度不增反降。綜合6種方案來看,基于特征優(yōu)選子集(光譜特征11個、紋理特征5個、植被指數(shù)9個和地形特征2個)的分類方案優(yōu)于其他5種,邊界清晰,連續(xù)性好,碎斑塊少,總體精度最高為82.67%(Kappa系數(shù)為0.76),落葉松人工林分類精度高達87.13%。
因此,結(jié)合國產(chǎn)GF-1影像基于RF算法的多特征優(yōu)選分類模型提取落葉松人工林的效果顯著,為及時、準(zhǔn)確獲取孟家崗林場落葉松人工林的分布情況提供了參考。