侯蒙京 殷建鵬 葛 靜 李元春 馮琦勝 梁天剛
(蘭州大學草地農業(yè)生態(tài)系統(tǒng)國家重點實驗室/蘭州大學農業(yè)農村部草牧業(yè)創(chuàng)新重點實驗室/蘭州大學草地農業(yè)教育部工程研究中心/蘭州大學草地農業(yè)科技學院, 蘭州 730020)
高寒濕地是生物多樣性的重要基礎地帶和高寒濕地生態(tài)系統(tǒng)的典型代表,主要分布在我國的青藏高原東部,其中以若爾蓋地區(qū)面積最大、最為原始[1-4]。隨著城市化進程的加劇、人口數(shù)量的劇增以及全球氣候變化,近30年來青藏高原濕地總面積減少了2 970.31 km2[5-6]。高寒濕地正面臨著萎縮和退化的嚴重危機,給當?shù)厣鷳B(tài)安全和生產生活帶來巨大的威脅[7]。因此,迫切需要采用先進的技術和方法對高寒濕地地區(qū)進行持續(xù)有效的監(jiān)測,為保護和管理濕地資源提供科學依據(jù)。
隨著遙感技術的發(fā)展,濕地的監(jiān)測更加趨于快速、高效和大尺度[8-9]。從研究方法來看,基于遙感的濕地信息提取和分類方法主要包括人工目視解譯和計算機自動分類。目視解譯對解譯者的判讀經(jīng)驗有很高的要求,且耗費大量的時間和精力,不宜作為獨立的分類方法[10]。監(jiān)督分類和非監(jiān)督分類方法提高了濕地的分類速度,其中極大似然法(Maximum likelihood classification,MLC)的精度最高,逐漸成為自動分類的基準方法[10-11]。隨著機器學習算法在遙感影像分類中的應用普及,決策樹(Decision tree, DT)、支持向量機 (Support vector machine, SVM) 、人工神經(jīng)網(wǎng)絡(Artificial neural network, ANN)等方法在濕地分類研究中不斷趨于成熟,這些方法各有優(yōu)勢,分類效果一般優(yōu)于MLC法[12-16]。
近幾年,隨機森林(Random forest,RF)作為一種較新的機器學習算法,因其運算速度快、分類精度高、對噪聲數(shù)據(jù)不敏感等優(yōu)勢在遙感信息自動提取領域獲得了良好效果[17]。吳靜等[18]基于多時相Sentinel-2A影像,采用RF算法對景泰縣農作物進行分類,總體精度達到86.2%;陳元鵬等[19]結合MESMA和RF算法,對山丘區(qū)土地覆蓋信息進行分數(shù)提取,精度可達90.50%;WU等[20]利用GF-2影像和機載激光雷達數(shù)據(jù)(Airborne LiDAR data),對城市建筑用地進行RF分類,Kappa系數(shù)達到0.93。盡管RF算法已經(jīng)成功應用于農作物、城市和山地等區(qū)域的土地覆蓋信息分類提取中,但在濕地研究中尚不多見,尤其是在高寒濕地生態(tài)系統(tǒng)中的應用鮮見報道。進入21世紀以來,各國對地觀測系統(tǒng)不斷完善。從數(shù)據(jù)源來看,遙感影像逐漸突破通道數(shù)量、空間分辨率、時間分辨率以及寬幅的限制[21]。高分一號(GF-1)是我國高分辨率對地觀測系統(tǒng)重大專項的首顆民用衛(wèi)星,具有空間分辨率較高、成像寬幅大、獲取成本低等優(yōu)點[22]。GF-1影像在高寒濕地分類的應用價值仍有待進一步挖掘。
本文根據(jù)高寒濕地地區(qū)土地覆蓋類型的分布特點構建光譜、水體、地形、植被和紋理5種分類特征,利用RF算法的變量重要性分析選出分類精度達到最高時的特征變量,并進行分類,兼顧分類精度和工作效率兩方面選出分類精度較高、且變量數(shù)盡可能少的特征,并利用RF、MLC、SVM、ANN共4種方法進行分類。旨在探索RF方法和GF-1數(shù)據(jù)在高寒濕地分類中應用的可行性,尋找分類的最佳方案,以期為高寒濕地保護區(qū)的動態(tài)監(jiān)測提供高效的手段。
本研究區(qū)為若爾蓋濕地國家級自然保護區(qū),位于青藏高原東北端,隸屬于四川省若爾蓋縣,位于102°9′~102°59′E,33°25′~34°00′N之間,平均海拔約3 500 m,總面積達1.67×103km2。研究區(qū)屬于高原亞寒帶半濕潤大陸性季風氣候,冬季較長夏季極短,寒冷干燥,日照時間長,大部分地區(qū)年均氣溫在0~2℃,年降水量為600~800 mm[23]。該地區(qū)分布著世界上面積最大的高原泥炭沼澤,是青藏高原高寒濕地生態(tài)系統(tǒng)的典型代表[23]。參照WANG等[24]和武高潔等[25]的分類體系和研究結果,將研究區(qū)的土地覆蓋類型劃分為高寒草地、沼澤濕地、河流湖泊濕地、沙化地、建設用地和裸巖共6類。研究區(qū)位置及其GF-1影像如圖1所示。
圖1 研究區(qū)位置及GF-1影像Fig.1 Location of study area and its GF-1 image
2016年7月15日覆蓋研究區(qū)GF-1影像共兩景(下載地址:http:∥www.rscloudmart.com/),質量良好,無云。GF-1多光譜影像主要參數(shù)如表1所示[26]。將同時期空間分辨率為15 m的Landsat8 OLI全色波段(PAN)影像作為參照,對GF-1影像進行正射校正。經(jīng)過輻射定標、大氣校正、鑲嵌和裁剪等處理,得到待分類的影像。
表1 GF-1 WFV傳感器主要參數(shù)Tab.1 Main parameters of GF-1 WFV sensor
在大量實地調查的基礎上,并參考同時期Google Earth影像,利用ArcGIS 10.2在GF-1影像上選擇和生成樣本??紤]到樣本均衡性,樣本數(shù)量按照各地物類型的面積占比所設置。由于建設用地的混淆程度較大,適當增加了其樣本數(shù)。最終共選擇了18 650個像元作為樣本數(shù)據(jù)(高寒草地9 031個、沼澤濕地5 628個、河流湖泊濕地867個、沙化地889個、建設用地1 283個、裸巖952個)。
對影像完成各項預處理后,首先構建分類特征,包括指數(shù)計算、灰度共生矩陣計算、纓帽變換(Kauth-Thomas transformation, K-T)和地形分析等,得到分類所需的各類特征集;然后利用RF算法進行特征變量重要性分析、特征選擇并開展分類和精度評價;最后利用選定的特征,比較不同方法對高寒濕地土地覆蓋類型分類效果。圖2為研究思路的具體技術流程。
圖2 技術流程Fig.2 Flow chart of technical route
本文選取了光譜信息、遙感指數(shù)、紋理信息、纓帽變換成分和地形等共26個分類變量。光譜特征為GF-1影像輸出的4個波段?;诓ǘ芜\算得到8個指數(shù),包括水體指數(shù)和植被指數(shù)。
纓帽變換通過對原始數(shù)據(jù)進行正交變換,去除各波段之間的冗余信息,且變換后前3個分量成為有重要物理意義的參數(shù),可被用于濕地信息的分類與提取[27]。參照王帥等[28]的方法,對GF-1影像進行纓帽變換,輸出的前3個分量位亮度指數(shù)(Brightness index,BI)、綠度指數(shù)(Green index,GI)和濕度指數(shù)(Wetness index,WI)作為本研究的分類特征。
地形特征是對高寒地區(qū)土地覆蓋類型分類的重要指標。本文使用的DEM為空間分辨率30 m的ASTER GDEM V2數(shù)據(jù)集,來自地理空間數(shù)據(jù)云(http:∥www.gscloud.cn/)。將其重采樣為16 m,與GF-1數(shù)據(jù)進行匹配。利用ArcGIS 10.2軟件和DEM數(shù)據(jù)進行地形分析,得到坡度(SLOPE)和坡向(ASPECT)。
鄭淑丹等[29]研究表明紋理信息在一定程度上可以提高分類精度。在ENVI 5.3中,選用3×3移動窗口,利用灰度共生矩陣(Grey level co-occurrence matrix, GLCM)計算影像8種紋理特征(對比度、相關性、差異性、熵、同質性、均值、二階矩和方差),得到4個波段的32個紋理特征變量。由于這些紋理特征變量存在較高的相關性,利用主成分變換(PCA)進行降維,最終選擇前8個主成分(GLCM_1~ GLCM_8)作為紋理特征變量。
濕地是分布在陸地與水體之間且兼具水文、土壤和植被特征的生態(tài)系統(tǒng)。青藏高原地區(qū)高海拔的地勢、適宜的地形和高原氣候為高寒濕地的發(fā)育提供了條件[7]。因此,本文依據(jù)高寒濕地地區(qū)土地覆蓋類型的分布特點,構建了光譜、水體、地形、植被和紋理共5種類型的分類特征。各特征變量的名稱、計算方式和描述如表2所示。
表2 分類特征變量Tab.2 Classification feature variables and their introduction
RF算法是由多棵分類與回歸樹(Classification and regression tree,CART)構成的非參數(shù)機器學習算法。該算法可有效地運行大量數(shù)據(jù)集,并處理數(shù)千個輸入變量[19]。在學習階段,首先從觀測數(shù)據(jù)中選擇多個樣本,然后從每個樣本中構建大量的分類樹。對于樹中的每個節(jié)點,先從所有特征中隨機選取Mtry個特征,根據(jù)基尼系數(shù)進行分裂測試并找到最優(yōu)特征。在經(jīng)過上述取樣、建樹的Ntree次重復后,最終建成含有Ntree棵分類樹的隨機森林[20]。研究表明,Mtry通常設置為輸入變量總數(shù)的平方根[30]。Ntree參數(shù)值上限一般設置為1 000,大量研究已證明該值對許多RF程序有效[31]。本文Ntree設置為1 000,Mtry為輸入特征變量的平方根。此外,在抽樣過程中,隨機選擇一部分樣本分割分類樹的每個節(jié)點,剩下未被抽取的樣本被稱為袋外(Out of bag,OOB)數(shù)據(jù)。利用大約37%的OOB數(shù)據(jù)進行分類結果的精度評價以及計算不同特征變量的重要性[32]。
RF算法可以對特征變量的重要程度和貢獻進行分析評價,在提高模型精度的同時減少數(shù)據(jù)的冗余和處理工作量。圖3是通過隨機森林OOB誤差分析得到的特征變量重要性分布,重要性得分越高,說明該變量對分類結果的影響和貢獻就越大??梢钥闯觯築and4、BI、GLCM_1、DEM、NDGI和RI變量的重要性得分均超過6,排序最靠前。由于研究區(qū)的主要地物類型是高寒濕地,而水分信息在近紅外波段(Band4)特征性較強、吸收強度較高,對分辨潮濕土壤以及從植被中區(qū)分水體等方面具有很好的效果。亮度指數(shù)(BI)可以有效反映土壤反射信息,對研究區(qū)沙化地、建設用地和裸巖等亮度指數(shù)較高的地物類型能較好的識別。紋理特征對于河流、湖泊、沼澤斑塊和道路等形狀輪廓明顯的地方的提取發(fā)揮了重要的作用。研究區(qū)內沼澤濕地多分布在排水不暢的低洼之地,且呈現(xiàn)出隨著海拔的升高,面積逐漸減少的趨勢,因而DEM的重要性較高。NDGI和RI等植被指數(shù)對高寒草地的探測與識別較敏感,重要性也排在前列。此外,與濕地關系密切的濕度指數(shù)(WI)在高寒濕地土地覆蓋的分類中貢獻也較大,由于WI 反映了地面的水分條件,在水體信息豐富的沼澤濕地以及河流湖泊濕地的提取中發(fā)揮著較重要的作用。歸一化水體指數(shù)(NDWI)的重要性得分處于中等水平。NDWI能最大限度地抑制植被的信息,突出水體,可以區(qū)分一部分混淆的高寒草地與沼澤濕地。
圖3 各特征變量重要性分布Fig.3 Importance distribution of characteristic variables
GLCM_3~GLCM_8的重要性得分較低,原因可能是經(jīng)過主成分分析,排序靠后的紋理特征分量包含的原始信息較少。由于坡度和坡向是基于地形分析得到,與原始DEM相關性較高,因此參與分類的貢獻度較低。
為了確定到達最佳分類精度時所用到的特征類型和變量個數(shù),按照變量重要性和數(shù)量依次從1~26進行RF分類,利用OOB數(shù)據(jù)的驗證集建立混淆矩陣,對分類結果進行評價。評價指標包括生產者精度(Producer accuracy,PA)、用戶精度(User accuracy,UA)、總體分類精度(Overall accuracy,OA)和Kappa系數(shù)。由圖4可知,影像分類精度在變量個數(shù)從1~5時顯著升高,OA和Kappa系數(shù)分別達到87.10%和0.81。其中,當加入DEM特征變量時,對整體分類精度的提高影響較大,OA和Kappa系數(shù)比加入前提高了7.49個百分點和 0.10。特征變量數(shù)達到7時,即伴隨著濕度指數(shù)的加入,分類精度有階段性的提升,OA達到了88.16%。分類的特征變量數(shù)從8開始,精度總體呈上升趨勢,但并不明顯。最終在26個變量全部參與分類時,RF模型的結果達到最優(yōu),OA和Kappa系數(shù)分別為90.07%和0.86。
圖4 特征變量數(shù)與分類精度關系Fig.4 Relationship between number of characteristic variables and classification result accuracy
通過以上分析可知,綜合光譜、水體、地形、植被和紋理特征的RF模型精度最高,但所用到的特征數(shù)量較多。通過變量重要性分析對特征做出選擇,將貢獻度和重要性較小的變量予以剔除,在降低變量維度的同時,又能保證較高的分類精度,進而減少模型運算時間,提高了工作效率。
基于各個變量重要性的排序進行特征選擇,分別選取精度達到較高時的最少特征數(shù)量、全部特征數(shù)量的一半以及達到最優(yōu)分類結果的特征數(shù)量進行進一步評價(表3)。由圖5可以看出,沼澤濕地、高寒草地和河流湖泊濕地的PA和UA在6種地物類型中處于較高的水平,且3種特征選擇方式的分類精度差距不大。說明使用所選特征和RF算法對高寒濕地地區(qū)主要土地覆蓋類型的分類表現(xiàn)比較穩(wěn)定。
表3 基于特征選擇的RF分類結果比較Tab.3 Comparison of RF classification results based on feature selection
圖5 不同土地覆蓋類型生產者精度(PA)與用戶精度(UA)Fig.5 Accuracy evaluation of different land cover types
通過直觀目視解譯并對比原始影像可發(fā)現(xiàn),3種分類制圖結果整體效果較好(圖6)。由圖6可知,沼澤濕地飽滿均一,斑塊邊界分明;湖泊濕地輪廓清晰,形狀規(guī)則;河流湖泊濕地和建設用地分布連續(xù);裸巖和沙化地提取較為完整。
圖6 RF各方法分類結果Fig.6 Classification results by different methods
以上分析可知,最少使用Band4、BI、GLCM_1和DEM等4個特征變量進行RF分類,可以達到兼顧分類精度和工作效率的效果。為了評估RF模型的分類效果與性能,基于同樣的樣本數(shù)據(jù),選擇對分類影響和貢獻最大的前4個變量(Band4、BI、GLCM_1和DEM),使用MLC、SVM和ANN方法對研究區(qū)進行分類并與RF算法作對比,記為RF_1、MLC_1、SVM_1、ANN_1。
由表4可知,相同特征下的4種分類方法中,RF分類結果精度最高,OA和Kappa系數(shù)分別為85.95%和0.80,比SVM和ANN方法分別高出6.98、6.56個百分點和0.08、0.09。MLC方法的分類效果最差,OA僅為68.32%,Kappa系數(shù)0.58。說明RF算法比MLC、SVM和ANN方法更能有效地提取高寒濕地土地覆蓋信息,具有很好的適用性。
表4 各種方法分類結果精度評價Tab.4 Accuracy evaluation of classification results by various methods
(1)針對高寒濕地地區(qū)的土地覆蓋分類問題,通過使用篩選出的特征,比較了RF和MLC、SVM、ANN等分類方法的性能,結果表明:RF算法的分類精度高于SVM和ANN等機器學習算法,且顯著高于MLC基準方法,是高寒濕地地區(qū)較適合的分類方法。
(2)建立了一種結合GF-1影像光譜信息、水體特征、植被特征、地形特征和紋理信息的最優(yōu)RF分類模型,實現(xiàn)了對高寒濕地地區(qū)土地覆蓋信息的分類, OA達到了90.07%,Kappa系數(shù)為0.86。
(3)利用RF的變量重要性分析方法,可以有效地選擇出地物最重要的特征信息,在大大降低特征變量維度的同時,仍能保持較高的分類精度,從而縮短了模型運算處理時間,有效提高了工作效率。