劉燕君,劉 凱,4,曹晶晶,4
(1. 中山大學地理科學與規(guī)劃學院,廣東 廣州 510006; 2. 廣東省公共安全與災(zāi)害工程技術(shù)研究中心,廣東 廣州 510006; 3.廣東省城市化與地理環(huán)境空間模擬重點實驗室,廣東 廣州 510006; 4. 南方海洋科學與工程廣東省實驗室(珠海),廣東 珠海 519000)
濕地是水陸相互作用形成的特殊自然綜合體,是地球上生物多樣性最豐富的生態(tài)系統(tǒng)和人類重要的生存環(huán)境之一,被譽為“地球之腎”[1]。濕地科學分類作為濕地研究的基礎(chǔ),是濕地科學理論的核心問題之一[2]。遙感技術(shù)已成為大范圍濕地信息提取和遙感分類的重要手段,對于準確、及時監(jiān)測濕地生態(tài)系統(tǒng)受自然因素和人為干擾的動態(tài)信息至關(guān)重要。
國內(nèi)外遙感技術(shù)的發(fā)展為濕地分類研究提供了豐富的數(shù)據(jù)源,包括多光譜影像、雷達影像和高分影像等[3-5]。其中,高光譜遙感以其豐富的光譜信息在復(fù)雜環(huán)境下的濕地類型精細識別中表現(xiàn)出顯著優(yōu)勢[6-8]。相比于機載或無人機載高光譜遙感,星載高光譜遙感具有大范圍、易獲取、重訪率高等優(yōu)勢,在區(qū)域或更大空間尺度的濕地分類中表現(xiàn)出了極大的應(yīng)用潛力。
鑒于面向?qū)ο蠓诸惙椒ㄏ啾扔诨谙裨姆诸惙椒?能在較大程度上解決混合像元問題,減小分類結(jié)果的“椒鹽效應(yīng)”[9]。近年來,極端梯度提升(eXtreme gradient boosting, XGBoost)作為一種基于決策樹的集成機器學習算法由于其運行速度快、分類效果好等優(yōu)勢廣受關(guān)注,但其在濕地遙感分類中應(yīng)用潛力仍有待探究。
綜上,本文運用具有較高空間和光譜分辨率的珠海一號高光譜影像,結(jié)合多維影像特征、XGBoost算法和面向?qū)ο蠹夹g(shù),針對珠江口濱海濕地進行遙感分類,并對比SVM和RF兩種機器學習算法,分析XGBoost算法在濕地類型信息提取中的有效性。
珠江口濕地是我國重要的濱海濕地,位于南海北側(cè)近岸海域,是三角洲網(wǎng)河和殘留河口灣并存的河口,河口區(qū)河汊發(fā)育、水網(wǎng)密布。屬于南亞熱帶季風性海洋氣候,常年溫暖、多雨、濕潤,夏季時間長,冬季溫暖干燥[10]。珠江口濕地種類豐富,有許多相互連通的河道,包括低地島嶼、河灘沼澤地、大型低洼田(如稻田、魚池和蝦塘)、灘涂和紅樹林等。
選用2019年1月25日覆蓋珠江口濱海濕地的珠海一號高光譜影像,數(shù)據(jù)來源于歐比特珠海一號遙感數(shù)據(jù)服務(wù)平臺。珠海一號高光譜衛(wèi)星共有4顆星,空間分辨率為10 m,時間分辨率可達2天,成像范圍為150 km×2500 km,譜段數(shù)為32個,光譜分辨率為2.5 nm,波譜范圍為400~1000 nm。除了空間和時間分辨率的優(yōu)勢外,珠海一號高光譜影像還具有紅邊波段。
對珠海一號高光譜影像進行預(yù)處理,包括輻射校正、幾何校正和圖像裁剪。首先,基于日照差異糾正模型進行輻射校正,將影像灰度值轉(zhuǎn)換為輻亮度值;然后,以Sentinel-2影像為基準影像,結(jié)合地面控制點進行影像配準。
針對珠海一號高光譜影像進行面向多尺度影像分割,基于相關(guān)性的特征選擇(correlation-based feature selection, CFS)算法獲取最優(yōu)的特征集合,并對比SVM、RF和XGBoost 3種不同機器學習算法的濕地分類效果,探討XGBoost算法在濕地分類應(yīng)用的可行性。技術(shù)路線如圖1所示。
圖1 濕地分類技術(shù)路線
參考《中華人民共和國國家標準:濕地分類》(GB/T 24708-2009)和《濕地公約》及現(xiàn)有濕地分類體系[11-13],針對研究區(qū)的濕地類型,制定本文的濕地分類體系(見表1),包括自然濕地、人工濕地和其他土地類型。其中,河流濕地主要為永久性河流,沼澤濕地以紅樹林為主,人工濕地主要為水庫和水產(chǎn)養(yǎng)殖場。
表1 濕地分類體系
采用多尺度分割算法,基于eCognition易康軟件進行珠海一號高光譜影像分割。多尺度分割是指在影像信息損失最小的前提下,以任意尺度生成異質(zhì)性最小、同質(zhì)性最大的有意義影像多邊形對象的過程,不同的地物類型可以在相應(yīng)尺度的對象上得到反映[14-15]。使用一種無監(jiān)督自動選擇尺度方法[16],經(jīng)過多次試驗確定分割尺度和參數(shù)因子。
根據(jù)不同濕地類型的特征和珠海一號的影像特征選取了光譜特征、形狀特征、紋理特征和指數(shù)特征4類共192個特征,見表2。多種類別特征的加入可輔助識別光譜特征相似的濕地類型[17]。
表2 本文使用的分類特征
針對上述特征集,本文采用經(jīng)典過濾器模式CFS算法進行分類特征篩選[18]。該算法對單一特征對應(yīng)于每個分類的作用進行評價,評估每個特征的預(yù)測能力及相互之間的冗余度,傾向于選擇與分類類別相關(guān)度高,但相互之間相關(guān)度低的特征[19]。
2.4.1 極端梯度提升
XGBoost算法屬于梯度提升機器算法的擴展[20],該算法的基學習器通常為樹和線性分類器,得到帶L1+L2懲罰的線性回歸或邏輯回歸,其損失函數(shù)采用二階泰勒展開,具有高準確度、不易過擬合、可擴展性的特點,能夠分布式處理高維稀疏特征[21]。
2.4.2 支持向量機
支持向量機(SVM)是一種基于統(tǒng)計學習理論的機器學習算法,能夠很好地應(yīng)用于小樣本、非線性及高維模式識別[22]。SVM算法針對的是小樣本的統(tǒng)計估計和預(yù)測,以結(jié)構(gòu)風險最小化作為準則[23]。
2.4.3 隨機森林
隨機森林(RF)是一種基于決策樹的集成學習算法[24]。它利用bootsrap重抽樣方法從原始樣本中抽取多個樣本,對每個bootsrap樣本進行決策樹建模。每棵樹通過Bagging算法形成獨立分布的訓練樣本集,組合多棵決策樹的預(yù)測,通過投票得出最終預(yù)測結(jié)果[25]。
針對研究區(qū)珠海一號高光譜影像進行多尺度分割,對比多次試驗的分割效果如圖2所示,最終確定分割尺度為60,該分割尺度下獲取的對象內(nèi)部同質(zhì)性較高,邊界輪廓較為清晰,具有較好的可分離性與代表性。同時,考慮研究區(qū)地物形狀大多較規(guī)整,確定影像分割的緊致度為0.6、形狀因子為0.4。
圖2 不同分割參數(shù)對應(yīng)的影像分割效果
利用CFS算法篩選得到30個分類特征,包括18個光譜特征、3個形態(tài)特征、5個紋理特征和4個指數(shù)特征。圖3給出了各個特征對于濕地分類的F1得分,其中光譜特征的重要性最高。紅邊指數(shù)和陰影指數(shù)的重要性僅次于光譜特征。紋理特征和形狀特征的重要性排名靠后,這可能是由于珠海一號高光譜影像的紋理信息相對較弱的原因。
圖3 各特征重要性排序
3.3.1 3種機器學習算法分類結(jié)果對比
基于XGBoost、RF和SVM 3種機器學習算法得到研究區(qū)濕地分類精度,如圖4所示??梢钥闯?利用XGBoost算法進行濕地分類效果最好,總體精度87.2%,Kappa系數(shù)為0.84。其中,制圖精度最高的是沼澤濕地,主要分布于研究區(qū)西南部,用戶精度最高的是水產(chǎn)養(yǎng)殖場。XGBoost算法對細小水體的分類更為準確,對溝渠和細小河流的分辨能力更高,且對旱地、建筑等非濕地類別更為敏感,能夠有效提高濕地分類精度。
圖4 基于3種機器學習算法的珠江口濕地分類精度
基于3種機器學習算法獲取的珠江口濕地類型空間分布如圖5所示。對比3種算法的分類結(jié)果,可以看出,RF算法的結(jié)果中在河流濕地有明顯錯分,大多數(shù)被分為建筑用地或湖泊濕地;利用SVM算法能夠較好地提取河流濕地,但會混淆養(yǎng)殖場和沼澤濕地;XGBoost算法應(yīng)用于濕地分類的效果最佳,其中部分河流濕地被誤分水庫、坑塘或建筑用地,這可能是由于河流濕地分割較為細碎,影響了分類器對河流濕地同質(zhì)性的判斷,且其樣本受河流上船只的影響,也在一定程度上影響了分類結(jié)果。
圖5 基于3種機器學習算法的珠江口濕地分類結(jié)果
3.3.2 特征優(yōu)選前后的濕地分類結(jié)果對比
基于特征優(yōu)選的濕地分類雷達圖如圖6所示。對于3種機器學習算法而言,相比使用全部特征集,利用優(yōu)選特征集得到的總體精度和Kappa系數(shù)均有所提高,其中XGBoost算法得到的總體精度上升2.0%。SVM和RF算法盡管特征優(yōu)選后的總體精度也有所提升,但湖泊濕地、水庫和溝渠的識別精度降低了?;赬GBoost算法得到的各類濕地識別精度均有提高,如湖泊濕地的用戶精度提升近20%,雖然河流濕地和溝渠的制圖精度有所下降,但下降幅度很小。
圖6 基于特征優(yōu)選的濕地分類雷達圖
本文利用珠海一號高光譜影像獲取的光譜特征、形狀特征、紋理特征和指數(shù)特征,采用XGBoost算法和面向?qū)ο蠓椒ㄗR別珠江口濱海濕地類型。主要結(jié)論如下:
(1)珠海一號高光譜數(shù)據(jù)以較高的空間分辨率和光譜分辨率的優(yōu)勢,能夠準確識別不同濕地類型,分類精度基本都在80%以上,其中光譜特征在分類結(jié)果中具有較高的重要性。
(2)相比于SVM和RF機器學習算法,XGBoost算法能夠提供更高精度的濕地分類結(jié)果,總體精度為87.2%,Kappa系數(shù)為0.84,且能更為準確地區(qū)分溝渠和細小河流,并對旱地和建筑用地這些非濕地類型更為敏感。
(3)優(yōu)選特征集相比于全部特征集而言,3種算法得到的濕地分類精度均有所提高,最高提升為2.1%,其中XGBoost算法提取的大多濕地類型的識別精度均有明顯提升,這也表明了篩選有效特征對于提高濕地分類效果的重要性。
珠海一號高光譜影像為大范圍的濕地信息提取提供了新的數(shù)據(jù)源,本文結(jié)合先進的機器學習算法驗證了其在濕地類型識別中的應(yīng)用潛力。然而,我國濕地分布廣泛且類型繁多,后續(xù)有必要結(jié)合多源遙感數(shù)據(jù)進一步提升濕地類型的識別能力。