劉曙光,董 行,婁 廈,DORZHIEVNA Radnaeva Larisa,NIKITINA Elena
(1. 同濟大學(xué)土木工程學(xué)院,上海200092;2. 同濟大學(xué)長江水環(huán)境教育部重點實驗室,上海200092;3. 俄羅斯科學(xué)院西伯利亞分院貝加爾湖自然管理研究所,烏蘭烏德670047,俄羅斯聯(lián)邦布里亞特共和國)
濕地是地球生態(tài)系統(tǒng)的重要組成部分,在凈化環(huán)境、保護生物多樣性、蓄滯洪水以及調(diào)節(jié)氣候等方面發(fā)揮著不可替代的作用[1]。植物群落分布是濕地植物的主要特征之一,在維護濕地生態(tài)穩(wěn)定、保護濕地環(huán)境等方面均具有重要的意義。20世紀(jì)90年代,大部分學(xué)者采用實地調(diào)查的方法分析濕地植物群落特征的分布規(guī)律,如張利權(quán)等[2]通過實地調(diào)查,分析了上海市南匯海堤外海三棱藨草的分布格局。但實地調(diào)查往往受時間、天氣、地形限制,且需要耗費大量的時間和財力。
與實地調(diào)查相比,遙感技術(shù)具有經(jīng)濟、便捷等優(yōu)勢。在利用遙感數(shù)據(jù)進行植物及地物分類的研究中,監(jiān)督分類方法是較為常用的方法,其中最大似然法、支持向量機、決策樹算法以及基于決策樹的隨機森林算法均屬于應(yīng)用較為廣泛的監(jiān)督分類方法。孫楠[3]利用Landsat?8影像對比了最大似然法、支持向量機、CART(classification and regression tree)等方法對長江口濕地的分類結(jié)果,發(fā)現(xiàn)CART 算法精度最優(yōu)。但CART算法存在過度擬合和非全局的局部最優(yōu)解等問題[4]。基于上述問題,Breiman[5]提出一種基于CART 算法的機器學(xué)習(xí)算法,即隨機森林算法,該算法通過集成學(xué)習(xí)有效解決了上述問題。Amani 等[6]利用多源多時相遙感影像對加拿大5 個試點的濕地進行分類,并對比了最大似然法、支持向量機、CART算法和隨機森林算法的分類結(jié)果,指出隨機森林算法的性能最好。
已有研究表明,隨機森林算法與其他方法相比,在濕地植物分類中具有相對較高的精度。然而由于地物光譜反射率相近或地物反射能量衰減導(dǎo)致光譜差異減弱,濕地植物存在“異物同譜”的問題[7]。因此,本研究選取多時相遙感影像及特征變量,并根據(jù)當(dāng)?shù)貪竦刂参镂锖蛱匦赃M行特征優(yōu)化,用以提高“異物同譜”像元的識別精度,分析濱海濕地植物群落空間分布特征。最后,通過多元線性回歸模型反演外來入侵植物互花米草的植物密度,實現(xiàn)對互花米草的精確檢測、識別與密度反演。
長江三角洲位于30°45′30″—32°11′56″N,121°04′20″—122°28′40″E,北至江蘇省啟東市,南至杭州灣北部。長江口濱海濕地面積最大的3處濕地為崇明東灘濕地、九段沙濕地以及南匯促淤區(qū)濕地,如圖1所示。
Landsat?8 OLI 影像從美國地質(zhì)調(diào)查局官網(wǎng)獲取,重訪周期16 d,影像包含9個波段(海岸、藍、綠、紅、近紅外、短波紅外1、短波紅外2、全色、卷云),空間分辨率30 m,其中全色波段空間分辨率15 m。本文選用2018年12月,2019年1月、4月、5月、7月共5景低云量退潮期影像,利用ENVI 5.3平臺進行輻射定標(biāo)和大氣校正。遙感影像的處理及實地測量數(shù)據(jù)的收集均在WGS?84坐標(biāo)系下進行。
樣本的選取與分類精度直接相關(guān)。由于Landsat?8 OLI 影像中生長期的蘆葦與互花米草像元各波段反射率相近,本文通過實地調(diào)查結(jié)果結(jié)合當(dāng)?shù)貪竦刂参镂锖蛱匦越⑴凶x標(biāo)志,通過目視解譯Google Earth 高空間分辨率影像進行訓(xùn)練樣本和驗證樣本的選取。
濕地植物信息實地調(diào)查于2019年5月—10月在上海市南匯促淤工程附近開展。沿岸選取18 個測點進行測量,測點位置見圖1a 和表1。采用樣方法測量,選取100 cm×100 cm樣方計量植株數(shù)量,并用手持GPS 記錄樣方坐標(biāo)。將研究區(qū)域分為蘆葦、互花米草、海三棱藨草、光灘和水體5 種地物類型,生成訓(xùn)練樣本時,選擇具有代表性的純凈像元或?qū)嵉乜疾旖Y(jié)果所對應(yīng)像元。生成驗證樣本時,利用ArcMap 生成隨機點522 個,根據(jù)Google Earth 高空間分辨率影像(按照Google Earth 使用條款僅用其影像辨識邊界信息)、RGB 假彩色組合和植物物候特性的夏、冬季影像對比判定樣本點地物類型。根據(jù)前人研究[8],紅波段(B4)、近紅外波段(B5)、短波紅外1(B6)3個波段RGB假彩色組合能夠體現(xiàn)的植物類型較豐富,可用于植物分類研究,本文獲取了研究區(qū)域夏季冬季假彩色影像,可以較為清晰地辨識出冬季還未枯萎的互花米草植株范圍。每種類型驗證樣本點均在60~150個之間。
隨機森林算法通過Bagging 算法將多個CART決策樹集成,根據(jù)所有決策樹投票獲得最終結(jié)果。基于隨機森林模型的分類流程見圖2。該過程中設(shè)定決策樹數(shù)量(N)和生成決策樹節(jié)點分裂時輸入特征變量數(shù)量(m)兩個參數(shù)。研究表明[9],決策樹參數(shù)設(shè)置對分類精度影響不敏感,故本文選取參數(shù)默認值構(gòu)建分類模型。
圖1 研究區(qū)域Fig.1 Study regions
光譜特征及植被指數(shù)等指數(shù)是區(qū)分不同地物的最主要特征,本文利用ENVI 5.3 中大氣校正、波段計算及圖層疊加工具,提取了遙感影像7 個波段反射率及7 種指數(shù)作為特征變量。波段反射率分別為:海岸波段(B1)、藍波段(B2)、綠波段(B3)、紅波段(B4)、近紅外波段(B5)、短波紅外1(B6)、短波紅外2(B7)。指數(shù)特征包括:歸一化差異植被指數(shù)(NDVI)[10]、比值植被指數(shù)(RVI)[10]、差值植被指數(shù)(DVI)[10]、改 進 的 歸 一 化 差 異 水 體 指 數(shù)(MNDWI)[11]以及纓帽變換中的3 個分量(亮度BI、綠度GVI、濕度WI)[12]。
長江口濕地優(yōu)勢植物為蘆葦、海三棱藨草以及互花米草3 種,其中蘆葦與互花米草的光譜特性相近,“同譜異物”現(xiàn)象明顯,影響了兩種植物的分類精度。蘆葦與互花米草均在4月的返青期出現(xiàn)新舊植株交雜。7 月蘆葦種群生物量等各項生物指標(biāo)達到峰值,而互花米草群落于9 月達到最高峰。兩種植物的各項生物指標(biāo)均在冬季降至最低,蘆葦群落地上部分于11月全部枯萎,而互花米草在冬季冠層仍呈現(xiàn)黃綠色[13]。通過實地測量記錄坐標(biāo)及部分目視解譯,選取研究區(qū)域各類地物純凈像元,計算各地物的像元光譜反射率均值,獲得兩者光譜曲線,如圖3所示。通過對比夏、冬季兩景遙感影像的假彩色組合(圖1b、1c、1e、1f、1g、1h),冬季互花米草在假彩色組合影像中呈綠色,蘆葦與海三棱藨草已枯萎,與裸地顏色相近,體現(xiàn)出兩者的物候特性差異性,有助于目視解譯植被的種類。
表1 測點位置及互花米草平均密度Tab.1 Locations of observation sites and average density of spartina alterniflora
圖2 基于隨機森林模型的分類流程圖Fig.2 Classification process based on random forest model
圖3 長江口濕地植被光譜曲線Fig.3 Spectral curves of wetland vegetation in Yangtze River estuary
基于植物的物候特性差異性,本文對隨機森林模型中的特征變量進行了優(yōu)化。將夏季(7 月)影像的植被指數(shù)與冬季(12月)影像的植被指數(shù)的差值定義為植被指數(shù)季節(jié)差值(VSDI),將其作為為特征變量之一,以提高分類精度。相關(guān)計算公式如下:
式中:VSDI(1)為歸一化植被指數(shù)季節(jié)差值,表示夏季歸一化植被指數(shù)與冬季歸一化植被指數(shù)差值;VSDI(2)為比值植被指數(shù)季節(jié)差值,表示夏季比值植被指數(shù)與冬季比值植被指數(shù)差值;VSDI(3)為差值植被指數(shù)季節(jié)差值,表示夏季差值植被指數(shù)與冬季差值植被指數(shù)差值;VNDVI(s)、VNDVI(w)分別為夏季、冬季歸一化植被指數(shù);VRVI(s)、VRVI(w)分別為夏季、冬季比值植被指數(shù);VDVI(s)、VDVI(w)分別為夏季、冬季差值植被指數(shù)。
本文采用隨機森林算法和極大似然算法、單時相和多時相特征集合以及基于物候特性差異性優(yōu)化的特征變量對長江口濱海濕地植物進行了分類,并采用混淆矩陣(confusion matrix)的方法,通過計算制圖精度、用戶精度、總體精度以及Kappa系數(shù)對分類精度進行評價[14]。植物密度是反映植物特征的重要參數(shù)之一,能夠反映濕地生態(tài)環(huán)境的變化。目前對于植物密度的研究主要以實地測量為主,難以獲取大范圍植物密度數(shù)據(jù)。凌成星[15]采用遙感影像提取的光譜特征及植被指數(shù)特征18個自變量,通過相關(guān)性分析及逐步回歸得到以B5、DVI、RVI、NDVI為自變量的最優(yōu)多元線性回歸模型[16]。該方法為濕地植物密度空間特征分析提供了新的思路。因此,本文在植物分類的基礎(chǔ)上,以B5、DVI、RVI、NDVI為自變量結(jié)合實測數(shù)據(jù),構(gòu)建長江口濱海濕地植物密度反演模型,分析長江口濕地植物密度空間分布的特征。模型回歸系數(shù)的顯著性通過決定系數(shù)R2和構(gòu)造檢驗統(tǒng)計量F檢驗評價[16]。
本文通過對比選用不同分類算法、特征集合以及特征優(yōu)化后的分類結(jié)果精度,分析了不同分類算法對所選取的特征集合的適用性及其產(chǎn)生精度差異的原因,并討論了選用同種算法的情況下不同特征集合對分類結(jié)果精度的影響。通過提取Landsa?8 OLI 遙感影像的光譜特征(每景影像提取7 個光譜特征:B1~B7)、指數(shù)特征(每景影像提取7個指數(shù)特征:NDVI、DVI、RVI、MNDWI、BI、GVI、WI)以及本文提出的優(yōu)化特征變量(VSDI(1)、VSDI(2)、VSDI(3)),構(gòu)建3組特征集合。特征集合A為單時相光譜特征及單時相指數(shù),即2019 年7 月遙感影像提取的7 個光譜特征和7個指數(shù)特征;特征集合B為多時相光譜特征及多時相指數(shù),即2018 年12 月,2019 年1 月、4月、5 月、7 月5 景遙感影像提取的共35 個光譜特征和35個指數(shù);特征集合C為多時相光譜特征、多時相指數(shù)特征及優(yōu)化特征變量(即2018 年12 月,2019 年1月、4月、5月、7月5景遙感影像提取的共35個光譜特征和35 個指數(shù)特征以及3 個植被指數(shù)季節(jié)差值VSDI(1)、VSDI(2)、VSDI(3))。采用隨機森林算法和最大似然法分別對長江口濕地植被進行分類,共設(shè)計5種實驗方案進行對比研究(表2)。
表2 不同分類方案分類精度比較Tab.2 Comparison of classification accuracies in different cases
隨機森林算法分類及最大似然法分類結(jié)果如圖4 所示。其中圖4a~4d 為崇明東灘濕地,圖4e~4h為九段沙濕地,圖4i~4l 為南匯促淤區(qū);圖4a、4e、4i為方案1分類結(jié)果,圖4b、4f、4j為方案3結(jié)果,圖4c、4g、4k 為方案2 結(jié)果,圖4d、4h、4l 為方案4 結(jié)果。由圖4 可以看出,長江口濱海濕地植物呈明顯的條帶狀或弧形空間分布格局,由低潮帶至高潮帶依次分布海三棱藨草、互花米草、蘆葦群落。植物群落面積大小依次為互花米草、海三棱藨草、蘆葦。其中,互花米草在九段沙下沙及南匯促淤工程區(qū)分布面積占比較大,主要分布在中高潮灘,海三棱藨草在南匯促淤區(qū)的分布面積較大,主要分布在中潮灘,蘆葦主要分布于崇明東灘、九段沙中沙及下沙的高潮帶。
圖4 不同分類方案分類結(jié)果Fig.4 Classification results of different cases
對比選用特征集合A條件下的隨機森林算法和最大似然法分類結(jié)果(圖4a、4b、4e、4f、4i、4j)發(fā)現(xiàn),最大似然法分類結(jié)果中崇明東灘高潮帶(M、N 區(qū)域)有斑點狀互花米草分布,九段沙下沙中潮帶至高潮帶間(Q 區(qū)域)有大面積海三棱藨草分布,均為互花米草與海三棱藨草之間相互誤分的像元。對比選用特征集合B 時2 種方法分類結(jié)果(圖4c、4d、4g、4h、4k、4l)發(fā)現(xiàn),最大似然法分類結(jié)果中崇明東灘低潮帶、九段沙低潮帶(R區(qū)域)有大面積海三棱藨草,均為裸地被誤分為海三棱藨草的像元。對比采用隨機森林算法選用不同特征集合的分類結(jié)果(圖4a、4c、4e、4g、4i、4k)發(fā)現(xiàn),選用特征集合A時九段沙中、高潮帶(P、Q 區(qū)域)有大面積海三棱藨草分布,均為互花米草被誤分為海三棱藨草的像元。對比采用最大似然法選用不同特征集合時的分類結(jié)果(圖4b、4d、4f、4h、4j、4l)發(fā)現(xiàn),選用特征集合A 時Q 區(qū)域有大量互花米草被誤分為海三棱藨草的像元,選用特征集合B時R區(qū)域有大量光灘被誤分為海三棱藨草的像元。基于以上分類結(jié)果,與實際目視情況(圖1)相比,選用隨機森林算法和特征集合B的誤分、漏分最少。
由表2可知,在對特征集合A(低維特征集合)的處理上,隨機森林算法和最大似然法的總體精度和Kappa系數(shù)相近。當(dāng)選用特征集合B時,特征集合維數(shù)變高,使用隨機森林算法總體精度及Kappa 系數(shù)隨之增加,而使用最大似然法的分類精度降低。產(chǎn)生這種現(xiàn)象的原因可能是,最大似然法將地物各特征變量的分布假定為正態(tài)分布,而由于各類地物的光譜特性及植被指數(shù)等特征變量的分布具有高度的復(fù)雜性與隨機性,很難獲取完備的訓(xùn)練樣本,選取的訓(xùn)練樣本數(shù)據(jù)的統(tǒng)計信息與正態(tài)分布偏離,在特征集合維數(shù)較低時,誤差并不明顯,隨著特征集合維數(shù)提高,無法準(zhǔn)確獲取各類別概率密度函數(shù),所構(gòu)造的多元正態(tài)分布模型誤差增大,導(dǎo)致分類精度降低。而構(gòu)建隨機森林模型的CART 決策樹,其建立決策樹過程中選取特征變量采用最小基尼系數(shù)的原則,即樣本集合中隨機抽取2個樣本屬同類別的概率最大,并且在以一定數(shù)量的CART 決策樹構(gòu)建隨機森林模型的過程中,采用Bagging 原理進行集成,大大提高了模型的泛化能力,使得隨機森林模型具有較高的穩(wěn)定性和處理高維數(shù)據(jù)集的能力,因而特征集合維數(shù)變高,分類精度也隨之提高。說明隨機森林算法在處理高維數(shù)據(jù)集方面優(yōu)勢顯著。
采用隨機森林算法進行分類時,選取的特征集合對結(jié)果具有一定的影響。選用特征集合A 的情況下,3 種植被的制圖精度及用戶精度較選用特征集合B 的情況明顯偏低。選用特征集合B 的總體精度比選用特征集合A 的提高5.2%,Kappa 系數(shù)提高0.7,說明選取多時相特征變量能有效提高分類精度。
選用特征集合C的隨機森林算法分類結(jié)果如圖5a~5c所示。相比同樣選用特征集合B的隨機森林算法法分類結(jié)果,M 區(qū)域中部分誤分為互花米草的蘆葦像元被正確分類,R 區(qū)域中部分被誤分為互花米草的像元被正確分為海三棱藨草。受崇明東灘沖淤變化影響,崇明東灘互花米草相較海三棱藨草處于潮灘的前沿。由于長江口水動力條件及含沙量改變,崇明東灘北部淤漲、南部侵蝕,導(dǎo)致東灘北部高程增加[17],更適宜互花米草的生長。同時,崇明東灘濕地土壤鹽度北部高于南部,也導(dǎo)致了耐鹽性更強的互花米草在北部生長[17]。
圖5 方案5分類結(jié)果Fig.5 Classification results in Case 5
加入植被季節(jié)指數(shù)差值作為特征變量前后分類結(jié)果(圖4c、4g、4k、圖5a、5b、5c)及混淆矩陣如表2所示,可以看出,總體分類精度提高了1.73%,說明植被指數(shù)季節(jié)差值的計入,有利于分類精度的提高。除去水體與光灘,蘆葦、互花米草與海三棱藨草的制圖精度較高,均在80%以上。蘆葦?shù)挠脩艟容^低,不足80%?;セ撞菖c海三棱藨草的用戶精度較高,均在85%以上。植被指數(shù)季節(jié)差值加入特征集合進行特征變量優(yōu)化后,互花米草、海三棱藨草的制圖精度均有不同程度提高,說明該2 類漏分的像元變少。蘆葦、互花米草和海三棱藨草的用戶精度均有提高,說明3類植物的誤分像元變少。3種地物的制圖精度及用戶精度提高表明,植被指數(shù)季節(jié)差值加入有利于區(qū)分光譜特性相似但物候性有差異的地物。蘆葦?shù)闹茍D精度與用戶精度較低,主要原因可能是互花米草在長江口濱海濕地的競爭性大于蘆葦,蘆葦生長呈斑塊狀且面積較小,因此單個像元中可能存在混合生長的2種植被。
基于以上分析,最終選取總體精度最高的分類方法和特征集合(即隨機森林算法和特征集合C),以其分類結(jié)果利用ENVI5.3 進行后處理以減少圖中的椒鹽現(xiàn)象,最終得出長江口濱海濕地植物分類情況,如圖6a~6c所示。
圖6 長江口濱海濕地植物分布圖Fig.6 Distributions of vegetation species in coastal wetlands of Yangtze River estuary
利用2019年7月—9月實地調(diào)查獲得的18個測站的互花米草密度以及遙感影像(2019年7月29日)提取的對應(yīng)坐標(biāo)點像元近紅外波段反射率(VB5)、歸一化植被指數(shù)(VNDVI)、差值植被指數(shù)(VDVI)、比值植被指數(shù)(VRVI)數(shù)據(jù),進行多元線性回歸參數(shù)計算及回歸結(jié)果分析,獲得互花米草密度反演結(jié)果如下式所示:
根據(jù)上述多元線性回歸反演模型,去除部分異常值,獲得長江口濱海濕地互花米草密度的空間分布圖,如圖7所示。
計算結(jié)果表明,長江口濕地互花米草的密度值多數(shù)在100~300 株·m-2之間,且沿低潮帶至高潮帶呈增長趨勢。模型決定系數(shù)R2為0.792 8,經(jīng)F檢驗,自變量與因變量之間線性關(guān)系顯著。該方法也可用于其他類似區(qū)域的植物特征反演分析。
圖7 長江口濱海濕地互花米草密度空間分布圖Fig.7 Distributions of Spartina alterniflora density in coastal wetlands of Yangtze River estuary
本文采用Landsat?8 影像以及實地調(diào)查數(shù)據(jù),利用隨機森林算法,對長江口濱海濕地植被群落進行分類。在提取多時相光譜特征、植被指數(shù)和水體指數(shù)的基礎(chǔ)上,基于植物物候特性進行了特征變量優(yōu)化,獲得了長江口蘆葦、互花米草和海三棱藨草3種優(yōu)勢物種的空間分布。同時,以外來入侵物種互米花草為例,根據(jù)多元線性回歸模型,以遙感影像提取的光譜特征及植被指數(shù)為因變量對濱海濕地植物密度進行反演,獲得了長江口互米花草密度的空間分布特征。本文提出的分析方法和獲得的分析結(jié)果,可用于長江口濕地生態(tài)環(huán)境的管理與保護,也可應(yīng)用于其他類似地區(qū)的濕地環(huán)境研究。本文主要結(jié)論如下:
(1)為了更加精確識別長江口濱海濕地植物群落分布特征,提出了基于優(yōu)化特征變量集合的隨機森林模型,實現(xiàn)了長江口濱海濕地優(yōu)勢植被的精確分類,總體精度達到87.55%。基于植物分類算法比選,隨機森林算法較傳統(tǒng)最大似然法在處理高維特征集合時總體精度提高10%以上。本文通過隨機森林模型的特征集合優(yōu)化,構(gòu)造了73 個特征變量(35個光譜特征變量、35個指數(shù)特征變量及3個優(yōu)化特征變量),與單時相特征集合分類結(jié)果相比,總體精度提高近7%。
(2)通過植物密度反演方法,獲得互花米草的密度為100~300 株·m-2,所建立的多元線性回歸模型,決定系數(shù)與F值驗證顯示其線性關(guān)系顯著,反演公式能較為精確地計算互花米草密度值。該研究成果可以為長江口入侵物種互花米草生態(tài)治理提供基礎(chǔ)資料,該方法也可應(yīng)用于類似地區(qū)濕地植物密度反演。
(3)受水動力條件間接影響,長江口濱海濕地植物分布呈明顯條帶狀或弧形分布格局,沿低潮帶至高潮帶方向依次分布海三棱藨草、互花米草、蘆葦。通過像元統(tǒng)計,研究區(qū)域中3 種濕地優(yōu)勢植物總面積約為266.6 km2。 互花米草面積最大,為145.4 km2,占濕地植物總面積54.5%,蘆葦與海三棱藨草面積分別為46.7 km2、74.5 km2,占比分別為17.5%和27.9%。崇明東灘前緣出現(xiàn)弧形互花米草群落,該區(qū)域受水動力條件影響,高程與鹽度增加,更適宜耐鹽性強的互花米草生長。
本研究基于長江口濱海濕地植物物候特性提出了植被指數(shù)季節(jié)差值,探討了其對分類精度的影響,但存在一些不足:所采用的分類方法是基于像元的分類方法,存在部分“椒鹽現(xiàn)象”,后續(xù)研究可結(jié)合面向?qū)ο蠓诸惙椒?,在一定程度上提高分類精度?/p>
作者貢獻說明:
劉曙光:指導(dǎo)研究方案和論文撰寫,全文審閱。
董 行:數(shù)據(jù)收集與處理,設(shè)計論文框架,撰寫論文。
婁 廈:提出研究思路,審閱及修訂論文。
DORZHIEVNA Radnaeva Larisa:提供研究思路與技術(shù)指導(dǎo)。
NIKITINA Elena:提供研究思路與技術(shù)指導(dǎo)。