李小勇,黃 鵬,孫 武,范春波,游 林
(1.武漢華夏理工學(xué)院 土木建設(shè)工程學(xué)院,湖北 武漢 430223;2.浙江時(shí)空智子大數(shù)據(jù)有限公司,浙江 寧波 315200;3.寧波市奉化區(qū)橫山水庫管理站,浙江 寧波 315511)
寧波市橫山水庫是寧波、奉化城市供水的主要飲用水源地之一,是地方水資源時(shí)空分配調(diào)控的重要水利工程措施,承擔(dān)供水、防洪、灌溉、發(fā)電、養(yǎng)殖等方面重要任務(wù)[1-2]。水庫位于奉化江支流縣江上,集雨面積 150.8 km2,正常性蓄水水位111.5 m,相應(yīng)庫容7.65×107m3。作為易受作物更替種植和城市擴(kuò)張等人類活動(dòng)干擾的水庫,其水質(zhì)常年在Ⅱ~Ⅲ類之間,但水體富營養(yǎng)化的幾個(gè)重要指標(biāo)逐年升高,尤其是在春季已爆發(fā)過輕微“水華”事件。
自動(dòng)站點(diǎn)監(jiān)測(cè)數(shù)據(jù)來源于寧波市生態(tài)環(huán)境監(jiān)測(cè)中心提供的2020—2022年每日8時(shí)、12時(shí)、16時(shí)3個(gè)時(shí)間點(diǎn)監(jiān)測(cè)水庫水質(zhì)。月度常規(guī)取樣化驗(yàn)數(shù)據(jù)由寧波原水集團(tuán)有限公司提供,于水庫壩前分別進(jìn)行表層、供水層、底層水樣采集,送往實(shí)驗(yàn)室測(cè)定水質(zhì)參數(shù)。自動(dòng)站點(diǎn)與月度常規(guī)取樣都測(cè)定了包含水溫、pH、溶解氧、濁度、電導(dǎo)率、高錳酸鹽指數(shù)、氨氮、總磷、總氮、Chl-a等常規(guī)水質(zhì)參數(shù)。自動(dòng)站點(diǎn)與采樣點(diǎn)位置如圖1所示。
圖1 自動(dòng)站點(diǎn)與采樣點(diǎn)示意圖
通過自動(dòng)站點(diǎn)監(jiān)測(cè)數(shù)據(jù)與月度常規(guī)取樣化驗(yàn)數(shù)據(jù)的相關(guān)性分析發(fā)現(xiàn),站點(diǎn)監(jiān)測(cè)數(shù)據(jù)與表層數(shù)據(jù)的相關(guān)系數(shù)都在0.79以上,鑒于Sentinel-2影像在10時(shí)左右過境拍攝,本文最終選取采用相關(guān)性較高的12時(shí)監(jiān)測(cè)數(shù)據(jù)作為Chl-a濃度實(shí)測(cè)數(shù)據(jù)。
本文于Google Earth Engine(GEE)遙感信息管理與處理云平臺(tái)上,獲取Sentinel-2衛(wèi)星(表1)地表反射率產(chǎn)品L2A級(jí)數(shù)據(jù),其在L1C級(jí)數(shù)據(jù)的基礎(chǔ)上,已經(jīng)進(jìn)行大氣校正等處理。通過JavaScript API在線訪問覆蓋橫山水庫區(qū)域的遙感影像數(shù)據(jù),選取受云霧影響較小,質(zhì)量較好的影像共56景。
表1 Sentinel-2傳感器波段信息
風(fēng)速、降水、流速等環(huán)境因素會(huì)對(duì)自動(dòng)站點(diǎn)監(jiān)測(cè)的Chl-a濃度測(cè)量值有所影響,水面鏡面反射以及大氣影響使得遙感波段值不是真實(shí)的地面反射率值,因此,需剔除異常值,以減少因?yàn)檎军c(diǎn)監(jiān)測(cè)數(shù)據(jù)與遙感影像數(shù)據(jù)不能完全匹配所產(chǎn)生的Chl-a濃度的估算誤差。本文將監(jiān)測(cè)站點(diǎn)Chl-a濃度值與遙感影像波段值繪制散點(diǎn)圖,剔除偏離回歸線的異常值之后的35對(duì)遙感數(shù)據(jù)與監(jiān)測(cè)站點(diǎn)數(shù)據(jù)作為模型反演的訓(xùn)練數(shù)據(jù)。
1.4.1 Chl-a經(jīng)驗(yàn)反演模型
歸一化Chl-a指數(shù)模型(NDCI)是Sentinel-2的水色產(chǎn)品數(shù)據(jù)集的官方算法,相對(duì)于單波段、波段比值、三波段方法,估算精度更高、適用性更強(qiáng)[3]。該Chl-a反演模型使用一個(gè)新的高質(zhì)量合成數(shù)據(jù)集(9836個(gè)樣本),這些數(shù)據(jù)被分成7868個(gè)樣本的訓(xùn)練數(shù)據(jù)集(80%)和1968個(gè)樣本的測(cè)試數(shù)據(jù)集(20%),利用這些數(shù)據(jù)集建立一個(gè)估算Chl-a濃度值y的經(jīng)驗(yàn)?zāi)P?,如公?1)所示。
y=17.441e4.7038NDCI
(1)
1.4.2 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),主要包含輸入層、隱含層、輸出層3個(gè)部分,是廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型之一。其訓(xùn)練過程分為信號(hào)的前向傳播與誤差的反向傳播兩個(gè)階段。通過不斷的信號(hào)前向傳播和誤差反向傳播,各層權(quán)值會(huì)不斷進(jìn)行調(diào)整,直到訓(xùn)練結(jié)束。
1.4.3 隨機(jī)森林
隨機(jī)森林(RF)算法是一種集成模型,其核心思想是采用集成學(xué)習(xí)三大分支中Bagging、Boosting 和 Stacking中最具有代表性的Bagging集成學(xué)習(xí)技術(shù)。隨機(jī)森林在保留決策樹處理多特征數(shù)據(jù)類型特點(diǎn)的同時(shí),由于采取有放回的抽樣,解決了決策樹容易產(chǎn)生的缺陷——過度擬合,另外其預(yù)測(cè)結(jié)果是參考多個(gè)決策樹得到的結(jié)果,降低了異常值帶來的影響。隨機(jī)森林在非線性特征模擬等方面都有很好的表現(xiàn),其所構(gòu)建的Chl-a濃度遙感反演模型也更具有泛化性。
1.4.4 精度評(píng)價(jià)體系
各反演模型的精度通過3個(gè)指標(biāo)進(jìn)行評(píng)估,即均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和決定系數(shù)(R2),如公式(2)~公式(4)所示。
(2)
(3)
(4)
隨著葉綠素含量增加,水體反射光譜在藍(lán)光和紅光波段構(gòu)成較強(qiáng)的吸收谷,在綠光波段出現(xiàn)反射率峰值,含量越高,峰值越高。通常影響因子與水質(zhì)參數(shù)之間的關(guān)系不能利用單波段很好反應(yīng),采用 SPSS計(jì)算不同的波段組合與Chl-a濃度的皮爾遜相關(guān)系數(shù),獲取相關(guān)性強(qiáng)、干擾小的敏感波段。本文利用35個(gè)自動(dòng)監(jiān)測(cè)站點(diǎn)實(shí)測(cè)的Chl-a濃度數(shù)據(jù)與遙感影像反射率數(shù)據(jù),分別在單波段、單波段比值、雙波段比值、三波段、四波段以及NDCI中選擇相關(guān)系數(shù)最大的作為變量因子,各波段與Chl-a濃度值的相關(guān)性如表2所示。最終選取B8、B5/B4、(B5-B4)/(B5+B4)作為機(jī)器學(xué)習(xí)模型構(gòu)建的輸入層。
表2 各波組合與Chl-a濃度的相關(guān)系數(shù)
本文將樣本數(shù)據(jù)劃分為訓(xùn)練集以及測(cè)試集,并按照8∶2的比例隨機(jī)進(jìn)行劃分,其中訓(xùn)練集28個(gè),測(cè)試集7個(gè)。然后基于Scikit-learn機(jī)器學(xué)習(xí)庫,根據(jù)上述篩選的重要特征變量,作為機(jī)器學(xué)習(xí)的輸入因子,與之相對(duì)應(yīng)的自動(dòng)站點(diǎn)監(jiān)測(cè)Chl-a濃度作為輸出數(shù)據(jù),分別構(gòu)建BP神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林模型。
本文分別選擇不同的決策樹大小、決策樹的深度對(duì)隨機(jī)森林進(jìn)行反復(fù)訓(xùn)練,經(jīng)調(diào)試,模型參數(shù)確定為n_estimators=20,max_depth=5時(shí),訓(xùn)練集RMSE為2.094、MAE為1.631、R2為0.876,此時(shí)的模型訓(xùn)練效果最佳。BP神經(jīng)網(wǎng)絡(luò)采用relu作為激活函數(shù),學(xué)習(xí)速率為0.01,通過多次實(shí)驗(yàn)確定隱含層節(jié)點(diǎn)數(shù)為10時(shí),模型精度最高,訓(xùn)練集RMSE為2.766、MAE為2.298、R2為0.785。利用經(jīng)驗(yàn)?zāi)P椭苯訉?duì)訓(xùn)練集進(jìn)行預(yù)測(cè),RMSE為 2.7063、MAE為 2.6197、R2為0.7544。三種模型的擬合曲線如圖2(a)~圖2(c)所示。
圖2 Chl-a遙感反演曲線擬合
為評(píng)價(jià)模型的普適性,將三種模型對(duì)劃分好的測(cè)試集分別反演Chl-a濃度,對(duì)反演結(jié)果進(jìn)行模型驗(yàn)證以及精度評(píng)價(jià)。從表3可以看出,隨機(jī)森林模型在測(cè)試集上,均方根誤差和平均絕對(duì)誤差都較低,決定系數(shù)R2大于另外兩種,精度更高。圖2(d)~圖2(f)為各模型在測(cè)試集上預(yù)測(cè)值與真實(shí)值的擬合曲線,經(jīng)驗(yàn)?zāi)P偷念A(yù)測(cè)值曲線雖然與真實(shí)值的曲線大致保持一致,但整體比真實(shí)值低得多;BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)值曲線同樣與真實(shí)值的曲線大致保持一致,但結(jié)果整體偏高,還出現(xiàn)高出真實(shí)值許多的異常情況;而隨機(jī)森林模型除了測(cè)試集的預(yù)測(cè)值曲線與真實(shí)值的曲線大致保持一致之外,其在訓(xùn)練集上預(yù)測(cè)值曲線也大致保持一致,能夠較好地分布在真實(shí)值附近。因此后續(xù)基于Sentinel-2影像反演橫山水庫Chl-a濃度將采用隨機(jī)森林模型。
表3 不同模型預(yù)測(cè)Chl-a濃度的精度情況
為只對(duì)橫山水庫庫面進(jìn)行Chl-a濃度反演,計(jì)算Sentinel-2的歸一化差分水體指數(shù)(NDWI),通過大津閾值法獲取水庫與陸地的分割閾值,掩膜出橫山水庫庫面水域。計(jì)算庫面區(qū)域內(nèi)的B8、B5/B4、(B5-B4)/(B5+B4)等波段組合值,并作為隨機(jī)森林模型的輸入因子,對(duì)橫山水庫2020年4月20日及2022年10月22日兩期遙感影像進(jìn)行Chl-a濃度反演。如圖3所示,其中標(biāo)注的點(diǎn)位為相同日期自動(dòng)站點(diǎn)監(jiān)測(cè)的Chl-a濃度。2022年10月22日Chl-a濃度預(yù)測(cè)值為13.8936 μg/L,真實(shí)值為12.771 μg/L;2020年4月20日Chl-a濃度預(yù)測(cè)值為24.3188 μg/L,真實(shí)值為26.587 μg/L。由反演結(jié)果可以看出,2020年4月20日的Chl-a濃度整體普遍高于2022年10月22日,與橫山水庫易在春季發(fā)生水華時(shí)間點(diǎn)匹配,且該水庫在2020年春季發(fā)生過輕微水華事件,說明隨機(jī)森林反演模型對(duì)于橫山水庫的水質(zhì)監(jiān)測(cè)能夠提供一定參考。
圖3 橫山水庫Chl-a濃度空間分布
(1)對(duì)比Sentinel-2不同波段組合與Chl-a濃度的相關(guān)性發(fā)現(xiàn),B8、B5/B4、(B5-B4)/(B5+B4)相關(guān)系數(shù)最大。
(2)使用相同數(shù)據(jù)集構(gòu)建3 種不同的Chl-a濃度反演模型,對(duì)比發(fā)現(xiàn)隨機(jī)森林模型的MAE、MSE和R2均最小,比經(jīng)驗(yàn)?zāi)P秃虰P神經(jīng)網(wǎng)絡(luò)構(gòu)建的反演模型精度更高。因此,利用本文構(gòu)建的隨機(jī)森林模型更適用于Sentinel-2數(shù)據(jù)在橫山水庫的Chl-a濃度反演。
(3)通過Sentinel-2影像監(jiān)測(cè)發(fā)現(xiàn),橫山水庫2020年4月20日Chl-a濃度比2022年10月22日整體較高,與橫山水庫易在春季發(fā)生水華時(shí)間點(diǎn)匹配,為水庫的水華和富營養(yǎng)化監(jiān)測(cè)提供了參考。