王 喆,連 炎 清,李 曉 娜,王 璇,方 焱,徐 新 涵
(1.西安地球環(huán)境創(chuàng)新研究院,陜西 西安 710061; 2.中國科學(xué)院 地球環(huán)境研究所,陜西 西安 710061)
傳統(tǒng)的水質(zhì)取樣和監(jiān)測方法過程復(fù)雜、周期長、耗費大量的時間精力,且數(shù)據(jù)的頻次、時效和代表性遠遠滯后于環(huán)境管理與決策需求,特別是一些突發(fā)性、大范圍的環(huán)境質(zhì)量變化不能被及時捕捉。而遙感技術(shù)具有大范圍、低成本、周期性動態(tài)監(jiān)測的優(yōu)勢,為水質(zhì)監(jiān)測和研究開辟了新的途徑,它克服了常規(guī)方法主觀性強、監(jiān)測范圍小、長期趨勢分析困難的缺點,并可發(fā)現(xiàn)一些常規(guī)方法難以揭示的污染源和污染物的遷移特征,因此在內(nèi)陸水質(zhì)監(jiān)測中發(fā)揮著越來越大的作用。
自20世紀(jì)70年代以來,遙感開始應(yīng)用到水質(zhì)監(jiān)測研究中[1-2],幾十年來,國內(nèi)外已經(jīng)開展多種利用遙感數(shù)據(jù)建立水質(zhì)參數(shù)反演模型以監(jiān)測海洋、近岸地帶以及內(nèi)陸水體水質(zhì)環(huán)境變化的研究,并在估算光學(xué)活性參數(shù)方面取得了一定成果,如葉綠素a(Chl-a)、有色溶解有機物(CDOM)、濁度和透明度等[3-4]。而像TP、TN等非光學(xué)活性參數(shù)通常通過與光學(xué)活性參數(shù)建立關(guān)系進行估計。Li等[5]利用新安江水庫2013~2016年的實測水面TN、TP數(shù)據(jù)與準(zhǔn)同步的Landsat8的OLI衛(wèi)星影像,構(gòu)建并驗證了2個經(jīng)驗反演模型,估算了新安江水庫的TN和TP與不同波段組合的相關(guān)關(guān)系,效果比較理想。黃宇等[6]利用無人機高光譜成像儀,反演了星云湖與茅洲河的水質(zhì)參數(shù)濃度,構(gòu)建的水質(zhì)反演模型精度較高。
近年來,隨著人工智能技術(shù)的發(fā)展,越來越多的研究把機器學(xué)習(xí)理論融入到水質(zhì)遙感監(jiān)測中。機器學(xué)習(xí)是指通過某些算法指導(dǎo)計算機利用已知數(shù)據(jù)來訓(xùn)練模型,并利用訓(xùn)練后的模型對新數(shù)據(jù)進行分析或者預(yù)測的過程,具有自適應(yīng)、自學(xué)習(xí)、高效率和容錯性等優(yōu)點,且能夠挖掘出數(shù)據(jù)隱藏的潛在關(guān)系和規(guī)律,在水質(zhì)估測方面具有一定的優(yōu)勢[7]。Guo等[8]采用多種機器學(xué)習(xí)算法對小型水體的總氮、總磷濃度進行反演,比較了不同算法的反演結(jié)果,對于城市排放污水具有一定的識別作用。Pahlevan等[9]采用混合密度網(wǎng)絡(luò)(MDN)機器學(xué)習(xí)模型,應(yīng)用于內(nèi)陸和沿海水域的Chl-a濃度的反演,有效提高了訓(xùn)練數(shù)據(jù)的全局代表性。Hartling等[10]應(yīng)用密集卷積網(wǎng)絡(luò)(DenseNet)算法,融合多源數(shù)據(jù)集遙感圖像識別城市環(huán)境中的優(yōu)勢樹種,該方法有效提高了城市優(yōu)勢樹種的分類準(zhǔn)確率。李怡靜等[11]基于梯度提升決策樹算法構(gòu)建了水質(zhì)反演模型,該方法反演各類水質(zhì)的精度較高且速度較快,具有實用價值。李玉翠等[12]在武漢市東湖采用多種經(jīng)典機器學(xué)習(xí)算法建立了水質(zhì)參數(shù)與影像反射率間的定量反演模型,并對東湖富營養(yǎng)化程度進行了評價。
浐灞河下游河段位于西安市浐灞生態(tài)區(qū),該區(qū)是首個西北地區(qū)國家級水生態(tài)系統(tǒng)保護與修復(fù)示范區(qū)。該地區(qū)水源較為豐富,但受到周邊市區(qū)早期工業(yè)化與城市化開發(fā)的影響,水質(zhì)較差,并且受早期挖沙采石影響河道破碎化嚴重。近些年經(jīng)過治理,水環(huán)境狀況有了很大改善,但仍需要長期關(guān)注且實時監(jiān)測,具有典型性。以該區(qū)域的浐灞河河段為研究區(qū),選取水體中TN、CODMn兩個水質(zhì)參數(shù),采用人工神經(jīng)網(wǎng)絡(luò)和隨機森林兩種機器學(xué)習(xí)方法,構(gòu)建水質(zhì)遙感反演模型,探究水質(zhì)參數(shù)的時空演化規(guī)律。研究成果可為遙感技術(shù)監(jiān)測水質(zhì)提供借鑒,對于水環(huán)境質(zhì)量提升具有重要的意義。
本研究以進入西安市城區(qū)的浐河灞河下游河段作為研究區(qū)域,包括浐河河段(桃花潭公園)和灞河河段(灞橋濕地生態(tài)公園)及匯合后至入渭口的河段,如圖1所示。該區(qū)域年均降水量小于700 mm,且年內(nèi)分布不均,7~10月降水量占全年的60%以上。研究區(qū)域所在的浐灞生態(tài)區(qū)是陜西省經(jīng)濟發(fā)展的重要依托,該區(qū)承接了上游的農(nóng)業(yè)面源污染,且河段兩岸經(jīng)濟和工業(yè)發(fā)達,分布有多個雨水排放口,導(dǎo)致河流水體出現(xiàn)一系列水環(huán)境問題,氮素(N)濃度超標(biāo)、水質(zhì)惡化等。
收集與水質(zhì)參數(shù)采集時間一致的Sentinel-2衛(wèi)星遙感數(shù)據(jù)用于提取水體和水質(zhì)遙感反演的輸入數(shù)據(jù),水質(zhì)樣點實測數(shù)據(jù)用于驗證模型精度,以下介紹各數(shù)據(jù)獲取及處理過程。
1.2.1Sentinel-2數(shù)據(jù)及預(yù)處理
Sentinel-2A衛(wèi)星于2015年6月23日發(fā)射,搭載的有效荷載為多光譜成像(multispectral instrument,MSI)。MSI傳感器有13個波段,分為可見光、近紅外和短波紅外3部分,中心波長范圍為490~2 190 nm。Sentinel-2A衛(wèi)星的優(yōu)勢在于更短的訪問周期和高分辨率,能夠更精確地刻畫河道水體。本研究在構(gòu)建人工神經(jīng)網(wǎng)絡(luò)反演模型時,需要衛(wèi)星影像數(shù)據(jù)和水質(zhì)采樣點時間相近,兩次采樣時間分別為2019年12月與2020年7月,獲取研究區(qū)相應(yīng)時間段的Sentinel-2A衛(wèi)星數(shù)據(jù)中的L1C影像數(shù)據(jù)。Sentinel-2A衛(wèi)星傳感器的光譜相關(guān)參數(shù)如表1所列。
表1 Sentinel-2衛(wèi)星相關(guān)參數(shù)Tab.1 Parameters of Sentinel-2
1.2.2提取水體范圍
遙感水體提取的發(fā)展歷經(jīng)了幾十年,經(jīng)歷了從目視解譯到光譜特征提取,自動分類再到光譜與空間信息結(jié)合等多個階段。多波段譜間關(guān)系法綜合利用了多個波段的光譜信息,提取效果往往要比單波段閾值法要好[13]。因此,本文采用多波段方法提取水體,綜合采用歸一化水體指數(shù)NDWI、改進的歸一化水體指數(shù)MNDWI、增強水體指數(shù)EWI這3種水體指數(shù)(見表2),增強水體信息同時抑制其他非水體信息[14],融合不同水體指數(shù)的水體提取優(yōu)勢,利用ENVI5.1軟件中波段運算工具進行各水體指數(shù)計算,再對其灰度進行分割,確定最佳閾值,提取各采樣時間段的水體信息。
表2 水體指數(shù)物理意義及特點Tab.2 Physical significance and characteristics of water index
Sentinel-2衛(wèi)星的B3波段為綠波段(Green),B8、B8A波段為近紅外波段(NIR),未設(shè)置中紅外波段。但是水體在B12波段(中心波長2 202.4 nm,半高寬242 nm)的光譜反射特性與在中紅外波段的反射特性相似,故本文用B12波段代替中紅外波段(MIR)參與波段計算。提取的水體如圖1所示。
1.2.3水質(zhì)數(shù)據(jù)采樣及測定
分別在2019年12月(枯水期)和2020年7月(豐水期)選取浐灞河下游段的8個斷面的樣點數(shù)據(jù),采樣過程嚴格按照HJ/T 91-2002《地表水和污水監(jiān)測技術(shù)規(guī)范》[15]有關(guān)要求執(zhí)行。選擇樣點TN、CODMn兩個水質(zhì)參數(shù),測定時需添加H2SO4調(diào)節(jié)。水質(zhì)參數(shù)的測定嚴格按照GB 3838-2002《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》[16]執(zhí)行,數(shù)據(jù)精度和準(zhǔn)確度均符合國家水質(zhì)檢測方法標(biāo)準(zhǔn)要求。其中,TN采用流動分析儀測定,CODMn采用酸性法測定。
人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Network)算法是一種強大的分類和回歸算法,其靈感來自于人腦的神經(jīng)結(jié)構(gòu)[17]。人工神經(jīng)網(wǎng)絡(luò)以多個神經(jīng)元為隱藏層將輸入數(shù)據(jù)與輸出數(shù)據(jù)進行連接,從而挖掘出輸入和輸出數(shù)據(jù)之間的潛在關(guān)系。目前,人工神經(jīng)網(wǎng)絡(luò)在許多研究領(lǐng)域均得到廣泛應(yīng)用[18-19],比如生物記憶、模式識別、圖像處理、衛(wèi)星降水量估算、水庫調(diào)度。
本文構(gòu)建的ANN模型將各水質(zhì)樣點的B2~B8A波段像元值作為模型輸入,輸出模擬的水質(zhì)參數(shù)濃度值,其中水質(zhì)濃度實測值用于率定和檢驗。水質(zhì)濃度實測值樣本數(shù)量為8個,該模型的隱藏層為單層,隱藏層神經(jīng)元節(jié)點數(shù)量為8個(見圖2)。基于Platypus庫調(diào)用NSGA-Ⅱ算法優(yōu)化ANN模型內(nèi)部權(quán)重參數(shù),將算法中種群規(guī)模設(shè)置為100,評價次數(shù)為5萬,二進制交叉算子(SBX)取值為(1.0,15.0),多項式變異概率(PM)取值為(0.125,20.0),完成反演過程。
為了充分檢驗ANN模型的擬合效果,選取隨機森林(Random Forests,RF)模型作為比較基準(zhǔn)。隨機森林算法是一種通過集成大量的決策樹來改進分類和回歸樹(CART,Classification and Regression Tree)的方法[20]。在隨機森林回歸中,引入的隨機森林算法將自動創(chuàng)建隨機決策樹群,通過從訓(xùn)練數(shù)據(jù)集中選擇隨機變量集,并采用隨機有放回抽樣的方法來構(gòu)建每棵樹[21],最后通過對所有樹的均衡化來計算實測值的估測值。本文基于深度學(xué)習(xí)框架Tensor Flow構(gòu)建RF反演模型,涉及的參數(shù)包括最大決策樹數(shù)量NE、決策樹最大深度MD和最大特征數(shù)MF,并采用試錯法確定參數(shù)取值為NE50-MD25-MF6。
為了驗證求解出來水質(zhì)指標(biāo)(TN、TP、CODMn)的代表性和適用性,引入留一法交叉驗證(LOOCV)進行論證[22]。留一法交叉驗證已經(jīng)被證明能夠有效評價機器學(xué)習(xí)模型的歸納性特征,并且其結(jié)果是幾乎無偏的,且能夠充分利用所有樣本,適用于樣本數(shù)量較小的情景。該方法具體步驟為:從樣本數(shù)據(jù)集中選擇一個樣本數(shù)據(jù)作為驗證數(shù)據(jù);然后使用剩下的樣本數(shù)據(jù)訓(xùn)練模型,并用最先被排除的那個樣本數(shù)據(jù)來驗證模型精度,如此重復(fù)8次(樣本個數(shù));最終提取8個樣本的預(yù)測結(jié)果進行統(tǒng)計分析。本文的采樣點數(shù)量為8個,交叉驗證K折數(shù)為8。
為評價2種方法反演精度,引入決定系數(shù)(R2)與均方根誤差(RMSE)對估測模型進行精度檢驗。計算公式為
(1)
(2)
選擇衛(wèi)星遙感數(shù)據(jù)B2、B3、B4、B5、B6、B7、B8、B8A波段及實測水質(zhì)數(shù)據(jù)建立水質(zhì)反演模型。表3~4為反演結(jié)果及精度。
表3 ANN模型各水質(zhì)參數(shù)反演結(jié)果均方根誤差與決定系數(shù)Tab.3 The inversion results of RMSE and R2 by ANN algorithm
應(yīng)用留一法交叉驗證法得到ANN模型8個樣點的評價指標(biāo)值(見表3),得到2019年12月TN、CODMn的平均均方根誤差分別為0.54和0.32,平均決定系數(shù)分別為0.79和0.80。由于本文選擇的樣本量較少,在做交叉驗證時可能存在較大的泛化誤差,分別計算了各評價指標(biāo)的標(biāo)準(zhǔn)差。均方根誤差的標(biāo)準(zhǔn)差分別為0.09和0.08,決定系數(shù)的標(biāo)準(zhǔn)差分別為0.05和0.08。2020年7月TN、CODMn的平均均方根誤差分別為0.08和0.26,平均決定系數(shù)分別為0.99和0.99,均方根誤差的標(biāo)準(zhǔn)差分別為0.02和0.14,決定系數(shù)的標(biāo)準(zhǔn)差分別為0.001和0.001。各個評價指標(biāo)的標(biāo)準(zhǔn)差較小,表明樣本量少并沒有帶來太大的泛化誤差,模型結(jié)果較為可靠。
RF模型各個樣點的評價指標(biāo)值如表4所列。2019年12月TN、CODMn的平均均方根誤差分別為0.62和0.50,決定系數(shù)分別為0.65和0.48,均方根誤差的標(biāo)準(zhǔn)差分別為0.12和0.11,決定系數(shù)的標(biāo)準(zhǔn)差分別為0.14和0.22。2020年7月TN、CODMn的平均均方根誤差分別為0.8和4.63,決定系數(shù)分別為0.53和0.73,均方根誤差的標(biāo)準(zhǔn)差分別為0.15和1.18,決定系數(shù)的標(biāo)準(zhǔn)差分別為0.17和0.15。各個評價指標(biāo)的標(biāo)準(zhǔn)差較小,表明樣本的泛化誤差較小,模型結(jié)果較為可靠。
表4 RF模型各水質(zhì)參數(shù)反演結(jié)果均方根誤差與決定系數(shù)Tab.4 The inversion results of RMSE and R2 by RF algorithm
對ANN和RF兩種模型的指標(biāo)評價結(jié)果分析可知:ANN模型估算得到的水質(zhì)參數(shù)結(jié)果優(yōu)于RF模型,ANN模型在本文研究區(qū)域體現(xiàn)出了優(yōu)于RF模型的估算性能。因此,本文后續(xù)在進行水質(zhì)參數(shù)濃度空間分布時采用ANN估算的水質(zhì)參數(shù)。
利用ANN模型驗證后的模型參數(shù),輸入水體各波段數(shù)值,得到了水體范圍內(nèi)的水質(zhì)參數(shù)濃度空間分布,如圖3~4所示。
整體來講,跨河建筑物濃度總體上比周圍河段高,世博園的河段CODMn與TN相較于上橋村河段含量較低,上橋村附近河段濃度高于中間河段,這是由于受到點源排放口的影響。
在圖3中,CODMn在2019年12月濃度為2.96~5.62 mg/L,平均值為3.46 mg/L,2020年7月濃度為3.24~13.93 mg/L,平均值為6.64 mg/L。2020年7月濃度值高于2019年12月。從空間分布來看,濃度高值出現(xiàn)在灞河上橋村附近河段、浐灞河交匯處及浐灞河匯合后秦漢大道西段處,這些地方是人口密度較大和工業(yè)分布較為集中區(qū)域。2020年7月濃度值高于2019年12月,主要原因是CODMn濃度值的變化主要反映的是有機物和生活污染問題,浐灞河周圍分布有大量的居民區(qū)和雨污排放口,夏季用水量增加,城市生活污水排放入水體,導(dǎo)致7月濃度整體上高于12月。
如圖4所示,TN在2019年12月濃度為5.30~7.77 mg/L,平均值為5.74 mg/L,2020年7月濃度為4.23~9.00 mg/L,平均值為5.42 mg/L。2019年12月TN值高于2020年7月,但2020年7月濃度變化幅度大于2019年12月,這是因為有幾個區(qū)域在7月出現(xiàn)高值,在灞河上橋村附近河段、浐灞河交匯處、浐灞河匯合后奧體隧道到秦漢大道西段河道及入渭口右岸處,原因是這些地方城市生活污水和工業(yè)企業(yè)廢水大量排放,且附近分布有多個排污口,雖然污水經(jīng)處理后排放,但仍有大量污染物進入水體。此外,河流周圍還有農(nóng)業(yè)和農(nóng)村生活污水排放源,接納來自于農(nóng)田和養(yǎng)殖業(yè)產(chǎn)生的污水,降水的季節(jié)差異性導(dǎo)致12月整體濃度值高于7月[23]。浐河河段TN濃度值呈現(xiàn)出12月整體上高于7月,同樣是由于大量居民日常生活的污水和工業(yè)生產(chǎn)的廢水在降水的季節(jié)性變化下引起的[24]。
本研究以浐灞河下游河段為研究河段,采用人工神經(jīng)網(wǎng)絡(luò)和隨機森林兩種機器學(xué)習(xí)算法構(gòu)建水質(zhì)參數(shù)遙感反演模型,對水體中的TN、CODMn兩個水質(zhì)參數(shù)進行遙感反演研究,主要得到了以下結(jié)論:
(1)本文基于Sentinel-2衛(wèi)星遙感影像數(shù)據(jù),融合多種水體指數(shù)法的優(yōu)勢,更準(zhǔn)確地提取了研究區(qū)河道水體。
(2)采用人工神經(jīng)網(wǎng)絡(luò)算法與隨機森林算法,根據(jù)實測水質(zhì)樣點參數(shù)CODMn與TN,構(gòu)建了水質(zhì)反演模型,經(jīng)過對比分析,人工神經(jīng)網(wǎng)絡(luò)模型在該地區(qū)具有良好的適用性。
(3)將ANN模型應(yīng)用于整個河段水體,得到水質(zhì)參數(shù)CODMn和TN的空間分布和變化特征,整體上水質(zhì)參數(shù)波動較小,空間分布較為均勻,部分區(qū)域出現(xiàn)高值,可能與人類活動有關(guān)。此外,CODMn與TN也呈現(xiàn)出季節(jié)性規(guī)律,這與人類活動的季節(jié)性有關(guān)。當(dāng)前,河流在遙感領(lǐng)域受到的關(guān)注相對較少,部分原因是河流空間尺度較小(<100 km)和水質(zhì)參數(shù)變動范圍大。而長江水系水量較為豐沛,本文構(gòu)建的水質(zhì)監(jiān)測模型對于長江流域水環(huán)境實時監(jiān)測具有重要的參考價值,對于水環(huán)境質(zhì)量提升具有借鑒意義。