齊家蕙,謝崇寶,楊麗原
(1. 中國灌溉排水發(fā)展中心,北京 100054; 2. 濟南大學(xué)水利與環(huán)境學(xué)院,山東 濟南 250022)
水質(zhì)指數(shù)(Water Quality Index,WQI)目前常被用于進行水質(zhì)評價,它能夠?qū)⒋罅繌?fù)雜的水質(zhì)數(shù)據(jù)轉(zhuǎn)變?yōu)橐粋€單獨指標來反映水質(zhì)整體狀況[1-4],在許多國家得到推廣和使用[2,4-6]。不同水質(zhì)指標在水質(zhì)評價中具有不同的局限性,比如地區(qū)差異導(dǎo)致水體污染源不同,如點源污染、面源污染[7,8];社會發(fā)展和土地利用結(jié)構(gòu)不同使污染程度不同,如富營養(yǎng)化、工農(nóng)業(yè)廢水有機污染和礦區(qū)水體重金屬污染[9-11];采樣和實驗分析時的操作誤差等[12]。因此,越來越多的研究關(guān)注于確定關(guān)鍵水質(zhì)評價因子,建立基于關(guān)鍵水質(zhì)指標的最小化WQI 模型WQImin(Minimum WQI),以此來降低檢測成本,提高水資源評價效率,這在發(fā)展中國家尤為適用[1,12,13]。此外,隨著人工智能的發(fā)展,更多的領(lǐng)域開始嘗試用機器學(xué)習(xí)算法解決問題。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)以人腦的神經(jīng)結(jié)構(gòu)為靈感,在輸入數(shù)據(jù)和輸出數(shù)據(jù)之間建立聯(lián)系,從而挖掘出他們的潛在關(guān)系,十分適用于水環(huán)境評價預(yù)測領(lǐng)域[14]。
傳統(tǒng)的流域水質(zhì)評價檢測成本高、花費時間長,之前的研究存在單獨使用WQI 模型進行水質(zhì)評價,或單獨使用ANN 模型進行水質(zhì)預(yù)測,但沒有基于相同樣本同時使用這兩種模型進行流域水質(zhì)綜合評價與預(yù)測。本研究以沂河為例,篩選出流域關(guān)鍵水質(zhì)指標,簡化了水質(zhì)評價過程,構(gòu)建了基于WQI 模型與ANN 模型的流域水質(zhì)評價模型,為沂河水環(huán)境狀況的智能化模擬和預(yù)警預(yù)案提供新的技術(shù)支持與科學(xué)參考。
沂河是南水北調(diào)東線工程的重要匯水河流,提供防洪抗旱、漁業(yè)和水產(chǎn)養(yǎng)殖、飲用水源和生物多樣性保護等多種效益和生態(tài)系統(tǒng)服務(wù)。沂河流域?qū)儆跍貛Ъ撅L(fēng)氣候,流域內(nèi)降水豐富且集中,夏季高溫多雨,冬季寒冷干燥。
在沂河上游、中游和下游共設(shè)置8 個采樣點,如圖1 所示。于2018 年3 月-2019 年2 月進行采樣,每個采樣點采集4 個水樣。共分析10 個水質(zhì)指標,包括總磷(TP)、pH、水溫(WT)、溶解氧(DO)、硝態(tài)氮(NO3-N)、五日生化需氧量(BOD5)、氟化物(F-)、化學(xué)需氧量(COD)、硫酸鹽(SO42-)和氨氮(NH3-N)。
圖1 采樣點分布情況Fig.1 Location of the sampling sites
采用Pesce 和Wunderlin 提出的水質(zhì)指數(shù)計算方法[1],分為加權(quán)和不加權(quán)兩種處理方式,加權(quán)計算如公式(1)所示,不加權(quán)計算如公式(2)所示。
式中:n為水質(zhì)評價過程中所有指標的數(shù)量;Ci為指標i實測濃度的標準化賦分數(shù)值;Pi為指標i的權(quán)重;上標w為加權(quán)標注;上標nw為不加權(quán)標注。所有Pi在以前的研究中都進行過驗證[1,13],如表1所示。
表1 水質(zhì)指標權(quán)重Tab.1 Weight of water quality index
關(guān)鍵水質(zhì)指標模型WQImin的建立分為標準化賦分、模型訓(xùn)練和模型測試3 個步驟:①對所有水質(zhì)指標的實測濃度進行標準化賦分;②將2006-2017 年來源于實驗室和水文站的水質(zhì)數(shù)據(jù)賦分后數(shù)值作為“訓(xùn)練數(shù)據(jù)”樣本,結(jié)合多元線性回歸分析,篩選出關(guān)鍵水質(zhì)指標,構(gòu)建WQImin模型;③將2018 年3 月-2019年2 月水質(zhì)數(shù)據(jù)賦分后數(shù)值作為“測試數(shù)據(jù)”,對WQImin模型進行測試。采用決定系數(shù)(R2)評價所建立的WQImin模型的擬合程度,采用均方誤差(Mean Square Error,MSE)和百分比誤差(Percentage Error,PE)評價WQImin模型的預(yù)測精度,得到最優(yōu)WQImin模型。
引入人工神經(jīng)網(wǎng)絡(luò)模型ANN驗證所篩選的關(guān)鍵水質(zhì)指標。本研究采用的人工神經(jīng)網(wǎng)絡(luò)為按誤差反向傳播訓(xùn)練的多層前饋網(wǎng)絡(luò)(BP 人工神經(jīng)網(wǎng)絡(luò)),包含一個輸入層(輸入層節(jié)點個數(shù)與輸入?yún)?shù)個數(shù)相同)、兩個隱含層(隱含層節(jié)點分別為10 和3)和一個輸出層(輸出層節(jié)點為1),輸出層一個節(jié)點輸出的為當前測試樣本的水質(zhì)評價結(jié)果。ANN 模型使用的“訓(xùn)練數(shù)據(jù)”與WQI 模型相同,為2006-2017 年沂河水質(zhì)樣本。ANN 訓(xùn)練過程參數(shù)如下:批(batch)大小為64,學(xué)習(xí)率為2×10-5,預(yù)測值為20次連續(xù)訓(xùn)練和測試樣本的平均值,訓(xùn)練過程中的損失函數(shù)采用均方誤差。
將10 個水質(zhì)指標依次加入模型,比較各指標對WQI 的貢獻程度,關(guān)鍵水質(zhì)指標篩選過程如表2 所示。在所有水質(zhì)指標中,NH3-N 對訓(xùn)練數(shù)據(jù)WQI 的貢獻最大,擬合程度最高,R2=0.776(P<0.001),所以我們將NH3-N 作為WQImin模型的第一個關(guān)鍵水質(zhì)指標。當BOD5、DO 和SO42-依次加入模型時,模型R2顯著增加,分別為0.830(P<0.001)、0.854(P<0.001)和0.874(P<0.001),其他水質(zhì)指標加入模型后的擬合程度都不如這3 個指標,所以選擇BOD5、DO 和SO42-分別作為WQImin模型的第二個、第三個和第四個關(guān)鍵水質(zhì)指標。在選擇WQImin模型第五個關(guān)鍵水質(zhì)指標時,發(fā)現(xiàn)在模型中加入WT 和COD 后,模型性能小幅度提高,且R2相差較小。加入WT 后模型擬合度為R2=0.893(P<0.001),加入COD 后模型擬合度為R2=0.894(P<0.001)。因此,將NH3-N、BOD5、DO 和SO42-四個指標作為WQImin模型的基本構(gòu)成,在此基礎(chǔ)上考慮使用測試數(shù)據(jù)對加入WT 和COD 的WQImin模型進行性能比較,篩選出最能表征沂河水質(zhì)狀況的關(guān)鍵指標。
表2 基于訓(xùn)練數(shù)據(jù)集的多元線性回歸模型(n=512)Tab.2 Multiple linear regression model based on the training data set (n=512)
如表3 所示,對于不加權(quán)WQImin模型,當選擇NH3-N、BOD5、DO、SO42-和COD 這5 個水質(zhì)指標時,模型的擬合程度最好R2=0.846(P<0.05),并且預(yù)測精度最高MSE=4.76,PE=2.12%。當選擇NH3-N、BOD5、DO 和這4個水質(zhì)指標時,模型的擬合程度和預(yù)測精度僅次于模型(R2=0.845,MSE=6.47,PE=2.48%,P<0.05) 。模 型 和模型的擬合程度和預(yù)測精度分別為R2=0.744,MSE=12.17,PE=3.40%(P<0.05)和R2=0.776,MSE=8.00,PE=2.75%(P<0.05),它們對WQI 模型的解釋程度不如模型和WQInwmin+COD模型。
表3 基于訓(xùn)練數(shù)據(jù)集的不加權(quán)WQImin模型(n=512,P<0.05)Tab.3 Non-weighted WQImin model based on the training data set(n=512,P<0.05)
如表4 所示,對于加權(quán)WQImin模型,當選擇NH3-N、BOD5、DO、SO4
表4 基于訓(xùn)練數(shù)據(jù)集的加權(quán)WQImin模型(n=512,P<0.05)Tab.4 Weighted WQImin model based on the training data set(n=512,P<0.05)
2-和WT 這5 個水質(zhì)指標時,模型的擬合程度最好R2=0.903(P<0.05),并且預(yù)測精度最高MSE=3.05,PE=1.70%。當選擇NH3-N、BOD5、DO、SO42-、WT 和COD 這6 個水質(zhì)指標時,模型的擬合程度和預(yù)測精度反而比模型更低(R2=0.891,MSE=4.56,PE=2.08%,P<0.05)。模型和模型的擬合程度和預(yù)測精度分別為R2=0.834,MSE=7.46,PE=2.66%(P<0.05)和R2=0.841,MSE=5.24,PE=2.23%(P<0.05),它們對WQI 模型的解釋程度不如模型和模型。
對水質(zhì)指標分別進行加權(quán)和不加權(quán)處理,比較不同WQImin模型的擬合程度和預(yù)測精度,結(jié)果表明無論水質(zhì)指標是否加權(quán),改變模型的指標設(shè)置都會改變模型的擬合程度和預(yù)測精度?;谟?xùn)練數(shù)據(jù),分別對比了四指標、五指標和六指標模型在加權(quán)和不加權(quán)兩種處理方式下的擬合程度和預(yù)測精度,當模型同為五個水質(zhì)指標時,發(fā)現(xiàn)將WT 作為第五個指標的模型效果更好。
基于訓(xùn)練數(shù)據(jù)的多元線性回歸分析篩選出關(guān)鍵水質(zhì)指標,將其帶入測試數(shù)據(jù),比較各組WQImin模型的擬合程度和預(yù)測精度,如圖2 所示。對于不加權(quán)WQImin模型模型的擬合程度最好R2=0.862,并且預(yù)測精度最高MSE=2.34,PE=4.45%。模型的擬合程度和預(yù)測精度僅次于模型(R2=0.844,MSE=3.81,PE=5.68%)。模型和模型的擬合程度和預(yù)測精度分別為R2=0.796,MSE=8.14,PE=8.31%和R2=0.814,MSE=5.39,PE=6.76%,它們對WQI 模型的解釋程度不如模型和模型。對于加權(quán)WQImin模型,模型的擬合程度最好R2=0.972,并 且 預(yù) 測 精 度 最 高MSE=0.51,PE=2.07%。模型的擬合程度和預(yù)測精度僅次于模型(R2=0.956,MSE=1.14,PE=3.11%)。模型和模型的擬合程度和預(yù)測精度分別為R2=0.876,MSE=2.95,PE=5.00%和R2=0.897,MSE=1.70,PE=3.79%,它們對WQI 模型的解釋程度不如模型和模型。
圖2 基于測試數(shù)據(jù)集的WQImin模型擬合程度、預(yù)測精度比較Fig.2 The prediction accuracy and fitting degree of WQImin models based on the testing data set
四指標模型在不加權(quán)情況下R2=0.844,MSE=3.81,PE=5.68%,在加權(quán)情況下R2=0.876,MSE=2.95,PE=5.00%,無論是否加權(quán),該模型擬合程度和預(yù)測精度都未達到最高;在4個五指標模型中,、和基于測試數(shù)據(jù)的結(jié)果都不如模型;六指標模型的擬合程度為0.956,略小于模型,可以認為基于測試數(shù)據(jù)的模型性能較好。但模型的MSE和PE值均高于模型,說明模型的預(yù)測能力比模型差,不是本研究的最優(yōu)WQImin模型。經(jīng)綜合比較,在所有WQImin模型中,模型的擬合程度最好,PE和MSE最低,是本研究最優(yōu)水質(zhì)評價模型。
在早期的研究中,使用水質(zhì)指數(shù)WQI對水質(zhì)進行評價時一般考慮各指標權(quán)重,但在篩選關(guān)鍵水質(zhì)指標時不使用權(quán)重[1,15]。近年來,學(xué)者們改進了基于WQI 的水質(zhì)評價方法,考慮了權(quán)重對構(gòu)建關(guān)鍵水質(zhì)指標模型的影響,這明顯提高了實驗結(jié)果的準確性[12]。通過比較圖2的散點分布和圖3的置信區(qū)間大小可以直觀看出,在使用相同水質(zhì)指標時,加權(quán)的WQImin模型的散點分布都更加集中,置信區(qū)間更窄,說明加權(quán)模型比不加權(quán)模型表現(xiàn)更好、精確度更高,能夠更準確地預(yù)測水質(zhì),評價結(jié)果更符合實際情況。
圖3 基于測試數(shù)據(jù)集的WQImin模型置信水平比較Fig.3 Confidence level comparison of WQImin models based on the testing data set
引入人工神經(jīng)網(wǎng)絡(luò)模型ANN驗證所篩選的關(guān)鍵水質(zhì)指標。使用與WQI 模型相同的“訓(xùn)練數(shù)據(jù)”樣本對ANN 模型進行訓(xùn)練,基于多元線性回歸分析所篩選出的關(guān)鍵水質(zhì)指標,將其作為輸入?yún)?shù)進行模型預(yù)測,預(yù)測結(jié)果如圖4所示。結(jié)果表明,當輸入?yún)?shù)為NH3-N、BOD5、DO、SO42-和WT 時,模型MSE=1.44,R2=0.92,擬合程度最好,預(yù)測精度最高。ANN 模型的驗證結(jié)果與WQI 篩選結(jié)果一致,表明NH3-N、BOD5、DO、SO42-和WT 是能表征沂河水質(zhì)情況的關(guān)鍵水質(zhì)指標。本研究將WQI 水質(zhì)評價法與ANN技術(shù)相結(jié)合,為沂河構(gòu)建了一個具有預(yù)測與評價功能的水質(zhì)模型,有利于對沂河水質(zhì)未來變化做出判斷,為其智能化模擬提供新的技術(shù)途徑。
圖4 基于ANN模型的水質(zhì)評價結(jié)果預(yù)測Fig.4 Prediction of water quality evaluation results based on ANN model
本研究的最優(yōu)水質(zhì)評價模型由NH3-N、BOD5、DO、SO42-和WT這5個水質(zhì)指標組成,具有良好的水質(zhì)評價性能。線性相關(guān)分析結(jié)果表明,該模型與WQI 模型呈極顯著正相關(guān)關(guān)系(P<0.001),能夠有效替代WQI 模型進行沂河水質(zhì)評價。WQImin模型是簡化的WQI 模型,能夠解釋水質(zhì)的整體變化,并且模型選擇的水質(zhì)指標易于測量,降低了檢測成本,有利于沂河流域水質(zhì)高效評價。
NH3-N 是本研究所確定的第一個關(guān)鍵水質(zhì)指標,對WQI變化的解釋程度最大(R2>0.77,P<0.001)。之前的研究表明水體NH3-N 濃度對水質(zhì)有重要影響[16]。硝態(tài)氮和氨氮都屬于無機氮,但在本研究中硝態(tài)氮并未作為流域關(guān)鍵水質(zhì)指標,主要原因是多元線性回歸分析表明,硝態(tài)氮對WQI模型的貢獻低于其他指標,不能有效表征WQI 模型(R2>0.002,P>0.001)。在以往的研究中,TP曾作為表示水體營養(yǎng)鹽水平的水質(zhì)指標[12,13]?;谝郧暗难芯?,在選擇NH3-N 前先考慮TP 作為沂河水質(zhì)的營養(yǎng)鹽類關(guān)鍵指標。但訓(xùn)練數(shù)據(jù)結(jié)果表明,TP 對WQI 模型貢獻不如NH3-N,所以我們最終選擇NH3-N 作為沂河的關(guān)鍵水質(zhì)指標,采用NH3-N 來表征沂河流域的營養(yǎng)鹽水平也反映了流域水質(zhì)狀況的差異性。
BOD5和DO 是本研究所確定的第二個和第三個關(guān)鍵水質(zhì)指標,體現(xiàn)了它們對WQI的重要性。這兩個指標可能反映了城鄉(xiāng)污水、畜禽集約化養(yǎng)殖、工業(yè)廢水以及其他有機污染物輸入對沂河水質(zhì)的影響。有機物可能導(dǎo)致水中厭氧細菌分解,產(chǎn)生甲烷、硫化氫、硫醇、氨等惡臭難聞的氣體,過量的污染物排放也可能導(dǎo)致水中溶解氧含量降低。DO 可以影響水生生物的許多復(fù)雜生化過程和生長發(fā)育,是反映水質(zhì)狀態(tài)的典型指標,研究人員常將DO作為流域關(guān)鍵水質(zhì)指標[3,17]。
SO42-和WT 是本研究中的第四個和第五個關(guān)鍵水質(zhì)指標。SO42-通常表征無機鹽對水質(zhì)的影響。F-也是一種無機鹽,但訓(xùn)練數(shù)據(jù)的計算結(jié)果表明,當F-作為輸入指標時,模型的PE和MSE都明顯增加,因此使用F-作為關(guān)鍵指標的效果不如SO42-。硫酸鹽來源廣泛,比如生活污水、工業(yè)廢水和天然礦物等。它是評價天然水體化學(xué)特征的重要指標,也可用于鹽度分析[18]。過量的硫酸鹽會破壞土壤結(jié)構(gòu),降低土壤肥力,對水環(huán)境產(chǎn)生危害[19]。WT 是本研究中權(quán)重最低的水質(zhì)指標,反映了水體的物理化學(xué)性質(zhì),可以影響水中細菌的生長繁殖和水體自然凈化效果[20]。在WQImin模型中加入WT后,模型R2顯著升高,MSE和PE也有所降低。
(1)在使用相同水質(zhì)指標時,加權(quán)模型的散點分布更加集中,置信區(qū)間更窄,能更好地解釋水質(zhì)變化趨勢。無論是否加權(quán),四指標模型的擬合程度和預(yù)測精度都未達到最高,不是本研究的最優(yōu)模型; WQIwmin+WT模型性能最好,R2=0.972,MSE=0.51,PE=2.07%(P<0.05),包含5 個水質(zhì)指標:NH3-N、BOD5、DO、SO42-和WT。
(2)WQIwmin+WT模型為本研究最優(yōu)水質(zhì)評價模型,該模型對WQI 的解釋程度最大,具有良好的水質(zhì)評價性能,與WQI 模型呈極顯著正相關(guān)關(guān)系(P<0.001),能有效替代WQI 模型進行流域水質(zhì)評價。水質(zhì)評價模型由10 個水質(zhì)指標簡化為5 個,降低了檢測成本,提高了評價效率。
(3)當輸入?yún)?shù)為NH3-N、BOD5、DO、SO42-和WT時,水質(zhì)預(yù)測ANN 模型擬合程度最好,預(yù)測精度最高,該模型不僅可用于沂河水質(zhì)評價,還可對其未來變化做出判斷,將其應(yīng)用在水文監(jiān)測站可做到水質(zhì)狀態(tài)實時更新,為流域水質(zhì)智能化模擬提供新的技術(shù)途徑。
(4)權(quán)重大小受研究區(qū)域和研究者個人經(jīng)驗的影響,可能會有所不同。因此在實際研究中,建議研究者查閱相關(guān)文獻,根據(jù)實際研究地點和實測數(shù)據(jù)調(diào)整權(quán)重,從而構(gòu)建更加真實的水質(zhì)評價模型。此外,本文沒有考慮重金屬濃度對水質(zhì)的影響,今后將加強相關(guān)研究,探究更多不同類型指標對水質(zhì)的綜合影響。