唐亦舜, 徐 慶, 劉振鴻, 高 品
(1.東華大學(xué) 環(huán)境科學(xué)與工程學(xué)院, 上海 201620; 2.上海市環(huán)境監(jiān)測中心, 上海 200235)
因化學(xué)品泄露等原因引發(fā)的水質(zhì)污染事件頻發(fā)[1-3],造成嚴(yán)重的環(huán)境污染和社會(huì)影響。水質(zhì)預(yù)測已成為環(huán)境監(jiān)測領(lǐng)域的關(guān)注焦點(diǎn),對地表水環(huán)境進(jìn)行有效管理是至關(guān)重要的[4]。河流水質(zhì)預(yù)測是區(qū)域水環(huán)境管理的基礎(chǔ)[5],通過對一定區(qū)域的河流水質(zhì)參數(shù)變化情況進(jìn)行實(shí)時(shí)監(jiān)測,結(jié)合當(dāng)?shù)厮|(zhì)狀況、生態(tài)環(huán)境狀況、污染物遷移特性和經(jīng)濟(jì)發(fā)展等實(shí)際情況預(yù)測未來水質(zhì)變化趨勢[6]。盡管如此,水質(zhì)預(yù)測研究仍處于發(fā)展階段[7],如何有效利用現(xiàn)有龐大的在線監(jiān)測數(shù)據(jù)提高水質(zhì)預(yù)測精度,是構(gòu)建水質(zhì)預(yù)測模型亟需解決的關(guān)鍵問題。
隨著人工智能技術(shù)的迅速發(fā)展,人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)因其優(yōu)異的非線性關(guān)系處理能力、較高的預(yù)測準(zhǔn)確度和較強(qiáng)的復(fù)雜水質(zhì)適應(yīng)性等,成為國內(nèi)外水質(zhì)預(yù)測模型的熱點(diǎn)研究方法[8-9]。其中,非線性自回歸(nonlinear auto-regressive, NAR)神經(jīng)網(wǎng)絡(luò)具有反饋與記憶功能,以自身為回歸變量,每一時(shí)刻的輸出都是當(dāng)下時(shí)刻之前系統(tǒng)內(nèi)隨機(jī)變量的線性組合,具有動(dòng)態(tài)性與綜合性特征[10-11],在時(shí)間序列動(dòng)態(tài)建模預(yù)測方面具有明顯優(yōu)勢。雖然NAR神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于交通運(yùn)輸[12-13]、空氣質(zhì)量[14]、社會(huì)經(jīng)濟(jì)[15-16]等領(lǐng)域,但在水質(zhì)預(yù)測方面的應(yīng)用研究還較少。本文以上海市某支流具有代表性的監(jiān)測斷面為研究對象,通過試驗(yàn)法優(yōu)化確定輸入數(shù)據(jù)段和模型參數(shù),采用不同指標(biāo)對模型預(yù)測性能和預(yù)測效果進(jìn)行對比評價(jià)以改進(jìn)NAR神經(jīng)網(wǎng)絡(luò)模型,并將改進(jìn)的NAR神經(jīng)網(wǎng)絡(luò)模型用于預(yù)測pH、溶解氧(dissolved oxygen, DO)質(zhì)量濃度和濁度等水質(zhì)指標(biāo),以期為水質(zhì)的預(yù)測預(yù)警提供技術(shù)支撐。
NAR神經(jīng)網(wǎng)絡(luò)屬于處理時(shí)間序列的動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)模型,其每一個(gè)時(shí)刻的輸出都是先前全部輸入的綜合描述,可通過輸入/輸出關(guān)系進(jìn)行不斷調(diào)整,具有反饋記憶功能和動(dòng)態(tài)綜合性特征。NAR神經(jīng)網(wǎng)絡(luò)模型一般由輸入層、帶有延遲的隱含層和輸出層構(gòu)成,如圖1所示,輸入層時(shí)間序列y(t)進(jìn)入帶有延遲的隱含層,隱含層為一層或多層的神經(jīng)元,經(jīng)訓(xùn)練、傳遞和學(xué)習(xí)后,最終到達(dá)輸出層,并傳遞模型結(jié)果[10]。
注:1∶5表示延遲階數(shù)為5;20為隱含層神經(jīng)元數(shù); W為權(quán)值;b為閾值。圖1 NAR神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of NAR neural network
對于時(shí)間序列{y(t)},t=1,2,3,…,n,NAR神經(jīng)網(wǎng)絡(luò)模型表達(dá)式如式(1)所示。
y(t)=f(y(t-1),y(t-2),y(t-3),…,
y(t-n))+ε(t)
(1)
式中:n為輸入延遲階數(shù);f(·)為傳遞函數(shù),神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目的是通過優(yōu)化網(wǎng)絡(luò)權(quán)值和神經(jīng)元偏置進(jìn)行函數(shù)估計(jì);ε(t)為y(t)的擾動(dòng)項(xiàng),屬隨機(jī)白噪聲,但其與前一時(shí)刻時(shí)間序列y(t-1)無關(guān)[17-18]。
1.2.1 數(shù)據(jù)來源
本文研究數(shù)據(jù)源于上海市某支流具有代表性的監(jiān)測斷面的水質(zhì)監(jiān)測結(jié)果,選取2019年1月1日—12月1日的水質(zhì)監(jiān)測數(shù)據(jù),水質(zhì)指標(biāo)包括pH、DO質(zhì)量濃度和濁度。由于原始數(shù)據(jù)監(jiān)測頻率存在差異,本文統(tǒng)一以4 h間隔對原始數(shù)據(jù)進(jìn)行篩選,每天共6組數(shù)據(jù)。
1.2.2 缺失數(shù)據(jù)填補(bǔ)
針對前后時(shí)間間隔較小的缺失數(shù)據(jù),考慮到DO質(zhì)量濃度具有周期性變化特點(diǎn),選用前1 d同一時(shí)刻與其前后時(shí)間點(diǎn)的3組數(shù)據(jù)平均值進(jìn)行填補(bǔ),即若缺失數(shù)據(jù)為第i點(diǎn),其替代值可通過式(2)獲得。此外,針對時(shí)間間隔較大的缺失數(shù)據(jù),則采用天氣狀況相似的臨近日期的同一時(shí)刻數(shù)據(jù)進(jìn)行補(bǔ)全。
(2)
1.2.3 異常數(shù)據(jù)剔除
通常異常數(shù)據(jù)主要由過失誤差所導(dǎo)致。過失誤差是指由非隨機(jī)事件如工藝泄漏、測量儀表失靈、設(shè)備故障等引發(fā)的測量數(shù)據(jù)嚴(yán)重失真導(dǎo)致數(shù)據(jù)真實(shí)值與實(shí)測值之間出現(xiàn)的顯著差異。一般根據(jù)拉依達(dá)準(zhǔn)則剔除異常數(shù)據(jù)。
圖2 剔除異常數(shù)據(jù)前后的pH和濁度Fig.2 pH and turbidity before and after abnormal data removal
圖3 DO質(zhì)量濃度變化趨勢Fig.3 Variation trend of DO mass concentration
1.2.4 數(shù)據(jù)歸一化處理
將有量綱表達(dá)式轉(zhuǎn)化為無量綱表達(dá)式,通常需對輸入數(shù)據(jù)作歸一化處理。本文采用最大最小值法進(jìn)行數(shù)據(jù)歸一化,將原始數(shù)據(jù)線性化轉(zhuǎn)換到[0,1],歸一化方法如式(3)所示。
(3)
采用試驗(yàn)法確定NAR神經(jīng)網(wǎng)絡(luò)模型的延遲階數(shù)和隱含層神經(jīng)元數(shù),輸入樣本數(shù)據(jù)對模型進(jìn)行訓(xùn)練并進(jìn)行誤差計(jì)算和模型檢驗(yàn),通過調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)獲得最佳預(yù)測模型。
1.3.1 試驗(yàn)法
試驗(yàn)法即根據(jù)經(jīng)驗(yàn)對某一輸入?yún)?shù)設(shè)置不同值進(jìn)行多次模擬預(yù)測,通過比較分析預(yù)測結(jié)果選擇最優(yōu)結(jié)果對應(yīng)的輸入值作為該參數(shù)的初始輸入值。
1.3.2 模型評價(jià)指標(biāo)
采用相關(guān)系數(shù)r、納什效率系數(shù)(Nash-Sutcliffe efficiency coefficient, NSE)、均方根誤差(root mean squared error, RMSE)和平均絕對百分比誤差(mean absolute percentage error, MAPE)評價(jià)模型預(yù)測性能。
r用于評價(jià)變量之間的相關(guān)程度,對于兩組變量X和Y,其定義式如式(4)所示。
(4)
式中:Cov(X,Y)為X與Y的協(xié)方差;Var[X]和Var[Y]分別為X和Y的方差;|r|≤1,|r|越大,X和Y之間相關(guān)性越強(qiáng)。
NSE用于評價(jià)模型預(yù)測效果,表達(dá)式如式(5)[19]所示。
(5)
RMSE用于衡量模型預(yù)測值與實(shí)測值之間的偏差,表達(dá)式如式(6)所示。
(6)
MAPE是平均絕對偏差(mean absolute deviation, MAD)的變形,其消除了原始數(shù)據(jù)絕對大小對MAD的影響,是衡量模型預(yù)測準(zhǔn)確性的統(tǒng)計(jì)指標(biāo),計(jì)算公式如式(7)所示。
(7)
式中:EMAPE∈[0,+∞),EMAPE>100%表明預(yù)測模型為劣質(zhì)模型。若存在真實(shí)值為0的數(shù)據(jù),則該式不再適用,因此在計(jì)算EMAPE時(shí)需先對原始數(shù)據(jù)進(jìn)行反歸一化處理。
1.3.3 檢驗(yàn)方法
采用Ljung-Box Q-test(LBQ)法檢驗(yàn)?zāi)骋粫r(shí)段內(nèi)時(shí)間序列預(yù)測值是否為隨機(jī)獨(dú)立值,若預(yù)測值不是彼此獨(dú)立的,則多個(gè)預(yù)測值之間存在關(guān)聯(lián)性,這將使得整體時(shí)間序列具有自相關(guān)性。通常這種自相關(guān)性會(huì)降低基于時(shí)間序列模型的預(yù)測準(zhǔn)確度,并導(dǎo)致模型對數(shù)據(jù)的錯(cuò)誤解釋,故采用LBQ法評估NAR神經(jīng)網(wǎng)絡(luò)模型的擬合結(jié)果,以確保預(yù)測殘差彼此獨(dú)立[10]。LBQ檢驗(yàn)的統(tǒng)計(jì)結(jié)果計(jì)算方法如式(8)所示。
(8)
1.3.4 輸入數(shù)據(jù)段選取
神經(jīng)網(wǎng)絡(luò)輸入時(shí)間序列的波動(dòng)程度、時(shí)間跨度、完整性等對其輸出的影響非常大,訓(xùn)練數(shù)據(jù)不足造成機(jī)器學(xué)習(xí)不充分導(dǎo)致欠擬合,但過量的樣本輸入則會(huì)使模型陷入過分學(xué)習(xí),在影響學(xué)習(xí)效率的同時(shí)還會(huì)導(dǎo)致過擬合,降低模型預(yù)測精度。本文以2019年11月30日監(jiān)測數(shù)據(jù)為樣本終點(diǎn),分別以11月16日、11月1日、10月16日、10月1日、9月16日和9月1日的監(jiān)測數(shù)據(jù)為樣本起點(diǎn),對應(yīng)的樣本量分別為90、180、270、360、450和540,以不同數(shù)據(jù)段預(yù)測12月1日的相應(yīng)指標(biāo)值,以各評價(jià)指標(biāo)與檢驗(yàn)結(jié)果為依據(jù)對比模型整體性能和預(yù)測精度,進(jìn)而確定輸入數(shù)據(jù)段。為方便計(jì)算,對12月1日的預(yù)測值進(jìn)行反歸一化處理。
設(shè)置訓(xùn)練集、驗(yàn)證集和測試集的比例為70%、15%和15%,延遲階數(shù)為2,隱含層神經(jīng)元數(shù)為10,訓(xùn)練次數(shù)為10,優(yōu)化選取數(shù)據(jù)段。圖4 和表1為pH、DO質(zhì)量濃度和濁度的預(yù)測結(jié)果,采用LBQ法進(jìn)行統(tǒng)計(jì)檢驗(yàn),可得邏輯值h、概率值p、檢驗(yàn)統(tǒng)計(jì)量s和臨界值c,其中:h=0表示拒絕原假設(shè),即殘差序列無自相關(guān)性,h=1表示存在自相關(guān)性;p越小、s越大,表明自相關(guān)性越強(qiáng)。檢驗(yàn)結(jié)果見表2。
圖4 不同輸入數(shù)據(jù)量下pH、DO質(zhì)量濃度和濁度的ERMSE和EMAPEFig.4 ERMSE and EMAPE for pH, DO mass concentration and turbidity with different input data volumes
由圖4、表1和表2可知,選取2019年11月1日—11月30日時(shí)間序列共180個(gè)數(shù)據(jù)點(diǎn)進(jìn)行模型訓(xùn)練時(shí),模型對pH、DO質(zhì)量濃度和濁度的預(yù)測效果最好,預(yù)測RMSE值分別為0.054、0.424 mg/L和20.960 NTU,MAPE值分別為0.58%、4.83%和20.33%。LBQ檢驗(yàn)結(jié)果表明,在最佳數(shù)據(jù)段下只有濁度預(yù)測殘差仍具有自相關(guān)性,可通過調(diào)整模型參數(shù)對模型進(jìn)行優(yōu)化,進(jìn)一步提高預(yù)測精度。
表1 不同輸入數(shù)據(jù)量下pH、DO質(zhì)量濃度和濁度的r和ENSETable 1 Results of r and ENSE for pH, DO mass concentration and turbidity with different input data volumes
表2 不同輸入數(shù)據(jù)量下pH、DO質(zhì)量濃度和濁度預(yù)測值的LBQ檢驗(yàn)結(jié)果
1.3.5 模型參數(shù)確定
NAR神經(jīng)網(wǎng)絡(luò)延遲階數(shù)和隱含層神經(jīng)元數(shù)的選取尚無成熟的理論依據(jù),通常只能根據(jù)經(jīng)驗(yàn)或試驗(yàn)來確定[20-21]。
(1)延遲階數(shù)。選定輸入時(shí)間序列為2019年11月1日—11月30日的監(jiān)測數(shù)據(jù),保持訓(xùn)練集、驗(yàn)證集和測試集不變,隱含層神經(jīng)元數(shù)為10,訓(xùn)練次數(shù)為10,調(diào)整延遲階數(shù),對比分析不同延遲階數(shù)下pH、DO質(zhì)量濃度和濁度預(yù)測性能及檢驗(yàn)結(jié)果,如圖5、表3~6所示。
從圖5、表3和表4可以看出,由于原始數(shù)據(jù)的差異,pH、DO質(zhì)量濃度和濁度預(yù)測模型的最佳延遲階數(shù)分別為2、3和9,在最佳延遲階數(shù)下,預(yù)測模型對pH、DO質(zhì)量濃度和濁度的預(yù)測精度均得到提高,其中濁度的預(yù)測RMSE值從20.960 NTU降至17.940 NTU。由表5可知,pH和DO質(zhì)量濃度預(yù)測結(jié)果均通過LBQ檢驗(yàn),而濁度預(yù)測模型較調(diào)整延遲階數(shù)前可消除預(yù)測殘差時(shí)間序列的顯著自相關(guān)性(見表6),使得預(yù)測結(jié)果從不可接受變?yōu)榭山邮堋?/p>
表3 不同延遲階數(shù)下pH和DO質(zhì)量濃度的r和ENSETable 3 Results of r and ENSE for pH and DO mass concentration with different delay orders
表4 不同延遲階數(shù)下濁度的r和ENSETable 4 Results of r and ENSE for turbidity with different delay orders
表5 不同延遲階數(shù)下pH和DO質(zhì)量濃度預(yù)測值的LBQ檢驗(yàn)結(jié)果Table 5 LBQ test results of pH and DO mass concentration with different delay orders
表6 不同延遲階數(shù)下濁度預(yù)測值的LBQ檢驗(yàn)結(jié)果Table 6 LBQ test results of turbidity with different delay orders
圖5 不同延遲階數(shù)下pH、DO質(zhì)量濃度和濁度的ERMSE和EMAPEFig.5 ERMSE and EMAPE for pH, DO mass concentration and turbidity with different delay orders
(2)隱含層神經(jīng)元數(shù)。采用相同訓(xùn)練數(shù)據(jù)集,選取pH、DO質(zhì)量濃度和濁度預(yù)測模型的延遲階數(shù)分別為2、3和9,通過調(diào)整隱含層神經(jīng)元數(shù),重復(fù)上述預(yù)測步驟,對比分析pH、DO質(zhì)量濃度和濁度預(yù)測性能及檢驗(yàn)結(jié)果,確定最佳隱含層神經(jīng)元數(shù),如圖6和表7所示。
從圖6和表7可以看出,pH、DO質(zhì)量濃度和濁度的預(yù)測RMSE和MAPE值均先減小后增大,而r和NSE值則相反,在模型隱含層神經(jīng)元數(shù)為10時(shí),預(yù)測RMSE、MAPE、r和NSE值幾乎均達(dá)到極值,且預(yù)測殘差也均通過LBQ檢驗(yàn)(見表8),隱含層神經(jīng)元數(shù)過低,易出現(xiàn)擬合不足和容錯(cuò)性差等問題,但數(shù)量過多同樣會(huì)造成過擬合現(xiàn)象,并顯著增加模型迭代次數(shù)和訓(xùn)練時(shí)間。
表7 不同隱含層神經(jīng)元數(shù)下pH、DO質(zhì)量濃度和濁度的r和ENSETable 7 Results of r and ENSE for pH, DO mass concentration and turbidity with different numbers of hidden layer neuron
表8 不同隱含層神經(jīng)元數(shù)下pH、DO質(zhì)量濃度和濁度預(yù)測值的LBQ檢驗(yàn)結(jié)果Table 8 LBQ test results of pH, DO mass concentration and turbidity with different numbers of hidden layer neuron
圖6 不同隱含層神經(jīng)元數(shù)下pH、DO質(zhì)量濃度和濁度的ERMSE和EMAPEFig.6 ERMSE and EMAPE for pH, DO mass concentration and turbidity with different numbers of hidden layer neuron
基于上述優(yōu)化結(jié)果,確定pH、DO質(zhì)量濃度和濁度預(yù)測模型結(jié)構(gòu)參數(shù)如下:各指標(biāo)預(yù)測模型輸入樣本時(shí)間序列均為2019年11月1日—11月30日,訓(xùn)練集、測試集和驗(yàn)證集分別占70%、15%和15%,pH、DO質(zhì)量濃度和濁度預(yù)測模型的延遲階數(shù)分別為2、3和9,隱含層神經(jīng)元數(shù)均為10。采用Levenberg-Marquardt(L-M)算法訓(xùn)練網(wǎng)絡(luò)模型,訓(xùn)練函數(shù)為trainlm,傳遞函數(shù)為tansig,權(quán)值自適應(yīng)學(xué)習(xí)函數(shù)為learngd。
為評價(jià)模型預(yù)測效果和實(shí)際應(yīng)用效果,以目標(biāo)監(jiān)測斷面2019年11月2日—12月1日監(jiān)測數(shù)據(jù)為訓(xùn)練樣本,預(yù)測12月2日pH、DO質(zhì)量濃度和濁度。由于輸入權(quán)值和閾值會(huì)影響神經(jīng)網(wǎng)絡(luò)性能,因此各模型在表4模型結(jié)構(gòu)參數(shù)下訓(xùn)練20次,預(yù)測結(jié)果如圖7所示,同時(shí)對比分析6個(gè)預(yù)測點(diǎn)的RMSE與MAPE值(見表9)。
圖7 預(yù)測模型對pH、DO質(zhì)量濃度和濁度的預(yù)測效果Fig.7 Model prediction performance of pH, DO mass concentration and turbidity
由圖7和表9可以看出,基于L-M算法建立的NAR神經(jīng)網(wǎng)絡(luò)模型對目標(biāo)斷面pH、DO質(zhì)量濃度和濁度的預(yù)測值與實(shí)測值的變化趨勢基本一致。結(jié)合RMSE值和MAPE值可知:輸入數(shù)據(jù)段經(jīng)優(yōu)化選取和結(jié)構(gòu)參數(shù)調(diào)整后,NAR神經(jīng)網(wǎng)絡(luò)模型的預(yù)測精度和自相關(guān)檢驗(yàn)通過率均得到顯著改善;各時(shí)間序列預(yù)測結(jié)果出現(xiàn)的差異主要是由原始時(shí)間序列波動(dòng)和量級的影響所致。由實(shí)測結(jié)果可知,目標(biāo)斷面pH值在7.13~7.82波動(dòng),而DO質(zhì)量濃度雖出現(xiàn)驟變情況,但驟變前后兩個(gè)點(diǎn)的值很接近。相比之下,濁度易受往來船只和天氣等因素的影響,即使剔除了異常數(shù)據(jù),其數(shù)據(jù)波動(dòng)(40~150 NTU)仍較大。由此可見,數(shù)據(jù)波動(dòng)可能是造成pH、DO質(zhì)量濃度和濁度預(yù)測結(jié)果具有差異性的主要原因。
表9 預(yù)測效果評價(jià)Table 9 Evaluation of the prediction effect
(1)通過調(diào)整輸入數(shù)據(jù)量、延遲階數(shù)和隱含層神經(jīng)元數(shù)優(yōu)化NAR神經(jīng)網(wǎng)絡(luò)模型,當(dāng)輸入數(shù)據(jù)量為180,模型參數(shù)延遲階數(shù)分別為2、3和9,隱含層神經(jīng)元數(shù)為10時(shí),模型對pH、DO質(zhì)量濃度和濁度的預(yù)測效果最好。
(2)在最優(yōu)參數(shù)設(shè)置條件下,NAR神經(jīng)網(wǎng)絡(luò)模型對pH、DO質(zhì)量濃度和濁度的預(yù)測均方根誤差分別為0.053、0.382 mg/L和17.300 NTU,平均絕對百分比誤差分別為0.53%、3.97%和18.01%,模型對pH和DO質(zhì)量濃度的預(yù)測精度優(yōu)于濁度。
(3)針對地表水環(huán)境系統(tǒng)復(fù)雜且完全非線性的特點(diǎn),NAR神經(jīng)網(wǎng)絡(luò)模型具有很強(qiáng)的非線性映射能力和靈活的網(wǎng)絡(luò)結(jié)構(gòu),預(yù)測精度較高,在水質(zhì)預(yù)測預(yù)警和評價(jià)方面具有較好的應(yīng)用價(jià)值。