李秋瑤
摘要:為實(shí)現(xiàn)基于水質(zhì)自動(dòng)監(jiān)測(cè)數(shù)據(jù)對(duì)未來(lái)水質(zhì)數(shù)據(jù)的快速預(yù)測(cè)預(yù)報(bào),以水質(zhì)自動(dòng)監(jiān)測(cè)數(shù)據(jù)為基礎(chǔ),結(jié)合統(tǒng)計(jì)學(xué)基本原理,基于多元線性回歸模型建模,將前一日自動(dòng)監(jiān)測(cè)數(shù)據(jù)作為自變量,后一日各污染源因子濃度作為因變量,研究建立河流水質(zhì)預(yù)測(cè)模型的變化響應(yīng)關(guān)系。通過(guò)對(duì)模型的檢驗(yàn)和校正,在試驗(yàn)斷面上,基本達(dá)到了快速預(yù)測(cè)預(yù)警的效果,模型在實(shí)際預(yù)測(cè)中效果較好。該方法所需數(shù)據(jù)較少,預(yù)測(cè)快速,準(zhǔn)確及時(shí),因此,該方法可作為輔助手段應(yīng)用于實(shí)際水質(zhì)監(jiān)測(cè)預(yù)警工作。
關(guān)鍵詞:多元線性回歸預(yù)測(cè);河流水質(zhì)預(yù)測(cè);水質(zhì)預(yù)測(cè)方法
一、前言
水質(zhì)自動(dòng)監(jiān)測(cè)是一項(xiàng)與國(guó)民經(jīng)濟(jì)密切相關(guān)的基礎(chǔ)工作,也是開(kāi)展水質(zhì)預(yù)測(cè)預(yù)警的重要前提[1]??茖W(xué)準(zhǔn)確的水質(zhì)預(yù)測(cè)預(yù)警有助于認(rèn)識(shí)水質(zhì)變化的規(guī)律和發(fā)展態(tài)勢(shì),增加其在保障水質(zhì)安全、水污染防治上的決策主動(dòng)性和工作效率[2-3]。
近年來(lái),《國(guó)務(wù)院關(guān)于印發(fā)水污染防治行動(dòng)計(jì)劃的通知》[4]等一系列通知,明確提出改善水環(huán)境質(zhì)量的目標(biāo)和要求,旨在推進(jìn)重點(diǎn)流域污染治理,切實(shí)改善水環(huán)境質(zhì)量。對(duì)于重點(diǎn)河流斷面,持續(xù)開(kāi)展水質(zhì)預(yù)測(cè),以預(yù)測(cè)數(shù)據(jù)作為后續(xù)污染防治工作決策的依據(jù),具有重要的現(xiàn)實(shí)意義。
隨著地表水自動(dòng)監(jiān)測(cè)技術(shù)的成熟和推廣應(yīng)用,環(huán)境監(jiān)測(cè)監(jiān)管部門能夠?qū)崟r(shí)獲取監(jiān)測(cè)點(diǎn)位的水質(zhì)情況。自動(dòng)監(jiān)測(cè)數(shù)據(jù)監(jiān)測(cè)頻率高,監(jiān)測(cè)時(shí)間連續(xù),具備開(kāi)展大數(shù)據(jù)統(tǒng)計(jì)預(yù)測(cè)的條件。各地也陸續(xù)開(kāi)展了相關(guān)的研究和試點(diǎn)工作,利用自動(dòng)監(jiān)測(cè)數(shù)據(jù)開(kāi)展統(tǒng)計(jì)預(yù)測(cè)有以下研究意義:①由于自動(dòng)數(shù)據(jù)實(shí)時(shí)性高,可基于自動(dòng)監(jiān)測(cè)數(shù)據(jù)實(shí)現(xiàn)快速預(yù)測(cè)預(yù)報(bào);②自動(dòng)監(jiān)測(cè)數(shù)據(jù)量大,時(shí)序性高,因此可有效提高水質(zhì)預(yù)測(cè)精度;③通過(guò)基于自動(dòng)監(jiān)測(cè)數(shù)據(jù)的水質(zhì)預(yù)測(cè)能及時(shí)感知污染風(fēng)險(xiǎn);④通過(guò)預(yù)測(cè)值和實(shí)測(cè)值比較,當(dāng)相差較大時(shí),說(shuō)明條件發(fā)生了較大變化,尤其當(dāng)實(shí)測(cè)偏大時(shí)應(yīng)排查異常,及時(shí)把控風(fēng)險(xiǎn)。
通常,河流水質(zhì)預(yù)測(cè)采用綜合指標(biāo)法、平均增長(zhǎng)率法等經(jīng)驗(yàn)類推可以取得較好的研究結(jié)果[5],但需要滿足河流斷面受周邊影響小、水質(zhì)變化小的前提,如河流斷面水質(zhì)受周邊環(huán)境影響較大,其實(shí)際數(shù)據(jù)變化不規(guī)則,采用類推的方法則達(dá)不到理想的效果,因此需要采用建立模型的方法進(jìn)行水質(zhì)預(yù)測(cè)。目前常用定額預(yù)測(cè)法、回歸分析法、灰色預(yù)測(cè)法等水質(zhì)預(yù)測(cè)方法。本研究采用多元線性回歸分析法進(jìn)行模型建模。多元線性回歸模型不僅要對(duì)回歸系數(shù)進(jìn)行檢驗(yàn),還需要對(duì)假設(shè)性和共線性作用方面進(jìn)行研究與驗(yàn)證,從而優(yōu)化變量,篩選適合的模型,增加水質(zhì)預(yù)測(cè)的精確度。
二、多元線性回歸方法基本原理
(一)多元線性回歸模型
對(duì)于河流的水質(zhì)預(yù)測(cè),水質(zhì)變化結(jié)果通常是多個(gè)因素共同影響的結(jié)果,因此,由多個(gè)自變量篩選優(yōu)化后建立的多元線性回歸模型,比單一自變量建立的一元線性回歸模型更符合實(shí)際,更加準(zhǔn)確與客觀。目前,常規(guī)的水質(zhì)自動(dòng)監(jiān)測(cè)因子包括:水溫、pH值、溶解氧、電導(dǎo)率、濁度、高錳酸鹽指數(shù)、氨氮、總磷、總氮等。以溶解氧為例,假定河流水質(zhì)濃度與前一日各因子濃度間存在線性關(guān)系如下:
y=a0+a1x1+a2x2+a3x3+…anxm+ε
式中,y為因變量,x1,x2,x3,……,xm為自變量,a1,a2,……,an為回歸系數(shù);ε為隨機(jī)誤差,假定ε~N(μ,σ2)。
(二)數(shù)據(jù)來(lái)源
本研究根據(jù)前一日各監(jiān)測(cè)因子的濃度水平來(lái)判定對(duì)當(dāng)日監(jiān)測(cè)因子的影響,以溶解氧因子為例,選擇溶解氧作為預(yù)測(cè)因子是因?yàn)槿芙庋跏茄芯康乇硭詢裟芰Φ囊环N重要依據(jù),相對(duì)其他因子來(lái)說(shuō),溶解氧與水溫、pH及其他因子有著密切的關(guān)系,因此可以假定溶解氧濃度可通過(guò)前一日各項(xiàng)因子濃度進(jìn)行預(yù)測(cè)。
本研究建模數(shù)據(jù)來(lái)源于2022年1月至6月廣西某湖庫(kù)水質(zhì)自動(dòng)站的監(jiān)測(cè)數(shù)據(jù)日均值。該水站小時(shí)數(shù)據(jù)有效率為97.32%,日數(shù)據(jù)有效率大于99%。其有效自動(dòng)監(jiān)測(cè)數(shù)據(jù)的完整度和連續(xù)性為研究數(shù)據(jù)演變關(guān)系提供了很大便利,水站監(jiān)測(cè)數(shù)據(jù)包括水溫、pH值、溶解氧、電導(dǎo)率、濁度、高錳酸鹽指數(shù)、氨氮、總磷、總氮。設(shè)自變量前一日水溫為x1,pH為x2,溶解氧為x3,電導(dǎo)率為x4,濁度為x5,高錳酸鹽指數(shù)為x6,氨氮為x7,總磷為x8,總氮為x9,因變量溶解氧預(yù)測(cè)濃度為y。
三、建立方程模型
本文采用的模型基于R語(yǔ)言編寫。首先,將訓(xùn)練數(shù)據(jù)輸入R語(yǔ)言,通過(guò)線性回歸模型進(jìn)行建模,第一次建模得到模型擬合數(shù)據(jù)與實(shí)際數(shù)據(jù)的R2為0.9596,R2度量了多元線性回歸模型的擬合優(yōu)度,說(shuō)明擬合優(yōu)度較好,但模型反應(yīng)水溫、高錳酸鹽指數(shù)、總磷、總氮P值較大,P值代表犯第一類錯(cuò)誤(Ⅰ型錯(cuò)誤)的概率,在回歸方程中,體現(xiàn)了自變量的顯著性。P值越大,說(shuō)明自變量顯著性越低。從第一次模型參數(shù)中得出,水溫、高錳酸鹽指數(shù)、總磷、總氮的顯著性較低,因此將4個(gè)指標(biāo)剔除后重新建模,R2為0.9594,且整體顯著性與第一次建模相當(dāng),且剔除指標(biāo)后由于減少了干擾,剩余指標(biāo)的顯著性得到了提升??赏茢喑鲆蜃兞縴i可以被前一日pH、溶解氧、電導(dǎo)率、濁度、氨氮濃度的線性方程進(jìn)行描述,即:自變量為{x2,x3,x4,x5,x7}。
通過(guò)重新建模,用上一日水質(zhì)因子數(shù)據(jù)與當(dāng)日水質(zhì)因子數(shù)據(jù),建立多元線性回歸方程為:
y=4.943388-0.284600x2+0.913373x3-0.009313x4+0.020536x_5-0.602887x7
四、模型檢驗(yàn)
(一)模型優(yōu)化
回歸模型的優(yōu)化主要從模型假設(shè)診斷,多重共線性進(jìn)行模型的優(yōu)化,首先需要診斷多元回歸模型和假設(shè)相符,即模型的殘差呈正態(tài)分布。其次,模型的自變量不存在多余重復(fù)信息,為簡(jiǎn)化模型提供依據(jù)。
1.模型診斷
通過(guò)繪制殘差圖診斷模型的假定,從圖1殘差圖中可以看出,第4點(diǎn)、第69點(diǎn)、第85點(diǎn)有較大殘差,其中第4點(diǎn)的殘差較大。據(jù)調(diào)查是該日藻類增加導(dǎo)致pH、溶解氧同時(shí)增加,pH前三日數(shù)據(jù)分別為7.16、7.14、7.23,第4日突增到8.02,溶解氧前三日數(shù)據(jù)分別為6.89、6.39、6.82,第4日突增到7.45,但都在3類標(biāo)準(zhǔn)范圍內(nèi),因此驗(yàn)證了該模型方法對(duì)突發(fā)事件預(yù)警的能力。排除4號(hào)點(diǎn)影響后,模型整體殘差在兩側(cè)分布均勻,在-0.2與0.2之間,殘差期望值接近于0。通過(guò)圖1模型的正態(tài)Q-Q圖檢驗(yàn),對(duì)應(yīng)點(diǎn)分布在y=x附近,可以得出模型的殘差值基本呈正態(tài)分布。進(jìn)一步驗(yàn)證模型的構(gòu)建是有效的。
2.共線性優(yōu)化
首先可以對(duì)指標(biāo)開(kāi)展相關(guān)性檢驗(yàn),相關(guān)性檢驗(yàn)可以檢驗(yàn)指標(biāo)之間是否存在明顯的相關(guān)關(guān)系。根據(jù)相關(guān)性檢驗(yàn)結(jié)果,相關(guān)性統(tǒng)計(jì)如表1。
所選指標(biāo)中pH和濁度呈正相關(guān),pH和氨氮呈正相關(guān),溶解氧和氨氮呈負(fù)相關(guān),濁度和氨氮呈負(fù)相關(guān),因此所選指標(biāo)存在共線性。且氨氮與其他3個(gè)指標(biāo)存在明顯的相關(guān)性,考慮先將氨氮作為待剔除指標(biāo),需進(jìn)一步借助VIF與容忍度驗(yàn)證共線強(qiáng)度檢驗(yàn)。根據(jù)R輸出的結(jié)果如表2,在考慮剔除指標(biāo)時(shí),由于pH和氨氮存在較大的共線性關(guān)系,這也與實(shí)際相符,氨氮與水形成弱堿,氨氮的濃度越高,水中的pH值越大,因此優(yōu)先考慮剔除其中一個(gè)指標(biāo),剔除指標(biāo)方法結(jié)合顯著性、容忍度、VIF(方差膨脹因子)進(jìn)行判斷。一般認(rèn)為VIF大于10,容忍度小于0.1,說(shuō)明自變量之間存在顯著的共線性,這里將VIF較大的氨氮進(jìn)行剔除。
VIF越大,容忍度越小,共線性越嚴(yán)重。將指標(biāo)氨氮剔除后,重新建立模型,再次對(duì)模型進(jìn)行容忍度和VIF檢驗(yàn),輸出結(jié)果如表3,自變量容忍度均大于0.1,VIF小于10。新的模型R2變?yōu)?.9581,較之前無(wú)明顯變化。
3.逐步回歸驗(yàn)證
本文采用赤池信息量準(zhǔn)則(AIC)進(jìn)行逐步回歸分析,得到最小AIC組合為:pH、溶解氧、濁度、電導(dǎo)率。最終表明無(wú)需再剔除指標(biāo),模型方程得到確認(rèn)。
最終模型方程為:
y=1.576793-0.103860x2+0.967248x3-0.003806x4+0.018848x5
(二)擬合檢驗(yàn)
通過(guò)對(duì)溶解氧的實(shí)測(cè)值與預(yù)測(cè)值的相對(duì)誤差進(jìn)行比較,以及y和yi之間的相對(duì)誤差分析,根據(jù)圖2曲線圖可以看出,溶解氧實(shí)際值和預(yù)測(cè)值擬合度良好,擬合值和實(shí)測(cè)值呈顯著的正相關(guān)性,說(shuō)明多元線性回歸模型具有較高的精準(zhǔn)度,對(duì)歷史值的預(yù)測(cè)較好。
五、結(jié)果驗(yàn)證
通過(guò)多元線性回歸模型對(duì)水站2022年8月—12月每日溶解氧數(shù)據(jù)進(jìn)行預(yù)測(cè),得到預(yù)測(cè)值與實(shí)測(cè)值的擬合結(jié)果如圖3所示,預(yù)測(cè)結(jié)果誤差核密度如圖4所示。
從相對(duì)誤差核密度圖可看出,多元線性回歸預(yù)測(cè)平均相對(duì)誤差近似為0.328%(接近于期望0),最大相對(duì)誤差為14.5%,75%誤差分位數(shù)為3.2%,90%分位數(shù)為5.4%,95%分位數(shù)為7.8%,即95%的情況下,誤差精度在8%以內(nèi),說(shuō)明多元線性回歸模型滿足水質(zhì)預(yù)測(cè)預(yù)報(bào)的精度要求,模型預(yù)測(cè)效果較好,為水質(zhì)預(yù)測(cè)預(yù)警提供了數(shù)據(jù)支撐。
六、結(jié)語(yǔ)
1.本研究利用水站歷史自動(dòng)監(jiān)測(cè)數(shù)據(jù),基于多元線性回歸分析法,建立多元線性回歸模型對(duì)溶解氧進(jìn)行預(yù)測(cè),結(jié)果表明,在此站點(diǎn),多元線性回歸模型對(duì)預(yù)測(cè)溶解氧濃度具有較高的精確度。
2.利用本研究建立的模型對(duì)水站2022年8月—12月每日溶解氧數(shù)據(jù)進(jìn)行預(yù)測(cè),驗(yàn)證數(shù)據(jù)顯示模型滿足水質(zhì)預(yù)測(cè)的精度要求,預(yù)測(cè)效果較好,為水質(zhì)預(yù)警預(yù)測(cè)提供了數(shù)據(jù)支撐。
3.該方法建模過(guò)程簡(jiǎn)單,結(jié)果直觀,精確度高,大幅度減少了計(jì)算時(shí)間,可在其他斷面推廣和應(yīng)用。
參考文獻(xiàn)
[1]王婷婷,李慧.水質(zhì)監(jiān)測(cè)實(shí)驗(yàn)室的安全管理[J].資源與環(huán)境,2022,48(2):190-192.
[2]張穎,高倩倩.基于灰色模型和模糊神經(jīng)網(wǎng)絡(luò)的綜合水質(zhì)預(yù)測(cè)模型研究[J].環(huán)境工程學(xué)報(bào),2015,9(2):537-545.
[3]石月.基于時(shí)間序列分析的松花江流域水質(zhì)預(yù)測(cè)[D].哈爾濱:哈爾濱師范大學(xué),2015.
[4]國(guó)務(wù)院.國(guó)務(wù)院關(guān)于印發(fā)水污染防治行動(dòng)計(jì)劃的通知[EB/OL].(2015-04-16)[2023-01-17] .http://www.gov.cn/zhengce/content/2015-04/16/content_9613.htm.
[5]申杰,潘楊,黃勇.城市地表水環(huán)境評(píng)價(jià)方法綜述[J].環(huán)??萍?,2011,17(4):41-45.
作者單位:中國(guó)人民大學(xué)