李若楠,王 琦,劉書明
基于典型相關(guān)系數(shù)和隨機(jī)森林的水質(zhì)預(yù)警方法
李若楠1,王 琦2*,劉書明3
(1.中國政法大學(xué)民商經(jīng)濟(jì)法學(xué)院,北京 100088;2.廣東工業(yè)大學(xué)土木與交通工程學(xué)院,廣東 廣州 510006;3.清華大學(xué)環(huán)境學(xué)院,北京 100083)
針對(duì)突發(fā)水污染事件提出一種高精度的預(yù)警方法.首先,通過模擬實(shí)驗(yàn)建立包含22種常見污染物的突發(fā)水污染事件數(shù)據(jù)庫,然后采用典型相關(guān)系數(shù)準(zhǔn)確揭示污染事件發(fā)生后多元水質(zhì)參數(shù)之間的協(xié)同反饋規(guī)律.最后,基于多參數(shù)協(xié)同反饋規(guī)律構(gòu)建“典型相關(guān)系數(shù)-隨機(jī)森林”水質(zhì)預(yù)警模型.結(jié)果表明預(yù)警模型對(duì)已知和未知污染物的平均準(zhǔn)報(bào)率分別為96.78%和98.33%,對(duì)水質(zhì)監(jiān)測基線的平均誤報(bào)率為0.16%.本研究成果可為降低突發(fā)水污染事件損失和保障供水安全提供有效的技術(shù)支撐.
突發(fā)污染;水質(zhì)預(yù)警;多參數(shù)協(xié)同反饋;典型相關(guān)系數(shù);隨機(jī)森林
建立有效的水質(zhì)在線監(jiān)測預(yù)警系統(tǒng)是保障供水安全的重要舉措.目前我國已建成了2767個(gè)國控地表水監(jiān)測點(diǎn),覆蓋約80%的縣區(qū)[1].相較于紫外熒光等新興在線監(jiān)測技術(shù),基于常規(guī)水質(zhì)參數(shù)的傳統(tǒng)監(jiān)測技術(shù)發(fā)展較為成熟,運(yùn)行成本較低,維護(hù)方便且不易受消毒劑影響,具有廣闊的應(yīng)用前景[2-3].當(dāng)前基于常規(guī)水質(zhì)參數(shù)的水質(zhì)預(yù)警方法研究亟需解決的問題主要包括:(1)污染事件數(shù)據(jù)基礎(chǔ)薄弱;(2)預(yù)警模型準(zhǔn)確率低.因此,現(xiàn)有預(yù)警系統(tǒng)的有效性受到了廣泛質(zhì)疑.例如,在2017年5月四川發(fā)生的鉈污染事件中,水質(zhì)預(yù)警系統(tǒng)未能發(fā)出污染警報(bào).
本研究旨在通過構(gòu)建較為完善的突發(fā)水污染事件復(fù)合數(shù)據(jù)庫,揭示多參數(shù)協(xié)同反饋規(guī)律,提出表征參數(shù)間關(guān)聯(lián)性的量化方法.通過對(duì)比分析表征水質(zhì)參數(shù)之間關(guān)聯(lián)性的多種方法,遴選出最適于污染事件探測的相關(guān)系數(shù)——典型相關(guān)系數(shù).在此基礎(chǔ)上,將典型相關(guān)系數(shù)作為輸入變量代入隨機(jī)森林分類模型.樣本和特征選擇的隨機(jī)性、投票機(jī)制均可使隨機(jī)森林模型的分類結(jié)果免受極端樣本、極端特征的影響[4-5].本研究通過構(gòu)建面向突發(fā)水污染事件的高精度水質(zhì)預(yù)警方法,提高了現(xiàn)有水質(zhì)預(yù)警系統(tǒng)的有效性.
選取實(shí)際水質(zhì)在線監(jiān)測中應(yīng)用較為廣泛的水質(zhì)參數(shù)[6-7],搭建了1套水源模擬實(shí)驗(yàn)系統(tǒng)和2套供水管網(wǎng)模擬實(shí)驗(yàn)系統(tǒng).每套模擬實(shí)驗(yàn)系統(tǒng)均包含7種常規(guī)水質(zhì)參數(shù),具體情況見表1.
表1 水質(zhì)在線監(jiān)測參數(shù)
表2 22種污染物的國家標(biāo)準(zhǔn)限值及實(shí)驗(yàn)濃度[8-10]
依據(jù)以下兩個(gè)標(biāo)準(zhǔn)來確定目標(biāo)污染物的種類和濃度:(1)近年來我國突發(fā)水污染事件中造成顯著生態(tài)環(huán)境影響的主要污染物,(2)國家水質(zhì)標(biāo)準(zhǔn)(包括《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》[8]、《生活飲用水衛(wèi)生標(biāo)準(zhǔn)》[9]和《地下水質(zhì)量標(biāo)準(zhǔn)》[10])中的典型污染物.本研究所選擇的22種污染物的實(shí)驗(yàn)濃度和對(duì)應(yīng)的國家水質(zhì)標(biāo)準(zhǔn)限值如表2所示.實(shí)驗(yàn)濃度指模擬實(shí)驗(yàn)中污染物在水中達(dá)到的最高濃度,其中化學(xué)藥品類(包含無機(jī)鹽、無機(jī)酸、堿和重金屬)的濃度單位為mg/L;廢水、再生水類的濃度單位用百分比表示.需要注意的是廢水和再生水是作為污染物參與供水系統(tǒng)污染預(yù)警實(shí)驗(yàn).如式(1)所示,廢水、再生水類的濃度()等于所投加污染物的體積(C)與基線水總體積(B)之比.
水源和供水管網(wǎng)突發(fā)污染事件的模擬實(shí)驗(yàn)包括建立水質(zhì)基線和模擬突發(fā)污染事件兩個(gè)階段.如圖1所示,在建立水質(zhì)基線階段,關(guān)閉加藥泵和閥門1、2,水源水或管網(wǎng)水在系統(tǒng)內(nèi)循環(huán)流動(dòng)約4~6h.設(shè)備A、B、C分別為水源模擬實(shí)驗(yàn)、管網(wǎng)模擬實(shí)驗(yàn)1和2使用的在線監(jiān)測裝置.在模擬污染事件階段,打開加藥泵和閥門1、2,污染物和水混合通過在線監(jiān)測設(shè)備,最后一起排入廢液桶.
圖1 突發(fā)污染事件模擬實(shí)驗(yàn)系統(tǒng)示意[11]
突發(fā)污染事件后水質(zhì)參數(shù)監(jiān)測值的變化包括上升、下降和無變化三類.表3為水源突發(fā)污染事件模擬實(shí)驗(yàn)、管網(wǎng)突發(fā)污染事件模擬實(shí)驗(yàn)1和2結(jié)果的匯總.通過分析表3中監(jiān)測數(shù)據(jù)的變化規(guī)律,發(fā)現(xiàn)所有污染物在水源和供水管網(wǎng)突發(fā)污染模擬實(shí)驗(yàn)中均可引起多種水質(zhì)參數(shù)監(jiān)測值同時(shí)發(fā)生變化,即污染事件發(fā)生后存在多參數(shù)協(xié)同反饋現(xiàn)象,這與已有研究的結(jié)論一致[11-12].污染物進(jìn)入水體后,污染物本身的物理化學(xué)性質(zhì)(例如顏色、狀態(tài)、溶解性等),污染物與水分子、余氯等發(fā)生的化學(xué)反應(yīng)以及水質(zhì)參數(shù)之間的關(guān)聯(lián)性等原因共同導(dǎo)致了多參數(shù)協(xié)同變化,這是污染事件導(dǎo)致多參數(shù)協(xié)同反饋現(xiàn)象的根本原因.
以無機(jī)鹽污染事件為例進(jìn)行說明.實(shí)驗(yàn)所選擇的無機(jī)鹽類污染物包括NaF、Na2S和NaNO3三種.圖2、圖3和圖4分別為0.8mg/L NaF、0.4mg/L
表3 模擬實(shí)驗(yàn)中突發(fā)污染引發(fā)的水質(zhì)參數(shù)變化規(guī)律
圖2 0.8mg/L氟化鈉實(shí)驗(yàn)結(jié)果(河流水)
圖3 0.4mg/L硫化鈉實(shí)驗(yàn)結(jié)果(地下水)
圖4 2.4mg/L硝酸鈉實(shí)驗(yàn)結(jié)果(地下水)
Na2S、2.4mg/L NaNO3污染事件模擬實(shí)驗(yàn)的結(jié)果.污染物濃度是指模擬實(shí)驗(yàn)過程中污染物在水中能夠達(dá)到的最高濃度.例如, 0.8mg/L NaF突發(fā)污染事件是指通過加藥泵以2mL/分鐘的流量,向300L水源水中持續(xù)注入NaF溶液約30分鐘,直至水源水中NaF濃度為0.8mg/L.無機(jī)鹽類污染物導(dǎo)致的突發(fā)污染事件,增加了水中的離子濃度,因此,導(dǎo)致電導(dǎo)率參數(shù)值上升.此外,NaF和Na2S具有較強(qiáng)還原性,會(huì)導(dǎo)致ORP參數(shù)值下降.無機(jī)鹽對(duì)pH值的影響取決于無機(jī)鹽本身的酸堿性,例如,NaF、Na2S為堿性,會(huì)導(dǎo)致pH值升高;而NaNO3為中性,則對(duì)pH值沒有影響,但NO3-會(huì)導(dǎo)致水中硝態(tài)氮含量明顯增加.
利用多元水質(zhì)參數(shù)協(xié)同反饋現(xiàn)象進(jìn)行污染事件預(yù)警的關(guān)鍵問題在于如何定量表征協(xié)同反饋現(xiàn)象.協(xié)同反饋現(xiàn)象可解析為水質(zhì)參數(shù)之間關(guān)聯(lián)性增加[11-12].相較于人工神經(jīng)網(wǎng)絡(luò)(ANNs)和支持向量機(jī)(SVM)等數(shù)據(jù)挖掘算法,相關(guān)系數(shù)能夠更直接、高效地表征水質(zhì)參數(shù)之間的關(guān)聯(lián)性[13-14].因此,本研究利用相關(guān)系數(shù)對(duì)水質(zhì)參數(shù)之間的關(guān)聯(lián)性進(jìn)行定量表征,實(shí)現(xiàn)利用協(xié)同反饋現(xiàn)象進(jìn)行污染事件預(yù)警的目標(biāo).
4.1.1 相關(guān)系數(shù)遴選標(biāo)準(zhǔn) 為實(shí)現(xiàn)對(duì)污染事件探測的目的,相關(guān)系數(shù)在污染事件發(fā)生前后需滿足以下兩個(gè)基本條件:(1)在基線狀態(tài)下相關(guān)系數(shù)波動(dòng)較小;(2)污染發(fā)生前后變化明顯.在基線狀態(tài)下相關(guān)系數(shù)波動(dòng)較小能夠保證較低的誤報(bào)率;而污染事件發(fā)生前后相關(guān)系數(shù)有明顯差異能夠?qū)崿F(xiàn)對(duì)污染事件的準(zhǔn)確識(shí)別.
4.1.2 相關(guān)系數(shù)種類與原理 選取的相關(guān)系數(shù)包括兩兩水質(zhì)參數(shù)之間的線性相關(guān)系數(shù)(皮爾遜相關(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)、肯德爾相關(guān)系數(shù))和非線性相關(guān)系數(shù)(最大信息系數(shù))、復(fù)相關(guān)系數(shù)以及多元相關(guān)系數(shù)(典型相關(guān)系數(shù)).需要說明的是、變量在每次計(jì)算時(shí),分別代表兩個(gè)或兩組不同的水質(zhì)參數(shù).所有水質(zhì)參數(shù)按排列組合順序,依次代入、變量,參與相關(guān)系數(shù)計(jì)算.
皮爾遜相關(guān)系數(shù)(ρ)為兩個(gè)變量之間的積差相關(guān)系數(shù),是分析兩個(gè)變量、之間線性相關(guān)關(guān)系最常用的系數(shù),其計(jì)算公式如式(2)所示[11,15].在本研究中、分別代表一種水質(zhì)參數(shù).式(2)中,()代表協(xié)方差,()、()代表方差.
斯皮爾曼相關(guān)系數(shù)(S)是兩個(gè)等級(jí)變量之間的相關(guān)系數(shù),其計(jì)算公式如式(3)所示,其中,為兩個(gè)等級(jí)變量之間的差值,為、變量中包括的元素個(gè)數(shù)[15].
肯德爾相關(guān)系數(shù)()也是一種線性等級(jí)相關(guān)系數(shù),其計(jì)算公式如式(4)所示,其中,表示、中具有一致性的元素對(duì)數(shù)(兩個(gè)元素為一對(duì)),表示、中不具有一致性的元素對(duì)數(shù),為、變量中包括的元素個(gè)數(shù)[16].假設(shè)(X,Y)與(X,Y)為當(dāng)、中任意兩個(gè)元素對(duì),當(dāng)X>X且Y>Y或X<X且Y<Y,則認(rèn)為(X,Y)與(X,Y)一致,否則認(rèn)為(X,Y)與(X,Y)不一致.
2011年Reshef提出基于信息熵的最大信息系數(shù)[17](MIC)來計(jì)算兩個(gè)變量、之間的非線性相關(guān)關(guān)系,其計(jì)算公式如式(5)所示:
典型相關(guān)系數(shù)是一種用來量化兩組向量之間相關(guān)性的多元統(tǒng)計(jì)分析工具[12,19].首先定義一個(gè)指數(shù)與每一個(gè)樣本的其他變量指標(biāo)之間的相關(guān)性得到最大化.對(duì)于隨機(jī)變量?R和?R,構(gòu)建隨機(jī)變量的線性組合:
假定:
其中,協(xié)方差結(jié)構(gòu)的子矩陣為:
則:
對(duì)于任意的,存在(,)=(,).基于單位不變性,可以調(diào)節(jié)映射和以等價(jià)求解.
約束條件為:
定義:
矩陣可以分解為:
其中:
且1323…是1=KK和2=KK的非零特征根,和是1和2的標(biāo)準(zhǔn)特征向量,=1,…,,=2即為典型相關(guān)系數(shù).
4.1.3 遴選結(jié)果與分析 圖5為基線狀態(tài)下6種相關(guān)系數(shù)的標(biāo)準(zhǔn)差.其中,典型相關(guān)系數(shù)波動(dòng)幅度最小,復(fù)相關(guān)系數(shù)的波動(dòng)低于兩兩水質(zhì)參數(shù)之間的相關(guān)系數(shù).圖6為污染事件發(fā)生前后各相關(guān)系數(shù)的均值變化規(guī)律.典型相關(guān)系數(shù)在污染事件發(fā)生前后變化最明顯.皮爾遜相關(guān)系數(shù)、肯德爾相關(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)的變化規(guī)律相似,但均較難用于區(qū)分是否發(fā)生了污染事件.在兩兩之間的相關(guān)系數(shù)中,最大信息系數(shù)在污染事件前后的變化最為明顯,但其中5個(gè)最大信息系數(shù)在污染事件前后沒有顯著變化(4個(gè)沒有變化,1個(gè)有微小變化).7個(gè)復(fù)相關(guān)系數(shù)中有5個(gè)在污染事件前后變化較為明顯.56個(gè)典型相關(guān)系數(shù)在污染事件前后均有明顯變化.圖6為所有污染物的平均結(jié)果,典型相關(guān)系數(shù)對(duì)污染事件更敏感,因此,典型相關(guān)系數(shù)對(duì)協(xié)同反饋現(xiàn)象的表征作用優(yōu)于兩兩參數(shù)之間的相關(guān)系數(shù)和復(fù)相關(guān)系數(shù).
圖5 基線狀態(tài)相關(guān)系數(shù)的波動(dòng)
圖6 污染事件前后相關(guān)系數(shù)均值變化
基于4.1節(jié)相關(guān)系數(shù)的遴選結(jié)果,本研究構(gòu)建了基于典型相關(guān)系數(shù)的水質(zhì)預(yù)警模型.模型框架分為離線訓(xùn)練和實(shí)時(shí)在線監(jiān)測預(yù)警兩個(gè)部分.模型的建立在離線訓(xùn)練過程完成,主要包括如下步驟:(1)典型相關(guān)分析,獲得典型相關(guān)系數(shù)向量;(2)利用分類模型進(jìn)行水質(zhì)在線監(jiān)測數(shù)據(jù)分類;(3)利用評(píng)價(jià)標(biāo)準(zhǔn)對(duì)模型效果進(jìn)行評(píng)價(jià),并對(duì)模型參數(shù)進(jìn)行優(yōu)化.在線監(jiān)測過程利用優(yōu)化后的模型進(jìn)行實(shí)時(shí)水質(zhì)狀況判斷.本研究所采用的分類模型為多棵決策樹通過Bagging方式構(gòu)建的隨機(jī)森林分類模型.樣本和特征選擇的隨機(jī)性、投票機(jī)制均使隨機(jī)森林模型具有較高魯棒性,有利于利用典型相關(guān)系數(shù)變化實(shí)現(xiàn)水質(zhì)預(yù)警[4-5].典型相關(guān)系數(shù)-隨機(jī)森林污染預(yù)警模型的框架如圖7所示.
圖7 預(yù)警模型框架
污染預(yù)警模型的結(jié)果主要有以下四種:(1)真陽性(TP),判斷出污染事件發(fā)生,實(shí)際也有污染事件發(fā)生;(2)偽陽性(FP),判斷出污染事件發(fā)生,實(shí)際卻沒有污染事件發(fā)生;(3)真陰性(TN),判斷為基線狀況,實(shí)際也沒有污染事件發(fā)生;(4)偽陰性(FN),判斷為基線狀況,實(shí)際有污染事件發(fā)生.采用的評(píng)價(jià)指標(biāo)為準(zhǔn)報(bào)率(TPR)、誤報(bào)率(FPR)和準(zhǔn)確率(Accuracy). TPR越高,則污染事件被探測出的概率越高,FPR越高,則基線被誤判為污染事件的概率越高,Accuracy則綜合考慮上述兩類錯(cuò)誤[20].
通過分析預(yù)警模型參數(shù)靈敏性,確定模型參數(shù)優(yōu)化的范圍和步長,優(yōu)化過程僅在訓(xùn)練集進(jìn)行.采用遺傳算法和10折交叉驗(yàn)證的方法進(jìn)行參數(shù)優(yōu)化,保證模型參數(shù)優(yōu)化結(jié)果對(duì)應(yīng)穩(wěn)定的效果[21].
在本研究中將全部樣本隨機(jī)分為兩組,分別為訓(xùn)練集和測試集.訓(xùn)練集和測試集分別占總數(shù)據(jù)量的70%和30%.訓(xùn)練集的數(shù)據(jù)量大于測試集的數(shù)據(jù)量,但測試集中包括的污染物種類多于訓(xùn)練集中的污染物種類.TPR、FPR和Accuracy的均值作為一組模型參數(shù)組合的結(jié)果.
5.2.1 對(duì)水質(zhì)基線測試集的探測效果 在線監(jiān)測數(shù)據(jù)中水質(zhì)基線數(shù)據(jù)量遠(yuǎn)高于污染事件數(shù)據(jù)量.決定水質(zhì)預(yù)警模型能否實(shí)際應(yīng)用的標(biāo)準(zhǔn)既包括能夠?qū)ξ廴臼录M(jìn)行快速、準(zhǔn)確探測,即對(duì)污染事件有很高的TPR,還包括對(duì)水質(zhì)基線具有很低的FPR.為檢驗(yàn)該模型對(duì)水質(zhì)基線的探測效果,采用6組水質(zhì)基線數(shù)據(jù)進(jìn)行檢測.6組水質(zhì)基線的監(jiān)測時(shí)長均為24~72h.模型對(duì)6組水質(zhì)基線的探測FPR如表4所示,6組水質(zhì)基線的平均FPR為0.16%.
5.2.2 對(duì)已知污染物測試集的探測效果 已知污染物是指同時(shí)出現(xiàn)在訓(xùn)練集和測試集中的污染物.如表5所示,已知污染物測試集包含12種不同濃度污染物(2種無機(jī)鹽、3種重金屬、6種有機(jī)物和1種混合物),共31組突發(fā)污染事件模擬數(shù)據(jù).水質(zhì)預(yù)警模型在31組測試集上的平均準(zhǔn)確率為98.04%,平均TPR為96.78%,平均FPR為0.73%.其中,20組測試集的準(zhǔn)確率為100.00%,即有64.52%測試集的探測效果完全準(zhǔn)確.同時(shí),測試結(jié)果表明污染物濃度越高,則典型相關(guān)系數(shù)-隨機(jī)森林水質(zhì)預(yù)警模型對(duì)于污染事件的探測準(zhǔn)確率越高.導(dǎo)致這一現(xiàn)象的根本原因:相較于低濃度污染物,高濃度污染物引起的多元水質(zhì)參數(shù)之間的協(xié)同反饋現(xiàn)象更為明顯,即水質(zhì)參數(shù)之間的關(guān)聯(lián)性變化更明顯.因此,模型更易于識(shí)別高濃度污染物引起的典型相關(guān)系數(shù)變化,即對(duì)應(yīng)更高的探測準(zhǔn)確率.
表4 水質(zhì)基線狀態(tài)下的探測效果
表5 已知污染物測試集的探測效果
續(xù)表5
表6 未知污染物測試集的探測效果
5.2.3 對(duì)未知污染物測試集的探測效果 未知污染物是指僅出現(xiàn)在測試集未出現(xiàn)于訓(xùn)練集中的污染物.如表6所示,未知污染物測試集包含7種不同濃度污染物(1種無機(jī)鹽、2種重金屬、1種有機(jī)物、3種混合物),共21組突發(fā)污染事件模擬數(shù)據(jù).模型對(duì)未知污染物測試集的平均探測準(zhǔn)確率為98.82%,平均TPR為98.33%,平均FPR為0.18%.其中,16組測試集的準(zhǔn)確率為100.00%,占未知污染事件測試集的76.19%.未知污染物并未出現(xiàn)在訓(xùn)練集中,測試結(jié)果表明該預(yù)警模型對(duì)于未知污染物表現(xiàn)出較高的準(zhǔn)確率.同已知污染物測試集相似,未知污染物測試集中,模型對(duì)于高濃度污染物的探測準(zhǔn)確率也高于低濃度污染物.需要說明的是與已知污染物測試集的效果相比,未知污染物測試集的效果略好,僅說明該模型具有較好應(yīng)用潛力,但并不意味著該模型適用于所有污染物引起的污染事件探測.
對(duì)22種常見污染物的突發(fā)水污染事件進(jìn)行了模擬實(shí)驗(yàn),建立了相關(guān)污染事件數(shù)據(jù)庫.針對(duì)突發(fā)污染事件引起的多參數(shù)協(xié)同反饋現(xiàn)象,提出了定量表征方法,并建立了相關(guān)系數(shù)的遴選原則.通過與其他相關(guān)系數(shù)進(jìn)行對(duì)比,發(fā)現(xiàn)了典型相關(guān)系數(shù)具備探測污染事件的突出優(yōu)勢,即在未發(fā)生污染時(shí)波動(dòng)較小,而在污染發(fā)生后變化較明顯.因此,典型相關(guān)系數(shù)可以作為準(zhǔn)確表征突發(fā)水污染事件引起的多水質(zhì)參數(shù)協(xié)同反饋現(xiàn)象的工具.
構(gòu)建了典型相關(guān)系數(shù)-隨機(jī)森林水質(zhì)預(yù)警模型,建立了模型參數(shù)優(yōu)化框架.該模型對(duì)已知污染物和未知污染物的準(zhǔn)報(bào)率分別為96.78%和98.33%,對(duì)水質(zhì)監(jiān)測基線的平均誤報(bào)率為0.16%.污染物濃度越高,對(duì)應(yīng)的模型探測準(zhǔn)確率越高.
建議未來應(yīng)系統(tǒng)地建立國家層面的突發(fā)水污染事件風(fēng)險(xiǎn)管理數(shù)據(jù)庫,廣泛搜集各層級(jí)水質(zhì)在線監(jiān)測系統(tǒng)長期監(jiān)測的水質(zhì)數(shù)據(jù),尤其是真實(shí)污染事件數(shù)據(jù),共享水質(zhì)實(shí)時(shí)監(jiān)測信息,為我國水質(zhì)預(yù)警研究提供完備的基礎(chǔ)數(shù)據(jù),為突發(fā)水污染事件應(yīng)急制度研究提供技術(shù)支持.
[1] Cui B, Meng Q H. Smart water monitoring and management system based on the architecture of internet of things [J]. Applied Mechanics & Materials, 2013,278-280(5):1822-1825.
[2] 吳 靜,崔 碩,謝超波,等.好氧處理后城市污水熒光指紋的變化 [J]. 光譜學(xué)與光譜分析, 2011,31(12):3302-3306.
Wu J, Cui S, Xie C B, et al. Fluorescence fingerprint transformation of municipal wastewater caused by aerobic treatment [J]. Spectroscopy and Spectral Analysis, 2011,31(12):3302-3306.
[3] 袁永欽,匡 科,沈 軍.廣州市西江引水工程水質(zhì)預(yù)警系統(tǒng)研究與實(shí)踐 [J]. 中國給水排水, 2011,27(6):1-5.
Yuan Y Q, Kuang K, Shen J. Research and application of early- warning system for source water quality Xijiang River water diversion project [J]. China Water and Wastewater, 2011,27(6):1-5.
[4] Roy M, Larocque D. Robustness of random forests for regression [J]. Journal of Nonparametric Statistics, 2012,24(4):993-1006.
[5] Bonissone P, Garrido M C. A fuzzy random forest [J]. International Journal of Approximate Reasoning, 2010,51(7):729-747.
[6] 姜 旭,舒 強(qiáng),紀(jì) 峰.城市供水管網(wǎng)水質(zhì)在線監(jiān)測預(yù)警系統(tǒng)構(gòu)建及應(yīng)用研究 [J]. 給水排水, 2017,S1:282-284.
Jiang X, Shu Q, Ji F. Urban water supply network on-line early warning automatic monitoring system for early warning and applications. Water and Wastewater Engineering, 2017,S1:282-284.
[7] 張錫輝,鄭振華,歐陽二明.水源水質(zhì)在線監(jiān)測預(yù)警系統(tǒng)的建設(shè) [J]. 中國給水排水, 2005,21(11):14-17.
Zhang X H, Zheng Z H, Ouyang E M. Construction of on-line monitoring and warning system for raw water quality [J].China Water and Wastewater, 2005,21(11):14-17.
[8] GB3838-2002 地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)[S].
GB3838-2002 Environmental quality standards for surface water [S].
[9] GB5749-2006 生活飲用水衛(wèi)生標(biāo)準(zhǔn)[S].
GB5749-2006 Standards for Drinking Water Quality [S].
[10] GB14848-2017 地下水質(zhì)量標(biāo)準(zhǔn)[S].
GB14848-2017 Stand for ground water quality [S].
[11] Liu S, Che H, Smith K, et al. Contamination event detection using multiple types of conventional water quality sensors in source water [J]. Environmental Science Processes & Impacts, 2014,16(8):2028-2038.
[12] Li R, Liu S, Smith K, et al. A canonical correlation analysis based method for contamination event detection in water source [J]. Environmental Science: Processes & Impacts, 2016,18:658-666.
[13] Perelman L, Arad J, Housh M, et al. Event detection in water distribution systems from multivariate water quality time series [J]. Environmental Science & Technology, 2012,46(15):8212-8219.
[14] Oliker N, Ostfeld A. A coupled classification-evolutionary optimization model for contamination event detection in water distribution systems [J]. Water Research, 2014,51(3):234-245.
[15] De Winter J C, Gosling S D, Potter J. Comparing the Pearson and Spearman correlation coefficients across distributions and sample sizes: a tutorial using simulations and empirical data [J]. Psychological Methods, 2016,21(3):273-290.
[16] Puth M T, Neuh?user M, Ruxton G D. Effective use of Spearman's and Kendall's correlation coefficients forassociation between two measured traits. Animal Behaviour, 2015,102(1):77-84.
[17] Kinney J B, Atwal G S. Equitability, mutual information, and the maximal information coefficient [J]. Proceedings of the National Academy of Sciences of the United States of America, 2014,111(9):3354-3368.
[18] Barnhart H X, Haber M, Song J. Overall concordance correlation coefficient for evaluating agreement among multiple observers [J]. Biometrics, 2002,58(4):1020-1027.
[19] Kelley K. Sample size planning for the squared multiple correlation coefficient: accuracy in parameter estimation via narrow confidence intervals [J]. British Journal of Mathematical & Statistical Psychology, 2008,43(4):524-555.
[20] Ma S, Huang J. Regularized ROC method for disease classification and biomarker selection with microarray data [J]. Bioinformatics, 2005,21(24):4356-4362.
[21] Marcell S, András L, ádám N, et al. Cross-validation of survival associated biomarkers in gastric cancer using transcriptomic data of 1,065patients [J]. Oncotarget, 2016,7(31):49322-49333.
Water quality warning method based on canonical correlation coefficient and random forest.
LI Ruo-nan1, WANG Qi2*, LIU Shu-ming3
(1.Civil, Commercial and Ecnomic Law School, China University of Political Science and Law, Beijing 100088, China;2.School of Civil and Transportation Engineering, Guangdong University of Technology, Guangzhou 510006, China;3.School of Environment, Tsinghua University, Beijing 100083, China)., 2021,41(9):4457~4464
This study proposed a high-precision early-warning method for detecting sudden water pollution incidents. Firstly, a database of sudden water pollution incidents containing 22common pollutants was established through simulation experiments. Secondly, the canonical correlation coefficients were used to accurately reveal the synergetic feedback law among various water quality parameters after pollution incidents. Finally, a water quality early-warning model, called “canonical correlation coefficients-random forest”, was developed based on the multi-parameter synergetic feedback law identified above. Results show that the early-warning model's average true positive rates for known and unknown pollutants are 96.78% and 98.33%, respectively, while the average false positive rate under baseline status of water quality monitoring is 0.16%. The proposed early-warning model can provide practical technical support for reducing the loss of sudden water pollution incidents and ensuring the drinking water supply's safety.
sudden pollution;water quality warning;multi-parameter synergetic feedback;canonical correlation coefficient;random forest
X832
A
1000-6923(2021)09-4457-08
李若楠(1990-),女,山東東營人,博士,主要從事水質(zhì)預(yù)警研究.發(fā)表論文3篇.
2021-02-01
水體污染控制與治理科技重大專項(xiàng)(2017ZX07201002)
* 責(zé)任作者, 副教授, wangqiguangzhou@163.com