章 俊 倪 薇
?
數(shù)據(jù)挖掘技術(shù)在水質(zhì)自動監(jiān)測站管理中的應(yīng)用
章俊倪薇
水質(zhì)自動監(jiān)測站的水質(zhì)數(shù)據(jù)質(zhì)量和儀器狀態(tài)、外界環(huán)境(水、電、天氣等)、運維狀態(tài)等息息相關(guān),干擾因素很多,因此水質(zhì)數(shù)據(jù)經(jīng)常會有異常值產(chǎn)生,而且有些異常數(shù)據(jù)很難依靠人工判斷,處理難度較大。近年來,由于大數(shù)據(jù)的迅速發(fā)展,使得數(shù)據(jù)挖掘技術(shù)逐漸成熟,各種挖掘算法被廣泛運用于數(shù)據(jù)處理,并有許多成功應(yīng)用的案例。本文嘗試使用數(shù)據(jù)挖掘技術(shù)對新汴河團結(jié)閘水質(zhì)自動監(jiān)測站2014年1~6月的水質(zhì)監(jiān)測數(shù)據(jù)進行處理,剔除異常值,使有效數(shù)據(jù)能夠均勻分布,從而提高數(shù)據(jù)質(zhì)量和規(guī)范性,并通過人工監(jiān)測數(shù)據(jù)進行驗證,取得了好的效果。
數(shù)據(jù)挖掘有很多成熟的技術(shù),但是在水質(zhì)處理和預(yù)測計算方面運用的并不多。本文分析水質(zhì)數(shù)據(jù)的特點,就單個水質(zhì)參數(shù)而言,除非遇到突發(fā)性水污染事故,否則數(shù)據(jù)變化幅度不大,且都是正實數(shù),不包含向量等復(fù)雜數(shù)據(jù)。目前水質(zhì)自動監(jiān)測站每天上傳監(jiān)測數(shù)據(jù)2~4條,頻度不大。聚類分析法處理數(shù)據(jù)過程簡單易懂,實用性較強,選擇聚類分析法可以方便地解決數(shù)據(jù)處理問題,達到預(yù)期效果。
聚類分析是依據(jù)樣本間關(guān)聯(lián)的度量標準將其自動分成幾個類,且使同一類中的樣本相似,而屬于不同類的樣本相異的一組方法。一個聚類分析系統(tǒng)的輸入是一組樣本和一個度量兩個樣本間相似度(或相異度)的標準,聚類分析的輸出是數(shù)據(jù)集的幾個類(簇),這些類構(gòu)成一個分區(qū)或分區(qū)結(jié)構(gòu)。聚類分析的一個附加結(jié)果是對每個類的綜合描述,這種結(jié)果對于進一步深入分析數(shù)據(jù)集的特征尤為重要。這樣應(yīng)用聚類分析法可以將水質(zhì)數(shù)據(jù)中的離群數(shù)據(jù)即異常數(shù)據(jù)剔除掉,提高數(shù)據(jù)質(zhì)量。
聚類分析可以根據(jù)聚類中心點來進行數(shù)據(jù)篩選,一方面可以剔除孤立點,另一方面還可以剔除一些距離中心點過遠的異常數(shù)據(jù),不僅可以剔除異常數(shù)據(jù),還可以使過濾后的數(shù)據(jù)具有良好的規(guī)范性。
本文選擇的水質(zhì)影響因子為高錳酸鹽指數(shù)(CODmn)與氨氮(NH4),這兩項都是影響水質(zhì)的重要指標,具有很強的代表性。根據(jù)新汴河團結(jié)閘水質(zhì)自動監(jiān)測站從2014年1~6月的日監(jiān)測數(shù)據(jù),去除各種不完整數(shù)據(jù)后共有798組。按照月份分期,將每個月的數(shù)據(jù)分為3組(按旬劃分),選取K-平均算法進行聚類分析,剔除樣本數(shù)目過少的類。在計算中,如果每組的數(shù)據(jù)樣本數(shù)少于該月樣本總數(shù)的10%,剔除該類,并重新進行劃分計算并不斷重復(fù)此過程,直到最終劃分的類中沒有少于樣本總數(shù)10%的類,確保沒有異常樣本點,從而使所獲得的數(shù)據(jù)具有較好的規(guī)范性。
應(yīng)用聚類分析法時采用SPSS(StatisticalPackagefortheSocial Science)軟件,其是目前世界上最著名的數(shù)據(jù)分析軟件。SPSS最突出的特點是操作界面友好,使用Windows的窗口方式即可展示各種管理和分析數(shù)據(jù)方法的功能,使用對話框就可展示出各種功能選擇項,無需編程,只根據(jù)需要進行圖形用戶界面操作就可以實現(xiàn)數(shù)據(jù)的分析和處理。
在本文聚類分析研究中采用K-平均算法,其具體流程:(1)任意選擇3個樣本作為初始類的中心;(2)根據(jù)類中對象的平均值,將每個樣本重新聚合到最相似的類;(3)更新類的平均值,即計算每個樣本由樣本的平均值,將其作為中心點;(4)重復(fù)(2)、(3)直到不再發(fā)生變化。
使用K-平均算法進行聚類,根據(jù)各個類的樣本數(shù)目來剔除孤立點。第一次聚類結(jié)果見表1。
從表1中選取樣本數(shù)少于該月樣本總數(shù)10%的類進行剔除,得到新的數(shù)據(jù)并繼續(xù)進行聚類和剔除異常樣本,經(jīng)過6次迭代最終得到不再有少于樣本總數(shù)10%的類存在的表,其結(jié)果見表2。
每個月都有樣本被剔除,因為水質(zhì)變化非常復(fù)雜,受很多因素影響,本文在剔除異常數(shù)據(jù)時是以水域某一時段(某月)內(nèi)的通常狀況為標準,對于非正常狀態(tài)對水域的影響因素考慮較少,為避免過多的刪除數(shù)據(jù),規(guī)定在某一時段內(nèi)(某月)因機械或者人為等因素產(chǎn)生一些異常數(shù)據(jù)不應(yīng)該大于該時段內(nèi)所有監(jiān)測數(shù)據(jù)的30%,若大于此上限,說明該月可能存在一些水質(zhì)異常變化,比如突發(fā)水污染事故,則這些偏離常規(guī)的監(jiān)測值也是水質(zhì)真實狀態(tài)的反映,不應(yīng)被刪除。經(jīng)過6次迭代聚類,最終結(jié)果樣本總數(shù)為583,剔除的樣本數(shù)占原樣本總數(shù)的27%,說明2014年上半年團結(jié)閘水質(zhì)自動監(jiān)測站的水質(zhì)數(shù)據(jù)不是很穩(wěn)定。
表1 K-平均算法聚類結(jié)果表
表2 K-平均算法聚類結(jié)果表
圖1 高錳酸鹽指數(shù)相關(guān)性圖
圖2 氨氮指數(shù)相關(guān)性圖
新汴河團結(jié)閘水質(zhì)自動監(jiān)測站位于皖蘇兩省省界,該站人工監(jiān)測數(shù)據(jù)采用淮河流域水環(huán)境監(jiān)測中心監(jiān)測成果,數(shù)據(jù)具有很高的準確性和規(guī)范性。
因為每個月人工數(shù)據(jù)與自動監(jiān)測站數(shù)據(jù)相比樣本數(shù)過少,因此對其采取復(fù)制插值法,即每個人工數(shù)據(jù)復(fù)制一樣的數(shù)量使其樣本總數(shù)滿足分析要求。相關(guān)性分析一樣采用SPSS軟件進行,并采用距離法,度量采用余弦來計算相似度矩陣,計算結(jié)果如圖1和圖2所示。
其中聚類相關(guān)性是指經(jīng)過6次聚類后的數(shù)據(jù)與人工監(jiān)測數(shù)據(jù)的相關(guān)度,原始相關(guān)度是指自動監(jiān)測站原始監(jiān)測數(shù)據(jù)與人工監(jiān)測數(shù)據(jù)的相關(guān)度。
從圖1和圖2中可以看出,無論是高錳酸鹽指數(shù)因子還是氨氮因子,經(jīng)過聚類后的數(shù)據(jù)與人工監(jiān)測數(shù)據(jù)都表現(xiàn)出很高的相關(guān)度,尤其是數(shù)據(jù)變化幅度較大的高錳酸鹽指數(shù)相關(guān)度提升更為明顯。這說明了經(jīng)過數(shù)據(jù)挖掘處理后的數(shù)據(jù)更能反映實際水質(zhì)狀況,比原始監(jiān)測數(shù)據(jù)質(zhì)量更好,規(guī)范性更強。綜上所述,通過新汴河團結(jié)閘2014年1~6月的水質(zhì)數(shù)據(jù)驗證,說明數(shù)據(jù)挖掘技術(shù)能夠較好的剔除水質(zhì)自動監(jiān)測站監(jiān)測數(shù)據(jù)中的異常值,提高數(shù)據(jù)質(zhì)量和規(guī)范性,更好地反映水質(zhì)實際狀況,為水資源保護工作提供技術(shù)支撐■
(作者單位:淮河流域水資源保護局233001南京市循環(huán)經(jīng)濟促進中心210008)