王曉東 李瑞強(qiáng) 張巍 郭雪征
摘要:為規(guī)范污染源監(jiān)管,落實(shí)排污單位主體責(zé)任,提高污染源在線監(jiān)控?cái)?shù)據(jù)質(zhì)量,確保在線監(jiān)控?cái)?shù)據(jù)全面、準(zhǔn)確、客觀、真實(shí)。以烏海及周邊地區(qū)在線監(jiān)控?cái)?shù)據(jù)為試點(diǎn),通過數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法,構(gòu)建了異常檢測(cè)和有效性智能評(píng)估模型,以識(shí)別在線監(jiān)控?cái)?shù)據(jù)的異常模式,評(píng)估在線監(jiān)控?cái)?shù)據(jù)有效性,切實(shí)發(fā)揮在線監(jiān)控?cái)?shù)據(jù)的效能,更好地服務(wù)于生態(tài)環(huán)境保護(hù)監(jiān)管。
關(guān)鍵詞:在線監(jiān)控?cái)?shù)據(jù);數(shù)據(jù)預(yù)處理;異常檢測(cè);有效性智能評(píng)估
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-9944(2019)16-0174-02
1引言
污染源在線監(jiān)控系統(tǒng)作為環(huán)境監(jiān)管的重要手段,對(duì)提升環(huán)境監(jiān)管水平有著重要作用,全國(guó)各地大量建設(shè)運(yùn)行,基本實(shí)現(xiàn)對(duì)在線監(jiān)測(cè)污染物排放情況的實(shí)時(shí)監(jiān)控、及時(shí)響應(yīng)處置的效果。污染源在線監(jiān)控?cái)?shù)據(jù)的有效性直接關(guān)系到污染源在線監(jiān)控系統(tǒng)作用的發(fā)揮,如何利用大數(shù)據(jù)技術(shù),構(gòu)建有效性評(píng)估模型,對(duì)不同粒度(污染源排口,企業(yè))的數(shù)據(jù)進(jìn)行有效性分析具有重要意義。
2在線監(jiān)控?cái)?shù)據(jù)有效性分析基本情況
污染源在線監(jiān)控?cái)?shù)據(jù)應(yīng)客觀真實(shí)的反應(yīng)污染源企業(yè)污染物排放情況,與污染源及污染治理設(shè)施運(yùn)行狀況等企業(yè)生產(chǎn)實(shí)際狀況息息相關(guān)。目前,為保障污染源在線監(jiān)控?cái)?shù)據(jù)的有效性,國(guó)家及地方出臺(tái)了一系列的標(biāo)準(zhǔn)和規(guī)范性文件,內(nèi)容涵蓋自動(dòng)監(jiān)測(cè)系統(tǒng)建設(shè)、運(yùn)行維護(hù)、質(zhì)量控制以及自動(dòng)監(jiān)測(cè)數(shù)據(jù)有效性審核等方面。但是,這只是從管理層面做出的規(guī)定,在線監(jiān)測(cè)設(shè)備實(shí)際運(yùn)行情況及產(chǎn)生的數(shù)據(jù)是否符合規(guī)定的理想狀態(tài)還得依靠現(xiàn)場(chǎng)檢查。而現(xiàn)場(chǎng)核查檢查以比對(duì)監(jiān)測(cè)為主,受人力和物力的制約,此項(xiàng)工作開展的頻次和所覆蓋的范圍都受到了限制。部分省市采用技術(shù)手段保障在線監(jiān)測(cè)數(shù)據(jù)的有效性,遼寧、山東等地采取動(dòng)態(tài)管控,以確保污染源自動(dòng)監(jiān)控?cái)?shù)據(jù)真實(shí)、準(zhǔn)確,深圳利用動(dòng)態(tài)跟蹤系統(tǒng)對(duì)在線監(jiān)控?cái)?shù)據(jù)進(jìn)行有效性審核,內(nèi)蒙古自治區(qū)、江蘇省通過建設(shè)工況監(jiān)控系統(tǒng)進(jìn)一步保障在線監(jiān)控?cái)?shù)據(jù)的有效性、真實(shí)性。利用大數(shù)據(jù)手段,從數(shù)據(jù)分析、建模等方面進(jìn)行在線監(jiān)控有效性分析的還未見報(bào)道。
3模型構(gòu)建方法
本文主要以內(nèi)蒙古自治區(qū)烏海及周邊地區(qū)重點(diǎn)監(jiān)控企業(yè)為研究對(duì)象,通過對(duì)廢水在線監(jiān)控小時(shí)數(shù)據(jù)、廢氣在線監(jiān)控小時(shí)數(shù)據(jù)以及污染源企業(yè)的基本信息、排口信息進(jìn)行分析,構(gòu)建污染源在線監(jiān)控?cái)?shù)據(jù)有效性評(píng)估模型。
3.1數(shù)據(jù)預(yù)處理
本文采用探索性數(shù)據(jù)分析,對(duì)研究對(duì)象的數(shù)據(jù)進(jìn)行評(píng)判,依據(jù)評(píng)判結(jié)果,進(jìn)行數(shù)據(jù)的處理。探索性數(shù)據(jù)分析(EDA),是指在盡量少的先驗(yàn)假定條件下對(duì)數(shù)據(jù)進(jìn)
行分析,從數(shù)據(jù)本身出發(fā)去發(fā)掘與描述數(shù)據(jù)特征,并使用多種可視化手段表達(dá)數(shù)據(jù)特征,使數(shù)據(jù)易于被理解和檢視,是一種強(qiáng)有力的數(shù)據(jù)分析與評(píng)判手段。
數(shù)據(jù)在不同時(shí)段經(jīng)常出現(xiàn)缺失值、極端值,主要原因包括設(shè)備故障、網(wǎng)絡(luò)中斷、監(jiān)測(cè)異常等。在建模之前,擬合缺失值、異常值的分布,主要采用以下2種缺失值插補(bǔ)算法進(jìn)行處理。
3.2構(gòu)建數(shù)據(jù)有效性評(píng)估模型
數(shù)據(jù)有效性評(píng)估模型主要包括異常檢測(cè)和有效性智能評(píng)估功能模塊。通過將污染源基本信息和廢氣、廢水在線監(jiān)控等數(shù)據(jù)輸入到異常檢測(cè)模塊中,對(duì)樣本進(jìn)行分類(正常樣本和異常樣本);異常檢測(cè)模型的結(jié)果作為有效性評(píng)估模型的輸入,對(duì)企業(yè)在線監(jiān)控?cái)?shù)據(jù)有效性進(jìn)行分析建模,構(gòu)建有效性智能評(píng)估模塊,對(duì)不同粒度(污染源排口粒度,企業(yè)粒度)的數(shù)據(jù)進(jìn)行有效性評(píng)估。
3.2.1構(gòu)建異常檢測(cè)模塊
異常檢測(cè)是通過學(xué)習(xí)系統(tǒng)、應(yīng)用程序或者用戶等的正常行為習(xí)慣,建立特征模式庫(kù),然后將用戶當(dāng)前行為特征與模式庫(kù)中的特征進(jìn)行比較,以此來發(fā)現(xiàn)異常行為。
本文中主要通過箱線圖、K-Sigma、殘差統(tǒng)計(jì)等方法,找出與大部分對(duì)象存在明顯差異的數(shù)據(jù)點(diǎn)。
3.2.1.1基于箱線圖的異常值檢測(cè)
箱線圖(Boxplot)也稱箱須圖(Box-whiskerPlot),是利用數(shù)據(jù)中的五個(gè)統(tǒng)計(jì)量:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值來描述數(shù)據(jù)的一種方法,它也可以粗略地看出數(shù)據(jù)是否具有對(duì)稱性,分布的分散程度等信息。
具體含義如下,首先計(jì)算出第一四分位數(shù)(Q1)、中位數(shù)、第三四分位數(shù)(Q3)。中位數(shù)就是將一組數(shù)字按從小到大的順序排序后,處于中間位置(也就是50%位置)的數(shù)字。同理,第一四分位數(shù)、第三四分位數(shù)是按從小到大的順序排序后,處于25%、75%的數(shù)字。令I(lǐng)QR=Q3-Q1IQR=Q3一Q1,那么Q3+1.5(IQR)Q3+1.5(IQR)和Q1-1.5(IQR)Q1-1.5(IQR)之間的值就是可接受范圍內(nèi)的數(shù)值,這兩個(gè)值之外的數(shù)認(rèn)為是異常值。在Q3+1.5IQR(四分位距)和Q1-1.5IQR處畫兩條與中位線一樣的線段,這兩條線段為異常值截?cái)帱c(diǎn),稱其為內(nèi)限;在Q3+3IQR和Q1-3IQR處畫兩條線段,稱其為外限。處于內(nèi)限以外位置的點(diǎn)表示的數(shù)據(jù)都是異常值,其中在內(nèi)限與外限之間的異常值為溫和的異常值(mildoutliers),在外限以外的為極端的異常值(1i)的異常值extremeoutliers。這種異常值的檢測(cè)方法叫做Tukey,smethod。
3.2.1.2基于K-Sigma的異常值檢測(cè)
基于K-Sigma的異常值檢測(cè)方法是基于數(shù)據(jù)分布的一種異常值檢測(cè)方法。首先判斷出數(shù)據(jù)的分布模型,比如某種分布(正態(tài)分布、泊松分布等)。然后根據(jù)原始數(shù)據(jù)(包括正常點(diǎn)與離群點(diǎn)),算出分布的參數(shù),從而可以代入分布方程求出概率。例如正態(tài)分布,根據(jù)原始數(shù)據(jù)求出期望和方差,然后擬合出正態(tài)分布函數(shù),從而求出原始數(shù)據(jù)出現(xiàn)的概率;根據(jù)數(shù)理統(tǒng)計(jì)的思想,概率小的可以當(dāng)做離群點(diǎn)。
3.2.2建設(shè)有效性智能評(píng)估模塊
3.2.2.1時(shí)間窗口確定
根據(jù)異常檢測(cè)模塊的檢測(cè)結(jié)果,確定智能評(píng)估模塊的時(shí)間窗口,由當(dāng)前時(shí)間T,往前推N個(gè)時(shí)間片,確定分析窗口為T-N至T可以根據(jù)分析需要,靈活調(diào)節(jié)N的長(zhǎng)短。
3.2.2.2異常概率建模
3.3結(jié)果輸出
基于異常檢測(cè)和有效性智能評(píng)估模型,對(duì)研究對(duì)象的在線監(jiān)控?cái)?shù)據(jù)進(jìn)行建模分析,通過模型算法,輸出最終結(jié)果,表1是部分廢氣排口在線監(jiān)控?cái)?shù)據(jù)有效性指數(shù),表2是部分廢水排口在線監(jiān)控?cái)?shù)據(jù)有效性指數(shù)。
4結(jié)語
本文開創(chuàng)性地通過構(gòu)建異常檢測(cè)和有效性智能評(píng)估模型,對(duì)企業(yè)在線監(jiān)控?cái)?shù)據(jù)有效性進(jìn)行評(píng)估,提出了一種構(gòu)建數(shù)據(jù)有效性評(píng)估模型的方法,并給出了模型構(gòu)建的可行技術(shù),為構(gòu)建數(shù)據(jù)有效性評(píng)估方法提供了參考。下一步,將在實(shí)踐中通過運(yùn)用大數(shù)據(jù)技術(shù)、深度學(xué)習(xí)技術(shù),不斷完善評(píng)估模型有效性分析的準(zhǔn)確性,更好地服務(wù)于環(huán)保各項(xiàng)業(yè)務(wù)。