馬琳 張芳 董智鶴 王偉
(中國石油集團(tuán)安全環(huán)保技術(shù)研究院有限公司,北京 102200)
開展數(shù)據(jù)預(yù)警預(yù)測工作的目的,是為了通過對歷史數(shù)據(jù)中隱含的規(guī)律、相關(guān)性等信息進(jìn)行挖掘分析,從而能夠?qū)ξ磥沓霈F(xiàn)的情況進(jìn)行趨勢或閾值預(yù)估,以提前作出判斷,減少可能造成的損失或增加收益[1]。就目前的污染源在線監(jiān)控系統(tǒng)而言,對超標(biāo)排放的管理仍停留在超標(biāo)數(shù)據(jù)發(fā)生后由系統(tǒng)依據(jù)已設(shè)定的排放限值進(jìn)行識別和報(bào)警,以提示工作人員進(jìn)行原因排查,而缺乏通過趨勢分析進(jìn)行超標(biāo)預(yù)警預(yù)測的研究應(yīng)用。開展污染源在線監(jiān)測超標(biāo)預(yù)警預(yù)測的研究,對提升環(huán)境管理水平具有十分重要的應(yīng)用意義。
本文立足石油企業(yè)污染源監(jiān)測領(lǐng)域,結(jié)合筆者多年的實(shí)際工作經(jīng)驗(yàn),對污染源在線監(jiān)測數(shù)據(jù)超標(biāo)預(yù)警數(shù)據(jù)模型進(jìn)行闡述,并對幾種預(yù)測模型的優(yōu)劣進(jìn)行對比分析,最后,筆者就模型的優(yōu)劣方面,對今后環(huán)境管理數(shù)據(jù)監(jiān)測超標(biāo)預(yù)警起到一定的推動作用。
超標(biāo)預(yù)警技術(shù)已廣泛應(yīng)用于各個領(lǐng)域。寧勇采用基于相似關(guān)系的SWFCM 聚類算法,對海洋環(huán)境數(shù)據(jù)開展分析,并應(yīng)用到赤潮預(yù)測預(yù)警中,提高了赤潮災(zāi)害預(yù)警預(yù)測能力,為海洋經(jīng)濟(jì)可持續(xù)發(fā)展助力。李晶晶研究了空間關(guān)聯(lián)規(guī)則挖掘方法,用以在海量的環(huán)境監(jiān)測數(shù)據(jù)中挖掘空氣污染指數(shù)和時空時間的關(guān)聯(lián)規(guī)則。吳貴華用樸素貝葉斯分類法對多種水質(zhì)監(jiān)測指標(biāo)進(jìn)行篩選,從中找出對CODMn 的最關(guān)鍵影響因素;之后運(yùn)用BP 神經(jīng)網(wǎng)絡(luò)技術(shù)預(yù)測CODMn 第二天的數(shù)據(jù)。夏繼偉等通過分析對比幾種大氣污染預(yù)警方法,選用神經(jīng)網(wǎng)絡(luò)研究港口大氣污染預(yù)警模型,實(shí)現(xiàn)了通過預(yù)警合理安排進(jìn)港船舶,預(yù)防大氣污染,并在某港口得以實(shí)際應(yīng)用,證實(shí)其方法的可行性[2]。時間序列法在地表水質(zhì)預(yù)測中已有應(yīng)用先例,它是將統(tǒng)計(jì)數(shù)據(jù)資料按照時間順序排列,在序列中提取主要的內(nèi)在因素周期性疊加、外延,通過數(shù)學(xué)回歸的方法對未來狀態(tài)進(jìn)行預(yù)測。在其他行業(yè)的在線監(jiān)測數(shù)據(jù)挖掘分析方面,李子龍運(yùn)用灰色關(guān)聯(lián)度算法找尋參數(shù)之間的關(guān)系,進(jìn)而運(yùn)用聚類算法,得到設(shè)備運(yùn)行狀態(tài)規(guī)律,并在某機(jī)組應(yīng)用了該數(shù)據(jù)分析方法,比人工點(diǎn)位檢查和生產(chǎn)中央控制系統(tǒng)更快發(fā)現(xiàn)生產(chǎn)設(shè)備隱患,實(shí)現(xiàn)了提前預(yù)警[3]。周茜將分類算法應(yīng)用在變電站電氣設(shè)備在線監(jiān)測數(shù)據(jù)的處理和預(yù)測中,取得良好效果,改變了數(shù)據(jù)分析不及時、不到位的現(xiàn)狀,使電氣設(shè)備的在線監(jiān)測達(dá)到了真正目的。
預(yù)警技術(shù)在其他行業(yè)數(shù)據(jù)分析中的應(yīng)用,為污染源在線監(jiān)測超標(biāo)預(yù)警預(yù)測研究提供了參考方向。
在無法獲得企業(yè)前端生產(chǎn)調(diào)整關(guān)鍵參數(shù)數(shù)據(jù)時,綜合考慮預(yù)測方法在各領(lǐng)域的應(yīng)用經(jīng)驗(yàn)以及方法適用性,可優(yōu)選時間序列方法作為超標(biāo)數(shù)據(jù)的研究方法。時間序列是一種已被廣泛應(yīng)用的數(shù)據(jù)挖掘分析算法[4]。它通常需要挖掘不同時間段內(nèi)得到的數(shù)據(jù)樣本,并通過這些數(shù)據(jù)的變化、趨勢、走向進(jìn)行分析,得到演算結(jié)論。影響時間序列變化的因素主要有趨勢性、周期性、季節(jié)性以及不規(guī)則變化,其中部分因素造成的影響是長期性、決定性的,因此時間序列的變化在某種程度上呈現(xiàn)出一種趨勢性,且具有一定的規(guī)律。在應(yīng)用時,首先需要假設(shè)某一類數(shù)據(jù)存在一種既定的變化模式,或者存在某種組合模式,而這種趨勢或模式是會重現(xiàn)的,才使用時間序列進(jìn)行預(yù)測[5]。因而,研究時需要先對這種模式進(jìn)行識別,然后外推預(yù)測,其關(guān)鍵因素是識別變化模式,同時要求決策者所采取的行動對這個時間序列影響較小。
例如對某事物的演變過程進(jìn)行觀測和記載,數(shù)據(jù)記為Yt,經(jīng)過時間點(diǎn)t1,t2…,tn(t 為自變量,且t1<t2<tn,即隨時間推移遞增)觀察,測量得到一個集合,記為Yt1,Yt2…,…,Ytn,則稱Yt為數(shù)字離散時間序列。時間序列的研究方法主要有單變量和多變量時間序列預(yù)測。
分為隨機(jī)時間序列和傳統(tǒng)時間序列兩種預(yù)測方式,根據(jù)數(shù)據(jù)類型的不同,將采用不同的算法和模型進(jìn)行預(yù)測。如果建立的模型設(shè)計(jì)循環(huán)變動(R)、季節(jié)變動(S)和長期趨勢(L)三個部分,可以用式(1)如下模型進(jìn)行數(shù)據(jù)(D)預(yù)測:
其中:循環(huán)變動(R)表示預(yù)測值在時間周期內(nèi)存在循環(huán)變動的規(guī)律;季節(jié)變動(S)表示預(yù)測值與時間季節(jié)之間存在潛在變化規(guī)律;長期趨勢(L)表示隨時間推移將呈現(xiàn)某種特定的變化規(guī)律,上升、下降或在某一個閾值間以某一種規(guī)律波動,或逼近于某個閾值等;error 為誤差。
搭建隨機(jī)的時間序列模型,預(yù)測未來的發(fā)展,主要有ARMA(自回歸移動平均模型)、AR(自回歸模型)[6]和MA (移動平均模型)。
本模型沒有自回歸部分,故稱為階移動模型,記為MA(m)。
通過對ARMA 模型進(jìn)行差分運(yùn)算,還可以得到另外一種ARIMA 模型,即Autoregressive Integrated Moving Average Model,其全稱是自回歸積分移動平均模型,進(jìn)行超標(biāo)數(shù)據(jù)預(yù)測。它按照原序列平穩(wěn)與否、回歸所含內(nèi)容不同,ARIMA 模型包括MA—移動平均過程、AR—自回歸過程、ARMA—自回歸移動平均過程及ARIMA 過程,是ARMA 模型的拓展,包含ARMA 模型的3 種形式。該模型用于隨機(jī)游走序列,能夠預(yù)測數(shù)據(jù)波動,它可以用表達(dá)式ARIMA(p,d,q)表示,其中MA 為移動平均,q 為移動平均項(xiàng)數(shù),d 為時間序列平穩(wěn)時的差分次數(shù);AR 為自回歸,p 為自回歸項(xiàng)。即式(5):
則wt是平穩(wěn)序列,于是可對wt建立ARMA(p,q)模型,所得到的模型稱為Xt~ARMA(p,d,q)模型,故ARIMA(p,d,q)模型表示為式(7):
筆者通過建立相關(guān)模型,并利用模型預(yù)測排放濃度,結(jié)合影響生產(chǎn)裝置外排煙氣中污染物濃度的主要因素,可建立污染物排放超標(biāo)預(yù)警方法,可為生產(chǎn)企業(yè)的環(huán)保管理和應(yīng)對預(yù)案控制提供依據(jù),供廣大同仁在今后環(huán)境管理數(shù)據(jù)超標(biāo)監(jiān)測方面參考借鑒。