李潤求,吳瑩瑩,施式亮,朱紅萍
(1.湖南科技大學(xué) 資源環(huán)境與安全工程學(xué)院, 湖南 湘潭 411201; 2.煤礦安全開采技術(shù)湖南省重點實驗室, 湖南 湘潭 411201;3.湖南科技大學(xué) 信息與電氣工程學(xué)院, 湖南 湘潭 411201)
數(shù)字出版日期: 2017-07-19
復(fù)雜系統(tǒng)是由存在復(fù)雜相互作用的諸多變量組成,人們不能獲得系統(tǒng)的全部變量,也難以建立確定性的多因素數(shù)學(xué)模型來描述系統(tǒng)演化,但系統(tǒng)演化中存在的大量時間序列模式是復(fù)雜系統(tǒng)非常重要的基本特征,不同的時間序列模式代表了系統(tǒng)演化的周期、趨勢以及系統(tǒng)變量之間的關(guān)系[1-2]。瓦斯災(zāi)害是煤礦安全生產(chǎn)的典型災(zāi)害。瓦斯涌出與煤巖瓦斯含量、開采規(guī)模、生產(chǎn)工藝、通風(fēng)方式等多種因素有關(guān),瓦斯災(zāi)害子系統(tǒng)既受瓦斯賦存地質(zhì)條件的影響,同時也受煤礦安全生產(chǎn)系統(tǒng)其他因素和其他子系統(tǒng)的影響,具有復(fù)雜非線性系統(tǒng)的典型特征,目前仍不能確切知道影響瓦斯涌出子系統(tǒng)狀態(tài)的變量數(shù),但可以通過時間序列來刻畫安全生產(chǎn)系統(tǒng)的動力學(xué)演化特性[3]。因而,時間序列預(yù)測建模在煤礦瓦斯涌出預(yù)測中仍然是最基本最常用的方法,如線性回歸、灰色理論預(yù)測[4]、人工神經(jīng)網(wǎng)絡(luò)預(yù)測[5]等,特別是人工神經(jīng)網(wǎng)絡(luò)預(yù)測建模方法,由于其對復(fù)雜系統(tǒng)的適應(yīng)性強且預(yù)測精度高得到了大量應(yīng)用。
圖1 自組織數(shù)據(jù)挖掘算法結(jié)構(gòu)Fig.1 Structure of self-organizing data mining algorithm
自組織數(shù)據(jù)挖掘(self-organizing data mining, SODM)是在烏克蘭科學(xué)院院士Ivakhnenko提出的數(shù)據(jù)分組處理方法(group method of data handling, GMDH)基礎(chǔ)上逐漸發(fā)展起來的數(shù)據(jù)分析方法,是一種遺傳、變異、進化與篩選的演化方法[6],通常也歸屬于神經(jīng)網(wǎng)絡(luò)方法。該方法以簡單多項式作為傳遞函數(shù),產(chǎn)生大量不斷增長復(fù)雜度的候選模型,根據(jù)給定的內(nèi)準(zhǔn)則和外準(zhǔn)則對候選模型進行篩選,直至篩選的模型在觀測樣本產(chǎn)生過擬合為止,最終獲得高階Kolmogorov-Gaber(簡稱K-G)多項式最優(yōu)模型[7-8]。SODM是復(fù)雜多變量系統(tǒng)的一種啟發(fā)式自組織方法,其能在系統(tǒng)結(jié)構(gòu)未知的情況下,根據(jù)少量的輸入輸出數(shù)據(jù),建立其數(shù)學(xué)模型,在解決復(fù)雜非線性系統(tǒng)研究方面具有運用系統(tǒng)先驗知識、歸納學(xué)習(xí)的算法等在復(fù)雜系統(tǒng)的多因素模擬演化、預(yù)測建模等方面得到廣泛應(yīng)用,但其應(yīng)用領(lǐng)域目前主要集中在經(jīng)濟、金融、商業(yè)等方面[9-10],在煤礦瓦斯涌出時序預(yù)測建模以及安全生產(chǎn)與災(zāi)害防控研究中鮮有發(fā)現(xiàn)。因此,筆者嘗試將SODM方法引入到煤礦瓦斯涌出復(fù)雜系統(tǒng)的時間序列預(yù)測建模中,首先對瓦斯涌出時間序列進行相空間重構(gòu)(reconstructed phase space, PSR)[11-13]獲得系統(tǒng)演化基本參數(shù),然后應(yīng)用非線性傳遞函數(shù)迭代逐步建立系統(tǒng)演化的K-G多項式最優(yōu)復(fù)雜度函數(shù),并應(yīng)用實例驗證其在安全生產(chǎn)時序預(yù)測中適應(yīng)性和可靠性,以期通過SODM方法探索復(fù)雜安全生產(chǎn)系統(tǒng)的演化軌跡,為安全預(yù)測提供新方法。
SODM思想是1967年烏克蘭科學(xué)院Ivakhnenko院士提出的,其理論基礎(chǔ)是物種選擇學(xué)說。生物圈是復(fù)雜非線性系統(tǒng),生物在不斷受外界制約與環(huán)境協(xié)調(diào)的演化過程中,物競天擇,適者生存,自組織協(xié)調(diào)發(fā)展,形成物種遺傳與進化。SODM正是借鑒生物選擇的復(fù)雜系統(tǒng)自組織特性,采用通用迭代算法,由初始簡單模型開始逐步構(gòu)建最優(yōu)復(fù)雜模型,整個建模過程是完全自我組織的過程。SODM的基本原理如下[7-8]:
對于復(fù)雜系統(tǒng),設(shè)有m維輸入變量X=[x1,x2,…,xm],一個輸出變量為y,如果輸入與輸出存在:
y=g(X)=g(x1,x2,…,xm)
(1)
則函數(shù)g(·)可以展開成離散形式的Volterra多項式級數(shù)(K-G多項式):
(2)
式中:b0,bi,bij,bijk為待定系數(shù)。
對一任意非線性函數(shù),在理論上均可以通過式(2)進行逼近。但隨著輸入變量的增加,式(2)的項數(shù)會急劇增加,亦即建模所估計的待定系數(shù)會急劇增加,與此同時,所需要的樣本數(shù)量也會急劇增加,并且還會造成計算工作量的急劇增加和計算上的不穩(wěn)定性。
為解決上述問題,Ivakhnenko提出了通過“分層部分實現(xiàn)”來達到“完全實現(xiàn)”,如圖1,即可以利用任意2個輸入變量構(gòu)造傳遞函數(shù),通過多層迭代運算來達到式(2)的完全實現(xiàn),即GMDH算法[7-8]。
Ivakhnenko給出了若干基本傳遞函數(shù)f(·),其中應(yīng)用較多的f(·)有:
f(xi,xj)=b0+b1xi+b2xj
(3)
(4)
式中:i,j=1,2,…,m,i≠j,b0,b1,b2,b3,b4,b5為待定系數(shù)。
(5)
由此可得到由多層f(·)復(fù)合構(gòu)成的復(fù)雜g(·)即為尋求的預(yù)測函數(shù)。
SODM方法在進行建模時,并不需要預(yù)先設(shè)置參數(shù)和最終模型形式,而是通過構(gòu)建簡單傳遞函數(shù)的自組織方式來逐步確定輸入變量與輸出變量之間的復(fù)雜關(guān)系,整個建模過程是完全自我組織的過程。因而,SODM方法對于復(fù)雜系統(tǒng)數(shù)據(jù)分析有獨特優(yōu)勢。
Takens[11],Packard[12]等認(rèn)為可以用原始系統(tǒng)中某個變量的延遲坐標(biāo)來PSR,重構(gòu)的相空間的軌跡反映了系統(tǒng)狀態(tài)的演化特性。PSR雖然是用單個變量在不同時刻的值構(gòu)成相空間,但動力學(xué)系統(tǒng)的單個變量的變化跟此變量與系統(tǒng)的其他變量的相互作用有關(guān),即該變量的時間序列隱含著系統(tǒng)的動力學(xué)特性。
對于長度為N的一維時間序列x(t)(t=1,2,…,N),選擇合適嵌入維數(shù)m和延遲時間τ,重構(gòu)的相空間與原系統(tǒng)具有相同的拓撲性質(zhì):
X(i)=[x(i-(m-1)τ),x(i-(m-2)τ,...,x(i)]
(6)
式中:X(i)表示i時刻系統(tǒng)的動力學(xué)狀態(tài);i=(m-1)τ+1,(m-1)τ+2,…,N。
(7)
y(i+τ)=g(x(i-(m-1)τ),x(i-(m-2)τ),…,x(i))
(8)
嵌入維數(shù)m和延遲時間τ直接影響重構(gòu)相空間的質(zhì)量,C-C方法通過序列的關(guān)聯(lián)積分進行τ和m聯(lián)合確定。通過關(guān)聯(lián)積分和延遲時間的關(guān)系計算出τ和嵌入窗寬τw,從而確定m。C-C方法在相空間重構(gòu)中應(yīng)用較廣,其計算過程如下[13-14]。
對于一維時間序列x(i)(i=1,2,..,N) ,可平均分為T個子序列:
(9)
采用分塊平均策略按式(10)計算關(guān)聯(lián)積分統(tǒng)計量:
(10)
對于獨立同分布的序列x(i)(i=1,2,..,N) ,固定m和t,則當(dāng)N→∞,均有S(M,r,t)=0。但實際上序列x(i)(i=1,2,..,N)不可能無限且變量會存在某種相關(guān)性,因此,可選擇合適r所對應(yīng)的最大值和最小值,計算其差量:
ΔS1(m,t)=max{S1(m,ri,t)}-min{S1(m,ri,t)}
(11)
則τ可取ΔS1(m,t)~t的第一個局部極小點或第一個0點。
根據(jù)Brock-Dechert-Scheinkman統(tǒng)計結(jié)論[14],取M=2,3,4,5,r=j×0.5σ(j=1,2,3,4,σ為序列的標(biāo)準(zhǔn)差),計算檢驗統(tǒng)計量:
(12)
S1_cor(t)的全局最小點即為τw的最優(yōu)值,則可按式(13)計算序列最佳嵌入維數(shù)m:
(13)
根據(jù)PSR理論和SODM方法,可以將兩者有機結(jié)合起來進行煤礦瓦斯涌出一維時間序列進行預(yù)測建模,建模過程如下:
1)獲取煤礦瓦斯涌出一維時間序列,設(shè)為x(t)(t=1,2,…,N),N為序列長度。
2)應(yīng)用C-C方法獲得x(t)的m和τ,按照式(8)進行PSR,視[x(i-(m-1)τ),x(i-(m-2)τ),…,x(i)]為系統(tǒng)m維自變量,y(i)為一維因變量,形成樣本數(shù)據(jù)集。
3)對樣本集劃分為訓(xùn)練子集、測試子集和預(yù)測子集3部分,子集的長度可按N的一定比例劃分,一般認(rèn)為訓(xùn)練子集長度應(yīng)超過N的50%才能取得較好的訓(xùn)練效果。
4)構(gòu)造傳遞函數(shù)f(·)。對于煤礦復(fù)雜安全生產(chǎn)系統(tǒng),瓦斯涌出影響因素之間存在非線性關(guān)系,通常選擇式(4)作為傳遞函數(shù)就能較好地形成最終的非線性預(yù)測模型。
5)按照f(·)要求將m維自變量兩兩組合,通過訓(xùn)練子集應(yīng)用內(nèi)準(zhǔn)則估計f(·)的待定系數(shù),內(nèi)準(zhǔn)則通??梢圆捎米钚《朔?zhǔn)則。
6)傳遞函數(shù)選擇。選擇合適的外準(zhǔn)則,并通過測試子集保留符合外準(zhǔn)則要求的部分最優(yōu)傳遞函數(shù)。外準(zhǔn)則常用的有殘差、相對誤差、方差、均方差等。
7)以傳遞最優(yōu)函數(shù)的輸出作為下一層f(·)的輸入。
8)重復(fù)步驟5),6),7),不斷產(chǎn)生后續(xù)層次的傳遞函數(shù),直到外準(zhǔn)則取得最小值時獲得最優(yōu)復(fù)雜度模型g(·),算法終止。
9)利用獲得的g(·)對預(yù)測子集進行預(yù)測,并通過預(yù)測模型檢驗指標(biāo)檢驗預(yù)測效果。
根據(jù)湘煤集團某礦安全監(jiān)測數(shù)據(jù),3162回采工作面在2014年11月15—24日的瓦斯涌出量為4.00~5.20 m3/min,平均瓦斯涌出量為4.57 m3/min,瓦斯涌出不均衡系數(shù)為1.14,如圖2。
圖2 3162回采工作面瓦斯涌出量Fig.2 Gas emission in 3162# mining workface
根據(jù)時序預(yù)測的PSR-SODM方法建模步驟,應(yīng)用C-C方法計算獲得瓦斯涌出時間序列m=4,τ=2。對序列進行PSR后,按原始序列長度的80%,10%,10%劃分訓(xùn)練子集、測試子集和預(yù)測子集,則3個子集的長度分別為184,24,24。由圖2可知,瓦斯涌出量是非線性時間序列,因此選擇式(4)作為傳遞函數(shù)進行迭代計算,其中內(nèi)準(zhǔn)則選用最小二乘法,外準(zhǔn)則選用最小相對誤差。瓦斯涌出量擬合和預(yù)測結(jié)果如圖3,相對誤差如圖4,擬合相對誤差為-6.406 7%~6.459 1%,擬合平均相對誤差絕對值為1.4679%,預(yù)測相對誤差-5.751 7%~6.049 3%,預(yù)測平均相對誤差絕對值2.145 7%,瓦斯涌出量預(yù)測效果較好,能滿足煤礦安全生產(chǎn)實際工程應(yīng)用的需要。
圖3 3162回采工作面絕對瓦斯涌出量預(yù)測結(jié)果Fig.3 Prediction of gas emission in 3162# mining workface
圖4 3162回采工作面絕對瓦斯涌出量預(yù)測相對誤差Fig.4 Relative error of gas emission in 3162# mining workface
1)安全生產(chǎn)系統(tǒng)是人機環(huán)境結(jié)構(gòu)復(fù)雜且時空耦合的非線性系統(tǒng),由于變量繁多且無法完全確定其具體數(shù)目,同時變量之間存在多重復(fù)雜作用,難以建立統(tǒng)一的、確定性的多因素數(shù)學(xué)模型來描述安全生產(chǎn)系統(tǒng)演化規(guī)律,但系統(tǒng)演化進程中存在的時間序列模式是系統(tǒng)演化特性的客觀反映,可以通過對時間序列進行PSR獲得系統(tǒng)的演化規(guī)律。因而,基于時間序列的安全生產(chǎn)規(guī)律與預(yù)測研究仍然具有重要的理論意義和實用價值。
2)SODM方法以系統(tǒng)變量為輸入,通過傳遞函數(shù)的多層迭代來獲得最優(yōu)復(fù)雜度模型,建模過程是自組織過程,能適用于復(fù)雜的安全生產(chǎn)系統(tǒng)演化規(guī)律分析與安全預(yù)測研究。對于安全生產(chǎn)系統(tǒng)中存在的時間序列,可有機結(jié)合PSR和SODM方法來分析系統(tǒng)演化特性并進行預(yù)測建模,且其預(yù)測模型具有較強的可靠性和較高的預(yù)測精度,能滿足工程實際應(yīng)用。
3)在應(yīng)用SODM對安全生產(chǎn)時間序列進行預(yù)測建模時,PSR質(zhì)量對SODM方法獲得的最終模型的復(fù)雜度有一定影響,通過具有客觀性的如C-C方法等對時間序列進行PSR參數(shù)確定,可以獲得安全系統(tǒng)演化中隱藏的潛在規(guī)律性,并可能提高SODM預(yù)測建模質(zhì)量和預(yù)測精度。
[1] 李成剛, 田益祥, 何繼銳. AC算法的EMD分解GMDH組合的預(yù)測模型及應(yīng)用[J]. 系統(tǒng)管理學(xué)報, 2012, 21(1): 105-110.
LI Chenggang, TIAN Yixiang, HE Jirui. Prediction model of AC algorithm based on EMD decomposition combined with GMDH and its application [J]. Journal of Systems & Management, 2012, 21(1): 105-110.
[2] 李潤求, 施式亮, 伍愛友, 等. 煤礦瓦斯災(zāi)害事故的分形特性[J]. 中國安全生產(chǎn)科學(xué)技術(shù), 2014, 10(9): 25-29.
LI Runqiu, SHI Shiliang, WU Aiyou, et al. Research on fractal characteristics of gas accident in coal mine[J]. Journal of Safety Science and Technology, 2014, 10(9): 25-29.
[3] 何利文, 施式亮, 宋譯, 等. 回采工作面瓦斯涌出的復(fù)雜性及其度量[J]. 煤炭學(xué)報, 2008, 33(5): 547-550.
HE Liwen, SHI Shiliang, SONG Yi, et al. Complexity and measurement of complex degree of gas gush in heading faces of coal mine [J]. Journal of China Coal Society, 2008, 33(5): 547-550.
[4] 伍愛友, 田云麗, 宋譯, 等. 灰色系統(tǒng)理論在礦井瓦斯涌出量預(yù)測中的應(yīng)用[J]. 煤炭學(xué)報, 2005, 30(5): 589-595.
WU Aiyou, TIAN Yunli, SONG Yi, et al. Application of the grey system theory for predicting the amount of mine gas emission in coal mine [J]. Journal of China Coal Society, 2005, 30(5): 589-595.
[5] 付華,史冬冬. 基于IGA-LSSVM的煤礦瓦斯涌出量預(yù)測模型研究[J]. 中國安全科學(xué)學(xué)報, 2013, 23(10): 51-55.
FU Hua ,SHI Dongdong. Study on gas emission prediction model based on IGA-LSSVM [J]. China Safety Science Journal, 2013, 23(10): 51-55.
[6] Vakhnenko A G, Ivakhnenko G A. The review of problems solvable by algorithms of the group method of data handling (GMDH) [J]. Pattern Recognition and Image Analysis, 1995, 5(4): 527-535.
[7] A.G. Ivakhnenko, G. A. Ivakhnenko, N.M. Andrienko. Inductive computer advisor for current forecasting of ukraine micro economy [J].Systems Analysis Modeling Simulation, 1998, 31(2): 143~151.
[8] LI Runqiu, SHI Shiliang, WU Aiyou, et al. Research on prediction of gas emission based on self-organizing data mining in coal mines [A]. 2014 International Symposium on Safety Science and Technology[C]. 2014: 779-785.
[9] 朱幫助, 張秋菊, 鄒昊飛, 等. 基于OSA算法和GMDH網(wǎng)絡(luò)集成的電子商務(wù)客戶流失預(yù)測[J].中國管理科學(xué), 2011,19(5): 64-70.
ZHU Bangzhu, ZHANG Qiuju, ZOU Haofei, et al. E-Business customer churn prediction based on integration of objective system analysis and group method of data handling network [J]. Chinese Journal of Management Science, 2011, 19(5): 64-70.
[10] 廖志高,謝妮.自組織數(shù)據(jù)挖掘在電力需求預(yù)測中應(yīng)用[J].電力科學(xué)與工程, 2004 (4): 41-45.
LIAO Zhigao, XIE Ni. Application of self organization of data digging in prediction of electricity demand [J]. Electric Power Science and Engineering, 2004 (4): 41-45.
[11] Takens F. Detecting Strange Attractors in Turbulence [A]. Dynamical Systems and Turbulence, Lecture Notes in Mathematics[C]. Berlin:Springer-Verlag, 1981, 898: 366-381.
[12] Packard N H, Crutchfield J P, Farmer J D, et al. Geometry from a time series [J]. Physical Review Letters (S0031-9007), 1980, 45(9):712-716.
[13] 黃寧, 馬林茂. 基于改進C-C方法相空間重構(gòu)和LS-SVM的隧道拱頂沉降預(yù)測模型[J]. 數(shù)學(xué)的實踐與認(rèn)識, 2014, 44(20): 130-139.
HUANG Ning, MA Linmao. The prediction model of metro vault settlement based on developed C-C method phase space reconstruction and LS-SVM [J]. Mathematics in Practice and Theory, 2014, 44(20): 130-139.
[14] 陸振波, 蔡志明, 姜可宇. 基于改進的C-C方法的相空間重構(gòu)參數(shù)選擇[J]. 系統(tǒng)仿真學(xué)報, 2007, 19(11): 2527-2538.
LU Zhenbo, CAI Zhiming, JIANG Keyu. Determination of embedding parameters for phase space reconstruction based on improved C-C Method[J]. Journal of System Simulation, 2007, 19(11): 2527-2538.