孫文潔,楊 恒,李 祥,王子超,楊 蕾
(1.中國(guó)礦業(yè)大學(xué)(北京) 地球科學(xué)與測(cè)繪工程學(xué)院,北京 100083;2.核資源與環(huán)境國(guó)家重點(diǎn)實(shí)驗(yàn)室(東華理工大學(xué)),江西 南昌 330013;3.中國(guó)環(huán)境科學(xué)研究院 環(huán)境基準(zhǔn)與風(fēng)險(xiǎn)評(píng)估國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100012)
礦井突水事故頻發(fā)一直威脅著人類的生命財(cái)產(chǎn)安全。目前,眾多學(xué)者已研究出多種突水水源識(shí)別方法,如主成分分析與貝葉斯判別法相結(jié)合突水水源判別模型[1];基于主成分分析和Fisher判別分析理論的突水水源識(shí)別方法[2];模糊綜合評(píng)價(jià)[3]等。這些方法已廣泛應(yīng)用于礦井水害的防治,但礦區(qū)水文地質(zhì)條件復(fù)雜,這些方法也均有各自的適用性。如Fisher適用于對(duì)樣本總體不做出要求的礦區(qū);模糊綜合評(píng)價(jià)適合做多因素的樣本分析;貝葉斯判別法適用于樣本主成分明顯的情況。
BP神經(jīng)網(wǎng)絡(luò)利用誤差反向傳播的方法確定權(quán)值,可以模擬人腦信息處理的方法,從大量龐雜的數(shù)據(jù)中找出規(guī)律,適用于處理非線性問題[4-6],在突水水源識(shí)別中已大量運(yùn)用[7-10]。但由于算法的收斂速度慢,且初始權(quán)值和閾值的設(shè)置對(duì)結(jié)果影響較大等問題,使其容易降低結(jié)果精確度甚至誤判。極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)是一種簡(jiǎn)單高效的單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法[11]。ELM在訓(xùn)練過程隨機(jī)選取一次網(wǎng)絡(luò)初始連接權(quán)值和閾值,通過模型迭代獲得唯一輸出權(quán)值。ELM算法學(xué)習(xí)速度快,有效的克服了傳統(tǒng)BP算法的不足,已在多個(gè)領(lǐng)域廣泛應(yīng)用[12-14]。
主成分分析(PCA)利用降維的思想,從多個(gè)指標(biāo)中提取主要特征指標(biāo),消除水樣中各水化學(xué)指標(biāo)間復(fù)雜信息的影響,從而以少量綜合指標(biāo)反映了大量原始變量信息。本文利用PCA對(duì)趙各莊礦水樣中各水化學(xué)指標(biāo)數(shù)據(jù)進(jìn)行降維處理,找出各水源水樣的主控因子,以便更準(zhǔn)確的確定趙各莊礦不同含水層的水樣特征。在此基礎(chǔ)上,利用ELM對(duì)水樣中的主控因子進(jìn)行仿真模擬,以期增加ELM算法的訓(xùn)練速度及精度,為趙各莊礦及開灤礦區(qū)相似礦井提供技術(shù)支撐。
由于礦區(qū)水樣成分復(fù)雜,通過主成分分析可在保留原始主要信息的基礎(chǔ)上找出水樣中的主要影響因子,減少水樣中多余指標(biāo)的影響,再通過極限學(xué)習(xí)機(jī)對(duì)水樣進(jìn)行分類,識(shí)別方法快速,且增加了識(shí)別的精確度。
設(shè)原始數(shù)據(jù)矩陣X的p個(gè)向量X1、X2、…、Xp的線性組合為Y=AX,即:
其中,ai1+ai2+ai3+…+aip=1;Yi與Yj(i≠j;i、j=1,2,…,p)之間不相關(guān);Yi是(Y1、Y2、…、Yp)的一切線性組合方差最大,Y2是與Y1不相關(guān)的X1、X2、…、Xp的一切線性組合中方差最大的組合;Y1、Y2、…、Yp的方差之和等于X1、X2、…、Xp的方差之和。
1)首先將原有變量數(shù)據(jù)標(biāo)準(zhǔn)化,然后計(jì)算各變量之間的協(xié)方差矩陣∑。
2)計(jì)算好的協(xié)方差矩陣特征向量為λ1≥λ2≥,…,≥λp,相應(yīng)的單位特征向量為T1、T2、…、Tp。轉(zhuǎn)換矩陣為A=T′,j即A的第i行就是∑的第i大特征根對(duì)應(yīng)的單位特征向量Ti。且第i個(gè)主成分Yi的方差就等于∑的第i大特征根λi。
4)在選取主成分個(gè)數(shù)時(shí),一般取決于累積方差貢獻(xiàn)率。通常取主成分使得方差的累積貢獻(xiàn)率達(dá)到80%以上[15]。
ELM是一種新型的快速學(xué)習(xí)算法,學(xué)習(xí)過程中只需隨機(jī)選取一次輸入權(quán)值和隱含層神經(jīng)元偏值,確定隱層神經(jīng)元的個(gè)數(shù),即可計(jì)算求出最優(yōu)輸出權(quán)值,進(jìn)而得到最優(yōu)學(xué)習(xí)輸出值[16]。其基本原理及算法學(xué)習(xí)步驟如下[17]:
設(shè)有n個(gè)任意的訓(xùn)練樣本(xi,ti),其中i=1,2,…,n;xi=[xi1+xi2+xi3+…+xin]T∈Rn為輸入向量;ti=[ti1+ti2+ti3+…+tim]T∈Rm為期望輸出向量;隱含層神經(jīng)元個(gè)數(shù)為L(zhǎng);隱含層神經(jīng)元輸入權(quán)重為Wi;隱含層神經(jīng)元的閾值bi。
則隱含層輸出矩陣為:
式中,g(x)為激活函數(shù);Wi·xj表示W(wǎng)i和xj的內(nèi)積。
在ELM算法中,一旦輸入權(quán)重Wi和隱含層的偏置bi被隨機(jī)確定,隱層的輸出矩陣H就被唯一確定。訓(xùn)練單隱層神經(jīng)網(wǎng)絡(luò)可以轉(zhuǎn)化為求解一個(gè)線性系統(tǒng)Hβ=Z。并且輸出權(quán)重β可以被確定:
式中,H+為矩陣H的Moore-Penrose廣義逆;Z為期望輸出。
趙各莊礦作為開灤礦區(qū)地質(zhì)條件最復(fù)雜的礦區(qū),礦井涌水問題一直為其開采工程中最大的影響因素之一,特別是礦區(qū)內(nèi)即將開采的14水平底板距離奧灰頂板太近,因此開采過程中發(fā)生突水概率大大增加?;谝陨蠁栴},選取趙各莊礦作為示范區(qū),對(duì)本文所述識(shí)別方法展開研究。
表1 趙各莊礦水樣實(shí)測(cè)數(shù)據(jù)表
為排除水樣中冗雜信息及水樣影響度較小指標(biāo)的影響,對(duì)表1訓(xùn)練樣本數(shù)據(jù)進(jìn)行了主成分分析,得出其相關(guān)系數(shù)矩陣見表2,各個(gè)成分解釋方差率見表3。由表3可知,前三個(gè)成分的方差貢獻(xiàn)率較大,且累積方差貢獻(xiàn)率達(dá)91.868%,故認(rèn)為在趙各莊礦的各離子中,前三種陽離子對(duì)水樣的影響較大,因此在后續(xù)的研究中只考慮了陽離子的影響,即選取前三種陽離子作為水樣的主成分來對(duì)樣本進(jìn)行仿真訓(xùn)練。
表2 各水化學(xué)指標(biāo)的相關(guān)系數(shù)矩陣
表3 各成分解釋方差率
輸入為三種主成分離子的含量值,即設(shè)置網(wǎng)絡(luò)的輸入層節(jié)點(diǎn)數(shù)為3;輸出為3種水樣類型,即設(shè)置網(wǎng)絡(luò)的輸出層節(jié)點(diǎn)數(shù)為3;為使ELM訓(xùn)練結(jié)果以最小的誤差逼近所有訓(xùn)練樣本,故設(shè)置隱含層神經(jīng)元個(gè)數(shù)等于訓(xùn)練樣本個(gè)數(shù)即為24;網(wǎng)絡(luò)的輸出狀態(tài)為3,對(duì)應(yīng)三個(gè)待識(shí)別的層位。
本文ELM模型中S型函數(shù)(Sigmoid)為隱含層神經(jīng)元的傳遞函數(shù),均方誤差(mse)為性能函數(shù),利用ELM算法對(duì)樣本進(jìn)行訓(xùn)練,設(shè)置ELM的應(yīng)用類型為1,即分類識(shí)別。將主成分分析所得的水樣三種主成分?jǐn)?shù)據(jù)導(dǎo)入ELM模型中,使用MATLAB軟件對(duì)測(cè)試樣本進(jìn)行仿真訓(xùn)練,模型在10s內(nèi)即得出水樣分類結(jié)果,最終水樣識(shí)別結(jié)果見表4。
表4 ELM識(shí)別結(jié)果
水樣分類結(jié)果表明,測(cè)試樣本的識(shí)別正確率高達(dá)100%,說明PCA-ELM相結(jié)合的礦井突水水源方法分類識(shí)別性能好,在趙各莊礦具有一定的應(yīng)用價(jià)值。
為了對(duì)比算法的優(yōu)劣,同時(shí)對(duì)表1的樣本數(shù)據(jù)使用了BP神經(jīng)網(wǎng)絡(luò)進(jìn)行仿真訓(xùn)練,設(shè)置輸入層神經(jīng)元個(gè)數(shù)為3,對(duì)應(yīng)Na+、Ca2+、Mg2+三種主成分,根據(jù)Kolmogorov定理[18]可確定隱含層神經(jīng)元個(gè)數(shù)為7,將網(wǎng)絡(luò)的兩種輸出狀態(tài)編碼為:奧灰水(1 0 0)、12煤(0 1 0)、13煤(0 0 1),所以設(shè)置輸出層神經(jīng)元個(gè)數(shù)為3,因而BP網(wǎng)絡(luò)的結(jié)構(gòu)即為“3-7-3”型,采用tansig作為隱含層傳遞函數(shù),采用logsig作為輸出層傳遞函數(shù),采用trainlm作為訓(xùn)練算法,采用均方誤差(mse)作為性能函數(shù),訓(xùn)練目標(biāo)取0.01。
由于無法準(zhǔn)確獲取BP網(wǎng)絡(luò)中的初始連接權(quán)值和閾值,故初始權(quán)值和閾值為隨機(jī)選取,通過MATLAB軟件對(duì)測(cè)試水樣進(jìn)行仿真測(cè)試,得到測(cè)試樣本的識(shí)別結(jié)果見表5。對(duì)比表4、表5可知ELM網(wǎng)絡(luò)的訓(xùn)練結(jié)果準(zhǔn)確率高,即表明ELM的識(shí)別精度比BP網(wǎng)絡(luò)有所提高。
表5 BP網(wǎng)絡(luò)識(shí)別結(jié)果
由于極限學(xué)習(xí)機(jī)在訓(xùn)練過程為隨機(jī)選取網(wǎng)絡(luò)初始連接權(quán)值和閾值,產(chǎn)生的參數(shù)可能會(huì)對(duì)輸出的權(quán)值造成誤差或者造成模型網(wǎng)絡(luò)不穩(wěn)定,從而降低結(jié)果精確度,因此,在后續(xù)研究中還需對(duì)此進(jìn)行改進(jìn),以期克服該問題。
1)通過對(duì)趙各莊礦水樣進(jìn)行主成分分析,選取了Na+、Ca2+、Mg2+作為具有代表性的水樣主成分?jǐn)?shù)據(jù),排除了原始水樣數(shù)據(jù)大量冗余信息的影響。
2)采用主成分分析確定的趙各莊礦水樣3種離子的數(shù)據(jù)進(jìn)行ELM模型仿真訓(xùn)練。ELM模型可在10s內(nèi)得出仿真訓(xùn)練結(jié)果,且結(jié)果準(zhǔn)確率高達(dá)100%,說明該方法可行性高,可用于礦井突水水源識(shí)別。
3)將PCA-ELM模型與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比,傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)仿真訓(xùn)練結(jié)果準(zhǔn)確率為83.33%,遠(yuǎn)低于PCA-ELM模型仿真訓(xùn)練準(zhǔn)確率。因此,本文提出的PCA-ELM相結(jié)合的礦井突水水源識(shí)別方法不僅學(xué)習(xí)速度快且訓(xùn)練結(jié)果準(zhǔn)確率高,為礦井突水水源識(shí)別提供了新的方法與思路。
4)本文所述方法不僅克服了制約傳統(tǒng)BP網(wǎng)絡(luò)學(xué)習(xí)過程中受初始權(quán)值和閾值影響的問題,而且對(duì)極限學(xué)習(xí)機(jī)進(jìn)行優(yōu)化,排除了水樣各種冗余信息對(duì)模型精度的影響。通過對(duì)示范區(qū)進(jìn)行仿真訓(xùn)練,結(jié)果準(zhǔn)確度高達(dá)100%,為開灤礦區(qū)相似礦井的水害防治工作提供了技術(shù)支撐。但由于ELM算法隨機(jī)給出初始參數(shù)的問題,在以后的使用中可能會(huì)出現(xiàn)模型網(wǎng)絡(luò)不穩(wěn)定的情況,故需繼續(xù)改進(jìn),以期克服此方面的不足。