張 瑞 李雅梅
(遼寧工程技術(shù)大學(xué)電氣與控制工程學(xué)院 遼寧 葫蘆島 125105)
瓦斯是引發(fā)煤礦安全事故的主要因素之一。瓦斯涌出量的精確預(yù)測,是預(yù)防煤礦瓦斯事故的重要前提。針對此項(xiàng)工作,已有眾多學(xué)者提出了較為有效的預(yù)測方法,如:礦山統(tǒng)計(jì)法、瓦斯地質(zhì)數(shù)學(xué)模型法、分源預(yù)測法等線性瓦斯預(yù)測方法,以及卡爾曼濾波法、神經(jīng)網(wǎng)絡(luò)預(yù)測法、灰色系統(tǒng)法、主成分回歸分析法、聚類分析法等非線性瓦斯預(yù)測方法。但上述預(yù)測模型也存在著一定的缺陷,如:神經(jīng)網(wǎng)絡(luò)模型需要選擇模型及參數(shù),存在著收斂速度慢等缺點(diǎn)[1];灰色理論預(yù)測當(dāng)原始數(shù)據(jù)序列波動大并且信息過于分散時,預(yù)測精度將會降低[2];聚類分析法中隸屬度的確定受人為因素影響較大[3]。且上述各種方法都不能很好地解決實(shí)際工作中普遍存在的變量之間多重共線性問題[4]。
針對以上現(xiàn)狀,提出基于主成分分析PCA與雙層狼群算法LWCA優(yōu)化最小二乘支持向量機(jī)LS-SVM相耦合的預(yù)測模型。該模型首先引入PCA對數(shù)據(jù)進(jìn)行降維處理,保留絕大部分信息的同時,降低了數(shù)據(jù)的維度。然后利用LS-SVM求解速度快、泛化能力強(qiáng)的特點(diǎn)[5]對瓦斯涌出量進(jìn)行預(yù)測。為了進(jìn)一步提升預(yù)測模型的性能,借鑒文獻(xiàn)[6]利用LWCA優(yōu)化Elman神經(jīng)網(wǎng)絡(luò)ENN(Elman Neural Network)參數(shù)的思想,采用LWCA來優(yōu)化LS-SVM的參數(shù),改善了傳統(tǒng)的群體智能算法收斂速度慢,易陷入局部最優(yōu)解等問題[7],在簡化了模型求解過程的同時提高了模型的預(yù)測精度。同時由于利用LS-SVM進(jìn)行瓦斯涌出量的預(yù)測,改善了神經(jīng)網(wǎng)絡(luò)需要大量訓(xùn)練樣本及訓(xùn)練時間長的缺點(diǎn)。
在瓦斯涌出量預(yù)測過程中,多個影響因素之間常具有多重共線性,此將會對模型的建立及其預(yù)測性能造成不利影響。利用PCA算法對其進(jìn)行處理,可改善此問題。同時由于主成分貢獻(xiàn)率較小的特征向量往往與噪聲有關(guān),因此也可起到一定的去噪效果[8]。采用PCA處理后的數(shù)據(jù),既保留了原數(shù)據(jù)的大部分信息,又能夠降低數(shù)據(jù)的維度,從而降低問題的復(fù)雜性。
PCA降維步驟如下:
將含有k個樣本,且每個樣本具有n個特征x1,x2,…,xn的數(shù)據(jù)集表示為矩陣形式:
(1)
Step1對式(1)進(jìn)行標(biāo)準(zhǔn)化處理:
(2)
Step2計(jì)算樣本相關(guān)系數(shù)矩陣:
(3)
Step3計(jì)算R的特征值(λ1,λ2,…,λn),特征向量αi=(αi1,αi2,…,αin),i=1,2,…,n。
Step4利用步驟3中獲取的特征向量αi=(αi1,αi2,…,αin),求得主成分:
Fi=αi1X1+αi2X2+…+αinXni=1,2,…,n
(4)
Step5利用主成分累計(jì)貢獻(xiàn)率確定需要采用的主成分個數(shù):
(5)
由此便可利用以上步驟所獲得的主成分代替原始數(shù)據(jù)進(jìn)行后續(xù)的處理。
LS-SVM從損失函數(shù)著手,在其優(yōu)化問題的目標(biāo)函數(shù)中使用二范數(shù),并用等式約束替換不等式約束。從而縮短了SVM的學(xué)習(xí)時間,具有求解速度快,泛化能力強(qiáng)[9]的優(yōu)勢。優(yōu)化目標(biāo)為:
(6)
s.t.yi=ωTφ(xi)+b+ζi
式中:c為正則化參數(shù),它可以在模型的復(fù)雜程度和訓(xùn)練誤差之間做一個折衷選擇,便于使所求的模型擁有較好的泛化能力。ζi為松弛變量。通過引入拉格朗日函數(shù)及KKT最優(yōu)條件,得出LS-SVM的回歸模型:
(7)
式中:k(x,xi)為核函數(shù),本文選取學(xué)習(xí)能力較強(qiáng)的高斯核函數(shù)[10]:
(8)
式中:σ為核寬度。
當(dāng)通過交叉驗(yàn)證CV(Cross Validation)的方式來取得LS-SVM參數(shù)c與σ的值時,不能保證所獲取的參數(shù)為全局最優(yōu),從而不能充分發(fā)揮模型的性能。因此本文利用LWCA的全局尋優(yōu)能力及收斂速度快等優(yōu)點(diǎn)來獲取LS-SVM回歸模型的最優(yōu)參數(shù)。
LWCA是模擬狼群捕食過程而提出的一種算法,由于其采用勝者為王和強(qiáng)者生存的法則,使其具有良好的全局尋優(yōu)能力及快速的收斂速度[11],其規(guī)則如下:
1) 初始化狼群。
首先建立由N匹狼組成的狼群,令狼群中的個體隨機(jī)分布在搜索空間內(nèi)。
Xi=(xi1,xi2,…,xid) 1≤i≤N,1≤d≤D
xid=xmin+rand×(xmax-xmin)
(9)
式中:rand為均勻分布在[0,1]中的隨機(jī)數(shù),xmax、xmin為搜索空間的上下界。
2) 首狼的選取。
首先在狼群中選出適應(yīng)值最優(yōu)的q匹競選狼,競選狼在h個方向中的第j個點(diǎn)第d維的位置更新為:
yjd=xxid+rand×stepa
(10)
式中:rand為均勻分布在[-1,1]內(nèi)的隨機(jī)數(shù);stepa為搜索步長;xxid為競選狼,1≤j≤h。
3) 向首狼移動。
由于首狼最為接近獵物,所以參照首狼位置,其他狼向首狼移動,其他狼的位置更新公式為:
zid=xid+rand×stepb×(xld-xid)
(11)
式中:rand為均勻分布于[-1,1]的隨機(jī)數(shù),stepb為移動步長,xld為首狼位置,xid為其他狼當(dāng)前的位置。
4) 種群包圍。
首狼找到獵物后,通知其他狼對獵物進(jìn)行包圍:
(12)
5) 越界處理。
(13)
在搜索的初期,為盡快尋找到全局最優(yōu)的鄰域,狼群采用較大的包圍步長,在到達(dá)最優(yōu)鄰域的附近后,個體減小包圍步長,以進(jìn)行局部的搜索。步長計(jì)算公式如下:
(14)
式中:maxt為最大迭代次數(shù),ramax為最大的包圍步長,ramin為最小包圍步長。
狼群按照以上規(guī)則搜索獵物,每輪迭代完成后,采用淘汰適應(yīng)值最差的m個個體,再以隨機(jī)的方式生成m個個體的方式對狼群進(jìn)行更新。此算法可以精確、快速地搜尋到全局最優(yōu)解。
首先利用PCA對數(shù)據(jù)進(jìn)行降維處理。而后通過LWCA對LS-SVM回歸模型的參數(shù)進(jìn)行全局尋優(yōu)以提升其性能。
以下式作為衡量狼群個體適應(yīng)度的標(biāo)準(zhǔn):
J(xi)=-RMSE
(15)
式中:RMSE為模型的訓(xùn)練均方根誤差,其定義如下誤差越小,狼群個體的適應(yīng)度越好。
(16)
在建立預(yù)測模型的過程中,以狼群的個體代表LS-SVM的正則化參數(shù)c與核參數(shù)σ,根據(jù)式(15)確定的適應(yīng)值來衡量狼群位置的優(yōu)劣。
模型的建立步驟如下:
Step1對狼群進(jìn)行初始化,令其規(guī)模為N,最大迭代次數(shù)為maxt,競選狼個數(shù)q,搜索方向h,競選狼的最大搜索次數(shù)maxdh,搜索步長stepa,移動步長stepb,最大最小包圍步長ramax、ramin及最差狼群個數(shù)m,通過式(9)初始化狼群的位置分布。
Step2初始化LS-SVM的正則化參數(shù)c與核參數(shù)σ,并將其映射至狼群個體。
Step3輸入經(jīng)過PCA降維的訓(xùn)練樣本。
Step4利用式(15)計(jì)算狼群個體的適應(yīng)值,狼群根據(jù)適應(yīng)值進(jìn)行迭代尋優(yōu)。
Step5當(dāng)模型達(dá)到要求的精度或達(dá)到最大迭代次數(shù)時停止訓(xùn)練。通過適應(yīng)度最優(yōu)的狼群的位置,獲取LS-SVM的參數(shù),從而獲得預(yù)測模型。
選取煤層深度、煤層厚度、煤層傾角、開采層原始瓦斯含量、煤層間距、采高、臨近層瓦斯含量、臨近層厚度、層間巖性、工作面長度、推進(jìn)速度、采出率、日產(chǎn)量,共13個對瓦斯涌出量影響較大的因素作為模型的輸入變量。
采用沈陽某煤礦2015年間瓦斯涌出量的檢測數(shù)據(jù)來驗(yàn)證本文提出的模型的性能。共選取30組數(shù)據(jù)作為樣本集,其中前20組數(shù)據(jù)作為本文模型的訓(xùn)練樣本集,其余10組作為測試樣本。
利用spss軟件對現(xiàn)場獲取的數(shù)據(jù)進(jìn)行PCA降維處理,將所得數(shù)據(jù)列于表1、表2。
表1 特征值累積貢獻(xiàn)率
表2 成分矩陣
由于前三個主成分的累積貢獻(xiàn)率為86.187%,大于85%,根據(jù)主成分選取原則[12],選取前三個主成分。
表3 降維后樣本集
將測試樣本應(yīng)用于PCA-LWCA-LS-SVM 預(yù)測模型中。初始化狼群,經(jīng)多次實(shí)驗(yàn),最終狼群算法的參數(shù)的設(shè)置如表4所示。
表4 狼群算法參數(shù)設(shè)置
利用MATLAB軟件對本文提出的模型進(jìn)行仿真實(shí)驗(yàn),表3中測試樣本的{F1,F2,F3}對應(yīng)模型的輸入,將所獲得預(yù)測結(jié)果列于表5。
表5 PCA-LWCA-LS-SVM預(yù)測結(jié)果
為進(jìn)一步檢驗(yàn)文中所提模型性能,將其與LS-SVM預(yù)測模型、PCA與遺傳算法優(yōu)化的LS-SVM相耦合的預(yù)測模型進(jìn)行對比。各模型獲得的預(yù)測結(jié)果相對誤差見圖1。
圖1 預(yù)測結(jié)果相對誤差
取三種模型預(yù)測的最大相對誤差、最小相對誤差、平均相對誤差,列于表6。
表6 預(yù)測結(jié)果比較
以上結(jié)果表明,PCA-LWCA-LS-SVM 預(yù)測模型預(yù)測精度高、泛化能力強(qiáng),可以有效地預(yù)測回采工作面瓦斯涌出量。
本文提出的基于PCA-LWCA-LS-SVM的瓦斯預(yù)測模型,利用主成分分析法對高維的原始數(shù)據(jù)進(jìn)行降維處理,提取出數(shù)據(jù)的主要信息,同時緩解了瓦斯涌出量影響因素間的多重共線性對模型帶來的不利影響。然后利用LWCA對LS-SVM的參數(shù)進(jìn)行全局尋優(yōu)。該方法在簡化模型求解過程的同時,又提高了模型的性能。采用實(shí)際工程中獲取的數(shù)據(jù)對該模型進(jìn)行驗(yàn)證,結(jié)果顯示該模型具有良好的泛化能力及較高的預(yù)測精度,可有效地對瓦斯涌出量進(jìn)行預(yù)測。