呂文玉,丁 科,伍永平,杜旭峰,胡 馨,羅香玉,張 勇
(1.西安科技大學(xué) 能源學(xué)院,陜西 西安 710054;2.西安科技大學(xué) 西部礦井開采及災(zāi)害防治教育部重點實驗室,陜西 西安 710054;3.中國礦業(yè)大學(xué)(北京) 化學(xué)與環(huán)境工程學(xué)院,北京 100083;4.西安科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,陜西 西安 710054;5.山西省潞安集團司馬煤業(yè)公司,山西 長治 047105)
煤炭是中國的主要能源,對中國國民經(jīng)濟和社會發(fā)展具有重要的意義。近年來,隨著開采深度和強度的不斷增加,煤炭產(chǎn)量也在不斷增加,各種礦井災(zāi)害更發(fā)生加頻繁,其中頂板事故的發(fā)生占據(jù)較大比重,所以提前預(yù)測頂板壓力,提前做好預(yù)防措施有利于礦井安全高效生產(chǎn)[1-4]。
在研究煤礦安全高效開采的過程中,非常重要的一項工作就是計算煤礦工作面液壓支架的工作阻力。目前,綜采面支架工作阻力主要采用力學(xué)理論分析,現(xiàn)場實測,數(shù)值模擬實驗,工程類比等。劉國柱為驗證8.8 m大采高液壓支架的承載能力,依據(jù)神東礦區(qū)礦壓顯現(xiàn)規(guī)律和理論分析經(jīng)驗,建立了以采高和工作面長度為因變量的支護強度多元線性回歸模型[5]。楊路林采用理論分析確定了頂板的直接頂,基本頂重力,上覆巖層靜載荷是礦壓的來源,采用位態(tài)方程和統(tǒng)計相結(jié)合的方法,確定了近距離煤層群頂板壓力的理論值[6]。張仲倫基于大采高工作面礦壓顯現(xiàn)特點,從工作面直接頂關(guān)鍵層的結(jié)構(gòu)出發(fā),并通過理論分析,數(shù)值模擬驗證的方法,建立了大采高綜采工作面的支護強度計算公式[7]。由于礦壓機理及控制具有高度的混動性,動態(tài)性與非線性特點[8],在傳統(tǒng)的計算方法中存在誤差大、計算困難等問題[9]。
近年來,國內(nèi)外許多學(xué)者將目光投向基于機器學(xué)習(xí)建立的預(yù)測模型,并取得了較好的預(yù)測效果。相比傳統(tǒng)計算方法,機器學(xué)習(xí)具有快速、高效、可靠、實時等優(yōu)良特點。以淺埋煤層開采部分?jǐn)?shù)據(jù)為研究對象,借助主成分分析法,通過對變量的相關(guān)系數(shù)矩陣的內(nèi)部結(jié)構(gòu)計算分析,獲取少數(shù)幾個具有正交性且能代表原始變量的主成分,對數(shù)據(jù)進行簡化,不僅最大程度地保留了原有信息的完整性,而且大幅度地減少了運算量,克服了多因素的相關(guān)性及反映信息在一定程度上存在重疊性等缺點[10]。后續(xù)使用的回歸型支持向量機(SVR)在非線性回歸方面取得良好的性能和效果[11]。SVR模型具有優(yōu)秀的泛化能力且結(jié)構(gòu)化風(fēng)險較小,將主成分分析(PCA)降維后得到的主成分因子輸入到該SVR模型,能夠較好的處理復(fù)雜的非線性數(shù)據(jù),并且迭代次數(shù)較少、快速收斂,該算法模型能夠快速、準(zhǔn)確預(yù)測支架工作阻力。
主成分分析(principal component analysis,PCA)最先是由皮爾遜和霍特林提出。主成分分析思想主要是用少數(shù)的若干新變量(原變量的線性組合)替代原變量,新變量要盡可能多地反映原變量的數(shù)據(jù)信息,新變量之間相互正交,可以消除原變量中相互重疊的信息[12-13]。數(shù)學(xué)模型如下。
對于一個樣本,樣本的標(biāo)準(zhǔn)化輸入變量矩陣為
(1)
構(gòu)造一個變量P1滿足
P1=Xt1,‖t1‖=1
使得P1能攜帶Xnk的信息,即
(2)
支持向量機是一種新的機器學(xué)習(xí)方法。機器學(xué)習(xí)主要目的是基于樣本數(shù)據(jù)建立數(shù)學(xué)模型來研究因變量(輸出值)與一個或多個自變量(輸入值)之間的關(guān)系,以便對未來做出預(yù)測或決策,而無需經(jīng)過明確的編程。
20世紀(jì)90年代VLADIMIR和CORINNA最早提出現(xiàn)代版支持向量機,支持向量機最初研究線性可分的問題,將數(shù)據(jù)映射到一個新的高維表示,支持向量機在這個高維空間中找到一個具有最大邊界的線性的超平面,盡量讓超平面與每個類別最近的數(shù)據(jù)點之間的距離最大化,從而計算出良好決策邊界,這樣決策邊界可以很好地推廣到訓(xùn)練數(shù)據(jù)集之外的新樣本數(shù)據(jù)集[14]。SVR為了解決擬合方面的問題,其基本思想是尋找一個最優(yōu)分類面使得所有樣本集離該最優(yōu)分類面的誤差最小。同時支持向量機模型適用于非線性的小樣本學(xué)習(xí),學(xué)習(xí)速率快且迭代次數(shù)較少的優(yōu)點[15]。因此,SVR模型能夠滿足綜采工作面支架工作阻力快速、準(zhǔn)確預(yù)測的要求。SVR回歸模型結(jié)構(gòu)如圖1所示。
圖1 SVR結(jié)構(gòu)示意Fig.1 SVR structure sketch
在SVR算法中,核函數(shù)通過特征變換增加新的特征,使得低維空間中的線性不可分的問題變換為高維度空間中線性可分的問題,因此選擇合適的核函數(shù)對于支持向量機的回歸性能有很大的影響。在 SVR算法中,為了使預(yù)測結(jié)果具有更高的精確度[16],在對樣本進行訓(xùn)練之前,為了選擇適合樣本數(shù)據(jù)的核函數(shù),隨機挑選20組樣本與10組測試集進行對比實驗,具體結(jié)果見表1。
從表1可以看出,不同的核函數(shù)對于SVR算法的回歸性能有很大的影響,高斯徑向核函數(shù)無論均方誤差(MSE)還是相關(guān)系數(shù)(R2)都較多項式函數(shù)、Sigmoid函數(shù)的擬合均具有明顯優(yōu)勢,因此文中支持向量機算法模型選取泛化能力最好的核函數(shù)徑向基核函數(shù),通過交叉驗證法尋找最優(yōu)參數(shù)寬度以及懲罰因子c。徑向基(RBF)函數(shù)的表達式為
(3)
表1 不同核函數(shù)對模型性能的影響Table 1 Influence of different kernel functions on model performance
目前,針對綜采工作面支架工作阻力預(yù)測方法大致分為2類:一是基于傳統(tǒng)彈性力學(xué)與巖石力學(xué)分析礦壓頂板結(jié)構(gòu)的力學(xué)方法;二是基于煤礦海量數(shù)據(jù),利用人工智能方法挖掘數(shù)據(jù)間客觀存在線性、非線性依賴關(guān)系,從而達到預(yù)測為目的智能技術(shù)方法[17]。文中是一種基于支持向量機與主成分分析(PCA-SVR)組合模型的機器學(xué)習(xí)算法對綜采工作面支架工作阻力預(yù)測的方法。
綜采工作面支架工作阻力的影響因素有很多,而影響支架工作阻力的波動方向和顯著程度不盡相同。根據(jù)相關(guān)研究,選取了埋深、煤層傾角、工作面走向長度、工作面傾斜長度、直接頂厚度、基本頂厚、采高、煤厚、頂板條件8個參數(shù)作為為影響工作面支架工作阻力的輸入特征,輸出參數(shù)選擇了工作阻力[18]。在數(shù)據(jù)收集過程中發(fā)現(xiàn),煤層頂板條件是指工作面頂板的控制難易程度(巖性和節(jié)理為主要指標(biāo)),現(xiàn)為了方便機器學(xué)習(xí),將其頂板條件按頂板控制程度分別用1,2,3,4代替不穩(wěn)定頂板、中等穩(wěn)定頂板、穩(wěn)定頂板、非常穩(wěn)定頂板?,F(xiàn)采集到的79組淺埋煤層開采數(shù)據(jù)樣本,69組數(shù)據(jù)用于訓(xùn)練模型,10組樣本數(shù)據(jù)進行仿真預(yù)測。由于輸入數(shù)據(jù)的每個特征(比如埋深、采高、工作面長度等)都有不同的取值范圍,將取值范圍差異很大,且單位不一樣的數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中,將導(dǎo)致神經(jīng)網(wǎng)絡(luò)收斂速度慢,訓(xùn)練時間較長,且如果網(wǎng)絡(luò)自動適應(yīng)這種取值范圍不同的數(shù)據(jù),數(shù)據(jù)范圍較大的輸入在模型擬合中對結(jié)果影響偏大,而數(shù)據(jù)輸入范圍小的輸入作用偏小,機器學(xué)習(xí)肯定變得更加困難。對于這種數(shù)據(jù),將對每個輸入數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。各個工作面的支架工作阻力及其主要影響因素數(shù)據(jù)見表2。
表2 工作面的支架工作阻力及其主要影響因素Table 2 Support working resistance of each working face and its main influencing factors
利用MATLAB仿真軟件,設(shè)計一種PCA-SVR算法,建立了一個綜采工作面支架工作阻力的預(yù)測模型。根據(jù)VAPNIK等人的研究可知,支持向量機性能的主要影響因素為支持向量機的核函數(shù)、參數(shù)g以及懲罰因子c[19]。高斯徑向基函數(shù)在之前樣本數(shù)據(jù)預(yù)處理中表現(xiàn)出良好的性能,因此采用徑向基函數(shù)作為SVR的核函數(shù)。
懲罰因子c起著控制錯分樣本懲罰程度的作用,從而實現(xiàn)錯誤劃分樣本的比例與算法復(fù)雜度間折中[20]。支持向量機模型的性能除了受核函數(shù)類型、懲罰因子c的影響還受到核函數(shù)參數(shù)g(核函數(shù)中的方差)的影響[21]。文中利用交叉驗證方法尋求最佳核函數(shù)參數(shù)g和懲罰因子c的參數(shù)組合,同時,當(dāng)模型性能相當(dāng)時,優(yōu)先選擇懲罰因子c比較小的組合參數(shù)可以減少計算時間,建立訓(xùn)練模型。
綜上,將標(biāo)定好的數(shù)據(jù)集分成2部分,使用69組訓(xùn)練集樣本進行訓(xùn)練,10組測試集進行仿真測試,根據(jù)核函數(shù)參數(shù)和數(shù)據(jù)樣本分布之間的經(jīng)驗,并進行數(shù)次實驗分析模型參數(shù),對比模型性能,最終選取較佳懲罰因子c=20和核函數(shù)參數(shù)g=0.8。
通過計算機仿真實驗的SVR和 PCA-SVR模型分別對測試組工作面支架工作阻力進行預(yù)測,用MSE、R2作為評價指標(biāo),結(jié)果見表3。
從表3可以看出,PCA-SVR算法在利用主成分分析法對8個影響綜采工作面支架工作阻力的因素進行降維分析4個綜合因素后,各成分得分如圖2所示。收斂速度0.97 s明顯較SVR算法的1.79 s快;從超平面擬合效果來看PCA-SVR算法的相關(guān)系數(shù)99.62%明顯優(yōu)于SVR 71.8%;從預(yù)測的準(zhǔn)確程度來看,PCA-SVR的均方誤差0.014較SVR的0.447更接近于0,表明支持向量機在結(jié)合主成分析法后誤差明顯減少,達到預(yù)期實驗效果。
表3 SVR與PCA-SVR算法結(jié)果比較Table 3 Comparison of SVR and PCA-SVR results
圖2 主成分貢獻率Fig.2 Contribution rate of principal component
從圖3可以看出,SVR最大誤差25.68%,最小誤差1.3%,平均誤差17.86%,模型整理波動幅值較大,預(yù)測結(jié)果不穩(wěn)定,精度較低,存在較大的偶然性;PCA-SVR算法最大誤差16%,最小誤差1.3%,波動幅值僅為 4.5%。因此SVR無論在誤差還是在精度上,都取得了更好的效果。說明PCA算法在降低數(shù)據(jù)集維度的同時保存了原始數(shù)據(jù)攜帶的信息,實驗結(jié)果表明PCA-SVR算法較SVR模型有較好的泛化性,更好實現(xiàn)綜采工作面支架工作阻力的預(yù)測。
圖3 SVR和 PCA-SVR模型誤差Fig.3 Errors of SVR and PCA-SVR model
從圖4可以看出,PCA-SVR模型的預(yù)測值與實際輸出值擬合度明顯高于SVR預(yù)測模型,但工作阻力7 000~1 200 kN擬合程度明顯低于3 000~7 000 kN,這是由于樣本數(shù)據(jù)在7 000~12 000 kN分布較少,支持向量機未能進行充分學(xué)習(xí),但總體上PCA-SVR預(yù)測模型能夠較好地預(yù)測綜采工作面的支架工作阻力。
圖4 PCA-SVR支架工作阻力預(yù)測效果Fig.4 PCA-SVR prediction effects of working resistance
1)綜采工作面礦山壓力是一個高度復(fù)雜的非線性機理,同時也受到了諸多因素的影響。利用 PCA-SVR神經(jīng)網(wǎng)絡(luò)模型來進行礦壓規(guī)律的預(yù)測,較SVR模型縮短運行時間0.82 s,預(yù)測精度高99.6%。
2)用機器學(xué)習(xí)的方法預(yù)測綜采工作面的支架工作阻力,與其他神經(jīng)網(wǎng)絡(luò)相比,支持向量機避免了陷入局部最小,且收斂速度較快。PCA-SVR預(yù)測模型性能優(yōu)良,在淺埋煤層支架工作阻力預(yù)測中,泛化性較強。
3)PCA-SVR算法對綜采工作面支架工作阻力的預(yù)測能夠取得較好的效果,將該模型應(yīng)用于綜采工作面支架工作阻力的預(yù)測具有很強的現(xiàn)實意義和推廣價值,但由于采礦地質(zhì)環(huán)境復(fù)雜,采集數(shù)據(jù)困難,且存在較大誤差,這給機器學(xué)習(xí)的算法編程帶來較大的挑戰(zhàn),因此在建模前需要做大量精細化的數(shù)據(jù)收集工作,且PCA-SVR模型中的參數(shù)仍需進一步優(yōu)化。