郭 浩,楊超宇
(安徽理工大學(xué) 經(jīng)濟與管理學(xué)院,安徽 淮南 232000)
沖擊地壓[16],又稱為“沖擊礦壓”,在煤礦開采過程中,由于工作面的條件發(fā)生改變,導(dǎo)致巷道嚴重變形,煤巖受到破壞而引起的動力災(zāi)害[1].
目前,我國大部分礦務(wù)局均曾出現(xiàn)沖擊地壓事件,2004~2014年,大約出現(xiàn)35起,300名工人身亡和1 000余名職工傷亡[2].2020年2月22日,山東能源集團龍堌煤礦4人不幸遇難,煤礦治理成為解決沖擊地壓問題的關(guān)鍵.
沖擊地壓受到多種因素影響,如圍巖應(yīng)力,切向應(yīng)力,彈性能以及煤體本身因素等,姜福興[3]基于應(yīng)力等因素對沖擊危險性進行分析和評估.在多因素影響沖擊地壓的條件下,提出多種機器學(xué)習(xí)模型用來預(yù)測沖擊地壓.預(yù)測沖擊地壓的模型有SVM、KNN、RF、XGB、GB、NB[6],以及神經(jīng)網(wǎng)絡(luò)算法,如BP神經(jīng)網(wǎng)絡(luò)[7],深度神經(jīng)網(wǎng)絡(luò)[8]等等.
國內(nèi)外研究中,陶杰[4]利用模糊預(yù)測模型對沖擊地壓進行預(yù)測.李明亮用KNN、SVM、RF、LDA等六個機器學(xué)習(xí)模型[9]對巖爆等級進行預(yù)測,發(fā)現(xiàn)LDA模型能起到和實際等級相同的預(yù)測效果.謝學(xué)斌基于GA-XGB模型對沖擊地壓進行分類預(yù)測研究[10].畢娟使用一種R型因子分析Fisher判別的預(yù)測模型[11],目的是提高預(yù)測準確性.BOKE基于優(yōu)化樸素貝葉斯模型對沖擊地壓進行分類預(yù)測[12].學(xué)者都使用相應(yīng)的模型對沖擊地壓進行了相應(yīng)的沖擊地壓預(yù)測,但有些模型采用的數(shù)據(jù)集存在差異,其預(yù)測標準可能存在不同.
本文基于優(yōu)化的隨機森林模型(PCA-RF)實現(xiàn)沖擊地壓的預(yù)測分類,對沖擊地壓數(shù)據(jù)預(yù)處理,選取出六個參數(shù)和標簽值,利用主成分分析法對沖擊地壓數(shù)據(jù)集進行特征降維,構(gòu)建優(yōu)化的隨機森林模型,對實驗結(jié)果比較分析,將混淆矩陣及準確率作為模型評估指標.實驗表明,PCA-RF模型準確率為88.9%,RF模型的準確率為77.8%,證實了PCA-RF模型比RF模型擁有更好的預(yù)測效果,從而實現(xiàn)對沖擊地壓危害的有效預(yù)測.
RF算法[5]是基于Bagging思想的集成學(xué)習(xí)理論和隨機子空間的一種多分類模型,是Bagging算法的改進版.RF使用了CART決策樹為弱學(xué)習(xí)器,CART作為RF使用的弱學(xué)習(xí)器,CART分類樹用基尼系數(shù)確定最佳特征,并確定該特征的最佳二值切分點,Gini(D)值越小,數(shù)據(jù)集D的純度越高.基尼系數(shù)見式(1).
(1)
其中:y為類別數(shù),p(k)為一個樣本被歸類進第k類的概率.
但RF計算也存在著缺陷,在噪聲較大的類型或回歸問題上很輕易發(fā)生過擬合現(xiàn)象,并且針對有各種取值屬性的數(shù)據(jù),取值分布較多的屬性會對隨機森林形成更大的影響,所以隨機森林在這些數(shù)據(jù)結(jié)果上出現(xiàn)的屬性權(quán)值是不可信的.這也是單一的RF算法存在的缺陷.而PCA(Principal Component Analysis)算法可以解決這一問題.
(2)
D=(dij)p×p
(3)
以上公式建立在X(n×p)(p值為6)原始矩陣轉(zhuǎn)換Y(n×p)矩陣的基礎(chǔ)上.
通過主成分分析提取樣本數(shù)據(jù)主成分,并且對數(shù)據(jù)進行預(yù)處理,消除了不同取值的數(shù)據(jù)對RF模型的影響,進而利用RF模型進行沖擊地壓的分類,這樣組合的模型能夠達到訓(xùn)練時間縮短,收斂速度提高,從另外一方面又提高了分類準確率的目的.因此將主成分分析與隨機森林結(jié)合在一起,優(yōu)劣互補,能夠很好解決沖擊地壓預(yù)測分類問題.
基于PCA-RF算法的模型,如圖1所示,該模型主要涉及三個部分,即樣本數(shù)據(jù)處理、數(shù)據(jù)特征降維、模型的訓(xùn)練及預(yù)測.首先通過對數(shù)據(jù)進行異常值處理,剔除樣本偏差大的數(shù)據(jù),盡可能使得樣本數(shù)據(jù)更加平均,選取合適的特征和標簽,對標簽進行分類并替換為數(shù)字標簽,如原數(shù)據(jù)的標簽為None、Light、Moderate、Strong,需將原始標簽替換為數(shù)字標簽,依次為0、1、2、3.其次通過預(yù)處理過后的數(shù)據(jù)進行標準化,求得相關(guān)系數(shù)矩陣并計算方差貢獻率,通過方差貢獻率選取符合條件的幾個成分,從而實現(xiàn)數(shù)據(jù)特征降維的目的.最后利用RF模型進行訓(xùn)練和預(yù)測,其中測試訓(xùn)練時,需設(shè)定模型循環(huán)迭代的次數(shù),對模型產(chǎn)生的實驗結(jié)果進行分析和評估.
圖1 PCA-RF算法模型
通過相關(guān)文獻[10,13]的查找及收集,共采集100條數(shù)據(jù),數(shù)據(jù)特征分別為Wet(彈性能指數(shù))、σc(單軸抗壓強度)、σt(單軸抗拉強度)、σθ(最大切向應(yīng)力)、SCF(應(yīng)力系數(shù))、BCF(脆性系數(shù)).以數(shù)字代替原有標簽,從無到強烈分別是None-0、Light-1、Moderate-2、Strong-3.見表1.本文數(shù)據(jù)將沖擊地壓等級劃分為四類,分別為無、輕度、中度、強沖擊地壓.四類占比依次為24.24%、26.26%、29.29%、20.2%.
表1 沖擊地壓數(shù)據(jù)
如表2所示,當圍巖無任何現(xiàn)象發(fā)生時,為無沖擊地壓;當圍巖出現(xiàn)破裂并伴隨微弱聲音則為輕度沖擊地壓;圍巖破裂程度更高伴隨巖體松散則為中度沖擊地壓;圍巖出現(xiàn)嚴重變形則為強沖擊地壓.
表2 沖擊地壓等級標準劃分表
在圖2中,縱坐標依次分別為σθ、σc、σt、SCF、BCF、Wet,橫坐標依次為None、Light、Moderate、Strong四種強度.圖中縱坐標為σc和BCF數(shù)據(jù)比較集中,異常點較少.其余四類均出現(xiàn)超出上邊緣的異常點,其中SCF中Strong類型和Wet中None類型異常點較多.
圖2 各標簽對應(yīng)的箱線圖
對其異常值進行取中位數(shù)處理,并對整體數(shù)據(jù)進行標準化,標準化公式參考式(2),之后計算相關(guān)系數(shù)矩陣,相關(guān)系數(shù)矩陣如表3所示.
表3 相關(guān)系數(shù)矩陣
在表3中,SCF(應(yīng)力系數(shù))變量與σθ(最大切向應(yīng)力)存在高度的相關(guān)性,其次就是BCF(脆性系數(shù))與σt(單軸抗拉強度),相關(guān)性僅次于前者,因此存在一定程度上的信息重疊,需對該預(yù)處理過后的數(shù)據(jù)集進行降維.
采用PCA方法對數(shù)據(jù)進行降維,對其方差貢獻率和累計方差貢獻率見圖3,在前5個特征中,累計方差貢獻率已經(jīng)超過98%,一定程度上包含原有數(shù)據(jù)的完整信息.
圖3 累計方差貢獻率圖
本文采用的模型分別為PCA-RF和RF模型,分別利用數(shù)據(jù)對其進行訓(xùn)練.在利用PCA對其數(shù)據(jù)集進行數(shù)據(jù)預(yù)處理過后,減少數(shù)據(jù)的冗余,一定程度上縮短模型訓(xùn)練的時間,提高模型的預(yù)測精準度.本文RF算法中,選定參數(shù)n_estimators為49,criterion為entropy,表示選用entropy信息熵來尋找節(jié)點和分枝,并對訓(xùn)練的模型進行迭代,不斷使其準確率逼近一個有效的值,能一定程度上實現(xiàn)分類預(yù)測的效果.在對模型進行訓(xùn)練之后,統(tǒng)計各個模型的預(yù)測分類結(jié)果,采取準確率作為評價指標,以混淆矩陣的形式對實驗?zāi)P偷念A(yù)測結(jié)果進行展示.同時統(tǒng)計每個模型的準確率,并進行不同模型之間的對比分析.在本文中,分別對兩個模型進行訓(xùn)練,訓(xùn)練數(shù)據(jù)集和測試集的比例為8∶2.
3.2.1 實驗結(jié)果
每個模型的預(yù)測與真實對比見表4,模型預(yù)測結(jié)果混淆矩陣[15]見表5.表4中,左側(cè)第二列為真實標簽,右側(cè)為兩個模型的預(yù)測結(jié)果,分別與真實數(shù)據(jù)進行對比;表5中為各個模型的預(yù)測結(jié)果的可視化,最左側(cè)的0-3標簽為對應(yīng)的真實值,模型名下方的0-3代表預(yù)測數(shù)據(jù)對應(yīng)的標簽,對角線是每個模型對應(yīng)預(yù)測正確的個數(shù).
表4 模型真實值與預(yù)測值對比表
表5 混淆矩陣
3.2.2 結(jié)果分析
模型預(yù)測對比如圖4所示.數(shù)字0~3分別對應(yīng)四個等級,等級程度以數(shù)值大小依次遞增.PCA-RF模型有兩個預(yù)測錯誤,樣本序號為2的將強沖擊地壓預(yù)測為中度沖擊地壓;序號為8的將無沖擊地壓預(yù)測為中度沖擊地壓,RF模型有四個預(yù)測錯誤,分別有2個強沖擊地壓預(yù)測為中度沖擊地壓,1個無沖擊地壓預(yù)測為中度沖擊地壓,1個無沖擊地壓預(yù)測為輕度沖擊地壓,總體情況為Strong類型的沖擊地壓錯誤預(yù)測為除了無沖擊地壓(None)等級外其他沖擊地壓等級.兩種模型中均未出現(xiàn)將嚴重沖擊地壓(Strong)預(yù)測為無沖擊(None)地壓,因為這種情況一旦在現(xiàn)實中發(fā)生,將會帶來嚴重的后果,這會產(chǎn)生嚴重不良的影響.通過實驗結(jié)果可以看出,PCA-RF的預(yù)測準確度最高.
圖4 模型預(yù)測對比圖
通過對模型的訓(xùn)練與預(yù)測,結(jié)合混淆矩陣,通過對PCA-RF與RF模型進行比較,PCA-RF的預(yù)測準確度較高,從混淆矩陣及預(yù)測值和真實值的比較結(jié)果中可得到:在預(yù)測準確率方面PCA-RF模型>RF模型,且經(jīng)過實驗的驗證,運用主成分分析和不運用主成分分析的模型相比,前者在訓(xùn)練時間上有一定縮短,從而達到縮短模型訓(xùn)練所需要的時間,提高模型效率的目的.因此,PCA-RF模型相對RF模型來講,對沖擊地壓的預(yù)測具備一定的準確度,在一定程度上有利于對沖擊地壓進行有效的預(yù)測.
本文存在的不足:在預(yù)測結(jié)果中雖然PCA-RF模型總體預(yù)測效果不錯,但還存在個例預(yù)測錯誤的現(xiàn)象,原因可能是算法內(nèi)部的某些參數(shù)的設(shè)置有待提高和加強,后續(xù)工作將進一步完善.