吳奉亮, 霍源, 高佳南
(1.西安科技大學(xué) 安全科學(xué)與工程學(xué)院,陜西 西安 710054;2.西部礦井開(kāi)采及災(zāi)害防治教育部重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710054)
瓦斯災(zāi)害事故是威脅煤礦安全高效開(kāi)采的主要因素[1-2],為遏制瓦斯事故的發(fā)生,準(zhǔn)確、高效的煤礦瓦斯涌出量預(yù)測(cè)方法尤為重要[3]。由于煤礦瓦斯涌出量的各影響因子間呈現(xiàn)出非線(xiàn)性關(guān)系[4],線(xiàn)性預(yù)測(cè)方法難以得到滿(mǎn)意的預(yù)測(cè)結(jié)果。因此,灰色理論、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等非線(xiàn)性映射方法被廣泛應(yīng)用于煤礦瓦斯涌出量預(yù)測(cè)。題正義等[5]基于模糊數(shù)學(xué)和灰色系統(tǒng)建立了瓦斯涌出量預(yù)測(cè)模型。李樹(shù)剛等[6]將因子分析與BP神經(jīng)網(wǎng)絡(luò)相耦合,對(duì)瓦斯涌出量進(jìn)行預(yù)測(cè)。付華等[7]提出了一種利用蟻群聚類(lèi)算法優(yōu)化Elman神經(jīng)網(wǎng)絡(luò)的瓦斯涌出量預(yù)測(cè)方法。孫林等[8]、董曉雷等[9]、張強(qiáng)等[10]利用支持向量機(jī)實(shí)現(xiàn)瓦斯涌出量預(yù)測(cè);謝東海等[11]將未確知測(cè)度理論引入到瓦斯涌出量預(yù)測(cè)中。然而,煤礦瓦斯涌出量的影響因素眾多且復(fù)雜,灰色理論往往不能滿(mǎn)足預(yù)測(cè)精度要求;神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度依賴(lài)于樣本容量,且存在訓(xùn)練速度慢、泛化能力差的問(wèn)題;基于支持向量機(jī)的預(yù)測(cè)方法對(duì)超參數(shù)的選取有較高要求[12]。
隨機(jī)森林算法具有參數(shù)少、學(xué)習(xí)速度快、適用于高維樣本、可有效避免過(guò)擬合、預(yù)測(cè)精度高等優(yōu)點(diǎn)[13-14],已被廣泛用于分類(lèi)和回歸問(wèn)題。在煤炭瓦斯防治領(lǐng)域,隨機(jī)森林算法已在瓦斯涌出量預(yù)測(cè)、煤與瓦斯突出預(yù)測(cè)等方面有所應(yīng)用,如汪明等[15]建立了回采工作面瓦斯涌出量的隨機(jī)森林預(yù)測(cè)模型。溫廷新等[16]提出了一種將因子分析理論與隨機(jī)森林算法相結(jié)合的煤與瓦斯突出等級(jí)預(yù)測(cè)方法。鄭曉亮[17]將數(shù)據(jù)挖掘多重填補(bǔ)算法與隨機(jī)森林算法相結(jié)合進(jìn)行煤與瓦斯突出預(yù)測(cè)。本文在文獻(xiàn)[15]的基礎(chǔ)上,分析了特征變量的影響權(quán)重,優(yōu)選出影響瓦斯涌出量的關(guān)鍵特征變量,建立隨機(jī)森林回歸模型,進(jìn)行煤礦瓦斯涌出量預(yù)測(cè),提高了預(yù)測(cè)精度和效率。
隨機(jī)森林算法是以Bagging算法思想為基礎(chǔ)建立的集成學(xué)習(xí)算法[18],用于數(shù)據(jù)的分類(lèi)和回歸研究。該算法能夠有效分析高維非線(xiàn)性數(shù)據(jù),具有較好的泛化能力和預(yù)測(cè)性能[14]。隨機(jī)森林算法用于研究連續(xù)變量的回歸問(wèn)題,稱(chēng)之為隨機(jī)森林回歸。
基于隨機(jī)森林回歸的煤礦瓦斯涌出量預(yù)測(cè)主要步驟如下[19]:
(1)采用bootstrap自助法重采樣技術(shù),在原始訓(xùn)練集中有放回地重復(fù)隨機(jī)抽取n個(gè)與原始訓(xùn)練集樣本容量相等的新訓(xùn)練樣本數(shù)據(jù)集,未被采樣選中的數(shù)據(jù)稱(chēng)為袋外數(shù)據(jù)。
(2)從影響煤礦瓦斯涌出量的M個(gè)輸入特征中隨機(jī)選擇m個(gè)特征作為決策樹(shù)分枝節(jié)點(diǎn)的備選特征變量集合,根據(jù)分枝優(yōu)度準(zhǔn)則,從集合中選取最優(yōu)特征進(jìn)行節(jié)點(diǎn)分裂,構(gòu)建決策樹(shù)。每棵瓦斯涌出量決策樹(shù)自由完整地生長(zhǎng)而不剪裁。
(3)構(gòu)造出n顆瓦斯涌出量決策樹(shù),組成隨機(jī)森林回歸模型。取n顆決策樹(shù)輸出值的均值作為煤礦瓦斯涌出量預(yù)測(cè)結(jié)果,利用袋外數(shù)據(jù)(如殘差平方均值)評(píng)價(jià)回歸模型預(yù)測(cè)性能。
隨機(jī)森林回歸模型的超參數(shù)包括決策樹(shù)數(shù)目n和隨機(jī)選用的特征個(gè)數(shù)m,其取值對(duì)回歸模型的擬合和預(yù)測(cè)性能有重要影響[20]。若n值過(guò)小,會(huì)因回歸模型訓(xùn)練不足而導(dǎo)致預(yù)測(cè)結(jié)果誤差偏大;若n值過(guò)大,則會(huì)增加模型的計(jì)算量。若m值偏小,回歸模型會(huì)因過(guò)擬合而導(dǎo)致預(yù)測(cè)精度降低;若m值偏大,則會(huì)降低模型運(yùn)算速度。因此,構(gòu)建隨機(jī)森林回歸模型時(shí)需對(duì)超參數(shù)n和m進(jìn)行尋優(yōu)。
對(duì)超參數(shù)n和m進(jìn)行尋優(yōu)時(shí),首先設(shè)置超參數(shù)m值,回歸分析中通常默認(rèn)其值為輸入特征變量數(shù)的1/3[21],在m值不變的條件下,得到不同n值下袋外數(shù)據(jù)殘差平方均值的變化情況。滿(mǎn)足隨機(jī)森林回歸模型穩(wěn)定性(殘差平方均值隨n值變化趨于穩(wěn)定值)且模型訓(xùn)練效率較高時(shí)對(duì)應(yīng)決策樹(shù)數(shù)目n值為最優(yōu)值。設(shè)n取最優(yōu)值不變,計(jì)算不同m值下袋外數(shù)據(jù)殘差平方均值和回歸模型的擬合優(yōu)度,選取殘差平方均值小、擬合優(yōu)度高的m值作為最優(yōu)值。
在采用bootstrap自助法重采樣形成隨機(jī)森林回歸模型訓(xùn)練集的過(guò)程中,每次采樣約有36.8%的原始數(shù)據(jù)不會(huì)被取到,即袋外數(shù)據(jù),它們將不參與回歸模型訓(xùn)練,而是作為測(cè)試集對(duì)回歸模型的泛化能力、預(yù)測(cè)性能和特征重要性進(jìn)行評(píng)估[22]。
在隨機(jī)森林回歸模型中,通常是以特征變量的隨機(jī)改變引起回歸模型的變化程度來(lái)描述特征變量的重要性,具體是采用袋外數(shù)據(jù)殘差平方均值的增加量(IncMSE)來(lái)表征特征變量的重要性,IncMSE越大,說(shuō)明該特征變量對(duì)因變量越重要。對(duì)IncMSE進(jìn)行歸一化處理,得到各特征變量對(duì)因變量的影響權(quán)重[23],本文用累計(jì)影響權(quán)重達(dá)到90%的部分特征變量代替煤礦瓦斯涌出量的全部特征變量,用于構(gòu)建隨機(jī)森林回歸模型。
根據(jù)文獻(xiàn)[7],選用14個(gè)特征變量作為煤礦瓦斯涌出量預(yù)測(cè)模型的輸入變量:煤層瓦斯含量X1,埋深X2,煤厚X3,煤層傾角X4,采煤高度X5,日進(jìn)度X6,采煤工作面長(zhǎng)度X7,采出率X8,鄰近層瓦斯含量X9,鄰近層厚度X10,鄰近層間距X11,頂板管理方式X12,開(kāi)采強(qiáng)度X13,層間巖性X14;輸出變量:瓦斯涌出量Y。獲取了20組原始數(shù)據(jù),見(jiàn)表1。前16組原始數(shù)據(jù)用于訓(xùn)練回歸模型,其余4組用于測(cè)試回歸模型。
表1 隨機(jī)森林回歸模型訓(xùn)練和測(cè)試樣本
設(shè)參數(shù)m的默認(rèn)值為特征變量總數(shù)的1/3,煤礦瓦斯涌出量的影響因子有14個(gè),因此,m=5。設(shè)決策樹(shù)數(shù)目n為50,100,500,1 000,利用RStudio軟件平臺(tái)進(jìn)行編程,建立隨機(jī)森林回歸模型,得到n取不同值時(shí)袋外數(shù)據(jù)殘差平方均值,如圖1所示。從圖1可知,當(dāng)n超過(guò)200后,袋外數(shù)據(jù)殘差平方均值變化趨于平穩(wěn)。綜合考慮模型運(yùn)算量和預(yù)測(cè)精度,取n為500。
圖1 n取不同值時(shí)的袋外數(shù)據(jù)殘差平方均值(14個(gè)特征變量)
取n=500固定不變,m取1~14(步長(zhǎng)為1),建立隨機(jī)森林回歸模型,得到m取不同值時(shí)模型的擬合優(yōu)度與殘差平方均值,如圖2所示。從圖2可知,m為7時(shí)對(duì)應(yīng)擬合優(yōu)度最大,殘差平方均值最小,因此,確定最優(yōu)值m=7。
圖2 m取不同值時(shí)的擬合優(yōu)度與殘差平方均值(14個(gè)特征變量)
對(duì)IncMSE值進(jìn)行歸一化處理,得出各特征變量對(duì)煤礦瓦斯涌出量的影響權(quán)重及累計(jì)影響權(quán)重,如圖3和圖4所示。
圖3 各特征變量重要性及影響權(quán)重
從圖3可知,采煤高度、煤厚、煤層瓦斯含量、采出率、埋深、日進(jìn)度、開(kāi)采強(qiáng)度、鄰近層間距等特征變量的影響權(quán)重較大,而鄰近層瓦斯含量、傾角、采煤工作面長(zhǎng)度、層間巖性、頂板管理方式、鄰近層厚度等特征變量的影響權(quán)重相對(duì)較小。從圖4可看出,采煤高度、煤厚、煤層瓦斯含量、采出率、埋深、日進(jìn)度、開(kāi)采強(qiáng)度、鄰近層間距等特征變量的累計(jì)影響權(quán)重為91.10%,按照累計(jì)影響權(quán)重達(dá)到90%以上的關(guān)鍵特征變量選擇規(guī)則,選取該8個(gè)特征變量作為影響煤礦瓦斯涌出量的主要因素。
圖4 累計(jì)影響權(quán)重
選取重要性排序前8的特征變量作為隨機(jī)森林回歸模型的輸入變量,在保證訓(xùn)練樣本相同的前提下,構(gòu)建隨機(jī)森林回歸模型。首先進(jìn)行超參數(shù)尋優(yōu),結(jié)果如圖5和圖6所示。
圖5 n取不同值時(shí)的袋外數(shù)據(jù)殘差平方均值(8個(gè)特征變量)
圖6 m取不同值時(shí)的擬合優(yōu)度與殘差平方均值(8個(gè)特征變量)
從圖5、圖6可看出:n為500時(shí),模型袋外數(shù)據(jù)殘差平方均值變化平穩(wěn);m為2時(shí),模型擬合優(yōu)度最大,殘差平方均值最小。因此,基于特征選擇的隨機(jī)森林回歸模型的最優(yōu)超參數(shù)為n=500,m=2。
為了評(píng)價(jià)基于特征變量選擇的隨機(jī)森林回歸模型的預(yù)測(cè)性能,在保證預(yù)測(cè)樣本相同的前提下,與全部14個(gè)特征變量參與的隨機(jī)森林回歸模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,結(jié)果見(jiàn)表2??煽闯?,2種情況下隨機(jī)森林回歸模型均具有較好的預(yù)測(cè)性能,進(jìn)行特征變量選擇后,平均絕對(duì)誤差由0.22 m3/min下降到0.21 m3/min,平均相對(duì)誤差由3.55%下降到3.47%。基于特征變量選擇的隨機(jī)森林回歸模型不僅能夠保證較好的預(yù)測(cè)性能,而且降低了模型特征變量的維度,減少了原始數(shù)據(jù)獲取工作,提高了預(yù)測(cè)效率。
表2 瓦斯涌出量預(yù)測(cè)誤差對(duì)比
(1)研究了基于隨機(jī)森林回歸的煤礦瓦斯涌出量預(yù)測(cè)方法。通過(guò)計(jì)算袋外數(shù)據(jù)殘差平方均值和擬合優(yōu)度,確定隨機(jī)森林回歸模型的最優(yōu)超參數(shù)。
(2)通過(guò)特征變量重要性分析方法,從全部14個(gè)特征變量中優(yōu)選出采煤高度、煤厚、煤層瓦斯含量、采出率、埋深、日進(jìn)度、開(kāi)采強(qiáng)度、鄰近層間距8個(gè)關(guān)鍵的特征變量,建立特征選擇后的隨機(jī)森林預(yù)測(cè)模型。
(3)測(cè)試結(jié)果表明,采用全部特征變量和部分特征變量的隨機(jī)森林回歸模型均具有較好的擬合與預(yù)測(cè)效果。進(jìn)行特征變量選擇后,模型的平均絕對(duì)誤差由0.22 m3/min下降到0.21 m3/min,平均相對(duì)誤差由3.55%下降到3.47%。基于特征變量?jī)?yōu)選的隨機(jī)森林回歸模型保持了較高的預(yù)測(cè)精度,同時(shí)提高了模型預(yù)測(cè)效率,更加適用于煤礦瓦斯涌出量預(yù)測(cè)。