基于隨機(jī)森林回歸的煤礦瓦斯涌出量預(yù)測(cè)方法

2021-09-02 13:07吳奉亮霍源高佳南

工礦自動(dòng)化 2021年8期

吳奉亮，霍源，高佳南

(1.西安科技大學(xué) 安全科學(xué)與工程學(xué)院，陜西西安 710054；2.西部礦井開(kāi)采及災(zāi)害防治教育部重點(diǎn)實(shí)驗(yàn)室，陜西西安 710054)

0 引言

瓦斯災(zāi)害事故是威脅煤礦安全高效開(kāi)采的主要因素[1-2]，為遏制瓦斯事故的發(fā)生，準(zhǔn)確、高效的煤礦瓦斯涌出量預(yù)測(cè)方法尤為重要[3]。由于煤礦瓦斯涌出量的各影響因子間呈現(xiàn)出非線(xiàn)性關(guān)系[4]，線(xiàn)性預(yù)測(cè)方法難以得到滿(mǎn)意的預(yù)測(cè)結(jié)果。因此，灰色理論、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等非線(xiàn)性映射方法被廣泛應(yīng)用于煤礦瓦斯涌出量預(yù)測(cè)。題正義等[5]基于模糊數(shù)學(xué)和灰色系統(tǒng)建立了瓦斯涌出量預(yù)測(cè)模型。李樹(shù)剛等[6]將因子分析與BP神經(jīng)網(wǎng)絡(luò)相耦合，對(duì)瓦斯涌出量進(jìn)行預(yù)測(cè)。付華等[7]提出了一種利用蟻群聚類(lèi)算法優(yōu)化Elman神經(jīng)網(wǎng)絡(luò)的瓦斯涌出量預(yù)測(cè)方法。孫林等[8]、董曉雷等[9]、張強(qiáng)等[10]利用支持向量機(jī)實(shí)現(xiàn)瓦斯涌出量預(yù)測(cè)；謝東海等[11]將未確知測(cè)度理論引入到瓦斯涌出量預(yù)測(cè)中。然而，煤礦瓦斯涌出量的影響因素眾多且復(fù)雜，灰色理論往往不能滿(mǎn)足預(yù)測(cè)精度要求；神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度依賴(lài)于樣本容量，且存在訓(xùn)練速度慢、泛化能力差的問(wèn)題；基于支持向量機(jī)的預(yù)測(cè)方法對(duì)超參數(shù)的選取有較高要求[12]。

隨機(jī)森林算法具有參數(shù)少、學(xué)習(xí)速度快、適用于高維樣本、可有效避免過(guò)擬合、預(yù)測(cè)精度高等優(yōu)點(diǎn)[13-14]，已被廣泛用于分類(lèi)和回歸問(wèn)題。在煤炭瓦斯防治領(lǐng)域，隨機(jī)森林算法已在瓦斯涌出量預(yù)測(cè)、煤與瓦斯突出預(yù)測(cè)等方面有所應(yīng)用，如汪明等[15]建立了回采工作面瓦斯涌出量的隨機(jī)森林預(yù)測(cè)模型。溫廷新等[16]提出了一種將因子分析理論與隨機(jī)森林算法相結(jié)合的煤與瓦斯突出等級(jí)預(yù)測(cè)方法。鄭曉亮[17]將數(shù)據(jù)挖掘多重填補(bǔ)算法與隨機(jī)森林算法相結(jié)合進(jìn)行煤與瓦斯突出預(yù)測(cè)。本文在文獻(xiàn)[15]的基礎(chǔ)上，分析了特征變量的影響權(quán)重，優(yōu)選出影響瓦斯涌出量的關(guān)鍵特征變量，建立隨機(jī)森林回歸模型，進(jìn)行煤礦瓦斯涌出量預(yù)測(cè)，提高了預(yù)測(cè)精度和效率。

1 方法原理

1.1 基于隨機(jī)森林回歸的煤礦瓦斯涌出量預(yù)測(cè)

隨機(jī)森林算法是以Bagging算法思想為基礎(chǔ)建立的集成學(xué)習(xí)算法[18]，用于數(shù)據(jù)的分類(lèi)和回歸研究。該算法能夠有效分析高維非線(xiàn)性數(shù)據(jù)，具有較好的泛化能力和預(yù)測(cè)性能[14]。隨機(jī)森林算法用于研究連續(xù)變量的回歸問(wèn)題，稱(chēng)之為隨機(jī)森林回歸。

基于隨機(jī)森林回歸的煤礦瓦斯涌出量預(yù)測(cè)主要步驟如下[19]：

(1)采用bootstrap自助法重采樣技術(shù)，在原始訓(xùn)練集中有放回地重復(fù)隨機(jī)抽取n個(gè)與原始訓(xùn)練集樣本容量相等的新訓(xùn)練樣本數(shù)據(jù)集，未被采樣選中的數(shù)據(jù)稱(chēng)為袋外數(shù)據(jù)。

(2)從影響煤礦瓦斯涌出量的M個(gè)輸入特征中隨機(jī)選擇m個(gè)特征作為決策樹(shù)分枝節(jié)點(diǎn)的備選特征變量集合，根據(jù)分枝優(yōu)度準(zhǔn)則，從集合中選取最優(yōu)特征進(jìn)行節(jié)點(diǎn)分裂，構(gòu)建決策樹(shù)。每棵瓦斯涌出量決策樹(shù)自由完整地生長(zhǎng)而不剪裁。

(3)構(gòu)造出n顆瓦斯涌出量決策樹(shù)，組成隨機(jī)森林回歸模型。取n顆決策樹(shù)輸出值的均值作為煤礦瓦斯涌出量預(yù)測(cè)結(jié)果，利用袋外數(shù)據(jù)(如殘差平方均值)評(píng)價(jià)回歸模型預(yù)測(cè)性能。

1.2 超參數(shù)尋優(yōu)及特征變量重要性評(píng)估

隨機(jī)森林回歸模型的超參數(shù)包括決策樹(shù)數(shù)目n和隨機(jī)選用的特征個(gè)數(shù)m，其取值對(duì)回歸模型的擬合和預(yù)測(cè)性能有重要影響[20]。若n值過(guò)小，會(huì)因回歸模型訓(xùn)練不足而導(dǎo)致預(yù)測(cè)結(jié)果誤差偏大；若n值過(guò)大，則會(huì)增加模型的計(jì)算量。若m值偏小，回歸模型會(huì)因過(guò)擬合而導(dǎo)致預(yù)測(cè)精度降低；若m值偏大，則會(huì)降低模型運(yùn)算速度。因此，構(gòu)建隨機(jī)森林回歸模型時(shí)需對(duì)超參數(shù)n和m進(jìn)行尋優(yōu)。

對(duì)超參數(shù)n和m進(jìn)行尋優(yōu)時(shí)，首先設(shè)置超參數(shù)m值，回歸分析中通常默認(rèn)其值為輸入特征變量數(shù)的1/3[21]，在m值不變的條件下，得到不同n值下袋外數(shù)據(jù)殘差平方均值的變化情況。滿(mǎn)足隨機(jī)森林回歸模型穩(wěn)定性(殘差平方均值隨n值變化趨于穩(wěn)定值)且模型訓(xùn)練效率較高時(shí)對(duì)應(yīng)決策樹(shù)數(shù)目n值為最優(yōu)值。設(shè)n取最優(yōu)值不變，計(jì)算不同m值下袋外數(shù)據(jù)殘差平方均值和回歸模型的擬合優(yōu)度，選取殘差平方均值小、擬合優(yōu)度高的m值作為最優(yōu)值。

在采用bootstrap自助法重采樣形成隨機(jī)森林回歸模型訓(xùn)練集的過(guò)程中，每次采樣約有36.8%的原始數(shù)據(jù)不會(huì)被取到，即袋外數(shù)據(jù)，它們將不參與回歸模型訓(xùn)練，而是作為測(cè)試集對(duì)回歸模型的泛化能力、預(yù)測(cè)性能和特征重要性進(jìn)行評(píng)估[22]。

在隨機(jī)森林回歸模型中，通常是以特征變量的隨機(jī)改變引起回歸模型的變化程度來(lái)描述特征變量的重要性，具體是采用袋外數(shù)據(jù)殘差平方均值的增加量(IncMSE)來(lái)表征特征變量的重要性，IncMSE越大，說(shuō)明該特征變量對(duì)因變量越重要。對(duì)IncMSE進(jìn)行歸一化處理，得到各特征變量對(duì)因變量的影響權(quán)重[23]，本文用累計(jì)影響權(quán)重達(dá)到90%的部分特征變量代替煤礦瓦斯涌出量的全部特征變量，用于構(gòu)建隨機(jī)森林回歸模型。

2 測(cè)試分析

2.1 樣本數(shù)據(jù)

根據(jù)文獻(xiàn)[7]，選用14個(gè)特征變量作為煤礦瓦斯涌出量預(yù)測(cè)模型的輸入變量：煤層瓦斯含量X1，埋深X2，煤厚X3，煤層傾角X4，采煤高度X5，日進(jìn)度X6，采煤工作面長(zhǎng)度X7，采出率X8，鄰近層瓦斯含量X9，鄰近層厚度X10，鄰近層間距X11，頂板管理方式X12，開(kāi)采強(qiáng)度X13，層間巖性X14；輸出變量：瓦斯涌出量Y。獲取了20組原始數(shù)據(jù)，見(jiàn)表1。前16組原始數(shù)據(jù)用于訓(xùn)練回歸模型，其余4組用于測(cè)試回歸模型。

表1 隨機(jī)森林回歸模型訓(xùn)練和測(cè)試樣本

2.2 超參數(shù)確定

設(shè)參數(shù)m的默認(rèn)值為特征變量總數(shù)的1/3，煤礦瓦斯涌出量的影響因子有14個(gè)，因此，m=5。設(shè)決策樹(shù)數(shù)目n為50，100，500，1 000，利用RStudio軟件平臺(tái)進(jìn)行編程，建立隨機(jī)森林回歸模型，得到n取不同值時(shí)袋外數(shù)據(jù)殘差平方均值，如圖1所示。從圖1可知，當(dāng)n超過(guò)200后，袋外數(shù)據(jù)殘差平方均值變化趨于平穩(wěn)。綜合考慮模型運(yùn)算量和預(yù)測(cè)精度，取n為500。

圖1 n取不同值時(shí)的袋外數(shù)據(jù)殘差平方均值(14個(gè)特征變量)

取n=500固定不變，m取1～14(步長(zhǎng)為1)，建立隨機(jī)森林回歸模型，得到m取不同值時(shí)模型的擬合優(yōu)度與殘差平方均值，如圖2所示。從圖2可知，m為7時(shí)對(duì)應(yīng)擬合優(yōu)度最大，殘差平方均值最小，因此，確定最優(yōu)值m=7。

圖2 m取不同值時(shí)的擬合優(yōu)度與殘差平方均值(14個(gè)特征變量)

2.3 特征變量的選取

對(duì)IncMSE值進(jìn)行歸一化處理，得出各特征變量對(duì)煤礦瓦斯涌出量的影響權(quán)重及累計(jì)影響權(quán)重，如圖3和圖4所示。

圖3 各特征變量重要性及影響權(quán)重

從圖3可知，采煤高度、煤厚、煤層瓦斯含量、采出率、埋深、日進(jìn)度、開(kāi)采強(qiáng)度、鄰近層間距等特征變量的影響權(quán)重較大，而鄰近層瓦斯含量、傾角、采煤工作面長(zhǎng)度、層間巖性、頂板管理方式、鄰近層厚度等特征變量的影響權(quán)重相對(duì)較小。從圖4可看出，采煤高度、煤厚、煤層瓦斯含量、采出率、埋深、日進(jìn)度、開(kāi)采強(qiáng)度、鄰近層間距等特征變量的累計(jì)影響權(quán)重為91.10%，按照累計(jì)影響權(quán)重達(dá)到90%以上的關(guān)鍵特征變量選擇規(guī)則，選取該8個(gè)特征變量作為影響煤礦瓦斯涌出量的主要因素。

圖4 累計(jì)影響權(quán)重

2.4 預(yù)測(cè)結(jié)果對(duì)比

選取重要性排序前8的特征變量作為隨機(jī)森林回歸模型的輸入變量，在保證訓(xùn)練樣本相同的前提下，構(gòu)建隨機(jī)森林回歸模型。首先進(jìn)行超參數(shù)尋優(yōu)，結(jié)果如圖5和圖6所示。

圖5 n取不同值時(shí)的袋外數(shù)據(jù)殘差平方均值(8個(gè)特征變量)

圖6 m取不同值時(shí)的擬合優(yōu)度與殘差平方均值(8個(gè)特征變量)

從圖5、圖6可看出:n為500時(shí)，模型袋外數(shù)據(jù)殘差平方均值變化平穩(wěn)；m為2時(shí)，模型擬合優(yōu)度最大，殘差平方均值最小。因此，基于特征選擇的隨機(jī)森林回歸模型的最優(yōu)超參數(shù)為n=500，m=2。

為了評(píng)價(jià)基于特征變量選擇的隨機(jī)森林回歸模型的預(yù)測(cè)性能，在保證預(yù)測(cè)樣本相同的前提下，與全部14個(gè)特征變量參與的隨機(jī)森林回歸模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比，結(jié)果見(jiàn)表2?？煽闯?，2種情況下隨機(jī)森林回歸模型均具有較好的預(yù)測(cè)性能，進(jìn)行特征變量選擇后，平均絕對(duì)誤差由0.22 m3/min下降到0.21 m3/min，平均相對(duì)誤差由3.55%下降到3.47%。基于特征變量選擇的隨機(jī)森林回歸模型不僅能夠保證較好的預(yù)測(cè)性能，而且降低了模型特征變量的維度，減少了原始數(shù)據(jù)獲取工作，提高了預(yù)測(cè)效率。

表2 瓦斯涌出量預(yù)測(cè)誤差對(duì)比

3 結(jié)論

(1)研究了基于隨機(jī)森林回歸的煤礦瓦斯涌出量預(yù)測(cè)方法。通過(guò)計(jì)算袋外數(shù)據(jù)殘差平方均值和擬合優(yōu)度，確定隨機(jī)森林回歸模型的最優(yōu)超參數(shù)。

(2)通過(guò)特征變量重要性分析方法，從全部14個(gè)特征變量中優(yōu)選出采煤高度、煤厚、煤層瓦斯含量、采出率、埋深、日進(jìn)度、開(kāi)采強(qiáng)度、鄰近層間距8個(gè)關(guān)鍵的特征變量，建立特征選擇后的隨機(jī)森林預(yù)測(cè)模型。

(3)測(cè)試結(jié)果表明，采用全部特征變量和部分特征變量的隨機(jī)森林回歸模型均具有較好的擬合與預(yù)測(cè)效果。進(jìn)行特征變量選擇后，模型的平均絕對(duì)誤差由0.22 m3/min下降到0.21 m3/min，平均相對(duì)誤差由3.55%下降到3.47%。基于特征變量?jī)?yōu)選的隨機(jī)森林回歸模型保持了較高的預(yù)測(cè)精度，同時(shí)提高了模型預(yù)測(cè)效率，更加適用于煤礦瓦斯涌出量預(yù)測(cè)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡