国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機(jī)搜索優(yōu)化XGBoost的瓦斯涌出量預(yù)測模型*

2022-06-17 02:20:18任美學(xué)
關(guān)鍵詞:搜索算法回歸系數(shù)瓦斯

馬 恒,任美學(xué),高 科

(1.遼寧工程技術(shù)大學(xué) 安全科學(xué)與工程學(xué)院,遼寧 葫蘆島 125105;2.礦山熱動(dòng)力災(zāi)害與防治教育部重點(diǎn)實(shí)驗(yàn)室,遼寧 葫蘆島 125105)

0 引言

為有效降低瓦斯事故,井下新水平、新區(qū)投產(chǎn)時(shí)瓦斯涌出量預(yù)測必不可少。此項(xiàng)參數(shù)是井下通風(fēng)、瓦斯日常管理不可缺少的基礎(chǔ)參數(shù)。傳統(tǒng)瓦斯涌出量預(yù)測目標(biāo)是采用礦山統(tǒng)計(jì)法或分源預(yù)測法結(jié)合地質(zhì)、采掘等多重影響因素選取參數(shù)進(jìn)行預(yù)測工作。實(shí)際現(xiàn)場中,瓦斯動(dòng)力現(xiàn)象的準(zhǔn)確預(yù)測對(duì)接續(xù)安全生產(chǎn)至關(guān)重要。

近年來隨著智慧礦山的提出,以人工智能為導(dǎo)向的數(shù)字技術(shù)在煤礦飛速發(fā)展[1-2]。目前,國內(nèi)外眾多學(xué)者多采用機(jī)器學(xué)習(xí)算法進(jìn)行瓦斯涌出量預(yù)測。付華等[3]提出了基于CIPSO和ENN的耦合算法,通過參數(shù)實(shí)時(shí)尋優(yōu)對(duì)預(yù)測模型收斂速度、預(yù)測精度和魯棒性進(jìn)行提高;師超等[4]引入了一次指數(shù)平滑法進(jìn)行數(shù)據(jù)優(yōu)化,通過蛙跳算法優(yōu)化Verhulst模型背景值參數(shù)建立SFLA-Verhulst組合預(yù)測模型;肖鵬等[5]壓縮映射遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò),并采用核主成分分析法對(duì)影響因素?cái)?shù)據(jù)集進(jìn)行降維,構(gòu)建CMGANN耦合算法;Yuan[6]利用傳統(tǒng)的GM(1,1)模型預(yù)測瓦斯涌出量,模型能夠?qū)崿F(xiàn)實(shí)時(shí)、動(dòng)態(tài)指導(dǎo)。

上述學(xué)者的探索對(duì)瓦斯涌出量預(yù)測工作均有所推進(jìn)??紤]瓦斯涌出量影響因素較為復(fù)雜,以優(yōu)化數(shù)據(jù)特征、提高綜合模型質(zhì)量為目標(biāo)?;诖耍陨蜿柲趁旱V綜采面瓦斯涌出量歷史數(shù)據(jù)為對(duì)象,搭建1種融合Lasso回歸與隨機(jī)搜索優(yōu)化XGBoost的模型進(jìn)行瓦斯涌出量預(yù)測,采用Lasso回歸篩選出瓦斯涌出量的重要影響因素,得到經(jīng)特征選擇后的樣本數(shù)據(jù)。結(jié)合隨機(jī)搜索調(diào)參后的XGBoost模型得到預(yù)測值,引入評(píng)判指標(biāo)驗(yàn)證模型有效性。

1 模型構(gòu)建

1.1 Lasso回歸模型

套索回歸首次提出于1996年,通過降階的思想對(duì)數(shù)據(jù)進(jìn)行壓縮估計(jì),其通過構(gòu)造1個(gè)懲罰函數(shù)得到1個(gè)較為精煉的模型,對(duì)回歸系數(shù)進(jìn)行壓縮并使部分回歸系數(shù)變?yōu)?,從而進(jìn)行變量的篩選[7-8]。

該算法可有效地從高維變量中選取與涌出量相關(guān)的自變量,實(shí)現(xiàn)降維目的。該過程只進(jìn)行篩選影響因素,不進(jìn)行預(yù)測。

Lasso回歸系數(shù)β可以對(duì)式(1)求最小值得到:

(1)

式中:第1項(xiàng)為殘差平方和;n為瓦斯涌出量樣本數(shù);p為瓦斯涌出量影響因素個(gè)數(shù);β0是xij為0時(shí)yi的均值;βj為回歸系數(shù);yi為因變量瓦斯涌出量值;xij為自變量第i行樣本第j個(gè)輸入值;第2項(xiàng)為壓縮懲罰;λ為正則化參數(shù)。

正則化參數(shù)λ控制這2項(xiàng)對(duì)回歸系數(shù)估計(jì)的相對(duì)影響程度,其數(shù)值確定方法為交叉驗(yàn)證。

1.2 XGBoost模型

極限梯度提升XGBoost是2016年由陳天奇提出的,其在大多數(shù)回歸和分類問題上表現(xiàn)良好,應(yīng)用在人工智能、工業(yè)等多個(gè)領(lǐng)域[9-11]。將其原理與瓦斯涌出量相結(jié)合如下:

設(shè)D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),其中n為瓦斯涌出量樣本數(shù);m為樣本包含的特征數(shù);xi為樣本數(shù)據(jù);yi為樣本真實(shí)值。模型在樣本上的預(yù)測結(jié)果如式(2):

(2)

(3)

式中:l為可微凸損失函數(shù);γ和λ為正則化參數(shù)。

(4)

對(duì)式(4)中新預(yù)測值進(jìn)行二階泰勒展開,并去除常數(shù)項(xiàng),其表達(dá)式如式(5):

(5)

式中:gi和hi分別為損失函數(shù)中一階梯度和二階梯度數(shù)據(jù)。

假定Ij={i|q(xi)=j}表示第j組葉子節(jié)點(diǎn),展開正則項(xiàng)得到式(6):

(6)

(7)

(8)

1.3 XGBoost模型參數(shù)尋優(yōu)算法

網(wǎng)格搜索算法,人為地分配1個(gè)特定的參數(shù)范圍,設(shè)置調(diào)整參數(shù)的步長,利用調(diào)整的參數(shù)訓(xùn)練學(xué)習(xí)器,并使用交叉驗(yàn)證來評(píng)估性能。擬合函數(shù)嘗試所有參數(shù)組合后,最優(yōu)參數(shù)將返回給適宜的學(xué)習(xí)器,并調(diào)整為參數(shù)最佳組合。但是該尋優(yōu)過程耗時(shí)較多,效率較低[12]。

隨機(jī)搜索算法,通過選擇每1個(gè)超參數(shù)的1個(gè)隨機(jī)值的特定數(shù)量隨機(jī)組合從而大大減少超參數(shù)搜索的計(jì)算量,縮短尋優(yōu)時(shí)間,提升模型性能。其在空間分布中是以隨機(jī)采樣的方式進(jìn)行的,對(duì)于連續(xù)變化的參數(shù),隨機(jī)搜索算法將其作為1個(gè)分布進(jìn)行采樣。

網(wǎng)格搜索算法與隨機(jī)搜索算法示意如圖1所示。

圖1 網(wǎng)格搜索與隨機(jī)搜索算法示意Fig.1 Grid search and random search algorithm schematic

2 隨機(jī)搜索+XGBoost預(yù)測模型

本文首先通過特征選擇中的Lasso回歸對(duì)數(shù)據(jù)樣本進(jìn)行篩選,去除對(duì)模型訓(xùn)練中沒有積極貢獻(xiàn)的特征,選用隨機(jī)搜索算法優(yōu)化XGBoost模型參數(shù),構(gòu)建“隨機(jī)搜索+XGBoost”預(yù)測模型,具體的流程步驟如下:

1)Lasso回歸建模:通過交叉驗(yàn)證確定正則化參數(shù)λ,從回歸系數(shù)中篩選出沒有積極貢獻(xiàn)的特征。

2)劃分樣本:Lasso回歸選出主要影響因素后,更新后的數(shù)據(jù)作為預(yù)測輸入,并將新的樣本數(shù)據(jù)進(jìn)行訓(xùn)練、測試樣本的劃分。

3)初始化XGBoost模型參數(shù):使用樹的數(shù)量n_estimators,最大樹深度max_depth,學(xué)習(xí)速率learning_rate,葉子上最小樣本數(shù)min_child_weight。

4)確定最優(yōu)參數(shù):給定參數(shù)區(qū)間,設(shè)定隨機(jī)搜索的種子數(shù),利用隨機(jī)搜索算法進(jìn)行參數(shù)尋優(yōu),直到確定最優(yōu)參數(shù),判斷是否滿足預(yù)先設(shè)定要求。

5)模型對(duì)比:通過隨機(jī)搜索+XGBoost預(yù)測模型得到預(yù)測值并與傳統(tǒng)XGBoost模型與網(wǎng)格搜索+XGBoost模型進(jìn)行評(píng)判指標(biāo)對(duì)比分析。

3 瓦斯涌出量預(yù)測實(shí)驗(yàn)與分析

3.1 影響因素的選取

本文從初始瓦斯條件、開采條件、煤層地質(zhì)條件這3個(gè)方面對(duì)瓦斯涌出量影響因素進(jìn)行分析。

1)初始瓦斯條件:開采層瓦斯含量是瓦斯涌出的決定性因素,開采層瓦斯含量高會(huì)導(dǎo)致瓦斯涌出量高。由于預(yù)抽采瓦斯會(huì)對(duì)瓦斯涌出量產(chǎn)生顯著影響,此處假設(shè)本煤層預(yù)抽采時(shí)間固定為2 a。當(dāng)本煤層瓦斯含量不高時(shí),由于鄰近煤層賦存瓦斯含量較高,開采時(shí)瓦斯會(huì)涌入開采層及采空區(qū)。另外,鄰近層厚度、煤層間距、層間巖性也會(huì)間接影響瓦斯涌出[13]。

2)開采條件:綜采面產(chǎn)量的增減與絕對(duì)瓦斯涌出量有明顯的線性關(guān)系,涌出的瓦斯主要來源于割煤機(jī)割落的煤塊,一般來說,落煤時(shí)瓦斯涌出量較高。因此,采高、推進(jìn)速度以及采出率等可作為瓦斯涌出的相關(guān)因素。

3)煤層地質(zhì)條件:對(duì)于我國的開采地質(zhì)條件,煤層埋深越深瓦斯涌出量越大。一般來說,深部煤層透氣性較差,會(huì)造成瓦斯積聚。煤層、巖層的滲透性與構(gòu)造破壞程度、采動(dòng)裂隙等因素息息相關(guān),采動(dòng)裂隙又與工作面的長度、開采強(qiáng)度等因素有關(guān)。另外由于采掘的持續(xù)推進(jìn),煤層厚度、煤層傾角的變化,瓦斯的擴(kuò)散釋放也較為明顯。

經(jīng)過綜合分析,確定與瓦斯涌出量相關(guān)的影響因素見表1。

表1 各影響因素回歸系數(shù)Table 1 Regression coefficient of each influencing factor

3.2 Lasso回歸方法篩選變量

通過查閱文獻(xiàn)、結(jié)合前人成果,本文以沈陽某礦瓦斯涌出量影響因素?cái)?shù)據(jù)為例,樣本數(shù)據(jù)源于文獻(xiàn)[14],通過Lasso回歸進(jìn)行影響因素特征選擇。

由于瓦斯影響因素眾多,直接代入XGBoost模型預(yù)測會(huì)造成模型復(fù)雜度過高。因此,本文選用特征工程中的Lasso回歸方法,通過R語言編程對(duì)影響較小的因素進(jìn)行剔除。Lasso回歸通過交叉驗(yàn)證確定模型的懲罰力度。交叉驗(yàn)證過程如圖2所示。

通過圖2可看到λ在不同取值下各變量懲罰函數(shù)值的變化情況,經(jīng)交叉驗(yàn)證得到的正則化參數(shù)λ的值為0.012 56,1倍標(biāo)準(zhǔn)差值為0.061 05。由公式(1)原理,通過得到的正則化參數(shù)λ,可知各個(gè)影響因素的回歸系數(shù)。Lasso回歸系數(shù)變化軌跡如圖3所示,各影響因素回歸系數(shù)統(tǒng)計(jì)見表1。

圖3 Lasso回歸系數(shù)變化軌跡Fig.3 Lasso regression coefficient change trajectory graph

由表1和圖3結(jié)合可知,當(dāng)正則化參數(shù)λ的值為0.012 56時(shí),此時(shí)有5個(gè)變量的懲罰函數(shù)值收斂為0,表明這5個(gè)變量對(duì)模型訓(xùn)練沒有積極貢獻(xiàn),故將這5個(gè)變量剔除。

通過Lasso回歸篩選影響因素后,部分?jǐn)?shù)據(jù)樣本匯總見表2。

表2 瓦斯涌出量影響因素?cái)?shù)據(jù)集(部分?jǐn)?shù)據(jù))Table 2 Data set of influencing factors of gas emission (partial data)

3.3 搜索算法參數(shù)尋優(yōu)

由于XGBoost模型參數(shù)較多,過多的參數(shù)尋優(yōu)會(huì)造成尋優(yōu)時(shí)間過長,本文選取如下4個(gè)主要參數(shù)通過Python進(jìn)行尋優(yōu):1)使用樹的數(shù)量n_estimators;2)最大樹深度max_depth,一般用于防止過擬合;3)學(xué)習(xí)速率learning_rate,隨著權(quán)重的減少,模型魯棒性會(huì)有所提升;4)葉子上最小樣本數(shù)min_child_weight,其內(nèi)涵是最小樣本的和,和最大樹深類似,局部的特殊樣本可以通過其取值進(jìn)行有效避免。參數(shù)尋優(yōu)范圍及結(jié)果見表3。

表3 超參數(shù)尋優(yōu)范圍及結(jié)果Table 3 The optimization range and results of super parameters

3.4 隨機(jī)搜索+XGBoost模型預(yù)測結(jié)果分析

將樣本數(shù)據(jù)后10組作為測試集,利用隨機(jī)搜索+XGBoost模型對(duì)測試集進(jìn)行預(yù)測,并將預(yù)測結(jié)果與傳統(tǒng)XGBoost模型和網(wǎng)格搜索+XGBoost模型進(jìn)行對(duì)比,對(duì)比其他模型結(jié)果和相對(duì)誤差見表4。搜索優(yōu)化模型預(yù)測結(jié)果對(duì)比如圖4所示。

表4 各模型瓦斯涌出量預(yù)測結(jié)果及相對(duì)誤差Table 4 Prediction results and relative errors of gas emission of each model

圖4 搜索優(yōu)化模型預(yù)測、實(shí)際值對(duì)比Fig.4 Search optimization model prediction and actual value comparison

從整體上來說,傳統(tǒng)XGBoost模型和網(wǎng)格搜索+XGBoost模型平均相對(duì)誤差分別為3.22%,2.31%。本文的隨機(jī)搜索+XGBoost預(yù)測模型平均相對(duì)誤差為1.53%,可看出本文模型精度的提升較為明顯。

從個(gè)別數(shù)據(jù)上考慮,如編號(hào)2,3的3種模型相對(duì)誤差均小于1%,差距不大,此時(shí)均能夠滿足工程上面的需要。

對(duì)于3種模型相對(duì)誤差計(jì)算結(jié)果偏差較大的數(shù)據(jù),如編號(hào)5~7,本文模型與其他2種模型比較,編號(hào)5相對(duì)誤差略高于其他2種模型,編號(hào)6,7相較其他2種模型提升較多。其他2種模型最大相對(duì)誤差均高于一般工程允許的最大誤差10%,本文模型最大相對(duì)誤差為7.55%,表明本文模型能夠滿足工程實(shí)際需要。

采用均方根誤差RMSE用來衡量擬合效果,均方根誤差越小,預(yù)測精度越高;希爾不等系數(shù)TheilIC,評(píng)價(jià)預(yù)測結(jié)果相對(duì)真實(shí)結(jié)果,擬合誤差指數(shù)通常在0到1之間,數(shù)值越小表明計(jì)算值與真實(shí)值的差異越小,即計(jì)算結(jié)果精度越高[15]。分別如公式(9),(10)所示。

(9)

(10)

各模型評(píng)判指標(biāo)對(duì)比如表5所示。

表5 各模型評(píng)判指標(biāo)對(duì)比Table 5 Comparison of evaluation indexes of each model

由表5可知,本文模型與傳統(tǒng)XGBoost模型和網(wǎng)格搜索+XGBoost模型相比,平均相對(duì)誤差分別下降了1.69%,0.78%,精度有明顯提升。

經(jīng)過計(jì)算,傳統(tǒng)XGBoost模型、網(wǎng)格搜索+XGBoost模型和隨機(jī)搜索+XGBoost模型3種模型的均方根誤差分別為0.328 9,0.214,0.140 3 m3/min,希爾不等系數(shù)分別為0.030 5,0.02,0.013 2,由此可見隨機(jī)搜索+XGBoost模型預(yù)測精度最高、泛化能力最強(qiáng)。

4 結(jié)論

1)從初始瓦斯條件、開采條件、煤層地質(zhì)條件3個(gè)方面分析瓦斯涌出量影響因素,發(fā)現(xiàn)各影響因素之間多重相關(guān);通過特征工程中Lasso回歸模型對(duì)瓦斯涌出量影響因素進(jìn)行篩選,當(dāng)正則化參數(shù)取0.012 56時(shí),確定瓦斯涌出量主要影響因素,降低建模難度。

2)由于XGBoost模型參數(shù)較多,本文主要選取n_estimators,learning_rate,max_depth和min_child_weight4個(gè)主要參數(shù)通過Python在一定范圍內(nèi)進(jìn)行參數(shù)尋優(yōu)。將網(wǎng)格搜索、隨機(jī)搜索與XGBoost模型結(jié)合后預(yù)測結(jié)果進(jìn)行對(duì)比,本文模型選取的最優(yōu)參數(shù)組合分別為522,0.054,4,3。

3)傳統(tǒng)XGBoost模型、網(wǎng)格搜索+XGBoost模型和隨機(jī)搜索+XGBoost模型3種模型的均方根誤差分別為0.328 9,0.214,0.140 3 m3/min,希爾不等系數(shù)分別為0.030 5,0.02,0.013 2。由此可見,隨機(jī)搜索+XGBoost模型指標(biāo)評(píng)價(jià)綜合能力較高,可為現(xiàn)場瓦斯防治工作提供理論基礎(chǔ)。

猜你喜歡
搜索算法回歸系數(shù)瓦斯
改進(jìn)的和聲搜索算法求解凸二次規(guī)劃及線性規(guī)劃
11采區(qū)永久避難硐室控制瓦斯涌出、防止瓦斯積聚和煤層自燃措施
多元線性回歸的估值漂移及其判定方法
電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋果砧木抗寒性的比較
多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時(shí)Bayes估計(jì)及優(yōu)良性
高瓦斯礦井防治瓦斯異常涌出措施的應(yīng)用
瓦斯探鉆鉆頭的一種改進(jìn)
基于汽車接力的潮流轉(zhuǎn)移快速搜索算法
基于逐維改進(jìn)的自適應(yīng)步長布谷鳥搜索算法
基于跳點(diǎn)搜索算法的網(wǎng)格地圖尋路
宝清县| 噶尔县| 霍山县| 扶沟县| 綦江县| 安徽省| 陇川县| 红安县| 南安市| 侯马市| 喀什市| 上思县| 方城县| 肥城市| 根河市| 双峰县| 右玉县| 临洮县| 邹城市| 阿拉尔市| 丰顺县| 四子王旗| 南召县| 邵阳县| 玉门市| 本溪| 石景山区| 河津市| 商都县| 库尔勒市| 武清区| 南充市| 嘉鱼县| 三明市| 太原市| 杂多县| 泸定县| 平乡县| 苍梧县| 井研县| 凭祥市|