国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于混合優(yōu)化XGBoost算法的砂巖儲(chǔ)層孔隙度預(yù)測(cè)

2023-06-07 09:48:50潘少偉鄭澤晨雷建永王亞玲
關(guān)鍵詞:預(yù)測(cè)值測(cè)井孔隙

潘少偉 鄭澤晨 雷建永 王亞玲

1(西安石油大學(xué)計(jì)算機(jī)學(xué)院 陜西 西安 710065) 2(中國(guó)石油長(zhǎng)慶油田公司第二采氣廠 陜西 榆林 719000) 3(中國(guó)石油長(zhǎng)慶油田公司勘探開發(fā)研究院 陜西 西安 710018)

0 引 言

在油田勘探開發(fā)中,地球物理測(cè)井(以下簡(jiǎn)稱測(cè)井)是至關(guān)重要的一項(xiàng)技術(shù)環(huán)節(jié)。由測(cè)井曲線獲得的儲(chǔ)層參數(shù)在含油層預(yù)測(cè)中具有非常重要的作用[1]。油田勘探開發(fā)中測(cè)定儲(chǔ)層參數(shù)的方法有兩類:直接測(cè)定方法和間接測(cè)定方法。直接測(cè)定方法是鉆井取心后通過(guò)分析化驗(yàn)的方式直接獲取各種儲(chǔ)層參數(shù)值,該方法獲得的儲(chǔ)層參數(shù)與其真實(shí)值非常接近,但花費(fèi)昂貴且在油田應(yīng)用范圍較小,所以具有一定的局限性。間接測(cè)定方法是一種方便快捷且不可缺少的方法[2],它一般是由油田科研人員依據(jù)測(cè)井曲線建立經(jīng)驗(yàn)公式或者簡(jiǎn)單的地質(zhì)結(jié)構(gòu)模型來(lái)解釋未知地層的儲(chǔ)層參數(shù)[3-4]。這種間接測(cè)定方法一般存在較強(qiáng)的主觀性,不同油田之間經(jīng)驗(yàn)公式和地質(zhì)結(jié)構(gòu)模型的可移植性也較差。并且由于不同測(cè)井曲線參數(shù)之間存在大量的復(fù)雜非線性關(guān)系[5],導(dǎo)致間接測(cè)定方法解釋儲(chǔ)層參數(shù)時(shí)產(chǎn)生的不確定性也較大??梢?以往的直接測(cè)定方法和間接測(cè)定方法在儲(chǔ)層參數(shù)預(yù)測(cè)時(shí)均存在一定不足[6-7]。

機(jī)器學(xué)習(xí)是一種效率極高的數(shù)據(jù)挖掘方法,近幾年飛速發(fā)展,在測(cè)井?dāng)?shù)據(jù)分析中更是獲得了廣泛應(yīng)用。楊柳青等[8]使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)對(duì)砂巖孔隙度進(jìn)行預(yù)測(cè),發(fā)現(xiàn)與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)相比,深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)預(yù)測(cè)值與實(shí)際值相差較小;安鵬等[9]利用LSTM(Long Short Term Memory)神經(jīng)網(wǎng)絡(luò)建立測(cè)井參數(shù)與泥質(zhì)含量的非線性關(guān)系與時(shí)序關(guān)系,取得了較高的預(yù)測(cè)準(zhǔn)確率;甘宇等[10]應(yīng)用BP神經(jīng)網(wǎng)絡(luò)和決策樹構(gòu)建孔隙度的預(yù)測(cè)模型,結(jié)果表明BP神經(jīng)網(wǎng)絡(luò)具有更好的預(yù)測(cè)效果;宋輝等[11]提出一種將卷積神經(jīng)網(wǎng)絡(luò)與門控循環(huán)單元網(wǎng)絡(luò)相結(jié)合的儲(chǔ)層參數(shù)預(yù)測(cè)方法;桑凱恒等[12]先使用粗糙集簡(jiǎn)約地質(zhì)屬性,再使用機(jī)器學(xué)習(xí)方法構(gòu)建儲(chǔ)層參數(shù)預(yù)測(cè)的非線性模型;劉暢等[13]采用廣義回歸神經(jīng)網(wǎng)絡(luò)(General Regression Neural Networks,GRNN)預(yù)測(cè)致密砂巖儲(chǔ)層的孔隙度,取得了較好效果。以上研究表明機(jī)器學(xué)習(xí)方法在通過(guò)測(cè)井?dāng)?shù)據(jù)預(yù)測(cè)儲(chǔ)層參數(shù)領(lǐng)域具有非常廣闊的發(fā)展空間。

XGBoost(eXtreme Gradient Boosting)算法由陳天奇等[14]于2016年提出,它建立在對(duì)極端梯度提升算法的基礎(chǔ)之上,但具有更高的預(yù)測(cè)精度和更強(qiáng)的泛化能力。XGBoost算法目前被初步應(yīng)用于石油工業(yè)領(lǐng)域:閆星宇等[15]在網(wǎng)格尋優(yōu)的基礎(chǔ)上,應(yīng)用XGBoost算法構(gòu)建致密砂巖氣儲(chǔ)層的孔隙度解釋模型,結(jié)果表明網(wǎng)格尋優(yōu)之后的XGBoost算法具有更高的預(yù)測(cè)精度;孫致學(xué)等[16]在隨機(jī)搜索尋優(yōu)的前提下,以支持向量機(jī)(Support Vector Machine,SVM)和XGBoost回歸為基礎(chǔ),實(shí)現(xiàn)了對(duì)儲(chǔ)層裂縫開度的準(zhǔn)確預(yù)測(cè)??傮w來(lái)看,XGBoost算法性能良好,泛化能力較強(qiáng),運(yùn)行效率較高,并可以使用多線程進(jìn)行并行計(jì)算。但未經(jīng)參數(shù)尋優(yōu)的XGBoost算法對(duì)已有數(shù)據(jù)集的擬合度較低,導(dǎo)致其泛化能力和適應(yīng)性均較差。因此,本文引入網(wǎng)格搜索(Grid_Search)法和粒子群(Particle Swarm Optimization,PSO)算法對(duì)XGBoost算法的超參數(shù)進(jìn)行尋優(yōu),并把網(wǎng)格搜索法和粒子群算法尋優(yōu)之后的XGBoost算法應(yīng)用到我國(guó)陜北地區(qū)某油田儲(chǔ)層孔隙度預(yù)測(cè)中,最后把網(wǎng)格搜索法和粒子群算法尋優(yōu)之后的XGBoost模型對(duì)測(cè)試數(shù)據(jù)集的預(yù)測(cè)結(jié)果與線性回歸(Linear Regression,LR)、支持向量機(jī)回歸(Support Vector Regression,SVR)、隨機(jī)森林(Random Forest,RF)、未經(jīng)優(yōu)化的XGBoost算法(XGB)和網(wǎng)格搜索法優(yōu)化的XGBoost算法(GS-XGB)的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)與其他機(jī)器學(xué)習(xí)方法相比,網(wǎng)格搜索法和粒子群算法尋優(yōu)之后的XGBoost算法對(duì)孔隙度具有更高的預(yù)測(cè)精度。

1 算法設(shè)計(jì)

1.1 XGBoost算法

Friedman于2001年提出梯度提升樹(Gradient Boosting Decison Tree,GBDT)算法[17],其原理是基于所有先前樹,使用梯度下降法生成新樹,使得目標(biāo)函數(shù)靠近最小的方向。XGBoost稱為極端梯度提升樹,是一種樹集成模型,可以用于分類和回歸問(wèn)題。XGBoost應(yīng)用于回歸問(wèn)題時(shí),先不斷添加新的回歸樹,再通過(guò)新生成的CART樹來(lái)擬合前一次模型的殘差。訓(xùn)練出的完整模型包括K棵樹,每棵樹對(duì)應(yīng)的結(jié)果之和作為最終的預(yù)測(cè)值[18]。

(1)

正則項(xiàng)的具體表達(dá)式為:

(2)

式中:γ和λ表示懲罰系數(shù)。

XGBoost的目標(biāo)函數(shù)又可改寫為:

(3)

式中:C為常數(shù)項(xiàng)。XGBoost通過(guò)不斷地尋找ft來(lái)優(yōu)化目標(biāo)函數(shù),目標(biāo)函數(shù)進(jìn)行二階泰勒展開并且移除高階無(wú)窮小項(xiàng)變成:

Ωft+C

(4)

目標(biāo)函數(shù)又可作進(jìn)一步的化簡(jiǎn),具體過(guò)程為:

(5)

令Gj=∑i∈Ijgj,Hj=∑i∈Ijhi,則目標(biāo)函數(shù)變成:

(6)

(7)

1.2 網(wǎng)格搜索法

網(wǎng)格搜索法是一種窮舉遍歷算法,它將所有可能的參數(shù)組合在空間中劃分成若干個(gè)網(wǎng)格,遍歷網(wǎng)格中所有交點(diǎn),對(duì)每個(gè)參數(shù)集合應(yīng)用交叉驗(yàn)證來(lái)計(jì)算誤差,得到誤差最小的為全局最優(yōu)解[19]。網(wǎng)格搜索法可以從諸多參數(shù)中獲得最優(yōu)解,但是效率較低,因此本文僅使用網(wǎng)格搜索法確定XGBoost算法整型超參數(shù)的最優(yōu)值和浮點(diǎn)型超參數(shù)尋優(yōu)的取值范圍。

1.3 粒子群算法

粒子群算法是一種隨機(jī)搜索算法,由Eberhart和Kennedy于1995年提出[20]。它可以較大概率地收斂并得到全局范圍的最優(yōu)解。在動(dòng)態(tài)的、多目標(biāo)的優(yōu)化問(wèn)題中,相比傳統(tǒng)優(yōu)化算法,粒子群算法具有更快的搜索速度以及避免陷入局部最優(yōu)的能力,可節(jié)省大量的尋優(yōu)時(shí)間,并收斂至最接近的最優(yōu)解。本文采用粒子群算法對(duì)XGBoost算法中的浮點(diǎn)型超參數(shù)進(jìn)行尋優(yōu)。

1.4 網(wǎng)格搜索法和粒子群算法尋優(yōu)的XGBoost算法

本文采用網(wǎng)格搜索法和粒子群算法對(duì)XGBoost算法中的8個(gè)主要超參數(shù)進(jìn)行尋優(yōu),這8個(gè)超參數(shù)分別是:樹的最大深度(max_depth)、子節(jié)點(diǎn)包含實(shí)例權(quán)重的最小總和(min_child_weight)、子樹的數(shù)量(n_estimators)、樹的葉子節(jié)點(diǎn)進(jìn)一步分裂所需的最小損失減少量(gamma)、訓(xùn)練樣本的采樣率(subsample)、構(gòu)建樹時(shí)對(duì)特征的列采樣率(colsample_bytree)、權(quán)重L1正則項(xiàng)(alpha)和權(quán)重L2正則項(xiàng)(lambda)。GS-PSO-XGBoost算法的基本流程如圖1所示,具體描述如下:

(1) 利用輸入數(shù)據(jù)集,建立基于XGBoost算法的孔隙度預(yù)測(cè)模型。

(2) 利用網(wǎng)格搜索法對(duì)XGBoost算法中的max_depth、min_child_weight和n_estimators 3個(gè)整型超參數(shù)尋優(yōu),獲得它們的最優(yōu)值,確定gamma、subsample、colsample_bytree、alpha和lambda 5個(gè)浮點(diǎn)型超參數(shù)尋優(yōu)的取值范圍。

(3) 初始化粒子群,設(shè)置最大迭代次數(shù)。

(4) 進(jìn)行訓(xùn)練,計(jì)算每個(gè)粒子的適應(yīng)度。

(5) 迭代到一定次數(shù)時(shí),如果整個(gè)粒子群收斂,此時(shí)gamma、subsample、colsample_bytree、alpha 和lambda 5個(gè)浮點(diǎn)型超參數(shù)的值即為它們的最優(yōu)值;如果整個(gè)粒子群不收斂,且沒(méi)有達(dá)到最大迭代次數(shù),則返回(4)繼續(xù)進(jìn)行訓(xùn)練。

(6) 確定XGBoost算法中5個(gè)浮點(diǎn)型超參數(shù)的最優(yōu)值,結(jié)合(2)中獲得的max_depth、min_child_weight和n_estimators 3個(gè)整型超參數(shù)的最優(yōu)值,形成基于XGBoost算法的孔隙度預(yù)測(cè)模型。

圖1 GS-PSO-XGBoost算法流程

GS-PSO-XGBoost算法的偽代碼如下:

算法1是關(guān)于利用網(wǎng)格搜索法對(duì)XGBoost算法的整型超參數(shù)尋優(yōu)、浮點(diǎn)型超參數(shù)取值范圍確定的偽代碼。

算法1GS for XGBoost

Input:ai,bi,Lower and Higher bound of XGB parameter

whileeach XGB parameterdo

forXGB parameter=aitobido

find the min mae of these model

outputXGB parameter of the best model

endfor

endwhile

endprocedure1

算法2是在算法1的基礎(chǔ)上,采用粒子群算法對(duì)XGBoost算法中5個(gè)浮點(diǎn)型超參數(shù)尋優(yōu)的偽代碼。

算法2GS+PSO for XGBoost

Input: the optimization range of PSO

foreach particleido

Initialize velocityViand positionXifor particlei

Using particles to build XGB model

Evaluate particle i and setpBesti=Xi

endfor

gBest=min{pBesti}

whilenot stopdo

fori=1 toNdo

Update the velocity and position of particle i

Using particles to build XGB model

Evaluate particle i

iffit(Xi)

thenpBesti=Xi

iffit(pBesti)

thengBest=pBesti

endfor

endwhile

outputgBest

endprocedure2

2 基于GS-PSO-XGBoost算法的孔隙度預(yù)測(cè)研究

2.1 數(shù)據(jù)集構(gòu)建

本文數(shù)據(jù)集來(lái)自我國(guó)陜北地區(qū)某油田的取心井。該油田綜合地質(zhì)研究表明:聲波時(shí)差、井徑、補(bǔ)償中子、補(bǔ)償密度、自然伽馬和陣列感應(yīng)電阻率6種測(cè)井參數(shù)均與孔隙度具有相關(guān)性。為了使所建立的孔隙度預(yù)測(cè)模型在該油田具有較好的適應(yīng)性和普及性,把該油田內(nèi)全部取心井已有數(shù)據(jù)的順序打亂,重新隨機(jī)排列組合,形成新的數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集共35 066組,測(cè)試數(shù)據(jù)集共4 829組,每一組數(shù)據(jù)的采樣間隔為0.125 m。數(shù)據(jù)集的格式見表1。

表1 構(gòu)建孔隙度預(yù)測(cè)模型的數(shù)據(jù)集

表1中,第一列數(shù)據(jù)是聲波時(shí)差,其單位為μs/ft;第二列數(shù)據(jù)是井徑,其單位為cm;第三列數(shù)據(jù)是補(bǔ)償中子,它是一個(gè)百分?jǐn)?shù);第四列數(shù)據(jù)是補(bǔ)償密度,其單位為g/cm3;第五列數(shù)據(jù)是自然伽馬,其單位為API;第六列數(shù)據(jù)是陣列感應(yīng)電阻率,其單位為Ω·m;第七列數(shù)據(jù)是孔隙度,它也是一個(gè)百分?jǐn)?shù)。表1中的前六列數(shù)據(jù)都是測(cè)井參數(shù),它們對(duì)孔隙度的影響均較大。因此,在基于GS-PSO-XGBoost算法的孔隙度預(yù)測(cè)模型中,同一深度的聲波時(shí)差、井徑、補(bǔ)償中子、補(bǔ)償密度、自然伽馬和陣列感應(yīng)電阻率均為輸入項(xiàng),處于同一深度的孔隙度則是輸出項(xiàng)。

為檢驗(yàn)這6種測(cè)井參數(shù)與孔隙度的相關(guān)性,制作了相關(guān)性熱力圖(圖2)[21]。圖2中,AC代表聲波時(shí)差,CAL代表井徑,CNL代表補(bǔ)償中子,DEN代表補(bǔ)償密度,GR代表自然伽馬,AT90代表陣列感應(yīng)電阻率,Porosities代表孔隙度。由圖2可看出,聲波時(shí)差、井徑、補(bǔ)償中子、補(bǔ)償密度、自然伽馬和陣列感應(yīng)電阻率均與孔隙度呈現(xiàn)出一定的正負(fù)相關(guān)性,相關(guān)系數(shù)分別為0.45、0.059、0.092、-0.54、-0.2和-0.32,即補(bǔ)償密度和聲波時(shí)差與孔隙度的相關(guān)性最強(qiáng),其他的測(cè)井參數(shù)次之。

圖2 測(cè)井參數(shù)與孔隙度的相關(guān)性熱力圖

2.2 數(shù)據(jù)集預(yù)處理

在使用多個(gè)維度的測(cè)井參數(shù)建立孔隙度預(yù)測(cè)模型時(shí),由于不同測(cè)井參數(shù)的量綱不一致,且同一種測(cè)井參數(shù)數(shù)值間的差距較大,所以需要對(duì)測(cè)井參數(shù)進(jìn)行預(yù)處理,以提高模型的準(zhǔn)確率,減少模型的訓(xùn)練時(shí)間。使用標(biāo)準(zhǔn)差歸一化公式完成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的預(yù)處理,標(biāo)準(zhǔn)差歸一化公式如下所示:

(8)

式中:ai和Ai分別為同一數(shù)據(jù)歸一化前后的值,μ是未歸一化之前數(shù)據(jù)的均值,σ是標(biāo)準(zhǔn)差。經(jīng)過(guò)歸一化處理后的數(shù)據(jù)符合標(biāo)準(zhǔn)的正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1。

2.3 評(píng)價(jià)指標(biāo)

為了評(píng)價(jià)GS-PSO-XGBoost算法對(duì)孔隙度的預(yù)測(cè)效果,選取均方根誤差(Root Mean Square Error,RMSE)、平均絕對(duì)誤差(Mean Absolute Error,MAE)和平均絕對(duì)百分比誤差(Mean Absolute Percent Error,MAPE)作為評(píng)價(jià)指標(biāo)。它們的計(jì)算公式如下:

(9)

(10)

(11)

2.4 基于網(wǎng)格搜索法XGBoost算法的超參數(shù)尋優(yōu)

利用網(wǎng)格搜索法確定XGBoost算法中max_depth、min_child_weight和n_estimators 3個(gè)整型超參數(shù)的具體做法就是以MAE為評(píng)價(jià)指標(biāo),利用訓(xùn)練數(shù)據(jù)集來(lái)構(gòu)建孔隙度預(yù)測(cè)的XGBoost模型。當(dāng)訓(xùn)練過(guò)程中MAE值最小時(shí),就獲得了max_depth、min_child_weight和n_estimators的最優(yōu)值。最終的結(jié)果如圖3[21]所示。

(a) max_depth (b) min_child_weight

(c) n_estimators圖3 MAE與XGBoost整型超參數(shù)關(guān)系變化曲線圖

由圖3(a)可知,當(dāng)訓(xùn)練過(guò)程中max_depth的取值為20時(shí),XGBoost模型的MAE值最小,為1.61,之后隨著max_depth的增大,MAE值也在逐漸增大,說(shuō)明產(chǎn)生了過(guò)擬合現(xiàn)象;由圖3(b)可知,當(dāng)min_child_weight逐漸增大時(shí),MAE值逐漸變小,但min_child_weight的過(guò)大會(huì)導(dǎo)致XGBoost模型的欠擬合,所以遍歷范圍選擇得較小,最終取8作為min_child_weight的值;由圖3(c)可看出,n_estimators取值為140時(shí),XGBoost模型的MAE值最小,為1.55,之后隨著n_estimators取值的增大,出現(xiàn)了過(guò)擬合現(xiàn)象。這樣,通過(guò)網(wǎng)格搜索法獲得了孔隙度預(yù)測(cè)的XGBoost模型中max_depth、min_child_weight和n_estimators 3個(gè)整型超參數(shù)的最優(yōu)值,分別為20、8和140。

同樣利用網(wǎng)格搜索法,確定了孔隙度預(yù)測(cè)的XGBoost模型中g(shù)amma、subsample、colsample_bytree、alpha和lambda 5個(gè)浮點(diǎn)型超參數(shù)尋優(yōu)的取值范圍,如表2所示。

表2 由網(wǎng)格搜索法確定的XGBoost模型浮點(diǎn)型參數(shù)的尋優(yōu)范圍

2.5 基于粒子群算法XGBoost模型的浮點(diǎn)型超參數(shù)尋優(yōu)

在通過(guò)網(wǎng)格搜索法確定尋優(yōu)取值范圍的基礎(chǔ)上,利用粒子群算法確定孔隙度預(yù)測(cè)的XGBoost模型中5個(gè)浮點(diǎn)型超參數(shù)gamma、subsample、colsample_bytree、alpha和lambda的最優(yōu)值。首先設(shè)置粒子的種群規(guī)模為20,迭代次數(shù)為40,之后開始訓(xùn)練,訓(xùn)練過(guò)程中XGBoost模型的MAE值隨訓(xùn)練輪次的變化曲線如圖4所示,橫坐標(biāo)為訓(xùn)練輪次,縱坐標(biāo)為MAE值??煽闯?隨著訓(xùn)練輪次的增大,XGBoost模型的MAE值在逐漸減小,當(dāng)訓(xùn)練輪次達(dá)到19時(shí),MAE值趨向穩(wěn)定,之后一直保持在1.118左右。這樣訓(xùn)練21小時(shí)后獲得了gamma、subsample、colsample_bytree、alpha和lambda最優(yōu)值,分別是0、0.897 1、1.0、0.071 1和0.01。

圖4 XGBoost模型MAE隨訓(xùn)練輪次的變化曲線圖

2.6 GS-PSO-XGBoost孔隙度預(yù)測(cè)模型的構(gòu)建與檢驗(yàn)

當(dāng)XGBoost算法中max_depth、min_child_weight、n_estimators、gamma、subsample、colsample_bytree、alpha和lambda 8個(gè)超參數(shù)的取值分別為20、8、140、0、0.897 1、1.0、0.071 1和0.01時(shí),即成功獲得了GS-PSO-XGBoost孔隙度預(yù)測(cè)模型。利用測(cè)試數(shù)據(jù)集對(duì)該GS-PSO-XGBoost孔隙度預(yù)測(cè)模型測(cè)試,所得結(jié)果如圖5所示。

圖5 GS-PSO-XGBoost算法對(duì)孔隙度預(yù)測(cè)值與其真實(shí)值 相對(duì)誤差統(tǒng)計(jì)直方圖

圖5中,橫坐標(biāo)為孔隙度預(yù)測(cè)值與其真實(shí)值相對(duì)誤差統(tǒng)計(jì)區(qū)間,縱坐標(biāo)為測(cè)試數(shù)據(jù)數(shù)目。由圖5可知:在4 829組測(cè)試數(shù)據(jù)中,孔隙度預(yù)測(cè)值與真實(shí)值相對(duì)誤差在區(qū)間[-1,0]的有1 980組,在區(qū)間[0,1]的有1 562組,在區(qū)間[-3,-1]的有428組,在區(qū)間[1,3]的有350組,相對(duì)誤差位于區(qū)間[-5,-3]和[3,5]的分別為45組和109組;孔隙度預(yù)測(cè)值與真實(shí)值相對(duì)誤差在區(qū)間[-80,-25]、[-25,-5]和[5,25]、[25,80]的分別為6組、103組和195組、37組,在區(qū)間[80,350]的為14組。經(jīng)過(guò)統(tǒng)計(jì)發(fā)現(xiàn):在4 829組測(cè)試數(shù)據(jù)中,孔隙度預(yù)測(cè)值與真實(shí)值相對(duì)誤差的絕對(duì)值小于等于5%的占93%左右,大于5%的占7%左右??梢?GS-PSO-XGBoost算法產(chǎn)生的孔隙度預(yù)測(cè)值與其真實(shí)值非常吻合,GS-PSO-XGBoost孔隙度預(yù)測(cè)模型具有非常高的預(yù)測(cè)精度。

XGBoost模型參數(shù)優(yōu)化過(guò)程的時(shí)間損耗如表3所示。由表3可看出,隨著網(wǎng)格搜索法和粒子群算法的引入,XGBoost模型參數(shù)尋優(yōu)的時(shí)間從22.50 s增加到18.21 h,時(shí)間成本大大增加;與單獨(dú)網(wǎng)格搜索法尋優(yōu)相比,時(shí)間成本增加了0.8 h。

表3 XGBoost模型的訓(xùn)練時(shí)間性能對(duì)比

表4是XGBoost模型參數(shù)優(yōu)化前后的泛化能力對(duì)比結(jié)果。由表4可發(fā)現(xiàn),GS-PSO-XGBoost孔隙度預(yù)測(cè)模型在訓(xùn)練集和相鄰油田10余口取心井?dāng)?shù)據(jù)集上測(cè)試產(chǎn)生的MAE分別為1.153 307和0.153 174,均低于未經(jīng)優(yōu)化的XGBoost模型和網(wǎng)格搜索法優(yōu)化的XGBoost模型產(chǎn)生的MAE,這表明經(jīng)過(guò)參數(shù)尋優(yōu)之后的XGBoost算法對(duì)數(shù)據(jù)的泛化能力有了極大的提高。

表4 優(yōu)化XGBoost模型泛化能力對(duì)比

引入網(wǎng)格搜索法和粒子群算法尋優(yōu)增加了XGBoost算法計(jì)算的時(shí)間成本,但是與未經(jīng)尋優(yōu)的XGBoost算法相比,其MAE下降了12倍;與網(wǎng)格搜索法尋優(yōu)的XGBoost算法相比,其MAE下降了5倍??梢?在增加的時(shí)間成本可以接受的前提下,經(jīng)過(guò)網(wǎng)格搜索法和粒子群算法尋優(yōu)之后的XGBoost算法的泛化能力和預(yù)測(cè)準(zhǔn)確率均有極大提高,驗(yàn)證了本文GS-PSO-XGBoost算法的實(shí)踐可行性。

2.7 仿真結(jié)果分析

基于相同的輸入輸出,利用線性回歸、支持向量機(jī)回歸、隨機(jī)森林、未經(jīng)優(yōu)化的XGBoost算法、網(wǎng)格搜索法優(yōu)化的XGBoost算法構(gòu)建孔隙度的預(yù)測(cè)模型,以RMSE、MAE和MAPE為評(píng)價(jià)指標(biāo),通過(guò)與GS-PSO-XGBoost算法相同的測(cè)試數(shù)據(jù)集對(duì)它們進(jìn)行測(cè)試,并把測(cè)試結(jié)果與GS-PSO-XGBoost算法的測(cè)試結(jié)果進(jìn)行對(duì)比,具體如表5所示。

表5 6種機(jī)器學(xué)習(xí)方法預(yù)測(cè)產(chǎn)生的RMSE、MAE和MAPE值

由表5可知,在上述6種機(jī)器學(xué)習(xí)方法中,線性回歸預(yù)測(cè)孔隙度產(chǎn)生的RMSE值、MAE值和MAPE值均最大,分別為3.535 521、2.801 047和0.375 713;GS-PSO-XGBoost算法預(yù)測(cè)孔隙度產(chǎn)生的RMSE值、MAE值和MAPE值均最小,分別為0.523 657、0.153 174和0.020 194;其他4種機(jī)器學(xué)習(xí)方法預(yù)測(cè)孔隙度產(chǎn)生的RMSE值、MAE值和MAPE介于上述兩種方法之間。

將線性回歸、支持向量機(jī)回歸、隨機(jī)森林、未經(jīng)優(yōu)化的XGBoost算法、網(wǎng)格搜索法尋優(yōu)的XGBoost算法和GS-PSO-XGBoost算法對(duì)孔隙度的預(yù)測(cè)值和其真實(shí)值做成交匯圖,如圖6所示,其中:圖6(a)為線性回歸對(duì)孔隙度的預(yù)測(cè)值與其真實(shí)值交匯圖;圖6(b)為支持向量機(jī)回歸對(duì)孔隙度的預(yù)測(cè)值與其真實(shí)值交匯圖;圖6(c)為隨機(jī)森林對(duì)孔隙度的預(yù)測(cè)值與其真實(shí)值交匯圖;圖6(d)為未經(jīng)尋優(yōu)的XGBoost算法對(duì)孔隙度的預(yù)測(cè)值與其真實(shí)值交匯圖[21];圖6(e)為網(wǎng)格搜索法尋優(yōu)的XGBoost算法對(duì)孔隙度的預(yù)測(cè)值與其真實(shí)值交匯圖[21];圖6(f)為GS-PSO-XGBoost算法對(duì)孔隙度的預(yù)測(cè)值與其真實(shí)值交匯圖??煽闯?線性回歸、支持向量機(jī)回歸和未經(jīng)優(yōu)化的XGBoost算法對(duì)孔隙度的預(yù)測(cè)值與其真實(shí)值相差較大;隨機(jī)森林和網(wǎng)格搜索法優(yōu)化的XGBoost算法對(duì)孔隙度的預(yù)測(cè)值與其真實(shí)值較為吻合;GS-PSO-XGBoost算法對(duì)孔隙度的預(yù)測(cè)值與其真實(shí)值最為吻合,且圖6(f)中絕大多數(shù)數(shù)據(jù)點(diǎn)集中分布在y=x這條直線的兩側(cè)。

(a) LR (b) SVR

(c) RF (d) XGB

(e) GS-XGB (f) GS-PSO-XGB圖6 6種機(jī)器學(xué)習(xí)方法對(duì)孔隙度預(yù)測(cè)值與其真實(shí)值交會(huì)圖

通過(guò)上述分析可以得出:本文提出的GS-PSO-XGBoost算法與線性回歸、支持向量機(jī)回歸這些傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,其對(duì)孔隙度的預(yù)測(cè)精度有較大提高;與未經(jīng)優(yōu)化的XGBoost算法和網(wǎng)格搜索法優(yōu)化的XGBoost算法相比,其對(duì)孔隙度的預(yù)測(cè)精度也有較大改善。本文提出的GS-PSO-XGBoost算法體現(xiàn)出了機(jī)器學(xué)習(xí)中參數(shù)尋優(yōu)的重要性。

3 結(jié) 語(yǔ)

為克服已有孔隙度預(yù)測(cè)方法中存在的不足,本文提出GS-PSO-XGBoost算法,利用其構(gòu)建孔隙度預(yù)測(cè)模型。與其他孔隙度預(yù)測(cè)方法相比,本文方法解決了以往孔隙度預(yù)測(cè)中測(cè)井解釋方法主觀性強(qiáng)、推廣性差,機(jī)器學(xué)習(xí)方法泛化能力不足等問(wèn)題,所建立孔隙度預(yù)測(cè)模型的精度也有較大提高。

本文提出的GS-PSO-XGBoost算法對(duì)孔隙度預(yù)測(cè)具有較高的精度,同時(shí)該方法具有較強(qiáng)的推廣性,可以快速應(yīng)用到陜北地區(qū)其他油田孔隙度的預(yù)測(cè)中。該方法的提出對(duì)我國(guó)陜北地區(qū)油田乃至其他地區(qū)油田孔隙度預(yù)測(cè)模型的建立具有一定的參考意義。

本文的不足之處在于沒(méi)有設(shè)計(jì)實(shí)現(xiàn)XGBoost并行算法,在今后的工作中,要致力于設(shè)計(jì)實(shí)現(xiàn)網(wǎng)格搜索法和粒子群算法尋優(yōu)的XGBoost并行算法,以提高孔隙度預(yù)測(cè)模型的運(yùn)算速度和有效性。

猜你喜歡
預(yù)測(cè)值測(cè)井孔隙
IMF上調(diào)今年全球經(jīng)濟(jì)增長(zhǎng)預(yù)期
企業(yè)界(2024年8期)2024-07-05 10:59:04
本期廣告索引
加拿大農(nóng)業(yè)部下調(diào)2021/22年度油菜籽和小麥產(chǎn)量預(yù)測(cè)值
±800kV直流輸電工程合成電場(chǎng)夏季實(shí)測(cè)值與預(yù)測(cè)值比對(duì)分析
八扇區(qū)水泥膠結(jié)測(cè)井儀刻度及測(cè)井?dāng)?shù)據(jù)處理
二氧化碳在高嶺石孔隙中吸附的分子模擬
法電再次修訂2020年核發(fā)電量預(yù)測(cè)值
Preparation of bimodal grain size 7075 aviation aluminum alloys and the ir corrosion properties
頁(yè)巖孔隙結(jié)構(gòu)研究進(jìn)展
基于測(cè)井響應(yīng)評(píng)價(jià)煤巖結(jié)構(gòu)特征
沙雅县| 天祝| 成武县| 南丹县| 仲巴县| 翁牛特旗| 高台县| 弥渡县| 长岛县| 九龙坡区| 福安市| 贵德县| 赤城县| 胶州市| 远安县| 吉木乃县| 无为县| 山东省| 滦南县| 定兴县| 宁武县| 靖安县| 新昌县| 杭州市| 子长县| 大余县| 宁波市| 安康市| 社旗县| 乐亭县| 钟山县| 通渭县| 崇仁县| 沐川县| 苗栗市| 仙游县| 治多县| 阿拉善盟| 丹阳市| 石家庄市| 兰坪|