国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于XGBoost的測井解釋規(guī)則庫自動獲取方法

2022-03-25 11:21:44張晉言王鎮(zhèn)方姜文宗劉寶弟王延江
石油物探 2022年2期
關(guān)鍵詞:決策樹測井儲層

邢 強,張晉言,王鎮(zhèn)方,馬 睿,姜文宗,劉寶弟,王延江

(1.中石化經(jīng)緯有限公司勝利測井公司,山東東營257096;2.中國石油大學(華東)海洋與空間信息學院,山東青島266580;3.中國石油大學(華東)控制科學與工程學院,山東青島266580)

近年來,隨著深井、超深井、復(fù)雜井的日益增多[1],以及油氣風險勘探開發(fā)力度的不斷加大,利用快速發(fā)展的人工智能算法實現(xiàn)測井資料處理解釋的自動化、智能化[2],提高測井資料處理解釋的質(zhì)量與效率,降低勞動強度,已成為測井資料處理解釋的發(fā)展趨勢。

在測井解釋評價領(lǐng)域,解釋評價技術(shù)存在著區(qū)域性差異和共性[3-4]。由于沉積環(huán)境、埋深等地質(zhì)條件的不同,各區(qū)塊在孔、滲、飽等評價參數(shù)方面既有共性又有差異性[5],而采用傳統(tǒng)的測井解釋方法很難判斷這兩者的區(qū)別,只有通過經(jīng)驗的累積(包括解釋軟件使用經(jīng)驗、實驗室成果分析以及取心、錄井資料的對比),才能解決這一問題。

20世紀80年代國外已經(jīng)發(fā)展了多種石油測井解釋的專家系統(tǒng),如地層傾角解釋咨詢系統(tǒng)、巖性模式識別(LITHO)專家系統(tǒng)以及巖石物性評價知識庫(LOGIX)系統(tǒng),而國內(nèi)主要有油井測井解釋專家系統(tǒng)(OWLI)和石油測井解釋專家系統(tǒng)(LIX)[6]。這些系統(tǒng)通過計算機模擬專家的思維方法和解釋過程,匯集多個解釋專家的知識和經(jīng)驗作為專家規(guī)則庫,可以讓普通解釋人員完成類專家級的解釋評價任務(wù)。但在實際應(yīng)用中,上述系統(tǒng)存在規(guī)則邏輯處理較為復(fù)雜、規(guī)則庫只能由測井解釋專家手工編寫、不能自動獲取規(guī)則等問題。近年來,隨著人工智能技術(shù)的發(fā)展,利用機器學習相關(guān)的方法進行測井解釋已然成為熱點研究方向[1-2,5-6]。朱劍兵等[7]提出了基于雙向循環(huán)深井網(wǎng)絡(luò)的河流相儲層預(yù)測方法,有效指導了研究區(qū)的勘探部署;林年添等[8]提出了基于無監(jiān)督與監(jiān)督學習的多波地震油氣儲層分布預(yù)測方法,較為準確地刻畫了含油氣儲層的分布邊界;王興龍等[9]提出利用C5.0決策樹算法來解釋儲層滲透率,該方法具有一定的普適性;丁磊等[10]針對泥質(zhì)體積分數(shù)高、物性差的儲層,基于印度尼西亞公式開發(fā)了改進皮克特圖版,為測井解釋評價提供了更為精確的參數(shù)。目前,大多數(shù)方法[7-10]使用單個學習器完成測井解釋任務(wù),容易出現(xiàn)過擬合和欠擬合的情況,而鮮有方法將集成決策樹模型應(yīng)用于此。集成決策樹模型是監(jiān)督學習中最強大也最常用的模型之一,其本身不是一個單獨的機器學習算法,而是通過構(gòu)建并結(jié)合多個機器學習器來完成學習任務(wù),由此來提升算法性能?;诖怂枷?CHEN等[11]提出了極端梯度提升決策樹算法(extreme gradient boosting,XGBoost),學習過程中迭代多棵決策樹來共同決策。相比于單決策樹的模型,XGBoost訓練過程比較穩(wěn)定,提升了預(yù)測效果。

針對上述問題,本文在文獻[11]的基礎(chǔ)上,提出了一種基于極端梯度提升決策樹的測井解釋專家規(guī)則的自動獲取方法。該方法以測井數(shù)據(jù)、錄井資料、地質(zhì)資料等為特征,以試油結(jié)果為標簽,在數(shù)據(jù)集中訓練集成決策樹模型,建立輸入特征與試油結(jié)論之間的專家規(guī)則。為證明XGBoost算法的有效性,本文使用支持向量機(support vector machine,SVM)算法[12-13]和梯度提升決策樹(gradient boosting decision tree,GBDT)算法[14]建立相同的規(guī)則庫進行效果對比,并將其應(yīng)用于老井復(fù)查以形成研究區(qū)內(nèi)共性的解釋知識規(guī)則。

1 XGBoost算法原理

集成學習是機器學習的一種范式,該方法通過訓練多個弱分類器來解決相同的問題,并將它們結(jié)合起來以獲得更好的結(jié)果。而XGBoost作為一種改進的集成決策樹算法,因其性能優(yōu)越,對輸入要求不嚴格,計算復(fù)雜度低等特點,往往是數(shù)據(jù)挖掘和機器學習[15-16]算法中必備工具之一,在工業(yè)界中也有大量應(yīng)用。

XGBoost使用分類回歸決策樹(classification and regression tree,CART)模型作為基分類器,將多個決策樹以加法訓練(additive training)的形式集成起來得到最后的輸出模型,訓練原理如圖1所示。與GBDT不同的是,XGBoost在目標函數(shù)中增加了正則化項來控制模型的復(fù)雜度,并且對損失函數(shù)進行二階泰勒展開,利用二階導數(shù)信息可使得模型收斂更快,精度更高。

圖1 XGBoost訓練原理

XGBoost的目標函數(shù)J定義如下:

(1)

對于加法訓練模型來講,每一輪的訓練數(shù)據(jù)來自于上一輪訓練時產(chǎn)生的殘差,本輪的總預(yù)測值是上一輪的總值和本輪分類模型的預(yù)測值之和,即:

(2)

(3)

對XGBoost的目標函數(shù)取泰勒展開的二階近似,則目標函數(shù)變?yōu)?

(4)

XGBoost中使用葉子節(jié)點個數(shù)M以及每個葉子節(jié)點的得分μ組合成為正則化項Ω,用于控制樹的復(fù)雜度。這樣訓練出來的模型既簡潔有效,還可以防止出現(xiàn)過擬合。正則化項Ω定義為:

(5)

其中,γ和λ為常數(shù),其默認值分別為0和1。當出現(xiàn)過擬合的情況時,適當增大γ和λ可以使算法更加保守,防止過擬合的發(fā)生。由此,第t輪的最終目標函數(shù)可以表示為:

(6)

(7)

由(6)式、(7)式可以得到目標函數(shù)的最優(yōu)值:

(8)

在實際訓練過程中,XGBoost獲取最優(yōu)切分點時會對樹中的葉子結(jié)點嘗試進行分裂。新分裂一個結(jié)點后,需要檢測這次分裂是否會給損失函數(shù)帶來增益(Gain),增益的定義如下:

(9)

其中,

(10)

(11)

綜上所述,將樣本特征作為輸入,選取CART作為弱分類器,使用增益最大的標準選取最佳切分特征與最佳切分點后,通過計算預(yù)測的標簽值與真實標簽之間的損失來加性地進行訓練并集成到一起,即可得到最終的XGBoost模型。

2 應(yīng)用實例

在測井過程中,面對以發(fā)現(xiàn)和評價油氣水層為核心目標的復(fù)雜儲層評價這一難題,建立一種新的基于學習并可自動獲取知識的測井規(guī)則庫是非常有必要的[4]。

本文提出一種基于XGBoost的測井規(guī)則自動獲取方法,其技術(shù)流程如圖2所示。首先根據(jù)已有的測井數(shù)據(jù)建立數(shù)據(jù)集,然后經(jīng)過特征選擇及數(shù)據(jù)處理等得到訓練數(shù)據(jù)并以此訓練XGBoost模型,從而得到自動獲取的規(guī)則庫。

圖2 基于XGBoost的測井規(guī)則自動獲取流程

2.1 創(chuàng)建樣本數(shù)據(jù)集

以勝利油田鹽家永安地區(qū)砂礫巖油氣藏為研究區(qū),選擇其中已完成試油的17口井作為研究目標。首先,以0.1m為步長對已完成試油和測井解釋的井段的測井曲線進行采樣,共獲得6489個樣本數(shù)據(jù)。經(jīng)統(tǒng)計,數(shù)據(jù)集中樣本的試油結(jié)論表明共有水層、油層、干層、泥巖層、油水同層、含油水層6類(表1)。

表1 研究目標中各類儲層數(shù)量及占比

對該研究區(qū)內(nèi)測井資料及地質(zhì)參數(shù)進行分析,選擇了補償中子(CNL)、補償密度(DEN)、聲波時差(AC)、地層真電阻率(RT)、沖洗帶地層電阻率(RXO)、自然電位(SP)、井徑(CAL)、自然伽馬(GR)和全烴曲線(QT)這9個參數(shù)作為每個樣本的特征,將各樣本的試油結(jié)論作為真實標簽。將所有樣本匯總到一起,構(gòu)建總的大樣本數(shù)據(jù)集。

2.2 數(shù)據(jù)處理

首先利用現(xiàn)有測井解釋軟件讀取每口井的參數(shù)曲線,再將連續(xù)的數(shù)據(jù)按特定步長采樣為離散的樣本并保存為文本文件,進而轉(zhuǎn)化為方便程序讀取的CSV文件。在輸入數(shù)據(jù)時,將各樣本的標簽信息通過獨熱編碼進行處理,轉(zhuǎn)化為多維向量的表示形式,“1”所在的位置代表其類別,避免了簡單數(shù)值替換標簽帶來的一系列影響(表2)。

表2 本文方法的One-Hot編碼方式

XGBoost作為樹形結(jié)構(gòu)模型,其尋找最優(yōu)點的過程通過尋找最優(yōu)分裂點完成,而數(shù)值縮放不影響分裂點位置,因此特征之間的數(shù)據(jù)量綱和數(shù)量級的不同并不會對其產(chǎn)生影響。因此,相比于線性模型,樹形結(jié)構(gòu)模型不需要對數(shù)據(jù)集進行額外的特征預(yù)處理就能滿足分類任務(wù),避免了對數(shù)據(jù)集進行歸一化或標準化處理而帶來的特征信息損失。

將總樣本數(shù)據(jù)集按7∶3劃分為訓練集和測試集進行數(shù)據(jù)處理,其中訓練集包含4543個樣本,測試集包含1946個樣本。

2.3 模型對比及應(yīng)用

2.3.1 實驗環(huán)境

利用Python語言建立XGBoost模型。運行環(huán)境:服務(wù)器內(nèi)有兩塊14核CPU,共187.39GB內(nèi)存,CPU型號為Intel(R)Xeon(R)Gold5120@2.20GHz。

2.3.2 實驗設(shè)置及實驗結(jié)果

XGBoost作為機器學習模型,在訓練時需要進行各種參數(shù)的調(diào)整,其中較為重要的超參數(shù)有:迭代次數(shù)N,即模型迭代的次數(shù);學習率lr,用以調(diào)整每棵決策樹的權(quán)重來提高模型的魯棒性;最大樹深度Dmax,最小樣本權(quán)重Wmin則是用以停止樹的循環(huán)生成,當樹深度達到最大深度Dmax或樣本權(quán)重和小于閾值Wmin時則停止分裂,避免樹過深導致其學習到過于局部的樣本,防止過擬合。在參數(shù)尋優(yōu)過程中,本文采用K折交叉驗證與網(wǎng)格搜索(grid search with cross validation)相結(jié)合的方式來選取最優(yōu)參數(shù)。

K折交叉驗證是指將初始訓練集分割成K個子數(shù)據(jù)集,一個單獨的子數(shù)據(jù)集被保留作為驗證模型的數(shù)據(jù),其它K-1個子數(shù)據(jù)集用來訓練。交叉驗證重復(fù)K次,每個子樣本驗證一次,平均K次的結(jié)果,最終得到評估結(jié)果。該方法的優(yōu)勢在于可以減少在單次隨機劃分數(shù)據(jù)集時,因劃分方式不同帶來的差別,降低其在調(diào)參過程中的影響??紤]到運算時間及內(nèi)存占用,本文選取K=10進行實驗。

網(wǎng)格搜索是一種基于窮舉的搜索手段,即在所有候選的超參數(shù)選擇中,通過循環(huán)遍歷,嘗試每一種可能性,選擇得到最高準確率的超參數(shù)作為最終的結(jié)果。

首先,對于迭代次數(shù)N,本文在1~200內(nèi)進行搜索,并在N=159時取得最大值(圖3)。

圖3 模型在不同迭代次數(shù)下的準確率

其次,在0.1~1.0內(nèi)對學習率的最優(yōu)參數(shù)進行搜索,取得學習率的最優(yōu)值為0.281,其實驗結(jié)果如圖4 所示。

圖4 模型在不同學習率下的準確率

同理,使用相同方法對Dmax與Wmin進行搜索,分別取得最優(yōu)值Dmax=5,Wmin=1。最終的實驗結(jié)果如表3所示。

由表3可以看出,本文方法對研究區(qū)內(nèi)大部分油氣水層的預(yù)測結(jié)果較好,僅泥巖層的預(yù)測準確率稍低。采取多種調(diào)優(yōu)方式后,其準確率仍未得到明顯提高,可能是由于所選數(shù)據(jù)集中泥巖層的各樣本不能很好地突顯其特征所致。經(jīng)過多次數(shù)據(jù)集隨機劃分實驗,含油水層的準確率多數(shù)仍能保持在100%,說明盡管含油水層的樣本數(shù)較少,但本文模型可以較完整地提取到含油水層樣本的特征。

表3 基于XGBoost的類專家規(guī)則預(yù)測結(jié)果

為了進一步證明本文方法的有效性,使用GBDT算法和SVM算法自動獲取專家規(guī)則,對比結(jié)果如表4 所示。

從表4可看出,采用XGBoost算法的預(yù)測準確度高于GBDT算法和SVM算法的預(yù)測準確度;雖然GBDT算法與XGBoost算法的預(yù)測準確率接近,但由于GBDT算法不能很好地利用并行方法對數(shù)據(jù)進行處理,導致其運行時間約為XGBoost算法的4倍。所以,從時間成本及準確率方面考慮,采用基于XGBoost算法構(gòu)建專家規(guī)則的方法可以取得更好的效果。

表4 不同算法的性能對比

2.3.3 規(guī)則庫自動獲取方法在老井復(fù)查中的應(yīng)用

老井復(fù)查是針對解釋錯誤的層位,在得到試油結(jié)論后,再次進行測井解釋,以形成對某一區(qū)塊的共性研究。在研究區(qū)內(nèi)應(yīng)用規(guī)則庫自動獲取方法后,形成了研究區(qū)塊內(nèi)的知識規(guī)則庫,得到了區(qū)塊共性的解釋經(jīng)驗知識。在老井復(fù)查中,利用本文提出的新規(guī)則庫對研究區(qū)內(nèi)的井再次進行測井解釋,并與手工編寫的原規(guī)則庫進行對比,兩種規(guī)則在部分井(Y22井和Y929井)的應(yīng)用結(jié)果如圖5、圖6和圖7所示。

圖5 Y22井某油層部分的解釋結(jié)果

圖6 Y22井某水層部分的解釋結(jié)果

圖7 Y929井某水層部分的解釋結(jié)果

由應(yīng)用結(jié)果可知,與原規(guī)則庫相比,本文方法較完整地提取了該區(qū)塊內(nèi)的知識規(guī)則,提升了測井解釋的準確率。

2.3.4 討論與分析

本文方法利用XGBoost模型構(gòu)建了專家規(guī)則的自動獲取方法,通過加法訓練將多個CART分類器集成到一起,并在損失函數(shù)中附加正則項,較好地完成了專家規(guī)則庫自動獲取任務(wù)。分析后發(fā)現(xiàn),在實驗與老井復(fù)查過程中,研究區(qū)內(nèi)的部分儲集層較厚,因而實驗結(jié)果較好。但由于數(shù)據(jù)有限,目前未能專門針對很薄的復(fù)雜巖性儲集層進行實驗。但本文表明將XGBoost算法應(yīng)用于測井解釋具有較大的潛力,也為復(fù)雜儲層測井評價等應(yīng)用提供了新的思路。

3 結(jié)論

1) 將機器學習算法與測井專家系統(tǒng)有效結(jié)合,代替原有的人工方法建立解釋規(guī)則庫,使得關(guān)聯(lián)規(guī)則更容易獲取,非專家人員也可以進行類專家規(guī)則的生成及測井解釋;

2) 采用XGBoost模型經(jīng)過網(wǎng)格搜索和K折交叉驗證優(yōu)化后,其分類準確率高于SVM算法和GBDT算法,表明采用該模型能夠準確預(yù)測各類儲層;

3) 本文方法在勝利油田鹽家永安地區(qū)老井復(fù)查中的成功應(yīng)用表明,采用該方法形成了研究區(qū)塊內(nèi)的知識規(guī)則庫,得到了本區(qū)塊共性的解釋經(jīng)驗知識。

猜你喜歡
決策樹測井儲層
本期廣告索引
輸導層
——北美又一種非常規(guī)儲層類型
八扇區(qū)水泥膠結(jié)測井儀刻度及測井數(shù)據(jù)處理
中國煤層氣(2021年5期)2021-03-02 05:53:12
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
基于儲層構(gòu)型研究的儲層平面非均質(zhì)性表征
決策樹和隨機森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于決策樹的出租車乘客出行目的識別
基于測井響應(yīng)評價煤巖結(jié)構(gòu)特征
中國煤層氣(2015年4期)2015-08-22 03:28:01
中石油首個全國測井行業(yè)標準發(fā)布
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
荆州市| 鹰潭市| 湛江市| 海口市| 黄浦区| 凤翔县| 兴化市| 潼南县| 交城县| 蓝山县| 西乌| 仁布县| 清苑县| 县级市| 曲松县| 贡嘎县| 当雄县| 阜康市| 阜新| 秦安县| 沧州市| 集贤县| 吉林省| 通河县| 育儿| 黔江区| 南漳县| 九台市| 和政县| 青岛市| 泾川县| 治县。| 桃园县| 漳州市| 贡觉县| 苍南县| 龙南县| 岳阳县| 金阳县| 威远县| 监利县|