白青林,劉烜良,張軍華,王福金,劉中偉,焦紅巖
1.中國石化勝利油田分公司現(xiàn)河采油廠,山東 東營 257068
2.中國石油大學(xué)(華東)地球科學(xué)與技術(shù)學(xué)院,山東 青島 266580
水下分流河道是一類廣泛分布的沉積儲(chǔ)層。由于河道寬度小,疊置、交叉嚴(yán)重,垂向厚度薄、互層多,均方根振幅等常用地震屬性中沒有明顯的河道特征,其精細(xì)描述與儲(chǔ)層厚度預(yù)測都有很大的困難。
以往有研究人員[1]利用地層厚度與砂地比的乘積來估算砂體厚度,前提是砂體分布與沉積比較穩(wěn)定。也有研究人員[2]用多井交會(huì)分析的方法來預(yù)測厚度,但其精度受井震相關(guān)性的限制。還有不少學(xué)者將機(jī)器學(xué)習(xí)方法用于砂體厚度預(yù)測,如隨機(jī)森林回歸(random forest regression, RFR)[3]、支持向量回歸(support vector regression, SVR)[4]、混合密度網(wǎng)絡(luò)預(yù)測[5]等,取得了一定的地質(zhì)效果,但其應(yīng)用對象比較簡單。
本文以勝利油田通61井區(qū)水下分流河道儲(chǔ)層為例,研究了基于極限梯度提升(extreme gradient boosting, XGBoost)的砂體厚度預(yù)測方法。通過集成學(xué)習(xí)和添加具有二階偏導(dǎo)的正則項(xiàng),提高回歸精度和速度,并與LASSO(least absolute shrinkage and selection operator)回歸、梯度下降決策樹(gradient boosting decision tree, GBDT)、支持向量機(jī)(support vector machine, SVM)等機(jī)器學(xué)習(xí)方法進(jìn)行了對比,以驗(yàn)證本文方法的預(yù)測效果;預(yù)測過程還對驗(yàn)證集占比、超參數(shù)設(shè)置、交叉驗(yàn)證(cross validation,CV)等應(yīng)用要素進(jìn)行了分析討論,以期為推進(jìn)基于機(jī)器學(xué)習(xí)的儲(chǔ)層預(yù)測技術(shù)的發(fā)展提供參考。
XGBoost算法是GBDT算法的一種改進(jìn),由Chen等于2016年最先提出[6-7],改進(jìn)后的算法學(xué)習(xí)效果和訓(xùn)練速度得到了很大的提升。在石油勘探領(lǐng)域,已有多位研究人員在測井資料解釋方面開展了很好的應(yīng)用[8-12]。
XGBoost由多棵決策樹組成,通過加法模型將一組弱學(xué)習(xí)器組合成強(qiáng)學(xué)習(xí)器。設(shè)有數(shù)據(jù)集(xi,yi),xi為包含m個(gè)特征的向量,yi為樣本標(biāo)簽,下標(biāo)i為樣本序號,共n個(gè)樣本,用fk(xi,θk)表示第k棵回歸樹,θk為對應(yīng)回歸樹的參數(shù)集,則模型預(yù)測值為
(1)
(2)
式中:O為目標(biāo)函數(shù);L為損失函數(shù),用于評估模型預(yù)測值和真實(shí)值之間的損失或誤差;Ω為正則化項(xiàng)。
不同于常規(guī)GDBT方法,XGBoost加入如下正則化項(xiàng):
(3)
式中:γ、λ為懲罰因子,防止決策樹過于龐大;T為葉子數(shù)目;ωj為葉子節(jié)點(diǎn)j的權(quán)重。
考察第s輪訓(xùn)練,式(2)可改寫為
(4)
式中,fs為第s輪的預(yù)測值。上述目標(biāo)函數(shù)很難在歐氏空間中優(yōu)化,為此用泰勒展開,近似到二階導(dǎo)數(shù),得到
(5)
其中:
(6)
式中,Ij為葉子節(jié)點(diǎn)j的樣本集,即落在葉子節(jié)點(diǎn)j上的所有樣本。式(6)為關(guān)于ωj的一元二次函數(shù),由式(6)易解得葉子節(jié)點(diǎn)j的最優(yōu)權(quán)重和最優(yōu)目標(biāo)函數(shù)值:
(7)
(8)
為了避免過擬合,模型訓(xùn)練迭代過程還會(huì)加一個(gè)縮減系數(shù),以實(shí)現(xiàn)小步迭代尋優(yōu):
(9)
式中,η為新生成樹模型的縮減系數(shù)。
圖1給出了基于樹模型的集成學(xué)習(xí)原理示意圖,通過多棵樹加法提高集成度,通過模型迭代求得最優(yōu)解。另外,XGBoost還支持行采樣和列采樣,行采樣是樣本有放回的采樣,列采樣是部分特征參與訓(xùn)練,目的都是避免過擬合。XGBoost設(shè)置了多個(gè)模型參數(shù)和超參數(shù),通過模型訓(xùn)練獲取最佳參數(shù)集,進(jìn)行目標(biāo)預(yù)測。
基于交叉驗(yàn)證的極限梯度提升(CV-XGBoost)砂體厚度預(yù)測采取以下主要步驟(圖2):一是數(shù)據(jù)集的準(zhǔn)備,主要是地震屬性的提取和優(yōu)化,屬性提取盡量選物理意義和地質(zhì)含義明確的地震屬性,屬性優(yōu)化要去除冗余屬性,選取井震關(guān)系好的地震屬性;二是模型訓(xùn)練,建立訓(xùn)練集和驗(yàn)證集,設(shè)定超參數(shù),訓(xùn)練集進(jìn)行網(wǎng)格搜索與交叉驗(yàn)證,通過模型誤差評價(jià)獲取最佳參數(shù)集;三是目標(biāo)預(yù)測,將訓(xùn)練好的模型用測試集進(jìn)行預(yù)測,得到預(yù)測結(jié)果。
圖2 基于CV-XGBoost的砂體厚度預(yù)測流程圖
以勝利油田通王斷裂帶通61井區(qū)為例,提取物理意義明確、以往儲(chǔ)層描述應(yīng)用效果較好的常用地震屬性[13],包括弧長、平均振幅、平均能量、帶寬、主頻、能量半時(shí)、最大振幅、最大幅值、均方根(root mean square, RMS)振幅、總正振幅、過零點(diǎn)數(shù)等11個(gè)屬性,對89口井的井點(diǎn)屬性做相關(guān)性分析,得到圖3所示的Pearson相關(guān)系數(shù)圖。從圖3可以看到:RMS振幅、總正振幅、最大振幅、最大幅值相互之間有很強(qiáng)的相關(guān)性,另外RMS振幅與平均能量、弧長,最大振幅與平均能量、弧長,總正振幅與平均能量等,也都有很強(qiáng)的相關(guān)性。這種相關(guān)性,不是單一的一種屬性與另一種屬性的線性相關(guān),而是具有多重共線性特征的相關(guān)。
圖3 屬性Pearson相關(guān)系數(shù)圖
對于多重共線性問題[14],本文還計(jì)算了方差膨脹因子(variance inflation factor, VIF),發(fā)現(xiàn)RMS振幅多重共線性最嚴(yán)重,VIF達(dá)150.34。考察屬性的方差比例,在特征值為0.002時(shí),最大振幅與最大幅度的方差比例皆為0.81,大于0.5,由此可知這兩個(gè)屬性也存在多重共線性。綜合多屬性相關(guān)分析、VIF、方差比例結(jié)果,最終去除RMS振幅、最大振幅、最大幅度3種冗余屬性,用其他8種屬性做儲(chǔ)層預(yù)測。
2.3.1 驗(yàn)證集占比的確定
訓(xùn)練集和驗(yàn)證集如何設(shè)置,它們對機(jī)器學(xué)習(xí)儲(chǔ)層預(yù)測有什么樣的影響,是一項(xiàng)很有理論研究價(jià)值的工作。一般來說,提高訓(xùn)練集的占比會(huì)提高模型的預(yù)測精度,但相應(yīng)地會(huì)減少驗(yàn)證集占比,而驗(yàn)證集減少會(huì)使利用的井?dāng)?shù)據(jù)減少,失去預(yù)測價(jià)值。為解決這一問題,本文用XGBoost在[5%,95%]間取驗(yàn)證集占比,取值間隔為5%,當(dāng)預(yù)測累積的厚度絕對誤差超過100 m時(shí)停止模型訓(xùn)練,并通過交叉驗(yàn)證輸出最終模型的最佳迭代輪數(shù)。經(jīng)實(shí)驗(yàn),當(dāng)驗(yàn)證集占比為75%時(shí),觸發(fā)了停止條件;當(dāng)驗(yàn)證集占比為80%時(shí),累積的絕對誤差已達(dá)到了142.12 m。圖4給出了不同驗(yàn)證集占比預(yù)測結(jié)果井點(diǎn)散點(diǎn)圖,可以看到:1)當(dāng)驗(yàn)證集占比較小(25%)時(shí),大多數(shù)井預(yù)測結(jié)果都比較好,只有1口井誤差比較大;2)隨著驗(yàn)證集占比的提高,驗(yàn)證井增加、訓(xùn)練井減少,實(shí)際厚度與預(yù)測厚度井點(diǎn)分布逐漸分散,到80%已比較分散。
圖4 驗(yàn)證集占比與預(yù)測精度散點(diǎn)分析圖
當(dāng)驗(yàn)證集占比為25%時(shí),模型最佳參數(shù)如表1所示。
表1 最佳模型組合參數(shù)
2.3.2 不同方法效果的對比
用LASSO回歸[15]、GBDT[16]、SVM[17]與本文XGBoost 4種機(jī)器學(xué)習(xí)方法分別進(jìn)行預(yù)測,并將預(yù)測結(jié)果與真實(shí)的儲(chǔ)層厚度進(jìn)行對比,結(jié)果如圖5所示。從圖5可以看到:LASSO回歸方法誤差最大,見T61-140、T61-27井;常規(guī)的梯度提升方法(GBDT)在T61-617井點(diǎn)處誤差較大;SVM方法在T61-33、T61-101井處誤差也較大;綜合來看,本文XGBoost方法誤差最小。表2給出了4種模型預(yù)測全部厚度的誤差統(tǒng)計(jì),誤差評價(jià)分別分為平均絕對誤差(mean absolute error, MAE)、擬合優(yōu)度可決系數(shù)(R2)、平均相對誤差(mean relative error, MRE),整體來看XGBoost誤差最小,為最佳方法。
表2 不同機(jī)器學(xué)習(xí)方法預(yù)測誤差整體評價(jià)
圖5 不同機(jī)器學(xué)習(xí)方法預(yù)測結(jié)果井點(diǎn)誤差比較
2.3.3 關(guān)于交叉驗(yàn)證模型參數(shù)優(yōu)化的討論
交叉驗(yàn)證[7],也稱為循環(huán)估計(jì),是一種統(tǒng)計(jì)學(xué)上將數(shù)據(jù)樣本切割成較小子集的實(shí)用方法,該理論是由Seymour Geisser提出的。其基本思想是在某種意義下將原始數(shù)據(jù)進(jìn)行分組,一部分作為訓(xùn)練集,另一部分作為驗(yàn)證集,先用訓(xùn)練集對分類器進(jìn)行訓(xùn)練,再用驗(yàn)證集來測試訓(xùn)練得到的模型,以此來做為評價(jià)分類器的性能指標(biāo)。交叉驗(yàn)證按類型不同可分為K折交叉驗(yàn)證和留一交叉驗(yàn)證。
本次研究選擇K折交叉驗(yàn)證。取75%的井為訓(xùn)練集(66口井),剩下25%的井作為驗(yàn)證集,K取5,做交叉驗(yàn)證測試。圖6為交叉驗(yàn)證前后驗(yàn)證集厚度與真實(shí)值的對比,可以看到做了交叉驗(yàn)證后預(yù)測精度得到明顯提高。
圖6 交叉驗(yàn)證前后預(yù)測精度比較
根據(jù)本文XGBoost方法,得到屬性重要性評價(jià)結(jié)果,如圖7所示。從圖7可以看出,本研究區(qū)平均振幅、平均能量、弧長、主頻為厚度預(yù)測貢獻(xiàn)度較大的屬性。
圖7 地震屬性重要性評分
圖8a為根據(jù)插值得到的井點(diǎn)厚度圖,它沒有地震屬性的關(guān)聯(lián)信息;圖8b、c為本文在不同驗(yàn)證集占比下由XGBoost預(yù)測得到的砂體厚度圖;圖8d為根據(jù)前述重要性分析得到的最佳屬性。由圖8a—c整體來看,砂體有2個(gè)厚度中心,這在25%驗(yàn)證集占比情況下特別清晰(圖8b),所以要了解研究區(qū)砂體的宏觀分布,可用較多的訓(xùn)練集、較少的驗(yàn)證集,此認(rèn)識(shí)與圖4分析結(jié)果一致。仔細(xì)觀察圖8a,右側(cè)存在數(shù)據(jù)孤立點(diǎn),這不符合地質(zhì)認(rèn)識(shí);從圖8b結(jié)合圖8d地震屬性來看,圖8b左邊的砂體厚度中心范圍較大,與屬性關(guān)聯(lián)度不高。對比來看,用75%驗(yàn)證集占比預(yù)測,雖然如圖4分析預(yù)測精度會(huì)略低于25%驗(yàn)證集,但它參與驗(yàn)證的井多,所蘊(yùn)含的厚度信息豐富,綜合認(rèn)為是比較合適的預(yù)測結(jié)果。
a. 根據(jù)插值得到的井點(diǎn)厚度圖;b. 本文方法25%驗(yàn)證集占比預(yù)測結(jié)果;c. 本文方法75%驗(yàn)證集占比預(yù)測結(jié)果;d. 平均振幅最佳屬性。
通過CV-XGBoost砂體厚度預(yù)測方法研究與實(shí)際應(yīng)用,可以得到以下結(jié)論:
1)多重共線性分析技術(shù)對去除相關(guān)度高的冗余屬性、優(yōu)化模型的數(shù)據(jù)集十分適用。
2)本文方法具有比LASSO回歸、GBDT、SVM方法更高的預(yù)測精度,對復(fù)雜砂體儲(chǔ)層預(yù)測具有很好的應(yīng)用效果,值得在儲(chǔ)層預(yù)測中推廣。