桂金詠,李勝軍,高建虎,劉炳楊,郭 欣
(中國石油勘探開發(fā)研究院西北分院,蘭州 730020)
含氣飽和度是天然氣藏商業(yè)價值評估、儲量提交、井位優(yōu)選、剩余氣描述等定量化分析工作的重要物性參數(shù),可以直接通過試氣數(shù)據(jù)或使用測井曲線解釋得到。目前,在地球物理勘探領(lǐng)域已經(jīng)提出了大量含氣飽和度測井解釋方法,但有關(guān)含氣飽和度的地震解釋方法卻較少[1-3]。利用地震數(shù)據(jù)預測天然氣藏的含氣飽和度是一種復雜的、多解性的以及高度非線性的地震反演問題,現(xiàn)有的試圖從地震信息中解譯出含氣飽和度信息的方法,大多都是借助疊前地震反演技術(shù)先從疊前地震數(shù)據(jù)中反演出彈性參數(shù)數(shù)據(jù),繼而重點研究如何更高精度地將彈性參數(shù)數(shù)據(jù)進一步反演為含氣飽和度等物性參數(shù),而物性參數(shù)與彈性參數(shù)間的巖石物理模型則起到一種正、反演基本準則的作用。Bachrach[4]以經(jīng)典的Gassmann 方程為基礎(chǔ),建立了縱波阻抗、橫波阻抗及密度與孔隙度、飽和度等物性參數(shù)間的統(tǒng)計巖石物理模型,實現(xiàn)了孔隙度和飽和度的聯(lián)合反演。胡華鋒[5]結(jié)合統(tǒng)計巖石物理模型與貝葉斯分類器,對儲層物性參數(shù)進行了反演。De Figueiredo 等[6]利用混合高斯模型獲取物性參數(shù)的先驗分布概率密度函數(shù),提出了貝葉斯線性解析化物性參數(shù)反演方法。劉興業(yè)等[7]針對統(tǒng)計巖石物理反演中似然函數(shù)難以表征的問題,采用核估計的方法得到了條件概率密度函數(shù),基于核貝葉斯判別法預測物性參數(shù)。李紅兵等[8]提出了一種基于彈性阻抗的、適用于復雜孔隙儲層孔隙結(jié)構(gòu)的飽和度反演方法。另外,為了避免地震數(shù)據(jù)到彈性參數(shù)數(shù)據(jù),再到物性參數(shù)數(shù)據(jù)這種“兩步”反演方法誤差傳遞的問題,也有學者嘗試將巖石物理模型與Zoeppritze 地震反射方程或其簡化方程相融合,提出了物性參數(shù)地震直接反演方法,直接將疊前地震數(shù)據(jù)反演為含氣飽和度、孔隙度等物性參數(shù)數(shù)據(jù)。桂金詠等[9]結(jié)合包裹體巖石物理模型將雙相介質(zhì)地震反射系數(shù)推導成含氣飽和度、孔隙度和泥質(zhì)含量的函數(shù),并對其應用差分進化算法求解。Lang 等[10]在Gassmann 方程的基礎(chǔ)上,結(jié)合臨界孔隙度模型,推導了流體體積模量、剪切模量及密度隨巖石基質(zhì)、流體參數(shù)的偏導數(shù),發(fā)展了基于貝葉斯線性反演的疊前地震AVO 物性預測。Liu 等[11]基于Kuster-Toks?z 巖石物理模型推導了飽和巖石模量的線性近似式,采用基于柯西約束的貝葉斯最大后驗概率解,開展了疊前地震確定性物性參數(shù)反演。李坤等[12]推導了利用KT 巖石物理模型高階近似和Gray 地震反射模型表征的疊前地震AVO 反射系數(shù)方程,假設(shè)在待反演物性參數(shù)服從混合概率先驗模型的前提下,直接反演出孔隙度、飽和度及泥質(zhì)含量。Fjeldstad 等[13]利用高斯混合模型表示含氣飽和度等物性參數(shù)的先驗分布特征,結(jié)合地質(zhì)統(tǒng)計學空間模擬技術(shù),提出了含氣飽和度的“一步法”地質(zhì)統(tǒng)計學反演。
實際上,無論是“兩步法”還是“一步法”都離不開巖石物理建模過程。對于地質(zhì)條件日趨復雜的天然氣探區(qū),彈性參數(shù)與物性參數(shù)間的巖石物理關(guān)系往往具備極強的非線性,極易受到實際研究區(qū)巖性、孔隙結(jié)構(gòu)、壓力、溫度等多種因素的影響,導致在大多數(shù)情況下難以建立起精確的巖石物理模型[14-17]。機器學習方法的出現(xiàn)為這類非線性建模問題提供了一種新的途徑。機器學習方法可以通過機器自主學習得到一種非線性映射關(guān)系,實現(xiàn)高度復雜的非線性函數(shù)逼近,具有強大的學習數(shù)據(jù)集本質(zhì)和高度抽象化特征的能力。通常根據(jù)訓練是無監(jiān)督的還是有監(jiān)督的進行分類。無監(jiān)督學習無須訓練數(shù)據(jù)集,直接基于輸入數(shù)據(jù)的分布或結(jié)構(gòu)來對信息相似的數(shù)據(jù)進行分組和映射;監(jiān)督學習則需要訓練數(shù)據(jù)集,包括輸入數(shù)據(jù)和標簽,標簽是輸入的響應值。監(jiān)督學習的主要目標是從標記的訓練數(shù)據(jù)中學習出一個最優(yōu)的映射模型,將已知領(lǐng)域知識與數(shù)據(jù)本身進行結(jié)合,能夠有效減少預測的多解性。在眾多的監(jiān)督機器學習算法中,隨機森林(Random Forests,簡稱RF)近年來在地球物理學領(lǐng)域取得了較好的應用效果[18]。Breiman[19]提出的RF 是一種集合學習算法,結(jié)合了bagging 集合和隨機特征選擇的思想,預測結(jié)果由多個決策樹分類器投票決定。多個決策樹的作用相當于組合很多非線性關(guān)系形成更復雜的非線性關(guān)系,具有預測精度高、對異常值和噪聲數(shù)據(jù)容忍度高等優(yōu)點,已廣泛應用于金融、生物、遺傳、圖像識別、醫(yī)學等領(lǐng)域。在地球物理領(lǐng)域,Harris 等[20]將隨機森林算法應用于地球物理和地球化學數(shù)據(jù)聯(lián)合巖性分類。宋建國等[21]針對儲層預測的復雜非線性及穩(wěn)定性問題,將隨機森林回歸算法引入到地震儲層預測中,建立地震屬性與自然伽馬之間的非線性關(guān)系。王光宇等[22]考慮了不平衡樣本對隨機森林巖性分類問題的影響。Kuhn 等[23]利用地球物理和遙感數(shù)據(jù)對金礦附近未開采區(qū)域的巖性進行了分類研究。Cracknell 等[24]將RF 與SVM、樸素貝葉斯、K 近鄰和人工神經(jīng)網(wǎng)絡(luò)進行了巖性預測效果比較,認為RF 優(yōu)于其他機器學習算法,并且證明了RF 能夠以更簡單的輸入?yún)?shù)和更少的計算成本產(chǎn)生準確的結(jié)果。
以往研究結(jié)果表明,對于巖性和流體識別等離散數(shù)據(jù)的分類問題,利用若干個對目標敏感的地震衍生屬性,如振幅、頻率以及彈性參數(shù)等作為輸入特征變量,即可獲得較好的分類結(jié)果[25-27],而對于含氣飽和度這類連續(xù)數(shù)值的回歸問題,特征變量的數(shù)量對預測結(jié)果的影響尚未明確。離散分類問題和連續(xù)值回歸問題在算法本質(zhì)上差別不大,但對參與訓練的特征變量的數(shù)量依賴程度不同。連續(xù)值回歸問題可以看作是將連續(xù)值按極小的間隔離散化的分類問題,只是所分類別較多,對參與訓練的特征變量的數(shù)量要求也更大。通常情況下,訓練中涉及的特征變量越多,所攜帶的信息越豐富,訓練結(jié)果可能更準確、泛化性能更好[27],但如果無限制地增加特征變量數(shù)量,會導致工作量巨大。另外,含氣飽和度訓練樣本的取值分布往往具有“非平衡”特征,尤其是復雜天然氣探區(qū),含氣層往往薄薄地發(fā)育在大套背景巖性中,當高含氣層樣本過少,而低含氣層樣本過多時,會使訓練結(jié)果向低含氣層偏倚,導致含氣飽和度的預測準確率較低。
基于隨機森林(RF)預測含氣飽和度,引入合成少數(shù)類過采樣技術(shù)以消除樣本不平衡對RF 訓練的影響,采用自動特征變量擴展策略解決含氣飽和度回歸對特征變量數(shù)量的依賴,利用隨機森林對特征變量進行含氣飽和度預測重要性排名,優(yōu)選重要性較高的特征變量進行最終隨機森林訓練,并將該方法在實際工區(qū)中進行應用,以期提高地震信息對天然氣藏含氣飽和度的定量預測能力。
RF 算法用于含氣飽和度預測的一個關(guān)鍵步驟是要準備足夠的特征變量作為訓練集。Alvarez等[28]對縱波阻抗、橫波阻抗、縱橫波速度比、拉梅參數(shù)×密度、剪切模量×密度、拉梅參數(shù)/剪切模量、(拉梅參數(shù)-剪切模量)×密度、泊松比、楊氏模量×密度、體積模量×密度、泊松阻抗等11 種常用的地震彈性參數(shù)進行數(shù)學變換,得到了大量的地震衍生屬性作為孔隙度、含水飽和度與泥質(zhì)含量等物性參數(shù)線性回歸的基礎(chǔ)屬性集,在常規(guī)碎屑巖物性參數(shù)預測中取得較好的應用效果。然而,且不論該方法采用線性回歸的合理性,實際上常用的彈性參數(shù)的數(shù)量就遠遠超過11 種,該方法可能會遺漏對目標敏感的彈性參數(shù)。另外,每個彈性參數(shù)的獲取都需要基于疊前地震反演或利用不同的變換公式轉(zhuǎn)換得到,自動化程度較低,且變換過程中也存在誤差積累和放大的風險。尤其是對于各向異性比較明顯的致密砂巖或頁巖氣藏,疊前地震反演本身就存在極大的不確定性。為克服人工準備大量特征變量的問題,利用擴展彈性阻抗(EEI)自動生成一系列彈性屬性作為特征變量。Whitcombe 等[29]在Connolly彈性阻抗方程的基礎(chǔ)上提出了EEI方程的定義:
式中:χ為角度,(°),取值-90°~90°;vp,vs,vp0和vs0分別為縱波速度、橫波速度、目的層平均縱波速度和平均橫波速度,m/s;ρ和ρ0分別為密度和目的層平均密度,kg/m3;k=vs2/vp2。
由式(1)可知,EEI可以由vp,vs和ρ這3 個基本的彈性參數(shù)計算得出,通過調(diào)整χ的大小可以對EEI進行調(diào)整,當其與一些彈性參數(shù)近似成正比,可以用于巖性或流體識別[29]。此外,EEI還可以對常見的測井屬性(如電阻率、伽馬)進行較好的擬合[30]。通過疊前地震反演技術(shù)易獲得vp,vs和ρ這3個基本的彈性參數(shù)體,使用不同值的EEI作為特征變量替代常規(guī)彈性參數(shù)。
首先,針對從疊前地震反演獲得的彈性參數(shù)存在一定誤差這一問題,直接從疊前地震反演得到的彈性參數(shù)數(shù)據(jù)體中提取井旁道的縱波速度、橫波速度和密度偽井曲線作為與含氣飽和度測井解釋標簽對應的彈性參數(shù)樣本,采用機器學習算法進行處理。即使訓練樣本帶有一定的誤差,機器學習也能在無意識下學習得到包含噪聲的映射模型,直接將帶有誤差的特征變量映射為含氣飽和度。需要注意的是,特征變量的誤差也不能過大,會削弱有效信息。其次,設(shè)定角度χ 的變化步長,將縱波速度、橫波速度和密度偽井曲線帶入式(1),自動生成一系列不同角度的EEI曲線。然后,根據(jù)Alvarez等[28]的數(shù)學變換思想,采用對數(shù)、指數(shù)、倒數(shù)、平方、開方運算對擴展彈性阻抗進一步擴充,以設(shè)定χ為5°為例(表1),每個數(shù)字代表一個特征變量,可得到222 個彈性屬性作為特征變量數(shù)據(jù)集。最后,將生成的井旁道特征變量和對應的含氣飽和度測井解釋標簽作為監(jiān)督學習的原始訓練集。
表1 擴展特征變量Table 1 Extended feature variables
在實際操作中,還可以針對具體條件來設(shè)定需要擴展的特征變量的數(shù)量。為了盡量不遺漏潛在的目標敏感彈性屬性,χ 的變化步長可以設(shè)定得更小,以獲得更多的特征變量。另外,也可以使用或增加其他的數(shù)學運算方法來進行自動轉(zhuǎn)換,進一步擴充特征變量的種類來增加特征變量數(shù)據(jù)集中有敏感性屬性的可能性。
RF 算法的核心是采用Bootstrap 抽樣法對原始樣本集進行重新抽樣,隨機生成k個子訓練集S1,S2,...,Sk。通過Bootstrap 抽樣,每個訓練子集平均包含約63.2%的樣本,而剩余37.8%的“袋外”樣本則用于驗證[19]。每個子訓練集所包含的元素不盡相同,這可以保證決策樹的多樣性,使得訓練模型具備泛化性,但在Bootstrap 抽樣過程中,所有樣本每次抽樣的概率都是相同的,這就意味著在不同類別樣本數(shù)量差別很大的樣本集上訓練時,往往會出現(xiàn)分類面向多數(shù)類樣本偏倚的現(xiàn)象,少數(shù)類樣本無法獲得理想的分類效果。近幾年來,機器學習中不平衡數(shù)據(jù)的分類問題受到了越來越多的關(guān)注[31],這里的“不平衡數(shù)據(jù)”是指分類問題中對應于每個類別的樣本數(shù)量是不同的,而且數(shù)量差異較大。這種不平衡數(shù)據(jù)往往會惡化機器學習算法的性能[32],如在進行巖性識別時,當樣本集中目標巖性(如含氣砂巖)的樣本數(shù)量過少,而非目標巖性(如泥巖)的樣本數(shù)量過多時,會使預測結(jié)果向非目標巖性偏倚,導致目標巖性的預測準確率較低。同樣,對于含氣飽和度回歸也有這樣的問題。在中國西部地區(qū),有利氣藏通常厚度較小,發(fā)育在大套地層中,若含氣飽和度較高的有利儲層訓練樣本數(shù)較少,而含氣飽和度較低的非有利儲層的訓練樣本數(shù)較多,RF回歸器的訓練可能會偏向于非有利儲層,影響有利儲層的含氣飽和度回歸精度。
對于不平衡數(shù)據(jù)的處理一般有過采樣和欠采樣2 種方法。過采樣是通過復制少數(shù)類樣本來增加其規(guī)模,欠采樣則是隨機刪除一些多數(shù)類樣本的數(shù)量??紤]到機器學習含氣飽和度回歸主要以測井數(shù)據(jù)作為訓練樣本,而測井成本較高,往往數(shù)量也不多,因此不刪除多數(shù)類樣本,而是采用過采樣方法來處理少數(shù)類樣本。在機器學習領(lǐng)域,應用較多的過采樣方法是合成少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE),該技術(shù)通過分析少數(shù)類樣本的特征,人工合成新的樣本,并將新的樣本加入到數(shù)據(jù)集中,直到各類樣本的數(shù)量趨于平衡,形成一個大的平衡訓練集,其實施步驟如下[33]:
(1)對于少數(shù)類中的每個樣本,利用歐式距離計算其與少數(shù)類中所有樣本的距離,并獲得m個最近的鄰點。
(2)根據(jù)不平衡類比例設(shè)定抽樣比例,確定少數(shù)類樣本的抽樣放大最終數(shù)量為N。對于少數(shù)類中的樣本x,從m個最近的鄰點中隨機選擇幾個樣本y,構(gòu)建新的樣本z:
式中:rand(0,1)為隨機數(shù),取值0~1。
(3)重復步驟(1)—(2),直到少數(shù)類樣本數(shù)量增加到預先設(shè)定的數(shù)值N。
然而,該方法并沒有考慮樣本的邊界問題,可能會造成樣本取值的大量重疊,在離群點附近也會產(chǎn)生一些不能提供有效信息的樣本,降低學習性能。邊界合成少數(shù)過采樣技術(shù)(BSMOTE)是在SMOTE 基礎(chǔ)上改進的過采樣算法[34],如圖1 所示,該算法在采樣過程中將少數(shù)類樣本分為“安全”“危險”和“噪聲”3 類,“安全”類別是指鄰域超過一半的樣本是少數(shù)類樣本(如圖1 中點A 所示);“危險”類別是指鄰域超過一半的樣本為多數(shù)類樣本,視為邊界上的樣本(如圖1 中點B 所示);“噪聲”類別是指樣本被多數(shù)類樣本包圍(如圖1 中的點C 所示),只對被標記為“危險”的樣本進行過采樣合成新樣本,可以改善樣本的類別分布。
圖1 BSMOTE 原理示意圖Fig.1 Schematic diagram of BSMOTE
作為一種數(shù)據(jù)驅(qū)動算法,RF 對每個Bootstrap抽樣得到的子訓練集S1,S2,...,Sk分別進行決策樹建模,從而顯著提高了模型的準確性和魯棒性,在處理各種復雜的預測和分類問題時表現(xiàn)出了出色的性能。在RF 中,每棵決策樹都獨立地為給定的數(shù)據(jù)樣本提供一個預測值,然后將全部k棵決策樹的預測值取平均作為最終的輸出值。這種集成方法在處理高維數(shù)據(jù)和大規(guī)模數(shù)據(jù)時,可以有效地應對過擬合和欠擬合的問題。決策樹構(gòu)建算法采用Breiman 提出的CART 算法[23],其基本步驟為
(1)特征選擇。CART 算法對于每一個節(jié)點都需要選擇最佳的特征進行分裂,通?;诨嵯禂?shù)來進行特征選擇,以實現(xiàn)節(jié)點的最佳分裂。
(2)節(jié)點分裂。根據(jù)選定的特征,對節(jié)點進行分裂,使得各個子節(jié)點中的樣本盡可能屬于同一類別(分類樹)或者具有相似的回歸值(回歸樹)。
(3)遞歸構(gòu)建。重復對子節(jié)點進行上述分裂操作,直到滿足停止條件。如在分類樹中,可以設(shè)定樹的最大深度或者節(jié)點中樣本數(shù)量的最小閾值;在回歸樹中,也可以設(shè)置類似的停止條件。
(4)剪枝。構(gòu)建完整的決策樹后,可以對樹進行剪枝,通過降低樹的復雜度來提高模型的泛化能力,防止過擬合。
根據(jù)本文提出的特征變量擴展方法,可以將疊前地震反演得到的縱波速度、橫波速度和密度數(shù)據(jù)體生成222 個特征變量作為RF 回歸器的輸入數(shù)據(jù)。然而,擴展彈性阻抗變量之間本身也具有一定的相關(guān)性,大量信息重復的特征變量可能帶來過多的冗余信息和計算消耗。有些特征變量可能是極為敏感的指標參數(shù),而有的特征變量可能包含的有效信息很少,選擇對目標回歸貢獻較大的特征變量可以加快過程并提高預測的準確性。
RF 的另一個優(yōu)點是可以提供變量重要性(Variable important,VI)的衡量標準,根據(jù)特征變量的預測能力進行排序[35]。用隨機森林進行特征重要性評估的思想就是衡量每個特征在隨機森林中的每棵樹上所做的貢獻,取所有樹的平均貢獻來比較特征變量的貢獻大小。在RF 中,有Gini 重要性和互換精度重要性2 種得分評價標準,對于含氣飽和度預測這類回歸問題宜采用互換精度重要性來計算VI 得分。根據(jù)Bootstrap 采樣思想,每棵決策樹都有子樣本集37.8%的“袋外”樣本在構(gòu)建過程中并沒有使用,可以被用來計算特征變量的重要性。
第i棵樹,第j個特征變量Xj的VI 得分[35]為
取所有樹的平均VI 得分作為變量的最終VI得分,根據(jù)VI 得分的排名,選擇排名靠前的特征變量作為RF 回歸器構(gòu)建的最終使用特征變量。
基于特征變量擴展的含氣飽和度隨機森林預測方法在實際生產(chǎn)中的實施流程如圖2 所示,主要有4 個步驟:
圖2 隨機森林含氣飽和度預測流程Fig.2 Workflow of gas saturationprediction by random forests
(1)訓練樣本平衡化處理。抽取井旁道縱波速度、橫波速度和密度3 個彈性參數(shù)的疊前地震反演結(jié)果作為基本特征變量樣本,根據(jù)測井有利儲層分類解釋結(jié)果,采用BSMOTE 方法對基本特征變量和對應的含氣飽和度樣本進行平衡化處理。
(2)特征變量樣本擴展。對平衡化后的彈性參數(shù)樣本應用表1 所列擴展方式進行自動擴展并編號,得到擴展的特征變量樣本。
(3)隨機森林回歸器訓練。分為預訓練和正式訓練,先開展RF 預訓練,根據(jù)式(3)對各特征變量進行重要性排名,優(yōu)選排名靠前的特征變量,輸入優(yōu)選的特征變量樣本和目標物性參數(shù)標簽,進行RF 正式訓練,得到最優(yōu)的回歸器。
(4)含氣飽和度預測。根據(jù)步驟(3)中優(yōu)選的特征變量的編號,依據(jù)表1 中對應的擴展方式,將彈性參數(shù)疊前地震反演成果數(shù)據(jù)體整體轉(zhuǎn)換為特征變量數(shù)據(jù)體,輸入到訓練好的隨機森林回歸器中,輸出預測的含氣飽和度數(shù)據(jù)體。
以中國西部某天然氣藏研究區(qū)為例驗證新方法的有效性。該研究區(qū)氣藏埋藏較深、分布廣泛、有效儲層厚度大。早期部署的探井獲得高產(chǎn)工業(yè)氣流,顯示出該區(qū)域氣藏巨大的資源潛力,但隨著探井部署的增多,發(fā)現(xiàn)產(chǎn)能橫向差異較大,鉆井風險大,需要精細刻畫有利氣藏的分布。然而,該區(qū)域氣藏經(jīng)過多期礦物轉(zhuǎn)化,巖石礦物的組成和孔隙結(jié)構(gòu)相比淺層氣藏更加復雜,彈性參數(shù)不僅與含氣飽和度有關(guān),還受巖相、孔隙度和孔隙結(jié)構(gòu)的影響,巖石物理模型難以準確建立,導致常規(guī)基于巖石物理模型的含氣飽和度反演方法的精度較低,難以有效指導勘探井位的部署。因此,有必要嘗試基于數(shù)據(jù)驅(qū)動的方式獲取高精度含氣飽和度信息來減少勘探風險。
圖3 為研究區(qū)某重點井的含氣飽和度測井解釋曲線及從縱波速度、橫波速度和密度疊前地震反演數(shù)據(jù)體中提取的對應井旁道偽井曲線。可以看到含氣飽和度解釋曲線與縱波速度、橫波速度和密度偽井曲線間并沒有直觀的線性關(guān)系,利用簡單的數(shù)學公式難以將彈性參數(shù)進一步轉(zhuǎn)換為含氣飽和度。
圖3 中國西部某天然氣藏含氣飽和度測井解釋曲線及井旁道彈性參數(shù)反演曲線Fig.3 Log interpretation curve of gas saturation and inversion curves of elastic parameters from the uphole trace in a natural gas reservoir in western China
圖4 為不同角度的EEI曲線和利用圖3 中縱波速度、橫波速度和密度曲線計算得到的拉梅阻抗(拉梅參數(shù)×密度)λρ曲線。λρ通常被用作反映巖石剛度變化的巖性和流體識別指標[36]??梢杂^察到,不同角度的EEI曲線具有不同的變化形態(tài),突出的特征也不同,當角度為20°時,EEI(20°)與λρ曲線非常相似,相關(guān)系數(shù)達到0.97,表明EEI隨著角度的變化確實可以逼近一些常見的彈性參數(shù)。因此,本文提出的利用EEI隨角度變化的這種特性開展特征變量的擴展具有一定現(xiàn)實依據(jù)。
圖4 中國西部某天然氣藏3 個不同角度的EEI 曲線與拉梅阻抗曲線Fig.4 Well curves of EEI withthree different angles andLame impedance curve in a natural gas reservoir in western China
根據(jù)表1 的生成方式,得到222 個擴展變量進行VI 排序。如圖5 所示,并非每個變量對含氣飽和度預測都很重要,許多變量的重要性非常低,這表明存在信息冗余。最高、最低VI 變量分別為EEI(20°)-2和EEI(50°)2,將這2 個變量對應的特征變量曲線與測井解釋的含氣飽和度曲線進行對比(圖6)可知,最高VI 特征變量曲線大致上可以反映含氣飽和度曲線的變化,而最低VI 特征變量曲線與含氣飽和度曲線差異大,證明了VI 的可靠性。
圖5 中國西部某天然氣藏含氣飽和度隨機森林預測時222 個擴展特征變量的重要性得分情況Fig.5 Importance scores of 222 extended feature variables in random forests prediction of gas saturation in a natural gas reservoir in western China
圖6 中國西部某天然氣藏含氣飽和度隨機森林預測時最高(a)、最低(b)重要性特征變量曲線與含氣飽和度(c)形態(tài)對比Fig.6 Curve shape comparison of the highest(a)and lowest(b)importancefeature variable curves predicted by random forestsand logging interpretation curves gas saturation(c)in a natural gas reservoir in western China
綜上所述,與λρ相關(guān)性最高的特征變量曲線(參見圖4)、重要性最高的特征變量曲線(圖6)的整體形態(tài)均與密度曲線相似(整體方向上有所不同),這也說明了利用擴展特征屬性能夠代替常規(guī)需要人工一一提取或轉(zhuǎn)換計算的彈性參數(shù)。本文中提取的擴展策略能夠得到222 種擴展屬性供優(yōu)選作為含氣性敏感的特征變量,但并不能只用一個擴展特征變量就預測含氣飽和度,即使是重要性最高的特征變量曲線與含氣飽和度曲線在細節(jié)上仍有一定的差異,還需要其他特征變量來參與修正。
按照變量重要性從高到低的排序,依次加入到RF 訓練中,如圖7 所示,僅以重要性最高的特征變量進行單個訓練,預測的含氣飽和度曲線與真實含氣飽和度曲線的相關(guān)系數(shù)為0.47,隨著特征變量數(shù)量的增加,相關(guān)系數(shù)先上升,當數(shù)量達到約20 個時(如圖7 中紅點所示),相關(guān)系數(shù)趨于平緩,約為0.90。因此,可以認為在本例中只需前20 個特征變量即可滿足訓練要求。
圖7 中國西部某天然氣藏基于特征變量擴展的含氣飽和度隨機森林預測結(jié)果和含氣飽和度測井解釋的相關(guān)系數(shù)-特征變量數(shù)量曲線Fig.7 Variations in the corresponding correlation coefficient between the gas saturation predicted by random forestsand the the real gas saturation curve in relation to the number of variables in a natural gas reservoir in western China
將未平衡化的全部222 個變量、VI 前20 個變量和11 個常用彈性參數(shù)分別作為隨機森林回歸器訓練的特征變量,預測得到的含氣飽和度曲線如圖8 所示。全部222 個變量的預測曲線與VI 前20個特征變量的預測曲線幾乎重合,且與真實含氣飽和度曲線的吻合程度較高,明顯優(yōu)于利用11 個常用彈性參數(shù)參與訓練的預測結(jié)果,但在高含氣飽和度區(qū)間(如圖8 中黑色箭頭所示)有明顯的偏差。分析認為處于高含氣飽和度區(qū)間段的樣本占比較小,導致RF 回歸器的訓練偏向低含氣飽和度樣本。因此,需要對參與訓練的樣本進行平衡化處理。
圖8 中國西部某天然氣藏3 種不同的特征變量的含氣飽和度隨機森林預測結(jié)果與含氣飽和度測井解釋曲線對比Fig.8 Comparison among the gas saturation curvespredicted by random forestswith three different feature variables and the real gas saturationcurve in a natural gas reservoir in western China
利用BSMOTE 方法對預測的含氣飽和度曲線及其對應的特征變量進行平衡化處理后,原始樣本中低含氣飽和度的樣本數(shù)量未發(fā)生改變,而高含氣飽和度的樣本數(shù)量明顯增加,且取值更加豐富,高、低含氣飽和度樣本數(shù)量大致達到平衡(圖9)。
圖9 中國西部某天然氣藏含氣飽和度樣本平衡化前(a)、后(b)直方統(tǒng)計Fig.9 Histogram ofgas saturation before(a)and after sample balancing(b)in a natural gas reservoir in western China
對經(jīng)過BSMOTE 處理后的樣本進行訓練,采用VI 排名前20 的特征變量參與訓練,高含氣飽和度區(qū)間的預測結(jié)果有明顯的改善(圖10),相關(guān)系數(shù)由平衡前的0.903 2 上升到平衡后的0.985 5。這也說明了對于含氣飽和度這類不平衡數(shù)據(jù)的預測,樣本平衡問題是不可忽視的。
圖10 中國西部某天然氣藏樣本平衡化后含氣飽和度隨機森林預測結(jié)果與含氣飽和度測井解釋曲線對比Fig.10 Comparison between the gassaturation curves predicted by random forestsafter sample balancing and the real gas saturation curve in a natural gas reservoir in western China
研究區(qū)前期勘探經(jīng)驗和綜合分析表明,含氣飽和度與其他物性參數(shù)具有較好的線性關(guān)系,找到高含氣飽和度區(qū)域通常就意味著能找到有利氣藏。因而,生產(chǎn)上需要利用地震儲層預測方法優(yōu)選含氣飽和度較高的目標區(qū)域為鉆井的軌跡設(shè)計提供依據(jù)。
研究區(qū)含氣飽和度測井解釋結(jié)果(圖11 中黑色曲線)顯示目的層上部發(fā)育1 套含氣飽和度較低的差氣層(圖11 中藍色箭頭所示),下部發(fā)育1 套含氣飽和度較高的高產(chǎn)氣層(圖11 中紅色箭頭所示)。將區(qū)內(nèi)A 井和C 井作為訓練參與井,B 井作為驗證井,分別采用本文方法和常規(guī)方法(基于常規(guī)未平衡化的11 個彈性參數(shù)作為RF 的輸入)預測含氣飽和度并繪制連井剖面(圖11)。結(jié)果顯示,采用常規(guī)方法解釋該區(qū)發(fā)育上、下2 套含氣飽和度較高且值相近的儲層(圖11a 中虛線框所示),很容易被解釋為具備同一品質(zhì)的儲層,而本文方法解釋的這2 套儲層含氣飽和度差異較大,下部的儲層(圖11b 中虛線框所示)含氣飽和度明顯更高,這一結(jié)果與測井解釋結(jié)果一致。
圖11 常規(guī)方法(a)與基于特征變量擴展的隨機森林法(b)預測的含氣飽和度剖面Fig.11 Gas saturation profiles predicted by conventional method(a)and random forestswith feature variable extension(b)
為了進一步驗證本文方法的正確性,抽取驗證井B 井的井旁道反演結(jié)果(圖12)可知,本文方法預測結(jié)果整體上與含氣飽和度測井解釋曲線吻合較好,而常規(guī)方法在高含氣飽和度部位出現(xiàn)了較大的偏差,很可能會被錯誤地解釋為差氣層。
圖12 采用常規(guī)方法和基于特征變量擴展的隨機森林法預測的驗證井含氣飽和度對比Fig.12 Comparison of gas saturation of validation well predicted by conventional methods and random forestswith with feature variable extension
(1)對于含氣飽和度這類連續(xù)型數(shù)值回歸問題,基于數(shù)據(jù)驅(qū)動的機器學習方法為取得最佳性能,需要大量的特征變量作為訓練集,利用擴展彈性阻抗自動生成222 個擴展彈性屬性作為機器學習的訓練集,能夠大幅減少特征變量提取和優(yōu)選的人工工作量。
(2)大量信息重復的特征變量會帶來過多的冗余信息和計算消耗,利用隨機森林預訓練對特征變量進行重要性排名,優(yōu)選對含氣飽和度預測重要性較高的特征變量參與正式訓練,能夠有效減少信息的冗余。
(3)“不平衡數(shù)據(jù)”特征會惡化機器學習算法的性能,而復雜氣藏的含氣飽和度的取值分布往往也具有“不平衡”特征,引入邊界合成少數(shù)類過采樣技術(shù)能有效解決儲層和非儲層的含氣飽和度樣本取值分布不平衡導致的隨機森林回歸器訓練偏倚的問題。
(4)基于特征變量擴展的含氣飽和度隨機森林預測方法在實際資料應用中能有效增強隨機森林算法在含氣飽和度地震預測方面的能力,且特征變量擴展策略對于孔隙度、有機質(zhì)含量等其他氣藏物性參數(shù)的機器學習預測同樣有借鑒意義。