谷宇峰, 張道勇, 阮金鳳, 王 琴, 張晨朔, 張 臣
(1.自然資源部油氣資源戰(zhàn)略研究中心, 北京 100034; 2. 中國石油長慶油田采油五廠, 西安 710200)
在早期勘探階段,為更好地了解目的層儲層地質(zhì)特征,儲層巖性和物性等需進(jìn)行重點(diǎn)分析,其中滲透率便是重要的分析因素[1-3]。滲透率的研究對于判定儲層儲集能力和洞察壓力改造特性極為重要,因此滲透率預(yù)測一直為地質(zhì)勘探階段中一重要研究內(nèi)容[2-4]。物理模型為預(yù)測滲透率的常規(guī)手段,主要以地球物理測井理論為指導(dǎo)進(jìn)行建立。因有測井理論支撐,物理模型更被地球物理學(xué)家接受和使用,使其在早期測井解釋研究領(lǐng)域中得以迅速發(fā)展。代表模型有廣泛應(yīng)用于砂泥巖儲層的Index模型、Kozeny-Carman模型、Timur模型、Herron模型等[5-7]。這些模型在地球物理資料充足或儲層地質(zhì)情況簡單條件下應(yīng)用效果良好。然而,隨著油氣勘探難度加大,研究目的層的地質(zhì)情況愈發(fā)復(fù)雜,如儲層因受多期機(jī)械壓實(shí)、溶蝕和膠結(jié)等成巖作用的影響而含有極為復(fù)雜的孔喉系統(tǒng),或因發(fā)育裂縫,儲層的滲流性在各方向上變化極為不一。為更好地進(jìn)行滲透率預(yù)測,物理預(yù)測模型也隨之復(fù)雜化,導(dǎo)致其適用性和推廣性逐漸變差,所以如何在復(fù)雜地質(zhì)條件下對儲層進(jìn)行簡單且有效的滲透率預(yù)測成為當(dāng)前一測井解釋難點(diǎn)[1-4]。從物理模型的自變量和應(yīng)變量對應(yīng)關(guān)系角度考慮,滲透率預(yù)測實(shí)際上是一擬合問題,因此可用擬合模型進(jìn)行解決[2,8-9]。早期用于滲透率預(yù)測的擬合模型為逐步迭代,其應(yīng)用效果已在研究中證實(shí)[2,8-9]。雖然逐步迭代在預(yù)測中取得了一定認(rèn)可,但其應(yīng)用上的缺點(diǎn)也十分明顯:因在分析前無法確定自變量和應(yīng)變量之間準(zhǔn)確的對應(yīng)關(guān)系,如該關(guān)系可為線性或者復(fù)雜的多項(xiàng)式等,導(dǎo)致建模后得到的純線性擬合公式一般情況下擬合優(yōu)度不高,或含有高次項(xiàng)的擬合公式雖然擬合性很好但因?qū)υ胍魯?shù)據(jù)點(diǎn)敏感而無法推廣應(yīng)用。
為在擬合問題中避開選擇自變量與應(yīng)變量對應(yīng)關(guān)系的問題,屬于灰箱或黑箱的機(jī)器學(xué)習(xí)模型逐漸在滲透率預(yù)測中得到研究與應(yīng)用。目前常用的模型以FFNN (feed forward neural network) 和 SVR (support vector regression) 等為主。FFNN是典型的三層神經(jīng)網(wǎng)絡(luò)模型,能通過輸入層與輸出層之間的網(wǎng)絡(luò)映射有效解決自變量與應(yīng)變量之間線性或非線性的擬合問題。得益于BP (back propagation) 算法的使用,F(xiàn)FNN可快速完成數(shù)據(jù)訓(xùn)練,且隨著訓(xùn)練數(shù)據(jù)樣本量的增加,形成的網(wǎng)絡(luò)映射的魯棒性能越強(qiáng),展示出了良好的擬合能力[10-12]。鑒于FFNN的擬合計算特性,陳科貴等[10]、汪雷等[11]和董滿倉等[12]在滲透率預(yù)測問題上,對該模型進(jìn)行了嘗試,并根據(jù)預(yù)測數(shù)據(jù)的分析肯定了該模型的應(yīng)用性。SVR在計算原理上不同于FFNN,是采用支持向量進(jìn)行預(yù)測。所謂的支持向量是指學(xué)習(xí)樣本中能真正對預(yù)測對象的變化起到作用的樣本。因?yàn)橹С窒蛄康臄?shù)量一般小于學(xué)習(xí)樣本量,所以SVR一般情況下可用更少的樣本進(jìn)行建模和預(yù)測,這樣無論在預(yù)測速度上,還是在處理學(xué)習(xí)樣本的容錯率上,較FFNN都表現(xiàn)出更好的性能[13-15]。李其聰?shù)萚13]基于改進(jìn)的SVR對煤層滲透率進(jìn)行了預(yù)測研究,并根據(jù)實(shí)驗(yàn)結(jié)果證實(shí)了改進(jìn)模型是預(yù)測利器。李佳[14]在研究多孔介質(zhì)滲透率問題上使用了大量的機(jī)器學(xué)習(xí)模型,最后通過驗(yàn)證對比發(fā)現(xiàn)SVR是出色的預(yù)測模型之一。谷宇峰等[15]在研究長4+5段致密砂巖儲層滲透率預(yù)時采用SVR進(jìn)行驗(yàn)證,并以多重實(shí)驗(yàn)結(jié)果對比分析證實(shí)了SVR在一般情況下給出的預(yù)測信息是可靠的。雖然上述模型的預(yù)測能力在一些研究案例中得到了肯定,但其適用性和推廣性仍較差,主要體現(xiàn)在:① FFNN因使用BP學(xué)習(xí)方法,使其預(yù)測性能受制于網(wǎng)絡(luò)初始化,所以一般情況下模型在訓(xùn)練中容易收斂于局部最小,導(dǎo)致在預(yù)測時難以給出最佳結(jié)果;② FFNN和SVR均在訓(xùn)練過程中均使用了矩陣計算,因此計算耗時隨著訓(xùn)練樣本容量的擴(kuò)大會出現(xiàn)指數(shù)級增長的現(xiàn)象,這在處理現(xiàn)實(shí)問題 (real-world problems) 上表現(xiàn)出了計算性能不足這一缺點(diǎn);③ FFNN和SVR在訓(xùn)練中會追求較高的擬合優(yōu)度,這容易導(dǎo)致過擬合問題的產(chǎn)生,而如何控制過該問題發(fā)生或者從另一角度出發(fā)令模型在訓(xùn)練后有更強(qiáng)的魯棒性在現(xiàn)實(shí)案例中難以完美地做到。
為盡可能地避免模型在預(yù)測中發(fā)生上述問題,以XGBoost (extreme gradient boosting) 等為代表的決策樹模型被逐漸應(yīng)用到滲透率預(yù)測中[16]。該模型以目標(biāo)值與計算值之間的差值為擬合對象,并通過眾多決策樹的分類處理,令差值逐漸減小,以期達(dá)到最優(yōu)擬合效果[16]。因決策樹對擬合對象進(jìn)行分類處理,所以在建模過程中可對噪音樣本或者錯誤樣本進(jìn)行篩選,表現(xiàn)出良好的容錯性,而這種分類處理為一種線性計算,不涉及矩陣轉(zhuǎn)換或核函數(shù)轉(zhuǎn)換,所以在理論上較上述模型擁有更快的預(yù)測速度。然而,XGBoost在訓(xùn)練時也會產(chǎn)生過擬合問題,且在處理大容量學(xué)習(xí)樣本情況下構(gòu)建決策樹非常耗時,為此Guo等[17]通過針對性的研究后提出一種計算性能更強(qiáng)的LightGBM (light gradient boosting machine) 模型。該模型的預(yù)測性能已在Tang等[18]研究中進(jìn)行了驗(yàn)證,其實(shí)驗(yàn)結(jié)果都一致顯示出LightGBM較XGBoost和其他經(jīng)典機(jī)器學(xué)習(xí)模型在處理擬合問題上表現(xiàn)更為出色。雖然LightGBM擁有強(qiáng)大的擬合性能,但其表現(xiàn)受自變量的數(shù)量和質(zhì)量影響嚴(yán)重,同時由于使用了較多的超參數(shù),在建模后其預(yù)測狀態(tài)難以保證為最優(yōu)。為此,提出利用MIV (mean impact value) 算法[19-20]和CD (coordinate descent) 算法[21-22]對LightGBM進(jìn)行改進(jìn),進(jìn)而提出一種新的混合預(yù)測模型MIV-CD-LightGBM。
提出模型在滲透率預(yù)測上較常規(guī)物理模型而言,其最大優(yōu)勢在于計算不受儲層孔隙系統(tǒng)的物理?xiàng)l件限制,可基于純數(shù)據(jù)驅(qū)動進(jìn)行建模和預(yù)測,因此具備良好的適用性和推廣性。由于建模和預(yù)測效果完全取決于數(shù)據(jù)質(zhì)量和模型本身構(gòu)造,因此嵌入的MIV算法和CD算法在保證LightGBM的計算有效性方面奠定了基礎(chǔ),進(jìn)而理論上提出模型應(yīng)有良好的預(yù)測能力。
通過分析Index、Kozeny-Carman、Timur和Herron等模型得知,滲透率在測井解釋理論上可由含有孔隙度、束縛水飽和度、巖石各礦物含量等儲層參數(shù)的非線性公式求得[5-7],而這些參數(shù)又可由帶有測井曲線的理論公式或經(jīng)驗(yàn)公式確定[1-4]。由此可見,滲透率能由帶有測井曲線的非線性公式計算。上述推論過程可描述為
K=f[g1(AC),g2(RT,SGR),
K=f′1(AC,RT,SGR,CGR,…)
(1)
式(1)中:K為滲透率,mD;φ為孔隙度,%;Swirr為束縛水飽和度,%;Bvol為巖石礦物含量,%;AC為聲波曲線,μs/m;RT為原狀地層電阻率曲線,Ω·m;SGR為總自然伽馬曲線,API;CGR為去鈾自然伽馬曲線,API;f、g1、g2、g3、f′1為不同類型的函數(shù)。
基于測井曲線數(shù)據(jù),擬合模型可用于預(yù)測滲透率。由于預(yù)測時除測井?dāng)?shù)據(jù)外,無其他信息摻入,因此滲透率預(yù)測又可進(jìn)一步定為純數(shù)據(jù)驅(qū)動下的擬合問題[2,16]。此時,對于學(xué)習(xí)樣本集或建模數(shù)據(jù)集,其表達(dá)式可設(shè)為{Xmn,Ym},其中,Xmn為測井?dāng)?shù)據(jù)矩陣,由m個樣本和n條測井曲線構(gòu)成;Ym為巖性滲透率數(shù)據(jù)向量,由巖心實(shí)驗(yàn)確定。為消除各測井曲線數(shù)據(jù)因其數(shù)量級不同在建模時產(chǎn)生數(shù)據(jù)淹沒現(xiàn)象[2,16],測井?dāng)?shù)據(jù)要進(jìn)行歸一化。歸一化有多種處理方式,本文中采用[0,1]歸化方式,即令每條測井曲線變化范圍壓縮在0~1。計算公式[2,16]為
(2)
式(2)中:xoj為原始第j條測井曲線;xoj_max為原始第j條測井曲線最大值;xoj_min為原始第j條測井曲線最小值;xj為均一化后第j條測井曲線。
假設(shè)Xmn為均一化后的測井?dāng)?shù)據(jù)矩陣。對于LightGBM,其預(yù)測一般由訓(xùn)練后得到的強(qiáng)學(xué)習(xí)器來完成。強(qiáng)學(xué)習(xí)器[17-18]可表示為
(3)
式(3)中:F(xi)為作用在樣本xi上的強(qiáng)學(xué)習(xí)器;FL為損失函數(shù);yi為第i個巖心滲透率值;v為常數(shù),能使損失函數(shù)最小化;ηL為學(xué)習(xí)速率;wrt為在t次迭代中決策樹第r個葉節(jié)點(diǎn)中所有樣本最佳替代值;TB為迭代次數(shù);Rt為第t迭代中決策樹葉節(jié)點(diǎn)個數(shù)。
式(3)中wrt由經(jīng)驗(yàn)公式[式(4)][17-18]確定:
(4)
雖然LightGBM主要計算原理與以XGBoost為代表的其他決策樹模型的相似,但因Guo等[17]在研究中提出GOSS (gradient-based one-side sampling) 和EFB (exclusive feature bundling) 等算法使得LightGBM在預(yù)測上效率更高。決策樹只會對損失函數(shù)值較大的樣本做出顯著處理,因此損失函數(shù)值較小的樣本可在構(gòu)建下一個決策樹之前剔除掉,而如何確定這些函數(shù)值較小的樣本可通過設(shè)定一閾值來實(shí)現(xiàn),這便是GOSS算法原理。當(dāng)樣本中的變量個數(shù)較多,可通過變量之間互斥特征進(jìn)行綁定,以此來縮減在實(shí)際處理中變量的個數(shù),達(dá)到快速建模,這便是EFB算法原理。由于測井曲線個數(shù)一般情況下較少,因此該算法在下述驗(yàn)證中不涉及。XGBoost等類似模型之所以在構(gòu)建決策樹上耗時較多,是因?yàn)椴捎昧藀re-sorted算法尋找最佳分裂點(diǎn)。Guo等[17]通過深入研究該算法后提出了Histogram算法。該算法摒棄傳統(tǒng)逐點(diǎn)試算最佳分裂點(diǎn)的思想,采用類似于柱狀圖統(tǒng)計的桶歸類思想進(jìn)行分析。由于進(jìn)行桶歸類后試算點(diǎn)大大減少,因此葉節(jié)點(diǎn)的生長速度非??欤瑸長ightGBM快速建模奠定了基礎(chǔ)。雖然決策樹構(gòu)建速度得到了提高,但葉節(jié)點(diǎn)生長過快容易產(chǎn)生過擬合現(xiàn)象,因此,“l(fā)eaf-wise”這一新的生長模式被提出[17]。該模式通過限制葉節(jié)點(diǎn)個數(shù)使決策樹不易過“茂盛”,進(jìn)而為LightGBM的魯棒性做了保障。
LightGBM在各計算平臺上屬于集成程序[17-18],因此上述算法除EFB外,都會在下面驗(yàn)證中予以默認(rèn)執(zhí)行,不再贅述。
LightGBM的計算性能受自變量的數(shù)量和性質(zhì)影響較大,且較多超參數(shù)的使用使其預(yù)測狀態(tài)難以保證為最優(yōu)。鑒于測井曲線一般情況下較少,自變量數(shù)量問題不用考慮。由于在擬合中,測井?dāng)?shù)據(jù)矩陣最好只由能引起滲透率變化的測井曲線組成,因此每條曲線對于擬合的重要性要先進(jìn)行判定,即先要對每條曲線在擬合中的貢獻(xiàn)程度進(jìn)行量化分析,而這恰好符合MIV算法流程特點(diǎn),因此采用該算法判定每條測井曲線的重要性。
MIV算法一般通過變化某一自變量值來考察其對目標(biāo)值變化的影響程度[19-20]。對于第j條曲線,MIV算法首先通過漲幅因子來變化曲線值,進(jìn)而組成一新測井?dāng)?shù)據(jù)矩陣,可表示為
(5)
之后,將新矩陣帶入預(yù)測模型中得到新的預(yù)測結(jié)果,再將結(jié)果與原預(yù)測結(jié)果進(jìn)行對比得到差值。由于這種差值一般為向量,所以MIV算法常采用2-范數(shù)進(jìn)行處理以得到一種綜合差值,而這種綜合差值也稱為該變量的MIV[19-20]。該過程可描述為
(6)
式(6)中:Ej為對應(yīng)于第j條測井曲線的MIV;ABS為絕對值函數(shù);FLGB為LightGBM模型。
將相同的漲幅因子分別帶入n條曲線后會得到n個MIV,之后算法通過設(shè)定一閾值對各MIV進(jìn)行判定。MIV高于閾值則認(rèn)為對應(yīng)的曲線在預(yù)測中具有重要性。閾值判定公式[19-20]可表示為
(7)
式(7)中:S為重要的曲線集合;α為設(shè)定的閾值。
由于單個漲幅因子帶來的判定效果往往不可靠,因此在實(shí)際應(yīng)用中算法常用多個漲幅因子來進(jìn)行分析。當(dāng)有p個漲幅因子時,某一曲線最終的MIV以各漲幅因子情況下得到的MIV的均值來確定。例如,當(dāng)p為3時,某曲線將會得到3個MIV,則最終MIV以這3個MIV的均值來確定。
對于LightGBM超參數(shù)優(yōu)化問題,采用一容易實(shí)現(xiàn)的CD算法來解決。該算法的優(yōu)化思想[21-22]是:① 首先固定住其他超參數(shù),令剩余一超參數(shù)在規(guī)定的變化范圍內(nèi)以規(guī)定的變化步長逐漸變大;② 對于該超參數(shù)的每一次變化,都要進(jìn)行一次預(yù)測,并對預(yù)測結(jié)果與標(biāo)準(zhǔn)結(jié)果進(jìn)行對比來判定該結(jié)果的可靠程度;③ 如果該結(jié)果的可靠程度低于該超參數(shù)在下一次變化中得到的結(jié)果的可靠程度,則最優(yōu)結(jié)果記錄為下一次變化得到的預(yù)測結(jié)果,否則以這次得到的預(yù)測結(jié)果為準(zhǔn);④ 當(dāng)該參數(shù)對應(yīng)的最優(yōu)結(jié)果確定后,令其和其他參數(shù)固定,讓剩余的另一超參數(shù)繼續(xù)在規(guī)定范圍內(nèi)以規(guī)定的步長變化,不斷更新最優(yōu)結(jié)果;⑤ 當(dāng)所有超參數(shù)更新完畢后,即完成一次算法迭代,而當(dāng)?shù)戤厱r,最優(yōu)結(jié)果對應(yīng)的超參數(shù)組合即為最優(yōu)超參數(shù)組合。
當(dāng)CD算法確定出最優(yōu)超參數(shù)組合后,LightGBM的最優(yōu)預(yù)測狀態(tài)將得到保障。
根據(jù)上述計算原理,針對混合模型MIV-CD-LightGBM在滲透率預(yù)測上提出一計算流程,如圖1所示。計算流程大致分為以下幾個步驟:① 原始數(shù)據(jù)首先進(jìn)行均一化,主要是對測井?dāng)?shù)據(jù),之后將其分為建模和預(yù)測兩類數(shù)據(jù)集;② 第二步進(jìn)行MIV處理,包括設(shè)置漲幅比例處理每條測井曲線,并將每種漲幅情況下的建模數(shù)據(jù)集帶入LightGBM中進(jìn)行預(yù)測得到預(yù)測結(jié)果,最后根據(jù)計算的平均MIV篩選曲線;③ 根據(jù)篩選的曲線組成新的建模和預(yù)測數(shù)據(jù)集,并進(jìn)入CD算法優(yōu)化過程;④ 在此過程中,首先確定LightGBM超參數(shù),并相應(yīng)地設(shè)置每種超參數(shù)的變化范圍和變化步長,以及CD算法迭代次數(shù),之后計算每種超參數(shù)在每種情況下的預(yù)測結(jié)果,并判定是否為最優(yōu)預(yù)測結(jié)果;⑤ 當(dāng)?shù)螖?shù)達(dá)到最大時,優(yōu)化完畢,最優(yōu)結(jié)果對應(yīng)的超參數(shù)組合即為最優(yōu)超參數(shù)組合;⑥ 建立的MIV-CD-LightGBM即為最終預(yù)測模型,可用于處理實(shí)際資料。
圖1 MIV-CD-LightGBM滲透率預(yù)測計算流程Fig.1 Computational flow of MIV-CD-LightGBM used for permeability prediction
以鄂爾多斯盆地姬塬油田西部長8段致密砂巖儲層為例對提出模型的滲透率預(yù)測能力進(jìn)行驗(yàn)證。姬塬油田位于鄂爾多斯盆地天環(huán)坳陷和陜北斜坡兩個一級構(gòu)造單元之間(圖2)。大量早期勘探資料表明油田油氣資源富集,且多位于延長組致密砂巖儲層段中,如長4+5、長6和長8等[23-25]。雖然早前研究已經(jīng)揭示了油田致密砂巖儲層的一些特征[23-25],但限于部分資料匱乏 (如缺少充足的自然伽馬能譜測井資料) 和解釋方法的適用性差 (如解釋儲層物性參數(shù)的物理模型不完善),這些認(rèn)識并不完全可靠。為進(jìn)一步準(zhǔn)確圈定出更多的油氣富集有利區(qū),儲層特征需在獲取更可靠的解釋資料條件之上進(jìn)行了解,因此儲層參數(shù)迫切需要一些的新方法或新模型來重新解釋。滲透率是儲層重要的表征參數(shù)之一,對于了解儲層孔喉系統(tǒng)特征和開展壓裂改造等都極為重要。早期用于解釋滲透率的模型以物理模型為主,如Index模型、Kozeny-Carman模型、Timur模型和Herron模型等。Index模型主要用孔隙度資料通過指數(shù)方程確定滲透率。對于砂泥巖地層,該模型應(yīng)用性良好,但對于致密砂巖儲層,由于儲層受多期成巖作用和裂縫發(fā)育等因素影響,形成的孔喉系統(tǒng)復(fù)雜,導(dǎo)致孔隙度和滲透率之間難以存在良好的正比關(guān)系,所以模型的應(yīng)用效果常常很差[5-7]。雖然可以利用分層數(shù)據(jù)或者FZI(flow zone indicator) 指數(shù)來改善Index的應(yīng)用效果,這種改善卻使得模型的推廣性變差。對于其他模型,由于需要的支撐資料 (如束縛水飽和度、巖石礦物含量和巖石單位體積表面積等) 難以獲取或難以準(zhǔn)確獲取,解釋結(jié)果往往可靠性較低,最終展示出的應(yīng)用效果并不理想[5-7]。滲透率預(yù)測的本質(zhì)是擬合問題,而機(jī)器學(xué)習(xí)模型恰好是解釋擬合問題的利器,所以選用出色的機(jī)器學(xué)習(xí)模型來解釋滲透率是新的思路與研究方向。基于前言所述,現(xiàn)采用混合模型MIV-CD-LightGBM預(yù)測儲層滲透率。
綠色點(diǎn)為提供建模數(shù)據(jù);紅色點(diǎn)為提供預(yù)測數(shù)據(jù);P1、P2、P3和P4為驗(yàn)證數(shù)據(jù)井圖2 姬塬油田西部位置及其建模、驗(yàn)證數(shù)據(jù)井分布Fig.2 Location of western Jiyuan Oilfield and distribution of modeling and validating wells
模型的驗(yàn)證對象如圖2(a)所示。為方便示例,以中南部井區(qū)為樣本。區(qū)內(nèi)共有34口取心井,其中30口井定為建模數(shù)據(jù)井,其他4口井定為驗(yàn)證數(shù)據(jù)井。建模數(shù)據(jù)井共提供2 670個樣本,而驗(yàn)證數(shù)據(jù)井提供的則有100個。建模樣本和預(yù)測樣本都由9種測井曲線和1個巖心滲透率值構(gòu)成。曲線包括AC、補(bǔ)償中子測井(compensated neutron log,CNL)、地層密度測井(density log,DEN)、SGR、CGR、沖洗帶電阻率測井(resistivity of flushed zone,RXO)、過渡帶電阻率測井(resistivity of invaded zone,RI)、RT和 光電吸收截面指數(shù)(photoelectric absorption cross-section index,PE)。測井曲線分辨率為8點(diǎn)/m或者測量間隔為0.125 m。共設(shè)計三個實(shí)驗(yàn)對提出模型進(jìn)行驗(yàn)證。實(shí)驗(yàn)1驗(yàn)證MIV算法的嵌入對于LightGBM預(yù)測性能的影響。實(shí)驗(yàn)2驗(yàn)證CD算法的嵌入對于MIV-LightGBM預(yù)測性能的影響。由于CD算法主要服務(wù)于LightGBM,所以實(shí)驗(yàn)2實(shí)際上是驗(yàn)證CD算法對于LightGBM超參數(shù)的優(yōu)化性能。為更好地突出提出模型的預(yù)測能力,在實(shí)驗(yàn)3中加入FFNN和SVR兩個經(jīng)典機(jī)器學(xué)習(xí)模型進(jìn)行對比。由于所用模型需要用相同的建模和驗(yàn)證數(shù)據(jù)集,且對比模型在建模時也用到了超參數(shù),所以為公平地驗(yàn)證,F(xiàn)FNN和SVR也設(shè)定嵌入MIV算法和CD算法優(yōu)化,即實(shí)際的對比模型為MIV-CD-FFNN和MIV-CD-SVR。為保證建模和預(yù)測樣本質(zhì)量,所有測井樣點(diǎn)深度已經(jīng)與巖心滲透率值的深度進(jìn)行校正。所有驗(yàn)證模型的實(shí)現(xiàn)平臺為Spyder 3 (Python 3.7.6)。
在滲透率預(yù)測中,常用均方誤差(mean squared error,MSE) 指標(biāo)來評價預(yù)測結(jié)果,但該指標(biāo)值通常較小,難以進(jìn)行顯著的區(qū)分,為此均方根誤差(root mean squared error,RMSE) 用作評價指標(biāo)[15-16],進(jìn)而式(6)中的2-范數(shù)在實(shí)驗(yàn)中以該指標(biāo)替代。由于滲透率是呈數(shù)量級變化的,所以對于單一樣本,其預(yù)測結(jié)果誤差應(yīng)采用數(shù)量級差絕對值進(jìn)行評價。例如,如果巖心滲透率值為1 mD,而預(yù)測結(jié)果有兩個,分別為2 mD和0.1 mD,此時如果按照絕對誤差評價,則0.1 mD被認(rèn)為更準(zhǔn)確,但實(shí)際上2 mD更可靠。對于該情況,如果以數(shù)量級差絕對值進(jìn)行評價,則兩個預(yù)測結(jié)果對應(yīng)的誤差分別為0.3和1,此時2 mD認(rèn)為更準(zhǔn)確,符合實(shí)際。至此,三個實(shí)驗(yàn)中,對于單一預(yù)測結(jié)果,其誤差用數(shù)量級差絕對值衡量,而對于整體預(yù)測結(jié)果,用RMSE衡量。
MIV算法需在設(shè)定多種漲幅因子情況下對測井曲線在擬合中的重要性進(jìn)行綜合判定,為此,設(shè)定漲幅因子共有三個,分別為1.1、1.3和1.5。
按照圖1所示的計算流程,數(shù)據(jù)首先進(jìn)行均一化。均一化公式以式(2)為準(zhǔn)。之后,每條測井曲線先以漲幅因子γ=1.1進(jìn)行試算。試算前要先對LightGBM模型進(jìn)行初始化。根據(jù)已有研究,表1展示出一套經(jīng)驗(yàn)參數(shù)設(shè)置[17-18]。模型初始化后,便可對漲幅后的測井?dāng)?shù)據(jù)矩陣進(jìn)行建模和預(yù)測。圖3(a)展示了在γ=1.1情況下每種測井曲線對應(yīng)的MIV。圖3(a)中明確顯示DEN、SGR和RT對于滲透率變化的影響較其他測井曲線的程度更大,但這并不完全可靠,需結(jié)合其他漲幅因子試算情況來綜合確定。對于γ=1.3和γ=1.5,每條測井曲線對應(yīng)的MIV也展示在圖3(a)中。橙色和綠色線顯示除了DEN、SGR和RT外,AC、CNL、CGR和RI也顯示出較大的影響程度,所以進(jìn)行多種漲幅因子試算對于MIV檢測是十分必要的。對于所有測井曲線,三種試算結(jié)果得到的平均MIV如圖3(b)所示。所有曲線的平均MIV不盡相同,需通過設(shè)定多種閾值進(jìn)行討論。圖3(b)中顯示了三條紅線,表示4種閾值判定情況,分別為α=0.1、0.2、0.3、0.4。當(dāng)α=0.1時,測井曲線全部判定為重要,而當(dāng)α=0.2和α=0.3時,重要的測井?dāng)?shù)據(jù)集分別由{AC、CNL、DEN、SGR、CGR、RI、RT}和{CNL、DEN、SGR、RI}構(gòu)成。當(dāng)α=0.4時,只有DEN和SGR判定為重要,而建模數(shù)據(jù)集只由兩種測井曲線構(gòu)成勢必不能在建模中提供充足的分析數(shù)據(jù),所以該情況不考慮。前3種閾值的判定情況為預(yù)測帶來的增效不能從選定的測井曲線數(shù)量上直接看出,需做進(jìn)一步驗(yàn)證分析。圖3(c)為3種閾值判定情況下,LightGBM模型得到的預(yù)測結(jié)果及誤差。限于資料保密協(xié)議,深度信息不能展示,但為了更好地進(jìn)行說明,在圖題中給出了大致深度范圍。圖3中后三列展示的數(shù)量級差范圍在0~1。誤差如果落在該范圍內(nèi),則預(yù)測結(jié)果和實(shí)際值 (巖心滲透率) 處于同一數(shù)量級中,而只有這種情況下的預(yù)測結(jié)果在滲透率解釋研究領(lǐng)域中才被認(rèn)為是可靠的[2-4]。因此,預(yù)測誤差一列中數(shù)據(jù)點(diǎn)量越多,且越靠近0線,則表明預(yù)測結(jié)果越準(zhǔn)確。不難發(fā)現(xiàn),α=0.1和α=0.2情況下,預(yù)測誤差列中數(shù)據(jù)點(diǎn)更多,但對比該兩列時,由于數(shù)據(jù)點(diǎn)量接近,且數(shù)據(jù)點(diǎn)靠近0線的程度也接近,所以需從計算結(jié)果入手進(jìn)行分辨。表2給出了該實(shí)驗(yàn)的RMSE計算結(jié)果。數(shù)據(jù)表明,α=0.2時LightGBM的預(yù)測結(jié)果最為可靠,因此由MIV算法確定出的重要測井曲線有7條,分比為AC、CNL、DEN、SGR、CGR、RI和RT。
表1 各驗(yàn)證模型、CD優(yōu)化算法初始參數(shù)設(shè)置和各驗(yàn)證模型超參數(shù)優(yōu)化結(jié)果Table 1 Initial parameter settings of all validated models and CD optimizing algorithm, and optimal results of hyper-parameters of all validated models
圖3 MIV算法在LightGBM預(yù)測中性能分析Fig.3 Analysis of integration of MIV algorithm in the prediction of LightGBM
由于MIV算法的引入改變了原測井?dāng)?shù)據(jù)矩陣的構(gòu)成,所以在下述實(shí)驗(yàn)中,關(guān)于LightGBM預(yù)測的模型都是以MIV-LightGBM方式表達(dá)。
對CD算法的優(yōu)化作用進(jìn)行分析。執(zhí)行CD算法前,需確定LightGBM的超參數(shù),模型的超參數(shù)類型如表1所示。確定后,根據(jù)優(yōu)化算法需求,各超參數(shù)的變化范圍和變化步長如表1所示。本實(shí)驗(yàn)設(shè)定的CD算法迭代次數(shù)為50。設(shè)置之后,CD算法便可執(zhí)行優(yōu)化計算。優(yōu)化過程中,MIV-LightGBM模型的RMSE的變化過程如圖4(a)所示。從圖4(a)中可見,隨著迭代次數(shù)的增加,RMSE呈現(xiàn)出明顯的下降趨勢,從0.611 2減少為最終的0.289 3。RMSE的減小很好地說明了CD算法能有效優(yōu)化預(yù)測模型的超參數(shù),且RMSE在迭代20次后便不再變化,又說明該算法優(yōu)化效率高,可在少量迭代次數(shù)中完成最優(yōu)值的尋找。LightGBM超參數(shù)的優(yōu)化結(jié)果如表2所示。圖4(b)顯示了MIV-LightGBM在優(yōu)化前和優(yōu)化后的預(yù)測結(jié)果情況。根據(jù)兩預(yù)測誤差列的對比可看出,模型在嵌入CD算法后其預(yù)測結(jié)果誤差大幅下降 (更多數(shù)據(jù)點(diǎn)落在列中且更靠近0線),表明該算法的嵌入對于提高模型的預(yù)測性能作用極大。表2中RMSE數(shù)據(jù)之間的差距也很好地印證了這一點(diǎn)。
圖4 CD算法在MIV-LightGBM預(yù)測中性能分析Fig.4 Analysis of integration of CD algorithm in the prediction of MIV-LightGBM
表2 實(shí)驗(yàn)中各驗(yàn)證模型評價信息Table 2 Evaluating information of all validated models produced in three experiments
將MIV-CD-FFNN、MIV-CD-SVR和MIV-CD-LightGBM進(jìn)行預(yù)測對比。按照計算流程,建模之前需對FFNN、SVR和LightGBM進(jìn)行初始化。根據(jù)已有研究[10-11,13-14],表2列出了三個驗(yàn)證模型的初始參數(shù)設(shè)置,同時也標(biāo)出了 各模型的超參數(shù)類型。相應(yīng)地,超參數(shù)在CD算法中的設(shè)置情況如表2所示。確定設(shè)置后,經(jīng)CD算法優(yōu)化,各超參數(shù)的優(yōu)化結(jié)果如表2所示。各超參數(shù)的優(yōu)化結(jié)果與初始設(shè)置有很大不同,這說明CD算法的嵌入不僅對LightGBM具有意義,對于其他機(jī)器學(xué)習(xí)模型亦如此。各模型的預(yù)測結(jié)果如圖5所示。圖5中預(yù)測誤差三列展示的數(shù)據(jù)點(diǎn)數(shù)量整體上看相近,且數(shù)據(jù)點(diǎn)靠近0線的程度也相近,但如果仔細(xì)觀察還是可發(fā)現(xiàn)區(qū)別之處。在圖5中標(biāo)出4處示例來進(jìn)行說明。對于第1處 (No.1),雖然三列都顯示出凸起,但凸起左邊的數(shù)據(jù)點(diǎn)在MIV-CD-SVR和MIV-CD-LightGBM的列中更靠近0線。對于第2處 (No.2),關(guān)于MIV-CD-SVR和MIV-CD-LightGBM的數(shù)據(jù)點(diǎn)全部落在數(shù)據(jù)列中,但后者的數(shù)據(jù)點(diǎn)整體上更接近0線。對于第3處 (No.3),雖然圈定的數(shù)據(jù)點(diǎn)全部落在三列中,但MIV-CD-SVR和MIV-CD-LightGBM的更靠近0線。對于第4處 (No.4),只有MIV-CD-LightGBM的數(shù)據(jù)點(diǎn)全部落在列中。綜合下來,MIV-CD-LightGBM的預(yù)測誤差相對更小,說明模型的預(yù)測結(jié)果準(zhǔn)確度更高,這一點(diǎn)在表2中的各模型預(yù)測結(jié)果RMSE的對比也能得到證實(shí)。
圖5 3種驗(yàn)證模型滲透率預(yù)測結(jié)果及其誤差 (22xx.m~23xx.m)Fig.5 Predicted results and errors of three validated models
表2中除了記錄各實(shí)驗(yàn)預(yù)測結(jié)果的RMSE外,還記錄了耗時。對于實(shí)驗(yàn)1和實(shí)驗(yàn)2,由于只是在縱向上驗(yàn)證如何提高LightGBM預(yù)測性能,因此計算時間對比無意義。對于實(shí)驗(yàn)3,通過對比各模型的計算時間可發(fā)現(xiàn)提出模型的耗時最少,同時給出的預(yù)測誤差最小,有力地說明了提出模型在預(yù)測致密砂巖儲層滲透率上是高效的。造成這種情況的主要原因主要是LightGBM自身的計算機(jī)制較FFNN和SVR的優(yōu)異,這也從側(cè)面表明基于LightGBM改造的模型在發(fā)展智能地球物理的方向上更具推廣應(yīng)用價值。
通過對滲透率預(yù)測本質(zhì)的分析、機(jī)器學(xué)習(xí)模型在滲透率預(yù)測上可行性的分析、LightGBM在嵌入MIV算法和CD算法后性能提升的分析以及3種驗(yàn)證模型在實(shí)驗(yàn)中表現(xiàn)的分析與討論后,現(xiàn)有如下幾點(diǎn)總結(jié)。
(1)用于滲透率預(yù)測的經(jīng)典物理模型雖然有測井理論支撐,但需要的計算參數(shù)有時難以獲取或難以準(zhǔn)確獲取,因此在缺少必要資料的情況下,其適用性非常受限。
(2)通過對經(jīng)典物理模型自變量與應(yīng)變量之間關(guān)系的研究發(fā)現(xiàn)滲透率實(shí)際上與多種測井曲線存在非線性關(guān)系,因此滲透率預(yù)測可歸為基于測井?dāng)?shù)據(jù)的擬合問題,而這種問題恰好可用機(jī)器學(xué)習(xí)模型進(jìn)行解決。
(3)滲透率預(yù)測在以擬合方式解決條件下,所用的測井曲線的重要性需要先進(jìn)行判斷,而這個問題可用MIV算法有效解決。
(4)LightGBM是出色的機(jī)器學(xué)習(xí)擬合模型,可用于預(yù)測滲透率,而模型的超參數(shù)優(yōu)化問題,可用CD算法高效解決。
(5)實(shí)驗(yàn)證明,在嵌入MIV算法和CD算法后,LightGBM在預(yù)測致密砂巖儲層滲透率上其性能有很大提升,因此混合模型MIV-CD-LightGBM更適用于解決滲透率預(yù)測實(shí)際問題。
(6)實(shí)驗(yàn)證明,相比于MIV-CD-FFNN和MIV-CD-SVR,MIV-CD-LightGBM在致密砂巖儲層滲透率預(yù)測上表現(xiàn)更為高效,說明該模型具備更高的實(shí)用性,而造成這種情況發(fā)生的主要原因在于LightGBM的計算機(jī)制較FFNN和SVR的優(yōu)異,這也從側(cè)面說明基于LightGBM的模型在智能地球物理研究領(lǐng)域中更具推廣應(yīng)用價值。