谷宇峰,張道勇,鮑志東
[1.自然資源部 油氣資源戰(zhàn)略研究中心,北京100034; 2.中國石油大學(xué)(北京) 地球科學(xué)學(xué)院,北京102249]
準(zhǔn)確獲取儲(chǔ)層巖性數(shù)據(jù)對(duì)于開展地層對(duì)比、沉積展布分析和地質(zhì)建模等地質(zhì)基礎(chǔ)工作至關(guān)重要,因此巖性識(shí)別一直被視為是一項(xiàng)關(guān)鍵研究內(nèi)容[1-6]。經(jīng)典的巖性識(shí)別工具為交會(huì)圖。交會(huì)圖一般是由2種或3種測井曲線構(gòu)成的,而選取的曲線需要對(duì)各種所需識(shí)別的巖性都能有獨(dú)特的響應(yīng)范圍[4-6]。故而,當(dāng)測井?dāng)?shù)據(jù)點(diǎn)散落在交會(huì)圖中,各個(gè)巖性對(duì)應(yīng)的測井響應(yīng)劃分條件便可通過觀察來明確。對(duì)于砂質(zhì)較純或者巖性成分簡單的儲(chǔ)層,該工具能夠有效地解決其巖性識(shí)別問題,但隨著油氣勘探范圍的擴(kuò)大,非常規(guī)油氣逐漸成為了油氣研究方向上的核心對(duì)象,使得更多關(guān)于非常規(guī)儲(chǔ)層的巖性識(shí)別問題被提出。由于非常規(guī)儲(chǔ)層巖性成分復(fù)雜,且多數(shù)巖性在測井曲線上具有相似的響應(yīng)特征,導(dǎo)致以交會(huì)圖為代表的經(jīng)典識(shí)別工具難以適用,為此眾多地球物理學(xué)家發(fā)展了以機(jī)器學(xué)習(xí)技術(shù)為主的巖性識(shí)別方法[7-15]。
機(jī)器學(xué)習(xí)是人工智能的一個(gè)重要分支,其主要計(jì)算原理是在對(duì)學(xué)習(xí)數(shù)據(jù)分析的基礎(chǔ)之上,建立自變量與因變量的線性或非線性網(wǎng)絡(luò)映射關(guān)系,之后根據(jù)該關(guān)系完成對(duì)預(yù)測數(shù)據(jù)的處理。在模式識(shí)別領(lǐng)域,目前得到廣泛應(yīng)用的模型有KNN(K-nearest neighbors),PNN(probabilistic neural network)和SVM(support vector machine)等[7-15]。KNN模型是聚類分析中的代表,主要是依據(jù)預(yù)測數(shù)據(jù)點(diǎn)與學(xué)習(xí)數(shù)據(jù)點(diǎn)之間距離的遠(yuǎn)近進(jìn)行模式判斷。由于不需要對(duì)學(xué)習(xí)數(shù)據(jù)進(jìn)行訓(xùn)練,所以KNN模型計(jì)算效率較高,而且因?yàn)轭A(yù)測數(shù)據(jù)點(diǎn)只會(huì)被聚類到距離最近的學(xué)習(xí)數(shù)據(jù)點(diǎn)的模式中,所以即使學(xué)習(xí)樣本中含有少量錯(cuò)誤樣點(diǎn),該模型仍能夠進(jìn)行有效的判斷,體現(xiàn)出其容錯(cuò)能力。趙彤彤等(2018)使用了一種基于模糊熵的KNN模型進(jìn)行了巖性識(shí)別研究,并取得了較好的識(shí)別效果[7]。張梓童等(2019)分析了KNN模型的計(jì)算原理,并通過驗(yàn)證明確了該模型在巖性識(shí)別上是一種有效手段[8]。PNN模型是一種基于概率密度分析模式的識(shí)別模型,其主要思想是先利用學(xué)習(xí)樣本建立各個(gè)模式的概率密度分布,之后根據(jù)預(yù)測樣本在分布中的概率值判斷歸屬。由于該模型采用了概率分析,較KNN模型在學(xué)習(xí)樣本處理上有更高的容錯(cuò)性,而且概率密度分布的建立無需訓(xùn)練,所以理論上其預(yù)測效率也較高。趙杰和李春華(2009)在巖性識(shí)別中嘗試了PNN模型,并取得了不錯(cuò)的識(shí)別效果[10]。陳剛(2018)以隨鉆測井資料為基礎(chǔ),利用PNN模型對(duì)煤層巖性進(jìn)行了識(shí)別,驗(yàn)證了模型的有效性[11]。SVM模型是監(jiān)督學(xué)習(xí)中的代表,其主要計(jì)算思想是先通過訓(xùn)練找到影響模式判斷的最重要的學(xué)習(xí)樣本(稱為支持向量),之后依據(jù)這些樣本完成數(shù)據(jù)預(yù)測。由此可見,該模型的預(yù)測效率和預(yù)測效果完全取決于支持向量的數(shù)量和質(zhì)量,而不是通過全部樣本學(xué)習(xí)的,這就大大提升了模型的容錯(cuò)能力和計(jì)算效率。李政宏等(2020)分析了機(jī)器學(xué)習(xí)技術(shù)在巖性識(shí)別中的重要性,并證明了SVM模型是一種有效識(shí)別模型[13]。根據(jù)SVM模型的特性,林香亮等(2020)使用PCA(principal component analysis) 模型對(duì)其進(jìn)行改進(jìn),并驗(yàn)證了PCA-SVM混合模型在砂礫巖巖性識(shí)別上具有良好的應(yīng)用效果[14]。雖然上述模型在許多應(yīng)用案例中都得到了一定程度的認(rèn)可,但仍難以推廣。由于每個(gè)預(yù)測樣本都要和所有學(xué)習(xí)樣本進(jìn)行計(jì)算,所以隨著學(xué)習(xí)樣本容量的擴(kuò)大,KNN和PNN模型的計(jì)算效率將會(huì)嚴(yán)重降低;隨著學(xué)習(xí)樣本維度的增加,樣點(diǎn)間的距離值也會(huì)隨之增大,從而加大了KNN模型在模式判斷上的不確定性;建模需要多種經(jīng)驗(yàn)參數(shù)參與,如PNN模型的概率密度分布窗口長度和SVM模型的懲罰系數(shù)等,導(dǎo)致預(yù)測模型和預(yù)測結(jié)果難以確保為最優(yōu)。
梯度提升是一類優(yōu)秀的模式識(shí)別技術(shù),其主要計(jì)算原理是先將目標(biāo)值與計(jì)算值之間的差值作為訓(xùn)練對(duì)象,再通過一系列CART(classification and regression tree)回歸樹訓(xùn)練將差值減小,最后憑借由這些訓(xùn)練后的回歸樹組成的強(qiáng)學(xué)習(xí)器完成預(yù)測[16-19]。XGBoost模型是這類技術(shù)的代表。由于該模型引入了正則化項(xiàng),并精細(xì)化了學(xué)習(xí)公式,所以在訓(xùn)練過程中大概率地避免了過擬合現(xiàn)象的發(fā)生,確保了訓(xùn)練的可靠性;由于融入了并行計(jì)算技術(shù),模型的計(jì)算效率不會(huì)隨著訓(xùn)練樣本容量的擴(kuò)大而出現(xiàn)嚴(yán)重衰減的現(xiàn)象。因此,該模型因其訓(xùn)練穩(wěn)定且計(jì)算效率高在巖性識(shí)別中也得到了關(guān)注[16-19]。Dev 和Eden (2019) 利用了該模型進(jìn)行了巖性識(shí)別,并驗(yàn)證了模型的有效性[18]。閆星宇等(2019)采用XGBoost模型研究了滲透率預(yù)測和儲(chǔ)層評(píng)價(jià)問題,發(fā)現(xiàn)該模型的應(yīng)用對(duì)于測井解釋發(fā)展具有重要意義[19]。但需注意,XGBoost模型在建模過程中也有兩點(diǎn)不足:建模需要較多經(jīng)驗(yàn)參數(shù)參與,使得模型狀態(tài)難以確保為最優(yōu);當(dāng)樣本維度變高時(shí),為提高計(jì)算效率,模型可通過自身的隨機(jī)自變量采樣技術(shù)來實(shí)現(xiàn),但這種隨機(jī)處理方式也會(huì)使得建模后模型狀態(tài)難以確保為最優(yōu)。為使XGBoost模型在建模后達(dá)到最佳狀態(tài),本文采用PSO (particle swarm optimization)模型和CRBM (continuous restricted Boltzmann machine)模型對(duì)其進(jìn)行改進(jìn)。PSO模型能有效解決參數(shù)優(yōu)化問題,而CRBM模型因具有數(shù)據(jù)提取功能可從源數(shù)據(jù)中挖掘出更少且對(duì)因變量預(yù)測更為重要的新自變量,由此解決了樣本隨機(jī)降維的問題[20-25]。至此,本文提出利用CRBM-PSO-XGBoost混合模型來解決非常規(guī)儲(chǔ)層巖性識(shí)別問題。下文將對(duì)模型的計(jì)算原理和預(yù)測效果逐一分析。
在本文中,由于巖性識(shí)別問題是利用由測井資料和巖性觀察數(shù)據(jù)建立的模型來解決,因此學(xué)習(xí)數(shù)據(jù)集中自變量應(yīng)由測井曲線構(gòu)成,而應(yīng)變量由巖性觀察數(shù)據(jù)構(gòu)成,可表示為A={Xmn,Ym},其中Xmn為測井?dāng)?shù)據(jù)矩陣,表示有m個(gè)樣本,而每個(gè)樣本由n條曲線構(gòu)成,Ym為巖性觀察數(shù)據(jù)向量,有m個(gè)樣本。巖性觀察數(shù)據(jù)在程序中為字符信息,難以應(yīng)用,為此采用one-hot coding(獨(dú)熱編碼) 技術(shù)進(jìn)行編碼[16-19]。例如,巖性觀察數(shù)據(jù)為細(xì)砂巖,與之對(duì)應(yīng)設(shè)定的原始編碼為2,而識(shí)別的巖性共有5種,則最終采用的編碼是一個(gè)長度為5且第二個(gè)元素為1的零向量,可表示為[0,1,0,0,0]。所以,Ym在編碼后可進(jìn)一步變?yōu)閅mK,其中K為識(shí)別巖性種類,也是每個(gè)樣本的長度。此時(shí),因變量的樣本可表示為yi=(yi1,yi2,…,yiK)。XGBoost模型采用CART回歸樹進(jìn)行迭代訓(xùn)練,并在訓(xùn)練后形成一個(gè)預(yù)測模型。預(yù)測模型稱為強(qiáng)分類器,其表達(dá)式如下[16]:
(1)
式中:Fk(xi)為作用在樣本xi上的第k類強(qiáng)分類器,i=1,2,…,m;wjk,d為在第d次迭代中第k棵回歸樹(即第k類回歸樹)的第j個(gè)葉節(jié)點(diǎn)中所有樣本的替代值,無量綱,k=1,2,…,K,d=1,2,…,D,j=1,2,…,J;η為學(xué)習(xí)速率,無量綱。
以公式(1)為基礎(chǔ),確定樣本xi被分到第k類巖性的概率由下面的softmax函數(shù)計(jì)算[16-19]:
(2)
式中:Probk(xi)表示概率值,無量綱。
在所得的概率值中選擇最大值對(duì)應(yīng)的巖性標(biāo)記為樣本xi的預(yù)測巖性。公式(1)中的wjk,d由下式確定[16-19]:
wjk,d=-Gjk,d/(Hjk,d+λ)
(3)
(4)
(5)
式中:xi∈Rjk,d,Rjk,d為在第d迭代中第k棵回歸樹的第j個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)的區(qū)域;fk,d-1(xi)為在第d-1次迭代中作用在樣本xi的第k類學(xué)習(xí)器,其形式以公式(1)為準(zhǔn);L為損失函數(shù),一般以交叉熵形式為主,在本文中為-yilln[Pl,d-1(xi)],P為公式(2)所示的softmax函數(shù);λ為正則化系數(shù),無量綱。
由于XGBoost模型在應(yīng)用前要設(shè)置好框架,其中有較多經(jīng)驗(yàn)參數(shù)需要確定,如迭代次數(shù)、回歸樹分裂次數(shù)、正則化系數(shù)和學(xué)習(xí)速率等,因此建模后模型難以確保在最優(yōu)狀態(tài)。本文采用在多目標(biāo)最優(yōu)化問題上計(jì)算效率高的PSO模型對(duì)其進(jìn)行優(yōu)化。在執(zhí)行PSO模型之前,先要設(shè)定種群[20-22]。種群包含許多種子,而每個(gè)種子由需要優(yōu)化的參數(shù)構(gòu)成,所以種群可表示為:
Γ={σi|σi=(σ1i,σ2i,…,σzi),i=1,2,…,q}
(6)
其中,q為種子數(shù)量,σi為第i個(gè)種子,包含z個(gè)參數(shù)。之后,PSO模型通過下面的迭代公式計(jì)算各參數(shù)的最優(yōu)值[20-22]:
(7)
為計(jì)算方便,公式(7)中計(jì)算結(jié)果和目標(biāo)結(jié)果應(yīng)以原始編碼組成。前人研究結(jié)果顯示,在迭代前期采用較大的ω有利于全局搜索,而到后期采用較小的ω有利于局部搜索,為了能夠讓PSO模型高效地進(jìn)行優(yōu)化計(jì)算,本文采用LDIW(Linear decreasing inertia weight)算法使ω能夠在迭代中自適應(yīng)地改變[20-22]。
XGBoost模型計(jì)算效率一般隨著樣本中自變量個(gè)數(shù)的增加而降低,因此Chen 和 Guestrin (2016)在創(chuàng)造該模型時(shí)為提高其運(yùn)行速率提出了自變量隨機(jī)采樣算法[16]。該算法是在考慮自變量較多時(shí),隨機(jī)選擇幾個(gè)自變量重組學(xué)習(xí)樣本,以讓XGBoost模型能夠通過處理容量更小的學(xué)習(xí)樣本來快速建模。由于自變量是隨機(jī)選的,難以保證這些自變量都能影響因變量的變化,為此本文提出采用CRBM模型方法對(duì)源數(shù)據(jù)進(jìn)行處理,以實(shí)現(xiàn)在源數(shù)據(jù)降維的同時(shí)確保得到的新自變量都為關(guān)鍵變量。CRBM模型是通過連接可見層和隱含層之間的權(quán)重將源數(shù)據(jù)進(jìn)行轉(zhuǎn)換,以此實(shí)現(xiàn)自變量由多變少的目的[23-25]。為確保轉(zhuǎn)換質(zhì)量,CRBM模型一般要將提取的特征或者稱新自變量反轉(zhuǎn)化到可見層中,并將重構(gòu)的數(shù)據(jù)與源數(shù)據(jù)進(jìn)行對(duì)比,此時(shí)如果兩者之間的誤差在允許的范圍內(nèi),則表明轉(zhuǎn)化是有效的。CRBM模型的框架一般可表示為[23-25]:
(8)
式中:P為概率激活函數(shù),由S函數(shù)(即sigmoid函數(shù))確定;V為可見層數(shù)據(jù)矩陣;W為權(quán)值矩陣;H為隱含層數(shù)據(jù)矩陣;vi為第i個(gè)可見層數(shù)據(jù)向量;hj為第j個(gè)隱含層數(shù)據(jù)向量;σ為設(shè)定的噪音方差,無量綱;N為以標(biāo)準(zhǔn)正態(tài)分布為準(zhǔn)的噪音,無量綱;φh和φl為S函數(shù)的上、下漸近線;μ為噪音控制參數(shù),無量綱,當(dāng)減小時(shí)能夠讓S函數(shù)從確定狀態(tài)變?yōu)槎惦S機(jī)分布狀態(tài);θ為迭代參數(shù)集,即在迭代中需要確定的參數(shù)集。
公式(8)表明源數(shù)據(jù)可通過第一分式轉(zhuǎn)到隱含層中,而隱含層數(shù)據(jù)可通過第二分式轉(zhuǎn)回到可見層,用于檢驗(yàn)重構(gòu)數(shù)據(jù)質(zhì)量。公式(8)中需要確定的參數(shù)有W和μ,因此θ只包含該兩個(gè)參數(shù),對(duì)應(yīng)的迭代公式為[23-25]:
(9)
式中:Δwij,k為W第i行第j列元素在第k次迭代中的迭代步長,無量綱;Δμk為在第k次迭代中μ的迭代步長,無量綱,k=1,2,…,K;右上角標(biāo)0和1分別表示迭代開始前的可見層數(shù)據(jù)和由隱含層重構(gòu)得到的可見層數(shù)據(jù)。
(10)
公式(10)表明由隱含層重構(gòu)的可見層數(shù)據(jù)將在處理最后一個(gè)mini-batch后得到。在確定步長之后,并在融合mini-batch技術(shù)情況下,CRBM模型的迭代公式可表示為[25]:
(11)
式中:ξ為動(dòng)量系數(shù),無量綱。
本次實(shí)驗(yàn)以姬塬油田西部長4+5段(延長組4+5段)致密砂巖儲(chǔ)層為驗(yàn)證對(duì)象。姬塬油田處于鄂爾多斯盆地中西部天環(huán)坳陷和陜北斜坡兩個(gè)一級(jí)構(gòu)造單元之間,其整體構(gòu)造形態(tài)呈一寬緩的北東-南西傾向的單斜(圖2)[26-29]。油田發(fā)育多個(gè)含油層系,其中長4+5段是主力開發(fā)層系之一。長4+5段為淺水三角洲沉積,主要發(fā)育三角洲前緣亞相,其儲(chǔ)層的形成受控于沉積展布,多為水下分流河道、水下天然堤和河口壩[26-29]。油田西部目前共有2 000多口探井和評(píng)價(jià)井,但只有少部分井具有巖心資料,因此為完成長4+5段的精細(xì)地層格架建立和沉積展布規(guī)律分析等工作,巖性識(shí)別成為一項(xiàng)關(guān)鍵研究內(nèi)容。根據(jù)多口探井的巖心資料觀察,識(shí)別出目的層儲(chǔ)層主要巖性共8種,分別為中砂巖、細(xì)砂巖、粉-細(xì)砂巖、粉砂巖、泥質(zhì)粉-細(xì)砂巖、泥質(zhì)粉砂巖、粉砂質(zhì)泥巖和泥巖。依據(jù)經(jīng)典交會(huì)圖的設(shè)計(jì)原理,本次選用測井?dāng)?shù)據(jù)中顯示孔隙性的AC(聲波時(shí)差)、含泥性的GR(自然伽馬)和含油性的AT90(陣列感應(yīng)電阻率)來劃分巖性。圖3a為AC-GR-AT90三維交會(huì)圖,可見8種巖性的測井?dāng)?shù)據(jù)點(diǎn)在圖中融雜在一起,難以進(jìn)行區(qū)分。圖3b—d為3種曲線兩兩組合形成的二維交會(huì)圖,同樣,各個(gè)巖性的數(shù)據(jù)點(diǎn)在圖中仍有很大程度上的重合,導(dǎo)致劃分標(biāo)準(zhǔn)難以建立。圖3表明目的層的主要巖性不能由二維或三維交會(huì)圖進(jìn)行識(shí)別,其原因是多種巖性具有相似的測井響應(yīng)特征,使有效的巖性-測井響應(yīng)識(shí)別關(guān)系無法形成。為此,本文采用機(jī)器學(xué)習(xí)方法來解決巖性識(shí)別問題,并根據(jù)在引言中的分析提出一種新的混合模型CRBM-PSO-XGBoost。模型結(jié)構(gòu)及其計(jì)算流程已經(jīng)在計(jì)算原理中進(jìn)行了說明,并用圖1進(jìn)行了展示,這里不再贅述。
圖1 CRBM-PSO-XGBoost模型結(jié)構(gòu)(a)及其計(jì)算流程(b)Fig.1 Structure(a)and computing flow (b) of the CRBM-PSO-XGBoost,a hybrid model proposed
圖2 鄂爾多斯盆地構(gòu)造區(qū)劃(a)及姬塬油田西部工區(qū)概況(b)Fig.2 Structural division (a) and outline of western Jiyuan oilfield (b), Ordos Basin
圖3 用于識(shí)別目的層8種主要巖性的三維和二維交會(huì)圖Fig.3 3D or 2D cross correlations used to identify 8 major types of lithology of target formationsa. AC-GR-AT90三維交會(huì)圖;b. AC-AT90二維交會(huì)圖;c. AC-GR二維交會(huì)圖;d. GR-AT90二維交會(huì)圖
為驗(yàn)證所提出模型的預(yù)測能力,本文采用研究區(qū)8口取心井的測井及巖心觀察數(shù)據(jù)進(jìn)行實(shí)驗(yàn),井位如圖2c所示。巖心觀察數(shù)據(jù)是根據(jù)每一個(gè)測井深度點(diǎn)對(duì)應(yīng)從巖心柱上觀察所得到的巖性數(shù)據(jù)。Y1,Y2,Y3,L1,L2和H1井設(shè)為訓(xùn)練井,即利用這些井的資料組成學(xué)習(xí)樣本,而HA和HB井設(shè)為驗(yàn)證井,即利用兩口井的資料組成預(yù)測樣本。學(xué)習(xí)樣本共4 606個(gè),而預(yù)測樣本每口井有300個(gè)。樣本由測井曲線和巖心信息組成,其中測井曲線有11種,分別是AC(聲波時(shí)差)、SP(自然電位)、GR(自然伽馬)、CNL(補(bǔ)償中子)、DEN(補(bǔ)償密度)、PE(光電吸收截面指數(shù))和陣列感應(yīng)電阻率(AT10,AT20,AT30,AT60,AT90)。巖心信息為巖心觀察數(shù)據(jù)的原始編碼經(jīng)one-hot coding技術(shù)轉(zhuǎn)換后得到的信息。本次規(guī)定中砂巖、細(xì)砂巖、粉-細(xì)砂巖、粉砂巖、泥質(zhì)粉-細(xì)砂巖、泥質(zhì)粉砂巖、粉砂質(zhì)泥巖和泥巖對(duì)應(yīng)的原始編碼依次為數(shù)字1到8。所以,針對(duì)某一測井深度點(diǎn),如果從巖心上觀察到的巖性為細(xì)砂巖,則與之對(duì)應(yīng)的原始編碼為2,巖心信息為[0,1,0,0,0,0,0,0]。為簡易說明,巖心信息在表中用原始編碼進(jìn)行了展示。實(shí)驗(yàn)共有兩個(gè),其中第一個(gè)實(shí)驗(yàn)是利用由Y2,Y3,L2,H1資料組成的含有3 060個(gè)樣本的學(xué)習(xí)數(shù)據(jù)進(jìn)行預(yù)測,第二個(gè)是利用全部學(xué)習(xí)樣本進(jìn)行預(yù)測,其目的是檢驗(yàn)預(yù)測模型的識(shí)別準(zhǔn)確率是否會(huì)在增加訓(xùn)練樣本量的情況下有所提升。為增強(qiáng)驗(yàn)證效果,實(shí)驗(yàn)中加入了PNN和SVM模型進(jìn)行對(duì)比。
在實(shí)驗(yàn)1中,先驗(yàn)證XGBoost模型是否在嵌入PSO模型和CRBM模型后其預(yù)測能力有所改變,之后再對(duì)所有預(yù)測模型進(jìn)行對(duì)比。對(duì)于XGBoost模型,一組根據(jù)前人研究成果設(shè)定的經(jīng)驗(yàn)參數(shù)如表1的第3列上部分所示。進(jìn)行優(yōu)化前,PSO模型的計(jì)算參數(shù)也要設(shè)定。一組經(jīng)驗(yàn)參數(shù)展示在了表1中部。需要指出的是,PSO模型較XGBoost模型更容易找到一組理想的設(shè)置參數(shù),這是因?yàn)镻SO模型目的就是將模型參數(shù)進(jìn)行調(diào)優(yōu)以確保預(yù)測結(jié)果最為可靠,而這點(diǎn)很容易在PSO模型迭代計(jì)算中實(shí)現(xiàn),即在不動(dòng)XGBoost模型預(yù)先設(shè)置參數(shù)的情況下,PSO模型可通過簡單的參數(shù)調(diào)試甚至不用參數(shù)調(diào)試即可令XGBoost模型參數(shù)達(dá)到最優(yōu)化,所以PSO模型的嵌入雖然增加了預(yù)先設(shè)置參數(shù)的工作量,但在實(shí)際操作上減少了調(diào)參工作量[20-22]。對(duì)于CRBM模型,一組設(shè)定的經(jīng)驗(yàn)參數(shù)如表2所示。
為使PSO-XGBoost混合模型更快速地完成建模,CRBM模型應(yīng)從源數(shù)據(jù)中提取更少的特征,因此依據(jù)前人研究經(jīng)驗(yàn),隱含層神經(jīng)元個(gè)數(shù)可設(shè)置為測井曲線個(gè)數(shù)的一半[23-25]。由于CRBM模型目的只是提取數(shù)據(jù)特征,所以只要提取的特征滿足迭代條件即認(rèn)為CRBM模型完成了任務(wù),這使得該模型的調(diào)參工作也變得非常簡單。圖4展示了測井源數(shù)據(jù)和由CRBM模型得到的重構(gòu)數(shù)據(jù)的對(duì)比情況??梢?,各曲線的兩種數(shù)據(jù)的吻合度非常高,表明CRBM模型對(duì)源數(shù)據(jù)的提取是有效的。在完成CRBM模型處理后,分別利用原始學(xué)習(xí)樣本和提取特征數(shù)據(jù)對(duì)PSO-XGBoost混合模型進(jìn)行訓(xùn)練。圖5顯示了PSO模型作用在XGBoost模型上的優(yōu)化過程??梢悦黠@地看出,PSO模型能夠有效地優(yōu)化XGBoost模型,尤其是在處理提取特征數(shù)據(jù)的情況下。在完成XGBoost,PSO-XGBoost和CRBM-PSO-XGBoost 3種模型的訓(xùn)練之后,預(yù)測目標(biāo)便可進(jìn)行處理,這里先以HA井為例。3種模型的預(yù)測準(zhǔn)確率分別為51.00%,80.33%和92.67%,顯示出提出模型的預(yù)測能力最強(qiáng)。圖6以柱狀圖的形式展示了部分巖性預(yù)測結(jié)果。圖中取心道的信息為實(shí)際取心柱的觀察結(jié)果,已經(jīng)通過深度校正歸位。為便于分析,在取心道上選擇了20個(gè)樣點(diǎn)進(jìn)行對(duì)比。通過觀察發(fā)現(xiàn),XGBoost模型結(jié)果中有10個(gè)錯(cuò)誤樣點(diǎn)(No.1,3,5,10,12,14,15,17,18,19),PSO-XGBoost混合模型有6個(gè)(No.3,6,12,14,16,18),而提出模型僅有2個(gè)(No.12和18)。由對(duì)比可知,XGBoost模型在使用經(jīng)驗(yàn)參數(shù)的情況下得到的預(yù)測結(jié)果不能準(zhǔn)確地反映巖性實(shí)際分布規(guī)律,而經(jīng)CRBM模型和PSO模型優(yōu)化后,其預(yù)測能力得到明顯提升,得到的預(yù)測結(jié)果非常可靠,可有效地反映儲(chǔ)層巖性分布情況。
在明確PSO模型和CRBM模型的嵌入對(duì)XGBoost模型的預(yù)測能力有提升作用之后,提出模型將與PNN和SVM模型進(jìn)行對(duì)比。由于對(duì)比模型在建模時(shí)也需要用到經(jīng)驗(yàn)參數(shù),因此為使所有驗(yàn)證模型在預(yù)測時(shí)都能達(dá)到最佳狀態(tài),PSO模型和CRBM模型也將對(duì)PNN和SVM進(jìn)行優(yōu)化。表2記錄了所有驗(yàn)證模型參數(shù)的設(shè)置及其優(yōu)化結(jié)果。對(duì)于驗(yàn)證井HA,表3記錄了用3種優(yōu)化模型得到的預(yù)測結(jié)果??梢?,在相同優(yōu)化的條件下,XGBoost模型以92.67%的高識(shí)別準(zhǔn)確率成為預(yù)測能力最強(qiáng)的模型。圖7以柱狀圖的形式展示了HA井部分巖性預(yù)測結(jié)果。通過觀察發(fā)現(xiàn),CRBM-PSO-PNN模型預(yù)測結(jié)果有6個(gè)錯(cuò)誤樣點(diǎn)(No.2,6,9,14,16,18),CRBM-PSO-SVM模型有4個(gè)錯(cuò)誤樣點(diǎn)(No.2,9,13,19),與提出模型的2個(gè)錯(cuò)誤樣點(diǎn)相比,表中數(shù)據(jù)格式為(最小值,最大值)。
表1 驗(yàn)證模型參數(shù)設(shè)置及優(yōu)化結(jié)果Table 1 Parameters selected for the validation model and corresponding optimized data
表2 CRBM參數(shù)設(shè)置Table 2 Parameters selected for the CRBM model
反映出PNN和SVM優(yōu)化模型所給的預(yù)測結(jié)果不能準(zhǔn)確地描述儲(chǔ)層巖性分布狀況。
分析HA井預(yù)測結(jié)果之后,再利用3種模型對(duì)HB井進(jìn)行預(yù)測。建模時(shí),PSO模型和CRBM模型所用的參數(shù)設(shè)置不變。表3給出了3種優(yōu)化模型的預(yù)測結(jié)果。結(jié)果顯示,混合模型CRBM-PSO-XGBoost的預(yù)測準(zhǔn)確率仍為最高,達(dá)90.33%,再次表明提出模型的預(yù)測能力最強(qiáng)。
在實(shí)驗(yàn)2中,所有4 606個(gè)學(xué)習(xí)樣本將用于建模,其目的是檢驗(yàn)在訓(xùn)練更多學(xué)習(xí)樣本的情況下,各驗(yàn)證模型的預(yù)測能力是否有所加強(qiáng)。建模時(shí),PSO模型和CRBM模型所用的參數(shù)設(shè)置與實(shí)驗(yàn)1的一致。表3記錄了用3種優(yōu)化模型得到的兩口驗(yàn)證井的預(yù)測結(jié)果。通過對(duì)比發(fā)現(xiàn):①在訓(xùn)練更多學(xué)習(xí)樣本后,各驗(yàn)證模型的預(yù)測準(zhǔn)確率都有所提升,表明增大訓(xùn)練樣本容量是提高模型預(yù)測能力的一種有效途徑;②提出模型的識(shí)別準(zhǔn)確率最高,都超過了90%,不僅顯示出提出模型所得的預(yù)測結(jié)果可靠性高,還再次證明了該模型的預(yù)測性能最佳。
圖4 CRBM重構(gòu)數(shù)據(jù)檢測Fig.4 Testing of reconstructing data for the CRBM modela. AC實(shí)測曲線與其重構(gòu)數(shù)據(jù)比較;b. AT 90實(shí)測曲線與其重構(gòu)數(shù)據(jù)比較;c. GR實(shí)測曲線與其重構(gòu)數(shù)據(jù)比較
圖5 PSO-XGBoost和基于CRBM的PSO-XGBoost訓(xùn)練優(yōu)化過程Fig.5 Training optimization of PSO-XGBoost and CRBM-based PSO-XGBoost
表3中的計(jì)算時(shí)間數(shù)據(jù)顯示CRBM-PSO-PNN耗時(shí)最長,而CRBM-PSO-SVM的最短。對(duì)于PNN模型,由于每個(gè)預(yù)測樣本在預(yù)測時(shí)都要與全部訓(xùn)練樣本進(jìn)行計(jì)算,因此耗時(shí)最長,而且這種耗時(shí)會(huì)隨著訓(xùn)練樣本容量的擴(kuò)大而急劇增加(對(duì)比實(shí)驗(yàn)1和實(shí)驗(yàn)2的數(shù)據(jù)),表明在處理大數(shù)據(jù)時(shí)該模型效率低。SVM模型預(yù)測時(shí),采用的是支持向量而不是全部學(xué)習(xí)樣本,所以耗時(shí)短。但與XGBoost模型相比,SVM模型在兩個(gè)實(shí)驗(yàn)中的計(jì)算時(shí)間也都僅快10 s左右,這在巖性識(shí)別問題中優(yōu)先考慮預(yù)測準(zhǔn)確率的情況下,并沒有顯示出該模型的預(yù)測效率高,反而體現(xiàn)了XGBoost模型的預(yù)測效率高。因此,綜合來看,提出模型的預(yù)測效率最高,即使是在增大訓(xùn)練樣本容量的條件下。
圖6 實(shí)驗(yàn)1中HA井巖性預(yù)測信息柱狀圖Fig.6 Columns showing the predicted lithology in Well HA derived from the Experiment 1
圖7 實(shí)驗(yàn)2中HA井巖性預(yù)測信息柱狀圖Fig.7 Columns showing the predicted lithology in Well HA derived from Experiment 2
表3 驗(yàn)證井預(yù)測準(zhǔn)確率和計(jì)算時(shí)間信息統(tǒng)計(jì)Table 3 Data summary of prediction accuracy and computing time of validation wells
1) PSO在建模過程中能夠優(yōu)化XGBoost多種經(jīng)驗(yàn)參數(shù),為強(qiáng)化模型預(yù)測能力奠定了基礎(chǔ)。
2) CRBM模型可從源數(shù)據(jù)中提取更少但更利于分析因變量的新特征或稱新自變量,為提高PSO-XGBoost混合模型計(jì)算效率提供了途徑。
3) CRBM-PSO-PNN,CRBM-PSO-SVM和CRBM-PSO-XGBoost的預(yù)測能力可在訓(xùn)練更多學(xué)習(xí)樣本的情況下得到提升,表明擴(kuò)大訓(xùn)練樣本容量是提升各驗(yàn)證模型預(yù)測能力的一種有效手段。
4) CRBM-PSO-XGBoost相比于CRBM-PSO-PNN和CRBM-PSO-SVM能給出更為可靠的預(yù)測結(jié)果,且耗時(shí)也較短,表明該模型預(yù)測效率高,在解決致密砂巖儲(chǔ)層巖性識(shí)別問題上更具推廣性。