武中原,張 欣,張春雷,王海英
(1.中國地質(zhì)大學(北京)數(shù)理學院,北京 100083;2.北京師范大學統(tǒng)計學院,北京 100875;3.北京中地潤德石油科技有限公司,北京 100083)
巖性的準確識別是復雜碳酸鹽巖儲層精細表征和綜合評價的基礎和前提。地層巖性信息獲取的方式主要有鉆井取心、巖屑錄井及井壁取心等手段,鉆井取心成本的高昂和巖屑錄井的不精確,使得測井巖性識別方法的研究備受關注[1-3]。測井巖性識別主要是通過建立測井參數(shù)與巖石類型之間的映射關系,并利用該映射去識別未取樣井段的巖石類型。隨著模式識別、統(tǒng)計學習和機器學習等方法的發(fā)展,越來越多的數(shù)學理論和計算機算法被應用到巖性識別模型的建立過程中,如主成分分析[4]、決策樹[5-6]、支持向量機(SVM)[7]、樸素貝葉斯[8],SOM 模糊識別[9]和神經(jīng)網(wǎng)絡[10]等方法。這些方法假定巖性及其與測井參數(shù)之間的關系在深度上是彼此獨立的,忽略了巖石在沉積和成巖過程中存在的空間上的序列相關性問題。其識別結果常出現(xiàn)深度序列上無法精確表征巖石地質(zhì)特征的情況或出現(xiàn)地層中不存在的巖石序列組合等現(xiàn)象。
對巖石序列特征的早期表征是由Elfeki[11]等以馬爾科夫鏈理論為基礎,采用不同巖石類型之間的轉(zhuǎn)移概率矩陣形式進行表達。后來袁照威等[8]在綜合巖石類型與測井參數(shù)之間的關系時,結合了混合高斯模型和最大期望算法進行了參數(shù)的學習。其中,隱馬爾科夫(HMM)[1,12]較為常用,可以融合巖性在深度上的序列相關性及其與測井參數(shù)之間的關系,但是在巖石類型轉(zhuǎn)移階次的確定、不同階次序列相關性的精確學習等方面依然存在不足。深度學習中的循環(huán)神經(jīng)網(wǎng)絡(RNN)模型可以通過自循環(huán)結構的學習,使序列相關信息得到很好地保留。該方法應用到巖性識別過程中能夠充分表征巖性內(nèi)在的沉積模式以及不同測井參數(shù)對巖性測量和表征方面的承載尺度問題。長短期記憶神經(jīng)網(wǎng)絡(LSTM)是常用的循環(huán)神經(jīng)網(wǎng)絡之一,解決了RNN 梯度爆炸和梯度消失的問題[13]。通過在自循環(huán)單元中引入門結構,使測井參數(shù)信息能夠在LSTM 中長期傳遞下去,從而使得LSTM 在綜合考慮數(shù)據(jù)的鄰域信息和歷史信息后,有效提取到數(shù)據(jù)的序列變化信息。
人工神經(jīng)網(wǎng)絡通過構建分層結構,自動提取出輸入輸出之間的非線性函數(shù)關系。BP 神經(jīng)網(wǎng)絡是最常見的人工神經(jīng)網(wǎng)絡,具有典型的分層結構,通常包括輸入層、隱含層和輸出層(圖1)。BP 神經(jīng)網(wǎng)絡中的基本單元是神經(jīng)元,每一層的每一個神經(jīng)元只與相鄰層的所有神經(jīng)元相連接,而同層的神經(jīng)元則互不連接。隱含層的每個神經(jīng)元對上一層的所有神經(jīng)元輸出進行線性求和,然后經(jīng)過激活函數(shù)輸出到下一層的每個神經(jīng)元,作為下一層的輸入。隨著BP 神經(jīng)網(wǎng)絡不斷進行正向傳遞和反向傳播,網(wǎng)絡權重也不斷進行調(diào)整,最終達到較優(yōu)的預測效果。
圖1 BP 神經(jīng)網(wǎng)絡結構示意圖Fig.1 Structure diagram of BP neural network
傳統(tǒng)的BP 神經(jīng)網(wǎng)絡隱含層神經(jīng)元互不相連,且使用固定數(shù)量的計算步驟產(chǎn)生固定大小的輸出,在處理可變大小的序列數(shù)據(jù)上限制較大。RNN 通過遞歸連接的每一層網(wǎng)絡的內(nèi)部節(jié)點,使得數(shù)據(jù)在時間維度上傳遞,實現(xiàn)了數(shù)據(jù)序列性的有效學習(圖2)[14-17]。
圖2 RNN 及其展開示意圖Fig.2 RNN and its development diagram
由RNN 中循環(huán)單元的計算式[式(1)]可知,RNN 在所有時間維度上實現(xiàn)參數(shù)共享,使得網(wǎng)絡模型得到簡化,同時能夠?qū)W習任意長度的序列數(shù)據(jù)。
式(1)中:xt是t時刻的輸入;ht為t時刻的隱狀態(tài);wih,bih是輸入層與隱狀態(tài)間的權重和偏置;whh,bhh是隱狀態(tài)與隱狀態(tài)之間的權重和偏置。
常規(guī)的RNN 容易發(fā)生梯度爆炸和梯度消失[18],導致網(wǎng)絡預測效果不佳。為此,Hochreiter 等[13]提出LSTM,并由Graves 等[19]對其進行了改良。相較于RNN 較為簡單的循環(huán)單元,LSTM 通過添加3個門層來控制不同時序?qū)罄m(xù)信息的影響,同時使用隱狀態(tài)和細胞狀態(tài)傳遞信息,使得LSTM 能夠綜合局部信息和序列信息。圖3 是常見的LSTM 網(wǎng)絡重復單元,主要包含3 個門層:遺忘門、輸入門、輸出門。在LSTM 神經(jīng)元的每個時刻,神經(jīng)元的輸入包括前一時刻的細胞狀態(tài)和隱狀態(tài)以及當前時刻的輸入。首先是當前時刻輸入和前一時刻隱狀態(tài),依次通過遺忘門和輸入門,完成細胞狀態(tài)的更新,然后根據(jù)更新后的細胞狀態(tài)和輸出門,完成隱狀態(tài)的更新。
圖3 LSTM 重復單元結構Fig.3 LSTM recurrent unit structure
遺忘門:根據(jù)當前時刻的輸入和前一時刻的隱狀態(tài)決定細胞狀態(tài)中要忘記的信息
輸入門:根據(jù)當前時刻的輸入和前一時刻的隱狀態(tài)決定哪些新信息要添加到細胞狀態(tài)
根據(jù)遺忘門和輸入門的輸出,對細胞狀態(tài)進行更新
輸出門:根據(jù)當前時刻輸入信息和前一時刻隱狀態(tài)的合并以及更新后的細胞狀態(tài),對隱狀態(tài)進行更新
式中:ft是t時刻遺忘門的輸出;Ot是t時刻輸入門的輸出;是t時刻tanh 層的輸出;Ct為t時刻的細胞狀態(tài);it是t時刻輸入門的輸出;Wf,bf是遺忘門的權重和偏置;Wi,bi是輸入門的權重和偏置;Wo,bo是輸出門的權重和偏置。
在LSTM 中,由于序列維度的存在,使得網(wǎng)絡結構本身比較復雜,因此不需要過分堆疊循環(huán)層。如圖4 所示,首先通過對測井資料的分析選擇出對巖性敏感的測井參數(shù),并對其進行均值方差標準化預處理,去除量綱的影響,同時使用One-Hot 編碼將巖性數(shù)據(jù)數(shù)字化,然后構建包含LSTM 層和全連接層的巖性識別模型。
圖4 巖性識別模型Fig.4 Lithology identification model
由于巖性識別是多分類問題,網(wǎng)絡使用交叉熵作為損失函數(shù)對網(wǎng)絡學習進行評估。同時使用Adam優(yōu)化器進行網(wǎng)絡學習,不同于常用的隨機梯度下降,Adam 優(yōu)化器能夠在迭代過程中自適應調(diào)整學習率從而顯著提升網(wǎng)絡學習速度。為防止網(wǎng)絡發(fā)生過擬合,使用dropout 學習策略提升其泛化能力。
本次研究數(shù)據(jù)為蘇里格氣田東部地區(qū)奧陶系馬溝組馬五段復雜碳酸鹽巖儲層,屬于海相沉積地層,因受沉積和成巖等因素的影響,巖石類型復雜多樣。鉆井取心和巖屑錄井顯示,主要巖石類型有石灰?guī)r、白云質(zhì)灰?guī)r、泥質(zhì)灰?guī)r、白云巖、灰質(zhì)白云巖和泥質(zhì)白云巖等6 種,其中灰質(zhì)白云巖和白云質(zhì)灰?guī)r是主要的含氣儲層。
通過對巖性和測井資料的分析[20-21],選取對巖性較為敏感的聲波時差、自然伽馬、光電吸收截面指數(shù)、密度、深側向電阻率和補償中子等6 種測井參數(shù)。以55-010 井為例,對石灰?guī)r、白云質(zhì)灰?guī)r、泥質(zhì)灰?guī)r、白云巖、灰質(zhì)白云巖和泥質(zhì)白云巖等6 種巖性的箱形圖進行分析。由圖5 可知,不同測井屬性對巖性的響應特征存在明顯差異??傮w來說,泥質(zhì)巖性的自然伽馬較高[圖5(a)],而非泥質(zhì)巖性的自然伽馬較低且重合在一起,因此通過自然伽馬可以有效劃分出含泥質(zhì)較多的泥質(zhì)灰?guī)r和泥質(zhì)白云巖。同時泥質(zhì)灰?guī)r的聲波時差[圖5(b)]和光電吸收截面指數(shù)[圖5(c)]均較高,則可以進一步通過聲波時差和光電吸收截面指數(shù)來劃分泥質(zhì)灰?guī)r和泥質(zhì)白云巖,而光電吸收截面指數(shù)對于白云巖和灰質(zhì)巖的區(qū)分則更為明顯。白云巖的光電吸收截面指數(shù)基本小于3.2 b/e,而灰質(zhì)巖則相反。從圖5 可以看出,由于數(shù)據(jù)中一些噪聲點的影響,導致個別巖性測井參數(shù)取值區(qū)間較大,甚至超出正常值,該情況主要影響了箱形圖的極值情況,對中位數(shù)及上下四分位數(shù)影響均較小,因此為進一步統(tǒng)計有實際意義的測井參數(shù)響應特征,將第90 百分位數(shù)及第10 百分位數(shù)作為實際巖性響應范圍的上下限(表1)。
圖5 蘇里格氣田蘇東地區(qū)55-010 井巖性及其測井參數(shù)箱形圖Fig.5 Box diagram of lithology and logging parameters of well 55-010 in eastern block of Sulige gas field
綜合測井參數(shù)箱線圖(圖5)、巖性測井參數(shù)統(tǒng)計表(表1)和巖性間高區(qū)分度敏感參數(shù)統(tǒng)計表(表2),得出以下結論:①不同巖性的各測井參數(shù)響應特征雖各不相同,但存在一定程度的重疊,即測井參數(shù)對不同巖性響應的敏感性差異較大。②各測井參數(shù)對石灰?guī)r響應特征的變化范圍較小,其光電吸收截面指數(shù)較高,補償中子和自然伽馬則較?。话自瀑|(zhì)灰?guī)r和泥質(zhì)灰?guī)r的光電吸收截面指數(shù)取值范圍差異較大,其他參數(shù)變化范圍則相近;泥質(zhì)灰?guī)r和泥質(zhì)白云巖的自然伽馬值均高于25 API,且聲波時差的變化范圍較大;各巖性的深側向電阻率變化范圍較為接近;白云巖的光電吸收截面指數(shù)較低,且密度取值較高。③由表2 可知,不同巖性對應著不同的高敏感性參數(shù),單一的測井參數(shù)只能粗略實現(xiàn)部分特定巖性的劃分,只有綜合考慮巖性對所有測井參數(shù)的響應特征,才能實現(xiàn)所有巖性的有效識別。
表1 蘇里格氣田蘇東地區(qū)不同巖性測井參數(shù)響應特征(10%~90%)Table 1 Response characteristics of different lithology logging parameters in eastern block of Sulige gas field
表2 蘇里格氣田蘇東地區(qū)不同巖性之間高區(qū)分度敏感參數(shù)Table 2 High-sensitivity parameters between lithologies in eastern block of Sulige gas field
本次研究網(wǎng)絡模型運行平臺如下:Windows10 64 位操作系統(tǒng),Intel Core i7-8700 CPU @3.2 GHz,16 GB 內(nèi)存,Nvidia GeForce GTX 1050 顯卡,運行環(huán)境為python3.6,keras(tensorflow 后臺)框架。在LSTM 網(wǎng)絡模型建立過程中,對巖性識別效果影響較大的網(wǎng)絡參數(shù)主要有迭代次數(shù)(epoch)、批樣本個數(shù)(batch)和時間步長(time-step)等。為此,在建模過程中先分析這3 個網(wǎng)絡參數(shù)的影響。
epoch 是網(wǎng)絡使用全部訓練集訓練所用的次數(shù),其對網(wǎng)絡的最終訓練結果有很大影響。訓練次數(shù)過少,網(wǎng)絡就不能完全提取出數(shù)據(jù)的特征信息,即網(wǎng)絡欠擬合,從而導致網(wǎng)絡的預測結果較差。epoch 過多,則網(wǎng)絡可記住訓練集中個別樣本的特征,即網(wǎng)絡過擬合,從而導致網(wǎng)絡在訓練集中預測效果較好而在測試集上預測效果較差,即網(wǎng)絡的泛化性較差。通過控制其他變量不變而改變訓練次數(shù),并通過交叉熵損失函數(shù)評估網(wǎng)絡??梢钥闯觯弘S著epoch 增加,網(wǎng)絡模型的損失值迅速下降,表明網(wǎng)絡在快速學習,當epoch 達到1 000 時,損失曲線已基本穩(wěn)定,表明網(wǎng)絡已經(jīng)充分學習。
batch 是指每次進行網(wǎng)絡訓練時所傳入的訓練集樣本個數(shù)。由于深度學習中的數(shù)據(jù)量較大,一般要采取小批量處理的方法。由于每次傳入數(shù)據(jù)后都會更新網(wǎng)絡權重,所以相較一次傳入全部數(shù)據(jù),小批量訓練網(wǎng)絡的速度更快。但是,過小的batch則會使網(wǎng)絡學習變得過于隨機,過大的batch 則需要更多的epoch。本次在固定其他參數(shù)的前提下,調(diào)節(jié)batch,并通過巖性識別準確率評估batch 對網(wǎng)絡訓練的影響效果,可以看出,當batch 小于32 時,準確率較高,而隨著batch 的進一步增大,準確率迅速下降,因此選擇batch 為32。
time-step 是指使用多少組測井曲線數(shù)據(jù)來預測當前時刻的巖性。如果time-step 過小,則由于輸入信息過少,使得網(wǎng)絡只能根據(jù)附近時刻的信息來預測當前時刻,忽視了序列信息的連續(xù)性。如果time-step 過大,由于不同測井段的巖性特征和孔隙特征變化,導致訓練集中包含與當前時刻無關的信息,從而既加大了網(wǎng)絡的訓練時間,又影響了預測效果。于是,在保證其他各參數(shù)不變的前提下,調(diào)節(jié)time-step,通過巖性識別準確率來評估time-step對網(wǎng)絡訓練的影響。由圖6 可看出,當time-step 為4 時,準確率較高,而隨著time-step 的增大,準確率則在96%左右波動,因此選擇time-step 為4。
圖6 網(wǎng)絡模型參數(shù)選擇Fig.6 Parameter selection of network model
從蘇里格氣田蘇東地區(qū)選取42-12 井、44-7 井、49-13 井共計3 122 個樣本點和57-04 井共計1 355個樣本點作為訓練數(shù)據(jù),其中前3 口井的石灰?guī)r、白云質(zhì)灰?guī)r、泥質(zhì)灰?guī)r、白云巖、灰質(zhì)白云巖和泥質(zhì)白云巖的樣品個數(shù)分別為272 個、314 個、335 個、590 個、596 個、1 015 個。分別采用KNN、樸素貝葉斯、決策樹、SVM,HMM 和LSTM 進行訓練學習,并在測試集上進行分類預測,從而評估模型的巖性識別效果。
表3 為KNN,樸素貝葉斯、決策樹、SVM,HMM,LSTM 這6 種算法的巖性識別效果,傳統(tǒng)模式識別方法KNN 和樸素貝葉斯的巖性識別準確率平均值低于90.00%,決策樹、SVM 和HMM 相比之均有顯著提高,而采用LSTM 的平均巖性識別準確率可達97.12%,巖性識別效果優(yōu)異。從巖性識別效果來看,傳統(tǒng)機器學習方法對不同巖性的識別效果差異較大,尤其對石灰?guī)r及其過渡巖性的識別效果較差,導致整體正確率較低。而LSTM 的識別準確率則相對平穩(wěn),僅對石灰?guī)r的識別準確率為80.95%,對其他巖性的識別準確率均在97.00%以上。相較于傳統(tǒng)的機器學習方法,LSTM 模型更好地學習到了巖性數(shù)據(jù)的空間結構特征,從而有效提升了巖性識別效果。
表3 蘇里格氣田蘇東地區(qū)57-04 井不同方法的巖性識別準確率Table 3 Lithology identification effect by different methods in well 57-04 in eastern block of Sulige gas field
圖7 為部分實際錄井巖性與不同巖性識別模型預測對比圖,表4 采用混淆矩陣定量分析準確率及召回率,并以此對比LSTM 算法的改進效果??梢钥闯?,LSTM 的預測結果與錄井巖性基本一致。召回率較低的白云巖樣本數(shù)目較少,導致其錯分的樣本對召回率影響較大,除白云巖外整體召回率在93.00%左右,實現(xiàn)了各巖性的有效召回。誤分巖性基本為相鄰的過渡巖性,且白云巖主要被誤分為灰質(zhì)白云巖,這2 種巖性轉(zhuǎn)換較為頻繁,導致LSTM在巖性轉(zhuǎn)換過程中容易發(fā)生誤分。
圖7 蘇里格氣田蘇東地區(qū)57-04 井不同方法的巖性識別結果Fig.7 Lithology identification results of well 57-04 in eastern block of Sulige gas field
表4 蘇里格氣田蘇東地區(qū)57-04 井LSTM 巖性識別混淆矩陣Table 4 LSTM lithology identification confusion matrix of well 57-04 in eastern block of Sulige gas field
為了進一步展示LSTM 模型對于巖性數(shù)據(jù)的序列特征學習能力,表5 為不同巖性識別方法的一階狀態(tài)轉(zhuǎn)移數(shù)目矩陣??梢钥闯觯篕NN 的識別結果中石灰?guī)r發(fā)生了過多的自轉(zhuǎn)移,同時大量的白云質(zhì)灰?guī)r和泥質(zhì)灰?guī)r的自轉(zhuǎn)移沒有被預測到,從而導致巖性識別效果較差,這也說明了KNN 這類傳統(tǒng)方法局限于點對點的識別,忽略了巖性序列的局部信息和序列的整體變化情況;傳統(tǒng)的序列統(tǒng)計方法HMM 雖然能夠考慮到巖性數(shù)據(jù)的序列性,但同時也假定巖性序列相互獨立,從而使得預測結果有所偏差,使得在泥質(zhì)灰?guī)r的預測誤差較大。LSTM 與鉆井數(shù)據(jù)的轉(zhuǎn)移基本一致,表明LSTM 模型預測巖性時充分考慮到巖性序列的沉積模式,使得巖性預測結果與實際地質(zhì)情況相符。
表5 蘇里格氣田蘇東地區(qū)57-04 井不同巖性識別方法一階狀態(tài)轉(zhuǎn)移數(shù)目Table 5 Number of first-order state transitions for different lithology identification methods in eastern block of Sulige gas field
為進一步說明該方法的泛化能力,基于上述過程,選擇55-010 井開展巖性識別,其識別結果如表6 所列。從表6 可看出,LSTM 模型仍然具有較高的識別精度,也體現(xiàn)了LSTM 模型具有較強的泛化性。
表6 蘇里格氣田蘇東地區(qū)55-010 井不同方法的巖性識別準確率Table 6 Lithology identification accuracy of different methods of well 55-010 in eastern block of Sulige gas field
(1)LSTM 模型有效地反映了巖性序列的時序空間特征,有助于巖性識別效果的提升。相對于傳統(tǒng)方法無序點集的學習識別,LSTM 算法的巖性識別模型從測井數(shù)據(jù)的序列出發(fā),有效捕捉到了巖性沉積模式和測井參數(shù)承載尺度信息,實現(xiàn)了測井序列和巖性序列的整體匹配。
(2)與決策樹、樸素貝葉斯、KNN,SVM,BP 神經(jīng)網(wǎng)絡等方法對比顯示,基于LSTM 模型的巖性識別方法更加精確,準確率可提高1.40%~12.25%,并對白云巖及其過渡巖性識別效果更好,同時對主要含氣儲層灰質(zhì)白云巖和白云質(zhì)灰?guī)r的召回率和準確率均達到93.00%以上,解決了實際生產(chǎn)需求。
(3)LSTM 模型對于測井數(shù)據(jù)具有良好的適用性,通過引入3 個門層,保證了信息傳遞的持續(xù)性,實現(xiàn)了自動提取測井數(shù)據(jù)的序列特征,挖掘空間結構,進而有效提升了巖性識別的精度,對于數(shù)據(jù)挖掘具有重要意義。