尚福華,盧玉瑩,曹茂俊
(東北石油大學(xué) 計算機與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
測井曲線作為連接地震與地質(zhì)的橋梁和紐帶,在測井資料解釋和反演過程中發(fā)揮著至關(guān)重要的作用,但是在實際測井過程中時常會因為儀器測量或者井眼原因等造成部分測井曲線失真或缺失,然而重新測井不僅成本較高,且對已經(jīng)完井的井眼難以實現(xiàn)。為解決該問題,廖茂輝等人[1]提出基于多元回歸分析的測井曲線重構(gòu)方法,然而由于地質(zhì)情況的復(fù)雜性很難用確定的函數(shù)表達[2],故該方法通常精度較低;蔡大偉等人[3]提出了一種基于視覺原理的曲線重構(gòu)方法;Salehi等人[4]利用多層感知機預(yù)測了密度測井和電測井曲線,可接受的精度和使用常規(guī)測井?dāng)?shù)據(jù)是其所提出的智能模型的突出優(yōu)點;金永吉等人[5]針對測井曲線重構(gòu)問題,提出利用遺傳算法對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)、權(quán)重和閾值進行優(yōu)化,有效克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的冗余結(jié)構(gòu)和局部最小化趨勢等缺點;王俊等人[6]提出了利用門控循環(huán)神經(jīng)網(wǎng)絡(luò)重構(gòu)聲波時差測井曲線的方法,預(yù)測準(zhǔn)確度較高,但重構(gòu)的測井曲線與真實曲線之間亦存在一定的偏差;張東曉等人[7]構(gòu)建了串級長短期記憶神經(jīng)網(wǎng)絡(luò)用于重構(gòu)測井曲線,該方法生成的曲線兼顧了測井信息隨深度的變化趨勢和前后關(guān)聯(lián)。但是,目前表現(xiàn)較為優(yōu)異的測井曲線重構(gòu)模型大多基于數(shù)據(jù)驅(qū)動,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型與工程實踐的結(jié)合過于直接,很少參考具體的領(lǐng)域知識,事實上通過引入領(lǐng)域知識可以打破深度學(xué)習(xí)模型效果提升的瓶頸[8]。因此可參考測井領(lǐng)域知識提高測井曲線重構(gòu)準(zhǔn)確度。
長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[9]通過三種“門”結(jié)構(gòu)進行信息的傳遞,在循環(huán)神經(jīng)網(wǎng)絡(luò)[10]的基礎(chǔ)上通過增加細胞狀態(tài)實現(xiàn)了長期狀態(tài)信息的記錄,對于具有長期依賴關(guān)系的樣本數(shù)據(jù)具有較好的分類效果。因此,提出基于改進LSTM神經(jīng)網(wǎng)絡(luò)的測井曲線重構(gòu)方法,在善于處理序列數(shù)據(jù)的LSTM網(wǎng)絡(luò)中引入測井領(lǐng)域知識和注意力機制構(gòu)建DK-LSTM測井曲線重構(gòu)模型。以大慶油田某工區(qū)水平井?dāng)?shù)據(jù)為例,根據(jù)已知水平井的測井曲線通過使用DK-LSTM測井曲線重構(gòu)模型預(yù)測缺失的測井?dāng)?shù)據(jù)。
相關(guān)性分析指的是對測井曲線之間的相互依存關(guān)系進行分析,從而找出其內(nèi)在關(guān)系。測井曲線數(shù)據(jù)之間不僅存在線性相關(guān)性,而且存在很大的非線性關(guān)系,基于大慶油田某工區(qū)三口水平井(分別為A、B和C井)的真實測井?dāng)?shù)據(jù),假設(shè)聲波時差測井曲線(HAC)存在缺失,采用統(tǒng)計學(xué)Pearson相關(guān)系數(shù)進行測井?dāng)?shù)據(jù)之間的相關(guān)性分析。從圖1相關(guān)性分析結(jié)果不難看出,中子(CNL)、密度(DEN)、井徑(CAL)和電阻率(RT)與聲波時差(HAC)測井曲線之間的相關(guān)系數(shù)較高,其中井徑測井曲線與聲波時差測井曲線間存在最強的依賴關(guān)系,其他曲線與之則存在相對較弱的線性關(guān)系和非線性關(guān)系。
圖1 HAC與其他測井曲線之間的相關(guān)性
長短期記憶網(wǎng)絡(luò)(LSTM)是一種具有更為復(fù)雜和強大的漸變處理能力的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),在LSTM網(wǎng)絡(luò)中記憶單元c可以在某個時刻捕捉到某個關(guān)鍵信息,并可以將此關(guān)鍵信息保存一定的時間間隔[11],其保存信息的生命周期要長于短期記憶h,但又遠遠短于長期記憶,因此稱為長短期記憶,其可以有效地解決RNN的長程依賴問題[8]。
長短期記憶神經(jīng)網(wǎng)絡(luò)的內(nèi)部單元結(jié)構(gòu)如圖2所示,其在簡單循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上主要有兩方面的改進:其一,LSTM網(wǎng)絡(luò)引入門控機制來控制信息傳遞的路徑,三個門動態(tài)控制內(nèi)部狀態(tài)應(yīng)該遺忘多少歷史信息、輸入多少新信息以及輸出多少信息,整個網(wǎng)絡(luò)可以建立較長距離的時序依賴關(guān)系;其二,LSTM神經(jīng)網(wǎng)絡(luò)通過引入一個新的內(nèi)部狀態(tài)ct傳遞循環(huán)信息,并輸出給外部狀態(tài)ht,并記錄到當(dāng)前時刻為止的歷史信息。主要通過下述公式進行計算:
(1)
ht=ot⊙tanh(ct)
(2)
圖2 LSTM網(wǎng)絡(luò)的循環(huán)單元結(jié)構(gòu)
由于測井曲線的采樣間隔大多為0.125 m,并且測井?dāng)?shù)據(jù)中存在前后相關(guān)性,LSTM神經(jīng)網(wǎng)絡(luò)可沿深度分別從前向和后向提取測井序列特征數(shù)據(jù),充分利用前后序列中的依賴信息對聲波時差測井曲線進行預(yù)測。因此,LSTM是生成人工測井?dāng)?shù)據(jù)的理想模型架構(gòu)。
領(lǐng)域知識(DK)是指某一個特定領(lǐng)域內(nèi)的集合,該集合具體包括這一領(lǐng)域的相關(guān)概念、概念之間的某種關(guān)系以及對部分概念的約束[12]。測井領(lǐng)域知識涉及到的知識內(nèi)容復(fù)雜,具有多種類型??蓜澐譃槭聦嵭椭R、過程型知識、實例型知識和元知識[13]:
(1)事實型知識是指測井資料中的參數(shù)、模板和圖版等基礎(chǔ)信息;
(2)過程型知識是指在測井過程中的業(yè)務(wù)邏輯以及領(lǐng)域規(guī)則等;
(3)實例型知識是指概念的個體實例,例如某口井的數(shù)據(jù);
(4)元知識是對上述幾種類型進行描述的知識。
結(jié)合專家經(jīng)驗,針對測井曲線重構(gòu)模型引入事實型知識。利用地層巖性特征指數(shù)(GS)作為過濾離散數(shù)據(jù)的優(yōu)化策略,從而篩選得到高質(zhì)量的訓(xùn)練樣本并作為重構(gòu)測井曲線的依據(jù);在標(biāo)準(zhǔn)長短期記憶神經(jīng)網(wǎng)絡(luò)模型中構(gòu)建一個全連接模擬層添加測井領(lǐng)域知識約束,通過引入統(tǒng)計學(xué)Pearson函數(shù)分析中影響因子較大的測井領(lǐng)域知識對測井曲線重構(gòu)模型添加先驗約束。據(jù)此,充分考慮到測井領(lǐng)域的先驗知識構(gòu)建測井曲線重構(gòu)模型以期提升模型的預(yù)測精度。
注意力機制通過構(gòu)造一個簡單的注意力神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)負責(zé)接收與注意力有關(guān)的輸入向量,從而達到對特征自適應(yīng)關(guān)注的目的,進一步提高深度學(xué)習(xí)模型的特征提取能力[11]。注意力機制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 簡單的注意力機制網(wǎng)絡(luò)結(jié)構(gòu)
其中,H為特征矩陣[h1,h2,…,hn],A是表示注意力機制所使用的輸入向量[a1,a2,…,am,…,an],en∈Rn,α是輸入特征矩陣H的注意力權(quán)重向量,r是表示特征矩陣H的加權(quán)和,是網(wǎng)絡(luò)最后的輸出特征[14]。下述公式是描述注意力機制神經(jīng)網(wǎng)絡(luò)的函數(shù):
(3)
α=softmax(WTM)
(4)
r=HαT
(5)
依據(jù)聲波時差測井曲線與井徑之間的強相關(guān)關(guān)系,在測井曲線重構(gòu)模型中添加一個簡單的注意力機制神經(jīng)網(wǎng)絡(luò),通過該機制實現(xiàn)對特征的自適應(yīng)關(guān)注,從而進一步對數(shù)據(jù)中存在的長期依賴關(guān)系建模,從而提高模型的特征提取能力。
為減小輸入測井曲線值異常造成的實驗誤差,采用z-score標(biāo)準(zhǔn)化方法對輸入數(shù)據(jù)進行歸一化處理,以保證測井曲線數(shù)據(jù)處于合適的范圍,有利于提高地層劃分準(zhǔn)確度[6],即按照下述公式進行標(biāo)準(zhǔn)化:
(6)
DK-LSTM測井曲線重構(gòu)模型主要包括DK-LSTM神經(jīng)網(wǎng)絡(luò)和注意力機制兩部分,其中,DK-LSTM神經(jīng)網(wǎng)絡(luò)是對長短期記憶神經(jīng)網(wǎng)絡(luò)的改進,在網(wǎng)絡(luò)輸入層同時考慮測井曲線和地層巖性特征指數(shù),并構(gòu)建一個全連接模擬層用于引入測井領(lǐng)域知識中的先驗信息;此外,注意力機制作用于DK-LSTM神經(jīng)網(wǎng)絡(luò)的輸出層,對HAC測井曲線數(shù)據(jù)中的長期依賴關(guān)系進行建模。
該模型包含一種改進的長短期記憶神經(jīng)網(wǎng)絡(luò)DK-LSTM,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,與標(biāo)準(zhǔn)的長短期記憶神經(jīng)網(wǎng)絡(luò)的不同主要在于,通過改變網(wǎng)絡(luò)結(jié)構(gòu)引入領(lǐng)域知識約束層,將測井領(lǐng)域先驗信息添加到重構(gòu)模型中,約束層在本質(zhì)上是對數(shù)據(jù)進行先壓縮再擴展,即做非線性變換。與此同時,結(jié)合相關(guān)性分析結(jié)果將部分特征再次輸入模型,以期提高模型的預(yù)測準(zhǔn)確度。需要明確的是,其中知識約束層的神經(jīng)元僅在結(jié)構(gòu)上仿照測井曲線數(shù)據(jù),并不參與模型的擬合與訓(xùn)練。
圖4 DK-LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
另外,基于聲波時差測井曲線對井徑的強依賴關(guān)系,DK-LSTM測井曲線重構(gòu)模型在DK-LSTM神經(jīng)網(wǎng)絡(luò)的末端添加一個簡單的注意力機制神經(jīng)網(wǎng)絡(luò)。注意力機制作用在DK-LSTM單元的輸出層,用來模擬數(shù)據(jù)間的長期依賴關(guān)系,依據(jù)聲波時差測井曲線缺失的問題使用井徑測井曲線(CAL)構(gòu)造輸入向量A,由注意力機制神經(jīng)網(wǎng)絡(luò)可以即可得到特征向量H的注意力權(quán)重,并計算其權(quán)重加權(quán)和,相關(guān)原理如1.4節(jié)所述。DK-LSTM測井曲線重構(gòu)模型算法流程如圖5所示。
圖5 DK-LSTM測井曲線重構(gòu)模型算法流程
Step1:輸入測井曲線相關(guān)的序列數(shù)據(jù),包括CAL、RT、DEN測井曲線和地層巖性特征指數(shù)(GS),采用z-score方法對數(shù)據(jù)進行標(biāo)準(zhǔn)化,并劃分數(shù)據(jù)集和測試集,對應(yīng)圖5中的Input layer層。
Step2:將每個輸入傳入圖4的DK-LSTM神經(jīng)網(wǎng)絡(luò),訓(xùn)練后得到特征向量H=[h1,h2,…,hn],對應(yīng)圖5中的LSTM layer層。
Step3:在DK-LSTM神經(jīng)網(wǎng)絡(luò)的輸出單元以端對端的形式添加注意力機制,根據(jù)任務(wù)構(gòu)造井徑測井曲線向量A,利用公式(3)和(4)計算特征向量H的注意力權(quán)重值α=[α1,α2,…,αn],通過所得的注意力權(quán)重α利用公式(5)對所有特征向量H進行加權(quán)求和得到r,對應(yīng)圖5中的Attention layer層。
Step4:預(yù)測輸出器位于DK-LSTM測井曲線重構(gòu)模型的末端,為一個單層的全連接網(wǎng)絡(luò),按照公式(7)、(8)進行計算,其中,Wp、Ws∈Rd×2d和bs=Rd均可在訓(xùn)練期間通過學(xué)習(xí)獲得,對應(yīng)圖5中的Output layer層。
hs=tanh(Wpr+Wshn)
(7)
(8)
實驗數(shù)據(jù)來源于大慶油田某工區(qū)的三口水平井(分別為A、B和C井),每口水平井均包含五條測井曲線,分別為電阻率(RT)、密度(DEN)、中子(CNL)、聲波時差(HAC)和井徑(CAL),分別選取測井曲線662 m~930 m數(shù)據(jù)段(采樣間隔為0.125 m)進行實驗。
基于測井領(lǐng)域知識對實驗數(shù)據(jù)進行篩選,引入地層巖性類別(GS)特征指數(shù),通過設(shè)置不同巖性類別提取值,可對測井曲線數(shù)據(jù)進行劃分。為保證數(shù)據(jù)的充分性,需要通過對自定義提取值取進行分析,從而得出較為合理的提取值集合,并選擇該集合下的標(biāo)記數(shù)據(jù)作為最終實驗數(shù)據(jù)[15]。
提取值的確定以地層巖性類別為基準(zhǔn),在各種類型的巖性區(qū)間(001、010、100)內(nèi),其中001代表泥巖,010代表粉砂巖,100代表細砂巖,以參考變化結(jié)果為依據(jù),對所有設(shè)定提取值下的樣本標(biāo)記結(jié)果進行統(tǒng)計,綜合考慮所有地層巖性類別篩選得到高質(zhì)量的數(shù)據(jù)集。部分具有代表性的樣本數(shù)據(jù)如表1所示。
表1 部分學(xué)習(xí)樣本數(shù)據(jù)
結(jié)合大慶某工區(qū)的三口水平井?dāng)?shù)據(jù)的相關(guān)性分析結(jié)果設(shè)計三組實驗,分別根據(jù)兩口已知井的測井?dāng)?shù)據(jù)和地層巖性特征指數(shù)估計未知井缺失的聲波時差測井曲線。在模型的訓(xùn)練過程中,把DK-LSTM神經(jīng)網(wǎng)絡(luò)獲得的特征矩陣H添加到注意力機制的輸入中,在注意力機制神經(jīng)網(wǎng)絡(luò)中根據(jù)HAC對井徑測井曲線的強依賴關(guān)系構(gòu)造輸入向量A,從而獲得矩陣H的注意力權(quán)重,更加準(zhǔn)確地預(yù)測未知測井曲線(HAC)。以本實驗中的數(shù)據(jù)和問題為例,由DK-LSTM測井曲線重構(gòu)模型分別得到的三口水平井HAC測井曲線如圖6所示。
由圖6可以看出,采用DK-LSTM神經(jīng)網(wǎng)絡(luò)模型進行測井曲線重構(gòu)取得了較好的效果,其充分利用測井曲線之間的線性關(guān)系和非線性關(guān)系,很好地學(xué)習(xí)到測井曲線隨深度變化的特性,可以根據(jù)已知測井?dāng)?shù)據(jù)生成補全未知的曲線,基本能夠反映失真或缺失段測井曲線的變化趨勢。為證明DK-LSTM測井曲線重構(gòu)模型的穩(wěn)定性和準(zhǔn)確度添加對比實驗,根據(jù)文獻[7]構(gòu)建標(biāo)準(zhǔn)長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)和串級長短期記憶神經(jīng)網(wǎng)絡(luò)(CLSTM)針對篩選后的數(shù)據(jù)樣本進行測井曲線重構(gòu)。采用均方誤差(MSE)作為評價重構(gòu)效果的標(biāo)準(zhǔn),具體公式如下:
圖6 聲波時差測井曲線重構(gòu)結(jié)果
(9)
表2 測井曲線重構(gòu)精度MSE值
由表2可知,利用DK-LSTM測井曲線重構(gòu)模型較標(biāo)準(zhǔn)長短期記憶神經(jīng)網(wǎng)絡(luò)和串級長短期記憶神經(jīng)網(wǎng)絡(luò)重構(gòu)缺失或失真部分測井曲線的結(jié)果精度更高、定性更強。
經(jīng)過仿真實驗表明,利用改進的長短期記憶神經(jīng)網(wǎng)絡(luò)融合注意力機制很好地生成補全了聲波時差測井曲線,與標(biāo)準(zhǔn)長短期記憶神經(jīng)網(wǎng)絡(luò)和串級長短期記憶神經(jīng)網(wǎng)絡(luò)對缺失段測井曲線重構(gòu)效果相比,DK-LSTM測井曲線重構(gòu)模型具有較高的準(zhǔn)確性和魯棒性。提出的基于改進的長短期記憶神經(jīng)網(wǎng)絡(luò)生成人工測井曲線的方法精度較高且成本低,該方法有助于更全面地認識地層并創(chuàng)新鉆完井策略,為測井曲線重構(gòu)提供了一種新思路。