羅仁澤,周 洋,康麗俠,李興宇,郭 亮,庹娟娟
(1.西南石油大學(xué)油氣藏地質(zhì)及開發(fā)工程國家重點實驗室,西南石油大學(xué)地球科學(xué)與技術(shù)學(xué)院,四川成都610500;2.中國石油長慶油田分公司,寧夏銀川750005)
沉積微相是油氣勘探開發(fā)工作中至關(guān)重要的研究內(nèi)容之一,尤其對于明確剩余油富集區(qū)產(chǎn)量預(yù)測起著重要作用。傳統(tǒng)沉積微相劃分中,常以研究前人成果、區(qū)域沉積背景為基礎(chǔ),通過古生物學(xué)和沉積學(xué)等理論結(jié)合關(guān)鍵井巖心相標(biāo)志分析,確定研究區(qū)內(nèi)沉積類型;結(jié)合多種測井曲線形態(tài)特征,綜合分析巖石厚度、粒度等特征,劃分研究區(qū)沉積微相[1-2]。多種資料交叉分析的過程復(fù)雜且繁瑣,很難找出沉積相與各種測井?dāng)?shù)據(jù)之間的定性映射關(guān)系。
隨著計算機技術(shù)的飛速發(fā)展,機器學(xué)習(xí)在沉積微相上的運用主要方法有:BP神經(jīng)網(wǎng)絡(luò)[3]、支持向量機(SVM)[4]、模糊聚類神經(jīng)網(wǎng)絡(luò)[5]、KNN算法[6]和貝葉斯算法[7],然而,這些機器學(xué)習(xí)算法仍存在自身局限性,在很多情況下不能滿足沉積微相識別要求。BP神經(jīng)網(wǎng)絡(luò)雖然實現(xiàn)了輸入到輸出的映射功能,具有較強的非線性映射能力,但是BP神經(jīng)網(wǎng)絡(luò)收斂速度慢,容易陷入局部極小化,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練失敗,同時無法觀察學(xué)習(xí)過程,輸出結(jié)果難以理解;SVM算法在分類效果上表現(xiàn)很好,但是,對大規(guī)模訓(xùn)練樣本存在分類難的問題,參數(shù)調(diào)優(yōu)過程比較繁瑣。模糊聚類分析對噪聲和異常值很敏感,但其結(jié)果不穩(wěn)定;KNN算法計算量過大,樣本不平衡時,對少數(shù)量樣本預(yù)測準(zhǔn)確率低;貝葉斯算法對多分類問題很有效,對待測樣本預(yù)測,過程簡單且速度快,但是它有分布獨立的假設(shè)前提,而現(xiàn)實中預(yù)測問題很難完全獨立。此外,這些算法主要依附于特定的地質(zhì)環(huán)境和沉積背景,構(gòu)造對自然伽馬曲線形態(tài)類和物性類參數(shù)特征,而這些定量特征不具有泛化能力。
深度學(xué)習(xí)具有挖掘數(shù)據(jù)非線性關(guān)系的優(yōu)勢,目前尚無有效解決沉積微相識別的模型。遞歸神經(jīng)網(wǎng)絡(luò)能夠隨著時間推移進(jìn)行順序處理,2020年,SONG等[8]將長短期記憶網(wǎng)絡(luò)運用于測井曲線形態(tài)識別,僅采用單向序列對鐘形、漏斗形、卵形和箱形4類測井相進(jìn)行識別。經(jīng)本文實驗證明,用于時間序列預(yù)測的時間卷積網(wǎng)絡(luò)(TCN)同樣可用于沉積微相識別,但是,長短期記憶網(wǎng)絡(luò)和時間卷積網(wǎng)絡(luò)都只能對測井曲線序列在深度上進(jìn)行單向建模,當(dāng)輸入的原始信號采樣率較低,利用兩者對原始信號進(jìn)行處理均可以取得較好的效果。但是,在測井曲線序列中常用的信號大多是高采樣率信號,能夠有效反映井沉積特征的信號長度通常大于1000,甚至更長。而長短期記憶網(wǎng)絡(luò)和時間卷積網(wǎng)絡(luò)直接處理含有大量噪聲的高采樣率原始信號時,會造成模型參數(shù)過大,使模型難以訓(xùn)練,容易產(chǎn)生過擬合現(xiàn)象。另外,普通的長短期記憶網(wǎng)絡(luò)和時間卷積網(wǎng)絡(luò)模型只能記憶當(dāng)前深度之前的曲線變化特征。為了準(zhǔn)確反映整口井測井序列的沉積特征,亟需研究更準(zhǔn)確、泛化能力更強的有效識別沉積微相深度學(xué)習(xí)網(wǎng)絡(luò)模型。
本文提出了一種DMC-BiLSTM深度學(xué)習(xí)的沉積微相識別模型。利用DMC特征構(gòu)造,(D代表地質(zhì)趨勢特征,M代表中值濾波特征,C代表聚類特征),目的是為了更好提取原始自然伽馬曲線特征,消除噪聲對原始信號魯棒性和泛化能力的影響,為雙向長短期記憶(BiLSTM)網(wǎng)絡(luò)提供易捕獲的特征,從而提高算法的性能。利用雙向長短期記憶網(wǎng)絡(luò)提取當(dāng)前測井信號的前后深度序列變化特征,該變化特征能夠更好地反映沉積過程中能量的變化,預(yù)測沉積微相類型。
圖1給出了基于DMC-BiLSTM深度學(xué)習(xí)的沉積微相智能識別流程,具體實現(xiàn)過程如下。
圖1 基于DMC-BiLSTM深度學(xué)習(xí)的沉積微相智能識別流程
1) 數(shù)據(jù)預(yù)處理。主要是構(gòu)造三大類特征,包括地質(zhì)趨勢特征,中值濾波特征和聚類特征,簡稱DMC特征構(gòu)造。生成新的特征集合。
2) 數(shù)據(jù)劃分。將數(shù)據(jù)劃分為訓(xùn)練集和測試集。
3) 模型訓(xùn)練。搭建4層雙向長短期記憶網(wǎng)絡(luò)網(wǎng)絡(luò)模型,訓(xùn)練DMC-BiLSTM分類模型。
4) 模型驗證。使用測試集驗證DMC-BiLSTM分類模型的分類性能。
測井?dāng)?shù)據(jù)在采集的過程中,由于受到外界干擾或者儀器自身原因,導(dǎo)致有效信號中夾雜著各種噪聲。本文提出的DMC特征構(gòu)造非常適合測井曲線的信號處理,在進(jìn)行沉積微相識別之前,需要對測井曲線序列進(jìn)行預(yù)處理,構(gòu)造新的特征矩陣。
1.1.1 趨勢分量
STL算法[9]為時序分解中的一種常見算法,將某時刻數(shù)據(jù)分解為趨勢分量、周期分量和余項,根據(jù)對自然伽馬曲線的初步分析,加法模型滿足分解要求,即:
xt=Tt+St+Rtt=1,…,N
(1)
式中:xt為某深度下的曲線數(shù)據(jù);Tt為趨勢分量;St為周期分量;Rt為余項;t為某深度。
1.1.2 中值濾波
中值濾波基本原理為:通過設(shè)定窗口值,某點的輸出信號,就可以用這個點的窗口范圍內(nèi)所有信號的統(tǒng)計中值來代替。一維中值濾波可定義為:
yt=Med(xt-N,…,xt,…,xt+N)
(2)
式中:xt為深度t時的曲線數(shù)據(jù);yt為深度t時濾波后的數(shù)據(jù);t為某深度。
1.1.3 聚類特征
Kmeans是一種無監(jiān)督學(xué)習(xí)聚類算法[10],具體實現(xiàn)步驟為:
1) 將自然伽馬曲線特征數(shù)據(jù)聚為K類,選擇K個自然伽馬數(shù)據(jù)點作為初始中心點;
2) 按照距離初始中心點最小原則,將所有曲線數(shù)據(jù)分到各中心點所在類中;
3) 每類中有數(shù)據(jù)若干,計算K個類所有曲線樣本數(shù)據(jù)均值,作為第二次迭代的K個中心點;
4) 根據(jù)該中心點重復(fù)第2和第3步,直到收斂(中心點不再改變或達(dá)到指定迭代次數(shù))聚類過程結(jié)束。
歐氏距離是便于理解也最常用的一種距離公式。通過歐氏距離可以更好體現(xiàn)微小深度段內(nèi)自然伽馬曲線序列之間的相似程度,能充分體現(xiàn)自然伽馬曲線空間相關(guān)性。其定義為:
(3)
式中:x1k,x2k為兩個n維自然伽馬曲線特征向量。
1.2.1 基本原理
自然伽馬數(shù)據(jù)可以看作是隨深度變化的時間序列,其形態(tài)分類依賴于當(dāng)前輸入和之前狀態(tài)。假設(shè)給定自然伽馬序列x={x1,x2,…,xt,…,xN},雙向長短期記憶網(wǎng)絡(luò)[11]可以同時對每個序列進(jìn)行正向和反向建模,因為每個標(biāo)記編碼都包含來自過去和未來的上下文信息,因此可以更豐富地表示測井序列數(shù)據(jù)的長期依賴性。雙向長短期記憶網(wǎng)絡(luò)每層由單個長短期記憶網(wǎng)絡(luò)單元正反向傳播構(gòu)成(圖2)。
圖2 雙向長短期記憶網(wǎng)絡(luò)結(jié)構(gòu)
長短期記憶網(wǎng)絡(luò)可以解決循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)無法處理長距離的依賴問題。原始循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層只有一個狀態(tài),即h,它對短期的輸入非常敏感。增加一個狀態(tài)c,用來保存長期的狀態(tài),稱為單元狀態(tài)。再用3個門,即遺忘門(ft)、輸入門(it)和輸出門(ot),來控制c。結(jié)合構(gòu)成了長短期記憶網(wǎng)絡(luò)模型的核心部分“記憶塊”(圖3)??偟墓綖?
圖3 長短期記憶網(wǎng)絡(luò)運算流程示意
(4)
1.2.2 模型配置和訓(xùn)練
本文搭建4層的雙向長短期記憶網(wǎng)絡(luò)單元對自然伽馬曲線序列學(xué)習(xí),通過全連接層將學(xué)到的“分布式特征表示”映射到樣本標(biāo)記空間,最后將輸出向量輸入到包含5個神經(jīng)單元Softmax層,執(zhí)行測井相分類任務(wù)。為了避免模型過擬合,在網(wǎng)絡(luò)每一層添加系數(shù)為0.2的Dropout單元,通過舍棄一些連接,增加模型的泛化能力;采用Adam優(yōu)化算法,對梯度進(jìn)行更新,加快模型的收斂;使用交叉熵?fù)p失函數(shù)作為訓(xùn)練損失,有:
(5)
式中:x為輸入樣本,本文為20維的自然伽馬特征矩陣;y為期望的沉積微相類型輸出;S為Softmax函數(shù);Wc為輸出節(jié)點c的權(quán)重系數(shù);bc為輸出節(jié)點c的偏置系數(shù);θ為交叉熵?fù)p失函數(shù);a為神經(jīng)元實際輸出;n為總類別,本文為5種,即分流間灣、前緣席狀砂、水下分流河道、河口壩和河道側(cè)緣。
網(wǎng)絡(luò)層數(shù)越多非線性擬合能力越強,能夠識別曲線特征的復(fù)雜度越高,但是,過深的網(wǎng)絡(luò)結(jié)構(gòu)容易造成模型過擬合。為了使模型具有最優(yōu)的準(zhǔn)確率和泛化能力,通過對比不同網(wǎng)絡(luò)層數(shù)在測試集上準(zhǔn)確率和損失值的表現(xiàn),選擇最優(yōu)的網(wǎng)絡(luò)層數(shù)。如圖4和圖5所示,網(wǎng)絡(luò)輸入都是20維特征矩陣,每個模型迭代300輪,運用早停法,即模型在20輪中損失值不再下降,便停止迭代。例如,圖5中4層雙向長短期記憶網(wǎng)絡(luò)模型在迭代70輪左右后,損失值在接下來20輪中都趨于平穩(wěn),因此100輪左右后便停止訓(xùn)練,避免了模型過擬合現(xiàn)象的發(fā)生。對比圖4中的曲線,可看出網(wǎng)絡(luò)層數(shù)從1層增加到4層,模型在測試集上的準(zhǔn)確率不斷上升,在網(wǎng)絡(luò)層數(shù)為4層時,模型的擬合能力最佳,準(zhǔn)確率最高,而損失值也收斂得最快,最終的誤差值最小。當(dāng)網(wǎng)絡(luò)模型超過4層時,模型的準(zhǔn)確率下降,并且曲線跌宕幅度變大,過擬合風(fēng)險增加。因此,本文采用了4層的雙向長短期記憶網(wǎng)絡(luò)層數(shù)。最終,DMC-BiLSTM沉積微相識別模型如圖6所示,具體參數(shù)如表1。
圖4 不同網(wǎng)絡(luò)層數(shù)雙向長短期記憶網(wǎng)絡(luò)測試集準(zhǔn)確率對比
圖5 不同網(wǎng)絡(luò)層數(shù)雙向長短期記憶網(wǎng)絡(luò)測試集損失值對比
圖6 DMC-BiLSTM沉積微相識別模型示意
表1 雙向長短期記憶網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)
本文實驗用測井?dāng)?shù)據(jù)來自加州硅谷人工智能公司CrowdAnalytix提供的伽馬測井相類型預(yù)測(Gamma Log Facies Type Prediction)數(shù)據(jù)。自然伽馬測井特征的變化可以作為粒度的表征,使其在層序地層學(xué)分析中發(fā)揮重要作用[12]。自然伽馬測井響應(yīng)的突變被解釋為與不整合和層序邊界相關(guān)的尖銳的巖性斷裂。因此,測井曲線的基本形態(tài)常用來解釋沉積旋回和沉積背景[13]。表2是三角洲前緣亞相測井曲線類型。
表2 三角洲前緣亞相測井曲線類型
共有100口井?dāng)?shù)據(jù),每口井的數(shù)據(jù)共1100條。選取其中80口井的數(shù)據(jù)作為訓(xùn)練集,余下20口井的數(shù)據(jù)作為測試集,用來驗證本文方法對沉積微相的預(yù)測能力,表3是具體劃分的訓(xùn)練集和測試集。
表3 訓(xùn)練集及測試集
圖7中給出本文方法的預(yù)處理流程,具體實現(xiàn)過程如下。
圖7 數(shù)據(jù)預(yù)處理流程
1) 對原始自然伽馬測井曲線,采用STL算法,并使用不同奇數(shù)頻率窗口進(jìn)行分解,去除周期分量和余項,得到多個地質(zhì)趨勢分量特征;其次采用與趨勢分解相同頻率窗口,對原始曲線進(jìn)行中值濾波,得到多個中值濾波特征。
2) 將原始自然伽馬曲線和第1步中得到的地質(zhì)趨勢分量和中值濾波特征,作為Kmeans聚類的輸入的特征集合,進(jìn)行無監(jiān)督學(xué)習(xí),聚類時K值的選擇要大于沉積微相類別數(shù),此處選擇K=6,得到具有時空相關(guān)性聚類特征。
3) 原始自然伽馬曲線、地質(zhì)趨勢分量、中值濾波特征和聚類特征組成新的特征組合,對新特征集合進(jìn)行歸一化處理。
實驗均在Intel(R)Core(TM)i5-8300CPU@2.3GHz、8GB RAM設(shè)備上進(jìn)行。圖8以9號井為例,縱坐標(biāo)表示曲線數(shù)值大小,橫坐標(biāo)表示深度(需要特別說明的是,原始數(shù)據(jù)中無深度數(shù)據(jù),每口井有1100條數(shù)據(jù),文中以每口井的第1個點到最后1個點的長度作為理論深度),其中分解、濾波頻率窗口值均為19,對自然伽馬曲線進(jìn)行趨勢分量特征、中值濾波特征、Kmeans聚類特征構(gòu)造。能夠看出新的特征集合不僅能夠去除曲線中的高頻噪聲,保留地質(zhì)趨勢特征及有效的邊緣形態(tài)特征,還能充分體現(xiàn)曲線序列的時空相關(guān)性。在原始數(shù)據(jù)中為了使模型擬合能力更強,取數(shù)值范圍為3~20所有奇數(shù)濾波窗口(奇數(shù)濾波相比偶數(shù)濾波有中心點,對測井曲線整體形態(tài)以及曲線邊緣特征更加敏感,可以更有效地提取邊緣信息)進(jìn)行自然伽馬曲線特征構(gòu)造。最終新特征與原始自然伽馬曲線數(shù)據(jù),共同生成20維特征矩陣。
圖8 9號井自然伽馬曲線特征構(gòu)造
表3反映出數(shù)據(jù)中分流間灣類型明顯多于其余4個微相類型,存在數(shù)據(jù)不均衡現(xiàn)象,因此,采用單一評價指標(biāo)并不科學(xué)。本文引入多個評價指標(biāo),包括每一類的混淆矩陣(如表4所示)、精確率、召回率、F1值和整體的準(zhǔn)確率[14],利用這些指標(biāo)對預(yù)測結(jié)果做全方位評價,綜合反映模型分類效果。
表4 混淆矩陣統(tǒng)計
1) 混淆矩陣。
2) 準(zhǔn)確率。
模型預(yù)測正確的結(jié)果占總結(jié)果的比重為:
(6)
3) 精確率。
模型預(yù)測為正例的結(jié)果中的真正實例所占比重為:
(7)
4) 召回率。
模型預(yù)測中樣本的正例有多少被預(yù)測正確。
(8)
5)F1值。
精確率和召回率的調(diào)和平均值:
(9)
公式(6)~公式(9)中:A為準(zhǔn)確率;P為精確率;R為召回率;F1為F1值;TP為真正例;FP為假正例;TN為真負(fù)例;FN為假負(fù)例。
從混淆矩陣及各類評價指標(biāo)(表5)中可以看出,本文方法在測試集上分流間灣、前緣席狀砂、水下分流河道、河口壩、河道側(cè)緣分類精確率分別達(dá)到了96%,81%,93%,87%和88%。其中,對呈低幅微齒狀的分流間灣劃分效果最佳,可能與分流間灣主要以泥巖沉積為主,表現(xiàn)為高自然伽馬值有關(guān),易識別;其次,是對箱形水下分流河道的識別,精確率、召回率以及F1值都達(dá)到90%以上;在其它曲線形態(tài)識別上,各類指標(biāo)值略低,可能因為三者在自然伽馬曲線形態(tài)上區(qū)分不大,只是在沉積時水流進(jìn)積和退積的區(qū)別,但在預(yù)測的精確率也都達(dá)到80%以上??偠灾?模型在測試集上的整體預(yù)測能力表現(xiàn)優(yōu)異,平均精確率、平均召回率和平均F1值都在85%以上,準(zhǔn)確率也達(dá)到了91.69%。
表5 混淆矩陣及各類評價指標(biāo)
為了進(jìn)一步評估所提出的DMC-BiLSTM模型,還使用其它兩種適用于序列預(yù)測的深度學(xué)習(xí)模型(長短期記憶網(wǎng)絡(luò)和時間卷積網(wǎng)絡(luò))與本文方法在每個類別的識別精度、整體準(zhǔn)確率和運行時長等方面進(jìn)行對比。需要特別說明的是,在本文實驗中,3種神經(jīng)網(wǎng)絡(luò)除了基礎(chǔ)算法本質(zhì)上的不同外,其余參數(shù)都盡量保持了一致,神經(jīng)網(wǎng)絡(luò)隱含層的激活函數(shù)均設(shè)置為ReLU函數(shù),輸出層的激活函數(shù)設(shè)置為Softmax函數(shù)。在模型的訓(xùn)練過程中,都使用了小批量梯度下降和Adam優(yōu)化器,對梯度進(jìn)行更新,且運用了早停法對3個模型均訓(xùn)練300輪。DMC-BiLSTM模型采用了4層的雙向長短期記憶網(wǎng)絡(luò)單元,長短期記憶網(wǎng)絡(luò)模型采用了4層網(wǎng)絡(luò)單元,時間卷積網(wǎng)絡(luò)模型采用了4層的殘差單元。模型的輸入均為20維自然伽馬曲線特征,長度為1100的測井曲線序列。
最終結(jié)果如表6所示。在運行的實效性方面,此處以秒(s)作為運行時長的單位。本文方法的雙向長短期記憶網(wǎng)絡(luò)單元是由正向和反向傳播的長短期記憶網(wǎng)絡(luò)單元構(gòu)成,模型的運行時長大概是普通長短期記憶網(wǎng)絡(luò)單元的兩倍左右;而時間卷積網(wǎng)絡(luò)可以對測井序列進(jìn)行并行運算,降低了運行時長。雖然本文方法在運行時長上相比其它兩種深度學(xué)習(xí)算法不具有優(yōu)勢,但明顯縮短了人工劃分的工作時長。本文方法無論在每一類識別的精確率上,還是對沉積微相識別的整體準(zhǔn)確率上效果都是最佳的,最終準(zhǔn)確率達(dá)到91.69%。與其它兩種模型相比,高出長短期記憶網(wǎng)絡(luò)單元模型7%左右,高出時間卷積網(wǎng)絡(luò)模型12%左右。證明了本文方法在沉積微相分類準(zhǔn)確度方面具有明顯的優(yōu)勢。
表6 各類微相識別方法的結(jié)果
圖9中給出了3種模型對97號井沉積微相識別的可視化結(jié)果。前4列是4種曲線特征,自然伽馬列表示原始自然伽馬曲線,地質(zhì)趨勢和中值濾波列都是以濾波窗口19為例對應(yīng)的兩種曲線特征,聚類特征列就是前3種特征集合,經(jīng)過Kmeans無監(jiān)督學(xué)習(xí)聚類后的曲線特征;后4個柱狀圖,分別代表著人工標(biāo)定的沉積微相,以及DMC-BiLSTM、長短期記憶網(wǎng)絡(luò)和時間卷積網(wǎng)絡(luò)3種模型對97號井沉積微相識別的結(jié)果。對比發(fā)現(xiàn),本文方法的沉積微相識別結(jié)果,與地質(zhì)專家人工標(biāo)定的結(jié)果吻合率更高,能夠很好地識別出不同曲線形態(tài)類別。不足之處在于,當(dāng)水動力發(fā)生改變,同時產(chǎn)生的能量變化微弱,那么曲線的頂?shù)捉佑|只發(fā)生微小變化,但沉積微相過渡成另外一種類型,模型在識別這種情況下的不同沉積微相之間的頂?shù)捉佑|往往會出現(xiàn)誤差(圖9中紅色箭頭所示)。當(dāng)水動力能量變化較大時,本文方法能夠很好地識別不同沉積微相之間的頂?shù)捉缦?。而其它兩種方法識別結(jié)果是紊亂的,不僅不能夠很好地體現(xiàn)出整口井的沉積規(guī)律,而且在識別不同類別之間的界限上表現(xiàn)較差。
圖9 不同模型對97號井預(yù)測沉積微相對比
本文提出的基于DMC-BiLSTM的沉積微相智能識別方法,構(gòu)建了3種特征,即地質(zhì)趨勢特征、中值濾波特征和聚類特征。地質(zhì)趨勢特征能夠很好地反映一定深度內(nèi)曲線的變化趨勢;中值濾波特征既能去除測井曲線中的高頻噪聲,又能保留有效的邊緣信息;聚類特征則能更好地反映測井曲線的時空相關(guān)性,區(qū)分不同曲線形態(tài)之間的邊界。將本文方法與仿真得到的時間卷積網(wǎng)絡(luò)模型和長短期記憶網(wǎng)絡(luò)模型進(jìn)行比較,本文方法的分類準(zhǔn)確率為91.69%,高于時間卷積網(wǎng)絡(luò)模型的79.21%和長短期記憶網(wǎng)絡(luò)模型的83.99%。本文方法可以實現(xiàn)測井曲線的端到端學(xué)習(xí),對分流間灣、前緣席狀砂、分流河道、河口壩和河道側(cè)緣等各類沉積微相的識別精確率分別為96%,81%,93%,87%和88%。實驗結(jié)果表明,本文方法有助于提取測井曲線序列的隱藏特征,準(zhǔn)確地劃分不同沉積微相的分類界限。該方法能有效識別沉積微相,具有較強的泛化能力和魯棒性,為沉積微相的識別提供了一種新途徑。