陳 雁,焦世祥,程 超,黃 成,蔣裕強
(西南石油大學(xué),四川 成都 610500)
東河塘油田是塔里木盆地的第1個高產(chǎn)高豐度的海相砂巖油田,東河塘地區(qū)石炭系砂巖存在大量隔夾層,且多數(shù)隔夾層厚度在0.5 m 以下[1-2]。不同類型隔夾層的形成條件多樣、分布規(guī)律復(fù)雜,給油氣田的二次開發(fā)帶來了極大的困難[3-6]。基于測井資料的隔夾層識別常采用地質(zhì)統(tǒng)計學(xué)法、交會圖法和蜘蛛網(wǎng)圖模式法等[7-10]。由于測井資料受垂向分辨率和薄層效應(yīng)的影響,且地下地質(zhì)情況復(fù)雜,具有較強的非均質(zhì)性,測井曲線的交會圖難以對隔夾層進行準(zhǔn)確有效的識別。隨著人工智能技術(shù)的普及,越來越多地質(zhì)專家嘗試使用機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)技術(shù)來解決地質(zhì)問題[11-14]。但東河塘油田巖心標(biāo)定的隔夾層樣本較少,且隔夾層各類別樣本數(shù)量差距較大,導(dǎo)致常規(guī)機器學(xué)習(xí)算法分類效果不理想[15-16]。文中提出的基于異常檢測思想計算異常得分,通過異常得分對隔夾層進行分類的方法能在一定程度上解決該問題,并結(jié)合半監(jiān)督學(xué)習(xí)方法,研究如何利用未標(biāo)記樣本提升模型性能,以此降低樣本分布不均衡及小樣本問題對模型的影響。該研究能使隔夾層的識別變得更加快速、智能與精確,其結(jié)果也能為勘探人員精細刻畫地下流體的分布提供一定的依據(jù)。
自編碼器的目標(biāo)是學(xué)習(xí)一種對數(shù)據(jù)集的壓縮且分布式的表示方法(編碼思想)。自編碼器由深度神經(jīng)網(wǎng)絡(luò)組成的編碼器與解碼器2個部分組成,使自編碼器能夠處理類似異或問題的非線性數(shù)據(jù)[17]。
圖1為自編碼器示意圖。由圖1可知,自編碼器的編碼器(Encoder)是將輸入向量 X=(x1,x2,…,xd)T變換為潛變量 Z=(z1,z2,…,zd')T的定性映射函數(shù),為典型的非線性仿射映射:
圖1 自編碼器示意圖Fig.1 Schematic diagram of the self-encoder
式中:X為d維的輸入向量;Z為d'維的潛變量;E為編碼器函數(shù);θ為參數(shù)集,θ={W,b};W為d×d'維的權(quán)重矩陣;b為d'維的偏置向量;σ為激活函數(shù)。
解碼器(Decoder)是將潛變量的結(jié)果Z反向映射到輸入空間的 d維重構(gòu)向量的映射函數(shù),仍是典型的仿射映射。
式中:D 為解碼器函數(shù);θ'={W',b'};W'為 d'×d 維的權(quán)重矩陣;b'是d維的偏置向量。
自編碼器的目的是讓潛變量Z盡可能地復(fù)現(xiàn)輸入向量X,因此,通過訓(xùn)練,自編碼器嘗試去學(xué)習(xí)方程:
訓(xùn)練好的自編碼器有能力通過潛變量重構(gòu)與輸入數(shù)據(jù)X同分布的向量。如果一個樣本與訓(xùn)練數(shù)據(jù)集樣本特征之間相關(guān)性和分布不同,會使重構(gòu)之后的向量與輸入向量之間有較大的差異[18-21]。兩者之間的差異性可以用輸入數(shù)據(jù)和重構(gòu)數(shù)據(jù)之間的均方根誤差(root mean squared error,RMSE)衡量,均方根誤差根據(jù)下面方程定義:
式中:n為樣本總數(shù)。
自編碼器通常用于異常檢測或降維[22-23],而對于該模型用于分類任務(wù)的研究還較少。現(xiàn)假設(shè)新樣本屬于某類別的可能性由新樣本計算得到的分數(shù)Spoint與現(xiàn)有類別樣本集的得分中心點和得分區(qū)間有關(guān),其具體的關(guān)系是:①由新樣本計算得到的Spoint與計算歐式距離,該距離越大就越可能屬于某類別;②某類別的越大,則新樣本屬于該類別的概率越大。基于以上觀點,設(shè)計距離得分公式為:
基于式(5)得到的4個距離得分,通過softmax函數(shù)進行歸一化轉(zhuǎn)換,得到該樣本歸為某個類別的概率,轉(zhuǎn)換公式為:
式中:pi為新樣本所屬類別的概率置信度。
通過對式(8)的求解可得到新樣本屬于4類隔夾層的概率置信度。
為避免因隔夾層樣本與砂體樣本采樣不合理導(dǎo)致模型的泛化性降低,在使用改進自編碼器方法對隔夾層進行識別的基礎(chǔ)上,參考半監(jiān)督方法的自訓(xùn)練思想,利用新樣本對參數(shù)進行更新,因此,隨著樣本數(shù)量逐漸增加,會降低原始訓(xùn)練數(shù)據(jù)對模型參數(shù)的影響,模型的泛化性更強,實現(xiàn)模型的自適應(yīng)與智能化。更新的參數(shù)為的更新方式為每個類別根據(jù)已經(jīng)計算的得分總值與已經(jīng)投入計算的樣本數(shù)Counti求得均值,而得到新的,得分邊界的更新則是根據(jù)新樣本的重構(gòu)誤差來更新最大或最小邊界值。參照拒絕采樣的方法,假設(shè)只有當(dāng)新樣本屬于某類別的概率大于某閾值時,該樣本會落在該類別的置信區(qū)間,此時才使用新樣本對模型參數(shù)進行更新。此次研究設(shè)置概率閾值α為0.85。
以哈德遜油田東河塘砂巖段為研究對象,從目標(biāo)層位的測井?dāng)?shù)據(jù)中提取能表征隔夾層信息的深度值、GR、AC、CNL、DEN 等 10維特征作為模型的輸入向量。訓(xùn)練模型使用60%的數(shù)據(jù)集,余下的20%作為模型調(diào)參的驗證集,最后的20%作為評估模型泛化能力的測試集。
2.2.1 構(gòu)造交叉特征
為了更好地探索特征與標(biāo)簽之間的非線性關(guān)系,對選取的特征進行有機組合,組合成高階特征。以特征個數(shù)為3、度為2的多項式組合為例,具體的組合公式為:
式中:xi為原始數(shù)據(jù)集中某一維特征。
2.2.2 特征歸一化
在神經(jīng)網(wǎng)絡(luò)的反向傳播過程中,參數(shù)的更新依賴于每輪迭代所計算出的梯度,而梯度的值與輸入?yún)?shù)有關(guān),如果輸入過大會使得梯度較大,給參數(shù)更新帶來新的數(shù)值問題,甚至出現(xiàn)梯度爆炸的情況,導(dǎo)致模型無法進行訓(xùn)練、調(diào)優(yōu)。為解決神經(jīng)網(wǎng)絡(luò)中的數(shù)值問題以及訓(xùn)練過程中面臨的初始化和梯度問題,需要對輸入數(shù)據(jù)進行歸一化或者標(biāo)準(zhǔn)化。由于有效的測井?dāng)?shù)據(jù)較為穩(wěn)定,不存在極端的最大和最小值,因此,使用線性歸一化中的0~1歸一化。歸一化公式如下:
式中:x'為歸一化之后的值;x表示歸一化之前的值;Xmax、Xmin為該列特征中的最大、最小值。
通過式(9)對原始數(shù)據(jù)構(gòu)建多項式特征,使得10維特征升至66維。為探討不同神經(jīng)網(wǎng)絡(luò)層數(shù)對模型結(jié)果的影響,構(gòu)建3個不同層數(shù)的模型作為對比模型,層數(shù)分別為5、7、9層。將這3個模型分別命名為AE5、AE7、AE9。AE5模型的節(jié)點數(shù)分別為 66、32、8、32、66;AE7 模型的節(jié)點數(shù)分別為66、32、16、8、16、32、66;AE9 模型的節(jié)點數(shù)分別為66、64、32、16、8、16、32、64、66。自編碼器本身的網(wǎng)絡(luò)結(jié)構(gòu)為對稱型,因此,左右兩邊的網(wǎng)絡(luò)層數(shù)是對稱的。編碼器與解碼器中間層的激活函數(shù)采用Sigmoid函數(shù)以防止梯度爆炸,頭尾部分的激活函數(shù)采用ReLU函數(shù)來避免過擬合以及防止重構(gòu)誤差太小。損失函數(shù)為輸入向量與重構(gòu)向量的均方根誤差。
訓(xùn)練過程中設(shè)置學(xué)習(xí)率為1×10-4,訓(xùn)練批尺寸 (batch size)為100,即每次訓(xùn)練隨機從訓(xùn)練數(shù)據(jù)集中抽取100組樣本作為訓(xùn)練數(shù)據(jù)。損失函數(shù)值的下降情況如圖2所示,3種網(wǎng)絡(luò)模型在迭代1 500次左右基本達到收斂,但AE7在后續(xù)的迭代過程中繼續(xù)收斂,迭代到3 500次時模型基本收斂,而AE5在迭代到1 800次時基本達到收斂,雖然后續(xù)迭代過程中也存在階段性收斂,但最終的重構(gòu)誤差較其他2種結(jié)構(gòu)模型高。AE9模型的收斂速度與收斂時的重構(gòu)誤差處于其他2種網(wǎng)絡(luò)模型之間,考慮到實際的算力條件,模型的迭代次數(shù)設(shè)置為4 000次較為合適。
圖2 損失函數(shù)值曲線Fig.2 Loss function value curve
為了驗證文中方法的效果,采用傳統(tǒng)機器學(xué)習(xí)方法、集成學(xué)習(xí)方法、3種不同網(wǎng)絡(luò)結(jié)構(gòu)的自編碼器及增加更新算法的模型作為對比模型。機器學(xué)習(xí)方法采用尋求特征空間中最大間隔超平面的SVM(Support Vector Machine,徑向基函數(shù))算法;集成學(xué)習(xí)方法基于Boosting方法,提升方向是梯度方向的決策樹集成算法GBDT(Gradient Boosting Decision Tree,梯度提升樹)算法;3種網(wǎng)絡(luò)結(jié)構(gòu)的自編碼器模型分別是AE5、AE7、AE9模型。
表1為不同算法對隔夾層進行識別的效果評估情況。通過計算不同算法對應(yīng)的各類別準(zhǔn)確率、精確度、F1_score可以發(fā)現(xiàn):SVM、GBDT以及自編碼器模型均達到了70.00%以上的準(zhǔn)確率,文中提出的模型中的最優(yōu)模型更是達到了85.00%以上。雖然GBDT這種通過改變樣本權(quán)重,學(xué)習(xí)多個基預(yù)測器的集成方法的準(zhǔn)確率接近80.00%,但與SVM算法一樣,各類的準(zhǔn)確率相差懸殊,并不均衡,導(dǎo)致F1_score偏低。由幾個不同網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)算法可以發(fā)現(xiàn):神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)并不是越深越好,過深的網(wǎng)絡(luò)可能會導(dǎo)致梯度消失,表現(xiàn)為準(zhǔn)確率下降,采取合適的隱藏層數(shù)及神經(jīng)元個數(shù)才能使神經(jīng)網(wǎng)絡(luò)模型取得最優(yōu)結(jié)果。采用半監(jiān)督思想的更新算法比一般模型更優(yōu),說明該方法在提高算法準(zhǔn)確率上有一定的作用。
表1 不同算法對隔夾層進行識別的效果評估
為測試模型的泛化能力,將未參與模型訓(xùn)練的測試集作為AE7模型的輸入,計算得到該數(shù)據(jù)集下模型的整體準(zhǔn)確率為 83.60%,精確度為80.70%,F(xiàn)1_score為82.10%。實驗表明:模型的效果在測試集上有一定的下降,說明在訓(xùn)練集上模型有一定程度的過擬合,但下降程度較小。
圖3為最優(yōu)模型在測試集上的識別效果,左側(cè)為原始測井曲線特征,主要包括自然伽馬、陣列感應(yīng)電阻率曲線、常規(guī)的中子密度測井曲線以及部分交叉特征,右邊的測井道主要包括巖心解釋結(jié)果與最優(yōu)模型AE7的解釋結(jié)果。由右側(cè)測井道的解釋結(jié)論可知,AE7模型的結(jié)果基本符合巖心標(biāo)定的隔夾層類型,且能較為準(zhǔn)確地識別出SVM和GBDT算法都難以識別的鈣質(zhì)與物性隔夾層,只是小部分砂體與隔夾層過渡段的測井?dāng)?shù)據(jù)在識別上存在困難。通過模型的隔夾層類型識別結(jié)果與巖心隔夾層描述對比分析可看出,對于厚度小于0.3 m的隔夾層依舊有很好的識別效果。實驗表明提出的方法精度高、泛化性強,其結(jié)果可以輔助測井解釋人員對隔夾層進行精細劃分,重構(gòu)地下認識體系,進而為老油田的二次開發(fā)提供技術(shù)思路。
圖3 最優(yōu)模型的隔夾層識別效果Fig.3 Identification effect of optimal model for interlayers
使用最優(yōu)模型AE7對該井其他未取心井段進行隔夾層識別,結(jié)果顯示:5 764.38~5 766.44 m、5 805.53~5 807.13 m、5 848.88~5 850.48 m 為泥質(zhì)隔夾層,自然伽馬較高,深感應(yīng)電阻率值高,孔隙度和滲透率極低,自然電位回返較大。5 786.55~5 788.00 m、5 821.83~5 823.43 m、5 839.97~5 842.86 m、5 858.06~5 859.55 m為物性隔夾層,自然伽馬高,自然電位回返幅度小或回返不明顯,深感應(yīng)電阻率小于2 Ω·m,孔隙度和滲透率較低。5 743.73~5 744.30 m、5 778.02~5 778.63 m、5 792.80~5 793.49 m為鈣質(zhì)隔夾層,自然伽馬較低,孔隙度、滲透率較低,密度較高、聲波時差較低、中子較低。
(1)針對東河塘油田砂巖隔夾層薄,不同隔夾層發(fā)育極不平衡的問題,提出了基于異常檢測的隔夾層識別方法,該方法還結(jié)合未標(biāo)注數(shù)據(jù)提高了模型效果,實驗表明該方法在一定程度上能解決小樣本且樣本不均衡的問題。
(2)融合了半監(jiān)督思想與異常檢測方法的自編碼模型,在隔夾層識別上準(zhǔn)確率可達83.00%以上,與常規(guī)機器學(xué)習(xí)方法相比效果顯著,證明提出的基于自編碼器的半監(jiān)督隔夾層識別方法有效,為下一步分析隔夾層的地下空間分布情況和重構(gòu)地下認識體系提供決策依據(jù)。
(3)隨著信息技術(shù)、大數(shù)據(jù)、云平臺等互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,數(shù)字化油田已經(jīng)基本建設(shè)完畢,而智能化油田目前還處于探索階段,基于深度學(xué)習(xí)和半監(jiān)督方法提出的隔夾層智能識別方法能在一定程度上推動智能化油田的建設(shè)。