陳 修, 徐守余, 李順明, 何 輝, 劉 健, 韓業(yè)明
(1.中國石油長慶油田勘探開發(fā)研究院,陜西西安 710018; 2.中國石油大學(xué)(華東)地球科學(xué)與技術(shù)學(xué)院,山東青島 266580;3.中國石油勘探開發(fā)研究院,北京 100083; 4.中國石油集團(tuán)西部鉆探工程有限公司,新疆克拉瑪依 834000)
河流相砂體規(guī)模大、物性好,是優(yōu)質(zhì)的油氣儲集體[1],其內(nèi)部夾層是造成儲層層內(nèi)非均質(zhì)的重要原因[2],也是控制剩余油分布和采收率的關(guān)鍵地質(zhì)因素[3]。在其影響下,大慶油田、勝利油田等已進(jìn)入高—特高含水期的老油田剩余油整體上高度分散,局部相對富集,挖潛難度增大[4]。因此有效地識別夾層是提高采收率的重要環(huán)節(jié)[5]。目前,夾層研究一方面通過現(xiàn)代沉積和野外露頭等建立夾層沉積分布模式[6-7];另一方面通過小井距井間對比,結(jié)合注采井動態(tài)資料等對夾層厚度、傾角及其展布范圍進(jìn)行定性-定量表征[8]。但密井網(wǎng)區(qū)(數(shù)千口油水井)夾層識別工作往往面臨測井?dāng)?shù)據(jù)資料巨大、識別過程重復(fù)、效率低等問題。在大數(shù)據(jù)和機(jī)器學(xué)習(xí)迅速發(fā)展的背景下,尋找一種針對砂體內(nèi)部夾層及其類別的自動識別方法代替人工識別,具有一定的現(xiàn)實(shí)意義。對于研究目標(biāo)與不確定性特征相關(guān)的非線性問題,可以運(yùn)用機(jī)器學(xué)習(xí)方法建立已知樣本集的特征和結(jié)果之間的預(yù)測模型,對未知樣本作盡可能準(zhǔn)確的推斷。支持向量機(jī)(SVM)作為一種常用的機(jī)器學(xué)習(xí)算法,在處理地質(zhì)問題方面已取得重要進(jìn)展,已被成功地應(yīng)用于巖性識別[9]、烴源巖預(yù)測[10]、儲層流動單元識別[11]和剩余油預(yù)測[12]等方面,其識別或預(yù)測準(zhǔn)確率均超過90%。由此可見,SVM在解決地質(zhì)問題方面可以達(dá)到較高的準(zhǔn)確率,具有一定的推廣價值。筆者以大慶長垣喇嘛甸油田密井網(wǎng)區(qū)辮狀河儲層為研究對象,對測井?dāng)?shù)據(jù)預(yù)處理并提取特征參數(shù)作為輸入數(shù)據(jù)集,利用SVM算法進(jìn)行處理并將夾層類別作為輸出,從而達(dá)到自動識別的目的,以期提高夾層識別效率。
喇嘛甸油田位于松遼盆地大慶長垣的最北端,大慶長垣是松遼盆地北部的一個二級構(gòu)造單元,自北向南發(fā)育喇嘛甸、薩爾圖、杏樹崗、高臺子、太平屯、葡萄花和敖包塔7個三級背斜構(gòu)造(圖1),基底主要由古生界加里東、海西期褶皺變質(zhì)巖系與同期及燕山期花崗巖侵入體組成,上覆沉積的白堊系地層厚度最大,是盆地內(nèi)主要含油層系[13]。喇嘛甸背斜構(gòu)造主要形成于燕山運(yùn)動晚期,也就是上白堊統(tǒng)四方臺組—明水組(K2s—K2m)沉積時期[14]。
圖1 喇嘛甸油田區(qū)域地質(zhì)概況及其構(gòu)造特征(據(jù)文獻(xiàn)[19]修改)
研究的目的層段葡萄花油層一段2砂層組(PI2)位于上白堊統(tǒng)姚家組(K2y)。直到青山口組(K2qn)沉積期松遼盆地仍處于坳陷發(fā)展階段,但沉降速度緩慢,湖岸線到達(dá)喇嘛甸油田北部,湖盆面積已基本達(dá)到最大[14]。進(jìn)入姚家組(K2y)沉積期,由于湖盆的抬升,湖水變淺,湖盆面積急劇縮小,湖岸線向南收縮到杏樹崗地區(qū)的南部,使得喇嘛甸地區(qū)整體以相對高能的河流沉積為主[14]。
SVM是由Vapnik提出的一種新型機(jī)器學(xué)習(xí)方法[15],通過核函數(shù)將非線性問題的變量映射到高維特征空間,構(gòu)造最優(yōu)分類超平面實(shí)現(xiàn)線性分類(圖2)。對于給定的變量樣本集(xi,yi),i=1, 2, …,n,xi∈Rd為輸入變量;yi∈{1,-1},為輸出變量,那么最優(yōu)超平面滿足:
圖2 基于SVM核函數(shù)的輸入空間到特征空間的數(shù)據(jù)映射
yi[wTφ(xi)+b]≥1-ξi.
(1)
式中,wT為多維向量;b為常數(shù);ξi≥0為一個松弛變量,控制分類誤差。
為最大程度地增加兩個類別之間的距離,那么該分類問題可轉(zhuǎn)化為帶有懲罰項(xiàng)的最小化問題,式(1)可改寫為
(2)
由于目標(biāo)函數(shù)(2)和約束條件(1)構(gòu)成了一個不等式約束問題,求解此不等式可引入以下拉格朗日函數(shù):
(3)
式中,αi≥0為拉格朗日乘數(shù)。
對式(3)w和b求偏導(dǎo)數(shù),以上問題轉(zhuǎn)化為對偶函數(shù)的優(yōu)化問題,借助于核函數(shù)K(xi,xj),SVM可以實(shí)現(xiàn)對這一非線性可分離樣本進(jìn)行線性分類,約束函數(shù)可以表示為
(4)
式中,K(xi,xj)為非線性映射問題中的內(nèi)積核函數(shù),即K(xi,xj)=φ(xi)·φ(xj)。本文中選擇高斯徑向基核函數(shù)(RBF),它在解決非線性分類問題方面優(yōu)于其他核函數(shù)[16]。 假設(shè)αi*是該二次函數(shù)的最優(yōu)解,即支持向量,那么以上問題的最優(yōu)分類函數(shù)為
(5)
式中,b*為分類臨界值。
測井特征參數(shù)的選取是儲集層夾層自動識別的關(guān)鍵,選擇與夾層相關(guān)性或敏感程度較高的自然電位、自然伽馬、微電極、聲波時差4條曲線,可以綜合反映各不同類型夾層的粒度、泥質(zhì)含量、孔隙度等特征。為提高訓(xùn)練模型的準(zhǔn)確性,需要選取盡可能多的輸入特征參數(shù),選用自然電位(最大值、最小值、平均值)、自然伽馬(最大值、最小值、平均值)、微電極(微電位、微梯度、微電位和微梯度差)、聲波時差(最大值、最小值、平均值)共12種測井特征參數(shù)作為輸入特征,即夾層特征集X;根據(jù)研究區(qū)辮狀河儲層夾層的種類,以Y={Ⅰ,Ⅱ,Ⅲ}作為輸出值,其中Ⅰ類代表物性夾層,Ⅱ類代表泥質(zhì)夾層,Ⅲ類代表鈣質(zhì)夾層。
參數(shù)尋優(yōu)屬于SVM算法樣本學(xué)習(xí)的訓(xùn)練過程,關(guān)系著模型識別的準(zhǔn)確率。核函數(shù)建立后還需優(yōu)選出最優(yōu)的高斯徑向基核函數(shù)半徑g和懲罰因子C,從而使SVM模型取得最準(zhǔn)確的分類結(jié)果。采用目前較為常用的網(wǎng)格搜索和十折交叉驗(yàn)證相結(jié)合的方法進(jìn)行參數(shù)尋優(yōu),其基本流程如圖3所示。通過逐漸縮小網(wǎng)格搜索的范圍和步長,尋找使交叉驗(yàn)證精度最優(yōu)的參數(shù)值,最終確定最優(yōu)的訓(xùn)練參數(shù)(g,C)。
圖3 參數(shù)尋優(yōu)網(wǎng)格搜索法基本流程
對輸入?yún)?shù)進(jìn)行特征選擇,減少數(shù)據(jù)的維度,盡可能消除數(shù)據(jù)集中與類別關(guān)聯(lián)較小的特征,可以更好地提升分類精度,其中主成分分析(PCA)可以較好地解決信息冗余問題。故采用PCA對特征參數(shù)進(jìn)行降維處理,其原理主要是通過線性變換把高維空間的數(shù)據(jù)沿著區(qū)分度最小的方向映射到低維空間,從而達(dá)到降維的目的。
假設(shè)輸入樣本集X=(x1,x2,…,xm)為n維向量,將其降維到k′得到樣本集Y,則首先對樣本進(jìn)行中心化處理,那么中心化后樣本之間的協(xié)方差和協(xié)方差矩陣[17-19]分別為
(6)
(7)
在此基礎(chǔ)上求協(xié)方差矩陣C的特征值λ和對應(yīng)的特征向量u,滿足
Cu=λu.
(8)
將特征值按照從大到小的順序排序并選擇累積方差貢獻(xiàn)率大于85%的前k個λ(λ1,λ2,…,λk),將其相應(yīng)的特征向量u(u1,u2,…,uk)作為行向量組成特征向量矩陣P,則可得
Y=PX.
(9)
式中,Y即為降維到k維后的樣本數(shù)據(jù)。其中選取最大的前k個特征值和相對應(yīng)的特征向量,并進(jìn)行投影的過程,就是降維的過程。
通常,根據(jù)沉積和成巖等因素的影響可以把夾層分為3類,即泥質(zhì)、物性和鈣質(zhì)夾層[20],不同成因的夾層其測井響應(yīng)特征和厚度差別較大。
物性夾層通常是由于后期流水作用,沖刷之前河道的泥質(zhì)沉積物,在相對較弱水動力條件下細(xì)粒沉積物的混合沉積。研究區(qū)物性夾層的巖性主要為泥質(zhì)粉砂巖,厚度分布范圍為0.15~0.3 m,具有較低的孔滲性能,相對較厚的物性夾層有一定的遮擋能力。物性夾層測井響應(yīng)常呈現(xiàn)出自然電位曲線輕微回返;自然伽馬值小幅升高;微電極曲線略有回返,且有一定幅度差;聲波時差曲線表現(xiàn)為中等數(shù)值(圖4(a),巖心來自L5-J3512和L6-J3555)。
泥質(zhì)夾層一般是由于水動力減弱,在短期的弱水動力環(huán)境下細(xì)粒懸移沉積物穩(wěn)定沉降而成。喇嘛甸地區(qū)辮狀河儲層中泥質(zhì)夾層主要為泥巖或粉砂質(zhì)泥巖,厚度一般為0.05~0.25 m,通常小于物性夾層厚度。由于孔隙度和滲透率均非常低,泥質(zhì)夾層對流體表現(xiàn)為完全阻擋,也是最為常見的夾層。其測井響應(yīng)主要表現(xiàn)為:自然電位曲線靠近泥巖基線,明顯回返; 自然伽馬值出現(xiàn)大幅升高的現(xiàn)象;微電極曲線呈低值且幅度差很小,幾乎為零;聲波時差曲線呈現(xiàn)高值或略微增加(圖4(b))。
鈣質(zhì)夾層主要與河道砂質(zhì)沉積物的碳酸鹽巖膠結(jié)作用有關(guān),一般是成巖非均質(zhì)的表現(xiàn)。研究層位的鈣質(zhì)夾層出現(xiàn)的頻率較低,巖性主要為薄層鈣質(zhì)粉—細(xì)砂巖,厚度一般為0.05~0.1 m,但其密度大、孔滲性低,對流體流動有一定的遮擋作用。鈣質(zhì)夾層的微電極曲線與前兩者具有明顯的差別,微電極呈現(xiàn)明顯的高值,呈尖峰狀;自然電位和自然伽馬曲線略有回返;聲波時差曲線明顯低值(圖4(c))。
圖4 喇嘛甸油田辮狀河砂體夾層類型及其測井響應(yīng)特征
在對研究區(qū)的夾層定性識別后,筆者基于94個夾層樣本定量統(tǒng)計(jì)了3類夾層的自然電位、自然伽馬、微電極和聲波時差的測井響應(yīng)結(jié)果(表1),可將其作為喇嘛甸油田辮狀河儲層夾層半定量判別的依據(jù)之一。
表1 基于測井資料的辮狀河夾層判別標(biāo)準(zhǔn)
不同類型夾層所對應(yīng)的測井特征(曲線幅度、形態(tài)、光滑程度、幅度差等)具有差異性,因此利用SVM方法,針對測井特征進(jìn)行儲集層夾層識別具有理論上的可行性。
首先選擇未降維的測井?dāng)?shù)據(jù)作為特征參數(shù),應(yīng)用高斯徑向基函數(shù)作為核函數(shù)的SVM用于辮狀河儲層夾層識別。SVM的識別準(zhǔn)確率高度依賴于徑向基核函數(shù)內(nèi)核的半徑g和懲罰因子C[16]。由于沒有確定最優(yōu)參數(shù)的特定規(guī)則,在此通過反復(fù)試驗(yàn)的方法找到g和C的最佳值。
圖5(a)為未降維測井參數(shù)的SVM分類精度和用于選擇最佳參數(shù)的網(wǎng)格搜索方法的實(shí)驗(yàn)結(jié)果。當(dāng)SVM徑向基核函數(shù)(RBF)的半徑g和懲罰因子C持續(xù)變化時,分類精度先從77.5%上升,達(dá)到穩(wěn)定狀態(tài)為87.5%。實(shí)驗(yàn)結(jié)果表明,基于未降維測井特征參數(shù)識別測試的交叉驗(yàn)證精度達(dá)到86.67%,通過網(wǎng)格搜索獲得的最優(yōu)參數(shù)g和C分別為0.23和29.86。在對SVM模型訓(xùn)練之后,基于未降維測井特征參數(shù)直接識別夾層的結(jié)果如圖6(a)所示,識別準(zhǔn)確率為86.17%。其中實(shí)際值來自于測井曲線定性解釋,預(yù)測值表示SVM定量識別。經(jīng)過比較SVM的訓(xùn)練和識別表現(xiàn),可以觀察到SVM對于測試數(shù)據(jù)的識別能力與SVM對于訓(xùn)練數(shù)據(jù)的識別能力幾乎相當(dāng),證明了SVM對于未降維測井?dāng)?shù)據(jù)的夾層識別具有一定的泛化能力,但識別精度相對較低。
圖5 網(wǎng)格法參數(shù)尋優(yōu)及驗(yàn)證精度
圖6 基于SVM算法的辮狀河儲層夾層識別結(jié)果
由于直接選擇未降維的測井?dāng)?shù)據(jù)作為特征參數(shù)的SVM識別準(zhǔn)確率相對較低。如前所述,測井?dāng)?shù)據(jù)的冗雜會影響到夾層的識別精度,因此嘗試對測井?dāng)?shù)據(jù)進(jìn)行PCA降維處理作為特征參數(shù)進(jìn)行辮狀河夾層的SVM識別。
利用Matlab在SVM算法中對樣本集的12種特征參進(jìn)行PCA降維處理后,訓(xùn)練樣本集(特征參數(shù))主成分累積方差貢獻(xiàn)率如圖7所示。顯然,經(jīng)過PCA降維后前6種主成分方差貢獻(xiàn)率累積達(dá)到86.32%,已經(jīng)可以代表原始樣本集的大部分特征,并且在一定程度上消除了參數(shù)冗余,前6種主成分的各個特征參數(shù)的系數(shù)見表2,表明了各主成分中不同測井特征參數(shù)對夾層識別影響的相關(guān)性和程度。
圖7 測井特征參數(shù)主成分貢獻(xiàn)率及累積貢獻(xiàn)率
表2 前6種測井特征參數(shù)主成分相關(guān)系數(shù)
對于降維后的測井特征參數(shù),最優(yōu)高斯徑向基核函數(shù)半徑g和懲罰因子C仍采用網(wǎng)格搜索反復(fù)試驗(yàn)獲得。圖5(b)顯示了降維后的SVM分類精度和用于選擇最佳參數(shù)的網(wǎng)格搜索方法的結(jié)果。隨著高斯徑向基核函數(shù)半徑g和懲罰因子C的變化,訓(xùn)練樣本集的SVM交叉驗(yàn)證精度最高可以達(dá)到93.33%,此時的最優(yōu)參數(shù)g和C分別為0.29和34.30。在以上SVM模型訓(xùn)練之后,基于降維的測井特征參數(shù)識別沉積夾層的結(jié)果如圖6(b)所示,識別準(zhǔn)確率為92.55%。對比降維前后SVM的識別發(fā)現(xiàn),特征參數(shù)降維后的SVM識別準(zhǔn)確率提高了6.38%,這表明SVM對于降維測井?dāng)?shù)據(jù)的辮狀河夾層識別具更強(qiáng)的泛化能力。
本文中主要討論對辮狀河儲層夾層識別準(zhǔn)確率更高的PCA降維后的SVM模型的性能(圖6(b))。基于4類測井?dāng)?shù)據(jù)的12個特征參數(shù),經(jīng)PCA降維處理作為SVM的輸入?yún)?shù),識別結(jié)果表明當(dāng)核函數(shù)半徑g為0.29,懲罰因子C為34.30時,SVM的識別性能最優(yōu)。具體而言,94個測試樣本中出現(xiàn)87個正判,7個誤判,其中5個“Ⅰ”類錯判為“Ⅱ”類,2個“Ⅱ”類樣本錯判為“Ⅰ”類,Ⅲ類樣本未出現(xiàn)誤判。以取芯井L6-J3555為例,基于PCA的SVM模型對辮狀河砂體夾層的識別結(jié)果與人工定性識別整體上具有較高的吻合度,僅出現(xiàn)一個物性夾層誤判為泥質(zhì)夾層(圖8)。
圖8 密閉取芯井L6-J3555辮狀河儲層夾層PCA-SVM識別結(jié)果
通過對錯判樣本的分析發(fā)現(xiàn),SVM對不同類型夾層的識別準(zhǔn)確率存在差異,盡管鈣質(zhì)夾層訓(xùn)練樣本數(shù)量少,但由于其微電極曲線顯著的差異性特征導(dǎo)致識別準(zhǔn)確率最高。樣本較多的泥質(zhì)和物性夾層二者在測井表現(xiàn)上存在一定的相似性,少量夾層測井響應(yīng)差異不明顯,因此誤判的樣本多出現(xiàn)在這兩類夾層之間(圖6)。此外,由于測井資料的限制,選取的測井參數(shù)也很難完全地體現(xiàn)泥質(zhì)和物性夾層的全部特征,存在著系統(tǒng)誤差。但是,92.55%的準(zhǔn)確率對于密井網(wǎng)區(qū)辮狀河夾層的識別基本可以滿足地質(zhì)上的需求。如果用地質(zhì)規(guī)則來監(jiān)督算法,那么SVM對地質(zhì)問題識別的準(zhǔn)確性會進(jìn)一步提高[16]。
SVM算法在實(shí)踐中的表現(xiàn)往往優(yōu)于其他機(jī)器學(xué)習(xí)算法的原因是,它們對訓(xùn)練集中的異常值不太敏感,因此不太容易過度擬合。此外,SVM的性能受訓(xùn)練數(shù)據(jù)集大小的影響較小,這是它作為機(jī)器學(xué)習(xí)方法的一個優(yōu)點(diǎn)。在大數(shù)據(jù)迅速發(fā)展的今天,SVM在解決地質(zhì)大數(shù)據(jù)的特定問題上具有一定的可行性,可以有效地減少重復(fù)而繁雜的工作量,提高工作效率。
(1)喇嘛甸油田辮狀河儲層主要包括物性、泥質(zhì)和鈣質(zhì)3類夾層。其中物性和泥質(zhì)夾層分布廣泛,巖性分別以泥質(zhì)粉砂巖和泥巖為主,多與弱水動力沉積有關(guān);鈣質(zhì)夾層分布較少,巖性主要以灰?guī)r為主,一般與成巖非均質(zhì)密切相關(guān)。
(2)SVM通過利用高斯徑向基核函數(shù)及其相關(guān)的網(wǎng)格搜索參數(shù)(核函數(shù)半徑g和懲罰因子C)的最優(yōu)值,能夠很好地利用測井?dāng)?shù)據(jù)對辮狀河儲層進(jìn)行夾層識別,基于PCA的SVM模型對降維測井參數(shù)的夾層識別精度可達(dá)92.55%,較未降維測井參數(shù)的識別精度高出6.38%。
(3)由于泥質(zhì)和物性夾層二者測井響應(yīng)差異性不明顯,加之有限的測井參數(shù)難以全面地體現(xiàn)泥質(zhì)和物性夾層的全部特征,導(dǎo)致誤判的樣本出現(xiàn)在這兩類夾層之間。但是7.45%的誤判率基本可以滿足地質(zhì)需要,因此SVM算法對于解決某些復(fù)雜的地質(zhì)大數(shù)據(jù)問題具有一定的推廣價值。