孫常凱,張?jiān)品?/p>
(1.黑龍江省高校油氣藏形成機(jī)理與資源評價重點(diǎn)實(shí)驗(yàn)室,黑龍江 大慶 163318; 2.東北石油大學(xué) 地球科學(xué)學(xué)院,黑龍江 大慶 163318)
地震屬性是利用數(shù)學(xué)手段對地震資料的幾何學(xué)、運(yùn)動學(xué)、動力學(xué)及統(tǒng)計(jì)學(xué)等特征的一種表征形式,是地層信息和地質(zhì)現(xiàn)象在地震資料中的反映[1]。不同巖性的地層在地震資料上的反映也不同,可以利用地震屬性來預(yù)測地層的砂體厚度。然而,地震屬性具有多解性,單一地震屬性受到多種地質(zhì)因素的共同影響,同時單一的地震屬性難以全面地反映地層的特征,一個地質(zhì)特征往往會在多個地震屬性中都有體現(xiàn)[2]。因此,在預(yù)測砂體厚度時,需要將多種與砂體厚度有著較強(qiáng)相關(guān)性的地震屬性結(jié)合起來。機(jī)器學(xué)習(xí)具有較好的解決非線性問題的能力,目前隨機(jī)森林[3]、神經(jīng)網(wǎng)絡(luò)[4]和支持向量機(jī)[5]等機(jī)器學(xué)習(xí)方法均廣泛應(yīng)用于砂體厚度的預(yù)測中。
LightGBM(Light Gradient Boosting Machine)是一個實(shí)現(xiàn)梯度提升決策樹(Gradient Boosting Decision Tree,GBDT) 算法的開源框架,由微軟發(fā)布[6]。它具有更快的訓(xùn)練速度、更高的效率、更好的準(zhǔn)確度以及更低的內(nèi)存使用,并支持分布式、并行學(xué)習(xí)和GPU加速,以處理大規(guī)模數(shù)據(jù)。
支持向量機(jī)(Support Vector Machine,SVM)于1995年正式發(fā)表[7],在1996年被用于回歸問題[8]。作為一種新的機(jī)器學(xué)習(xí)方法,已逐漸成為國內(nèi)外研究熱點(diǎn)之一[9]。該方法以統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化為基礎(chǔ),利用核函數(shù)將有限維的低維空間映射到高維空間,以尋找合適的劃分超平面來使樣本可分,以解決低維空間的非線性問題[10]。該方法在解決小樣本、非線性的問題上尤為合適,可以應(yīng)對研究區(qū)樣本少、斷陷盆地砂體厚度變化復(fù)雜的問題[11]。
陸東凹陷位于開魯盆地陸家堡凹陷的東部,是發(fā)育于海西期褶皺基底上的中生代凹陷。凹陷受北北東向區(qū)域性斷裂控制,構(gòu)造走向由近東西向轉(zhuǎn)北東向,具有南陡北緩、單斷式斷拗型的構(gòu)造背景,即早白堊世以斷陷為主,而晚白堊世則以拗陷為主[12]。
陸東凹陷構(gòu)造演化可分為強(qiáng)烈斷陷階段(義縣期)、快速沉降階段(九佛堂期)、穩(wěn)定沉降階段(沙海期)、回返萎縮階段(阜新期)。其中,九佛堂期的快速沉降階段是由于陡坡帶邊界斷裂強(qiáng)烈活動、盆地快速下降造成的。九佛堂早期沉降中心在后河地區(qū),到九佛堂組晚期湖盆逐漸擴(kuò)大。
盆地基地為古生界石炭、二疊系變質(zhì)巖,其上依次覆蓋中生界下白堊統(tǒng)義縣組、九佛堂組、沙海組、阜新組[13],如圖1所示。九佛堂組發(fā)育的半深湖—深湖相暗色泥巖沉積和近岸水下扇及扇三角洲沉積,形成了該區(qū)主要生、儲巖系。
層位標(biāo)定是儲層預(yù)測研究的基礎(chǔ),也是屬性分析的前提條件[14]。研究層位為九佛堂組,該層位由一個3級層序控制,可進(jìn)一步劃分為低位體系域、湖侵體系域和高位體系域[15]。其中,高位體系域主要為近岸水下扇—半身湖沉積體系,以泥巖、頁巖為主,儲層物性差,主要視為烴源巖和頁巖油儲層;對于低位體系域,由于鉆遇義縣組的井較少,導(dǎo)致可獲得的低位體系域砂體厚度信息較少,難以進(jìn)行模型訓(xùn)練。因此,湖侵體系域?yàn)檠芯康哪康膶佣?該體系域主要為扇三角洲—濱淺湖沉積體系。前后河地區(qū)九佛堂組體系域如圖2所示。
圖1 陸東凹陷綜合柱狀Fig.1 Comprehensive histogram of Ludong sag
圖2 前后河地區(qū)九佛堂組體系域Fig.2 Jiufotang Formation system tract in Qianhouhe area
整個陸東凹陷屬于典型兩洼夾一隆的構(gòu)造格局,包括交力格、前后河和三十方地3個區(qū)塊,前后河地區(qū)位于交力格洼陷和三十方地洼陷之間,如圖3所示[16]。它包括前、后河斷裂背斜及廣發(fā)斷裂背斜3個構(gòu)造帶,面積約170 km2,是陸東凹陷勘探的重要地區(qū)[17]。研究區(qū)東南部井網(wǎng)較密,而西北部井網(wǎng)較稀,難以僅用鉆井資料描述砂體分布規(guī)律。因此,需要利用地震屬性加以輔助。
研究利用Geoeast的GeoAttributeAnalysis子程序?qū)ρ芯繉游贿M(jìn)行地震屬性提取,共提取99種地震屬性,包括瞬時屬性、時窗及振幅屬性、子波屬性、功率譜屬性、自相關(guān)屬性、單頻屬性、層序地層統(tǒng)計(jì)屬性等。
砂巖厚度由井位錄井資料確定,結(jié)合提取的地震屬性,建立了樣本集。研究區(qū)共35口鉆穿湖侵體系域的井,因此樣本數(shù)量為35。
研究利用LightGBM來進(jìn)行特征選擇。LightGBM屬于樹模型,可以用來評估特征的重要性[18]。如果一個特征被選為分割點(diǎn)的次數(shù)越多,那么這個特征的重要性就越強(qiáng)。依據(jù)這個原理,可以進(jìn)行特征選擇。將所有地震屬性作為特征進(jìn)行模型訓(xùn)練,并留出30%的樣本檢驗(yàn)是否過擬合。訓(xùn)練得到的特征重要性見表1。其中,重要性為0的特征被省略。此時該模型的誤差見表2。
表1 初次特征選擇的特征重要性Tab.1 Feature importance of initial feature selection
表2 初次特征選擇的模型誤差Tab.2 Model error of initial feature selection
其中,MSE為均方誤差,RMSE為均方根誤差,MAE為平均絕對誤差,R2為決定系數(shù)。
可以看出,該模型發(fā)生了過擬合現(xiàn)象,將進(jìn)一步進(jìn)行特征選擇。經(jīng)過多次模型后,最終特征選擇的結(jié)果見表3。
表3 最終特征選擇的特征重要性Tab.3 Feature importance of final feature selection
此時該模型的誤差見表4。
可以看出,此時模型的精度和泛化能力都較好。因此,選擇這7種屬性作為輸入特征來進(jìn)行模型訓(xùn)練,這7種屬性如圖4所示。然而,利用該模型得到的結(jié)果與實(shí)際地質(zhì)情況不符,因而改用支持向量機(jī)進(jìn)行預(yù)測,以發(fā)揮其在小樣本問題上的優(yōu)勢。這7種屬性分別為振幅斜率(Amplitude Slope,AmpSlp)、瞬時帶寬(Instantaneous Bandwidth,IBand)、絕對振幅積分(Integrated Absolute Amplitude,IntAbsAmp)、相對層厚度(Thickness of Stratigraphic,ThkStrat)、單頻振幅(Single Frequency Amplitude)、單頻相位(Single Frequency Phase)、弧長(Arc Length)。
圖4 地震屬性圖Fig.4 Diagram of seismic attributes
振幅斜率是時窗間隔內(nèi)道記錄振幅值隨時間變化率的平均,可以表示儲層中流體成分的變化、指示沉積環(huán)境以及識別斷層[19];瞬時帶寬是時窗數(shù)據(jù)內(nèi)頻率分布范圍的統(tǒng)計(jì)量,地震波在油氣等高衰減介質(zhì)中傳播時,會產(chǎn)生帶寬的變化[20];絕對振幅積分是時窗間隔內(nèi)所有振幅絕對值之和,可以預(yù)測地層的巖性[21];相對層厚度為光滑后的反射強(qiáng)度取相鄰峰值之間的差值;單頻振幅與單頻相位是利用時頻分析技術(shù)對地震信號進(jìn)行分頻解釋,提高解釋精度和可靠性,研究中選取的特征分別為30 Hz的單頻振幅和20 Hz的單頻相位;弧長是時窗內(nèi)地震信號波形的弧長,它間接反映了地震信號的振幅與頻率[22]。
LightGBM屬于樹模型,數(shù)值的縮放不影響分裂點(diǎn)的位置,因此無需對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。不同于LightGBM,支持向量機(jī)需要對特征進(jìn)行標(biāo)準(zhǔn)化處理。不同的地震屬性通常具有不同的量綱和數(shù)量級,而且不同地震屬性之間的差距可能很大。為了消除地震屬性之間的量綱和數(shù)量級對模型訓(xùn)練的影響,包括研究使用的支持向量機(jī)在內(nèi)的多數(shù)機(jī)器學(xué)習(xí)算法,需要對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。研究使用z-score法進(jìn)行標(biāo)準(zhǔn)化。z-score也叫標(biāo)準(zhǔn)分?jǐn)?shù),能夠?qū)⒉煌考壍臄?shù)據(jù)轉(zhuǎn)化為統(tǒng)一量度的z-score分值,使其具有可比性。其公式如下:
(1)
式中,x*為變換后的值;x為某一地震屬性的每個值;μ為該地震屬性的均值;σ為該地震屬性的標(biāo)準(zhǔn)差。
z-score變換后的地震數(shù)據(jù)符合正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1[23]。
z-score標(biāo)準(zhǔn)化對數(shù)據(jù)分布有一定要求,正態(tài)分布的數(shù)據(jù)最有利于z-score標(biāo)準(zhǔn)化的計(jì)算,而非正態(tài)分布可能會導(dǎo)致z-score標(biāo)準(zhǔn)化的效果較差。繪制了7種屬性的直方圖來判斷其是否服從正態(tài)分布,如圖5所示??梢钥闯?除了瞬時帶寬屬性,其他屬性雖然不是嚴(yán)格正態(tài)分布,但都有一定的正態(tài)性。因此,需要對瞬時帶寬屬性進(jìn)行Yeo-Johnson變換[24],使其在一定程度上符合正態(tài)分布,改善其標(biāo)準(zhǔn)化效果。Yeo-Johnson變換公式如下所示:
(2)
式中,λ根據(jù)最大似然估計(jì)求得。
變換后的IBand屬性的直方圖如圖5所示,可見其一定程度上符合了正態(tài)分布。
將標(biāo)準(zhǔn)化處理后的特征利用支持向量機(jī)進(jìn)行模型訓(xùn)練,核函數(shù)使用高斯核,使用網(wǎng)格搜索法進(jìn)行超參數(shù)的優(yōu)化。由于樣本集較少,使用十次十折交叉驗(yàn)證法來避免過擬合。最終模型誤差見表5。
由表5可以看出,模型誤差較LightGBM模型大,但實(shí)際上卻更符合實(shí)際地質(zhì)情況。
表5 訓(xùn)練模型誤差Tab.5 Training model error
依據(jù)訓(xùn)練模型得到的預(yù)測結(jié)果如圖6所示,經(jīng)過了平滑處理。由圖6可以看出,東南部陡坡帶砂體最厚,該區(qū)域?yàn)檠芯繀^(qū)的沉積中心,也是研究區(qū)地層最厚的部分。砂體向北延伸,厚度逐漸減薄,至北部物源區(qū)又逐漸變厚。西部砂體相對較薄,西南部可見交力格地區(qū)砂體末端,被構(gòu)造帶所阻擋。
圖6 預(yù)測砂體厚度Fig.6 Predicted sand body thickness diagram
利用LightGBM預(yù)測的砂體厚度如圖7所示。為方便對比,圖7與圖6的色標(biāo)設(shè)置相同。
圖7 利用LightGBM預(yù)測的砂體厚度Fig.7 Sand body thickness predicted by LightGBM
由圖7可以看出,與SVM預(yù)測結(jié)果相比,LightGBM模型預(yù)測厚度下限更高而上限更低,更靠近組中值。造成這個結(jié)果,是由于基于LightGBM的模型在包括訓(xùn)練集和測試集的樣本集上過擬合了,因此模型在訓(xùn)練集和測試集上效果都很好,預(yù)測結(jié)果卻不符合實(shí)際地質(zhì)情況。而該現(xiàn)象的本質(zhì)原因是樣本集太小,且井位的分布范圍有限,而LightGBM通過 leaf-wise(best-first)策略[25]來生長樹,當(dāng)樣本集較小的時候,可能會造成過擬合。通??梢岳贸瑓?shù)max_depth來限制樹的深度并避免過擬合,而研究選擇利用SVM來進(jìn)行模型訓(xùn)練,以發(fā)揮其在解決小樣本問題上的優(yōu)勢??梢钥闯?基于SVM的模型在研究中表現(xiàn)更好,結(jié)果更符合實(shí)際地質(zhì)情況。同時,雖然基于SVM的模型的誤差相對較大,但制圖時通常要進(jìn)行平滑處理,削弱了異常值的影響,一定程度上減小了誤差。因此,研究最終選擇SVM算法進(jìn)行砂體厚度的預(yù)測。
特征選擇在機(jī)器學(xué)習(xí)中有著重要意義。研究中,特征選擇是指從獲取的大量地震屬性中篩選出一個合適的子集作為訓(xùn)練集和模型輸入。特征選擇的意義有3個方面[26]:①特征選擇加快模型的訓(xùn)練速度。規(guī)模更小的地震屬性子集可以減少運(yùn)算量,因而加快模型的訓(xùn)練速度。②特征選擇可以改善模型的性能。特征選擇可以去掉無效的或者噪聲特征,有些地震屬性對模型訓(xùn)練無益甚至有害。③特征選擇可以增強(qiáng)模型的可解釋性。研究中選擇的7個地震屬性均與砂體厚度存在直接或間接的聯(lián)系,能更好地理解模型訓(xùn)練的過程和結(jié)果,提高模型的說服力并找到提升模型精度的方法。一些復(fù)雜的模型(如神經(jīng)網(wǎng)絡(luò))即使有著很高的準(zhǔn)確性,但很難了解模型內(nèi)部的細(xì)節(jié)和特征的重要性。
特征選擇主要分為3類:過濾式、包裹式和嵌入式[27]。過濾式是最簡單也最常用的方法,它不依賴于模型,直接將特征按照價值高低進(jìn)行排序,而后選擇一定數(shù)量或比例的特征進(jìn)行模型訓(xùn)練。該方法有3種評價標(biāo)準(zhǔn):①依據(jù)特征包含的信息量。該標(biāo)準(zhǔn)通常使用方差法來進(jìn)行評估,如果特征方差較低,說明其對結(jié)果影響不大,可以舍棄。該方法需要先對特征進(jìn)行標(biāo)準(zhǔn)化或歸一化處理才能相互比較,以消除數(shù)量級的影響。該方法可作為數(shù)據(jù)預(yù)處理,以減少計(jì)算開銷。②基于統(tǒng)計(jì)學(xué)理論。該標(biāo)準(zhǔn)的方法包括皮爾遜相關(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)等,根據(jù)計(jì)算結(jié)果確定相關(guān)性。③基于信息論。該標(biāo)準(zhǔn)的方法包括互信息、最大信息系數(shù)和Copula熵等,同樣根據(jù)計(jì)算結(jié)果確定相關(guān)性。過濾式方法不依賴于模型,因而無法針對特定模型選擇最合適的特征子集。同時在評價相關(guān)性時,特征之間相互獨(dú)立,一些相關(guān)性低但組合使用具有較高價值的特征會被舍棄。另外,保留特征的數(shù)量或比例也需要根據(jù)經(jīng)驗(yàn)或結(jié)果來調(diào)整。
包裹式方法是對于某一模型,在所有特征中選擇效果最好的特征子集,因?yàn)槠溆?jì)算量巨大,通常使用序貫選擇或啟發(fā)式算法,以減少計(jì)算開銷。但無論哪種方法,其計(jì)算開銷依然很大。
嵌入式方法是在訓(xùn)練模型的同時完成特征選擇,該方法包括基于L1正則化的特征選擇和基于樹模型的特征選擇等。該方法有著過濾式和包裹式二者的優(yōu)點(diǎn),依托模型進(jìn)行特征選擇的同時,大大減少了計(jì)算開銷。
本研究使用的LightGBM就是基于樹模型的框架。本工區(qū)地震資料品質(zhì)低,地震波主頻為18 Hz左右,因此計(jì)算得到的地震屬性質(zhì)量較差,各個地震屬性與砂體厚度的各種相關(guān)系數(shù)都不高。研究所選特征的部分相關(guān)系數(shù)見表6??梢钥闯?絕對振幅積分、相對層厚度、弧長等屬性具有較高相關(guān)性,而其余屬性,尤其是單頻振幅_30的相關(guān)性較低。如使用過濾式方法,前者會被選中,而后者會被舍棄。然而,后者在模型中也有著重要作用,如果舍棄會造成模型性能差。這說明了嵌入式方法的優(yōu)越性。
表6 所選特征的部分相關(guān)系數(shù)Tab.6 Part of correlation coefficient of the selected feature
如上文所述,研究區(qū)地震信號主頻在18 Hz左右,地震資料品質(zhì)低、分辨率差,影響了地震屬性的提取結(jié)果,進(jìn)而影響了模型的預(yù)測精度。因此,若能提高地震資料的分辨率,如反Q濾波法[28],則可以進(jìn)一步提高預(yù)測精度。
研究的目標(biāo)層段為九佛堂組的湖侵體系域,工區(qū)并沒有對九佛堂組進(jìn)行進(jìn)一步的層序劃分,這在一定程度上影響了地震屬性的提取,進(jìn)而影響了預(yù)測精度。
單一地震屬性在預(yù)測砂體厚度時具有多解性,難以進(jìn)行準(zhǔn)確預(yù)測。研究提出了基于LightGBM和SVM的地震多屬性砂體厚度預(yù)測方法,并通過對陸東凹陷前后河地區(qū)九佛堂組湖侵體系域的實(shí)際應(yīng)用,驗(yàn)證了該方法的可行性。結(jié)果表明,相比于常用的過濾式特征選擇方法,基于嵌入式的特征選擇方法得到的特征子集有著更好的效果。同時,基于SVM算法的模型在小樣本的條件下表現(xiàn)更好,結(jié)果更符合實(shí)際地質(zhì)情況。因此,通過聯(lián)合LightGBM和SVM算法,可以有效提高砂體厚度的預(yù)測精度。