初勇志,劉成林,太萬雪,陽 宏
1.中國石油大學(北京) 油氣資源與探測國家重點實驗室,北京 102249;2. 中國石油大學(北京) 地球科學學院,北京 102249
渤海灣盆地是華北地臺東部重要的含油氣盆地,其已探明石油儲量遠大于天然氣儲量[10-11]。渤中凹陷是盆地中最大的富生烴凹陷,位于渤海灣盆地渤中坳陷的主體深凹部位,面積約8 660 km2,夾于石臼坨凸起、沙壘田凸起、渤南低凸起和渤東低凸起之間[12-17](圖1)。該凹陷自漸新世以來成為渤海灣盆地的沉積和沉降中心,發(fā)育古近系沙河街組三段、一段和東營組三段優(yōu)質烴源巖,總厚度介于500~2 500 m,有機質類型以Ⅱ1型為主,有機質豐度高,總有機碳含量普遍高于1%,大部分為超過2%的優(yōu)質烴源巖[18-19]。本文選取東營組作為主要研究對象之一,該烴源巖整體鹽度非常低,是典型的淡水—微咸水的沉積環(huán)境[20]。
圖1 渤海灣盆地渤中凹陷構造位置及新生界地層劃分據文獻[11],有修改。
柴達木盆地是在前侏羅紀柴達木地塊基礎上發(fā)育而成,由于地理位置位于南部祁連山、東部昆侖山脈和阿爾金山之間,盆地干旱少雨,形成了以新生界為主的高原內陸咸化盆地[21-24]。獅子溝地區(qū)處于柴西地區(qū)古近系—新近系生油凹陷中(圖2),該生油凹陷油氣資源量遠遠超過東部富油氣凹陷標準,有效烴源巖占同期湖盆面積的比例也超過50%,巖性以泥巖、泥灰?guī)r為主,與淡水湖相烴源巖的明顯區(qū)別在于總有機碳含量值與生烴潛量的差異性[25]。有資料顯示,該區(qū)烴源巖TOC大于0.6%時即為優(yōu)質烴源巖,在低熟階段大量生烴,當Ro<0.8%時即可達到液態(tài)烴生烴高峰;其最大液態(tài)烴產率可達450~700 mg/g,是中國其他淡水湖相烴源巖的1.15~4.58倍,具有成熟門限低、生烴窗口寬、排烴時間長、烴轉化率高等特點[26]。本文選取該區(qū)下干柴溝組作為另一研究對象。
圖2 柴達木盆地獅子溝背斜構造位置及新生界地層分布據文獻[21], 有修改。
測井曲線可通過對有機質的敏感程度預測烴源巖總有機碳含量,研究表明,自然伽馬(GR)、電阻率(RT)、聲波時差(DT)、密度(DEN)等曲線均有較好的效果。通常情況下,測井異??梢苑从秤袡C質含量,異常值越大對應烴源巖總有機碳含量越高。本文選定的研究對象分別為典型的淡水湖相和咸水湖相烴源巖,渤中凹陷的烴源巖在測井響應中具有高聲波時差、高電阻率、高自然伽馬和低密度等特征[27],而柴西獅子溝地區(qū)則不具有常規(guī)優(yōu)質烴源巖的測井特征。本文對2個地區(qū)進行測井曲線和實測總有機碳含量相關性分析(圖3),選取渤海灣盆地渤中凹陷BZ13-2-4井和柴達木盆地獅子溝地區(qū)獅20井的40個測井及實測總有機碳含量數據進行對比分析??傆袡C碳含量實測的具體實驗方法參照國家標準《沉積巖中總有機碳的測定:GB/T 19145—2003》,將新鮮巖樣磨碎,經稀鹽酸和去離子水反復沖洗,并在烘干箱干燥處理后,利用在CS-230碳硫分析儀中高溫下燃燒巖樣生成的CO2量換算成碳元素含量,以測定出有機碳含量[27]。
可以看出,在渤中凹陷,DT與總有機碳含量相關性最高,決定系數R2為0.676;其次為DEN,R2為0.654 7;RD、GR和SP與總有機碳含量的相關性較低(圖3a-e)。在獅子溝地區(qū),DT與總有機碳含量的相關性仍為最高,R2為0.493 3,其余由高到低依次為CAL、GR和RT(圖3f-i)。對比兩地分析可知,由于測井儀器對干酪根的敏感性差異影響著測井響應與有機質豐度的關系[28],渤中凹陷的相關性顯著高于獅子溝地區(qū),其測井參數與實測總有機碳含量的決定系數普遍高于0.3;電阻率、自然伽馬測井值在渤中凹陷與總有機碳含量相關性較強,而在獅子溝地區(qū)很弱;兩地的聲波時差測井值均與總有機碳含量具備最高的相關性。由于有機質的高聲波傳播時間,DT會隨總有機碳含量的增大而增大,呈正相關。
圖3 渤海灣盆地渤中凹陷和柴達木盆地獅子溝地區(qū)實測總有機碳含量與測井參數相關圖
支持向量機在解決復雜的回歸和分類問題上有著廣泛的應用,其原理可理解為將線性不可分的數據擴展到多維空間中運用超平面進行劃分,通過找到最小的結構化風險來增強模型泛化能力,從而實現(xiàn)在統(tǒng)計樣本量較少的情況下也可以得到有效統(tǒng)計規(guī)律的目的[29-30],對于解決小樣本、非線性的測井相關問題有著很好的應用[31-33]。
支持向量機是基于統(tǒng)計學習理論的一種機器學習方法,通過給定的訓練樣本(xi,yi)構造一個目標函數f(x),使其與y盡可能接近,其中xi為輸入向量,yi為輸出向量。在選取最優(yōu)回歸超平面的過程中需引入非線性映射φ(x):
f(x)=ωTφ(x)+b
(1)
式中:ω為權重系數;b為偏差量。
通過引入正則化常數C和松弛變量β兩個參數,可以在一定程度上克服無法完成嚴格分類、過擬合等問題,從而提高模型泛化能力。最優(yōu)回歸超平面轉化為二次規(guī)劃問題的公式為:
(3)在沙塵回流的影響時段(4日100~5日000),PM10濃度突增,NO2 平均濃度變化與PM10 同步上升,而SO2氣態(tài)污染物呈現(xiàn)反向下降的趨勢。
(2)
式中:Q為優(yōu)化目標;W為權重系數。
最后通過拉格朗日函數將其轉化為對偶形式,其中核函數可以把數據映射到高維,以求取最優(yōu)分割超平面,得到回歸函數為:
(3)
3.2.1 數據預處理
分別選用渤中凹陷BZ13-2-4、BZ13-2-5、BZ13-2-6、BZ19-6-12、BZ19-6-14、BZ19-6-15等6口井及獅子溝地區(qū)獅15、獅20、獅24、獅25、獅27等5口井各154個測井及實測總有機碳含量數據,作為模型建立樣本??傆袡C碳含量在采集中僅能采取到毫克量級的樣品,測井數據也會受到環(huán)境等因素的干擾,這導致實測值可能難以反映地下的真實水平,在進行數據預測時產生一定的誤差?;诖耍P者采用人工去除異常點和濾波預處理的方法增強數據的可用性。同時,支持向量機對參數的敏感度較高,且各特征量綱不一致,因此在訓練模型時將數據歸一化到[0,1]區(qū)間,轉換公式為:
(4)
式中:X*是經歸一化計算后的測井曲線數據;X是原始測井數據;Xmax和Xmin為該測井曲線數據的極大值和極小值。
3.2.2 模型評價指標
選用決定系數(R2)、均方誤差(MSE)和平均絕對誤差(MAE)計算得到相關性及訓練誤差或測試誤差,以評價模型的預測性能。R2也稱為擬合優(yōu)度,是相關系數的平方,用于評價擬合的好壞,R2越接近于1,則擬合回歸的效果越好。均方誤差是指參數估計值與參數真實值的差平方的期望值,而平均絕對誤差是絕對誤差的平均值,能更好地反映預測值誤差的實際情況,兩者的值越小,則預測模型擁有更好的精確度。指標計算公式為:
(5)
(6)
(7)
3.2.3 支持向量機模型
在進行烴源巖總有機碳含量預測時,應選擇對有機質更敏感的曲線,研究顯示自然伽馬、電阻率、聲波時差、密度、井徑等曲線符合要求。在此基礎上,采用XGBoost特征重要性分析結合相關性分析的方法進行降維操作,以選取得分較高的特征。前者原理為根據結構分數的增益情況計算得到作為分割點的特征,而特征的重要性即為其在所有樹中出現(xiàn)的次數之和。因此本文選出的在渤中凹陷和獅子溝地區(qū)的特征分別為DT,DEN,RD,GR,SP和DT,CAL,GR,RT,能夠全面有效反映巖性、孔隙度等烴源巖性質。在實測數據中人工劃分80%的數據作為訓練集,20%的數據作為測試集,即渤中凹陷測試集為BZ13-2-5井和BZ19-6-14井的30個數據,獅子溝地區(qū)測試集為獅25井的31個數據。在模型的建立過程中,本文采用交叉驗證的方法,檢驗不同情況下的模型預測精度以確定超參數,同時試驗了不同的核函數的預測效果(表1),在對比之后選擇了使用線性核函數的支持向量機模型。
表1 渤海灣盆地渤中凹陷烴源巖樣品不同核函數預測效果對比
通過相關性分析和誤差檢驗的方式,可以發(fā)現(xiàn)支持向量機烴源巖總有機碳含量預測模型在2個研究區(qū)的應用都達到了理想效果,實測與預測數據具有很好的一致性。模型在渤海灣盆地渤中凹陷的效果總體表現(xiàn)更好,R2達到0.95,反映總有機碳含量實測值和預測值具有高相關性(圖4a);MSE和MAE分別為0.04和0.17,實測值和真實值之間誤差很小,預測精度很高。模型在柴達木盆地獅子溝地區(qū)的預測準確度稍低于前者,但也具有較強的表達能力,R2為0.72,在去掉2個異常值后達到0.81,具有較高的相關性(圖4b),擬合直線方程的斜率為0.84,說明擬合效果隨總有機碳含量值的增加而變差;MSE和MAE分別為0.04和0.20。
圖4 渤海灣盆地渤中凹陷和柴達木盆地獅子溝地區(qū)總有機碳含量實測和預測數據相關性
總體來說,模型通過大量機器學習均達到了一定的穩(wěn)定性和泛化能力,可以應用至不同沉積環(huán)境的烴源巖中。同時,渤中凹陷在相關性和誤差等多方面均優(yōu)于獅子溝地區(qū),尤其在渤中凹陷可以靈敏地預測出實測數據中出現(xiàn)的高值和低值(圖5)。原因主要是渤中凹陷中測井曲線對于烴源巖有機質的敏感性更高,機器學習方法根據數據挖掘出測井曲線與總有機碳含量之間的關系,因此更高的相關性能夠為模型預測提供更多的參考信息。除此之外,測井參數的有效性會極大影響模型預測結果,在沉積過程中高鹽度地區(qū)會在一定程度上受到鹽度變化影響,從而出現(xiàn)測井曲線變化異常的情況,如石鹽段發(fā)育有異常高聲波時差、高電阻率等,碳酸鹽巖與泥巖混積段的測井曲線也易發(fā)生震蕩[34]。
圖5 渤海灣盆地渤中凹陷烴源巖總有機碳含量預測模型BZ13-2-5井單井對比
(1)支持向量機烴源巖總有機碳含量預測模型在應用至典型的淡水湖相盆地和咸水湖相盆地時,可采用不同的超參數而具有很強的泛化能力,能夠適應不同地區(qū)的地質特征,以實現(xiàn)良好的預測性能。
(2)模型在渤海灣盆地的應用效果顯著高于柴達木盆地,相關性檢驗和誤差分析等均存在明顯的優(yōu)劣分異,主要原因在于沉積盆地的咸化程度影響著測井曲線與烴源巖有機質豐度的相關程度,從而成為影響預測性能的主要因素。
(3)本文建立的預測模型可以為烴源巖有機質研究的外推和泛化提供一定參考,后續(xù)可以進行更大范圍的模型適用性推廣,同時采用更多的實測總有機碳含量數據充分訓練得到效果卓越的模型。