劉 凱,鄒正銀,王志章,蔣慶平,常天全,王偉方,楊 笑,3
(1.中國石油新疆油田分公司,新疆 克拉瑪依 834000;2.中國石油大學(xué)(北京)油氣資源與探測國家重點(diǎn)實(shí)驗(yàn)室,北京 102249;3.中國石油長慶油田分公司,陜西 西安 710018)
1957年,中國火山巖油氣藏在準(zhǔn)噶爾盆地首次被成功發(fā)現(xiàn),截至目前,已在11個(gè)含油氣盆地中發(fā)現(xiàn)火山巖油氣藏[1]。準(zhǔn)確識(shí)別火山巖巖性特征是研究火山巖油藏的重要基礎(chǔ),但火山巖巖性復(fù)雜,礦物成分多變,測井響應(yīng)特征不明顯,巖性識(shí)別難度極大。SANYAL等[2]利用聲波時(shí)差、中子測井曲線的響應(yīng)特征識(shí)別巖性;譚伏霖等[3-4]鑒于取心樣本有限,采取樣本擴(kuò)充法識(shí)別火山巖巖性;由于單一測井曲線很難準(zhǔn)確識(shí)別巖性,羅德江[5]根據(jù)逐步分析法和fisher判別方法進(jìn)行識(shí)別;程國建等[6]將粒子群優(yōu)化算法(PSO)與最小二乘支持向量機(jī)相結(jié)合進(jìn)行識(shí)別;鞠武等[7]利用有序聚類分析方法識(shí)別;范存輝等[8]利用深度神經(jīng)網(wǎng)絡(luò)結(jié)合測井資料進(jìn)行識(shí)別;牟丹、Li等[9-10]基于最小二乘支持向量機(jī)識(shí)別。該文綜合利用準(zhǔn)噶爾盆地金龍2井區(qū)的取心、薄片、成像資料解釋的巖性樣本標(biāo)定測井資料,通過交會(huì)圖開展巖性特征分析,判斷巖性與電性相關(guān)關(guān)系,形成測井和巖性標(biāo)簽的樣本庫,并隨機(jī)將樣本庫分為訓(xùn)練集(占70%)和測試集(占30%)2個(gè)部分。結(jié)合機(jī)器學(xué)習(xí)中的決策樹、隨機(jī)森林、梯度提升樹和貝葉斯算法,利用同一訓(xùn)練集建立4種火山巖巖性識(shí)別模型,并利用同一測試集評價(jià)這4種模型的穩(wěn)定性,優(yōu)選算法模型,實(shí)現(xiàn)利用常規(guī)測井曲線識(shí)別火山巖巖性。
決策樹是對實(shí)例進(jìn)行分類描述的樹形結(jié)構(gòu),由結(jié)點(diǎn)和有向邊組成,也是屬性與值之間的一種映射關(guān)系。根據(jù)特征選擇不同算法,主要包括ID3算法、C4.5算法和CATR算法[11]。ID3算法是在原始決策樹算法的基礎(chǔ)上實(shí)現(xiàn)的,其特點(diǎn)是在結(jié)點(diǎn)上選擇特征時(shí)采用信息增益。C4.5算法是對ID3算法的改進(jìn),其利用信息增益率來進(jìn)行特征屬性的選擇,避免了偏向多值的特征屬性。CATR算法使用基尼系數(shù)代替信息增益,基尼系數(shù)代表了模型的不純度,基尼系數(shù)越小,不純度越低。
隨機(jī)森林算法屬于集成學(xué)習(xí)的一種。隨機(jī)森林算法分配給每棵樹的樣本從數(shù)據(jù)集中隨機(jī)抽取,抽取完后放回?cái)?shù)據(jù)集中[12]。每抽取一次數(shù)據(jù),就建立一個(gè)決策樹模型,最后所有的決策樹就形成了一片森林,通過投票決策的方式,確定最終的預(yù)測結(jié)果。該算法在決策樹算法的基礎(chǔ)上,引入2個(gè)不同的隨機(jī)條件,第1次隨機(jī)條件是從數(shù)據(jù)集中隨機(jī)地抽取訓(xùn)練數(shù)據(jù)集,每抽取一次形成一棵決策樹;第2次隨機(jī)條件是從抽取的訓(xùn)練集中的數(shù)據(jù)特征屬性集合n中隨機(jī)選取S(S≤n)個(gè)特征屬性集合。這2個(gè)隨機(jī)條件使得該算法相比決策樹具有更好的效果[13]。
梯度提升樹算法是一種迭代的回歸決策樹算法,由多棵決策樹組成,將所有決策樹的結(jié)論累加起來就是最終的結(jié)論[14]。該算法主要用于分類和回歸2個(gè)方面。在各結(jié)點(diǎn)分支時(shí),選擇最小化均方差來判斷結(jié)點(diǎn)分支[15]。
貝葉斯算法根據(jù)已知的數(shù)據(jù)學(xué)習(xí)計(jì)算出先驗(yàn)概率,再根據(jù)條件獨(dú)立性假設(shè)計(jì)算條件概率,最后計(jì)算后驗(yàn)概率,對未知數(shù)據(jù)集進(jìn)行預(yù)測。缺點(diǎn)是建立在樣本屬性獨(dú)立性假設(shè)的基礎(chǔ)上,如果樣本屬性有關(guān)聯(lián),其效果較差[16]。
不同類型的火山巖由于其化學(xué)成分、礦物成分、物性特征等存在差異,導(dǎo)致其測井響應(yīng)特征存在一些變化[17-23]。研究區(qū)火山碎屑巖類主要有火山角礫巖、熔結(jié)角礫巖;熔巖類主要有玄武巖、安山巖、英安巖、流紋巖(圖1)。火山巖越致密電阻率越高,熔巖類的電阻率高于火山碎屑巖類,熔巖中英安巖裂縫發(fā)育較少,電阻率很高,安山巖、流紋巖和玄武巖等由于裂縫和氣孔的影響導(dǎo)致電阻率偏低。從基性到酸性火山巖,放射性增加,基性玄武巖自然伽馬小于26 API,中性安山巖在45 API左右,酸性英安巖和流紋巖大于65 API?;鹕浇堑[巖和熔結(jié)角礫巖存在較大的原生孔隙,中子值約為20%左右,是該區(qū)主要儲(chǔ)層;安山巖由于裂縫發(fā)育,中子值約為17%;玄武巖由于發(fā)育杏仁構(gòu)造,中子值高達(dá)25%,流紋巖和英安巖致密,中子值約為10%。從基性到酸性火山巖,密度逐漸變小,玄武巖為2.70 g/cm3左右,安山巖為2.54 g/cm3左右,流紋巖密度最低,火山碎屑巖的密度低于熔巖?;鹕剿樾紟r的聲波時(shí)差略高于熔巖,火山角礫巖和熔結(jié)角礫巖聲波時(shí)差在65 μs/m左右,英安巖聲波時(shí)差約為57 μs/m,玄武巖、流紋巖和安山巖聲波時(shí)差約為60 μs/m。利用成像測井靜態(tài)圖并結(jié)合周圍巖石電阻率變化可區(qū)分沉積巖和火成巖[24-25];利用FMI動(dòng)態(tài)圖可以識(shí)別火山碎屑巖和具有流紋構(gòu)造的流紋巖;利用動(dòng)態(tài)圖和常規(guī)測井曲線可以識(shí)別英安巖、安山巖和不具流紋構(gòu)造的流紋巖。
圖1 火山巖測井響應(yīng)特征
以往的研究中,常采用密度與自然伽馬等交會(huì)圖分析不同巖性特征,提取敏感特征[26-32]。分析表明,此方法很難將各類巖性區(qū)分開。因此,應(yīng)用中子、密度和聲波3種孔隙度測井曲線,通過求解M、N值,進(jìn)行交會(huì)圖分析,旨在消除裂縫造成的孔隙度影響,更準(zhǔn)確識(shí)別巖性(圖2)。
(1)
(2)
式中:M為聲波與密度交會(huì)圖中流體點(diǎn)與骨架點(diǎn)連線的斜率,(μs·cm3)/(m·g);N為中子與密度交會(huì)圖中流體點(diǎn)和骨架點(diǎn)連線的斜率,cm3/g;Δtf為聲波時(shí)差測井的液體時(shí)差值,μs/m;Δt為聲波時(shí)差測井值,μs/m;ρb為測井密度值,g/cm3;ρf為液體密度值,g/cm3;φNf為中子測井的液體值,%;φN為中子測井值,%。
圖2 M-N交會(huì)圖
利用機(jī)器學(xué)習(xí)建立巖性分類及預(yù)測模型,具體包括:樣本庫的建立、特征參數(shù)選擇、測井特征數(shù)據(jù)的歸一化、訓(xùn)練模型、評價(jià)模型以及巖性預(yù)測。
2.3.1 樣本庫建立
依據(jù)研究區(qū)5口井取心資料、測井?dāng)?shù)據(jù)和成像測井?dāng)?shù)據(jù),分析測井?dāng)?shù)據(jù)與不同火山巖巖性的對應(yīng)關(guān)系,生成樣本空間。
2.3.2 特征參數(shù)選擇
前文具體分析了不同火山巖巖性的測井響應(yīng)特征,優(yōu)選出巖性敏感的測井曲線,同時(shí),根據(jù)2個(gè)新的特征值,即M和N,最終確定巖性敏感特征參數(shù)為:GR、N、Ri、M、CNL、DT、Rt、DEN,其占用的權(quán)重比依次為0.22、0.18、0.16、0.13、0.11、0.08、0.07、0.05。
2.3.3 測井?dāng)?shù)據(jù)歸一化
由于巖性數(shù)據(jù)測量儀器不同,數(shù)值上會(huì)存在一定的系統(tǒng)偏差,因此,對測井?dāng)?shù)據(jù)需進(jìn)行歸一化處理。數(shù)據(jù)歸一化處理可以消除量綱影響,降低不同測井儀器測量絕對值誤差導(dǎo)致的影響,利于后期建立的模型對全區(qū)井段都能有很好的預(yù)測效果。因此,將選取的8種特征全部歸一化到[0,1]中。對于GR、DT、DEN、CNL、M、N采用線性變量歸一化處理,即:
(3)
式中:Y為測井曲線歸一化結(jié)果;X為某一深度的某測井曲線值;Xmin為同一測井曲線的最小值;Xmax為同一測井曲線的最大值。
對于電阻Rt、Ri,采用先取對數(shù),再歸一化,即:
(4)
為準(zhǔn)確獲得特征參數(shù)最大值和最小值,避免一些極端值參與運(yùn)算,干擾主體數(shù)據(jù)的歸一化,采用累積概率曲線一次求導(dǎo)(斜率)的方法來獲取特征的最大和最小值。
2.3.4 訓(xùn)練模型
在機(jī)器學(xué)習(xí)模型的訓(xùn)練過程中,為了使模型具有更好地泛化能力,需將數(shù)據(jù)集分割為訓(xùn)練集與測試集。根據(jù)準(zhǔn)噶爾盆地金龍2區(qū)塊的巖心數(shù)據(jù),建立各類巖性樣本庫。各類巖性樣本點(diǎn)總數(shù)為4 744個(gè),將樣本數(shù)據(jù)隨機(jī)切分為訓(xùn)練集和測試集,其中,訓(xùn)練集占70%,數(shù)量為3 320個(gè)巖性樣本點(diǎn),測試集占30%,數(shù)量為1 424個(gè)巖性樣本點(diǎn)。訓(xùn)練集用于訓(xùn)練模型,測試集用于檢驗(yàn)?zāi)P偷姆夯芰Α?種機(jī)器學(xué)習(xí)算法的主要參數(shù)為:①min-sample-split,為分裂一個(gè)內(nèi)部節(jié)點(diǎn)(非葉節(jié)點(diǎn))所需的最小樣本數(shù);②min-samples-leaf,為每個(gè)葉節(jié)點(diǎn)所包含的最小樣本數(shù);③learning-rate為每個(gè)學(xué)習(xí)器的學(xué)習(xí)率,即權(quán)重的縮減系數(shù)或步長,取值范圍為[0,1];④n-estimators為弱學(xué)習(xí)器的最大迭代次數(shù),或者是最大的弱學(xué)習(xí)器的個(gè)數(shù),一般選擇在[0.5,0.8]。
2.3.5 模型評價(jià)
為了更好地確定火山巖巖性識(shí)別模型的預(yù)測精度和泛化能力,利用精確率、召回率、ROC曲線確定分類模型的準(zhǔn)確性和泛化能力。
精確率是被判定為正類樣本數(shù)中實(shí)際為正類的比例:
(5)
召回率是覆蓋面的度量,類似于靈敏度,度量有多少個(gè)正類樣本數(shù)被判定為正類:
(6)
式中:P為精確率,%;recall為召回率,%;TP為正類判定為正類的樣本數(shù),個(gè);FP為負(fù)類判定為正類的樣本數(shù),個(gè);FN為正類判定為負(fù)類的樣本數(shù),個(gè)。
通過對各類算法在訓(xùn)練集與測試集的精確率與召回率的比較可知,隨機(jī)森林算法具有更好的泛化能力。
ROC曲線是反應(yīng)模型敏感性與特異性連續(xù)變量的綜合指標(biāo)。其橫坐標(biāo)FPR為預(yù)測為正但實(shí)際為負(fù)的樣本占所有負(fù)例樣本的比例;縱坐標(biāo)TPR為預(yù)測為正且實(shí)際為正的樣本占所有正例樣本的比例。(0,0)代表所有樣本全部被判定為負(fù)類,(1,1)代表所有樣本被判定為正類,(0,1)代表最完美分類。圖3為不同算法的ROC曲線,隨機(jī)森林算法和梯度提升樹算法的性能較好,能很好地向(0,1)點(diǎn)靠近,其次是決策樹算法,而貝葉斯算法較差。AUC值為ROC曲線下與坐標(biāo)軸圍城的面積,是衡量算法優(yōu)劣的一種性能指標(biāo),AUC越接近1,則算法真實(shí)性越高。隨機(jī)森林算法和梯度提升樹算法效果較好,每種巖性的AUC值都接近于1。
根據(jù)前文建立的模型對未知井段進(jìn)行預(yù)測,為驗(yàn)證預(yù)測的準(zhǔn)確性,采用未參與建模的取心井進(jìn)行預(yù)測驗(yàn)證。選取JIN204、JIN214井為盲井進(jìn)行驗(yàn)證。其中,JIN204有3段取心,如圖4a所示,自上而下分別為安山巖、流紋巖、凝灰?guī)r與火山角礫巖互層。在第2段流紋巖處,4種算法都取得了準(zhǔn)確的預(yù)測效果;第1段安山巖處,除梯度提升樹算法外都進(jìn)行了準(zhǔn)確的預(yù)測;第3段凝灰?guī)r與火山角礫巖的互層,只有隨機(jī)森林算法取得了很好的效果。JIN214井是全區(qū)取心厚度較大的井,主要為火山角礫巖與安山巖巖心,如圖4b所示,4種算法都能取得很好的預(yù)測結(jié)果。但在4 100~4 120 m處,安山巖與火山角礫巖疊置發(fā)育的部位,隨機(jī)森林算法預(yù)測效果更好。通過對4種算法的模型評價(jià)與優(yōu)選表明,隨機(jī)森林算法較好。
圖4 典型井巖性預(yù)測結(jié)果
(1) 結(jié)合取心、薄片、成像、實(shí)驗(yàn)分析數(shù)據(jù)確定巖性,并根據(jù)測井響應(yīng)特征分析標(biāo)定測井曲線對應(yīng)的巖性,形成測井曲線和巖性對應(yīng)樣本庫,為后續(xù)機(jī)器學(xué)習(xí)訓(xùn)練預(yù)測奠定基礎(chǔ)。
(2) 根據(jù)建立的樣本庫數(shù)據(jù),對數(shù)據(jù)進(jìn)行歸一化處理,利用機(jī)器學(xué)習(xí)中的決策樹、隨機(jī)森林、梯度提升樹和貝葉斯算法,采用交叉驗(yàn)證和網(wǎng)格搜索優(yōu)選每個(gè)模型的最優(yōu)參數(shù),建立4種機(jī)器學(xué)習(xí)模型,并對這4種不同模型評價(jià)優(yōu)選,選出最優(yōu)的隨機(jī)森林算法模型。
(3) 利用優(yōu)選出的隨機(jī)森林模型,對該研究區(qū)45口井巖性智能解釋,通過對取心井段的統(tǒng)計(jì)驗(yàn)證,結(jié)果與井段取心的符合率高。