国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用地球物理測(cè)井資料預(yù)測(cè)煤層氣含量
——基于斜率關(guān)聯(lián)度—隨機(jī)森林方法的工作案例

2021-04-24 01:13:38郭建宏張占松張超謨周雪晴肖航秦瑞寶余杰
物探與化探 2021年1期
關(guān)鍵詞:決策樹(shù)煤層氣斜率

郭建宏,張占松,張超謨,周雪晴,肖航,秦瑞寶,余杰

(1.長(zhǎng)江大學(xué) 地球物理與石油資源學(xué)院,湖北 武漢 430100; 2.長(zhǎng)江大學(xué) 油氣資源與勘探技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430100; 3.中海油研究總院,北京 100027)

0 引言

煤層氣勘探是近年來(lái)非常規(guī)油氣資源開(kāi)發(fā)的重點(diǎn)研究方向,準(zhǔn)確評(píng)價(jià)煤層氣含量對(duì)煤層氣井單井產(chǎn)量預(yù)測(cè)與煤層氣產(chǎn)能評(píng)估及勘探開(kāi)發(fā)尤為關(guān)鍵[1-3]。煤層氣資源作為非常規(guī)油氣資源,儲(chǔ)集與滲流機(jī)理與常規(guī)天然氣差異較大[4],且煤層氣含量受控于多因素,機(jī)理復(fù)雜,例如與其埋深、層厚,煤體結(jié)構(gòu)及變質(zhì)程度,以及儲(chǔ)層壓力、溫度等地質(zhì)因素均有一定關(guān)系[5-7]。評(píng)價(jià)煤儲(chǔ)層氣含量一直是煤層研究的重、難點(diǎn),煤層氣含量評(píng)價(jià)方法最為直接的是對(duì)煤層取心樣本直接進(jìn)行解吸測(cè)量,這一方法最為準(zhǔn)確,但由于煤層大多較薄且機(jī)械強(qiáng)度差易破碎,導(dǎo)致煤層取心率低,對(duì)應(yīng)煤心解吸實(shí)驗(yàn)資料較少[8]。國(guó)內(nèi)外學(xué)者針對(duì)這一問(wèn)題,結(jié)合煤層氣儲(chǔ)集機(jī)理與實(shí)驗(yàn)等,提出了一系列方法:從KIM法將儲(chǔ)層因素與水分等工業(yè)組分相關(guān)聯(lián),后基于這一方法將工業(yè)組分引入并對(duì)其分析得到KIM改進(jìn)方程[9-10];后有學(xué)者通過(guò)實(shí)驗(yàn)建立等溫吸附模型,利用等溫吸附線對(duì)煤層氣含量進(jìn)行預(yù)測(cè),并基于這一理論提出蘭氏煤階方程進(jìn)行評(píng)價(jià)預(yù)測(cè)[11-12]。

上述實(shí)驗(yàn)方法雖能評(píng)價(jià)煤層氣含量,但多為對(duì)樣本點(diǎn)進(jìn)行評(píng)價(jià),難以應(yīng)用到整口井或整個(gè)區(qū)塊,因此通過(guò)地球物理測(cè)井方法評(píng)價(jià)煤層氣含量等煤層參數(shù)逐漸成為研究熱點(diǎn)。相較于成本較高的取心方法,測(cè)井手段連續(xù)性強(qiáng),性價(jià)比與可靠性均較高,將兩者結(jié)合評(píng)價(jià)煤層氣含量成為了接受度更高,使用更廣泛的方法。利用地球物理測(cè)井資料預(yù)測(cè)煤層氣含量的方法主要可概括為:原理法、數(shù)學(xué)地質(zhì)法及數(shù)學(xué)統(tǒng)計(jì)法。原理法多為直接基于煤層測(cè)井資料,通過(guò)理論方法形成煤層氣含量預(yù)測(cè)模型,例如將測(cè)井體積模型用于評(píng)價(jià)煤層氣含量[13],或利用背景值法[14]計(jì)算煤層氣含量,但兩種方法中參數(shù)的選擇對(duì)結(jié)果影響較大,且該類(lèi)方法泛化性差,只能用于單井或單層評(píng)價(jià)。也有部分?jǐn)?shù)學(xué)地質(zhì)方法被用于煤層氣含量預(yù)測(cè),田敏等[15]將灰色系統(tǒng)理論結(jié)合實(shí)驗(yàn)數(shù)據(jù)對(duì)煤層氣含量建立灰色多變量靜態(tài)模型,隨后郭建宏等[16]基于此將灰色多變量靜態(tài)模型與測(cè)井曲線相結(jié)合將這一方法泛化性增強(qiáng),能連續(xù)且準(zhǔn)確地評(píng)價(jià)出整段煤層的氣含量曲線,這類(lèi)方法更多從數(shù)據(jù)上出發(fā),得到的結(jié)果不一定能與理論完全相符。相比之下,數(shù)學(xué)統(tǒng)計(jì)法在煤層氣含量預(yù)測(cè)中應(yīng)用的更為廣泛。由于煤層的復(fù)雜性,測(cè)井響應(yīng)與煤層氣含量間的關(guān)系也復(fù)雜多樣,可能為線性亦或非線性關(guān)系,因而統(tǒng)計(jì)法多以回歸分析及機(jī)器學(xué)習(xí)算法為主。回歸分析法即是通過(guò)研究測(cè)井曲線與目標(biāo)氣含量的相關(guān)關(guān)系找到與煤層氣含量敏感的測(cè)井曲線,利用最小二乘法計(jì)算出煤層氣含量回歸評(píng)價(jià)模型,這一方法簡(jiǎn)單且效果穩(wěn)定,被廣泛應(yīng)用于煤層氣含量評(píng)價(jià)。梁亞林等[17]利用測(cè)井曲線建立多元回歸方程預(yù)測(cè)氣含量并以此為基礎(chǔ)對(duì)相應(yīng)區(qū)塊進(jìn)行氣含量預(yù)測(cè),結(jié)果與地質(zhì)情況相吻合;黃兆輝等[18]與金澤亮等[19]針對(duì)沁水盆地將多元線性回歸法與蘭氏方程相結(jié)合,建立煤層氣含量評(píng)價(jià)模型,結(jié)果準(zhǔn)確度較高,具有有效性。當(dāng)線性關(guān)系難以表征煤層氣含量與測(cè)井曲線間的關(guān)系時(shí),可利用機(jī)器學(xué)習(xí)等方法進(jìn)行預(yù)測(cè),這類(lèi)方法非線性逼近能力強(qiáng),以神經(jīng)網(wǎng)絡(luò)方法為主,已有許多學(xué)者對(duì)此進(jìn)行研究,將特征參數(shù)與目標(biāo)參數(shù)通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練形成網(wǎng)格模型,對(duì)測(cè)試集進(jìn)行泛化性測(cè)試,以此評(píng)價(jià)模型的實(shí)用性。上述方法對(duì)存在潛在聯(lián)系但無(wú)法直接用表達(dá)式展示的問(wèn)題有明顯優(yōu)勢(shì),例如將煤層氣含量與測(cè)井曲線資料通過(guò)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,后對(duì)區(qū)塊其他井進(jìn)行驗(yàn)證發(fā)現(xiàn)這一方法預(yù)測(cè)煤層氣含量精度高[20-21];隨后支持向量機(jī)[22]等更多算法被引入到煤層氣含量預(yù)測(cè)中。

在實(shí)際應(yīng)用中,各類(lèi)方法均受到不同程度的限制,體積模型法等原理傳統(tǒng)方法受參數(shù)選擇影響大且泛化性差而無(wú)法被推廣使用;多元回歸法由于各測(cè)井曲線對(duì)氣含量響應(yīng)的靈敏度不同使得結(jié)果會(huì)出現(xiàn)偏差,且這類(lèi)方法對(duì)數(shù)據(jù)量要求大,與煤層取心率低樣本少的特點(diǎn)相沖突;BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的復(fù)雜性大,參數(shù)選擇對(duì)模型影響大且對(duì)樣本量有一定要求,使用局限性明顯;支持向量機(jī)回歸對(duì)小樣本適用性強(qiáng)但容易過(guò)擬合;隨機(jī)森林算法可利用袋外數(shù)據(jù)直接檢測(cè)泛化性,且可利用有放回抽樣解決樣本數(shù)據(jù)少的問(wèn)題[23],因此也被應(yīng)用于復(fù)雜儲(chǔ)層參數(shù)預(yù)測(cè)中[24],相比其他傳統(tǒng)機(jī)器學(xué)習(xí)方法,隨機(jī)森林算法更適合解決煤層小樣本參數(shù)預(yù)測(cè)問(wèn)題?;诖?,筆者將斜率關(guān)聯(lián)度法與隨機(jī)森林相結(jié)合,基于測(cè)井曲線對(duì)煤層氣含量進(jìn)行斜率關(guān)聯(lián)度分析,剔除冗余數(shù)據(jù),即通過(guò)斜率關(guān)聯(lián)法篩選出與煤層氣含量敏感的測(cè)井曲線作為特征向量,并基于分析結(jié)果結(jié)合隨機(jī)森林算法進(jìn)行決策樹(shù)個(gè)數(shù)優(yōu)選,建立模型對(duì)煤層氣含量進(jìn)行預(yù)測(cè),并用實(shí)際數(shù)據(jù)來(lái)驗(yàn)證本文方法的有效性與實(shí)用性。

1 基本原理

1.1 斜率關(guān)聯(lián)度計(jì)算

一般關(guān)聯(lián)度最早由鄧聚龍教授提出,該分析法對(duì)樣本數(shù)量小且分布無(wú)明顯規(guī)律的數(shù)據(jù)有較強(qiáng)的實(shí)用性,計(jì)算結(jié)果與定性分析符合。一般關(guān)聯(lián)度基本思想為將各序列與目標(biāo)序列曲線形態(tài)進(jìn)行對(duì)比,其幾何形狀接近,序列間關(guān)聯(lián)度大,反之則小[25]。實(shí)際使用時(shí),普通的關(guān)聯(lián)度法存在缺陷,許多學(xué)者提出了改進(jìn),例如為了克服在規(guī)范性與保序性上的不足提出普通斜率關(guān)聯(lián)度法[26],即在不同序列上對(duì)比各序列段斜率的接近程度來(lái)計(jì)算各序列間關(guān)聯(lián)度大小,斜率越接近則關(guān)聯(lián)度越大,反之則越小。后在此基礎(chǔ)上進(jìn)行了改進(jìn),對(duì)斜率的正負(fù)進(jìn)行了計(jì)算[27],使其既能反映正關(guān)聯(lián)也能找到負(fù)關(guān)聯(lián),極大提高了評(píng)價(jià)的精確性。規(guī)定一參考序列x0與一對(duì)比序列xi,其形式分別為:

x0={x0(k)|k=1,2,3,…,n},

(1)

xi={xi(k)|k=1,2,3,…,n},

(2)

則改進(jìn)的斜率關(guān)聯(lián)法公式為[28]:

(3)

1.2 隨機(jī)森林

1.2.1 隨機(jī)森林原理

隨機(jī)森林法于2001年被提出[29],該算法是一種以決策樹(shù)為基礎(chǔ)的集成算法,將單個(gè)決策樹(shù)視作其對(duì)目標(biāo)建立的模型結(jié)果進(jìn)行綜合得到新的模型。其中一組決策樹(shù)可寫(xiě)為:{h(X,θk),k=1,2,…,K}。式中θk為隨機(jī)變量,服從獨(dú)立同分布,X與K分別表示自變量與決策樹(shù)的個(gè)數(shù)。隨機(jī)森林預(yù)測(cè)的結(jié)果基于各決策樹(shù)的結(jié)果取均值而得[29]:

(4)

(5)

即每棵樹(shù)約有36.8%的樣本未被抽取參與建模,將此類(lèi)數(shù)據(jù)稱為袋外數(shù)據(jù)(OOB,out of bag)。Bagging思想在隨機(jī)化建立更多的決策樹(shù)時(shí)還保證其相互獨(dú)立性。與Bagging思想類(lèi)似,隨機(jī)子空間思想可以保證不同樹(shù)節(jié)點(diǎn)與其節(jié)點(diǎn)間的特征子集的差異性,以及樹(shù)的獨(dú)立性與多樣性,即在構(gòu)建決策樹(shù)的過(guò)程中,每個(gè)分裂節(jié)點(diǎn)的特征數(shù)選取一般為從總特征空間F中隨機(jī)抽取f(推薦為f=log2F)個(gè)特征,并依照Gini指標(biāo)選取最優(yōu)特征進(jìn)行分支生長(zhǎng)。因而在隨機(jī)森林回歸中,決策樹(shù)K與特征數(shù)f對(duì)模型預(yù)測(cè)性能存在顯著影響。

1.2.2 隨機(jī)森林泛化誤差

以遵循獨(dú)立同分布的隨機(jī)向量(X,Y)為例,結(jié)合式(5),則h(X)對(duì)應(yīng)均方泛化誤差為:

EX,Y(Y-h(X))2,

(6)

在隨機(jī)森林回歸中,若決策樹(shù)的個(gè)數(shù)趨于無(wú)窮時(shí),存在:

(7)

(8)

1.2.3 隨機(jī)森林流程

隨機(jī)森林回歸算法流程為:

1) 應(yīng)用boostrasp采樣隨機(jī)生成訓(xùn)練數(shù)據(jù)集,未被抽中的為袋外數(shù)據(jù),再隨機(jī)抽取m個(gè)特征進(jìn)行節(jié)點(diǎn)分裂,結(jié)合數(shù)據(jù)集中建模數(shù)據(jù)構(gòu)建決策樹(shù);

2) 按照上述方法構(gòu)建K棵回歸決策樹(shù),令其充分生長(zhǎng),不進(jìn)行剪枝,形成隨機(jī)森林;

3) 利用袋外數(shù)據(jù)誤差(OOB error)評(píng)價(jià)對(duì)效果進(jìn)行評(píng)價(jià),公式為:

(9)

4) 利用上述步驟確定的模型對(duì)目標(biāo)數(shù)據(jù)樣本進(jìn)行預(yù)測(cè),隨機(jī)森林各決策樹(shù)預(yù)測(cè)結(jié)果的平均為最終預(yù)測(cè)輸出結(jié)果。

1.3 煤層氣含量評(píng)價(jià)步驟

結(jié)合本文實(shí)際內(nèi)容,實(shí)行步驟為:

1) 利用斜率關(guān)聯(lián)度計(jì)算各測(cè)井曲線與煤層氣含量的關(guān)聯(lián)性,并根據(jù)實(shí)際計(jì)算結(jié)果篩選出有利于煤層氣含量建模的數(shù)據(jù);

2) 利用選取出的測(cè)井曲線結(jié)合隨機(jī)森林算法進(jìn)行建模,并探究出合適的回歸決策樹(shù)的數(shù)目;

3) 根據(jù)探究得到的特征個(gè)數(shù)與回歸子樹(shù)個(gè)數(shù)進(jìn)行建模,并用未參與建模的數(shù)據(jù)進(jìn)行預(yù)測(cè)驗(yàn)證。

2 煤層氣含量預(yù)測(cè)模型

2.1 應(yīng)用工區(qū)概況

使用沁水煤田柿莊北地區(qū)部分井3號(hào)煤層數(shù)據(jù),結(jié)合本文所述方法對(duì)該區(qū)塊3號(hào)層氣含量進(jìn)行評(píng)價(jià)預(yù)測(cè)。沁水煤田為石炭—二疊紀(jì)煤田,資源儲(chǔ)量豐富,儲(chǔ)層條件穩(wěn)定,具有巨大開(kāi)發(fā)潛力[31]。柿莊北區(qū)位于該區(qū)塊,共取得該區(qū)塊9口井共40組煤心數(shù)據(jù),將煤心樣本取得后,通過(guò)對(duì)樣本進(jìn)行多次采樣實(shí)驗(yàn)測(cè)試對(duì)應(yīng)樣品氣含量,最后對(duì)實(shí)驗(yàn)結(jié)果求取平均值。同時(shí)對(duì)煤心樣本對(duì)應(yīng)的深度段取平均深度值對(duì)應(yīng)的各測(cè)井曲線響應(yīng)值,并進(jìn)行制表。表1為3號(hào)煤層標(biāo)準(zhǔn)化后的測(cè)井響應(yīng)范圍,圖1為各測(cè)井響應(yīng)曲線與煤層氣含量交會(huì)圖。

圖1 煤層氣含量與測(cè)井參數(shù)間的關(guān)系Fig.1 Relationship between coalbed methane content and logging parameters

表1 3號(hào)煤層測(cè)井響應(yīng)范圍

理論上,煤層埋深一定程度上決定了煤巖產(chǎn)生的氣體能否有效儲(chǔ)存,在埋深較淺處,煤層氣含量隨深度增加而增大??紫抖葴y(cè)井系列包含補(bǔ)償密度測(cè)井、聲波時(shí)差測(cè)井及補(bǔ)償中子測(cè)井。由于煤的基質(zhì)密度較低,煤層密度值隨其致密程度的增加而增大,相應(yīng)的孔隙度及氣含量會(huì)降低,因而隨著煤層氣含量的增加,對(duì)應(yīng)煤的體積密度減小,在補(bǔ)償密度測(cè)井資料上補(bǔ)償密度測(cè)井響應(yīng)值與煤層氣含量理論上應(yīng)呈負(fù)相關(guān)關(guān)系;煤巖分子結(jié)構(gòu)相對(duì)松散,聲波時(shí)差測(cè)井曲線的響應(yīng)為時(shí)差值較高,且其對(duì)儲(chǔ)層含氣性敏感,遇氣層會(huì)明顯增大或出現(xiàn)周波跳躍現(xiàn)象[32],理論上在聲波時(shí)差測(cè)井資料上兩者呈正相關(guān)關(guān)系;煤儲(chǔ)層由碳、氫、氧組成且煤層氣中含有甲烷,導(dǎo)致含氫指數(shù)高,使補(bǔ)償中子測(cè)井資料呈現(xiàn)出一種虛高假象,而實(shí)際孔隙度通常較低。巖性測(cè)井系列提供了自然伽馬測(cè)井曲線和自然電位測(cè)井曲線。由于煤的自然放射性通常較弱,煤的天然放射性多取決于成煤過(guò)程中的外來(lái)礦物質(zhì),粘土礦物會(huì)通過(guò)影響煤的吸附性能進(jìn)而影響煤層氣儲(chǔ)集,煤層中粘土礦物增多,對(duì)應(yīng)自然伽馬測(cè)井響應(yīng)增大,但煤層氣含量由于有效孔隙降低而使得氣含量減少,即在自然伽馬測(cè)井資料上呈現(xiàn)出兩者為負(fù)相關(guān)關(guān)系;在自然電位測(cè)井上,煤層的巖性相對(duì)更純且導(dǎo)電性差,煤巖與泥漿間的化學(xué)作用和動(dòng)電學(xué)作用弱,對(duì)應(yīng)自然電位響應(yīng)較低。電阻率測(cè)井系列提供了深、淺側(cè)向電阻率曲線:煤巖電阻率受多因素影響,從煤層氣含量考慮,氣含量越大,電阻率測(cè)井響應(yīng)越大。

從理論上分析后結(jié)合實(shí)際交會(huì)圖進(jìn)行判斷,3號(hào)煤層深度范圍為953~1 350 m間,每口井實(shí)驗(yàn)樣本數(shù)大多在4~7組,從交會(huì)圖1h中可發(fā)現(xiàn)不同井3號(hào)層深度相近,與氣含量無(wú)明顯關(guān)聯(lián),總體上隨深度增加煤層氣含量增大。分析煤層氣含量與孔隙度測(cè)井系列曲線的交會(huì)圖,結(jié)合圖1b及補(bǔ)償密度測(cè)井資料得到的響應(yīng)范圍,3號(hào)煤層補(bǔ)償密度測(cè)井資料反映煤層的響應(yīng)區(qū)間為1.19~1.89 g/cm3,但純煤密度較低,若煤層中含泥巖夾矸則會(huì)使得補(bǔ)償密度側(cè)向響應(yīng)值增大,將A4井中補(bǔ)償密度過(guò)高值與A9井中氣含量過(guò)低值剔除,則可發(fā)現(xiàn)煤層補(bǔ)償密度測(cè)井值與煤層氣含量呈負(fù)相關(guān)關(guān)系。圖1c與圖1d能看出聲波時(shí)差測(cè)井曲線資料中的響應(yīng)值與煤層氣含量趨勢(shì)上為正相關(guān),但關(guān)系較差,補(bǔ)償中子測(cè)井曲線資料上其響應(yīng)值與煤層氣含量呈正相關(guān)且關(guān)系相對(duì)明顯,即3號(hào)煤層由于煤層氣的存在將使得補(bǔ)償中子測(cè)井資料的“虛高假象”更為突出。對(duì)應(yīng)圖1a與圖1g分析,不同井自然伽馬基線存在差異,每口井中存在自然伽馬測(cè)井響應(yīng)高值,這一原因多為煤層中泥巖夾矸所致,由于煤層中含泥巖夾矸段會(huì)導(dǎo)致自伽馬測(cè)井響應(yīng)異常增高進(jìn)而直接影響了兩者相關(guān)性;自然電位測(cè)井響應(yīng)與煤層氣含量總體上為正相關(guān),但每口井中自然電位測(cè)井響應(yīng)與煤層氣含量無(wú)明顯關(guān)系。煤巖電阻率受多方面因素影響,其變質(zhì)程度、煤體結(jié)構(gòu)、礦物質(zhì)含量及分布等均會(huì)對(duì)電阻率測(cè)井響應(yīng)值產(chǎn)生影響,通過(guò)圖1e與1f分析,煤層氣含量與深側(cè)向電阻率總體上無(wú)相關(guān)關(guān)系,僅單井部分樣品存在相關(guān)性,且煤層氣含量與淺側(cè)向電阻率相對(duì)深側(cè)向電阻率存在差異,單井來(lái)看趨勢(shì)也并不明顯,多因煤層受泥漿侵入影響或擴(kuò)徑導(dǎo)致其表征的并非為原狀地層。

綜上分析可以看出,煤層氣含量與地球物理測(cè)井曲線響應(yīng)間的關(guān)系極為復(fù)雜,測(cè)井響應(yīng)受多方面因素影響,煤巖本身以及夾矸存在等均會(huì)使得煤層段測(cè)井曲線響應(yīng)出現(xiàn)變化。煤層取心率低,樣本少,簡(jiǎn)單數(shù)據(jù)清洗會(huì)使得樣本數(shù)據(jù)減少,且趨勢(shì)也不一定能準(zhǔn)確找到,而傳統(tǒng)交會(huì)圖分析對(duì)樣本數(shù)據(jù)量有一定要求且容易受異常值的影響,因而靠交會(huì)圖難以準(zhǔn)確得到適合隨機(jī)森林算法的特征參數(shù)。基于此,本文通過(guò)斜率關(guān)聯(lián)度進(jìn)行相關(guān)性分析,這一方法對(duì)實(shí)驗(yàn)數(shù)據(jù)具有更好的隱性挖掘能力,且受異常值影響相對(duì)小,能對(duì)樣本數(shù)據(jù)總體與目標(biāo)數(shù)據(jù)進(jìn)行綜合分析,不會(huì)由于單個(gè)異常點(diǎn)對(duì)結(jié)果產(chǎn)生較大影響。

2.2 斜率關(guān)聯(lián)度計(jì)算

通過(guò)改進(jìn)的斜率關(guān)聯(lián)度法,對(duì)煤層測(cè)井曲線參數(shù)進(jìn)行計(jì)算分析,表2為參與斜率關(guān)聯(lián)度計(jì)算的數(shù)據(jù),表3為斜率關(guān)聯(lián)度計(jì)算結(jié)果。

表2 3號(hào)煤層斜率關(guān)聯(lián)度計(jì)算樣本

表3 3號(hào)煤層斜率關(guān)聯(lián)度計(jì)算結(jié)果

通過(guò)表3可以得到6條與煤層氣含量正關(guān)聯(lián)的測(cè)井曲線,自然電位與淺側(cè)向電阻率為負(fù)關(guān)聯(lián),正關(guān)聯(lián)曲線中,均能找到理論支撐。在正關(guān)聯(lián)曲線中,自然伽馬曲線關(guān)聯(lián)度相對(duì)其他測(cè)井曲線較低,為了驗(yàn)證這一曲線是否適合用于煤層氣含量預(yù)測(cè),利用隨機(jī)森林中袋外誤差曲線進(jìn)行求證。如圖2所示,將隨機(jī)森林決策樹(shù)個(gè)數(shù)選定為600個(gè),共作出3條曲線,曲線1為在斜率關(guān)聯(lián)度計(jì)算后篩選出的曲線基礎(chǔ)上去掉了自然伽馬曲線得到的袋外誤差數(shù)據(jù),曲線2為斜率關(guān)聯(lián)度計(jì)算篩選出的曲線得到的袋外誤差數(shù)據(jù),曲線3為未經(jīng)斜率關(guān)聯(lián)度計(jì)算的全曲線得到的袋外誤差數(shù)據(jù)。經(jīng)分析可發(fā)現(xiàn),曲線3初始袋外誤差大且收斂速度慢但相對(duì)穩(wěn)定,經(jīng)特征篩選后的袋外誤差數(shù)據(jù)初始誤差相對(duì)較小且收斂速度慢,曲線1與曲線2均在收斂過(guò)程中出現(xiàn)震蕩,但很快趨于穩(wěn)定,且最終曲線2袋外誤差最低,即斜率關(guān)聯(lián)度計(jì)算結(jié)果具有可靠性,包含自然伽馬曲線的曲線特征組袋外誤差相對(duì)低且收斂相對(duì)更快。因而證明斜率關(guān)聯(lián)度能更深地發(fā)掘與煤層氣含量相關(guān)的測(cè)井曲線,計(jì)算結(jié)果準(zhǔn)確且與理論相符。

圖2 斜率關(guān)聯(lián)度計(jì)算前后隨機(jī)森林袋外誤差結(jié)果Fig.2 Results of random forest out of bag error before and after slope correlation calculation

2.3 隨機(jī)森林決策樹(shù)優(yōu)選

為了使隨機(jī)森林建立的模型具有可靠性和對(duì)煤層氣含量預(yù)測(cè)的有效性,需對(duì)隨機(jī)森林的參數(shù)進(jìn)行探究。在優(yōu)選特征個(gè)數(shù)的基礎(chǔ)上,還需確定決策樹(shù)的個(gè)數(shù)。就隨機(jī)森林這一算法而言,決策樹(shù)個(gè)數(shù)的選擇能直接影響模型的性能與精度,決策樹(shù)過(guò)少,建立的模型精度低,數(shù)據(jù)利用不充分,模型效果發(fā)揮不充分,決策樹(shù)過(guò)多會(huì)導(dǎo)致模型成型慢且增加過(guò)擬合發(fā)生的風(fēng)險(xiǎn)。由于煤層取心率低且數(shù)據(jù)稀少,為有效利用數(shù)據(jù),將已有的40組數(shù)據(jù)隨機(jī)分成4份,每組10個(gè)數(shù)據(jù),其中1份為測(cè)試集,不參與隨機(jī)森林建模,另外3份數(shù)據(jù)用于交叉驗(yàn)證以確定決策樹(shù)的優(yōu)選范圍。具體做法為將3份原始數(shù)據(jù)中選取兩組數(shù)據(jù)作為訓(xùn)練集對(duì)隨機(jī)森林模型進(jìn)行訓(xùn)練,再用另外一組數(shù)據(jù)進(jìn)行驗(yàn)證,對(duì)驗(yàn)證集中的數(shù)據(jù)進(jìn)行預(yù)測(cè),以驗(yàn)證集中預(yù)測(cè)值與實(shí)驗(yàn)值的MSE作為判別指標(biāo)。在4組分布中,為保證交叉驗(yàn)證的有效性,煤層氣含量分布相對(duì)平均,除測(cè)試集外,另外3組數(shù)據(jù)中利用其中兩組數(shù)據(jù)進(jìn)行訓(xùn)練得到模型,預(yù)測(cè)另一組樣本,通過(guò)觀測(cè)預(yù)測(cè)結(jié)果隨決策樹(shù)個(gè)數(shù)變化來(lái)判斷每組合適的決策樹(shù)個(gè)數(shù),結(jié)合3組結(jié)果進(jìn)行判斷。如圖3所示,通過(guò)交叉驗(yàn)證,隨著決策樹(shù)個(gè)數(shù)不斷增加,3個(gè)組分別作為驗(yàn)證集時(shí)的預(yù)測(cè)值與實(shí)驗(yàn)值的均方誤差逐漸穩(wěn)定,在決策樹(shù)為500個(gè)時(shí),3組驗(yàn)證集均方誤差趨于穩(wěn)定且達(dá)到低值,因而確定決策樹(shù)個(gè)數(shù)為500。如圖4所示,以上述3組數(shù)據(jù)為訓(xùn)練集對(duì)隨機(jī)森林進(jìn)行訓(xùn)練得到模型,決策樹(shù)個(gè)數(shù)設(shè)為500,觀察其袋外誤差, 發(fā)現(xiàn)500個(gè)決策樹(shù)時(shí)袋外誤差已達(dá)到最低值且穩(wěn)定,因而證明上述探究結(jié)果有效。

圖3 交叉驗(yàn)證探究決策樹(shù)范圍結(jié)果Fig.3 Cross validation to explore decision tree range results

圖4 決策樹(shù)個(gè)數(shù)為500時(shí)袋外誤差Fig.4 Out of bag error when the number of decision trees is 500

2.4 隨機(jī)森林預(yù)測(cè)煤層氣含量

基于上述對(duì)測(cè)井曲線特征的優(yōu)選和對(duì)決策樹(shù)個(gè)數(shù)的選擇,利用上述3組訓(xùn)練集訓(xùn)練得到的隨機(jī)森林模型預(yù)測(cè)測(cè)試集煤層氣含量,結(jié)果如圖5及表4所示。隨機(jī)森林計(jì)算得到的模型在訓(xùn)練集回判相對(duì)誤差為19%,針對(duì)測(cè)試集預(yù)測(cè),平均相對(duì)誤差在 11.1%,并以此為基礎(chǔ)對(duì)該區(qū)塊單井3號(hào)煤層進(jìn)行評(píng)價(jià)預(yù)測(cè),以A7井為例,結(jié)果如圖6所示。隨機(jī)森林訓(xùn)練得到的模型在測(cè)試集上表現(xiàn)穩(wěn)定,能有效預(yù)測(cè)煤層氣含量,并能以此為基礎(chǔ)對(duì)區(qū)塊各井3號(hào)煤層進(jìn)行煤層氣含量曲線預(yù)測(cè),且預(yù)測(cè)結(jié)果與實(shí)驗(yàn)結(jié)果相符合,說(shuō)明該算法對(duì)訓(xùn)練集有效且泛化性強(qiáng),能有效抗過(guò)擬合。此外,為了進(jìn)行對(duì)比還對(duì)數(shù)據(jù)進(jìn)行多元回歸擬合,用同樣曲線回歸擬合出的模型在訓(xùn)練集與測(cè)試集上的平均相對(duì)誤差分別為21%和19%,誤差均大于本文算法預(yù)測(cè)的結(jié)果,也說(shuō)明本文方法相對(duì)應(yīng)用較為廣泛的多元回歸法能進(jìn)一步提升預(yù)測(cè)精度。在預(yù)測(cè)結(jié)果中,發(fā)現(xiàn)當(dāng)煤層氣含量為低值時(shí)的預(yù)測(cè)結(jié)果都存在較大誤差,即含氣量低值預(yù)測(cè)結(jié)果相對(duì)偏高,針對(duì)這一問(wèn)題,筆者進(jìn)行了分析。

圖5 斜率關(guān)聯(lián)度—隨機(jī)森林預(yù)測(cè)煤層氣含量結(jié)果Fig.5 Slope correlation degree-prediction of coalbed methane content by random forest

表4 3號(hào)煤層測(cè)試集預(yù)測(cè)結(jié)果

圖6 A7井3號(hào)煤層氣含量預(yù)測(cè)成果Fig.6 Prediction results of No.3 coalbed methane content in A7 well

2.5 誤差異常值分析

如圖7所示,以A3井為例,對(duì)比該井3號(hào)煤層測(cè)井響應(yīng)值,發(fā)現(xiàn)煤層中下段部分存在響應(yīng)異常值,7號(hào)樣本自然伽馬測(cè)井響應(yīng)值與補(bǔ)償密度測(cè)井響應(yīng)值明顯偏高,深側(cè)向電阻率測(cè)井響應(yīng)值相對(duì)較淺部分減小且補(bǔ)償密度測(cè)井響應(yīng)值超出煤巖最大密度范圍,結(jié)合柿莊北區(qū)綜合柱狀圖發(fā)現(xiàn),該區(qū)3號(hào)層存在泥巖或炭質(zhì)泥巖巖性的夾矸,理論上自然伽馬測(cè)井響應(yīng)值增加,密度測(cè)井響應(yīng)值增加與深側(cè)向電阻率測(cè)井響應(yīng)值減小理論上表征的應(yīng)為煤層氣含量減小,而A3井7號(hào)樣本實(shí)驗(yàn)結(jié)果表明取心處氣含量?jī)H略低于其他處且與3號(hào)樣本持平,這一現(xiàn)象會(huì)導(dǎo)致針對(duì)該樣本的預(yù)測(cè)結(jié)果遠(yuǎn)低于實(shí)際實(shí)驗(yàn)情況,即夾矸的存在對(duì)煤層氣含量預(yù)測(cè)結(jié)果造成了影響。綜合分析,夾矸的存在對(duì)煤層測(cè)井響應(yīng)會(huì)產(chǎn)生較大影響,自然伽馬值與補(bǔ)償密度值異常增高且泥巖電阻率低會(huì)使得電率測(cè)井資料響應(yīng)值出現(xiàn)減小波動(dòng),所以對(duì)應(yīng)夾矸深度段用于預(yù)測(cè)煤層氣含量的測(cè)井資料響應(yīng)會(huì)受到干擾,使得夾矸段氣含量評(píng)價(jià)結(jié)果相對(duì)異常,而煤層取樣難度大,樣本量小,受夾矸影響的實(shí)驗(yàn)樣本少,多元回歸法或機(jī)器學(xué)習(xí)法都難以單獨(dú)對(duì)這類(lèi)情況進(jìn)行建模評(píng)價(jià),隨機(jī)森林法對(duì)該類(lèi)樣本預(yù)測(cè)誤差相對(duì)該算法對(duì)其他層段預(yù)測(cè)誤差較大,為38.4%,多元回歸法對(duì)該井夾矸處氣含量預(yù)測(cè)的相對(duì)誤差為54.8%,相比之下雖然隨機(jī)森林算法預(yù)測(cè)誤差相對(duì)略低,但預(yù)測(cè)效果均較差,兩種方法都無(wú)法準(zhǔn)確預(yù)測(cè)。因而隨機(jī)森林算法能有效預(yù)測(cè)煤層非夾矸段氣含量值,夾矸段難以準(zhǔn)確預(yù)測(cè),總體對(duì)生產(chǎn)上能進(jìn)行準(zhǔn)確指導(dǎo),對(duì)煤層氣含量預(yù)測(cè)評(píng)價(jià)提供了一種新的思路方法。

圖7 A3井3號(hào)煤層響應(yīng)與實(shí)驗(yàn)值分析Fig.7 Response and experimental value analysis of No.3 coal seam in well A3

3 結(jié)論

1) 斜率關(guān)聯(lián)度算法能更好發(fā)掘測(cè)井資料與煤層氣含量間的關(guān)系,通過(guò)對(duì)各條測(cè)井曲線與煤層氣含量值進(jìn)行斜率關(guān)聯(lián)度計(jì)算分析,對(duì)于煤層氣含量預(yù)測(cè)問(wèn)題,自然伽馬、補(bǔ)償密度、聲波時(shí)差、補(bǔ)償中子、深側(cè)向電阻率及深度與煤層氣含量為正關(guān)聯(lián),利用上述測(cè)井曲線相對(duì)其他曲線組合能降低隨機(jī)森林算法的袋外誤差,提升該算法在煤層氣含量預(yù)測(cè)能力上的泛化性。

2) 針對(duì)隨機(jī)森林算法的超參數(shù)中的決策樹(shù)個(gè)數(shù)選擇中,利用交叉驗(yàn)證計(jì)算得到?jīng)Q策樹(shù)個(gè)數(shù)為500時(shí),該算法學(xué)習(xí)效率達(dá)到穩(wěn)定且能充分發(fā)揮算法性能,訓(xùn)練出的模型準(zhǔn)確且強(qiáng)健。

3) 通過(guò)實(shí)際計(jì)算分析,利用斜率關(guān)聯(lián)度—隨機(jī)森林法能有效預(yù)測(cè)煤層氣含量,計(jì)算精度相對(duì)多元回歸法更高,但在煤巖夾矸段煤層氣含量預(yù)測(cè)效果欠佳,總體上能有效評(píng)價(jià)區(qū)塊煤層氣含量。

綜上,利用斜率關(guān)聯(lián)度—隨機(jī)森林法能有效預(yù)測(cè)煤層氣含量,構(gòu)建出的模型強(qiáng)健且泛化性強(qiáng),實(shí)際應(yīng)用價(jià)值突出,對(duì)煤層氣勘探開(kāi)發(fā)可提供幫助。

猜你喜歡
決策樹(shù)煤層氣斜率
物理圖像斜率的變化探討
物理之友(2020年12期)2020-07-16 05:39:16
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
2019年《中國(guó)煤層氣》征訂單
煤層氣吸附-解吸機(jī)理再認(rèn)識(shí)
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
求斜率型分式的取值范圍
基于子孔徑斜率離散采樣的波前重構(gòu)
基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
MMC-MTDC輸電系統(tǒng)新型直流電壓斜率控制策略
DFS-C02V煤層氣井高產(chǎn)因素簡(jiǎn)析
老河口市| 崇阳县| 昔阳县| 招远市| 金塔县| 河南省| 垦利县| 探索| 哈尔滨市| 桃园县| 泌阳县| 阿勒泰市| 瑞金市| 钟祥市| 富民县| 谷城县| 九台市| 化州市| 梁平县| 永仁县| 治县。| 云阳县| 莒南县| 常熟市| 磐石市| 土默特右旗| 广平县| 桑日县| 牟定县| 浠水县| 中阳县| 大渡口区| 许昌市| 泾阳县| 伊金霍洛旗| 通海县| 阳城县| 启东市| 涿鹿县| 金平| 罗甸县|