賴 強,魏伯陽,吳煜宇,潘保芝,謝 冰,郭宇航
(1.中國石油西南油氣田分公司,四川 成都 610041;2.吉林大學,吉林 長春 130026;3.河南省煤炭地質勘察研究總院,河南 鄭州 450046)
由于地質背景的特殊,中國火成巖油氣藏成為石油資源的重要組成部分?;鸪蓭r巖性種類多、結構復雜,基于測井資料劃分火成巖的巖性是火成巖儲層評價的重點和難點。利用測井數據劃分火成巖巖性本質上分為兩大類:數據分類以及預測方法的研究[1]。數據分類常用的方法有圖版法[2-5]和非常規(guī)測井數據法[6-7](電成像、元素測井等),但圖版法劃分巖性容易受到主觀因素影響,非常規(guī)測井成本較高,大部分井中缺少相應數據。預測方法主要為利用算法(SVM、主成分分析、神經網絡等)訓練模型預測火成巖巖性[8-13],這些算法一般需要調節(jié)的參數較多。一般算法劃分火成巖巖性準確率的最大影響因素為訓練樣本的數量,訓練樣本數量越大劃分巖性準確率越高,當數據集為小數據集時(將訓練數據集小于100且各類別樣本均衡時定為小樣本數據集)準確率較低。而實際生產中由于薄片鑒定過程較復雜、薄片鑒定數量少,火成巖巖性識別訓練數據集符合小樣本數據集特征,因此,需要一種適用于小樣本的機器學習方法。針對上述問題,該文提出基于隨機森林(Random Forest,RF)的K-近鄰(K-Nearset Neighbor,KNN)法劃分火成巖巖性[14-23]。
隨機森林(Random Forest,RF)算法是由一組決策樹組成的分類器,屬于集成學習的一種(圖1)。RF算法用有放回的隨機抽取法(bootstrap)抽取樣本中的S個數據組,組成S棵決策樹,每次未被抽到的樣本組成袋外數據(out of bag,oob)。
對oob輕微擾動,如果該特征對標簽重要性高,則擾動后RF分類準確率與擾動前分類準確率差值較大,反之,則準確率變化小。
(1)
式中:D為重要性度量;N為訓練樣本個數;ooberr2為oob擾動后的分類準確率,%;ooberr1為oob擾動前的分類準確率,%。
圖1 隨機森林原理
基于oob的RF算法可對數據進行有效分析,并同時給出重要性評分。在當前所有算法中,RF算法具有極好的準確率,能夠評估各個特征在分類問題上的重要性,不需要做很多參數的調試。用原始數據中少數幾個主成分來表示整個原始數據,這些主成分彼此互不相關,并且對原始數據中的信息損失較少。
K-近鄰算法(K-nearest neighbor,KNN)基本思想是在向量空間模型表示下,分別計算待分類點XU與訓練樣本的相似性。如果XU的k個近鄰都屬于一個類別,則該樣本也屬此類別。否則,以k個近鄰中占多數的類別來確定樣本的類別(圖2)。ω1、ω2、ω3為已知3種類別,可見XU屬于ω1。
圖2 KNN分類示意圖
KNN算法流程:
T=(x1,y1),(x2,y2),…,(xi,yi),yi∈{c1,c2,…,cm}
(2)
式中:T為數據集;xi為樣本的某個特征向量;yi為樣本的類別;c為標簽;m為標簽類別。
在數據集T中找出與待分類對象最相近的k個點,包含了所有k點的區(qū)域記作nk(x)。在nk(x)中根據少數跟隨多數的原則,來決定x的具體類別:
y=argmaxcj∑xi∈nk(x)I(yi=cj),(i=1,2,…,k;j=1,2,…,m)
(3)
式中:y為分類結果;I為指示函數,即當yi=cj時,I=1,否則,I=0。
當k=1時,KNN成為最近鄰算法。最近鄰法將數據集中與x最相近點的類作為x的類。
研究區(qū)位于川西南部及川東開江-梁平海槽西側,受峨眉地裂運動影響,川西南地區(qū)火山活動強烈,噴發(fā)期為二疊紀茅口晚期—龍?zhí)镀?,火山巖段底部與茅口組石灰?guī)r不整合接觸,頂部與龍?zhí)督M陸相碎屑巖不整合接觸[12]。盆內火山巖主要以溢流相玄武巖為主,遠離火山活動中心。目的層段火成巖上部和下部為泥巖和碳酸鹽巖。分析錄井、巖心、薄片等資料可知,目的層段火成巖主要包括侵入巖和火山巖兩大類,其中,火山巖主要分為玄武巖、角礫熔巖、火山碎屑巖,侵入巖分為粒玄巖和輝綠玢巖。
圖3為研究區(qū)X1井的火成巖段常規(guī)測井曲線與薄片鑒定結果。圖3a中5 620~5 628 m為玄武巖段,具有高密度、高電阻率和低聲波時差特點,巖性致密,密度值多大于2.8 g/cm3,聲波時差低于195 μs/m,電阻率大于300 Ω·m。角礫熔巖密度為2.6~2.8 g/cm3,聲波時差為195~230 μs/m,電阻率為5~100 Ω·m。火山碎屑巖密度較低(圖3b),約為2.6 g/cm3,聲波時差為230~260 μs/m,測井電阻率僅為3~5 Ω·m。綜上所述,X1井由火山巖熔巖至角礫熔巖和火山碎屑巖,隨著角礫含量的增多,密度逐漸減小,聲波時差逐漸增大,電阻率呈降低趨勢。圖3c、d為侵入巖常規(guī)測井曲線,輝綠玢巖和粒玄巖都呈高密度、低聲波時差特征,自然伽馬為60~80 API,輝綠玢巖的電阻率比粒玄巖電阻率高。將研究區(qū)泥巖、碳酸鹽巖一起考慮,制作巖性識別圖版。圖4為川西二疊系巖石中子-密度交會圖,由圖4可以看出,泥巖、角礫熔巖和火山碎屑巖處于圖版的同一區(qū)域,難以區(qū)分。圖版法劃分巖性需要人工確定閾值,然而閾值的確定較大程度受到經驗和數據本身影響。
圖3 X1井火成巖常規(guī)測井曲線特征及薄片鑒定結果
砂泥巖地層常用的幾條與巖性相關的常規(guī)測井曲線包括自然伽馬(GR)、深側向電阻率(Rt)、密度(DEN)、中子(CNL)、聲波(AC),將其作為輸入(部分井無自然電位測井曲線,不同井或井段鉆頭程序有差異,因此,去掉自然電位及井徑曲線),以巖石薄片鑒定的巖性編碼為輸出。巖性編碼如下:泥巖為0,碳酸鹽巖為1,玄武巖為2,角礫熔巖為3,火山碎屑巖為4,粒玄巖為5,輝綠玢巖為6。
經RF算法分析得到測井曲線重要性排序,可以觀察到GR曲線與巖性的相關性最高,相關性為0.345,之后依次是Rt、DEN、CNL、AC,相關性分別為0.252、0.190、0.110、0.103,所有曲線的總相關性為1.000。
將相關性高的GR與Rt曲線做交會圖(圖5)。由圖5可知:角礫熔巖GR為20~60 API,Rt為8~100 Ω·m;火山碎屑巖GR小于53 API,Rt小于8 Ω·m;玄武巖GR為40~60 API,Rt大于100 Ω·m;粒玄巖GR大于60 API,Rt為8~100 Ω·m;輝綠玢巖GR大于60 API,Rt大于100 Ω·m;碳酸鹽巖GR小于40 API,Rt大于100 Ω·m;泥巖GR大于53 API,Rt小于8 Ω·m。結果表明,交會圖中的不同巖性之間有明顯邊界,RF算法相關性分析可靠。則火成巖巖性也可以用這5條常規(guī)測井曲線作為劃分巖性的輸入曲線。
圖5 川西二疊系地層GR-Rt巖性識別圖版
研究區(qū)共有薄片鑒定巖樣56塊,其中,火成巖38塊,其余為泥巖和碳酸鹽巖?;鸪蓭r樣品中包含侵入巖12塊(粒玄巖6塊、輝綠玢巖6塊)和火山巖26塊(火山角礫熔巖10塊、火山碎屑巖10塊、玄武巖6塊)。
隨機選取35塊巖樣及其對應深度(校正深度)的常規(guī)測井數據作為訓練樣本,其中,火成巖有24塊,采用KNN算法劃分火成巖巖性。測試樣本共21塊,其中,14塊為火成巖樣本(表1)。
表1 訓練樣本巖石薄片鑒定巖性統(tǒng)計
陳玉林[13]認為利用待分類巖性的種類可以控制k值的選取,比如有5種巖性,則每種巖性周圍近鄰為4個,k的選取應大于4。然而研究過程中發(fā)現訓練樣本的數量也是控制k值選取的另一因素。圖6為不同的k值下KNN算法的巖性回判和測試結果,表2為不同的k值下KNN的巖性回判和測試準確率??梢钥闯觯簁=3時,火成巖回判準確率為87.5%,測試準確率為92.9%。圖5中角礫熔巖和輝綠玢巖中有極個別薄片鑒定結果向其他巖性靠攏,導致回判準確率比測試準確率小。當這類離散點放入訓練樣本中時,巖性邊界劃分更準確;k=5時,火成巖回判準確率為66.7%,測試準確率為64.3%;k=7時,火成巖回判準確率為62.5 %,測試準確率為50.0%。結果表明,隨著k的變大,火成巖巖性劃分準確率下降。研究區(qū)巖石薄片數量少、巖性種類多,每種巖性訓練樣本為4~6個。當k值大于巖性的訓練樣本數量時會發(fā)生誤判,k值越大,巖性劃分準確率越低。因此,在小樣本數據集利用KNN算法劃分巖性,k值的選取首先要考慮訓練數據每種巖性樣本的數量,最終文中選擇k為3的KNN模型。
圖6 KNN回判與測試結果
表2 不同k值回判準確率及測試準確率
圖7為圖版法與KNN算法在X1井火成巖巖性劃分結果。由圖7可知,KNN算法不僅可以劃分火成巖巖性,也能準確地劃分火成巖和沉積巖邊界。該井5 610~5 620 m測井曲線呈泥巖特征,KNN算法巖性劃分正確,圖版法錯誤地將該段劃分為粒玄巖。5 645 m時Rt、DEN曲線增大,CNL、AC曲線減小,呈火山碎屑巖特征,圖版法錯誤地劃分為角礫熔巖。整個巖性劃分結果中,KNN算法對測井曲線變化敏感,5 730~5 740 m由于鉆頭程序發(fā)生變化,中子和聲波測井曲線都減小導致KNN算法將火山碎屑巖識別為角礫熔巖。井徑變化或測井曲線產生波動時容易出現個別深度點識別錯誤,但在大段巖性劃分結果準確。
圖7 KNN算法與圖版法巖性劃分結果
(1) 采用RF算法分析測井曲線和火成巖巖性的相關性,相關性由高到低依次為GR、Rt、DEN、CNL和AC。
(2) 對比圖版法,KNN算法劃分火成巖巖性受人為因素影響小,巖性劃分準確率更高。k值的選取受分類數量和訓練樣本數量2個因素控制,且后者對k值選取的影響程度高于前者。文中選擇k為3,24塊火成巖的回判準確率為87.5%,14塊火成巖測試準確率為92.9%。
(3) KNN算法對測井曲線變化較為敏感,訓練時需要將樣本中的離散點加入到訓練樣本中,劃分出的巖性邊界更準確。KNN算法不僅可以有效劃分火成巖巖性,還可以準確劃分沉積巖與火成巖的分界面。
(4) 實際生產中由于成本等原因一些井的薄片鑒定結果數量較少,RF-KNN算法對這些井的巖性劃分具有一定的實用和借鑒意義。