朱麗萍,李雄炎,李洪奇,
(1.中國石油大學(xué)(北京)計算機科學(xué)與技術(shù)系,北京 102249; 2.中國石油大學(xué)(北京)油氣資源與探測國家重點實驗室,北京 102249; 3.中國石油大學(xué)(北京)地球探測與信息技術(shù)北京市重點實驗室,北京 102249)
基于模型驅(qū)動數(shù)據(jù)挖掘的低阻油層識別方法
朱麗萍1,李雄炎2,3,李洪奇1,2,3
(1.中國石油大學(xué)(北京)計算機科學(xué)與技術(shù)系,北京 102249; 2.中國石油大學(xué)(北京)油氣資源與探測國家重點實驗室,北京 102249; 3.中國石油大學(xué)(北京)地球探測與信息技術(shù)北京市重點實驗室,北京 102249)
基于多參數(shù)信息的低阻油層的識別屬于高維、非線性的模式識別問題.結(jié)合研究工區(qū)低阻油層儲層特征,分析研究工區(qū)構(gòu)造和沉積特征,以數(shù)據(jù)挖掘方法為基礎(chǔ),確定模型驅(qū)動數(shù)據(jù)挖掘的理論框架;以測井、巖心和試油的相關(guān)信息為源數(shù)據(jù),利用聚類和關(guān)聯(lián)分析獲取敏感參數(shù);以敏感參數(shù)為核心,采用決策樹、貝葉斯網(wǎng)絡(luò)、支持向量機和人工神經(jīng)網(wǎng)絡(luò)方法獲得多參數(shù)組合的預(yù)測模型,并結(jié)合參數(shù)的物理含義和低阻油層的實際特征,對預(yù)測模型進行修正,改進預(yù)測模型的實用性.結(jié)果表明:利用模型驅(qū)動數(shù)據(jù)挖掘方法得到的最優(yōu)預(yù)測模型,預(yù)測研究工區(qū)的低阻油層的識別準確率為90.05%.
模型驅(qū)動;數(shù)據(jù)挖掘;低阻油層;儲層預(yù)測;特征參數(shù);預(yù)測模型;識別
20世紀90年代以來,由于低阻油層分布廣、儲量大、評價難、易遺漏,一直受到普遍的關(guān)注,是老井復(fù)查、二次開發(fā)、多次開發(fā)、高成熟精細勘探階段的主要目標[1].根據(jù)區(qū)塊地質(zhì)特征,定義低阻油層,形成基于低阻油層成因機理研究的低阻油層識別方法[2-6],同時分類歸納算法中的支持向量機在低阻油層的識別中也有不同程度的應(yīng)用[7-8].由于實際地質(zhì)特征的復(fù)雜性和測井曲線的模糊性,使得基于成因機理的測井解釋模型存在較大依賴性,反映在方法上是誤差較大、評價及識別的準確率較低.由于算法單一,基于支持向量機的識別方法僅考慮數(shù)據(jù)驅(qū)動,沒有與地質(zhì)和地球物理背景有效結(jié)合完善預(yù)測模型.因此,盡管支持向量機對小樣本具有較強的學(xué)習(xí)和泛化能力,獲得較高的識別率,但對未知領(lǐng)域低阻油層的發(fā)現(xiàn)缺乏指導(dǎo)意義.
數(shù)據(jù)挖掘技術(shù)在油藏管理和油藏描述、提高采收率、精細勘探、地學(xué)數(shù)據(jù)處理等方面有不同程度的應(yīng)用[9-12],可是沒有形成系統(tǒng)的挖掘思路,受數(shù)據(jù)源的有限性和方法的單一性制約,并未在地質(zhì)和地球物理背景下取得實質(zhì)性的挖掘成果.筆者考慮模型驅(qū)動,形成模型驅(qū)動數(shù)據(jù)挖掘的理論框架,根據(jù)研究工區(qū)低阻油層的特征,以系統(tǒng)挖掘作為指導(dǎo),最大限度地獲取各種屬性之間的內(nèi)在聯(lián)系,生成預(yù)測低阻油層的模型,這對研究工區(qū)低阻油層的勘探開發(fā)具有一定的理論和實踐意義.
數(shù)據(jù)挖掘(Data Mining)出現(xiàn)于20世紀80年代后期,是從海量數(shù)據(jù)中獲取正確的、新穎的、潛在有用的、最終可理解的模式的非平凡過程[13].在數(shù)據(jù)挖掘的早期研究中,算法的高效性和工具的靈活性是人們熱衷的對象,但是現(xiàn)實世界中的各種限制被忽略了,致使考慮數(shù)據(jù)驅(qū)動所獲取的知識大部分不具有實用性.為了克服數(shù)據(jù)挖掘算法和工具的“高效”與所獲取知識的“低能”之間的矛盾,“領(lǐng)域驅(qū)動數(shù)據(jù)挖掘(Domain-Driven Data Mining)”被提出[14-15],即將相關(guān)領(lǐng)域的先驗知識作為附屬條件,使其參與挖掘過程,利用該條件的限制作用,對所獲取知識的實用性進行檢驗,確保最終挖掘所得知識對于目標事物具有足夠的有效性.對儲層評價和流體識別領(lǐng)域,各種解釋和評價模型蘊含著豐富的領(lǐng)域知識,因此傳統(tǒng)的解釋和評價模型可以作為儲層評價和流體識別領(lǐng)域的背景知識,參與和限制整個挖掘過程,將其有效地融合于數(shù)據(jù)挖掘的理論框架中,即“模型驅(qū)動數(shù)據(jù)挖掘”,其主要方法有聚類分析、關(guān)聯(lián)分析和分類歸納等算法.
1.1.1 聚類分析
將物理或抽象對象的集合分成相似的對象類的過程稱為聚類,它是一種在無監(jiān)督的情況下根據(jù)對象間的相似程度自動地將其分割為一組有意義的類的處理過程[13].無監(jiān)督是指待分類對象沒有預(yù)先給定的類標識;有意義是指聚類的結(jié)果應(yīng)該反映原始數(shù)據(jù)的自然結(jié)構(gòu)特征.聚類分析的三要素為相似性測度、聚類準則和聚類算法.對單一屬性,聚類分析可以通過聚類而間接實現(xiàn)連續(xù)型數(shù)據(jù)的離散化,是一種數(shù)據(jù)歸約的形式,即以區(qū)間的形式分割數(shù)據(jù);對多個屬性,聚類分析按不同的試油結(jié)論進行聚類,可以間接獲取不同參數(shù)組合對目標儲層的敏感性.
1.1.2 關(guān)聯(lián)分析
關(guān)聯(lián)分析是發(fā)現(xiàn)無明確因果關(guān)系的屬性之間內(nèi)在聯(lián)系最有效的方法之一,以支持度和置信度為主、提升度為輔的評估框架衡量已發(fā)現(xiàn)的規(guī)則,結(jié)合實際背景展開分析.由于關(guān)聯(lián)分析不能處理連續(xù)性數(shù)據(jù),因此在進行關(guān)聯(lián)分析之前必須對數(shù)據(jù)進行離散化.離散化方法的選擇對關(guān)聯(lián)分析的結(jié)果影響很大.
1.1.3 分類歸納
分類歸納是以核心參數(shù)為中心,進行多種參數(shù)組合,獲得已知屬性與目標屬性之間的關(guān)系,決策樹、貝葉斯網(wǎng)絡(luò)、支持向量機和神經(jīng)網(wǎng)絡(luò)具備這一功能,只是算法原理和所獲取知識的表達形式有所區(qū)別.
決策樹(Decision Tree)由內(nèi)部節(jié)點和葉子節(jié)點構(gòu)成,以分類和決策為目的[13],其建樹過程分為樹生成和樹剪枝.它簡單直觀、建立速度快、精度高、生成的規(guī)則容易理解,可以處理連續(xù)值和離散值屬性,并能清晰顯示屬性的權(quán)重.
貝葉斯網(wǎng)絡(luò)(Bayesian Network)是基于概率分析、圖論的一種不確定性知識表達和推理模型,提供一種將知識直覺地圖解可視化的方法[13].它是一個有向無環(huán)圖,由代表變量的節(jié)點及連接節(jié)點的有向弧構(gòu)成,有向弧代表變量間的關(guān)系,變量之間的關(guān)系強度由節(jié)點與其父節(jié)點之間的條件概率表示.對不完全數(shù)據(jù)和變量間的因果關(guān)系,貝葉斯網(wǎng)絡(luò)具有較強的處理和學(xué)習(xí)能力.
支持向量機(Support Vector Machine)是根據(jù)有限的數(shù)據(jù)信息,在訓(xùn)練樣本中構(gòu)造最優(yōu)分類超平面,在盡可能正確分開兩類樣本的同時使兩類差異性最大.支持向量機尋找最優(yōu)分類超平面的方法是通過核技巧,將待挖掘的數(shù)據(jù)點投影到高維空間,在高維空間尋找具有最大分類間隔的超平面,即最優(yōu)分類超平面[13].因此,對兩類屬性進行判別,支持向量機有較強的能力;對高維屬性的樣本,支持向量機也有很好的泛化和推廣能力.
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network)是模擬生物的直觀性思維建立起來的一種信息智能處理系統(tǒng),具有自組織、自學(xué)習(xí)、快速處理及很強的非線性函數(shù)逼近能力等特點,由神經(jīng)元、網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)規(guī)則組成.神經(jīng)元是構(gòu)成網(wǎng)絡(luò)的基本單位,網(wǎng)絡(luò)結(jié)構(gòu)是由多個神經(jīng)元按一定規(guī)則通過權(quán)重聯(lián)接在一起的網(wǎng)狀結(jié)構(gòu),學(xué)習(xí)規(guī)則是神經(jīng)元之間連接權(quán)重的調(diào)整方法[13].人工神經(jīng)網(wǎng)絡(luò)通過對樣本進行有限次數(shù)的迭代學(xué)習(xí),計算所得的預(yù)測模型為黑盒,故存在未知性和不確定性.
基于模型驅(qū)動數(shù)據(jù)挖掘識別低阻油層的流程見圖1,分為數(shù)據(jù)預(yù)處理、特征參數(shù)的提取、預(yù)測模型的建立和預(yù)測模型的修正.數(shù)據(jù)的預(yù)處理是指根據(jù)曲線定性的形態(tài)模型和定量的數(shù)值模型,采用數(shù)據(jù)清洗、聚類分析等方法排除質(zhì)量較差、數(shù)值異常的數(shù)據(jù)點,使數(shù)據(jù)源具有較高的質(zhì)量.另外,為了豐富數(shù)據(jù)的維數(shù)和可能敏感的特征參數(shù),理性和非理性的數(shù)據(jù)變換和構(gòu)造也是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié).特征參數(shù)的提取是指結(jié)合每個參數(shù)具體的物理模型,利用聚類分析和關(guān)聯(lián)分析獲取對目標儲層敏感的特征參數(shù).由于部分參數(shù)受非低阻油層特征的影響,使其在數(shù)值上表現(xiàn)出多解性,因此有必要結(jié)合參數(shù)的物理模型,正確分析數(shù)值特征的原因,最后確定對低阻油層敏感的特征參數(shù).預(yù)測模型的建立是指運用分類歸納中的多種方法,分析以敏感參數(shù)為核心的多組參數(shù)組合,以準確率為主要評估指標,參考每個參數(shù)的物理模型和研究區(qū)低阻油層的儲層特征,形成低阻油層的初步預(yù)測模型.預(yù)測模型的修正是指在實際的應(yīng)用過程中,結(jié)合非模型因素所導(dǎo)致的問題對預(yù)測模型進行修正,改進預(yù)測模型的實用性.另外,預(yù)測模型的建立和修正有時可能是一個循環(huán)反復(fù)的過程,應(yīng)根據(jù)具體問題,最大化預(yù)測模型的實用性.
圖1 基于模型驅(qū)動數(shù)據(jù)挖掘識別低阻油層的流程
某研究區(qū)塊為構(gòu)造-巖性油藏,從三角洲內(nèi)前緣相過渡到三角洲外前緣相,并且分布大面積的濱湖沉積和部分濱湖泥坪.儲層類型以席狀砂和濱湖砂脊為主,巖性主要為一套灰色粉砂巖夾灰、灰綠色泥巖及過渡巖性.由于薄互層發(fā)育,受巖性細、泥質(zhì)和地層導(dǎo)電礦物含量高、外來液侵入、壓裂等因素影響,使得油水關(guān)系相對復(fù)雜,表現(xiàn)為油層電阻率接近或小于本地區(qū)相同地質(zhì)條件下的水層電阻率,給依賴傳統(tǒng)模型法的測井解釋帶來困難,其識別精度有限.
研究區(qū)有試油結(jié)論的97口探井和評價井,包含272個試油層段,其中油層(124個)、油水同層(43個)、水層(53個)、低阻油層(52個),油層相對比較發(fā)育.測井信息主要包括LLD(深側(cè)向電阻率)、LLS (淺側(cè)向電阻率)、ILD(深感應(yīng)電阻率)、ILM(中感應(yīng)電阻率)、DEN(體積密度)、CNL(中子孔隙度)、AC (縱波時差)、CAL(井徑)、GR(自然伽馬)和SP(自然電位).
特征參數(shù)的選擇是構(gòu)建預(yù)測模型的核心問題,基于等頻和聚類離散化方法[13],當最小支持度和置信度分別為10%、80%時,LLD、AC、GR與不同的儲層類型有較強的關(guān)系.以特征參數(shù)LLD、AC、GR為核心,進行多參數(shù)組合,以決策樹、貝葉斯網(wǎng)絡(luò)、支持向量機和人工神經(jīng)網(wǎng)絡(luò)的整體識別率為衡量指標,選取最優(yōu)參數(shù)組合對低阻油層進行評價,結(jié)果見表1.
表1 挖掘多種參數(shù)組合的識別結(jié)果%
由表1可知,由于不同方法的算法機理存在一定的差異,4種方法在不同的參數(shù)組合上所獲得的整體識別率明顯不同,其中決策樹在LLD、LLS、ILD、AC、GR、SP(第7種)參數(shù)組合獲得最高的整體識別率,其生成樹結(jié)構(gòu)見圖2,深度為8.
以決策樹為主要方法, LLD、LLS、ILD、AC、GR、SP為主要參數(shù)組合,兼顧其他3種方法和參數(shù)組合,得出全區(qū)識別油層、油水同層、水層和低阻油層的預(yù)測模型,結(jié)合微相特征和測井曲線的物理意義對預(yù)測模型進行修正,結(jié)果見表2.為便于理解,模型的表達形式主要以規(guī)則為主.研究區(qū)低阻油層定義為電阻率小于圍巖電阻率2倍的油層,反映在數(shù)值上是電阻率小于7,甚至小于水層的電阻率.
由表2可知:低阻油層、油層和水層的識別規(guī)則中深側(cè)向電阻率反映電阻率的特點,符合實際的儲層特征.另外,低阻油層不同的識別規(guī)則中,不同曲線在數(shù)值上的差異性反映不同成因?qū)е碌牡妥栌蛯?油層和低阻油層的識別率明顯高于整體識別率的86.96%,油水同層和水層的識別率稍低,其主要原因是油層和低阻油層的儲層性質(zhì)特殊,物理特征明顯,反映在數(shù)據(jù)上是數(shù)值特征規(guī)律性較強.
圖2 某研究區(qū)塊的決策樹結(jié)構(gòu)
表2 數(shù)據(jù)挖掘預(yù)測模型的規(guī)則
為了驗證和改進預(yù)測模型的有效性和實用性,利用表2不同類型儲層的預(yù)測模型衍生低阻油層、油層和油水同層的識別參數(shù),分別為DZYC、YC和YSTC,其值為1時,指示對應(yīng)的層段分別為低阻油層、油層和油水同層;其值為0時,不是相應(yīng)的儲層類型.對研究工區(qū)的97口試油老井進行復(fù)查,新發(fā)現(xiàn)12個油層、9個油水同層和20個低阻油層,凈增有效厚度66.75m;整體識別的準確率為86.96%,低阻油層識別的準確率為90.05%.
其中A井處于三角洲內(nèi)前緣的河口壩微相和構(gòu)造的低部位,巖性以細粉砂巖為主,泥質(zhì)含量高,砂泥巖薄互層和微孔隙較發(fā)育,為低阻油層的發(fā)育提供有利條件.DZYC新發(fā)現(xiàn)1號和2號層為低阻油層,射孔產(chǎn)油,凈增有效厚度6.60m;YC指示3號和4號層為油層,試油結(jié)論為日產(chǎn)油6.37t.與正常油層相比,1號和2號層的低阻油層在電阻率上明顯偏小;與圍巖相比,低阻油層的電阻率和三孔隙度曲線變化的幅度較小,其含油特征不明顯,隱蔽性較強.
B井處于研究區(qū)的邊部,受壓裂的影響,油藏不同程度地被破壞;儲層致密和高含鈣造成油水呈非均質(zhì)分布,致使儲層產(chǎn)油、產(chǎn)水交替出現(xiàn),油水同層較發(fā)育.YSTC新發(fā)現(xiàn)1號和2號層為油水同層,凈增有效厚度0.55m;YSTC指示3號層為油水同層,射孔日產(chǎn)油3.10t、日產(chǎn)水2.70m3.由于部分可動水的存在,與圍巖相比,油水同層的三孔隙度曲線,尤其是縱波時差曲線的變化幅度較小,反映含油性的特征較微弱.
(1)模型驅(qū)動數(shù)據(jù)挖掘方法以地質(zhì)背景為基礎(chǔ),綜合考慮儲層的巖性、物性、流體和導(dǎo)電礦物的導(dǎo)電性,利用決策樹、貝葉斯網(wǎng)絡(luò)、支持向量機和人工神經(jīng)網(wǎng)絡(luò)等分類歸納方法構(gòu)建低阻油層和其他儲層的最優(yōu)預(yù)測模型,并結(jié)合實際儲層特征對預(yù)測模型進行適當修正,提高其實用性,識別低阻油層的準確率為90.05%.
(2)在該方法實現(xiàn)過程中,盆地類型、沉積因素和儲集層巖性結(jié)構(gòu)等地質(zhì)因素為待挖掘數(shù)據(jù)進行分類提供標準;測井曲線的物理意義為特征參數(shù)的選擇提供參考,同時二者也能對挖掘結(jié)果進行驗證.
(3)數(shù)據(jù)源的準確性和豐富程度決定挖掘結(jié)果的可靠性,結(jié)合背景對預(yù)測模型進行合理性的修正決定識別的準確率.從理論探索的角度,模型驅(qū)動數(shù)據(jù)挖掘方法的量化處理方法增強分析和解決問題的客觀性,減少隨意性,為石油天然氣勘探開發(fā)提供一種新的思路和手段.
[1] 李國欣,歐陽健,周燦燦,等.中國石油低阻油層巖石物理研究與測井識別評價技術(shù)進展[J].中國石油勘探,2006(2):43-50.
[2] 孫建孟,陳鋼花,楊玉征,等.低阻油氣層評價方法[J].石油學(xué)報,1998,19(4):83-88.
[3] 李薇,田中元,閆偉林,等.Y油田低電阻率油層形成機理及RRSR識別方法[J].石油勘探與開發(fā),2005,32(1):60-62.
[4] 汪愛云,宋延杰,劉江,等.葡西地區(qū)低阻油層的成因[J].大慶石油學(xué)院學(xué)報,2005,29(1):18-20.
[5] 唐曉敏.低阻油層通用有效介質(zhì)電阻率模型研究[D].大慶:大慶石油學(xué)院,2007.
[6] 唐曉敏,宋延杰,張傳英.低阻油層通用有效介質(zhì)對稱電阻率模型的應(yīng)用[J].大慶石油學(xué)院學(xué)報,2008,32(2):18-25.
[7] 連承波,趙永軍,鐘建華,等.基于支持向量機的低阻油層識別方法及應(yīng)用[J].石油天然氣學(xué)報,2008,30(1):80-82.
[8] 張銀德,童凱軍,鄭軍,等.支持向量機方法在低阻油層流體識別中的應(yīng)用[J].石油物探,2008,47(3):306-310.
[9] 石廣仁.支持向量機在多地質(zhì)因素分析中的應(yīng)用[J].石油學(xué)報,2008,29(2):195-198.
[10] 石廣仁,張光亞,石驍騑.多地質(zhì)因素的勘探目標優(yōu)選—人工神經(jīng)網(wǎng)絡(luò)法與多元回歸分析法比較研究[J].石油學(xué)報,2002,23(5):19 -22.
[11] 張紹紅.概率神經(jīng)網(wǎng)絡(luò)技術(shù)在非均質(zhì)地層巖性反演中的應(yīng)用[J].石油學(xué)報,2008,29(4):549-552.
[12] 候鍵,郭蘭磊,元福卿,等.勝利油田不同類型油藏聚合物驅(qū)生產(chǎn)動態(tài)的定量表征[J].石油學(xué)報,2008,29(4):577-581.
[13] Han Jiawei , Micheline K. Data mining concept s and techniques[M] . Second Edition. Beijing : China Machine Press , 2006
[14] Wang G Y, Wang Y. Domain-oriented data-driven data mining : A new understanding for data mining[J ] . Journal of Chongqing Universityof Posta and Telecommunications : Natural Science Edition , 2008 ,20 (3) ,266 - 271.
[15] Cao L B , Zhang C Q. Domain-driven actionable knowledge discovery in t he real world ∥The Lot h Pacific-Asia Conference on KnowledgeDiscovery and Data Mining[ C] . Singapore : Springer , 2006 :821 - 830.
Identifying the lowresistivity oil reservoir based on the model-driven data mining/2010,34(4):30-34
ZHU Li-ping1,LI Xiong-yan2,3,LI Hong-qi1,2,3
(1.Department ofCom puter Science and Technology,China University ofPetroleum(Beijing), Beijing102249,China;2.State Key L aboratory ofPetroleum Resource and Prospecting,China University ofPetroleum(Beijing),Beijing102249,China;3.Key L aboratory of Earth Prospecting and Inf ormation Technology,China University ofPetroleum(Beijing),Beijing102249,China)
The identification of the low resistivity oil reservoir based on many logging information is actually of a high-dimensional,non-linear pattern recognition.In the premise of fully awareness of the structural features and sedimentary characteristics in the region of interest,the fundamental principle of model-driven data mining is generated based on the data mining concepts and techniques.On the basis of the logging data,core data and well testing data,the cluster analysis and association analysis can help us to obtain the sensitive parameters.With the sensitive parameters as the core,the Decision Tree,Bayesian Network,Support Vector Machine and Artificial Neural Network would acquire the initial predictivemodel to identify the low resistivity oil reservoir.Its practicability will be improved after the initial predictive model is corrected.The recognition accuracy rate of the optimal model to predict the low resistivity oil reservoir is up to 90.05 percent.
model-driven;data mining;low resistivity oil reservoir;reservoir prediction;characteristic parameter;predictive model;identify
book=4,ebook=391
TE19
A
1000-1891(2010)04-0030-05
2010-03-26;審稿人:袁 滿;編輯:任志平
國家高新技術(shù)研究發(fā)展計劃863項目(2009AA062802)
朱麗萍(1973-),女,碩士,副教授,主要從事數(shù)據(jù)挖掘、計算機網(wǎng)絡(luò)方面的研究.