鐘儀華,李 榕,2,朱海雙,張志銀
(1.西南石油大學(xué)理學(xué)院,四川成都 610500; 2.中國石化西南石油局四川鉆井公司,四川德陽 618000)
基于主成分分析的水淹層動(dòng)態(tài)預(yù)測方法
鐘儀華1,李 榕1,2,朱海雙1,張志銀1
(1.西南石油大學(xué)理學(xué)院,四川成都 610500; 2.中國石化西南石油局四川鉆井公司,四川德陽 618000)
針對高含水期水淹層變化的動(dòng)態(tài)特性,提出一種基于主成分分析的最小二乘支持向量機(jī)水淹層動(dòng)態(tài)預(yù)測方法.該方法應(yīng)用數(shù)據(jù)挖掘方法與改進(jìn)的支持向量機(jī)方法,研究高含水期水淹層的分類識(shí)別問題,找到測井參數(shù)曲線與水淹級別之間的非線性映射關(guān)系,建立適合高含水期水淹特征的動(dòng)態(tài)識(shí)別模型.它不僅充分考慮各種影響因素,而且利用主成分分析法準(zhǔn)確提取影響水淹級別劃分的測井參數(shù)曲線,避免模型輸入?yún)?shù)間存在相關(guān)性導(dǎo)致劃分精度低以及模型求解復(fù)雜、訓(xùn)練速度慢的缺點(diǎn).結(jié)果表明,該方法較其他方法具有更快的運(yùn)算速度和更高的識(shí)別符合率,其運(yùn)算速度為43 s,識(shí)別符合率達(dá)到97.0%,能體現(xiàn)高含水油田水淹層的動(dòng)態(tài)變化特征.
動(dòng)態(tài)預(yù)測;水淹層識(shí)別;主成分分析;最小二乘支持向量機(jī)
油田進(jìn)入高含水及后期開發(fā)階段,水淹層識(shí)別和評價(jià)技術(shù)成為儲(chǔ)層解釋的重要環(huán)節(jié)之一.地球物理測井技術(shù)[1-2]在識(shí)別和評價(jià)水淹層中起重要作用,但當(dāng)油層水淹后其物性、地下流體性質(zhì)和孔隙結(jié)構(gòu)發(fā)生復(fù)雜變化時(shí),儲(chǔ)層孔隙度、滲透率等地質(zhì)參數(shù)變化規(guī)律難以分析,以它為基礎(chǔ)的解釋方法適應(yīng)性差、推廣程度低.為此,人們提出了基于地球物理測井的計(jì)算機(jī)自動(dòng)識(shí)別水淹層的定性識(shí)別方法,即通過研究測井參數(shù)曲線的變化規(guī)律,從模式識(shí)別角度,找到映射關(guān)系,建立水淹層的自動(dòng)識(shí)別模型,如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、灰色系統(tǒng)理論[3-6]等.現(xiàn)有的水淹層計(jì)算識(shí)別方法在實(shí)際應(yīng)用中效果很好,但存在準(zhǔn)確提取測井曲線物性參數(shù)變化規(guī)律困難,以及含水率上升引起水淹層動(dòng)態(tài)變化復(fù)雜等因素,導(dǎo)致模型輸入?yún)?shù)與實(shí)際情況差異較大,識(shí)別符合率不高.
最小二乘支持向量機(jī)[7](Least Squares Support Vecto r Machine,LS-SVM)是SVM的一種變形算法.它除具有解決小樣本模式識(shí)別問題的支持向量機(jī)的特點(diǎn)——泛化能力強(qiáng),能夠較好地解決小樣本、非線性、高維數(shù)、局部極小點(diǎn)等問題;還能將優(yōu)化問題轉(zhuǎn)化為等式約束的線性系統(tǒng)求解問題,在保證收斂符合率的情況下,使得運(yùn)算速度更快.
筆者應(yīng)用多元統(tǒng)計(jì)分析中的主成分分析法對測井曲線進(jìn)行預(yù)處理,從影響水淹級別劃分的多個(gè)測井曲線參數(shù)信息中提取幾個(gè)相互獨(dú)立的主成分來綜合反映原參數(shù)信息,減少模型輸入?yún)?shù)個(gè)數(shù)的同時(shí)降低維數(shù);然后依據(jù)得到的主成分信息,建立最小二乘支持向量機(jī)的水淹層識(shí)別模型;最后將此方法應(yīng)用于處理高含水期的水淹層識(shí)別問題,以提高水淹層計(jì)算機(jī)自動(dòng)識(shí)別模型性能和識(shí)別符合率.
基于主成分分析法,研究最小二乘支持向量機(jī)分類方法,可以排除輸入?yún)?shù)信息之間的相關(guān)性、減少模型的輸入?yún)?shù)個(gè)數(shù)、降低維數(shù),且能夠提高最小二乘支持向量機(jī)分類模型的訓(xùn)練速度和測試速度,使其識(shí)別精度與速度得到提高[8].
基于主成分分析的最小二乘支持向量機(jī)識(shí)別模型步驟:
(1)收集整理分類或識(shí)別對象的相關(guān)歷史數(shù)據(jù),并對獲取的歷史數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理.
(2)確定基于主成分分析的最小二乘支持向量機(jī)分類識(shí)別系統(tǒng)的輸入和輸出數(shù)據(jù)信息.根據(jù)支持向量分類機(jī)所應(yīng)用領(lǐng)域的理論,定性分析影響分類效果的影響因素,結(jié)合所應(yīng)用領(lǐng)域的經(jīng)驗(yàn)知識(shí),最終建立適當(dāng)?shù)挠绊懸蛩丶?根據(jù)步驟(1)構(gòu)造樣本集,并進(jìn)行歸一化處理,然后將樣本集分為訓(xùn)練樣本集、檢測樣本集、預(yù)測樣本集.
(3)利用主成分分析對訓(xùn)練樣本集進(jìn)行主成分分析,將多個(gè)相互關(guān)聯(lián)的影響因素轉(zhuǎn)化為少數(shù)幾個(gè)互不相關(guān)的綜合指標(biāo).求解主成分的一般步驟:
①計(jì)算各變量之間的相關(guān)矩陣 ∑.
(4)對步驟(3)所求出的m個(gè)主成分構(gòu)造相應(yīng)的LS-SVM模型,并依據(jù)主成分對應(yīng)的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)對LS-SVM分類器進(jìn)行訓(xùn)練.
(5)LS-SVM核函數(shù)和參數(shù)的選擇.結(jié)合實(shí)際情況和支持向量機(jī)的分類原理,由核函數(shù)和參數(shù)的選擇方法,選擇LS-SVM的核函數(shù)類型及其模型參數(shù).
(6)構(gòu)造并求解基于主成分分析的最小二乘支持向量分類機(jī)優(yōu)化問題和決策函數(shù),最終建立基于主成分分析法的最小二乘支持向量分類識(shí)別模型.
針對高含水期水淹層的動(dòng)態(tài)特性,分析高含水期儲(chǔ)集層巖性、滲透率、孔隙度、地層水礦化度等的特征,根據(jù)模式識(shí)別角度,依據(jù)影響高含水期水淹層判別的各類影響因素,如測井參數(shù)曲線(自然電位、自然伽馬等),找到其與水淹級別之間的映射關(guān)系;提出基于主成分分析的LS-SVM水淹層動(dòng)態(tài)預(yù)測方法,步驟:
(1)依據(jù)高含水期水淹特征選取數(shù)據(jù)樣本集.
(2)對測井曲線數(shù)據(jù)進(jìn)行預(yù)處理,即標(biāo)準(zhǔn)化、歸一化處理.
(3)對測井曲線參數(shù)信息進(jìn)行主成分分析提取主成分,作為基于主成分分析的LS-SVM識(shí)別模型的最終輸入?yún)?shù)信息.
(4)選擇LS-SVM分類機(jī)模型的核函數(shù)并確定參數(shù),使模型達(dá)到有效學(xué)習(xí)精度,建立基于主成分分析法的LS-SVM分類機(jī)模型.
(5)運(yùn)用建立的最優(yōu)模型對水淹層數(shù)據(jù)進(jìn)行分類預(yù)測.
選用我國已進(jìn)入高含水期的A油田水淹層的識(shí)別問題,驗(yàn)證此預(yù)測方法的識(shí)別效果和適用性.
選取A油田4個(gè)隨深度變化的不同層段、不同井的測井曲線數(shù)據(jù)及解釋結(jié)果,其中深度變化范圍為1 650~1 700 m,儲(chǔ)集層的層段為 I-1層段、I-2層段、I-3層段、I-4層段,井號(hào)為 SH45、SH 46、SH 47、SH48、SH 49、SH 50、SH51、SH 52,并且這些數(shù)據(jù)已完成標(biāo)準(zhǔn)化處理.選取水淹層最為敏感的6種測井曲線 ,即 GR(自然伽馬)、AC(聲波時(shí)差)、SP(自然電位)、Rt(地層電阻率)、RXO(沖洗帶電阻率)、POR(孔隙度)測井曲線作為識(shí)別模型的輸入?yún)?shù)信息,同時(shí)選擇未水淹、弱水淹、中水淹和強(qiáng)水淹4個(gè)水淹級別作為輸出參數(shù),建立相應(yīng)的數(shù)據(jù)樣本集.A油田各層段部分測井曲線數(shù)據(jù)樣本集見表1,其中I-1層段和I-2層段的數(shù)據(jù)作為識(shí)別模型的訓(xùn)練樣本集,I-3層段的數(shù)據(jù)作為檢測樣本集,I-4層段的數(shù)據(jù)作為預(yù)測樣本集.
表1 A油田各層段部分測井?dāng)?shù)據(jù)樣本集
由于獲得的測井曲線通常表現(xiàn)為非線性特征,因此選取對數(shù)歸一化方法對儲(chǔ)集層厚度及6個(gè)測井曲線參數(shù)信息進(jìn)行歸一化處理,即
式中:X為經(jīng)歸一化后的測井曲線數(shù)值,X∈[0,1];X*為原始測井曲線數(shù)值;為測井曲線的最大值;為測井曲線的最小值.將4組數(shù)據(jù)樣本集組合成1組數(shù)據(jù),依據(jù)MA TLAB編程序分別進(jìn)行歸一化處理.
利用SPSS統(tǒng)計(jì)軟件求取歸一化后的6個(gè)測井曲線數(shù)據(jù)樣本各主成分的特征值、各主成分的貢獻(xiàn)率及累積貢獻(xiàn)率(見表2).
表2 6個(gè)測井曲線數(shù)據(jù)樣本主成分的方差分析
由表2可知,前3個(gè)主成分的累積方差貢獻(xiàn)率最高為88.905%,超過85%,因此可以用這3個(gè)互不相關(guān)的新變量綜合表示原來6個(gè)測井參數(shù)信息,再運(yùn)用SPSS統(tǒng)計(jì)分析軟件計(jì)算各主成分的得分.6個(gè)測井曲線歸一化后的數(shù)據(jù)樣本和主成分得分?jǐn)?shù)據(jù)見表3.主成分得分即為識(shí)別模型的最終輸入?yún)?shù)信息(x1,x2,x3).
表3 歸一化后的樣本數(shù)據(jù)及主成分得分
綜合比較多項(xiàng)式核函數(shù)、Gauss徑向基核函數(shù)、Sigmoid核函數(shù)的訓(xùn)練速度及正確率,見表4.由表4可知,最終選擇運(yùn)行時(shí)間為65 s,訓(xùn)練集和測試集正確率分別達(dá)到95.0%和86.7%的 Gauss徑向基核函數(shù)作為LS-SVM決策函數(shù)的核函數(shù).
表4 不同核函數(shù)性能
文獻(xiàn)[9]給出關(guān)于LS-SVM模型在處理模式分類問題時(shí),應(yīng)用 Gauss徑向基核函數(shù)時(shí)參數(shù) C和σ2具體數(shù)值的選擇范圍:高斯分布寬度σ,{0.5,5,10,15,25,50,100,250,500};,k為模式向量的維數(shù);懲罰系數(shù)C,{0.01,0.05,0.1,0.5,1.5,10,50,100,1 000}.
參數(shù)的求取是先通過網(wǎng)格搜索法選擇參數(shù)對(C,σ2),然后利用交叉驗(yàn)證法對目標(biāo)函數(shù)進(jìn)行尋優(yōu),使驗(yàn)證精度達(dá)到最高,獲得最優(yōu)參數(shù)對.該方法可以避免過擬合現(xiàn)象,求取步驟:
(1)將 C和σ2分別取 N=9和 M=9,構(gòu)成 N×M=81個(gè)(C,σ2)組合,且每一個(gè)參數(shù)對都相互獨(dú)立,可以采用并行方式進(jìn)行網(wǎng)格搜索.
(2)通過30重(30-fold)交叉驗(yàn)證法在81組(C,σ2)上搜索選取,即將樣本數(shù)據(jù)集(表1層段I-1、I-2的數(shù)據(jù))隨機(jī)分為30個(gè)數(shù)據(jù)分布近似或相同的集合,其中任意一個(gè)集合留作獨(dú)立的預(yù)測集,其余29個(gè)合并以后作為訓(xùn)練集,因此可循環(huán)訓(xùn)練30次,計(jì)算每個(gè)參數(shù)對的均方誤差(M SE)直到網(wǎng)絡(luò)搜索停止,其中均方誤差最小的參數(shù)對(C,σ2)就是最佳模型參數(shù),最終得 C=1 000,σ2=0.5.
運(yùn)用建立的基于主成分分析的LS-SVM水淹層動(dòng)態(tài)預(yù)測模型對水淹層預(yù)測樣本集(表1層段I-4的數(shù)據(jù))進(jìn)行分類預(yù)測,與實(shí)際資料相比,3個(gè)誤判,正確率為85.0%,取得較好結(jié)果.將此結(jié)果與計(jì)算機(jī)自動(dòng)識(shí)別水淹層的BP神經(jīng)網(wǎng)絡(luò)識(shí)別方法、支持向量機(jī)方法相比,結(jié)果見表5.
表5 各分類算法比較結(jié)果
由表5可知,新的識(shí)別方法在運(yùn)算速度上達(dá)到43 s,訓(xùn)練集和測試集的識(shí)別符合率分別提高到97.0%和85.0%.
針對高含水期水淹層物性參數(shù)復(fù)雜的變化特征,利用主成分分析法對測井曲線進(jìn)行預(yù)處理,結(jié)合LS-SVM分類機(jī)建立基于主成分分析的LS-SVM水淹層動(dòng)態(tài)預(yù)測方法.該方法不僅從理論上解決了輸入?yún)?shù)過多導(dǎo)致解釋方法適應(yīng)性差、推廣能力低、識(shí)別符合率不高等缺點(diǎn),而且在實(shí)際應(yīng)用中實(shí)現(xiàn)了對水淹層進(jìn)行較高準(zhǔn)確度和較好適用性的動(dòng)態(tài)識(shí)別,其運(yùn)算速度達(dá)到43 s,識(shí)別符合率達(dá)到97.0%.因此,這種水淹層測井解釋動(dòng)態(tài)預(yù)測方法,可用于處理高含水期油層水淹復(fù)雜變化的水淹層識(shí)別問題,值得推廣使用.
[1]趙培華.油田開發(fā)水淹層測井技術(shù)[M].北京:石油工業(yè)出版社,2003:61-188.
[2]Salehi M R,Settari A.New solution for anisotropic formation damage due to p roduced water re-injection[J].Journal of Canadian Petroleum Technology,2009,48:50-60.
[3]劉金月,許少華.基于小波包分析和過程神經(jīng)元網(wǎng)絡(luò)的水淹層識(shí)別方法[J].大慶石油學(xué)院學(xué)報(bào),2008,32(1):74-76.
[4]單智萍,曹茂俊.基于Boosting的油田水淹層識(shí)別算法[J].大慶石油學(xué)院學(xué)報(bào),2006,30(3):97-99.
[5]李盼池,許少華.支持向量機(jī)及其在復(fù)雜水淹層識(shí)別中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2004,24(9):147-149.
[6]趙軍,程鵬飛,劉地淵,等.支持向量機(jī)在水淹層測井識(shí)別中的應(yīng)用[J].物探與化探,2008,32(6):652-655.
[7]姜靜清.最小二乘支持向量機(jī)算法及應(yīng)用研究[D].長春:吉林大學(xué),2007.
[8]鐘儀華,李榕.基于主成分分析的最小二乘支持向量機(jī)巖性識(shí)別方法[J].測井技術(shù),2009,33(5):425-426.
[9]Blake C L,Merz CJ.UCI repository of machine learning database.Livine[R].CA:Univcisity of California,Dep t of information and computer science,1998.
Dynam ic prediction of water-flooded layer based on the principal com ponen t analysis/2011,35(2):51-55
ZHONG Yi-hua1,L IRong1,2,ZHU Hai-shuang1,ZHANG Zhi-yin1
(1.School of Sciences,Southw est Petroleum University,Chengdu,Sichuan 610500,China;2.Sichuan D rilling Com pany,Southw est Petroleum Bureau,SINOPEC,Deyang,Sichuan 61800,China)
According to the characteristic of water-flooded zone during high water cut stage,dynamic p rediction method of w ater-flooded layer w ith least squares suppo rt vector machine based on the p rincipal component analysis is p roposed in this paper.This method used data mining method and the imp roved support vectormachinemethod to study the classification of water-flooded layer in high water cut oilfields;found the non-linear mapping betw een logging curve and water-flooding levels;and established the dynamic recognition model of water-flooded layer log interp retation.It not only fully considers the various influence factors,but also extracts logging parameter curve that can affect the division of water flooded levels by using the p rincipal component analysis method,w hich can avoid the shortcomings of low accuracy of division fo r there are co rrelation betw een input parameters and solving comp lex and slow training w hen solving themodel.The results show that the operation speedsand recognition p recision of the method p roposed in this paper are all better than other recognition methods;its average running time isonly 43 seconds,average recognition p recision is 92%.Moreover the new method could reflect the dynamic characteristics of water-flooded layer in high w ater cut oil fields.
dynamic p rediction;water-flooded layer recognition;p rincipal component analysis;least squares suppo rt vecto r machine
TE357.8
A
1000-1891(2011)02-0051-05
2010-06-22;審稿人:張繼成;編輯:關(guān)開澄
四川省教育廳重點(diǎn)項(xiàng)目資助(07ZA 143)
鐘儀華(1965-),女,博士,教授,主要從事石油工程計(jì)算和優(yōu)化決策方面的研究.