楊磊,王化增,陳子凌
(1.中國石油大學經(jīng)濟管理學院,山東青島 266580;2.中石化勝利油田東勝集團公司,山東東營 257091; 3.中石油物資公司,北京 100029)
基于支持向量機的油氣儲量價值等級評價
楊磊1,王化增2,陳子凌3
(1.中國石油大學經(jīng)濟管理學院,山東青島 266580;2.中石化勝利油田東勝集團公司,山東東營 257091; 3.中石油物資公司,北京 100029)
針對油氣儲量的特點,對油氣儲量價值的優(yōu)劣等級進行劃分。選取影響油氣儲量價值等級的7個因素,即儲量規(guī)模、儲量豐度、儲層埋深、原油黏度、滲透率、凝固點和采收率,采用最小二乘支持向量機模型對油氣儲量價值等級劃分進行仿真,并運用網(wǎng)格搜索法確定最小二乘支持向量機模型的參數(shù)懲罰因子C和核函數(shù)參數(shù)σ。結果表明,最小二乘支持向量機是評價油氣儲量價值等級的有效方法,訓練正判率達到95%,檢驗正判率達到81%。
最小二乘支持向量機;油氣儲量;價值分級
油氣儲量具有經(jīng)濟性差異,可劃分為經(jīng)濟儲量、次經(jīng)濟儲量和非經(jīng)濟儲量,其中非經(jīng)濟儲量可能占探明儲量的比例較大。油氣儲量要實現(xiàn)資產(chǎn)化管理首先應確定其價值的優(yōu)劣等級。針對油氣儲量價值等級評價問題前人已經(jīng)做了一些研究。孟偉[1]和周曉俊[2]采用灰色多目標局勢決策和模糊聚類理論對油氣儲量價值進行分級評價。袁自學等[3]和胡健等[4]通過一元回歸分析、德爾菲法對油氣儲量價值進行分級評估。趙慶飛等[5]運用層次分析法、德爾菲法對天然氣儲量價值進行分級。以上這些研究多采用主觀方法確定指標權重,忽視了指標數(shù)據(jù)本身對油氣儲量價值等級的影響。王化增和遲國泰[6]運用BP神經(jīng)網(wǎng)絡的方法對油氣儲量價值等級進行了劃分,該方法對油氣儲量價值優(yōu)劣分級在參數(shù)合適和樣本足夠多的情況下能夠得到較好的判別效果,但參數(shù)隱層個數(shù)和學習率的確定是一個難點,具體應用中這些參數(shù)需根據(jù)實際情況來確定。筆者采用最小二乘支持向量機法對油氣儲量價值分級進行仿真,將油氣儲量價值劃分為優(yōu)、良、中、差4個等級。
支持向量機(SVM)能較好地解決小樣本、非線性、高維數(shù)和局部極小點等實際問題,已成為機器學習界的研究熱點之一[7]。最小二乘支持向量機(LS-SVM)是標準支持向量機的改進,該方法用等式約束代替標準支持向量機算法中的不等式約束,并將求解二次規(guī)劃問題轉化為直接求解線性方程組,降低了計算復雜度,在許多分類或回歸估計問題中取得了很好的應用效果[8]。
支持向量機的基本思想是,首先經(jīng)非線性映射φ(x):RN→H把輸入變量從原空間(RN)映射到高維特征空間(H)中,然后在高維特征空間中建立優(yōu)化超平面,并在該空間中進行線性分類。在線性情況下只用到了原空間的點積運算,在非線性空間中也只須考慮在高維特征空間的內(nèi)積運算,甚至不需要知道映射φ的具體形式[9]。
設樣本集S={(xi,yi)}(i=1,2,…,N),xi為輸入矢量,yi為輸出矢量,N為樣本個數(shù)。首先將輸入變量從原空間映射到高維空間:φ(x)=(φ1(x),φ2(x),…,φn(x),…)。在高維特征空間中,如果訓練數(shù)據(jù)集是線性可分的,則存在分類超平面。為了描述分類超平面,并考慮存在不能被分類超平面正確分類的樣本,引入了松弛向量即誤差量εi≥0,超平面的約束條件為
式中,w為超平面法線方向;b為常數(shù)。
為了得到一個大邊緣的最優(yōu)超分類面,取訓練集到超平面的最小距離最大。對于最小二乘支持向量機方法,高維特征空間中線性不可分相對應的優(yōu)化問題轉化為如下最優(yōu)問題:
其中,C為常數(shù),控制錯分樣本懲罰的程度,實現(xiàn)在錯分樣本的比例與算法復雜度之間的折中,稱為懲罰因子。要尋找最優(yōu)化分類面,就是要求解式(1)所示的二次規(guī)劃問題,找到唯一的極小點。最小二乘支持向量機優(yōu)化目標采用εi的平方項,且不等式約束也變?yōu)槿缦碌仁郊s束:
為了解決該二次規(guī)劃問題,建立拉格朗日函數(shù)
式中,α為拉格朗日乘子。根據(jù)庫恩-塔克最優(yōu)化條件有
將式(4)消去w和εi,變?yōu)榫€性方程組,可用最小二乘法求得b和α。因此得到的分類決策函數(shù)即最小二乘支持向量機為
式中,K(x,xi)為核函數(shù)。核函數(shù)將高維特征空間中內(nèi)積運算轉化為低維輸入空間上一個簡單的函數(shù)計算。選擇不同的核函數(shù)就會得到不同的支持向量機。目前,在支持向量機中經(jīng)常使用的核函數(shù)有以下3種:
目前,還沒有很好的方法來指導具體問題的核函數(shù)的選取。一般地,由于徑向基核函數(shù)是個可適用于任意分布樣本的普適函數(shù),且僅有一個參數(shù)寬度系數(shù)σ,并能很好地反映模型選擇的復雜度,因此被廣為應用。如彭濤、楊斌[9-10]等在分類識別時對采用不同核函數(shù)的結果做了對比分析,發(fā)現(xiàn)徑向基核函數(shù)分類效果最好。本研究中也做了對比分析,最終選定了徑向基函數(shù)作為核函數(shù)。
核函數(shù)確定后,最小二乘支持向量機模型有兩個參數(shù)需確定:懲罰因子C和核函數(shù)參數(shù)σ。懲罰因子C用于控制模型復雜度和逼近誤差的折中,C越大則對數(shù)據(jù)的擬合程度越高,學習機的復雜度就越高,容易出現(xiàn)“過學習”的現(xiàn)象;而C取值過小,則對經(jīng)驗誤差的懲罰小,學習機的復雜度低,就會出現(xiàn)“欠學習”的現(xiàn)象;當C的取值大到一定程度時,最小二乘支持向量機模型的復雜度將超過空間復雜度的最大范圍,那么C繼續(xù)增大將幾乎不會對最小二乘支持向量機的性能產(chǎn)生影響。徑向基核函數(shù)參數(shù)σ的取值直接影響模型的分類精度。
目前,還沒有公認的方法來確定這兩個參數(shù)。本文中采用網(wǎng)格搜索法[10],將C和σ分別作為網(wǎng)格的橫向和縱向,思路是首先將參數(shù)C和σ的選取范圍設定得較大些,設定較大步長進行支持向量機仿真,比較選取不同參數(shù)數(shù)值時的訓練正判率和檢驗正判率,選取一組正判率最高的參數(shù)數(shù)值,然后再以該數(shù)值為中心縮小參數(shù)范圍,同時參數(shù)選取的步長也適當?shù)販p小,即通過這樣的選取方法一步一步縮小參數(shù)選取的范圍,直到得到滿意的訓練正判率和檢驗正判率為止,此時C和σ的數(shù)值就非常接近其最優(yōu)數(shù)值。
利用最小二乘支持向量機方法進行油氣儲量價值等級劃分的核心是建立一個訓練樣本集,通過確定合適的核函數(shù)及參數(shù),對已知樣本集進行學習與訓練,最后確定最優(yōu)決策函數(shù),并利用該函數(shù)進行價值等級評價和預測。
油氣儲量價值等級分級是在地質勘探、地質評價基礎上,根據(jù)已發(fā)現(xiàn)油氣田油氣資源條件對油氣勘探開發(fā)經(jīng)濟效益的影響,確定油氣儲量價值的優(yōu)劣等級。油氣儲量價值=可采儲量×油氣價格-總開發(fā)投資-總經(jīng)營成本。一定的市場條件下,影響油氣儲量價值的因素有可采儲量、開發(fā)投資和經(jīng)營成本。依據(jù)油氣儲量資產(chǎn)特點和數(shù)據(jù)可得性,本文中選取了7個影響油氣儲量價值優(yōu)劣的因素,即儲量規(guī)模、儲量豐度、儲層埋深、滲透率、原油黏度、凝固點和采收率,這7個影響因素作為油氣儲量價值分級支持向量機的輸入;輸出為油氣儲量的4個價值等級,即優(yōu)、良、中、差,分別用1、2、3、4來表示。本文中從中石化勝利油田搜集了99個已知價值等級的油氣儲量區(qū)塊數(shù)據(jù),隨機選取73個作為訓練樣本,其余26個作為檢驗樣本,具體數(shù)據(jù)見表1和表2,建立影響油氣儲量價值等級因素的樣本集,即最小二乘支持向量機的學習集。
表1 學習原始數(shù)據(jù)及判別結果Tab le 1 Training database and classification result
表2 支持向量機評價結果Tab le 2 Assessment result of support vector machine
不同性質的指標對油氣儲量價值影響方向不同,影響油氣儲量價值的正向指標有儲量規(guī)模、儲量豐度、滲透率和采收率,逆向指標有儲層埋深、原油黏度和凝固點。另外,不同指標數(shù)據(jù)在數(shù)量級上有很大差異。因此,有必要對原始數(shù)據(jù)做標準化處理,將其化為[-1,1]之間的數(shù)。設xi為原始數(shù)據(jù),yi為標準化處理后的數(shù)據(jù),標準化方式如下:
在學習樣本集確定后,支持向量機的參數(shù)懲罰因子C和核函數(shù)參數(shù)σ的尋求過程實質上就是預測模型的建立過程。網(wǎng)格搜索法確定參數(shù)的過程如下:
(1)憑經(jīng)驗選定一組懲罰因子C和核參數(shù)σ的范圍,如C取2-10~215,σ取210~2-15;
(2)設定搜索步長分別為-1和1,訓練支持向量機并開展檢驗,得到訓練正判率和檢驗正判率最高的一組C和σ分別為128和0.5;
(3)重新選定C和σ的范圍,將其范圍縮小,設定C取2~200,σ取2-3~22;
(4)設定C的搜索步長為1,σ的搜索步長為0.1,訓練支持向量機并開展檢驗,得出訓練正判率和檢驗正判率最高的一組C和σ,分別為133和0.57,對應的訓練正判率為95%,檢驗正判率為81%,符合評價要求。因此,該C和σ的數(shù)值就是最小二乘支持向量機的最優(yōu)參數(shù)。
懲罰因子C和核參數(shù)σ確定后,就可以構建出支持向量機模型,學習判別結果列在表1(其中,區(qū)塊3為訓練出錯的區(qū)塊)的最后一列。在訓練樣本的73個數(shù)據(jù)中,有4個出現(xiàn)誤判,正判率達到95%,在檢驗樣本的26個數(shù)據(jù)中,有5個出現(xiàn)誤判,正判率達到81%。
用訓練好的油氣儲量價值分級支持向量機模型對未知價值等級的59個油氣儲量區(qū)塊進行評價,評價結果列在表2最后一列。結果顯示,儲量價值劃分為良的區(qū)塊有14個,占24%;中等的區(qū)塊有42個,占71%;差的區(qū)塊有3個,占5%;優(yōu)級區(qū)塊沒有。
(1)最小二乘支持向量機可以應用于油氣儲量價值等級的劃分,訓練正判率達到95%,檢驗正判率達到81%。
(2)網(wǎng)格搜索法是確定最小二乘支持向量機參數(shù)懲罰因子C和核參數(shù)σ的有效方法。最小二乘支持向量機模型中,參數(shù)的確定過程也就是向量機的訓練過程。采用網(wǎng)格搜索法逐步縮小參數(shù)的搜索范圍,使確定出的參數(shù)越來越逼近最優(yōu)數(shù)值,簡單實用。
(3)在支持向量機學習集中油氣儲量價值優(yōu)等的數(shù)據(jù)較少,只有3個,今后需要豐富價值優(yōu)等的油氣儲量區(qū)塊數(shù)據(jù),使支持向量機的學習樣本更具有代表性。
[1]孟偉.油氣儲量價值分級評價研究[J].新疆地質,2000,18(3):43.
MENGWei.The research of grade reserve value of oil and gas[J].Xinjiang Geology,2000,18(3):43.
[2]周曉俊.油氣儲量價值分級評價與風險分析[D].天津:天津大學管理學院,2001.
ZHOU Xiao-jun.Graded appraisal of hydrocarbon reserve value and risk analysis[D].Tianjin:School of Management,Tianjin University,2001.
[3]袁自學,酈君一.油氣儲量資產(chǎn)評估方法和資產(chǎn)化管理探討[M].北京:石油工業(yè)出版社,2000.
[4]胡健,劉永愛,李志學.天然氣儲量的價值分級模型設計與檢驗[J].西北大學學報:自然科學版,2005,35 (4):479-483.
HU Jian,LIU Yong-ai,LIZhi-xue.A model design and checking of value classification of natural gas reserves[J].Journalof Northwest University(Natural Science E-dition),2005,35(4):479-483.
[5]趙慶飛,李麗娜,徐向華,等.天然氣儲量價值評估模型[J].資源與產(chǎn)業(yè),2006,8(2):39-42.
ZHAO Qing-fei,LI Li-na,XU Xiang-hua,et al.Model of value evaluation of natural gas reserves[J].Resources&Industry,2006,8(2):39-42.
[6]王化增,遲國泰,程硯秋.基于BP神經(jīng)網(wǎng)絡的油氣儲量價值等級劃分[J].中國人口·資源與環(huán)境,2010,20(6):41-46.
WANG Hua-zeng,CHIGuo-tai,CHENG Yan-qiu.Applying BP neural network to grade reserve value of oil and gas[J].China Population,Resources and Environment,2010,20(6):41-46.
[7]程愛輝,高茂庭.基于聚類的LS-SVM的入侵檢測方法研究[J].網(wǎng)絡安全技術與應用,2010(5):14-16.
CHENG Ai-hui,GAO Mao-ting.Research of the intrusion detection method based on clustering LS-SVM[J].Network Security Technology and Application,2010(5): 14-16.
[8]符楊,張雷,江玉蓉,等.基于可靠性數(shù)據(jù)分析和最小二乘支持向量機的電力變壓器故障診斷[J].變壓器,2010,47(9):47-50.
FU Yang,ZHANG Lei,JIANG Yu-rong,et al.Power transformer fault diagnosis based on data reliability analysis and least squares support vectormachine[J].Transformer,2010,47(9):47-50.
[9]彭濤,張翔.支持向量機及其在石油勘探開發(fā)中的應用綜述[J].勘探地球物理進展,2007,30(2):91-95.
PENG Tao,ZHANG Xiang.Review of supportvectormachine and its applications in petroleum exploration and development[J].Progress in Exploration Geophysics,2007,30(2):91-95.
[10]楊斌,匡立春,孫中春.一種用于測井油氣層綜合識別的支持向量機方法[J].測井技術,2005,29(6): 511-514.
YANG Bin,KUANG Li-chun,SUN Zhong-chun.On support vector machines method to identify oil&gas zone with logging and mudlog information[J].Well Logging Technology,2005,29(6):511-514.
Assessing value classification of oil and gas reserve based on support vector machine
YANG Lei1,WANG Hua-zeng2,CHEN Zi-ling3
(1.School of Econom ics&Management in China University of Petroleum,Qingdao 266580,China; 2.ShengliOilfield Dongsheng Group of SINOPEC,Dongying 257091,China; 3.Materials Company of PetroChina,Beijing 100029,China)
Based on the characteristics of oil and gas reserve,value classification of oil and gas reserve was assessed.Seven factors influencing value classification of oil and gas reserve were chosen,which were reserve scale,reserve abundance,reserve depth,oil viscosity,permeability,freezing point and recovery ratio.Least square support vector machinemodel was applied to simulate value degradation of oil and gas reserve.The parameters of penalty factor C and kernel function parameter σcan be decided by grid searchingmethod.The results show that least square supportvectormachine is a validmethod in the value classification of oil and gas reserve.The right rate of training is up to 95%and the right rate of testing is up to 81%.
least square support vectormachine;oil and gas reserve;value degradation
X 196
A
10.3969/j.issn.1673-5005.2012.03.033
1673-5005(2012)03-0192-05
2011-12-29
山東省自然科學基金項目(ZR2009HM010);中央高校基本科研業(yè)務費專項資金資助項目(09CX04085B;09CX05015B)
楊磊(1974-),女(漢族),山東東營人,講師,博士,研究方向為環(huán)境經(jīng)濟學。
(編輯 修榮榮)