龐智 范廣玲 高芳芳 王嘉鶴 康方允
摘 要 如何篩選評價指標,本文對大慶油田的電泵運行問題進行了深入的探索、分析和研究,采用了主成分分析方法,在眾多預(yù)選指標的基礎(chǔ)上,篩選出與評價目標貢獻率最大的評價指標,盡最大可能采用少的、兩兩不相關(guān)的新變量,并且原有的信息保留要最大化。選取目前油田占有量較高的具有代表性的150m3/d泵作為評價實例,以3年內(nèi)B1-1-P068井的9項指標的1203條記錄的原始數(shù)據(jù)作為評價對象,通過SPSS中相關(guān)性矩陣減少變量個數(shù),再用因子分析,確定主成分,最后建立了潛油電泵的重要技術(shù)評價指標泵效的評價模型。
【關(guān)鍵詞】數(shù)據(jù)預(yù)處理 相關(guān)性矩陣 主成分分析 SPSS
1 問題提出
系統(tǒng)運行評價體系主要由評價指標的篩選、指標權(quán)重的確定、模型的選取三部分組成。評價指標的確定關(guān)系到評價模型的質(zhì)量、評價結(jié)果的準確度,因此評價指標的確定是構(gòu)建好的評價體系的關(guān)鍵一環(huán)。以潛油電泵系統(tǒng)運行技術(shù)評價為例,在眾多預(yù)選指標的基礎(chǔ)上,如何篩選出與評價目標貢獻率最大的、相關(guān)性最強的、更合理的評價指標,這是一個數(shù)據(jù)挖掘的過程,本文采用主成分分析的方法來解決這一問題。
2 理論分析
2.1 主成分分析
也稱為主分量分析,就是將原有的多個變量,運用線性組合的方式,提煉出較少的彼此間獨立的幾個新變量的一種多元統(tǒng)計分析方法。在研究多變量的問題時,我們會用到統(tǒng)計分析問題的方法,由于變量個數(shù)太多增加了解決問題的復(fù)雜性。絕大部分情況下,變量之間存在一定的聯(lián)系也就是相關(guān)性,可以解釋為變量間在反映此問題時有一定的信息重疊。我們希望在盡可能得到較多信息的前提下,運用的較少的變量,并且這些新變量之間是不相關(guān)的。
2.2 主成分分析的基本原理
主成分分析法采用一種降維的統(tǒng)計方法,借助正交變換使其分量相關(guān)的原隨機向量轉(zhuǎn)化成其分量不相關(guān)的新隨機向量,就是將幾何上原坐標系變換成新的正交坐標系,在樣本點散布最開的p個正交方向上指向,也就是將代數(shù)中原隨機向量產(chǎn)生的協(xié)方差矩陣變換成對角矩陣,接下來對多維變量進行降維處理,在一個較高的精度轉(zhuǎn)換下成低維變量系統(tǒng),再通過構(gòu)造適當?shù)暮瘮?shù),從而把低維系統(tǒng)轉(zhuǎn)變成一維系統(tǒng)。
它的數(shù)學(xué)模型如下:
(1)原始指標數(shù)據(jù)的標準化選用p維隨機向量x=(x1,x2,...,xp)T,n個樣品xi=(xi1,xi2,...,xip)T,i=1,2,...,n,n>p,構(gòu)造樣本陣,對樣本矩陣元素進行標準化變換:
(2)對標準化矩陣Z求相關(guān)系數(shù)矩陣
(3)解樣本相關(guān)矩陣R的特征方程得p個特征根,確定主成分按
確定m值,使信息的利用率達80%以上,對每個,解方程組得單位特征向量b0j。
(4)將標準化后的指標變量轉(zhuǎn)換為主成分,,U1稱為第一主成分,U2稱為第二主成分,…,Up稱為第p主成分。
(5)對m個主成分進行綜合評價,對m個主成分進行加權(quán)求和,即得最終評價值,權(quán)數(shù)為每個主成分的方差貢獻率。
3 潛油電泵系統(tǒng)技術(shù)型評價實例
3.1 數(shù)據(jù)預(yù)處理
電泵井生產(chǎn)日期數(shù)據(jù),由不同的操作人員錄入,為避免出現(xiàn)不規(guī)范問題,做如下預(yù)處理措施:
(1)規(guī)范數(shù)據(jù)庫字段的格式:為使數(shù)據(jù)庫操作減少誤差,統(tǒng)一消去字段值中的空格。
(2)缺失數(shù)據(jù)的補充:根據(jù)線性與非線性插值方法補充缺失數(shù)據(jù)。
(3)數(shù)據(jù)標準化,為統(tǒng)計分析做進一步準備。
(4)利用相關(guān)性矩陣篩出與泵效相關(guān)性較大的指標
將B1-1-P068潛油電泵作為評價樣本,2010年3月1日至2013年9月1日,生產(chǎn)1203天。B1-1-P068井號的生產(chǎn)運行原始數(shù)據(jù)如表1。
將數(shù)據(jù)標準化后,生成其余指標與泵效的相關(guān)性矩陣,我們找到SCSJ、YZ、YY、TY、HY、RCYL1、RCYL、RCSL、HS等9個指標。
3.2 主成分分析
KMO和巴特利特檢驗結(jié)果如圖1。KMO值為0.700,因子分析效果一般,但可接受;巴特利特檢驗P值為0,拒絕原假設(shè),變量間相關(guān)性顯著,適合于做因子分析。
由Total Variance Explained(主成分特征根和貢獻率)可知,特征根,特征根,前兩個主成分的累計方差貢獻率達79.071%,即涵蓋了大部分信息。這表明前兩個主成分能夠代表最初的12個指標來分析潛油電泵的系統(tǒng)技術(shù)。故提取前兩個指標即可。主成分,分別記作F1、F2。
每個評價指標的得分見圖2,各指標在新的主成分中的比重構(gòu)建成分模型:
4 結(jié)論
(1)將錄入數(shù)據(jù)的12個指標與泵性作相關(guān)性分析得到與之相關(guān)性大于0.3的9個指標,分別為SCSJ、YZ、YY、TY、HY、RCYL1、RCYL、RCSL、HS。
(2)將剩余的9個指標運用主成分分析得到兩個新的線性無關(guān)指標,并得出成分模型。
(3)同一口井號,排量為定值,在主成分分析中顯示結(jié)果與泵效并無關(guān)系,但通過調(diào)查發(fā)現(xiàn),針對不同井號而言,排量對泵效有很大影響。
參考文獻
[1]梅思杰,邵永實,劉軍.潛油電泵技術(shù)[M].北京:石油工業(yè)出版社,2004.
[2]余付平,馮有前,范成禮.基于主成分分析的字典學(xué)習(xí)[J].控制與決策,2013(07):1109-1112.
[3]陶思羽.基于主成分分析和粗糙集的聚類分析在經(jīng)濟指標數(shù)據(jù)中的應(yīng)用[D].吉林大學(xué),2012.
[4]范廣玲.基于數(shù)據(jù)挖掘的潛油電泵評價體系研究[D].東北石油大學(xué),2015.
作者簡介
龐智,女,東北石油大學(xué)學(xué)生。
范廣玲,女,東北石油大學(xué),副教授。
高芳芳,女,東北石油大學(xué),講師。
作者單位
東北石油大學(xué) 黑龍江省大慶市 163318