張瑞智++師雪雪
摘要:影響原油產(chǎn)量的因素是多方面的,這些因素和產(chǎn)量之間具有非線性關(guān)系,采用通常的數(shù)學(xué)方法很難對原油產(chǎn)量進行分析和預(yù)測。本文提出一種使用Apriori算法在Weka環(huán)境下進行原油預(yù)測的新方法。首先對某采油廠歷年的月度生產(chǎn)相關(guān)數(shù)據(jù)使用K-Means算法進行數(shù)據(jù)預(yù)處理,得到事務(wù)數(shù)據(jù)集,再對其使用Weka平臺下的Apriori算法進行關(guān)聯(lián)分析,最后根據(jù)給定的最小支持度和最小置信度,篩選出與原油產(chǎn)量相關(guān)的強關(guān)聯(lián)規(guī)則。使用這些強關(guān)聯(lián)規(guī)則對采油廠未來幾個月的原油產(chǎn)量進行預(yù)測,經(jīng)過驗證對比,該方法計算簡單,運算效率高,預(yù)測結(jié)果準(zhǔn)確。
關(guān)鍵詞:原油產(chǎn)量預(yù)測;Apriori 算法;K-Means算法;關(guān)聯(lián)規(guī)則;Weka
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)06-0260-02
1 概述
準(zhǔn)確地預(yù)測油氣產(chǎn)量對于油氣田開發(fā)生產(chǎn)十分重要。目前進行原油產(chǎn)量預(yù)測的方法有多種,其中最常用的有數(shù)值模擬法[1]、BP神經(jīng)網(wǎng)絡(luò)法[2]、灰色理論法[3]等。但是,數(shù)值模擬法和神經(jīng)網(wǎng)絡(luò)算法所需參數(shù)較多,計算過程復(fù)雜;灰色理論選取的相關(guān)信息不全,預(yù)測結(jié)果精度較差。而關(guān)聯(lián)規(guī)則挖掘算法在處理非線性模式識別方面表現(xiàn)突出,在石油開發(fā)生產(chǎn)領(lǐng)域有著很好的應(yīng)用前景。
本文提出一種在Weka[5]環(huán)境下利用經(jīng)典關(guān)聯(lián)規(guī)則算法Apriori[6]算法來對原油產(chǎn)量進行預(yù)測的算法。Apriori算法使用一種被稱為逐層搜索的迭代方法,根據(jù)給定的最小支持度,找出與原油產(chǎn)量相關(guān)的頻繁項集,再根據(jù)最小置信度,得出與原油產(chǎn)量相關(guān)的強關(guān)聯(lián)規(guī)則。運用這些強關(guān)聯(lián)規(guī)則對原油產(chǎn)量進行預(yù)測,該方法計算方法簡單,運算效率高。
2 理論知識介紹
2.1 Weka軟件介紹
Weka是懷卡托智能分析環(huán)境的英文字收縮寫,是一種使用Java語言編寫的數(shù)據(jù)挖掘機器學(xué)習(xí)軟件。它包含一套完整的數(shù)據(jù)處理工具、學(xué)習(xí)算法和評價方法,擁有數(shù)據(jù)可視化的圖形用戶界面,業(yè)界內(nèi)得到廣泛贊譽。
Weka系統(tǒng)包括回歸、分類、聚類、關(guān)聯(lián)規(guī)則以及屬性選擇等數(shù)據(jù)挖掘方法。輸入數(shù)據(jù)可以有兩種形式,第一種是讀取ARFF格式文件;第二種是讀取數(shù)據(jù)庫。本文主要使用的Weka系統(tǒng)提供的Apriori算法在ARFF文件上進行數(shù)據(jù)挖掘。
2.2 Apriori算法介紹
Apriori[8]算法是由Rakesh Agrawal 和Rnamakrishnam Srikant提出的關(guān)聯(lián)規(guī)則的原創(chuàng)性算法。它基于頻繁項集的先驗性質(zhì):任意頻繁項集中的全部非空子集必也一定是頻繁的。主要分為兩個過程:生成頻繁項集和產(chǎn)生強關(guān)聯(lián)規(guī)則。
(1) 生成頻繁項集:它需要經(jīng)歷兩步:1) 連接步:通過將頻繁項集Lk-1 (k>1) 與自身連接產(chǎn)生候選k項集的集合,該候選集記為Ck。2) 剪枝步:Ck是Lk的超集。逐個分析Ck中項根據(jù)是否滿足最小支持度計數(shù)min_sup進行剪枝。剪枝后的得到的項集就是頻繁項集。
(2) 生成關(guān)聯(lián)規(guī)則:1) 對于每個頻繁項集Lk,生成Lk的所有非空子集; 2) 對于Lk的每個非空子集s,如果[support_count(Lk)support_count(S)≥min_conf], 則輸出規(guī)則[S?(LK-S)],其中,min_conf是最小置信度閾值。
由于關(guān)聯(lián)規(guī)則由頻繁項集產(chǎn)生,因此每個規(guī)則都自動地滿足最小支持度。頻繁項集和它們的支持度可以預(yù)先存放在散列表中,使得它們可以被快速的訪問。
3 Apriori算法預(yù)測原油產(chǎn)量的實例
3.1 基本目的
原油生產(chǎn)過程非常復(fù)雜,與原油生產(chǎn)相關(guān)的數(shù)據(jù)很多,可以利用這些相關(guān)數(shù)據(jù)來預(yù)測原油產(chǎn)量數(shù)據(jù)。應(yīng)用關(guān)聯(lián)規(guī)則分析某采油廠生產(chǎn)相關(guān)數(shù)據(jù),主要指分析采油用電、注水用電、集輸用電、注水量、原油產(chǎn)量等數(shù)據(jù),可發(fā)現(xiàn)這些數(shù)據(jù)之間存在一些強關(guān)聯(lián)規(guī)則,能為采油廠預(yù)測原油產(chǎn)量提供決策支持。比如強關(guān)聯(lián)規(guī)則{采油用電 (680.1萬 kW h,692.2萬kW h) ,注水量 (36萬[m3],37.8萬[m3]) }[?]原油產(chǎn)量(10.2萬噸,10.4噸)}[support=15%,confidence=100%],表明若該采油廠的采油用電量位于680.7萬kW h和692.2萬kW h之間,注水量位于36萬[m3]和37.8萬[m3]之間,則原油產(chǎn)量預(yù)測值在10.2萬噸和10.4萬噸之間。
3.2 原始數(shù)據(jù)集的建立
本文從某采油廠用電數(shù)據(jù)庫和原油產(chǎn)量數(shù)據(jù)庫中抽取了1990年1月至2013年12月共288條月度數(shù)據(jù),包括采油用電量、集輸用電量、注水用電量、注水量、原油產(chǎn)量5類數(shù)據(jù),然后把這些數(shù)據(jù)在邏輯上實現(xiàn)整合,進行缺失數(shù)據(jù)填充和異常數(shù)據(jù)篩選、修正等數(shù)據(jù)預(yù)處理工作,得到原始數(shù)據(jù)集。如表1所示。
3.3 原始數(shù)據(jù)集預(yù)處理
由于這些數(shù)據(jù)是月度生產(chǎn)相關(guān)數(shù)據(jù),從表1中可以看出,原始數(shù)據(jù)集中每列數(shù)據(jù)的數(shù)值大小相近,連續(xù)性強,區(qū)分度不夠,不利于使用關(guān)聯(lián)規(guī)則算法分析數(shù)據(jù)。因此要對這些數(shù)據(jù)進行離散化處理。本文使用K-Means聚類算法實現(xiàn)采油廠原始數(shù)據(jù)集的離散化處理。
K-Means方法對于空間中的N個樣本點,根據(jù)一定的距離函數(shù)和準(zhǔn)則函數(shù),將其劃分為K個簇。各個簇之間區(qū)別明顯而簇內(nèi)的樣本點相似度很高,分布緊密。在具體對采油廠原始數(shù)據(jù)集進行處理時,因所有數(shù)據(jù)項都是連續(xù)性的數(shù)據(jù)值,故采用的方法一致,現(xiàn)只對采油用電數(shù)據(jù)離散化過程進行介紹。
第一步將采油用電數(shù)據(jù)從原始數(shù)據(jù)集中抽取出來作為樣本;第二步在Matlab上運用K-Means算法,設(shè)K值為4,將連續(xù)性的樣本數(shù)據(jù)離散為4個等級。采油用電數(shù)據(jù)離散化結(jié)果如圖1所示。
按照上述方法,可以得出采油用電(CYYD)、集輸用電(JSYD)、注水用電(ZSYD)、注水量(ZSL)、原油產(chǎn)量(CYCL)的事務(wù)數(shù)據(jù)集代碼轉(zhuǎn)化表[10]。如表2所示。
3.4 使用Weka軟件進行處理
(1) 把上述事務(wù)數(shù)據(jù)集轉(zhuǎn)化代碼表存放到Apriori.Arff文件中。如下圖所示
(2) 在Weka Explorer視圖中,點擊Open file 找到 Apriori.Arff文件,再點擊”Associate”,進行參數(shù)設(shè)置。其中l(wèi)owerBoundMinSupport設(shè)為0.1,metricType設(shè)為Confidence,minMetric設(shè)為0.9,點擊start。獲得如下圖所示的關(guān)聯(lián)規(guī)則。
選取其中的有用規(guī)則7,它表示在采油廠月度采油用電達到 (627.1萬kW h,683.9萬kW h),注水用電達到(277.9萬kW h,303.4萬kW h),注水量達到 (40.86萬[m3],42.91萬[m3])的前提下,原油產(chǎn)量達到(10.78萬噸,11.41萬噸) 區(qū)間的可能性為百分之百。
3.5 預(yù)測實例
選取該采油廠2014年1月到6月的采油用電、集輸用電、注水用電、注水量四類數(shù)據(jù),運用Apriori算法產(chǎn)生的強關(guān)聯(lián)規(guī)則,預(yù)測出該廠1月到6月的原油產(chǎn)量所在區(qū)間,再與2014年1月到6月原油產(chǎn)量的實際值作比較,發(fā)現(xiàn)實際原油產(chǎn)量值位于預(yù)測原油產(chǎn)量區(qū)間的可能性達到100%。原油產(chǎn)量預(yù)測結(jié)果與實際值比較如表6所示。
4 結(jié)論
Apriori關(guān)聯(lián)規(guī)則分析算法提供了一個新的原油產(chǎn)量預(yù)測方法。隨著采油廠月度生產(chǎn)相關(guān)數(shù)據(jù)的逐漸增多,通過使用K-Means聚類算法,這些數(shù)據(jù)的離散化等級區(qū)分度會更明顯,得出的強關(guān)聯(lián)規(guī)則各因素的區(qū)間范圍會更小,從而使得預(yù)測結(jié)果更精確。不過隨著油田開發(fā)時間的增長,會出現(xiàn)影響原油產(chǎn)量的其他因素,比如開井?dāng)?shù)、氣溫等,影響預(yù)測結(jié)果,因此增加油田生產(chǎn)相關(guān)數(shù)據(jù)的數(shù)據(jù)量和查找影響原油產(chǎn)量的其他因素將是下一步的研究方向。
參考文獻:
[1] 姚志剛. 改進的Logistic模型在原油產(chǎn)量預(yù)測中的應(yīng)用[J].油氣地質(zhì)與采收率,2010,17(3):93-94,98.
[2] 周彩蘭, 劉敏. BP神經(jīng)網(wǎng)絡(luò)在石油產(chǎn)量預(yù)測中的應(yīng)用[J].武漢理工大學(xué)學(xué)報,2009,31(3):125-129.
[3] 李德慶. 利用GM(1,1) 模型群預(yù)測石油產(chǎn)量[J].油氣地質(zhì)與采收率,2008,15(5):82-8.
[4] 陳惠萍,林莉莉,王建東,等. WEKA數(shù)據(jù)挖掘平臺及二次開發(fā)[J].計算機工程與應(yīng)用,2008,44(19):76-79.
[5] 吳學(xué)雁, 莫贊. 基于Apriori算法的頻繁項集挖掘優(yōu)化方法[J].計算機系統(tǒng)應(yīng)用,2014,23(6):124-129.
[6] (加)Jiawei Han, Micheline Kamber著. 數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2007:146-161 .
[7] 劉華婷,郭仁祥,姜浩. 關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究和改進[J].計算機應(yīng)用與軟件,2009,26(1):146-149.
[8] 谷俊杰, 王為力, 李家川, 等. 關(guān)聯(lián)規(guī)則挖掘在電站運行優(yōu)化中的運用[J].電站系統(tǒng)工程, 2009,25(1):8-10.