基于Weka的Apriori算法在原油產(chǎn)量預(yù)測中的應(yīng)用

2016-06-06 23:11張瑞智師雪雪

電腦知識與技術(shù) 2016年6期

關(guān)鍵詞：means算法關(guān)聯(lián)規(guī)則算法

張瑞智++師雪雪

摘要：影響原油產(chǎn)量的因素是多方面的，這些因素和產(chǎn)量之間具有非線性關(guān)系，采用通常的數(shù)學(xué)方法很難對原油產(chǎn)量進行分析和預(yù)測。本文提出一種使用Apriori算法在Weka環(huán)境下進行原油預(yù)測的新方法。首先對某采油廠歷年的月度生產(chǎn)相關(guān)數(shù)據(jù)使用K-Means算法進行數(shù)據(jù)預(yù)處理，得到事務(wù)數(shù)據(jù)集，再對其使用Weka平臺下的Apriori算法進行關(guān)聯(lián)分析，最后根據(jù)給定的最小支持度和最小置信度，篩選出與原油產(chǎn)量相關(guān)的強關(guān)聯(lián)規(guī)則。使用這些強關(guān)聯(lián)規(guī)則對采油廠未來幾個月的原油產(chǎn)量進行預(yù)測，經(jīng)過驗證對比，該方法計算簡單，運算效率高，預(yù)測結(jié)果準(zhǔn)確。

關(guān)鍵詞：原油產(chǎn)量預(yù)測；Apriori 算法；K-Means算法；關(guān)聯(lián)規(guī)則；Weka

中圖分類號：TP311 文獻標(biāo)識碼：A 文章編號：1009-3044（2016）06-0260-02

1 概述

準(zhǔn)確地預(yù)測油氣產(chǎn)量對于油氣田開發(fā)生產(chǎn)十分重要。目前進行原油產(chǎn)量預(yù)測的方法有多種，其中最常用的有數(shù)值模擬法[1]、BP神經(jīng)網(wǎng)絡(luò)法[2]、灰色理論法[3]等。但是，數(shù)值模擬法和神經(jīng)網(wǎng)絡(luò)算法所需參數(shù)較多，計算過程復(fù)雜；灰色理論選取的相關(guān)信息不全，預(yù)測結(jié)果精度較差。而關(guān)聯(lián)規(guī)則挖掘算法在處理非線性模式識別方面表現(xiàn)突出，在石油開發(fā)生產(chǎn)領(lǐng)域有著很好的應(yīng)用前景。

本文提出一種在Weka[5]環(huán)境下利用經(jīng)典關(guān)聯(lián)規(guī)則算法Apriori[6]算法來對原油產(chǎn)量進行預(yù)測的算法。Apriori算法使用一種被稱為逐層搜索的迭代方法，根據(jù)給定的最小支持度，找出與原油產(chǎn)量相關(guān)的頻繁項集，再根據(jù)最小置信度，得出與原油產(chǎn)量相關(guān)的強關(guān)聯(lián)規(guī)則。運用這些強關(guān)聯(lián)規(guī)則對原油產(chǎn)量進行預(yù)測，該方法計算方法簡單，運算效率高。

2 理論知識介紹

2.1 Weka軟件介紹

Weka是懷卡托智能分析環(huán)境的英文字收縮寫，是一種使用Java語言編寫的數(shù)據(jù)挖掘機器學(xué)習(xí)軟件。它包含一套完整的數(shù)據(jù)處理工具、學(xué)習(xí)算法和評價方法，擁有數(shù)據(jù)可視化的圖形用戶界面，業(yè)界內(nèi)得到廣泛贊譽。

Weka系統(tǒng)包括回歸、分類、聚類、關(guān)聯(lián)規(guī)則以及屬性選擇等數(shù)據(jù)挖掘方法。輸入數(shù)據(jù)可以有兩種形式，第一種是讀取ARFF格式文件；第二種是讀取數(shù)據(jù)庫。本文主要使用的Weka系統(tǒng)提供的Apriori算法在ARFF文件上進行數(shù)據(jù)挖掘。

2.2 Apriori算法介紹

Apriori[8]算法是由Rakesh Agrawal 和Rnamakrishnam Srikant提出的關(guān)聯(lián)規(guī)則的原創(chuàng)性算法。它基于頻繁項集的先驗性質(zhì)：任意頻繁項集中的全部非空子集必也一定是頻繁的。主要分為兩個過程：生成頻繁項集和產(chǎn)生強關(guān)聯(lián)規(guī)則。

（1）生成頻繁項集：它需要經(jīng)歷兩步：1）連接步：通過將頻繁項集Lk-1 （k>1）與自身連接產(chǎn)生候選k項集的集合，該候選集記為Ck。2）剪枝步：Ck是Lk的超集。逐個分析Ck中項根據(jù)是否滿足最小支持度計數(shù)min_sup進行剪枝。剪枝后的得到的項集就是頻繁項集。

（2）生成關(guān)聯(lián)規(guī)則：1）對于每個頻繁項集Lk，生成Lk的所有非空子集； 2）對于Lk的每個非空子集s，如果[support_count（Lk）support_count（S）≥min_conf]，則輸出規(guī)則[S?（LK-S）]，其中，min_conf是最小置信度閾值。

由于關(guān)聯(lián)規(guī)則由頻繁項集產(chǎn)生，因此每個規(guī)則都自動地滿足最小支持度。頻繁項集和它們的支持度可以預(yù)先存放在散列表中，使得它們可以被快速的訪問。

3 Apriori算法預(yù)測原油產(chǎn)量的實例

3.1 基本目的

原油生產(chǎn)過程非常復(fù)雜，與原油生產(chǎn)相關(guān)的數(shù)據(jù)很多，可以利用這些相關(guān)數(shù)據(jù)來預(yù)測原油產(chǎn)量數(shù)據(jù)。應(yīng)用關(guān)聯(lián)規(guī)則分析某采油廠生產(chǎn)相關(guān)數(shù)據(jù)，主要指分析采油用電、注水用電、集輸用電、注水量、原油產(chǎn)量等數(shù)據(jù)，可發(fā)現(xiàn)這些數(shù)據(jù)之間存在一些強關(guān)聯(lián)規(guī)則，能為采油廠預(yù)測原油產(chǎn)量提供決策支持。比如強關(guān)聯(lián)規(guī)則{采油用電（680.1萬 kW h，692.2萬kW h），注水量（36萬[m3]，37.8萬[m3]） }[?]原油產(chǎn)量（10.2萬噸，10.4噸）}[support=15%，confidence=100%]，表明若該采油廠的采油用電量位于680.7萬kW h和692.2萬kW h之間，注水量位于36萬[m3]和37.8萬[m3]之間，則原油產(chǎn)量預(yù)測值在10.2萬噸和10.4萬噸之間。

3.2 原始數(shù)據(jù)集的建立

本文從某采油廠用電數(shù)據(jù)庫和原油產(chǎn)量數(shù)據(jù)庫中抽取了1990年1月至2013年12月共288條月度數(shù)據(jù)，包括采油用電量、集輸用電量、注水用電量、注水量、原油產(chǎn)量5類數(shù)據(jù)，然后把這些數(shù)據(jù)在邏輯上實現(xiàn)整合，進行缺失數(shù)據(jù)填充和異常數(shù)據(jù)篩選、修正等數(shù)據(jù)預(yù)處理工作，得到原始數(shù)據(jù)集。如表1所示。

3.3 原始數(shù)據(jù)集預(yù)處理

由于這些數(shù)據(jù)是月度生產(chǎn)相關(guān)數(shù)據(jù)，從表1中可以看出，原始數(shù)據(jù)集中每列數(shù)據(jù)的數(shù)值大小相近，連續(xù)性強，區(qū)分度不夠，不利于使用關(guān)聯(lián)規(guī)則算法分析數(shù)據(jù)。因此要對這些數(shù)據(jù)進行離散化處理。本文使用K-Means聚類算法實現(xiàn)采油廠原始數(shù)據(jù)集的離散化處理。

K-Means方法對于空間中的N個樣本點，根據(jù)一定的距離函數(shù)和準(zhǔn)則函數(shù)，將其劃分為K個簇。各個簇之間區(qū)別明顯而簇內(nèi)的樣本點相似度很高，分布緊密。在具體對采油廠原始數(shù)據(jù)集進行處理時，因所有數(shù)據(jù)項都是連續(xù)性的數(shù)據(jù)值，故采用的方法一致，現(xiàn)只對采油用電數(shù)據(jù)離散化過程進行介紹。

第一步將采油用電數(shù)據(jù)從原始數(shù)據(jù)集中抽取出來作為樣本；第二步在Matlab上運用K-Means算法，設(shè)K值為4，將連續(xù)性的樣本數(shù)據(jù)離散為4個等級。采油用電數(shù)據(jù)離散化結(jié)果如圖1所示。

按照上述方法，可以得出采油用電（CYYD）、集輸用電（JSYD）、注水用電（ZSYD）、注水量（ZSL）、原油產(chǎn)量（CYCL）的事務(wù)數(shù)據(jù)集代碼轉(zhuǎn)化表[10]。如表2所示。

3.4 使用Weka軟件進行處理

（1）把上述事務(wù)數(shù)據(jù)集轉(zhuǎn)化代碼表存放到Apriori.Arff文件中。如下圖所示

（2）在Weka Explorer視圖中，點擊Open file 找到 Apriori.Arff文件，再點擊”Associate”，進行參數(shù)設(shè)置。其中l(wèi)owerBoundMinSupport設(shè)為0.1，metricType設(shè)為Confidence，minMetric設(shè)為0.9，點擊start。獲得如下圖所示的關(guān)聯(lián)規(guī)則。

選取其中的有用規(guī)則7，它表示在采油廠月度采油用電達到（627.1萬kW h，683.9萬kW h），注水用電達到（277.9萬kW h，303.4萬kW h），注水量達到（40.86萬[m3]，42.91萬[m3]）的前提下，原油產(chǎn)量達到（10.78萬噸，11.41萬噸）區(qū)間的可能性為百分之百。

3.5 預(yù)測實例

選取該采油廠2014年1月到6月的采油用電、集輸用電、注水用電、注水量四類數(shù)據(jù)，運用Apriori算法產(chǎn)生的強關(guān)聯(lián)規(guī)則，預(yù)測出該廠1月到6月的原油產(chǎn)量所在區(qū)間，再與2014年1月到6月原油產(chǎn)量的實際值作比較，發(fā)現(xiàn)實際原油產(chǎn)量值位于預(yù)測原油產(chǎn)量區(qū)間的可能性達到100%。原油產(chǎn)量預(yù)測結(jié)果與實際值比較如表6所示。

4 結(jié)論

Apriori關(guān)聯(lián)規(guī)則分析算法提供了一個新的原油產(chǎn)量預(yù)測方法。隨著采油廠月度生產(chǎn)相關(guān)數(shù)據(jù)的逐漸增多，通過使用K-Means聚類算法，這些數(shù)據(jù)的離散化等級區(qū)分度會更明顯，得出的強關(guān)聯(lián)規(guī)則各因素的區(qū)間范圍會更小，從而使得預(yù)測結(jié)果更精確。不過隨著油田開發(fā)時間的增長，會出現(xiàn)影響原油產(chǎn)量的其他因素，比如開井?dāng)?shù)、氣溫等，影響預(yù)測結(jié)果，因此增加油田生產(chǎn)相關(guān)數(shù)據(jù)的數(shù)據(jù)量和查找影響原油產(chǎn)量的其他因素將是下一步的研究方向。

參考文獻：

[1] 姚志剛. 改進的Logistic模型在原油產(chǎn)量預(yù)測中的應(yīng)用[J].油氣地質(zhì)與采收率，2010，17（3）：93-94，98.

[2] 周彩蘭，劉敏. BP神經(jīng)網(wǎng)絡(luò)在石油產(chǎn)量預(yù)測中的應(yīng)用[J].武漢理工大學(xué)學(xué)報，2009，31（3）：125-129.

[3] 李德慶. 利用GM（1，1）模型群預(yù)測石油產(chǎn)量[J].油氣地質(zhì)與采收率，2008，15（5）：82-8.

[4] 陳惠萍，林莉莉，王建東，等. WEKA數(shù)據(jù)挖掘平臺及二次開發(fā)[J].計算機工程與應(yīng)用，2008，44（19）：76-79.

[5] 吳學(xué)雁，莫贊. 基于Apriori算法的頻繁項集挖掘優(yōu)化方法[J].計算機系統(tǒng)應(yīng)用，2014，23（6）：124-129.

[6] （加）Jiawei Han， Micheline Kamber著. 數(shù)據(jù)挖掘概念與技術(shù)[M].范明，孟小峰，譯.北京：機械工業(yè)出版社，2007：146-161 .

[7] 劉華婷，郭仁祥，姜浩. 關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究和改進[J].計算機應(yīng)用與軟件，2009，26（1）：146-149.

[8] 谷俊杰，王為力，李家川，等. 關(guān)聯(lián)規(guī)則挖掘在電站運行優(yōu)化中的運用[J].電站系統(tǒng)工程， 2009，25（1）：8-10.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Weka的Apriori算法在原油產(chǎn)量預(yù)測中的應(yīng)用