程政 雷霞 廖翔 馬一凱 柏曉麗
(西華大學(xué)電氣信息學(xué)院,成都 610039)
安全性評價屬于風(fēng)險管理范疇, 是預(yù)防和控制企業(yè)事故行之有效的方法[1]。1990年,華北電網(wǎng)公司借鑒國外風(fēng)險評估等現(xiàn)代安全管理辦法,開始了發(fā)電機(jī)組并網(wǎng)安全性評價,目前已在全國全面推開。隨著安全性評價在電力系統(tǒng)中的應(yīng)用,一些安全性評價管理系統(tǒng)已投入實際應(yīng)用,但僅僅完成了安評數(shù)據(jù)的統(tǒng)計以及個別數(shù)據(jù)的追蹤功能,對于查評中隱藏的信息沒有進(jìn)行有效的分析和挖掘。如何處理這些安評數(shù)據(jù)成為研究的首要問題,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。數(shù)據(jù)挖掘也稱數(shù)據(jù)庫知識發(fā)現(xiàn),它從大量的、不完全的、有噪聲的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[2]。本文建立了數(shù)據(jù)挖掘模型,挖掘影響電網(wǎng)安全的危險點,從而指導(dǎo)管理者開展電網(wǎng)安全性評價工作。
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一種重要的數(shù)據(jù)挖掘模式,最初用于挖掘大型事務(wù)數(shù)據(jù)庫中項與項之間的關(guān)系,近年來已經(jīng)被廣泛用于文本信息處理中。一般來說,關(guān)聯(lián)規(guī)則就是描述數(shù)據(jù)庫中數(shù)據(jù)項(屬性、變量)之間所存在的潛在關(guān)系的規(guī)則。設(shè)I={i1,i2,…,im}是m個不同項目的集合,D是針對I事物的集合,每一筆事物包含若干項目i1,i2,…,ik∈I。關(guān)聯(lián)規(guī)則形如X=>Y的蘊含式,其中X?I,Y?I,X∩Y=Φ。關(guān)聯(lián)規(guī)則X=>Y在事務(wù)集D中成立,具有兩個規(guī)則興趣度度量-支持度和置信度,他們分別反映發(fā)現(xiàn)規(guī)則的有用性和確定性。
定義 1 支持度 X的支持度是事物集中A出現(xiàn)的事物數(shù)與總的事物數(shù)之比,即
定義 2 置信度 規(guī)則X=>Y的置信度是事物集中X、Y同時出現(xiàn)的事物數(shù)與X出現(xiàn)的事物數(shù)之比,即
如果規(guī)則的支持度大于最小支持度則認(rèn)為此規(guī)則是頻繁項集,否則為非頻繁項集。同時滿足最小支持度與最小可信度兩屬性的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的目的就是從數(shù)據(jù)庫中挖掘出滿足用戶要求的最小支持度與最小可信度的強(qiáng)關(guān)聯(lián)規(guī)則。
挖掘關(guān)聯(lián)規(guī)則問題一般可以分解為以下兩個子問題:
(1)找出存在于事物數(shù)據(jù)庫中的所有頻繁項集,即找出所有支持度滿足用戶所規(guī)定的最小支持度閾值的項集。
(2)用頻繁項集生成候選關(guān)聯(lián)規(guī)則,然后驗證候選關(guān)聯(lián)規(guī)則是否滿足用戶所規(guī)定的最小可信度閾值。若滿足,該候選關(guān)聯(lián)規(guī)則為要找的關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則挖掘最常用的算法是Apriori算法。它是 Agrawal等人提出的一種布爾關(guān)聯(lián)規(guī)則挖掘算法。這個算法的主要作用之一就是從一個給定的事務(wù)數(shù)據(jù)庫中找出現(xiàn)次數(shù)滿足一定條件的項集組合。Apriori算法使用一種稱作逐層搜索的迭代方法,用k項集搜索(k+l)項集。首先通過掃描數(shù)據(jù)庫,累積每個項的計數(shù),并收集滿足最小支持度的項,找出頻繁1項集的集合L1,然后L1用于找頻繁2項集的集合L2,L2用于找L3,如此下去,直到不能再找到頻繁 k 項集。找每個 Lk需要一次數(shù)據(jù)庫掃描。Apriori算法的關(guān)鍵是由Lk-1找Lk:先通過Lk-1與自身連接產(chǎn)生候選 k項集的集合 Ck(即連接步),并利用Apriori性質(zhì)壓縮Ck(即剪枝步),然后掃描事物表進(jìn)行計數(shù),將滿足最小支持度的項加入項加入Lk中。
關(guān)聯(lián)規(guī)則模型通過設(shè)置最小支持度min_sup和最小置信度min_conf,運用Apriori算法對安全性評價中自查評表的分析,找出影響電網(wǎng)安全性的關(guān)聯(lián)規(guī)則,通過關(guān)聯(lián)規(guī)則分析電網(wǎng)中存在的危險點。通過查找到的危險點,指導(dǎo)管理人員提出相應(yīng)的控制措施。圖1給出了關(guān)聯(lián)規(guī)則模型圖。
圖1 關(guān)聯(lián)規(guī)則模型
關(guān)聯(lián)規(guī)則模型涉及的數(shù)據(jù)主要是自查評表中的信息。自查評表保存著電網(wǎng)安全性評價中用戶自查評時產(chǎn)生的數(shù)據(jù),其中包括查評項目、查評得分、得分率等等。本文以自查評的項目為挖掘?qū)ο螅宰圆樵u表中的得分率和問題嚴(yán)重程度為研究對象。
(1)數(shù)據(jù)預(yù)處理
由于自查評表中數(shù)據(jù)比較完整、數(shù)據(jù)易處理的。下面對數(shù)據(jù)進(jìn)行如下處理:
1)問題嚴(yán)重程度缺失的處理
在自查評過程中,問題嚴(yán)重程度的缺失是由于用戶在填寫自查評結(jié)果是漏填,因此筆者默認(rèn)為問題的嚴(yán)重程度為一般。
2)數(shù)據(jù)的變換
由于自查評表中的得分率為[0-1]區(qū)間,問題的嚴(yán)重程度分為一般和嚴(yán)重兩種,那么我們現(xiàn)在將數(shù)據(jù)離散化。將得分率記為 selfrate,問題的嚴(yán)重程度記為plevel。得分率在區(qū)間[0-0.5]之間記為 A1;在(0.5-1]之間記為A2。問題一般記為B1;問題嚴(yán)重記為B2。那么自查評表就轉(zhuǎn)化為最終的數(shù)據(jù)表。如表1所示。
表1 關(guān)聯(lián)規(guī)則模型最終事務(wù)表
(2)數(shù)據(jù)挖掘的實現(xiàn)
首先采用Apriori算法生成頻繁項集,然后由頻繁項集根據(jù)最小支持度和最小置信度產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。本模型對自查評表中查評項目1.1.1.1項前300次的查評歷史數(shù)據(jù)進(jìn)行分析,設(shè)定最小支持度為0.4,最小置信度為0.5。具體實現(xiàn)過程如下:
1)掃描自查評最終事務(wù)表,得到候選 1-項集C1(見圖 2)。
2)頻繁項集L1自連接,得到候選2-項集C2(見圖 3)。
圖2
圖3
此時,所有的頻繁項集均已找出,算法結(jié)束。
(3)挖掘結(jié)果及解釋
本模型對自查評表中查評項目 1.1.1.1項前 30次的查評歷史數(shù)據(jù)進(jìn)行分析,設(shè)定最小支持度為0.4,最小置信度為0.5。最后得到3條強(qiáng)關(guān)聯(lián)規(guī)則。例如規(guī)則:A1=>B2,其中支持度為42.8%,置信度為 66.7%。意味著當(dāng)“得分率”在[0-0.5]之間時,“問題嚴(yán)重程度”的概率為 66.7%。那么針對這種得分率低而且問題嚴(yán)重程度高的關(guān)聯(lián)規(guī)則,管理者可以對1.1.1.1項提前提出控制措施,達(dá)到預(yù)防事故的目的。
本文介紹了關(guān)聯(lián)規(guī)則在電網(wǎng)安全性評價中的應(yīng)用,并建立了關(guān)聯(lián)規(guī)則模型,挖掘電力系統(tǒng)存在的危險點。管理者針對危險點,對電網(wǎng)提出相應(yīng)的整改措施,對電網(wǎng)安全性評價有一定的指導(dǎo)作用。
[1]王金萍,樊鳳林,劉發(fā)旺,等.安全性評價在電力企業(yè)中的應(yīng)用研究[J].華北電力技術(shù),2005,(5)∶23-26.
[2]JiaweiHan,Micheline Kambe 著,范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京∶機(jī)械工業(yè)出版社,2007.
[3]國家電網(wǎng)公司.供電企業(yè)安全性評價標(biāo)準(zhǔn)[S].北京∶中國電力出版社.2002.
[4]駱嘉偉,彭蔓蔓,陳景燕,等.基于消費行為的Apriori算法的研究[J].計算機(jī)工程,2003,29(5)∶72-74.
[5]楊輔祥,劉云超,段智華. 數(shù)據(jù)清理綜述[J].計算機(jī)應(yīng)用研究,2002,19(3)∶3-5.
[6]高艷霞.Apriori算法在學(xué)生成績管理中的應(yīng)用[J].計算機(jī)時代 2009,(8)∶30-31.