康建東,李 偉,張 雋,劉宇星,秦長(zhǎng)鋒,胡建勇(中國(guó)電力科學(xué)研究院,100192;國(guó)網(wǎng)冀北電力有限公司,100053)
基于數(shù)據(jù)挖掘的電網(wǎng)故障診斷研究
康建東,李 偉,張 雋,劉宇星,秦長(zhǎng)鋒,胡建勇
(中國(guó)電力科學(xué)研究院,100192;國(guó)網(wǎng)冀北電力有限公司,100053)
在實(shí)際電網(wǎng)故障診斷中,面臨如何從海量數(shù)據(jù)中找到所發(fā)生的連鎖故障之間的相互影響關(guān)系、以及一個(gè)故障發(fā)生可能引起其他故障發(fā)生的概率問題。本文研究?jī)?nèi)容是將數(shù)據(jù)挖掘技術(shù)中的聚類分析、關(guān)聯(lián)規(guī)則、貝葉斯網(wǎng)絡(luò)、綜合應(yīng)用于電網(wǎng)故障的處理。首先應(yīng)用聚類分析技術(shù)對(duì)電網(wǎng)的故障數(shù)據(jù)進(jìn)行故障聚類,其次對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析、發(fā)現(xiàn)故障之間的相互影響關(guān)系,再次基于貝葉斯網(wǎng)絡(luò)統(tǒng)計(jì)分析故障間相互影響的概率問題,最后結(jié)合以上分析結(jié)果給出輔助決策信息。
數(shù)據(jù)挖掘;ETL;電網(wǎng)故障;數(shù)據(jù)倉(cāng)庫(kù);關(guān)聯(lián)規(guī)則;聚類分析;貝葉斯網(wǎng)絡(luò)
隨著電網(wǎng)規(guī)模的不斷擴(kuò)大,電網(wǎng)發(fā)生故障時(shí)會(huì)有大量的故障信息,這些信息被送入了調(diào)度中心,調(diào)度員應(yīng)該快速分析故障特征,判斷故障設(shè)備并盡快恢復(fù)用戶供電。除了提高調(diào)度員自身的業(yè)務(wù)素質(zhì)以外,國(guó)內(nèi)科研機(jī)構(gòu)也正在研究利用計(jì)算機(jī)輔助決策來提高故障的處理效率。如何從大量的故障信息中有效挖掘信息,從信息中及時(shí)發(fā)現(xiàn)知識(shí),提供給調(diào)度員做出相應(yīng)決策。針對(duì)這些問題本文基于數(shù)據(jù)挖掘技術(shù)對(duì)電網(wǎng)故障診斷進(jìn)行研究,給出相應(yīng)的輔助決策信息供調(diào)度員參考。
1)數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(Data Mining簡(jiǎn)稱DM)就是從大量、不完全、有噪聲、模糊的或者隨機(jī)的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的信息和知識(shí)的過程。數(shù)據(jù)挖掘不是簡(jiǎn)單的數(shù)據(jù)查詢和檢索,而是對(duì)數(shù)據(jù)的統(tǒng)計(jì)、分析、綜合和推理,為決策提供更多可用數(shù)據(jù)和判據(jù)。
2)數(shù)據(jù)挖掘的分析方法
數(shù)據(jù)挖掘的方法可粗分為:統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。統(tǒng)計(jì)方法可細(xì)分為:回歸分析、貝葉斯判別、聚類分析、探索性分析、以及模糊集、粗糙集、支持向量機(jī)等。機(jī)器學(xué)習(xí)可細(xì)分為:決策樹、基于范例的推理CBR、遺傳算法、貝葉斯信念網(wǎng)絡(luò)等。神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為:BP算法、自組織神經(jīng)網(wǎng)絡(luò)等。
3)數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別
數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知,有效和實(shí)用三個(gè)特征。
監(jiān)控設(shè)備故障、通道故障等原因會(huì)照成電網(wǎng)設(shè)備的部分實(shí)時(shí)參數(shù)丟失或者錯(cuò)誤,傳統(tǒng)的專家系統(tǒng)無法使用歷史數(shù)據(jù)中的規(guī)則進(jìn)行分析,給出決策。因此要在大量的歷史數(shù)據(jù)中找到與當(dāng)前故障最相近的模型非常困難。因此通過聚類分析、關(guān)聯(lián)規(guī)則和貝葉斯網(wǎng)絡(luò)進(jìn)行綜合應(yīng)用對(duì)電網(wǎng)故障進(jìn)行有力的判據(jù)。
1.1 聚類分析對(duì)故障的分析
聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個(gè)類別的過程,聚類之后的每個(gè)類別中任意兩個(gè)數(shù)據(jù)樣本之間具有較高的相似度,相似度可以根據(jù)數(shù)據(jù)樣本的描述屬性的具體取值來計(jì)算,通常采用數(shù)據(jù)樣本間的距離來表示。通過聚類分析來完成電網(wǎng)故障的相似度處理,進(jìn)行故障的歸類,并可以作為關(guān)聯(lián)規(guī)則的預(yù)處理工作。
1.2 關(guān)聯(lián)規(guī)則對(duì)故障的分析
關(guān)聯(lián)規(guī)則是從歷史數(shù)據(jù)集合中發(fā)現(xiàn)不同數(shù)據(jù)項(xiàng)之間的相互影響關(guān)聯(lián)關(guān)系。下面就故障發(fā)生判斷故障的區(qū)域進(jìn)行分析。
關(guān)聯(lián)規(guī)則定義:給定一組故障信息F={F1,F(xiàn)2,…,F(xiàn)m}、故障區(qū)域A={A1,A2,…,An},故障關(guān)聯(lián)規(guī)則是形如R:X => Y的蘊(yùn)含式,其中X為規(guī)則的條件并且是F的模式,Y為規(guī)則的結(jié)果并且是A的模式。
如果通過關(guān)聯(lián)規(guī)則得到表達(dá)式為{F1,F(xiàn)2 => A1},既說明由故障F1,F(xiàn)2這些故障信息診斷得出故障區(qū)域是A1。
關(guān)聯(lián)規(guī)則的項(xiàng)集支持度:
其中support(X)描述項(xiàng)集X出現(xiàn)的概率
關(guān)聯(lián)規(guī)則的可信度:
綜合上述支持度和可信度指標(biāo)進(jìn)行判定故障之間的關(guān)聯(lián)關(guān)系結(jié)論的有用性。
1.3 貝葉斯網(wǎng)絡(luò)對(duì)故障的分析
貝葉斯網(wǎng)絡(luò)是以貝葉斯概率為理論基礎(chǔ),最早起源于貝葉斯統(tǒng)計(jì)分析,它是概率理論和圖論相結(jié)合的產(chǎn)物。多用于專家系統(tǒng),成為不確定性知識(shí)和推理問題的流行方法。
貝葉斯網(wǎng)絡(luò)主要功能是預(yù)測(cè)和診斷,在貝葉斯網(wǎng)絡(luò)工作之前,需要對(duì)歷史數(shù)據(jù)進(jìn)行訓(xùn)練。
貝葉斯網(wǎng)絡(luò)的建立和訓(xùn)練算法,首先把實(shí)際問題的事件抽象為節(jié)點(diǎn),第二步建立兩個(gè)或者多個(gè)結(jié)節(jié)之間的連線。給定一個(gè)節(jié)點(diǎn)P,PS和QS分別表示節(jié)點(diǎn)的兩個(gè)狀態(tài)。從歷史數(shù)據(jù)中訓(xùn)練出節(jié)點(diǎn)之間的條件概率和聯(lián)合條件概率,判斷故障發(fā)生相互影響的可能性概率。
條件概率:
聯(lián)合條件概率:
2.1 數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)
電力系統(tǒng)故障數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)架構(gòu)提出是為了簡(jiǎn)化設(shè)計(jì)、建模、管理和實(shí)現(xiàn),用于描述各個(gè)模塊之間的相互關(guān)系。電力系統(tǒng)故障數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)架構(gòu)如圖1所示,數(shù)據(jù)源包括文件、數(shù)據(jù)庫(kù)、設(shè)備,是從EMS/SCADA、PMUs、GIS等系統(tǒng)中進(jìn)行采集的。數(shù)據(jù)導(dǎo)入包括對(duì)數(shù)據(jù)抽取、轉(zhuǎn)換和加載,在轉(zhuǎn)換過程中對(duì)數(shù)據(jù)進(jìn)行檢查和出錯(cuò)處理。之后將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中并為后續(xù)業(yè)務(wù)提供服務(wù)。
2.2 ETL處理過程
應(yīng)運(yùn)專門的ETL工具對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗、裝載到數(shù)據(jù)倉(cāng)庫(kù)中。ETL工具實(shí)現(xiàn)的功能包括數(shù)據(jù)抽取和轉(zhuǎn)換裝載、源數(shù)據(jù)建立和數(shù)據(jù)倉(cāng)庫(kù)建模。所以這些數(shù)據(jù)都保存到數(shù)據(jù)倉(cāng)庫(kù)中,由于各個(gè)數(shù)據(jù)源采用不同的數(shù)據(jù)存儲(chǔ)形式,所以構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí)必須通過ETL工具將這些數(shù)據(jù)按一定規(guī)則導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中,來保證數(shù)據(jù)的一致性,達(dá)到綜合應(yīng)用各種數(shù)據(jù)源的目的。
圖1 電力系統(tǒng)故障數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)架構(gòu)圖
1)數(shù)據(jù)抽取
數(shù)據(jù)倉(cāng)庫(kù)中的大量歷史數(shù)據(jù)主要是從SCADA/EMS、MIS、DBMS、PUMs、GIS等系統(tǒng)中獲得。
2)數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換是更改數(shù)據(jù)的類型、大小、小數(shù)位數(shù)、精度或者字段為空性等。
轉(zhuǎn)換工具中提供相應(yīng)的函數(shù)對(duì)數(shù)據(jù)的重新格式化、字符串的處理和類型轉(zhuǎn)換進(jìn)行處理。在轉(zhuǎn)換過程中應(yīng)該對(duì)不同的數(shù)據(jù)源,列如:TXT、Excel、Doc、DB等進(jìn)行相應(yīng)的轉(zhuǎn)換。
3)數(shù)據(jù)加載
將轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行統(tǒng)一、分類加載到數(shù)據(jù)倉(cāng)庫(kù)中,由于關(guān)心的主題不同把數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)建立各種數(shù)據(jù)集市。
2.3 多維數(shù)據(jù)模型建立
由于故障發(fā)生的影響因素眾多,因此本文設(shè)計(jì)了PMUs中心數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)采集模塊,包括PMUs實(shí)測(cè)數(shù)據(jù)采集、EMS/SCADA數(shù)據(jù)采集及其它可利用的數(shù)據(jù)源采集。根據(jù)研究問題的不同建立故障的數(shù)據(jù)集市。如下圖2中間表格是故障的事實(shí),為四周的每一個(gè)維度增加一個(gè)字段作為維度表的外鍵,通過外鍵和事實(shí)表進(jìn)行互聯(lián),在此基礎(chǔ)上,可以利用OLAP技術(shù)進(jìn)行各種復(fù)雜的查詢,掌握故障的一些基本信息。
圖2 故障星型模式
3.1 數(shù)據(jù)準(zhǔn)備
基于冀北電網(wǎng)2011年到2013年期間的事故數(shù)據(jù)進(jìn)行聚類分析、關(guān)聯(lián)規(guī)則分析、貝葉斯網(wǎng)絡(luò)分析。與電網(wǎng)故障的類別劃分、關(guān)聯(lián)性分析、貝葉斯網(wǎng)絡(luò)有關(guān)的屬性項(xiàng)主要包括發(fā)生時(shí)間、設(shè)備名稱、故障區(qū)域、故障發(fā)生原因和類型。
3.2 聚類分析挖掘
對(duì)冀北電網(wǎng)故障數(shù)據(jù)進(jìn)行故障相似類型的聚類得到故障相應(yīng)的分類。
(1)利用歐氏距離作為故障數(shù)據(jù)樣本間的相似性度量。
(2)選擇評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)。
(3)選擇某個(gè)初始分類,之后用迭代的方法得到聚類結(jié)果,使得評(píng)價(jià)聚類的準(zhǔn)則函數(shù)取得最優(yōu)值。
3.3 關(guān)聯(lián)規(guī)則挖掘
基于聚類分析結(jié)果對(duì)變壓器類故障利用關(guān)聯(lián)規(guī)則對(duì)其進(jìn)行分析,設(shè)定最小支持度=0.25時(shí)生成頻繁項(xiàng)集如表1所示。
通過對(duì)頻繁項(xiàng)集的分析發(fā)現(xiàn)在張家口和唐山易發(fā)生220千伏變壓器跳閘事故,設(shè)備的“產(chǎn)品質(zhì)量”導(dǎo)致事故占比重較大,“產(chǎn)品質(zhì)量”與“保護(hù)裝置故障”的關(guān)聯(lián)性較大。
表1 冀北電網(wǎng)故障頻繁項(xiàng)集表(部分)
3.4 貝葉斯網(wǎng)絡(luò)挖掘
根據(jù)關(guān)聯(lián)規(guī)則分析結(jié)果中相應(yīng)的故障診斷的特點(diǎn)、建立相應(yīng)Bayes網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。Bayes網(wǎng)絡(luò)是由網(wǎng)絡(luò)結(jié)構(gòu)和條件概率分布表組成。網(wǎng)絡(luò)結(jié)構(gòu)是一種基于有向無環(huán)圖的圖表模型,由節(jié)點(diǎn)和有向弧段組成。
圖3 Bayes網(wǎng)絡(luò)結(jié)構(gòu)圖
1) 網(wǎng)絡(luò)結(jié)構(gòu)圖形
上層節(jié)點(diǎn)表示故障原因,下層節(jié)點(diǎn)表示故障類型。設(shè)有故障樣本集F={F1,F2,F3…Fn}和故障類型樣本集C={C1,C2,C3,C4…Cm}其中n,m分別代表元素個(gè)數(shù)。假定兩個(gè)樣本集中的所有元素是相互獨(dú)立的。
2) 節(jié)點(diǎn)的條件概率表(CPT)
表中列出了所有故障節(jié)點(diǎn)相對(duì)應(yīng)于其故障原因節(jié)點(diǎn)所有可能的條件概率值P。例如對(duì)于上述的Bayes網(wǎng)絡(luò)結(jié)構(gòu),假設(shè)故障原因有兩個(gè)分別是產(chǎn)品質(zhì)量和保護(hù)裝置故障,選取與這些故障相關(guān)受影響區(qū)域得出其條件概率表如表2。
表2 條件概率表(部分)
3.5 結(jié)果分析
1) 測(cè)試數(shù)據(jù)
基于冀北電網(wǎng)2011年到2013年期間的事故歷史數(shù)據(jù)。
2) 系統(tǒng)運(yùn)行結(jié)果分析
通過對(duì)關(guān)聯(lián)規(guī)則的分析可以得出需要的知識(shí)。例如:張家口、產(chǎn)品質(zhì)量和保護(hù)裝置故障,說明在張家口由于產(chǎn)品質(zhì)量很容易導(dǎo)致保護(hù)裝置故障。如圖4冀北電網(wǎng)220千伏變壓器跳閘故障關(guān)聯(lián)分析部分關(guān)聯(lián)規(guī)則圖。
圖4 變壓器故障關(guān)聯(lián)性分析關(guān)聯(lián)規(guī)則(部分)
通過對(duì)Bayes網(wǎng)絡(luò)的分析可以得出需要的知識(shí)。如圖5 所示診斷結(jié)論為秦皇島、廊坊、承德地區(qū)由于維護(hù)不當(dāng)導(dǎo)致變壓器故障所占概率比重較大,系統(tǒng)建議維護(hù)人員在維護(hù)過程中多加注意。張家口、唐山地區(qū)由于產(chǎn)品質(zhì)量導(dǎo)致變壓器故障所占比重較大,系統(tǒng)建議在選擇產(chǎn)品時(shí)多加注意。
本文提出的基于數(shù)據(jù)挖掘技術(shù)的電網(wǎng)故障診斷研究方法有如下特點(diǎn),首先建立了多數(shù)據(jù)源的中心數(shù)據(jù)倉(cāng)庫(kù),解決了數(shù)據(jù)來源的廣泛?jiǎn)栴},同時(shí)根據(jù)不同的需求建立了相應(yīng)主題的數(shù)據(jù)集市,使數(shù)據(jù)檢索更加方便。其次利用數(shù)據(jù)挖掘中的三種典型算法分別是聚類分析、關(guān)聯(lián)規(guī)則、貝葉斯網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行分析,最后對(duì)三種算法的結(jié)果進(jìn)行綜合分析發(fā)現(xiàn)未知知識(shí),對(duì)電網(wǎng)故障處理給出輔助建議。
[1] 于之虹,郭志忠.數(shù)據(jù)挖掘與電力系統(tǒng)[J].電網(wǎng)技術(shù),2001,25(8): 58-62
[2] 張克君,李伯群.基于DWLMS模型的分布式web用戶訪問模式挖掘[J].清華大學(xué)學(xué)報(bào),2005,45(S1): 62-66
[3] 陳志泊.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].清華大學(xué)出版社,2009
[4] Jiawei Han,Micheline Kamber. 數(shù)據(jù)挖掘概念與技術(shù).2版.[M].北京:機(jī)械工業(yè)出版社,2007
[5] 王珊.?dāng)?shù)據(jù)倉(cāng)庫(kù)技術(shù)與聯(lián)機(jī)分析處理[M].北京科學(xué)出版社,1999
[6] 張耀天,何正友,趙靜.基于粗糙集理論和樸素貝葉斯網(wǎng)絡(luò)的電網(wǎng)故障診斷方法[J].電網(wǎng)技術(shù),2007,31(1)
[7] 馮潔,陶宏才.快速挖掘最大頻繁項(xiàng)集[J].微電子學(xué)與計(jì)算機(jī),2007,24(5):123-124
[8] 顧雪平,張文勤,高曙. 基于神經(jīng)網(wǎng)絡(luò)和元件關(guān)聯(lián)分析的電網(wǎng)故障診斷[J].華北電力大學(xué)學(xué)報(bào),1999,(02):12-17.
[9] 霍利民,朱永利,賈蘭英. 基于貝葉斯網(wǎng)絡(luò)的電網(wǎng)故障診斷[J].華北電力大學(xué)學(xué)報(bào),2004,(03):30-34.
[10] Liu Bing,Hsu Wynne,Ma Yiming.Integrating Classification and Association Rule Mining. In:Proceedings of 1998 International Conference on Knowledge Discovery and Data Mining.NewYork:1998
Power System Fault Diagnosis Research Based on Data Mining
Kang Jiandong,Li Wei,Zhang Jun,Liu Yuxing,Qin Changfeng,Hu Jianyong
(China Electric Power Research Institute,100192;country Ji North Power Co.Ltd,100053)
In actual power grid fault diagnosis,facing how to find out what happened from the huge amounts of data in a cascading fault between the interaction relations,as well as a fault may cause the probability of other fault issues.In this paper,the research content is to clustering analysis and association rules and Bayes Network in data mining technology,comprehensive applied to power grid fault processing.The first application of clustering analysis technology to power grid fault data clustering,secondly,association rules of data analysis,found the mutual influence of relationship between the fault,again based on Bayes Network Statistics analysis of the mutual influence between fault probability problem,finally combining the above analysis results give auxiliary decision-making information.
Data Mining;ETL;Power System Fault;Data Warehouse;Association rules;Clustering Analysis;Bayes Network
圖5 變壓器故障原因分析圖