陳 昕
(中國能源建設(shè)集團(tuán)江蘇省電力設(shè)計(jì)院有限公司,江蘇 南京 211102)
隨著電網(wǎng)規(guī)模的擴(kuò)大,產(chǎn)生的告警信號也日益增長[1]。由于遠(yuǎn)動系統(tǒng)、通信系統(tǒng)和測量設(shè)備在運(yùn)行中的異常以及必要的設(shè)備檢修,導(dǎo)致在上傳的告警信息中還包含大量的告警頻報(bào)信號[2-3]。摒棄設(shè)備檢修引起的的頻報(bào)信號,剩余頻報(bào)信號雖然不能反映電網(wǎng)的真實(shí)狀態(tài),但對其進(jìn)行分析,可以找到引起告警頻報(bào)的相關(guān)因素,從而發(fā)現(xiàn)可能產(chǎn)生頻報(bào)信號的設(shè)備,并密切關(guān)注。
文中將數(shù)據(jù)挖掘領(lǐng)域中的頻繁模式挖掘技術(shù)[4]引入頻報(bào)信號的分析中。由于頻報(bào)信號影響因素具有不同重要性,對各影響因素賦權(quán),應(yīng)用加權(quán)頻繁模式概念,提出結(jié)合加權(quán)模型的加權(quán)改進(jìn)FP-growth算法,可以挖掘出與頻發(fā)信號強(qiáng)關(guān)聯(lián)的影響因素,繼而可以找到可能產(chǎn)生頻報(bào)信號的設(shè)備并加以密切關(guān)注,產(chǎn)生的頻繁模式可以為設(shè)備檢修提供規(guī)則知識。
為了盡可能地找到產(chǎn)生頻報(bào)信號的設(shè)備,需要?dú)w納出告警信號頻報(bào)的影響因素。對頻報(bào)信號進(jìn)行分析,設(shè)使用設(shè)備類型X1、運(yùn)行年限X2、大修次數(shù)X3和告警頻報(bào)發(fā)生月份X4為影響因素。其中,設(shè)備類型分為線路、母線、變壓器、互感器、避雷器、斷路器、隔離開關(guān)、電容器和電抗器等。運(yùn)行年限和大修次數(shù)為離散值,需要進(jìn)行離散化處理。按照文獻(xiàn)[5]規(guī)定,設(shè)定運(yùn)行年限小于等于10 a為短,大于10 a且小于20 a為中,大于等于20 a為長。設(shè)定大修次數(shù)小于等于2次為低,大于2次小于5次為中,大于等于5次為高。告警頻報(bào)發(fā)生月份即為告警報(bào)發(fā)時(shí)刻所在的月份。由于頻報(bào)信號各影響因素具有不同的重要性,因此需要對各影響因素進(jìn)行加權(quán)處理,權(quán)值越大表示影響因素越重要。
層次分析法[6]建立在專家咨詢基礎(chǔ)上,把各影響因素的權(quán)重賦值簡化為影響因素重要性的兩兩比較,然后進(jìn)行數(shù)學(xué)處理,對各影響因素賦值,具有可信、靈活和實(shí)用的特點(diǎn)??紤]到告警頻報(bào)信號的研究尚處于起步階段,獲得大量有明確結(jié)論的樣本存在很大困難,需要借鑒專家經(jīng)驗(yàn)。因此,文中采用層次分析法(AHP)求取影響因素權(quán)重。
邀請專家按表1要求給出各影響因素間兩兩比較的相對重要性,構(gòu)成評判矩陣。
表1 評判矩陣標(biāo)度及含義Tab.1 Evaluation matrix scale and meaning
根據(jù)評判矩陣計(jì)算權(quán)重,求出矩陣的最大特征值及其對應(yīng)的特征向量,所求的特征向量即為權(quán)重分配。由于評估人不可能精確判斷出權(quán)重的精確度,需要對判斷矩陣進(jìn)行一致性檢驗(yàn),通過一致性檢驗(yàn)公式,表示如下:
CR=CI/RI
(1)
其中:CR為評判矩陣的隨機(jī)一致性比率;CI為判斷矩陣的一般一致性指標(biāo),由下式給出:
(2)
RI為評判矩陣的一般一致性指標(biāo),對于1-9階判斷矩陣,RI值如表2所示。
表2 n階評判矩陣RI值Tab.2 RIvalue of evaluation matrix
當(dāng)CR<0.1時(shí),即認(rèn)為判斷矩陣具有滿意的一致性,說明權(quán)重分配是合理的,否則需要調(diào)整判斷矩陣,直至取得具有滿意的一致性為止。
現(xiàn)有的頻繁模式雖然在某種程度上發(fā)現(xiàn)了事務(wù)數(shù)據(jù)庫中頻繁出現(xiàn)的數(shù)據(jù)項(xiàng),但這些數(shù)據(jù)項(xiàng)在數(shù)據(jù)庫中的重要程度被看作是一致的,沒有進(jìn)行區(qū)分。這樣不能體現(xiàn)各數(shù)據(jù)項(xiàng)具有不同的重要程度,也會因此挖掘出一些過于“平凡”的頻繁模式,具有一定的局限性。針對這個(gè)問題,需要引入權(quán)重的概念,解決數(shù)據(jù)項(xiàng)重要程度不一致的問題,由此產(chǎn)生的頻繁模式稱為“加權(quán)頻繁模式”。
加權(quán)頻繁模式挖掘算法[7]研究最初是圍繞商品交易展開的,解決了往往優(yōu)先考慮利潤較高項(xiàng)目而忽略利潤較低項(xiàng)目的問題。為了更好地滿足用戶需求,提出了一些新算法上的嘗試[8-14]。文中的研究對象是告警頻報(bào)信號數(shù)據(jù)庫,考慮各影響因素的重要性不同,引入加權(quán)頻繁模式概念,提出將加權(quán)模型與改進(jìn)FP-growth算法[12]相結(jié)合來有效挖掘出與頻報(bào)信號有強(qiáng)關(guān)聯(lián)的影響因素。
I={i1,i2,…,im}是由m個(gè)不同項(xiàng)目組成的集合,D={T1,T2,…,Tn}是事務(wù)數(shù)據(jù)庫,其中每個(gè)事務(wù)Ti(i=1,2,…,n)包含事務(wù)唯一標(biāo)識TID和一個(gè)I的子集X。
定義1: 項(xiàng)目集I={i1,i2,…,im}中每一項(xiàng)目ij有一個(gè)權(quán)值w(ij),其中0≤w(j)≤1。當(dāng)項(xiàng)目具有權(quán)重后,其項(xiàng)目集X也具有相應(yīng)的權(quán)重,記作W(X):
(3)
當(dāng)|X|=1時(shí),W(X)=w(ij)。X的加權(quán)支持度WS(X)定義為:
WS(X)=W(X)×S(X)
(4)
S(X)表示項(xiàng)目集X在事務(wù)記錄中出現(xiàn)頻率,即:
(5)
式中:N為事物總數(shù)。若WS(X)≥WS,min,其中WS,min為最小加權(quán)支持度,則稱X為加權(quán)頻繁模式。當(dāng)加權(quán)頻繁模式X含有k個(gè)項(xiàng)目時(shí),稱為加權(quán)k-頻繁模式。
在告警頻報(bào)信號影響因素頻繁模式挖掘中,對各影響因素賦予不同權(quán)重,采用加權(quán)頻繁模式挖掘算法挖掘出大量的加權(quán)頻繁模式。這些頻繁模式中只有一些是用戶感興趣的,通過由用戶設(shè)定加權(quán)支持度閥值,可以控制頻繁模式數(shù)量,其中不滿足閥值的頻繁模式不作為知識向用戶提供。
FP-growth算法[16-17]在當(dāng)前挖掘頻繁模式算法中應(yīng)用最廣,并且不需要候選集,大大節(jié)約了計(jì)算空間。但是,該算法也有一些不足。它的主要缺點(diǎn)是建樹和挖掘過程都需要占用大量的內(nèi)存。當(dāng)數(shù)據(jù)庫很大,或者數(shù)據(jù)庫中的頻繁1-項(xiàng)集的數(shù)目很大時(shí),運(yùn)行速度將大為降低。更有甚者,由于無法構(gòu)造基于內(nèi)存的FP-tree,該算法不能有效地工作。為了克服這些不足,文中使用改進(jìn)FP-growth算法[12],主要思想是在繼承FP-growth算法不需要產(chǎn)生候選項(xiàng)集的優(yōu)點(diǎn)的基礎(chǔ)上,將數(shù)據(jù)庫進(jìn)行頻繁1-項(xiàng)集的項(xiàng)總數(shù)次掃描,每次掃描分別得到各個(gè)頻繁1-項(xiàng)集的項(xiàng)的數(shù)據(jù)庫子集。然后分別對各項(xiàng)數(shù)據(jù)庫子集使用FP-growth算法進(jìn)行約束頻繁項(xiàng)挖掘,得到含有各個(gè)頻繁1-項(xiàng)集的項(xiàng)的頻繁模式,最后將這些頻繁模式合并起來便得到整個(gè)數(shù)據(jù)庫的所有頻繁模式。
文中將加權(quán)模型與改進(jìn)FP-growth算法相結(jié)合。加權(quán)改進(jìn)FP-tree定義如下:
(1) 定義根節(jié)點(diǎn)的標(biāo)記為null,其子節(jié)點(diǎn)為項(xiàng)前綴子樹集合,同時(shí)包含項(xiàng)頭表。
(2) 子節(jié)點(diǎn)由3個(gè)域組成:item-name,count,node_link。其中item-name記錄了該節(jié)點(diǎn)所代表的項(xiàng)目名字;count記錄了所在路徑表中達(dá)到此節(jié)點(diǎn)的項(xiàng)目個(gè)數(shù);node_link指向下一個(gè)具有同樣的item-name域的節(jié)點(diǎn),要是不存在,就為null。
(3) 項(xiàng)頭表的結(jié)構(gòu)是item-name,WS和node_link。其中item-name是項(xiàng)頭表項(xiàng)目名稱;WS記錄了該項(xiàng)目集的加權(quán)支持度,按定義1計(jì)算得到;node_link指向表中具有與該表項(xiàng)相同item-name域的第一個(gè)節(jié)點(diǎn)。
文中構(gòu)造的加權(quán)改進(jìn)FP-growth算法如下:
輸入:事務(wù)數(shù)據(jù)庫D,WS,min;
輸出:D中的頻繁模式。
算法:
(1) 掃描數(shù)據(jù)庫D一次,找出候選1-項(xiàng)集的集合,計(jì)算它們的加權(quán)支持度。然后,按照加權(quán)支持度遞減排列候選1-項(xiàng)集的各項(xiàng),得到候選1-項(xiàng)集的集合F。將F中加權(quán)支持度小于WS,min的項(xiàng)刪除,得到頻繁1-項(xiàng)集的集合L。設(shè)L={I1,I2,…,Im},其中,I1的加權(quán)支持度最高,Im的加權(quán)支持度最小。
(2) 再次掃描數(shù)據(jù)庫D,將加權(quán)支持度小于WS,min的項(xiàng)從各事務(wù)中刪除,然后按照各項(xiàng)的加權(quán)支持度遞減地將各事務(wù)中的項(xiàng)進(jìn)行重新排列,得到數(shù)據(jù)庫為D'。
(3) 根據(jù)頻繁1-項(xiàng)集L中的各項(xiàng)的加權(quán)支持度計(jì)數(shù),按照以下規(guī)則由小到大依次構(gòu)造各項(xiàng)的數(shù)據(jù)庫子集,并利用FP-growth算法對其進(jìn)行約束頻繁項(xiàng)挖掘。
(4) 對于L中的每個(gè)項(xiàng)Ii(i=m,m-1,…,1)進(jìn)行如下處理:
(a) 掃描數(shù)據(jù)庫D',從中提取所有含項(xiàng)Ii的事務(wù),然后,刪除這些事務(wù)中加權(quán)支持度小于該項(xiàng)的加權(quán)支持度的項(xiàng),所得事務(wù)集合便為項(xiàng)Ii的數(shù)據(jù)庫子集Di。
(b) 對數(shù)據(jù)庫子集Di,利用FP-growth算法進(jìn)行包含項(xiàng)Ii的約束頻繁模式挖掘,其挖掘過程如下:利用數(shù)據(jù)庫子集Di,構(gòu)造FP-tree,并創(chuàng)建項(xiàng)頭表HT。構(gòu)造FP-tree時(shí),該數(shù)據(jù)庫子集中各事務(wù)的項(xiàng)按照頻繁1-項(xiàng)集L中的次序處理。用項(xiàng)頭表HT中的項(xiàng)Ii的加權(quán)支持度及其節(jié)點(diǎn)鏈信息,構(gòu)造該項(xiàng)的條件模式基,然后構(gòu)造其條件FP-tree,就能在該條件FP-tree上挖掘出包含該項(xiàng)的頻繁模式,完成在數(shù)據(jù)庫子集Di上的約束頻繁模式Xi挖掘。
(5) 當(dāng)L中所有的項(xiàng)的約束頻繁模式Xi被依次挖掘出來后,合并這些約束頻繁模式,即取這些約束頻繁模式Xi的并集,便可得到數(shù)據(jù)庫D的所有頻繁模式,結(jié)束挖掘過程。
為了驗(yàn)證文中所提方法的有效性,從福建省網(wǎng)采集了從2013年1月1日到2013年6月30日的告警數(shù)據(jù),經(jīng)過去噪處理后得到噪聲數(shù)據(jù)中的告警頻報(bào)信號。
(1) 對頻報(bào)信號影響因素進(jìn)行整理、形成和編號,形成告警頻報(bào)信號記錄表,存放在告警頻報(bào)信號數(shù)據(jù)庫中。
頻報(bào)信號影響因素的整理:告警歷史事項(xiàng)表中的告警事件可用,調(diào)度運(yùn)行管理系統(tǒng)(outage management system ,OMS)中檢修記錄和設(shè)備投運(yùn)時(shí)間可用。
頻報(bào)信號影響因素的形成:從告警事件中提取出設(shè)備類型和告警報(bào)發(fā)時(shí)間所在的月份,統(tǒng)計(jì)和計(jì)算得到大修次數(shù)和運(yùn)行年限。
頻報(bào)信號影響因素的編號:對頻報(bào)信號影響因素按不同變電站編號,相同變電站的頻報(bào)信號具有相同編號,對具有相同編號的記錄進(jìn)行頻繁項(xiàng)集挖掘。
例如:某條告警頻報(bào)信號為500 kV某條線路某開關(guān),線路投運(yùn)年限為9 a,大修次數(shù)為1次,頻報(bào)時(shí)間發(fā)生在2月。對于這樣一條告警頻報(bào)信號,預(yù)處理后形成告警頻報(bào)信號記錄表如表3所示。
表3 告警頻報(bào)信號記錄表Tab.3 Alarm frequency reported signal transaction table
(2) 采用層次分析法(AHP)計(jì)算各影響因素(設(shè)備類型X1、運(yùn)行年限X2、大修次數(shù)X3和告警頻報(bào)月份X4)的權(quán)重。
邀請專家按AHP要求給出各影響因素間兩兩比較的相對重要性,數(shù)據(jù)如表4所示(E1~E4分別表示4位專家,X1~X4為影響因素代表符號)。
表4 專家對各影響因素的權(quán)重分配表Tab.4 Weights of every index assigned by experts
即形成的評判矩陣:
根據(jù)評判矩陣W,計(jì)算出權(quán)重并歸一化,得到:
w={0.182 0,0.314 1,0.357 4,0.146 5}
利用式(1)、式(2)計(jì)算出CR=0.047 1<0.1,即認(rèn)為評判矩陣具有滿意的一致性,說明權(quán)重分配是合理的。
(3) 采用加權(quán)改進(jìn)FP-growth算法對告警頻報(bào)信號數(shù)據(jù)庫進(jìn)行頻繁模式挖掘。
例如,由表3形成的項(xiàng)目如表5所示。
表5 項(xiàng)目名稱及其權(quán)重Tab.5 Project name and their weights
假設(shè)WS,min=0.5,掃描告警頻報(bào)信號事務(wù)表,得到表5中“二月”小于WS,min,刪除項(xiàng)目“二月”,由此得到表3中事務(wù)為{500 kV線路斷路器,投運(yùn)年限為短,大修次數(shù)為低}。由定義1和表5中各權(quán)重計(jì)算得到該事項(xiàng)的WS(X)=0.32<0.5,因此該事務(wù)不是頻報(bào)信號影響因素的頻繁模式。
利用加權(quán)改進(jìn)FP-growth算法對告警頻報(bào)信號數(shù)據(jù)庫進(jìn)行分析,設(shè)定WS,min為0.2時(shí)生成頻報(bào)信號影響因素的部分頻繁模式如表6所示。
表6 告警頻報(bào)信號影響因素的頻繁模式(部分)Tab.6 Frequency item sets of alarm frequency reported signal influence factors (part)
通過頻繁模式挖掘分析可以得到需要的規(guī)則知識,如{220 kV線路斷路器,長}說明某變電站投運(yùn)年限超過20 a的220 kV線路斷路器容易產(chǎn)生頻報(bào)信號;{500 kV母線PT,中,中}說明某變電站投運(yùn)年限在10~20 a年之間以及大修次數(shù)在2~5次之間的500 kV母線上的電壓互感器容易產(chǎn)生頻報(bào)信號。這些規(guī)則可以指導(dǎo)運(yùn)行人員根據(jù)設(shè)備運(yùn)行檢修記錄,找到可能會產(chǎn)生頻報(bào)信號的設(shè)備并加以密切關(guān)注,檢查該設(shè)備運(yùn)行狀況是否會進(jìn)一步惡化,出現(xiàn)故障,對運(yùn)行人員的決策起參考作用。
加權(quán)頻繁模式與頻繁模式相仿,只是更進(jìn)一步地考慮到各數(shù)據(jù)項(xiàng)的不同重要程度,對各數(shù)據(jù)項(xiàng)進(jìn)行賦權(quán)。文中從數(shù)據(jù)智能處理的角度出發(fā),將加權(quán)頻繁模式引入告警頻發(fā)信號分析中,提出加權(quán)模型與改進(jìn)FP-growth算法相結(jié)合的加權(quán)改進(jìn)FP-growth算法。該算法在計(jì)及各影響因素權(quán)重和繼承FP-growth算法不需要產(chǎn)生侯選項(xiàng)集的優(yōu)點(diǎn)的基礎(chǔ)上,將整個(gè)數(shù)據(jù)庫分解為子數(shù)據(jù)庫進(jìn)行頻繁模式挖掘,可以大大降低對告警頻報(bào)信號數(shù)據(jù)庫的搜索開銷,在時(shí)間和空間上都有很好的效率。
利用該算法產(chǎn)生的頻報(bào)信號影響因素頻繁模式可以發(fā)現(xiàn)與頻報(bào)信號具有強(qiáng)關(guān)聯(lián)的影響因素,從而更加清楚地認(rèn)識頻報(bào)信號的產(chǎn)生。工程實(shí)現(xiàn)中,頻報(bào)信號影響因素頻繁模式可以指導(dǎo)運(yùn)行人員發(fā)現(xiàn)可能產(chǎn)生頻報(bào)信號的設(shè)備并加以密切關(guān)注,可以和設(shè)備檢修形結(jié)合,為設(shè)備檢修提供規(guī)則知識。
參考文獻(xiàn):
[1] 李云鵬. 智能告警專家處理系統(tǒng)在南通電網(wǎng)的應(yīng)用[J]. 江蘇電機(jī)工程,2008,27(5):48-50.
LI Yunpeng. Application of intelligent warning expert system to nantong power system [J]. Jiangsu Electrical Engineering,2008,27(5):48-50.
[2] 歐陽永堅(jiān), 郭建, 魯國剛. 變電站自動化系統(tǒng)遙信去抖方法分析[J]. 電網(wǎng)技術(shù), 2006, 30: 47-50.
OUYANG Yongjian, GUO Jian, LU Guogang. Analysis of subtractive dithering method for signals measurement in substation automation system [J]. Power System Technology, 2006, 30: 47-50.
[3] 陳剛, 蔡澤祥. 變電站遠(yuǎn)動信息采集的分析和改進(jìn)[J]. 繼電器, 2003, 31(4): 73-75.
CHEN Gang, CAI Zexiang. Analysis and improvement of remote information collection in substations [J]. RELAY, 2006, 30: 47-50.
[4] 厙向陽, 張玲. 基于Hadoop的FP-Growth關(guān)聯(lián)規(guī)則并行改進(jìn)算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2017, 35.
SHE Xiangyang, ZHANG Ling. Parallel improved algorithm of FP-Growth association rules based on Hadoop [J]. Application Research of Computers,2017, 35.
[5] DL/T 573-2010,電力變壓器檢修導(dǎo)則[S].
DL/T 573-2010, Maintenance Guide for Power Transformers [S].
[6] 王毅, 丁力, 侯興哲, 等. 基于層次分析法的加權(quán)力線竊電檢測方法[J]. 科學(xué)技術(shù)與工程, 2017, 17(33):96-103.
WANG Yi, DING Li, HOU Xingzhe, et al. Weighted LOF stealing detection method based on analytic hierarchy process [J]. Science Technology and Engineering, 2017, 17(33):96-103.
[7] 耿汝年. 加權(quán)頻繁模式挖掘算法研究[D]. 無錫:江南大學(xué). 2008.
KEN Runian. Research of weighted frequent pattern algorithm [D]. Wuxi: Jiangnan University. 2008.
[8] 萬軍. 加權(quán)關(guān)聯(lián)規(guī)則挖掘算法的研究與改進(jìn)[D]. 南寧:廣西大學(xué), 2013.
WAN Jun. Research and improvement of weighted association rule mining algorithm[D]. Nanning: Guangxi University, 2013.
[9] 陳文. 基于FP樹的加權(quán)頻繁模式挖掘算法[J]. 計(jì)算機(jī)工程, 2012, 38(6): 63-65.
CHEN Wen. Mining algorithm for weighted frequent pattern based on FP-tree [J]. Computer Engineering [J], 2012, 38(6): 63-65.
[10] 劉聞超, 施化吉, 馬素琴. 加權(quán)模糊關(guān)聯(lián)挖掘算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2010, 31(16): 3654-3657.
LIU Wenchao, SHI Huaji, MA Suqin. Algorithm of weight fuzzy association rules[J]. Computer Engineering and Design, 2010, 31(16): 3654-3657.
[11] 王艷, 薛海燕, 李玲玲, 等. 一種改進(jìn)的加權(quán)頻繁項(xiàng)集挖掘算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010,46(23): 135-137.
WANG Yan, XUE Haiyan, LI Lingling, et al. Improved algorithm for mining weighted frequent patterns [J]. Computer Engineering and Application, 2010,46(23): 135-137.
[12] 吳俊, 李珉, 惠峻. 基于關(guān)聯(lián)度分析的電網(wǎng)可靠性指標(biāo)評價(jià)[J]. 江蘇電機(jī)工程, 2015, 34(6): 82-84.
WU Jun, LI Min, HUI Jun. Network reliability evaluation based on association analysis [J]. Jiangsu Electrical Engineering,2015, 34(6): 82-84.
[13] 成樂祥, 季麗. 基于加權(quán)K-means 聚類和遺傳算法的變電站規(guī)劃[J]. 2016, 35(6): 9-12.
CHENG Lexiang, JI Li. Substation planning based on weighted K-means cluster algorithm and genetic algorithm [J]. JiangsuElectrical Engineering, 2016, 35(6): 9-12.
[14] 李彥偉, 戴月明, 王金鑫. 一種挖掘加權(quán)頻繁項(xiàng)集的改進(jìn)算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2011,47(15): 165-167.
LI Yanwei, DAI Yueming, WANG Jinxin. Improved algorithm for mining weighted frequent itemsets [J]. Computer Engineering and Application, 2011,47(15): 165-167.
[15] 許延祥, 曹軍威, 許杏桃, 等. 基于FP-growth算法的電壓事件干擾源定位方法[J]. 華東電力, 2014, 42(7): 1299-1304.
XU Yanxiang, CAO Junwei, XU Xingtao, et al. A method of locating voltage disturbance sources based on FP-growth algorithm [J]. East China Electric Power, 2014, 42(7): 1299-1304.
[16] 王新宇, 杜孝平, 謝昆青. FP-growth算法的實(shí)現(xiàn)方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2004, 40(9): 174-176.
WANG Xinyu, DU Xiaoping, XIE Kunqing. Research on implementation of the FP-growth algorithm [J]. Computer Engineering and Application, 2004, 40(9): 174-176.