楊貴宇
摘要:利用數(shù)據(jù)挖掘技術(shù)對(duì)電力系統(tǒng)中的大量測(cè)控?cái)?shù)據(jù)挖掘已成為一種有效的故障診斷方法,首先介紹基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘原理,然后分析了關(guān)聯(lián)規(guī)則在變壓器故障診斷中的應(yīng)用方法,實(shí)例表明,使用關(guān)聯(lián)規(guī)則對(duì)電力設(shè)備進(jìn)行故障診斷更高的正確率。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;電力設(shè)備;故障診斷
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)30-7167-02
近年來(lái)數(shù)據(jù)挖掘技術(shù)(粗糙集理論,模式聚類, 決策樹(shù),關(guān)聯(lián)規(guī)則等)得到了快速的發(fā)展,在金融、醫(yī)療、生物、電力、化工等領(lǐng)域得到了廣泛應(yīng)用。電力設(shè)備在運(yùn)行管理中產(chǎn)生大量的測(cè)控?cái)?shù)據(jù),如:遙測(cè)數(shù)據(jù)、繼保數(shù)據(jù)、遙信數(shù)據(jù)和二次計(jì)算結(jié)果等,這些數(shù)據(jù)隱含著設(shè)備的運(yùn)行狀態(tài),如在實(shí)際電力設(shè)備發(fā)生故障之前的一段時(shí)間內(nèi),遙測(cè)數(shù)據(jù)可能會(huì)發(fā)生某種變化,如溫度、壓力等參數(shù)的異常增減,如果能利用數(shù)據(jù)挖掘技術(shù)對(duì)歷史測(cè)控?cái)?shù)據(jù)進(jìn)行分析和總結(jié),找出其內(nèi)在的規(guī)律,再用這些內(nèi)在規(guī)律判斷當(dāng)前設(shè)備運(yùn)行的狀況,如能及時(shí)發(fā)現(xiàn)故障征兆并采取有效措施,就可以避免電力系統(tǒng)出現(xiàn)重大的故障,基于關(guān)聯(lián)規(guī)則的故障診斷技術(shù)能夠從歷史數(shù)據(jù)中自動(dòng)或半自動(dòng)地獲取潛在的診斷知識(shí),從而有效解決故障診斷中知識(shí)獲取困難的問(wèn)題,非常適合用來(lái)分析變壓器狀態(tài)。
1 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘
在電力設(shè)備故障診斷領(lǐng)域,采用關(guān)聯(lián)規(guī)則在大型關(guān)系數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)挖掘分析找出設(shè)備的狀態(tài)是電力狀態(tài)檢修的一個(gè)新方向,通過(guò)分析故障特征量與故障模式之間的可信度,便能確定故障特征量與該故障模式的相關(guān)程度, 通過(guò)大量的數(shù)據(jù)挖掘,可以挖掘出設(shè)備特征量指標(biāo)與故障模式之間可能存在一些隱含關(guān)聯(lián)關(guān)系,并以此作為電力設(shè)備狀態(tài)檢修決策的依據(jù)。
1.2 關(guān)聯(lián)規(guī)則原理分析
關(guān)聯(lián)規(guī)則挖掘(Association Rule Mining)是根據(jù)用戶給定的最小支持度minsup和最小置信度minconf從事務(wù)數(shù)據(jù)庫(kù)D中找出所有的關(guān)聯(lián)規(guī)則。
1)關(guān)聯(lián)規(guī)則:若滿足X中條件的數(shù)據(jù)庫(kù)元組能推導(dǎo)出Y,則稱X與Y關(guān)聯(lián),記為X=>Y,其中 Y∈I,X∈I,并且 X ∩ Y = Φ,[I=i1,i2,...ik,...,in];
2)支持度:[supportX?Y=countX?YD×100%]其中,[D=t1,t2,...tk,...,tn]為事務(wù)數(shù)據(jù)集,[countX?Y]表示事務(wù)中[X?Y] 的事務(wù)數(shù);
3)置信度:[confidence(X→Y)=count(X?Y)count(Y)×100%],其中, count(Y)是包含項(xiàng)集Y的事務(wù)數(shù)目,count(X=>Y)是包含項(xiàng)集X=>Y的事務(wù)數(shù)目;
4)強(qiáng)關(guān)聯(lián)規(guī)則:[X?Ysupport(X?Y)%,confidence(X?Y)%]。
1.2 關(guān)聯(lián)規(guī)則挖掘的過(guò)程
關(guān)聯(lián)規(guī)則對(duì)數(shù)據(jù)事務(wù)進(jìn)行挖掘中,首先,掃描事務(wù)數(shù)據(jù)庫(kù)T,并對(duì)任何個(gè)項(xiàng)i進(jìn)行計(jì)數(shù)接著對(duì)數(shù)據(jù)進(jìn)行歸一化處理和離散化處理,然后組成適合關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)庫(kù),再根據(jù)最小支持度閾值尋找頻繁項(xiàng)集,并將其組成新的頻繁項(xiàng)集,然后再根據(jù)最小可信度閾值篩選出關(guān)聯(lián)規(guī)則,對(duì)可以合并的關(guān)聯(lián)規(guī)則進(jìn)行合并,確定感興趣的強(qiáng)關(guān)聯(lián)規(guī)則,并作為有用規(guī)則輸出,最后用關(guān)聯(lián)規(guī)則對(duì)電力設(shè)備進(jìn)行故障診斷;常用的算法有 Apriori 算法、FP 樹(shù)頻繁項(xiàng)集算法等,文中選用了最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的Apriori 算法,并對(duì)其進(jìn)行了改進(jìn),采用基于散列的技術(shù)壓縮候選 k項(xiàng)集 Ck(k>1),利用事務(wù)壓縮對(duì)一些候選項(xiàng)進(jìn)行標(biāo)記或刪除,并對(duì)尋找候選項(xiàng)集進(jìn)行數(shù)據(jù)劃分,減少掃描數(shù)據(jù)庫(kù)的次數(shù),此外,在任何點(diǎn)前添加動(dòng)態(tài)項(xiàng)集計(jì)數(shù),提高了Apriori 算法的搜索速度。
2 基于關(guān)聯(lián)規(guī)則的電力設(shè)備故障診斷方法
1)簡(jiǎn)化事務(wù)數(shù)據(jù)庫(kù)
事務(wù)數(shù)據(jù)集是使用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘必須直接面對(duì)的對(duì)象,在關(guān)聯(lián)規(guī)則挖掘過(guò)程中,需要收集大量的數(shù)據(jù),數(shù)據(jù)越充分,得出的有用結(jié)論的置信度就越高,但由于變壓器測(cè)控的數(shù)據(jù)存在很多重復(fù)的數(shù)據(jù),必須對(duì)這些重復(fù)的數(shù)據(jù)進(jìn)行歸一化量化,將其值歸一化到[0,1]區(qū)間上。
2)分箱
由于經(jīng)過(guò)歸一化后得到的數(shù)據(jù)是連續(xù)的數(shù)據(jù),為了方便挖掘,我們對(duì)連續(xù)的數(shù)據(jù)進(jìn)行分箱,劃分為區(qū)間。這些區(qū)間是動(dòng)態(tài)的,在挖掘期間我們可以對(duì)它們進(jìn)行進(jìn)一步合并,三種常用的分箱策略有等寬分箱、等頻分箱和基于聚類的分箱,本文使用等寬分箱,每箱的區(qū)間長(zhǎng)度相同,每個(gè)屬性的量化屬性的分箱大小由操作者確定,由于屬性區(qū)間被歸一到[0,1]區(qū)間,默認(rèn)分箱分為 10 個(gè)區(qū)間,每個(gè)區(qū)間大小為 0.1,變壓器經(jīng)過(guò)量化后得到動(dòng)態(tài)離散值,再對(duì)這些數(shù)據(jù)進(jìn)行等寬分箱操作,劃分區(qū)間。再根據(jù)比值編碼,選擇屬性子集,剔除對(duì)挖掘任務(wù)無(wú)關(guān)的冗余屬性。
3)找頻繁謂詞
掃描上一步產(chǎn)生的數(shù)據(jù),找出滿足條件的頻繁謂詞集。因?yàn)樽儔浩魃V數(shù)據(jù)指標(biāo)只有 5 項(xiàng),頻繁項(xiàng)集內(nèi)最大成員只可能為 5 個(gè),不會(huì)產(chǎn)生更多的頻繁相集,因此可以根據(jù) Apriori算法,找出滿足最小置信度的頻繁謂詞集(滿足最小支持度),發(fā)現(xiàn)頻繁項(xiàng)集后產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。
4)關(guān)聯(lián)規(guī)則聚類
為了將強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)一步聚類,首先將其映射到 2-D 柵格上,搜索規(guī)則的矩形簇,使用聚類將關(guān)聯(lián)規(guī)則進(jìn)一步合并,使用該聚類后,進(jìn)一步合并出現(xiàn)在規(guī)則簇中的量化屬性的箱,從而動(dòng)態(tài)離散化屬性;例如對(duì)故障數(shù)據(jù)計(jì)算后,我們將最小支持度和置信度計(jì)算為 0.10 和 0.6,對(duì)其進(jìn)行故障事務(wù)數(shù)據(jù)集的關(guān)聯(lián)規(guī)則挖掘,將挖掘結(jié)果整理,對(duì)收集到的變壓器故障色譜分析統(tǒng)計(jì)表的數(shù)據(jù)進(jìn)行預(yù)處理后,然后根據(jù)以上步驟,則可以得出關(guān)聯(lián)規(guī)則,如:[CH4(0.3-0.34)∧C2H2(0.5-0.54)?鐵芯多點(diǎn)接地],而置信度和支持度分別是0.712和0.242,其表示為當(dāng)CH4和C2H2在數(shù)據(jù)中含量分別是(0.32)和(0、53)時(shí),71.2%的變壓器數(shù)據(jù)表明該變壓器出于鐵芯多點(diǎn)接地故障。
3 應(yīng)用實(shí)例分析
為了測(cè)試關(guān)聯(lián)規(guī)則診斷模型的準(zhǔn)確性,以現(xiàn)場(chǎng)運(yùn)行的100組變壓器檢測(cè)樣本的診斷結(jié)果為例進(jìn)行實(shí)驗(yàn),收集的變壓器故障數(shù)據(jù)的特征量包括H2,CH4,C2H6,C2H2,C2H4五種,變壓器故障按故障部位劃分有七種故障,分別是分接開(kāi)關(guān)故障,鐵芯故障,絕緣介質(zhì)故障,套管故障,繞組故障引線故障和漏油故障;按過(guò)熱和放電故障類型劃分有九種故障,高溫過(guò)熱(>700℃),中溫過(guò)熱(300℃~700℃),低溫過(guò)熱(150℃~300℃),低溫過(guò)熱(<150℃),電能放電,低能放電兼過(guò)熱,局部放電,電弧放電和電弧放電兼過(guò)熱。對(duì)故障特征量采用監(jiān)督離散化算法 ChiMerge 算法,其采用自底向上的策略,首先將數(shù)值屬性的每個(gè)不同值看作一個(gè)區(qū)間,然后對(duì)對(duì)每個(gè)相鄰區(qū)間進(jìn)行 χ2檢驗(yàn),然后通過(guò)遞歸算法,找出最佳臨近區(qū)間,然后合并它們,形成較大的區(qū)間,實(shí)驗(yàn)結(jié)果如表1所示:
從表中可以看出,應(yīng)用本文提出的并聯(lián)規(guī)則數(shù)據(jù)挖掘?qū)?duì)變壓器故障進(jìn)行診斷,取得了較為正確的診斷結(jié)果,表明了該算法可應(yīng)用到電力變壓器故障中。
4 結(jié)束語(yǔ)
將關(guān)聯(lián)規(guī)則應(yīng)用到變壓器故障分析中, 通過(guò)利用歷史故障數(shù)據(jù)來(lái)確定系統(tǒng)的行為模型,從故障數(shù)據(jù)中發(fā)現(xiàn)分類屬性與決策屬性
間的頻繁模式、相關(guān)性或因果關(guān)系,以便從宏觀上把握變壓器故障元素間的關(guān)聯(lián)特性,測(cè)試表明,本文提出的方案在變壓器的故障診斷中有更高的正確率。
參考文獻(xiàn):
[1] 聶倩雯.基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)的電網(wǎng)故障診斷[J].電力系統(tǒng)保護(hù)與控制,2009(9).
[2] 鄭元兵.變壓器故障特征量可信度的關(guān)聯(lián)規(guī)則分析[J].高電壓技術(shù),2012(1).
[3] 熊忠陽(yáng).基于關(guān)聯(lián)規(guī)則的電力變壓器運(yùn)行故障評(píng)估[J].微計(jì)算機(jī)信息,2010(34)
[4] 楊國(guó)慶.數(shù)據(jù)挖掘技術(shù)在電力設(shè)備狀態(tài)檢修中的應(yīng)用[J].上海電力學(xué)院學(xué)報(bào),2012(2).