廖孟柯,樊 冰,李忠政,付 林,舒 楠*
(1.國網(wǎng)新疆電力有限公司經(jīng)濟(jì)技術(shù)研究院,烏魯木齊 830002; 2.華北電力大學(xué)電氣與電子工程學(xué)院,北京 102206)
配電網(wǎng)設(shè)備作為電網(wǎng)的重要組成設(shè)備,是影響電網(wǎng)運行安全性和穩(wěn)定性的重要因素[1]。隨著配電網(wǎng)設(shè)備資產(chǎn)規(guī)模不斷擴(kuò)大,合理提高設(shè)備利用率降低設(shè)備成本顯得愈發(fā)重要[2]。通過對配電網(wǎng)設(shè)備退役信息研究,挖掘出影響因素不僅對設(shè)備的設(shè)計制造具有實際意義[3],并且能夠完善配電網(wǎng)退役策略,有效地指導(dǎo)配電網(wǎng)設(shè)備的運維管理,提高配電網(wǎng)資產(chǎn)使用效率,優(yōu)化配電網(wǎng)設(shè)備配置及更新方案[4-5]。一些學(xué)者在不同的方面考慮到了可能會造成配電網(wǎng)設(shè)備提前退役的因素。文獻(xiàn)[6]研究了配電網(wǎng)設(shè)備運行環(huán)境的溫度會加快設(shè)備老化的速度。文獻(xiàn)[7]表明氣壓會影響設(shè)備散熱以及絕緣的性能。文獻(xiàn)[8]研究發(fā)現(xiàn)極端環(huán)境因素會增加設(shè)備故障的概率。但由于配電網(wǎng)設(shè)備種類繁多,工作場景各異,可能涉及的影響因素錯綜復(fù)雜。但目前尚無利用數(shù)據(jù)挖掘手段針對不同種設(shè)備退役因素的系統(tǒng)研究,無法有效地指導(dǎo)退役決策,使得配電網(wǎng)設(shè)備投資效率普遍較低。
利用數(shù)據(jù)挖掘手段可以在龐大的配電網(wǎng)設(shè)備退役信息中得到對設(shè)備退役影響關(guān)系緊密的各個因素。其中,Apriori算法是最經(jīng)典的數(shù)據(jù)挖掘算法。但是傳統(tǒng)的Apriori算法在計算過程中存在大量冗余過程。隨著數(shù)據(jù)量的增加,算法的時間復(fù)雜度會大大增加[9-10]。針對這一問題,對Apriori算法進(jìn)行改進(jìn),應(yīng)用在配電網(wǎng)設(shè)備提前退役信息的挖掘中,更高效地探究外部因素對設(shè)備退役的影響情況。
較為成熟的配電網(wǎng)設(shè)備全壽命周期管理與研究的發(fā)展已積累了眾多壽命數(shù)據(jù)。如表1所示,根據(jù)配電網(wǎng)設(shè)備全壽命數(shù)據(jù)可以分為基礎(chǔ)數(shù)據(jù)、檢試數(shù)據(jù)、實時數(shù)據(jù)、環(huán)境數(shù)據(jù)、經(jīng)濟(jì)數(shù)據(jù)和其他數(shù)據(jù)等6類[11-12]。
表1 配電網(wǎng)設(shè)備全壽命周期數(shù)據(jù)分類
主要研究環(huán)境因素對配電網(wǎng)設(shè)備的影響,較為關(guān)切其中的環(huán)境數(shù)據(jù)。因此在進(jìn)行統(tǒng)計配電網(wǎng)設(shè)備的退役信息時,對目標(biāo)設(shè)備搜集的信息應(yīng)包括設(shè)備類型、設(shè)備壽命、設(shè)備地域等基礎(chǔ)數(shù)據(jù)之外,還需要收集設(shè)備相關(guān)的環(huán)境數(shù)據(jù)。
根據(jù)配電網(wǎng)設(shè)備的相關(guān)指標(biāo),收集目標(biāo)設(shè)備相關(guān)信息,并且對收集的數(shù)據(jù)進(jìn)行預(yù)處理。配電網(wǎng)設(shè)備的壽命數(shù)據(jù)分布連續(xù)且區(qū)間較長,在應(yīng)用前需先對設(shè)備壽命的分布曲線進(jìn)行分析,取分布曲線中段分布較為集中且數(shù)據(jù)量足夠的部分,平均分為3段進(jìn)行離散化。根據(jù)設(shè)備的設(shè)計壽命將其劃分為正常退役、稍早退役和較早退役。
對環(huán)境數(shù)據(jù)需要進(jìn)行二值化處理。依據(jù)氣象預(yù)警標(biāo)準(zhǔn)以及配電網(wǎng)設(shè)備的物理特性劃定因素是否會影響設(shè)備狀態(tài)的標(biāo)準(zhǔn)[13-15]。如果氣溫大于 35 ℃ 視為高溫情況,氣溫低于0 ℃視為低溫情況。如果相對濕度大于90%視為過濕情況。如果海拔高于2 500 m視為高海拔。如果有沙塵暴天氣算受沙塵影響情況。如果所受風(fēng)力大于八級算強(qiáng)風(fēng)情況。符合條件的屬性按所在列順序進(jìn)行標(biāo)號,不符合的則不記。部分?jǐn)?shù)據(jù)記錄如表2所示。
表2 部分配電網(wǎng)設(shè)備退役信息
2.1.1 相關(guān)定義
挖掘關(guān)聯(lián)規(guī)則所用到的每一條事務(wù)t存儲在數(shù)據(jù)倉庫D中,記為
D={t1,t2,…,tM}
(1)
式(1)中:每一條事務(wù)t由各項屬性i構(gòu)成,可表示為
t={i1,i2,…,iN}
(2)
定義屬性X和Y之間的關(guān)聯(lián)規(guī)則為X?Y。該關(guān)聯(lián)規(guī)則的支持度Support等于事務(wù)同時擁有屬性X和屬性Y的數(shù)量與總事務(wù)數(shù)的比值,可表示
(3)
式(3)中:M為事務(wù)的總數(shù);Count(X∪Y)為屬性X和屬性Y同時出現(xiàn)的事務(wù)的次數(shù)。
該關(guān)聯(lián)規(guī)則的置信度Confidence等于規(guī)則的支持度與屬性X本身的支持度之比,可表示
(4)
式(4)中:Support(X)為屬性X出現(xiàn)的次數(shù)。
數(shù)據(jù)挖掘通過設(shè)置最小支持度和最小置信度來控制所得關(guān)聯(lián)規(guī)則需要滿足的最低要求。
2.1.2 算法過程
傳統(tǒng)的Apriori算法在數(shù)據(jù)量較大且分析類別較多的情況下會產(chǎn)生大量的候選項集,尤其是生成二項集和三項集時。并且在進(jìn)行每次生成更高一級的頻繁項集時,都需要重新掃描數(shù)據(jù)庫,會產(chǎn)生大量計算冗余,效率較低。在Apriori算法的基礎(chǔ)上,針對傳統(tǒng)算法的這些缺點,進(jìn)行了改進(jìn)。改進(jìn)后的算法思路如下。
(1)首先掃描數(shù)據(jù)庫,將數(shù)據(jù)庫根據(jù)所有其事務(wù)所含有的屬性,抽象成二維矩陣,用于存儲該數(shù)據(jù)庫中所有的信息。
(2)遍歷二維矩陣中每個事務(wù)的每個屬性。通過每次讀取同一事務(wù)中的兩個不同屬性且不重復(fù)讀取,建立三維上三角屬性矩陣Matrix(i,j,k),并根據(jù)對應(yīng)的屬性來建立坐標(biāo)。三個維度上的坐標(biāo)區(qū)間均為[1,N](N為最大屬性種類)。掃描過程中,坐標(biāo)每重復(fù)一次,對應(yīng)的權(quán)重加一,矩陣可表示為
Matrix(i,j,k)=Matrix(i,j,k)+1
(5)
(3)其次通過讀取三維屬性矩陣,直接獲取頻繁一項集、頻繁二項集和頻繁三項集。三維矩陣第一卦限的空間對角線上即頻繁一項集的支持度,對應(yīng)平面上的坐標(biāo)(i,j,j)為頻繁二項集的支持度,坐標(biāo)(i,j,k)為對應(yīng)三項集的支持度。
(4)因為在屬性數(shù)量小于k的事務(wù)中,必然不存在含有k項集的可能。因此在得到頻繁三項集后,掃描數(shù)據(jù)庫。刪去包含的屬性不大于四項的事務(wù),簡約數(shù)據(jù)庫。
(5)通過已經(jīng)得到的頻繁三項集,再利用標(biāo)準(zhǔn)的Apriori算法進(jìn)行后續(xù)計算。
具體的算法流程如圖1所示。
圖1 三維矩陣算法流程
假設(shè)數(shù)據(jù)庫中事務(wù)數(shù)量為M,事務(wù)平均屬性數(shù)量為n,屬性數(shù)量小于4的事務(wù)比例為b。表示頻繁k項集的項集數(shù)量,表示候選k項集的項集數(shù)量。
參考文獻(xiàn)[16]對傳統(tǒng)Apriori算法的時間復(fù)雜度的分析,對比兩種算法的時間復(fù)雜度,時間復(fù)雜度用O表示。Apriori算法在形成頻繁一項集L1后,通過連枝得到候選二項集的時間復(fù)雜度表示為
(6)
隨后通過掃描數(shù)據(jù)庫,計算支持度得到頻繁二項集L2的時間復(fù)雜度表示為
(7)
(8)
可見式(8)表示的復(fù)雜度與式(6)相同,則計算頻繁二項集L2的過程中,基于三維矩陣的數(shù)據(jù)挖掘算法可以節(jié)省的時間為式(6)+式(7)-式(8)=式(7)??梢钥闯鲇嬎泐l繁二項集的過程節(jié)省的時間與M、n和L1有關(guān),在較大的數(shù)據(jù)樣本中能夠有效地節(jié)省計算時間。
根據(jù)頻繁二項集L2,通過連枝、剪枝得到候選三項集的時間復(fù)雜度,可表示為
O[L2(L2-1)]
(9)
隨后通過掃描數(shù)據(jù)庫,計算支持度得到頻繁三項集C3的時間復(fù)雜度,可表示為
O(C3Mn)
(10)
而利用三維矩陣的形式得到頻繁三項集,只需要按照候選三項集中的各候選項集(i,j,k)逐一讀取矩陣中對應(yīng)坐標(biāo)的支持度,即可得到頻繁三項集。其時間復(fù)雜度可表示為
O(C3)
(11)
則計算頻繁三項集的過程,基于三維矩陣的數(shù)據(jù)挖掘算法可以節(jié)省的時間為式(9)+式(10)-式(11),可表示為
O{L2(L2-1)+C3[(MN)-1]}
(12)
顯然式(12)遠(yuǎn)大于0,且節(jié)省的時間與M、n、L2和C3有關(guān)。在進(jìn)行較大數(shù)據(jù)集的關(guān)聯(lián)規(guī)則挖掘時能夠節(jié)省大量的計算時間。在進(jìn)行后續(xù)計算前,會刪去屬性數(shù)量小于4的事務(wù)。因此在每次掃描數(shù)據(jù)庫的時候,能夠減少的最大時間復(fù)雜度為
O(bM3)
(13)
能夠減少的最小時間復(fù)雜度為
O(bM)
(14)
對比分析可知,改進(jìn)后的算法較傳統(tǒng)的Apriori算法降低了時間復(fù)雜度,提高了計算的效率。
期望挖掘配電網(wǎng)設(shè)備與外部自然環(huán)境因素之間的關(guān)聯(lián)性,需要在溫度、濕度、氣壓、風(fēng)力、沙暴等環(huán)境因素具有鮮明特色的地域進(jìn)行分析。因此選取具有地域特色的3個典型城市的配電網(wǎng)設(shè)備數(shù)據(jù)(表3),按照1.2節(jié)提出的預(yù)處理方法進(jìn)行處理。
表3 配電網(wǎng)設(shè)備地域信息
為了準(zhǔn)確挖掘出外部因素對配電網(wǎng)設(shè)備的影響,分析時使用相同的設(shè)備類型,以三地提供的變壓器設(shè)備退役數(shù)據(jù)為例進(jìn)行關(guān)聯(lián)規(guī)則挖掘。各地域均選取400條變壓器退役信息進(jìn)行數(shù)據(jù)挖掘。設(shè)最小支持度Smin=0.1和最小置信度Cmin=0.5。從計算出的關(guān)聯(lián)規(guī)則中篩選出具有分析價值的部分關(guān)聯(lián)規(guī)則進(jìn)行分析。
喀什地區(qū)部分關(guān)聯(lián)規(guī)則如表4所示,可以看出:喀什地區(qū)較常發(fā)生強(qiáng)風(fēng)和沙塵暴天氣,兩者共同對當(dāng)?shù)氐淖儔浩魍艘郛a(chǎn)生影響。其中強(qiáng)風(fēng)天氣發(fā)生的概率更高,對設(shè)備的影響也較大,是當(dāng)?shù)刈儔浩魈崆巴艘鄣闹饕蛩?。沙塵暴發(fā)生概率較低,屬于次要因素。
表4 喀什地區(qū)部分關(guān)聯(lián)規(guī)則
拉薩地區(qū)部分關(guān)聯(lián)規(guī)則如表5所示,可以得到結(jié)論:拉薩地區(qū)對變壓器提前退役產(chǎn)生影響的主要是低溫和高海拔因素,強(qiáng)風(fēng)是次要因素。低溫和高海拔的關(guān)系較為緊密,同時高海拔也帶來了低氣壓的因素,共同影響變壓器設(shè)備提前退役。
表5 拉薩地區(qū)部分關(guān)聯(lián)規(guī)則
廣州地區(qū)部分關(guān)聯(lián)規(guī)則如表6所示,可以得到結(jié)論:廣州地區(qū)對變壓器提前退役的主要因素有高溫、過濕和強(qiáng)風(fēng)。其中高溫與過濕因素聯(lián)系較為緊密,可以猜測雨熱同期可能會加速設(shè)備腐蝕。高溫與強(qiáng)風(fēng)因素聯(lián)系緊密,且強(qiáng)風(fēng)更易導(dǎo)致設(shè)備較早退役,可以猜測強(qiáng)風(fēng)天氣對設(shè)備影響更大。
表6 廣州地區(qū)部分關(guān)聯(lián)規(guī)則
使用基于三維矩陣的數(shù)據(jù)挖掘算法對配電網(wǎng)設(shè)備退役數(shù)據(jù)進(jìn)行計算,并在相同的最小支持度和最小置信度條件下與傳統(tǒng)的Apriori算法以及文獻(xiàn)[17]中提出的壓縮矩陣算法進(jìn)行比對。3種算法的運行時間對比如圖2所示。
圖2 算法運行時間對比
通過比較發(fā)現(xiàn),利用三維矩陣算法在運行時間上有明顯的優(yōu)勢。另外地,通過比較傳統(tǒng)Apriori算法與三維矩陣算法運行時間來得出優(yōu)化效率。優(yōu)化效率η的計算公式為
(15)
式(15)中:t1為傳統(tǒng)的Apriori算法運行時間;t2為改進(jìn)算法運行時間。
比較結(jié)果如表7所示,可以看出,相較于傳統(tǒng)算法,基于三維矩陣的數(shù)據(jù)挖掘算法在關(guān)聯(lián)規(guī)則挖掘的效率上有明顯的優(yōu)化,各地區(qū)數(shù)據(jù)的優(yōu)化效率平均能達(dá)到24.95%。
表7 配電網(wǎng)設(shè)備退役信息效率分析
對傳統(tǒng)的Apriori算法進(jìn)行改進(jìn),并針對3個地區(qū)的變壓器設(shè)備進(jìn)行數(shù)據(jù)挖掘,對挖掘結(jié)果以及計算效率進(jìn)行分析,得出如下結(jié)論。
(1)提出的一種利用三維矩陣的數(shù)據(jù)挖掘算法,改善了傳統(tǒng)Apriori算法計算時間復(fù)雜度過大的不足,并驗證了計算效率的提高。
(2)通過算例進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,使用本文算法得到了外部自然因素與配電網(wǎng)設(shè)備壽命之間的關(guān)聯(lián)性。證明該算法能夠應(yīng)用于配電網(wǎng)設(shè)備退役信息的挖掘。