陳章國,周 波,喬治中,胡 超
(南京南瑞信息通信科技有限公司,江蘇 南京 210003)
城市基礎(chǔ)設(shè)施中的核心部分之一即為電力系統(tǒng),電力生產(chǎn)與工作的過程主要分成發(fā)電、輸電、變電、配電以及用電,其中,配電環(huán)節(jié)直接影響用戶對(duì)配電服務(wù)的滿意度。配電是通過一次設(shè)備所建立的配電網(wǎng),與二次設(shè)備聯(lián)合應(yīng)用后建立為配電系統(tǒng),配電系統(tǒng)根據(jù)固定的規(guī)則運(yùn)行,可以為用戶提供其所需的電力服務(wù)。
為實(shí)現(xiàn)配電網(wǎng)自動(dòng)化管理,需要引入配電網(wǎng)信息智能分析技術(shù),如文獻(xiàn)[5]方法和文獻(xiàn)[6]方法做出的貢獻(xiàn),但是因電力領(lǐng)域數(shù)據(jù)量近幾年出現(xiàn)爆發(fā)式增長,導(dǎo)致配電網(wǎng)信息智能分析效率較低,實(shí)時(shí)性受限。
為此,提出基于機(jī)器學(xué)習(xí)的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫構(gòu)建方法,主要使用此方法建立配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫,并引入故障檢測識(shí)別、故障信息關(guān)聯(lián)規(guī)則更新方法,保證配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的使用效果,使其可滿足配電網(wǎng)監(jiān)控的信息分析需求。
為了保證各類設(shè)備(變壓器、電抗器、電容器、組合電器、斷路器)操作、電網(wǎng)操作規(guī)則及相互間的關(guān)系的完整性,使規(guī)則庫中的信息具有整體性,基于機(jī)器學(xué)習(xí)的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫結(jié)構(gòu)圖如圖1所示。
圖1 基于機(jī)器學(xué)習(xí)的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫結(jié)構(gòu)圖
如圖1所示,配電網(wǎng)監(jiān)控信息智能分析規(guī)則頭與規(guī)則選項(xiàng)2種邏輯部分統(tǒng)稱為規(guī)則,規(guī)則頭可描述規(guī)則行為信息,規(guī)則選項(xiàng)可描述警告信息、故障數(shù)據(jù)包所在方位。
首先,全部規(guī)則根據(jù)規(guī)則頭排序,并設(shè)成主鏈,按照配電網(wǎng)監(jiān)控信息智能分析規(guī)則選項(xiàng),將規(guī)則導(dǎo)進(jìn)鏈表里,生成規(guī)則集,此操作下,各個(gè)監(jiān)控信息數(shù)據(jù)包都存在一個(gè)分析規(guī)則。
其次,基于機(jī)器學(xué)習(xí)的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫運(yùn)行時(shí),使用Libpcap接口在配電網(wǎng)網(wǎng)絡(luò)里提取一個(gè)監(jiān)控信息數(shù)據(jù)包,建立數(shù)據(jù)包解析函數(shù),按照數(shù)據(jù)包種類與所在位置,實(shí)現(xiàn)監(jiān)控信息數(shù)據(jù)包的協(xié)議解析,解析后數(shù)據(jù)存儲(chǔ)于Packet結(jié)構(gòu)里。
最后,在配電網(wǎng)監(jiān)控信息數(shù)據(jù)包解析后,使用基于機(jī)器學(xué)習(xí)的配電網(wǎng)故障數(shù)據(jù)分類方法,識(shí)別Packet結(jié)構(gòu)中配電網(wǎng)監(jiān)控信息中的故障數(shù)據(jù),并按照所識(shí)別的故障數(shù)據(jù)分析規(guī)則(下文稱為頻繁項(xiàng)集),使用基于 MapReduce 的并行關(guān)聯(lián)規(guī)則增量更新算法,更新配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫中的信息智能分析規(guī)則。
之后,可把配電網(wǎng)監(jiān)控信息中的其他數(shù)據(jù)包和配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫里二維鏈表進(jìn)行對(duì)比,若檢測到具有匹配性的規(guī)則條目,便可按照對(duì)應(yīng)的模式實(shí)現(xiàn)警示,停止此數(shù)據(jù)包的處理,以此模式循環(huán),實(shí)現(xiàn)配電網(wǎng)監(jiān)控信息智能分析。
圖2是基于機(jī)器學(xué)習(xí)的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫運(yùn)行流程示意圖。
為了保證相關(guān)運(yùn)行規(guī)程符合操作的規(guī)則,即《中華人民共和國電力法》《電力監(jiān)管條例》和《電網(wǎng)調(diào)度管理?xiàng)l例》等,使用層次聚類方法分析配電網(wǎng)監(jiān)控信息中的故障數(shù)據(jù)的極端隨機(jī)數(shù),保證其符合實(shí)際情況,使用了配電網(wǎng)監(jiān)控信息中故障數(shù)據(jù)的故障出現(xiàn)概率與聚類頻次分布,以此描述故障元素在配電網(wǎng)監(jiān)控信息中出現(xiàn)差異頻次的概率,此概率設(shè)成sup(),那么配電網(wǎng)監(jiān)控信息中故障數(shù)據(jù)故障層次聚類的模糊迭代不等式能夠變換為:
(1)
式中,配電網(wǎng)監(jiān)控信息中故障數(shù)據(jù)的類間聚類分析元素在規(guī)則庫中出現(xiàn)的次數(shù)最大值是num();代表第個(gè)故障數(shù)據(jù)。
使用大數(shù)據(jù)分類全局檢索方法實(shí)現(xiàn)故障數(shù)據(jù)分類的動(dòng)態(tài)規(guī)劃,以此運(yùn)算sup()。則:
(2)
(-|()|)}}
(3)
圖2 基于機(jī)器學(xué)習(xí)的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫運(yùn)行流程示意圖
將配電網(wǎng)監(jiān)控信息的所有數(shù)據(jù)樣本實(shí)施抽樣訓(xùn)練,獲取故障數(shù)據(jù)的關(guān)聯(lián)特征量,通過一個(gè)四元素結(jié)構(gòu)代表故障數(shù)據(jù)的關(guān)聯(lián)特征:
(,,(sup1(),…,sup()),
(1,…,))
(4)
式中,故障數(shù)據(jù)在1時(shí)間段抵達(dá)窗口的第次出現(xiàn)的第個(gè)數(shù)據(jù)元素是;輸出優(yōu)化訓(xùn)練的最佳概率是;數(shù)據(jù)聚類中心擾動(dòng)概率分布值是(sup1(),…,sup());目前窗口元素存在故障數(shù)據(jù)的頻繁項(xiàng)是(1,,)。通過機(jī)器學(xué)習(xí)算法,對(duì)故障數(shù)據(jù)實(shí)施分類,則機(jī)器學(xué)習(xí)迭代方法是:
(5)
綜上所述,基于機(jī)器學(xué)習(xí)的配電網(wǎng)故障數(shù)據(jù)聚類方法的具體步驟是:
輸入:配電網(wǎng)監(jiān)控信息數(shù)據(jù)流、故障數(shù)據(jù)關(guān)聯(lián)樣本閾值、統(tǒng)計(jì)分布概率閾值、采樣窗口長度。輸出:
(1)初始化機(jī)器學(xué)習(xí)參數(shù)與故障數(shù)據(jù)分類系數(shù);
(2)任意選擇一個(gè)配電網(wǎng)監(jiān)控信息數(shù)據(jù)點(diǎn),建立故障數(shù)據(jù)分類的全部聚簇中心點(diǎn);
(3)通過聚簇交叉運(yùn)算它的概率;
(4)通過機(jī)器學(xué)習(xí)算法提取故障數(shù)據(jù)特征;
(5)更新目前窗口中故障數(shù)據(jù)樣本,運(yùn)算故障種類的概率分布值;
(6)運(yùn)算配電網(wǎng)監(jiān)控信息中大于頻次閾值的故障數(shù)據(jù)樣本集,使用累積概率分布方法獲取統(tǒng)計(jì)特征量;
(7)將故障樣本集實(shí)施回歸分析,把故障數(shù)據(jù)導(dǎo)進(jìn)窗口集合中;
(8)檢索過期樣本元素并去除;
(9)將所有配電網(wǎng)監(jiān)控信息樣本實(shí)施抽樣訓(xùn)練,刷新窗口概率分布值;
(10)提取配電網(wǎng)監(jiān)控信息中故障數(shù)據(jù)識(shí)別的頻繁項(xiàng)集,實(shí)現(xiàn)故障數(shù)據(jù)分類。
1.3.1 原始規(guī)則庫中并行頻繁項(xiàng)集挖掘
保證針對(duì)可能發(fā)生的故障,為迅速、有序地開展應(yīng)急行動(dòng)而預(yù)先制定的行動(dòng)方案,本文主要使用MapReduce模型以并行挖掘的模式獲取監(jiān)控信息節(jié)點(diǎn)中數(shù)據(jù)分片的頻繁項(xiàng)集后保存,當(dāng)配電網(wǎng)監(jiān)控信息逐漸更新時(shí),使用MapReduce模型再次更新頻繁項(xiàng)集(信息智能分析規(guī)則)。
MapReduce模型將 MapReduce分解為 Map (映射)任務(wù)和 Reduce (歸約)任務(wù), MapReduce將任務(wù)傳遞到配電系統(tǒng)中各個(gè)監(jiān)控信息節(jié)點(diǎn),各個(gè)監(jiān)控信息節(jié)點(diǎn)的處理過程會(huì)引入2個(gè)函數(shù)map、reduce。MapReduce模型先按照監(jiān)控信息節(jié)點(diǎn)中數(shù)據(jù)分片的數(shù)目,建立多個(gè)Map任務(wù)并行處理,各個(gè)Map任務(wù)把輸入的數(shù)據(jù)分片為多個(gè)鍵值對(duì),map函數(shù)會(huì)將數(shù)據(jù)分片都逐次處理成,將鍵值相同的數(shù)據(jù)分片放在一起設(shè)成中心結(jié)果變成Reduce的輸入;Reduce任務(wù)獲取存在一致性的鍵值,使用reduce函數(shù)對(duì)映射頻繁項(xiàng)集和原項(xiàng)集進(jìn)行歸約處理后輸出。
將配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫里全部項(xiàng)的頻繁項(xiàng)集集合設(shè)成={,,…,},把配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫傳輸至Hadoop分布式文件系統(tǒng)中,配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫或新增故障信息數(shù)據(jù)庫(此數(shù)據(jù)庫中故障信息主要來自2.2小節(jié)所識(shí)別的故障信息)都會(huì)保存在個(gè)節(jié)點(diǎn)中,此時(shí)={,,…,},={,,…,}。、都存在于一個(gè)數(shù)據(jù)分片中。
輸入:原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫。
輸出:原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的頻繁項(xiàng)集。
(1)使用MapReduce模型計(jì)算原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫全部頻繁項(xiàng)的支持計(jì)數(shù),獲取的1-項(xiàng)集;
(2)建立分組,使用把各項(xiàng)與支持度進(jìn)行對(duì)比,獲取1-頻繁項(xiàng)集。然后將里的項(xiàng)分成個(gè)組,各組設(shè)置一個(gè)編碼id,把全部項(xiàng)標(biāo)記成相應(yīng)的分組號(hào);
(3)并行挖掘頻繁項(xiàng)集,此過程需要使用MapReduce模型實(shí)現(xiàn),主要獲取每個(gè)數(shù)據(jù)分組的頻繁項(xiàng)集。
1.3.2 增量更新
輸入:新增故障信息數(shù)據(jù)庫、原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫、原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的1-項(xiàng)集。
輸出:更新后規(guī)則庫的頻繁項(xiàng)集。
(1)使用MapReduce模型中的map函數(shù)計(jì)算各個(gè)監(jiān)控信息頻繁項(xiàng)集在更新后規(guī)則庫中的支持計(jì)數(shù),挖掘頻繁項(xiàng)集。頻繁項(xiàng)集各個(gè)項(xiàng)目在∪里的支持計(jì)數(shù)滿足以下條件:
support()≤()
(6)
其中,為小支持度閾值。
()=map(,)
(7)
由此建立挖掘監(jiān)控信息頻繁項(xiàng)集的map函數(shù)
函數(shù):map(),通過和編碼id尋找頻繁項(xiàng)集。
輸入:分組號(hào),其中記錄著頻繁項(xiàng)目下次出現(xiàn)的組號(hào)。
:用戶設(shè)定的最小支持?jǐn)?shù);填寫了相應(yīng)支持?jǐn)?shù)的向量。
函數(shù):Reduce(),通過和編碼id尋找分析規(guī)則庫的一致性鍵值。
輸入:候選項(xiàng)集。
遍歷原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫在此組的映射事務(wù)集;
計(jì)算一致性鍵值=Reduce();
輸出:更新后規(guī)則庫的頻繁項(xiàng)集。
由此完成基于 MapReduce 的并行關(guān)聯(lián)規(guī)則庫增量更新。
在MATLAB仿真軟件中,編寫本文方法的應(yīng)用程序,對(duì)本文方法的操作性能進(jìn)行仿真測試。
將本文方法使用在虛擬的配電網(wǎng)設(shè)備信息監(jiān)控系統(tǒng)中,測試本文方法的使用效果。虛擬的配電網(wǎng)設(shè)備信息監(jiān)控系統(tǒng)參數(shù)如表1所示。
表1 虛擬的配電網(wǎng)設(shè)備信息監(jiān)控系統(tǒng)參數(shù)
配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的構(gòu)建效果,主要通過配電網(wǎng)監(jiān)控中網(wǎng)絡(luò)故障信息識(shí)別效果凸顯,故障信息識(shí)別效果好,表示構(gòu)建的規(guī)則庫中信息智能分析規(guī)則涵蓋范圍較為全面。故障信息主要以配電網(wǎng)信息監(jiān)控中DOS入侵信息(下文簡稱A-1故障)、R2L入侵信息(下文簡稱A-2故障)、U2R入侵信息(下文簡稱A-3故障)為主,測試本文方法、文獻(xiàn)[5]方法、文獻(xiàn)[6]方法的配電網(wǎng)監(jiān)控中故障信息識(shí)別效果,以準(zhǔn)確度、檢出率、假陽性率三種指標(biāo)體現(xiàn)。
(8)
(9)
(10)
其中,、、、依次表示配電網(wǎng)監(jiān)控中故障信息被準(zhǔn)確識(shí)別的次數(shù)、非故障信息被識(shí)別成非故障信息的次數(shù)、故障信息被誤識(shí)的次數(shù)、非故障信息被誤識(shí)的次數(shù)。
三種方法的配電網(wǎng)監(jiān)控中故障信息識(shí)別效果如表2、表3、表4所示。
表2 A-1 故障識(shí)別效果
表3 A-2故障識(shí)別效果
表4 A-3故障識(shí)別效果
由表2、表3、表4可知,多次測試中,文獻(xiàn)[5]方法和文獻(xiàn)[6]方法識(shí)別配電網(wǎng)監(jiān)控信息中的A-1故障、A-2故障、A-3故障時(shí),識(shí)別結(jié)果的準(zhǔn)確度、檢出率均值都低于0.90,假陽性率都大于0.04;而使用本文方法,配電網(wǎng)監(jiān)控信息中,識(shí)別A-1故障、A-2故障、A-3故障時(shí),識(shí)別結(jié)果的準(zhǔn)確度、檢出率均值都大于0.97,假陽性率都是0.01,由此可知,本文方法可提升配電網(wǎng)故障監(jiān)控效果。
配電網(wǎng)監(jiān)控中,故障信息識(shí)別實(shí)時(shí)性可體現(xiàn)本文方法所構(gòu)建規(guī)則庫的關(guān)聯(lián)規(guī)則更新具有實(shí)時(shí)性,在MATLAB仿真軟件中提前預(yù)設(shè)A-1故障、A-2故障、A-3故障的出現(xiàn)時(shí)間,測試使用本文方法、文獻(xiàn)[5]方法、文獻(xiàn)[6]方法的配電網(wǎng)監(jiān)控中故障信息識(shí)別實(shí)時(shí)性。測試結(jié)果如表5所示。
表5 關(guān)聯(lián)規(guī)則更新實(shí)時(shí)性測試結(jié)果
由表5可知,在MATLAB仿真軟件中提前預(yù)設(shè)A-1故障、A-2故障、A-3故障的出現(xiàn)時(shí)間后,本文方法所構(gòu)建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫,能夠協(xié)助配電網(wǎng)監(jiān)控系統(tǒng)實(shí)時(shí)識(shí)別配電網(wǎng)監(jiān)控中故障信息,由此證明本文方法所構(gòu)建規(guī)則庫的關(guān)聯(lián)規(guī)則更新實(shí)時(shí)性,可滿足應(yīng)用需求。
為了深入測試該方法構(gòu)建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫是否能滿足海量數(shù)據(jù)包智能分析的應(yīng)用要求,測試該方法構(gòu)建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的頻繁項(xiàng)集(信息智能分析規(guī)則)是否能隨數(shù)據(jù)包的增加而實(shí)時(shí)更新,測試了頻繁項(xiàng)集更新結(jié)果與更新速度,測試結(jié)果如圖3、表6所示。
圖3 規(guī)則庫頻繁項(xiàng)集更新結(jié)果
表6 頻繁項(xiàng)集更新速度
由圖3、表6可知,本文方法所構(gòu)建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的頻繁項(xiàng)集可以伴隨數(shù)據(jù)包增多而實(shí)時(shí)更新,頻繁項(xiàng)集更新數(shù)量和新增數(shù)據(jù)包數(shù)量一致,更新時(shí)間與數(shù)據(jù)包新增時(shí)間一致。由此驗(yàn)證,新增數(shù)據(jù)量對(duì)本文方法應(yīng)用性能不存在負(fù)面影響,本文方法所構(gòu)建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫對(duì)配電網(wǎng)故障監(jiān)控工作存在實(shí)用價(jià)值。
配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫對(duì)配電網(wǎng)監(jiān)控信息分析速度與分析效果存在直接影響,而配電網(wǎng)監(jiān)控信息分析效果對(duì)配電網(wǎng)故障監(jiān)控存在直接影響。為此,提出了基于機(jī)器學(xué)習(xí)的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫構(gòu)建方法,利用所構(gòu)建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫,實(shí)現(xiàn)配電網(wǎng)監(jiān)控信息智能分析。實(shí)驗(yàn)中,本文方法經(jīng)過仿真測試后,被驗(yàn)證存在以下幾點(diǎn)實(shí)用價(jià)值:
(1)多次測試中,本文方法使用前,配電網(wǎng)監(jiān)控信息中,A-1故障、A-2故障、A-3故障識(shí)別時(shí),識(shí)別結(jié)果的準(zhǔn)確度、檢出率均值都低于0.90,假陽性率都大于0.04;使用本文方法后,配電網(wǎng)監(jiān)控信息中,A-1故障、A-2故障、A-3故障識(shí)別時(shí),識(shí)別結(jié)果的準(zhǔn)確度、檢出率均值都大于0.97,假陽性率都是0.01。
(2)本文方法所構(gòu)建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫,能夠協(xié)助配電網(wǎng)監(jiān)控系統(tǒng)實(shí)時(shí)識(shí)別配電網(wǎng)監(jiān)控中故障信息。
(3)本文方法所構(gòu)建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的頻繁項(xiàng)集可以伴隨數(shù)據(jù)包的增多而實(shí)時(shí)更新,頻繁項(xiàng)集更新數(shù)量和新增數(shù)據(jù)包數(shù)量一致,更新時(shí)間與數(shù)據(jù)包新增時(shí)間一致。