呂穎利,李志強(qiáng)
(濟(jì)源職業(yè)技術(shù)學(xué)院,河南 濟(jì)源 459000)
配電網(wǎng)的線路故障分析、設(shè)備靈敏性計(jì)算、無(wú)功補(bǔ)償、潮流計(jì)算、網(wǎng)絡(luò)架構(gòu)升級(jí)以及負(fù)荷線損預(yù)測(cè)等課題的探究都離不開(kāi)電網(wǎng)負(fù)荷和線路拓?fù)涞葦?shù)據(jù)。配電網(wǎng)儲(chǔ)存的線路拓?fù)鋽?shù)據(jù)大多為半結(jié)構(gòu)和非結(jié)構(gòu)化,具有波動(dòng)頻率太高、數(shù)據(jù)容易丟失、無(wú)序等缺點(diǎn),這些都將直接或間接地對(duì)配電網(wǎng)負(fù)荷預(yù)測(cè)、無(wú)功補(bǔ)償?shù)燃夹g(shù)的研究造成負(fù)面影響。同時(shí),由于配電網(wǎng)數(shù)據(jù)需要消耗大量的計(jì)算時(shí)間和空間來(lái)完成格式轉(zhuǎn)化、清洗篩選以及數(shù)據(jù)異常辨別等操作,因此需要從長(zhǎng)遠(yuǎn)出發(fā),考慮大數(shù)據(jù)技術(shù)的運(yùn)用與計(jì)算效率的提升,幫助配電網(wǎng)大數(shù)據(jù)釋放能量。本文以配電網(wǎng)非標(biāo)數(shù)據(jù)為切入點(diǎn)展開(kāi)研究,通過(guò)結(jié)合Spark等大數(shù)據(jù)技術(shù)完成了非標(biāo)準(zhǔn)數(shù)據(jù)的公用信息模型(Common Information Model,CIM)/可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language,XML)統(tǒng)一格式轉(zhuǎn)換。該方法依據(jù)彈性數(shù)據(jù)集的分布情況將彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets,RDD)當(dāng)成數(shù)據(jù)載體,同時(shí)和傳統(tǒng)的MapReduce數(shù)據(jù)挖掘處理方式進(jìn)行對(duì)比,極大地縮短了數(shù)據(jù)并行處理的時(shí)間。
CIM是一種關(guān)于如何描述電力行業(yè)設(shè)備數(shù)據(jù)及應(yīng)用數(shù)據(jù)信息的國(guó)際化行業(yè)標(biāo)準(zhǔn)。在CIM中,CIM/XML作為一種國(guó)際化標(biāo)準(zhǔn)語(yǔ)言,旨在構(gòu)建規(guī)范化的電力拓?fù)淠P???煽s放矢量圖形(Scalable Vector Graphics,SVG)是一種用于對(duì)圖形界面進(jìn)行設(shè)計(jì)和優(yōu)化的標(biāo)準(zhǔn)語(yǔ)言,由萬(wàn)維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)研制開(kāi)發(fā)。
如今,CIM模型與SVG語(yǔ)言已經(jīng)在電網(wǎng)的生產(chǎn)精益化管理系統(tǒng)等系統(tǒng)中得到運(yùn)用,電網(wǎng)的運(yùn)維人員可以根據(jù)實(shí)時(shí)電網(wǎng)拓?fù)鋱D監(jiān)測(cè)設(shè)備的運(yùn)行狀態(tài),從而迅速開(kāi)展故障消缺等工作。可是當(dāng)需要進(jìn)行配電網(wǎng)的線路故障分析、設(shè)備靈敏性計(jì)算、無(wú)功補(bǔ)償、潮流計(jì)算、網(wǎng)絡(luò)架構(gòu)升級(jí)以及負(fù)荷線損預(yù)測(cè)等研究工作時(shí),由于在系統(tǒng)數(shù)據(jù)庫(kù)下載的CIM、SVG等數(shù)據(jù)具有非標(biāo)準(zhǔn)化、非結(jié)構(gòu)化的特征,因此不能采用[1]。傳統(tǒng)的CIM/XML和SVG大都用文件對(duì)象模式(Document Object Mode,DOM)和XML的簡(jiǎn)單應(yīng)用程序接口(Simple API for XML,SAX)等進(jìn)行分析,得出電網(wǎng)拓?fù)鋽?shù)據(jù)的關(guān)聯(lián),但同時(shí)具有效率低下、面對(duì)重大損失無(wú)法挽救線路拓?fù)浜推脚_(tái)相關(guān)應(yīng)用、無(wú)法結(jié)構(gòu)化拓?fù)鋽?shù)據(jù)等缺點(diǎn)。
針對(duì)以上缺點(diǎn),本文采用Spark中的內(nèi)存分布式計(jì)算引擎、分布式圖形計(jì)算以及分布式數(shù)據(jù)分析等庫(kù),對(duì)來(lái)自于配電網(wǎng)系統(tǒng)的CIM、SVG等數(shù)據(jù)進(jìn)行提煉聚合,從而獲取到線路拓?fù)渑c地理位置的有效信息。同時(shí),結(jié)合提煉的信息建立基于有向線性序列的配電網(wǎng)數(shù)據(jù)表,并對(duì)拓?fù)鋱D中供電區(qū)域進(jìn)行逐一劃分,給無(wú)功補(bǔ)償、潮流計(jì)算等研究奠定了基礎(chǔ)。
實(shí)際上,電網(wǎng)中的CIM模型和SVG語(yǔ)言能夠?qū)崿F(xiàn)數(shù)據(jù)規(guī)范化,主要?dú)w功于它們是包含統(tǒng)一標(biāo)準(zhǔn)字符數(shù)組的數(shù)據(jù)文件。本文根據(jù)規(guī)則表達(dá)式的模式,分析和提煉出CIM/XML、SVG中有效拓?fù)鋽?shù)據(jù)信息。
1951年,美國(guó)科學(xué)家Stephen Kleene首次闡述了規(guī)則表達(dá)式的概念。規(guī)則表達(dá)式亦可稱為正則表達(dá)式,它是一種特殊工具,用于字符串?dāng)?shù)據(jù)的相關(guān)操作,實(shí)質(zhì)上是一種關(guān)聯(lián)規(guī)則,用來(lái)對(duì)字符串進(jìn)行匹配。規(guī)則表達(dá)式具有很多優(yōu)點(diǎn),如便捷性,可以用于提取、調(diào)換及搜索各類(lèi)繁雜的字符串,同時(shí)還具有效率高、錯(cuò)漏率低等優(yōu)點(diǎn),可以滿足Web的提取功能、辨別功能、抽取功能以及自動(dòng)查看功能等要求[2]。
SVG擁有相關(guān)幾何和地理數(shù)據(jù)用于配電線路拓?fù)浯鎯?chǔ)。本文通過(guò)提取SVG中各類(lèi)型設(shè)備的地理位置坐標(biāo)來(lái)完成配電網(wǎng)網(wǎng)絡(luò)架構(gòu)的優(yōu)化以及數(shù)據(jù)信息提取速度的提高。配電網(wǎng)中的設(shè)備由點(diǎn)型、線型以及復(fù)合直線型構(gòu)成,點(diǎn)型設(shè)備的位置坐標(biāo)由一個(gè)橫坐標(biāo)值和一個(gè)縱坐標(biāo)值確定,而線型和復(fù)合直線型設(shè)備的位置坐標(biāo)分別由兩個(gè)橫坐標(biāo)和縱坐標(biāo)組成。
在進(jìn)行規(guī)則匹配時(shí),需要采用不同的規(guī)則表達(dá)式來(lái)匹配不同類(lèi)型的設(shè)備位置坐標(biāo)。對(duì)配電網(wǎng)中SVG數(shù)據(jù)通過(guò)規(guī)則表達(dá)式匹配后得到電網(wǎng)設(shè)備的具體地理位置坐標(biāo)信息。
通過(guò)CIM/XML語(yǔ)言中的端點(diǎn)對(duì)象來(lái)描述配電網(wǎng)線路拓?fù)鋽?shù)據(jù)間的聯(lián)系,電網(wǎng)設(shè)備可以依據(jù)端點(diǎn)的個(gè)數(shù)進(jìn)行分類(lèi),主要包括單端點(diǎn)與雙端點(diǎn)兩種設(shè)備類(lèi)型。匯流母線、營(yíng)銷(xiāo)電表等設(shè)備僅有一個(gè)端點(diǎn),因此屬于單端點(diǎn)設(shè)備,而隔離開(kāi)關(guān)、電纜等設(shè)備有兩個(gè)端點(diǎn),屬于雙端點(diǎn)設(shè)備。結(jié)合CIM/XML語(yǔ)言對(duì)配電網(wǎng)線路拓?fù)潢P(guān)聯(lián)度進(jìn)行研究和分析,大致流程如圖1所示。
圖1 基于CIM/XML線路拓?fù)潢P(guān)聯(lián)度分析流程
配電網(wǎng)的線路故障分析、設(shè)備靈敏性計(jì)算、無(wú)功補(bǔ)償、潮流計(jì)算、網(wǎng)絡(luò)架構(gòu)升級(jí)以及負(fù)荷線損預(yù)測(cè)等探究還要用到線路拓?fù)渲性O(shè)備的電壓級(jí)別和開(kāi)關(guān)狀態(tài)等參數(shù)信息。由上述對(duì)設(shè)備具體參數(shù)的CIM/XML描述,可以通過(guò)設(shè)計(jì)規(guī)則表達(dá)式用于匹配與設(shè)備ID相關(guān)聯(lián)的電壓級(jí)別與開(kāi)關(guān)狀態(tài)[3]。
通過(guò)建立規(guī)則表達(dá)式匹配獲取設(shè)備的聯(lián)絡(luò)端點(diǎn)號(hào)、關(guān)聯(lián)電壓級(jí)別以及關(guān)聯(lián)開(kāi)關(guān)狀態(tài)等信息,并以設(shè)備ID號(hào)為關(guān)聯(lián)字段將這些數(shù)據(jù)信息篩選合并輸出,完成線路拓?fù)渌钄?shù)據(jù)的初始化工作。但是線路拓?fù)渲性O(shè)備種類(lèi)繁雜,若直接將初始化的數(shù)據(jù)拿來(lái)使用,則會(huì)消耗大量時(shí)間,效率不高,因此本文設(shè)計(jì)了如下規(guī)則用以拓?fù)湓O(shè)備的規(guī)約轉(zhuǎn)換操作。
(1)將雙端點(diǎn)設(shè)備(隔離刀閘、電力電纜、絕緣導(dǎo)線等)由初始化的點(diǎn)型規(guī)約轉(zhuǎn)換成線型設(shè)備,具體操作是在設(shè)備坐標(biāo)同位置下復(fù)制生成一個(gè)新的坐標(biāo)點(diǎn)。(2)將單端點(diǎn)設(shè)備(匯流母線、營(yíng)銷(xiāo)電表等)由初始化的線型/復(fù)合直線型規(guī)約轉(zhuǎn)換成點(diǎn)型設(shè)備,具體操作是折中法,即拿設(shè)備線段中間位置的坐標(biāo)替代。(3)將不影響拓?fù)錁?gòu)建和潮流計(jì)算的設(shè)備(電流互感器、避雷針等)直接刪除。
拓?fù)湓O(shè)備的規(guī)約轉(zhuǎn)換如表1所示,規(guī)約轉(zhuǎn)換后的拓?fù)湓O(shè)備信息如表2所示,描述了拓?fù)湓O(shè)備的規(guī)約轉(zhuǎn)換過(guò)程。
表1 拓?fù)湓O(shè)備的規(guī)約轉(zhuǎn)換
表2 規(guī)約轉(zhuǎn)換后的拓?fù)湓O(shè)備信息
上文完成了拓?fù)湓O(shè)備的規(guī)約轉(zhuǎn)換,以此為基石,本文將設(shè)備對(duì)應(yīng)端點(diǎn)作為關(guān)鍵字段,實(shí)現(xiàn)端點(diǎn)關(guān)聯(lián)設(shè)備參數(shù)、不同種類(lèi)設(shè)備規(guī)模以及端點(diǎn)定位的有效存儲(chǔ),完成配電網(wǎng)線路拓?fù)鋽?shù)據(jù)聯(lián)絡(luò)架構(gòu)的構(gòu)建[4]。配電網(wǎng)線路拓?fù)鋽?shù)據(jù)聯(lián)絡(luò)架構(gòu)如圖2所示。
圖2 配電網(wǎng)線路拓?fù)鋽?shù)據(jù)聯(lián)絡(luò)架構(gòu)
由于配電網(wǎng)的線路故障分析、設(shè)備靈敏性計(jì)算、無(wú)功補(bǔ)償、潮流計(jì)算、網(wǎng)絡(luò)架構(gòu)升級(jí)以及負(fù)荷線損預(yù)測(cè)等探究需要使用到配電網(wǎng)線路拓?fù)鋽?shù)據(jù)聯(lián)絡(luò)架構(gòu)中的數(shù)據(jù),繼續(xù)以設(shè)備對(duì)應(yīng)端點(diǎn)為關(guān)鍵字段,結(jié)合配電網(wǎng)線路拓?fù)鋽?shù)據(jù)聯(lián)絡(luò)架構(gòu)中的數(shù)據(jù)建立端點(diǎn)坐標(biāo)匹配表及線路拓?fù)鋽?shù)據(jù)匹配表[5]。
由于線路拓?fù)鋽?shù)據(jù)匹配表中的數(shù)據(jù)量巨大,不能直接用于線路故障分析、負(fù)荷線損預(yù)測(cè)等研究,本文根據(jù)拓?fù)涞姆植继卣鲃澐止╇妳^(qū)域,進(jìn)而建立有向的線路拓?fù)鋽?shù)據(jù)匹配表。將各類(lèi)變電站中的匯流母線視為開(kāi)始節(jié)點(diǎn),把與匯流母線相連的配電房、環(huán)網(wǎng)柜等節(jié)點(diǎn)當(dāng)成結(jié)束節(jié)點(diǎn)。首先遍歷所有的開(kāi)始節(jié)點(diǎn),其次通過(guò)深度優(yōu)先遍歷生成拓?fù)渎窂?,從而獲得有向線型線路拓?fù)洹?/p>
每個(gè)配電網(wǎng)的供電區(qū)域都包含著很多不同的線路,而這些線路也許不通過(guò)變壓器、絕緣子等電力設(shè)備與其他線路直接相連接,這就需要縮小拓?fù)湟?guī)模范圍,其方法是將線路進(jìn)行簡(jiǎn)化、整合,操作步驟如下。若原始線路中存在node1、node2、node3,而node1與node2、node2與node3分別通過(guò)類(lèi)型相似的line1和line2相連,那么可以刪除node2,直接將line1與line2的電阻、容抗等參數(shù)疊加整合輸出成line3,通過(guò)line3直接連接node1和node2。線路進(jìn)行簡(jiǎn)化、整合后,線路拓?fù)涞臄?shù)據(jù)數(shù)量得到有效縮減。
前文對(duì)采集的配電網(wǎng)原始數(shù)據(jù)進(jìn)行整合、簡(jiǎn)化和匹配等操作,最終獲得具有統(tǒng)一標(biāo)準(zhǔn)格式的線路拓?fù)鋽?shù)據(jù),但由于各個(gè)環(huán)節(jié)數(shù)據(jù)挖掘和處理的時(shí)間與空間復(fù)雜度不一致,同時(shí)后續(xù)無(wú)功補(bǔ)償、潮流計(jì)算等研究需要高效率的拓?fù)鋽?shù)據(jù)分析,于是本文結(jié)合Spark中的內(nèi)存分布式計(jì)算引擎、分布式圖形計(jì)算以及分布式數(shù)據(jù)分析完成線路拓?fù)渲蟹菢?biāo)數(shù)據(jù)格式的標(biāo)準(zhǔn)轉(zhuǎn)化,實(shí)現(xiàn)過(guò)程如下。
(1)線路拓?fù)涞腃IM模型及SVG語(yǔ)言格式的數(shù)據(jù)實(shí)際上是由很多有規(guī)律性的字符數(shù)組構(gòu)成的XML格式文本?;赟park拓?fù)鋽?shù)據(jù)分析的關(guān)鍵一步便是把初始數(shù)據(jù)轉(zhuǎn)化成RDD格式的抽象數(shù)據(jù)集,而后在node的內(nèi)存里進(jìn)行數(shù)據(jù)存儲(chǔ)。圖3是線路拓?fù)涞腞DD存儲(chǔ)模式。
圖3 線路拓?fù)涞腞DD存儲(chǔ)模式
圖3中,線路拓?fù)鋽?shù)據(jù)是按分區(qū)劃分并在工作節(jié)點(diǎn)中實(shí)現(xiàn)存儲(chǔ)。RDD1和RDD2的數(shù)據(jù)都是在工作節(jié)點(diǎn)a、工作節(jié)點(diǎn)b以及工作節(jié)點(diǎn)c上完成存儲(chǔ),而RDD1由分區(qū)11、分區(qū)12、分區(qū)13以及分區(qū)14組成,RDD2由分區(qū)21、分區(qū)22和分區(qū)23組成。
(2)使用Hive中的用戶定義表生成函數(shù),將RDD形式存儲(chǔ)的線路拓?fù)鋽?shù)據(jù)轉(zhuǎn)換成能被系統(tǒng)直接掃描并使用的數(shù)據(jù),極大地縮短了獲取線路拓?fù)鋽?shù)據(jù)信息的時(shí)間。本文以B供電公司的配電網(wǎng)數(shù)據(jù)為例,大約120種配電設(shè)備的總數(shù)量接近35萬(wàn),通過(guò)以上方式提取線路拓?fù)鋽?shù)據(jù)信息,總計(jì)得到384 426條地理位置數(shù)據(jù)、756 597條設(shè)備ID關(guān)聯(lián)端點(diǎn)號(hào)數(shù)據(jù)、304 541條電壓級(jí)別數(shù)據(jù)以及70 343條開(kāi)關(guān)狀態(tài)數(shù)據(jù)。
(3)以設(shè)備對(duì)應(yīng)端點(diǎn)為關(guān)鍵字段,結(jié)合配電網(wǎng)線路拓?fù)鋽?shù)據(jù)聯(lián)絡(luò)架構(gòu)中的數(shù)據(jù)建立端點(diǎn)坐標(biāo)匹配表及線路拓?fù)鋽?shù)據(jù)匹配表,表中包含215 643條端點(diǎn)坐標(biāo)匹配數(shù)據(jù)和214 582條線路拓?fù)鋽?shù)據(jù)匹配數(shù)據(jù)。根據(jù)拓?fù)鋽?shù)據(jù)node與line的地理位置信息,繪制出B供電公司a區(qū)域的配電網(wǎng)線路拓?fù)浣Y(jié)構(gòu)圖。
(4)由于經(jīng)常出現(xiàn)很多條線路直接連接在一起的現(xiàn)象,因此在對(duì)線路歸并整合時(shí)應(yīng)該重復(fù)對(duì)提取的數(shù)據(jù)進(jìn)行計(jì)算。就拓?fù)渚€路簡(jiǎn)化、整合流程圖來(lái)說(shuō),使用并發(fā)編程框架將line1、line2和node1、node2、node3的數(shù)據(jù)轉(zhuǎn)換成RDD格式,同時(shí)使用分布式圖形計(jì)算模型將上述line和node轉(zhuǎn)換成線與點(diǎn),同時(shí)在內(nèi)存中歸并整合后存儲(chǔ)數(shù)據(jù)。Spark技術(shù)的最大優(yōu)點(diǎn)就在于它不需通過(guò)磁盤(pán)而直接在內(nèi)存中讀寫(xiě),這有利于減少配電網(wǎng)拓?fù)鋽?shù)據(jù)處理的時(shí)間開(kāi)銷(xiāo),從而提高運(yùn)行效率。
集成和處理后的配電網(wǎng)數(shù)據(jù)由于量大不免會(huì)存在一些離群數(shù)據(jù)文本,本文采用粒子群優(yōu)化算法對(duì)配電網(wǎng)拓?fù)鋽?shù)據(jù)中的負(fù)荷聚類(lèi)中心進(jìn)行優(yōu)化,并用K-means方法確定最佳聚類(lèi)數(shù)。為了驗(yàn)證粒子群算法的可行性,對(duì)B供電公司3個(gè)區(qū)域的配電網(wǎng)饋線運(yùn)行數(shù)據(jù)進(jìn)行了仿真測(cè)試,包括配電變壓器容量、配電變壓器月平均負(fù)荷數(shù)據(jù)和配電變壓器月最大負(fù)荷數(shù)據(jù)。根據(jù)不同的時(shí)間和區(qū)域進(jìn)行混合、剔除處理,共有940個(gè)數(shù)據(jù)。
分別對(duì)樣本的相關(guān)饋線數(shù)據(jù)進(jìn)行歸一化計(jì)算后,確定初始最優(yōu)K值。根據(jù)粒子群算法對(duì)數(shù)據(jù)進(jìn)行排序時(shí),參考相關(guān)文獻(xiàn)的參數(shù)設(shè)置,當(dāng)聚類(lèi)數(shù)K=3時(shí),最大迭代次數(shù)設(shè)置為200。粒子群優(yōu)化算法后的排序效果如圖4所示。
圖4 配電變壓器參數(shù)的三維散點(diǎn)
從數(shù)據(jù)集來(lái)看,有3個(gè)聚類(lèi),聚類(lèi)1有600多個(gè)數(shù)據(jù)向量,聚類(lèi)2有200多個(gè)數(shù)據(jù)向量,每個(gè)數(shù)據(jù)向量有3個(gè)特征,其中聚類(lèi)的每個(gè)特征根據(jù)不同的簇分布。3類(lèi)數(shù)據(jù)的樣本在一定程度上是交錯(cuò)的,由于它們的高度不同,因此無(wú)法清晰看到樣本數(shù)量。特別是第一種數(shù)據(jù)點(diǎn)比較分散,但是其他種類(lèi)的數(shù)據(jù)點(diǎn)比較集中。應(yīng)清理平均月負(fù)荷的3個(gè)異常值,清理最大月負(fù)荷的9個(gè)異常值,即直線以上的12個(gè)點(diǎn),從而完成配電變壓器運(yùn)行數(shù)據(jù)的預(yù)處理。離群樣本診斷作為數(shù)據(jù)預(yù)處理中最為關(guān)鍵的一個(gè)環(huán)節(jié),重點(diǎn)是找出和別的樣本有顯著差異的離群點(diǎn)。離群樣本剔除對(duì)故障預(yù)測(cè)模型的構(gòu)建影響不大,但有助于提高模型的預(yù)測(cè)精度,因此離群樣本被視為噪聲。
為了測(cè)試和驗(yàn)證聚類(lèi)操作的可靠性,分析了從組中提取的拒絕最大負(fù)荷樣本的異常值,這可能是由于數(shù)據(jù)采集終端故障,導(dǎo)致無(wú)法收集一些數(shù)據(jù),從而同時(shí)產(chǎn)生幾個(gè)月的異常數(shù)據(jù),但這也表明異常值的診斷可靠。
本文重點(diǎn)研究了基于Spark的配電網(wǎng)線路拓?fù)鋽?shù)據(jù)挖掘和處理,實(shí)現(xiàn)了非標(biāo)準(zhǔn)數(shù)據(jù)的CIM/XML統(tǒng)一格式轉(zhuǎn)換,同時(shí)利用Spark中的內(nèi)存分布式計(jì)算引擎、分布式圖形計(jì)算以及分布式數(shù)據(jù)分析等庫(kù),對(duì)來(lái)自于配電網(wǎng)系統(tǒng)的CIM、SVG等數(shù)據(jù)進(jìn)行提煉聚合,并使用抽象數(shù)據(jù)集RDD作為數(shù)據(jù)載體,極大縮短了數(shù)據(jù)并行處理的時(shí)間。而后通過(guò)采用粒子群優(yōu)化算法使得聚類(lèi)效果有了很大提高,粒子群聚類(lèi)算法能夠有效、可靠地診斷和消除異常值,對(duì)研究配電網(wǎng)系統(tǒng)各類(lèi)故障因素的影響具有重要意義。