国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于相關性分析的配電網(wǎng)多源數(shù)據(jù)質(zhì)量提升方法

2022-06-21 01:14蒙小胖,孫常浩,蔡雷鳴,施廣德,金舒
計算機時代 2022年6期
關鍵詞:聚類算法關聯(lián)分析智能配電網(wǎng)

蒙小胖, 孫常浩, 蔡雷鳴, 施廣德, 金舒

摘? 要: 智能配電網(wǎng)采集數(shù)據(jù)來源廣、數(shù)據(jù)質(zhì)量較差,價值密度低。因此首先對配電網(wǎng)中各類系統(tǒng)采集的數(shù)據(jù)應用K-means聚類算法進行特征提取,結合局部異常因子(LOF)算法進行異常檢測,篩選出異常數(shù)據(jù);隨后根據(jù)數(shù)據(jù)的多維特征運用相關性分析結合數(shù)據(jù)特征對異常數(shù)據(jù)進行修正;最后通過實際工程應用,驗證多源數(shù)據(jù)質(zhì)量提升方法的數(shù)據(jù)修正效果。

關鍵詞: 數(shù)據(jù)質(zhì)量; 關聯(lián)分析; 智能配電網(wǎng); 聚類算法; 多源數(shù)據(jù)

中圖分類號:TP3? ? ? ? ? 文獻標識碼:A ? ? ?文章編號:1006-8228(2022)06-01-05

A quality improvement method of multi-source data in distribution network

based on correlation analysis

Meng Xiaopang1, Sun Changhao2, Cai Leiming2, Shi Guangde2, Jin Shu2

(1. Shaanxi Regional Electric Power Group Co., LTD, Baoji, Shaanxi 721000, China; 2. Guodian Nanjing Automation Co., Ltd.)

Abstract: The data collected by distribution network has the characteristics of wide sources, poor data quality and low value density. Therefore, a strategy for improving the quality of multi-source data in the intelligent distribution network is proposed. Firstly, the K-means clustering algorithm is applied to the data collected by various systems in the distribution network for feature extraction, and the local outlier factor (LOF) algorithm is used for abnormal detection to screen out abnormal data. Then, according to the multi-dimensional characteristics of the data, the abnormal data is corrected by correlation analysis combined with the data characteristics. Finally, the effect of multi-source data quality improvement algorithm is verified by practical engineering application.

Key words: data quality; correlation analysis; intelligent distribution network; clustering algorithm; multi-source data

0 引言

智能配電網(wǎng)信息化和智能化的程度不斷提升,配電網(wǎng)采集數(shù)據(jù)逐步呈現(xiàn)多源、異構的大數(shù)據(jù)特征[1]。對海量多源數(shù)據(jù)進行整合,可以為配電網(wǎng)運行態(tài)勢感知[2],運行狀態(tài)綜合評價提供重要數(shù)據(jù)支撐。

配電網(wǎng)數(shù)據(jù)采集終端由于數(shù)量多、分布廣并且部分終端環(huán)境惡劣,工況復雜,在采集和通信過程中經(jīng)常發(fā)生數(shù)據(jù)丟失或異?,F(xiàn)象[3]。異常數(shù)據(jù)嚴重影響數(shù)據(jù)挖掘分析的效率,對缺失或者異常數(shù)據(jù)進行統(tǒng)計分析會使得結果與實際值差別較大,影響預測精度和運行控制決策的準確性[4]。因此,如何對配電網(wǎng)采集的多源數(shù)據(jù)進行異常檢測和數(shù)據(jù)預處理是配電網(wǎng)大數(shù)據(jù)分析的前提和基礎。

近年來,對于大數(shù)據(jù)技術在配電網(wǎng)中應用已有很多研究成果。文獻[5]對大數(shù)據(jù)在電網(wǎng)中的應用場景進行了總結。文獻[6]提出一種基于大數(shù)據(jù)分析的配電網(wǎng)態(tài)勢感知方法,通過對配電網(wǎng)運行歷史數(shù)據(jù)進行分析預測電網(wǎng)運行的趨勢。文獻[7]運用大數(shù)據(jù)技術對配電網(wǎng)運行歷史數(shù)據(jù)進行挖掘和評估,實現(xiàn)配電網(wǎng)的風險預警。但研究成果大多集中在數(shù)據(jù)分析層面,對底層多源數(shù)據(jù)融合以及數(shù)據(jù)質(zhì)量的提升研究較少。對于配電網(wǎng)的大數(shù)據(jù)分析應用而言,數(shù)據(jù)的多源融合是基礎,數(shù)據(jù)質(zhì)量的好壞,對數(shù)據(jù)挖掘效率和結果準確性有重要影響。文獻[8]采用插值法對電網(wǎng)采集數(shù)據(jù)中缺失較少且變化較為平緩的數(shù)據(jù)進行修正,取得較好效果;文獻[9]提出一種基于數(shù)據(jù)動態(tài)治理和修復策略的配電網(wǎng)數(shù)據(jù)質(zhì)量提升管理平臺架構。文獻[10]提出基于自適應模糊神經(jīng)網(wǎng)絡模型對風電缺失數(shù)據(jù)進行填補,取得較好效果,但不適用于大面積數(shù)據(jù)缺失。以上對數(shù)據(jù)質(zhì)量提升的研究大多基于某一維度或者某一方法對數(shù)據(jù)異常進行修正,應對大數(shù)據(jù)量和連續(xù)、大面積的異常數(shù)據(jù)處理較為困難。配電網(wǎng)中各個系統(tǒng)采集數(shù)據(jù)之間關聯(lián)性較強,其多維關聯(lián)性特征不可忽視。因此,本文根據(jù)配電網(wǎng)數(shù)據(jù)的多維相關性特點,采用聚類算法和相關性分析結合的方法提升數(shù)據(jù)修正的效率和效果,從而提升配電網(wǎng)整體數(shù)據(jù)質(zhì)量,成為大數(shù)據(jù)分析和應用的有力支撐。

1 多源數(shù)據(jù)質(zhì)量提升整體架構

多源、異構的數(shù)據(jù)場景給數(shù)據(jù)集成帶來困難并且使得信息系統(tǒng)產(chǎn)生數(shù)據(jù)質(zhì)量問題。針對這些問題,本文提出一種多源融合數(shù)據(jù)質(zhì)量提升架構如圖1所示。

架構包含數(shù)據(jù)來源層,數(shù)據(jù)存儲層,數(shù)據(jù)質(zhì)量管理層以及數(shù)據(jù)發(fā)布層。該框架通過分析不同數(shù)據(jù)源數(shù)據(jù)特征進行分庫存儲;隨后通過數(shù)據(jù)質(zhì)量管理模塊對數(shù)據(jù)整體質(zhì)量進行把控;最后將修正數(shù)據(jù)進行整理發(fā)布,支撐智能配電網(wǎng)的大數(shù)據(jù)分析應用。

2 多源數(shù)據(jù)質(zhì)量提升方法

系統(tǒng)數(shù)據(jù)質(zhì)量管理模塊首先對缺失數(shù)據(jù)進行檢測,并進行補0操作;隨后采用K-means聚類法對系統(tǒng)輸入數(shù)據(jù)進行特征提取,結合LOF算法進行異常數(shù)據(jù)篩查。數(shù)據(jù)修正模塊通過多維數(shù)據(jù)相關性特征來進行數(shù)據(jù)修正。

2.1 異常數(shù)據(jù)檢測方法

LOF算法是一種基于數(shù)據(jù)密度對異常點進行篩選的高精度算法,能夠量化數(shù)據(jù)的異常程度,在數(shù)據(jù)清洗和異常檢測中具有廣泛應用。傳統(tǒng)LOF算法需要計算數(shù)據(jù)集合中所有數(shù)據(jù)兩點之間的距離,導致復雜度達高,難以應對大規(guī)模數(shù)據(jù)[11]。

本文運用K-means算法[12]與LOF算法結合進行異常數(shù)據(jù)檢測,首先運用K-means算法將相同數(shù)據(jù)特征的數(shù)據(jù)進行聚類,隨后運用LOF算法對每個類簇中的數(shù)據(jù)進行異常篩查,最后將待檢測數(shù)據(jù)集篩選出異常數(shù)據(jù)。K-means算法可以用于數(shù)據(jù)特征提取,降低LOF算法復雜度,LOF算法對類簇內(nèi)異常值進行檢測可以增強K-means數(shù)據(jù)特征提取的準確性和效果。

2.1.1 K-means聚類法數(shù)據(jù)特征提取

配網(wǎng)系統(tǒng)采集數(shù)據(jù)具有較強的周期性,采用數(shù)據(jù)挖掘中的K-means聚類法對數(shù)據(jù)進行分析,獲取采集數(shù)據(jù)的數(shù)據(jù)特征。

K-means算法的主要思想是將n個對象劃分為K個類簇[C1…CK],每個類簇具有較高的相似度。算法的優(yōu)化目標是最小化類簇的平方誤差E。

[E=i=1Kx∈Cix-ui22]? ⑴

其中,[ui=1Cix∈Cix]為類簇[Ci]的聚類中心。

其算法流程如下。

⑴ 從數(shù)據(jù)集合D中選取K個初始聚類中心點。

⑵ 計算集合內(nèi)各個數(shù)據(jù)點到聚類中心點之間的歐幾里得距離(公式2),選取最近的聚類中心點并納入到該類中。

⑶ 計算完所有數(shù)據(jù)點后對各個類簇重新計算聚類中心。

⑷ 判斷聚類中心是否發(fā)生變化,如果發(fā)生變化則返回步驟⑵,如果不發(fā)生變化則輸出結果。

2.1.2 LOF算法概念

LOF算法的核心概念有以下四點。

⑴ 第k距離鄰域:給定一個數(shù)據(jù)集合D,對于集合內(nèi)的任意一點p,計算其他點與p點的歐幾里得距離并從小到大排序,第k個記為該點的第k距離,第k距離以內(nèi)的所有點為第k距離鄰域,記作[Nk(p)]。其中歐幾里得距離可以表示為:

[distp,q][=(p1-q1)2+(p2-q2)2+…+(pn-qn)2] ⑵

其中,[ p]和[q]分別為n維空間中的兩個數(shù)據(jù)點,[dist(p,q)]為兩個點之間的歐幾里得距離。

⑵ 可達距離:空間中p點和o點之間的可達距離定義為點o的第k距離和[dist(p,o)]之間的最大值,記為[reach-dist(p,o)]。

⑶ 局部可達密度:數(shù)據(jù)點p的局部可達密度[lrdk(p)]為它鄰近點之間平均可達距離的倒數(shù)。

[lrdk(p)=1o∈Nk(p)reach-dist(p,o)Nk(p)]? ⑶

⑷ 局部異常因子:局部異常因子為點p鄰域內(nèi)點的局部可達密度與點p的局部可達密度之比的平均值,記為[LOFk(p)]。

[LOFk(p)=1Nk(p)o∈Nk(p)lrdk(o)lrdk(p)]? ⑷

根據(jù)局部異常因子的定義,[LOFk(p)]值在1左右說明點p數(shù)據(jù)密度與其鄰域內(nèi)點的數(shù)據(jù)密度相當;當[LOFk(p)]遠大于1或者遠小于1則說明點p與其他點較為疏遠,為異常點。

2.1.3 算法流程

基于K-means聚類和LOF算法的數(shù)據(jù)異常檢測流程如圖2所示。

通過兩種算法結合,我們可以提取數(shù)據(jù)集合的特征,并篩選出數(shù)據(jù)集合中的異常數(shù)據(jù)。隨后通過數(shù)據(jù)的多維相關性,來對異常數(shù)據(jù)進行修正和填補。

2.2 多維數(shù)據(jù)相關性分析原理

本文相關性分析算法采用皮爾遜相關系數(shù)法[13,14]來衡量不同來源數(shù)據(jù)之間的相關性;隨后通過熵權法計算變量之間的權重關系。

2.2.1 皮爾遜相關系數(shù)

皮爾遜相關系數(shù)的計算公式如下:

[ρx1,x2=Cov(x1,x2)σxσx2]? ⑸

其中,[x1,x2]分別為n維數(shù)據(jù)變量,[σx1, σx2]分別為[x1]和[x2]的標準差,[Cov(x1,x2)]兩者間協(xié)方差。協(xié)方差計算公式如下:

[Cov(x1,x2)=i=1nx1(i)-x1x2(i)-x2n-1]? ?⑹

皮爾遜相關系數(shù)用于評價兩個數(shù)據(jù)之間的相關性,當相關系數(shù)大于某一特定值則認為兩個數(shù)據(jù)具有強相關性。

2.2.2 熵權法確定權重

熵權法[15]通過指標所含信息量大小來確定權重,能夠有效地利用數(shù)據(jù),排除主觀因素影響。首先根據(jù)公式⑺計算各個變量之間的熵。

[Εj=i=1mρx1,x2lnρx1,x2lnm ]? ⑺

各個變量的權重也可以由公式⑻獲得。

[ωj=1-Εjj=1m1-Εj ]? ⑻

權重[ωj]體現(xiàn)了指標信息量的大小,能夠量化指標對于結果的影響。[j=1mωj=1]。

2.3 基于多維數(shù)據(jù)特征的配電網(wǎng)數(shù)據(jù)修正方法

配電網(wǎng)數(shù)據(jù)采集周期選定為T=24h。采集的數(shù)據(jù)集合[C={c1, c2,…,cM}]中包含有M個屬性(如電流、電壓等)。對于屬性[ci]的異常數(shù)據(jù)集合,基于多維數(shù)據(jù)特征的數(shù)據(jù)修正方法如下。

⑴ 運用K-means聚類法對集合C中的各項屬性歷史數(shù)據(jù)進行特征提取,運用LOF異常檢測算法篩選出異常數(shù)據(jù)集合和正常數(shù)據(jù)集合。

⑵ 選取各屬性的正常數(shù)據(jù)集合,通過關聯(lián)分析計算各個屬性之間的皮爾遜系數(shù)。對于需要修正的屬性[ci],篩選出與其強相關的m個屬性建立各個屬性之間的皮爾遜相關系數(shù)矩陣[Σ],運用熵權法確定各自權重[wj,j=1,2,…,m];

⑶ 屬性[ci]的異常數(shù)據(jù)集記為[Xi={xi1, xi2, …,xin}],對于其中一條異常數(shù)據(jù)記為[xik, k=1,2..n],在m個強關聯(lián)屬性中選取[ci]的一個強關聯(lián)屬性[cj],在其數(shù)據(jù)集合[Yj={yj1, yj2, ...,yjn} ]中尋找與[xik]相同時間歷史數(shù)據(jù)點記為[yjk],[ yjk]所處類的聚類中心記為[yj*k]。

⑷ 在選取所有m個強關聯(lián)屬性后,通過加權求和求得原始數(shù)據(jù)的最優(yōu)修正結果:[xi*k=j=1mwjyj*k]。

⑸ 選取[Xi]中的下一條異常數(shù)據(jù),重復步驟⑶和⑷直到所有異常數(shù)據(jù)被修復。

數(shù)據(jù)數(shù)據(jù)質(zhì)量提升流程可以總結如圖3所示。

3 實際應用驗證

這里以陜西地電電力公司應用的數(shù)據(jù)服務中心的運行采集數(shù)據(jù)作為實例驗證本文提出的數(shù)據(jù)質(zhì)量提升策略的有效性。

數(shù)據(jù)服務中心接入數(shù)據(jù)包括:電力公司的營銷系統(tǒng)、配電自動化系統(tǒng)、故障搶修管理系統(tǒng)的業(yè)務數(shù)據(jù)。

3.1 關鍵技術驗證

本文以配電自動化系統(tǒng)中遙測數(shù)據(jù)50組采集數(shù)據(jù)為例,驗證數(shù)據(jù)質(zhì)量提升技術的應用效果。

首先根據(jù)歷史數(shù)據(jù)關聯(lián)性分析,得到與饋線A端斷路器A相電流采集數(shù)據(jù)強關聯(lián)的屬性(皮爾遜系數(shù))。如表1所示。

隨后通過本文的數(shù)據(jù)質(zhì)量提升方法進行異常數(shù)據(jù)的檢測和修正,修正后的歷史數(shù)據(jù)存入修正庫。

通過數(shù)據(jù)質(zhì)量管理流程前后饋線電流缺失數(shù)據(jù)修正情況如圖4所示,異常數(shù)據(jù)修正情況如圖5所示。

從數(shù)據(jù)質(zhì)量管理結果來看數(shù)據(jù)修正方法能夠有效檢測并修正缺失數(shù)據(jù)和異常數(shù)據(jù),并且對于連續(xù)、大面積缺失或者異常數(shù)據(jù)有較好效果。

3.2 算法對比

為了進一步驗證算法在異常數(shù)據(jù)辨識、修正效率和效果上的優(yōu)勢。本文運用不同算法到同一算例中進行仿真,評價指標選用精確率(precision rate)和召回率(recall rate)來測試算法效果。最終結果如圖6所示。

從圖6可以看出本文運用的改進LOF算法與LOF算法的精確率和召回率均在90%左右,對比于傳統(tǒng)運用統(tǒng)計學[3σ]方法提升較大。而根據(jù)圖7在不同樣本數(shù)據(jù)條件下的算法運行效率,LOF算法對樣本數(shù)量最為敏感,其次為統(tǒng)計法,而改進的LOF算法由于首先運用K-means法進行據(jù)類處理,能夠在數(shù)據(jù)數(shù)量較大時保持較高的求解速度。

4 結束語

本文提出一種基于數(shù)據(jù)多維特征分析的數(shù)據(jù)質(zhì)量提升策略,針對配電網(wǎng)采集數(shù)據(jù)量大、質(zhì)量低的情況,通過聚類算法與相關性分析的結合,對異常數(shù)據(jù)進行多維數(shù)據(jù)修正,從而提高數(shù)據(jù)質(zhì)量。實際應用表明,策略能有效提高配電網(wǎng)數(shù)據(jù)質(zhì)量,擁有較高的運行計算效率,應對連續(xù)、大面積數(shù)據(jù)異常效果較好,可以為智能配電網(wǎng)大數(shù)據(jù)分析應用提供基礎和有力支撐。

參考文獻(References):

[1] 吳爭榮,俞小勇,董旭柱,等.基于狀態(tài)估計的配電網(wǎng)實時態(tài)勢感知與評估[J].電力系統(tǒng)及其自動化學報,2018,30(1):140-145

[2] Sharma A,Nazir S,Ernstsen J. Situation awareness information requirements for maritime navigation: A goal directed task analysis[J]. Safety Science,2019,120:745-752

[3] 艾欣,趙旭州,胡寰宇,等.G1-熵權-獨立性權法在電網(wǎng)發(fā)展態(tài)勢感知中的應用[J].電網(wǎng)技術,2020,44(9):3481-3490

[4] 冷喜武,陳國平,蔣宇,等.智能配電網(wǎng)監(jiān)控運行大數(shù)據(jù)應用模型構建方法[J].電力系統(tǒng)自動化,2018,42(20):115-123

[5] 孫立華,胡牧,孟慶強,等.配網(wǎng)線損大數(shù)據(jù)高性能計算解決方案[J].計算機與現(xiàn)代化,2016(12):42-50

[6] 王珣,陳小卉,尹悅.用電行為大數(shù)據(jù)分析探索與實踐[J].電力需求側管理,2018,20(1):54-58

[7] 黃蔓云,衛(wèi)志農(nóng),孫國強,等.基于歷史數(shù)據(jù)挖掘的配電網(wǎng)態(tài)勢感知方法[J].電網(wǎng)技術,2017,41(4):1139-1145

[8] 劉科研,吳心忠,石琛,等.基于數(shù)據(jù)挖掘的配電網(wǎng)故障風險預警[J].電力自動化設備,2018,38(5):148-153

[9] HeXing,AiQian, QiuRC, et al.A big data architecture design for smart grids based on random matrix theory[J].IEEE Transon Smart Grid,2017,8(2):874-886

[10] 秦麗文,梁朔,高立克,等.全面數(shù)據(jù)質(zhì)量管理框架在配電網(wǎng)領域的應用分析[J].電力系統(tǒng)及其自動化學報,2020,32(4):62-68

[11] Goldstein, Markus..FastLOF: An Expectation-Maximiza-tion based Local Outlier Detection Algorithm[C].Proceedings-International Conference on Pattern Recognition,2012:1-6

[12] 張春平,楊波,楊志.分布式內(nèi)存電網(wǎng)關鍵技術研究及應用[J].計算機與現(xiàn)代化,2016(12):51-56

[13]唐偉斌,李濤,鄒品晶,等.基于皮爾遜相關系數(shù)的電網(wǎng)夏季空調(diào)負荷預測研究[J].電力需求側管理,2017,19(6):7-13

[14] 林俐,周鵬,王世謙,等.考慮相關性的地區(qū)風電出力對調(diào)峰容量的影響分析[J].現(xiàn)代電力,2016,33(6):21-26

[15] ChenWen,ZhouKaile,YangShanlin,et al.Dataquality of electricity consumption data in a smart grid environment[J].Renewable and Sustainable Energy Reviews,2017,75:98-105

猜你喜歡
聚類算法關聯(lián)分析智能配電網(wǎng)
K—Means聚類算法在MapReduce框架下的實現(xiàn)
基于隨機函數(shù)Petri網(wǎng)的系統(tǒng)動力學關聯(lián)分析模型
基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
關于智能配電網(wǎng)運行狀態(tài)管控與綜合評價關鍵技術的探討
關聯(lián)分析技術在學生成績分析中的應用
智能配電網(wǎng)關鍵技術研究
淺析分布式能源接入智能配電網(wǎng)技術
基于關聯(lián)分析的學生活動參與度與高校社團管理實證研究
基于改進的K_means算法在圖像分割中的應用
不同的數(shù)據(jù)挖掘方法分類對比研究