国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)K-means算法的饋線線損計(jì)算

2019-02-07 05:32張海林李琳夏傳良
軟件導(dǎo)刊 2019年12期
關(guān)鍵詞:means算法聚類分析

張海林 李琳 夏傳良

摘要:分析幾種主要線損計(jì)算方法優(yōu)缺點(diǎn)及線損分析中數(shù)據(jù)挖掘算法應(yīng)用,提出基于線損時(shí)域特征指標(biāo)和改進(jìn)K-means算法的饋線線損計(jì)算方法。充分利用線損信號(hào)中的時(shí)域信息,獲取線損信號(hào)中的平均線損率、線損率變異系數(shù)、線損率變化趨勢(shì)等表征線損信號(hào)的非平穩(wěn)特征。使用該算法對(duì)區(qū)域889條饋線線損進(jìn)行計(jì)算分析,取輪廓系數(shù)最大時(shí)對(duì)應(yīng)的k值進(jìn)行聚類分析,經(jīng)過65次迭代得到8個(gè)聚類結(jié)果,其中第7類平均線損率高達(dá)33.5%,第5類線損率為17.8%,但線損率變化趨勢(shì)達(dá)308。可以進(jìn)一步對(duì)該類饋線上的用電客戶負(fù)荷曲線進(jìn)行跟蹤分析,確定是否存在竊漏電行為。

關(guān)鍵詞:饋線線損;改進(jìn)K-means算法;聚類分析;輪廓系數(shù)

DOI:10.11907/rjd k.192203

中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)012-0022-04

0引言

用電信息采集系統(tǒng)可以為區(qū)域電網(wǎng)提供線損分析所需各類計(jì)量點(diǎn)電能量數(shù)據(jù),為實(shí)現(xiàn)配網(wǎng)線損異常分析打下基礎(chǔ)。目前,利用數(shù)據(jù)挖掘技術(shù)分析線損特征的分析方法有:RBF神經(jīng)網(wǎng)絡(luò)、Kohonen聚類、隨機(jī)森林算法、遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)、粒子群聚類、基于斷面的聚類等。

K-means聚類是一種無監(jiān)督學(xué)習(xí)方法,在解決小樣本問題時(shí)有獨(dú)特優(yōu)勢(shì)。文獻(xiàn)[7]提出了以距離為準(zhǔn)則進(jìn)行海洋異常數(shù)據(jù)判斷的檢測(cè)算法;文獻(xiàn)[8]、文獻(xiàn)[9]采用K-means算法沒有解決局部尋優(yōu)問題;文獻(xiàn)[10]利用改進(jìn)的K-means算法處理了聚類中心移動(dòng)規(guī)則問題,但沒有解決k值任選問題;文獻(xiàn)[11]沒有解決k值任選問題;文獻(xiàn)[12]確定每一輪迭代的聚類中心時(shí)都對(duì)評(píng)價(jià)指標(biāo)Pe進(jìn)行排序,算法時(shí)間復(fù)雜性增加;文獻(xiàn)[13]探討了電網(wǎng)線損統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量控制方法,建立統(tǒng)一的線損信息管理系統(tǒng)數(shù)據(jù)平臺(tái),利用數(shù)據(jù)驗(yàn)證,可追溯數(shù)據(jù)校正等方法,建立網(wǎng)格線損數(shù)據(jù)的控制機(jī)制;文獻(xiàn)[14]提出了一種基于饋線群集技術(shù)和改進(jìn)XGBoost算法的配電饋線線損估計(jì)方法,該算法基于智能配電并利用系統(tǒng)中采集的饋線特征數(shù)據(jù);文獻(xiàn)[15]提出了一種基于梯度增強(qiáng)決策樹(GBDT)的方法預(yù)測(cè)線損率。

本文基于線損時(shí)域特征參數(shù)和改進(jìn)的K-means聚類算法,引入輪廓系數(shù)評(píng)價(jià)指標(biāo),選取輪廓系數(shù)最大時(shí)對(duì)應(yīng)的k值對(duì)數(shù)據(jù)空間進(jìn)行聚類分析以解決局部尋優(yōu)問題,且優(yōu)化了變形誤差A(yù)D的計(jì)算方法。改進(jìn)后的算法充分利用線損信號(hào)中的時(shí)域信息,提取線損信號(hào)的線損率變化趨勢(shì)、線損率變異系數(shù)、平均線損率等參數(shù)表征線損信號(hào)的非平穩(wěn)特征,用于識(shí)別線損異常和評(píng)價(jià)線損正常特征,為用電檢查和線損管理提供數(shù)據(jù)支撐。

1線損時(shí)域特征分析

1.1線損時(shí)域特征指標(biāo)

線損率由用電信息采集系統(tǒng)提供的線損電量計(jì)算得出。線損電量包括從發(fā)電廠主變壓器一側(cè)至用戶電能表上的所有電能損失,線損電量不能直接計(jì)量,可以用抄表電量與實(shí)際售電量相減計(jì)算得到。線損率高就代表線路電量損耗較大,具有降損空間。對(duì)一段時(shí)間序列的線損率作算術(shù)平均,就能獲得某線路上的每日平均線損率。線損率計(jì)算公式為:

式中,LLR表示線損率,Em表示抄表電量,Es表示實(shí)際售電量。

為便于用戶竊漏電評(píng)價(jià),運(yùn)用線損特征分析對(duì)饋線、臺(tái)變、電表進(jìn)行分析。這3方面的分析方法原理相同,本文以饋線線損為例進(jìn)行線損計(jì)算,下面的線損均指饋線線損。

線損分析基礎(chǔ)數(shù)據(jù)記錄中包含有原始數(shù)據(jù)信息、線損率信息、時(shí)間變化信息等。通過對(duì)原始線損數(shù)據(jù)進(jìn)行計(jì)算可得到線損率均值、線損率異動(dòng)系數(shù)、線損率異動(dòng)趨勢(shì)3個(gè)指標(biāo)。

(1)線損率均值。代表線損率的平均水平,其計(jì)算如下:

通過表1中的相關(guān)系數(shù),可見線損指標(biāo)之間的相關(guān)系數(shù)絕對(duì)值都不大,相關(guān)性也不大,可從不同側(cè)面描述用戶線損特征,因此這3個(gè)指標(biāo)可同時(shí)用于對(duì)線損指標(biāo)的聚類分析。

2改進(jìn)K-means聚類算法

2.1K-means聚類算法思想

K-means算法也稱K-平均值算法,是一種典型的聚類分析方法,通常要先選取聚類的k值,然后將輸入分為集合s1,...sk并使得每個(gè)數(shù)據(jù)到其所在聚類均值的距離平方之和最小。

K-means算法流程如下:①首先從數(shù)據(jù)空間中選k個(gè)數(shù)據(jù)點(diǎn)為初始聚類均值;②計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到這些聚類均值的距離,然后將各數(shù)據(jù)點(diǎn)分配給離它最近的那個(gè)聚類;③若所有數(shù)據(jù)點(diǎn)不再被重新分配,則停止并保持現(xiàn)有聚類;③如果仍有數(shù)據(jù)點(diǎn)被重新分配,則重新計(jì)算均值,并返回步驟②。

該算法的第一步是隨機(jī)選擇任意k個(gè)數(shù)據(jù)點(diǎn)作為初始聚類中心,容易陷入局部最優(yōu)值,導(dǎo)致分類誤差,因此本文提出改進(jìn)的K-means算法。

2.2K-means聚類算法改進(jìn)

2.2.1最優(yōu)k值選擇

驗(yàn)證聚類結(jié)果的方法包括分析、實(shí)驗(yàn)、評(píng)價(jià)和舉例,本文利用輪廓系數(shù)作為線損時(shí)域特征聚類的評(píng)價(jià)指標(biāo),以解決k值的隨機(jī)選擇問題,經(jīng)過計(jì)算聚類結(jié)果的總輪廓系數(shù)st選擇最優(yōu)k值。作為聚類效果好壞的一種評(píng)價(jià)指標(biāo),聚類結(jié)果總的輪廓系數(shù)越大,則聚類效果越好。對(duì)于任意一個(gè)樣本點(diǎn)i,計(jì)算方法如式(6)所示。

2.2.2變形誤差衡量優(yōu)化

本文改進(jìn)的K-means聚類算法是將局部聚類中心移動(dòng)至更有利于分類的位置,以解決傳統(tǒng)K-means聚類算法容易陷人的局部最優(yōu)問題。

改進(jìn)方法為:按照輪廓系數(shù)確定最優(yōu)k值,取樣本中的k個(gè)對(duì)象作為初始聚類中心;將數(shù)據(jù)空間中每個(gè)對(duì)象分配給距離其最近的聚類,并且重新計(jì)算更換區(qū)別度大的聚類中心;再依照新的聚類中心重新聚類,重新評(píng)估是否應(yīng)該更換聚類中心。

更換聚類中心容易引起變形誤差,變形誤差的衡量方法是:n個(gè)樣本構(gòu)成一個(gè)歐式空間,可以計(jì)算某個(gè)聚類里某個(gè)對(duì)象x;與歐式空間中心Xo的距離d(Xi,Xo),也可計(jì)算聚類中心Ф到歐式空間中心Xo的距離d(Ф,xo)。如果在同一聚類中,則變更聚類中心為聚類中其它對(duì)象,更換聚類中心Ф點(diǎn)引起的變形誤差公式是:

△D<0代表聚類中心移動(dòng)可使聚類整體的變形誤差減小。AD絕對(duì)值越大,則聚類中心越容易將聚類從整體區(qū)分出來。

為準(zhǔn)確變更聚類中心,可以描述為:某聚類中如果更換其中至少一個(gè)對(duì)象作為新聚類中心能使變形誤差A(yù)D<0,則選其中AD絕對(duì)值最大的一個(gè)作為新聚類中心;否則保持聚類中心不變。

改進(jìn)K-means聚類算法執(zhí)行步驟如下:①用最大輪廓系數(shù)確定最優(yōu)k值,選k個(gè)對(duì)象為初始聚類中心;②將樣本空間中每個(gè)對(duì)象分配給距離其最近的聚類,且重新計(jì)算聚類中心;③若聚類中的對(duì)象不再被重新分配,則保持現(xiàn)有聚類,然后轉(zhuǎn)到步驟④;④根據(jù)上述依據(jù)變形誤差A(yù)D的聚類中心移動(dòng)規(guī)則,若一個(gè)聚類中心移到更好位置可減小整體變形誤差和,則將它移到更好位置,然后轉(zhuǎn)到步驟②。

3線損計(jì)算分析過程

3.1樣本數(shù)據(jù)預(yù)處理

樣本數(shù)據(jù)預(yù)處理主要包括異常值處理、缺失值處理、數(shù)據(jù)指標(biāo)計(jì)算、數(shù)據(jù)分組排序等。缺失值處理:原始測(cè)量數(shù)據(jù)可能有缺失現(xiàn)象,此時(shí)入電量或出電量都是0,這可能是由于電表損壞或測(cè)量誤差所致,為了保證線損計(jì)算數(shù)據(jù)的有效性,這類觀測(cè)數(shù)據(jù)需要剔除。

本文異常值判別采用格拉布斯準(zhǔn)則的統(tǒng)計(jì)方法進(jìn)行篩選,剔除不合格數(shù)據(jù)。其判別原理是在給定包含概率p=0.99或p=0.95,也即顯著性水平為a=1-p=0.01或a=0.05時(shí),滿足式(9),即可判定為異常值。

3.2線損計(jì)算流程

首先經(jīng)過用電信息采集系統(tǒng)采集測(cè)量數(shù)據(jù),然后對(duì)采集數(shù)據(jù)進(jìn)行線損特征提取,最后依據(jù)數(shù)據(jù)特征指標(biāo)進(jìn)行聚類分析,并對(duì)用戶進(jìn)行竊漏電評(píng)價(jià)。具體步驟如下:

(1)讀取線損數(shù)據(jù)。抽調(diào)一段時(shí)間、指定范圍內(nèi)的饋線線損相關(guān)數(shù)據(jù)作為研究對(duì)象。

(2)線損數(shù)據(jù)預(yù)處理。采用上文方法,對(duì)參數(shù)不一致、不完整的數(shù)據(jù)進(jìn)行糾正和整理。

(3)生成線損數(shù)據(jù)集。每個(gè)數(shù)據(jù)對(duì)象包括線損對(duì)象編號(hào)、起始時(shí)間、結(jié)束時(shí)間、統(tǒng)計(jì)抄表電量、出售電量和線損率信息等。每回觀測(cè)的起始時(shí)間與結(jié)束時(shí)間相隔1天,將數(shù)據(jù)按對(duì)象編號(hào)分組,形成初始數(shù)據(jù)集,每條數(shù)據(jù)都是一個(gè)對(duì)象。

(4)線損時(shí)域特征提取。采用上文式(2)一式(4)計(jì)算反映線損時(shí)域特征指標(biāo)的線損率異動(dòng)系數(shù),線損率均值和線損率異動(dòng)趨勢(shì)。

(5)計(jì)算輪廓系數(shù),確定K-means聚類算法的最優(yōu)k值。

(6)對(duì)線損時(shí)域特征指標(biāo)聚類分群。采用改進(jìn)的K-means聚類算法對(duì)特征指標(biāo)數(shù)據(jù)空間進(jìn)行聚類,獲得聚類結(jié)果。

(7)疑似竊漏電分析。

改進(jìn)K-means算法的線損計(jì)算流程如圖1所示。

4線損計(jì)算算例

本文所用線損數(shù)據(jù)源自用電信息采集系統(tǒng)2017年7月50條線路相關(guān)數(shù)據(jù),包括線路編號(hào)、起止時(shí)間、抄表電量、出售電量和線損率等相關(guān)信息,形成初始數(shù)據(jù)集。

本文使用某大型供電企業(yè)所轄889條饋線作為樣本,對(duì)本文設(shè)計(jì)的線損計(jì)算方法進(jìn)行計(jì)算。由于樣本量巨大,不詳細(xì)列出全部樣本的全部數(shù)據(jù),部分?jǐn)?shù)據(jù)如表1所示。

由原始數(shù)據(jù)可以看出,如果平均線損率小于20%,表示該線損率正常;平均線損率大于20%或小于0時(shí),則該線損率不正常,需進(jìn)一步分析。

線損率均值、線損率異動(dòng)系數(shù)和線損率異動(dòng)趨勢(shì)3個(gè)指標(biāo)共有8種組合方式,分別為k取值2、3、4、5、6、7、8時(shí)對(duì)數(shù)據(jù)集進(jìn)行聚類,根據(jù)式(6)、式(7)計(jì)算聚類結(jié)果的總輪廓系數(shù),如表2所示。

由表2可以看出,當(dāng)k取8時(shí)聚類結(jié)果總的輪廓系數(shù)最大,因此基于改進(jìn)K-means聚類算法對(duì)數(shù)據(jù)空間進(jìn)行聚類分群時(shí),對(duì)k選值8進(jìn)行聚類分析,經(jīng)過65次迭代,獲得8個(gè)聚類結(jié)果,如表3所示。

從聚類分析結(jié)果可以看出,對(duì)于聚類7平均線損率高達(dá)33.5%,該聚類群竊漏電嫌疑較大;聚類5類也非常特別,群內(nèi)線損率為17.8%,但線損率異動(dòng)趨勢(shì)高達(dá)308,這很可能是由于竊漏電具有時(shí)間性所致。

5結(jié)語

本文以區(qū)域用電信息采集系統(tǒng)數(shù)據(jù)為基礎(chǔ),以饋線為研究對(duì)象,采用數(shù)據(jù)挖掘技術(shù),在線損計(jì)算分析中引入K-means算法,提出了一種改進(jìn)K-means聚類的線損分析算法,以解決常規(guī)K-means算法容易陷入局部最優(yōu)問題;同時(shí)進(jìn)行了更準(zhǔn)確的線損率異動(dòng)系數(shù)、線損率均值和線損率異動(dòng)趨勢(shì)等線損時(shí)域特征指標(biāo)分析,為竊漏電分析提供數(shù)據(jù)支撐,從而確??蛻艉侠硎胤ㄓ秒?。在竊漏電分析上還有繼續(xù)研究空間,可根據(jù)聚類結(jié)果進(jìn)一步分析饋線上哪類客戶、哪個(gè)客戶存在竊漏電行為。另外,線損預(yù)測(cè)也是下一步研究重點(diǎn)。

猜你喜歡
means算法聚類分析
SIFT算法在木材紋理分類上的應(yīng)用
基于數(shù)據(jù)抽樣的自動(dòng)k?means聚類算法
宕昌县| 朔州市| 盐山县| 白城市| 井研县| 封丘县| 海伦市| 内江市| 宁波市| 岐山县| 五寨县| 新化县| 册亨县| 玉树县| 苍南县| 白城市| 海林市| 温州市| 辽源市| 灵丘县| 湾仔区| 成都市| 余干县| 孟连| 宁陕县| 蕲春县| 洮南市| 安多县| 桦甸市| 泽普县| 江西省| 怀柔区| 惠东县| 吴旗县| 克东县| 吴川市| 阿瓦提县| 伊春市| 北京市| 勐海县| 北流市|