国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聚類算法的大用戶用電模式識別研究

2017-10-21 15:05:50趙志宇肖穎婷任瑩
中國管理信息化 2017年19期
關鍵詞:means算法聚類分析

趙志宇++肖穎婷++任瑩

[摘 要] 針對電力企業(yè)中大用戶用電模式識別手工為主的問題,提出了一種基于K-means和HAC算法的用電負荷二次聚類的方法,并進行了實例應用分析,結果表明,該方法是一種對用戶用電模式快速識別的有效方法,能夠減少人力物力的投入,為今后業(yè)務領域進一步分析提供了重要的手段。

[關鍵詞] 電力負荷;K-means算法;HAC算法;用電模式;聚類分析

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 19. 076

[中圖分類號] TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2017)19- 0177- 03

0 前 言

電力負荷特性分析的研究一直是電力企業(yè)中的一項重要的內(nèi)容,對于電網(wǎng)的規(guī)劃和發(fā)展有著重要的指導意義。同時,隨著國民經(jīng)濟的發(fā)展,產(chǎn)業(yè)結構的不斷調(diào)整變化,不同類型的電力負荷也隨著在不斷變化中。為此,及時準確掌握電力用戶負荷特性的變化,對用戶用電模式進行識別和跟蹤,有著重要的價值。

1 負荷現(xiàn)狀分析

本文所用電力數(shù)據(jù)來源云南某市電網(wǎng),見表1,可知,該市2016年的電力負荷主要是大工業(yè)為主,占比為60.55%,其次為居民用電,占比為21.49%,為典型的工業(yè)城市。

進一步分析該市的日負荷曲線(見圖1)。日負荷曲線較為平穩(wěn),周期性比較明顯,用電高峰都在白天出現(xiàn),局部存在突變。

2 聚類算法選擇

聚類算法是根據(jù)數(shù)據(jù)樣本之間的相似度來進行歸屬和分類的一種方法, 樣本之間相似度高,就優(yōu)先歸為一類, 不同類之間的樣本相似度盡可能的低。目前應用較廣泛的主要包括距離劃分、層次劃分、密度劃分、網(wǎng)格劃分4種方法。

而電力負荷曲線具有多樣性和復雜性,不同于普通的數(shù)據(jù)樣本,不能按照單一的原則進行硬劃分。本文通過混合基于距離的K-means和基于層次的HAC算法進行綜合分類。

2.1 基于距離的K-means算法

算法以k為參數(shù),把n個對象分成k個簇,使簇內(nèi)具有較高的相似度,而簇間的相似度較低。數(shù)據(jù)與各簇中心的距離定位為:E= |p-mi|2。這里E是數(shù)據(jù)庫中所有對象的平方誤差的總和,p是空間中的點,mi是簇Ci的平均值。該目標函數(shù)使生成的簇盡可能緊湊獨立,使用的距離度量是歐幾里得距離,當然也可以用其他距離度量。

2.2 基于層次的HAC算法

層次聚類的策略是先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到所有對象都在一個簇中,或者某個終結條件被滿足。各簇之間距離的定位為:darg(ci,cj)= p?奐Ci, p′?奐Ci,|p-p′|。這里|p-p′|是兩個對象p和p′之間的距離,mi是簇ci的平均值,ni是簇ci中對象的數(shù)目。

首先使用 K-means算法,輸入所有數(shù)據(jù)進行一次聚類,生成相對緊湊的簇。再使用層次聚類HAC算法,輸入為第一次聚類后的中心點數(shù)據(jù)。另外,聚類的時候,還需要考慮負荷曲線數(shù)據(jù)的性質(zhì)相似性,比較兩兩時序負荷曲線的距離。

3 負荷數(shù)據(jù)預處理

分析的數(shù)據(jù)取自云南電網(wǎng)計量自動化系統(tǒng)15分鐘一個采集周期的負荷數(shù)據(jù)。由于原始數(shù)據(jù)中存在一些缺失、重復、異常等問題,所以需要對原始數(shù)據(jù)進行清洗,預處理的過程包括如圖2所示幾個步驟:

3.1 數(shù)據(jù)清洗

首先從原始系統(tǒng)抽取大工業(yè)用戶及用戶每天96點的計量數(shù)據(jù),缺失率和重復率>50%的直接去掉,采集值超過理論上下限的也直接去掉,針對保留下的數(shù)據(jù)用該用戶最近3個月同期數(shù)據(jù)的平均值替換。

3.2 數(shù)據(jù)降維

根據(jù)之前的觀察,負荷數(shù)據(jù)具有一定的周期性,尤其是在工作日。為此將周一至周五的數(shù)據(jù)抽取出來,計算1天內(nèi)96個點標簽(00:00:00-23:45:00)的所有數(shù)據(jù)的平均值,這樣就可將一個月的所有數(shù)據(jù)降維到96。

3.3 數(shù)據(jù)歸一化

這里采用min-max標準化方法,計算方法為x*=,這樣就把數(shù)據(jù)映射到[0~1]范圍之內(nèi),避免了量綱大小的影響。

4 用電模式識別分析

通過以上的預處理,得到了96維度的負荷數(shù)據(jù),其中每一行對應一個表 ID,每一列對應一天內(nèi)每小時的值,基于聚類算法的分析步驟如下:

4.1 相似性方法

數(shù)據(jù)樣本在簇內(nèi)和簇間比較相似性的方法有很多,常用的有歐幾里德距離、馬氏距離、閔可夫斯基距離、余弦距離等。考慮的數(shù)據(jù)的分布特點不明確,選擇Pearson系數(shù)作為相似性度量指標。

4.2 一次聚類分析

首先,利用K-means算法來做第一次數(shù)據(jù)的聚類。由于K-means 需要預先提供初始中心點,選取一些比較特殊的實例再加一些隨機選擇的實例作為初始中心點,簇個數(shù) k 設定為比最佳簇個數(shù)大許多的一個值,初設為70(因為 k值越大,得到的簇會越緊湊),并不斷優(yōu)化調(diào)整。

4.3 二次聚類分析

第二步,利用層次HAC 聚類方法,輸入為第一步得到的中心點。在聚類的每一層都會利用前一層的結果作為輸入。如果某一簇中有一些錯誤匹配,這里需要用戶將其從原始簇中去除,并且由用戶指定到其它簇中。經(jīng)過調(diào)整后,新的結果需要再作檢查直到它達到令人滿意的效果,只到最后一層。

圖3是通過二次聚類方法得到的大工業(yè)用戶用電模式曲線圖。

5 結 論

本文提出的多次聚類方法能夠使對電力用戶用電模式的識別上擺脫人工分析的傳統(tǒng)方法,減少人力物力的投入,為今后業(yè)務領域進一步開展用戶分析提供了一項重要的參考依據(jù)和手段。

主要參考文獻

[1]張忠華.電力系統(tǒng)負荷分類研究[D].天津:天津大學,2007.

[2]鞠平,謝會玲,陳謙.電力負荷建模的發(fā)展趨勢[J].電力系統(tǒng)自動化,2007,31(2):1-4.

[3]丁麒,王光增.地區(qū)電力用戶負荷模式聚類分析應用[J].機電工程,2008,25(9):31-33.

[4]伍育紅. 聚類算法綜述[J]. 計算機科學,2015(z1).

[5]陳曉,趙晶玲. 大數(shù)據(jù)處理中混合型聚類算法的研究與實現(xiàn)[J]. 信息網(wǎng)絡安全,2015(4).

猜你喜歡
means算法聚類分析
基于聚類分析研究貴州省各地區(qū)經(jīng)濟發(fā)展綜合評價
商情(2016年39期)2016-11-21 08:45:54
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費支出分析
SIFT算法在木材紋理分類上的應用
基于省會城市經(jīng)濟發(fā)展程度的實證分析
中國市場(2016年33期)2016-10-18 12:16:58
基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
科技視界(2016年20期)2016-09-29 12:32:48
基于K—Means聚類算法入侵檢測系統(tǒng)研究
基于Weka的Apriori算法在原油產(chǎn)量預測中的應用
“縣級供電企業(yè)生產(chǎn)經(jīng)營統(tǒng)計一套”表輔助決策模式研究
基于HSI顏色空間的小麥粉精度自動識別研究
鸡泽县| 鲁山县| 上蔡县| 察隅县| 准格尔旗| 新建县| 甘南县| 开远市| 凤城市| 屯昌县| 阿鲁科尔沁旗| 崇明县| 双流县| 汽车| 松江区| 湘潭县| 华池县| 大石桥市| 偃师市| 武隆县| 当雄县| 姚安县| 九寨沟县| 贵港市| 无棣县| 龙口市| 武义县| 宁城县| 班戈县| 昌乐县| 宁强县| 宁海县| 揭阳市| 广河县| 惠安县| 师宗县| 原平市| 上林县| 兴安县| 兴山县| 肥城市|