国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自編碼器的電力負荷聚類分析

2021-11-23 13:14:24趙忠啟常喜強樊艷芳
科學(xué)技術(shù)與工程 2021年32期
關(guān)鍵詞:降維編碼器權(quán)值

趙忠啟, 常喜強,*, 樊艷芳, 徐 森, 樊 茂

(1.新疆大學(xué)電氣工程學(xué)院, 烏魯木齊 830047; 2.國網(wǎng)新疆電力有限公司, 烏魯木齊 830011)

近年來,隨著智能采集感知控制技術(shù)的廣泛應(yīng)用,積累了大量的電力負荷數(shù)據(jù)[1]。通過聚類技術(shù),在電力負荷數(shù)據(jù)中挖掘不同類型的用電負荷的典型負荷曲線,提取有效的特征,從而有助于電網(wǎng)進行負荷建模、節(jié)能改造、需求響應(yīng)管理等工作[2]。因此,對負荷曲線聚類方法的研究,具有十分重要的應(yīng)用價值。

聚類作為一種無監(jiān)督的機器學(xué)習(xí)算法,可以對數(shù)據(jù)集進行分簇,簇內(nèi)數(shù)據(jù)之間存在高度的相似性,簇間數(shù)據(jù)之間有一定的差異性,在數(shù)據(jù)挖掘領(lǐng)域具有廣泛的應(yīng)用。對負荷曲線的聚類可以分為直接聚類和間接聚類,直接聚類是對電力負荷數(shù)據(jù)不做處理而直接運用算法進行聚類[3]。文獻[4]根據(jù)樣本密度和樣本集中的距離相對較遠原則選取初始聚類中心,再采用誤差平方和得出最優(yōu)聚類數(shù)目K值,但存在時間復(fù)雜度較高的問題。文獻[5]通過數(shù)據(jù)點之間的緊密性進行排除離群點影響,在數(shù)據(jù)集中高密度處選取初始聚類中心,但仍需要人工確定聚類數(shù)目。文獻[6-7]通過結(jié)合自適應(yīng)學(xué)習(xí)理論、聚類有效性函數(shù)評價計算,解決了傳統(tǒng)聚類算法中K值的人工確定問題,但聚類準確率較低。

然而,隨著負荷數(shù)據(jù)維度的不斷增加,直接聚類在處理高維數(shù)據(jù)時遇到了存儲量和計算量的雙重挑戰(zhàn)。間接聚類能夠解決這個問題。間接聚類是先提取電力負荷數(shù)據(jù)的特征,降低負荷數(shù)據(jù)維度,再對降維后的序列聚類分析。文獻[8]通過奇異值分解方法對數(shù)據(jù)進行變換,即處于一種新的坐標系中,各坐標軸上的坐標是降維指標,再運用改進的K-means算法對負荷曲線聚類。文獻[9]通過對負荷數(shù)據(jù)采用離散傅里葉變換進行降維并提取特征,再對負荷曲線聚類。文獻[10-11]通過Sammon映射、主成分分析等降維算法對負荷數(shù)據(jù)降維,再通過不同的聚類方法進行聚類,得到有效的聚類曲線結(jié)果。

上述研究采用的降維算法對原本負荷數(shù)據(jù)之間存在的差異性造成破壞,丟失了原始負荷數(shù)據(jù)的信息,影響了負荷曲線聚類結(jié)果的準確度。隨著基于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)在電力行業(yè)的快速發(fā)展應(yīng)用,已有技術(shù)為降維聚類提供了一種新的解決方法。自編碼器作為新型的機器學(xué)習(xí)模型,可以對負荷數(shù)據(jù)進行特征提取,通過多層神經(jīng)網(wǎng)絡(luò)從高維的原始負荷數(shù)據(jù)中獲取低維空間的特征信息,利用無損重構(gòu)得到原始負荷數(shù)據(jù)信息。

現(xiàn)提出一種基于自編碼器降維的電力負荷聚類方法,通過自編碼器進行負荷數(shù)據(jù)特征提取并降維,再采用密度權(quán)值Canopy算法對降維后的數(shù)據(jù)預(yù)聚類,獲取初始聚類中心和最優(yōu)聚類數(shù)目K值,預(yù)聚類結(jié)果結(jié)合K-means算法進行聚類。為此,通過聚類有效性指標與其他傳統(tǒng)方法對比分析,以期提升電力負荷聚類效率和聚類結(jié)果準確度的效果。

1 負荷降維理論

自編碼器是一種用于無監(jiān)督學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò),包括輸入層、輸出層和隱藏層3層結(jié)構(gòu)[12],通過把輸入的數(shù)據(jù)集非線性映射至隱藏層,獲得數(shù)據(jù)集的壓縮編碼,即得到另一維度空間中原始數(shù)據(jù)的特征信息,其足以再現(xiàn)輸入層的信息,從而可以達到降低數(shù)據(jù)維度和提高計算效率的目的。自編碼器網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

訓(xùn)練過程分為編碼部分和解碼部分,將均方誤差(mean square error, MSE)作為不斷進行迭代訓(xùn)練調(diào)整自編碼器(auto-encoder, AE)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)的損失函數(shù),獲取精確的低維度特征信息。自編碼器的編碼、解碼過程為

(1)

(2)

式中:fencoder和fdecoder分別為編碼部分和解碼部分;x、r為輸入數(shù)據(jù)、低維度特征向量;h為高維度數(shù)。

2 基于密度權(quán)值Canopy的K-means聚類算法

2.1 傳統(tǒng)K-means聚類算法

K-means作為一種劃分式硬聚類算法[13],是大數(shù)據(jù)挖掘技術(shù)中最經(jīng)典的聚類算法,在工業(yè)、科研領(lǐng)域都得到廣泛的應(yīng)用和研究。K-means算法的基本原理為:在訓(xùn)練數(shù)據(jù)集D中,輸入所需的聚類數(shù)目K值之后,從D內(nèi)隨機選取與聚類數(shù)目相同的數(shù)據(jù)向量作為初始聚類中心,計算各個樣本和聚類中心之間的距離,按最小距離原則進行分簇[14],再計算各簇的平均值并更新為新的聚類中心,不斷地迭代循環(huán),最終使簇內(nèi)緊湊、簇間疏遠,即誤差平方和函數(shù)值穩(wěn)定在最小值時停止迭代。

在計算各樣本之間距離時,K-means算法采用的是歐式距離。設(shè)給定數(shù)據(jù)集D={x1,x2, …,xn},則計算任意兩個樣本點之間的歐氏距離公式為

(3)

式(3)中:xp={xp1,xp2, …,xpm};xq={xq1,xq2, …,xqm};m為樣本元素的維度。

誤差平方和函數(shù)為

(4)

式(4)中:K為聚類數(shù)目;ri為第i個簇集中樣本元素的數(shù)目;xj為第i個簇集中的樣本元素;vi為第i個簇集中全部樣本元素的數(shù)據(jù)均值。

圖2 傳統(tǒng)K-means算法流程圖Fig.2 Flow chart of traditional K-means algorithm

傳統(tǒng)K-means算法流程圖如圖2所示。在傳統(tǒng)K-means算法中,是隨機選取K值和初始聚類中心,這種隨機性可能導(dǎo)致收斂至局部最優(yōu)解,使得聚類的質(zhì)量及穩(wěn)定性變差[13]。

2.2 改進的K-means聚類算法

為了解決傳統(tǒng)K-means算法無法有效處理高維數(shù)據(jù),且存在人工給定聚類數(shù)目K值及隨機選取初始聚類中心易收斂至局部最優(yōu)的問題,提出密度權(quán)值Canopy的改進K-means算法對降維后的電力負荷數(shù)據(jù)進行聚類。改進算法通過密度權(quán)值Canopy算法對降維后的數(shù)據(jù)執(zhí)行預(yù)聚類,從而能夠獲取初始聚類中心和合適的聚類數(shù)目,將預(yù)聚類結(jié)果結(jié)合K-means算法進行聚類。

數(shù)據(jù)集D中第i個數(shù)據(jù)點xi的密度ρ(i)為

(5)

(6)

由式(5)可知,ρ(i)表示的物理意義為:在數(shù)據(jù)集D中,樣本i與其余樣本之間的距離小于MeanDis(D)的樣本元素數(shù)目。

簇內(nèi)樣本平均距離a(i)可表示為

(7)

簇間距離s(i)可表示為

(8)

式中:I={ρ(j)>ρ(i)},其中ρ(j)為第j個數(shù)據(jù)點xj的密度;d(i,j)為樣本點i、j之間的歐氏距離。

由式(8)可知,簇間距離s(i)表示的物理意義為:若樣本元素i的局部密度為最大,與距其最遠的樣本元素之間的距離為s(i),即s(i)=max{d(i,j)};否則,與距其最近的樣本元素之間的距離為s(i),即s(i)=min{d(i,j)}。

權(quán)值積w的計算公式為

(9)

由樣本密度ρ(i)、簇內(nèi)樣本平均距離a(i)、簇間距離s(i)以某種形式的乘積構(gòu)成了最大權(quán)值積法,能夠有效對中心特征進行反映,從而為最大權(quán)值積的數(shù)據(jù)點是下一個初始聚類中心。改進的K-means算法流程圖如圖3所示。

圖3 改進的K-means算法流程圖Fig.3 Flow chart of improved K-means algorithm

改進的K-means算法步驟如下。

步驟1對于降維后的數(shù)據(jù)集D,利用公式(5)進行計算D中全部樣本元素的密度值,第一個聚類中心c1選取其中的密度值最大點,則聚類中心的集合C變化為C={c1},與此同時,將D中距c1小于樣本元素平均距離MeanDis(D)的點去除。

步驟2由式(5)、式(7)、式(8)計算D中剩余樣本數(shù)據(jù)的ρ(i)、a(i)、s(i),并將其代入式(9)中進行計算權(quán)值積w,第二個聚類中心c2選取其中的權(quán)值積值最大點,聚類中心的集合C變化為C={c1,c2},與此同時,將D中距c2小于樣本元素平均距離MeanDis(D)的點去除。

步驟3重復(fù)執(zhí)行步驟2,直至降維后的數(shù)據(jù)集D為空,由此可得C={c1,c2,…,ck}。

步驟4將以上步驟得到的初始聚類中心和K值結(jié)合K-means算法,對D聚類并更新聚類中心。當(dāng)新的聚類中心和初始聚類中心之間無變化時,輸出聚類結(jié)果。

3 基于AE降維的電力負荷聚類分析

3.1 數(shù)據(jù)預(yù)處理

隨著能源互聯(lián)網(wǎng)的不斷發(fā)展,獲取海量基礎(chǔ)的電力負荷用電數(shù)據(jù)難度逐漸降低[15]。但在數(shù)據(jù)采集過程中,由于存在終端采集設(shè)備故障、數(shù)據(jù)傳輸通信錯誤、人為因素丟失等問題[16],負荷數(shù)據(jù)中仍有缺失數(shù)據(jù)與異常數(shù)據(jù)的存在。

在數(shù)據(jù)清洗時,剔除存在較大數(shù)據(jù)量缺失的負荷曲線數(shù)據(jù),利用多階拉格朗日內(nèi)插法對缺失不嚴重的負荷數(shù)據(jù)進行填充,如式(10)所示。若某條負荷曲線t時刻的負荷數(shù)據(jù)變化率與前一時刻的負荷數(shù)據(jù)變化率存在較大差異,或在預(yù)設(shè)閾值之外,稱其為異常數(shù)據(jù),可以通過高斯濾波方法消噪,也可采用多階拉格朗日內(nèi)插法對少量異常的負荷曲線數(shù)據(jù)進行修正。

(10)

為了進行AE神經(jīng)網(wǎng)絡(luò)訓(xùn)練,對負荷數(shù)據(jù)進行StandardScaler標準化,消除負荷數(shù)據(jù)量綱對后續(xù)聚類的影響,保證數(shù)據(jù)之間的可比性,采用Z-Score標準化公式為

(11)

式(11)中:x為清洗后的負荷數(shù)據(jù);x′為標準化后的負荷數(shù)據(jù);μ、σ分別為樣本數(shù)據(jù)的均值、標準差。

3.2 整體算法流程

整體算法包括對負荷數(shù)據(jù)的預(yù)處理、負荷數(shù)據(jù)降維、初始聚類中心與K值的確定、數(shù)據(jù)集的聚類及性能評估。整體算法流程圖如圖4所示。具體的流程描述如下。

圖4 整體算法流程圖Fig.4 Overall algorithm flow chart

(1)通過數(shù)據(jù)校正和數(shù)據(jù)補全技術(shù)對負荷數(shù)據(jù)進行數(shù)據(jù)清洗,進行標準化,完成負荷數(shù)據(jù)的預(yù)處理。

(2)利用自編碼器技術(shù)提取負荷數(shù)據(jù)的低維特征,降低負荷數(shù)據(jù)維度,實現(xiàn)原始數(shù)據(jù)的無損壓縮,可以提高后續(xù)聚類的速度與精度。

(3)采用密度權(quán)值Canopy算法對降維后的負荷數(shù)據(jù)執(zhí)行預(yù)聚類,從而能夠獲取初始聚類中心和合適的聚類數(shù)目。

(4)將預(yù)聚類結(jié)果結(jié)合K-means算法聚類,輸出聚類結(jié)果,并通過聚類有效性指標與其他傳統(tǒng)方法對比分析。

4 算例分析

4.1 數(shù)據(jù)集來源

實驗數(shù)據(jù)選取新疆某地區(qū)2019年74條10 kV線路運行數(shù)據(jù),每5 min采集一次負荷數(shù)據(jù),每條線路全年共采集17 520個數(shù)據(jù)點,構(gòu)成17 520×74階矩陣。

將采用3.1節(jié)所述方法進行數(shù)據(jù)預(yù)處理后的負荷實測數(shù)據(jù)執(zhí)行自編碼器訓(xùn)練,學(xué)習(xí)率為0.5,批尺寸為256,通過1 000次的不斷迭代訓(xùn)練,其損失函數(shù)的迭代過程如圖5所示。

MSE為均方誤差圖5 MSE損失函數(shù)訓(xùn)練曲線Fig.5 MSE loss function training curve

輸入數(shù)據(jù)在編碼部分可以提取原始數(shù)據(jù)特征,獲取降維數(shù)據(jù),再經(jīng)過解碼部分重構(gòu)原始數(shù)據(jù)。隨著迭代次數(shù)的增加,原始數(shù)據(jù)與輸出數(shù)據(jù)之間的MSE損失函數(shù)不斷減少,損失值穩(wěn)定在0.001 4左右,表明該降維數(shù)據(jù)可以有效地對原始數(shù)據(jù)進行表征。

4.2 電網(wǎng)實際負荷曲線聚類

采用自編碼器網(wǎng)絡(luò)模型提取負荷數(shù)據(jù)的低維特征,降低負荷數(shù)據(jù)維度,將降維數(shù)據(jù)輸入至改進的K-means算法聚類,得到的負荷曲線聚類結(jié)果如圖6所示。

根據(jù)新疆季節(jié)特點,供暖季是11月15日—4月15日,圖6聚類結(jié)果可分為2種主要區(qū)域類型,即實施煤改電區(qū)域與未實施煤改電區(qū)域。圖6(a)、圖6(b)中,負荷曲線整體趨勢大致相似,考慮接入大量的電采暖設(shè)備取代傳統(tǒng)形式煤采暖,電采暖用戶供暖季用電量呈現(xiàn)快速上升,在4月15日、11月15日左右負荷曲線出現(xiàn)明顯的下降、上升,6—8月夏季負荷出現(xiàn)升高,但夏季負荷峰值小于供暖季負荷峰值,簇類負荷曲線供暖季負荷高于非供暖季負荷,為實施煤改電區(qū)域。圖6(c)、圖6(d)中,考慮用戶仍采用傳統(tǒng)形式煤采暖,簇類負荷曲線供暖季負荷明顯低于非供暖季負荷,為未實施煤改電區(qū)域。

最終的負荷曲線聚類中心是4類,如圖7所示。為了方便進行分析,將4類負荷曲線聚類中心作為每簇類曲線的代表負荷曲線。

由圖7可知,代表負荷曲線數(shù)據(jù)之間的差異性比較大。雖代表負荷同屬于實施煤改電或未實施煤改電區(qū)域,但各區(qū)域變壓器的額定容量、型號卻存在著不同,可以承受的總負荷大小也是不一樣,從而負荷數(shù)據(jù)范圍存在一定的差異性。

4.3 聚類性能分析

聚類有效性指標能夠?qū)垲惡蟮慕Y(jié)果進行定量分析,將采用訓(xùn)練后的AE模型進行負荷曲線聚類與改進的K-means直接聚類、傳統(tǒng)K-means聚類得到的DBI(Davies-Bouldin index)指標、CHI(Calinski-Harabasz index)指標、運行時間數(shù)值做對比[10,17],結(jié)果如表1所示。

玫紅色曲線為該簇類負荷的聚類中心圖6 基于AE降維的負荷曲線聚類結(jié)果Fig.6 Load curve clustering results based on AE dimensionality reduction

由表1可知,所提降維聚類算法的DBI指標值均比改進的K-means直接聚類、傳統(tǒng)K-means算法低,而CHI指標值均比改進的K-means直接聚類、傳統(tǒng)K-means算法高,表明所提降維聚類算法聚類準確度優(yōu)于改進的K-means直接聚類和傳統(tǒng)K-means聚類。此外,采用訓(xùn)練后的AE模型進行負荷曲線聚類,運行時間約為10.323 s,而改進的K-means直接聚類、傳統(tǒng)K-means聚類運行時間分別約為15.843、24.356 s,可見,由于AE對數(shù)據(jù)集進行了壓縮,降低了數(shù)據(jù)集規(guī)模,從而可提高相應(yīng)的聚類速度。

圖7 基于AE降維的負荷曲線聚類中心圖Fig.7 Load curve clustering center diagram based on AE dimensionality reduction

表1 不同聚類算法之間結(jié)果對比Table 1 Comparison of results between different clustering algorithms

5 結(jié)論

(1)提出一種基于自編碼器的電力負荷聚類方法,通過自編碼器進行負荷數(shù)據(jù)降維處理,再采用密度權(quán)值Canopy算法對降維后的負荷數(shù)據(jù)預(yù)聚類,得到初始聚類中心和最優(yōu)聚類數(shù)目K值,預(yù)聚類結(jié)果結(jié)合K-means算法進行聚類。經(jīng)過算例分析,驗證了該方法應(yīng)用于電力負荷聚類能夠減少聚類過程中的復(fù)雜度,提高了聚類效率和聚類結(jié)果的準確度,分類出不同的區(qū)域類型,分析出不同區(qū)域中負荷的特點,有助于電網(wǎng)進行負荷建模、負荷特性模擬、需求響應(yīng)管理等工作。

(2)通過本文方法也對智能樓宇空調(diào)、電動汽車等領(lǐng)域的負荷數(shù)據(jù)進行了分析,取得同樣的驗證結(jié)果。隨著智能電網(wǎng)的快速發(fā)展,如何結(jié)合多源異構(gòu)大數(shù)據(jù)融合,構(gòu)建精細化程度更高的聚類方法是今后的研究方向。

猜你喜歡
降維編碼器權(quán)值
Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
一種融合時間權(quán)值和用戶行為序列的電影推薦模型
CONTENTS
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
基于FPGA的同步機軸角編碼器
基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
基于PRBS檢測的8B/IOB編碼器設(shè)計
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
電子器件(2015年5期)2015-12-29 08:42:24
多總線式光電編碼器的設(shè)計與應(yīng)用
拋物化Navier-Stokes方程的降維仿真模型
計算物理(2014年1期)2014-03-11 17:00:18
石首市| 丹巴县| 永寿县| 岳西县| 兴城市| 张家口市| 龙江县| 苗栗市| 筠连县| 牡丹江市| 康马县| 朝阳县| 曲麻莱县| 抚顺县| 桃园市| 大冶市| 普宁市| 安塞县| 阜康市| 宝鸡市| 大埔区| 伊金霍洛旗| 平邑县| 松江区| 石家庄市| 霍州市| 金秀| 开江县| 宜春市| 香港| 江油市| 赫章县| 始兴县| 舟曲县| 龙口市| 阿克陶县| 湘西| 明溪县| 彭山县| 开阳县| 株洲县|