孫 妍,張俊超,馬占海,嚴(yán)嘉正
(國網(wǎng)青海省電力公司信息通信公司,青海 西寧 810008)
隨著智能電網(wǎng)的廣泛使用,電網(wǎng)的智能化水平正在逐步提升,使得電網(wǎng)中的各類數(shù)據(jù)可以進(jìn)行聚類[1]。云計算技術(shù)在電網(wǎng)中的廣泛運用,使得電網(wǎng)中的信息系統(tǒng)復(fù)雜化程度不斷降低。但是,隨著電力網(wǎng)絡(luò)異構(gòu)數(shù)據(jù)的增加,為保證云計算網(wǎng)絡(luò)中電網(wǎng)的安全、穩(wěn)定,需要對異構(gòu)數(shù)據(jù)進(jìn)行聚類,從而有效地排除異構(gòu)無關(guān)冗余數(shù)據(jù)[2-3]。由于云計算模式下電力異構(gòu)數(shù)據(jù)具有種類繁多、數(shù)據(jù)維度大、結(jié)構(gòu)復(fù)雜的特點,所以電力異構(gòu)數(shù)據(jù)聚類多為自適應(yīng)分段式聚合[4]。對此,相關(guān)學(xué)者進(jìn)行了研究。
龐傳軍等[5]提出基于長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)的電力負(fù)荷聚類建模及特性分析方法。該方法采用LSTM自動編碼器提取負(fù)荷數(shù)據(jù)特征,采用k-means算法完成電力負(fù)荷數(shù)據(jù)聚類分析。該方法聚類精度較高,但是數(shù)據(jù)聚類較慢。梁京章等[6]提出基于核主成分分析(kernel principal component analysis,KPCA)和改進(jìn)k-means的電力負(fù)荷曲線聚類方法。該方法將密度聚類思想結(jié)合k-means算法,以實現(xiàn)數(shù)據(jù)快速降維聚類。該方法數(shù)據(jù)聚類能力較強,但是容易產(chǎn)生冗余數(shù)據(jù)。Guleria K等[7]提出1種增強能量以降低傳感器節(jié)點分簇能量消耗的方法。該方法根據(jù)移動節(jié)點從固定節(jié)點中選擇簇頭,傳輸移動節(jié)點數(shù)據(jù);利用粒子適應(yīng)值計算繼節(jié)點的速度和位置,完成電力節(jié)點鏈路故障預(yù)測,提高網(wǎng)絡(luò)壽命。但是該方法的計算算力有待驗證。Kannan N等[8]利用遠(yuǎn)程處理技術(shù)構(gòu)建電力系統(tǒng)實時監(jiān)控組件模型,以提高系統(tǒng)的可重用性和可擴(kuò)展性。該方法使用具有公共對象請求協(xié)議的架構(gòu)開發(fā)潮流監(jiān)控模型,以解決實時經(jīng)濟(jì)負(fù)荷調(diào)度和動態(tài)安全監(jiān)控;結(jié)合潮流監(jiān)測、動態(tài)安全監(jiān)測和經(jīng)濟(jì)負(fù)荷分配,優(yōu)化分布式平臺體系結(jié)構(gòu),從而實現(xiàn)對電力系統(tǒng)的性能監(jiān)測。但是該方法在復(fù)雜電網(wǎng)環(huán)境下的聚類收斂效果仍需進(jìn)一步提升。
云模型由隸屬云與語言原子模型演化而成,采用數(shù)字特征描述具有定性概念特點的定量數(shù)值,可有效減少冗余數(shù)據(jù)。云模型通過不確定性轉(zhuǎn)化提高數(shù)據(jù)聚類速率,進(jìn)而有效提升數(shù)據(jù)聚類效果?;诖?本文應(yīng)用自適應(yīng)分段云模型,采用Tent映射電力異構(gòu)數(shù)據(jù),通過云期望曲線方程計算數(shù)據(jù)聚類中心,利用熵值完成有序聚類。仿真測試結(jié)果表明,本文提出的基于自適應(yīng)分段云模型的電力異構(gòu)數(shù)據(jù)聚類方法的漂移基本特征聚類效果較優(yōu)、分類聚類面積較大、聚類收斂效果較好、輪廓系數(shù)數(shù)值較高,能為電力系統(tǒng)的安全、穩(wěn)定運行提供技術(shù)支持。本文研究對目前電力行業(yè)的異構(gòu)數(shù)據(jù)處理進(jìn)行了探討,對預(yù)測電力系統(tǒng)的發(fā)展趨勢具有重要意義。
電力系統(tǒng)包含發(fā)電、變電、輸電、配電等邏輯結(jié)構(gòu),所以電力數(shù)據(jù)具有多源異構(gòu)的特點。同時,由于電力系統(tǒng)數(shù)據(jù)在云空間的分布較為分散,電力異構(gòu)數(shù)據(jù)無法有效聚類,從而降低了數(shù)據(jù)聚類精度。Tent映射屬于混沌系統(tǒng)中的一種分段式線性函數(shù)[9]。利用拓?fù)涔曹椨成潢P(guān)系使數(shù)據(jù)空間分布均勻,可提高聚類尋優(yōu)效率和求解精度。Tent映射的數(shù)學(xué)表達(dá)式為:
(1)
式中:zi為電力異構(gòu)數(shù)據(jù)種群初始值;0<α<1。
本文將電力異構(gòu)數(shù)據(jù)種群初始值轉(zhuǎn)化到數(shù)據(jù)個體搜索空間,建立Tent混沌映射序列,以完善數(shù)據(jù)遍歷。
(2)
式中:N為異構(gòu)數(shù)據(jù)總量,MB;φi為種群規(guī)模;q為空間維數(shù);Sm為元素數(shù)組;m為期望的類簇個數(shù)。
在有限維數(shù)據(jù)內(nèi)積空間內(nèi),本文設(shè)定拓?fù)涔曹椨成潢P(guān)系,劃分異構(gòu)數(shù)據(jù)數(shù)組:
(3)
式中:wij為數(shù)據(jù)空間中相同簇的i和j之間的距離。
本文將異構(gòu)數(shù)據(jù)進(jìn)行Z-score標(biāo)準(zhǔn)化[10],以擴(kuò)大元素數(shù)組的組內(nèi)相似性和組間差距,使數(shù)據(jù)空間分布均勻:
(4)
通過Tent映射的方式均勻數(shù)據(jù)空間分布,可以提高聚類尋優(yōu)效率和求解精度,完成數(shù)據(jù)聚類預(yù)處理。
正態(tài)云模型可以清晰展現(xiàn)Tent混沌映射關(guān)聯(lián),確保數(shù)據(jù)空間內(nèi)的電力異構(gòu)數(shù)據(jù)元素數(shù)組的完整性和一致性。本文假設(shè)W為論域、E為論域上的定性概念。當(dāng)定量值x∈W時,x對E的隸屬度函數(shù)為:
(5)
式中:ti為迭代時間,s;x0為簇首節(jié)點半徑處于隸屬度函數(shù)第一象限的概率[11];xi為簇首節(jié)點半徑處于隸屬度函數(shù)無效象限的概率。
通過隸屬度函數(shù)獲取穩(wěn)定傾向隨機(jī)值后,本文使用正態(tài)云模型的期望值Fx、熵值Fn和超熵值Hf這3個數(shù)字特征,建立云期望曲線方程[12]。其中:Fx為定性概念中最具代表性的指標(biāo);Fn為定性理論模糊度衡量標(biāo)準(zhǔn);Hf為期望值Fx的不確定性度量。
本文通過Fx和Fn確定電力異構(gòu)數(shù)據(jù)元素數(shù)組的云期望曲線方程:
(6)
式中:n為正態(tài)云滴。
由于正態(tài)云模型是由x個正態(tài)云滴構(gòu)成,需要對云滴性質(zhì)進(jìn)行判定。其詳細(xì)步驟如下。
③推算隨機(jī)值λ對E的隸屬度,以獲取論域內(nèi)正態(tài)云滴性質(zhì)。
(7)
式中:γ為隸屬度系數(shù)。
④反復(fù)執(zhí)行步驟①~步驟③,直至獲取正態(tài)云模型中的所有正態(tài)云滴。
本文根據(jù)正態(tài)云滴性質(zhì)對電力異構(gòu)數(shù)據(jù)元素數(shù)組實施云化處理,并根據(jù)有限維電力異構(gòu)數(shù)據(jù)元素數(shù)組中心向量確定數(shù)據(jù)聚類中心。
(8)
式中:σ為可能性劃分系數(shù);l為電力異構(gòu)數(shù)據(jù)元素數(shù)組到聚類中心的距離;vi為電力異構(gòu)數(shù)據(jù)元素數(shù)組中心向量。
通過正態(tài)云模型中的期望值、熵值、超熵值獲取論域內(nèi)正態(tài)云滴性質(zhì),可確定數(shù)據(jù)聚類中心,為后續(xù)有序聚類提供支持。
本文根據(jù)正態(tài)云模型的熵值評價Tent混沌映射序列異構(gòu)數(shù)據(jù)穩(wěn)定性、定義子序列分段條件,以提高分段聚合的有效性。本文設(shè)子序列為D(i0,j0),在數(shù)據(jù)聚類中心計算正態(tài)云模型最大熵值:
(9)
式中:T′j為Tent混沌映射序列在固定時間下的關(guān)鍵節(jié)點j的邊界域。
本文利用目標(biāo)函數(shù)剔除最大熵值下的異構(gòu)數(shù)據(jù)元素數(shù)組,以消除無關(guān)、冗余數(shù)據(jù),使目標(biāo)函數(shù)值達(dá)到最小。
(10)
式中:pi為離散隨機(jī)變量;φ為模糊加權(quán)指數(shù)。
本文在優(yōu)化后的異構(gòu)數(shù)據(jù)元素數(shù)組中定義分段聚合條件,并以pi作為異構(gòu)數(shù)據(jù)相似度。異構(gòu)數(shù)據(jù)元素的權(quán)重為:
(11)
本文根據(jù)di劃分異構(gòu)數(shù)據(jù)聚類數(shù)組,創(chuàng)建di的權(quán)重熵元素數(shù)組Di;利用云分段聚合近似算法,對Di進(jìn)行分段。
(12)
式中:lj為Tent混沌映射序列最大概率;li為對應(yīng)的異構(gòu)數(shù)據(jù)類簇特征狀態(tài)。
本文利用正態(tài)云模型描述異構(gòu)數(shù)據(jù)在云分段聚合狀態(tài)下的聚類收斂結(jié)果,以完成異構(gòu)數(shù)據(jù)有序聚類。電力異構(gòu)數(shù)據(jù)有序聚類流程如圖1所示。
圖1 電力異構(gòu)數(shù)據(jù)有序聚類流程圖
基于圖1所示流程,本文完成了電力異構(gòu)數(shù)據(jù)有序聚類,有效解決了魯棒性問題,實現(xiàn)了基于自適應(yīng)分段云模型的電力異構(gòu)數(shù)據(jù)聚類方法的設(shè)計。
為了驗證基于自適應(yīng)分段云模型的電力異構(gòu)數(shù)據(jù)聚類方法的整體有效性,仿真測試在國網(wǎng)某公司信息通信數(shù)據(jù)庫中隨機(jī)選取2022年上半年的1 000組異構(gòu)數(shù)據(jù)。其中:600組異構(gòu)數(shù)據(jù)用于訓(xùn)練;400組異構(gòu)數(shù)據(jù)用于仿真測試。仿真測試?yán)帽疚姆椒ā⑽墨I(xiàn)[5]方法、文獻(xiàn)[6]方法,從漂移基本特征聚類、分類聚類面積、聚類收斂效果等方面進(jìn)行對比分析。仿真測試平臺為Matlab R2022a。仿真測試分析在主頻為1 Hz的環(huán)境下完成。
4.2.1 漂移基本特征聚類分析
訓(xùn)練集在模擬聚類過程中存在異構(gòu)數(shù)據(jù)點密集區(qū)域選取不當(dāng)?shù)那闆r,容易造成訓(xùn)練集過擬合。因此,為了提高訓(xùn)練樣本聚類均衡度,需要對異構(gòu)數(shù)據(jù)聚集程度進(jìn)行優(yōu)化。仿真以漂移基本特征聚類作為測試內(nèi)容,使用單個滑動窗口進(jìn)行聚類擬合;以數(shù)據(jù)空間分布均勻、滑動窗口移動方向與漂移基本特征聚類路徑一致為較優(yōu)的聚類結(jié)果。本文對比本文方法、文獻(xiàn)[5]方法和文獻(xiàn)[6]方法的漂移基本特征聚類效果。漂移基本特征聚類效果越優(yōu),則異構(gòu)數(shù)據(jù)聚類求解精度越高。漂移基本特征聚類結(jié)果對比如圖2所示。
圖2 漂移基本特征聚類結(jié)果對比
由圖2可知,在相同基本特征的異構(gòu)數(shù)據(jù)聚類擬合程度下,本文方法的數(shù)據(jù)空間分布較為均勻,且滑動窗口移動方向與漂移基本特征聚類路徑一致。而文獻(xiàn)[5]方法和文獻(xiàn)[6]方法的數(shù)據(jù)空間分布存在失衡,所得的異構(gòu)數(shù)據(jù)漂移基本特征聚類過于雜亂。由此說明,本文方法異構(gòu)數(shù)據(jù)聚類求解精度較好。這是因為本文方法采用Tent映射對電力異構(gòu)數(shù)據(jù)進(jìn)行聚類預(yù)處理。預(yù)處理后的異構(gòu)數(shù)據(jù)不均衡性得到降低,進(jìn)而使數(shù)據(jù)空間分布均勻,漂移基本特征聚類能力得以提高。
4.2.2 分類聚類面積分析
樣本項之間的相似度越高,則數(shù)據(jù)聚類效果越好。在相同基本特征的異構(gòu)數(shù)據(jù)聚類擬合程度下將期望曲線相交,得到異構(gòu)數(shù)據(jù)分類聚類面積,并根據(jù)樣本特征出現(xiàn)概率衡量聚類效果。分類聚類面積越大,則表明樣本項之間的相似度越高,且能有效減少無關(guān)、冗余數(shù)據(jù),完成異構(gòu)數(shù)據(jù)聚類。分類聚類面積結(jié)果對比如圖3所示。
圖3 分類聚類面積結(jié)果對比
由圖3可知,本文方法分類聚類面積(圖中S處)大于文獻(xiàn)[5]方法和文獻(xiàn)[6]方法,且異構(gòu)數(shù)據(jù)聚類擬合效果較優(yōu)。這是因為本文方法通過云期望曲線方程獲取了論域內(nèi)正態(tài)云滴性質(zhì)、確定了異構(gòu)數(shù)據(jù)聚類中心,進(jìn)而提升了期望曲線相交效果、擴(kuò)大了分類聚類面積,從而有效完成了異構(gòu)數(shù)據(jù)聚類。
4.2.3 聚類收斂曲線分析
基準(zhǔn)測試函數(shù)可以測試算法在固定聚類負(fù)載下的性能。本文設(shè)定迭代次數(shù)為1 000次,以獲取目標(biāo)函數(shù)平均收斂曲線。通過分析本文方法、文獻(xiàn)[5]方法和文獻(xiàn)[6]方法的目標(biāo)函數(shù)收斂曲線,驗證本文方法的收斂性能。聚類收斂結(jié)果對比如圖4所示。
圖4 聚類收斂結(jié)果對比
由圖4可知,在迭代開始時,本文方法的收斂曲線快速下降。這是因為Tent映射預(yù)處理了異構(gòu)數(shù)據(jù),有效提高了算法的收斂速度。而文獻(xiàn)[5]方法和文獻(xiàn)[6]方法陷入停滯的次數(shù)高于本文方法。隨著迭代次數(shù)增加,本文方法能夠迅速跳出局部最優(yōu),并且可以較快地完成異構(gòu)數(shù)據(jù)聚類。這是因為本文方法利用云分段聚合近似算法對異構(gòu)數(shù)據(jù)聚類權(quán)重熵元素數(shù)組進(jìn)行分類,有效提高了聚類的有序性,進(jìn)而提升聚類收斂效果。
4.2.4 輪廓系數(shù)分析
輪廓系數(shù)是評價聚類效果的1種指標(biāo),可以在相同原始數(shù)據(jù)的基礎(chǔ)上評價不同方法對聚類結(jié)果產(chǎn)生的影響。輪廓系數(shù)的計算式為:
(13)
式中:a(k)為數(shù)據(jù)節(jié)點k到所有其屬于的簇中其他點的距離;b(k)為數(shù)據(jù)節(jié)點k到與其相鄰最近一簇內(nèi)的全部點的平均距離。
輪廓系數(shù)值介于[-1,1],越趨近1代表聚類效果越好。測試樣本為400組用于測試的異構(gòu)數(shù)據(jù)。數(shù)據(jù)以每100組為1個組別,共4個組別。不同方法的輪廓系數(shù)對比如表1所示。
表1 不同方法的輪廓系數(shù)對比
由表1可知,在聚類電力異構(gòu)數(shù)據(jù)時,本文方法輪廓系數(shù)能保持在0.4以上;文獻(xiàn)[5]方法和文獻(xiàn)[6]方法的輪廓系數(shù)均在0.4以下。這說明本文方法的聚類效果較優(yōu),在聚類過程中充分考慮了電力異構(gòu)數(shù)據(jù)的整體信息,可以正確分割類簇。
為了提高云計算環(huán)境下電力系統(tǒng)運行的安全性和穩(wěn)定性,本文提出基于自適應(yīng)分段云模型的電力異構(gòu)數(shù)據(jù)聚類方法。該方法通過引入自適應(yīng)正態(tài)云模型,均勻異構(gòu)數(shù)據(jù)空間分布、確定數(shù)據(jù)聚類中心,以實現(xiàn)異構(gòu)數(shù)據(jù)有序聚類。仿真測試結(jié)果表明,本文方法在保證數(shù)據(jù)聚類速率和減少無關(guān)、冗余數(shù)據(jù)的基礎(chǔ)上,漂移基本特征聚類效果較優(yōu)、分類聚類面積較大、聚類收斂效果較好、輪廓系數(shù)數(shù)值較高。這證明本文方法具有較強的聚類效果,可以為電力異構(gòu)數(shù)據(jù)聚類系統(tǒng)設(shè)計提供理論支持。但在實際應(yīng)用中,異構(gòu)數(shù)據(jù)中也可能存在部分先驗信息。后續(xù)研究將考慮利用先驗信息進(jìn)一步提高電力異構(gòu)數(shù)據(jù)聚類性能。