楊 晶,妥建軍,李 昊,廖 翯,馬雅蓉
(國網(wǎng)甘肅省電力公司發(fā)展事業(yè)部(經(jīng)濟技術研究院),甘肅 蘭州 730046)
隨著智能電網(wǎng)的持續(xù)發(fā)展,電力數(shù)據(jù)量不斷增加。電網(wǎng)大數(shù)據(jù)主要包括公共安全數(shù)據(jù)、在線監(jiān)測數(shù)據(jù)[1-3]、調(diào)度運行數(shù)據(jù)和生產(chǎn)管理數(shù)據(jù)等。然而,由于這些基本數(shù)據(jù)的建模標準來源不同,導致數(shù)據(jù)類型存在差異,并且信息共享度較低,數(shù)據(jù)之間缺乏足夠的交互。這一問題導致電網(wǎng)數(shù)據(jù)具有高度異構和多源等特征,給數(shù)據(jù)的管理和應用帶來了巨大挑戰(zhàn)[4-6]。為了有效監(jiān)測和管理電網(wǎng),有必要對電網(wǎng)多源異構數(shù)據(jù)進行整合。首先,數(shù)據(jù)的異構性導致數(shù)據(jù)結構和格式存在差異,需要作統(tǒng)一處理和標準化,以便數(shù)據(jù)的集成和分析。其次,不同數(shù)據(jù)源之間的信息共享度低導致數(shù)據(jù)的冗余存儲和浪費,因而需要建立有效的數(shù)據(jù)交換和共享機制。此外,多源數(shù)據(jù)的整合還需解決數(shù)據(jù)質(zhì)量和一致性的問題,包括數(shù)據(jù)異常值的檢測和清洗,以及數(shù)據(jù)間關聯(lián)性的建立和驗證。為了解決上述問題,研究人員提出了包括數(shù)據(jù)挖掘、機器學習和人工智能等的一系列電網(wǎng)多源異構數(shù)據(jù)整合方法。這些方法可以通過對數(shù)據(jù)的預處理、特征提取和數(shù)據(jù)融合等步驟,實現(xiàn)對電網(wǎng)多源異構數(shù)據(jù)的整合分析和管理。同時,還需要考慮數(shù)據(jù)安全和隱私保護的問題,確保整合后的數(shù)據(jù)在使用和傳輸過程中不會泄漏敏感信息。電網(wǎng)多源異構數(shù)據(jù)的整合是實現(xiàn)電網(wǎng)智能化管理的重要步驟,需要綜合運用各種技術手段解決數(shù)據(jù)的異構性、冗余性和安全性等問題。通過有效的整合和分析,可以更好地實現(xiàn)對電網(wǎng)的監(jiān)測和管理,提高電力系統(tǒng)的可靠性、安全性和經(jīng)濟性。
近年來,很多學者針對多源異構數(shù)據(jù)進行了研究。莫慧凌等[7]根據(jù)張量Tucker分解理論,在無交互條件下建立高階張量算法。該算法具有異構空間維度特性,可以提取數(shù)據(jù)的高維特征,故以此為依據(jù)可實現(xiàn)多源異構數(shù)據(jù)的整合。但是該算法無法消除多源異構數(shù)據(jù)中存在的噪聲,且存在數(shù)據(jù)處理效果差的問題。趙春霞等[8]提出了一種基于極大元法和關聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,通過建立相異度數(shù)據(jù)結構矩陣來挖掘數(shù)據(jù)集中的最大頻繁項。該方法利用平均加權法計算異構數(shù)據(jù)的特征,并通過高維相空間重構和時間反轉處理,以實現(xiàn)多源異構數(shù)據(jù)的整合。然而,該方法在整合缺失數(shù)據(jù)時存在精度低的問題。張騰飛等[9]提出了一種基于粗糙模糊的K-means聚類算法。該算法考慮了類簇規(guī)模的不均衡程度,并引入自適應度量。通過對人工數(shù)據(jù)集和加州大學歐文分校(University of California Irrine,UCI)標準數(shù)據(jù)集的驗證,證明了該算法的有效性。然而,該算法在數(shù)據(jù)處理方面可能存在誤差。郭方方等[10]提出了一種基于有監(jiān)督判別投影的網(wǎng)絡安全數(shù)據(jù)降維算法。該算法利用近鄰矩陣和類別標簽信息構建有監(jiān)督判別矩陣,并通過尋找最大全局散度矩陣和最小局部散度矩陣的低維投影子空間來實現(xiàn)降維。然而,該方法可能存在判別精度低的問題。
基于上述文獻,本文提出一種針對電網(wǎng)多源異構缺失數(shù)據(jù)的最優(yōu)投影整合算法。該算法創(chuàng)新性地引入拉格朗日差值方法填充缺失值,采用經(jīng)驗模態(tài)分解方法消除噪聲,并建立投影指標函數(shù)將高維數(shù)據(jù)轉換為一維投影值。該算法通過數(shù)據(jù)填充和去噪來提高電網(wǎng)多源異構數(shù)據(jù)的完整性和準確性,并利用混沌文化差分進化算法尋找最優(yōu)投影方向,從而完成缺失數(shù)據(jù)的整合。該算法不僅具有較好的數(shù)據(jù)去噪效果,并且能夠提高數(shù)據(jù)的整合精度和穩(wěn)定性,有助于提升電網(wǎng)多源異構數(shù)據(jù)的質(zhì)量和管理水平。
傳感器在電網(wǎng)中具有不同的采樣周期,導致電網(wǎng)數(shù)據(jù)的時間存在不匹配的情況。網(wǎng)絡延遲會對數(shù)據(jù)采集產(chǎn)生影響,導致整合中心與電網(wǎng)傳感器之間的數(shù)據(jù)采集周期存在差異。為了提高數(shù)據(jù)整合的精度,需要對不同步的數(shù)據(jù)開展時間配準。在對電網(wǎng)多源異構數(shù)據(jù)開展配準之前,需要對數(shù)據(jù)中存在的野值進行檢測。本文對閾值和修正值檢測數(shù)據(jù)中存在的野值進行修正。修正后的結果v(k)為:
(1)
式中:rnew(k)為電網(wǎng)數(shù)據(jù);C為野值判斷參數(shù);X(k)為第k個指標對應的修正值。
真實估計值對應的權重μ(k)可在v(k)的基礎上通過加權函數(shù)獲得。
μ(k)=el(k)v(k)
(2)
式中:l(k)為第k個指標加權函數(shù);e為自然對數(shù)。
xi=Xn+TXn(i-n)+bi
(3)
式中:Xn為第n個測量序列;bi為電網(wǎng)多源異構數(shù)據(jù)中存在的噪聲,dB。
傳感器B采集的數(shù)據(jù)構成的測量向量En為:
(4)
式中:T′為數(shù)據(jù)整合時間,s。
通過上述過程完成電網(wǎng)數(shù)據(jù)的配準,獲得高精度的電網(wǎng)多源異構數(shù)據(jù)。
為了確保電網(wǎng)多源數(shù)據(jù)密度的一致性,本文采用拉格朗日差值方法[13-14]填充電網(wǎng)時序數(shù)據(jù),并采用拉格朗日差值函數(shù)F(t)填補電網(wǎng)時序數(shù)據(jù)tj。
(5)
式中:zj(t)為第j個差值基函數(shù);ts為時序數(shù)據(jù)s對應的時間,s。
本文以修正與填充后的電網(wǎng)多源異構數(shù)據(jù)為基礎。為了提高后續(xù)的集中整合質(zhì)量,本文采用經(jīng)驗模態(tài)分解方法對多源異構數(shù)據(jù)作去噪處理。信號c(t)在電網(wǎng)多源異構數(shù)據(jù)中的功率Ax為:
(6)
式中:N為信號的數(shù)量,個。
(7)
采用經(jīng)驗模態(tài)分解方法對電網(wǎng)多源異構數(shù)據(jù)進行去噪的具體過程如下。
①采用經(jīng)驗模態(tài)分解方法對含噪的電網(wǎng)多源異構數(shù)據(jù)信號c(t)展開分解,獲得q個IMF分量。
對完成濾波處理的電網(wǎng)多源異構數(shù)據(jù)開展集中整合的具體過程如下。
①采用式(8)標準化處理預處理后的電網(wǎng)多源異構數(shù)據(jù)Cj={c1j,c2j,…,cMj}。
(8)
式中:cimax、cimin為數(shù)據(jù)i對應的最大值和最小值;rij為標準化處理后的數(shù)據(jù)。
②建立投影指標函數(shù)WF(a)。
(9)
式中:F(y)為兩個樣本點在每扇窗內(nèi)的距離;D(y)為樣本投影值對應的標準差;R(y)為單位階躍函數(shù)。
根據(jù)投影指標函數(shù)WF(a),即可建立電網(wǎng)多源異構數(shù)據(jù)的聚類中心。
③高維電網(wǎng)多源異構數(shù)據(jù)經(jīng)過投影處理后轉變?yōu)橐痪S的投影值。此時,維度M=1,存在權重w=1。電網(wǎng)多源異構數(shù)據(jù)的聚類中心dh和隸屬度uhj為:
(10)
式中:rj為數(shù)據(jù)對應的特征值;c為電網(wǎng)多源異構數(shù)據(jù)種類的數(shù)量,個。
④模糊聚類迭代適應度G(uhj,dh)為:
(11)
如果適應度符合min{G(uhj,dh)}條件,則執(zhí)行步驟⑤;否則,采用混沌文化差分進化算法搜索電網(wǎng)多源異構數(shù)據(jù)的最優(yōu)聚類中心,并返回步驟③。
⑤利用混沌文化差分進化算法尋找電網(wǎng)多源異構數(shù)據(jù)的最優(yōu)投影方向。
⑥通過式(12)計算電網(wǎng)多源異構數(shù)據(jù)的連續(xù)性類別特征值V(j):
(12)
式中:h為電網(wǎng)多源異構數(shù)據(jù)的類別。
根據(jù)式(12)計算結果對電網(wǎng)多源異構數(shù)據(jù)排序,獲得數(shù)據(jù)的聚類結果,從而完成電網(wǎng)多源異構數(shù)據(jù)的整合。
采用迭代模糊聚類算法集中整合的電網(wǎng)多源異構缺失數(shù)據(jù)最優(yōu)投影整合算法流程如圖1所示。
圖1 電網(wǎng)多源異構缺失數(shù)據(jù)最優(yōu)投影整合算法流程圖
為了驗證本文算法的整體有效性,需要對該算法進行測試。電網(wǎng)多源異構數(shù)據(jù)在采集過程中受多種因素的影響,導致數(shù)據(jù)中存在噪聲,影響數(shù)據(jù)的整合效果。
含噪電網(wǎng)多源異構數(shù)據(jù)如圖2所示。
圖2 含噪電網(wǎng)多源異構數(shù)據(jù)
本文采用本文算法、張量Tucker分解整合算法(文獻[7]算法)、平均加權整合算法(文獻[8]算法)對圖2所示的含噪電網(wǎng)多源異構數(shù)據(jù)作去噪處理。
本文算法的降噪處理結果如圖3所示。
圖3 本文算法的降噪處理結果
文獻[7]算法的降噪處理結果如圖4所示。
圖4 文獻[7]算法的降噪處理結果
文獻[8]算法的降噪處理結果如圖5所示。
圖5 文獻[8]算法的降噪處理結果
由圖3~圖5可知,采用本文算法進行去噪處理后,含噪數(shù)據(jù)的波動頻率明顯降低,而文獻[7]算法與文獻[8]算法經(jīng)降噪處理后,含噪數(shù)據(jù)的波動頻率仍然保持較高的水平。這說明本文算法去噪效果較好。觀察三種算法去噪后的數(shù)據(jù)頻譜可以看出,相較于原始頻譜,文獻[7]算法與文獻[8]算法去噪后數(shù)據(jù)頻譜與原始頻譜相差較大。這說明兩種對比算法的降噪處理出現(xiàn)了一定程度的失真。而本文算法的去噪頻譜與原始頻率基本一致,說明本文算法并不會出現(xiàn)失真的情況,可以確保電網(wǎng)數(shù)據(jù)的完整性。
電網(wǎng)多源異構數(shù)據(jù)量較為龐大,對算法的時間復雜度提出了更高的要求,即要求整合算法能夠在較短的時間內(nèi)處理大量的缺失數(shù)據(jù)。因此,本文以時間復雜度為指標,將本文算法、文獻[7]算法、文獻[8]算法進行對比驗證。
不同算法的時間復雜度對比結果如表1所示。
表1 不同算法的時間復雜度對比結果
由表1可知,隨著試驗次數(shù)的增加,三種算法的時間復雜度出現(xiàn)了明顯的差距。其中:本文算法的時間復雜度最高未超過10 s;文獻[7]算法的時間復雜度是三種算法中最高的,達到28.45 s;文獻[8]算法的時間復雜度也高于本文算法,基本在18 s左右。這說明本文算法的時間復雜度明顯下降,數(shù)據(jù)整合的效率提高。
算法在開展數(shù)據(jù)整合的過程中,其穩(wěn)定性不可忽略。穩(wěn)定性越強,則實際應用的可靠性越高。
不同算法的整合精度結果如圖6所示。
圖6 不同算法的整合精度結果
由圖6可知,三種算法中,本文算法的數(shù)據(jù)整合精度最高,且隨著試驗次數(shù)的增加,并未出現(xiàn)明顯的波動。這說明該算法可以在提高數(shù)據(jù)整合精度的同時,確保自身運算的穩(wěn)定性。觀察兩種對比算法可以看出,兩種對比算法的數(shù)據(jù)整合精度最高均未超過80%,并且波動范圍較大。這說明兩種對比算法的穩(wěn)定性略低于本文算法。
算法的收斂性指算法能否在迭代時間趨于無窮的假設下,找到問題的全局最優(yōu)解。收斂性作為算法能否使用的關鍵性能,直觀地體現(xiàn)了算法的可用性。因此,本文對三種算法的收斂性進行驗證。
不同算法的收斂性結果如圖7所示。
圖7 不同算法的收斂性結果
由圖7可知,本文算法在三種算法中收斂速度最快,且最優(yōu)適應度值最低。文獻[8]算法的前期雖然收斂較快,但是最優(yōu)適應度值較高。由此說明本文算法的收斂性較好。
針對目前電網(wǎng)多源異構數(shù)據(jù)整合方法中存在的數(shù)據(jù)處理效果差、整合精度低的問題,本文提出針對電網(wǎng)多源異構缺失數(shù)據(jù)的最優(yōu)投影整合算法。該算法對數(shù)據(jù)開展了修正、填補和去噪處理,并在此基礎上通過迭代模糊聚類算法實現(xiàn)電網(wǎng)多源異構數(shù)據(jù)的集中整合。測試結果表明,本文算法可有效消除數(shù)據(jù)中存在的噪聲,并且可以確保去噪后電網(wǎng)多源異構數(shù)據(jù)的質(zhì)量,以避免出現(xiàn)失真情況。本文算法的整合精度、穩(wěn)定性以及收斂性均優(yōu)于其他對比算法,整合精度始終穩(wěn)定在95%左右。