国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于相關(guān)分析的電網(wǎng)電能質(zhì)量缺失數(shù)據(jù)填充方法*

2020-12-18 07:46:06雷峰津
關(guān)鍵詞:互信息方根分段

雷峰津 房 俊

(北方工業(yè)大學(xué)信息學(xué)院,100144,北京)

電網(wǎng)電能質(zhì)量監(jiān)測(cè)分析系統(tǒng)實(shí)時(shí)匯集全網(wǎng)電能質(zhì)量數(shù)據(jù),使得數(shù)據(jù)驅(qū)動(dòng)的電能質(zhì)量問題分析與決策成為可能. 但電網(wǎng)監(jiān)測(cè)終端數(shù)量多、存儲(chǔ)系統(tǒng)組成復(fù)雜、物理環(huán)境惡劣等原因都會(huì)造成采集的數(shù)據(jù)存在缺失、異常等質(zhì)量問題,這些數(shù)據(jù)質(zhì)量問題會(huì)導(dǎo)致錯(cuò)誤的分析結(jié)果,影響電能質(zhì)量治理決策效果.[1]

在上述數(shù)據(jù)問題中,以終端故障導(dǎo)致的數(shù)據(jù)缺失問題尤為突出,主要表現(xiàn)為一段時(shí)間內(nèi)數(shù)據(jù)的完全缺失. 本文主要研究這一類缺失數(shù)據(jù)的自動(dòng)填充問題. 現(xiàn)有學(xué)者多是利用單個(gè)指標(biāo)數(shù)據(jù)特點(diǎn),采用均值填充、自回歸分析算法進(jìn)行數(shù)據(jù)填充. 這些算法在缺失數(shù)據(jù)較多的情況下,準(zhǔn)確性較低.

電網(wǎng)電能質(zhì)量數(shù)據(jù)一個(gè)監(jiān)測(cè)終端可以同時(shí)監(jiān)測(cè)包括各次諧波在內(nèi)的數(shù)千個(gè)指標(biāo),如果能夠利用其它指標(biāo)對(duì)當(dāng)前缺失數(shù)據(jù)進(jìn)行預(yù)測(cè),有可能取得較好的填充效果.

為此,本文提出一種基于相關(guān)分析的缺失數(shù)據(jù)填充方法,首先使用歸一化互信息計(jì)算所有與其采樣周期一致的指標(biāo)的相關(guān)性,找出其中相關(guān)性最強(qiáng)的指標(biāo),然后使用分段回歸的方法建立指標(biāo)數(shù)據(jù)回歸模型,基于該模型預(yù)測(cè)缺失數(shù)據(jù).

1 相關(guān)工作

1.1 缺失數(shù)據(jù)填充

缺失值填充常用的方法包括:1)使用描述統(tǒng)計(jì)值填充,如使用均值填充缺失數(shù)據(jù). 這種方法會(huì)導(dǎo)致數(shù)據(jù)的隨機(jī)性降低,損失了大量的數(shù)據(jù)信息. 在許多場(chǎng)合,均值填充是不適用的. 2)基于預(yù)測(cè)值的方法,如基于貝葉斯定理的缺失值填充方法,找到最大可能性的值來進(jìn)行缺失值填充. 3)其他方法如多重插補(bǔ)法、ID3算法及其優(yōu)化算法C4.5、熱卡填充等.

電力領(lǐng)域相關(guān)的缺失數(shù)據(jù)填充方面,文獻(xiàn)[2]提出一種運(yùn)用光滑三次樣條(Smoothing Cubic Spline)進(jìn)行電力負(fù)載數(shù)據(jù)的缺失值填充,并且為了解決連續(xù)缺值情況下樣條曲線不足以表示負(fù)載曲線細(xì)節(jié)的問題,將三次樣條和反映負(fù)載曲線模式的值進(jìn)行凸組合填充缺失值. 文獻(xiàn)[3]根據(jù)等間隔有序的采樣值模型推導(dǎo)出了一種基于正弦曲線的插值方法,效果較好,但是電網(wǎng)電能質(zhì)量數(shù)據(jù)并不是等間隔有序的,不能使用正弦曲線的方法進(jìn)行填充.

本文提出的電網(wǎng)電能質(zhì)量缺失數(shù)據(jù)的填充方法,核心在于2個(gè)部分:一是相關(guān)分析,使用歸一化互信息計(jì)算相關(guān)性;二是回歸分析,分段回歸建立預(yù)測(cè)模型.

1.2 相關(guān)分析

相關(guān)分析是求2個(gè)或2個(gè)以上處于同等地位的隨機(jī)變量的相關(guān)關(guān)系. 通常使用皮爾森相關(guān)系數(shù)計(jì)算2個(gè)變量的相關(guān)性. 皮爾森相關(guān)系數(shù)無(wú)法度量非線性相關(guān)關(guān)系,為了度量非線性相關(guān)關(guān)系,引入互信息(Mutual Information). 互信息是2個(gè)隨機(jī)變量能為彼此提供的信息量.[4]文獻(xiàn)[5]將互信息用于航空故障檢測(cè)數(shù)據(jù)的相關(guān)性分析,驗(yàn)證了互信息方法用于相關(guān)分析的可行性.

為了更好的對(duì)互信息進(jìn)行量化,對(duì)其進(jìn)行歸一化,使值落在[0,1],設(shè)置閾值來表示強(qiáng)相關(guān)性. 歸一化互信息(Normalized Mutual Information,簡(jiǎn)稱NMI)相關(guān)的成果表明了歸一化互信息在計(jì)算相關(guān)方面有比較好的效果.[6]

1.3 回歸分析

回歸分析方法已廣泛應(yīng)用于電力領(lǐng)域. 文獻(xiàn)[7]將回歸分析應(yīng)用到分析電氣環(huán)境對(duì)公共低壓電網(wǎng)的電能質(zhì)量水平的影響中,對(duì)電能質(zhì)量連續(xù)參數(shù)時(shí)間序列的長(zhǎng)期趨勢(shì)進(jìn)行識(shí)別和量化. 文獻(xiàn)[8]是時(shí)序數(shù)據(jù),采用ARMA模型的方法填充缺失值,效果較好.

對(duì)于數(shù)據(jù)點(diǎn)較多的情況,只有1個(gè)回歸方程有時(shí)候效果不夠好,選擇分段回歸方式可以提高回歸的準(zhǔn)確性. 大部分情況下分段回歸要求函數(shù)連續(xù),本文對(duì)此不作要求,為了避免在同一個(gè)數(shù)據(jù)點(diǎn)2個(gè)分段的方程得到的結(jié)果差距較大,分段點(diǎn)的值為2個(gè)分段回歸方程求得值的平均值.

2 基于相關(guān)分析的數(shù)據(jù)填充方法

給定電能質(zhì)量監(jiān)測(cè)指標(biāo)的集合I,根據(jù)周期將應(yīng)有數(shù)據(jù)量和實(shí)有數(shù)據(jù)量進(jìn)行比較,得到存在缺失的指標(biāo)的數(shù)據(jù)集.

1)對(duì)指標(biāo)xi∈I,在集合I′=I-xi中,利用相關(guān)系數(shù)求得與xi同一采集周期中相關(guān)性最大的xj,i≠j.

根據(jù)2.1節(jié)的NMI(vi,vj)計(jì)算vi和vj的相關(guān)性. 并判斷max{NMI(vi,vj),i≠j}是否大于閾值.

2)尋找最優(yōu)擬合函數(shù)f,使得:f(vj)≈vi.

f包含常見的指數(shù)形式、對(duì)數(shù)形式、多項(xiàng)式以及分段函數(shù)形式等.

缺失數(shù)據(jù)填充的流程如圖1所示,計(jì)算步驟如下:

1)使用2.1節(jié)中的相關(guān)分析方法,求出存在缺失值的指標(biāo)x和其他指標(biāo)的相關(guān)系數(shù),找到相關(guān)性最大的指標(biāo)y并判斷相關(guān)系數(shù)是否大于所設(shè)閾值0.8,如果大于閾值,則進(jìn)行第2)步;否則結(jié)束.

2)對(duì)監(jiān)測(cè)值組成的數(shù)據(jù)集進(jìn)行回歸分析,得到擬合效果最好的回歸預(yù)測(cè)模型.

3)使用2.2節(jié)中的回歸分析步驟得到最優(yōu)分段預(yù)測(cè)模型.

4)使用得到的分段擬合函數(shù)對(duì)缺失數(shù)據(jù)記錄進(jìn)行預(yù)測(cè)填充.

2.1 基于相關(guān)分析的變量選擇

基于電網(wǎng)電能質(zhì)量監(jiān)測(cè)數(shù)據(jù)指標(biāo)多的特點(diǎn),在這些指標(biāo)中可能存在著很強(qiáng)的相關(guān)性. 為了找出其中可能存在的相關(guān)關(guān)系,使用互信息作為相關(guān)性的度量.

歸一化互信息定義式為:

其中I(X;Y)是互信息在聯(lián)合集{X,Y}上的平均信息量.m和n分別是2個(gè)變量的取值個(gè)數(shù).

I(X;Y)=E[I(xi;yj)]=

互信息的取值范圍有以下結(jié)論:0≤I(X;Y)≤min{H(X),H(Y)}即互信息是非負(fù)的且以2個(gè)變量的熵的最小值為上界.

變量熵H(X)定義為:

對(duì)熵的定義式使用琴生不等式,可以得到互信息I(X;Y)滿足:

0≤I(X;Y)≤min{log2m,log2n}.

可見,NMI∈[0,1]. 設(shè)置閾值用以判斷相關(guān)性,本文將表示強(qiáng)相關(guān)的閾值設(shè)置為0.8.

2.2 基于回歸分析的預(yù)測(cè)模型建立

對(duì)強(qiáng)相關(guān)的2個(gè)數(shù)據(jù)集進(jìn)行多種形式的回歸分析,得到效果最好的預(yù)測(cè)模型. 為了提高預(yù)測(cè)模型的準(zhǔn)確性,使用分段回歸的方式求解.

回歸分析求預(yù)測(cè)模型步驟如下:

1)對(duì)于S個(gè)數(shù)據(jù)對(duì)(X1,Y1),(X2,Y2),…,(Xs,Ys)選擇多種函數(shù)模型進(jìn)行回歸分析;

2)回歸分析選擇綜合曲線回歸和線性回歸,選擇其中回歸效果最好的,使用實(shí)際值和擬合值的均方根誤差R來比較回歸效果,選擇R最小的函數(shù)作為當(dāng)前最優(yōu)函數(shù)方程

3)采用自動(dòng)分段的方法得到分段點(diǎn),根據(jù)所得分段點(diǎn)分別進(jìn)行回歸分析,重復(fù)步驟2).

4)根據(jù)以上步驟得到各個(gè)分段的最優(yōu)函數(shù)方程.

分段回歸關(guān)鍵問題在于分段點(diǎn)的選取,為了解決根據(jù)經(jīng)驗(yàn)選取分段點(diǎn)的不足,采用一種自動(dòng)分段的方式選擇分段點(diǎn).

自動(dòng)分段的目的是分段預(yù)測(cè)的數(shù)據(jù)集的均方根誤差小于不分段回歸預(yù)測(cè)結(jié)果,進(jìn)一步使每個(gè)分段的均方根誤差均小于不分段回歸的均方根誤差即可. 整個(gè)分段過程如圖2所示.

自動(dòng)分段步驟如下:

1)計(jì)算當(dāng)前數(shù)據(jù)集的最優(yōu)回歸模型的均方根誤差R;

2)取數(shù)據(jù)集前s個(gè)數(shù)據(jù),求這s個(gè)數(shù)據(jù)的最優(yōu)回歸方程的均方根誤差R1;取s+1個(gè)數(shù)據(jù)進(jìn)行回歸求均方根誤差R2;如圖3所示.

3)若R1R,則將第s個(gè)點(diǎn)視作分段點(diǎn),通過分段點(diǎn)將數(shù)據(jù)集T分割成2個(gè)數(shù)據(jù)集T1和T2. 對(duì)于數(shù)據(jù)集T1和數(shù)據(jù)集T2,數(shù)據(jù)集T1視為一個(gè)分段,對(duì)數(shù)據(jù)集T2再次進(jìn)行分段,若T2數(shù)據(jù)集的長(zhǎng)度大于s+4,數(shù)據(jù)集T2重復(fù)步驟2);否則令s=s+1,重復(fù)步驟2). 當(dāng)s+4的值大于當(dāng)前數(shù)據(jù)集長(zhǎng)度時(shí),分段結(jié)束.

3 實(shí)驗(yàn)驗(yàn)證

3.1 相關(guān)分析實(shí)驗(yàn)

電網(wǎng)電能質(zhì)量監(jiān)測(cè)數(shù)據(jù)是由監(jiān)測(cè)點(diǎn)、監(jiān)測(cè)指標(biāo)、時(shí)間戳以及監(jiān)測(cè)值組成的四元組數(shù)據(jù). 一般情況下,一條數(shù)據(jù)記錄的數(shù)據(jù)缺失會(huì)是四元組中某幾個(gè)元素缺失,但是本文只關(guān)心整條數(shù)據(jù)記錄的缺失情況,而不考慮缺失某幾個(gè)元素的情況. 對(duì)于1條數(shù)據(jù)記錄中的4個(gè)元素,監(jiān)測(cè)點(diǎn)、監(jiān)測(cè)指標(biāo)以及時(shí)間戳根據(jù)其他數(shù)據(jù)記錄可以得到準(zhǔn)確值,電網(wǎng)電能質(zhì)量監(jiān)測(cè)數(shù)據(jù)的缺失實(shí)際上關(guān)注的是監(jiān)測(cè)值的缺失與填充. 電網(wǎng)電能質(zhì)量監(jiān)測(cè)的原始數(shù)據(jù)集如圖4所示.

為了計(jì)算指標(biāo)之間的相關(guān)性,本次實(shí)驗(yàn)選取的數(shù)據(jù)是0303000981監(jiān)測(cè)點(diǎn)2018年3月3日00:00—05:00共5個(gè)小時(shí)的國(guó)網(wǎng)電能質(zhì)量監(jiān)測(cè)數(shù)據(jù). 在本次實(shí)驗(yàn)中,將所有指標(biāo)的數(shù)據(jù)均視作存在缺失,并計(jì)算所有指標(biāo)之間的相關(guān)性. 將NMI>0.8的值視作具有強(qiáng)相關(guān)性. 經(jīng)計(jì)算,數(shù)據(jù)指標(biāo)總數(shù)為2 555個(gè),相關(guān)性強(qiáng)的指標(biāo)為1 538個(gè).

從具有強(qiáng)相關(guān)性的指標(biāo)中選取一個(gè)指標(biāo)進(jìn)行回歸實(shí)驗(yàn),本文選取25次諧波電壓相角這個(gè)指標(biāo)作為存在缺失的指標(biāo),和其他指標(biāo)計(jì)算歸一化互信息的結(jié)果如表1所示,求得的NMI最大為1,

表1 歸一化互信息計(jì)算結(jié)果

對(duì)應(yīng)的指標(biāo)為33次與42次諧波電壓相角,本次實(shí)驗(yàn)選擇33次諧波電壓相角.

將這2個(gè)指標(biāo)的監(jiān)測(cè)值按照時(shí)間戳組成新的數(shù)據(jù)集T,形如表2所示.

表2 相關(guān)指標(biāo)數(shù)據(jù)

3.2 分段回歸實(shí)驗(yàn)

為了比較本文采用的分段回歸的填充效果,將其和不分段的回歸分析、平均值填充幾種方法的填充效果進(jìn)行比較,采用的數(shù)據(jù)集為3.1節(jié)中得到的數(shù)據(jù)集T,數(shù)據(jù)集T中一共300個(gè)數(shù)據(jù)對(duì),從中隨機(jī)選取240對(duì)作為訓(xùn)練集,剩下60對(duì)作為測(cè)試集. 使用均方根誤差(RMSE)和平均誤差百分比(MAPE)比較回歸效果.

(4)

其中yi是真實(shí)值,f(xi)是擬合值.

實(shí)驗(yàn)過程中多項(xiàng)式最高階數(shù)的選擇很重要,最高階數(shù)過低容易導(dǎo)致欠擬合,最高階數(shù)過高則容易產(chǎn)生過擬合. 在本文實(shí)驗(yàn)中,使用多項(xiàng)式進(jìn)行曲線擬合的最高階次分別選擇為6次、10次以及20次,最終實(shí)驗(yàn)結(jié)果表明在電網(wǎng)電能質(zhì)量數(shù)據(jù)的回歸分析中,最高階次選擇10次效果較好,選擇6次效果不如10次,選擇20次會(huì)產(chǎn)生過擬合的情況.

自動(dòng)分段時(shí)選擇數(shù)據(jù)集的前s個(gè)數(shù)據(jù),實(shí)驗(yàn)時(shí)s分別取{5,6,7,8,9,10},比較s取不同值時(shí)擬合結(jié)果,s=7時(shí)均方根誤差RMSE和MAPE最小,因此本文的s=7.

對(duì)訓(xùn)練集的數(shù)據(jù)分別進(jìn)行平均值填充,分段回歸和不分段回歸求回歸模型計(jì)算填充值,使用測(cè)試集中的數(shù)據(jù)評(píng)價(jià)訓(xùn)練集中得到回歸模型. 連續(xù)時(shí)間的數(shù)據(jù)在數(shù)據(jù)集T重新排序之后隨機(jī)分布在數(shù)據(jù)集中,隨機(jī)抽取60對(duì)作為缺失數(shù)據(jù),其他240對(duì)數(shù)據(jù)作為訓(xùn)練集,通過訓(xùn)練集得到缺失數(shù)據(jù)的預(yù)測(cè)模型. 圖5為訓(xùn)練集數(shù)據(jù)擬合結(jié)果.

回歸分析得到的函數(shù)方程是一個(gè)8次的多項(xiàng)式,使用分段回歸的方式得到了7個(gè)分段點(diǎn)、8個(gè)回歸方程,這8個(gè)方程能很好的反映數(shù)據(jù)集中的數(shù)據(jù). 使用訓(xùn)練集計(jì)算之后得到的實(shí)驗(yàn)結(jié)果如表3所示.

結(jié)合訓(xùn)練集的圖5及表3,可以看出,分段回歸的預(yù)測(cè)模型比不進(jìn)行分段的回歸得到的預(yù)測(cè)模型更能反映出訓(xùn)練集中的數(shù)據(jù),平均值填充不僅誤差更大,而且完全無(wú)法反映出數(shù)據(jù)集中數(shù)據(jù)的特點(diǎn),填充效果較之回歸分析要差.

表3 訓(xùn)練集實(shí)驗(yàn)結(jié)果

測(cè)試集測(cè)試后,圖6~7是測(cè)試集結(jié)果圖.

表4是測(cè)試集數(shù)據(jù)在訓(xùn)練集數(shù)據(jù)得到的分段回歸模型上進(jìn)行測(cè)試得到的結(jié)果,可以看出,分段曲線擬合在測(cè)試集上的效果也是優(yōu)于平均值填充的.

表4 測(cè)試集實(shí)驗(yàn)結(jié)果

可以看出,在缺失率為20%的情況下,測(cè)試集的結(jié)果和訓(xùn)練集得到的結(jié)果是一致的,數(shù)據(jù)誤差比都在8%以下,平均誤差百分比與平均值填充相比提高了20%,分段擬合并沒有產(chǎn)生過擬合的情況,可以很好的擬合數(shù)據(jù)集. 同時(shí)無(wú)需數(shù)據(jù)本身的曲線模型,計(jì)算更加方便.

在缺失率10%、30%的情況下,基于相關(guān)分析的缺失值填充方法與平均值填充方法比較結(jié)果如表5~6所示.

表5 缺失率10%實(shí)驗(yàn)結(jié)果

綜合不同缺失率下填充準(zhǔn)確性的比較,可以看到,在缺失率小于20%的情況下,使用分段曲線擬合效果更好;缺失率達(dá)到30%,分段曲線擬合誤差比缺失值填充效果更差,此時(shí)選擇不分段的效果更佳.

4 結(jié)語(yǔ)

本文根據(jù)實(shí)際的數(shù)據(jù)特點(diǎn),采用相關(guān)分析的方式得到具有相關(guān)關(guān)系的2個(gè)變量,然后對(duì)得到的1組變量的數(shù)據(jù)點(diǎn)進(jìn)行分段曲線擬合,得到1個(gè)分段的函數(shù)方程,使用得到的函數(shù)方程來對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)測(cè). 分段函數(shù)采用最高次項(xiàng)為10次的多項(xiàng)式以及指對(duì)數(shù)函數(shù)結(jié)合的曲線擬合,避免過多次項(xiàng)導(dǎo)致的過擬合現(xiàn)象,同時(shí)具有較好的擬合效果. 實(shí)驗(yàn)證明了曲線擬合得到的填充值具有更高的準(zhǔn)確度,誤差在10%左右. 這種方法準(zhǔn)確度較高,但是相對(duì)的運(yùn)行效率較低,接下來工作將主要研究這種方法的優(yōu)化以提高運(yùn)行效率.

猜你喜歡
互信息方根分段
方根拓展探究
一類連續(xù)和不連續(xù)分段線性系統(tǒng)的周期解研究
分段計(jì)算時(shí)間
均方根嵌入式容積粒子PHD 多目標(biāo)跟蹤方法
3米2分段大力士“大”在哪兒?
太空探索(2016年9期)2016-07-12 10:00:04
揭開心算方根之謎
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
聯(lián)合互信息水下目標(biāo)特征選擇算法
改進(jìn)的互信息最小化非線性盲源分離算法
基于增量式互信息的圖像快速匹配方法
台中市| 五河县| 海南省| 莎车县| 五华县| 商洛市| 孟津县| 洛浦县| 博白县| 拜城县| 扶余县| 上犹县| 高密市| 马山县| 郎溪县| 无锡市| 临漳县| 科技| 延长县| 德阳市| 咸丰县| 达拉特旗| 镶黄旗| 三原县| 南昌市| 西城区| 五指山市| 北票市| 庄浪县| 渝中区| 彩票| 静安区| 揭东县| 麟游县| 金坛市| 新丰县| 乐都县| 昆明市| 美姑县| 宣威市| 饶平县|