基于混合模型的風(fēng)電機(jī)組異常數(shù)據(jù)識(shí)別方法

2022-08-02 05:50林立棟

電力科學(xué)與工程 2022年7期

林立棟，郭鵬，甘雨

（華北電力大學(xué) 控制與計(jì)算機(jī)工程學(xué)院，北京 102206）

0 引言

SCADA（supervisory control and data aqurirement）運(yùn)行數(shù)據(jù)能夠反映風(fēng)電機(jī)組的運(yùn)行特性和狀態(tài)。在實(shí)際運(yùn)行過(guò)程中，由于天氣、環(huán)境、機(jī)組停機(jī)、通信噪聲和設(shè)備故障等因素，風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)中存在大量異常數(shù)據(jù)。準(zhǔn)確識(shí)別這些異常數(shù)據(jù)，才能有效提高后續(xù)以運(yùn)行數(shù)據(jù)為基礎(chǔ)的風(fēng)電機(jī)組功率預(yù)測(cè)、發(fā)電性能評(píng)價(jià)、狀態(tài)監(jiān)測(cè)等工作的效率和精度[1]。

針對(duì)風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)中異常數(shù)據(jù)的識(shí)別，文獻(xiàn)[2]提出了變點(diǎn)分組與四分位組合的方法——在不同風(fēng)速區(qū)間上依次使用變點(diǎn)法和四分位法，對(duì)數(shù)據(jù)中堆積型異常數(shù)據(jù)和分散型異常數(shù)據(jù)進(jìn)行有效識(shí)別。該方法清洗數(shù)據(jù)的損失率偏高，且不能完全識(shí)別、清除所有類型的異常數(shù)據(jù)。

文獻(xiàn)[3]提出四分位與DBSCAN（density-based spatial clustering of applications with noise）聚類相結(jié)合的異常數(shù)據(jù)清洗方法。因DBSCAN 算法對(duì)參數(shù)調(diào)整敏感，故該算法無(wú)法自動(dòng)確定參數(shù)閾值，且對(duì)于高密度區(qū)域異常數(shù)據(jù)的清洗效果較差。

文獻(xiàn)[4]采用局部離群因子（local outlier factor，LOF）算法來(lái)識(shí)別異常數(shù)據(jù)。該算法利用加權(quán)距離計(jì)算數(shù)據(jù)的相對(duì)密度，把具有足夠高密度的區(qū)域劃分為簇，實(shí)現(xiàn)了分散型異常數(shù)據(jù)的有效識(shí)別與剔除。但該算法無(wú)法有效識(shí)別分布密度較高的堆積型異常數(shù)據(jù)。

文獻(xiàn)[5]提出基于圖像處理的異常數(shù)據(jù)清洗算法：將風(fēng)速-功率散點(diǎn)轉(zhuǎn)換為風(fēng)功率曲線的二值圖像，然后根據(jù)風(fēng)功率曲線圖像中異常數(shù)據(jù)與正常數(shù)據(jù)的像素空間分布特征，通過(guò)圖像操作剔除異常數(shù)據(jù)的像素。該方法所需數(shù)據(jù)量較大，且像素與數(shù)據(jù)之間無(wú)法一一對(duì)應(yīng)，即無(wú)法直接給出單個(gè)數(shù)據(jù)的正?；虍惓顟B(tài)。

文獻(xiàn)[6]提出結(jié)合堆疊去噪自編碼器（stack denoise auto-encoder，SDAE）和基于密度網(wǎng)格聚類方法的無(wú)監(jiān)督異常值檢測(cè)方法：利用SDAE 提取原始數(shù)據(jù)的特征，然后基于密度網(wǎng)格的聚類方法來(lái)得到聚類結(jié)果，最后通過(guò)設(shè)置窗口寬度實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的識(shí)別。由于計(jì)算時(shí)需要花費(fèi)大量時(shí)間去過(guò)濾原始SCADA 數(shù)據(jù)，故該方法效率低。

針對(duì)以上文獻(xiàn)的局限，本文結(jié)合風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)的分布特征，將參數(shù)模型與非參數(shù)模型結(jié)合，以實(shí)現(xiàn)風(fēng)電機(jī)組異常運(yùn)行數(shù)據(jù)的識(shí)別。以2 臺(tái)風(fēng)電機(jī)組所具有的復(fù)雜異常數(shù)據(jù)為例，驗(yàn)證本文所提方法的有效性。

1 數(shù)據(jù)分布特征分析

不同因素所產(chǎn)生的異常數(shù)據(jù)，在風(fēng)速-功率（V-P）坐標(biāo)系中的分布特征也各不相同。

功率散點(diǎn)：即每一條運(yùn)行數(shù)據(jù)中，由風(fēng)速和功率構(gòu)成的數(shù)據(jù)對(duì)，簡(jiǎn)稱為散點(diǎn)。

本文以2 臺(tái)1.5 MW 雙饋式風(fēng)電機(jī)組（LY21和E17）10 min 間隔運(yùn)行數(shù)據(jù)為算例。LY21 機(jī)組發(fā)電功率大于零的數(shù)據(jù)總計(jì)18 215 條，其散點(diǎn)分布如圖1 所示；E17 機(jī)組發(fā)電功率大于零的數(shù)據(jù)總計(jì)30 205 條，其散點(diǎn)分布如圖2 所示。

圖1 LY21 機(jī)組功率散點(diǎn)分布Fig. 1 Power dots distribution of LY21 unit

圖2 E17 機(jī)組功率散點(diǎn)分布Fig. 2 Power dots distribution of E17 unit

從圖1、圖2 中可看出，2 臺(tái)機(jī)組正常運(yùn)行數(shù)據(jù)對(duì)應(yīng)的功率散點(diǎn)分布密集，“功率主帶”呈“廠”字形分布。將顯著脫離風(fēng)電機(jī)組正常運(yùn)行狀態(tài)的運(yùn)行數(shù)據(jù)，即“功率主帶”外的運(yùn)行數(shù)據(jù)定義為異常運(yùn)行數(shù)據(jù)，其所對(duì)應(yīng)的功率散點(diǎn)即為異常散點(diǎn)。異常散點(diǎn)可分為以下3 類。

（1）欠發(fā)型散點(diǎn)。該類型散點(diǎn)表現(xiàn)為：隨機(jī)分布在功率主帶附近且密度較低，風(fēng)速較高但功率較低。此類散點(diǎn)一般由于風(fēng)電機(jī)組工況變化、數(shù)據(jù)采集異常、發(fā)電性能劣化等因素引起。

（2）分岔型散點(diǎn)。該類型散點(diǎn)表現(xiàn)為功率主帶附近的一條或者多條密度較為稀疏的功率副帶。此類散點(diǎn)產(chǎn)生的原因可能為風(fēng)速計(jì)或轉(zhuǎn)速傳感器異常、變槳系統(tǒng)卡塞等。

（3）限負(fù)荷型散點(diǎn)。該類型散點(diǎn)表現(xiàn)為一條或多條位于功率主帶右側(cè)的橫向密集堆積的水平數(shù)據(jù)帶。此類散點(diǎn)產(chǎn)生的原因是：當(dāng)機(jī)組出現(xiàn)棄風(fēng)限電時(shí)，風(fēng)電機(jī)組提前變槳，控制機(jī)組在限定功率狀態(tài)下運(yùn)行。

由于風(fēng)電機(jī)組功率散點(diǎn)分布復(fù)雜，直接對(duì)風(fēng)速-功率坐標(biāo)系內(nèi)所有功率散點(diǎn)進(jìn)行異常數(shù)據(jù)識(shí)別的難度較大。因此，需要對(duì)功率散點(diǎn)進(jìn)行分區(qū)，通過(guò)建立不同區(qū)間內(nèi)的散點(diǎn)概率模型，實(shí)現(xiàn)對(duì)各區(qū)間內(nèi)散點(diǎn)分布情況的準(zhǔn)確描述，從而完成異常數(shù)據(jù)的識(shí)別。

參數(shù)模型，如正態(tài)分布模型、威布爾分布模型等，其優(yōu)點(diǎn)是參數(shù)具有顯著的物理意義，能夠直觀準(zhǔn)確描述數(shù)據(jù)的整體分布特征，具有全局性。但是，使用參數(shù)模型需預(yù)知數(shù)據(jù)分布是否符合該模型特征，并需首先將水平功率區(qū)間內(nèi)散點(diǎn)的分布轉(zhuǎn)換為頻率直方圖，再用頻率直方圖數(shù)據(jù)擬合模型參數(shù)。如圖1、圖2 所示，2 臺(tái)機(jī)組各水平功率區(qū)間數(shù)據(jù)分布情況復(fù)雜，無(wú)法直接判斷其較為符合哪類參數(shù)模型，且頻率直方圖的分區(qū)寬度難以確定。

非參數(shù)模型，如核密度估計(jì)模型等，其優(yōu)點(diǎn)是使用時(shí)無(wú)需事先知道數(shù)據(jù)的分布，僅從數(shù)據(jù)本身即可得到數(shù)據(jù)的概率密度分布；但是，因其缺少能直觀描述數(shù)據(jù)整體分布特征的模型參數(shù)，所以其具有局部性，缺乏整體性。

本文將非參數(shù)模型與參數(shù)模型兩者相結(jié)合。在未知各水平功率區(qū)間中數(shù)據(jù)分布前提下，首先應(yīng)用非參數(shù)模型（擴(kuò)散核密度估計(jì)）得到功率散點(diǎn)的概率分布；再引入?yún)?shù)模型對(duì)概率分布進(jìn)行擬合，采用擬合的模型參數(shù)來(lái)準(zhǔn)確描述數(shù)據(jù)整體分布特性。

2 擴(kuò)散核密度估計(jì)概率分布

2.1 擴(kuò)散核密度估計(jì)

核密度估計(jì)（kernel density estimation，KDE）是一種常見(jiàn)的非參數(shù)密度估計(jì)方法[7-9]。該方法可直接估計(jì)樣本數(shù)據(jù)的概率密度，無(wú)需事先假設(shè)樣本是否服從某個(gè)總體分布。

傳統(tǒng)核密度估計(jì)的表達(dá)式為：

式中：x1,···,xn為總體樣本的獨(dú)立分布隨機(jī)變量；n為樣本數(shù)量；h為與n有關(guān)的常數(shù)，稱為帶寬或光滑參數(shù)；為核函數(shù)，本文選取高斯核作為核函數(shù)。

本文采用擴(kuò)散核密度估計(jì)法（diffusion-based kernel density method，DKDM）替代KDE，有效解決KDE 帶寬選取以及邊界校正的問(wèn)題，并提高KDE 的局部適應(yīng)性[10]。

DKDM 將核函數(shù)等效于熱擴(kuò)散過(guò)程的轉(zhuǎn)移密度，從而建立熱擴(kuò)散與普通核密度估計(jì)的聯(lián)系。

DKDM 的核密度估計(jì)公式為：

式（2）為下述傅里葉熱擴(kuò)散偏微分方程（diffusion partial differential equation，DPDE）的唯一解[10]：

式（4）的初始條件為：

式中：δ為狄拉克函數(shù)。

當(dāng)采用傳統(tǒng)核密度估計(jì)時(shí)，若隨機(jī)變量x的定義域有界，則需要對(duì)邊界進(jìn)行校正。若采用

DPDE，則僅需在初始條件（5）和諾埃曼邊界條件式（6）下求解式（4）。

式中：xL為隨機(jī)變量x定義域的下界；xU為隨機(jī)變量x定義域的上界。

假設(shè)定義域?yàn)閇0,1]，則基于擴(kuò)散方程的核密度估計(jì)的解析解為[11]：

式中：κ為θ函數(shù)，其表達(dá)式為：

式（7）在式（1）的基礎(chǔ)上，考慮到了帶寬選擇與邊界校正，能夠很好地解決傳統(tǒng)核密度估計(jì)帶寬選取和邊界擬合誤差這2 個(gè)問(wèn)題。

2.2 水平功率區(qū)間功率散點(diǎn)概率分布

在滿發(fā)狀態(tài)時(shí)，機(jī)組運(yùn)行在額定功率附近，此時(shí)產(chǎn)生的散點(diǎn)均屬于正常數(shù)據(jù)，無(wú)需再進(jìn)行分析；因此，本文僅對(duì)額定功率下的功率散點(diǎn)進(jìn)行區(qū)間劃分并做相應(yīng)的分析。

為保證每個(gè)水平功率區(qū)間內(nèi)包含足夠多的散點(diǎn)，在本文中：水平方向上，將機(jī)組分為30 個(gè)功率區(qū)間；功率區(qū)間的間隔為50 kW。

用DKDM 估計(jì)概率分布，結(jié)果如圖3 所示。

風(fēng)電機(jī)組功率主帶所對(duì)應(yīng)的功率散點(diǎn)分布十分密集，因此該處概率密度估計(jì)值應(yīng)明顯較高。在圖3 中，可以非常直觀地看出，2 臺(tái)機(jī)組的每一個(gè)水平功率區(qū)間中至少存在一個(gè)波峰，該波峰的概率密度值明顯高于此功率區(qū)間中其余位置。結(jié)合圖1、圖2 及核密度估計(jì)的原理可知，該波峰對(duì)應(yīng)的即為功率主帶的中心位置。

圖3 DKDM 概率密度估計(jì)結(jié)果Fig. 3 Probability density estimation results by DKDM

LY21 機(jī)組前6 個(gè)功率區(qū)間（0～300 kW）的概率密度分布曲線均出現(xiàn)了雙峰現(xiàn)象：在水平功率區(qū)間中，除功率主帶對(duì)應(yīng)的概率密度峰值外，還存在與圖1 中分岔型散點(diǎn)（即稀疏功率副帶）相對(duì)應(yīng)的另一個(gè)分布密度低于功率主帶的次峰值。

E17 機(jī)組各水平功率區(qū)間概率密度分布曲線均呈單峰現(xiàn)象。但是，在第12（550 kW～600 kW）和第22（1 050 kW～1 100 kW）個(gè)功率區(qū)間，可以明顯看出其概率密度峰值遠(yuǎn)低于其它功率區(qū)間，且概率密度曲線水平向右延伸很遠(yuǎn)，呈現(xiàn)拖尾狀態(tài)[12]。與圖2 中對(duì)應(yīng)位置的功率散點(diǎn)分布進(jìn)行對(duì)照分析，結(jié)論為：在這2 個(gè)功率區(qū)間中，出現(xiàn)向右延伸的人為限負(fù)荷橫向堆積型數(shù)據(jù)。

通過(guò)對(duì)每一水平功率區(qū)間內(nèi)功率散點(diǎn)進(jìn)行擴(kuò)散核密度估計(jì)，將原來(lái)只能人為觀察的散點(diǎn)疏密分布轉(zhuǎn)換為數(shù)字概率密度曲線。但由于擴(kuò)散核密度估計(jì)方法屬于非參數(shù)模型，沒(méi)有能夠簡(jiǎn)單直觀描述如LY21 機(jī)組雙峰或E17 機(jī)組拖尾等水平功率區(qū)間的整體分布特征的模型參數(shù)。因此，本文采用參數(shù)模型，即混合威布爾分布模型，對(duì)擴(kuò)散核密度估計(jì)的概率密度曲線進(jìn)行參數(shù)化擬合；通過(guò)擬合參數(shù)提取和描述各水平功率區(qū)間散點(diǎn)的整體分布特征。

3 概率密度曲線參數(shù)擬合

威布爾分布模型常用于風(fēng)速和風(fēng)能概率密度估計(jì)[13-15]，但對(duì)于圖2、圖3 這樣的概率密度曲線，用單一威布爾分布并不能達(dá)到很好的擬合效果[16]。

混合威布爾分布模型由多個(gè)單一威布爾分布加權(quán)組合而成。該模型的適用性較強(qiáng)，對(duì)于各種復(fù)雜概率密度曲線的擬合效果較好，且模型各參數(shù)的不同組合，可以反映出所擬合曲線形狀的多種復(fù)雜特征[17]。擬合后，混合威布爾分布的權(quán)重、形狀參數(shù)和尺度參數(shù)即可精確量化反映某一水平功率區(qū)間中擴(kuò)散核密度估計(jì)概率密度曲線形狀特征，即功率散點(diǎn)整體分布特征。

3.1 混合威布爾模型

假設(shè)一個(gè)總體樣本可分為m個(gè)子體，每個(gè)子體均服從相同分布。假設(shè)各個(gè)子體的概率密度函數(shù)分別為f1(t),f2(t),…,f m(t)，各個(gè)子體所占的權(quán)重分別為p1,p2, …,pm。于是，混合威布爾分布的模型可表示為：

若每個(gè)子體都服從威布爾分布，則fi(t)為：

式中：αi為第i個(gè)威布爾分布尺度參數(shù)；βi為第i個(gè)威布爾分布形狀參數(shù)。

本文采用混合威布爾分布對(duì)LY21、E17 機(jī)組各個(gè)水平功率區(qū)間概率密度曲線進(jìn)行擬合。幾個(gè)典型區(qū)間的參數(shù)，如表1 所示。

表1 混合威布爾典型參數(shù)Tab. 1 Mixed Weibull typical parameters

擬合效果如圖4 所示。

從圖4 中可看出，混合威布爾分布能夠較好地完成對(duì)擴(kuò)散核密度估計(jì)概率密度曲線的擬合。計(jì)算擬合曲線與概率密度曲線的均方根誤差，發(fā)現(xiàn)均方根誤差均小于0.04。這說(shuō)明，擬合曲線能夠準(zhǔn)確反映水平功率區(qū)間內(nèi)功率散點(diǎn)的分布情況。

圖4 混合威布爾分布對(duì)水平功率區(qū)間概率密度曲線擬合效果Fig. 4 Fitting effect of mixed Weibull distribution for probability density curves in horizontal power intervals

混合威布爾分布的權(quán)重p表示各子體數(shù)據(jù)在總體數(shù)據(jù)中所占比例。p的個(gè)數(shù)i代表著子體的個(gè)數(shù)。當(dāng)i=1 時(shí)，為單峰情況；當(dāng)i＞1 時(shí)，為多峰情況。

混合威布爾分布的形狀參數(shù)β決定擬合函數(shù)的形狀：當(dāng)β≤1 時(shí)，擬合函數(shù)呈指數(shù)減函數(shù)；當(dāng)β＞1 時(shí)，呈現(xiàn)尖峰特性[18]；當(dāng)β＞3.5 時(shí)，整體形狀與正態(tài)分布相似，且β越大，概率密度分布越集中在其峰值附近。

由表1 可知，LY21、E17 機(jī)組的形狀參數(shù)β均大于3.5，這說(shuō)明擬合曲線均呈現(xiàn)近似正態(tài)分布形狀。

混合威布爾分布的尺度參數(shù)α主要起到拉伸整個(gè)函數(shù)的作用。α的大小決定擬合函數(shù)的陡峭程度：α越小，擬合函數(shù)越平緩，右側(cè)尾部占比越大，呈“胖尾”特性；α越大，擬合函數(shù)越陡峭，尾部占比越小，呈“瘦尾”特性[19]。

根據(jù)混合威布爾分布3 個(gè)參數(shù)的定義以及表1 的具體數(shù)據(jù)，可分析得出LY21、E17 機(jī)組包含3 種類型水平功率區(qū)間：正常水平功率區(qū)間，限功率水平功率區(qū)間，分岔型水平功率區(qū)間。以下針對(duì)3 種類型詳細(xì)說(shuō)明。

（1）正常水平功率區(qū)間

以E17 機(jī)組第8 水平功率區(qū)間為例。具體計(jì)算結(jié)果如圖5 以及表2 所示。

圖5 E17 機(jī)組第8 水平功率區(qū)間散點(diǎn)及概率分布圖Fig. 5 Dots and probability density distribution for the 8th horizontal power interval of E17 unit

表2 E17 機(jī)組第8 水平功率區(qū)間混合威布爾參數(shù)Tab. 2 Mixed Weibull parameters for the 8th horizontal power interval of E17 unit

考察表2 所示結(jié)果。E17 機(jī)組第8 水平功率區(qū)間僅包含一組參數(shù)p1、α1、β1，這說(shuō)明：混合威布爾分布只擬合出一組參數(shù)，為單一威布爾分布；模型中只包含一個(gè)子體，概率密度曲線只包含單峰。同時(shí)由于α1的數(shù)值為23.23，數(shù)值較大，概率密度曲線呈現(xiàn)典型正態(tài)“瘦尾”特性，即概率密度曲線呈現(xiàn)瘦高、陡峭現(xiàn)象，不存在拖尾特性，如圖5 所示；功率散點(diǎn)密集分布在功率主帶上，符合正常功率散點(diǎn)的分布特征，因此判斷該水平功率帶為正常水平功率區(qū)間。

由此：若某一水平功率區(qū)間混合威布爾分布為單峰型，形狀參數(shù)β＞3.5 且尺度參數(shù)α＞20，對(duì)應(yīng)概率密度曲線呈現(xiàn)單峰、陡峭、不拖尾特性，可判斷該水平功率區(qū)間中散點(diǎn)分布正常，為正常水平功率區(qū)間。

（2）限功率水平功率區(qū)間

以E17 機(jī)組第12 水平功率區(qū)間為例。具體計(jì)算結(jié)果如圖6 以及表3 所示。

圖6 E17 機(jī)組第12 水平功率區(qū)間散點(diǎn)及概率分布圖Fig. 6 Dots and probability density distribution for the 12th horizontal power interval of E17 unit

表3 E17 機(jī)組第12 水平功率區(qū)間混合威布爾參數(shù)Tab. 3 Mixed Weibull parameters for the 12th horizontal power interval of E17 unit

考察表3 所示結(jié)果。E17 機(jī)組第12 水平功率區(qū)間僅包含一組參數(shù)p1、α1、β1。同上文所述，判斷模型只包含單峰。E17 機(jī)組第12 水平功率區(qū)間α1的數(shù)值為9.39，顯著小于其第8 水平功率區(qū)間的α1值（α1為23.23）。此時(shí)概率密度曲線呈現(xiàn)“胖尾”特性，即概率密度曲線呈現(xiàn)矮胖、右側(cè)拖尾現(xiàn)象，如圖6 所示。此時(shí)功率散點(diǎn)除分布在功率主帶上，還存在水平向右延伸的密集堆積型散點(diǎn)，因此判斷該水平功率帶為限功率水平功率區(qū)間。

（3）分岔型水平功率區(qū)間

以LY21 機(jī)組第5 水平功率區(qū)間為例。具體計(jì)算結(jié)果如圖7 以及表4 所示。

表4 LY21 機(jī)組第5 水平功率區(qū)間混合威布爾參數(shù)Tab. 4 Mixed Weibull parameters for the 5th horizontal power interval of LY21 unit

圖7 LY21 機(jī)組第5 水平功率區(qū)間散點(diǎn)及概率分布圖Fig. 7 Dots and probability density distribution for the 5th horizontal power interval of LY21 unit

考察表4 所示結(jié)果。LY21 機(jī)組第5 水平功率區(qū)間出現(xiàn)了2 組參數(shù)：p1、α1、β1以及p2、α2、β2。根據(jù)混合威布爾分布原理可知，此時(shí)所擬合的模型中包含2 個(gè)子體，即所擬合的模型中包含2 個(gè)威布爾分布，可判斷出現(xiàn)了雙峰現(xiàn)象。由于α1大于α2，表明LY21 機(jī)組第5 水平功率區(qū)間第一個(gè)峰比第二個(gè)峰更瘦更高，如圖7 所示。此時(shí)功率散點(diǎn)除了密集堆積在功率主帶上，在功率主帶向右位置也出現(xiàn)了較為密集堆積的散點(diǎn)，判斷該水平功率區(qū)間為分岔型水平功率區(qū)間。當(dāng)多個(gè)相鄰水平功率區(qū)間均出現(xiàn)此現(xiàn)象時(shí)（如LY21 機(jī)組第1至6 個(gè)水平功率區(qū)間），則反映為在功率主帶右邊出現(xiàn)分岔現(xiàn)象，即出現(xiàn)了一條稀疏功率副帶。

對(duì)照分析可知，3 類典型水平功率區(qū)間的功率散點(diǎn)分布、對(duì)應(yīng)擴(kuò)散核密度估計(jì)概率密度曲線以及混合威布爾分布模型擬合參數(shù)所表達(dá)的結(jié)果完全相符。因此可以得出結(jié)論：混合威布爾分布的權(quán)重、形狀參數(shù)和尺度參數(shù)，能夠定量、準(zhǔn)確地表征各個(gè)水平功率區(qū)間運(yùn)行數(shù)據(jù)的整體分布特征，可作為判斷該區(qū)間數(shù)據(jù)分布正常與否的重要依據(jù)。

3.2 基于平均置信區(qū)間的異常數(shù)據(jù)識(shí)別

對(duì)于異常數(shù)據(jù)較多的風(fēng)電機(jī)組如LY21 和E17，除正常水平功率區(qū)間外，還存在如限負(fù)荷型、分岔型等非正常水平功率區(qū)間。

本文提出平均置信區(qū)間方法，分別對(duì)正常水平功率區(qū)間和非正常水平功率區(qū)間進(jìn)行異常數(shù)據(jù)識(shí)別。

依據(jù)某一水平功率區(qū)間的混合威布爾擬合參數(shù)及上述正常水平功率區(qū)間的判別方法，即可確定該區(qū)間是否為正常水平功率區(qū)間。

（1）正常水平功率區(qū)間異常數(shù)據(jù)識(shí)別。

對(duì)于正常水平功率區(qū)間，以概率密度曲線峰值為中心，向左側(cè)和右側(cè)對(duì)稱確定置信度為95%的雙邊分位點(diǎn)及置信區(qū)間寬度。置信區(qū)間內(nèi)的功率散點(diǎn)即為正常數(shù)據(jù)，區(qū)間外的即為異常數(shù)據(jù)。如圖5（b）中E17 機(jī)組第8 水平功率區(qū)間所示，其置信分位點(diǎn)分別為5.36 m/s 和7.40 m/s，置信區(qū)間寬度為2.04 m/s。

將機(jī)組所有判斷為正常水平功率區(qū)間的置信區(qū)間寬度求取平均值即可得到平均置信區(qū)間寬度。E17 機(jī)組的正常水平功率區(qū)間共28 個(gè)，平均置信區(qū)間寬度為2.00 m/s。LY21 機(jī)組的正常水平功率區(qū)間共24 個(gè)，平均置信區(qū)間寬度為1.81 m/s。

（2）非正常水平功率區(qū)間異常數(shù)據(jù)識(shí)別。

對(duì)于通過(guò)混合威布爾分布擬合參數(shù)判定為具有拖尾或雙峰等特征的限負(fù)荷、分岔型等非正常水平功率區(qū)間，采用平均置信區(qū)間方法識(shí)別異常數(shù)據(jù)。

以非正常水平功率區(qū)間的概率密度曲線最大峰值為中心，向左側(cè)和右側(cè)對(duì)稱確定置信分位點(diǎn)，分位點(diǎn)之間的置信區(qū)間寬度為該機(jī)組的平均置信區(qū)間寬度。如圖6 中，E17 機(jī)組第12 個(gè)限功率水平功率區(qū)間采用E17 機(jī)組的平均置信區(qū)間寬度2.00 m/s。圖7 中LY21 機(jī)組第5 個(gè)分岔型水平功率區(qū)間采用LY21 機(jī)組的平均置信區(qū)間寬度1.81 m/s。置信區(qū)間內(nèi)的功率散點(diǎn)為正常數(shù)據(jù)，區(qū)間外的為異常數(shù)據(jù)。

采用上述方法依次對(duì)額定功率以下的各個(gè)水平功率區(qū)間進(jìn)行異常數(shù)據(jù)識(shí)別。LY21 和E17 機(jī)組的異常數(shù)據(jù)識(shí)別結(jié)果如圖8 所示。圖8 中，黑色散點(diǎn)表示正常數(shù)據(jù)，紅色散點(diǎn)表示異常數(shù)據(jù)。

圖8 異常運(yùn)行數(shù)據(jù)識(shí)別結(jié)果Fig. 8 Abnormal operational data identification results

3.3 算法對(duì)比分析

文獻(xiàn)[4]采用LOF（local outlier factor）算法對(duì)2 臺(tái)實(shí)驗(yàn)機(jī)組進(jìn)行異常數(shù)據(jù)識(shí)別。LOF 算法的思想是：利用加權(quán)距離計(jì)算數(shù)據(jù)的相對(duì)密度；把具有足夠高密度的區(qū)域劃分為簇；通過(guò)設(shè)定閾值，實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的清洗。

對(duì)于本文算例，該算法識(shí)別效果如圖9 所示。

圖9 LOF 算法異常運(yùn)行數(shù)據(jù)識(shí)別結(jié)果Fig. 9 Abnormal operational data identification results

對(duì)于LY21 及E17 機(jī)組，本文所提方法的數(shù)據(jù)剔除率分別為12.6%與3.68%，LOF 算法的數(shù)據(jù)剔除率分別為3.43%與1.12%。

由此可知，本文方法在識(shí)別堆積型異常數(shù)據(jù)方面具有優(yōu)勢(shì)。

4 結(jié)論

以2 臺(tái)機(jī)組的復(fù)雜異常數(shù)據(jù)為例，驗(yàn)證了本文方法的有效性。

（1）對(duì)風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)進(jìn)行分析與處理時(shí)，在水平功率方向上以一定功率間隔分層劃分工況，采用非參數(shù)模型擴(kuò)散核密度估計(jì)方法對(duì)各個(gè)水平功率區(qū)間運(yùn)行數(shù)據(jù)進(jìn)行概率分布估計(jì)，從而克服了KDE 帶寬選取以及邊界校正問(wèn)題，提高了KDE 的局部適應(yīng)性。

（2）利用參數(shù)模型混合威布爾分布擬合擴(kuò)散核密度估計(jì)的概率密度曲線。模型參數(shù)p，α，β能夠直觀準(zhǔn)確描述水平功率區(qū)間中數(shù)據(jù)整體分布特征，可依此準(zhǔn)確判別水平功率區(qū)間中運(yùn)行數(shù)據(jù)分布是否正常。

（3）采用平均置信區(qū)間異常數(shù)據(jù)清洗方法。對(duì)非正常水平功率區(qū)間，采用平均置信區(qū)間寬度確定識(shí)別異常數(shù)據(jù)的上下分位點(diǎn)，實(shí)現(xiàn)異常數(shù)據(jù)的準(zhǔn)確識(shí)別與剔除。

在后續(xù)研究中，將對(duì)水平功率區(qū)間的劃分間隔開(kāi)展深入研究，力圖在保證核密度估計(jì)效果的基礎(chǔ)上給出區(qū)間劃分依據(jù)，進(jìn)一步提高異常數(shù)據(jù)識(shí)別的效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡