林立棟,郭 鵬,甘 雨
(華北電力大學(xué) 控制與計(jì)算機(jī)工程學(xué)院,北京 102206)
SCADA(supervisory control and data aqurirement)運(yùn)行數(shù)據(jù)能夠反映風(fēng)電機(jī)組的運(yùn)行特性和狀態(tài)。在實(shí)際運(yùn)行過(guò)程中,由于天氣、環(huán)境、機(jī)組停機(jī)、通信噪聲和設(shè)備故障等因素,風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)中存在大量異常數(shù)據(jù)。準(zhǔn)確識(shí)別這些異常數(shù)據(jù),才能有效提高后續(xù)以運(yùn)行數(shù)據(jù)為基礎(chǔ)的風(fēng)電機(jī)組功率預(yù)測(cè)、發(fā)電性能評(píng)價(jià)、狀態(tài)監(jiān)測(cè)等工作的效率和精度[1]。
針對(duì)風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)中異常數(shù)據(jù)的識(shí)別,文獻(xiàn)[2]提出了變點(diǎn)分組與四分位組合的方法——在不同風(fēng)速區(qū)間上依次使用變點(diǎn)法和四分位法,對(duì)數(shù)據(jù)中堆積型異常數(shù)據(jù)和分散型異常數(shù)據(jù)進(jìn)行有效識(shí)別。該方法清洗數(shù)據(jù)的損失率偏高,且不能完全識(shí)別、清除所有類型的異常數(shù)據(jù)。
文獻(xiàn)[3]提出四分位與DBSCAN(density-based spatial clustering of applications with noise)聚類相結(jié)合的異常數(shù)據(jù)清洗方法。因DBSCAN 算法對(duì)參數(shù)調(diào)整敏感,故該算法無(wú)法自動(dòng)確定參數(shù)閾值,且對(duì)于高密度區(qū)域異常數(shù)據(jù)的清洗效果較差。
文獻(xiàn)[4]采用局部離群因子(local outlier factor,LOF)算法來(lái)識(shí)別異常數(shù)據(jù)。該算法利用加權(quán)距離計(jì)算數(shù)據(jù)的相對(duì)密度,把具有足夠高密度的區(qū)域劃分為簇,實(shí)現(xiàn)了分散型異常數(shù)據(jù)的有效識(shí)別與剔除。但該算法無(wú)法有效識(shí)別分布密度較高的堆積型異常數(shù)據(jù)。
文獻(xiàn)[5]提出基于圖像處理的異常數(shù)據(jù)清洗算法:將風(fēng)速-功率散點(diǎn)轉(zhuǎn)換為風(fēng)功率曲線的二值圖像,然后根據(jù)風(fēng)功率曲線圖像中異常數(shù)據(jù)與正常數(shù)據(jù)的像素空間分布特征,通過(guò)圖像操作剔除異常數(shù)據(jù)的像素。該方法所需數(shù)據(jù)量較大,且像素與數(shù)據(jù)之間無(wú)法一一對(duì)應(yīng),即無(wú)法直接給出單個(gè)數(shù)據(jù)的正?;虍惓顟B(tài)。
文獻(xiàn)[6]提出結(jié)合堆疊去噪自編碼器(stack denoise auto-encoder,SDAE)和基于密度網(wǎng)格聚類方法的無(wú)監(jiān)督異常值檢測(cè)方法:利用SDAE 提取原始數(shù)據(jù)的特征,然后基于密度網(wǎng)格的聚類方法來(lái)得到聚類結(jié)果,最后通過(guò)設(shè)置窗口寬度實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的識(shí)別。由于計(jì)算時(shí)需要花費(fèi)大量時(shí)間去過(guò)濾原始SCADA 數(shù)據(jù),故該方法效率低。
針對(duì)以上文獻(xiàn)的局限,本文結(jié)合風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)的分布特征,將參數(shù)模型與非參數(shù)模型結(jié)合,以實(shí)現(xiàn)風(fēng)電機(jī)組異常運(yùn)行數(shù)據(jù)的識(shí)別。以2 臺(tái)風(fēng)電機(jī)組所具有的復(fù)雜異常數(shù)據(jù)為例,驗(yàn)證本文所提方法的有效性。
不同因素所產(chǎn)生的異常數(shù)據(jù),在風(fēng)速-功率(V-P)坐標(biāo)系中的分布特征也各不相同。
功率散點(diǎn):即每一條運(yùn)行數(shù)據(jù)中,由風(fēng)速和功率構(gòu)成的數(shù)據(jù)對(duì),簡(jiǎn)稱為散點(diǎn)。
本文以2 臺(tái)1.5 MW 雙饋式風(fēng)電機(jī)組(LY21和E17)10 min 間隔運(yùn)行數(shù)據(jù)為算例。LY21 機(jī)組發(fā)電功率大于零的數(shù)據(jù)總計(jì)18 215 條,其散點(diǎn)分布如圖1 所示;E17 機(jī)組發(fā)電功率大于零的數(shù)據(jù)總計(jì)30 205 條,其散點(diǎn)分布如圖2 所示。
圖1 LY21 機(jī)組功率散點(diǎn)分布Fig. 1 Power dots distribution of LY21 unit
圖2 E17 機(jī)組功率散點(diǎn)分布Fig. 2 Power dots distribution of E17 unit
從圖1、圖2 中可看出,2 臺(tái)機(jī)組正常運(yùn)行數(shù)據(jù)對(duì)應(yīng)的功率散點(diǎn)分布密集,“功率主帶”呈“廠”字形分布。將顯著脫離風(fēng)電機(jī)組正常運(yùn)行狀態(tài)的運(yùn)行數(shù)據(jù),即“功率主帶”外的運(yùn)行數(shù)據(jù)定義為異常運(yùn)行數(shù)據(jù),其所對(duì)應(yīng)的功率散點(diǎn)即為異常散點(diǎn)。異常散點(diǎn)可分為以下3 類。
(1)欠發(fā)型散點(diǎn)。該類型散點(diǎn)表現(xiàn)為:隨機(jī)分布在功率主帶附近且密度較低,風(fēng)速較高但功率較低。此類散點(diǎn)一般由于風(fēng)電機(jī)組工況變化、數(shù)據(jù)采集異常、發(fā)電性能劣化等因素引起。
(2)分岔型散點(diǎn)。該類型散點(diǎn)表現(xiàn)為功率主帶附近的一條或者多條密度較為稀疏的功率副帶。此類散點(diǎn)產(chǎn)生的原因可能為風(fēng)速計(jì)或轉(zhuǎn)速傳感器異常、變槳系統(tǒng)卡塞等。
(3)限負(fù)荷型散點(diǎn)。該類型散點(diǎn)表現(xiàn)為一條或多條位于功率主帶右側(cè)的橫向密集堆積的水平數(shù)據(jù)帶。此類散點(diǎn)產(chǎn)生的原因是:當(dāng)機(jī)組出現(xiàn)棄風(fēng)限電時(shí),風(fēng)電機(jī)組提前變槳,控制機(jī)組在限定功率狀態(tài)下運(yùn)行。
由于風(fēng)電機(jī)組功率散點(diǎn)分布復(fù)雜,直接對(duì)風(fēng)速-功率坐標(biāo)系內(nèi)所有功率散點(diǎn)進(jìn)行異常數(shù)據(jù)識(shí)別的難度較大。因此,需要對(duì)功率散點(diǎn)進(jìn)行分區(qū),通過(guò)建立不同區(qū)間內(nèi)的散點(diǎn)概率模型,實(shí)現(xiàn)對(duì)各區(qū)間內(nèi)散點(diǎn)分布情況的準(zhǔn)確描述,從而完成異常數(shù)據(jù)的識(shí)別。
參數(shù)模型,如正態(tài)分布模型、威布爾分布模型等,其優(yōu)點(diǎn)是參數(shù)具有顯著的物理意義,能夠直觀準(zhǔn)確描述數(shù)據(jù)的整體分布特征,具有全局性。但是,使用參數(shù)模型需預(yù)知數(shù)據(jù)分布是否符合該模型特征,并需首先將水平功率區(qū)間內(nèi)散點(diǎn)的分布轉(zhuǎn)換為頻率直方圖,再用頻率直方圖數(shù)據(jù)擬合模型參數(shù)。如圖1、圖2 所示,2 臺(tái)機(jī)組各水平功率區(qū)間數(shù)據(jù)分布情況復(fù)雜,無(wú)法直接判斷其較為符合哪類參數(shù)模型,且頻率直方圖的分區(qū)寬度難以確定。
非參數(shù)模型,如核密度估計(jì)模型等,其優(yōu)點(diǎn)是使用時(shí)無(wú)需事先知道數(shù)據(jù)的分布,僅從數(shù)據(jù)本身即可得到數(shù)據(jù)的概率密度分布;但是,因其缺少能直觀描述數(shù)據(jù)整體分布特征的模型參數(shù),所以其具有局部性,缺乏整體性。
本文將非參數(shù)模型與參數(shù)模型兩者相結(jié)合。在未知各水平功率區(qū)間中數(shù)據(jù)分布前提下,首先應(yīng)用非參數(shù)模型(擴(kuò)散核密度估計(jì))得到功率散點(diǎn)的概率分布;再引入?yún)?shù)模型對(duì)概率分布進(jìn)行擬合,采用擬合的模型參數(shù)來(lái)準(zhǔn)確描述數(shù)據(jù)整體分布特性。
核密度估計(jì)(kernel density estimation,KDE)是一種常見(jiàn)的非參數(shù)密度估計(jì)方法[7-9]。該方法可直接估計(jì)樣本數(shù)據(jù)的概率密度,無(wú)需事先假設(shè)樣本是否服從某個(gè)總體分布。
傳統(tǒng)核密度估計(jì)的表達(dá)式為:
式中:x1,···,xn為總體樣本的獨(dú)立分布隨機(jī)變量;n為樣本數(shù)量;h為與n有關(guān)的常數(shù),稱為帶寬或光滑參數(shù);為核函數(shù),本文選取高斯核作為核函數(shù)。
本文采用擴(kuò)散核密度估計(jì)法(diffusion-based kernel density method,DKDM)替代KDE,有效解決KDE 帶寬選取以及邊界校正的問(wèn)題,并提高KDE 的局部適應(yīng)性[10]。
DKDM 將核函數(shù)等效于熱擴(kuò)散過(guò)程的轉(zhuǎn)移密度,從而建立熱擴(kuò)散與普通核密度估計(jì)的聯(lián)系。
DKDM 的核密度估計(jì)公式為:
式(2)為下述傅里葉熱擴(kuò)散偏微分方程(diffusion partial differential equation,DPDE)的唯一解[10]:
式(4)的初始條件為:
式中:δ為狄拉克函數(shù)。
當(dāng)采用傳統(tǒng)核密度估計(jì)時(shí),若隨機(jī)變量x的定義域有界,則需要對(duì)邊界進(jìn)行校正。若采用
DPDE,則僅需在初始條件(5)和諾埃曼邊界條件式(6)下求解式(4)。
式中:xL為隨機(jī)變量x定義域的下界;xU為隨機(jī)變量x定義域的上界。
假設(shè)定義域?yàn)閇0,1],則基于擴(kuò)散方程的核密度估計(jì)的解析解為[11]:
式中:κ為θ函數(shù),其表達(dá)式為:
式(7)在式(1)的基礎(chǔ)上,考慮到了帶寬選擇與邊界校正,能夠很好地解決傳統(tǒng)核密度估計(jì)帶寬選取和邊界擬合誤差這2 個(gè)問(wèn)題。
在滿發(fā)狀態(tài)時(shí),機(jī)組運(yùn)行在額定功率附近,此時(shí)產(chǎn)生的散點(diǎn)均屬于正常數(shù)據(jù),無(wú)需再進(jìn)行分析;因此,本文僅對(duì)額定功率下的功率散點(diǎn)進(jìn)行區(qū)間劃分并做相應(yīng)的分析。
為保證每個(gè)水平功率區(qū)間內(nèi)包含足夠多的散點(diǎn),在本文中:水平方向上,將機(jī)組分為30 個(gè)功率區(qū)間;功率區(qū)間的間隔為50 kW。
用DKDM 估計(jì)概率分布,結(jié)果如圖3 所示。
風(fēng)電機(jī)組功率主帶所對(duì)應(yīng)的功率散點(diǎn)分布十分密集,因此該處概率密度估計(jì)值應(yīng)明顯較高。在圖3 中,可以非常直觀地看出,2 臺(tái)機(jī)組的每一個(gè)水平功率區(qū)間中至少存在一個(gè)波峰,該波峰的概率密度值明顯高于此功率區(qū)間中其余位置。結(jié)合圖1、圖2 及核密度估計(jì)的原理可知,該波峰對(duì)應(yīng)的即為功率主帶的中心位置。
圖3 DKDM 概率密度估計(jì)結(jié)果Fig. 3 Probability density estimation results by DKDM
LY21 機(jī)組前6 個(gè)功率區(qū)間(0~300 kW)的概率密度分布曲線均出現(xiàn)了雙峰現(xiàn)象:在水平功率區(qū)間中,除功率主帶對(duì)應(yīng)的概率密度峰值外,還存在與圖1 中分岔型散點(diǎn)(即稀疏功率副帶)相對(duì)應(yīng)的另一個(gè)分布密度低于功率主帶的次峰值。
E17 機(jī)組各水平功率區(qū)間概率密度分布曲線均呈單峰現(xiàn)象。但是,在第12(550 kW~600 kW)和第22(1 050 kW~1 100 kW)個(gè)功率區(qū)間,可以明顯看出其概率密度峰值遠(yuǎn)低于其它功率區(qū)間,且概率密度曲線水平向右延伸很遠(yuǎn),呈現(xiàn)拖尾狀態(tài)[12]。與圖2 中對(duì)應(yīng)位置的功率散點(diǎn)分布進(jìn)行對(duì)照分析,結(jié)論為:在這2 個(gè)功率區(qū)間中,出現(xiàn)向右延伸的人為限負(fù)荷橫向堆積型數(shù)據(jù)。
通過(guò)對(duì)每一水平功率區(qū)間內(nèi)功率散點(diǎn)進(jìn)行擴(kuò)散核密度估計(jì),將原來(lái)只能人為觀察的散點(diǎn)疏密分布轉(zhuǎn)換為數(shù)字概率密度曲線。但由于擴(kuò)散核密度估計(jì)方法屬于非參數(shù)模型,沒(méi)有能夠簡(jiǎn)單直觀描述如LY21 機(jī)組雙峰或E17 機(jī)組拖尾等水平功率區(qū)間的整體分布特征的模型參數(shù)。因此,本文采用參數(shù)模型,即混合威布爾分布模型,對(duì)擴(kuò)散核密度估計(jì)的概率密度曲線進(jìn)行參數(shù)化擬合;通過(guò)擬合參數(shù)提取和描述各水平功率區(qū)間散點(diǎn)的整體分布特征。
威布爾分布模型常用于風(fēng)速和風(fēng)能概率密度估計(jì)[13-15],但對(duì)于圖2、圖3 這樣的概率密度曲線,用單一威布爾分布并不能達(dá)到很好的擬合效果[16]。
混合威布爾分布模型由多個(gè)單一威布爾分布加權(quán)組合而成。該模型的適用性較強(qiáng),對(duì)于各種復(fù)雜概率密度曲線的擬合效果較好,且模型各參數(shù)的不同組合,可以反映出所擬合曲線形狀的多種復(fù)雜特征[17]。擬合后,混合威布爾分布的權(quán)重、形狀參數(shù)和尺度參數(shù)即可精確量化反映某一水平功率區(qū)間中擴(kuò)散核密度估計(jì)概率密度曲線形狀特征,即功率散點(diǎn)整體分布特征。
假設(shè)一個(gè)總體樣本可分為m個(gè)子體,每個(gè)子體均服從相同分布。假設(shè)各個(gè)子體的概率密度函數(shù)分別為f1(t),f2(t),…,f m(t),各個(gè)子體所占的權(quán)重分別為p1,p2, …,pm。于是,混合威布爾分布的模型可表示為:
若每個(gè)子體都服從威布爾分布,則fi(t)為:
式中:αi為第i個(gè)威布爾分布尺度參數(shù);βi為第i個(gè)威布爾分布形狀參數(shù)。
本文采用混合威布爾分布對(duì)LY21、E17 機(jī)組各個(gè)水平功率區(qū)間概率密度曲線進(jìn)行擬合。幾個(gè)典型區(qū)間的參數(shù),如表1 所示。
表1 混合威布爾典型參數(shù)Tab. 1 Mixed Weibull typical parameters
擬合效果如圖4 所示。
從圖4 中可看出,混合威布爾分布能夠較好地完成對(duì)擴(kuò)散核密度估計(jì)概率密度曲線的擬合。計(jì)算擬合曲線與概率密度曲線的均方根誤差,發(fā)現(xiàn)均方根誤差均小于0.04。這說(shuō)明,擬合曲線能夠準(zhǔn)確反映水平功率區(qū)間內(nèi)功率散點(diǎn)的分布情況。
圖4 混合威布爾分布對(duì)水平功率區(qū)間概率密度曲線擬合效果Fig. 4 Fitting effect of mixed Weibull distribution for probability density curves in horizontal power intervals
混合威布爾分布的權(quán)重p表示各子體數(shù)據(jù)在總體數(shù)據(jù)中所占比例。p的個(gè)數(shù)i代表著子體的個(gè)數(shù)。當(dāng)i=1 時(shí),為單峰情況;當(dāng)i>1 時(shí),為多峰情況。
混合威布爾分布的形狀參數(shù)β決定擬合函數(shù)的形狀:當(dāng)β≤1 時(shí),擬合函數(shù)呈指數(shù)減函數(shù);當(dāng)β>1 時(shí),呈現(xiàn)尖峰特性[18];當(dāng)β>3.5 時(shí),整體形狀與正態(tài)分布相似,且β越大,概率密度分布越集中在其峰值附近。
由表1 可知,LY21、E17 機(jī)組的形狀參數(shù)β均大于3.5,這說(shuō)明擬合曲線均呈現(xiàn)近似正態(tài)分布形狀。
混合威布爾分布的尺度參數(shù)α主要起到拉伸整個(gè)函數(shù)的作用。α的大小決定擬合函數(shù)的陡峭程度:α越小,擬合函數(shù)越平緩,右側(cè)尾部占比越大,呈“胖尾”特性;α越大,擬合函數(shù)越陡峭,尾部占比越小,呈“瘦尾”特性[19]。
根據(jù)混合威布爾分布3 個(gè)參數(shù)的定義以及表1 的具體數(shù)據(jù),可分析得出LY21、E17 機(jī)組包含3 種類型水平功率區(qū)間:正常水平功率區(qū)間,限功率水平功率區(qū)間,分岔型水平功率區(qū)間。以下針對(duì)3 種類型詳細(xì)說(shuō)明。
(1)正常水平功率區(qū)間
以E17 機(jī)組第8 水平功率區(qū)間為例。具體計(jì)算結(jié)果如圖5 以及表2 所示。
圖5 E17 機(jī)組第8 水平功率區(qū)間散點(diǎn)及概率分布圖Fig. 5 Dots and probability density distribution for the 8th horizontal power interval of E17 unit
表2 E17 機(jī)組第8 水平功率區(qū)間混合威布爾參數(shù)Tab. 2 Mixed Weibull parameters for the 8th horizontal power interval of E17 unit
考察表2 所示結(jié)果。E17 機(jī)組第8 水平功率區(qū)間僅包含一組參數(shù)p1、α1、β1,這說(shuō)明:混合威布爾分布只擬合出一組參數(shù),為單一威布爾分布;模型中只包含一個(gè)子體,概率密度曲線只包含單峰。同時(shí)由于α1的數(shù)值為23.23,數(shù)值較大,概率密度曲線呈現(xiàn)典型正態(tài)“瘦尾”特性,即概率密度曲線呈現(xiàn)瘦高、陡峭現(xiàn)象,不存在拖尾特性,如圖5 所示;功率散點(diǎn)密集分布在功率主帶上,符合正常功率散點(diǎn)的分布特征,因此判斷該水平功率帶為正常水平功率區(qū)間。
由此:若某一水平功率區(qū)間混合威布爾分布為單峰型,形狀參數(shù)β>3.5 且尺度參數(shù)α>20,對(duì)應(yīng)概率密度曲線呈現(xiàn)單峰、陡峭、不拖尾特性,可判斷該水平功率區(qū)間中散點(diǎn)分布正常,為正常水平功率區(qū)間。
(2)限功率水平功率區(qū)間
以E17 機(jī)組第12 水平功率區(qū)間為例。具體計(jì)算結(jié)果如圖6 以及表3 所示。
圖6 E17 機(jī)組第12 水平功率區(qū)間散點(diǎn)及概率分布圖Fig. 6 Dots and probability density distribution for the 12th horizontal power interval of E17 unit
表3 E17 機(jī)組第12 水平功率區(qū)間混合威布爾參數(shù)Tab. 3 Mixed Weibull parameters for the 12th horizontal power interval of E17 unit
考察表3 所示結(jié)果。E17 機(jī)組第12 水平功率區(qū)間僅包含一組參數(shù)p1、α1、β1。同上文所述,判斷模型只包含單峰。E17 機(jī)組第12 水平功率區(qū)間α1的數(shù)值為9.39,顯著小于其第8 水平功率區(qū)間的α1值(α1為23.23)。此時(shí)概率密度曲線呈現(xiàn)“胖尾”特性,即概率密度曲線呈現(xiàn)矮胖、右側(cè)拖尾現(xiàn)象,如圖6 所示。此時(shí)功率散點(diǎn)除分布在功率主帶上,還存在水平向右延伸的密集堆積型散點(diǎn),因此判斷該水平功率帶為限功率水平功率區(qū)間。
(3)分岔型水平功率區(qū)間
以LY21 機(jī)組第5 水平功率區(qū)間為例。具體計(jì)算結(jié)果如圖7 以及表4 所示。
表4 LY21 機(jī)組第5 水平功率區(qū)間混合威布爾參數(shù)Tab. 4 Mixed Weibull parameters for the 5th horizontal power interval of LY21 unit
圖7 LY21 機(jī)組第5 水平功率區(qū)間散點(diǎn)及概率分布圖Fig. 7 Dots and probability density distribution for the 5th horizontal power interval of LY21 unit
考察表4 所示結(jié)果。LY21 機(jī)組第5 水平功率區(qū)間出現(xiàn)了2 組參數(shù):p1、α1、β1以及p2、α2、β2。根據(jù)混合威布爾分布原理可知,此時(shí)所擬合的模型中包含2 個(gè)子體,即所擬合的模型中包含2 個(gè)威布爾分布,可判斷出現(xiàn)了雙峰現(xiàn)象。由于α1大于α2,表明LY21 機(jī)組第5 水平功率區(qū)間第一個(gè)峰比第二個(gè)峰更瘦更高,如圖7 所示。此時(shí)功率散點(diǎn)除了密集堆積在功率主帶上,在功率主帶向右位置也出現(xiàn)了較為密集堆積的散點(diǎn),判斷該水平功率區(qū)間為分岔型水平功率區(qū)間。當(dāng)多個(gè)相鄰水平功率區(qū)間均出現(xiàn)此現(xiàn)象時(shí)(如LY21 機(jī)組第1至6 個(gè)水平功率區(qū)間),則反映為在功率主帶右邊出現(xiàn)分岔現(xiàn)象,即出現(xiàn)了一條稀疏功率副帶。
對(duì)照分析可知,3 類典型水平功率區(qū)間的功率散點(diǎn)分布、對(duì)應(yīng)擴(kuò)散核密度估計(jì)概率密度曲線以及混合威布爾分布模型擬合參數(shù)所表達(dá)的結(jié)果完全相符。因此可以得出結(jié)論:混合威布爾分布的權(quán)重、形狀參數(shù)和尺度參數(shù),能夠定量、準(zhǔn)確地表征各個(gè)水平功率區(qū)間運(yùn)行數(shù)據(jù)的整體分布特征,可作為判斷該區(qū)間數(shù)據(jù)分布正常與否的重要依據(jù)。
對(duì)于異常數(shù)據(jù)較多的風(fēng)電機(jī)組如LY21 和E17,除正常水平功率區(qū)間外,還存在如限負(fù)荷型、分岔型等非正常水平功率區(qū)間。
本文提出平均置信區(qū)間方法,分別對(duì)正常水平功率區(qū)間和非正常水平功率區(qū)間進(jìn)行異常數(shù)據(jù)識(shí)別。
依據(jù)某一水平功率區(qū)間的混合威布爾擬合參數(shù)及上述正常水平功率區(qū)間的判別方法,即可確定該區(qū)間是否為正常水平功率區(qū)間。
(1)正常水平功率區(qū)間異常數(shù)據(jù)識(shí)別。
對(duì)于正常水平功率區(qū)間,以概率密度曲線峰值為中心,向左側(cè)和右側(cè)對(duì)稱確定置信度為95%的雙邊分位點(diǎn)及置信區(qū)間寬度。置信區(qū)間內(nèi)的功率散點(diǎn)即為正常數(shù)據(jù),區(qū)間外的即為異常數(shù)據(jù)。如圖5(b)中E17 機(jī)組第8 水平功率區(qū)間所示,其置信分位點(diǎn)分別為5.36 m/s 和7.40 m/s,置信區(qū)間寬度為2.04 m/s。
將機(jī)組所有判斷為正常水平功率區(qū)間的置信區(qū)間寬度求取平均值即可得到平均置信區(qū)間寬度。E17 機(jī)組的正常水平功率區(qū)間共28 個(gè),平均置信區(qū)間寬度為2.00 m/s。LY21 機(jī)組的正常水平功率區(qū)間共24 個(gè),平均置信區(qū)間寬度為1.81 m/s。
(2)非正常水平功率區(qū)間異常數(shù)據(jù)識(shí)別。
對(duì)于通過(guò)混合威布爾分布擬合參數(shù)判定為具有拖尾或雙峰等特征的限負(fù)荷、分岔型等非正常水平功率區(qū)間,采用平均置信區(qū)間方法識(shí)別異常數(shù)據(jù)。
以非正常水平功率區(qū)間的概率密度曲線最大峰值為中心,向左側(cè)和右側(cè)對(duì)稱確定置信分位點(diǎn),分位點(diǎn)之間的置信區(qū)間寬度為該機(jī)組的平均置信區(qū)間寬度。如圖6 中,E17 機(jī)組第12 個(gè)限功率水平功率區(qū)間采用E17 機(jī)組的平均置信區(qū)間寬度2.00 m/s。圖7 中LY21 機(jī)組第5 個(gè)分岔型水平功率區(qū)間采用LY21 機(jī)組的平均置信區(qū)間寬度1.81 m/s。置信區(qū)間內(nèi)的功率散點(diǎn)為正常數(shù)據(jù),區(qū)間外的為異常數(shù)據(jù)。
采用上述方法依次對(duì)額定功率以下的各個(gè)水平功率區(qū)間進(jìn)行異常數(shù)據(jù)識(shí)別。LY21 和E17 機(jī)組的異常數(shù)據(jù)識(shí)別結(jié)果如圖8 所示。圖8 中,黑色散點(diǎn)表示正常數(shù)據(jù),紅色散點(diǎn)表示異常數(shù)據(jù)。
圖8 異常運(yùn)行數(shù)據(jù)識(shí)別結(jié)果Fig. 8 Abnormal operational data identification results
文獻(xiàn)[4]采用LOF(local outlier factor)算法對(duì)2 臺(tái)實(shí)驗(yàn)機(jī)組進(jìn)行異常數(shù)據(jù)識(shí)別。LOF 算法的思想是:利用加權(quán)距離計(jì)算數(shù)據(jù)的相對(duì)密度;把具有足夠高密度的區(qū)域劃分為簇;通過(guò)設(shè)定閾值,實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的清洗。
對(duì)于本文算例,該算法識(shí)別效果如圖9 所示。
圖9 LOF 算法異常運(yùn)行數(shù)據(jù)識(shí)別結(jié)果Fig. 9 Abnormal operational data identification results
對(duì)于LY21 及E17 機(jī)組,本文所提方法的數(shù)據(jù)剔除率分別為12.6%與3.68%,LOF 算法的數(shù)據(jù)剔除率分別為3.43%與1.12%。
由此可知,本文方法在識(shí)別堆積型異常數(shù)據(jù)方面具有優(yōu)勢(shì)。
以2 臺(tái)機(jī)組的復(fù)雜異常數(shù)據(jù)為例,驗(yàn)證了本文方法的有效性。
(1)對(duì)風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)進(jìn)行分析與處理時(shí),在水平功率方向上以一定功率間隔分層劃分工況,采用非參數(shù)模型擴(kuò)散核密度估計(jì)方法對(duì)各個(gè)水平功率區(qū)間運(yùn)行數(shù)據(jù)進(jìn)行概率分布估計(jì),從而克服了KDE 帶寬選取以及邊界校正問(wèn)題,提高了KDE 的局部適應(yīng)性。
(2)利用參數(shù)模型混合威布爾分布擬合擴(kuò)散核密度估計(jì)的概率密度曲線。模型參數(shù)p,α,β能夠直觀準(zhǔn)確描述水平功率區(qū)間中數(shù)據(jù)整體分布特征,可依此準(zhǔn)確判別水平功率區(qū)間中運(yùn)行數(shù)據(jù)分布是否正常。
(3)采用平均置信區(qū)間異常數(shù)據(jù)清洗方法。對(duì)非正常水平功率區(qū)間,采用平均置信區(qū)間寬度確定識(shí)別異常數(shù)據(jù)的上下分位點(diǎn),實(shí)現(xiàn)異常數(shù)據(jù)的準(zhǔn)確識(shí)別與剔除。
在后續(xù)研究中,將對(duì)水平功率區(qū)間的劃分間隔開(kāi)展深入研究,力圖在保證核密度估計(jì)效果的基礎(chǔ)上給出區(qū)間劃分依據(jù),進(jìn)一步提高異常數(shù)據(jù)識(shí)別的效果。