曾祥軍,馮琛,楊明,劉曉,胥明凱
(1.電網(wǎng)智能化調(diào)度與控制教育部重點實驗室(山東大學(xué)),山東省濟南市 250061;2.國網(wǎng)山東省電力公司濟南供電公司,山東省濟南市 250001)
受惡劣的外部環(huán)境和復(fù)雜的運行工況的影響,大型風(fēng)電機組比火電機組和水電機組有著更高的故障率。頻繁故障不僅降低了運行效率,同時也增加了運維成本[1]。因此,有必要采取措施來降低風(fēng)電機組的故障率,提高其運行可靠性?;陲L(fēng)電機組數(shù)據(jù)采集與監(jiān)控(SCADA)數(shù)據(jù)的異常檢測方法被證明能有效降低風(fēng)電機組的故障率[2-3]。
基于風(fēng)電機組SCADA 數(shù)據(jù)的異常檢測方法主要通過對SCADA 系統(tǒng)所采集數(shù)據(jù)的學(xué)習(xí)和推理來構(gòu)建目標(biāo)變量的狀態(tài)估計模型,并通過對狀態(tài)變量真實值與預(yù)期結(jié)果的不一致性檢測來實現(xiàn)對異常的辨識[4]。根據(jù)這一原理,有許多不同的異常檢測方法被提出。文獻[5-6]提出了一種基于稀疏貝葉斯學(xué)習(xí)(SBL)算法的風(fēng)電機組齒輪箱和變槳電機異常檢測方法,該方法以置信區(qū)間的形式描述了不確定因素對異常檢測結(jié)果的影響。文獻[7]提出了一種基于熵優(yōu)化鄰域粗糙集的變槳系統(tǒng)的異常狀態(tài)識別方法,能夠在線識別不同工況下變槳系統(tǒng)的各種異常狀態(tài)。文獻[8]提出一種基于堆疊自編網(wǎng)絡(luò)的風(fēng)電機組的發(fā)電機異常狀態(tài)檢測方法,該方法通過異常閾值的自適應(yīng)變化可有效提高檢測結(jié)果的可靠性。文獻[9]提出了一種基于高斯過程回歸和雙滑窗殘差處理的風(fēng)電機組主軸承異常狀態(tài)檢測方法,該方法能夠在高噪聲的情況下可靠識別主軸承的異常狀態(tài)。此外,一些基于支持向量機(SVM)[10]、神經(jīng)網(wǎng)絡(luò)[11-12]和深度學(xué)習(xí)[13-14]的風(fēng)電機組異常檢測方法也取得了很好的效果。
上述檢測方法的準(zhǔn)確性通常與用于模型訓(xùn)練的歷史數(shù)據(jù)的數(shù)量呈正相關(guān),但采集異常和內(nèi)存的定期更新可能限制了能夠獲取的歷史數(shù)據(jù)數(shù)量,容易導(dǎo)致訓(xùn)練數(shù)據(jù)不足。與此同時,許多異常檢測方法默認(rèn)用于模型訓(xùn)練的歷史數(shù)據(jù)為風(fēng)電機組正常運行時的監(jiān)測數(shù)據(jù),但實際的風(fēng)電機組可能很早便處于異常運行狀態(tài),當(dāng)利用這些監(jiān)測數(shù)據(jù)進行模型訓(xùn)練時,必然會影響異常檢測結(jié)果的可靠性。而且大多數(shù)異常檢測方法在構(gòu)建狀態(tài)估計模型時沒有考慮變量自身的短時相依性,而是假設(shè)變量當(dāng)前時刻的狀態(tài)與先前時刻的狀態(tài)是相互獨立的[15]。但實際風(fēng)電機組的許多狀態(tài)量,如溫度、壓力以及偏航角等是存在短時相依關(guān)系的,忽略變量之間的短時相依關(guān)系也可能影響以這些變量為檢測對象的異常檢測結(jié)果的準(zhǔn)確性[16]。
針對上述問題,本文提出了一種新的風(fēng)電機組異常檢測方法,該方法利用同一風(fēng)電場內(nèi)相似風(fēng)電機組的SCADA 數(shù)據(jù)來擴充用于模型訓(xùn)練的歷史數(shù)據(jù)規(guī)模,以緩解訓(xùn)練不足或異常對狀態(tài)估計模型的影響,并通過對輸入變量的構(gòu)造使模型具備短期記憶功能,以緩解模型無法挖掘變量短時相依性的不足。文中首先提出了一種基于互信息特征選擇算法和迭代自組織數(shù)據(jù)分析(ISODATA)聚類算法的相似風(fēng)電機組選擇方法。然后,利用目標(biāo)機組自身歷史數(shù)據(jù)構(gòu)建基于SVM 的確定性估計模型,并通過確定性估計和閾值檢測法實現(xiàn)目標(biāo)機組異常狀態(tài)的自檢測;利用相似風(fēng)電機組的歷史數(shù)據(jù)構(gòu)建基于核密度估計(KDE)的組合概率估計模型(CPEM),通過概率估計和假設(shè)檢驗實現(xiàn)對目標(biāo)機組異常狀態(tài)的外部檢測。最后,綜合考慮自檢測和外部檢測的結(jié)果對目標(biāo)機組異常運行情況進行評估,并針對評估結(jié)果給出相應(yīng)的維護建議?;谝粋€實際風(fēng)電場所有風(fēng)電機組的SCADA 數(shù)據(jù)對所提方法的有效性、可行性和準(zhǔn)確性進行驗證。
風(fēng)電機組的SCADA 系統(tǒng)采集了眾多的狀態(tài)變量數(shù)據(jù),這些變量數(shù)據(jù)可以大致分為3 類:第1 類為環(huán)境變量監(jiān)測數(shù)據(jù),主要包含了影響風(fēng)電機組運行的風(fēng)速、風(fēng)向、氣溫等數(shù)據(jù);第2 類為直接或間接反映風(fēng)電機組重要組件和子系統(tǒng)的運行狀態(tài)數(shù)據(jù),如各種轉(zhuǎn)速、角度、溫度、壓力以及電信號等不同變量的監(jiān)測數(shù)據(jù);第3 類為主要用于對風(fēng)電機組配套的繼電保護裝置、蓄電池、液壓機構(gòu)等輔助設(shè)備的工作狀態(tài)進行指示的數(shù)據(jù)。第3 類數(shù)據(jù)通常為布爾量,由于這些數(shù)據(jù)可以直接判斷設(shè)備的運行狀態(tài)是否正常,因此本文僅針對前2 類變量數(shù)據(jù)在風(fēng)電機組異常檢測中的應(yīng)用進行研究。
如圖1 所示,本文所提出的異常檢測可分為3 個部分:第1 部分包括風(fēng)電機組變量的選擇以及相似風(fēng)電機組的確定;第2 部分為狀態(tài)估計模型的構(gòu)建,包括基于目標(biāo)風(fēng)電機組自身數(shù)據(jù)訓(xùn)練的確定性估計模型和基于相似風(fēng)電機組數(shù)據(jù)訓(xùn)練的CPEM,為了保證模型的性能,在模型訓(xùn)練前需要對數(shù)據(jù)進行預(yù)處理,模型訓(xùn)練結(jié)束后還需要對模型的性能進行評估;第3 部分則是對目標(biāo)變量進行異常檢測,包含基于確定性估計模型的自檢測和基于CPEM 的外部檢測,最終的檢測結(jié)果需要結(jié)合2 次檢測的結(jié)果進行綜合評估。
圖1 異常檢測流程Fig.1 Process of anomaly detection
相似風(fēng)電機組的選擇將直接影響外部檢測結(jié)果的可靠性,只有運行狀態(tài)與目標(biāo)機組有著較強相似性的風(fēng)電機組SCADA 數(shù)據(jù)才會被用于模型訓(xùn)練[17]??紤]到當(dāng)前并沒有公認(rèn)合理的風(fēng)電機組選擇方法,首先以實際數(shù)據(jù)對相似風(fēng)電機組選擇中需要注意的問題進行說明,然后提出相應(yīng)的風(fēng)電機組相似性選擇方法。
附錄A 圖A1 用箱式圖展示了同一個風(fēng)電場內(nèi)33 臺風(fēng)電機組1 個月內(nèi)SCADA 系統(tǒng)監(jiān)測的4 種不同變量數(shù)據(jù)的分布情況,包括第1 類變量中的風(fēng)速、環(huán)境溫度和第2 類變量中的輸出功率、主軸承溫度??梢钥闯觯瑘DA1(a)和(c)中反映不同機組風(fēng)速和環(huán)境溫度數(shù)據(jù)分布的箱體整體平穩(wěn)排列,這是由于同一風(fēng)電場內(nèi)所有機組的運行環(huán)境大致相同,因此監(jiān)測到的第1 類變量數(shù)據(jù)通常有較強的相似性。但長時間的運行會導(dǎo)致風(fēng)電機組內(nèi)部子系統(tǒng)或部件不可避免出現(xiàn)不同程度的劣化,從而使得監(jiān)測到的第2類變量數(shù)據(jù)有較大區(qū)別。圖A1(b)和(d)所展示的各機組的輸出功率和主軸承溫度數(shù)據(jù)分布的箱體呈現(xiàn)出較大的波動即是證明。因此,在相似風(fēng)電機組的選擇過程中不能僅考慮第1 類變量數(shù)據(jù)是否相似,還需要同時考慮第2 類變量數(shù)據(jù)是否相似。
此外,在對第2 類變量進行選擇時應(yīng)避免以偏概全。以附錄A 圖A1(b)和(d)中紅色方框圈定的11 至15 號5 臺機組為例,在圖A1(d)中的主軸承溫度數(shù)據(jù)分布大致相同,但在圖A1(b)中的輸出功率數(shù)據(jù)分布卻有著明顯的差異。若在第2 類變量中僅以主軸承溫度數(shù)據(jù)是否相似來選擇相似的風(fēng)電機組,則選擇結(jié)果是不可信的。因此,在選擇第2 類變量數(shù)據(jù)時需要同時考慮多個相關(guān)變量的數(shù)據(jù)是否相似來提高選擇結(jié)果的可靠性。
基于上述原則,本文提出了一種綜合考慮風(fēng)電機組宏觀狀態(tài)與微觀狀態(tài)相似性的風(fēng)電機組選擇方法。宏觀狀態(tài)相似是指風(fēng)電機組的運行環(huán)境和能量轉(zhuǎn)換效率相似;微觀狀態(tài)相似則是指與檢測對象直接或間接相關(guān)的狀態(tài)變量的相似。這些狀態(tài)變量的選擇不僅依賴于專業(yè)知識,也要結(jié)合對數(shù)據(jù)的分析來提供理論支撐。本文采用互信息特征選擇算法對不同狀態(tài)變量之間的相關(guān)性進行分析,并選擇與待檢測目標(biāo)變量相關(guān)性相對較強的變量用于評估風(fēng)電機組運行狀態(tài)的相似性。當(dāng)確定不同的狀態(tài)變量后,進一步對所選擇的變量進行特征重構(gòu),并采用ISODATA 聚類算法選擇運行狀態(tài)相似的風(fēng)電機組。
2.2.1 互信息特征選擇
互信息特征選擇的基礎(chǔ)是信息熵,信息熵被用于衡量隨機變量所含信息的不確定性。對于一個隨機變量X=(x1,x2,…,xm),其信息熵為:
式中:p(xi)為xi在X中的概率。
若給定另一個隨機變量Y=(y1,y2,…,ym),則2 個變量的聯(lián)合熵H(X,Y)和條件熵H(X|Y)分別定義為:
式中:p(xi,yi)為聯(lián)合概率,表示已知yi時xi的條件概率;p(xi|yj)為條件yi下xi的條件概率。
若已知2 個變量的信息熵、聯(lián)合熵以及條件熵,則它們的互信息可通過式(4)計算。
互信息是隨機變量之間相互依賴程度的一種度量,它的大小能夠表示變量之間的關(guān)聯(lián)程度[18],其值越大,表明變量之間的相關(guān)性越強。由式(4)可推導(dǎo)出2 個變量的互信息最小為0,表示2 個變量相互獨立;而 2 個變量的互信息最大值為min(H(X),H(Y)),即2 個變量的互信息不可能大于某一個變量自身的信息熵。由于變量之間的互信息的計算不受變量的線性和非線性關(guān)系約束,因此被廣泛應(yīng)用于隨機變量之間的相關(guān)性分析。變量之間的相關(guān)性越強,說明變量之間的聯(lián)系越密切?;诨バ畔⑦x擇變量一般包含3 個步驟:1)計算目標(biāo)變量與其他變量之間的互信息;2)基于各變量與目標(biāo)變量之間的互信息將各變量按相關(guān)性從強到弱排序;3)根據(jù)需求選擇排名靠前的若干變量進行下一步分析。
2.2.2 ISODATA 聚類算法
ISODATA 屬于自適應(yīng)聚類算法,它通過對前一次聚類結(jié)果的反復(fù)合并和分裂實現(xiàn)對樣本的最優(yōu)聚類[19]。ISODATA 的算法流程圖如圖2 所示,其主要步驟如下。
圖2 ISODATA 聚類算法流程圖Fig.2 Flow chart of ISODATA clustering algorithm
步驟1:設(shè)定初始參數(shù),包括最大迭代次數(shù)N、每個聚類的最少樣本數(shù)Nsam、不同聚類中心的最小距離Dmin、每個聚類的最大允許方差Vmax以及預(yù)期的聚類數(shù)K(K≥2)。
步驟2:計算各聚類域中各樣本到聚類中心的距離,并根據(jù)樣本與聚類中心的距離不斷修正聚類中心。
步驟3:根據(jù)迭代次數(shù)n、聚類數(shù)目Nc以及聚類中心之間的距離判斷是否滿足聚類的分裂和合并條件。
步驟4:根據(jù)判別結(jié)果執(zhí)行合并或分裂運算。
步驟5:判斷聚類是否滿足終止條件,若滿足則終止聚類,否則返回步驟2 重新迭代計算。
2.2.3 運行狀態(tài)相似的風(fēng)電機組選擇
本文提出的運行狀態(tài)相似的風(fēng)電機組的選擇流程如圖3 所示,該方法的核心是ISODATA 聚類算法。首先,對每個狀態(tài)變量進行特征重構(gòu)為聚類算法提供必要的特征量。重構(gòu)的聚類特征量來源于各狀態(tài)變量的統(tǒng)計特征,這些統(tǒng)計特征可以分為3 類,分別反映了狀態(tài)變量的集中趨勢、變異趨勢以及形態(tài)分布特征。然后,基于不同狀態(tài)變量重構(gòu)的聚類特征量對不同的機組進行聚類,并將包含目標(biāo)機組的類標(biāo)識為該變量的目標(biāo)類。最后,將所有變量的目標(biāo)類取交集,交集所包含的風(fēng)電機組即為運行狀態(tài)相似的風(fēng)電機組。
圖3 相似風(fēng)電機組的選擇流程Fig.3 Selection process of similar wind turbines
下面以一個示例來幫助理解該過程。如附錄A表A1 所示,有編號為0 至8 的不同風(fēng)電機組,擬通過3 個變量A、B、C來實現(xiàn)相似風(fēng)電機組的選擇。已知以單個變量的統(tǒng)計特征聚類可以將這些風(fēng)電機組劃分為不同的類:含機組0 的目標(biāo)類和其他類?;贏、B、C這3 個變量的風(fēng)電機組聚類結(jié)果如表A1 所示。通過對目標(biāo)類取交集可以確定與機組0運行狀態(tài)相似的為機組3 和4。
風(fēng)電機組的許多狀態(tài)變量與相鄰時刻的狀態(tài)有著密切的聯(lián)系,正常運行情況下,這些變量的監(jiān)測值在短時間內(nèi)難以發(fā)生大的突變。一些學(xué)者將變量的這種特性稱為短時相依性[17]。以實際的齒輪箱的油溫信號為例,附錄A 圖A2 展示了正常運行時相鄰采樣間隔的2 條齒輪箱油溫曲線及其對應(yīng)的溫度變化率曲線。可以發(fā)現(xiàn),t-1 時刻的油溫值與t時刻的油溫值緊密相關(guān),2 條曲線近似重合,且相鄰時刻的溫度變化率很小。顯然,變量的短時相依性體現(xiàn)的是變量內(nèi)部的物理約束,若在構(gòu)建狀態(tài)估計模型時考慮變量的短時相依性將有助于提升估計結(jié)果的可靠性。
本文的狀態(tài)估計模型包含2 種:基于SVM 的確定性估計模型和基于多個KDE 的CPEM。2 種模型的輸入變量形式相同,均為r×(c+1)的矩陣,如式(5)所示。
式中:r為訓(xùn)練樣本數(shù)量;xt,cr為t時刻第c個變量的第r個采樣量;yt-1,r為t-1 時刻目標(biāo)變量y的第r個采樣量。矩陣x的前c列是與目標(biāo)變量密切關(guān)聯(lián)的c個變量,其第c+1 列則為上一時刻的目標(biāo)變量的真實值。將上一時刻的目標(biāo)變量真實值作為當(dāng)前時刻輸入變量是為了使模型能夠挖掘目標(biāo)變量的短時相依性。
SVM 與CPEM 的輸出是不一樣的,SVM模型的輸出為目標(biāo)變量的期望值,而CPEM 模型的輸出為目標(biāo)變量在給定置信度水平為α?xí)r的分布區(qū)間dcpem,如式(6)和式(7)所示。
風(fēng)電機組SCADA 系統(tǒng)采集的原始數(shù)據(jù)質(zhì)量通常不理想,因而有必要對原始數(shù)據(jù)進行預(yù)處理,主要包括缺失值和異常值(明顯大于或小于其相鄰的值)的處理以及數(shù)據(jù)的歸一化。本文針對缺失值和異常值均采用權(quán)值插補法進行處理,計算公式為:
式中:xt為t時刻的缺失值或異常值;xt-k和xt+k分別為缺失值前k個時刻和后k個時刻的采樣值;ak為線性權(quán)值,它的大小反映了各相鄰值與該值的關(guān)聯(lián)程度,本文取k=2。
為了消除變量的量綱,可根據(jù)式(9)對所有的變量進行歸一化:
式中:xmax和xmin分別為狀態(tài)變量x的最大值和最小值為歸一化之后的值。
SVM 是一種從統(tǒng)計學(xué)習(xí)理論發(fā)展而來的核學(xué)習(xí)算法,它通過核函數(shù)將非線性樣本映射到高維向量空間,并通過尋找最優(yōu)超平面使得所有樣本離該超平面的距離最小,從而解決回歸問題。在給定輸入變量x的情況下,通過非線性映射函數(shù)?(x)映射到高維向量空間得到線性回歸多項式f(x):
式中:b為偏置量;ω為線性權(quán)。
定義模型的正則化風(fēng)險范函數(shù)R(C)為:
式中:L(·)為最小的損失函數(shù);ε為允許誤差;C為懲罰因子,C越大表示訓(xùn)練誤差導(dǎo)致的懲罰值越大。這里xi和yi分別表示第i個樣本的輸入和輸出值。
為了求得最優(yōu)的超平面,可以將R(C)的求解轉(zhuǎn)化為如下的優(yōu)化問題:
式中:ξi和ζi為松弛變量。
通過拉格朗日函數(shù)可對式(13)的對偶形式進行求解:
式中:αi和為拉格朗日乘子;K(xi,xj)為核函數(shù),本文采用泛化性能較好的高斯核。
式中:h為核帶寬。
當(dāng)獲得式(13)的最優(yōu)解后,可將式(10)表示為如下的回歸函數(shù):
KDE 是一種非參數(shù)估計方法,它不需要對目標(biāo)變量的分布進行任何假設(shè),也不依賴于任何先驗知識,僅基于給定的核函數(shù)即可對目標(biāo)變量的概率密度函數(shù)進行估計。假設(shè)給定風(fēng)電機組的訓(xùn)練數(shù)據(jù)集為D={xi,yi},i=1,2,…,r,在給定新的輸入變量xt時,其對應(yīng)輸出變量yt的條件概率密度函數(shù)可根據(jù)KDE 原理表示為:
式中:M(yt|D,xt)為基于KDE 估計的目標(biāo)變量yt的條件概率密度函數(shù);xi=[x1,x2,…,xd]是一個d維矢量;h(xt,xi)為變量的解釋函數(shù);Hx(xt,xi)用于控制解釋變量的平滑度;xtd和xid分別為xt和xi第d列的元素。
若用Mi(yt|D,xt)表示第i個KDE 模型對目標(biāo)變量yt的概率估計結(jié)果,則基于多個不同KDE 模型采用線性加權(quán)方式得到的CPEM 的估計結(jié)果可以表示為[20]:
式中:Mcpem(yt|D,xt)為CPEM 估計的yt的條件概率密度函數(shù);wi為組合權(quán)值;l為組合模型個數(shù)。組合權(quán)值的大小反映了不同模型對整體估計結(jié)果的貢獻度,最佳的組合權(quán)值可以通過粒子群優(yōu)化算法求得。相比單一KDE 模型的估計結(jié)果,CPEM 對目標(biāo)變量的估計結(jié)果更接近其真實分布。當(dāng)?shù)玫侥繕?biāo)變量的概率密度函數(shù)后,在給定置信度水平的情況下可以得到變量的分布區(qū)間。
上述SVM 模型和CPEM 均采用了高斯核,本文采用網(wǎng)格搜索法對2 種模型的核帶寬進行優(yōu)化,以提高模型的性能。與此同時,為了對不同模型的性能進行評估,本文設(shè)置了不同的評估指標(biāo)。其中SVM 模型的性能評估指標(biāo)包括平均絕對誤差(MAE)Emae和均方根誤差(RMSE)Ermse;CPEM 的評估指標(biāo)包括未覆蓋率指標(biāo)Pc、平均帶寬指標(biāo)Ps和連續(xù)分級評分Rcrps,計算公式如下:
式中:為狀態(tài)變量的期望值;N為參與評估的樣本數(shù)量;Lα,i和Uα,i分別為給定顯著性水平α?xí)r的置信區(qū)下限和上限,本文取α=1;1(yi∈[Lα,i,Uα,i])為示性函數(shù),當(dāng)yi∈[Lα,i,Uα,i]時,其值為1,否則為0;Rd為所估計置信區(qū)間最大帶寬;F(yi)為目標(biāo)變量的累計分布函數(shù);H(yi-)為階躍函數(shù)。Emae和Ermse分別用于評估SVM 模型的估計值和真實值的誤差,其值越小越好;Pc反映了真實值落在置信區(qū)間外的比例;Ps反映了置信區(qū)間的緊湊程度;Rcrps則可視作MAE 在連續(xù)概率分布上的推廣,其值越小越好[21]。
由于自檢測與外部檢測所用模型不同,因而它們對異常狀態(tài)的識別方法也不同。如附錄A 圖A3所示,基于SVM 模型的異常狀態(tài)識別采用的是殘差閾值比較法。而對于CPEM 的異常識別則采用文獻[5]所提方法,分為2 步:1)真實值與置信區(qū)間的比較;2)基于滑窗采樣的假設(shè)檢驗的驗證。本文以固定窗寬進行滑動采樣,并假設(shè)采樣窗口內(nèi)的超出估計區(qū)間的樣本比例高于p時才認(rèn)為該時段確有異常發(fā)生,否則認(rèn)為數(shù)據(jù)的異??赡苁窃肼曀隆I鲜鰡栴}可視作單樣本比例的假設(shè)檢驗,其數(shù)學(xué)描述為:
式中:μ為真實的異常樣本比例;H0為原假設(shè),表示檢測樣本存在異常值;H1為備擇假設(shè),為H0的對立情況。
假設(shè)檢驗的樣本數(shù)Ns與設(shè)定的異常值比例p對異常檢測結(jié)果有明顯的影響。根據(jù)文獻[22]可知,單比例假設(shè)檢驗的合理樣本量與假設(shè)檢驗的比例值應(yīng)滿足如下關(guān)系:
得到自檢測和外部檢測結(jié)果后,可以根據(jù)表1中所列規(guī)則對設(shè)備狀態(tài)的風(fēng)險程度進行評估,并根據(jù)異常風(fēng)險程度給出維護建議。
表1 異常狀態(tài)的評估與維護建議Table 1 Suggestions on evaluation and maintenance for abnormal conditions
本文的算例所用數(shù)據(jù)均來自中國山東半島東部的某陸上風(fēng)電場,該風(fēng)電場所處的地形為丘陵,包含分2 期建設(shè)的33 臺2.2 MW 雙饋異步風(fēng)力發(fā)電機組。為方便分析,將已知故障的機組標(biāo)識為0 號機組,其他機組按1 至32 進行標(biāo)識。已知0 號機組的SCADA 系統(tǒng)記錄了2019-03-15 的18:35 發(fā)生齒輪箱前軸承溫度(后文簡稱前軸承溫度)超限報警,此后又連續(xù)多次出現(xiàn)故障報警。
分別選取2018-11-01 至2019-01-31、2019-02-01至2019-02-19 的數(shù)據(jù)組成訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集,2019-02-20 至2019-03-16 的數(shù)據(jù)組成異常檢測數(shù)據(jù)集,并利用2018-11-01 至2019-02-19 的采樣間隔為1 min 的161 280 條數(shù)據(jù)來選擇與0 號機組運行狀態(tài)相似的風(fēng)電機組。已知這段時間所有的風(fēng)電機組并沒有限制功率的情況,但為了排除個別風(fēng)電機組停機檢修或SCADA 系統(tǒng)異常的影響,刪除了所有風(fēng)電機組SCADA 系統(tǒng)記錄中風(fēng)速低于2.5 m/s和輸出功率小于10 kW(異常數(shù)據(jù)較多)所對應(yīng)時刻的數(shù)據(jù)。篩選后的實際使用數(shù)據(jù)為137 683 條,其有效數(shù)據(jù)比例為85.37%。此外,在基于概率估計的異常辨識中,本文設(shè)置假設(shè)檢驗的步長為2 h,即每次檢測的樣本點為120 個。取z-test 的置信度水平為95%、允許誤差為5%,可得假設(shè)檢驗中p的合理取值范圍為(0,0.127]??紤]到p過小可能會將噪聲數(shù)據(jù)誤認(rèn)為異常數(shù)據(jù),而p過大又會降低對異常數(shù)據(jù)的敏感性,因此本文取p為0.1。
為了選擇與目標(biāo)機組運行狀態(tài)相似的風(fēng)電機組,選擇的宏觀變量包括風(fēng)速、主軸承轉(zhuǎn)速以及輸出功率。其中,風(fēng)速反映了外部環(huán)境是否相似,主軸承轉(zhuǎn)速和輸出功率則能夠間接反映風(fēng)電機組從風(fēng)能到機械能和從機械能到電能的轉(zhuǎn)化效率。微觀變量的選擇需要首先計算前軸承溫度與備選變量之間的互信息;然后,基于各變量與前軸承溫度之間的互信息大小選取互信息值大的若干變量作為微觀變量。附錄A 圖A4 展示了基于互信息值大小得到的一些常見變量與前軸承溫度的相關(guān)性強弱評估結(jié)果??梢钥闯?,齒輪箱油溫、齒輪箱后軸承溫度、風(fēng)速等變量與前軸承溫度相關(guān)性相對較強。由于風(fēng)速與輸出功率已用作宏觀變量,順次取齒輪箱油溫、齒輪箱后軸承溫度、機艙溫度和齒輪箱高速軸轉(zhuǎn)速作為微觀變量用于風(fēng)電機組的微觀相似性評估。
對所選擇的宏觀變量和微觀變量進行特征重構(gòu),并將其作為ISODATA 聚類模型的輸入,聚類的最小樣本數(shù)設(shè)為4,不同聚類的中心最小距離設(shè)為0.36,同類的最大標(biāo)準(zhǔn)差為0.3。附錄A 圖A5 直觀展示了所有風(fēng)電機組基于不同變量的聚類結(jié)果,圖A5 中用綠色標(biāo)注了以不同變量聚類時與0 號機組被聚到相同組的機組。通過觀察可知,編號為6、10、11、14、31 的5 臺機組以不同的變量進行聚類的結(jié)果均與0 號機組相同,這表示上述5 臺風(fēng)電機組的運行狀態(tài)與0 號機組的運行狀態(tài)可能有較強相似性。因此,它們的SCADA 數(shù)據(jù)將被用來訓(xùn)練不同的KDE 概率估計模型,模型分別編號為M6、M10、M11、M14、M31。同一風(fēng)電場中其余27 臺風(fēng)電機組與0 號機組的運行狀態(tài)存在明顯差異,可能有兩方面原因:一是丘陵地帶常見的山谷風(fēng)和局地氣流對處于不同位置的風(fēng)電機組的運行狀態(tài)產(chǎn)生了影響;二是分期建設(shè)的風(fēng)電機組因為運行時長不同也可能導(dǎo)致性能差異。
選擇相似的風(fēng)電機組后,可基于不同機組的數(shù)據(jù)訓(xùn)練不同的模型。所有模型的輸入變量為風(fēng)速、機艙溫度、齒輪箱后軸承溫度和齒輪箱油溫以及上一時刻的前軸承溫度。但SVM 的輸出為前軸承溫度的估計值,各KDE 模型的輸出則為95%置信度水平下的前軸承溫度分布區(qū)間。需要說明的是,SVM 模型的訓(xùn)練利用的是0 號機組自身的訓(xùn)練數(shù)據(jù),而各KDE 模型則利用不同的相似風(fēng)電機組的訓(xùn)練數(shù)據(jù)。為了使模型性能最優(yōu),基于網(wǎng)格搜索法在(0,1)范圍內(nèi)以0.01 為步長進行搜索時得到的SVM最優(yōu)核帶寬為0.13。同理,得 到M6、M10、M11、M14 和M31 這5 個KDE 模型的最優(yōu)核帶寬分別為0.12、0.19、0.15、0.21、0.09。
附錄A 圖A6 展示了基于0 號機組驗證數(shù)據(jù)得到的SVM 模型性能驗證結(jié)果。圖A6(a)展示了前軸承溫度的估計值和真實值的關(guān)系,圖A6(b)為對應(yīng)的殘差。需要說明的是,圖A6 及后續(xù)展示前軸承溫度的圖均以歸一化之后的值作縱軸。由圖A6可知,估計值和真實值的曲線重合度較高,它們的殘差最大值為0.030 4,對應(yīng)的MAE 和RMSE 分別為0.010 47 和0.009 8。
為了選擇性能相對更好的KDE 來構(gòu)建CPEM,本文設(shè)置2 組驗證數(shù)據(jù)集對M6、M10、M11、M14 和M31 這5 個KDE 模型的性能進行評估。2 組驗證數(shù)據(jù)分別為各相似風(fēng)電機組自身的驗證數(shù)據(jù)和0 號機組的驗證數(shù)據(jù)。附錄A 圖A7 展示了不同KDE 模型的估計結(jié)果,圖中淡藍色區(qū)域為95%置信度水平下估計的前軸承溫度分布區(qū)間,紅色曲線則為穩(wěn)定的真實值曲線。圖A7 中每幅子圖的左側(cè)為基于各機組自身驗證數(shù)據(jù)估計的結(jié)果,右側(cè)則為基于0 號機組驗證數(shù)據(jù)估計的結(jié)果。表2 列出了這5 個模型的性能評估指標(biāo),可知在95%置信度水平下這些模型對各機組自身的前軸承溫度的分布區(qū)間估計較準(zhǔn)確。但在對0 號機組的前軸承溫度分布區(qū)間估計時,M10 和M31 所表現(xiàn)的性能并不理想。因此,本文選擇在2 次測試中表現(xiàn)相對較好的M6、M11 和M14 構(gòu)建CPEM,以組合模型的RMSE 最小為適應(yīng)度函數(shù),基于粒子群優(yōu)化算法得到的線性組合權(quán)值分別為0.135、0.593 和0.272。
基于0 號機組的驗證數(shù)據(jù)得到CPEM 的性能評估指標(biāo)如表2 所示。對比可知CPEM 的綜合性能要優(yōu)于各KDE 模型。附錄A 圖A8 展示了基于CPEM估計的95%置信度水平下前軸承溫度分布區(qū)間和對應(yīng)的真實前軸承溫度的關(guān)系。對比圖A7、圖A8 可以發(fā)現(xiàn),在95%置信度水平下CPEM 估計的溫度分布區(qū)間比單一的KDE 的估計區(qū)間更窄,這說明CPEM 的敏銳性更好,能更準(zhǔn)確地對目標(biāo)變量的分布區(qū)間進行估計。
進一步,分別對已知異常報警的0 號機組前軸承溫度進行自檢測和外部檢測。基于經(jīng)驗設(shè)置自檢測的異常閾值為性能測試中最大殘差的1.05 倍,其值為0.032。圖4 展示了基于SVM 狀態(tài)估計模型和閾值檢測法得到的自檢測結(jié)果,圖4(a)為前軸承溫度的真實值和估計值曲線,綠色虛線表示SCADA系統(tǒng)記錄的首次故障報警時刻,圖4(b)為基于閾值比較的異常檢測結(jié)果,圖中的紅色虛線為異常檢測的閾值,當(dāng)殘差超過閾值即視為異常狀態(tài)。由圖4可知,自檢測最早在2019-03-04 的22:15 發(fā)現(xiàn)前軸承的溫度異常,比系統(tǒng)的故障報警提前了11 天。
圖4 齒輪箱前軸承溫度的自檢測結(jié)果Fig.4 Self-inspection results of gearbox front bearing temperature
圖5 展示了基于CPEM 和假設(shè)檢驗得到的外部檢測結(jié)果,圖5(a)為前軸承真實溫度曲線和95%置信度水平下估計的溫度分布區(qū)間,圖中的黑色區(qū)域表示真實溫度超出估計區(qū)間的時刻??梢园l(fā)現(xiàn),真實油溫超出區(qū)間的情況時有發(fā)生,且越臨近故障報警日期,真實值超出置信區(qū)間的時刻越密集。然而,真實值超出置信區(qū)間并不能確定是異常運行所致。因此,進一步采用假設(shè)檢驗對觀測到的異常時刻進行檢驗以排除噪聲干擾。從圖5(b)的假設(shè)檢驗結(jié)果可知,外部檢測最早在2019-03-01 的01:05 檢測到前軸承的溫度異常,比系統(tǒng)故障報警提前14 天,而且外部檢測也檢測到2019-03-04 的22:15 時前軸承溫度的異常狀態(tài),這與自檢測結(jié)果相吻合。
圖5 齒輪箱前軸承溫度外部檢測結(jié)果Fig.5 External-inspection results of gearbox front bearing temperature
綜合自檢測和外部檢測的結(jié)果可以推測0 號機組的齒輪箱前軸承可能最早于2019-03-01 的01:05已處于異常運行狀態(tài),到2019-03-04 的22:15 時可能已經(jīng)惡化到比較嚴(yán)重的情況。
為驗證本文所提方法的準(zhǔn)確性和可靠性,選取了4 種常見的風(fēng)電機組異常檢測方法,包括以多元線性回歸(MLR)算法[23]和以反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)算法訓(xùn)練確定性估計模型的2 種異常檢測方法,以及以SBL 算法[5]和以分位數(shù)回歸(QR)算法訓(xùn)練概率估計模型的2 種異常檢測方法,并以0 號機組自身歷史數(shù)據(jù)為基礎(chǔ)進行對比實驗。本文所提方法同時包含基于確定性估計模型的自檢測和基于概率估計模型的外部檢測。因此,在對比時將基于確定性估計模型的方法和基于概率估計模型的方法分開對比,而且確定性估計模型和概率估計模型的輸入、輸出與本文所提方法相同。
在確定性估計模型的對比中,MLR 的擬合系數(shù)為[0.168 7,-0.056 8,0.031 4,0.880 3],BPNN 的隱含層數(shù)量則設(shè)置為10?;? 號機組的驗證數(shù)據(jù)對3 種確定性估計模型的性能進行對比,表3 給出了各模型的性能指標(biāo)計算結(jié)果和對應(yīng)的最大殘差與異常閾值。通過對各項指標(biāo)的對比可知,SVM 和BPNN 的性能較為接近,且均好于MLR 的性能。可能原因是SVM 和BPNN 為非線性模型,相比于線性的MLR 更適合對具有非線性特性的風(fēng)電機組狀態(tài)變量進行估計。附錄A 圖A9 分別給出了基于BPNN 和MLR 的異常檢測結(jié)果,結(jié)合圖4(b)給出的SVM 異常檢測結(jié)果可發(fā)現(xiàn),這3 種方法最早檢測到前軸承溫度的異常的時間大致相同。
表3 不同確定性估計模型的性能指標(biāo)對比Table 3 Comparison of performance indices of different deterministic estimation models
對概率估計模型的性能進行對比時,SBL 采用高斯核,最優(yōu)帶寬為0.18,QR 則分別以0.025 分位數(shù)和0.975 分位數(shù)為區(qū)間的上下邊界。表4 為3 種概率估計模型的性能指標(biāo)計算結(jié)果,可以發(fā)現(xiàn)盡管CMEP 的覆蓋率指標(biāo)Pc比SBL 和QR 稍差,但它的敏銳性指標(biāo)Ps和綜合性能指標(biāo)Rcrps明顯比SBL 和QR 好。附錄A 圖A10 和圖A11 分別給出了SBL 和QR 在95%置信度水平下的估計區(qū)間和對應(yīng)的異常檢測結(jié)果。可以發(fā)現(xiàn)圖5(a)中溫度超過估計區(qū)間的時刻要多于圖A10(a)和 圖A11(a),這說明CPEM 的估計區(qū)間比SBL 和QR 的估計區(qū)間更窄,其靈敏度更好。由圖A10(b)和圖A11(b)可知,QR最早檢測到異常的時間為2019-03-04 的22:15,與上述3 種基于確定性估計的方法的檢測結(jié)果接近,而SBL 最早檢測到異常的時間為2019-03-07 的21:17,也僅提前8 天檢測到異常。相比之下,本文利用多個相似風(fēng)電機組數(shù)據(jù)訓(xùn)練的CPEM 性能要優(yōu)于基于0 號機組自身數(shù)據(jù)訓(xùn)練的SBL 和QR。
表4 不同概率估計模型的性能指標(biāo)對比Table 4 Comparison of performance indices of different probability estimation models
綜合上述的對比結(jié)果可知,基于SVM 的自檢測方法相比4 種檢測方法的優(yōu)勢并不明顯,但利用相似風(fēng)電機組數(shù)據(jù)構(gòu)建的CPEM 能夠比4 種對比方法更早地檢測到異常。而且通過SVM 和CPEM 檢測結(jié)果的互相印證也使得本文所提方法的檢測結(jié)果具有更高的可信度。此外,利用多個相似風(fēng)電機組數(shù)據(jù)訓(xùn)練的CPEM 性能比利用0 號機組自身數(shù)據(jù)訓(xùn)練的SBL 和QR 性能更好的原因,可能有如下3 點。
1)SBL 是一種參數(shù)學(xué)習(xí)算法,它假設(shè)數(shù)據(jù)服從正態(tài)分布,但實際數(shù)據(jù)并非嚴(yán)格服從正態(tài)分布,這必然會影響SBL 的性能;而QR 實質(zhì)是一種基于統(tǒng)計推理的線性模型,其性能與數(shù)據(jù)的平穩(wěn)性和訓(xùn)練數(shù)據(jù)的數(shù)量密切相關(guān)。相比之下,作為CPEM 基礎(chǔ)的KDE是一種不需要依賴外部假設(shè)的非參數(shù)模型,在訓(xùn)練數(shù)據(jù)充足且利用優(yōu)化算法對核帶寬和組合權(quán)值進行優(yōu)化的前提下,構(gòu)建出性能相對更好的CPEM 是可能的。
2)0 號機組的齒輪箱前軸承開始劣化的時間可能早于預(yù)期,使得訓(xùn)練數(shù)據(jù)中包含異常值,從而降低了模型對異常數(shù)據(jù)的靈敏度。
3)訓(xùn)練CPEM 時利用了多臺相似風(fēng)電機組的數(shù)據(jù),更多的訓(xùn)練數(shù)據(jù)有利于提升模型的性能。
針對當(dāng)前基于數(shù)據(jù)驅(qū)動的風(fēng)電機組異常檢測存在準(zhǔn)確性和可靠性不足的問題,提出了一種利用同一風(fēng)電場內(nèi)運行狀態(tài)相似的風(fēng)電機組SCADA 數(shù)據(jù)來提高異常檢測準(zhǔn)確性的方法。
1)綜合考慮風(fēng)電機組的宏觀和微觀狀態(tài)變量的相似性,提出了一種相似風(fēng)電機組的選擇方法。
2)構(gòu)建狀態(tài)估計模型時考慮了變量自身的短時相依性,有助于提升狀態(tài)估計模型的準(zhǔn)確性。
3)充分利用不同風(fēng)電機組的SCADA 數(shù)據(jù)對目標(biāo)風(fēng)電機組進行異常檢測,擴充了可用數(shù)據(jù)的規(guī)模,提高了對風(fēng)電場內(nèi)數(shù)據(jù)的利用率。
4)提出了自檢測與外部檢測相結(jié)合的異常檢測新模式,有利于提高風(fēng)電機組異常檢測結(jié)果的可靠性和準(zhǔn)確性。
所提方法仍需要用更多的風(fēng)電場數(shù)據(jù)來驗證其普適性和實用性,對未被選擇的其他風(fēng)電機組數(shù)據(jù)的利用也有必要開展進一步的研究。后續(xù)將結(jié)合不同風(fēng)電場的實際數(shù)據(jù)進一步挖掘風(fēng)電機組運行狀態(tài)之間的空間關(guān)聯(lián)性,并考慮從不同的時間尺度探尋狀態(tài)變量的變化規(guī)律,進而提高異常檢測和故障診斷的準(zhǔn)確性。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。