江漢大學(xué)人工智能學(xué)院 陳 巖 侯 群 關(guān)雅琦
隨著全球范圍內(nèi)風(fēng)電裝機總量的逐步增加,風(fēng)力發(fā)電領(lǐng)域?qū)︼L(fēng)機的運維提出了更高的要求。風(fēng)力發(fā)電機的溫度是評價風(fēng)機運行狀態(tài)的重要指標(biāo)之一,其預(yù)測值可以用于風(fēng)力發(fā)電機的故障預(yù)警等應(yīng)用場景。本文介紹了一種基于梯度提升回歸樹對風(fēng)力發(fā)電機溫度進行預(yù)測的方法,首先使用皮爾遜相關(guān)系數(shù)法選取發(fā)電機溫度的特征參數(shù),利用正常工況下的歷史數(shù)據(jù),使用梯度提升回歸樹建立發(fā)電機溫度的歸回預(yù)測模型,最后將采集的實時運行數(shù)據(jù)輸入到該模型中,得到對應(yīng)的發(fā)電機溫度預(yù)測值。本文通過實驗,有效并準(zhǔn)確地預(yù)測了風(fēng)力發(fā)電機的溫度值,擬合度達到96.42%,為進一步的風(fēng)力發(fā)電機溫度測點預(yù)警提供了準(zhǔn)確的數(shù)據(jù)來源。
發(fā)電機溫度是風(fēng)力發(fā)電系統(tǒng)中極為重要的指標(biāo)之一,它的預(yù)測值可以用于風(fēng)場運維中的故障預(yù)警場景。在風(fēng)電機組運行的過程中,每個部件上都裝有對應(yīng)的數(shù)據(jù)采集傳感器用于實時數(shù)據(jù)的采集。然而,即使是當(dāng)前的運行數(shù)據(jù)是正常的,也并不能說明該風(fēng)機指標(biāo)在長期的運行趨勢中是正常的,這就需要使用機器學(xué)習(xí)建模的方法來對實時的運行數(shù)據(jù)進行預(yù)測,判斷其與真實數(shù)據(jù)的偏差程度,如果偏差過大,則代表風(fēng)機在將來的某個時間點將會發(fā)生故障。如果可以提前預(yù)測出發(fā)電機會因為溫度過高而出現(xiàn)故障,將有助于風(fēng)電場及時做出檢修計劃,排查故障原因,避免造成經(jīng)濟損失和生產(chǎn)事故。
從目前的風(fēng)電運維領(lǐng)域,很多專家學(xué)者都在嘗試使用機器學(xué)習(xí)、深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)建模等方法對溫度進行預(yù)測。溫度值的預(yù)測不僅僅是針對發(fā)電機的溫度,還有齒輪箱各個部件的溫度以及環(huán)境溫度等。滕偉等提出了一種基于極端梯度提升樹于長短時記憶網(wǎng)絡(luò)加權(quán)融合的組合模型對風(fēng)力發(fā)電機的定子繞組溫度進行了預(yù)測。梁濤等提出了一種基于灰色關(guān)聯(lián)度理論的變權(quán)組合預(yù)測模型對齒輪箱溫度進行預(yù)測。劉午超建立了用于風(fēng)力發(fā)電機溫度預(yù)測的小波神經(jīng)網(wǎng)絡(luò)模型,通過相關(guān)系數(shù)法對風(fēng)力發(fā)電機溫度的影響因素進行分析。
本文使用了種集成學(xué)習(xí)中的梯度提升回歸樹算法,探討其在風(fēng)力發(fā)電機溫度預(yù)測中的應(yīng)用研究,將發(fā)電機溫度的歷史數(shù)據(jù)及其對應(yīng)的特征參數(shù)數(shù)據(jù)進行訓(xùn)練建模,并使用測試數(shù)據(jù)集對預(yù)測模型進行檢驗。
梯度提升樹也可以稱為多決策樹。根據(jù)不同的目的,通常分為梯度決策提升樹(GBDT,Gradient Boost Decision Tree)和梯度提升回歸樹(GBRT,Gradient Boost Regression Tree)。該算法由Friedman在20世紀初提出,具有很強的非線性擬合能力,常用于設(shè)備運行預(yù)測、人流預(yù)測等不同場景。
梯度提升回歸樹由多個決策樹組成,為了得到最終結(jié)果,只需將所有決策樹的輸出結(jié)果相加即可。它的核心是每棵樹都是從之前所有樹的殘差中學(xué)習(xí)出來的。為了防止過擬合,增加了Boosting過程。
原始的Boost算法會給每一個樣本都賦予一個相同的權(quán)重,然后開始對模型進行訓(xùn)練。在這個過程中,每一步的模型都會導(dǎo)致樣本出現(xiàn)正確或錯誤。在這時對模型中的點進行標(biāo)記,如果模型是往正確的方向前進的,那么就減少它的權(quán)重,如果是往錯誤的方向前進的,那么就增加它的權(quán)重。這樣,經(jīng)過n次迭代,錯誤的點由于擁有過高的權(quán)重,會被重點關(guān)注,并且我們得到了n個簡單的分類器,將它們組合起來,便可以得到最終的模型。
Gradient Boost和傳統(tǒng)的Boost有所不同,在每一次計算的過程中,它會在誤差減少的方向上建立新的模型,這樣在經(jīng)過n次迭代的過程中,我們每一步都在減少誤差的方向上前進。
梯度提升回歸樹作為一種集成學(xué)習(xí)方法,有如下優(yōu)點:
(1)在參數(shù)調(diào)整時間相對較小的情況下,預(yù)測精度較高;
(2)非線性數(shù)據(jù)處理能力強;
(3)可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值;
(4)利用一些魯棒損失函數(shù),對異常值的魯棒性非常強;
(5)不需要數(shù)據(jù)歸一化。
同時,梯度提升回歸樹也具有一些缺點,比如難以并行訓(xùn)練數(shù)據(jù)、不適合高維稀疏特征等。
在統(tǒng)計學(xué)中,皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient),又稱皮爾遜積矩相關(guān)系數(shù)(Pearson product-moment correlation coefficient,簡稱PPMCC或PCCs),是用于衡量兩個變量之間的相關(guān)性,其值介于-1與1之間。
兩個變量之間的皮爾遜相關(guān)系數(shù)定義為兩個變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商:
對于樣本皮爾遜相關(guān)系數(shù),給出其簡單的單流程算法:
將某一時間段風(fēng)機正常工況運行狀態(tài)下的發(fā)電機溫度監(jiān)測數(shù)據(jù)提取出來作為X,將其他同一時刻具有相關(guān)性的觀測特征數(shù)據(jù)提取出來作為Y,分別代入公式(7),可以得到X關(guān)于Y的皮爾森相關(guān)系數(shù)ρX,Y。
將特征參數(shù)和發(fā)電機溫度的連續(xù)數(shù)據(jù)處理為兩個觀測向量,代入公式(7),即可得到發(fā)電機溫度關(guān)于該特征參數(shù)的皮爾遜相關(guān)系數(shù),如表1所示。
表1 發(fā)電機定子溫度特征參數(shù)選取表
針對梯度提升回歸,首先要輸入訓(xùn)練集樣本:
其中,最大迭代次數(shù)T,損失函數(shù)L。
初始化弱學(xué)習(xí)器:
在迭代輪數(shù)從1到T的過程中,對樣本i=1,2,…,m,計算負梯度:
針對每一個葉子節(jié)點里的樣本,求出使損失函數(shù)最小,擬合葉子節(jié)點最好的輸出值ctj值如下:
更新強學(xué)習(xí)器:
從而得到最終的強學(xué)習(xí)器表達式:
通過對正常工況下歷史數(shù)據(jù)的訓(xùn)練,調(diào)整最適合的迭代次數(shù),即可得到最佳的風(fēng)力發(fā)電機溫度預(yù)測模型。在這里,使用sklearn下的ensemble集成學(xué)習(xí)功能包,調(diào)用GradientBoostingRegressor()方法,不斷調(diào)整參數(shù),得到最后的迭代次數(shù)n_estimators值為200。整個預(yù)測模型的流程圖如圖1所示。
圖1 預(yù)測模型流程圖
本文選取某風(fēng)電場2019年4月1日12:00—18:00,6h內(nèi)的60s采樣間隔數(shù)據(jù),在得到預(yù)測模型時后,使用方根均差、平均絕對誤差和擬合度作為其評價標(biāo)準(zhǔn)。在訓(xùn)練結(jié)束后,得到測試集的擬合度為96.42%,其中方根均差為0.20,平均絕對誤差為0.15。模型預(yù)測的真實值和預(yù)測值圖如圖2所示。
圖2 基于梯度提升回歸樹的預(yù)測值與真實值
為了進一步對基于梯度提升回歸樹的發(fā)電機溫度預(yù)測模型精度進行評價,本文使用BP神經(jīng)網(wǎng)絡(luò)算法建立預(yù)測模型與其進行對比。使用相同的數(shù)據(jù)集,使用BP神經(jīng)網(wǎng)絡(luò)算法建立發(fā)電機溫度預(yù)測模型,得到測試集的擬合度為96.15%,其中方根均差為0.21,平均絕對誤差為0.16。模型預(yù)測的真實值和預(yù)測值圖如圖3所示。
圖3 基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)測值與真實值
風(fēng)力發(fā)電機機組設(shè)備數(shù)據(jù)預(yù)警是風(fēng)電運維過程中極其重要的環(huán)節(jié),包括發(fā)電機溫度等指標(biāo)的預(yù)測。在風(fēng)力發(fā)電機的運行過程中,有很多因素會對發(fā)電機溫度產(chǎn)生影響,所以選取這些主要因素作為特征參數(shù)考慮進來并對結(jié)果進行預(yù)測成為了關(guān)鍵的一步。本文首先使用皮爾遜相關(guān)系數(shù)法對發(fā)電機溫度的特征參數(shù)進行選取,再使用梯度提升回歸算法將正常工況下的發(fā)電機溫度歷史數(shù)據(jù)及其特征參數(shù)數(shù)據(jù)訓(xùn)練出預(yù)測模型,便可以得到預(yù)測結(jié)果。將該模型的預(yù)測結(jié)果與實際值相比,擬合度為96.42%。同時,使用BP神經(jīng)網(wǎng)絡(luò)算法對同樣的參數(shù)指標(biāo)和數(shù)據(jù)進行預(yù)測,可以得到略低于使用梯度提升回歸樹算法訓(xùn)練的預(yù)測模型的擬合精度,側(cè)面證明了使用梯度提升回歸樹算法再風(fēng)電運行數(shù)據(jù)預(yù)測領(lǐng)域的可行性。