張惠強(qiáng),高娟娟*,任曉旭,陶永剛,趙禹茗,黃劍鋒
(1.國(guó)電電力內(nèi)蒙古新能源開發(fā)有限公司,呼和浩特 010020;2. 華風(fēng)數(shù)據(jù)(深圳)有限公司,深圳 518110)
溫度作為機(jī)械部件是否正常工作的重要標(biāo)志,具有較大的研究意義。目前對(duì)于風(fēng)電機(jī)組的研究多為小部件研究,缺少對(duì)于風(fēng)電機(jī)組機(jī)艙環(huán)境的整體研究。機(jī)艙內(nèi)部各個(gè)機(jī)械部件都會(huì)對(duì)整個(gè)機(jī)艙溫度變化產(chǎn)生影響。機(jī)艙溫度變化是風(fēng)電機(jī)組運(yùn)行正常與否的一個(gè)關(guān)鍵指標(biāo)。
文獻(xiàn)[1]提出采用非線性狀態(tài)估計(jì)(nonlinear state estimation,NSET)技術(shù)結(jié)合反向傳播神經(jīng)網(wǎng)絡(luò) (back propagation neural network,BPNN)模型建立了風(fēng)電機(jī)組發(fā)電機(jī)前軸承溫度的預(yù)測(cè)模型,同時(shí)使用模糊綜合評(píng)價(jià)判斷風(fēng)電機(jī)組的運(yùn)行狀態(tài);文獻(xiàn)[2]基于數(shù)據(jù)采集與監(jiān)視控制(supervisory control and data acquisition,SCADA)系統(tǒng)獲取數(shù)據(jù)融合稀疏自編碼器及深度神經(jīng)網(wǎng)絡(luò),提出了風(fēng)電機(jī)組在線監(jiān)測(cè)方法;文獻(xiàn)[3]使用有限元分析,提出了自適應(yīng)比例積分微分(proportional integral derivative,PID)算法,實(shí)現(xiàn)了對(duì)機(jī)艙內(nèi)部的控制;文獻(xiàn)[4]針對(duì)超溫的故障模式、影響及重要度分析(failure mode,effects and criticality analysis,F(xiàn)MECA),提出了超溫FMECA的分析表及危害性矩陣圖,從而找出最嚴(yán)重的故障影響因素;文獻(xiàn)[5]提出了基于最大信息系數(shù) (maximal information coefficient,MIC)的變量篩選方法,基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory,LSTM)建立了多變量的機(jī)艙溫度預(yù)測(cè)模型;文獻(xiàn)[6-7]基于計(jì)算流體動(dòng)力學(xué)(computational fluid dynamics,CFD)分析方法,對(duì)機(jī)艙內(nèi)部進(jìn)行了分析;文獻(xiàn)[8-9]通過建立風(fēng)電機(jī)組機(jī)艙仿真模型,對(duì)機(jī)艙進(jìn)行了模擬計(jì)算;文獻(xiàn)[10]采用多項(xiàng)式回歸擬合方法,使用時(shí)間滑動(dòng)窗口,建立了數(shù)學(xué)模型,根據(jù)概率值來確定是否預(yù)警。
本文對(duì)風(fēng)電機(jī)組機(jī)艙溫度進(jìn)行分析,選取正常運(yùn)行狀態(tài)下的機(jī)艙溫度數(shù)據(jù),使用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù),以及輕型梯度增強(qiáng)學(xué)習(xí)器 (light gradient boosting machine,LightGBM)[11]、CatBoost(gradient boosting with categorical features support)算法[12]對(duì)特征重要性排序,篩選出對(duì)機(jī)艙溫度影響較大的特征變量;然后采用LightGBM、CatBoost和隨機(jī)森林(Random Forest)[13-14]算法分別建立模型,基于評(píng)價(jià)指標(biāo)選取最優(yōu)模型作為風(fēng)電機(jī)組機(jī)艙溫度異常預(yù)警模型[15-17]。該模型在機(jī)艙溫度的預(yù)測(cè)值和真實(shí)值相差較大時(shí),會(huì)發(fā)出預(yù)警,專業(yè)檢修人員可以根據(jù)模型輸出的特征變量重要性排序,優(yōu)先檢修相關(guān)性較高的部件。
CatBoost算法[18]是一種基于對(duì)稱決策樹(oblivious trees)的基學(xué)習(xí)器,從而實(shí)現(xiàn)參數(shù)較少、支持類別型變量和高準(zhǔn)確性的梯度提升樹(gradient boosting decision tree,GBDT)框架。該算法支持類別型變量,對(duì)于非數(shù)據(jù)型變量也可以進(jìn)行預(yù)處理,主要考慮的是快速有效地處理類別型特征。此外,CatBoost算法還解決了梯度偏差(gradient bias)及預(yù)測(cè)偏移 (prediction shift)的問題,從而減少了過擬合的發(fā)生,提高了算法的準(zhǔn)確性和泛化能力。
CatBoost算法原理包括以下5個(gè)方面:
1)處理類別型特征,統(tǒng)計(jì)某個(gè)或某些特征出現(xiàn)的頻率值,通過對(duì)數(shù)據(jù)的隨機(jī)排列生成樹,并將類別型特征進(jìn)行多組組合;
2)解決梯度偏差,采用梯度步長(zhǎng)的無偏估計(jì),使用傳統(tǒng)的GBDT方案來解決梯度偏差;
3)將不同類別型特征的組合作為新的特征,以此來獲得高階依賴;
4)采用對(duì)稱樹作為基預(yù)測(cè)器,將所有浮點(diǎn)特征、統(tǒng)計(jì)信息和獨(dú)熱編碼特征進(jìn)行二值化,并使用二進(jìn)制特征來計(jì)算模型的預(yù)測(cè)值;
5)搜索最佳分割方法,該算法采用了不依賴于原子操作的直方圖計(jì)算法。
網(wǎng)格搜索(GridSearchCV)[19]是在指定范圍內(nèi)尋找在驗(yàn)證集上精度最高的超參數(shù)組合,網(wǎng)格搜索會(huì)遍歷給定范圍內(nèi)所有超參數(shù)組合,由于沒有錯(cuò)過任何超參數(shù),搜索效果很好。因此,本研究選用網(wǎng)格搜索方法確定最優(yōu)參數(shù)組合。
本文采用風(fēng)電機(jī)組機(jī)艙溫度的預(yù)測(cè)值與實(shí)測(cè)值之間的均方誤差 (mean squared error,MSE)、均方根誤差 (root mean square error,RMSE)、平均絕對(duì)誤差 (mean absolute error,MAE)、判定系數(shù)R2,作為判斷模型預(yù)測(cè)效果可靠性的評(píng)價(jià)指標(biāo)。
MSE的計(jì)算式為:
式中:i為采樣點(diǎn);n為采樣點(diǎn)個(gè)數(shù);yi為風(fēng)電機(jī)組機(jī)艙溫度的實(shí)測(cè)值;為風(fēng)電機(jī)組機(jī)艙溫度的預(yù)測(cè)值。
RMSE的計(jì)算式為:
MAE的計(jì)算式為:
判定系數(shù)值越接近1,說明模型的預(yù)測(cè)效果越好。判定系數(shù)的計(jì)算式為:
本文基于SCADA系統(tǒng),采集了威海文登風(fēng)電場(chǎng)中編號(hào)為A01的風(fēng)電機(jī)組在2018年1月—2020年12月時(shí)間段內(nèi)的分鐘級(jí)歷史數(shù)據(jù)[20],并使用控制狀態(tài)列刪除待機(jī)、檢查、維修等不健康運(yùn)行狀態(tài)時(shí)間點(diǎn)的樣本數(shù)據(jù)及故障前后24 h的樣本數(shù)據(jù)后,剩余的正常運(yùn)行狀態(tài)的樣本數(shù)據(jù)量中記錄數(shù)為892794條,特征(測(cè)點(diǎn))為73個(gè)。由于數(shù)據(jù)量較大,數(shù)據(jù)缺失的占比較小,直接刪除缺失數(shù)據(jù)所在行,剩余數(shù)據(jù)量中記錄數(shù)為876852條,特征(測(cè)點(diǎn))為46個(gè)。
數(shù)據(jù)量過大,特征變量過多,往往會(huì)給機(jī)器學(xué)習(xí)算法帶來維度災(zāi)難,并且在現(xiàn)實(shí)應(yīng)用中,時(shí)間消耗也是需要考慮的重要因素。選擇部分重要特征變量,在確保一定精度條件下降低學(xué)習(xí)任務(wù)的難度,從而提升模型的效率,減少算法學(xué)習(xí)時(shí)間,增加模型的可解釋性,使模型泛化能力更強(qiáng)。
針對(duì)46列特征變量,首先,計(jì)算每一列特征變量自身方差,方差大表明該列特征變量的變化較大,含有可能影響機(jī)艙溫度的信息;對(duì)于方差為零的列,說明該列數(shù)據(jù)為常數(shù),不含對(duì)于機(jī)艙溫度有價(jià)值的信息,因此直接刪除。然后采用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)、LightGBM算法[21]和CatBoost算法計(jì)算特征變量的重要性并排序。其中,相關(guān)系數(shù)法是根據(jù)特征變量自身屬性(連續(xù)或離散)計(jì)算其與機(jī)艙溫度相關(guān)系數(shù),對(duì)于連續(xù)型特征變量使用Pearson相關(guān)系數(shù),對(duì)于離散型特征變量使用Spearman相關(guān)系數(shù);然后根據(jù)上述相關(guān)系數(shù)大小排序得到本算法的特征變量重要性排序。針對(duì)LightGBM和CatBoost算法重要性取值較大的問題,用各個(gè)特征變量的重要性數(shù)值與所有特征變量的重要性總和值相除,對(duì)得到的比值進(jìn)行加權(quán),得出綜合排名,最終選擇綜合排名前20位的特征變量(如表1所示)作為最終風(fēng)電機(jī)組機(jī)艙溫度異常預(yù)警模型的輸入特征變量,以減少數(shù)據(jù)冗余,降低時(shí)間消耗。
表1 綜合排名前20位的特征變量Table 1 Characteristic variables of top 20 comprehensive ranking
(續(xù)表)
選擇CatBoost、LightGBM和Random Forest[22]互為對(duì)照算法,使用表1得到的20個(gè)特征變量,分別建立了3個(gè)風(fēng)電機(jī)組機(jī)艙溫度模型(下文分別簡(jiǎn)稱為“CatBoost模型”“LightGBM模型”“Random Forest模型”);然后使用網(wǎng)格搜索,查找出每個(gè)算法建立的風(fēng)電機(jī)組機(jī)艙溫度模型的最優(yōu)超參數(shù)組合,具體如表2所示。對(duì)不同模型的評(píng)價(jià)指標(biāo)值進(jìn)行綜合比較,結(jié)果如圖1所示。
表2 采用不同算法建立的風(fēng)電機(jī)組機(jī)艙溫度模型的最優(yōu)超參數(shù)組合Table 2 Optimal super parameter combination of wind turbine nacelle temperature models established by different algorithms
圖1 不同模型的評(píng)價(jià)指標(biāo)對(duì)比Fig. 1 Comparison of evaluation indicators of different models
從圖1可以看出:3個(gè)模型的最佳模型得分(best score)均較高;而CatBoost模型的判定系數(shù)最大,達(dá)到了0.9989,且3個(gè)誤差值均為最小,說明其評(píng)價(jià)指標(biāo)值最優(yōu)。因此,本文選擇CatBoost模型作為風(fēng)電機(jī)組機(jī)艙溫度異常預(yù)警模型。
為了驗(yàn)證風(fēng)電機(jī)組機(jī)艙溫度異常預(yù)警模型的預(yù)警效果,篩選威海文登風(fēng)電場(chǎng)的故障記錄,查找風(fēng)電機(jī)組機(jī)艙溫度異常故障,發(fā)現(xiàn)2018年1月15日的10:00~14:00機(jī)艙溫度異常。篩選此故障時(shí)段及其前后一段時(shí)間內(nèi)的數(shù)據(jù)記錄,調(diào)用訓(xùn)練完成的CatBoost模型,利用風(fēng)電機(jī)組機(jī)艙溫度的預(yù)測(cè)值與真實(shí)值作圖,對(duì)比結(jié)果如圖2所示。圖中:紅色方框內(nèi)為真實(shí)故障時(shí)段。
圖2 風(fēng)電機(jī)組機(jī)艙溫度的預(yù)測(cè)值與真實(shí)值的對(duì)比Fig. 2 Comparison between predicted value and real value of nacelle temperature of wind turbine
從圖2可以明顯看出:在真實(shí)故障時(shí)段,風(fēng)電機(jī)組機(jī)艙溫度的預(yù)測(cè)值和真實(shí)值之間有較大的偏離趨勢(shì)[22]。同時(shí),由于采用的是分鐘級(jí)數(shù)據(jù),即在發(fā)生故障之前約18 h(即圖中A點(diǎn))時(shí),機(jī)艙溫度的預(yù)測(cè)值和真實(shí)值就已經(jīng)產(chǎn)生了偏離,此時(shí)就可以對(duì)機(jī)艙溫度進(jìn)行溫度異常預(yù)警。維修人員可以根據(jù)預(yù)警提示檢修機(jī)艙內(nèi)部的部件,但是由于機(jī)艙內(nèi)部的機(jī)械部件較多,逐一檢修會(huì)消耗大量時(shí)間,此時(shí)可以根據(jù)風(fēng)電機(jī)組機(jī)艙溫度異常預(yù)警模型輸出的特征變量重要性排序,優(yōu)先檢修重要性排名靠前的部件,以節(jié)省檢修消耗的時(shí)間,提高工作效率。風(fēng)電機(jī)組機(jī)艙溫度異常預(yù)警模型輸出的特征變量重要性排序如圖3所示。圖中,特征變量名稱為預(yù)警模型中標(biāo)準(zhǔn)名稱,與表1對(duì)應(yīng)。
圖3 風(fēng)電機(jī)組機(jī)艙溫度異常預(yù)警模型輸出的特征變量重要性排序Fig. 3 Importance ranking of characteristic variables output from early warning model of abnormal wind turbine nacelle temperature
本文選取正常運(yùn)行狀態(tài)下的風(fēng)電機(jī)組機(jī)艙溫度數(shù)據(jù),同時(shí)使用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù),以及LightGBM、CatBoost算法的特征變量重要性等權(quán)重加權(quán),篩選出對(duì)機(jī)艙溫度影響較大的特征變量,得到綜和排名前20位的特征變量作為風(fēng)電機(jī)組機(jī)艙溫度的特征變量集合;然后,選擇CatBoost、LightGBM、Random Forest算法分別建立3個(gè)模型,根據(jù)評(píng)價(jià)指標(biāo)選出最優(yōu)模型作為風(fēng)電機(jī)組機(jī)艙溫度異常預(yù)警模型,并使用實(shí)際的風(fēng)電機(jī)組機(jī)艙溫度故障的歷史數(shù)據(jù)進(jìn)行了驗(yàn)證分析。該模型可以在風(fēng)電機(jī)組機(jī)艙溫度預(yù)測(cè)值與真實(shí)值之間偏離程度較大時(shí)發(fā)出預(yù)警,專業(yè)檢修人員可以根據(jù)模型輸出的特征變量重要性排序,優(yōu)先檢修相關(guān)性較高的部件,實(shí)用性較強(qiáng)。
實(shí)現(xiàn)風(fēng)電機(jī)組故障預(yù)警可在故障發(fā)生前提醒工作人員檢修關(guān)鍵部件,從而減少停機(jī)頻率。目前風(fēng)電機(jī)組的運(yùn)行和維護(hù)還處于發(fā)展階段,本文對(duì)于風(fēng)電機(jī)組機(jī)艙溫度異常預(yù)警的研究極具現(xiàn)實(shí)意義。