国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于XGBoost算法的光伏陣列故障診斷方法研究

2023-02-09 06:43:28段震清孫建民李庚達崔青汝
太陽能 2023年1期
關(guān)鍵詞:查全率查準(zhǔn)率故障診斷

段震清,孫建民,梁 凌,李庚達,崔青汝,伍 權(quán)

(國家能源集團新能源技術(shù)研究院有限公司,北京 102209)

0 引言

由于地面光伏電站長期運行在野外惡劣環(huán)境中,且規(guī)模較大,隨著其服役年限增加,光伏陣列的故障發(fā)生率逐漸升高。一旦光伏陣列發(fā)生故障,若不及時發(fā)現(xiàn)并處理,將會進一步釀成惡性事故。因此,快速有效地識別出光伏電站直流端的故障對提升其系統(tǒng)效率和降低維護成本具有重要的意義[1]。

文獻[2-3]通過分析光伏方陣的I-V電氣參數(shù)曲線與參考電氣曲線之間的差異得出故障診斷結(jié)果,但該方法需要光伏陣列離線進行掃描,無法實現(xiàn)在線實時診斷與分析。文獻[4-5]通過建立光伏陣列數(shù)學(xué)模型,計算出光伏陣列的理論輸出功率,并與光伏陣列實際輸出功率進行比較,進而實現(xiàn)光伏陣列故障診斷,但該方法的準(zhǔn)確度依賴于模型的精度。文獻[6-7]采用紅外圖像法,通過檢測光伏組件在不同運行狀態(tài)下對應(yīng)的溫度實現(xiàn)故障診斷,但紅外圖像易受外界影響,導(dǎo)致故障診斷會出現(xiàn)誤差。文獻[8]提出基于局部離群因子方法對光伏陣列是否發(fā)生異常進行檢測,但該方法無法進一步判斷出光伏陣列的故障類型。事實上,由于光伏陣列易受外界復(fù)雜環(huán)境的影響,導(dǎo)致其故障類型具有復(fù)雜性和耦合性,現(xiàn)有的故障診斷技術(shù)和方法難以滿足光伏電站現(xiàn)場運行過程中診斷的需要。因此,快速有效地對光伏陣列進行實時在線故障診斷有待進一步完善與發(fā)展。

針對上述問題,本文提出了一種基于極度梯度提升(XGBoost)算法的光伏陣列故障診斷方法,首先建立光伏陣列仿真模型,通過分析正常、短路、開路、老化、陰影遮擋這5種光伏陣列運行狀態(tài)的特性,提取出表征故障的特征變量;然后基于實驗仿真數(shù)據(jù)構(gòu)建XGBoost故障診斷模型;最后將5種光伏組件運行狀態(tài)下的特征參數(shù)輸入故障診斷模型,對故障模式進行識別與診斷驗證。此外,XGBoost故障診斷模型會輸出重要特征的排序,重要特征可以更好地識別光伏陣列故障類型。

本文所提到的數(shù)據(jù)處理、故障診斷模型及解釋歸因功能,將基于web系統(tǒng)以功能模塊的方式嵌入部署在光伏電站生產(chǎn)管理大區(qū)(I區(qū))的服務(wù)器監(jiān)控系統(tǒng)上,基于I區(qū)服務(wù)器監(jiān)控系統(tǒng)采集到光伏陣列數(shù)據(jù),經(jīng)數(shù)據(jù)處理、故障診斷等模塊計算后,實現(xiàn)對光伏陣列的在線故障診斷,并及時發(fā)送故障報警,以便盡快實施故障維護。

XGBoost故障診斷模型工程化部署至現(xiàn)場的具體工作方式及流程為:首先,基于現(xiàn)場光伏陣列歷史運行數(shù)據(jù),經(jīng)數(shù)據(jù)預(yù)處理后,離線構(gòu)建XGBoost故障診斷模型,并將訓(xùn)練好的模型部署在現(xiàn)場;其次,基于I區(qū)服務(wù)器監(jiān)控系統(tǒng)實時采集光伏陣列數(shù)據(jù),傳輸至數(shù)據(jù)預(yù)處理模塊,經(jīng)數(shù)據(jù)清洗、特征處理后輸入XGBoost故障診斷模型;最后,故障診斷模塊根據(jù)光伏陣列的輸出功率及氣象信息,每天定時進行計算,以分析是否產(chǎn)生故障及故障類型;此外,通過XGBoost故障診斷模型重要性分析對導(dǎo)致光伏陣列產(chǎn)生故障的因素做解釋歸因。

1 光伏陣列典型故障的仿真和分析

1.1 建立光伏陣列仿真模型

以實際運行的光伏陣列的電氣數(shù)據(jù)和氣象環(huán)境數(shù)據(jù)為依據(jù),主要對光伏陣列正常、短路、開路、老化、陰影遮擋這5種運行狀態(tài)進行研究。為了得到不同條件下的數(shù)據(jù)樣本,通過Matlab Simulink仿真技術(shù)建立光伏陣列仿真模型,以獲取其不同運行狀態(tài)下的數(shù)據(jù)[9-10]。

該光伏陣列仿真模型共有3串光伏組串,每串光伏組串由5個封裝好的模塊組成,每個模塊內(nèi)包含4塊光伏組件,即每串光伏組串有20塊光伏組件。光伏陣列仿真模型如圖1所示。圖中:T1為給定的環(huán)境溫度特征變量;S1為給定的太陽輻照度特征變量;I為光伏陣列輸出電流;U為光伏陣列輸出電壓;P為光伏陣列輸出功率。

圖1 光伏陣列仿真模型Fig. 1 Simulation model of PV array

搭建的光伏陣列仿真模型僅需根據(jù)光伏組件廠家提供的標(biāo)準(zhǔn)銘牌參數(shù),就能在一定精度范圍內(nèi)還原光伏陣列在不同環(huán)境及運行狀態(tài)下的輸出特性。單塊光伏組件的標(biāo)準(zhǔn)銘牌參數(shù)如表1所示。

表1 單塊光伏組件的標(biāo)準(zhǔn)銘牌參數(shù)Table 1 Standard nameplate parameters of single PV module

本研究在太陽輻照度R為100~1000 W/m2、環(huán)境溫度T為5~35 ℃范圍內(nèi)進行測量,采集5種運行狀態(tài)下光伏陣列的電氣參數(shù)和氣象環(huán)境參數(shù)。

1.2 故障特征提取

特征變量之間具有交互作用,很難直接發(fā)現(xiàn)特征數(shù)據(jù)和故障之間的相關(guān)聯(lián)系,當(dāng)故障診斷模型中的特征變量之間存在多重共線性時,樣本數(shù)據(jù)特征變量的選擇不同將會導(dǎo)致預(yù)測結(jié)果的顯著變化,進而會出現(xiàn)誤判、漏判光伏陣列故障的現(xiàn)象。

本文使用皮爾森相關(guān)系數(shù)計算特征變量之間的相關(guān)性,當(dāng)相關(guān)系數(shù)大于0.8時,認為兩個特征變量高度線性相關(guān),將在兩個特征變量中舍去1個[11]。特征變量的共線性分析結(jié)果如圖2所示。圖中:Impp為光伏陣列的最大工作點電流;Umpp為光伏陣列的最大工作點電壓;Pmpp為光伏陣列的最大工作點功率;Uoc為光伏陣列的開路電壓;Isc為光伏陣列的短路電流。

根據(jù)圖2的分析結(jié)果,本研究去除了太陽輻照度、光伏陣列的短路電流、光伏陣列的最大工作點功率這幾個特征變量,最終保留環(huán)境溫度、光伏陣列的開路電壓、光伏陣列的最大工作點電流、光伏陣列的最大工作點電壓作為故障診斷模型的輸入特征。

圖2 特征變量的共線性分析結(jié)果Fig. 2 Results of collinearity analysis of characteristic variables

1.3 故障特征數(shù)據(jù)分布

本研究使用的特征變量均為連續(xù)變量。觀察特征變量的特征數(shù)據(jù)分布情況[12],其中,環(huán)境溫度、光伏陣列的最大工作點電流和光伏陣列的最大工作點電壓均屬于正態(tài)分布,使用均值(mean)和標(biāo)準(zhǔn)差(standard deviation,SD)來描述特征數(shù)據(jù)分布情況;光伏陣列的開路電壓為非正態(tài)分布,使用中值(median)和四分位數(shù)([Q1, Q3])來描述不滿足正態(tài)分布的特征數(shù)據(jù)分布情況。光伏陣列不同運行狀態(tài)下特征變量的統(tǒng)計描述如表2所示。

表2 光伏陣列不同運行狀態(tài)下特征變量的統(tǒng)計描述Table 2 Statistical description of characteristic variables of PV array under different operating conditions

2 基于XGBoost算法的光伏陣列故障診斷方法

2.1 XGBoost故障診斷模型原理

XGBoost算法可對樣本數(shù)據(jù)進行智能檢測與識別,該算法把若干分類器整合為1個分類器,通過不斷對誤差進行進一步分類來解決一般機器學(xué)習(xí)算法泛化能力差、過擬合、準(zhǔn)確率不高等問題,因此,十分適用于光伏陣列故障診斷樣本數(shù)據(jù)少的情況。

XGBoost算法由華盛頓大學(xué)博士陳天奇于2014年提出,主要用于分類分析(處理離散數(shù)據(jù))和回歸樹分析(處理連續(xù)數(shù)據(jù)),是一種集成式學(xué)習(xí)模型[13]。XGBoost算法要求每加入1棵樹,均使目標(biāo)函數(shù)結(jié)果最小。

目標(biāo)函數(shù)包含損失函數(shù)L和正則函數(shù)Ω兩項,損失函數(shù)用來計算預(yù)測結(jié)果和真實結(jié)果的誤差,實際計算中基于最小誤差對損失函數(shù)進行約束;正則函數(shù)用于檢測模型的復(fù)雜度,避免出現(xiàn)過擬合或欠擬合[14]。正則函數(shù)和損失函數(shù)可以根據(jù)實際情況具體給定。

目標(biāo)函數(shù)Obj(k)可表示為:

式中:i為第i個樣本;n為樣本總數(shù);k為訓(xùn)練樣本時的第k棵樹(即預(yù)測中的迭代次數(shù));yi為第i個樣本的真實標(biāo)簽;為第i個樣本的預(yù)測標(biāo)簽;fi為第i個樣本在增加k棵樹時相比k-1棵樹時的誤差。

對于正則函數(shù)的第k棵樹,具體可表示為:

增加第k棵樹后,相比第k-1棵樹的誤差值可表示為:

式中:ωq(xi)為第i個樣本落在第k棵樹的第q(xi)個葉子節(jié)點所得分數(shù)。

第k棵樹的正則函數(shù)Ω(fk)可表示為:

式中:τ為1棵樹上的葉子總數(shù);j為第j個葉子;ωj為第j個葉子的得分值;γ和λ均為防止過擬合參數(shù)。

將式(1)~式(4)合并,并使用二階泰勒公式,把對于樣本的歷遍轉(zhuǎn)換成對葉子節(jié)點的歷遍,目標(biāo)函數(shù)變形為式(5),即:

式中:gi為第j個葉子節(jié)點里面的一階梯度;hi為第j個葉子節(jié)點里面的二階梯度;Ij為每個葉子節(jié)點里面的樣本集合。

將式(7)代入式(6),可獲得最終的目標(biāo)函數(shù),如式(8)所示。

對于光伏陣列故障診斷大數(shù)據(jù)而言,基于XGBoost算法來識別光伏陣列故障類型的研究很少。本研究使用仿真數(shù)據(jù)建立光伏陣列正常、開路、短路、老化、陰影遮擋5種運行狀態(tài)下的XGBoost故障診斷模型,應(yīng)用XGBoost算法識別光伏陣列故障類型。XGBoost算法優(yōu)于其他的機器學(xué)習(xí)方法,即使采用預(yù)測結(jié)果和訓(xùn)練數(shù)據(jù)差值進行訓(xùn)練,也可以在樹的不斷迭代過程中提升準(zhǔn)確率。此外,XGBoost故障診斷模型可以從數(shù)據(jù)訓(xùn)練過程中提煉并展示出模型學(xué)習(xí)比較重要的特征變量,這些重要特征變量有助于幫助光伏電站及時識別光伏陣列故障類型并進行有效維護。

本研究采用500例仿真數(shù)據(jù),按照8:2的比例劃分訓(xùn)練集和測試集。針對400例訓(xùn)練集數(shù)據(jù),基于10折交叉驗證將其平均分成10份,其中9份用于訓(xùn)練,1份用于驗證。基于XGBoost算法的光伏陣列故障診斷方法的流程圖如圖3所示。

圖3 基于XGBoost算法的光伏陣列故障診斷方法的流程圖Fig. 3 Flow chart of fault diagnosis method for PV array based on XGBoost algorithm

2.2 模型性能度量指標(biāo)

本研究選擇的模型性能度量指標(biāo)包括準(zhǔn)確率(accuracy)、查全率(recall,又稱召回率)、查準(zhǔn)率(precision),以及F1評分。根據(jù)真實結(jié)果與預(yù)測結(jié)果的不同,將樣本數(shù)據(jù)劃分為真正例(TP)、真反例(TN)、假正例(FP)和假反例(FN)[15]。

準(zhǔn)確率Acc表示查出的正確的樣本數(shù)占樣本總數(shù)的比值,其可表示為:

查準(zhǔn)率Pre表示預(yù)測的正確的樣本中有多少樣本是有用的,其可表示為:

查全率Re表示有用的樣本中有多少樣本被查出,其可表示為:

F1評分表示查準(zhǔn)率與查全率的調(diào)和平均值,F(xiàn)1評分更重視查準(zhǔn)率與查全率兩個指標(biāo)中的較小值,較小值的變動比較大值的變動對F1評分的影響更大。F1評分可表示為:

2.3 模型診斷結(jié)果評價及特征變量重要性分析

基于測試集的5種光伏陣列運行狀態(tài)下的100例數(shù)據(jù),對XGBoost故障診斷模型的診斷結(jié)果進行評價。不同運行狀態(tài)下模型性能度量指標(biāo)的分析結(jié)果如表3所示。

表3 不同運行狀態(tài)下模型性能度量指標(biāo)的分析結(jié)果Table 3 Analysis results of model performance measurement index in different operating conditions

從表3可以看出:不同運行狀態(tài)下,XGBoost故障診斷模型的準(zhǔn)確率均為92%。在光伏陣列正常運行狀態(tài)下,XGBoost故障診斷模型的查全率為85%,查準(zhǔn)率為100%,F(xiàn)1評分為92%,其中查準(zhǔn)率在4個指標(biāo)中最優(yōu);在光伏陣列短路狀態(tài)下,模型的查全率、查準(zhǔn)率和F1評分均為95%,在4個指標(biāo)中均為最優(yōu);在光伏陣列開路狀態(tài)下,模型的查全率為83%,查準(zhǔn)率為71%,F(xiàn)1評分為77%,其中查準(zhǔn)率在4個指標(biāo)中最低;在光伏陣列老化狀態(tài)下,模型的查全率為89%,查準(zhǔn)率為96%,F(xiàn)1評分為92%,其中查全率在4個指標(biāo)中最低;在光伏陣列陰影遮擋狀態(tài)下,模型的查全率為94%,查準(zhǔn)率為93%,F(xiàn)1評分為88%,其中F1評分在4個指標(biāo)中最低。綜合來看,XGBoost故障診斷模型的準(zhǔn)確率高達92%,查全率高達95%,查準(zhǔn)率高達96%,F(xiàn)1評分高達95%。該結(jié)果表明,基于XGBoost算法的光伏陣列故障診斷方法可以有效應(yīng)用于光伏陣列的故障類型識別。

訓(xùn)練好的XGBoost故障診斷模型會給特征變量打分并輸出特征變量的重要性排序,排序的規(guī)則使用“weight”方法,即根據(jù)該特征變量在所有樹中被用作分割樣本的特征次數(shù)來表征特征變量的重要性。特征變量的重要性排序如圖4所示。

圖4 特征變量的重要性排序Fig. 4 Importance ranking of characteristic variables

從圖4可以看出:特征變量的重要性排序從高到低依次為最大工作點電壓、開路電壓、最大工作點電流、環(huán)境溫度。其中,最大工作點電壓被認為是最重要的特征變量。

3 結(jié)論

針對目前光伏陣列故障診斷方法無法實時在線識別故障類型且準(zhǔn)確率不高等問題,本文提出了一種基于XGBoost算法的光伏陣列故障診斷方法。首先建立光伏陣列仿真模型,針對正常、開路、短路、老化、陰影遮擋5種光伏陣列運行狀態(tài)進行仿真,并獲取有效數(shù)據(jù);其次,分析仿真數(shù)據(jù)特征變量之間的共線性關(guān)系,提取有效的特征變量作為模型的特征變量輸入;然后,基于特征變量構(gòu)建了XGBoost故障診斷模型;最后依據(jù)模型性能度量指標(biāo)對XGBoost故障診斷模型的診斷結(jié)果進行評價,并分析模型特征變量的重要性。研究得出以下結(jié)論:

1)該故障診斷方法不僅提高了光伏陣列故障診斷的準(zhǔn)確率,而且提升了對光伏陣列故障類型的有效挖掘能力;

2)在一定的樣本測試條件下,該故障診斷方法可實現(xiàn)對正常、開路、短路、老化、陰影遮擋5種光伏陣列運行狀態(tài)的故障診斷,且故障診斷準(zhǔn)確率可達到92%;

3) XGBoost故障診斷模型從數(shù)據(jù)訓(xùn)練過程中提煉并展示出對于模型學(xué)習(xí)而言比較重要的特征變量,這些重要的特征變量有助于幫助光伏電站及時識別光伏陣列的故障類型并進行有效維護;

4)該故障診斷方法能簡單、高效、實時在線對樣本數(shù)據(jù)進行故障診斷,可為光伏電站現(xiàn)場運維人員提供技術(shù)支持。

猜你喜歡
查全率查準(zhǔn)率故障診斷
海量圖書館檔案信息的快速檢索方法
基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
基于深度特征分析的雙線性圖像相似度匹配算法
因果圖定性分析法及其在故障診斷中的應(yīng)用
基于LCD和排列熵的滾動軸承故障診斷
基于WPD-HHT的滾動軸承故障診斷
機械與電子(2014年1期)2014-02-28 02:07:31
高速泵的故障診斷
河南科技(2014年3期)2014-02-27 14:05:48
中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
基于Web的概念屬性抽取的研究
壤塘县| 新乡县| 大田县| 新竹市| 东至县| 成安县| 醴陵市| 金寨县| 邢台市| 漳浦县| 冕宁县| 治多县| 翼城县| 遂昌县| 阳春市| 岑溪市| 仁化县| 新田县| 周宁县| 吉水县| 克什克腾旗| 韶山市| 章丘市| 望都县| 八宿县| 东平县| 车致| 江北区| 鄄城县| 花莲市| 牡丹江市| 栾城县| 邻水| 甘德县| 锡林浩特市| 阳山县| 开江县| 普安县| 田东县| 平阳县| 石景山区|