国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè)中異常數(shù)據(jù)在線清洗

2021-05-28 00:11:20栗文義齊詠生
電工技術(shù)學(xué)報(bào) 2021年10期
關(guān)鍵詞:置信離群參量

馬 然 栗文義 齊詠生

風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè)中異常數(shù)據(jù)在線清洗

馬 然1,2栗文義1,2齊詠生2

(1. 內(nèi)蒙古工業(yè)大學(xué)能源與動(dòng)力工程學(xué)院 呼和浩特 010050 2. 內(nèi)蒙古工業(yè)大學(xué)電力學(xué)院 呼和浩特 010080)

風(fēng)電機(jī)組數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)(SCADA)運(yùn)行數(shù)據(jù)中含有大量異常數(shù)據(jù),對(duì)風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè)影響嚴(yán)重,為此針對(duì)實(shí)測(cè)風(fēng)速-功率、轉(zhuǎn)速-功率數(shù)據(jù),提出一種異常數(shù)據(jù)在線清洗方法。由于機(jī)組性能退化過(guò)程中數(shù)據(jù)特征趨于復(fù)雜,基于經(jīng)驗(yàn)Copula-互信息(ECMI)選擇關(guān)鍵特征參量作為數(shù)據(jù)清洗對(duì)象,并基于Copula建立置信等效功率區(qū)間描述其非線性與不確定性。針對(duì)置信邊界外的堆積點(diǎn)和離群點(diǎn),結(jié)合其時(shí)序特征與密度分布建立Copula數(shù)據(jù)清洗模型(Copula-TFDD),依次進(jìn)行在線清洗。最后,基于實(shí)際數(shù)據(jù)與人工模擬數(shù)據(jù)分析模型的精度、運(yùn)算效率以及對(duì)機(jī)組健康狀態(tài)預(yù)測(cè)的影響表明,Copula-TFDD能準(zhǔn)確并實(shí)時(shí)地識(shí)別各類異常數(shù)據(jù),有效提升風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè)的性能。

風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè) 數(shù)據(jù)清洗 特征參量 互信息 Copula理論

0 引言

準(zhǔn)確可信的數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)(Super- visory Control And Data Acquisition, SCADA)運(yùn)行數(shù)據(jù)[1]是風(fēng)電機(jī)組發(fā)電性能預(yù)測(cè)、故障預(yù)測(cè)與健康管理等工作的基礎(chǔ)。然而,由于機(jī)組運(yùn)行環(huán)境惡劣,很多現(xiàn)場(chǎng)采集的數(shù)據(jù)質(zhì)量較差,特別是因棄風(fēng)限電、工況波動(dòng)等原因?qū)е碌臄?shù)據(jù)異常問(wèn)題尤為突出。高比例異常數(shù)據(jù)對(duì)運(yùn)行數(shù)據(jù)的真實(shí)規(guī)律、特征參量的相關(guān)性關(guān)系等信息的挖掘與應(yīng)用影響極大,因此風(fēng)電機(jī)組數(shù)據(jù)清洗工作至關(guān)重要。

風(fēng)電機(jī)組數(shù)據(jù)清洗方法主要從特征空間的距離、概率和密度等角度界定異常值。文獻(xiàn)[2-5]基于四分位法-聚類分析、最優(yōu)組內(nèi)方差、變點(diǎn)分組-四分位、Thompson tau-四分位等概率統(tǒng)計(jì)方法對(duì)風(fēng)功率數(shù)據(jù)的空間分布位置分類以識(shí)別離群點(diǎn)與堆積點(diǎn),但基于分類思想的方法對(duì)高比例異常數(shù)據(jù)的辨識(shí)效果不佳。文獻(xiàn)[6]利用離群點(diǎn)檢測(cè)算法(Density- based Local Outlier Factor, DLOF)和聚類算法(Density-Based Spatial Clustering Applications with Noise, DBSCAN)識(shí)別異常點(diǎn),并指出后者更有利于風(fēng)電功率預(yù)測(cè),但內(nèi)存占用大、運(yùn)算效率低,影響了算法的實(shí)用性。文獻(xiàn)[7-8]基于Copula建立風(fēng)功率數(shù)據(jù)的概率功率曲線模型,利用異常點(diǎn)的時(shí)序特征辨識(shí)堆積點(diǎn),識(shí)別效果優(yōu)于傳統(tǒng)的3-sigma概率統(tǒng)計(jì)法;但對(duì)于海量風(fēng)功率數(shù)據(jù),單一Copula函數(shù)對(duì)復(fù)雜數(shù)據(jù)集的適應(yīng)性有限,而混合Copula函數(shù)[8]的參數(shù)擬合復(fù)雜,影響算法在線運(yùn)行。上述方法均以風(fēng)功率數(shù)據(jù)為清洗對(duì)象,主要研究機(jī)組發(fā)電性能預(yù)測(cè),而數(shù)據(jù)清洗方法在機(jī)組健康狀態(tài)預(yù)測(cè)中的應(yīng)用研究目前仍較少。

在風(fēng)電機(jī)組整機(jī)性能預(yù)測(cè)與健康狀態(tài)評(píng)估的應(yīng)用中,有關(guān)研究[9-12]指出,模型分析法如神經(jīng)網(wǎng)絡(luò)更適合于異常檢測(cè),而高斯混合模型、主成分分析及其改進(jìn)算法等概率統(tǒng)計(jì)方法對(duì)機(jī)組性能退化的預(yù)測(cè)適應(yīng)性更好。然而,概率統(tǒng)計(jì)方法對(duì)數(shù)據(jù)質(zhì)量要求較高,數(shù)據(jù)清洗的應(yīng)用方向不同時(shí),清洗對(duì)象、需要清洗的異常數(shù)據(jù)以及清洗方法均會(huì)有所差別,因此有必要對(duì)風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè)中的異常數(shù)據(jù)清洗工作進(jìn)行針對(duì)性研究。首先,選擇運(yùn)行數(shù)據(jù)中可反映機(jī)組性能退化的關(guān)鍵特征參量構(gòu)成清洗對(duì)象,如風(fēng)速-功率、轉(zhuǎn)速-功率數(shù)據(jù),而軸溫、油溫等參量作為機(jī)組健康狀態(tài)預(yù)測(cè)與故障檢測(cè)的重要特征依據(jù),剔除其中的異常點(diǎn)反而可能造成故障信息丟失,不能輕易清洗。其次,確定待清洗的異常數(shù)據(jù),包括堆積點(diǎn)與離群點(diǎn)。離群點(diǎn)可能反映了工況變化,在基于模型分析法預(yù)測(cè)發(fā)電性能或故障時(shí)可以不清洗[7],但離群點(diǎn)分散性較大,對(duì)其進(jìn)行合理清洗將有利于基于概率統(tǒng)計(jì)方法預(yù)測(cè)機(jī)組的健康狀態(tài)[10]。此外,不同機(jī)組的運(yùn)行數(shù)據(jù)存在采樣周期不同、概率分布特征呈差異化等特點(diǎn),隨著機(jī)組性能的逐漸退化,數(shù)據(jù)分布特征更趨復(fù)雜,這些都對(duì)數(shù)據(jù)清洗方法的通用性、精度、運(yùn)算效率、穩(wěn)定性以及工程適用性提出了較高要求。因此,有必要針對(duì)風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè)深入研究運(yùn)行數(shù)據(jù)關(guān)鍵特征參量的選擇,以及堆積點(diǎn)和離群點(diǎn)的在線清洗方法。

目前,可用于解決運(yùn)行數(shù)據(jù)特征參量選擇的方法有Relief、互信息、隨機(jī)森林與鄰域粗糙集等[13-16]。其中,Relief和互信息基于相關(guān)性度量,屬于過(guò)濾法,具有快速高效、獨(dú)立于預(yù)測(cè)模型的優(yōu)點(diǎn),但Relief為有監(jiān)督法,而SCADA數(shù)據(jù)往往沒(méi)有分類標(biāo)簽;隨機(jī)森林屬于封裝法,可與鄰域粗糙集應(yīng)用于負(fù)荷預(yù)測(cè)或故障識(shí)別中對(duì)特征集的尋優(yōu)與約簡(jiǎn)。因此,基于互信息選擇與機(jī)組運(yùn)行狀態(tài)相關(guān)性強(qiáng)的關(guān)鍵特征參量有利于簡(jiǎn)單、快速地確定清洗對(duì)象,并利用Copula函數(shù)無(wú)需假設(shè)數(shù)據(jù)的分布形態(tài)即可描述其實(shí)際分布規(guī)律的特點(diǎn),解決互信息計(jì)算中聯(lián)合概率密度函數(shù)估計(jì)難的問(wèn)題。為保證數(shù)據(jù)清洗方法的識(shí)別精度與運(yùn)算效率,聯(lián)合考慮關(guān)鍵特征參量的概率分布、時(shí)序特征與密度分布:利用單一Copula建立風(fēng)速-功率、轉(zhuǎn)速-功率等多元特征參量的置信等效功率區(qū)間,解決傳統(tǒng)概率統(tǒng)計(jì)方法在樣本分布不均、異常值較多時(shí)識(shí)別精度低的問(wèn)題,同時(shí)避免采用混合Copula,確保算法的運(yùn)算效率;僅考慮置信邊界外的可疑數(shù)據(jù),結(jié)合其時(shí)序特征和密度分布依次清洗堆積點(diǎn)與離群點(diǎn),解決DBSCAN算法無(wú)法在線清洗[10-11]的問(wèn)題;進(jìn)一步基于Copula模擬實(shí)際異常數(shù)據(jù),解決數(shù)據(jù)清洗模型定量分析的問(wèn)題。

基于上述研究背景,本文針對(duì)風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè)中異常數(shù)據(jù)的在線清洗進(jìn)行研究。分析風(fēng)電機(jī)組性能退化過(guò)程中的數(shù)據(jù)特征,在此基礎(chǔ)上,提出基于經(jīng)驗(yàn)Copula-互信息(Empirical Copula-based Mutual Information, ECMI)法選擇關(guān)鍵特征參量,并基于Copula結(jié)合異常值的時(shí)序特征與密度分布建立數(shù)據(jù)清洗模型(Copula-based data cleaning model combining Time-series Features and Density Distribution, Copula-TFDD),對(duì)堆積點(diǎn)和離群點(diǎn)等典型異常數(shù)據(jù)進(jìn)行在線識(shí)別。

1 風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)特征分析

風(fēng)電機(jī)組的風(fēng)功率數(shù)據(jù)呈帶狀分布,非線性和不確定性明顯。關(guān)鍵特征參量散點(diǎn)示意圖如圖1所示。依“bin法”[17]確定反映機(jī)組發(fā)電性能和運(yùn)行狀態(tài)的重要指標(biāo)——等效風(fēng)功率曲線,隨著機(jī)組性能的退化該曲線逐漸下移,如圖1a所示。引入置信等效功率區(qū)間描述風(fēng)功率數(shù)據(jù)的非線性與不確定性,以傳統(tǒng)的3-sigma概率統(tǒng)計(jì)法為例,比較機(jī)組正常運(yùn)行和性能退化狀態(tài)下的3-sigma曲線發(fā)現(xiàn),后者發(fā)生了偏移且波動(dòng)更為劇烈。由此可知,機(jī)組性能逐漸退化時(shí)有效數(shù)據(jù)會(huì)發(fā)生偏移并與異常數(shù)據(jù)相混雜,分布特征更趨復(fù)雜,而清洗異常點(diǎn)時(shí)置信邊界波動(dòng)劇烈必然會(huì)增加數(shù)據(jù)被誤判與漏判的可能。

進(jìn)一步分析切入、切出風(fēng)速間的關(guān)鍵特征參量,如圖1中點(diǎn)畫線所示,機(jī)組正常運(yùn)行狀態(tài)下的置信邊界外有三類異常點(diǎn),其典型特征表現(xiàn)為:

(1)堆積點(diǎn)(類型Ⅰ、Ⅱ)。底部或中部呈水平堆積型數(shù)據(jù),常因棄風(fēng)限電、通信故障等引起。圖中類型Ⅰ對(duì)應(yīng)于由專家經(jīng)驗(yàn)識(shí)別的初篩點(diǎn),其輸出功率很小或在一段時(shí)間內(nèi)持續(xù)小于等于0。類型Ⅱ異常點(diǎn)的輸出功率低于正常出力且在連續(xù)一段時(shí)間內(nèi)不(或很少)隨風(fēng)速變化而變化,這類數(shù)據(jù)無(wú)法直接說(shuō)明機(jī)組是否發(fā)生異常,卻會(huì)影響對(duì)健康狀態(tài)的預(yù)測(cè),建立符合有效數(shù)據(jù)分布特征的置信邊界決定了對(duì)該類堆積點(diǎn)的識(shí)別精度。

圖1 關(guān)鍵特征參量散點(diǎn)示意圖

(2)離群點(diǎn)(類型Ⅲ)。呈分散特征的離群型數(shù)據(jù),常因傳感器異常、隨機(jī)噪聲、工況波動(dòng)等引起。離群點(diǎn)的波動(dòng)具有隨機(jī)性,雖然在一定程度上反映了實(shí)際工況,但當(dāng)比例高、分散性大時(shí)會(huì)影響基于概率統(tǒng)計(jì)方法預(yù)測(cè)機(jī)組健康狀態(tài)的精度。特別是對(duì)于機(jī)組因工況波動(dòng)劇烈而頻繁切換控制所產(chǎn)生的離群點(diǎn),常表現(xiàn)出時(shí)序連續(xù)但關(guān)鍵參量隨風(fēng)速的變化不符合物理規(guī)律的特點(diǎn),如圖1b點(diǎn)畫線中的離群點(diǎn),在圖1a中因落在置信邊界附近而被漏判。因此,數(shù)據(jù)清洗對(duì)象除考慮風(fēng)功率數(shù)據(jù)外還應(yīng)考慮其他關(guān)鍵特征參量。

2 基于ECMI的特征參量選擇

2.1 ECMI估計(jì)

互信息[18]描述變量間的相關(guān)性,計(jì)算中利用經(jīng)驗(yàn)Copula解決聯(lián)合概率密度估計(jì)難的問(wèn)題。

設(shè)隨機(jī)變量(,)的互信息為(,),若邊緣概率分布函數(shù)F()、F()連續(xù),由Skla定理[19-20]存在唯一Copula函數(shù)C,Y(F(), F())擬合聯(lián)合累積概率分布函數(shù)F,Y(,)。設(shè)F()=,F()=,則(,)可由Copula函數(shù)的密度函數(shù)估計(jì)為

計(jì)算(,)的關(guān)鍵是準(zhǔn)確、快速地估計(jì)。采用非參數(shù)核密度估計(jì)[14, 21]的方法雖然精度高但計(jì)算量大、耗時(shí)長(zhǎng),因此,本文基于經(jīng)驗(yàn)Copula函數(shù)的解析法選擇最優(yōu)Copula函數(shù)并估計(jì)Copula密度,兼顧計(jì)算精度和運(yùn)算效率。

常用的Copula函數(shù)包括橢圓Copula函數(shù)族與阿基米德Copula函數(shù)族,依據(jù)最小距離法計(jì)算不同Copula函數(shù)與經(jīng)驗(yàn)Copula函數(shù)的二次方歐式距離,選擇距離最小的Copula函數(shù)估計(jì)(,),有

2.2 基于ECMI的特征參量選擇

本文根據(jù)SCADA系統(tǒng)標(biāo)簽選出與機(jī)組運(yùn)行狀態(tài)相關(guān)的17個(gè)變量構(gòu)成初始特征參量集,共計(jì)117 538個(gè)時(shí)刻點(diǎn),對(duì)應(yīng)三類特征:條件參量,如風(fēng)速、機(jī)艙溫度等;性能參量,如反映整機(jī)狀態(tài)的輸出功率、槳距角、轉(zhuǎn)速等;健康參量,如反映關(guān)鍵部件齒輪箱運(yùn)行狀態(tài)的各類軸溫、油溫、振動(dòng)等。其中,輸出功率作為反映機(jī)組整機(jī)性能的重要參量,通過(guò)選擇與其相關(guān)性強(qiáng)即互信息大的關(guān)鍵特征參量確定數(shù)據(jù)清洗對(duì)象。

ECMI特征參量選擇策略如圖2所示。①數(shù)據(jù)預(yù)處理:依專家經(jīng)驗(yàn)剔除類型Ⅰ異常點(diǎn),對(duì)新數(shù)據(jù)集按單位區(qū)間標(biāo)準(zhǔn)化。②互信息估計(jì):將數(shù)據(jù)分箱構(gòu)建經(jīng)驗(yàn)Copula;選擇最優(yōu)Copula函數(shù)估計(jì)Copula 密度,采用樣本的Kendall秩相關(guān)系數(shù)代替半?yún)?shù)法擬合參數(shù)以提高運(yùn)算效率;計(jì)算各特征參量與輸出功率的互信息并按等級(jí)排序,結(jié)果見(jiàn)表1。ECMI性能分析如下:

圖2 ECMI特征參量選擇策略

表1 特征參量集等級(jí)列表

Tab.1 Rank list of characteristic parameter set

(1)可解釋性。以健康參量為例,各類溫度參量直接反映齒輪箱的健康狀態(tài),一旦高于報(bào)警閾值便會(huì)導(dǎo)致機(jī)組限功率運(yùn)行或故障停機(jī)。從物理角度看,油溫受溫控影響變化平穩(wěn),而軸溫波動(dòng)較明顯,變化趨勢(shì)與輸出功率相似,更有利于健康狀態(tài)預(yù)測(cè),機(jī)艙內(nèi)溫度則反映了工況的變化,也較機(jī)艙控制柜溫度更有參考意義。ECMI的等級(jí)排序與上述物理知識(shí)相一致,故可解釋性良好。

(2)準(zhǔn)確性與運(yùn)算效率。以風(fēng)速-功率為例,最優(yōu)Copula類型為Frank,主要描述對(duì)稱相關(guān)結(jié)構(gòu),對(duì)上下尾部特征均不敏感,而處于中段工況子空間的數(shù)據(jù)對(duì)評(píng)估機(jī)組健康狀態(tài)的貢獻(xiàn)最大[11],可見(jiàn)由Frank Copula函數(shù)描述風(fēng)功率數(shù)據(jù)的分布特征有利于保留有效信息。綜合分析等級(jí)排序靠前的12個(gè)特征參量,其中冗余部分僅保留等級(jí)高的參量。ECMI對(duì)應(yīng)的與輸出功率相關(guān)性強(qiáng)的參量依次為發(fā)電機(jī)轉(zhuǎn)速、風(fēng)速、齒輪箱輸入軸溫度、齒輪箱側(cè)主軸溫度、槳距角2、齒輪箱油溫及機(jī)艙內(nèi)溫度,結(jié)果與核密度估計(jì)法基本一致,主要差異在于槳距角與軸溫的等級(jí)順序,但運(yùn)算效率遠(yuǎn)遠(yuǎn)高于后者。

綜上分析,選擇輸出功率、發(fā)電機(jī)轉(zhuǎn)速、風(fēng)輪轉(zhuǎn)速、風(fēng)速和槳距角等關(guān)鍵特征參量構(gòu)成數(shù)據(jù)清洗對(duì)象。對(duì)于軸溫、油溫等等級(jí)較高的健康參量,因其異常值可能反映出工況變化或關(guān)鍵部件有異常發(fā)生,故不能輕易剔除,但可作為機(jī)組健康狀態(tài)預(yù)測(cè)與故障檢測(cè)的重要特征依據(jù)。

3 基于Copula-TFDD的數(shù)據(jù)清洗方法

3.1 Copula-TFDD數(shù)據(jù)清洗模型

由關(guān)鍵特征參量確定風(fēng)速-功率、發(fā)電機(jī)轉(zhuǎn)速-功率和風(fēng)輪轉(zhuǎn)速-功率為清洗對(duì)象后,便能建立數(shù)據(jù)清洗模型,從而實(shí)現(xiàn)堆積點(diǎn)與離群點(diǎn)的有效識(shí)別。

1)基于Copula建立置信等效功率區(qū)間

Copula函數(shù)無(wú)需明確數(shù)據(jù)的分布形態(tài)即可準(zhǔn)確描述其概率分布特征,因此,基于Copula建立置信等效功率區(qū)間來(lái)描述清洗對(duì)象的非線性與不確定性,認(rèn)為置信邊界內(nèi)的數(shù)據(jù)為符合數(shù)據(jù)真實(shí)分布規(guī)律的有效數(shù)據(jù),邊界外的數(shù)據(jù)為可疑數(shù)據(jù)。

在不同風(fēng)速或轉(zhuǎn)速的條件下建立輸出功率的條件概率分布,由其上下分位數(shù)對(duì)應(yīng)的概率功率曲線[22]形成置信等效功率區(qū)間?;诮?jīng)驗(yàn)Copula函數(shù)的解析法確定最優(yōu)Copula函數(shù)擬合聯(lián)合分布,給定,得條件概率分布函數(shù)為

2)基于TFDD清洗異常數(shù)據(jù)

結(jié)合三類典型異常數(shù)據(jù)的時(shí)序特征和密度分布(Time-series Features and Density Distribution, TFDD),分別清洗堆積點(diǎn)與離群點(diǎn)。

堆積點(diǎn)的風(fēng)速、輸出功率和槳距角等關(guān)鍵特征參量具有典型的時(shí)序特征,結(jié)合工程經(jīng)驗(yàn)依次識(shí)別類型Ⅰ堆積點(diǎn)和置信邊界外的類型Ⅱ堆積點(diǎn)。類型Ⅲ離群點(diǎn)因其分散性相對(duì)于整個(gè)數(shù)據(jù)集不具有典型時(shí)序特征,但與有效數(shù)據(jù)的密度分布不同,因此利用DBSCAN算法[11, 23-24]進(jìn)行甄別。若直接清洗原始數(shù)據(jù)集,需要分段處理數(shù)據(jù)[11],僅清洗數(shù)據(jù)量較小的可疑點(diǎn)可以克服算法本身內(nèi)存占用大、運(yùn)算速度慢的缺點(diǎn),保證數(shù)據(jù)清洗方法的實(shí)用性。異常數(shù)據(jù)判別準(zhǔn)則見(jiàn)表2。

表2 異常數(shù)據(jù)判別準(zhǔn)則

Tab.2 Discriminant criterion of abnormal data

表2中,()、()、()分別為風(fēng)速、輸出功率和槳距角;up()、down()對(duì)應(yīng)置信邊界;cutin、rated、cutout分別為切入風(fēng)速、額定風(fēng)速和切出風(fēng)速;為單位持續(xù)時(shí)間;11、2、3取整數(shù);b1、b2、p1、p2為閾值參數(shù),由工程經(jīng)驗(yàn)設(shè)定。

3.2 Copula-TFDD在線清洗流程

以風(fēng)速-功率、發(fā)電機(jī)轉(zhuǎn)速-功率和風(fēng)輪轉(zhuǎn)速-功率為清洗對(duì)象,建立Copula-TFDD在線清洗流程,如圖3所示,逐步清洗堆積點(diǎn)和離群點(diǎn)。

(1)模塊1。識(shí)別風(fēng)速-功率數(shù)據(jù)集中的堆積點(diǎn)。首先,基于專家經(jīng)驗(yàn)對(duì)原始數(shù)據(jù)集進(jìn)行初篩,根據(jù)機(jī)組正常運(yùn)行狀態(tài)下的數(shù)據(jù)確定最優(yōu)Copula函數(shù),適當(dāng)設(shè)置置信概率與不對(duì)稱系數(shù),建立初始概率功率曲線;依據(jù)判別準(zhǔn)則清洗置信邊界外可疑數(shù)據(jù)中的堆積點(diǎn),通過(guò)重復(fù)修正概率功率曲線自適應(yīng)調(diào)整置信邊界,從而提高模型對(duì)復(fù)雜數(shù)據(jù)集的適應(yīng)性;最后,形成新數(shù)據(jù)集并記錄數(shù)據(jù)標(biāo)簽。

(2)模塊2。識(shí)別風(fēng)速-功率數(shù)據(jù)集中的離群點(diǎn)。針對(duì)模塊1的剩余可疑數(shù)據(jù),利用DBSCAN算法識(shí)別離群點(diǎn),形成新數(shù)據(jù)集并記錄數(shù)據(jù)標(biāo)簽。

圖3 Copula-TFDD數(shù)據(jù)清洗模型流程

(3)模塊3。識(shí)別發(fā)電機(jī)轉(zhuǎn)速/風(fēng)輪轉(zhuǎn)速-功率數(shù)據(jù)集中的離群點(diǎn)。根據(jù)模塊2的數(shù)據(jù)標(biāo)簽得到新的轉(zhuǎn)速-功率數(shù)據(jù)集,因其離群點(diǎn)數(shù)量較小,且轉(zhuǎn)速與功率的相關(guān)性較強(qiáng),故可以利用3-sigma概率統(tǒng)計(jì)方法建立置信等效功率區(qū)間,以提高運(yùn)算效率。

3.3 基于Copula人工模擬異常數(shù)據(jù)

SCADA系統(tǒng)往往沒(méi)有數(shù)據(jù)狀態(tài)標(biāo)簽,為進(jìn)一步定量分析數(shù)據(jù)清洗模型的精度與運(yùn)算效率,相關(guān)文獻(xiàn)[7, 22]普遍采用人工模擬異常數(shù)據(jù)的方法進(jìn)行驗(yàn)證,卻并未給出模擬方法。本文利用Copula理論可以模擬多元隨機(jī)變量分布特征的特點(diǎn),人工模擬關(guān)鍵特征參量中的異常數(shù)據(jù),以定量分析Copula- TFDD的精度與運(yùn)算效率。

由輸出功率和其他特征參量構(gòu)成二元隨機(jī)變量,要生成服從實(shí)際分布F,V(,)的隨機(jī)變量(,),可借助條件分布函數(shù)(F()|F())生成一對(duì)在(0, 1)區(qū)間上服從均勻分布且具有Copula函數(shù)C,V(,)的隨機(jī)變量(,),其中= F(),=F(),對(duì)和求逆即可得到(,)。

據(jù)此,以通信故障、傳感器異常、棄風(fēng)限電等原因引起的明顯離群點(diǎn)和堆積點(diǎn)為模擬對(duì)象,人工構(gòu)造各類異常數(shù)據(jù)。首先,基于經(jīng)驗(yàn)Copula函數(shù)的解析法選擇對(duì)應(yīng)的最優(yōu)Copula函數(shù)模擬各類異常點(diǎn)的分布特征,以輸出功率為條件,隨機(jī)生成符合實(shí)際分布特征的風(fēng)速、發(fā)電機(jī)轉(zhuǎn)速和風(fēng)輪轉(zhuǎn)速等隨機(jī)變量;然后,模擬堆積點(diǎn)的時(shí)序特征,并以機(jī)組典型工作日數(shù)據(jù)為基礎(chǔ),建立帶標(biāo)簽的混合數(shù)據(jù)集。

4 算例分析

以實(shí)際運(yùn)行數(shù)據(jù)集和人工模擬混合數(shù)據(jù)集為研究對(duì)象,利用DBSCAN算法、3-sigma-TFDD模型和Copula-TFDD模型進(jìn)行異常數(shù)據(jù)清洗仿真,分析模型的精度與運(yùn)算效率,并將清洗結(jié)果應(yīng)用于風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè),驗(yàn)證本文所提方法的有效性和適用性。

4.1 實(shí)際運(yùn)行數(shù)據(jù)集異常數(shù)據(jù)清洗

文中引用的實(shí)測(cè)數(shù)據(jù)分別為一臺(tái)2MW(機(jī)組Ⅰ)和兩臺(tái)1.5MW(機(jī)組Ⅱ、Ⅲ)風(fēng)電機(jī)組的SCADA運(yùn)行數(shù)據(jù)集,3臺(tái)機(jī)組均因主軸高溫故障停機(jī),故障部件為齒輪箱,基本參數(shù)見(jiàn)表3。

表3 風(fēng)電機(jī)組基本參數(shù)

Tab.3 Basic parameters of wind turbine

1)異常數(shù)據(jù)清洗

Copula-TFDD模型對(duì)應(yīng)風(fēng)速-功率的清洗結(jié)果如圖4所示。以機(jī)組Ⅰ為例,對(duì)比兩種置信等效功率區(qū)間發(fā)現(xiàn),概率功率曲線較3-sigma曲線更接近數(shù)據(jù)的真實(shí)分布且波動(dòng)較小,可知Copula-TFDD模型較3-sigma-TFDD模型(風(fēng)速-功率數(shù)據(jù)的置信邊界采用3-sigma曲線)更有利于減少誤判與漏判。

比較3臺(tái)機(jī)組的風(fēng)功率曲線可知,不同機(jī)組的數(shù)據(jù)分布可能不同,機(jī)組Ⅰ、Ⅱ?qū)?yīng)的Copula函數(shù)為反映對(duì)稱相關(guān)結(jié)構(gòu)的Frank型,其中,機(jī)組Ⅰ中三類異常數(shù)據(jù)均比較典型,機(jī)組Ⅱ則主要體現(xiàn)為離群點(diǎn);機(jī)組Ⅲ雖然采樣周期最短,但由于只搜集了故障前3天的數(shù)據(jù),并未包含所有工況信息,且異常數(shù)據(jù)信息較少,對(duì)應(yīng)的Copula函數(shù)類型為反映上尾特征的Gumbel型。

進(jìn)一步比較Copula-TFDD模型與DBSCAN算法,對(duì)應(yīng)機(jī)組Ⅰ的發(fā)電機(jī)轉(zhuǎn)速-風(fēng)速-功率三維清洗結(jié)果如圖5所示,圖中點(diǎn)畫線中的因頻繁切換控制產(chǎn)生的離群點(diǎn)在圖4a中落于置信邊界內(nèi)??梢?jiàn),Copula-TFDD模型因同時(shí)考慮了關(guān)鍵特征參量中異常點(diǎn)的時(shí)序特征與密度分布,能有效識(shí)別落在置信邊界附近的堆積點(diǎn)與邊界內(nèi)的離群點(diǎn),而DBSCAN算法只清洗了風(fēng)功率數(shù)據(jù)中較明顯的離群點(diǎn)和堆積點(diǎn),不僅存在漏判,還因分段清洗造成清洗效果不穩(wěn)定。

分析機(jī)組Ⅰ在切入、切出風(fēng)速間異常數(shù)據(jù)被剔除前后的剔除率(各風(fēng)速區(qū)間內(nèi)被剔除的數(shù)據(jù)占該區(qū)間內(nèi)總數(shù)據(jù)的比例),DBSCAN算法、3-sigma- TFDD模型和Copula-TFDD模型在四分位間距內(nèi)的剔除率分別為12.27%~25.01%、12.14%~23.44%和10.73%~22.01%,主要落在20%左右,波動(dòng)范圍合理。風(fēng)速范圍兩端的剔除率偏高,存在正常數(shù)據(jù)被誤判的可能,但這部分?jǐn)?shù)據(jù)點(diǎn)較少,且對(duì)后續(xù)整機(jī)性能預(yù)測(cè)的作用較小,相對(duì)于誤判的影響可忽略。

圖5 實(shí)際運(yùn)行數(shù)據(jù)集清洗結(jié)果

分析運(yùn)算效率。機(jī)組Ⅰ對(duì)應(yīng)3-sigma-TFDD模型和Copula-TFDD模型的清洗時(shí)間分別為1.7min和9.5min,機(jī)組Ⅱ、Ⅲ對(duì)應(yīng)Copula-TFDD模型的清洗時(shí)間短于3min,兩種方法均能實(shí)現(xiàn)在線清洗,而DBSCAN算法只能離線清洗。

2)異常數(shù)據(jù)分析

因棄風(fēng)限電造成的堆積型異常點(diǎn)具有典型的時(shí)序特征,可以結(jié)合槳距角信息利用判別準(zhǔn)則進(jìn)行清洗,而對(duì)于離群點(diǎn)的清洗則需要更為謹(jǐn)慎。

離群點(diǎn)分布分散,主要因隨機(jī)誤差、工況波動(dòng)或限電造成的控制機(jī)制頻繁切換等引起,前者屬于偶發(fā),后者通常時(shí)序連續(xù)但沒(méi)有典型的變化規(guī)律,因此利用基于密度聚類思想的DBSCAN算法進(jìn)行清洗。圖4b、圖4c和圖5a中點(diǎn)畫線中的離群點(diǎn)分散性較大,但圖4b、圖4c中虛線中的離群點(diǎn)距離有效數(shù)據(jù)近,密度較正常運(yùn)行數(shù)據(jù)低,若被過(guò)度清洗可能會(huì)誤刪有效數(shù)據(jù)。在風(fēng)機(jī)發(fā)電性能評(píng)估中離群點(diǎn)通常可以不清洗[10],然而,通過(guò)合理設(shè)置參數(shù),離群點(diǎn)的清洗有利于基于概率統(tǒng)計(jì)方法對(duì)整機(jī)性能退化過(guò)程的預(yù)測(cè)[10-11]。

3)其他關(guān)鍵特征參量分析

以機(jī)組Ⅰ的機(jī)艙振動(dòng)與齒輪箱油溫等健康參量為例,分析其他關(guān)鍵特征參量的數(shù)據(jù)清洗工作。機(jī)艙振動(dòng)有效值-風(fēng)速、齒輪箱油溫-輸出功率的關(guān)系分別如圖6和圖7所示,觀察之前的數(shù)據(jù)清洗結(jié)果發(fā)現(xiàn),已清洗的各類異常點(diǎn)特別是離群點(diǎn)均分布在正常范圍,未超報(bào)警閾值。

圖6 機(jī)艙振動(dòng)有效值與風(fēng)速的關(guān)系

圖7 齒輪箱油溫與輸出功率的關(guān)系

圖6中,機(jī)艙振動(dòng)信號(hào)變化快速,隨風(fēng)速增大變化加劇。通常,振動(dòng)信號(hào)對(duì)機(jī)械故障比較敏感,含有故障信息的振動(dòng)信號(hào)常呈現(xiàn)出分散性較大的離群分布,故對(duì)離群點(diǎn)的清洗可能會(huì)隱藏故障信息。

圖7中,齒輪箱油溫變化平緩,由于受溫控閥影響,基本不隨功率變化出現(xiàn)明顯波動(dòng)。對(duì)于緩變信號(hào),一般不會(huì)出現(xiàn)明顯的離群點(diǎn)。而圖中虛線和實(shí)線中的數(shù)據(jù)則分別為d6和d21兩天的數(shù)據(jù),具有典型的時(shí)序特征,且呈特殊的密集型分布,這種情況可能是受當(dāng)日極端氣候影響所致,不排除機(jī)組有故障發(fā)生,因此不能直接剔除。

健康參量往往反映了機(jī)組關(guān)鍵部件的健康狀態(tài),因此,本文不對(duì)振動(dòng)與溫度等參量進(jìn)行清洗。

4.2 人工模擬混合數(shù)據(jù)集異常數(shù)據(jù)清洗

為進(jìn)一步定量分析數(shù)據(jù)清洗模型的精度與運(yùn)算效率,以機(jī)組Ⅰ在故障前近兩個(gè)月(2.21~4.16)的數(shù)據(jù)為基礎(chǔ),人工模擬具有代表性的數(shù)據(jù)集。

首先,建立基礎(chǔ)數(shù)據(jù)集。表4給出了部分工作日的風(fēng)速范圍和Copula-TFDD清洗結(jié)果。結(jié)合日風(fēng)功率散點(diǎn)圖發(fā)現(xiàn),機(jī)組在不同工作日、不同運(yùn)行工況下數(shù)據(jù)分布各異且各類異常點(diǎn)占比差異明顯,例如,d1/d38/d45機(jī)組運(yùn)行在切入、切出風(fēng)速之間,異常點(diǎn)較少,而d4/d20幾乎全部為類型Ⅰ異常點(diǎn),d52~d56的異常點(diǎn)中類型Ⅱ、Ⅲ占比增大,故障前兩日的風(fēng)速范圍較大,故障當(dāng)天機(jī)組運(yùn)行狀態(tài)明顯異常。因缺乏氣象數(shù)據(jù),同時(shí)要確?;A(chǔ)數(shù)據(jù)集覆蓋全部工況,并考慮機(jī)組性能逐漸退化、氣溫逐漸升高等因素,本文沒(méi)有直接對(duì)全部數(shù)據(jù)集抽樣,而是先根據(jù)風(fēng)速條件與數(shù)據(jù)分布確定各月的典型工作日(占全部數(shù)據(jù)集70%),再隨機(jī)抽樣構(gòu)成數(shù)據(jù)集1,其中故障發(fā)生當(dāng)月的數(shù)據(jù)占比較大。在此基礎(chǔ)上,提取各類異常數(shù)據(jù),根據(jù)3.3節(jié)中人工模擬異常數(shù)據(jù)的方法分別構(gòu)造混合數(shù)據(jù)集2~4,異常數(shù)據(jù)比例見(jiàn)表5。以數(shù)據(jù)集2為例,散點(diǎn)示意圖如圖8所示。

表4 典型工作日異常數(shù)據(jù)比例

Tab.4 The proportion of abnormal data in typical day(%)

表5 人工模擬異常數(shù)據(jù)比例

Tab.5 The proportion of artificial abnormal data (%)

圖8 人工模擬數(shù)據(jù)集2散點(diǎn)示意圖

采用DBSCAN算法、3-sigma-TFDD模型和Copula-TFDD模型分別清洗數(shù)據(jù)集1~4,人工模擬混合數(shù)據(jù)集的統(tǒng)計(jì)識(shí)別結(jié)果見(jiàn)表6。

表6 人工模擬混合數(shù)據(jù)集的統(tǒng)計(jì)識(shí)別結(jié)果

Tab.6 Statistical identification results of artificially generated mixed datasets

較高的識(shí)別率說(shuō)明模型的正確率較高,但有效的清洗模型應(yīng)同時(shí)具有較低的誤識(shí)別率[22]。模型精度與運(yùn)算效率定量分析如下:

(1)堆積點(diǎn)的識(shí)別率。三種方法對(duì)類型Ⅰ堆積點(diǎn)的識(shí)別率均較高;對(duì)于類型Ⅱ堆積點(diǎn),兩種TFDD模型因同時(shí)考慮了數(shù)據(jù)的概率分布、時(shí)序特征和密度分布,識(shí)別效果均優(yōu)于DBSCAN算法,當(dāng)異常點(diǎn)的占比增加時(shí),后者的識(shí)別率下降明顯。

(2)離群點(diǎn)的識(shí)別率。離群點(diǎn)的數(shù)量和分布位置會(huì)影響兩種TFDD模型的識(shí)別效果。數(shù)據(jù)集1中離群點(diǎn)雖然只占0.35%,但較多離群點(diǎn)落在了置信邊界內(nèi),Copula-TFDD模型的識(shí)別率略低于3- sigma-TFDD模型;隨著數(shù)據(jù)集2~4中離群點(diǎn)的占比增加、概率統(tǒng)計(jì)特征波動(dòng)變大,3-sigma-TFDD模型的識(shí)別精度明顯低于Copula-TFDD模型,后者由于更符合數(shù)據(jù)的實(shí)際分布特征,保證較高識(shí)別率的同時(shí)可保持較小的波動(dòng)。

(3)誤識(shí)別率。三種方法針對(duì)不同數(shù)據(jù)集的誤識(shí)別率均較低,因此直接剔除異常點(diǎn)對(duì)最終的數(shù)據(jù)應(yīng)用影響不大。進(jìn)一步分析,三種方法的誤識(shí)別率依次降低,隨著異常數(shù)據(jù)的占比增加,各模型的誤識(shí)別率均有所升高,但前兩者升高明顯,Copula- TFDD模型的穩(wěn)定性更好。

(4)運(yùn)算效率。DBSCAN算法的運(yùn)算時(shí)間最長(zhǎng),而實(shí)際運(yùn)行數(shù)據(jù)的數(shù)據(jù)量很大,該方法需要依時(shí)間窗分段處理數(shù)據(jù)集,因此不利于工程應(yīng)用。兩種TFDD模型的運(yùn)算速度均較快,雖然3-sigma-TFDD模型的算法簡(jiǎn)單、運(yùn)算效率更高,但Copula-TFDD模型的識(shí)別精度更高、更穩(wěn)定。

綜上分析,兩種TFDD模型都可以有效識(shí)別三類典型異常數(shù)據(jù),綜合考慮模型的精度、運(yùn)算效率和穩(wěn)定性,Copula-TFDD模型在工程應(yīng)用方面的適應(yīng)性更強(qiáng)。

4.3 異常數(shù)據(jù)清洗在機(jī)組健康狀態(tài)預(yù)測(cè)中的應(yīng)用

將機(jī)組Ⅰ的清洗結(jié)果應(yīng)用于風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè),分析數(shù)據(jù)清洗方法的適用性。

Copula-TFDD模型能在線應(yīng)用于機(jī)組健康狀態(tài)預(yù)測(cè),雖然較其他數(shù)據(jù)清洗方法僅能提前一天發(fā)現(xiàn)機(jī)組性能惡化,但對(duì)于風(fēng)電場(chǎng)提前進(jìn)行故障診斷、排查維修,避免如齒輪箱損壞等重大故障的發(fā)生具有重要意義。

綜上分析,Copula-TFDD模型因綜合考慮了關(guān)鍵特征參量的概率分布、時(shí)序特征和密度分布,有利于挖掘風(fēng)速、轉(zhuǎn)速與輸出功率之間的真實(shí)物理規(guī)律,適用于風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè)。

5 結(jié)論

針對(duì)風(fēng)電機(jī)組健康狀態(tài)預(yù)測(cè)中對(duì)異常數(shù)據(jù)進(jìn)行在線清洗的實(shí)際需求,本文研究得出如下結(jié)論:

1)提出基于ECMI的特征參量選擇方法。選擇反映風(fēng)電機(jī)組整機(jī)性能的關(guān)鍵特征參量構(gòu)成清洗對(duì)象,對(duì)實(shí)測(cè)風(fēng)速-功率、轉(zhuǎn)速-功率數(shù)據(jù)中的堆積點(diǎn)和離群點(diǎn)等典型異常數(shù)據(jù)進(jìn)行清洗。

2)基于風(fēng)電機(jī)組實(shí)測(cè)運(yùn)行數(shù)據(jù)的概率分布、時(shí)序特征與密度分布提出Copula-TFDD數(shù)據(jù)清洗模型。該方法可以對(duì)具有不同采樣周期和差異化概率分布的運(yùn)行數(shù)據(jù)實(shí)現(xiàn)在線清洗,且能有效提升機(jī)組健康狀態(tài)預(yù)測(cè)的性能。

3)基于Copula給出了人工模擬符合實(shí)際異常數(shù)據(jù)分布特征的數(shù)據(jù)集的方法。通過(guò)對(duì)Copula- TFDD的精度、運(yùn)算效率和穩(wěn)定性的定量分析,驗(yàn)證了該數(shù)據(jù)清洗方法的工程應(yīng)用性較強(qiáng)。

[1] 陳俊生, 李劍, 陳偉根, 等. 采用滑動(dòng)窗口及多重加噪比堆棧降噪自編碼的風(fēng)電機(jī)組狀態(tài)異常檢測(cè)方法[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(2): 346-358.

Chen Junsheng, Li Jian, Chen Weigen, et al. A method for detecting anomaly conditions of wind turbines using stacked denoising autoencoders with sliding window and multiple noise ratios[J]. Transa- ctions of China Electrotechnical Society, 2020, 35(2): 346-358.

[2] 趙永寧, 葉林, 朱倩雯. 風(fēng)電場(chǎng)棄風(fēng)異常數(shù)據(jù)簇的特征及處理方法[J]. 電力系統(tǒng)自動(dòng)化, 2014, 38(21): 39-46.

Zhao Yongning, Ye Lin, Zhu Qianwen. Characteristics and processing method of abnormal data clusters caused by wind curtailments in wind farms[J]. Automation of Electric Power Systems, 2014, 38(21): 39-46.

[3] 婁建樓, 胥佳, 陸恒, 等. 基于功率曲線的風(fēng)電機(jī)組數(shù)據(jù)清洗算法[J]. 電力系統(tǒng)自動(dòng)化, 2016, 40(10): 116-121.

Lou Jianlou, Xu Jia, Lu Heng, et al. Wind turbine data-cleaning algorithm based on power curve[J]. Automation of Electric Power Systems, 2016, 40(10): 116-121.

[4] 沈小軍, 付雪姣, 周沖成, 等. 風(fēng)電機(jī)組風(fēng)速-功率異常運(yùn)行數(shù)據(jù)特征及清洗方法[J]. 電工技術(shù)學(xué)報(bào), 2018, 33(14): 3353-3361.

Shen Xiaojun, Fu Xuejiao, Zhou Chongcheng, et al. Characteristics of outliers in wind speed-power operation data of wind turbines and its cleaning method[J]. Transactions of China Electrotechnical Society, 2018, 33(14): 3353-3361.

[5] 鄒同華, 高云鵬, 伊慧娟, 等. 基于Thompson tau-四分位和多點(diǎn)插值的風(fēng)電功率異常數(shù)據(jù)處理[J]. 電力系統(tǒng)自動(dòng)化, 2020, 44(15): 156-165.

Zou Tonghua, Gao Yunpeng, Yi Huijuan, et al. Processing of wind power abnormal data based on Thompson tau-quartile and multi-point interpo- lation[J]. Automation of Electric Power Systems, 2020, 44(15): 156-165.

[6] 范曉泉, 杜大軍, 費(fèi)敏銳. 風(fēng)電異常測(cè)量數(shù)據(jù)智能識(shí)別方法研究[J]. 儀表技術(shù), 2017(1): 10-14.

Fan Xiaoquan, Du Dajun, Fei Minrui. Research on the intelligent identification method for abnormal measurement data of the wind power[J]. Instru- mentation Technology, 2017(1): 10-14.

[7] 楊茂, 翟冠強(qiáng), 蘇欣. 基于風(fēng)特征分析的風(fēng)電機(jī)組異常數(shù)據(jù)識(shí)別算法[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2017, 37(增刊1): 144-151.

Yang Mao, Zhai Guanqiang, Su Xin. An algorithm for abnormal data identification of wind turbine based on wind characteristic analysis[J]. Proceedings of the CSEE, 2017, 37(S1): 144-151.

[8] 胡陽(yáng), 喬依林. 基于置信等效邊界模型的風(fēng)功率數(shù)據(jù)清洗方法[J]. 電力系統(tǒng)自動(dòng)化, 2018, 42(15): 18-23, 149.

Hu Yang, Qiao Yilin. Wind power data cleaning method based on confidence equivalent boundary model[J]. Automation of Electric Power Systems, 2018, 42(15): 18-23, 149.

[9] Edzel L, Dustin B, Hossein D A, et al. Wind turbine performance assessment using multi-regime modeling approach[J]. Renewable Energy, 2012, 45: 86-95.

[10] Jia Xiaodong, Jin Chao, Buzza M, et al. Wind turbine performance degradation assessment based on a novel similarity metric for machine performance curves[J]. Renewable Energy, 2016, 99: 1191-1201.

[11] 馬然, 栗文義, 齊詠生. 基于風(fēng)功率數(shù)據(jù)的風(fēng)電機(jī)組性能預(yù)測(cè)與健康狀態(tài)評(píng)估[J]. 可再生能源, 2019, 37(8): 1252-1259.

Ma Ran, Li Wenyi, Qi Yongsheng. Performance degradation prognostic and health assessment using wind power data for wind turbine generation unit[J]. Renewable Energy Resources, 2019, 37(8): 1252- 1259.

[12] Jia Xiaodong, Jin Chao, Buzza M, et al. A deviation based assessment methodology for multiple machine health patterns classification and fault detection[J]. Mechanical Systems and Signal Processing, 2018, 99: 244-261.

[13] 王正宇, 張揚(yáng)帆, 段向陽(yáng), 等. 基于Relief算法的風(fēng)電機(jī)組故障特征參數(shù)提取方法[J]. 華北電力技術(shù), 2017(10): 57-62.

Wang Zhengyu, Zhang Yangfan, Duan Xiangyang, et al. Selection method of fault characteristic parameters for wind turbine based on Relief algorithm[J]. North China Electric Power, 2017(10): 57-62.

[14] Du Mian, Yi Jun, Peyman M, et al. A parameter selection method for wind turbine health management through SCADA data[J]. Energies, 2017, 10(2): 253.

[15] 鄭睿程, 顧潔, 金之儉, 等. 數(shù)據(jù)驅(qū)動(dòng)與預(yù)測(cè)誤差驅(qū)動(dòng)融合的短期負(fù)荷預(yù)測(cè)輸入變量選擇方法研究[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2020, 40(2): 487-500.

Zheng Ruicheng, Gu Jie, Jin Zhijian, et al. Research on short-term load forecasting variable selection based on fusion of data driven method and forecast error driven method[J]. Proceedings of the CSEE, 2020, 40(2): 487-500.

[16] 王爽心, 郭婷婷, 李蒙. 風(fēng)電機(jī)組變工況變槳系統(tǒng)異常狀態(tài)在線識(shí)別[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2019, 39(17): 5144-5152, 5295.

Wang Shuangxin, Guo Tingting, Li Meng. On-line abnormal state identification of pitch system based on transitional mode for wind turbine[J]. Proceedings of the CSEE, 2019, 39(17): 5144-5152, 5295.

[17] IEC 61400-12-1: 2017-03(en-fr). In: wind energy generation systems-part 12-1: power performance measurements of electricity producing wind tur- bines[S]. Geneva, Switzerland: International Elec- trotechnical Commission (IEC), 2017.

[18] 石訪, 張林林, 胡熊偉, 等. 基于多屬性決策樹的電網(wǎng)暫態(tài)穩(wěn)定規(guī)則提取方法[J]. 電工技術(shù)學(xué)報(bào), 2019, 34(11): 2364-2374.

Shi Fang, Zhang Linlin, Hu Xiongwei, et al. Power system transient stability rules extraction based on multi-attribute decision tree[J]. Transactions of China Electrotechnical Society, 2019, 34(11): 2364-2374.

[19] 李霞. Copula方法及其應(yīng)用[M]. 北京: 經(jīng)濟(jì)管理出版社, 2014.

[20] 沈小軍, 周沖成, 呂洪. 基于運(yùn)行數(shù)據(jù)的風(fēng)電機(jī)組間風(fēng)速相關(guān)性統(tǒng)計(jì)分析[J]. 電工技術(shù)學(xué)報(bào), 2017, 32(16): 265-274.

Shen Xiaojun, Zhou Chongcheng, Lü Hong. Statistical analysis of wind speed correlation between wind turbines based on operational data[J]. Transactions of China Electrotechnical Society, 2017, 32(16): 265- 274.

[21] 徐玉琴, 陳坤, 李俊卿, 等. Copula函數(shù)與核估計(jì)理論相結(jié)合分析風(fēng)電場(chǎng)出力相關(guān)性的一種新方法[J]. 電工技術(shù)學(xué)報(bào), 2016, 31(13): 92-100.

Xu Yuqin, Chen Kun, Li Junqing, et al. A new method analyzing output correlation of multi-wind farms based on combination of Copula function and kernel estimation theory[J]. Transactions of China Electrotechnical Society, 2016, 31(13): 92-100.

[22] 龔鶯飛, 魯宗相, 喬穎, 等. 基于Copula理論的光伏功率高比例異常數(shù)據(jù)機(jī)器識(shí)別算法[J]. 電力系統(tǒng)自動(dòng)化, 2016, 40(9): 16-22, 55.

Gong Yingfei, Lu Zongxiang, Qiao Ying, et al. Copula theory based machine identification algorithm of high proportion of outliers in photovoltaic power data[J]. Automation of Electric Power Systems, 2016, 40(9): 16-22, 55.

[23] 周賢正, 陳瑋, 郭創(chuàng)新. 考慮供能可靠性與風(fēng)光不確定性的城市多能源系統(tǒng)規(guī)劃[J]. 電工技術(shù)學(xué)報(bào), 2019, 34(17): 3672-3686.

Zhou Xianzheng, Chen Wei, Guo Chuangxin. An urban multi-energy system planning method incor- porating energy supply reliability and wind- photovoltaic generators uncertainty[J]. Transactions of China Electrotechnical Society, 2019, 34(17): 3672-3686.

[24] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[J]. Proceedings of the Second International Conference on Knowledge Discovery and Datamining, 1996, 96: 226-231.

Online Cleaning of Abnormal Data for the Prediction of Wind Turbine Health Condition

1,21,22

(1. College of Energy and Power Engineering Inner Mongolia University of Technology Hohhot 010050 China 2. College of Electrical Engineering Inner Mongolia University of Technology Hohhot 010080 China)

Wind turbine (WT) supervisory control and data acquisition (SCADA) data contains a large number of abnormal data, which has a serious impact on the prediction of WT health condition. Therefore, an online cleaning method for abnormal data is proposed according to the measured wind-power and rotate speed-power data. Due to the complexity of data features in the process of WT performance degradation, key characteristic parameters are selected as data cleaning objects based on empirical Copula-based mutual information (ECMI), and the nonlinearity and uncertainty are described by establishing confidence equivalent power interval calculated with Copula. Accordingly, the Copula-based data cleaning model combining the time-series features and density distribution (Copula-TFDD) of abnormal points is established, and online cleaning for the stacking points and outliers outside the confidence boundary is performed in turn. Finally, through the actual data and the simulation data, the accuracy and efficiency of Copula-TFDD are analyzed, and the influence on the prediction of WT health condition is also analyzed. The results show that Copula-TFDD can accurately and real-time identify various abnormal data, effectively improving the prediction performance of WT health condition.

Prediction of wind turbine health condition, data cleaning, characteristic parameters, mutual information, Copula theory

TK83

10.19595/j.cnki.1000-6753.tces.200278

國(guó)家自然科學(xué)基金項(xiàng)目(61763037)、內(nèi)蒙古自治區(qū)高等學(xué)??茖W(xué)研究項(xiàng)目(NJZY21305)和內(nèi)蒙古自治區(qū)科技計(jì)劃項(xiàng)目(2019,2020GG028)資助。

2020-03-18

2020-07-20

馬 然 女,1982年生,講師,博士研究生,研究方向?yàn)轱L(fēng)電機(jī)組故障診斷與健康管理。E-mail: maran007@imut.edu.cn

栗文義 男,1963年生,教授,博士生導(dǎo)師,研究方向?yàn)樾履茉窗l(fā)電技術(shù)。E-mail: lwyyyll@vip.sina.com(通信作者)

(編輯 崔文靜)

猜你喜歡
置信離群參量
急診住院醫(yī)師置信職業(yè)行為指標(biāo)構(gòu)建及應(yīng)用初探
基于置信職業(yè)行為的兒科住院醫(yī)師形成性評(píng)價(jià)體系的構(gòu)建探索
基于模糊深度置信網(wǎng)絡(luò)的陶瓷梭式窯PID優(yōu)化控制
離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識(shí)別
基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識(shí)別
離群的小雞
環(huán)形光的形成與參量的依賴關(guān)系
含雙參量的p-拉普拉斯邊值問(wèn)題的多重解
鎖定放大技術(shù)在參量接收陣中的應(yīng)用
布尔津县| 特克斯县| 新郑市| 利辛县| 万盛区| 平江县| 昌图县| 镇原县| 山东省| 贡嘎县| 永州市| 房山区| 鲁甸县| 莱州市| 安丘市| 安西县| 大宁县| 巴彦县| 阿巴嘎旗| 辛集市| 保亭| 思南县| 顺义区| 内丘县| 麦盖提县| 米脂县| 卓尼县| 台江县| 遂昌县| 宁南县| 星子县| 金平| 榕江县| 夏津县| 宝兴县| 柳河县| 甘德县| 扬州市| 南昌市| 龙海市| 金门县|