李建強,趙 凱,潘文凱,陳星旭,李世博
(華北電力大學 能源動力與機械工程學院,河北保定071003)
電站歷史數(shù)據(jù)缺失值填補策略研究
李建強,趙 凱,潘文凱,陳星旭,李世博
(華北電力大學 能源動力與機械工程學院,河北保定071003)
針對電站數(shù)據(jù)庫存在數(shù)據(jù)缺失的問題,提出了改進的模糊聚類缺失值填補算法,即支持向量回歸與遺傳算法優(yōu)化的模糊聚類填補算法(SVR-OCSFCM)。對某600MW燃煤機組運行數(shù)據(jù)用支持向量機回歸算法(SVR)、模糊聚類優(yōu)化補全策略(OCS-FCM)與SVR-OCSFCM三種方法分別進行單屬性和多屬性缺失值填補實驗,實驗表明:同屬性缺失時,算法性能隨缺失率增加而降低,相同缺失率時填補性能隨缺失屬性的增加而降低;SVR-OCSFCM由支持向量回歸和模糊聚類算法共同約束估計值,具有較好的準確性和有效性,缺失值填補性能優(yōu)于SVR和OCS-FCM算法,且對多屬性缺失數(shù)據(jù)填補具有較好的填補效果。
缺失值;數(shù)據(jù)填補;電站;模糊聚類
隨著電力工業(yè)的發(fā)展,電站過程數(shù)據(jù)庫復雜程度與數(shù)據(jù)量越來越大,促進了數(shù)據(jù)挖掘在電站優(yōu)化中的應用[1-2],數(shù)據(jù)預處理作為其不可或缺的基礎性工作,越來越受到重視。針對各實際領域的不同特點涌現(xiàn)出了不同的數(shù)據(jù)預處理思想與工具。就目前階段來看,數(shù)據(jù)預處理技術中研究最多的是“臟數(shù)據(jù)”的清理問題,數(shù)據(jù)清理的主要方向集中在數(shù)據(jù)缺失值處理、噪聲數(shù)據(jù)的平滑處理以及異常數(shù)據(jù)的篩選處理等。數(shù)據(jù)缺失問題在基于傳感器采集數(shù)據(jù)的發(fā)電廠普遍存在,嚴重阻礙了數(shù)據(jù)分析及挖掘在電站優(yōu)化領域的發(fā)展[3-5]。
電站數(shù)據(jù)采集、存儲系統(tǒng)組成復雜,測點工作環(huán)境惡劣等多方原因能夠造成數(shù)據(jù)的缺失,主要分為:傳感器故障、數(shù)據(jù)傳輸故障、數(shù)據(jù)存儲故障、人的主觀因素等。數(shù)據(jù)的不完整性給數(shù)據(jù)挖掘過程、數(shù)據(jù)分析和研究帶來了重重困難,這些不完整的數(shù)據(jù)會導致分析結果發(fā)生偏置,建立錯誤的數(shù)據(jù)挖掘模型,導致不準確的挖掘結果,甚至會誤導用戶的決策,導致經(jīng)濟損失。
針對電站歷史數(shù)據(jù)的缺失值處理問題,很多研究者提出了面向不同方向的多種有效方法。文獻[6]基于線性插值原理對較短時間內(nèi)平穩(wěn)運行過程的缺失數(shù)據(jù)進行填補,針對不穩(wěn)定工況采用遺傳自適應加權類平均值填補算法。文獻[7]采用粗糙集方法處理電站故障診斷系統(tǒng)中信號缺失問題。文獻[8]運用EM(PCA)算法處理燃燒系統(tǒng)中的缺失數(shù)據(jù),對不同缺失率的數(shù)據(jù)進行了填補,由于此算法的目的是減少缺失數(shù)據(jù)對數(shù)據(jù)空間重構的影響,對缺失數(shù)據(jù)值本身的預測不是十分精確。
電站歷史數(shù)據(jù)屬性參數(shù)眾多,缺失數(shù)據(jù)分布廣泛,以上研究一般用于單屬性數(shù)據(jù)缺失的處理,針對多屬性缺失數(shù)據(jù)涉及很少或應用于多屬性缺失數(shù)據(jù)時性能下降明顯的問題,本文提出了改進的模糊聚類缺失值填補算法,算法利用模糊聚類優(yōu)化補全策略和支持向量回歸填補算法共同約束缺失數(shù)據(jù)的估計值,并利用遺傳算法尋找最優(yōu)模糊聚類數(shù)c、模糊因子m的值,最終得到填補效果較理想的完整數(shù)據(jù)集。對某600 MW燃煤機組運行數(shù)據(jù)進行單屬性與多屬性缺失值填補實驗,結果表明該算法可以實現(xiàn)多屬性缺失值的填補,驗證了該方法的準確性與有效性。
1.1 OCS-FCM算法
將模糊C均值聚類算法(FCM)應用在缺失值填補中有4種策略[9],分別為:完整數(shù)據(jù)策略(Whole Data Strategy,WDS)、局部距離策略(Partial Distance Strategy,PDS)、優(yōu)化補全策略(Optimal Completion Strategy,OCS)以及最近模型策略(Nearest Prototype Strategy,NPS)。
(1)完整數(shù)據(jù)策略。對缺失數(shù)據(jù)的處理方式屬于刪除法,其基本原理是當數(shù)據(jù)集中的缺失值數(shù)量較少時采取刪除樣本的方法進行聚類。但這種方法會造成信息的丟失。
(2)局部距離策略。僅忽略缺失樣本中的缺失屬性,對缺失樣本中的完整屬性按比例進行樣本與聚類中心的距離。該算法與經(jīng)典FCM算法收斂性一致。
(3)優(yōu)化補全策略。將缺失數(shù)據(jù)的填補看作優(yōu)化問題,在迭代過程中給出缺失數(shù)據(jù)的估計值,其收斂性與經(jīng)典FCM算法收斂性一致。
(4)最近模型策略。在每次迭代中將缺失數(shù)據(jù)用距離最臨近的數(shù)據(jù)代替。
經(jīng)過理論分析及數(shù)據(jù)實驗確定了OCS-FCM算法對缺失數(shù)據(jù)填補效果最佳[9],首先介紹OCS-FCM算法的基本原理。
假設數(shù)據(jù)樣本集合為X={x1,x2,x3,…,xn},其中xk為X數(shù)據(jù)集中第k個s維的數(shù)據(jù)向量;xkj為xk向量中第j個值,1≤j≤s,1≤k≤n。數(shù)據(jù)集合X中包含缺失值,以NA表示,令:
(1)
XM為缺失值數(shù)據(jù)集;M為缺失值的個數(shù)。舉例說明,令s=2,n=4,數(shù)據(jù)集設為:
(2)
則Xm={x12,x41,x43}。
OCS-FCM算法可以總結為以下步驟:
初始化:確定模糊因子m,聚類數(shù)目c,最大迭代次數(shù)tmax或收斂閾值ε并且滿足:1
步驟一:計算(更新)隸屬度矩陣U,
(3)
隸屬度矩陣U滿足條件:
(4)
步驟二:更新聚類中心V,
(5)
步驟三:若‖v(r+1)-v(r)‖<ε成立或達到最大迭代次數(shù),則算法停止,否則轉(zhuǎn)到步驟四。
步驟四:計算缺失數(shù)據(jù)的填補值。
(6)
步驟五:令r=r+1,轉(zhuǎn)到步驟一。
可以看出,OCS-FCM算法運行中會對缺失數(shù)據(jù)進行估計,得到補全的數(shù)據(jù)集。
1.2 改進的OCS-FCM算法
在本文的模型中,模糊聚類算法用來區(qū)分缺失數(shù)據(jù)之間的差異并依據(jù)它們的特性對這些數(shù)據(jù)進行分類,應用OCS-FCM算法對缺失數(shù)據(jù)進行估計并進行模糊聚類,這使得補全后相似的數(shù)據(jù)聚成一簇。然后在每個類別中分別以未缺失數(shù)據(jù)為訓練集對支持向量回歸算法進行訓練,在相似數(shù)據(jù)集中支持向量回歸算法有更優(yōu)的學習能力[11],訓練后的支持向量回歸分別對各類中的缺失數(shù)據(jù)進行估計,遺傳算法優(yōu)化聚類參數(shù)c、m,最終得到最優(yōu)的缺失數(shù)據(jù)估計值。缺失數(shù)據(jù)填補模型設計如圖1所示。
支持向量回歸與遺傳算法優(yōu)化的模糊聚類填補算法運行步驟為:
(1)設置c、m初始值,應用OCS-FCM算法對數(shù)據(jù)集進行缺失值填補。填補結果記為X。
(2)在所得的各聚類空間中分別應用支持向量回歸估計缺失值。該過程中聚類空間內(nèi)的完整數(shù)據(jù)作為訓練集訓練支持向量回歸算法,缺失數(shù)據(jù)作為估計目標進行填補,填補結果記為Y。
(3)對參數(shù)c、m應用遺傳算法優(yōu)化并重復(1)、(2)兩步驟,計算誤差函數(shù)Eerror=(X-Y)2,誤差函數(shù)最小時對應的c、m為最優(yōu)分類參數(shù)。取此時X與Y的平均值作為最優(yōu)填補值。
(4)應用最優(yōu)填補值,獲得完整數(shù)據(jù)集。
圖1 SVR-OCSFCM算法填補缺失值過程
實驗對象為某600 MW燃煤發(fā)電機組,從SIS數(shù)據(jù)庫中選取負荷、省煤器出口氧量、凝汽器真空和供電煤耗為數(shù)據(jù)集,采樣時間間隔為1 min。在原始數(shù)據(jù)中通過刪除含缺失值的行構造不含缺失值的完整數(shù)據(jù)集,最終確定數(shù)據(jù)集包含1 000組數(shù)據(jù)。數(shù)據(jù)集部分數(shù)據(jù)如表1所示。
電站運行數(shù)據(jù)測點眾多,各屬性數(shù)據(jù)數(shù)量級、量綱不同,因此需要對數(shù)據(jù)進行歸一化處理,將數(shù)值范圍變換為[0,1],以提高算法的泛化能力,提高收斂速度,避免對度量單位選擇的依賴性[12]。歸一化公式為:
(7)
本文采取均方根誤差(Root Mean Square Error,ERMSE)和填補準確度(Accuracy,A)去評價提出的算法的優(yōu)越性,均方根誤差是缺失值填補研究中應用最廣泛的評價標準,其函數(shù)如下:
表1 數(shù)據(jù)集樣本
(8)
式中:xr為真實值;xi為算法的填補值;n為缺失值的數(shù)目;ERMSE值越小說明算法填補質(zhì)量越高[13]。
填補準確度A評價函數(shù)能夠計算出填補值中符合容忍度要求的值所占的比例,其函數(shù)如下:
(9)
式中:n為缺失值數(shù)量;nt為正確估計值數(shù)量,指在容忍度范圍內(nèi)的填補值數(shù)量。本文將容忍度設置為10%,即填補值在真實值的±10%誤差范圍內(nèi)時此填補值被視為正確估計值。
首先根據(jù)情況選定缺失屬性,通過隨機刪除的方法構造缺失率分別為1%、3%、5%、10%、15%、20%、25%和30%的缺失數(shù)據(jù)集。在不同缺失率下分別應用OCS-FCM、SVR和SVR-OCSFCM三種算法進行實驗,并對各算法得到的實驗結果根據(jù)均方根誤差和填補準確度進行分析比較。
以省煤器出口氧量為填補目標,構造各比率的缺失數(shù)據(jù)集,測試三種算法的性能。為充分表現(xiàn)各算法的性能,用隨機生成缺失值的方式為每個缺失率構造10個缺失數(shù)據(jù)集,算法應用于各個數(shù)據(jù)集所得結果取平均值作為最終的實驗結果,綜合各實驗結果進行分析對比。
從圖2中可以看出SVR-OCSFCM算法在所有缺失率下均方根誤差均最小,填補效果最優(yōu),隨缺失率的增加,均方根誤差增大。從算法原理上看,SVR-OCSFCM由支持向量回歸和模糊聚類算法共同約束估計值,缺失值填補性能提高,均方根誤差降低。
圖2 各算法填補結果的均方根誤差
缺失值填補準確度隨缺失率的增大而降低,如圖3所示,當缺失率為1%時,三種算法的填補準確率都能達到60%以上,說明在缺失少量數(shù)據(jù)時各算法填補性能均較好。缺失率在3%~15%時SVR算法填補準確率明顯優(yōu)于OCS-FCM算法,缺失率大于15%時SVR與OCS-FCM算法的填補準確率相差不大。在所有缺失情況下,SVR-OCSFCM填補效果都明顯好于另兩種算法。
圖3 不同算法填補結果的準確度
從以上均方根誤差與填補準確率分析可知,SVR-OCSFCM填補效果優(yōu)于另兩種算法,為更加直觀展示該算法實際填補效果,構造缺失率為10%,且包括多段連續(xù)缺失的數(shù)據(jù)集,應用SVR-OCSFCM算法進行填補。圖4為其中一段連續(xù)缺失27組數(shù)據(jù)的填補結果與真實值的對比結果,可看出填補值與真實值相關度較高,滿足數(shù)據(jù)填補要求。
圖4 SVR-OCSFCM算法填補結果與真實值對比
由SVR-OCSFCM算法的原理分析可知,步驟(1)中OCS-FCM算法能夠在多屬性數(shù)據(jù)缺失的情況下對缺失值進行估計;步驟(2)中支持向量回歸算法依次以各缺失參數(shù)為目標屬性進行算法訓練以及缺失值填補,因此SVR-OCSFCM算法能夠應用于多屬性缺失數(shù)據(jù)的同步填補。
原始數(shù)據(jù)集共有4個屬性參數(shù),多屬性缺失值填補實驗中設定氧量、供電煤耗為兩屬性缺失,設定氧量、供電煤耗和凝汽器真空為三屬性缺失,以及四屬性缺失。按各缺失率構造實驗數(shù)據(jù),應用SVR-OCSFCM算法進行缺失值填補實驗,實驗結果如圖5所示??梢钥闯鰡螌傩匀笔闆r下均方根誤差最小,隨缺失屬性的增加均方根誤差增大;但兩屬性缺失與三屬性缺失情況下均方根誤差增加不明顯,且低缺失率下與單屬性缺失相差不大;四屬性缺失情況下均方根誤差明顯大于其余三種情況;但在缺失率較低時(小于3%)四種缺失情況的均方根誤差都較低(0.05至0.15之間),且增大不明顯。
圖5 多屬性缺失值填補均方根誤差
如圖6所示,相同缺失率時填補準確度隨缺失屬性的增加而降低。缺失率低時各屬性缺失填補準確度較高:缺失率為1%,填補準確度均高于58%;缺失率為3%,填補準確度均高于47%。
圖6 多屬性缺失值填補準確度
從算法機理上分析,缺失屬性的增多使得步驟(1)中OCS-FCM算法需要估計的屬性數(shù)據(jù)增加,輔助屬性減少,造成聚類結果準確性降低,當數(shù)據(jù)集中各屬性都存在缺失且缺失數(shù)據(jù)大時,聚類結果更加偏離真實情況。缺失屬性的增加使得缺失值在數(shù)據(jù)集分布更廣泛,聚類結果中完整數(shù)據(jù)組減少,即支持向量回歸訓練數(shù)據(jù)減少導致學習能力下降,對缺失數(shù)據(jù)估計準確性降低。綜合來看,缺失屬性多且卻缺失率高時SVR-OCSFCM算法填補效果變差,但缺失屬性多缺失率較低時仍然可以較好的填補缺失值。
在實際應用中多屬性缺失值填補方法具有很大的優(yōu)勢,面對龐大的含缺失數(shù)據(jù)的數(shù)據(jù)庫多屬性同步填補方法能夠節(jié)省用戶大量的人力、物力以及時間,能夠明顯提高數(shù)據(jù)預處理速度。
本文闡述了數(shù)據(jù)缺失值相關的理論,包括缺失數(shù)據(jù)產(chǎn)生的原因及缺失數(shù)據(jù)處理的必要性,介紹了模糊聚類優(yōu)化補全策略,為提高缺失值填補效率,根據(jù)電站數(shù)據(jù)的缺失值分布特點,提出了支持向量回歸與遺傳算法優(yōu)化的模糊聚類填補算法。模糊聚類算法用來區(qū)分缺失數(shù)據(jù)之間的差異并依據(jù)它們的特性對這些數(shù)據(jù)進行分類,應用OCS-FCM算法對缺失數(shù)據(jù)進行估計并進行模糊聚類,在每個類別中分別以未缺失數(shù)據(jù)為訓練集對支持向量回歸算法進行訓練,訓練后的支持向量回歸分別對各類中的缺失數(shù)據(jù)進行估計,最終得到最優(yōu)的缺失數(shù)據(jù)估計值。
對某600MW燃煤機組運行數(shù)據(jù)用SVR、OCS-FCM與SVR-OCSFCM三種方法分別進行單屬性與多屬性缺失值填補實驗,結果表明同屬性缺失時,算法性能隨缺失率增加而降低,同缺失率時填補性能隨缺失屬性的增加而降低;相對于其他兩種算法,SVR-OCSFCM算法有更好的填補效果,驗證了該算法的填補準確性和有效性。
[1] 王禹朋,閻維平,祝云飛,等.支持向量機理論與遺傳算法相結合的300MW機組鍋爐多目標燃燒優(yōu)化[J].熱力發(fā)電,2015,44(10):91-96.
[2] 余廷芳,李鵬輝.基于神經(jīng)網(wǎng)絡的NO_x燃煤鍋爐排放預測及優(yōu)化[J].熱力發(fā)電,2015,44(4):112-115.
[3] 郝勝宣,宋宏,周曉峰.一種基于雙聚類的缺失數(shù)據(jù)填補方法[J].計算機應用研究,2015,32(3):674-678.
[4] 武森,馮小東,單志廣.基于不完備數(shù)據(jù)聚類的缺失數(shù)據(jù)填補方法[J].計算機學報,2012,35(8):1726-1738.
[5] 韋鋼,王飛,張永健,等.負荷預測中歷史數(shù)據(jù)缺損處理[J].電力科學與工程,2004,20(1):16-19.
[6] 任志偉,黃景濤,羅威,等.電站鍋爐缺失數(shù)據(jù)的遺傳自適應填補方法[J].蘭州理工大學學報,2013,39(2):75-79.
[7] 于剛,徐治皋.電站故障診斷系統(tǒng)中信號缺失處理的粗糙集方法[J].華東電力,2004,32(6):1-4.
[8] 張清宇,嚴建華,倪明江,等.實時燃燒診斷系統(tǒng)中缺失數(shù)據(jù)的處理[J].動力工程學報,2004,24(2):222-226.
[9] HATHAWAY R J,BEZDEK J C.Fuzzy c-means clustering of incomplete data[J].IEEE Transactions on Systems Man & Cybernetics Part B Cyberneties.2001,31(5):735-744.
[10] BEZDEK J C.Pattern recognition with fuzzy objective function algorithms [M].Plenum Press,1981.
[11] NIU D,LIU D,WU D D.A soft computing system for day-ahead electricity price forecasting[J].Applied Soft Computing.2010,10(3):868-875.
[12] HAN J,KAMBER M,PEI J.Data mining:concepts and techniques[M].Elsevier,2011:23-26.
[13] 卜范玉,陳志奎,張清辰.基于聚類和自動編碼機的缺失數(shù)據(jù)填充算法[J].計算機工程與應用,2015,51(18):13-17.
Research on the Strategy of Missing Data Impuataion in Power Plant
LI Jianqiang,ZHAO Kai,PAN Wenkai,CHEN Xingxu,LI Shibo
(School of Energy Power and Mechanical Engineering,North China Electric Power University,Baoding 071003,China)
An improved fuzzy clustering algorithm for the missing data imputation was presented for the problem of data missing in database of the power plant,which is the fuzzy clustering fill algorithm that optimized by the support vector regression and genetic algorithm (SVR-OCSFCM).The missing data imputation of a single attribute and multiple attributes for a 600 MW coal-fired unit was tested by using the support vector regression (SVR),optimal completion strategy of fuzzy clustering algorithm and SVR-OCSFCM.The results show that the performance of the algorithm of the same deleted attribute degrades with the increase of the deletion rate,and the performance of the algorithm at the same deletion rate degrades with the increase of the deleted attribute.SVR-OCSFCM constrains the estimation value by the support vector regression and fuzzy clustering algorithm,which makes the system safer and more efficient.The performance of SVR-OCSFCM is better than that of SVR and OCS-FCM,which has a good filling effect on the imputation of multiple attribute missing data.
missing data; data imputation; power station; fuzzy clustering algorithm
10.3969/j.ISSN.1672-0792.2017.01.008
2016-09-05。
中央高?;究蒲袠I(yè)務費專項基金(916021007)。
TP274.2
1672-0792(2017)01-0043-06
李建強(1976-),男,副教授,博士,主要從事數(shù)據(jù)挖掘在電站優(yōu)化運行方面的研究工作。