廖建平,單 杰,李志軍,,陳昊旻,楚金偉,萬 福
(1.中國南方電網(wǎng)有限責任公司 超高壓輸電公司,廣東 廣州 510663;2.國電南京自動化股份有限公司,江蘇 南京 211153;3.重慶大學 輸配電裝備及系統(tǒng)安全與新技術(shù)國家重點實驗室,重慶 400030)
油中溶解氣體分析(dissolved gas analysis,DGA)是診斷油浸式高壓電力設(shè)備故障的重要手段[1]。在線色譜技術(shù)是實現(xiàn)油浸式變壓器實時監(jiān)測的關(guān)鍵技術(shù)。油浸式變壓器在線色譜峰定性是確定某色譜峰所對應的特征氣體,主要任務是從有干擾的色譜信號中提取特定組分氣體譜峰的信息,包括峰的起始點、峰的頂點、峰的結(jié)束點等。
目前,色譜峰定性分析方法很多,包括時間窗法[2]、導數(shù)法[3-4]、匹配模式法[5]、灰色關(guān)聯(lián)度分析法[6]以及反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡法[7]。文獻[5]利用模式匹配技術(shù)進行變壓器色譜峰定性,會出現(xiàn)不合理的負相關(guān)以及不同參數(shù)的選擇導致不同的結(jié)果。文獻[6]是對文獻[3-4]的改進,但是關(guān)聯(lián)度數(shù)值設(shè)定過于剛性化。文獻[7]采用的BP神經(jīng)網(wǎng)絡是對斜率門限閾值和窗口區(qū)間閾值的確定,存在色譜峰漂移難以辨識的問題。故時間窗法和導數(shù)法是目前的主流方法,但其根據(jù)保留時間設(shè)定每個成分的窗口區(qū)間從而進行成分定性[8],在實際應用中存在的缺點是辨識范圍較小,抗假峰能力差。色譜儀器長時間運行之后,色譜峰會出現(xiàn)不可避免地漂移,若漂移范圍超過窗口區(qū)間則出現(xiàn)無法識峰或識峰錯誤的故障。文獻[9]引入模糊數(shù)學來解決這一問題,但隸屬度函數(shù)一般根據(jù)經(jīng)驗選區(qū),具有很大的主觀性,容易導致誤判。
針對以上問題,本文將C4.5決策樹算法引入電力變壓器油色譜定性領(lǐng)域,對色譜峰的有效定性起到一定的作用。
決策樹是一種常見的機器學習方法。C4.5決策樹算法是數(shù)據(jù)分類算法中比較常用的經(jīng)典算法之一,得到的結(jié)果較為準確,理解性強,容易看懂[10]。該算法同時也是一種監(jiān)督學習,首先給定多個樣本,每個樣本都有一組特征屬性和一個類別,這些類別是事先確定的,通過監(jiān)督學習得到一個分類器(決策樹模型)。這個分類器能夠?qū)π鲁霈F(xiàn)的對象根據(jù)其特征屬性給出正確的分類[11]。
本文色譜數(shù)據(jù)來源于國電南京自動化股份有限公司NS801B變壓器油中溶解氣體在線監(jiān)測裝置,該裝置基于氣相色譜檢測技術(shù),能按預設(shè)的周期實時監(jiān)測變壓器油中溶解的H2、CO、CO2、CH4、C2H2、C2H4和C2H6等特征氣體濃度和增長率,通過故障診斷專家系統(tǒng)分析潛伏性故障及故障類型,便于實時了解變壓器運行狀態(tài)。裝置內(nèi)采用的色譜分離模塊可采集上述7種氣體,色譜曲線圖如圖1所示。
圖1 色譜曲線圖
NS801B裝置利用導數(shù)的辨識峰算法獲得的峰位置達上百個,只知道峰位置,不知道這個峰到底是哪個組分。該裝置采用的方法是根據(jù)保留時間設(shè)定窗口區(qū)間來定性組分,即對于每個成分,根據(jù)該成分的標準保留時間預先設(shè)定其窗口變動區(qū)間閾值,只要實際色譜分析所得的保留時間在標準保留時間的窗口變動區(qū)間內(nèi),便定性該組分峰。然而色譜分析流程是多因素耦合的復雜非線性系統(tǒng),由于變壓器油色譜在線監(jiān)測裝置在長期運行過程中,色譜峰受載氣流量、色譜柱老化、環(huán)境溫度、氣敏檢測器、油氣分離等多因素影響,導致色譜圖會出現(xiàn)非規(guī)則、不確定性變化,如峰位的前后移動、峰形的擴展收縮。顯然,如果此時仍然采用固定閾值對色譜圖分析處理就會產(chǎn)生較大的誤差,易出現(xiàn)對氣體色譜峰的誤判和漏判現(xiàn)象,影響檢測的正確性和準確性。
圖2 采用C4.5決策樹算法對組分峰進行定性的研究流程
本文采用C4.5決策樹算法對組分峰進行定性,在決策樹對根結(jié)點選取時,采用二分法對連續(xù)屬性進行離散化處理,從而得到特征屬性的自適應閾值;接著利用特征屬性作為結(jié)點進行決策樹分類,得到7個組分峰;再按照預定順序?qū)?個組分峰進行定性,從而避免利用保留時間設(shè)定的窗口區(qū)間所帶來的識峰錯誤。采用C4.5決策樹算法對組分峰進行定性的研究流程如圖2所示。
為了充分說明本文算法,收集了NS801B裝置監(jiān)測的不同油中溶解氣體濃度的7組數(shù)據(jù),其數(shù)據(jù)編號分別為20190605152550、20190605162730、20190605172741、20190605182731、20190605187462、20190605111772和20190605162435。NS801B變壓器油中溶解氣體在線監(jiān)測裝置辨識的每一組數(shù)據(jù)中的峰個數(shù)分別為363、183、172、221、145、179和156。本文將第1組數(shù)據(jù)作為訓練樣本集D,共計363個;將剩余組數(shù)據(jù)作為測試樣本集,分別為Q1、Q2、Q3、Q4、Q5和Q6。
NS801B變壓器油中溶解氣體在線監(jiān)測裝置可以測得的峰屬性包括:起始點、中間點、結(jié)束點、峰高、峰寬、峰面積、高寬比(峰高/峰寬)、峰間距和峰類型等。本文將其屬性分為兩類:第一類為決策特征屬性(用于決策樹算法的數(shù)據(jù)分類);第二類為無效屬性,即非第一類屬性。定義決策樹算法峰定性的特征屬性集為:
U={峰高,峰寬,峰面積,峰中點位置}。
經(jīng)過數(shù)據(jù)準備及數(shù)據(jù)選取之后,本文得到了訓練樣本集D,測試樣本集Q1~Q6以及特征屬性集U。充分利用特征屬性集,選擇最優(yōu)的特征屬性進行組合,建立分類規(guī)則,分類出有效峰。
2.2.1 特征屬性閾值的自適應
傳統(tǒng)方法根據(jù)經(jīng)驗固定閾值大小,而本文算法特征屬性集U中的4個特征屬性(峰高、峰寬、峰面積和峰中點位置)都是連續(xù)值,將數(shù)據(jù)進行預處理(即離散化),從而自適應閾值。本文利用二分法對連續(xù)屬性進行處理[12],得到自適應閾值。
定義h、w、s和p分別為訓練樣本集D中特征屬性峰高、峰寬、峰面積和峰中點位置的連續(xù)屬性。h、w、s和p在訓練樣本集D上出現(xiàn)了V個可能的取值(V≤363),將這些取值從小到大進行排序,分別記為:
峰高:{h1,h2,h3,…,hV};
峰寬:{w1,w2,w3,…,wV};
峰面積:{s1,s2,s3,…,sV};
峰中點位置:{p1,p2,p3,…,pV},
各個V值根據(jù)數(shù)據(jù)真實情況各不相同。
以峰高h為例,基于劃分點t可將訓練樣本集分為Dt+和Dt-,其中,Dt-包含峰高不大于t的樣本,Dt+包含峰高大于t的樣本。顯然,對相鄰的屬性取值hi與hi+1來說,t在區(qū)間[hi,hi+1)中任意取值所產(chǎn)生的劃分結(jié)果相同。因此,對連續(xù)屬性峰高h,本文考察包含(V-1)個元素的候選分點集合
(1)
2.2.2 基于信息增益比率的C4.5決策樹結(jié)點特征屬性選擇
C4.5決策樹算法采用自頂向下的貪婪搜索歷遍可能的決策樹空間[13]。該算法的構(gòu)造過程從“特征屬性集U中哪一個特征將在樹的根結(jié)點被測試”的問題開始,分類能力最好的特征屬性將被選作樹的根結(jié)點,然后為該根結(jié)點特征的每個可能值產(chǎn)生一個分支,并將訓練樣本集D排列到適當?shù)姆种е?即樣本的特征屬性值對應的分支);重復整個過程,用每個分支結(jié)點關(guān)聯(lián)的訓練樣本來選取在該結(jié)點被測試的最佳特征[14]。特征參數(shù)集U中共4個特征參數(shù)(h,w,s,p),利用C4.5決策樹算法的增益率來選擇最佳的劃分特征屬性,以峰高h為例,具體步驟如下。
步驟1計算信息熵。信息熵是度量樣本集純度最常用的一種指標。當前訓練樣本集D中有效峰所占的比例為Pk(k=1,2),則D的信息熵定義[12]如下:
(2)
其中:Ent(D)的值越小,D的純度越高;訓練樣本集D中包含有效峰和無效峰。
步驟2根據(jù)2.2.1小節(jié)進行數(shù)據(jù)離散化處理之后,計算出用特征屬性峰高h對訓練樣本集D進行劃分所獲得的信息增益[12]:
(3)
步驟3C4.5決策樹算法是從候選劃分屬性中找出信息增益高于平均水平的屬性,再從中選擇增益率最高的。增益率定義[12]如下:
(4)
其中:
(5)
IV(h)稱為特征屬性h的固有值。一般來說屬性h的可能取值越多(即V越大),則IV(h)的值通常會越大[15]。
步驟4比較Gain_ratio(D,h),Gain_ratio(D,w),Gain_ratio(D,s),Gain_ratio(D,p)的大小,選擇最大的值作為最佳劃分點,即根結(jié)點。接著在每個分支結(jié)點循環(huán)以上過程。
結(jié)束條件:數(shù)據(jù)分類結(jié)束或者所有True決策點樣本總數(shù)和為7。
2.2.3 決策樹形成
訓練編號為20190605152550的第1組數(shù)據(jù),對特征屬性“峰高”,在決策樹學習開始時,根結(jié)點包含19個訓練樣本(363個數(shù)據(jù)值中除去重復峰寬值所得到的真實樣本)。故由式(2)得Ent(D)=0.949 452。根據(jù)式(1),該屬性的候選劃分點集合包含15個候選值:T峰高={0,0.002 342,0.008 358,0.019 199,0.033 967,0.918 968,1.968 109,4.132 203,6.571 499,10.679 400,15.141 897,18.746 905,22.110 970,22.893 356,31.650 967}。由式(3)可計算出特征屬性“峰高”的信息增益較高的劃分點為0.918 968,對應信息增益為0.485。最后,由式(4)得該劃分點的增益率為Gain_ratio(D,h)=0.486。
同理,得到其余特征屬性劃分點和增益率為:
峰寬:92.509,Gain_ratio(D,w)=0.588;
峰面積:80.318,Gain_ratio(D,s)=0.484;
峰中點位置:4 022.5,Gain_ratio(D,p)=0.511。
圖3 峰定性的C4.5決策樹
于是,“峰寬”被選為根結(jié)點劃分屬性,接著結(jié)點劃分過程遞歸進行,然后對決策樹修剪(修剪過程中發(fā)現(xiàn)本文所示的決策樹已經(jīng)不能再做任何修剪,修剪掉任何規(guī)則都會使分類精度降低,修剪方法見文獻[10]),最終生成如圖3所示的峰定性的C4.5決策樹。
表1 基于C4.5決策樹算法的分類精度結(jié)果
由表1可知:測試結(jié)果的平均準確率已經(jīng)達到95.23%,但是仍未達到準確無誤進行峰識別的預期。分析其原因,關(guān)鍵在于決策樹中對于特征屬性峰面積閾值的自適應設(shè)定。訓練樣本集D與測試樣本集Q進行比較,發(fā)現(xiàn)訓練樣本集D所測氣體濃度較高,導致峰面積較大,故在決策樹算法中得到的自適應閾值較大(s=425.32)。這就導致測試樣本集Q1和Q3在大閾值時的錯誤分類。為了解決這一問題,可以將峰面積的閾值人工修改為s=10,則測試樣本Q1和Q3的準確率從85.7%提升為100%;或者進一步擴大訓練樣本集的容量,找到更為合適的自適應閾值,準確率也會提高。
圖4 變壓器油中溶解氣體在線監(jiān)測裝置現(xiàn)場圖
隨后,將該算法應用于國電南京自動化股份有限公司NS801B變壓器油中溶解氣體在線監(jiān)測裝置中,該裝置現(xiàn)場圖如圖4所示。對現(xiàn)場運行超過5年的20臺裝置的數(shù)據(jù)進行算法驗證,其中一臺裝置編號為NS801B-20140623032的部分驗證結(jié)果如表2所示。訓練樣本集為2014年的現(xiàn)場運行數(shù)據(jù)(訓練樣本D=36),驗證樣本集為2015年6月至2018年6月的數(shù)據(jù)(每2個月采集1次)。
由表2可知:在不人為調(diào)整峰位置、峰寬等參數(shù)的前提下,當訓練樣本集D≥30時就能避免自適應閾值不準確的問題(即上述s過大問題),此時該算法準確率在98.4%以上。同時,在數(shù)據(jù)整理過程中發(fā)現(xiàn),該算法應用在20臺裝置上時,2015年的準確率明顯高于2018年。可能是當裝置運行時間過長時,由于各種原因峰位會向后漂移,造成算法的準確率下降。為進一步提高準確率,NS801B變壓器油中溶解氣體在線監(jiān)測裝置應用策略為每運行一個月,自動將前一個月的數(shù)據(jù)作為訓練樣本,使閾值重新自適應一次,葉子結(jié)點將重新生成,得到一棵新的決策樹。此時該算法的準確率將接近100%。
表2 裝置編號為NS801B-20140623032的部分驗證結(jié)果
本文將C4.5決策樹算法引入了變壓器色譜峰定性領(lǐng)域,論述了基于C4.5決策樹算法的峰定性原理,對該算法進行了研究、設(shè)計和測試分析。該算法通過多個特征屬性的自適應閾值來進行決策,原理簡單,有效峰定性準確,可有效避免因峰位的前后移動、峰形的擴展收縮導致的對氣體色譜峰的誤判和漏判等現(xiàn)象。