杜 靜,蔡震震,蔣 鵬,金煒東
(西南交通大學(xué) 電氣工程學(xué)院,四川 成都 610031)
一種新的特征評(píng)價(jià)方法及在高鐵故障中的應(yīng)用*
杜靜,蔡震震,蔣鵬,金煒東
(西南交通大學(xué) 電氣工程學(xué)院,四川 成都 610031)
提出一種基于Murphy改進(jìn)的D-S算法作為融合規(guī)則的多準(zhǔn)則特征評(píng)價(jià)方法(MCFE-DSEC)。該方法融合不同的單一評(píng)價(jià)準(zhǔn)則,對(duì)特征作出綜合評(píng)價(jià),去掉冗余特征,以提高分類準(zhǔn)確率。將該方法應(yīng)用于高速列車故障數(shù)據(jù)中,實(shí)驗(yàn)結(jié)果表明,與 Borda-Count方法和單一評(píng)價(jià)準(zhǔn)則相比,MCFE-DSEC方法對(duì)各個(gè)速度下的特征都能作出有效的評(píng)價(jià),適用性強(qiáng)且準(zhǔn)確率高。
特征評(píng)價(jià);多準(zhǔn)則融合;D-S證據(jù)理論;證據(jù)沖突理論;故障分類
特征選擇是指從原始特征集中刪除冗余的、無(wú)關(guān)的的特征,選取含有最多識(shí)別信息的特征子集[1-3]。目前特征評(píng)價(jià)準(zhǔn)則面臨兩大問(wèn)題:一是定義新的單一特征評(píng)價(jià)準(zhǔn)則;另一個(gè)是如何融合不同單一特征評(píng)價(jià)準(zhǔn)則解決特征之間的冗余和沖突。
為解決第一個(gè)問(wèn)題,許多學(xué)者提出一系列單一特征評(píng)價(jià)準(zhǔn)則,如Mahalanobis Distance、Fuzzy Entropy等。特征選擇方法主要分為兩種方式:Filter model和Wrapper model[4]。單一特征評(píng)價(jià)準(zhǔn)則存在許多不足之處,如單一特征評(píng)價(jià)準(zhǔn)則不能全面反映特征的特性,普適性較差。
為解決第二個(gè)問(wèn)題,YAN W提出了一種新的多準(zhǔn)則特征排序方法(MCFR)[5]。為綜合運(yùn)用單一評(píng)價(jià)準(zhǔn)則,YAN W等提出了融合方法:基于 Borda count方法的特征排序融合方法。YANG F提出一種基于多準(zhǔn)則特征排序的遞歸特性消除算法(MCF-RFE)[6]。
多準(zhǔn)則特征評(píng)估方法的核心問(wèn)題是融合規(guī)則問(wèn)題。D-S證據(jù)理論不僅能很好地把握問(wèn)題的未知性和不確定性,而且提供了一個(gè)非常有用的合成公式,使得融合多個(gè)證據(jù)源提供的信息成為可能[7-8]。Murphy提出首先將待融合n條證據(jù)進(jìn)行算數(shù)平均,然后對(duì)平均后的證據(jù)利用D-S規(guī)則組合n-1次,該方法可以得到好的收斂效果[9]。因此,為了提高多準(zhǔn)則特征評(píng)價(jià)的有效性,基于Murphy改進(jìn)的 D-S理論和證據(jù)沖突理論,本文提出一種新的多準(zhǔn)則特征評(píng)估方法(MCFE-DSEC)。
實(shí)驗(yàn)部分將 MCFE-DSEC與4種單一評(píng)價(jià)準(zhǔn)則(Fisher′s ratio、Fuzzy Entropy、Representation Entropy(RE)、MD)及多準(zhǔn)則特征評(píng)估方法(Borda Count)的分類準(zhǔn)確率進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,MCFE-DSEC方法得出的分類準(zhǔn)確率優(yōu)于上述方法,同時(shí)也說(shuō)明采用D-S理論作為融合規(guī)則能夠有效地降低融合過(guò)程中的沖突,得到更可靠的排序結(jié)果。
目前,研究者們已提出許多特征評(píng)價(jià)準(zhǔn)則。顯然,沒(méi)有必要把所有的單一特征評(píng)價(jià)準(zhǔn)則融合,而且這種做法也是不切實(shí)際的[10]。本文采用Mahalanobis Distance(MD)、Fisher′s ratio、Fuzzy Entropy和 Representation Entropy(RE) 4種方法。Fuzzy Entropy和 Representation Entropy是基于信息論的過(guò)濾式特征評(píng)價(jià)方法,Mahalanobis Distance (MD)和Fisher′s ratio屬于包裹式特征評(píng)價(jià)方法。下面將簡(jiǎn)要介紹這4種方法。
1.1Representation Entropy(RE)
設(shè)φj(j=1,…,d)表示d維特征集合的協(xié)方差矩陣的特征值,將特征值標(biāo)準(zhǔn)化:
1.2Fisher′sratio
Fisher′s ratio[12]對(duì)每一個(gè)特征計(jì)算其類間均值的方差與類內(nèi)平均方差的比值,根據(jù)比值的大小判斷特征j對(duì)分類作用的大小。
1.3Fuzzy Entropy
模糊熵的定義很多,De Luca和Termini考慮到模糊集合的概念在克勞德·艾爾伍德·香農(nóng)(Claud Elwood Shannon)概率熵的基礎(chǔ)上提出模糊熵的公式如下[13]:
其中μA(xj)(0≤μA(xj)≤1)表示模糊數(shù)。
1.4Mahalanobis Distance,MD
設(shè)μi和μj分別表示第i類和第j類內(nèi)所有樣本的均值向量(行向量),Σ表示特征集合的協(xié)方差矩陣。Mahalanobis Distance計(jì)算方法如下[5]:
對(duì)于含兩類以上的數(shù)據(jù)集,MD可表示為:
MD越大表示該特征集合含有的信息越多。
2.1D-S證據(jù)理論
首先定義一個(gè)空間θ,稱為辨識(shí)框架,由一些互斥且窮舉的元素組成。對(duì)于問(wèn)題域中任何命題A,都應(yīng)包含于2θ。定義映射m:2X→[0,1],為基本概率賦值函數(shù),則相應(yīng)的 D-S融合規(guī)則為[14-15]:
D-S證據(jù)理論雖然有很多優(yōu)點(diǎn),但在組合高沖突的證據(jù)時(shí)會(huì)出現(xiàn)違背常理的組合結(jié)果。針對(duì)這一問(wèn)題,國(guó)內(nèi)外研究人員提出眾多改進(jìn)方法。Murphy提出一種對(duì)證據(jù)源求算術(shù)平均的改進(jìn)算法,該方法簡(jiǎn)單有效,因此本文將該方法作為融合規(guī)則。
2.2基于D-S理論的多準(zhǔn)則特征評(píng)估方法
MCFE-DSEC的原理如圖1所示,給定一個(gè)特征集,首先根據(jù)每一個(gè)單一評(píng)價(jià)準(zhǔn)則得到相應(yīng)的得分向量,每個(gè)特征的得分大小代表該特征的重要程度;然后,對(duì)每個(gè)得分向量歸一化作為分?jǐn)?shù)證據(jù)向量;根據(jù)融合規(guī)則將分?jǐn)?shù)證據(jù)向量融合得到綜合得分向量;最后,對(duì)綜合得分向量排序得到特征的綜合排序。
圖1 基于D-S理論的多準(zhǔn)則融合
下面將詳細(xì)介紹MCFE-DSEC方法的融合規(guī)則。設(shè)識(shí)別框架 Θ={F1,F(xiàn)2,…,F(xiàn)M}包含 M 個(gè)互不相容的元素,F(xiàn)i表示第i個(gè)特征。假設(shè)有N個(gè)單一特征評(píng)價(jià)準(zhǔn)則,si表示由第 i(1≤i≤N)個(gè)準(zhǔn)則得到的得分向量,對(duì)si歸一化:
其中 simin表示向量 si中的最小值,∑ei=1。歸一化后就得到基本概率分配函數(shù)e1,e2,e3…eN。應(yīng)用Murphy改進(jìn)方法融合:
(2)將 eave(Fj)融合 n-1次即 e=eave⊕eave⊕…⊕eave:
由融合準(zhǔn)則得到統(tǒng)一的得分向量[e(F1),e(F1),…,e(FM)]。得分向量中的元素降序排列,得到特征的綜合排序。
為了驗(yàn)證本文算法的有效性和優(yōu)越性,對(duì)高速列車的實(shí)測(cè)故障數(shù)據(jù)進(jìn)行,本文分別采用多準(zhǔn)則MCFE-DSEC、Borda Count和3種單一評(píng)價(jià)準(zhǔn)則(Fuzzy Entropy、Fisher′s ratio、RE)對(duì)特征進(jìn)行評(píng)價(jià),每次去掉一個(gè)冗余特征,并用剩余的特征子集進(jìn)行分類,就可得到各個(gè)特征空間的分類準(zhǔn)確率,并將上述5種方法各個(gè)特征空間的分類準(zhǔn)確率對(duì)比。
3.1實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證MCFE-DSEC方法在高鐵故障診斷中的有效性,應(yīng)用MCFE-DSEC方法對(duì)某型高速列車實(shí)測(cè)數(shù)據(jù)進(jìn)行了仿真驗(yàn)證。對(duì)高速列車4種工況(正常、橫向減振器失效、抗蛇行減振器失效、空簧失氣)的數(shù)據(jù)分別提取小波系數(shù)均值、方差以及快速傅里葉變換的均值、方差得到8維特征,每種工況有20組樣本,共80組樣本。從4種工況中分別選取一組樣本作為訓(xùn)練樣本,剩下的76組數(shù)據(jù)作為測(cè)試樣本。
3.2實(shí)驗(yàn)結(jié)果分析
圖2~圖6表示不同速度下6種特征評(píng)價(jià)方法在各個(gè)特征空間內(nèi)的準(zhǔn)確率對(duì)比,表1為不同速度下6種特征評(píng)價(jià)方法在各個(gè)特征空間內(nèi)的準(zhǔn)確率的平均值以及原特征空間的分類準(zhǔn)確率。由圖2~圖6和表1可得:與其他方法相比,MCFE-DSEC方法對(duì)5種速度下各個(gè)空間都有較高的分類準(zhǔn)確率,在去除冗余特征的過(guò)程中分類準(zhǔn)確率呈現(xiàn)先增長(zhǎng)后下降的趨勢(shì),不僅如此,各個(gè)特征空間的分類準(zhǔn)確率平均值也是6種方法中最高的。而其他方法只能對(duì)某一速度下的特征作出有效的評(píng)價(jià),但是對(duì)其他速度下的特征不適用。如Borda Count方法,只對(duì)速度 140 km/h、220 km/h有較好的評(píng)價(jià)結(jié)果,但對(duì)其他速度不適用;Fisher′s ratio方法只對(duì)速度 200 km/h、220 km/h有較好的評(píng)價(jià),但準(zhǔn)確率低于 MCFE-DSEC方法,而對(duì)其他速度的評(píng)價(jià)結(jié)果很差。MCFE-DSEC方法在140 km/h速度下與原特征空間相比分類準(zhǔn)確率提高了22.04%,在 160 km/h速度下與原特征空間相比分類準(zhǔn)確率提高了8.63%。以上說(shuō)明MCFE-DSEC方法能夠更好的對(duì)特征作出評(píng)價(jià),且具有普適性。
圖2 分類準(zhǔn)確率(速度120 km/h)
圖3 分類準(zhǔn)確率(速度140 km/h)
圖4 分類準(zhǔn)確率(速度160 km/h)
圖4 分類準(zhǔn)確率(速度 200 km/h)
圖6 分類準(zhǔn)確率(速度220 km/h)
表1 各個(gè)速度下特征空間平均分類準(zhǔn)確率
基于多準(zhǔn)則特征評(píng)估方法和改進(jìn)的D-S證據(jù)理論各自的優(yōu)點(diǎn),本文提出一種新的特征選擇方法MCFEDSEC。實(shí)驗(yàn)部分以高速列車故障數(shù)據(jù)為研究對(duì)象進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果證明了該方法可以有效地對(duì)各個(gè)特征做出評(píng)價(jià),剔除冗余特征,降低分類器的復(fù)雜度,有效地提高高速列車多種故障分類的準(zhǔn)確度。
[1]SUN X,LIU Y,XU M,et al.Feature selection using dynamic weights for classification[J].Knowledge-Based Systems,2013 (37):541-549.
[2]SONG Q,NI J,WANG G.A fast clustering-based feature subset selection algorithm for high-dimensional data[J].Knowledge and Data Engineering,IEEE Transactions on,2013,25(1):1-14.
[3]YU L,LIU H.Efficient feature selection via analysis of relevance and redundancy[J].The Journal of Machine Learning Research,2004(5):1205-1224.
[4]AHMAD F K,NORWAWI N M,DERIS S,et al.A review of feature selection techniques via gene expression profiles[C].Information Technology,2008.ITSim 2008.International Symposium on.IEEE,2008,2:1-7.
[5]YAN W.Fusion in multi-criterion feature ranking[C].Information Fusion,2007 10th International Conference on.IEEE,2007:1-6.
[6]YANG F,MAO K Z.Robust feature selection for microarray data based on multicriterion fusion[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB),2011,8(4):1080-1092.
[7]孫全,葉秀清,顧偉康.一種新的基于證據(jù)理論的合成公式[J].電子學(xué)報(bào),2000,28(8):117-119.
[8]李弼程,錢(qián)曾波.一種有效的證據(jù)理論合成公式[J].數(shù)據(jù)采集與處理,2002,17(1):33-36.
[9]MURPHY C K.Combining belief functions when evidence conflicts[J].Decision support systems,2000,29(1):1-9.
[10]ZHU J,F(xiàn)EI Z.Feature selection for high-dimensional and small-sized data based on multi-criterion fusion[J].Journal of Convergence Information Technology,2012,7(19):203.
[11]MITRA P,MURTHY C A,PAL S K.Unsupervised feature selection using feature similarity[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(3):301-312.
[12]ZABIDI A,MANSOR W,KHUAN L Y,et al.The effect of F-ratio in the classification of asphyxiated infant cries using multilayer perceptron Neural Network[C].Biomedical Engineering and Sciences(IECBES),2010 IEEE EMBS Conference on.IEEE,2010:126-129.
[13]LUUKKA P.Feature selection using fuzzy entropy measures with similarity classifier[J].Expert Systems with Applications,2011,38(4):4600-4607.
[14]DEMPSTER A P.Upper and lower probabilities induced by a multivalued mapping[J].The Annals of Mathematical Statistics,1967(2):325-339.
[15]SHAFER G.A mathematical theory of evidence[M].Princeton:Princeton university press,1976.
A new feature evaluation algorithm and its application in fault of high-speed railway
Du Jing,Cai Zhenzhen,Jiang Peng,Jin Weidong
(School of Electrical Engineering,Southwest Jiaotong University,Chengdu 610031,China)
A multi-criterion feature evaluation algorithm(MCFE-DSEC)is proposed,which takes the improved D-S theory by Murphy as the fusion rule.MCFE-DSEC aggregates a collection of different single criteria,making a comprehensive evaluation of features and removing redundant features to improve classification accuracy.The multi-criterion feature evaluation algorithm is applied to the high-speed train fault data.The obtained results show that compared with the Borda-Count method and single criteria, MCFE-DSEC method can evaluate the features at every speed more effectively and is more adaptable with higher accuracy.
feature evaluating;multi-criterion fusion;D-S evidence theory;evidence conflict theory;fault classification
U279;TP391
A
10.16157/j.issn.0258-7998.2015.09.042
國(guó)家自然科學(xué)重點(diǎn)基金項(xiàng)目(61134002)
2015-05-13)
杜靜(1992-),女,碩士,主要研究方向:高速列車服役狀態(tài)、智能信息處理、模式識(shí)別等。
蔡震震(1990-),女,碩士,主要研究方向:智能信息處理等。
蔣鵬(1976-),男,博士,講師,主要研究方向:計(jì)算機(jī)視覺(jué)、數(shù)據(jù)融合等。
中文引用格式:杜靜,蔡震震,蔣鵬,等.一種新的特征評(píng)價(jià)方法及在高鐵故障中的應(yīng)用[J].電子技術(shù)應(yīng)用,2015,41 (9):153-156.
英文引用格式:Du Jing,Cai Zhenzhen,Jiang Peng,et al.A new feature evaluation algorithm and its application in fault of highspeed railway[J].Application of Electronic Technique,2015,41(9):153-156.