鐘志旺, 唐 濤, 王 峰
(1. 北京交通大學(xué) 電子信息工程學(xué)院, 北京 100044; 2. 北京交通大學(xué) 軌道交通控制與安全國(guó)家重點(diǎn)實(shí)驗(yàn)室, 北京 100044)
鐵路道岔是鐵路系統(tǒng)重要的線路連接設(shè)備,包括道岔和道岔轉(zhuǎn)換設(shè)備。道岔轉(zhuǎn)換裝置,一是根據(jù)行車需要,按照聯(lián)鎖技術(shù)條件將分叉線路開通在需要的位置,保證正確的行車路徑;二是道岔轉(zhuǎn)換到位后期,通過(guò)缺口檢查,判斷道岔尖軌與基本軌之間是否達(dá)到規(guī)定的密切程度,以保證列車通過(guò)道岔時(shí)的行車安全。道岔轉(zhuǎn)換設(shè)備在室外,受風(fēng)沙、雨雪、酷暑和嚴(yán)寒等自然條件和列車震動(dòng)、沖擊,鋼軌爬行、橫移等外界因素影響較大,而且使用數(shù)量多,在信號(hào)設(shè)備中,一直是故障率較高的設(shè)備。通過(guò)統(tǒng)計(jì)某鐵路局近4年來(lái)的信號(hào)設(shè)備故障發(fā)現(xiàn),道岔轉(zhuǎn)換設(shè)備故障占所有信號(hào)設(shè)備故障總數(shù)的40%以上。
道岔維護(hù)是鐵路基層電務(wù)段設(shè)備維護(hù)的主要工作之一,在設(shè)備維護(hù)過(guò)程中,積累了大量的歷史數(shù)據(jù),存儲(chǔ)的格式多樣,但電子數(shù)據(jù)基本上都是以文本方式記錄或者可以當(dāng)成文本處理。這些維護(hù)數(shù)據(jù)對(duì)道岔故障分析和設(shè)備維護(hù)決策有重要參考價(jià)值。
目前,國(guó)內(nèi)外學(xué)者在道岔故障診斷方面進(jìn)行了研究。文獻(xiàn)[1-5]對(duì)道岔關(guān)鍵參數(shù)監(jiān)測(cè)進(jìn)行了研究,描述了監(jiān)測(cè)和方法系統(tǒng)的原理及結(jié)構(gòu)。但是,目前對(duì)基于故障維護(hù)文檔的故障診斷研究相對(duì)較少,而故障記錄數(shù)據(jù)對(duì)于道岔故障的研究至關(guān)重要。道岔的故障診斷主要由數(shù)據(jù)特征提取和診斷兩部分組成。
通過(guò)調(diào)研中國(guó)鐵路廣州局集團(tuán)有限公司(以下簡(jiǎn)稱廣州局)以及長(zhǎng)沙電務(wù)段、廣州電務(wù)段、懷化電務(wù)段等保存的歷史故障一覽表發(fā)現(xiàn),故障數(shù)據(jù)錄入缺乏規(guī)范性,且不同時(shí)間段錄入數(shù)據(jù)字段設(shè)置和語(yǔ)言描述差距較大,導(dǎo)致故障數(shù)據(jù)可利用價(jià)值降低;鐵路局和各站段的故障表中設(shè)備類別設(shè)置不完全一致,對(duì)故障數(shù)據(jù)的統(tǒng)計(jì)和處理帶來(lái)一定的難度。針對(duì)上述問(wèn)題,一些學(xué)者[6-10]提出基于本體的文檔標(biāo)準(zhǔn)化架構(gòu)來(lái)解決維護(hù)過(guò)程中出現(xiàn)的信息描述不一致問(wèn)題,促進(jìn)了對(duì)鐵路維護(hù)大數(shù)據(jù)的規(guī)范化管理,但仍然不能對(duì)大數(shù)據(jù)進(jìn)行有效的分析和處理。文獻(xiàn)[9]提出將文本挖掘的方法引入鐵路車載設(shè)備故障診斷,提供了新的處理思路,但是存在以下缺點(diǎn):一是完全考慮人工經(jīng)驗(yàn)選取故障詞項(xiàng)空間,導(dǎo)致處理效率低并且無(wú)法自動(dòng)遷移到其他鐵路設(shè)備;二是采用貝葉斯網(wǎng)絡(luò)的診斷方法需要基于有因果結(jié)構(gòu)(一級(jí)故障為二級(jí)故障的原因)的故障記錄數(shù)據(jù),存在較大的局限性,并且在數(shù)量較小的樣本上診斷表現(xiàn)效果不理想。
目前有關(guān)道岔設(shè)備的故障診斷,依然主要依賴于專家經(jīng)驗(yàn),導(dǎo)致維修時(shí)間無(wú)法保障,從而影響鐵路運(yùn)營(yíng)的效率和安全性。另一方面,由于道岔設(shè)備的工作環(huán)境復(fù)雜,負(fù)載繁重,使得道岔設(shè)備故障模式眾多,為道岔設(shè)備故障診斷帶來(lái)挑戰(zhàn)。
針對(duì)道岔設(shè)備故障記錄數(shù)據(jù)的描述復(fù)雜性和難處理性,以及克服文獻(xiàn)[9-10]等提出方法的局限性,本文提出基于分詞算法和主題模型相結(jié)合的方法來(lái)提取道岔設(shè)備故障描述的故障詞項(xiàng)特征和故障主題特征,獲得故障文檔在主題特征空間中的表達(dá)[11],從而降低特征維度和算法復(fù)雜度。針對(duì)小樣本故障模式診斷效果不理想的問(wèn)題,選取SVM作為故障分類方法,SVM已經(jīng)被公認(rèn)為是在小樣本數(shù)據(jù)上進(jìn)行學(xué)習(xí)的最有效模型之一,本文以廣州局現(xiàn)場(chǎng)數(shù)據(jù)為基礎(chǔ)進(jìn)行實(shí)驗(yàn)分析。
依據(jù)道岔轉(zhuǎn)化系統(tǒng)故障機(jī)理進(jìn)行分析,道岔的故障主要分為電氣故障和機(jī)械故障?,F(xiàn)場(chǎng)維護(hù)記錄表明,道岔故障中機(jī)械故障占比約為90%以上。
本文將廣州局提供的故障一覽表中的道岔故障分離出來(lái),針對(duì)道岔相關(guān)的故障進(jìn)行故障原因分析。表1給出的是故障一覽表中部分例子。
表1 道岔相關(guān)故障數(shù)據(jù)舉例
從表1可知,故障原因包含眾多故障現(xiàn)象描述信息,但由于現(xiàn)場(chǎng)維護(hù)人員語(yǔ)言習(xí)慣以及維護(hù)技能的不同,導(dǎo)致記錄方式口語(yǔ)化和記錄差異性,諸如此類的問(wèn)題增加了故障診斷算法的復(fù)雜性和診斷難度。
由于故障類別是故障診斷模型訓(xùn)練的數(shù)據(jù)基礎(chǔ),因此依據(jù)道岔結(jié)構(gòu)組成,結(jié)合故障數(shù)據(jù)信息,將道岔故障分類為12個(gè)故障類別,見(jiàn)表2。
表2 道岔故障類別
圖1為道岔轉(zhuǎn)換系統(tǒng)故障診斷的實(shí)現(xiàn)步驟,主要為故障詞項(xiàng)特征提取、故障主題特征提取(語(yǔ)義特征)和故障診斷3部分。其中,故障詞項(xiàng)特征提取主要采用中文分詞手段和“詞袋模型”方法對(duì)故障文檔進(jìn)行表達(dá);由于語(yǔ)義信息的丟失和維度較高,對(duì)故障診斷帶來(lái)較大挑戰(zhàn),因此,采用主題模型進(jìn)行語(yǔ)義特征提取和降維,將故障文檔表達(dá)在主題特征空間上;最后,采用支持向量機(jī)作為診斷器對(duì)道岔轉(zhuǎn)換系統(tǒng)進(jìn)行故障診斷。
圖1 道岔故障診斷框架
由于故障文本記錄主體(信號(hào)工)的差異性,導(dǎo)致故障現(xiàn)象描述的不一致性和復(fù)雜性,增加了診斷推理的復(fù)雜性。恰當(dāng)?shù)墓收咸卣髂軌蚪档偷啦砉收显\斷的復(fù)雜度,提高診斷效率。在自然語(yǔ)言處理領(lǐng)域,對(duì)于以文本形式的原始表達(dá)模型為詞項(xiàng)的向量空間模型VSM( Vector Space Model),向量的維度即詞項(xiàng)的數(shù)量。此模型的缺點(diǎn)是忽略了詞項(xiàng)的順序和詞項(xiàng)之間的關(guān)聯(lián)關(guān)系,只統(tǒng)計(jì)各詞項(xiàng)在文檔中出現(xiàn)的次數(shù)。因此,對(duì)于道岔設(shè)備故障診斷來(lái)說(shuō),其原始特征即為故障詞項(xiàng)特征。采用VSM模型表達(dá)道岔設(shè)備故障描述,忽略了故障詞項(xiàng)特征之間的關(guān)聯(lián)關(guān)系,因此,也就降低了后續(xù)故障診斷的效率。近些年,一種可以抽取文本庫(kù)中隱層主題的方法,主題模型(Topic Model),在諸多領(lǐng)域有著廣泛的應(yīng)用,如社交網(wǎng)絡(luò)、用戶評(píng)價(jià)、新聞分類、情感分析等。因此,為了克服上述問(wèn)題并提高特征提取的自動(dòng)程度以及在故障診斷上的適應(yīng)度,本文通過(guò)文本分詞(Segmentation)[12-13]和主題模型[14-15]對(duì)道岔設(shè)備的故障記錄進(jìn)行分割和主題提取,具體步驟見(jiàn)圖2。首先將故障文檔在“詞袋模型”框架下表達(dá)為詞項(xiàng)文檔矩陣,實(shí)現(xiàn)原始故障特征提取;然后,通過(guò)“主題模型”的架構(gòu),將故障文檔的“故障詞項(xiàng)特征空間”轉(zhuǎn)換到“語(yǔ)義特征空間”,進(jìn)一步實(shí)現(xiàn)故障主題特征提取。
對(duì)于原始故障詞項(xiàng)特征的生成,通過(guò)中文分詞技術(shù)對(duì)故障文檔進(jìn)行自動(dòng)處理而實(shí)現(xiàn)。近年來(lái),中文分詞技術(shù)已經(jīng)有了較大發(fā)展,出現(xiàn)了眾多的算法。主要包括以下4類:基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于語(yǔ)義的分詞方法[12-13]。中文分詞算法的核心思想是給定文檔記錄(輸入文字串)后,采用分詞算法對(duì)文檔進(jìn)行分割和過(guò)濾處理,進(jìn)而依據(jù)算法輸出最優(yōu)的分詞結(jié)果,即中文詞項(xiàng)、其他類別字符串或單詞。分詞算法模塊的流程結(jié)構(gòu)見(jiàn)圖3。
本文采用NLPIR漢語(yǔ)分詞算法(又名ICTCLAS)對(duì)故障進(jìn)行分詞處理。由于一般通用的分詞工具并不包含特定領(lǐng)域的專業(yè)詞匯。分詞工具對(duì)道岔的故障現(xiàn)象描述記錄進(jìn)行分詞,結(jié)果不理想。
在鐵路信號(hào)領(lǐng)域中的一些詞匯,如基本軌、滑床板、頂鐵等有其特定含義,并攜帶重要的故障類別信息,分詞過(guò)程中應(yīng)當(dāng)作為一個(gè)詞項(xiàng)處理。因此,我們通過(guò)在分詞過(guò)程中將領(lǐng)域?qū)<抑R(shí),即領(lǐng)域特定詞庫(kù),添加到分詞匹配詞庫(kù)中,可以獲得較為理想的效果。對(duì)于道岔轉(zhuǎn)換系統(tǒng)的特定詞匯見(jiàn)表3。
表3 道岔設(shè)備故障專業(yè)詞匯舉例
對(duì)故障文檔進(jìn)行中文分詞后,便可以得到道岔轉(zhuǎn)換設(shè)備故障詞典。在VSM模型的假設(shè)下,可以將故障文檔表達(dá)在詞項(xiàng)空間上。詞項(xiàng)文檔矩陣的生成見(jiàn)圖4。
由于“故障詞項(xiàng)特征空間”未考慮詞項(xiàng)順序和關(guān)聯(lián)性,無(wú)法表達(dá)文本語(yǔ)義,因此不能較好地解決同義詞和一詞多義問(wèn)題,增加了后續(xù)故障診斷的復(fù)雜性。近幾年,主題模型技術(shù)PLSA( Probability Latent Semantic Analysis) 得到較快發(fā)展[14-15],它通過(guò)詞項(xiàng)貢獻(xiàn),挖掘語(yǔ)義上的關(guān)聯(lián)性,能夠?qū)⑽臋n由詞項(xiàng)特征空間變換到主題特征空間上,從而解決上述問(wèn)題。因此,本文采用主題模型算法進(jìn)行故障語(yǔ)義特征提取。
2.2.1 PLSA算法
PLSA的核心思想[14-15]是將詞項(xiàng)之間復(fù)雜的關(guān)系(共現(xiàn)數(shù)據(jù)對(duì)——即文檔d∈D={d1,d2,…,dN}中出現(xiàn)故障詞項(xiàng)對(duì)wi,wj∈W={w1,w2,…,wM}的頻率)用中間隱藏變量z∈Z={z1,z2,…,zK}的形式表達(dá),也就是所謂的語(yǔ)義聯(lián)系模型, 該模型可以表示為故障詞項(xiàng)與故障文檔的聯(lián)合分布概率。
( 1 )
繼而對(duì)PLSA模型進(jìn)行參數(shù)估計(jì),采用極大似然估計(jì)來(lái)求取
( 2 )
式中:f(di,wj)為故障詞項(xiàng)wj在故障文檔di中出現(xiàn)的次數(shù)。
對(duì)于模型的擬合,在含有隱藏變量的模型中,極大似然估計(jì)的標(biāo)準(zhǔn)過(guò)程是期望極大(EM)算法,EM算法可以描述為以下兩個(gè)步驟的交替:
E-步, 利用當(dāng)前所估計(jì)的參數(shù)值對(duì)隱藏變量的后驗(yàn)概率進(jìn)行計(jì)算。
M-步, 基于上述后驗(yàn)概率, 對(duì)參數(shù)值進(jìn)行更新。
對(duì)于PLSA模型, 通過(guò)貝葉斯公式可以得到隱藏變量的后驗(yàn)概率為
( 3 )
對(duì)式( 2 )進(jìn)行極大化,對(duì)參數(shù)P(zk|di)及P(wj|zk)進(jìn)行重新估計(jì), 從而得到新的參數(shù)值為
( 4 )
通過(guò)對(duì)式( 3 )、式( 4 )的迭代,收斂后即可得到參數(shù)的估計(jì)值。
2.2.2 道岔設(shè)備故障主題特征提取
根據(jù)PLSA的原理和道岔相關(guān)故障的特點(diǎn),對(duì)道岔故障文本數(shù)據(jù)進(jìn)行特征提取的流程見(jiàn)圖1。道岔故障文本特征提取流程為:
Step1故障追蹤記錄文檔獲取。
Step2詞項(xiàng)空間向量模型建立。經(jīng)過(guò)文本分詞并進(jìn)行去停用詞之后,得到原始故障詞項(xiàng)特征,在詞項(xiàng)空間中表達(dá)故障文本。
Step3利用主題模型。選擇合適的主題數(shù)量,建立主題模型,將故障文本通過(guò)主題模型空間表達(dá)。
在使用PLSA算法進(jìn)行故障主題特征挖掘的過(guò)程中,首先要給定主題特征的數(shù)目k。采用拇指規(guī)則和打分算法來(lái)確定,即通過(guò)設(shè)定一定的步長(zhǎng)改變k值進(jìn)行測(cè)試,選取文檔似然值達(dá)到最優(yōu)的k值作為最終的主題數(shù)。一般來(lái)說(shuō),主題特征在一定程度上攜帶了原文檔表達(dá)的語(yǔ)義。表4為廣州局道岔的故障記錄由主題模型特征提取后得到的結(jié)果。
表4 道岔系統(tǒng)故障記錄表中故障主題特征的提取結(jié)果
表4表明,語(yǔ)義特征T1與“尖軌卡物”這一故障模式相關(guān),特征T2代表“空轉(zhuǎn)”的故障模式,特征T3與“接點(diǎn)接觸不良”的故障模式相關(guān)等。文檔在故障主題特征空間上的表達(dá)過(guò)程見(jiàn)圖5。
支持向量機(jī)已在很多領(lǐng)域有了廣泛應(yīng)用,取得了良好的效果。道岔轉(zhuǎn)換系統(tǒng)的故障模式具有種類多,各模式分布不均衡,而且一些故障模式樣本數(shù)量十分有限的特點(diǎn)。對(duì)于學(xué)習(xí)算法,支持向量機(jī)在小樣本數(shù)據(jù)上具有較大優(yōu)勢(shì),能夠僅僅依賴少數(shù)的支持向量進(jìn)行診斷決策。因此,本文采用支持向量機(jī)進(jìn)行道岔設(shè)備故障診斷。
支持向量機(jī)[16-18]是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來(lái)的機(jī)器學(xué)習(xí)方法,是結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的實(shí)現(xiàn)。
SVM本質(zhì)上是一個(gè)分割超平面,是分類優(yōu)化問(wèn)題的一種解決方案。其算法如下:
假設(shè)數(shù)據(jù)集為(x1,y1),(x2,y2),…,(xp,yp),x∈Rp,y∈{1,-1}。
對(duì)于原始的優(yōu)化問(wèn)題,可表述為
s.t.yi(wTφ(xi)+b)≥1-ξiξi≥0
( 5 )
式中:C為懲罰因子,C≥0。
通過(guò)拉格朗日乘子法以及KKT (Karush-Kuhn-Tucker )條件,可以得到其對(duì)偶優(yōu)化問(wèn)題
minLd(α)=
( 6 )
式中:αi、βi為拉格朗日乘子;φ(xi)Tφ(xj)=K(xi,xj)為核函數(shù)。
進(jìn)而,為求解拉格朗日乘子,轉(zhuǎn)化為一個(gè)標(biāo)準(zhǔn)二次最優(yōu)化問(wèn)題
s.tyTα=0 0≤αi≤Ci=1,2,…,p
( 7 )
式中:α=[α1,α2,…,αp]T,y=[y1,y2,…,yp]T,e=[1,1,…,1]T,Qij=yiyjφ(xi)Tφ(xj)=yiyjK(xi,xj)。
可求得ω*和b*的最優(yōu)解為
( 8 )
式中:Nsv為支持向量的個(gè)數(shù)(拉格朗日乘子不等于0)。
在特征提取階段,將故障文檔表達(dá)在故障主題特征空間上,得到主題文檔矩陣。SVMs診斷器的訓(xùn)練和診斷過(guò)程見(jiàn)圖6。主題文檔矩陣和故障文檔對(duì)應(yīng)的故障類別標(biāo)簽作為模型訓(xùn)練數(shù)據(jù),輸入一對(duì)一多分類策略下的(OVO SVMs)模型進(jìn)行訓(xùn)練,得到最終的SVM診斷器模型。對(duì)于新故障的產(chǎn)生,首先將故障現(xiàn)象描述文檔在主題特征空間下表示,進(jìn)而輸入到訓(xùn)練好的SVM診斷器模型進(jìn)行故障診斷,即可得到所發(fā)生故障的模式,從而實(shí)現(xiàn)道岔轉(zhuǎn)換系統(tǒng)的故障診斷。
本文通過(guò)兩個(gè)實(shí)驗(yàn)對(duì)所提出的道岔設(shè)備故障特征提取和故障診斷算法的有效性和準(zhǔn)確性進(jìn)行驗(yàn)證。主要包括故障主題特征提取算法的驗(yàn)證和故障診斷算法的驗(yàn)證。
利用廣州局現(xiàn)場(chǎng)故障追蹤記錄作為故障文檔庫(kù)。采用廣州局對(duì)道岔維護(hù)過(guò)程中積累的道岔相關(guān)的1 500多條故障記錄,其中,1 000條用于模型訓(xùn)練,剩余數(shù)據(jù)用于測(cè)試。數(shù)據(jù)的各類別故障樣本情況,見(jiàn)表5。
表5 道岔故障類別及數(shù)據(jù)組成 %
對(duì)于分類效果的評(píng)價(jià),采用F1-score和準(zhǔn)確率兩種指標(biāo)[19]。其中,F(xiàn)1-score中的1代表“精度”(precision)和“召回率”(recall)采用權(quán)重相同,也就是式( 9 )中的β=1。對(duì)于多類分類器的評(píng)估,F(xiàn)1-score算法如下:
算法1多類分類器的F1-score評(píng)估方法
Lineno=
(1) for每個(gè)故障模式Cido
(3) end for
(4)F-score←通過(guò)式( 9 )計(jì)算所有故障類別的F-score值。
( 9 )
式中:l是類別總數(shù)。令β=1,可得F1-score值。
為了驗(yàn)證特征提取的合理性,通過(guò)比較診斷器分別在兩種特征空間上(故障主題特征空間和故障詞項(xiàng)特征空間)的效果進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果見(jiàn)圖7。
圖7給出了各故障模式的F1-score值,表明故障主題特征相對(duì)于故障詞項(xiàng)特征具有明顯優(yōu)勢(shì),診斷效果更為理想,主要表現(xiàn)為故障樣本數(shù)量較少的故障模式效果更佳,驗(yàn)證了故障主題特征提升了小類樣本的可分性,從而降低了誤報(bào)率。另外,本文從整體準(zhǔn)確率的角度驗(yàn)證了所提出的故障特征提取算法的效果。其中,SVM診斷器在故障詞項(xiàng)特征空間以及故障主題特征空間上的診斷準(zhǔn)確率分別為86.06%和90.11%,表明故障主題特征空間更有利于道岔設(shè)備故障診斷任務(wù)。
為了驗(yàn)證所采用診斷算法的可行性,與其他兩類故障診斷分類算法進(jìn)行對(duì)比,即貝葉斯網(wǎng)絡(luò)算法BN以及BP神經(jīng)網(wǎng)絡(luò)算法(選用故障主題特征空間)。圖8給出了三種診斷器的效果,表明本文采用的算法較神經(jīng)網(wǎng)絡(luò)算法和貝葉斯網(wǎng)絡(luò)算法,對(duì)于小樣本故障模式的診斷效果誤報(bào)率更低。然而,BP神經(jīng)網(wǎng)絡(luò)和BN算法在提高小類樣本的診斷效果同時(shí),在樣本其他故障模式的診斷效果略低于SVM算法,例如故障模式C5和C9。其次,本文從整體診斷準(zhǔn)確率的角度驗(yàn)證了SVM診斷器對(duì)于道岔設(shè)備故障診斷的效果。三種算法的診斷準(zhǔn)確率分別為:BN算法為89.14%,BP神經(jīng)網(wǎng)絡(luò)算法為88.98%,SVM算法為90.11%。
通過(guò)分詞算法對(duì)故障文檔進(jìn)行分詞,自動(dòng)提取道岔領(lǐng)域故障詞庫(kù),即詞項(xiàng)空間;通過(guò)向量空間模型將文檔表達(dá)在詞項(xiàng)空間中;在此基礎(chǔ)上,通過(guò)主題模型PLSA方法進(jìn)行故障主題特征提取,進(jìn)而將故障文檔表達(dá)在主題特征空間中,為診斷準(zhǔn)備基礎(chǔ);通過(guò)構(gòu)造SVM診斷器實(shí)現(xiàn)道岔設(shè)備故障診斷。通過(guò)現(xiàn)場(chǎng)的實(shí)際數(shù)據(jù)驗(yàn)證,說(shuō)明提出算法對(duì)道岔故障診斷有良好的效果。