薛蓮,姚新文,鄭啟明,王小敏
(西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 611756)
車載設(shè)備是列車運行控制系統(tǒng)的重要組成部分,主要根據(jù)地面設(shè)備發(fā)送的行車信息,生成列車運行速度控制曲線,監(jiān)督與控制列車的運行[1]。因結(jié)構(gòu)復(fù)雜,故障多樣的特性,在故障發(fā)生后,維修人員以文本的形式詳細(xì)記錄此次故障內(nèi)容及處理情況,其中蘊含豐富的經(jīng)驗知識。但該類文本由于缺乏統(tǒng)一表述且包含大量冗余信息,難以直接利用,因此挖掘其中的關(guān)鍵信息用于指導(dǎo)故障維修,具有重要的研究意義。當(dāng)前對故障日志的研究,可分為基于規(guī)則匹配方法獲取故障信息和基于機(jī)器學(xué)習(xí)方法實現(xiàn)故障分類2類。陳曦等[2]提出在構(gòu)建故障字典的基礎(chǔ)上,利用正則表達(dá)式實現(xiàn)故障語句自動定位。上官偉等[3]改進(jìn)了LLDA模型和SVM算法,提高了故障分類效果。胡小溪等[4]提出基于詞項和語義融合的文本表示方法,結(jié)合KNN模型實現(xiàn)了車載故障的分類。但上述研究,多以獲取故障類別為目的,忽略了故障間的聯(lián)系,也缺少故障關(guān)聯(lián)的可視化展現(xiàn),影響了文本挖掘的實用價值。知識圖譜[5]技術(shù)以“實體-關(guān)系-實體”三元組形式將散亂知識有效組織起來并以圖的形式展現(xiàn)[6],在獲取知識間的關(guān)聯(lián)性的同時,能夠挖掘知識背后隱含信息[6],在醫(yī)療、電網(wǎng)、金融等特定領(lǐng)域得到快速發(fā)展。在高鐵信號領(lǐng)域的知識圖譜研究較少,姜達(dá)[7]討論了基于知識圖譜的CTCS3-300T型車載信號故障診斷,但未建立構(gòu)建圖譜的系統(tǒng)框架,對于車載設(shè)備故障日志的知識圖譜研究尚未深入開展。因此,本文以故障日志為研究對象,提出高鐵車載信號設(shè)備的故障知識圖譜構(gòu)建框架。首先分析整合故障日志數(shù)據(jù),采用無監(jiān)督學(xué)習(xí)與模板匹配方法挖掘故障文本關(guān)鍵信息,實現(xiàn)車載數(shù)據(jù)的知識抽??;接著計算實體余弦相似度融合異構(gòu)同源知識,減少冗余和錯誤實體;最后使用圖數(shù)據(jù)庫進(jìn)行知識存儲,構(gòu)建面向列控車載設(shè)備的故障知識圖譜,并以可視化方式展示和檢索了車載設(shè)備的故障現(xiàn)象-原因-實體關(guān)系。
構(gòu)建知識圖譜的方式可分為自頂向下、自底向上和二者結(jié)合3種[6]。自頂向下的構(gòu)建方式先確定知識圖譜數(shù)據(jù)類型,再根據(jù)模型填充數(shù)據(jù)。自底向上的構(gòu)建則相反,先按照三元組的方式收集數(shù)據(jù),再根據(jù)數(shù)據(jù)內(nèi)容來提煉數(shù)據(jù)模型。由于車載設(shè)備故障文本構(gòu)成要素固定,知識圖譜的構(gòu)建采用二者結(jié)合的方式,在前期采用自頂向下的方式,先確定故障類型、故障類別、故障原因等實體數(shù)據(jù)模型和原因、分類、組成等關(guān)系數(shù)據(jù)模型。接著在數(shù)據(jù)模型指導(dǎo)下,采用自底向上的方式處理數(shù)據(jù),補充完善模型,從而形成知識圖譜。其中如何處理車載故障數(shù)據(jù),分析故障實體關(guān)系是研究的重點。
通過對車載設(shè)備故障維修日志的分析,故障數(shù)據(jù)有以下特點:
1) 文本類型多樣,包含結(jié)構(gòu)化和半結(jié)構(gòu)化2種數(shù)據(jù)類型。
2) 文本數(shù)據(jù)分布不平衡,包含大量高鐵車載專用術(shù)語。
3) 文本數(shù)據(jù)量有限,缺乏標(biāo)注數(shù)據(jù)。
本文充分考慮了上述特點,采取有針對性的故障文本數(shù)據(jù)處理方法,對不同類型的數(shù)據(jù),使用不同實體關(guān)系抽取方法,實現(xiàn)知識抽取從手動到自動的轉(zhuǎn)變,過程如圖1所示。
圖1 列控車載設(shè)備故障知識圖譜構(gòu)建流程Fig. 1 Construction process of the fault knowledge map of train control on-board equipment
實體是指文本中特定含義的對象,如故障原因、故障現(xiàn)象等。對于結(jié)構(gòu)化的車載故障文本,可基于數(shù)據(jù)表直接提取。對于半結(jié)構(gòu)化文本,由于車載故障數(shù)據(jù)量有限,且沒有標(biāo)注好的訓(xùn)練樣本,因此將其視為無監(jiān)督關(guān)鍵短語抽取問題,獲取的關(guān)鍵短語即為故障實體,具體過程如下所示。
2.1.1 文本預(yù)處理
文本預(yù)處理是除去數(shù)據(jù)中非文本、無關(guān)部分的過程。本文為增強(qiáng)故障文本的識別能力,在通用詞庫的基礎(chǔ)上構(gòu)建車載專用詞庫,并借助jieba工具,使用基于詞典與基于統(tǒng)計融合的算法,實現(xiàn)分詞和詞性標(biāo)注。最后對切分后的詞語進(jìn)行過濾,去除其中符號、地點等停用詞,以及形容詞、副詞這類包含關(guān)鍵信息較少的詞性,以減少雜亂數(shù)據(jù)干擾。
2.1.2 實體抽取
實體抽取由文本表示、關(guān)鍵詞語獲取和關(guān)鍵短語獲取3部分組成,流程圖如圖2所示。
圖2 車載故障文本實體識別流程圖Fig. 2 Flow chart of on-board equipment fault text entity recognition
Step 1 文本表示
文本表示是將文字轉(zhuǎn)為向量形式,為避免維度災(zāi)難,本文采用Word2vec分布式詞向量表示方法。
Word2vec模型是VIEHWEGER等[8-9]提出的一種分布式文本表示的方法,本質(zhì)上是雙層神經(jīng)網(wǎng)絡(luò),有CBOW和Skip-Gram 2種模型。CBOW的目標(biāo)是通過上下文詞語預(yù)測中間的詞,Skip-Gram則相反,由一個特定的詞來預(yù)測前后可能出現(xiàn)的詞。模型的優(yōu)化則采用層次softmax和負(fù)采樣2種技巧,減少計算量,獲取詞語與向量的映射,表示詞語之間的關(guān)系。
Step 2 關(guān)鍵詞語獲取
主題模型通過主題維度,將詞語與文檔聯(lián)系起來,將文檔看成主題的混合,而主題表現(xiàn)為跟該主題相關(guān)詞項的概率分布[10]。LDA等[11-12](Latent Dirichlet Allocation)模型假設(shè)文檔主題和主題詞項的先驗分布服從Dirichlet分布,選用Gibbs采樣算法,訓(xùn)練故障數(shù)據(jù),求解每篇文檔的主題分布和主題詞項分布。從輸入輸出上來看,LDA以故障記錄集合作為輸入,以每條記錄對應(yīng)的主題概率以及各個主題生成不同詞項的概率為輸出,概率值越大則表征該主題和該詞項越關(guān)鍵。
由于車載專有名詞在單個記錄中出現(xiàn)次數(shù)較少,致使數(shù)據(jù)不平衡,算法效果不佳。研究提出將詞典特征融入LDA主題模型實現(xiàn)關(guān)鍵詞抽取。在LDA模型計算詞項概率時,加入詞典特征。以車載專用詞庫為基礎(chǔ),對詞項進(jìn)行權(quán)重ω加權(quán),式如(1)所示。通過對文獻(xiàn)[7]中故障短語的分析,詞性分布如圖3所示,從圖中可以看出,故障短語中名詞、動詞占比居高,而且由于車載領(lǐng)域的特殊性,這類詞語大多包含于構(gòu)建的車載專用詞庫中。因此,為提高關(guān)鍵詞語抽取的準(zhǔn)確率,本文增加這2類詞性詞語的權(quán)重,設(shè)置名詞權(quán)重為3,動詞為2,其他詞語設(shè)置權(quán)重為1。
圖3 車載故障短語詞性分布圖Fig. 3 Part-of-speech distribution map of vehicle fault phrases
在該模型中,主題數(shù)是重要參數(shù)。主題數(shù)取值過小,不利于挖掘隱含語義信息,取值過大,則有效信息少。本文使用公式(2)所示的困惑度(perplexity)[13]評估確定主題數(shù)大小,其中M表示文檔數(shù),p(wd)表示單詞出現(xiàn)wd頻率,Nd表示文檔d中的單詞數(shù)。
Step 3 故障實體獲取
上述模型聚類得到的是與主題相關(guān)的忽略上下文順序的詞語,而故障現(xiàn)象和故障原因?qū)嶓w多是有序短語形式,因此還需將其按原文本順序轉(zhuǎn)換為故障短語。故障短語獲取模型使用Bi-gram模型[14]思想構(gòu)建,即滑動窗口為2個字符,當(dāng)臨近詞語為關(guān)鍵詞語時,將其拼接為關(guān)鍵短語。將獲取的短語依據(jù)詞項概率進(jìn)行加權(quán)評分,其中得分最高的短語即為故障實體。為避免詞語數(shù)越多評分越高的缺陷,使用長度權(quán)重系數(shù)調(diào)節(jié)評分R,如式(3)所示,φp大小與候選短語p中單詞w的數(shù)量n有關(guān),這里取
關(guān)系是實體與實體間的橋梁,結(jié)構(gòu)化的車載故障文本中實體關(guān)系可直接構(gòu)建,半結(jié)構(gòu)化文本數(shù)據(jù)關(guān)系抽取則采用基于模式匹配的方法。
如表1所示,在抽取過程中,根據(jù)車載故障文本構(gòu)建實體間關(guān)系表示方式,如故障現(xiàn)象與故障原因的因果關(guān)系,構(gòu)建車載故障實體[故障現(xiàn)象]原因[故障原因]的關(guān)系模板。在關(guān)系抽取時,基于該模式匹配,如“觸發(fā)最大常用制動停車原因為丟失多組應(yīng)答器信息”可從中抽取故障原因“丟失多組應(yīng)答器信息”與故障現(xiàn)象“最大常用制動停車”之間的原因關(guān)系。
表1 車載故障實體關(guān)系抽取模板Table 1 On-board equipment fault entity relationship extraction template
知識融合即將多個意思相同但表示不同的實體融合為一個實體。如“ATP故障輸出緊急制動”與“ATP輸出緊急制動”。通??赏ㄟ^計算語義相似度來解決,相似度越高表示二者表達(dá)越接近。若大于設(shè)定閾值,則將2個實體進(jìn)行融合,具體實現(xiàn)方法如算法1所示。
算法1 車載故障知識融合算法Alg. 1 On-board equipment fault knowledge fusion algorithm
其中,短語向量是相似度計算的基礎(chǔ),將短語中包含的詞語對應(yīng)的詞向量相加取平均,得到的向量即為短語向量。基于向量的文本相似度計算有歐式距離、曼哈頓距離和余弦相似度等方法。歐式距離是較為常用的距離計算公式,衡量多維空間中各個維度的絕對值,它將所有維度之間的差別同等看待,因而不適用于高維數(shù)據(jù)的處理。曼哈頓距離是歐式幾何空間兩點間距離在2個坐標(biāo)軸的投影,雖然可以解決高維數(shù)據(jù)的問題,但存在某一維度特征掩蓋其他特征間鄰近關(guān)系的問題。與二者相比,余弦相似度[15]更加注重2個向量在方向上的差異,取值范圍固定,適用于特征向量較多的情況。因此,本文通過短語間的余弦相似度表示短語的語義相似程度:假設(shè)2個短語向量為u和v,則余弦相似度余弦值越接近1,表明對應(yīng)短語越相似,余弦值接近于0,則表明對應(yīng)短語越無關(guān)。
本文以某鐵路局2019~2020年車載設(shè)備故障維修日志為基礎(chǔ)數(shù)據(jù),抽取實體關(guān)系并構(gòu)建知識圖譜。
在實體識別模型中,詞向量維度代表了詞語的特征,維度越大越能區(qū)分不同詞語,但維度過大會淡化詞語間的聯(lián)系,使得訓(xùn)練速度減慢。一般而言,維度大小取決于語料庫的規(guī)模,本文語料庫主要由車載故障相關(guān)論文構(gòu)成大小在100 M以上,根據(jù)文獻(xiàn)[16]的實驗結(jié)果,詞向量維度設(shè)置為128時效果最好。至于模型選擇上,因CBOW比Skip-Gram模型訓(xùn)練速度更快[8-9],故本文選用CBOW作為詞向量模型。LDA主題模型中主題數(shù)量以公式(2)所示困惑度為評估參數(shù),實驗結(jié)果如圖4所示。困惑度可以理解為訓(xùn)練出的模型對于該故障現(xiàn)象或原因?qū)儆谀膫€主題的不確定程度,當(dāng)困惑度越低時,說明對該主題越確定,即聚類效果越好。由圖中可以看出,故障原因和故障現(xiàn)象的困惑度整體呈現(xiàn)先下降后上升的趨勢,因而對于故障原因?qū)嶓w識別選取的主題數(shù)為24,故障現(xiàn)象實體識別為25。
圖4 車載故障實體主題數(shù)量確定Fig. 4 Determination of the number of on-board equipment fault entity topics
主題數(shù)確定后,將每一行數(shù)據(jù)視為一個文檔,取該文檔可能性最大的主題,以及與主題最相關(guān)的前十個詞語,以加權(quán)評分的方式獲取得分最高的短語為關(guān)鍵短語,即故障實體,實驗結(jié)果如表2所示。
表2 車載故障實體獲取(部分)Table 2 On-board equipment fault entity acquisition (partial)
抽取的故障實體因冗余和錯誤問題難以直接利用,需經(jīng)過知識融合,實現(xiàn)實體的消歧。通過對獲取的相似故障實體采樣分析,實體間余弦相似度計算結(jié)果如圖5所示。相似實體間距離在[0.8,0.9)和[0.9,1]范圍內(nèi)的實體占采樣總數(shù)的80%以上,因而設(shè)置余弦相似度閾值為0.8。
圖5 相似故障實體間距離分布Fig. 5 Distance distribution between similar fault entities
經(jīng)上述操作,抽取的實體有設(shè)備型號、故障原因、故障現(xiàn)象等類型,構(gòu)建的實體關(guān)系有故障原因-故障現(xiàn)象、故障類型-設(shè)備型號、故障原因-故障類型等。累計數(shù)量為故障實體339個,故障關(guān)系734條,具體類型如表3所示。
表3 車載設(shè)備故障知識圖譜實體及關(guān)系數(shù)量統(tǒng)計Table 3 On-board equipment fault knowledge graph entity and relationship statistics
為評估實體識別效果,本文使用準(zhǔn)確率P(Precision)、召回率R(Recall)和F1值來衡量,其中P是正確識別的實體數(shù)與識別的實體總數(shù)之比,R是正確識別的實體數(shù)與應(yīng)識別的實體數(shù)之比。F1值是二者的綜合評價,公式如式(4)所示。
以《信號設(shè)備故障一點通》和《列控車載設(shè)備典型故障案例》中故障描述為專家模板,對抽取6類實體數(shù)據(jù)進(jìn)行評估,結(jié)果如圖6所示。從圖中可以看出,故障類型、設(shè)備型號、故障部位和故障分類識別的效果優(yōu)于故障原因和故障現(xiàn)象,其原因為上述類別實體數(shù)量相對較少,且類別間差異較大,存在干擾少,使得提取較為容易,而故障現(xiàn)象和故障原因存在詞語間的嵌套問題,實體類型容易混淆,降低了提取準(zhǔn)確率。整體來看,各類實體識別很難找全所有實體,原因為車載故障數(shù)據(jù)量較小且發(fā)生故障的部位不均衡,導(dǎo)致識別的實體尚不豐富,該問題可通過增加數(shù)據(jù)量解決。
圖6 車載故障實體識別模型評估結(jié)果Fig. 6 Evaluation results of on-board equipment fault entity recognition model
將上述實體關(guān)系轉(zhuǎn)為“實體-關(guān)系-實體”三元組后構(gòu)成車載設(shè)備故障圖譜。以CTCS3-300H型列控車載設(shè)備為例,其知識圖譜如圖7所示。通過檢索可知,CTCS3-300H型列控車載設(shè)備故障可分為TCR及天線模塊故障、DMI模塊故障、BTM及天線故障等。各故障模塊有其對應(yīng)的故障現(xiàn)象,如DMI模塊故障現(xiàn)象有DMI黑屏、主機(jī)與DMI通信中斷等。根據(jù)故障現(xiàn)象可追溯故障原因,如圖8所示,收不到進(jìn)路預(yù)告的故障現(xiàn)象,其原因有GSM-R數(shù)據(jù)單元故障、TAX箱DMIS板工作不良、GPRS無線連接故障等。根據(jù)故障原因,可檢索其故障屬性,如BP繼電器故障、BSA臨時性錯誤、ATP雙系CCTE插件同時死機(jī)屬于電務(wù)設(shè)備故障。
圖7 CTCS3-300H型車載設(shè)備故障知識圖譜Fig. 7 Fault knowledge graph of CTCS3-300H On-board equipment
圖8 收不到進(jìn)路預(yù)告故障現(xiàn)象與原因關(guān)系展示Fig. 8 Phenomenon and cause relationship display of failure to receive advance notice
其他類型數(shù)據(jù)同理,如此便構(gòu)建了車載設(shè)備故障實體間不同層級的相互關(guān)系,能更方便的展現(xiàn)車載故障對象間關(guān)聯(lián),更快速的檢索查詢特定對象關(guān)系。
車載設(shè)備故障知識圖譜的應(yīng)用主要在以下2個方面。
1) 故障成因溯源
通過查詢故障知識圖譜中的實體關(guān)系,可由故障部位查詢到故障現(xiàn)象,進(jìn)而追溯故障原因,可以幫助維修人員更快速準(zhǔn)確的對故障做出判斷。
以BTM及天線故障為例展示故障關(guān)系,如圖9所示。可看出BTM及天線故障的故障現(xiàn)象有ATP無法進(jìn)入正常模式、應(yīng)答器信息丟失、ATP無法正常啟動等,通過查詢,可知應(yīng)答器信息丟失這一現(xiàn)象的原因有BTM-R天線偶發(fā)工作不良、車組通過分相區(qū)段受干擾、BTM軟件存在缺陷等原因,這些均屬于電務(wù)設(shè)備故障。
圖9 BTM及天線故障的故障關(guān)系展示Fig. 9 Fault relationship display of BTM and antenna faults
2) 輔助故障診斷
構(gòu)建的車載設(shè)備故障知識圖譜記錄了各類故障事故特征,蘊含了大量歷史經(jīng)驗。以DMI黑屏為例,如圖10所示。當(dāng)事故發(fā)生時,對知識圖譜自動檢索,輔之以故障次數(shù)標(biāo)簽,通過后續(xù)故障判斷規(guī)則,可實現(xiàn)故障智能診斷與預(yù)測,減少了對維修人員的經(jīng)驗依賴。
圖10 DMI黑屏故障信息Fig. 10 DMI black screen fault information
1) 將故障實體識別轉(zhuǎn)換為故障關(guān)鍵短語抽取問題,提出LDA模型與詞典特征相結(jié)合方法,彌補了標(biāo)注數(shù)據(jù)不足,無法采用有監(jiān)督學(xué)習(xí)方法的缺陷。
2) 針對數(shù)據(jù)記錄格式不一的問題,利用短語詞向量間的余弦相似度大小衡量短語相似程度,實現(xiàn)了實體的融合。
3) 在知識圖譜構(gòu)建過程中,共抽取實體339個,故障關(guān)系734條,形成了具有一定規(guī)模的車載故障知識圖譜,可視化展現(xiàn)了故障知識查詢與檢索服務(wù),為車載設(shè)備故障智能維護(hù)提供支持。