国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本分析的高速鐵路道岔故障分類模型研究

2020-11-03 04:20楊連報(bào)沈翔李新琴董興芝薛蕊徐貴紅
中國(guó)鐵路 2020年8期
關(guān)鍵詞:特征向量道岔故障診斷

楊連報(bào),沈翔,李新琴,董興芝,薛蕊,徐貴紅

(中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司,北京100081)

1 概述

道岔作為高速鐵路信號(hào)地面設(shè)備的重要組成,是列車進(jìn)出站實(shí)現(xiàn)進(jìn)路轉(zhuǎn)換的重要關(guān)鍵設(shè)備。通過(guò)對(duì)近十年來(lái)高鐵信號(hào)地面設(shè)備故障發(fā)生數(shù)量統(tǒng)計(jì)分析,道岔故障占比約為1/3,是影響高鐵行車組織和安全的重要因素。

目前,我國(guó)主要采用微機(jī)監(jiān)測(cè)系統(tǒng)實(shí)時(shí)監(jiān)測(cè)道岔動(dòng)作電流的模擬量數(shù)據(jù)和道岔狀態(tài)的開(kāi)關(guān)量數(shù)據(jù),并由現(xiàn)場(chǎng)作業(yè)人員根據(jù)電流動(dòng)作曲線的異常來(lái)判斷道岔發(fā)生的相關(guān)故障類別進(jìn)行處置。在學(xué)術(shù)上,國(guó)內(nèi)外專家學(xué)者進(jìn)行了相關(guān)研究。文獻(xiàn)[1]提出應(yīng)用時(shí)間延遲網(wǎng)絡(luò)(Time-Delay Neural Network,TDNN),通過(guò)對(duì)道岔有關(guān)動(dòng)作電流和受力情況的分析實(shí)現(xiàn)道岔故障診斷和預(yù)測(cè);文獻(xiàn)[2-3]采用Fisher準(zhǔn)則實(shí)現(xiàn)對(duì)道岔動(dòng)作電流的特征提取,并通過(guò)計(jì)算待測(cè)樣本和故障模式之間的灰關(guān)聯(lián)度實(shí)現(xiàn)故障診斷;文獻(xiàn)[4]通過(guò)建立模糊神經(jīng)網(wǎng)絡(luò),輸入為特征抽取后的道岔動(dòng)作電流,輸出為各類特征向量對(duì)應(yīng)的典型故障類型,然后經(jīng)過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練并結(jié)合專家經(jīng)驗(yàn)實(shí)現(xiàn)道岔故障診斷;文獻(xiàn)[5]通過(guò)對(duì)定量的道岔動(dòng)作電流曲線的轉(zhuǎn)化為定性的趨勢(shì)片段,實(shí)現(xiàn)基于定性趨勢(shì)分析的道岔故障診斷;文獻(xiàn)[6]采用轉(zhuǎn)轍機(jī)拉力參數(shù)為訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)基于粒子群算法優(yōu)化支持向量機(jī)(PSO-SVM)的道岔故障診斷。文獻(xiàn)[7]通過(guò)建立道岔轉(zhuǎn)轍機(jī)故障分析與故障診斷監(jiān)測(cè)系統(tǒng),實(shí)現(xiàn)ZD6轉(zhuǎn)轍機(jī)多種故障識(shí)別。

與以道岔動(dòng)作電流或轉(zhuǎn)轍機(jī)拉力變化的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行道岔故障診斷方法不同,提出一種新的基于非結(jié)構(gòu)化道岔故障的文本描述和原因處置過(guò)程故障診斷方法。首先對(duì)道岔故障發(fā)生的文本描述進(jìn)行預(yù)處理和特征提取,主要包含文本停用詞去除、中文分詞、特征向量生成、道岔故障編碼等,然后通過(guò)應(yīng)用支持向量機(jī)(Support Vector Machine,SVM)實(shí)現(xiàn)道岔故障分類模型的學(xué)習(xí),從而為現(xiàn)場(chǎng)作業(yè)人員提供一種客觀的、基于海量歷史數(shù)據(jù)的故障診斷模型。

2 高速鐵路信號(hào)設(shè)備

我國(guó)高鐵通過(guò)“引進(jìn)、消化、吸收、再創(chuàng)新”的技術(shù)路線,走出了一條通信信號(hào)系統(tǒng)快速發(fā)展的道路。目前,我國(guó)高鐵主要采用CTCS-3級(jí)列控系統(tǒng)和CTCS-2級(jí)列控系統(tǒng)保障列車安全、可靠、高效運(yùn)行。CTCS-3級(jí)列控系統(tǒng)是基于GSM-R無(wú)線通信基礎(chǔ),實(shí)現(xiàn)車-地信息雙向傳輸,并采用無(wú)線閉塞中心(RBC)生成行車許可,采用目標(biāo)距離連續(xù)速度控制的列控系統(tǒng);CTCS-2級(jí)列控系統(tǒng)是基于軌道電路和應(yīng)答器,傳輸列車行車許可信息,并采用目標(biāo)距離連續(xù)速度控制模式監(jiān)控列車安全運(yùn)行的列控系統(tǒng)。CTCS-3和CTCS-2級(jí)列控系統(tǒng)均包括車載設(shè)備和地面設(shè)備,兩類設(shè)備構(gòu)成如下。

(1)車載設(shè)備。我國(guó)高速鐵路列控車載設(shè)備主要包括CTCS3-300T型ATP車載設(shè)備、CTCS3-300H型ATP車載設(shè)備、CTCS3-300S型ATP車載設(shè)備、CTCS2-200C型ATP車載設(shè)備、CTCS2-200H型ATP車載設(shè)備等。其中CTCS3-300T型ATP車載設(shè)備是我國(guó)最早投入商業(yè)運(yùn)營(yíng)的CTCS-3級(jí)列控車載設(shè)備。目前已廣泛應(yīng)用在京滬、京廣、哈大、滬寧、滬杭、鄭西等高速鐵路。

(2)地面設(shè)備。我國(guó)高速鐵路信號(hào)地面設(shè)備主要包含以下4類:①信號(hào)基礎(chǔ)設(shè)備。主要包括信號(hào)機(jī)、轉(zhuǎn)轍機(jī)及其安裝裝置、軌道電路、電源、電纜電線等。②列控地面設(shè)備。主要包括列控中心(含LEU)、臨時(shí)限速服務(wù)器(TSRS)、無(wú)線閉塞中心(RBC)、應(yīng)答器等。③計(jì)算機(jī)聯(lián)鎖系統(tǒng)。④CTC/TDCS系統(tǒng)。道岔是機(jī)車車輛從一股道轉(zhuǎn)入或越過(guò)另一軌道時(shí)必不可少的線路設(shè)備,主要包含基本軌、尖軌、翼軌、轍叉心、護(hù)軌等部分,同時(shí)道岔的動(dòng)作需要轉(zhuǎn)轍機(jī)來(lái)提供動(dòng)力。道岔具有構(gòu)造復(fù)雜、養(yǎng)護(hù)維修投入大的特點(diǎn),按功能和用途主要分為單開(kāi)道岔、對(duì)稱道岔、三開(kāi)道岔、交叉渡線、復(fù)式交分道岔5種類型。

通過(guò)對(duì)我國(guó)高鐵近十年來(lái)地面設(shè)備中的故障數(shù)量統(tǒng)計(jì)和分析,道岔故障件數(shù)居首位(故障占比39.0%)。道岔故障責(zé)任原因較多,主要包括材質(zhì)、檢修不良、尖軌卡物等。同時(shí),根據(jù)現(xiàn)場(chǎng)數(shù)據(jù),道岔故障率和季節(jié)有關(guān)系,極端的天氣如雨雪等對(duì)道岔的正常運(yùn)轉(zhuǎn)有較大影響(如冰雪造成道岔卡阻、季節(jié)變換導(dǎo)致鋼軌材質(zhì)的熱脹冷縮)。由于高鐵作業(yè)均在夜間,因晝夜溫差導(dǎo)致道岔適應(yīng)性調(diào)整不當(dāng),道岔缺口動(dòng)態(tài)變化超過(guò)轉(zhuǎn)轍機(jī)的缺口變化允許范圍。

3 基于SVM的高鐵道岔故障分類

通過(guò)正則表達(dá)式進(jìn)行道岔故障文本描述數(shù)據(jù)中有關(guān)日期、時(shí)間、地點(diǎn)、特殊字符、標(biāo)點(diǎn)和英文符號(hào)的預(yù)處理,應(yīng)用融合鐵路領(lǐng)域詞典的中文分詞工具Jieba進(jìn)行分詞,并通過(guò)Word2Vec和TF-IDF分別生成特征向量,最后應(yīng)用SVM模型實(shí)現(xiàn)道岔故障的智能分類。

3.1 故障分類文本數(shù)據(jù)預(yù)處理

高鐵道岔故障文本數(shù)據(jù)記錄了道岔故障發(fā)生的時(shí)間、線路、區(qū)間和道岔故障原因及處理過(guò)程,示例數(shù)據(jù)見(jiàn)表1。

傳統(tǒng)的分類是由業(yè)務(wù)人員根據(jù)道岔故障概況和原因分析的文本描述,實(shí)現(xiàn)道岔故障分類。這種方式主要依靠業(yè)務(wù)人員對(duì)文本描述的理解和個(gè)人經(jīng)驗(yàn)進(jìn)行判斷,造成分類的不客觀、不準(zhǔn)確。同時(shí),在應(yīng)對(duì)海量文本描述數(shù)據(jù)時(shí),存在效率低下等問(wèn)題。通過(guò)文本分析的方式,計(jì)算機(jī)可以根據(jù)道岔故障文本的描述,實(shí)現(xiàn)道岔故障的自動(dòng)分類。

表1 高鐵道岔故障記錄文本數(shù)據(jù)示例

(1)通過(guò)定義高鐵道岔故障分類的標(biāo)準(zhǔn),生成道岔故障分類編號(hào),以便計(jì)算機(jī)識(shí)別(見(jiàn)表2)。

表2 高鐵道岔故障分類標(biāo)準(zhǔn)

(2)通過(guò)定義常用停用詞和標(biāo)點(diǎn)符號(hào)的詞典,如“的”“地”“但”“但是”“,”“:”等實(shí)現(xiàn)自動(dòng)過(guò)濾;并通過(guò)定義高鐵道岔故障描述相關(guān)的常見(jiàn)詞匯如:“轉(zhuǎn)轍機(jī)”“密貼檢查器”“卡阻”“定位無(wú)表示”等實(shí)現(xiàn)高鐵道岔故障文本的中文分詞,為文本特征向量表示做好準(zhǔn)備。

3.2 文本特征向量表示

針對(duì)分好的中文詞匯,文本特征向量表示最常用的方法為T(mén)F-IDF(Term Frequency-Inverse Document Frequency)和Word2Vec。TF-IDF是一種基于統(tǒng)計(jì)的常用加權(quán)方法,廣泛應(yīng)用于檢索與文本分析中[8]。Word2Vec是Google于2013年開(kāi)源的詞向量分布式表示算法[9-10],可以在百萬(wàn)數(shù)量級(jí)的詞典和上億數(shù)據(jù)集上進(jìn)行訓(xùn)練,成為目前文本向量分布式表示的主要方法。

Word2Vec算法的實(shí)質(zhì)為一個(gè)淺層神經(jīng)網(wǎng)絡(luò),主要包含CBoW(Continuous Bag-of-Words Model)和Skipgram模型。CBoW模型利用給定上下文的向量表示,預(yù)測(cè)目標(biāo)詞的向量表達(dá)。Skip-gram模型則是根據(jù)目標(biāo)詞的向量表示,獲得上下文的向量表示。二者均是用學(xué)習(xí)到的權(quán)重系數(shù)來(lái)表示所有詞的向量。Skip-gram模型的整體架構(gòu)見(jiàn)圖1。

圖1 Skip-gram模型整體架構(gòu)

輸入層為某個(gè)給定詞的1×N維的文本,one-hot為向量;隱含層是由V個(gè)隱含層神經(jīng)元組成,輸出層為N個(gè)Softmax輸出神經(jīng)元?dú)w一化,獲得的權(quán)重系數(shù)為每個(gè)詞的向量表示。

Skip-gram模型最終目標(biāo)是通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)隱含層中的權(quán)重,根據(jù)給定詞one-hot詞向量預(yù)測(cè)輸出詞的概率最大。神經(jīng)網(wǎng)絡(luò)的隱含層像1個(gè)word embedding查找表,其輸出的1×V維的向量就是詞向量。主要采用Word2Vec中的Skip-gram模型生成每個(gè)中文分詞的詞向量,然后將每一條高速鐵路道岔故障記錄文本中的詞向量加權(quán)求和,表征每一條文本記錄向量。

式中:Di為某條高鐵道岔故障文本記錄的向量;m為該條記錄中分詞的數(shù)量;Wij為該記錄中每個(gè)中文分詞的向量表示。

3.3 SVM分類模型

在獲得高鐵道岔故障文本記錄的特征向量表示后,需要設(shè)計(jì)分類模型實(shí)現(xiàn)高鐵道岔故障分類,研究選擇SVM分類模型。通過(guò)構(gòu)造1個(gè)超平面f(x),使得該函數(shù)能夠表示類別y與樣本向量x的關(guān)系。定義線性x不敏感損失函數(shù)為:

如果存在1個(gè)超平面:

其中ω∈Rn,b∈R,使得:

則稱樣本集D是ε線性近似的,f(x)為線性回歸估計(jì)函數(shù)。樣本點(diǎn){xi,yi}到超平面的距離為:

為得到最優(yōu)的超平面分類,轉(zhuǎn)換為一個(gè)優(yōu)化問(wèn)題,即使||ω||2最小。

針對(duì)非線性問(wèn)題,SVM分類模型通過(guò)非線性映射φ(x)將樣本映射為高維特征空間,并通過(guò)核函數(shù)的方式計(jì)算內(nèi)積。此時(shí)優(yōu)化問(wèn)題的目標(biāo)函數(shù)可表示為:

式中:ξi、為超平面不同分類界限的松弛變量;C為懲罰因子(C越大表示對(duì)誤差大的樣本懲罰越大,調(diào)整C可改變SVM的泛化能力)。

4 試驗(yàn)驗(yàn)證

選取2018年我國(guó)高鐵道岔故障記錄數(shù)據(jù)為試驗(yàn)數(shù)據(jù),其中80%作為訓(xùn)練,20%作為驗(yàn)證數(shù)據(jù)集,主要采取準(zhǔn)確率(Precision)、召回率(Recall)和F-score作為模型評(píng)價(jià)和對(duì)比的指標(biāo)。

Precision計(jì)算公式為:

Recall計(jì)算公式為:

F-score計(jì)算公式為:

式中:TPi為被正確分到此類的實(shí)例個(gè)數(shù);TNi為被正確識(shí)別不在此類的實(shí)例個(gè)數(shù);FPi為被誤分到此類的實(shí)例個(gè)數(shù);FNi為屬于此類但被誤分到其他類的實(shí)例個(gè)數(shù);C為所有類別的總數(shù)。

在SVM分類模型選擇線性核函數(shù),C=1的情況下,通過(guò)比較不同的道岔文本特征向量提取的模型表現(xiàn)如下:

(1)當(dāng)應(yīng)用TF-IDF進(jìn)行道岔故障文本特征向量提取時(shí),在驗(yàn)證集上的總體準(zhǔn)確率達(dá)到86.4%。但對(duì)于“工務(wù)設(shè)備”“密貼檢查器”的故障樣例數(shù)據(jù)較少,分類效果不理想,二者的F1值在60%左右(見(jiàn)圖2)。

(2)當(dāng)應(yīng)用Word2Vec進(jìn)行道岔故障文本特征向量提取時(shí),在驗(yàn)證集上的總體準(zhǔn)確率達(dá)到78.2%,對(duì)于故障樣例數(shù)據(jù)較少的“工務(wù)設(shè)備”“密貼檢查器”的分類效果不理想,二者的F1值在22%左右。對(duì)于原因不明的分類沒(méi)有較好的區(qū)分,說(shuō)明應(yīng)用Word2Vec特征提取時(shí),效果整體不如TF-IDF的特征提取效果(見(jiàn)圖3)。

圖2 基于TF-IDF特征提取的道岔故障診斷模型訓(xùn)練結(jié)果

圖3 基于Word2Vec特征提取的道岔故障診斷模型訓(xùn)練結(jié)果

針對(duì)高鐵道岔故障樣本數(shù)據(jù),選取的特征提取模型不一定是非常復(fù)雜的Word2Vec模型,需要結(jié)合數(shù)據(jù)特點(diǎn)選擇合適的特征提取方法;針對(duì)高鐵道岔故障樣本數(shù)據(jù)類別不平衡的問(wèn)題,可以通過(guò)自動(dòng)生成較少樣本數(shù)據(jù)的方式以及分類模型融合的方式進(jìn)行解決,此次不做深入研究。

5 結(jié)束語(yǔ)

高速鐵路道岔故障文本分類是典型的垂直行業(yè)文本分類問(wèn)題,提出基于SVM的高鐵道岔故障分類模型,彌補(bǔ)了對(duì)非結(jié)構(gòu)化道岔故障文本數(shù)據(jù)分析缺乏等問(wèn)題,避免了依靠個(gè)人經(jīng)驗(yàn)進(jìn)行道岔故障分類的弊端,為高鐵電務(wù)安全管理提供一種客觀和科學(xué)高效的技術(shù)手段,對(duì)規(guī)范高鐵道岔故障管理、提高作業(yè)標(biāo)準(zhǔn)和道岔設(shè)備運(yùn)用質(zhì)量具有重要意義。然而,在道岔故障文本數(shù)據(jù)量較少的情況下,通過(guò)TF-IDF和Word2Vec等特征工程獲得的向量表示,可為故障自動(dòng)分類提供參考??紤]到道岔故障文本數(shù)據(jù)量較大時(shí),傳統(tǒng)的SVM、邏輯回歸等分類器難以取得較好效果,基于深度學(xué)習(xí)方法進(jìn)行特征的自動(dòng)學(xué)習(xí)是未來(lái)的研究方向。

猜你喜歡
特征向量道岔故障診斷
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
基于包絡(luò)解調(diào)原理的低轉(zhuǎn)速滾動(dòng)軸承故障診斷
中低速磁浮道岔與輪軌道岔的差異
朔黃鐵路30t重載道岔應(yīng)用及強(qiáng)化措施
工電道岔結(jié)合部聯(lián)合管理機(jī)制的探討
一類三階矩陣特征向量的特殊求法
場(chǎng)間銜接道岔的應(yīng)用探討
數(shù)控機(jī)床電氣系統(tǒng)的故障診斷與維修
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用