国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MCNN的鐵路信號(hào)設(shè)備故障短文本分類方法研究

2019-12-18 06:30:08周慶華李曉麗
關(guān)鍵詞:池化卷積向量

周慶華,李曉麗

基于MCNN的鐵路信號(hào)設(shè)備故障短文本分類方法研究

周慶華,李曉麗

(蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070)

鐵路運(yùn)營(yíng)維護(hù)中產(chǎn)生了大量非結(jié)構(gòu)化的文本數(shù)據(jù),針對(duì)這些文本信息,提出一種基于Word2Vec+MCNN的文本挖掘分類方法。首先采用Word2Vec訓(xùn)練故障詞向量;其次豐富詞向量矩陣信息,使網(wǎng)絡(luò)模型從多方位的特征表示中學(xué)習(xí)輸入句子的故障信息;最后使用多池化卷積神經(jīng)網(wǎng)絡(luò)模型作為故障分類的方法,得到更多全面的隱藏信息。通過(guò)與傳統(tǒng)分類器以及其他類型的多池化卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)驗(yàn)對(duì)比,得出本文的模型可以更好地達(dá)到分類效果,具有較高的分類準(zhǔn)確率。

故障分類;信號(hào)設(shè)備;Word2Vec;卷積神經(jīng)網(wǎng)路

隨著信息技術(shù)以及存儲(chǔ)介質(zhì)的高速發(fā)展,人們所接觸的文本信息正在逐步遞增,在處理這些人工記錄的文本信息時(shí),所消耗的時(shí)間和精力也越來(lái)越多。尤其是鐵路方面,鐵路信號(hào)系統(tǒng)在運(yùn)營(yíng)維護(hù)中產(chǎn)生海量故障數(shù)據(jù),這些故障現(xiàn)象描述等都以非結(jié)構(gòu)化的文本形式記錄,維修人員在處理故障時(shí)仍然依靠經(jīng)驗(yàn)以及專家知識(shí)處理,這種方式經(jīng)常由于交流不當(dāng)、延誤事故處理時(shí)間而導(dǎo)致重大安全隱患。這些故障文本記錄數(shù)量龐大,無(wú)論是電子版還是紙質(zhì)版在存儲(chǔ)上都帶來(lái)了不必要的負(fù)擔(dān),并且維修維護(hù)以及管理人員都沒(méi)有對(duì)這些海量數(shù)據(jù)重視起來(lái),未能合理利用,造成資源的堆積浪費(fèi)。鐵路信號(hào)設(shè)備是行車安全的重要保障,在鐵路大數(shù)據(jù)應(yīng)用平臺(tái)下,使用文本挖掘技術(shù)分析故障文本,對(duì)故障信息準(zhǔn)確分類,這既能對(duì)故障處理做到及時(shí)預(yù)判,又能對(duì)維護(hù)信號(hào)設(shè)備提供技術(shù)支撐,也為管理人員在存儲(chǔ)故障信息時(shí)提供便利。趙陽(yáng)等[1]將文本挖掘技術(shù)運(yùn)用在車載設(shè)備故障診斷中,楊連報(bào)等[2]對(duì)這些不平衡文本數(shù)據(jù)進(jìn)行信號(hào)設(shè)備智能故障分類,利用文本挖掘技術(shù)處理鐵路信號(hào)設(shè)備故障診斷取得了些許成就。對(duì)于文本分類,傳統(tǒng)的分類方法有向量空間法、樸素貝葉斯和支持向量機(jī)算法[3]等。這些方法在文本分類中都取得了不錯(cuò)的成果,但是由于部分?jǐn)?shù)據(jù)維數(shù)過(guò)高、數(shù)據(jù)稀疏,往往不能正確表示,丟失大量詞語(yǔ)的語(yǔ)法信息和相關(guān)的語(yǔ)義信息。近年來(lái),深度學(xué)習(xí)蓬勃發(fā)展,在自然語(yǔ)言處理中也得到了很好應(yīng)用。Mikolov等[4?5]利用Word2Vec工具在語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,得到了短文本中詞的分布式表示。Mikolov等[6]提出提取多粒度主題的方案,可更好地描述短文本語(yǔ)義信息。Kim[7]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于句子模型的構(gòu)建中。Socher等[8]提出基于遞歸自編碼的半監(jiān)督學(xué)習(xí)模型,有效學(xué)習(xí)短文本中多詞短語(yǔ)及句子層次的特征向量表示。He等[9]采用多種不同類型的卷積和池化,實(shí)現(xiàn)對(duì)句子的特征表示?;谝陨涎芯浚疚尼槍?duì)鐵路故障文本記錄數(shù)據(jù),通過(guò)Word2Vec訓(xùn)練大量中文詞向量,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱CNN)模型,實(shí)現(xiàn)信號(hào)設(shè)備的故障分類。為提高分類準(zhǔn)確率,本文提出采用并行的多池化卷積神經(jīng)網(wǎng)絡(luò)模型,確保獲取完整的故障信息,調(diào)整不同的參數(shù),提高分類效果。

1 文本數(shù)據(jù)預(yù)處理

鐵路信號(hào)設(shè)備主要包含調(diào)度集中CTC (Centralized Traffic Control)設(shè)備、列車調(diào)度指揮系統(tǒng)TDCS(Train Operation Dispatching Command System)設(shè)備、列車運(yùn)行監(jiān)控裝置LKJ、車載設(shè)備、聯(lián)鎖設(shè)備、閉塞設(shè)備、道岔、軌道電路、信號(hào)機(jī)和電源屏設(shè)備[2]。本文按照設(shè)備功能及現(xiàn)象,選取某鐵路局2015~2016年所記錄的故障文本數(shù)據(jù)。根據(jù)目前已獲取的數(shù)據(jù),本文舍棄小類別數(shù)據(jù)以防止出現(xiàn)過(guò)擬合現(xiàn)象,基于已有的數(shù)據(jù)將故障類別分為4類,即車載設(shè)備故障、道岔故障、軌道電路故障和信號(hào)機(jī)故障。

圖1是使用卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行故障分類的流程圖。首先對(duì)故障文本使用Word2Vec詞向量化,訓(xùn)練好的詞向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,使用本文提出的多池化卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行信號(hào)設(shè)備故障分類。

圖1 故障分類流程

1.1 故障詞庫(kù)

對(duì)于文本處理,首先需要對(duì)句子進(jìn)行分詞。不同的語(yǔ)言文本,處理方法也是不同的。中文分詞便是將一個(gè)漢字序列(句子)切分成一個(gè)一個(gè)單獨(dú)的詞[10],句子的表示是否精確,也要看分詞是否準(zhǔn)確,分詞精度對(duì)后續(xù)應(yīng)用影響很大[11]。

本文使用jieba分詞工具,對(duì)文本進(jìn)行分詞。jieba分詞字典庫(kù)中對(duì)于鐵路信號(hào)設(shè)備故障文檔尚無(wú)這樣的標(biāo)準(zhǔn)詞庫(kù),這就需要建立一個(gè)自定義的故障詞典庫(kù)。剔除“到”和“的”等無(wú)意義的虛詞,將對(duì)故障描述有意義的詞語(yǔ)保留[13]。詞典包括:“紅光帶、道岔”等詞。

1.2 Word2Vec

故障文本如何表示,關(guān)鍵是構(gòu)建詞向量空間。而Word2vec通過(guò)訓(xùn)練,可以把對(duì)文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算,向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度。Word2vec通常采用一個(gè)3層的神經(jīng)網(wǎng)絡(luò),輸入層?隱藏層?輸出層[12]。Word2Vec一般分為CBOW (Continuous Bag-of-Words)與Skip-gram 2種模型。

CBOW模型就是通過(guò)上下文詞來(lái)預(yù)測(cè)中心詞。而Skip-gram模型是利用中心詞來(lái)預(yù)測(cè)上下文詞。一般來(lái)說(shuō),CBOW模型算法效率高,而Skip-gram模型訓(xùn)練詞向量準(zhǔn)確率高。對(duì)于進(jìn)行鐵路信號(hào)設(shè)備故障分類時(shí),為提高分類準(zhǔn)確率,所以選擇Skip-gram模型。圖2是Skip-gram網(wǎng)絡(luò)模型。

圖2 Skip-gram網(wǎng)絡(luò)模型圖

假設(shè)有一條分好詞的故障句子,產(chǎn)生了一系列詞(1),(2),…,()。Skip-gram模型的目的就是使式(1)的值最大化:

其中:表示窗口的長(zhǎng)度,即當(dāng)前詞()的前面的個(gè)詞和后面的的詞。

1.3 詞向量矩陣的生成

將句子經(jīng)過(guò)jieba分詞后,就形成了一個(gè)由多個(gè)詞所構(gòu)成的句子。分詞后的句子={1,2,3,…,m},它們之間都是以一個(gè)⊕來(lái)連接。長(zhǎng)度為的句子就可以表示為:

使用Skip-gram網(wǎng)絡(luò)模型,訓(xùn)練出詞向量。例如,“道岔”一詞,詞向量維數(shù)200維(一般維度高的詞向量可以更好地對(duì)語(yǔ)義特征進(jìn)行描述,但同時(shí)也增大了過(guò)擬合的風(fēng)險(xiǎn)。本文數(shù)據(jù)都是以短文本為主,所以采用200維),對(duì)應(yīng)的詞向量[?1.322 135 78×10?1,1.723 149 23×10?2,…,2.073 596 42×10?1]。將所獲得詞向量縱向累加,得到了整句話的表示,也即獲得了詞向量矩陣。根據(jù)句子的最大長(zhǎng)度,若為,則組合成一個(gè)*的二維矩陣,為詞向量維數(shù)。

2 基于多池化卷積神經(jīng)網(wǎng)絡(luò)故障分類

2.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是目前自然語(yǔ)言處理中應(yīng)用較為廣泛的一種深度學(xué)習(xí)結(jié)構(gòu),其網(wǎng)路層數(shù)深,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,存在多層隱藏層[13]。

整個(gè)網(wǎng)絡(luò)模型分為4層。

第1層是嵌入層(Embedding Layer)。對(duì)于數(shù)據(jù)集里所有的詞,每個(gè)詞都可以表示成一個(gè)向量,所以就得到了一個(gè)嵌入矩陣*(為文本的最大長(zhǎng)度,為詞向量的維數(shù)),矩陣中的每一行詞向量代表一個(gè)完整的單詞。

第2層是卷積層(Convolution Layer)。對(duì)文本數(shù)據(jù)構(gòu)建卷積核時(shí),卷積核的寬度應(yīng)該剛好等于輸入矩陣的寬度。將卷積核通過(guò)從上往下的滑動(dòng)掃描整個(gè)數(shù)據(jù),得到卷積輸出。

對(duì)于窗口以為長(zhǎng)度、為寬度的卷積核,當(dāng)其作用于句子的第至(+?1)個(gè)單詞區(qū)間時(shí),結(jié)果輸出可以用式(3)來(lái)形式化表示:

其中:是卷積核的權(quán)重參數(shù);是激活函數(shù);是卷積層的偏置項(xiàng),∈R,即實(shí)數(shù)集,偏置項(xiàng)是一個(gè)常量,可以隨著模型的訓(xùn)練自動(dòng)調(diào)整。最終的卷積輸出可以表示為式(4):

第3層是池化層(Max-Pooling Layer)。池化層主要是將卷積出來(lái)的特征向量進(jìn)行處理,是不同長(zhǎng)度的句子經(jīng)過(guò)卷積之后,特征向量變成定長(zhǎng)的表示[14]。通常采用最大池化策略得到每一個(gè)卷積輸出向量的最大值,即得到了文本的特征表示[15]。將這些最大值連接,作為全連接層的輸入。這里的最大池化策略就是采用最大池化函數(shù),如式(5)所示:

第4層是全連接層。一般通過(guò)softmax函數(shù)得到每一個(gè)文本的分類。softmax函數(shù)如式(6):

2.2 多池化卷積神經(jīng)網(wǎng)絡(luò)模型的故障分類

本文提出一種多池化的卷積神經(jīng)網(wǎng)絡(luò)模型,記為MCNN,以此更精確地進(jìn)行故障分類。將每條故障記錄中特定的故障特征詞進(jìn)行標(biāo)記,讓模型充分利用對(duì)故障分類有重要作用的詞語(yǔ),重點(diǎn)學(xué)習(xí)這些詞語(yǔ)的特征信息。重點(diǎn)標(biāo)記的詞主要是對(duì)故障判別影響比較大的詞,例如故障現(xiàn)象描述:“接車線內(nèi)無(wú)機(jī)車車輛占用,控制臺(tái)顯示接車線軌道電路紅光帶,導(dǎo)致進(jìn)站信號(hào)機(jī)不能開(kāi)放”,對(duì)這句話以一個(gè)字符串序列的形式,對(duì)當(dāng)中的“軌道電路”、“紅光帶”、“信號(hào)機(jī)”詞做標(biāo)記,突出句子重點(diǎn)信息。通過(guò)向量化的操作,將標(biāo)記的詞映射為一個(gè)維向量Tag,即Tag∈R,對(duì)沒(méi)有標(biāo)記的記為0。同時(shí),確定標(biāo)記詞的位置。同一個(gè)詞出現(xiàn)的位置不同,所包含的信息也就不同。計(jì)算句子中第個(gè)標(biāo)記詞的位置值[15],采用式(7):

其中:Pos為標(biāo)記詞在句子中的位置;為標(biāo)記詞在句子中的位置;()為句子長(zhǎng)度;max為輸入的句子最大長(zhǎng)度[15]。將每個(gè)位置值映射到一個(gè)維向量,即Pos∈R ,其中,os為第個(gè)位置值的向量。本文對(duì)于句子的輸入設(shè)定一個(gè)最大長(zhǎng)度max,對(duì)于長(zhǎng)度小于max的句子用0向量補(bǔ)全。

本文以詞為單位,根據(jù)圖3所示,輸入層以詞向量矩陣1,詞向量與標(biāo)記矩陣組成的組合矩陣2,詞向量,標(biāo)記矩陣以及位置矩陣所組成的組合矩陣3,具體見(jiàn)式(8)~(10)所示。通過(guò)這3種矩陣,使得模型的輸入層更為多樣化,使得特征之間的聯(lián)系更為緊密,并且能更精確、更全面地捕獲到故障特征信息。

卷積層通過(guò)并行卷積操作獲得句子組合語(yǔ)義信息,經(jīng)過(guò)不同的卷積操作生成不同的特征,保留了詞與詞之間的聯(lián)系。

池化層中,傳統(tǒng)的CNN在池化操作中,對(duì)每個(gè)特征向量只能含一個(gè)最大值表示該句子的一個(gè)事件,而在故障診斷中,一個(gè)句子中可能含有2個(gè)或多個(gè)故障干擾詞語(yǔ),所以本文通過(guò)多池化層來(lái)處理該問(wèn)題。根據(jù)不同窗口大小的濾波器所得的特征向量,在進(jìn)行池化時(shí),采用并行的三池化方式,選擇最大池化函數(shù)和平均池化函數(shù)的組合方式。和傳統(tǒng)的CNN相比,MCNN在不丟失最大池化值的基礎(chǔ)上可以保留更多有價(jià)值的信息。其中,平均池化函數(shù)公式如下:

由多池化得到每個(gè)特征向量池化后的值,再將這些值連接一同送入全連接層。整個(gè)模型以并行化的方式提取特征,最后在全連接層輸出分類結(jié)果。

與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比,MCNN模型在輸入時(shí),以不同的特征組合形式輸入,可以使訓(xùn)練過(guò)程獲取更多語(yǔ)義信息,加強(qiáng)特征之間相互聯(lián)系,保證重要信息被提取到。同時(shí),模型在訓(xùn)練過(guò)程中也能對(duì)多個(gè)特征進(jìn)行參數(shù)調(diào)整,降低網(wǎng)絡(luò)模型訓(xùn)練損耗。卷積后使得模型學(xué)習(xí)到更加多樣化的信息。利用池化層對(duì)特征信息進(jìn)行過(guò)濾提取時(shí),使用并行的三池化方式,最大池化提取出經(jīng)卷積后的特征矩陣中最大值,平均池化函數(shù)提取出卷積后特征矩陣中的平均值。對(duì)這2種池化算法相結(jié)合,以三池化的方式,可以獲取比較全面的特征信息,不至于忽略掉次要信息。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)準(zhǔn)備

本文實(shí)驗(yàn)的測(cè)試環(huán)境是在Windows10系統(tǒng)下進(jìn)行,使用的CPU是Inter Core i7-8750H 2.2 GHZ,內(nèi)存8 GB,編程語(yǔ)言為Python3.5.4,開(kāi)發(fā)工具為Pycharm,使用到的深度學(xué)習(xí)框架為T(mén)ensorflow。使用Python提供的gensim庫(kù),完成文檔的詞向量化。

本文對(duì)之前所提取到的故障數(shù)據(jù)總共3 204條,將其中的3 000條作為訓(xùn)練集,204條作為測(cè)試集,通過(guò)損失率和準(zhǔn)確率評(píng)價(jià)指標(biāo)對(duì)比分析。

3.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

本文主要以準(zhǔn)確率(Accuracy)作為評(píng)價(jià)指標(biāo)。正確率是最常見(jiàn)的評(píng)價(jià)指標(biāo),通常說(shuō),正確率越高,分類器越好。分類正確率是分類器正確分類樣本數(shù)與測(cè)試數(shù)據(jù)集總樣本數(shù)之比。

3.3 實(shí)驗(yàn)設(shè)計(jì)

本文采用Word2Vec+MCNN模型,這里的Word2Vec用到的是Skip-gram模型,對(duì)鐵路設(shè)備故障數(shù)據(jù)進(jìn)行了分類。

圖3 多池化卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

關(guān)于卷積神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)參數(shù)設(shè)定,卷積核大小選取3,4和5,維數(shù)128維。卷積核數(shù)目選取128。為防止過(guò)擬合,使用L2正則化對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行約束,即在原來(lái)?yè)p失函數(shù)基礎(chǔ)上加上權(quán)重參數(shù)的平方和,限制參數(shù)過(guò)多或者過(guò)大,避免模型更加復(fù)雜。同時(shí)模型訓(xùn)練過(guò)程中引入Dropout策略,即每次迭代中隨機(jī)放棄一部分訓(xùn)練好的參數(shù),以防止過(guò)擬合。經(jīng)過(guò)交叉驗(yàn)證,Dropout值為0.5,隨機(jī)生成的網(wǎng)絡(luò)結(jié)構(gòu)最多,效果最好。Batch值是批處理參數(shù),據(jù)經(jīng)驗(yàn)取值為64時(shí),可以確保尋找到最優(yōu)解的同時(shí)加快訓(xùn)練速度。實(shí)驗(yàn)中,詞向量維數(shù)200維,詞性特征為50維,位置特征為10維,Word2Vec采用默認(rèn)參數(shù)。

3.4 實(shí)驗(yàn)結(jié)果分析

3.4.1 Word2Vec+CNN模型

為驗(yàn)證Word2Vec+CNN模型的效果,本文實(shí)驗(yàn)選取傳統(tǒng)的樸素貝葉斯(Naive Bayes,簡(jiǎn)稱NB)模型與支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)模型作對(duì)比。在采取數(shù)據(jù)集相同的情況下,為排除由于特征構(gòu)建方式不同導(dǎo)致實(shí)驗(yàn)結(jié)果無(wú)法對(duì)比,所以對(duì)于傳統(tǒng)模型也都是使用Word2Vec訓(xùn)練詞向量,結(jié)果如表1所示。

表1 不同分類模型的整體平均Loss值及Accuracy值

由表1中可以得出,SVM比CNN模型損失率較低,但是兩者之間差別不是很大,從準(zhǔn)確率上來(lái)看,CNN 模型比NB模型提高了1.2%,比SVM模型提高了3.9%。表明使用CNN模型可以有效的提高分類效果。由此可見(jiàn),CNN模型能夠自主地提取并學(xué)習(xí)到更多的分類特征,這比傳統(tǒng)的機(jī)器學(xué)習(xí)模型更有優(yōu)勢(shì),同時(shí)也提高了分類性能。

3.4.2 Word2Vec+MCNN模型

實(shí)驗(yàn)中,在進(jìn)行多池化時(shí),分別采用3個(gè)最大池化策略、3個(gè)平均池化策略、2個(gè)最大池化策略+平均池化混合策略這3種池化方法作對(duì)比,具體結(jié)果如表2所示。

表2 不同池化模型的整體平均Loss值及Accuracy值

由表2中可以清晰地看出,多池化卷積神經(jīng)網(wǎng)絡(luò)模型分類效果明顯比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型效果好。從分類準(zhǔn)確率上看,Word2Vec+MCNN1比Word2Vec+CNN模型由0.915提高到0.932,整整提高了1.7%,損失率由原來(lái)的0.205降到0.184,降了2.1%。同樣地,Word2Vec+MCNN2和Word2Vec +MCNN3都比Word2Vec+CNN模型的分類效果好。對(duì)于不同池化模型,對(duì)比表1和表2,可以看出,無(wú)論哪種形式的多池化卷積神經(jīng)網(wǎng)絡(luò)都要比傳統(tǒng)的分類模型分類效果好,且具有較高的分類準(zhǔn)確率,Word2Vec+MCNN1比NB分類模型準(zhǔn)確率提高了2.9%,而損失率直接降低了5.3%。對(duì)比內(nèi)部不同的池化方式,Word2Vec+MCNN1模型無(wú)論是從準(zhǔn)確率還是損失率上看都比其他2種池化模型好。

Word2Vec+MCNN1模型能夠得到較高的準(zhǔn)確率、較好的分類效果主要原因是:1) 使用Word2Vec訓(xùn)練詞向量。Word2Vec訓(xùn)練詞向量,可以控制特征向量的維數(shù),解決維數(shù)災(zāi)難問(wèn)題,不會(huì)忽略詞與詞在文本中的相對(duì)位置關(guān)系,而且還保留了詞與詞之間的語(yǔ)義關(guān)系。2) 使用卷積神經(jīng)網(wǎng)絡(luò)分類。以并行的多通道卷積模式,捕獲到重點(diǎn)信息詞。采用三池化方式,提取到比較全面的信息,不至于把句中次重要的信息忽略。在訓(xùn)練過(guò)程中,采用L2正則化和Dropout策略防止陷入局部最優(yōu),避免過(guò)擬合現(xiàn)象,同時(shí)也得到了較好的分類效果。

4 結(jié)論

1) 鐵路信號(hào)設(shè)備是鐵路行車安全的重要保障,使用文本挖掘技術(shù)為維護(hù)信號(hào)設(shè)備的正常運(yùn)行提供輔助決策,為管理人員分析存儲(chǔ)提供技術(shù)支撐。本文通過(guò)所采集到的鐵路信號(hào)文本數(shù)據(jù)對(duì)鐵路信號(hào)故障設(shè)備進(jìn)行分類。由于個(gè)別設(shè)備故障次數(shù)比較少,所以只對(duì)常見(jiàn)的幾種故障設(shè)備進(jìn)行了分類。

2) 針對(duì)鐵路故障文本記錄數(shù)據(jù),首先使用jieba分詞工具進(jìn)行分詞,然后采用本文提出的Word2Vec+MCNN模型進(jìn)行分類,通過(guò)NB和SVM傳統(tǒng)分類器以及各MCNN模型的對(duì)比,驗(yàn)證模型的準(zhǔn)確性,最終得出Word2Vec+MCNN(max*2+ave)模型更能達(dá)到最優(yōu)分類效果。同時(shí)也為今后鐵路信號(hào)設(shè)備分類提供了新方法和新思路。

[1] 趙陽(yáng), 徐田華. 基于文本挖掘的高鐵信號(hào)系統(tǒng)車載設(shè)備故障診斷[J]. 鐵道學(xué)報(bào), 2015, 37(8): 53?59. ZHAO Yang, XU Tianhua. Fault diagnosis of vehicle equipment in high-speed railway signal system based on text mining[J]. Journal of the China Railway Society, 2015, 37(8): 53?59.

[2] 楊連報(bào), 李平, 薛蕊, 等. 基于不平衡文本數(shù)據(jù)挖掘的鐵路信號(hào)設(shè)備故障智能分類[J]. 鐵道學(xué)報(bào), 2018, 40(2): 59?66. YANG Lianbao, LI Ping, XUE Rui, et al. Intelligent classification of railway signal equipment faults based on unbalanced text data mining[J]. Journal of the China Railway Society, 2018, 40(2): 59?66.

[3] 朱磊. 基于Word2Vec詞向量的文本分類研究[D]. 重慶: 西南大學(xué), 2017. ZHU Lei. Text classification based on word2vec word vector[D]. Chongqing: Southwest University, 2017.

[4] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]// Advances in Neural Information Processing Systems, 2013: 3111?3119.

[5] Chen M, Shen D, Shen D. Short text classification improved by learning multi-granularity topics[C]// International Joint Conference on Artificial Intelligence. AAAI Press, 2011: 1776?1781.

[6] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[C]// [2014?02? 10].http://arxiv.org/pdf/1301.3781.pdf.

[7] Kim Y. Convolutional neural networks for sentence classification[C]// Proceedings of the 2014 Conference on Empirical Mathods in Natural Language Processing. Stroudsburg: ACL, 2014: 1746?1751.

[8] Socher R, Pennington J, HUANG E H, et al. Semi- supervised recursive autoencoders for predicting sentiment distributions[C]// Conference on Empirical Methods in Natural Language Processing, EMNLP 2011, Edinburgh, Uk, A Meeting of Sigdat, A Special Interest Group of the ACL. DBLP, 2011: 151?161.

[9] He H, Gimpel K, Lin J. Multi-perspective sentence similarity modeling with convolutional neural networks [C]// Conference on Empirical Methods in Natural Language Processing, 2015: 1576?1586.

[10] 李心蕾, 王昊, 劉小敏, 等. 面向微博短文本分類的文本向量化方法比較研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2018, 2(8): 41?50. LI Xinlei, WANG Hao, LIU Xiaomin, et al. A Comparative study of text vectorization methods for microblog short text classification[J]. Data Analysis and Knowledge Discovery, 2018, 2(8): 41?50.

[11] 孫璇. 基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法研究[D]. 上海: 上海師范大學(xué), 2018. SUN Xuan. Research on text classification method based on convolutional neural network[D]. Shanghai: Shanghai Normal University, 2018.

[12] 周順先, 蔣勵(lì), 林霜巧, 等. 基于Word2vector的文本特征化表示方法[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2018, 30(2): 272?279. ZHOU Shunxian, JIANG Li, LIN Shuangqiao, et al. Text characterization representation based on Word2vector[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2018, 30(2): 272?279.

[13] 盧玲, 楊武, 楊有俊, 等. 結(jié)合語(yǔ)義擴(kuò)展和卷積神經(jīng)網(wǎng)絡(luò)的中文短文本分類方法[J]. 計(jì)算機(jī)應(yīng)用, 2017, 37(12): 3498?3503. LU Ling, YANG Wu, YANG Youjun, et al. A Chinese short text classification method based on semantic extension and convolutional neural network[J]. Journal of Computer Applications, 2017, 37(12): 3498?3503.

[14] 石逸軒. 基于深度學(xué)習(xí)的文本分類技術(shù)研究[D]. 北京:北京郵電大學(xué), 2018. SHI Yixuan. Research on text classification technology based on deep learning[D]. Beijing: Beijing University of Posts and Telecommunications, 2018.

[15] 陳珂, 梁斌, 柯文德, 等. 基于多通道卷積神經(jīng)網(wǎng)絡(luò)的中文微博情感分析[J]. 計(jì)算機(jī)研究與發(fā)展, 2018, 55(5): 945?957. CHEN Ke, LIANG Bin, KE Wende, et al. Sentiment analysis of Chinese weibo based on multi-channel convolutional neural network[J]. Journal of Computer Research and Development, 2018, 55(5): 945?957.

Research on short text classification method of railway signalequipment fault based on MCNN

ZHOU Qinghua, LI Xiaoli

(School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China)

There are a lot of unstructured text data in railway operation and maintenance. For this text information, this article proposes a text mining classification method based on Word2Vec+MCNN. Firstly, the Word2Vec was used to train the fault word vector. Secondly, the word vector matrix information was enriched to enable the network model to learn the fault information of input sentences from the multi-dimensional feature representation. Finally, the multi-pooling convolutional neural network model was used as a fault classification method to acquire more comprehensive hidden information. Compared with the traditional classifiers and other types of multi-pooling convolutional neural network model experiments, it is concluded that the model can achieve better classification effect and higher classification accuracy.

fault classification; signal equipment;Word2Vec; convolution neural network

U284.92

A

1672 ? 7029(2019)11? 2859 ? 07

10.19713/j.cnki.43?1423/u.2019.11.027

2019?02?21

國(guó)家自然科學(xué)基金資助項(xiàng)目(61763025)

周慶華(1971?),女,遼寧沈陽(yáng)人,副教授,從事機(jī)器學(xué)習(xí)研究;E?mail:kzlll@foxmail.com

(編輯 陽(yáng)麗霞)

猜你喜歡
池化卷積向量
面向神經(jīng)網(wǎng)絡(luò)池化層的靈活高效硬件設(shè)計(jì)
基于Sobel算子的池化算法設(shè)計(jì)
向量的分解
卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
聚焦“向量與三角”創(chuàng)新題
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
向量垂直在解析幾何中的應(yīng)用
图片| 沙雅县| 余庆县| 松潘县| 南汇区| 富锦市| 商南县| 宜丰县| 昭苏县| 衡南县| 乌什县| 德化县| 盐亭县| 双江| 昭苏县| 囊谦县| 行唐县| 冀州市| 阿尔山市| 宜丰县| 乐清市| 阿拉善右旗| 牟定县| 信宜市| 永泰县| 中西区| 许昌市| 鸡泽县| 广元市| 德兴市| 黔南| 沂南县| 东丽区| 孝昌县| 巴青县| 沽源县| 宿松县| 长泰县| 巴彦县| 虹口区| 泊头市|