張恒志,蔣雨良
(1.中車青島四方機(jī)車車輛股份有限公司,山東 青島266109;2.西南交通大學(xué)機(jī)械工程學(xué)院,四川 成都610031)
時(shí)間序列是各領(lǐng)域內(nèi)都十分常見(jiàn)的數(shù)據(jù)形式,考慮到趨勢(shì)、狀態(tài)預(yù)測(cè)的重要意義,針對(duì)時(shí)間序列的預(yù)測(cè)、異常檢測(cè)已有不同程度的發(fā)展[1]。軸承是軌道車輛重要的旋轉(zhuǎn)部件,隨著列車在交路中運(yùn)行,安裝在車輛走行部上的各個(gè)軸承的溫度傳感器所采集溫度呈現(xiàn)因各項(xiàng)激勵(lì)而產(chǎn)生的不同變化[2]。異常的軸承溫升表征軸承運(yùn)行狀態(tài)異常,監(jiān)測(cè)分析軸承溫度及相關(guān)數(shù)據(jù)能有效檢測(cè)軸承異常,幫助找出溫升相關(guān)因素,診斷軸承異常?;谳S承溫度的時(shí)間序列變化趨勢(shì)進(jìn)行建模,盡可能地提前對(duì)軸承進(jìn)行預(yù)警,提前診斷軸承是否故障,預(yù)防重大安全事故對(duì)列車運(yùn)行安全具有重要意義[3]。
傳統(tǒng)機(jī)器學(xué)習(xí)方法,如逐步線性回歸[4]、支持向量機(jī)[5]等方法在列車履歷數(shù)據(jù)上的應(yīng)用具有良好的預(yù)測(cè)結(jié)果。深度學(xué)習(xí)由于其優(yōu)秀的特征學(xué)習(xí)能力,在軸溫預(yù)測(cè)領(lǐng)域引起了越來(lái)越多的關(guān)注。針對(duì)時(shí)間序列的預(yù)測(cè)模型也在逐步發(fā)展,從初始的循環(huán)神經(jīng)網(wǎng)絡(luò)[6-7](Recurrent Neural Networks,RNN)到使用雙向、深度[8-9]的概念進(jìn)一步增加網(wǎng)絡(luò)的性能再到已在文本識(shí)別、時(shí)間序列預(yù)測(cè)方面普遍使用的長(zhǎng)短時(shí)記憶[10](Long Short-Term Memory networks,LSTM)、門(mén)控循環(huán)單元[11](Gated Recurrent Unit networks,GRU)的提出,此類網(wǎng)絡(luò)的實(shí)質(zhì)上均是一個(gè)基于馬爾科夫決策過(guò)程的遞推框架。深度學(xué)習(xí)作為前沿的機(jī)器學(xué)習(xí)技術(shù),如運(yùn)用LSTM 建立短時(shí)機(jī)車軸溫預(yù)測(cè)模型[12],能達(dá)到比傳統(tǒng)機(jī)器學(xué)習(xí)方法更優(yōu)的效果。
Google 所提出的Transformer 深度學(xué)習(xí)模型[13],拋棄了逐步遞推的方式,使用注意力機(jī)制作為基礎(chǔ),在機(jī)器翻譯領(lǐng)域能夠達(dá)到更優(yōu)效果。但單純的注意力機(jī)制計(jì)算復(fù)雜程度很高,這使得長(zhǎng)序列模型中的顯存占用量和計(jì)算時(shí)間居高不下。
有鑒于此,本文提出基于稀疏注意力機(jī)制的城軌車輛軸溫預(yù)測(cè)模型。運(yùn)用稀疏的特性改進(jìn)注意力機(jī)制,降低計(jì)算復(fù)雜度和顯存占用量,將診斷流程分為線下訓(xùn)練、在線預(yù)測(cè)和故障診斷三個(gè)步驟。首先訓(xùn)練一個(gè)軸承的模型,將該軸承的模型遷移到其他軸承上,再將改進(jìn)后的注意力網(wǎng)絡(luò)模型運(yùn)用在城軌車輛上對(duì)軸承溫度進(jìn)行預(yù)測(cè),該模型能夠在長(zhǎng)時(shí)間序列輸入上達(dá)到更優(yōu)的精度,并能夠預(yù)測(cè)軸承的溫度變化。
稀疏是結(jié)合了空洞(Atrous)和局部(Local)的概念??斩丛从诳斩淳矸e(Atrous Convolution),對(duì)數(shù)據(jù)的相關(guān)性進(jìn)行了約束,要求在自注意力的相關(guān)性計(jì)算過(guò)程中,每個(gè)輸入元素只能和它的相對(duì)距離為d(設(shè)定值)倍數(shù)的元素關(guān)聯(lián);局部則是放棄了全局的關(guān)聯(lián),只和輸入元素前后距離為d的元素關(guān)聯(lián)。稀疏結(jié)合了兩者的概念,針對(duì)距離小于等于d的元素采用了局部注意力的方式,針對(duì)相對(duì)距離為不為1d,2d,…的元素,則將注意力置為0,因此,稀疏注意力能夠結(jié)合空洞和局部?jī)烧叩膬?yōu)勢(shì),既考慮了局部關(guān)聯(lián),又對(duì)全局關(guān)聯(lián)做出了改進(jìn),三種方式注意力對(duì)比如圖1 所示。
注意力的一般公式為:
圖1 各類注意力對(duì)比
在軸溫預(yù)測(cè)模型中,輸入為時(shí)間序列,為了對(duì)未來(lái)時(shí)間進(jìn)行遮擋,不讓網(wǎng)絡(luò)使用未來(lái)的信息作為輸入預(yù)知未來(lái),對(duì)注意力矩陣進(jìn)行處理,公式為:
在式(2)中,M表示對(duì)矩陣進(jìn)行Mask 掩碼編譯,將整個(gè)上三角陣元素置為-∞,軸溫預(yù)測(cè)模型中稀疏注意力的矩陣形式如圖2 所示,涂黑的方塊表示未來(lái)的信息,對(duì)角一列表示輸入數(shù)據(jù),白色的方塊表示注意力置為0。
圖2 稀疏注意力矩陣
遷移學(xué)習(xí)是把已經(jīng)訓(xùn)練好的模型的參數(shù)遷移到新的數(shù)據(jù)來(lái)幫助新模型訓(xùn)練的學(xué)習(xí)方式??紤]到大部分的數(shù)據(jù)或任務(wù)是存在相關(guān)性的,所以通過(guò)遷移學(xué)習(xí)可以將已經(jīng)學(xué)習(xí)到的模型參數(shù)分享給新的模型,從而加快優(yōu)化模型的學(xué)習(xí)效率而不用從零開(kāi)始。
fine-tune 是進(jìn)行遷移學(xué)習(xí)的一種手段。由于訓(xùn)練多個(gè)模型所消耗的時(shí)間太長(zhǎng)、計(jì)算資源不足時(shí),無(wú)法重頭開(kāi)始訓(xùn)練一個(gè)效果良好的模型。于是通過(guò)遷移學(xué)習(xí),將一個(gè)網(wǎng)絡(luò)的前幾層參數(shù)保持不變,因?yàn)榍皫讓訛橹饕崛√卣鳌?/p>
因此,我們也可以把這幾層當(dāng)作特征提取器,保持原有的權(quán)重不變,提取現(xiàn)有的特征??紤]到軸承均處于車輛的走行部,包括齒輪箱、軸箱、電機(jī)等多個(gè)測(cè)點(diǎn),承受相似的工況與激勵(lì),將模型進(jìn)行遷移,可大程度縮短訓(xùn)練所需時(shí)間,因此建立完第一個(gè)模型后,固定前幾層權(quán)重,調(diào)小學(xué)習(xí)率和迭代次數(shù),只訓(xùn)練最后一層,逐個(gè)訓(xùn)練模型,完成對(duì)城軌車輛的軸溫預(yù)測(cè)。
預(yù)測(cè)流程的構(gòu)建包括線下訓(xùn)練、在線預(yù)測(cè)和故障診斷三個(gè)部分,基于稀疏注意力機(jī)制的軸溫預(yù)測(cè)模型能夠保持對(duì)長(zhǎng)時(shí)間序列的注意力,因此本文所構(gòu)建的模型輸入為一個(gè)多維時(shí)間序列,輸出為未來(lái)一段時(shí)間內(nèi)的軸承溫度值,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
輸入數(shù)據(jù)先經(jīng)過(guò)隱層進(jìn)行編碼,再輸入稀疏注意力進(jìn)行注意力分配,最后結(jié)合注意力輸出,再次編碼得到結(jié)果。網(wǎng)絡(luò)為回歸任務(wù),使用MAPE作為網(wǎng)絡(luò)的損失函數(shù),其公式為:
式(3)中:MAPE的取值為[0,+∞],如果值為0 表示模型為完美模型,值越大則表示精度越低;n為樣本數(shù)量;為預(yù)測(cè)值;yi為實(shí)際值。
圖4 為整個(gè)診斷流程,線下訓(xùn)練時(shí),我們使用線下的數(shù)據(jù),先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括對(duì)缺失值進(jìn)行中位數(shù)填充、對(duì)跳變值進(jìn)行平滑處理以及將整個(gè)輸入進(jìn)行歸一化到[0,1]進(jìn)行無(wú)量綱處理三個(gè)部分。處理好的數(shù)據(jù)劃分成訓(xùn)練集和驗(yàn)證集,按照網(wǎng)絡(luò)結(jié)構(gòu)要求輸入網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,完成對(duì)首個(gè)軸承的網(wǎng)絡(luò)訓(xùn)練后,降低學(xué)習(xí)率和迭代次數(shù),逐個(gè)遷移到其他軸承上,完成對(duì)城軌車輛所有軸承溫度測(cè)點(diǎn)的建模,并完成線下訓(xùn)練過(guò)程。
線下將網(wǎng)絡(luò)全部訓(xùn)練完成后,在線預(yù)測(cè)時(shí)會(huì)逐個(gè)使用網(wǎng)絡(luò),在線數(shù)據(jù)經(jīng)車載系統(tǒng)傳回后,對(duì)數(shù)據(jù)同樣進(jìn)行預(yù)處理,并運(yùn)用網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),所預(yù)測(cè)的未來(lái)溫度結(jié)果會(huì)保存下來(lái),并在未來(lái)的實(shí)際溫度值傳回后進(jìn)行對(duì)比。對(duì)于正常結(jié)果,會(huì)再次等待車載系統(tǒng)傳回?cái)?shù)據(jù)進(jìn)行下一次對(duì)比;而異常結(jié)果會(huì)先定位到故障位置,要求車輛停車檢查,直至找到故障原因,排除故障才能繼續(xù)運(yùn)行。
圖4 診斷流程
采用某型城軌車輛的運(yùn)行數(shù)據(jù)作為數(shù)據(jù)集。為了模擬實(shí)際運(yùn)行環(huán)境以及線上線下交互的運(yùn)用模式,先將數(shù)據(jù)進(jìn)行拆分,大部分?jǐn)?shù)據(jù)作為線下訓(xùn)練的本地?cái)?shù)據(jù),進(jìn)行訓(xùn)練和驗(yàn)證完成對(duì)網(wǎng)絡(luò)的構(gòu)建,一小部分?jǐn)?shù)據(jù)模擬在線預(yù)測(cè)的情況,以測(cè)試網(wǎng)絡(luò)模型的精度。車軸不同位置的溫度取決于許多因素,例如城軌車輛的物理狀態(tài)(包括行駛速度和牽引力水平)、路徑特性(包括高度和坡度)、環(huán)境溫度和其他環(huán)境參數(shù)以及來(lái)自各種來(lái)源的干擾。選擇其中的一些主要參數(shù),并從部署在機(jī)車不同位置的數(shù)據(jù)傳感器收集時(shí)間序列數(shù)據(jù)。
本文所選擇的數(shù)據(jù)特征包括城軌車輛的運(yùn)行速度、環(huán)境溫度、各個(gè)軸上軸承測(cè)點(diǎn)溫度。如圖5 所示為各個(gè)數(shù)據(jù)特征的走勢(shì)。
圖5 城軌車輛數(shù)據(jù)集
本文設(shè)置學(xué)習(xí)率為0.001,遷移學(xué)習(xí)率為0.000 1,使用Adam 優(yōu)化器進(jìn)行優(yōu)化,迭代次數(shù)為1 000 次,遷移迭代次數(shù)為500 次,batch-size 為64,設(shè)置輸入長(zhǎng)度為300,輸出長(zhǎng)度為30,稀疏注意力設(shè)定值d為5,所有實(shí)驗(yàn)配置環(huán)境為T(mén)ensorflow 1.10.0、Keras 2.2.0 以及Python 3.6.2 進(jìn)行實(shí)驗(yàn),使用操作系統(tǒng)Windows10、CPU Intel 7-8550U@1.80GHz、GPU NVIDIA GeForce GTX 1050、內(nèi)存16G DDR4 的計(jì)算平臺(tái)進(jìn)行建模。
為了驗(yàn)證稀疏注意力模型能夠處理更長(zhǎng)的時(shí)間序列,設(shè)置3 組對(duì)比組,分別輸入輸出長(zhǎng)度為100、200、300,并將RNN、LSTM 與稀疏注意力一同進(jìn)行對(duì)比,對(duì)比結(jié)果如圖6所示。
圖6 序列長(zhǎng)度影響精度結(jié)果
對(duì)結(jié)果進(jìn)行分析:RNN 作為最初始的循環(huán)神經(jīng)網(wǎng)絡(luò),隨著序列長(zhǎng)度逐漸增加,MAPE也逐漸增加,精度降低,說(shuō)明隨著序列長(zhǎng)度增加循環(huán)神經(jīng)網(wǎng)絡(luò)的記憶能力逐漸降低;LSTM 在RNN 網(wǎng)絡(luò)的基礎(chǔ)上引入了門(mén)機(jī)制,隨著序列長(zhǎng)度的增加,LSTM 的記憶能力仍然會(huì)降低,但整體精度會(huì)高于RNN;稀疏注意力機(jī)制隨著序列長(zhǎng)度的增加,能夠運(yùn)用稀疏的特性記憶更長(zhǎng)的序列,驗(yàn)證結(jié)果表明,整個(gè)模型的精度在序列長(zhǎng)度增加后得到進(jìn)一步提升。
按照3.1 所設(shè)定的超參數(shù),先對(duì)第一個(gè)軸承進(jìn)行建模后遷移到其他軸承上,以軸箱軸承作為初始建模對(duì)象,逐個(gè)遷移到齒輪箱、電機(jī)的軸承。
遷移的效果如表1 所示。
表1 遷移前后精度
將軸箱軸承作為首先選用的軸承進(jìn)行訓(xùn)練,訓(xùn)練后的模型先在未遷移的情況下對(duì)其他軸承進(jìn)行了測(cè)試,通過(guò)MAPE的評(píng)價(jià)指標(biāo)可以看到,每個(gè)軸承需對(duì)應(yīng)不同的模型,單個(gè)軸承的模型應(yīng)用到其他類型的軸承會(huì)使得精度降低。將模型按照設(shè)定的迭代次數(shù)和精度進(jìn)行了遷移,遷移后各個(gè)軸承均有各自的模型,因此模型數(shù)量增加,同時(shí)精度均得到了提升。圖7 展示的是稀疏注意力模型所預(yù)測(cè)的結(jié)果,本文所構(gòu)建的稀疏注意力機(jī)制模型能夠預(yù)測(cè)未來(lái)30 min 的溫度變化情況,具有能夠捕捉溫度變化的能力。
圖7 預(yù)測(cè)結(jié)果
溫度預(yù)測(cè)可用于預(yù)測(cè)城軌車輛的軸承溫度,本文基于稀疏注意力機(jī)制模型,開(kāi)發(fā)了城軌車輛的軸承溫度預(yù)測(cè)框架,預(yù)測(cè)結(jié)果表明該模型基于輸入的多維時(shí)間序列能夠捕獲車軸溫度,預(yù)測(cè)模型的有效性在城軌車輛的實(shí)際運(yùn)行數(shù)據(jù)上得到驗(yàn)證。在RNN、LSTM 上進(jìn)行序列長(zhǎng)度的對(duì)比,驗(yàn)證了稀疏注意力機(jī)制能夠運(yùn)用稀疏的特性在長(zhǎng)序列上捕捉到更多的信息并且不會(huì)出現(xiàn)記憶能力的降低。