基于稀疏注意力機(jī)制的城軌車輛軸溫預(yù)測(cè)模型＊

2021-02-27 09:14張恒志蔣雨良

科技與創(chuàng)新 2021年3期

張恒志，蔣雨良

（1.中車青島四方機(jī)車車輛股份有限公司，山東青島266109；2.西南交通大學(xué)機(jī)械工程學(xué)院，四川成都610031）

1 引言

時(shí)間序列是各領(lǐng)域內(nèi)都十分常見(jiàn)的數(shù)據(jù)形式，考慮到趨勢(shì)、狀態(tài)預(yù)測(cè)的重要意義，針對(duì)時(shí)間序列的預(yù)測(cè)、異常檢測(cè)已有不同程度的發(fā)展[1]。軸承是軌道車輛重要的旋轉(zhuǎn)部件，隨著列車在交路中運(yùn)行，安裝在車輛走行部上的各個(gè)軸承的溫度傳感器所采集溫度呈現(xiàn)因各項(xiàng)激勵(lì)而產(chǎn)生的不同變化[2]。異常的軸承溫升表征軸承運(yùn)行狀態(tài)異常，監(jiān)測(cè)分析軸承溫度及相關(guān)數(shù)據(jù)能有效檢測(cè)軸承異常，幫助找出溫升相關(guān)因素，診斷軸承異常?；谳S承溫度的時(shí)間序列變化趨勢(shì)進(jìn)行建模，盡可能地提前對(duì)軸承進(jìn)行預(yù)警，提前診斷軸承是否故障，預(yù)防重大安全事故對(duì)列車運(yùn)行安全具有重要意義[3]。

傳統(tǒng)機(jī)器學(xué)習(xí)方法，如逐步線性回歸[4]、支持向量機(jī)[5]等方法在列車履歷數(shù)據(jù)上的應(yīng)用具有良好的預(yù)測(cè)結(jié)果。深度學(xué)習(xí)由于其優(yōu)秀的特征學(xué)習(xí)能力，在軸溫預(yù)測(cè)領(lǐng)域引起了越來(lái)越多的關(guān)注。針對(duì)時(shí)間序列的預(yù)測(cè)模型也在逐步發(fā)展，從初始的循環(huán)神經(jīng)網(wǎng)絡(luò)[6-7]（Recurrent Neural Networks，RNN）到使用雙向、深度[8-9]的概念進(jìn)一步增加網(wǎng)絡(luò)的性能再到已在文本識(shí)別、時(shí)間序列預(yù)測(cè)方面普遍使用的長(zhǎng)短時(shí)記憶[10]（Long Short-Term Memory networks，LSTM）、門(mén)控循環(huán)單元[11]（Gated Recurrent Unit networks，GRU）的提出，此類網(wǎng)絡(luò)的實(shí)質(zhì)上均是一個(gè)基于馬爾科夫決策過(guò)程的遞推框架。深度學(xué)習(xí)作為前沿的機(jī)器學(xué)習(xí)技術(shù)，如運(yùn)用LSTM 建立短時(shí)機(jī)車軸溫預(yù)測(cè)模型[12]，能達(dá)到比傳統(tǒng)機(jī)器學(xué)習(xí)方法更優(yōu)的效果。

Google 所提出的Transformer 深度學(xué)習(xí)模型[13]，拋棄了逐步遞推的方式，使用注意力機(jī)制作為基礎(chǔ)，在機(jī)器翻譯領(lǐng)域能夠達(dá)到更優(yōu)效果。但單純的注意力機(jī)制計(jì)算復(fù)雜程度很高，這使得長(zhǎng)序列模型中的顯存占用量和計(jì)算時(shí)間居高不下。

有鑒于此，本文提出基于稀疏注意力機(jī)制的城軌車輛軸溫預(yù)測(cè)模型。運(yùn)用稀疏的特性改進(jìn)注意力機(jī)制，降低計(jì)算復(fù)雜度和顯存占用量，將診斷流程分為線下訓(xùn)練、在線預(yù)測(cè)和故障診斷三個(gè)步驟。首先訓(xùn)練一個(gè)軸承的模型，將該軸承的模型遷移到其他軸承上，再將改進(jìn)后的注意力網(wǎng)絡(luò)模型運(yùn)用在城軌車輛上對(duì)軸承溫度進(jìn)行預(yù)測(cè)，該模型能夠在長(zhǎng)時(shí)間序列輸入上達(dá)到更優(yōu)的精度，并能夠預(yù)測(cè)軸承的溫度變化。

2 模型和流程介紹

2.1 稀疏注意力機(jī)制

稀疏是結(jié)合了空洞（Atrous）和局部（Local）的概念?？斩丛从诳斩淳矸e（Atrous Convolution），對(duì)數(shù)據(jù)的相關(guān)性進(jìn)行了約束，要求在自注意力的相關(guān)性計(jì)算過(guò)程中，每個(gè)輸入元素只能和它的相對(duì)距離為d（設(shè)定值）倍數(shù)的元素關(guān)聯(lián)；局部則是放棄了全局的關(guān)聯(lián)，只和輸入元素前后距離為d的元素關(guān)聯(lián)。稀疏結(jié)合了兩者的概念，針對(duì)距離小于等于d的元素采用了局部注意力的方式，針對(duì)相對(duì)距離為不為1d，2d，…的元素，則將注意力置為0，因此，稀疏注意力能夠結(jié)合空洞和局部?jī)烧叩膬?yōu)勢(shì)，既考慮了局部關(guān)聯(lián)，又對(duì)全局關(guān)聯(lián)做出了改進(jìn)，三種方式注意力對(duì)比如圖1 所示。

注意力的一般公式為：

圖1 各類注意力對(duì)比

在軸溫預(yù)測(cè)模型中，輸入為時(shí)間序列，為了對(duì)未來(lái)時(shí)間進(jìn)行遮擋，不讓網(wǎng)絡(luò)使用未來(lái)的信息作為輸入預(yù)知未來(lái)，對(duì)注意力矩陣進(jìn)行處理，公式為：

在式（2）中，M表示對(duì)矩陣進(jìn)行Mask 掩碼編譯，將整個(gè)上三角陣元素置為-∞，軸溫預(yù)測(cè)模型中稀疏注意力的矩陣形式如圖2 所示，涂黑的方塊表示未來(lái)的信息，對(duì)角一列表示輸入數(shù)據(jù)，白色的方塊表示注意力置為0。

圖2 稀疏注意力矩陣

2.2 模型微調(diào)

遷移學(xué)習(xí)是把已經(jīng)訓(xùn)練好的模型的參數(shù)遷移到新的數(shù)據(jù)來(lái)幫助新模型訓(xùn)練的學(xué)習(xí)方式?？紤]到大部分的數(shù)據(jù)或任務(wù)是存在相關(guān)性的，所以通過(guò)遷移學(xué)習(xí)可以將已經(jīng)學(xué)習(xí)到的模型參數(shù)分享給新的模型，從而加快優(yōu)化模型的學(xué)習(xí)效率而不用從零開(kāi)始。

fine-tune 是進(jìn)行遷移學(xué)習(xí)的一種手段。由于訓(xùn)練多個(gè)模型所消耗的時(shí)間太長(zhǎng)、計(jì)算資源不足時(shí)，無(wú)法重頭開(kāi)始訓(xùn)練一個(gè)效果良好的模型。于是通過(guò)遷移學(xué)習(xí)，將一個(gè)網(wǎng)絡(luò)的前幾層參數(shù)保持不變，因?yàn)榍皫讓訛橹饕崛√卣鳌?/p>

因此，我們也可以把這幾層當(dāng)作特征提取器，保持原有的權(quán)重不變，提取現(xiàn)有的特征?？紤]到軸承均處于車輛的走行部，包括齒輪箱、軸箱、電機(jī)等多個(gè)測(cè)點(diǎn)，承受相似的工況與激勵(lì)，將模型進(jìn)行遷移，可大程度縮短訓(xùn)練所需時(shí)間，因此建立完第一個(gè)模型后，固定前幾層權(quán)重，調(diào)小學(xué)習(xí)率和迭代次數(shù)，只訓(xùn)練最后一層，逐個(gè)訓(xùn)練模型，完成對(duì)城軌車輛的軸溫預(yù)測(cè)。

2.3 軸溫預(yù)測(cè)流程構(gòu)建

預(yù)測(cè)流程的構(gòu)建包括線下訓(xùn)練、在線預(yù)測(cè)和故障診斷三個(gè)部分，基于稀疏注意力機(jī)制的軸溫預(yù)測(cè)模型能夠保持對(duì)長(zhǎng)時(shí)間序列的注意力，因此本文所構(gòu)建的模型輸入為一個(gè)多維時(shí)間序列，輸出為未來(lái)一段時(shí)間內(nèi)的軸承溫度值，整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

輸入數(shù)據(jù)先經(jīng)過(guò)隱層進(jìn)行編碼，再輸入稀疏注意力進(jìn)行注意力分配，最后結(jié)合注意力輸出，再次編碼得到結(jié)果。網(wǎng)絡(luò)為回歸任務(wù)，使用MAPE作為網(wǎng)絡(luò)的損失函數(shù)，其公式為：

式（3）中：MAPE的取值為[0，+∞]，如果值為0 表示模型為完美模型，值越大則表示精度越低；n為樣本數(shù)量；為預(yù)測(cè)值；yi為實(shí)際值。

圖4 為整個(gè)診斷流程，線下訓(xùn)練時(shí)，我們使用線下的數(shù)據(jù)，先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，包括對(duì)缺失值進(jìn)行中位數(shù)填充、對(duì)跳變值進(jìn)行平滑處理以及將整個(gè)輸入進(jìn)行歸一化到[0，1]進(jìn)行無(wú)量綱處理三個(gè)部分。處理好的數(shù)據(jù)劃分成訓(xùn)練集和驗(yàn)證集，按照網(wǎng)絡(luò)結(jié)構(gòu)要求輸入網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練，完成對(duì)首個(gè)軸承的網(wǎng)絡(luò)訓(xùn)練后，降低學(xué)習(xí)率和迭代次數(shù)，逐個(gè)遷移到其他軸承上，完成對(duì)城軌車輛所有軸承溫度測(cè)點(diǎn)的建模，并完成線下訓(xùn)練過(guò)程。

線下將網(wǎng)絡(luò)全部訓(xùn)練完成后，在線預(yù)測(cè)時(shí)會(huì)逐個(gè)使用網(wǎng)絡(luò)，在線數(shù)據(jù)經(jīng)車載系統(tǒng)傳回后，對(duì)數(shù)據(jù)同樣進(jìn)行預(yù)處理，并運(yùn)用網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)，所預(yù)測(cè)的未來(lái)溫度結(jié)果會(huì)保存下來(lái)，并在未來(lái)的實(shí)際溫度值傳回后進(jìn)行對(duì)比。對(duì)于正常結(jié)果，會(huì)再次等待車載系統(tǒng)傳回?cái)?shù)據(jù)進(jìn)行下一次對(duì)比；而異常結(jié)果會(huì)先定位到故障位置，要求車輛停車檢查，直至找到故障原因，排除故障才能繼續(xù)運(yùn)行。

圖4 診斷流程

3 實(shí)例驗(yàn)證

3.1 數(shù)據(jù)及超參數(shù)說(shuō)明

采用某型城軌車輛的運(yùn)行數(shù)據(jù)作為數(shù)據(jù)集。為了模擬實(shí)際運(yùn)行環(huán)境以及線上線下交互的運(yùn)用模式，先將數(shù)據(jù)進(jìn)行拆分，大部分?jǐn)?shù)據(jù)作為線下訓(xùn)練的本地?cái)?shù)據(jù)，進(jìn)行訓(xùn)練和驗(yàn)證完成對(duì)網(wǎng)絡(luò)的構(gòu)建，一小部分?jǐn)?shù)據(jù)模擬在線預(yù)測(cè)的情況，以測(cè)試網(wǎng)絡(luò)模型的精度。車軸不同位置的溫度取決于許多因素，例如城軌車輛的物理狀態(tài)（包括行駛速度和牽引力水平）、路徑特性（包括高度和坡度）、環(huán)境溫度和其他環(huán)境參數(shù)以及來(lái)自各種來(lái)源的干擾。選擇其中的一些主要參數(shù)，并從部署在機(jī)車不同位置的數(shù)據(jù)傳感器收集時(shí)間序列數(shù)據(jù)。

本文所選擇的數(shù)據(jù)特征包括城軌車輛的運(yùn)行速度、環(huán)境溫度、各個(gè)軸上軸承測(cè)點(diǎn)溫度。如圖5 所示為各個(gè)數(shù)據(jù)特征的走勢(shì)。

圖5 城軌車輛數(shù)據(jù)集

本文設(shè)置學(xué)習(xí)率為0.001，遷移學(xué)習(xí)率為0.000 1，使用Adam 優(yōu)化器進(jìn)行優(yōu)化，迭代次數(shù)為1 000 次，遷移迭代次數(shù)為500 次，batch-size 為64，設(shè)置輸入長(zhǎng)度為300，輸出長(zhǎng)度為30，稀疏注意力設(shè)定值d為5，所有實(shí)驗(yàn)配置環(huán)境為T(mén)ensorflow 1.10.0、Keras 2.2.0 以及Python 3.6.2 進(jìn)行實(shí)驗(yàn)，使用操作系統(tǒng)Windows10、CPU Intel 7-8550U@1.80GHz、GPU NVIDIA GeForce GTX 1050、內(nèi)存16G DDR4 的計(jì)算平臺(tái)進(jìn)行建模。

3.2 驗(yàn)證結(jié)果

為了驗(yàn)證稀疏注意力模型能夠處理更長(zhǎng)的時(shí)間序列，設(shè)置3 組對(duì)比組，分別輸入輸出長(zhǎng)度為100、200、300，并將RNN、LSTM 與稀疏注意力一同進(jìn)行對(duì)比，對(duì)比結(jié)果如圖6所示。

圖6 序列長(zhǎng)度影響精度結(jié)果

對(duì)結(jié)果進(jìn)行分析：RNN 作為最初始的循環(huán)神經(jīng)網(wǎng)絡(luò)，隨著序列長(zhǎng)度逐漸增加，MAPE也逐漸增加，精度降低，說(shuō)明隨著序列長(zhǎng)度增加循環(huán)神經(jīng)網(wǎng)絡(luò)的記憶能力逐漸降低；LSTM 在RNN 網(wǎng)絡(luò)的基礎(chǔ)上引入了門(mén)機(jī)制，隨著序列長(zhǎng)度的增加，LSTM 的記憶能力仍然會(huì)降低，但整體精度會(huì)高于RNN；稀疏注意力機(jī)制隨著序列長(zhǎng)度的增加，能夠運(yùn)用稀疏的特性記憶更長(zhǎng)的序列，驗(yàn)證結(jié)果表明，整個(gè)模型的精度在序列長(zhǎng)度增加后得到進(jìn)一步提升。

按照3.1 所設(shè)定的超參數(shù)，先對(duì)第一個(gè)軸承進(jìn)行建模后遷移到其他軸承上，以軸箱軸承作為初始建模對(duì)象，逐個(gè)遷移到齒輪箱、電機(jī)的軸承。

遷移的效果如表1 所示。

表1 遷移前后精度

將軸箱軸承作為首先選用的軸承進(jìn)行訓(xùn)練，訓(xùn)練后的模型先在未遷移的情況下對(duì)其他軸承進(jìn)行了測(cè)試，通過(guò)MAPE的評(píng)價(jià)指標(biāo)可以看到，每個(gè)軸承需對(duì)應(yīng)不同的模型，單個(gè)軸承的模型應(yīng)用到其他類型的軸承會(huì)使得精度降低。將模型按照設(shè)定的迭代次數(shù)和精度進(jìn)行了遷移，遷移后各個(gè)軸承均有各自的模型，因此模型數(shù)量增加，同時(shí)精度均得到了提升。圖7 展示的是稀疏注意力模型所預(yù)測(cè)的結(jié)果，本文所構(gòu)建的稀疏注意力機(jī)制模型能夠預(yù)測(cè)未來(lái)30 min 的溫度變化情況，具有能夠捕捉溫度變化的能力。

圖7 預(yù)測(cè)結(jié)果

4 結(jié)論

溫度預(yù)測(cè)可用于預(yù)測(cè)城軌車輛的軸承溫度，本文基于稀疏注意力機(jī)制模型，開(kāi)發(fā)了城軌車輛的軸承溫度預(yù)測(cè)框架，預(yù)測(cè)結(jié)果表明該模型基于輸入的多維時(shí)間序列能夠捕獲車軸溫度，預(yù)測(cè)模型的有效性在城軌車輛的實(shí)際運(yùn)行數(shù)據(jù)上得到驗(yàn)證。在RNN、LSTM 上進(jìn)行序列長(zhǎng)度的對(duì)比，驗(yàn)證了稀疏注意力機(jī)制能夠運(yùn)用稀疏的特性在長(zhǎng)序列上捕捉到更多的信息并且不會(huì)出現(xiàn)記憶能力的降低。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡