趙廣謙,姜培剛,林天然
(青島理工大學 機械與汽車工程學院,山東 青島 266000)
作為旋轉(zhuǎn)機械的核心部件,滾動軸承的健康狀態(tài)對設備能否正常運行起著關鍵作用。一旦軸承發(fā)生故障,輕則導致設備停機,重則造成災難性后果[1-3]。因此,根據(jù)狀態(tài)監(jiān)測數(shù)據(jù)對軸承剩余壽命(RUL)進行精準預測,能在保證軸承健康運行的情況下節(jié)省大量維護成本。
現(xiàn)有的滾動軸承RUL預測方法大致可分為兩類,即基于模型的方法和數(shù)據(jù)驅(qū)動的方法:
(1)基于模型的方法。主要依賴于精確的軸承退化數(shù)學模型,根據(jù)收集到的數(shù)據(jù)得出模型的參數(shù)[4]。朱朔等人[5]通過對連續(xù)隱半馬爾科夫模型算法進行改進,并引入高斯混合概率密度函數(shù),獲得了準確度較高的軸承RUL預測結(jié)果。任子強等人[6]提出了一種融合多傳感器數(shù)據(jù)的Wiener過程模型,對航空發(fā)動機進行了剩余壽命預測;同時,利用貝葉斯公式對模型參數(shù)進行了實時更新,極大地降低了RUL預測的相對均方誤差。ZIO E等人[7]提出了一種基于粒子濾波的剩余使用壽命估計方法,最大限度地降低了機器狀態(tài)預測的誤差。然而,對于復雜非線性機械系統(tǒng),建立一個準確的RUL數(shù)學預測模型需要充分了解該機械系統(tǒng)的退化機理,這往往是非常困難的,極大限制了這類方法的實際工程中應用[8]。
(2)數(shù)據(jù)驅(qū)動的方法。不需要建立精確的數(shù)學模型,而是依賴于傳感器采集到的溫度、轉(zhuǎn)速和軸承振動幅度等信號,并從中分析軸承的當前工作狀態(tài),試圖找出運行狀態(tài)與RUL期望值之間的關系。目前,統(tǒng)計工具和機器學習是預測RUL常用的數(shù)據(jù)驅(qū)動方法。邱曉梅等人[9]提出了一種基于相關系數(shù)和BP神經(jīng)網(wǎng)絡模型的軸承剩余使用壽命預測方法。FUMEO E等人[10]建立了一種在線支持向量回歸(OL-SVR)的CBM算法,并達到了精度與計算資源之間的平衡。
近年來,隨著計算機技術的快速發(fā)展,深度學習在故障預測與健康管理(prognostics health management,PHM)領域嶄露頭角。深度學習具有極強的非線性擬合能力,可以利用原始信號直接進行軸承的壽命預測,不受人工干預自動提取特征,避免了人工提取特征效率低、主觀性強及過度依賴先驗知識等問題。LI X等人[11]采用包括短時傅立葉變換和多尺度特征提取的深度學習模型,對軸承的RUL進行了預測。張繼冬等人[12]將卷積神經(jīng)網(wǎng)絡中的全連接層改為卷積層和池化層,減少了網(wǎng)絡需要訓練的參數(shù)。然而,上述方法在軸承RUL預測中并不是最適合的。
滾動軸承的振動數(shù)據(jù)屬于一維時序數(shù)據(jù),神經(jīng)網(wǎng)絡中最適合處理時序數(shù)據(jù)的是RNN模型。利用對時序特征敏感的特性,RNN在語音識別、機器翻譯等時序任務中均取得了優(yōu)異的效果[13]。
同時,注意力機制能夠使模型在有限的資源下突出輸入特征的關鍵部分,可視為信息篩選的過程,從而達到準確預測的目的。
本文將CNN、RNN與注意力機制相結(jié)合,提出一種基于注意力機制的CNN-BiLSTM模型(CNN-BiLSTM-AM),對序列信息進行時間和空間特征提取;并且采用注意力機制實現(xiàn)對模型注意力資源的合理分配,加強關鍵信息對軸承RUL預測的影響;通過分析一組公開發(fā)布的軸承退化數(shù)據(jù)集,以驗證本文所提方法的有效性和在軸承剩余壽命預測方面的優(yōu)越性。
卷積神經(jīng)網(wǎng)絡是一種包含卷積運算的前饋神經(jīng)網(wǎng)絡,廣泛應用于語音識別[14]、圖像分類[15]、自然語言處理[16]和機械故障診斷[17]等領域。
典型CNN模型的結(jié)構(gòu)如圖1所示。
圖1 典型的CNN模型結(jié)構(gòu)
由圖1可知:典型的CNN模型主要由輸入層、卷積層、池化層、全連接層和輸出層5個部分組成。卷積層和池化層通常成對出現(xiàn),用于對輸入特征信息的卷積和降維運算;而模型的最后部分由全連接層和輸出層構(gòu)成,用于將模型訓練結(jié)果輸出。
卷積神經(jīng)網(wǎng)絡通過卷積運算從輸入特征圖中提取數(shù)據(jù)塊,然后對所有的數(shù)據(jù)塊應用相同的變換,生成輸出特征圖,并對輸出特征圖進行空間重組,輸出特征圖中的每個空間位置都對應于輸入特征圖中的相同位置。因此,CNN的卷積層能夠很好地感知圖像的局部特征,感知數(shù)據(jù)點與周圍數(shù)據(jù)點之間的關系[18]。卷積神經(jīng)網(wǎng)絡具有局部連接、權值共享等特性,因此可以大大降低計算規(guī)模,提高其運算效率。
假設CNN模型的輸入為X,那么卷積層的輸出計算公式如下:
Cn=σ(Wn?X+bn)
(1)
式中:Cn—卷積層輸出的第n個特征圖;σ(·)—激活函數(shù);Wn—當前卷積層第n個卷積核的權重矩陣;bn—當前卷積層第n個卷積核的偏置;?—卷積運算;n—卷積核的個數(shù)。
池化層的主要作用是對卷積層輸出的信息進行降維處理,去除冗余信息的同時加快計算速度。其計算公式如下:
Pn=maxCn
(2)
式中:Pn—池化層的輸出;Cn—池化層的輸入。
在卷積神經(jīng)網(wǎng)絡運算過程中,狀態(tài)總是由前向后傳播,這意味著在CNN網(wǎng)絡中,信息只是單向流動。在每個計算步長內(nèi),CNN只考慮當前輸入,而忽略了之前的退化信息。因此,卷積神經(jīng)網(wǎng)絡無法模擬不同機器退化狀態(tài)的前后相關性[19]。而RNN模型能夠保留模型對輸入模式的記憶,其變體LSTM網(wǎng)絡則可進一步解決RNN結(jié)構(gòu)存在的梯度消失問題[20]。
LSTM網(wǎng)絡的基本結(jié)構(gòu)如圖2所示。
圖2 LSTM的基本結(jié)構(gòu)
由圖2可知,與RNN網(wǎng)絡相比,LSTM網(wǎng)絡新增了細胞狀態(tài)和3種門結(jié)構(gòu)[21]。
LSTM網(wǎng)絡中的遺忘門ft決定多少比例的信息會保留在網(wǎng)絡中,其計算公式為:
ft=σ(Wf·[ht-1,xt]+bf)
(3)
式中:xt—輸入序列;ht-1—上一時刻的狀態(tài)記憶量;σ(·)—sigmoid激活函數(shù);Wf—遺忘門的權重矩陣;bf—遺忘門的偏置;ft—遺忘門的狀態(tài)。
而輸入門it將新的信息有選擇性地記憶在細胞狀態(tài)中,其計算公式為:
it=σ(Wi·[ht-1,xt]+bi)
(4)
(5)
(6)
輸出門ot決定了當前輸出的信息,其計算公式為:
ot=σ(Wo·[ht-1,xt]+bo)
(7)
ht=ot*tanh(Ct)
(8)
式中:Wo—輸出門的權重矩陣;bo—輸出門的偏置;ot—輸出門的狀態(tài)。
與LSTM模型不同的是,BiLSTM模型由前向LSTM層和后向LSTM層組成,因此可以在前向和后向兩個方向上處理序列,且兩個方向均具有獨立的隱藏層。
BiLSTM的網(wǎng)絡結(jié)構(gòu)如圖3所示。
圖3 BiLSTM的網(wǎng)絡結(jié)構(gòu)
由圖3可以看出:BiLSTM模型可以使LSTM在前向和后向兩個方向同時處理序列,兩個方向均具有獨立的隱藏層;每個隱藏層在一個特定的時間步長可以同時捕獲過去(前向)和未來(后向)的信息[22],因此,可以提取出更加全面的軸承退化特征,提高網(wǎng)絡的預測性能。
受到人腦注意力分配機制的啟發(fā),專家們提出了注意力機制。注意力機制的核心思想是從大量信息中篩選出更多需要關注的細節(jié)信息,忽略無關信息,從而可以提高模型的預測準確率[23]。
目前的注意力機制一般可分為硬性注意力和軟性注意力兩種:(1)硬性注意力。通過隨機采樣方式獲得模型的輸入,在圖像處理過程中可以得到受關注的目標物體;然而,該方法無法使用反向傳播算法進行參數(shù)優(yōu)化。因此,在序列數(shù)據(jù)中,一般使用軟性注意力作為替代。(2)軟性注意力。通過為不同輸入通道賦不同權重值的方式,巧妙地改變模型對輸入信息的關注度,實現(xiàn)計算資源的高效分配;另一方面,這一方式可以通過反向傳播算法不斷優(yōu)化權重參數(shù),適用于序列數(shù)據(jù)的學習任務[24]。
軟性注意力機制的流程結(jié)構(gòu)如圖4所示[25]。
圖4 軟性注意力機制的結(jié)構(gòu)以本文模型為例:xt—帶有注意力機制的BiLSTM層的輸入;ht—BiLSTM層的輸出;αt—經(jīng)過注意力機制計算后得到的BiLSTM各通道信息的不同權重值;y—神經(jīng)網(wǎng)絡模型的最終輸出
注意力機制的主要公式如下。
et=utanh(w·ht+b)
(9)
(10)
(11)
式中:et—t時刻的注意力分布值;u,w—權重;b—偏置;αt—BiLSTM中各通道信息的不同權重值;st—權重矩陣與BiLSTM層的輸出ht加權后的結(jié)果,即帶有注意力機制的BiLSTM層輸出。
經(jīng)過多年發(fā)展,注意力機制的應用已經(jīng)在不同領域獲得了成功。DU C等人[26]在文本分類任務中應用了注意力機制,取得了較好的效果。張宇等人[27]提出了一種基于注意力機制的LSTM網(wǎng)絡,有效地提高了其對遠場語音的識別正確率。
注意力機制的核心體現(xiàn)在各通道權重系數(shù)的計算上,通過不斷優(yōu)化各通道的權重系數(shù),調(diào)整網(wǎng)絡模型對不同通道的注意力分配,可以實現(xiàn)在有限計算資源的條件下,達到最優(yōu)的模型訓練效果。
在軸承RUL預測任務中,當輸入序列經(jīng)過多層BiLSTM后,軸承不同退化階段的信息對現(xiàn)在時刻神經(jīng)元狀態(tài)的影響是不同的。因此,本文嘗試將注意力機制引入到軸承RUL預測任務中,根據(jù)各通道信息對軸承RUL預測結(jié)果的貢獻度不同,賦予其不同權重,從而提高軸承RUL預測精度。
軸承原始振動信號中的時域和頻域特征可以反映軸承的退化狀態(tài),因此,該信號目前被廣泛應用于設備的故障檢測領域[28]。
常用的時域特征值有:峰值、均方根值、峰峰值、峭度指標等;而頻域特征值有:中心頻率、平均頻率等。以峭度指標為例,正常工作狀態(tài)下,軸承狀態(tài)監(jiān)測信號一般呈正態(tài)分布,峭度指標在信號偏離正態(tài)分布時會發(fā)生變化,同時,其變化的大小代表了軸承的退化程度[29]。
以本文所用數(shù)據(jù)集為例,Bearing1_1的峰值和均方根值波動曲線如圖5所示。
(a)峰值
(b)均方根值
由圖5可以看出:在軸承壽命末期,軸承的峰值、均方根值等特征呈現(xiàn)出了明顯的退化趨勢;該結(jié)果說明使用時域和頻域指標進行軸承RUL預測的方法是可行的。
因此,本文選取:平均值、峰值、峰峰值、方根幅值、平均幅值、有效值、標準差、波形指標、峰值指標、峭度指標、裕度指標、脈沖指標等12個時域特征,以及中心頻率、平均頻率、均方根頻率、頻率標準差等4個頻域特征,共同作為神經(jīng)網(wǎng)絡模型的輸入。
為了充分發(fā)揮CNN與BiLSTM提取空間和時間特征信息的能力,本文提出了一種帶有注意力機制的CNN-BiLSTM模型。
BiLSTM架構(gòu)使得LSTM能夠在前向和后向兩個方向同時處理網(wǎng)絡的輸入,在某一特定時間步長內(nèi),同時捕獲過去和未來的信息;并且BiLSTM特有的雙向結(jié)構(gòu)可以增強模型對原始信息輸入開始和結(jié)束階段的記憶;在此基礎上,通過注意力機制分配不同輸入通道的權重,以增強或抑制對部分信息的注意力,達到提高預測準確度的目的。
本文提出的軸承RUL預測模型的算法流程如圖6所示。
圖6 本文所提方法的流程圖
圖6中,首先從軸承原始振動信號中提取特定的時域和頻域特征,并按照一定比例劃分為訓練集和測試集;然后將訓練集輸入到CNN-BiLSTM-AM中進行訓練(CNN的主要作用是對數(shù)據(jù)進行空間特征提取以及降采樣,起到信息蒸餾作用,其輸出的是比原始信號稀疏,但保留數(shù)據(jù)空間特征信息的特征圖),BiLSTM對時序數(shù)據(jù)從兩個方向提取可能被CNN忽略的信息,并且利用注意力機制對權重進行重新分配,以提高RUL預測精度;最后將測試集輸入到訓練好的神經(jīng)網(wǎng)絡模型中進行測試,并對RUL預測結(jié)果進行降噪處理,最終得出軸承的RUL預測結(jié)果。
為了確定模型的結(jié)構(gòu)參數(shù),本文使用5折交叉驗證以避免隨機性對實驗結(jié)果的影響,最終確定的模型參數(shù)如表1所示。
表1 模型結(jié)構(gòu)與參數(shù)配置
神經(jīng)網(wǎng)絡訓練的主要目的是通過反向傳播算法不斷優(yōu)化權重和偏置,使得模型中的代價函數(shù)取得最小值。
本文所提方法將數(shù)據(jù)集以8 ∶2的比例隨機分為訓練集和測試集;以均方誤差(mean square error,MSE)作為模型的代價函數(shù),并使用批量為64,學習率為0.000 5的Adam算法作為模型的優(yōu)化器,每次實驗進行50輪次。
MSE的計算公式如下:
(12)
此處用于驗證分析的數(shù)據(jù)集采用的是2012年發(fā)表在IEEE 2012 PHM數(shù)據(jù)挑戰(zhàn)賽上的滾動軸承加速退化數(shù)據(jù)集[30]。
軸承加速退化PRONOSTIA實驗平臺如圖7所示。
圖7 軸承加速退化PRONOSTIA實驗平臺
圖7中,該實驗平臺每隔10 s采集一次數(shù)據(jù),采樣頻率為25.6 kHz,每次采樣持續(xù)0.1 s;當數(shù)據(jù)點的加速度幅值大于20 g時,則視為軸承已失效。
為了定量評估模型對于軸承RUL預測的效果,本文使用RMSE和Scoring函數(shù)作為評價指標。其中,Scoring函數(shù)同樣來自2012年的PHM數(shù)據(jù)挑戰(zhàn)賽,其計算公式如下:
(13)
(14)
(15)
(16)
Scoring函數(shù)的圖像如圖8所示。
圖8 Scoring函數(shù)
由圖8可知:百分比誤差范圍為-50~50,得分最高為1,且Scoring函數(shù)的圖像為非對稱分布;由函數(shù)圖像可知,當預測壽命小于實際壽命時得分更高,這是因為與軸承RUL高估相比,軸承壽命的低估更能體現(xiàn)RUL預測的意義,即降低維護成本,提高設備安全性。
為了盡可能減少預測結(jié)果波動對RUL預測的影響,提高預測的精度,需要對預測結(jié)果進行降噪處理。本文采用加權平均法對預測結(jié)果進行降噪,其計算公式如下:
(17)
式中:m—時間窗口長度的取值,本文中取值10;ωi—權重,一個從1開始的等差數(shù)列;Pm—某一時刻的RUL預測結(jié)果;Ym—通過加權平均后得到的某一時刻降噪結(jié)果。
為了驗證本文所提出的模型的有效性,筆者將其與其他3種深度學習方法,即全卷積神經(jīng)網(wǎng)絡(full convolutional layer neural network,FCNN)、CNN-LSTM-AM和CNN-BiLSTM算法所得的預測結(jié)果進行了對比,預測結(jié)果如表2所示。
表2 不同方法的預測結(jié)果
由表2可以看出:相比其他方法,本文所提方法的預測RMSE值取得最低,且Score得分最高。
由CNN-BiLSTM-AM與CNN-BiLSTM算法結(jié)果的對比可知:在增加注意力機制的前提下,本文所提方法的RMSE值比CNN-BiLSTM算法降低了7.32%,Score得分提高了2.12%;注意力機制通過對軸承不同退化階段分配不同的注意力權重,使模型更關注重要的序列信息,達到了提升RUL預測精度的目的。
將CNN-BiLSTM-AM與CNN-LSTM-AM算法結(jié)果進行對比可知,本文所提方法的RMSE值比CNN-LSTM-AM算法降低了10.59%,Score得分提高了1.58%。該結(jié)果證明了LSTM網(wǎng)絡的雙向結(jié)構(gòu)能夠充分利用序列數(shù)據(jù)的上下文信息,完成對軸承RUL的精準預測;同時,驗證了本文所提方法在軸承剩余壽命預測方面的可靠性和優(yōu)越性。
在訓練過程中,本文所提方法和其他3種神經(jīng)網(wǎng)絡模型訓練和驗證損失的變化情況,如圖9所示。
(a)FCNN
(b)CNN-BiLSTM
(c)CNN-LSTMAl-AM
(d)CNN-BiLSTM-AM
由圖9可以看出:FCNN和CNN-BiLSTM模型的訓練和驗證損失都存在不同程度的過擬合現(xiàn)象,且訓練過程不穩(wěn)定;而帶有注意力機制的CNN-LSTM-AM模型和CNN-BiLSTM-AM模型的損失曲線擬合較好,能夠很快收斂到最小值,且訓練損失和驗證損失曲線波動很小,訓練過程較為穩(wěn)定。
訓練過程中的注意力權重值如圖10所示。
圖10 注意力權重值
由圖10可以看出:注意力機制按照時序特征對RUL預測的貢獻量不同,通過改變權重值以突出重要特征,可有效減少非重要信息對模型的影響,加快模型的收斂速度,使模型在相同的輪次下可以獲得更精確的RUL預測結(jié)果,驗證了注意力機制在該實驗中的有效性。
經(jīng)過以上綜合對比可以確定,本文所提方法能夠得到更準確的軸承RUL預測結(jié)果。
本文提出了一種基于深度學習的端到端滾動軸承RUL預測方法,并通過PHM2012軸承退化數(shù)據(jù)集驗證了該方法的有效性。
研究結(jié)果表明:
(1)CNN-BiLSTM-AM模型通過卷積層感知相鄰數(shù)據(jù)點間的關系,提取數(shù)據(jù)的空間特征;然后利用BiLSTM層同時捕捉計算過程中每個步長過去和未來的信息,獲取特征的前后時間關系特征;
(2)注意力機制通過動態(tài)調(diào)整不同通道的權重值,進而實現(xiàn)計算資源的高效分配,可以有效提高模型的RUL預測準確率。
本文所使用的軸承退化數(shù)據(jù)集為定轉(zhuǎn)速數(shù)據(jù),然而,在工業(yè)生產(chǎn)中存在著大量的變轉(zhuǎn)速、變負載工況,因此變轉(zhuǎn)速、變負載軸承RUL預測方法還有待進一步研究。