孟琳書,張音旋,張 起,王 豪
(1.中國航空工業(yè)集團公司 沈陽飛機設(shè)計研究所,遼寧 沈陽 110035;2.先進科技(中國)有限公司,四川 成都 610000)
滾動軸承是旋轉(zhuǎn)機械中重要且相對易失效的基礎(chǔ)零部件[1],其由于磨損、疲勞等原因而產(chǎn)生的性能退化或故障將影響設(shè)備的正常工作,甚至會造成財產(chǎn)損失和人員傷亡等一系列后果[2]。
因此,預測滾動軸承可能的失效時刻,并根據(jù)預測結(jié)果提前對設(shè)備進行預測性維護是十分必要的,可以避免由于滾動軸承失效而造成的設(shè)備停機[3]。
預測滾動軸承剩余使用壽命從而進行設(shè)備健康管理已經(jīng)成為機械故障診斷領(lǐng)域的研究熱點之一[4]。總體上,滾動軸承壽命預測方法可以分為3類:基于物理模型的方法、基于數(shù)據(jù)驅(qū)動的方法和混合方法[5]。由于具備良好的泛化性能,數(shù)據(jù)驅(qū)動方法中的基于深度學習的預測方法受到了廣泛的關(guān)注,已經(jīng)成為滾動軸承剩余使用壽命預測的重要手段之一[6]。
近年來,深度學習中的時間序列模型在滾動軸承壽命預測領(lǐng)域得到了廣泛應(yīng)用。
CAO Y等人[7]采用了一種基于殘差注意力的時間卷積網(wǎng)絡(luò)模型來預測滾動軸承的剩余使用壽命;但該模型對多工況軸承的跨工況預測能力不足。WANG B等人[8]引入可分離卷積和壓縮-激勵單元,實現(xiàn)了端到端的滾動軸承剩余使用壽命預測目的;但受限于隱式特征難以結(jié)合工程經(jīng)驗問題,導致其通用性欠佳。GUO R等人[9]采用了一種結(jié)合經(jīng)驗?zāi)B(tài)分解和長短期記憶(long-short term memory, LSTM)網(wǎng)絡(luò)的剩余使用壽命預測方法,學習固有模態(tài)函數(shù)和滾動軸承剩余使用壽命之間的映射關(guān)系;但該方法的長期壽命預測能力不足。
上述學者針對不同使用場景結(jié)合多種深度學習模型開展了滾動軸承壽命預測,并取得了一定進展;但預測模型的超參數(shù)大部分由研究人員根據(jù)經(jīng)驗手動進行選擇調(diào)優(yōu),這種選擇方法顯著降低了模型優(yōu)化效率。因此,有學者開發(fā)了貝葉斯優(yōu)化、Successive Halving和Hyperband等超參數(shù)調(diào)節(jié)方法。其中,貝葉斯優(yōu)化基于貝葉斯定理估計目標函數(shù)的后驗概率分布,依據(jù)后驗分布對超參數(shù)組合進行采樣,并根據(jù)采樣結(jié)果不斷完善后驗分布的形狀,從而高效地找到目標函數(shù)的全局相對最優(yōu)解,在深度學習模型的超參數(shù)調(diào)節(jié)中得到了廣泛應(yīng)用。
筆者提出一種基于注意力GRU模型與貝葉斯優(yōu)化的滾動軸承剩余使用壽命預測方法。
首先,使用小波包分解重構(gòu)對原始振動信號進行降噪處理;其次,在去噪后的信號上提取時域特征;然后,將時域特征輸入GRU模型中挖掘輸入特征與剩余壽命的映射關(guān)系;最后,利用貝葉斯優(yōu)化方法對模型的超參數(shù)進行搜索調(diào)整。
振動信號采集方便且蘊含著豐富的退化信息,是滾動軸承失效分析的常用信號。該領(lǐng)域內(nèi)積累了眾多研究人員的先驗知識,產(chǎn)生了時域、頻域和時頻域等一系列特征計算方法。不同人工特征對各種故障類型的敏感程度有一定差異且數(shù)據(jù)質(zhì)量不同,因此需要對特征進行優(yōu)化篩選。此外,由于采集過程中噪聲影響難以忽略,對振動信號進行降噪是取得一個良好預測結(jié)果的必要條件。
筆者使用小波包分解重構(gòu)進行信號降噪。該方法采用一組正交的小波基函數(shù)將原始信號分解為高頻分量和低頻分量,然后將得到的高頻分量和低頻分量作為新一輪輸入信號繼續(xù)進行迭代分解。通過調(diào)整小波基函數(shù)的尺度和平移參數(shù),可獲得信號分量的頻率信息與時間信息。
由于傳感器采集的振動信號為離散數(shù)據(jù),因此在使用小波包變換時,一般采用離散小波變換。
其過程表示如下:
(1)
式中:f(t)為原始信號;φ()為小波函數(shù);φ*()為小波函數(shù)的共軛函數(shù);a為通過伸縮控制小波頻率的尺度參數(shù);b為平移參數(shù),該參數(shù)使頻率分量具有時間信息。
特征提取在壽命預測領(lǐng)域具有重要地位,對模型的最終表現(xiàn)影響巨大。一個良好的特征應(yīng)具有單調(diào)性、趨勢性和魯棒性等性質(zhì)。傳統(tǒng)的人工經(jīng)驗特征趨勢性和單調(diào)性較差,不利于模型預測。
考慮到軸承的退化是一個損傷累積過程,因此筆者對其特征與趨勢的累加進行縮放,并濾除特征中的噪聲,降低噪聲對累積計算過程的影響,以實現(xiàn)特征優(yōu)化目的[10]。
循環(huán)神經(jīng)網(wǎng)絡(luò)具備獨特的遞歸結(jié)構(gòu)和內(nèi)部神經(jīng)元的參數(shù)共享機制,使其可以學習時間序列之間的依賴關(guān)系,但其存在梯度消失問題,即梯度被近距離梯度主導,導致模型難以學到遠距離的依賴關(guān)系。
GRU[11]是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的一種變體,其通過添加“門”結(jié)構(gòu)調(diào)節(jié)信息流,以及“記憶細胞”存儲長期信息,可有效克服短期記憶的缺陷,緩解梯度消失問題。
GRU中包含重置門和更新門。重置門是根據(jù)上一時間步的隱藏狀態(tài)和當前輸入,控制歷史信息的遺忘程度。
重置門表示如下:
rt=σ(Wr×[ht-1,xt])
(2)
式中:Wr為重置門中的權(quán)重矩陣;ht-1為上一時間步的隱藏狀態(tài);xt為當前時間步的輸入。
更新門控制傳遞到當前時間步的新信息。
更新門表示如下:
zt=σ(Wz×[ht-1,xt])
(3)
式中:Wz為更新門中的權(quán)重矩陣。
筆者結(jié)合重置門和更新門中的信息,計算當前時間步的隱藏狀態(tài),隱藏狀態(tài)表示如下:
(4)
相較于單向GRU網(wǎng)絡(luò),雙向GRU網(wǎng)絡(luò)可以利用當前時間步的未來信息得到當前時間步的預測值,即使用來自當前時間步兩端的序列信息來預測輸出。
對于時間序列預測任務(wù),上述特性意味著在預測任意時間步的輸出時,網(wǎng)絡(luò)已經(jīng)將完整的輸入序列信息納入計算過程,而非如單向GRU網(wǎng)絡(luò)一樣只考慮過去的信息,這有助于網(wǎng)絡(luò)更好地理解時間步之間的依賴關(guān)系。
注意力機制[12]源于人類的行為,其給予時間序列中關(guān)鍵時間步較高權(quán)值,使模型更關(guān)注對輸出結(jié)果影響較大的時間步,而忽略那些對輸出結(jié)果幾乎無影響的時間步。
上述機制提高了模型的信息處理能力,便于捕捉軸承退化特征的長期趨勢,常與Encoder-Decoder結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)配合使用。
注意力機制計算方法多樣,但本質(zhì)上是計算并分配權(quán)重的過程。其分配過程表示如下:
Score=fatten(he,hd)
(5)
(6)
(7)
(8)
式中:he為編碼器所有時間步上的輸出;hd為編碼器當前時間步上的隱藏狀態(tài);α為注意力權(quán)重矩陣。
在權(quán)重計算過程中,首先,筆者將編碼器所有時間步上的輸出和解碼器當前時間步上的隱藏狀態(tài)點乘,計算兩者之間的相似度,相似度越大,分數(shù)值(Score)越大;其次,對Score值進行歸一化處理,得到注意力權(quán)重矩陣α;然后,將注意力權(quán)重矩陣與編碼器輸出矩陣相乘,得到輸出C;最后,將上一步的輸出C與當前時間步上的原本輸出拼接后進行線性變換,以得到當前時間步上的最終預測值。
神經(jīng)網(wǎng)絡(luò)的超參數(shù)對模型表現(xiàn)起著決定性作用。目前,在壽命預測領(lǐng)域,大多數(shù)網(wǎng)絡(luò)模型依然采用手動調(diào)參的方法。該方法依賴個人經(jīng)驗、效率較低,往往得不到最優(yōu)的超參數(shù)組合。
筆者利用貝葉斯優(yōu)化方法搜索模型的高維超參數(shù)空間。
貝葉斯優(yōu)化的核心主要包括代理模型和采集函數(shù)兩部分。代理模型用于擬合真實目標函數(shù)的先驗分布,常用的模型有高斯過程、Parzen樹估計(tree Parzenes-timator,TPE)等。
采集函數(shù)通過權(quán)衡“開發(fā)”和“探索”之間的關(guān)系來指導下一次迭代的采樣點選擇,以實現(xiàn)代理模型的最大擬合。采集函數(shù)能夠直接決定模型優(yōu)化的性能,影響優(yōu)化過程的收斂速度及后驗分布的擬合效果。常用的函數(shù)包括“期望提升”“置信限準則”和“概率提升”等。
筆者選擇TPE作為代理模型,“期望提升”函數(shù)作為采集函數(shù)。
基于注意力GRU模型的剩余使用壽命預測算法具體流程如圖1所示。
圖1 預測流程Fig.1 Forecasting process
流程主要分為小波包變換降噪、時域特征提取、特征優(yōu)化與篩選、模型搭建、模型訓練及優(yōu)化、模型測試等主要步驟:
1)小波包變換降噪。原始振動信號經(jīng)過小波包分解(小波基函數(shù)為db4),根據(jù)信號的通用閾值采用軟硬閾值折中的方式處理分解后的細節(jié)系數(shù),將處理后的細節(jié)系數(shù)進行重構(gòu),以得到最終降噪后的信號;
2)時域特征提取、優(yōu)化及篩選。時域特征具有直觀、計算簡單、趨勢明顯的優(yōu)點,能夠表征軸承運行狀況的一部分信息。計算時域特征后使用Savitzky-Golay濾波器進行濾波,對濾波結(jié)果進行優(yōu)化并篩選獲得最終輸入到模型的特征;
3)模型搭建、訓練及優(yōu)化、測試。搭建注意力GRU模型的同時,將網(wǎng)絡(luò)的層數(shù)、GRU單元的偏置等網(wǎng)絡(luò)參數(shù)作為貝葉斯優(yōu)化的超參數(shù),并將學習率、序列長度、dropout等參數(shù)作為優(yōu)化變量,利用貝葉斯優(yōu)化方法對模型進行訓練,得到最優(yōu)模型,并在測試數(shù)據(jù)上測試所得模型。
預測流程的實際運行效果如圖2所示。
圖2 預測流程運行效果Fig.2 Forecasting process in action
此處筆者使用的數(shù)據(jù)來自于IEEE PHM2012[13]挑戰(zhàn)賽,其數(shù)據(jù)集中包含6個全生命周期的訓練數(shù)據(jù)和11個截斷的測試數(shù)據(jù)。
數(shù)據(jù)集具體情況如表1所示。
表1 軸承數(shù)據(jù)集Table 1 Bearing data set
筆者在每個軸承上采集了水平和垂直方向上的振動信號。根據(jù)SINGLETON R K等人[14]的研究結(jié)果,相較于水平振動信號,垂直振動信號所包含的有用退化信息很少。因此,筆者最終使用軸承水平方向上的振動信號,在工況1的7個數(shù)據(jù)上進行實驗驗證。
在實際生產(chǎn)中相較于滯后預測(壽命預測值大于真實值),超前預測(壽命預測值小于真實值)更有價值,其可以提供正確的維修決策信息。
為準確評估模型的性能和實際表現(xiàn),PHM 2012挑戰(zhàn)賽給出了標準得分函數(shù),其對超前預測和滯后預測施加了不同程度的懲罰,懲罰表示如下:
(9)
式中:Ei為軸承剩余壽命真實值與預測值之間的誤差;Ai為最終得分。
筆者根據(jù)文獻[15],選取標準差、反正切標準差、均方根、峰峰值、偏度、峭度、峰值因數(shù)、裕度因數(shù)、波形因數(shù)、脈沖因數(shù)、偏度因數(shù)、峭度因數(shù)和上限等特征,繪制時域波形,并根據(jù)特征計算公式去除冗余波形與相近特征。
時域特征選擇如表2所示。
表2 時域特征Table 2 Time domain feature
筆者使用趨勢累積方法對提取到的特征進行優(yōu)化,并利用單調(diào)性、趨勢性、魯棒性指標評估篩選特征。
時域特征優(yōu)化前后的評估指標對比如表3所示。
表3 特征優(yōu)化評估Table 3 Feature optimization evaluation
由表3可得出:趨勢累積方法可以有效優(yōu)化特征的單調(diào)性、趨勢性和魯棒性。
根據(jù)優(yōu)化后的3個指標對時域特征進行篩選,最終輸入模型的時域特征為均方根、峰峰值、峭度、峰值因數(shù)、裕度因數(shù)、反正切標準差和上限。
筆者使用python(3.8.10)完成所有數(shù)據(jù)處理及模型搭建工作。其中,深度學習框架為pytorch(1.9.0),cuda版本為11.3。全部實驗均在搭載NVIDIA 3060 GPU,Intel i5-10400F CPU的Windows10 64位操作系統(tǒng)計算機上完成。
首先,確定影響GRU網(wǎng)絡(luò)性能的超參數(shù)及其對應(yīng)范圍,形成超參數(shù)域空間。在域空間中隨機初始化超參數(shù)組合,并以此搭建待訓練的網(wǎng)絡(luò)模型。以退化特征集為輸入,剩余使用壽命標簽為輸出,對網(wǎng)絡(luò)模型進行訓練。將測試數(shù)據(jù)輸入到訓練好的網(wǎng)絡(luò)模型中,計算預測剩余使用壽命的均方根誤差,并將其作為優(yōu)化目標值,構(gòu)建由超參數(shù)和目標值組成的TPE代理模型。利用采集函數(shù)在域空間中迭代采樣,并根據(jù)采樣結(jié)果更新代理模型,直到目標值收斂。其中,所確定的GRU網(wǎng)絡(luò)模型使目標值最小的超參數(shù)組合,其即為最優(yōu)模型。
超參數(shù)選擇如表4所示。
表4 超參數(shù)空間Table 4 Hyperparameter space
在巨大的超參數(shù)空間中,筆者僅抽樣200組超參數(shù)進行訓練優(yōu)化,經(jīng)過貝葉斯優(yōu)化后得到的參數(shù)組合為(BiGRU,1,32,否,是,AdamW,是,4,20,0.0,0.05,0.000 1),在該參數(shù)組合下測試所得到的模型。
軸承1_5、1_6預測結(jié)果如圖3所示。
圖3 軸承壽命預測結(jié)果Fig.3 Life prediction results of bearings
粗虛線為軸承的真實剩余使用壽命百分比;黑色實線為三次多項式擬合值;黑色點構(gòu)成的斜劃線為模型的預測值;其中三次多項式的擬合值可以作為軸承退化趨勢的參考。
為了證明基于貝葉斯優(yōu)化的GRU網(wǎng)絡(luò)的有效性,筆者將實驗結(jié)果與其他文獻中的3種方法(卷積LSTM[16]、自注意LSTM[17]、RNN[18])的預測結(jié)果進行了對比。
基于貝葉斯優(yōu)化的GRU網(wǎng)絡(luò)與其他文獻的對比結(jié)果如表5所示。
表5 基于貝葉斯優(yōu)化的GRU網(wǎng)絡(luò)與其他文獻方法的結(jié)果對比Table 5 The results of the GRU network based on Bayesian optimization are compared with those of other literatures
由表5可以看出:基于貝葉斯優(yōu)化的GRU網(wǎng)絡(luò)平均得分高于另外3個文獻中方法的得分結(jié)果,且平均預測誤差有所降低。基于貝葉斯優(yōu)化的GRU網(wǎng)絡(luò)對于真實壽命較短的軸承預測結(jié)果較為準確,而對于真實壽命較長的軸承預測誤差較大,但并沒有出現(xiàn)預測值大于真實值的情況,其可以作為軸承臨近失效階段的剩余使用壽命參考。
上述結(jié)果證明了基于貝葉斯優(yōu)化的GRU網(wǎng)絡(luò)的有效性。
傳統(tǒng)的滾動軸承剩余使用壽命預測模型存在參數(shù)優(yōu)化的困難。針對這一問題,筆者提出了一種基于貝葉斯優(yōu)化的GRU網(wǎng)絡(luò)滾動軸承剩余使用壽命預測方法,并進行了實驗驗證,即以PHM2012數(shù)據(jù)集為例,結(jié)合貝葉斯優(yōu)化算法對基于Encoder-Decoder結(jié)構(gòu)的門控循環(huán)單元(GRU)預測模型的多個超參數(shù)進行了優(yōu)化。
研究結(jié)論如下:
1)趨勢累積方法對由振動信號所提取出的時域特征的單調(diào)性、趨勢性和魯棒性具有明顯的優(yōu)化效果;
2)基于注意力的GRU模型可以用于有效地預測滾動軸承的剩余使用壽命,且平均得分相較于其他3種方法的最優(yōu)值提高了8.01%;
3)采用貝葉斯優(yōu)化方法能夠在較短的時間內(nèi)通過采樣訓練得到較優(yōu)的預測結(jié)果,避免了繁瑣的人工調(diào)參和網(wǎng)格搜索的巨大時間代價。
目前,基于注意力的GRU模型的預測精度還有待進一步提高,且其對剩余壽命較長的軸承預測精度仍然較低。因此,在后續(xù)的研究中,筆者擬采用遷移學習等方法進一步提高滾動軸承壽命預測模型的泛化性能。