黎 明, 宋海龍, 茍 江
(中電科航空電子有限公司, 成都 611731)
航空發(fā)動(dòng)機(jī)系統(tǒng)屬于高科技復(fù)雜系統(tǒng),具有自動(dòng)化程度高、結(jié)構(gòu)復(fù)雜、專業(yè)化程度高的特點(diǎn),其性能變化將直接影響飛機(jī)的安全運(yùn)行。 發(fā)動(dòng)機(jī)系統(tǒng)又因其造價(jià)高、使用頻次高和保障費(fèi)用高等特點(diǎn),對(duì)安全性和可維護(hù)性等具有極高的要求。 基于復(fù)雜系統(tǒng)的可靠性、安全性、經(jīng)濟(jì)性考慮,對(duì)故障預(yù)測(cè)與健康管理(Prognostics Health Management,PHM)技術(shù)的需求極為迫切。
PHM 技術(shù)的核心之一是故障預(yù)測(cè),根據(jù)收集到的發(fā)動(dòng)機(jī)實(shí)時(shí)狀態(tài)信息,預(yù)測(cè)發(fā)動(dòng)機(jī)發(fā)生故障的時(shí)間,并在故障發(fā)生之前估計(jì)發(fā)動(dòng)機(jī)能夠正常運(yùn)行的剩余使用壽命(Remaining Useful Life,RUL),對(duì)發(fā)動(dòng)機(jī)的全壽命周期內(nèi)的健康狀態(tài)進(jìn)行有效管理,不僅可以提高航空公司的飛行安全和整體運(yùn)行品質(zhì),還可提高維修質(zhì)量、降低維修成本,為機(jī)隊(duì)長期可靠性運(yùn)營提供有力的支持。
從數(shù)據(jù)挖掘的角度出發(fā),基于機(jī)器學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)方法,是目前行業(yè)研究的主流方向。 眾多學(xué)者對(duì)航空發(fā)動(dòng)機(jī)剩余使用壽命預(yù)測(cè)進(jìn)行了深入研究。 裴洪等詳細(xì)分析了基于機(jī)器學(xué)習(xí)的設(shè)備剩余壽命預(yù)測(cè)方法,根據(jù)機(jī)器學(xué)習(xí)模型結(jié)構(gòu)的深度,將其分為基于淺層機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。 周俊將數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法細(xì)分為基于人工智能的方法、基于隨機(jī)過程的方法、基于時(shí)間序列分析的方法、基于回歸分析的方法和基于狀態(tài)估計(jì)的方法,并對(duì)多種RUL 預(yù)測(cè)方法進(jìn)行融合,提高了RUL 預(yù)測(cè)的精度和魯棒性。 Schwabacher 等將數(shù)據(jù)驅(qū)動(dòng)的方法分為傳統(tǒng)數(shù)值方法和機(jī)器學(xué)習(xí)方法,傳統(tǒng)數(shù)值方法包括線性回歸和卡爾曼濾波等,機(jī)器學(xué)習(xí)方法則主要是采用神經(jīng)網(wǎng)絡(luò)、決策樹、支持向量機(jī)等智能算法。 Tsui 等將數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)技術(shù)分為基于獨(dú)立增量過程的模型、基于馬爾可夫鏈的模型、基于濾波器的模型、比例風(fēng)險(xiǎn)模型、門限回歸模型。 Zhang 等則將數(shù)據(jù)驅(qū)動(dòng)的方法分為隨機(jī)系數(shù)模型、人工智能方法和基于趨勢(shì)的方法。 于會(huì)越將一種改進(jìn)的GBDT 引入發(fā)動(dòng)機(jī)剩余使用壽命預(yù)測(cè)領(lǐng)域,與經(jīng)典算法相比,改進(jìn)后模型的性能評(píng)測(cè)指標(biāo)有明顯提升。 馬忠等采用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法,對(duì)發(fā)動(dòng)機(jī)剩余壽命進(jìn)行預(yù)測(cè),擁有更高的預(yù)測(cè)精度。 車暢暢等應(yīng)用一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)和雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM),建立航空發(fā)動(dòng)機(jī)剩余壽命預(yù)測(cè)模型,結(jié)果表明混合模型更準(zhǔn)確可靠。 胡啟國等提出基于核主成分分析(KPCA) 和雙向長短時(shí)記憶(BLSTM)神經(jīng)網(wǎng)絡(luò)的多信息融合壽命預(yù)測(cè)模型。李杰等針對(duì)航空發(fā)動(dòng)機(jī)剩余壽命預(yù)測(cè)問題,提出了一種將卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)相融合的數(shù)據(jù)驅(qū)動(dòng)模型,融合模型結(jié)合了兩種神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),利用卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)中的空間特征,并采用長短期記憶網(wǎng)絡(luò)提取時(shí)間特征。
本文在現(xiàn)有研究成果的基礎(chǔ)之上,根據(jù)算法的功能和形式的類似性,把常用的回歸類算法進(jìn)行分類,選取每類中比較經(jīng)典的算法進(jìn)行預(yù)測(cè)與分析,最后采用基于精度的加權(quán)融合和基于信息熵的融合方法,對(duì)RUL 預(yù)測(cè)結(jié)果進(jìn)行融合與對(duì)比。
根據(jù)機(jī)器學(xué)習(xí)算法的功能和形式的類似性,本文盡量把常用的回歸類算法按照最容易理解的方式,將其分為6 大類。 其中包括:基于線性算法、基于貝葉斯算法、基于實(shí)例算法、基于核算法、基于樹算法和基于神經(jīng)網(wǎng)絡(luò)的算法。 當(dāng)然,機(jī)器學(xué)習(xí)的范圍非常龐大,有些算法很難明確歸屬于某一類。
線性回歸是一種回歸分析技術(shù),本質(zhì)上是一個(gè)函數(shù)估計(jì)的問題,找出因變量與自變量之間的因果關(guān)系。 線性模型形式簡單、易于建模,但卻蘊(yùn)含著機(jī)器學(xué)習(xí)中一些重要的基本思想,許多功能更為強(qiáng)大的非線性模型可在線性模型的基礎(chǔ)上通過引入層級(jí)結(jié)構(gòu)或高維映射而得。 多元線性回歸是基于線算法的典型代表。
貝葉斯線性回歸是使用統(tǒng)計(jì)學(xué)中貝葉斯推斷方法求解的線性回歸模型,將線性模型的參數(shù)視為隨機(jī)變量,并通過模型參數(shù)的先驗(yàn)計(jì)算其后驗(yàn),具有貝葉斯統(tǒng)計(jì)模型的基本性質(zhì)。
K 近鄰法(K-Nearest Neighbor,KNN)是一種非常經(jīng)典的基于實(shí)例的分類和回歸算法,也是機(jī)器學(xué)習(xí)所有算法中理論最簡單,最好理解的算法。 通過先選取一批樣本數(shù)據(jù),然后根據(jù)某些近似性將新數(shù)據(jù)與樣本數(shù)據(jù)進(jìn)行比較,通過這種方法來尋找最佳匹配。 回歸時(shí),通過找出一個(gè)樣本的個(gè)最近鄰居,將這些鄰居某些屬性的平均值賦給該樣本,就可得到該樣本對(duì)應(yīng)屬性的預(yù)測(cè)值。
支持向量機(jī)回歸是一種基于核函數(shù)的學(xué)習(xí)方法, 是把輸入數(shù)據(jù)映射到一個(gè)高階的向量空間,從而可以更好的來解決各種非線性的回歸問題。
決策樹(Decision Tree)吸引人的地方在于其模型的可解釋性,是以樹狀圖為基礎(chǔ)。 一般情況下,一棵決策樹包含一個(gè)根節(jié)點(diǎn)、若干個(gè)內(nèi)部節(jié)點(diǎn)和若干個(gè)葉節(jié)點(diǎn)。 決策樹學(xué)習(xí)的目的是為了產(chǎn)生一棵泛化能力強(qiáng)的決策樹,其基本流程遵循簡單而直觀的“分而治之”的策略。
集成學(xué)習(xí)(Ensemble Learning)通過構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),用一些相對(duì)較弱的學(xué)習(xí)模型,獨(dú)力地就同樣的樣本進(jìn)行訓(xùn)練,然后把結(jié)果整合起來進(jìn)行整體預(yù)測(cè),??色@得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能。 本文基于樹的集成學(xué)習(xí)算法,選取隨機(jī)森林(Random Forest)和XGBoost 算法進(jìn)行分析研究。
基于神經(jīng)網(wǎng)絡(luò)的算法是模擬生物神經(jīng)網(wǎng)絡(luò),是一類模式匹配算法,通常用于解決分類和回歸問題。人工神經(jīng)網(wǎng)絡(luò)對(duì)一組輸入信號(hào)和一組輸出信號(hào)之間的關(guān)系進(jìn)行建模,使用人工神經(jīng)元或者節(jié)點(diǎn)的網(wǎng)絡(luò)來解決學(xué)習(xí)問題。
深度學(xué)習(xí)的概念源于對(duì)人工神經(jīng)網(wǎng)絡(luò)的進(jìn)一步研究,是對(duì)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,尤其隨著云計(jì)算、大數(shù)據(jù)時(shí)代的到來,計(jì)算能力大幅度提高的今天,深度學(xué)習(xí)試圖建立更大更復(fù)雜的神經(jīng)網(wǎng)絡(luò),用來處理大規(guī)模數(shù)據(jù)集。
本文單一預(yù)測(cè)方法中使用到的算法分類與常用算法見表1。
表1 算法分類與常用算法Tab.1 Common algorithm classification
航空發(fā)動(dòng)機(jī)系統(tǒng)十分復(fù)雜,零部件眾多、運(yùn)行環(huán)境與工作載荷復(fù)雜多變、故障模式多樣,并且經(jīng)常是多種失效模式復(fù)合,加上設(shè)備個(gè)體之間的差異、監(jiān)測(cè)的傳感器數(shù)量等因素影響,目前還沒有能夠適用于所有情況的預(yù)測(cè)方法。 針對(duì)于此,可采取對(duì)多種RUL 預(yù)測(cè)方法進(jìn)行融合,相比單個(gè)預(yù)測(cè)方法,多種預(yù)測(cè)方法的融合能夠有效提升RUL 預(yù)測(cè)的精度和魯棒性。
為了進(jìn)行比較,本文分別采用基于精度的加權(quán)融合和基于信息熵融合方法,對(duì)RUL 預(yù)測(cè)結(jié)果進(jìn)行融合。
由于各種預(yù)測(cè)方法和模型的預(yù)測(cè)精度并不相同,有些方法的預(yù)測(cè)效果更好。 根據(jù)各種預(yù)測(cè)方法預(yù)測(cè)精度的不同,賦予不同的權(quán)重,然后對(duì)各種預(yù)測(cè)方法的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)求和。
基于精度的加權(quán)融合方法公式為:
關(guān)于權(quán)重的計(jì)算,本文根據(jù)單一預(yù)測(cè)方法的判定系數(shù)進(jìn)行確定,判定系數(shù)越大,則權(quán)重越高。根據(jù)判定系數(shù)確定各預(yù)測(cè)方法權(quán)重的計(jì)算公式為:
基于信息熵融合方法的基本原理是:對(duì)于各種預(yù)測(cè)方法,如果預(yù)測(cè)誤差的變異度很大,在融合時(shí)其對(duì)應(yīng)的權(quán)重應(yīng)該比較小。
由于本文只對(duì)判定系數(shù)≥09 的預(yù)測(cè)方法進(jìn)行融合,相對(duì)誤差值偏小,使得權(quán)重值呈現(xiàn)均勻分布。 因此基于信息熵融合時(shí),利用各種預(yù)測(cè)方法在所有時(shí)刻的預(yù)測(cè)值與實(shí)際值之間的絕對(duì)誤差值構(gòu)建的信息熵計(jì)算權(quán)重初始數(shù)據(jù)矩陣進(jìn)行計(jì)算,具體過程如下:
假設(shè),對(duì)種方法的預(yù)測(cè)結(jié)果進(jìn)行融合,第種預(yù)測(cè)方法在時(shí)刻的預(yù)測(cè)值為rul。 首先計(jì)算第種預(yù)測(cè)方法在時(shí)刻預(yù)測(cè)的絕對(duì)誤差值:
其次,對(duì)每一種預(yù)測(cè)方法計(jì)算在所有時(shí)刻點(diǎn)的預(yù)測(cè)絕對(duì)誤差,得到由絕對(duì)誤差組成的序列,并對(duì)其進(jìn)行歸一化處理:
式中,min 為絕對(duì)誤差序列的最小值,max 為絕對(duì)誤差序列的最大值。
再次對(duì)歸一化后的數(shù)據(jù)序列計(jì)算數(shù)據(jù)比重:
之后計(jì)算第種預(yù)測(cè)方法絕對(duì)誤差序列的信息熵,其計(jì)算公式為:
式中,為常數(shù),1ln。
接著計(jì)算第種預(yù)測(cè)方法的變異度系數(shù)d。 由于0≤d≤1,根據(jù)預(yù)測(cè)絕對(duì)誤差序列的信息熵大小與變異度相反的原則,變異度系數(shù)d的計(jì)算公式為:
最后,計(jì)算各個(gè)預(yù)測(cè)方法的權(quán)重w, 計(jì)算公式為:
在本文中,由于難以獲得航空發(fā)動(dòng)機(jī)全壽命周期的完整的樣本數(shù)據(jù),所以采用美國國家航空航天局NASA 公布的渦扇發(fā)動(dòng)機(jī)退化仿真數(shù)據(jù)集,作為此次剩余使用壽命預(yù)測(cè)的研究對(duì)象。
該數(shù)據(jù)集由4 組不同的數(shù)據(jù)構(gòu)成,每組數(shù)據(jù)均由3 個(gè)操作參數(shù)和21 個(gè)傳感器監(jiān)測(cè)參數(shù)組成,本文選取其中的train_FD001 數(shù)據(jù)作為研究對(duì)象。
首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,其過程如下:
(1)計(jì)算“剩余使用壽命” (),將其作為機(jī)器學(xué)習(xí)回歸模型的目標(biāo)變量。 假設(shè)隨時(shí)間線性下降,且在發(fā)動(dòng)機(jī)最后一個(gè)時(shí)間周期的值為0。使用發(fā)動(dòng)機(jī)最大運(yùn)行周期(max_cycle)減去當(dāng)前運(yùn)行周期(cycle)計(jì)算。
(2)特征選擇。 對(duì)數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn):參數(shù)風(fēng)扇入口溫度(2)、風(fēng)扇入口壓力(2)、發(fā)動(dòng)機(jī)壓力比率()、燃燒室燃料燒空氣比()、風(fēng)扇轉(zhuǎn)速(_)、校正后風(fēng)扇轉(zhuǎn)速(_) 等參數(shù)不含任何可用信息,因此做丟棄處理。
(3)通過蓋帽法,消除可能存在的異常值。 將所有參數(shù)中小于1%及大于99%的值,分別用1%分位數(shù)和99%分位數(shù)替換。
(4)特征衍生。 選取時(shí)間窗口長度20,對(duì)于運(yùn)行周期序列號(hào)20 的數(shù)據(jù),根據(jù)當(dāng)前的參數(shù)數(shù)據(jù)及前20 個(gè)連續(xù)的參數(shù)數(shù)據(jù),衍生出新的特征——均值和波動(dòng)(最大值與最小值之差除以均值)。 而對(duì)于≤20 的數(shù)據(jù),做丟棄處理。
(5)將預(yù)處理后的數(shù)據(jù),采用最?。畲笾禋w一化方法,將數(shù)據(jù)歸一化在[0,1]范圍內(nèi)。 歸一化公式為:
式中,為傳感器參數(shù)數(shù)據(jù)的最小值,為傳感器參數(shù)數(shù)據(jù)的最大值。
(6)劃分訓(xùn)練集和測(cè)試集。 隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集。 評(píng)估每個(gè)算法的性能時(shí),為保證每次劃分的結(jié)果相同,隨機(jī)種子設(shè)定為919。
通過對(duì)數(shù)據(jù)進(jìn)行上述步驟的預(yù)處理,最終形成的數(shù)據(jù)包括影響發(fā)動(dòng)機(jī)剩余使用壽命的參數(shù)共45個(gè),作為目標(biāo)變量,數(shù)據(jù)總量18 631 條。 其中訓(xùn)練集14 904 條,測(cè)試集3 727 條。
將表1 中的9 個(gè)算法分別在訓(xùn)練集上進(jìn)行建模,并在相同的測(cè)試集上對(duì)模型進(jìn)行評(píng)估。 選取均方根誤差(Root Mean Squared Error,RMSE)和判定系數(shù)() 作為模型的評(píng)估指標(biāo)。
表2 列出了采用單一預(yù)測(cè)方法進(jìn)行預(yù)測(cè)所得結(jié)果的評(píng)估結(jié)果;圖1 展示了單一預(yù)測(cè)方法均方根誤差的折線圖;圖2 展示了單一預(yù)測(cè)方法判定系數(shù)的折線圖。
圖1 單一預(yù)測(cè)方法的RMSEFig.1 RMSE of single prediction method
圖2 單一預(yù)測(cè)方法的判定系數(shù)Fig.2 Determination coefficient of single prediction method
表2 單一預(yù)測(cè)方法的評(píng)估結(jié)果Tab.2 Evaluation results of single prediction method
結(jié)果顯示:基于樹的3 種算法(決策樹、隨機(jī)森林和XGBoost)預(yù)測(cè)結(jié)果中,判定系數(shù)均超過0.9,屬于最佳類別;隨機(jī)森林的預(yù)測(cè)結(jié)果無論是在均方根誤差還是在判定系數(shù)方面均最佳。 而基于實(shí)例的算法KNN 也取得非常好的預(yù)測(cè)效果,相對(duì)于該算法的簡單性,效果出乎意料。 受訓(xùn)練集樣本量大小的限制,深度學(xué)習(xí)算法并未發(fā)揮應(yīng)有的優(yōu)勢(shì),但模型預(yù)測(cè)效果也比較良好。
本節(jié)將選取單一預(yù)測(cè)方法中預(yù)測(cè)效果最佳的隨機(jī)森林模型做進(jìn)一步的分析。
隨機(jī)選取編號(hào)25、50、62、88 的發(fā)動(dòng)機(jī),使用隨機(jī)森林方法預(yù)測(cè)的和實(shí)際對(duì)比結(jié)果如圖3所示。 可以看出:發(fā)動(dòng)機(jī)在全壽命周期階段,模型的預(yù)測(cè)值和實(shí)際值的擬合程度都比較準(zhǔn)確,總體分布在實(shí)際值附近。 隨機(jī)森林模型針對(duì)發(fā)動(dòng)機(jī)這類復(fù)雜設(shè)備,具有較高的預(yù)測(cè)精度。
圖3 隨機(jī)森林方法的RUL 預(yù)測(cè)結(jié)果Fig.3 RUL prediction results of random forest
預(yù)測(cè)結(jié)果的誤差范圍,在一定程度上可以反映預(yù)測(cè)結(jié)果的精確性與穩(wěn)定性。 隨機(jī)森林預(yù)測(cè)方法在測(cè)試集的預(yù)測(cè)誤差分布如圖4 所示。 可以看出:預(yù)測(cè)誤差主要集中在0 附近,且誤差范圍相對(duì)較小,表明預(yù)測(cè)模型擁有很高的精確性和很好的穩(wěn)定性。
圖4 隨機(jī)森林方法的預(yù)測(cè)誤差分布Fig.4 Prediction error distribution of random forest
本文采用基于精度的加權(quán)融合與基于信息熵的融合方法,對(duì)RUL 預(yù)測(cè)結(jié)果進(jìn)行融合。
由于不同預(yù)測(cè)方法的判定系數(shù)差異性較大,只選擇判定系數(shù)≥09 的預(yù)測(cè)方法進(jìn)行融合。 兩種融合預(yù)測(cè)方法計(jì)算的各單一預(yù)測(cè)方法的權(quán)重值見表3。
表3 單一預(yù)測(cè)方法的權(quán)重值Tab.3 Weight of single prediction method
采用單一預(yù)測(cè)方法進(jìn)行預(yù)測(cè)以及對(duì)預(yù)測(cè)結(jié)果進(jìn)行融合后,所得評(píng)估結(jié)果見表4;單一預(yù)測(cè)方法和融合預(yù)測(cè)方法的均方根誤差的折線如圖5 所示;單一預(yù)測(cè)方法和融合預(yù)測(cè)方法的判定系數(shù)的折線如圖6 所示。
圖5 單一/融合預(yù)測(cè)方法的RMSEFig.5 RMSE of single/fusion prediction method
圖6 單一/融合預(yù)測(cè)方法的判定系數(shù)Fig.6 Determination coefficient of single/fusion prediction method
表4 單一/融合預(yù)測(cè)方法的評(píng)估結(jié)果Tab.4 Evaluation results of single/fusion prediction method
上述結(jié)果表明:融合預(yù)測(cè)方法的預(yù)測(cè)結(jié)果較單一預(yù)測(cè)方法擁有更高的預(yù)測(cè)精度,對(duì)多種預(yù)測(cè)方法的融合是提升預(yù)測(cè)精度的有效措施之一。
本文基于NASA 公布的渦扇發(fā)動(dòng)機(jī)退化仿真數(shù)據(jù),根據(jù)算法的功能和形式的類似性,將常用的回歸類算法進(jìn)行分類,然后選取每類中比較經(jīng)典的算法進(jìn)行預(yù)測(cè)對(duì)比。 實(shí)例分析結(jié)果表明:基于樹的算法屬于最佳類別。 其中,隨機(jī)森林算法的單一預(yù)測(cè)效果最佳。
采用基于精度的加權(quán)融合與基于信息熵融合方法,對(duì)預(yù)測(cè)結(jié)果進(jìn)行融合。 其結(jié)果表明: 融合預(yù)測(cè)方法無論在均方根誤差() 還是在判定系數(shù)() 方面,較單一預(yù)測(cè)方法都有一定的提升,其中基于精度的加權(quán)融合效果最佳。