李鼎哲, 彭靖波, 趙澤平, 王瑋軒, 趙 彪
(空軍工程大學(xué)航空工程學(xué)院, 西安, 710038)
航空發(fā)動機工作狀態(tài)識別屬于模式識別中的多分類問題。目前,已有學(xué)者將SVM與SVDD方法用于航空發(fā)動機工作狀態(tài)識別,文獻(xiàn)[1]基于最小二乘支持向量機(LS-SVM)將一對一、一對多以及糾錯輸出編碼3種分類方法進(jìn)行了比較,并采用糾錯輸出編碼方法對某架次發(fā)動機工作狀態(tài)進(jìn)行了識別。但所提方法在追求分類速度的同時犧牲了一定的分類精度,并且數(shù)據(jù)缺失對分類性能有較大的影響。文獻(xiàn)[2]構(gòu)建了一種基于超橢球分類面支持向量數(shù)據(jù)描述(HE-SVDD)分類器,具備了快速從大規(guī)模飛行數(shù)據(jù)中識別航空發(fā)動機工作狀態(tài)的能力。但所提方法的分類性能依賴于核函數(shù)的選取,且核函數(shù)的選取只能依靠經(jīng)驗。文獻(xiàn)[3]針對HE-SVDD方法存在的部分缺陷進(jìn)行改進(jìn),提出了一種改進(jìn)BA優(yōu)化的多核支持向量數(shù)據(jù)描述(CRBA-MKSVDD)分類算法,進(jìn)一步提高分類器的性能。但所提方法作為一種單分類器,存在響應(yīng)時間長等缺點。
隨機森林(Random Forest, RF)作為一種統(tǒng)計學(xué)習(xí)理論,利用Bootstrap重抽樣方法從原始樣本中抽取多個樣本,對每個樣本建立決策樹模型,然后組合多棵決策樹的預(yù)測,通過投票得出最終預(yù)測結(jié)果。該方法內(nèi)部執(zhí)行交叉驗證,對于復(fù)雜和非線性數(shù)據(jù),有很好的預(yù)測效果,并且有訓(xùn)練速度快、不易過擬合等優(yōu)點[4-5],近年來廣泛應(yīng)用于故障診斷[6-7]、聚類識別[8-9]、回歸預(yù)測[10-11]等領(lǐng)域。PCA法作為一種數(shù)據(jù)處理分析方法,主要應(yīng)用于圖形、語音等方面的處理和識別以及特征選擇[12-14]。為此,本文將主成分分析法(Principal Component Analysis, PCA)與隨機森林(RF)結(jié)合對航空發(fā)動機工作狀態(tài)進(jìn)行識別。
PCA是一種常用的數(shù)據(jù)分析方法,其原理是通過一個向量矩陣將原始數(shù)據(jù)從高維空間投影到一個低維的向量空間[15-16]。換言之即通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,以此提取數(shù)據(jù)的主要線性分量。PCA法的流程為:①樣本向量集;②計算矩陣X的協(xié)方差矩陣C;③計算協(xié)方差矩陣C的特征值和對應(yīng)特征向量;④將所得特征向量從大到小排列對應(yīng)的特征向量組成特征矩陣U;⑤使用特征矩陣U將樣本特征矩陣X進(jìn)行變換;⑥輸出主成分。
設(shè)一個n維樣本向量集X={x1,x2,…,xn},則X?Rm×n,令:
(1)
得到樣本集的協(xié)方差矩陣為:
(2)
將矩陣C正交分解,得到:
C=U·Λ·UT
(3)
式中:Λ=diag(λ1,λ2,…,λn)是對角陣,由C的n個按降序排列的特征值λi組成。特征矩陣U=[u1,u2,…,un]由特征值λi對應(yīng)的特征向量ui(i=1,2,…,n)組成的特征矩陣。λk對應(yīng)的貢獻(xiàn)度為:
(4)
為了提取樣本集中信息量大的主元,用貢獻(xiàn)率θ來表示,得到前d個主元的貢獻(xiàn)率為:
(5)
設(shè)定閾值為P,使得θ≥P,確定主元,可得到主元模型:
V=UTX
(6)
原先的矩陣X可以重構(gòu)為:
(7)
這樣就可以將前d個特征向量構(gòu)成的PCA子空間的大部分特征信息體現(xiàn)出來,實現(xiàn)了屬性約簡的目的。
決策樹(Decision Tree)[17]方法可認(rèn)為是一棵分類模型樹,包含根節(jié)點、內(nèi)部節(jié)點和葉節(jié)點,圖1為決策樹的基本構(gòu)成。
圖1 決策樹基本構(gòu)成圖
其中,根節(jié)點包含整個數(shù)據(jù)集,每個內(nèi)部節(jié)點是一個判斷條件,它將根據(jù)判斷條件的測試結(jié)果,將數(shù)據(jù)集分配到2個或多個子節(jié)點,子節(jié)點繼續(xù)分裂直至產(chǎn)生葉節(jié)點,包含最終的數(shù)據(jù)類別。但決策樹生長過渡會使其產(chǎn)生過擬合的問題,且對于不平衡樣本的分類性能較差,信息增益容易偏向樣本量大的特征。
隨機森林是由多棵決策樹組成的組合分類器,圖2為隨機森林的算法流程圖。通過訓(xùn)練多個樹狀分類器,將多棵決策樹的預(yù)測組合,最后經(jīng)過投票的方式得到預(yù)測結(jié)果。其基本思想是先采用Bootstrap抽樣從原始訓(xùn)練集中抽取k個樣本,其次建立k個決策樹模型,獲得k種分類結(jié)果,最后對所有結(jié)果投票表決,確定最終歸屬于哪一類別。其模型函數(shù)為:
(8)
式中:k為決策樹的數(shù)量;Y為輸出變量(目標(biāo)變量);I為示性函數(shù);H(x)表示組合分類模型;hi(x)表示第i棵決策樹的分類模型。
圖2 隨機森林流程圖
隨機森林通過構(gòu)造不同的訓(xùn)練集增加分類模型間的差異,從而提高組合分類模型的外推預(yù)測能力[1]。其隨機性主要體現(xiàn)在以下方面:第一,訓(xùn)練樣本選擇具有隨機性,即通過多次有放回抽樣形成子集;第二,特征子集的選擇具有隨機性,即隨機抽取特征集合;第三,所有決策樹模型不進(jìn)行剪枝,自由成長。因此,隨機森林很好地解決了過擬合的問題,將多個弱分類器集成一個強分類器。
算法設(shè)計流程主要包含了某型發(fā)動機飛參數(shù)據(jù)的采集與預(yù)處理、特征提取以及工作狀態(tài)識別。
首先,將相關(guān)發(fā)動機參數(shù)從飛參記錄器轉(zhuǎn)錄至地面處理設(shè)備(通常是便攜式計算機),進(jìn)行數(shù)據(jù)的預(yù)處理,隨后按一定比例選取訓(xùn)練集和測試集。再采用PCA方法對數(shù)據(jù)集進(jìn)行特征提取,利用降維后的訓(xùn)練集對隨機森林分類器進(jìn)行訓(xùn)練,再導(dǎo)入測試集進(jìn)行發(fā)動機工作狀態(tài)的分類識別,并計算分類準(zhǔn)確率和測試時間。
1)采集飛參數(shù)據(jù),提取相關(guān)特征參數(shù)并進(jìn)行預(yù)處理。
2)通過PCA方法將所提取的飛參特征數(shù)據(jù)進(jìn)行降維,根據(jù)貢獻(xiàn)率選擇n個主成分,輸出對應(yīng)的特征向量矩陣,組成訓(xùn)練數(shù)據(jù)集。
3)在訓(xùn)練數(shù)據(jù)集中通過Bootstrap方法有放回抽取k個樣本集,構(gòu)建k棵決策樹。
4)在每一棵樹的各節(jié)點處隨機抽取m個特征屬性(m≤n),對評估效果最佳的屬性在對應(yīng)節(jié)點處遵循節(jié)點不純度原則進(jìn)行分裂生長。
5)每棵決策樹充分生長,不進(jìn)行任何剪枝。
6)將生長得到的k棵樹組成隨機森林,根據(jù)分類器的投票數(shù)量得到相應(yīng)分類結(jié)果。
上述算法設(shè)計流程如圖3所示。
圖3 算法流程圖
某型發(fā)動機的穩(wěn)定工作狀態(tài)包含慢車、節(jié)流、中間、小加力和全加力(最大)狀態(tài),在外場工作中,通常需要將油門桿角度與其他同發(fā)動機相關(guān)的參數(shù)結(jié)合起來人工判讀發(fā)動機工作狀態(tài),因此在特征飛參數(shù)據(jù)的選取上將會以此作為參考。
以下原則將會在參數(shù)選取過程中被考慮:①以該型號發(fā)動機技術(shù)說明中明確規(guī)定的相關(guān)技術(shù)指標(biāo)以及對應(yīng)參數(shù)為準(zhǔn)。②若飛參數(shù)據(jù)之間存在較強的相關(guān)性,則選擇相對工作狀況強相關(guān)的參數(shù),如換算轉(zhuǎn)速與轉(zhuǎn)速之間存在關(guān)聯(lián),考慮到轉(zhuǎn)速作為發(fā)動機工作狀態(tài)劃分的主要依據(jù)之一(如慢車狀態(tài)轉(zhuǎn)速通常為中間狀態(tài)轉(zhuǎn)速的0.4~0.6倍),而換算轉(zhuǎn)速更多的用于發(fā)動機相關(guān)參數(shù)的控制規(guī)律,那么就選擇轉(zhuǎn)速作為特征參數(shù)。
綜上,最終選擇油門桿角度(APL,(°))、低壓轉(zhuǎn)速(n1,%)、高壓轉(zhuǎn)速(n2,%)、滑油壓力(Pm,MPa)、主燃油量(Wf,kg)、渦輪后溫度(T6,℃)、渦輪后壓力(P6,kPa)、發(fā)動機排氣溫度(T9,℃)、噴口面積(A9,cm2)以及加力接通信號(K)共計10個特征參數(shù)。
從外場收集該型航空發(fā)動機2018年5月日常飛行訓(xùn)練中的飛參數(shù)據(jù)。隨機選中4個無故障飛行架次,對上述的特征參數(shù)進(jìn)行提取,根據(jù)文獻(xiàn)[18]所提方法進(jìn)行如下預(yù)處理:
1)異常值剔除。對于明顯偏離參數(shù)正常變化范圍且同一時間點其余參數(shù)均正常的點,為避免影響分類效果,應(yīng)當(dāng)剔除。
2)同步性處理。某型飛機飛參記錄器1 s記錄4幀飛參數(shù)據(jù),但由于不同的參數(shù)采樣頻率不同,在時間上并不同步,需要進(jìn)行同步性處理,處理的辦法是對各參數(shù)在1 s內(nèi)求均值。
3)數(shù)據(jù)歸一化。由于所選參數(shù)的測量精度以及量綱的不同,需要進(jìn)行歸一化處理,將所有參數(shù)歸一化至0~1之間。
按照上述原則和處理方法最后得到原始樣本數(shù)據(jù)38 826個,其中慢車、節(jié)流、中間、小加力、全加力數(shù)據(jù)數(shù)量分別為10 416、9 892、12 208、2 398和3 912個。
為降低特征維數(shù)以及減少各特征間相關(guān)性,采用PCA方法對選取的10個特征進(jìn)行融合和約簡。
5個狀態(tài)下的樣本各取70%作為訓(xùn)練集,余下30%作為測試集。對所取訓(xùn)練集進(jìn)行PCA處理,可以得到10個特征值矩陣Λ以及對應(yīng)的特征向量U。選取主元累計貢獻(xiàn)率θ為95%,得到相應(yīng)的k值為5。前6個主元的累計貢獻(xiàn)率分別為59.1%,69.6%,79.4%,87.8%,95.2%,96.6%。
在進(jìn)行狀態(tài)識別前,需要選擇最優(yōu)的決策樹數(shù)目。決策樹數(shù)目與分類準(zhǔn)確率的關(guān)系如圖4所示??梢钥吹疆?dāng)決策樹棵樹為15時,分類準(zhǔn)確率達(dá)到98.43%,且隨著決策樹數(shù)目增多,準(zhǔn)確率趨于穩(wěn)定。但決策樹增多會使計算復(fù)雜度隨之上升,伴隨著計算時間的增加。因此,選擇15棵決策樹組成隨機森林分類器,進(jìn)行發(fā)動機工作狀態(tài)的識別,既能保證分類精度,又能合理的減小計算復(fù)雜度,縮短計算時間。
圖4 分類準(zhǔn)確率與決策樹數(shù)目關(guān)系圖
表1比較了未使用和使用PCA方法進(jìn)行屬性約簡后的隨機森林分類器(決策樹數(shù)量同為15)分類準(zhǔn)確率和訓(xùn)練時間。可以看出,對數(shù)據(jù)進(jìn)行屬性約簡后,訓(xùn)練時間將會顯著減少,而且分類精度仍然較高。
表1 2種方法準(zhǔn)確率比較
實驗過程中,選擇屬性約簡后的訓(xùn)練集對不同的分類器(BP-ANN、LS-SVM、BA-MKSVDD和RF)進(jìn)行訓(xùn)練,用同樣經(jīng)過屬性約簡的測試集對訓(xùn)練后的分類器進(jìn)行分類精度檢驗。圖5為反映分類器識別效果的受試者工作特性(ROC)曲線。
對比分析圖5可知,所提出的PCA-RF方法在發(fā)動機的5種工作狀態(tài)下都具有比較優(yōu)異的分類性能,相比于其它3種識別方法尤其是BP神經(jīng)網(wǎng)絡(luò)和LS-SVM而言,其對5種工作狀態(tài)下的特征數(shù)據(jù),在較低的異常樣本接受率下都能夠正確的接受大部分目標(biāo)樣本,更適合用作狀態(tài)識別分類器。
表2和表3分別為使用PCA降維前后4種分類器分類精度和測試時間。從表2可知,RF的識別準(zhǔn)確率最高,明顯高于LS-SVM與BP-ANN,尤其表現(xiàn)在發(fā)動機進(jìn)入加力工作狀態(tài)之前的3個工作狀態(tài)上。由于發(fā)動機進(jìn)入加力狀態(tài)工作時間較少,以及加力狀態(tài)下飛參數(shù)據(jù)具有波動性強、穩(wěn)定性低的特點,因此造成識別準(zhǔn)確率的下降。由表3可知,使用PCA降維后,能夠顯著減少識別時間,但同時會使識別準(zhǔn)確率有小幅下降。綜合看來,本文所選的PCA-RF方法既可以有效提高識別效率,又能夠保證較高的識別精度。
圖5 不同工作狀態(tài)的ROC曲線
表2 使用PCA降維前各分類器的分類精度與測試時間
表3 使用PCA降維后各分類器的分類精度與測試時間
使用本文提出的算法,節(jié)選該型發(fā)動機的某次飛行訓(xùn)練中的一段飛參數(shù)據(jù)進(jìn)行工作狀態(tài)識別,在進(jìn)行發(fā)動機工作狀態(tài)狀態(tài)識別前需要利用2.1節(jié)中提出的原則對飛參數(shù)據(jù)進(jìn)行預(yù)處理。
在選取的這段飛參數(shù)據(jù)內(nèi),該型發(fā)動機先后經(jīng)歷了慢車、節(jié)流、慢車、中間、節(jié)流、小加力、全加力、最大、節(jié)流和慢車狀態(tài),圖6為識別結(jié)果。
圖6 某架次發(fā)動機工作狀態(tài)識別結(jié)果
可以看出,預(yù)測結(jié)果同實際結(jié)果吻合度較高。使用本文所提方法對該段發(fā)動機工作狀態(tài)識別準(zhǔn)確率達(dá)到97.89%,已經(jīng)基本符合發(fā)動機的實際工作狀況,可以體現(xiàn)本文方法的有效性。
本文提出了一種基于PCA的特征提取方法和RF的航空發(fā)動機工作狀態(tài)識別方法。通過對某型發(fā)動機工作狀態(tài)的識別實例,得出以下結(jié)論:
1)利用PCA方法進(jìn)行屬性約簡對識別準(zhǔn)確率影響較小,同時能提高識別效率。
2)經(jīng)過對比實驗,本文所提方法具有較高的識別準(zhǔn)確率和識別效率。
3)節(jié)選某架次航空發(fā)動機飛參數(shù)據(jù)進(jìn)行工作狀態(tài)識別,結(jié)果表明本文所提方法對發(fā)動機工作狀態(tài)能有效識別,具有研究應(yīng)用價值。
此外,隨機森林分類器的分類性能易受樣本數(shù)量影響,對于小樣本數(shù)據(jù)的分類效果仍有提高的空間。