章翔峰 劉 迪 姜 宏
(新疆大學機械工程學院,新疆烏魯木齊 830046)
旋轉(zhuǎn)機械在工業(yè)應用中扮演著極其重要的角色,而齒輪箱幾乎是所有旋轉(zhuǎn)機械中必不可少的組成部分[1]。因此,對齒輪箱進行故障診斷是維護旋轉(zhuǎn)機械設備正常運行的必要手段。
目前,對齒輪箱中單部件和單故障類型的研究已經(jīng)比較深入,周建民等[2]提取時域特征和能量熵特征,基于相關性、單調(diào)性和魯棒性3種指標從中選擇最佳的軸承退化特征;Zhang K等[3]結(jié)合了多種特征選擇模型,提出了一種混合式特征選擇算法,應用于選擇軸承和定子繞組的特征頻率。而對復合故障診斷的研究往往側(cè)重于同一部件,如齒輪或軸承,胡愛軍等[4]以最大相關峭度為依據(jù)優(yōu)化變分模態(tài)分解(variational mode decomposition, VMD)參數(shù),結(jié)合1.5維譜用以分離滾動軸承復合故障特征;張振海等[5]提取齒輪振動信號的小波包能量譜特征,通過多分類支持向量機(multi-class support vector machine,MSVM)進行診斷。然而,齒輪箱中往往存在不同部件故障同時發(fā)生,這種復合故障卻很少被研究。
因此,研究不同部件故障同時發(fā)生的復合故障診斷方法成為故障診斷領域相關研究人員的一項重要任務。軸承和齒輪作為齒輪箱中最重要的部件,因受多元激勵共同作用等惡劣環(huán)境影響,極易發(fā)生故障,且當軸承出現(xiàn)故障后,會影響齒輪的振動特性,反之亦然[6],加之復合故障特征之間發(fā)生耦合,使得齒輪-軸承復合故障的診斷變得極為困難。故障診斷通常由特征提取和模式識別兩部分組成,獲得一個優(yōu)質(zhì)的特征集是實現(xiàn)故障診斷的關鍵,然而,由于故障信息分散在多個域中且特征間相互耦合等影響,構(gòu)造的特征集中往往存在著大量冗余和無關的特征。這些特征對分類器提供的信息有限,甚至會造成干擾[7],且特征集維數(shù)過大會導致分類器需要更長的訓練時間。
為了克服上述問題,國內(nèi)外學者通過特征選擇技術從原始高維特征集中篩選出敏感特征,在提升分類準確率的同時盡可能減少特征集的維數(shù)。李帥位等[8]提出了一種利用Grassmann流形的多聚類特征選擇方法,應用于滾動軸承故障數(shù)據(jù)集。Zhang X L等[9]提出了一種混合式算法應用于滾動軸承故障和轉(zhuǎn)子故障,該方法可以在獲得最優(yōu)特征子集的同時優(yōu)化支持向量機(support vector machine,SVM)的參數(shù)。Buchaiah S等[10]使用了一種嵌入式特征選擇方法-隨機森林來確定軸承故障特征集的最優(yōu)子集,并在進一步使用降維技術進行融合后通過SVM進行分類,這些方法取得了較好的應用表現(xiàn),但存在計算復雜,多個關鍵參數(shù)需要人為設定等問題。
特征選擇算法已在故障診斷領域中得到廣泛應用,但在復合故障診斷中的應用仍較為少見,基于以上分析,本文結(jié)合了多篇前人在故障診斷中開展的應用,提出了一種綜合多種特征選擇模型的三階段混合式特征選擇方法,用于齒輪箱中的齒輪-軸承復合故障診斷。首先通過從時域、頻域及特征值域中提取故障特征以獲取更全面的故障信息,然后在特征排序階段中利用4種過濾式模型從3個測度對特征進行評價,接著在加權(quán)排序階段中通過模型的評價結(jié)果在徑向基(radial basisfunction,RBF)網(wǎng)絡中表現(xiàn)出的分類精度,以加權(quán)的方式綜合不同評價結(jié)果,對特征重新進行排序,然后在特征篩選階段中使用RBF網(wǎng)絡結(jié)合3種啟發(fā)式搜索方法,按照排序結(jié)果迭代篩選出最優(yōu)特征子集,最后通過RBF網(wǎng)絡實現(xiàn)故障分類。
依照評價標準的不同,可將特征選擇算法分為過濾式(filter)、封裝式(wrapper)、嵌入式(embedded)和混合式(hybrid)算法[11]。其中過濾式算法依據(jù)評價準則對特征進行排序,計算效率高,但評估結(jié)果與后續(xù)分類器的性能偏差較大;而封裝式算法依據(jù)識別準確率篩選特征,偏差小,但計算量大,不適合高維數(shù)據(jù)集;因此先使用過濾式算法對特征進行評價,再使用封裝式算法按照評價結(jié)果精細篩選的混合式算法得到了廣泛應用。
由于僅使用單一評價準則會造成選擇后的子集中存在無關或冗余特征,且無法保證子集是最優(yōu)的而非次優(yōu)的,因此本文使用多種特征選擇模型綜合考慮不同評價準則,首先使用4種過濾式算法分別通過距離、信息和相關性測度對特征進行評價。
1.1.1 費舍爾分值法
在費舍爾分值(Fisher score,FS)法中,每個特征都是根據(jù)其Fisher標準分數(shù)獨立選擇的,F(xiàn)isher得分越大,該特征的辨別力就越強。給定特征x,F(xiàn)S的計算公式如下[12]
其中:x+、x-分別表示正樣本和負樣本,l+、l-分別表 示正樣本和負樣本的個數(shù),-表示均值。
1.1.2 距離評估技術
距 離 評 估 技 術(distance evaluation technique,DET)與FS同為基于距離測度對特征進行評價,文獻[13]提出了一種改進DET算法,通過計算類間距離和類內(nèi)距離的比值作為距離評估因子,得分越大,相應的特征越易于區(qū)分不同類。
1.1.3 信息增益
信息增益(information gain,IG)基于信息測度對特征進行評價,是對特征的先驗不確定性和預期的后驗不確定性之間差異的度量,特征的信息增益越大,判別能力越好。給定特征x和其對應的標簽y,IG的計算公式如下:
其中:H() 表示信息熵,H(|)表示條件熵。
1.1.4 皮爾遜相關系數(shù)
皮爾遜相關系數(shù)(Pearson correlation coefficient,PCC)基于相關性測度對特征進行評價,它可以用來衡量特征和類之間的相關性。得分越高,特征區(qū)分不同類的能力越好。給定特征x和其對應的標簽y,PCC的計算公式如下
其中:-表示均值。
然后在封裝式算法中將采用3種隨機搜索策略來調(diào)整子集以獲得近似的最優(yōu)子集。
1.1.5 二分查找
二分查找(binary search,BS)將候選特征集分為兩部分:左子集和右子集。如果左子集的分類錯誤率低于閾值,則保留左子集以進行進一步搜索,并刪除右子集,反之亦然。當下一個左子集和右子集的錯誤率都高于閾值時,迭代過程停止。
1.1.6 序列向前查找
序列向前查找(sequential forward search,SFS)的過程是在開始子集中一次增加1個特征。當分類精度沒有隨著特征的增加而提高時,迭代過程停止。
1.1.7 序列向后查找
序列向后查找(sequential backward search, SBS)的過程與SFS相反,在開始子集中一次減少1個特征。當分類精度沒有隨著特征的減少而提高時,迭代過程停止。
RBF網(wǎng)絡是一種具有3層結(jié)構(gòu)的前饋網(wǎng)絡模型[14],憑借結(jié)構(gòu)簡單,收斂速度快等優(yōu)點被廣泛應用于故障診斷領域中,其基本結(jié)構(gòu)如圖1所示。本文中使用高斯函數(shù)作為RBF網(wǎng)絡的激活函數(shù),并通過最小化均方誤差來訓練網(wǎng)絡,當誤差達到目標或隱藏層神經(jīng)元個數(shù)達到最大時結(jié)束訓練。
圖1 RBF網(wǎng)絡結(jié)構(gòu)
齒輪箱的振動信號中包含了豐富的故障信息,由于從單一尺度中提取故障特征很容易造成故障信息的丟失。因此為了更精細地捕捉隱藏在振動信號中的故障信息,本文首先使用經(jīng)驗模態(tài)分解(empirical mode decomposition,EMD)算法對原始振動信號進行分解,然后選取包含有用信息的前8個固有模態(tài)分量(intrinsic mode function,IMF),最后分別從原始振動信號和前8個IMF中提取時域、頻域特征以及特征值域特征。特征值域特征[15]是通過將振動信號轉(zhuǎn)化為圖信號并變換到特征值域,從中提取的特征信息,它能夠表征振動信號的變化特征。
最終構(gòu)造的故障特征集中包括11個時域特征,13個頻域特征[13]以及6個特征值域特征,共提?。?1+13+6)×9=270個特征構(gòu)造原始特征集。特征集中時域特征編號為1~99,頻域特征編號為100~216,特征值域特征編號為217~270,特征參數(shù)的具體計算公式見表1。
表1中,時域特征參數(shù)T1和T3~T5反映時域振動幅值和能量大小,T2和T6~T11反映時域信號的時間序列分布情況;頻域特征參數(shù)F1反映頻域振動能量的大小,F(xiàn)2~F4,F(xiàn)6和F10~F13反映頻譜的分散或集中程度,F(xiàn)5和F7~F9反映主頻帶位置的變化;特征值域特征參數(shù)P1~P6反映圖信號在特征值域的幅值和能量以及波動情況的變化。
表1 特征參數(shù)
此外,為了消除奇異樣本數(shù)據(jù)導致的不良影響,對特征集使用式(4)進行歸一化處理。
其中:x表示原始數(shù)據(jù),x′表示經(jīng)歸一化處理后的數(shù)據(jù)。
本文提出的特征選擇方法由3個階段組成,分別為特征排序階段、加權(quán)排序階段以及特征篩選階段,具體流程圖如圖2所示。
圖2 特征選擇流程圖
特征排序階段中,使用FS、DET、MI和Person相關系數(shù)這4種過濾式模型分別從距離測度、信息測度和相關性測度對故障特征進行評價,得到4組特征得分。
加權(quán)排序階段中,首先按照特征得分對特征進行排序,選取排名最高的前n個特征輸入RBF網(wǎng)絡進行分類。然后將識別錯誤率作為權(quán)值,與每個特征排名的乘積作為對應特征的新得分。對4組特征得分重復上述操作后,每個特征均得到4個新得分,將新得分求和即為該特征的加權(quán)得分結(jié)果,加權(quán)機制如式(5)所示,最后按照由小到大的順序重新排序。
其中:SNew表示某個特征的加權(quán)得分,EFS和RFS分別表示FS等模型的識別錯誤率和在對應模型的評價結(jié)果中該特征的排名。
重新排序后的特征,充分考慮了特征在不同評價準則中的表征能力,將冗余、無關特征和敏感特征以排名劃分開。新的排序結(jié)果中,敏感特征排名靠前,而冗余和無關特征排名靠后,因此僅選擇前幾個特征便可以替代原始高維數(shù)據(jù)集,使特征集達到最高的識別準確率。
特征篩選階段中,首先通過BS快速篩除排名靠后的冗余和無關特征,大致確定最優(yōu)子集,然后以BS獲得的子集為起點,分別使用SFS和SBS選擇最優(yōu)子集,最后比較兩個子集,以其中識別準確率最高的一個為最優(yōu)子集。
本文提出的齒輪箱復合故障診斷方法主要分為3個步驟:
(1)將樣本集隨機劃分為測試樣本和訓練樣本,然后從訓練樣本的原始振動信號中提取故障特征,構(gòu)造高維故障特征集。
(2)對原始高維特征集使用本文提出的特征選擇方法,得到最優(yōu)特征子集,然后對測試樣本僅提取篩選后的最優(yōu)特征。
(3)使用訓練樣本的最優(yōu)特征子集對RBF分類器進行訓練,然后使用訓練好的分類器對測試樣本進行故障分類。
為了驗證本文方法的有效性,使用SQI公司的風電機組驅(qū)動系統(tǒng)故障診斷試驗臺,采集齒輪箱不同運行狀態(tài)下的振動信號。試驗臺如圖3所示,故障齒輪與故障軸承均安裝在平行軸齒輪箱輸入軸上,齒輪與軸承故障均通過人為加工,故障類型包括齒輪的磨損故障、裂紋故障、斷齒故障以及軸承的內(nèi)圈故障、外圈故障和滾動體故障。采集的樣本類型包括正常狀態(tài)、6種單故障狀態(tài)和4種齒輪-軸承復合故障狀態(tài),詳細描述如表2所示。
表2 樣本類型
采集過程中,輸入軸轉(zhuǎn)速約為1 000 r/min,采樣頻率設置為20 480 Hz,對每種狀態(tài)類型各采集200個樣本,其中4種復合故障的時域圖如圖4所示,可以明顯看出不同齒輪-軸承復合故障間的時域差異較小,難以直接區(qū)分。將故障樣本集按照1∶3的比例劃分為測試集和訓練集,然后按照本文提出的診斷方法進行實驗。
圖4 不同齒輪-軸承復合故障的時域波形
首先將訓練集中的270個特征分別通過4種過濾式模型按照判別能力由高到低排序,然后分別按照排序結(jié)果選取前20個特征輸入RBF網(wǎng)絡,當均方誤差小于10-10或神經(jīng)元達到200個時,訓練停止。訓練重復10次,取平均值作為4組次優(yōu)子集的識別錯誤率,F(xiàn)S、DET、IG、PCC的識別錯誤率依次為2.18%、3.09%、6.82%和9.64%。將識別錯誤率作為權(quán)值,按照式(5)計算特征的新得分,以加權(quán)排序后排名最高的前兩個特征為例:
第2個特征:24×0.021 8+58×0.030 9+5×0.068 2+14×0.096 4=4.006
第15個特征:25×0.021 8+63×0.030 9+4×0.068 2+15×0.096 4=4.210
將新得分之和按從低到高重新排序即為最終的加權(quán)排序結(jié)果,4種過濾式模型和加權(quán)排序的部分結(jié)果如表3所示。從表3中可以看出傳統(tǒng)的時域、頻域特征在信息和相關性測度中的表現(xiàn)要差于特征值域特征,但在距離測度中的表現(xiàn)更優(yōu),因此加權(quán)排序結(jié)果中排名靠前的特征中,時域、頻域特征的占比要高于特征值域特征。
表3 排序結(jié)果
然后以經(jīng)過加權(quán)排序后的新特征集為起點,首先使用BS將特征集均分為左子集和右子集,取其中識別準確率最高的一個為新起點,當新的左右子集的識別準確率均低于起點時停止迭代,此時由BS獲取的最優(yōu)子集包含17個特征。接著以這17個特征為起點,分別使用SBS和SFS各獲取一個最優(yōu)子集,分別包含17和18個特征,然后比較兩個子集的識別準確率,取二者中最高的一個作為最優(yōu)子集,本例中即是由SFS獲取的包含18個特征的子集,具體篩選過程如圖5所示,圖中方框內(nèi)為子集包含的特征,括號內(nèi)為子集的識別準確率,并在括號前標注了子集內(nèi)特征的個數(shù)。
圖5 特征篩選階段
最終測試集中僅提取經(jīng)特征選擇后的18個特征,使用經(jīng)訓練集訓練后的RBF網(wǎng)絡分類,得到的混淆矩陣如圖6所示,11種故障狀態(tài)均取得了較好的診斷結(jié)果,測試集的平均準確率達到了94.42%,然而狀態(tài)9-齒輪磨損-軸承滾動體復合故障的識別準確率僅為85.33%,其誤分類幾乎都出現(xiàn)在狀態(tài)7-軸承滾動體故障中,從圖6中可以看出誤分類大都發(fā)生在不同部件故障間以及復合故障和組成復合故障的單故障間,證明復合故障和單故障的特征相似度較高,因而降低了分類精度。
圖6 測試集的混淆矩陣
為了驗證本文提出的特征選擇方法的優(yōu)越性,設置了3組對照實驗,從經(jīng)加權(quán)排序階段重新排序后的特征集中挑選特征子集,分別為:實驗1,使用排名前20個特征;實驗2,隨機使用20個特征;實驗3,使用排名后20個特征。3組實驗均使用RBF網(wǎng)絡作為分類器,網(wǎng)絡參數(shù)保持一致,每組實驗重復10次,取效果最優(yōu)的1次作為結(jié)果,實驗對比結(jié)果如表4所示。
表4 實驗對比結(jié)果
相比于直接使用原始高維特征集,實驗1的識別準確率提升了11.69%,實驗2和實驗3的識別準確率則分別降低了2.25%和64.49%。充分說明經(jīng)加權(quán)排序階段重新排序后,排名靠前的特征對不同故障類別的區(qū)分能力更好,而排名靠后的特征表征能力較差,無益于故障分類任務,甚至會影響特征集的分類能力。此外,當僅使用一種過濾式模型,將排序后的前18個特征作為最優(yōu)子集時,同樣將實驗重復10次,取效果最優(yōu)的1次作為結(jié)果,得到僅使用FS、DET、IG和PCC的測試集識別準確率,依次為:92.48%、92.42%、91.27%和87.45%,均低于本文方法,說明不同測度對于特征的評價能力不同,且單一測度獲得的排序結(jié)果中存在冗余特征,而本文方法則篩除了冗余特征,在同樣的特征維數(shù)下,取得了最高的識別準確率。
與直接使用原始高維特征集進行故障分類相比,可以發(fā)現(xiàn)在應用本文提出的特征選擇方法后,在特征個數(shù)減少了93.3%,分類器訓練時間縮短了52%的同時,提高了12.72%的識別準確率。證明本文方法可以篩除對故障類別不敏感的特征,僅保留判別能力最好的特征,可以在降低特征維數(shù)、縮短訓練時間的同時,顯著提高故障分類的準確率。
本文針對齒輪箱中齒輪-軸承復合故障存在故障特征耦合,特征信息分散等問題,提出了一種綜合多種特征選擇模型的三階段混合式特征選擇方法。經(jīng)由包含單故障和復合故障的試驗樣本集進行驗證,試驗結(jié)果表明本方法可以有效降低故障特征集的維數(shù)并提升分類能力。
(1)本文提出的特征選擇算法綜合了多種評價標準的優(yōu)勢,有效篩除了原始特征集中的冗余特征和無關特征,并通過啟發(fā)式搜索策略迭代搜索獲取最優(yōu)特征子集。
(2)本文提出的特征選擇方法能夠從高維特征集中自動確定最優(yōu)特征子集,從而在成功降低特征維數(shù)的同時取得最高的識別準確率。
(3)與直接使用原始高維特征集相比,應用本文提出的特征選擇方法減少了93.3%的特征個數(shù)并提升了12.72%的識別準確率,同時也縮短了測試集故障特征的提取時間和分類器的訓練時間。