劉東川, 鄧艾東, 趙 敏, 卞文彬, 許 猛
(東南大學(xué) 能源與環(huán)境學(xué)院 火電機(jī)組振動(dòng)國(guó)家工程研究中心, 南京 210096)
隨著旋轉(zhuǎn)機(jī)械向著大型化、高速化和自動(dòng)化的發(fā)展,其安全運(yùn)行受到了廣泛的關(guān)注。但是經(jīng)過(guò)長(zhǎng)時(shí)間的運(yùn)行,旋轉(zhuǎn)機(jī)械不可避免會(huì)出現(xiàn)故障、損壞等情況,造成嚴(yán)重的安全問(wèn)題和經(jīng)濟(jì)損失問(wèn)題。因此,實(shí)現(xiàn)旋轉(zhuǎn)機(jī)械故障診斷是機(jī)械制造行業(yè)一直以來(lái)研究的重點(diǎn)[1-3]。
目前基于數(shù)據(jù)驅(qū)動(dòng)方式,收集歷史數(shù)據(jù)建立故障診斷模型是旋轉(zhuǎn)機(jī)械故障診斷研究的一種重要方法[4]。其中較為常見的故障診斷模型有支持向量機(jī)、邏輯回歸、樸素貝葉斯等。但這些傳統(tǒng)模型框架過(guò)于簡(jiǎn)單,泛化能力較弱,限制了其故障診斷性能的提升[5]。深度神經(jīng)網(wǎng)絡(luò)由于其具有逐層處理機(jī)制以及表征學(xué)習(xí)能力,往往能實(shí)現(xiàn)比淺層機(jī)器學(xué)習(xí)更優(yōu)良的診斷效果,其在旋轉(zhuǎn)機(jī)械故障診斷中得到了廣泛的應(yīng)用。然而,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程過(guò)度依賴人工干預(yù),在超參數(shù)的設(shè)置上也極為繁瑣,訓(xùn)練起來(lái)耗時(shí)嚴(yán)重[6]。
為實(shí)現(xiàn)高效的旋轉(zhuǎn)機(jī)械故障診斷且減少超參數(shù)的設(shè)置,Zhou等[7]提出了一種全新的決策樹集成方法——深度森林。深度森林由多粒度掃描和級(jí)聯(lián)森林兩個(gè)部分組成。其中多粒度掃描環(huán)節(jié)實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的特征提取功能,級(jí)聯(lián)森林則通過(guò)逐層處理的方式實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的表征學(xué)習(xí)功能。
在深度森林的多粒度掃描環(huán)節(jié)中,通過(guò)滑動(dòng)窗口對(duì)原始輸入信號(hào)進(jìn)行特征提取時(shí),有可能將一些干擾信號(hào)的權(quán)重放大且忽視特征之間彼此存在的聯(lián)系,影響最終診斷結(jié)果[8]。其次,在級(jí)聯(lián)森林中,高維變換特征向量在與低維增強(qiáng)特征向量拼接時(shí),巨大的維度差異引發(fā)特征淹沒現(xiàn)象,造成級(jí)聯(lián)森林診斷準(zhǔn)確率下降的問(wèn)題,降低了深度森林的診斷性能[9-10]。
為了避免級(jí)聯(lián)森林診斷準(zhǔn)確率下降等問(wèn)題,同時(shí)保留深度森林的優(yōu)勢(shì),本文在多粒度掃描級(jí)聯(lián)的地方增加一個(gè)stacking模型融合層,利用stacking層的多個(gè)初級(jí)學(xué)習(xí)器對(duì)輸入特征進(jìn)行整體分析得到另一組維度更低但表征能力更強(qiáng)特征向量。之后將通過(guò)多粒度掃描和stacking層得到的特征向量輸入到級(jí)聯(lián)森林中診斷,得到最終的診斷結(jié)果。在試驗(yàn)分析中將本文所提方法與原始的深度森林以及其他故障診斷模型進(jìn)行了對(duì)比,驗(yàn)證了本文所提的改進(jìn)深度森林故障診斷模型的可行性與有效性。本方法可為旋轉(zhuǎn)機(jī)械的故障診斷提供一條新的路徑。
深度森林可分為多粒度掃描環(huán)節(jié)和級(jí)聯(lián)森林環(huán)節(jié)。其中多粒度掃描環(huán)節(jié)采用滑動(dòng)窗口掃描原始特征以增強(qiáng)樣本多樣性;而級(jí)聯(lián)森林環(huán)節(jié)實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的逐層處理達(dá)到表征學(xué)習(xí)的目的[11]。
滑動(dòng)窗口用于掃描輸入特征,如圖1所示。假設(shè)有a維原始特征,使用的窗口大小為b,對(duì)于序列數(shù)據(jù),將通過(guò)滑動(dòng)一個(gè)特征的窗口來(lái)生成b維特征向量,總共生成(a-b+1)維特征向量。從正/負(fù)訓(xùn)練樣本中提取的所有特征向量都被視為正/負(fù)實(shí)例,然后將其用于生成類向量,從相同大小的窗口中提取的實(shí)例用于訓(xùn)練隨機(jī)森林和完全隨機(jī)森林,然后生成類向量并將其作為變換后的特征串接。假設(shè)有c類,使用b維窗口,然后每個(gè)隨機(jī)森林生成(a-b+1)個(gè)c維類向量,得到對(duì)應(yīng)于a維原始特征向量的2·c·(a-b+1)維變換特征向量,見圖1。
圖1 多粒度掃描Fig.1 Multi granularity scanning
深度神經(jīng)網(wǎng)絡(luò)中的表征學(xué)習(xí)主要依賴于原始特征的逐層處理。受這種識(shí)別的啟發(fā),深度森林采用了一種級(jí)聯(lián)結(jié)構(gòu),如圖2所示,在這種結(jié)構(gòu)中,級(jí)聯(lián)的每一級(jí)接收由其前一級(jí)處理的特征信息,并將其處理結(jié)果輸出到下一級(jí)。每個(gè)層次是決策樹森林的集合,即集合的集合。
圖2 級(jí)聯(lián)森林Fig.2 Cascade forest
級(jí)聯(lián)森林的每一層都包含很多隨機(jī)森林,而每一個(gè)隨機(jī)森林又由若干決策樹組成。給定一個(gè)實(shí)例,每個(gè)隨機(jī)森林里的決策樹將產(chǎn)生一個(gè)類向量的結(jié)果,然后將所有決策樹中的類向量取平均值,即可得到隨機(jī)森林的輸出結(jié)果。然后將隨機(jī)森林輸出的類向量拼接在一起并與多粒度掃描后的特征向量串聯(lián)起來(lái)輸入下一級(jí)級(jí)聯(lián)。假設(shè)有3個(gè)類,那么4個(gè)隨機(jī)森林中的每一個(gè)都將產(chǎn)生一個(gè)三維類向量。因此,下一級(jí)級(jí)聯(lián)將在原來(lái)的特征向量基礎(chǔ)上額外接收12個(gè)增強(qiáng)特征。
為了實(shí)現(xiàn)對(duì)分類器準(zhǔn)確性的提升,一種更為強(qiáng)大的集成學(xué)習(xí)策略便是應(yīng)用學(xué)習(xí)法,即通過(guò)不同學(xué)習(xí)器之間的結(jié)合堆疊,而stacking算法是學(xué)習(xí)法的典型代表。
若stacking算法包含4個(gè)初級(jí)分類器學(xué)習(xí)器
M={M1,M2,M3,M4}
(1)
式中,Mi,1≤i≤4為第i個(gè)初級(jí)分類器
具體的試驗(yàn)步驟如下。
步驟1將訓(xùn)練樣本一共分為4份即訓(xùn)練樣本1,2,3,4。
X=X1∪X2∪X3∪X4
(2)
式中:X為訓(xùn)練樣本;Xi為第i個(gè)訓(xùn)練樣本。
步驟2保留訓(xùn)練樣本X1,X2,X3訓(xùn)練,將訓(xùn)練樣本X4作為驗(yàn)證集,并記錄下M1訓(xùn)練樣本X4的預(yù)測(cè)結(jié)果A11。
步驟3利用樣本X1,X2,X3對(duì)測(cè)試數(shù)據(jù)預(yù)測(cè),得到M1對(duì)于測(cè)試數(shù)據(jù)的預(yù)測(cè)結(jié)果B11。
步驟4分別將訓(xùn)練樣本X2,X3,X4作為驗(yàn)證集數(shù)據(jù),重復(fù)上面步驟2、步驟3,得到4組不同的訓(xùn)練樣本的預(yù)測(cè)數(shù)值和測(cè)試數(shù)據(jù)的預(yù)測(cè)數(shù)值。將4組訓(xùn)練樣本拼接起來(lái)得到新的訓(xùn)練數(shù)據(jù)A1,將4組測(cè)試數(shù)據(jù)的預(yù)測(cè)結(jié)果取平均得到新的測(cè)試數(shù)據(jù)B1。
A1=Agregate(A11,A12,,A13,,A14)
(3)
B1=Average(B11,B12,B13,B14)
(4)
式中:A1為通過(guò)k-折得到的新的訓(xùn)練數(shù)據(jù);A1i為M1對(duì)樣本Xi的預(yù)測(cè)結(jié)果;B1為通過(guò)k-折得到的新的測(cè)試數(shù)據(jù);B1i為Xi作為訓(xùn)練集,M1對(duì)測(cè)試數(shù)據(jù)預(yù)測(cè)的結(jié)果。
步驟5利用剩余其他模型,重復(fù)步驟2~步驟4,分別得到新的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。
A=Agregate(A1,A2,A3,A4)
(5)
B=Average(B1,B2,B3,B4)
(6)
式中:A為通過(guò)初級(jí)分類器得到的新的訓(xùn)練數(shù)據(jù);B為通過(guò)初級(jí)分類器得到的新的測(cè)試數(shù)據(jù)。
步驟6利用訓(xùn)練數(shù)據(jù)A對(duì)次級(jí)分類器進(jìn)行訓(xùn)練,并對(duì)測(cè)試數(shù)據(jù)B進(jìn)行預(yù)測(cè),得到最終的預(yù)測(cè)結(jié)果。
圖3 stacking集成學(xué)習(xí)總體過(guò)程Fig.3 Overall process of stacking integrated learning
本文在原有的深度森林上添加stacking算法,實(shí)現(xiàn)了一種改進(jìn)深度森林的故障診斷模型。
本文將stacking算法與多粒度掃描結(jié)合使用,得到一種基于stacking算法的改進(jìn)深度森林模型,如圖4所示?;趕tacking算法的深度森林模型將多粒度掃描與stacking層級(jí)聯(lián)在一起,將輸入的原始特征向量通過(guò)stacking層和多粒度掃描處理得到兩種不同新的特征向量,并將得到的新特征向量輸入到級(jí)聯(lián)森林。將級(jí)聯(lián)森林的性能在k-折交叉驗(yàn)證的驗(yàn)證集上進(jìn)行評(píng)估,取級(jí)聯(lián)森林在所有k-折交叉驗(yàn)證的驗(yàn)證集上的準(zhǔn)確率作為整體診斷精度,如果級(jí)聯(lián)森林下一級(jí)的準(zhǔn)確率與上一級(jí)相比沒有增益,則驗(yàn)證性能收斂,訓(xùn)練過(guò)程將終止。
圖4 改進(jìn)深度森林結(jié)構(gòu)Fig.4 Improved deep forest structure
基于改進(jìn)深度森林模型的故障診斷方法如圖5所示,大致可以分為以下4個(gè)步驟。
圖5 基于改進(jìn)深度森林模型的故障診斷流程圖Fig.5 Flow chart of fault diagnosis based on improved deep forest model
步驟1多粒度掃描環(huán)節(jié)。將輸入的原始信號(hào)放入多粒度掃描環(huán)節(jié),利用滑動(dòng)窗口截取數(shù)據(jù),然后將截取到的數(shù)據(jù)送入隨機(jī)森林和完全隨機(jī)森林處理。之后將隨機(jī)森林處理后的概率進(jìn)行拼接,得到高維度特征向量。
步驟2stacking層處理。利用k-折交叉驗(yàn)證將輸入的原始輸入信號(hào)拆分,得到測(cè)試集、訓(xùn)練集和驗(yàn)證集。然后利用stacking層中的初級(jí)學(xué)習(xí)器對(duì)數(shù)據(jù)進(jìn)行處理并將結(jié)果拼接在一起,得到維度更低且表征能力更強(qiáng)的特征數(shù)據(jù)。
步驟3級(jí)聯(lián)森林處理。將通過(guò)多粒度掃描得到的特征向量輸入級(jí)聯(lián)森林的第一級(jí)進(jìn)行決策,之后將級(jí)聯(lián)森林第一級(jí)的決策結(jié)果與通過(guò)stacking層得到的特征向量拼接輸入到第二層。將第二層的決策結(jié)果再與多粒度掃描環(huán)節(jié)得到的特征向量拼接輸入到下一層,以此類推。
步驟4收斂性判斷。此時(shí)將級(jí)聯(lián)森林得到的增強(qiáng)特征向量先進(jìn)行平均處理,并選取其中概率最大的類別。此時(shí),便可得到每一層級(jí)聯(lián)森林對(duì)于測(cè)試集的診斷概率,并與上一層級(jí)聯(lián)森林的診斷結(jié)果進(jìn)行對(duì)比。如果診斷結(jié)果相差很大,則說(shuō)明級(jí)聯(lián)森林未收斂,重復(fù)步驟2~步驟4。如果診斷結(jié)果相差不大說(shuō)明級(jí)聯(lián)森林收斂,將結(jié)束訓(xùn)練過(guò)程,并輸出診斷精度。
為了驗(yàn)證本文所提方法的可行性,本文采用凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集和千鵬公司齒輪箱數(shù)據(jù)集進(jìn)行測(cè)試。
為了驗(yàn)證本文所提的改進(jìn)深度森林故障診斷方法的可行性,本文選取現(xiàn)下5種主流的故障診斷模型與本文所提方法進(jìn)行對(duì)比。本文選取的故障診斷模型分別為支持向量機(jī)(support vector machine,SVM),核函數(shù)選用高斯核;隨機(jī)森林(random forest,RF),樹的深度為11,數(shù)量為400,k近鄰算法(k-nearest neighbor,KNN),距離計(jì)算選擇歐拉距離;自適應(yīng)增強(qiáng)算法(adaptive boosting,AdaBoost),學(xué)習(xí)率為0.1,學(xué)習(xí)器數(shù)目為400;高斯樸素貝葉斯分類器(Gaussian naive Bayes,GaussianNB),拉普拉斯平滑系數(shù)取1。
4.2.1 試驗(yàn)條件
試驗(yàn)平臺(tái)如圖6所示,待檢測(cè)的軸承有3種分別是支撐著電動(dòng)機(jī)的轉(zhuǎn)軸,驅(qū)動(dòng)端軸承為SKF6205和風(fēng)扇端軸承為SKF6203。試驗(yàn)設(shè)置采樣頻率為12 kHz,并且有4種試驗(yàn)工況:1 797 r/min/0,1 772 r/min/0.745 7 kW, 1 750 r/min/1.491 4 kW,1 730 r/min/2.237 1 kW,“1 730 r/min/2.237 1 kW”含義為轉(zhuǎn)速1 730 r/min,電機(jī)所加負(fù)載為2.237 1 kW,試驗(yàn)選擇0負(fù)責(zé)工況下的數(shù)據(jù)。故障類型分3類:滾動(dòng)體故障(B)、外圈故障(OR)、內(nèi)圈故障(IR),每種故障類型包含3種故障尺寸:0.007 in,0.014 in和0.021 in(1 in=0.025 4 m)。因此可以將軸承狀態(tài)分為9種故障狀態(tài)和一種正常狀態(tài)。
圖6 凱斯西儲(chǔ)大學(xué)試驗(yàn)平臺(tái)Fig.6 Case Western Reserve University experimental platform
4.2.2 數(shù)據(jù)說(shuō)明及模型參數(shù)選擇
在凱斯西儲(chǔ)大學(xué)的數(shù)據(jù)集上,本文一共設(shè)置6 000個(gè)樣本,10種健康狀態(tài),具體如表1所示。
表1 數(shù)據(jù)集匯總Tab.1 Summary of datasets
其中原始數(shù)據(jù)集中的每一組數(shù)據(jù)由1 200個(gè)振動(dòng)數(shù)據(jù)組成,本文利用Tsfresh庫(kù)將此1 200個(gè)振動(dòng)數(shù)據(jù)的全部特征進(jìn)行提取,并轉(zhuǎn)換為787維數(shù)據(jù)。針對(duì)振動(dòng)信號(hào)的時(shí)間序列數(shù)據(jù)本文提取出一系列常用的特征,例如:最值、均方根、峭度、波形因子等。幾種比較常見的時(shí)間序列特征計(jì)算公式,如表2所示。
表2 時(shí)域特征計(jì)算公式Tab.2 Time domain characteristic calculation formula
在凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集中多粒度掃描環(huán)節(jié)選取的滑動(dòng)窗口長(zhǎng)度為40,在多粒度掃描中隨機(jī)森林?jǐn)?shù)目為2,級(jí)聯(lián)森林中每一層包含兩個(gè)隨機(jī)森林和兩個(gè)完全隨機(jī)森林,而原始的深度森林模型和改進(jìn)深度森林模型的具體參數(shù)均為上述值。其中隨機(jī)森林中樹的深度為11,數(shù)量為400。
而在改進(jìn)深度森林的stacking層中,所選模型分別為隨機(jī)森林、Lightgbm、XGBoost、邏輯回歸。其中隨機(jī)森林的參數(shù)選擇跟4.1節(jié)一致;Lightgbm學(xué)習(xí)率為0.03,學(xué)習(xí)器數(shù)目為50;XGBoost學(xué)習(xí)率為0.05,學(xué)習(xí)器數(shù)目為600;邏輯回歸中分類閾值為0.5。
4.2.4 與其他故障診斷模型對(duì)比
不同模型在凱斯西儲(chǔ)大學(xué)數(shù)據(jù)集下的分類準(zhǔn)確性和訓(xùn)練時(shí)長(zhǎng),如表3所示。其中DF(deep forest)是傳統(tǒng)深度森林模型,S-DF(stacking-deep forest)是本文所提改進(jìn)后的模型。
表3 0.8訓(xùn)練-總數(shù)據(jù)比例下不同診斷方法對(duì)比Tab.3 Comparison of different diagnostic methods under 0.8 training-total data ratio
在凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集的故障診斷中,現(xiàn)下主流的故障診斷模型如AdaBoost和KNN算法診斷準(zhǔn)確率較低,均低于90%,而 SVM、RF和GaussianNB表現(xiàn)相對(duì)良好,診斷準(zhǔn)確率均達(dá)到了95%以上。傳統(tǒng)的深度森林模型因?yàn)橹豢紤]部分特征而忽視特征之間的關(guān)聯(lián)性[12-15],導(dǎo)致其診斷精度相對(duì)較低,僅有90.25%。本文所提的基于stacking算法的改進(jìn)深度森林模型,實(shí)現(xiàn)了99.59%的診斷準(zhǔn)確性,在原始深度森林基礎(chǔ)之上提升了9.34%,大幅提升深度森林的診斷準(zhǔn)確性。另外,本文所提改方法的診斷性能也要優(yōu)于其他主流模型,印證本文所提方法的可行性。
在診斷時(shí)間上,因?yàn)閭鹘y(tǒng)故障診斷模型框架結(jié)構(gòu)簡(jiǎn)單,運(yùn)算量較少,訓(xùn)練時(shí)間要相對(duì)較短。而本文所提方法由于增添了網(wǎng)絡(luò)結(jié)構(gòu)使訓(xùn)練工作量加大,導(dǎo)致訓(xùn)練時(shí)間稍長(zhǎng),但總體上訓(xùn)練時(shí)間相差不多。
4.2.5 診斷結(jié)果分析
深度森林和改進(jìn)深度森林在凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集的準(zhǔn)確率情況,如圖7所示。圖7中:predict為模型預(yù)測(cè)的健康狀態(tài)類別;而true為實(shí)際數(shù)據(jù)的健康狀態(tài);“0~9”為10種不同的健康狀態(tài)類別。由圖7可知,基于stacking算法改進(jìn)的深度森林故障診斷方法在每一種健康狀態(tài)的診斷上都要優(yōu)于傳統(tǒng)的深度森林故障診斷模型,故障診斷性能更為優(yōu)秀。
(a) 深度森林
(b) 改進(jìn)深度森林圖7 凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集下準(zhǔn)確率混淆矩陣Fig.7 Accuracy confusion matrix under Case Western Reserve University bearing data set
通過(guò)t-sne可視化顯示原始輸入數(shù)據(jù)和兩個(gè)模型的輸出情況,如圖8所示。由圖8可知,本文所提改進(jìn)模型較原始深度森林模型分類情況更佳,分類更精準(zhǔn)。
圖8 可視化顯示Fig.8 Visual display
在診斷準(zhǔn)確率上面本文所提方法較傳統(tǒng)深度森林提升幅度較大,到最終收斂本文所提方法提升了9.34%的準(zhǔn)確率,對(duì)傳統(tǒng)深度森林的診斷性能優(yōu)化明顯,如圖9所示。與此同時(shí),本文所提方法收斂速度較快,大約在4~5次迭代達(dá)到收斂,充分體現(xiàn)本文所提方法對(duì)傳統(tǒng)深度森林診斷效率的提升。
圖9 凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集下準(zhǔn)確率隨迭代次數(shù)變化Fig.9 The accuracy of Case Western Reserve University bearing data set changes with the number of iterations
4.2.6 抗噪試驗(yàn)
為了進(jìn)一步驗(yàn)證本文所提方法的可行性,本文在原始數(shù)據(jù)集中加入-2 dB和-10 dB兩種噪聲信號(hào),觀察幾種模型在這兩個(gè)噪聲數(shù)據(jù)集下的診斷準(zhǔn)確率的變化,其中訓(xùn)練-總數(shù)據(jù)比例為0.8。
幾種故障診斷模型在添加噪聲信號(hào)后,診斷準(zhǔn)確率大部分都有所降低,尤其在添加-10 dB噪聲信號(hào)后下降的趨勢(shì)更為明顯,如表4所示。但本文所提方法在添加-2 dB和-10 dB噪聲下仍然有99.33%和90.92%的診斷精度,遠(yuǎn)遠(yuǎn)高于其他模型,展現(xiàn)更優(yōu)良的抗噪性能。并且在同一數(shù)據(jù)集下,本文所提方法的診斷精度更高,能更好的適用于一些對(duì)于診斷性能要求更高的工程項(xiàng)目。以上充分印證了本文所提方法的可行性與優(yōu)越性。
表4 兩個(gè)噪聲數(shù)據(jù)集下不同診斷方法對(duì)比Tab.4 Comparison of different diagnostic methods under two noisy datasets
4.3.1 試驗(yàn)條件
此工況下的數(shù)據(jù)來(lái)源于千鵬公司的齒輪箱數(shù)據(jù)集,試驗(yàn)臺(tái)由變速驅(qū)動(dòng)電機(jī)、軸承、齒輪箱、軸、偏重轉(zhuǎn)盤等組成,如圖10所示。通過(guò)調(diào)節(jié)配重、調(diào)節(jié)部分的安裝位置以及組件的有機(jī)組合快速模擬各種故障。系統(tǒng)的機(jī)械部分還包括被測(cè)部件:有缺陷的軸承(外圈缺陷、內(nèi)圈缺陷、滾珠缺陷);3只備件齒輪;旋轉(zhuǎn)圓盤的配重塊(在圓盤圓周邊緣每隔10°開一螺孔,用于固定和調(diào)平衡用的配重塊);加速度傳感器;速度傳感器。
圖10 千鵬公司試驗(yàn)臺(tái)Fig.10 Qianpeng Company test bench
4.3.2 數(shù)據(jù)說(shuō)明和模型參數(shù)選擇
在本試驗(yàn)中,一共包含9個(gè)特征分別是:轉(zhuǎn)速,輸入軸X方向位移,輸入軸Y方向位移,輸出軸Y方向位移,輸入軸電機(jī)側(cè)軸承Y加速度,輸出軸電機(jī)側(cè)軸承Y加速度,輸入軸負(fù)載側(cè)軸承Y加速度,輸出軸負(fù)載側(cè)軸承Y加速度,輸出軸負(fù)載側(cè)軸承X加速度,輸出軸負(fù)載側(cè)軸承X磁電式速度。健康狀態(tài)包括正常和5類故障狀態(tài),其中這5類故障狀態(tài)包含大齒輪故障、小齒輪故障、以及二者的混合故障,具體情況如表5所示。
表5 數(shù)據(jù)集匯總Tab.5 Summary of datasets
本文將在輸入軸電機(jī)側(cè)軸承、輸出軸電機(jī)側(cè)軸承等處傳感器測(cè)得的數(shù)據(jù)直接輸入試驗(yàn)?zāi)P椭羞M(jìn)行訓(xùn)練。在千鵬公司齒輪箱數(shù)據(jù)集中,本文一共設(shè)置20 000組數(shù)據(jù),6種健康狀態(tài)即6種分類標(biāo)簽,每一個(gè)樣本的特征長(zhǎng)度為9,其中訓(xùn)練-總數(shù)據(jù)比例為0.8。
在千鵬公司齒輪箱數(shù)據(jù)集中多粒度掃描環(huán)節(jié)選取的滑動(dòng)窗口長(zhǎng)度為6,剩余模型參數(shù)選擇與4.2.3節(jié)中保持一致。
4.3.3 與其他故障診斷模型對(duì)比
在千鵬公司數(shù)據(jù)中,由于數(shù)據(jù)集包含的特征數(shù)量較少,且齒輪箱故障具有多種類混合故障的特點(diǎn)同時(shí)本文將多個(gè)傳感器采集到的數(shù)據(jù)直接輸入到模型中訓(xùn)練,去除了特征提取環(huán)節(jié),不可避免的給故障診斷帶來(lái)了難度。因此,本文選擇的對(duì)照故障診斷模型SVM、RF、AdaBoost、KNN、GaussianNB在此數(shù)據(jù)集下的故障診斷準(zhǔn)確率只有89.7%,82.35%,79.42%,83.45%和90.05%。但在此工況下本文所提方法有98.05%的診斷準(zhǔn)確率比傳統(tǒng)的深度森林診斷模型97.80%的診斷準(zhǔn)確率高出0.25%,且診斷性能要遠(yuǎn)遠(yuǎn)優(yōu)于上述其他模型。
各個(gè)模型的診斷時(shí)間相對(duì)長(zhǎng)短情況與凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集相似。同時(shí)因?yàn)檩斎氲奶卣鲾?shù)目和需要分類的健康狀態(tài)較少,所有模型診斷時(shí)間都相對(duì)凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集的診斷時(shí)間要少很多。千鵬公司數(shù)據(jù)下不同診斷方法對(duì)比,如表6所示。
表6 千鵬公司數(shù)據(jù)下不同診斷方法對(duì)比Tab.6 Comparison of different diagnostic methods under the data of Qianpeng Company
4.3.4 診斷結(jié)果分析
深度森林和改進(jìn)深度森林在千鵬公司齒輪箱數(shù)據(jù)集的準(zhǔn)確率情況,如圖11所示。圖11中:predict為模型預(yù)測(cè)的健康狀態(tài)類別;而true則為實(shí)際數(shù)據(jù)的健康狀態(tài);“0~5”為6種不同的健康狀態(tài)類別。
(a) 深度森林
(b) 改進(jìn)深度森林圖11 千鵬公司齒輪箱數(shù)據(jù)集下準(zhǔn)確率混淆矩陣Fig.11 Accuracy confusion matrix under the gearbox data set of Qianpeng Company
本文所提方法和傳統(tǒng)的深度森林故障診斷模型在千鵬公司數(shù)據(jù)上的準(zhǔn)確率混淆矩陣大致相同,但在第1類、第2類健康狀態(tài)診斷中,兩種模型卻出現(xiàn)了誤分類情況,具體分析如下:第一類健康狀態(tài)是大齒輪點(diǎn)蝕;而第二類健康狀態(tài)是大齒輪點(diǎn)蝕+小齒輪磨損的混合故障狀態(tài),這兩種故障在一些特征的變化上面相似,在故障分類上造成干擾。
但本文所提方法在原有深度森林基礎(chǔ)上添加了stacking層對(duì)數(shù)據(jù)進(jìn)行處理,不僅保存了原有深度森林模型的優(yōu)勢(shì),還結(jié)合stacking層多個(gè)初級(jí)學(xué)習(xí)器的優(yōu)點(diǎn),實(shí)現(xiàn)了在細(xì)微處更好的診斷效果,如圖12所示。
(a) 原始深度森林輸出
(b) 改進(jìn)深度森林輸出圖12 可視化顯示Fig.12 Visual display
本文所提方法在準(zhǔn)確率上面有所提升,同時(shí)本文所提方法與原始深度森林收斂速度均較快在第4、第5次迭代循環(huán)中達(dá)到收斂,印證本文所提方法對(duì)原始深度森林診斷效率的提升,如圖13所示。
圖13 千鵬公司齒輪箱數(shù)據(jù)集下準(zhǔn)確率隨迭代次數(shù)變化Fig.13 The accuracy of the gearbox data set of Qianpeng Company varies with the number of iterations
在凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集中,因?yàn)橹淮嬖趩我徽駝?dòng)點(diǎn)特征,直接輸入模型進(jìn)行訓(xùn)練得到的效果并不理想。為了縮小源域和目標(biāo)域之間的分布差異,得到高維空間各單視角特征集,本文在凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集中采用特征提取方法。而在千鵬公司齒輪箱數(shù)據(jù)集中,因?yàn)檩斎胩卣鲾?shù)目滿足分類診斷任務(wù),再進(jìn)行特征提取工作會(huì)加大時(shí)間成本。盡管模型準(zhǔn)確率會(huì)有所提升,但訓(xùn)練時(shí)間過(guò)長(zhǎng)成本過(guò)高,故在千鵬公司齒輪箱數(shù)據(jù)集中不采用特征提取工作,如表7所示。
表7 千鵬公司數(shù)據(jù)下引入特征提取后模型性能對(duì)比Tab.7 The model performance comparison after feature extraction is introduced under Qianpeng Companydata
由于采用特征提取方法,得到的特征數(shù)目眾多,其中的特征信息存在冗余現(xiàn)象。如果僅利用多粒度掃描對(duì)部分特征分析轉(zhuǎn)化特征向量會(huì)造成誤診現(xiàn)象。而本文所提方法結(jié)合stacking算法,綜合考慮所有特征避免信息冗余弊端,實(shí)現(xiàn)更好的診斷性能,從而使深度森林更適應(yīng)特征數(shù)目過(guò)多的情況。因此,本文所提方法能在凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集上診斷性能提升更為明顯。
針對(duì)原始深度森林模型在多粒度掃描環(huán)節(jié)中可能會(huì)忽視輸入特征彼此之間的聯(lián)系造成診斷準(zhǔn)確率下降的問(wèn)題,本文提出了一種將stacking集成學(xué)習(xí)方法與多粒度掃描結(jié)合的改進(jìn)深度森林方法,并用于旋轉(zhuǎn)機(jī)械故障診斷,通過(guò)傳動(dòng)系統(tǒng)故障數(shù)據(jù)集對(duì)該方法進(jìn)行了驗(yàn)證。
(1) 通過(guò)采用凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集故障診斷比較試驗(yàn),本文所提方法有99.59%和98.05%的診斷精度,診斷性能明顯優(yōu)于AdaBoost、SVM、KNN、GaussianNB等常用模型,且大幅提高了深度森林模型的診斷性能,為基于數(shù)據(jù)驅(qū)動(dòng)的旋轉(zhuǎn)機(jī)械故障診斷方法提供了一條新的路徑。
(2) 在處理通過(guò)多粒度掃描和stacking層得到的特征數(shù)據(jù)時(shí),在級(jí)聯(lián)森林中只應(yīng)用了隨機(jī)森林和完全隨機(jī)森林,使用的模型過(guò)于單一,在某些情況下可能無(wú)法精準(zhǔn)的對(duì)故障進(jìn)行診斷,還須對(duì)級(jí)聯(lián)森林的缺陷做進(jìn)一步優(yōu)化。