曹現(xiàn)剛,陳瑞昊,李彥川,伍宇澤,岳 東
(1.西安科技大學(xué) 機械工程學(xué)院,陜西 西安 710054;2.陜西省礦山機電裝備智能監(jiān)測重點實驗室,陜西 西安 710054;3.陜西陜煤銅川礦業(yè)有限公司,陜西 銅川 727000)
采煤機作為多部件復(fù)雜系統(tǒng),在運行過程中由于截割煤巖時受到變工況、環(huán)境噪聲等各種復(fù)雜因素影響,采集到的振動、電流等監(jiān)測信號往往難以提取關(guān)鍵信息[1]。復(fù)雜設(shè)備的健康狀態(tài)評估方法根據(jù)不同的評估原理,大致可以分為以下三類:基于經(jīng)驗的健康狀態(tài)評估[2]、基于模型的健康狀態(tài)評估[3]和基于人工智能的健康狀態(tài)評估[4]。其中,基于經(jīng)驗的評估方法包括:灰色理論法、模糊綜合評判法[5]、云模型理論[6]、層次分析法、D-S證據(jù)理論;基于模型的評估方法主要包括失效物理模型、故障樹等[7,8];基于人工智能的評估方法主要有:支持向量機[9]、馬爾科夫理論、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)[10-12]等。
目前國內(nèi)外設(shè)備健康狀態(tài)評估研究多集中于電力[13,14]、導(dǎo)彈[15]、航空航天[16,17]等領(lǐng)域,針對煤礦設(shè)備的狀態(tài)評估研究并不多見;在評估對象上主要集中于對單一或者簡單部件系統(tǒng)進(jìn)行狀態(tài)評估,對于多部件復(fù)雜系統(tǒng)[18]的健康狀態(tài)評估研究成果較少。采煤機健康狀態(tài)評估工作是一個多層次、多屬性評估過程,基于模型的評估方法建模困難求解異常復(fù)雜,而基于經(jīng)驗的評估方法受主觀因素影響較大,各部件、指標(biāo)權(quán)重難以確定。基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的評估方法可解釋性較差,易陷入局部極小值。此外,大多數(shù)健康狀態(tài)評估方法無法針對冗余性、突變性、不平衡數(shù)據(jù)集,導(dǎo)致評估效率較低。針對以上問題,本文提出了XGBooost的采煤機健康狀態(tài)評估方法研究,首先篩選出相關(guān)性較低的參數(shù)數(shù)據(jù),構(gòu)建采煤機健康狀態(tài)評估指標(biāo)體系;采用XGBoost算法對采煤機健康狀態(tài)進(jìn)行評估,調(diào)優(yōu)模型確定關(guān)鍵參數(shù),通過實驗驗證,得到XGBoost算法的評估結(jié)果和混淆矩陣為采煤機健康狀態(tài)評估工作提供依據(jù),對采煤機健康管理具有一定意義。
本文主要研究電牽引雙滾筒式采煤機,雙滾筒采煤機可分為牽引部、截割部、電氣系統(tǒng)和輔助裝置。雙滾筒電牽引采煤機各部位名稱如圖1所示。
根據(jù)采煤機結(jié)構(gòu)組成和工作方式,同時考慮采煤機實際可安裝部位,分析得到采煤機主要運行狀態(tài)監(jiān)測數(shù)據(jù)。采煤機的各個關(guān)鍵部件或部位均安裝對應(yīng)的傳感器對其進(jìn)行實時監(jiān)測,保證采煤機的健康狀態(tài)。采煤機需要監(jiān)測的部分狀態(tài)參數(shù)見表1。
1—截割滾筒;2—搖臂;3—截割電機;4—牽引電機;5—油泵電機;6—液壓單元;7—電氣控制箱;8—變頻箱;9—電磁閥柜;10—變壓器箱;11—牽引減速箱;12—調(diào)高調(diào)斜裝置;13—破碎機構(gòu);14—破碎電機圖1 電牽引采煤機基本結(jié)構(gòu)
表1 采煤機的部分狀態(tài)監(jiān)測參數(shù)
采煤機運行過程中各部件監(jiān)測的狀態(tài)參數(shù)間存在復(fù)雜的關(guān)聯(lián)關(guān)系,因此需要找出這些關(guān)聯(lián)數(shù)據(jù),去除數(shù)據(jù)的冗余性和相關(guān)性,為采煤機健康狀態(tài)評估工作做準(zhǔn)備。單一的相關(guān)系數(shù)并不能客觀地表征數(shù)據(jù)變量間密切的相關(guān)關(guān)系,因此本文選擇綜合相關(guān)系數(shù),即將Spearman相關(guān)系數(shù)、Person相關(guān)系數(shù)進(jìn)行綜合用于表征采煤機狀態(tài)數(shù)據(jù)變量間的相關(guān)關(guān)系。
Spearman相關(guān)系數(shù)計算公式如下:
式中,ρ1為兩變量間的Spearman相關(guān)系數(shù);N為樣本容量;di為變量間秩次差值。
Person相關(guān)系數(shù)ρ2的計算公式如下:
式中,cov(X,Y)為X和Y的協(xié)方差;σX、σY為X和Y的標(biāo)準(zhǔn)差;μX、μY為變量X和Y的平均值。Person相關(guān)系數(shù)一般在-1到1之間取值,當(dāng)前提條件一定的情況下,一般使用絕對值表示兩參數(shù)變量間的相關(guān)性。
狀態(tài)參量間的綜合相關(guān)系數(shù)用rxy表示,則rxy為:
通過計算狀態(tài)參數(shù)間的綜合相關(guān)系數(shù)rxy,篩選出狀態(tài)評估指標(biāo),構(gòu)建出采煤機健康狀態(tài)評估體系。采用rxy表示狀態(tài)監(jiān)測參數(shù)x和y之間的綜合相關(guān)系數(shù),兩狀態(tài)參數(shù)間的相關(guān)系數(shù)rxy的值與對應(yīng)的兩個變量之間的相關(guān)性描述見表2。
表2 綜合相關(guān)系數(shù)rxy的絕對值與對應(yīng)的兩個變量間關(guān)系
本文以采煤機牽引部各監(jiān)測參數(shù)為例,完成監(jiān)測參數(shù)間相關(guān)性分析,進(jìn)而完成采煤機狀態(tài)評估指標(biāo)篩選。為了分析采煤機狀態(tài)監(jiān)測參數(shù)和指標(biāo)間的相關(guān)性,選取正常工況下的采煤機牽引部8項狀態(tài)參數(shù)序列數(shù)據(jù),包括牽引電機溫度、牽引電機轉(zhuǎn)速、牽引電機振動、牽引電機電流、冷卻水壓、牽引電機轉(zhuǎn)矩、油缸內(nèi)油壓、牽引減速箱溫度等八項參數(shù),分別計算這八項參數(shù)之間的綜合相關(guān)系數(shù),將相關(guān)度高于閾值0.6的幾個參數(shù)用同一指標(biāo)參數(shù)替代,減少監(jiān)測參數(shù)間的冗余屬性,通過相關(guān)性分析得到的相關(guān)性熱力圖結(jié)果如圖2所示。
圖2 牽引部狀態(tài)參數(shù)間綜合相關(guān)系數(shù)熱力圖
由圖2可知,C1牽引電機溫度與C2牽引電機轉(zhuǎn)矩密切相關(guān),因此可以用C1即牽引電機溫度代替這兩個指標(biāo),以此類推,篩選出狀態(tài)參數(shù)間相關(guān)性都低于0.6的四項基本監(jiān)測參數(shù),依次為:牽引電機振動、牽引電機溫度、牽引電機電流、牽引電機轉(zhuǎn)速。同理,得到其他部件的狀態(tài)參數(shù)相關(guān)性分析結(jié)果,篩選出相關(guān)性低的狀態(tài)參數(shù)作為采煤機健康狀態(tài)評估指標(biāo),剔除掉相關(guān)性較強的數(shù)據(jù)。
由于采煤機集機械,電力和液壓系統(tǒng)于一體,因此影響采煤機的狀態(tài)監(jiān)測參數(shù)眾多,但若將其全部用作采煤機狀態(tài)評估指標(biāo),會增加不必要的工作量和影響評估工作效率。因此,本文在煤礦調(diào)研的基礎(chǔ)上,結(jié)合采煤機結(jié)構(gòu)、易發(fā)故障部位置和采煤機監(jiān)測參數(shù)相關(guān)性分析,篩選出影響采煤機健康狀態(tài)的最重要的多維指標(biāo),在此基礎(chǔ)上確定采煤機健康狀態(tài)評估指標(biāo)體系的組成,分別從指標(biāo)層、部件層到整機層進(jìn)行分層劃分,如圖3所示。
圖3 采煤機健康狀態(tài)評估指標(biāo)體系
采煤機作為一個復(fù)雜設(shè)備,它的健康狀態(tài)等級變化是一個漸變過程,從健康狀態(tài)到劣化再到故障,因此為了便于量化計算和結(jié)合專家經(jīng)驗,本實驗將其分為四個健康狀態(tài)等級,分別是健康、良好、劣化、故障,采煤機健康狀態(tài)對應(yīng)的采煤機各等級描述見表3。
極端梯度提升算法(extreme gradient boosting,XGBoost)采用多線程加速樹的構(gòu)建,使用樹模型作為基礎(chǔ)分類器來形成強大的分類器,并通過將多個基礎(chǔ)分類器集成在一起,這在分類任務(wù)中具有高效、準(zhǔn)確和解釋性好的優(yōu)點[19]。XGBoost算法的基本概念和理論如下:
表3 數(shù)據(jù)集基本信息
1)基學(xué)習(xí)器。極限梯度提升樹由回歸樹和分類樹這兩個基本部分構(gòu)成,XGBoost是以分類和回歸樹(classification and regression tree,CART)作為基礎(chǔ)學(xué)習(xí)器,采用XGBoost對評估模型進(jìn)行訓(xùn)練,特征的屬性被轉(zhuǎn)移到每個葉子節(jié)點,對應(yīng)于每個葉子的分?jǐn)?shù)。
2)樹的復(fù)雜度。每一棵回歸樹,可拆分為結(jié)構(gòu)部分和葉子節(jié)點權(quán)重部分,則第t個樹模型:
ft(x)=wq(x),w∈RT
(4)
式中,w為葉子節(jié)點分值;q(x)為樣本x對應(yīng)的葉子節(jié)點號;T為葉子數(shù),RT是T維實數(shù),表示葉子權(quán)重的集合。復(fù)雜度包含了一棵樹里面節(jié)點的個數(shù)以及每個數(shù)葉子節(jié)點上面輸出分?jǐn)?shù)的模平方,因此,樹的復(fù)雜度為:
式中,Ω為復(fù)雜度;γ是葉子節(jié)點數(shù)的懲罰系數(shù);λ是正則項系數(shù);wj是葉子節(jié)點j對應(yīng)的分值。
3)目標(biāo)函數(shù)為:
式中,I={i|q(xi)=j},Gj=∑i∈Ijgi,Hj=∑i∈Ijhi。
5)增益。在創(chuàng)建樹模型時,可采用貪心算法,每次對已有的葉子加入分割。對于一個決提的分割方案,其獲得的增益為:
式中,第一項為左子樹分?jǐn)?shù),GL為樹分類后左子樹gi之和,HL為樹分類后左子樹hi之和;第二項為右子樹分?jǐn)?shù),GR為樹分類后左子樹gi之和,HR為樹分類后左子樹hi之和;第三項為不分割下的分?jǐn)?shù),表示新葉子節(jié)點帶來的復(fù)雜度代價。由以上原理可知XGBoost將多個弱學(xué)習(xí)器結(jié)合,因而可以獲得更好的性能。
將采煤機狀態(tài)數(shù)據(jù)作為特征量輸入,采煤機的四種健康狀態(tài)作為分類輸出結(jié)果,通過模型訓(xùn)練,通過各項模型參數(shù)調(diào)優(yōu),得到最佳參數(shù)值。
本節(jié)采用XGBoost集成學(xué)習(xí)建立采煤機健康狀態(tài)評估模型,通過劃分采煤機健康狀態(tài)等級,建立訓(xùn)練樣本,并對XGBoost模型內(nèi)部關(guān)鍵參數(shù)優(yōu)化,最后對采煤機健康狀態(tài)進(jìn)行評估,得出結(jié)論。應(yīng)用XGBoost對采煤機健康狀態(tài)進(jìn)行評估的主要過程如下:
第一步是將相關(guān)分析、特征選擇后的指標(biāo)數(shù)據(jù)作為XGBoost的輸入特征,將采煤機不同的健康狀態(tài)等級作為評估算法的類別標(biāo)簽。
第二步是將采煤機狀態(tài)數(shù)據(jù)集進(jìn)行劃分。通過狀態(tài)量的選取和指標(biāo)體系的構(gòu)建,將采煤機狀態(tài)數(shù)據(jù)集分為訓(xùn)練集和測試集,按照一定的比例對其進(jìn)行劃分。
第三步是對XGBoost分類模型的主要參數(shù)進(jìn)行初始設(shè)置。模型建立后對采煤機狀態(tài)評估模型的各項參數(shù)進(jìn)行設(shè)置,如樹的最大深度、模型的學(xué)習(xí)率、最小葉子權(quán)重和等。
第四步是用訓(xùn)練集數(shù)據(jù)對采煤機XGBoost狀態(tài)評估模型進(jìn)行訓(xùn)練,用采煤機數(shù)據(jù)測試集對模型進(jìn)行測試。通過構(gòu)建一棵CART決策樹,然后依次增加狀態(tài)分類節(jié)點,分別對前一次的評估結(jié)果進(jìn)行擬合,訓(xùn)練過程中的目標(biāo)是損失函數(shù)最小,通過求取損失函數(shù)最小的特征作為分叉樹的特征,在此基礎(chǔ)上求出每一個葉子節(jié)點即狀態(tài)的預(yù)測分?jǐn)?shù),將每棵樹的每種評估結(jié)果的預(yù)測分值作為概率值,根據(jù)概率值最大完成狀態(tài)分類和評估。
最后一步是不斷調(diào)整XGBoost模型參數(shù)。通過改變各項參數(shù)值查看評估模型分類效果,以綜合評估效果最優(yōu)的XGBoost各項參數(shù)作為最終的評估模型參數(shù)。具體的評估流程如圖4所示。
圖4 XGBoost模型評估流程
為保證評估結(jié)果的準(zhǔn)確性,本節(jié)通過選取采煤機狀態(tài)指標(biāo)數(shù)據(jù)1000條作為實驗數(shù)據(jù),將采煤機指標(biāo)參數(shù)如牽引電動機溫度等歸一化后的15維數(shù)據(jù)導(dǎo)入XGBoost評估模型中,數(shù)據(jù)集中80%作為訓(xùn)練集,20%作為測試集。通過交叉驗證[20]的方法對XGBoost評估模型的參數(shù)進(jìn)行調(diào)優(yōu),將訓(xùn)練集和測試集分類錯誤率作為模型的評估指標(biāo),多次調(diào)參得到采煤機狀態(tài)評估模型的最優(yōu)參數(shù)。
在對XGBoost的采煤機評估模型參數(shù)優(yōu)化前,首先需要對影響XGBoost模型評估效率的關(guān)鍵參數(shù)進(jìn)行分析。第一類參數(shù)是調(diào)節(jié)過擬合的參數(shù)即樹的最大深度max_depth、最小葉子節(jié)點權(quán)重和min_child_weight等。一般來說max_depth越深,說明評估模型可以學(xué)習(xí)到更細(xì)微具體的數(shù)據(jù)樣本信息,但當(dāng)樹的深度的過深時,就可能發(fā)生過擬合現(xiàn)象。此時測試集數(shù)據(jù)分類錯誤率較高、訓(xùn)練集分類錯誤率較低;min_child_weight的值越大時,越能全面學(xué)習(xí)到樣本的各項特征,但當(dāng)min_child_weight值過大時,模型學(xué)習(xí)到較多無用信息,因而發(fā)生過擬合現(xiàn)象。因此,本章主要對這兩個關(guān)鍵參數(shù)進(jìn)行優(yōu)化。
最小葉子節(jié)點權(quán)重和“min_child_weight”的取值一般在4~10之間,本章取“min_child_weight”取值為4、6、8、10時,得到XGBoost模型的訓(xùn)練集和測試集的分類錯誤率如圖5所示。由圖5可知,當(dāng)設(shè)置樹的高度為2、4時,訓(xùn)練集合測試集的分類錯誤率相差不大且能控制在相對較小的范圍內(nèi)且樹高度為4時平均分類錯誤率更??;當(dāng)設(shè)置樹的高度為6、8時,錯誤率雖較小,但是訓(xùn)練集和測試集差距過大,不適合作為最佳參數(shù)。因此,綜合以上因素,選擇樹高度為4時最為合理。
圖5 不同樹高度時XGBoost模型分類錯誤率對比
不同min_child_weight時XGBoost模型分類錯誤率對比如圖6所示,可知,當(dāng)設(shè)置min_child_weight為4、6時,訓(xùn)練集合測試集的分類錯誤率相差不大且能控制在相對較小的范圍內(nèi),min_child_weight值為6時分類錯誤率更小;當(dāng)設(shè)置min_child_weight值為8、10時,錯誤率雖不大,但是訓(xùn)練集和測試集差距過大,訓(xùn)練集誤差率過高,因此不適合作為最佳參數(shù)。因此,綜合以上因素,選擇最小葉子節(jié)點權(quán)重為6時最為合理。
圖6 不同最小葉子節(jié)點權(quán)重和時分類錯誤率對比
接下來要調(diào)整的參數(shù)為最小損失函數(shù)下降值gamma與隨機采樣比例subsample、隨機列數(shù)比例colsample_bytree。gamma表示每個節(jié)點劃分時對應(yīng)的損失函數(shù)的下降值,若算法越保守gamma的數(shù)值越大。本章中,gamma的大小依據(jù)經(jīng)驗在0~0.5之間進(jìn)行調(diào)整,每次相隔0.1,通過實驗得出當(dāng)gamma的值為0.1時最佳,準(zhǔn)確率為0.985。隨機列數(shù)比例colsample_bytree表示決策樹的生成時間,而隨機采樣比例subsample表示采樣的樣本占整個樣本的比例。通過不斷調(diào)整參數(shù),求得colsample_bytree和subsample的最佳組合參數(shù)為前者的值為1,后者的值為0.8時模型的效果最佳主要模型參數(shù)見表4。
表4 模型參數(shù)
參數(shù)調(diào)優(yōu)后,將數(shù)據(jù)集導(dǎo)入XGBoost評估模型,因為XGBoost采用集成樹模型,因此將模型可視化,可以看到評估過程樹的結(jié)構(gòu),因為樹的數(shù)量較多,以第一個類別(即健康狀態(tài)1)的第一棵樹為例,可得到樹結(jié)構(gòu)如圖7所示。
圖7 樹結(jié)構(gòu)
由圖7可知,每一棵樹劃分的狀態(tài)指標(biāo)參數(shù)和對應(yīng)的劃分閾值,其和采煤機狀態(tài)數(shù)據(jù)集的第一組數(shù)據(jù)對應(yīng),將每組數(shù)據(jù)4種狀態(tài)的相對應(yīng)的葉子節(jié)點分值相加,即得到該組狀態(tài)數(shù)據(jù)所對應(yīng)的4種健康狀態(tài)的分值[X1,X2,X3,X4],以此類推可計算出該組數(shù)據(jù)對應(yīng)的每個健康狀態(tài)的概率[P1,P1,P1,P1],依據(jù)概率最大即可得到采煤機對應(yīng)的健康狀態(tài)等級。
本文選取陜北煤礦某型采煤機監(jiān)測數(shù)據(jù)篩選出采煤機狀態(tài)指標(biāo)數(shù)據(jù)1000組作為實驗數(shù)據(jù),每種狀態(tài)數(shù)據(jù)包括15維狀態(tài)指標(biāo)數(shù)據(jù)和對應(yīng)的健康狀態(tài)等級標(biāo)簽。其中“健康”狀態(tài)數(shù)據(jù)400組、“良好”狀態(tài)數(shù)據(jù)300組、“劣化”狀態(tài)數(shù)據(jù)200組、“故障”狀態(tài)數(shù)據(jù)100組,采煤機各個健康狀態(tài)等級對應(yīng)的狀態(tài)等級描述見表3。
在設(shè)置各項參數(shù)最優(yōu)值的基礎(chǔ)上,將采煤機狀態(tài)數(shù)據(jù)集導(dǎo)入進(jìn)行訓(xùn)練和測試,模型訓(xùn)練步驟如圖4所示。模型訓(xùn)練完畢后,將200組測試數(shù)據(jù)導(dǎo)入XGBoost狀態(tài)評估模型,分別計算評估準(zhǔn)確率、每種健康狀態(tài)的召回率、以及綜合評估參數(shù)F1的值來評判模型。評估準(zhǔn)確率是表示評估模型總體好壞的指標(biāo),然而采煤機健康狀態(tài)評估樣本存在不平衡問題,即健康樣本數(shù)量遠(yuǎn)多于不健康的樣本,僅憑單一的準(zhǔn)確率指標(biāo)無法定性模型的評估效果,因此用每一類樣本中被正確分類的數(shù)量占該類健康狀態(tài)樣本中的比例即來評價模型對樣本不平衡問題的適用程度。同時為避免單一準(zhǔn)確率和召回率評價指標(biāo)的弊端,采用兩者的綜合評價指標(biāo)F1值來綜合反映評估模型的效果,F(xiàn)1值越接近于1,評估模型的分類效果越好。通過程序運行,評估過程中測試集的多分類錯誤率merror如圖8所示,得到模型的具體評估結(jié)果用混淆矩陣表示如圖9所示。
由圖9可以看出,在200組數(shù)據(jù)中,有197組狀態(tài)數(shù)據(jù)被正確分類,即197組狀態(tài)數(shù)據(jù)可以被準(zhǔn)確得到對應(yīng)的健康狀態(tài),有1組數(shù)據(jù)屬于“健康”狀態(tài)而被分類為“良好”狀態(tài),有2組數(shù)據(jù)屬于“劣化”狀態(tài)而被分類為故障狀態(tài),但狀態(tài)預(yù)測結(jié)果與實際只相差一個等級,對結(jié)果影響不是特別大。模型總體評估效果較好,總體準(zhǔn)確率高達(dá)98.50%,“健康”狀態(tài)等級準(zhǔn)確率為98.66%,“良好”狀態(tài)等級準(zhǔn)確率為100%,“劣化”狀態(tài)等級準(zhǔn)確率為94.87%,“故障”狀態(tài)等級評估準(zhǔn)確率為100%,4種健康狀態(tài)等級的平均召回率為98.38%,F(xiàn)1平均值為97.61%,平均召回率和FI值較高,說明模型對采煤機數(shù)據(jù)集每種狀態(tài)和總體的評估效果都較好。
本文針對采煤機變工況、工作環(huán)境惡劣等特點,將XGBoost集成學(xué)習(xí)方法引入采煤機健康狀態(tài)評估工作中,根據(jù)綜合相關(guān)系數(shù),對采煤機狀態(tài)指標(biāo)進(jìn)行篩選。實驗表明,經(jīng)過調(diào)參以后的模型評估效率和準(zhǔn)確性較高,更適用于采煤機不平衡數(shù)據(jù)集。