李 曼,賓紫嫣,周鑫燚,,覃思瑤
(1.北京交通大學(xué) 軌道交通控制與安全國家重點實驗室,北京 100044;2.北京交通大學(xué)交通運輸學(xué)院,北京 100044)
鐵路機車設(shè)備質(zhì)量安全狀態(tài)決定了鐵路運輸生產(chǎn)的安全狀態(tài)[1]。當(dāng)前鐵路相關(guān)部門積累了大量的“沉睡”故障數(shù)據(jù),具有設(shè)備數(shù)據(jù)數(shù)量多、種類雜、關(guān)聯(lián)性強等特點[2]。以機車牽引系統(tǒng)為例,隨著系統(tǒng)數(shù)據(jù)采集時效及數(shù)據(jù)質(zhì)量不斷提高,對數(shù)據(jù)驅(qū)動的故障預(yù)測技術(shù)的應(yīng)用需求亟待提升。作為牽引系統(tǒng)中負責(zé)電能調(diào)節(jié)的重要部件,牽引變壓器的運行狀態(tài)對整個系統(tǒng)的安全和穩(wěn)定性具有重要影響[3],對牽引變壓器的故障預(yù)測能夠及時發(fā)現(xiàn)潛在的故障,為維修方式的選擇提供理論支撐。
國內(nèi)外學(xué)者對故障預(yù)測進行了大量研究,提出了眾多故障預(yù)測的模型[4-6]和方法[7-8]。其中多為對特征數(shù)據(jù)的數(shù)學(xué)分析,如Nazarizadeh等[9]利用歷史數(shù)據(jù)使用不同的概率分布來分析和預(yù)測故障;汪亞平[10]采用累積損傷理論和神經(jīng)網(wǎng)絡(luò)模式進行壽命預(yù)測與診斷,并根據(jù)信息融合和模糊處理對機車故障進行綜合分析與診斷等。通常一個系統(tǒng)表現(xiàn)的故障現(xiàn)象往往與多種故障類型的影響密不可分[11],而聚類算法能夠挖掘故障實例與實例之間的關(guān)聯(lián)關(guān)系獲得各故障類型的特定特征。Wang 等[12]利用聚類算法實現(xiàn)了對監(jiān)測軸承壽命的自適應(yīng)預(yù)測。k-means是聚類算法中最經(jīng)典且使用最為廣泛的一種基于劃分的聚類算法,改進方向與應(yīng)用廣泛[13-14]。研究選擇采用k-means 構(gòu)建故障實例與多種故障類型之間的聯(lián)系。
目前校準標(biāo)簽排名(Calibrated Label Ranking,CLR)等傳統(tǒng)多標(biāo)簽分類方法大部分仍處于理論研究階段,實際應(yīng)用階段的方法多集中于文本分類[15]、圖像識別[16]等領(lǐng)域。多標(biāo)簽方法的適用范圍較為局限,適用多標(biāo)簽分類方法的數(shù)據(jù)通常較為復(fù)雜[17],數(shù)據(jù)的標(biāo)簽體系內(nèi)結(jié)構(gòu)繁瑣。研究基于上述多標(biāo)簽分類方法,在故障預(yù)測方面提出一種改進CLR 的預(yù)測算法,應(yīng)用于鐵路機車牽引系統(tǒng)故障維修。
研究組織架構(gòu)如下:第一部分是模型的配置,包括數(shù)據(jù)處理、模型及評價指標(biāo)體系的構(gòu)建;第二部分利用已知數(shù)據(jù)進行算例驗證;第三部分對模型使用效果進行討論與總結(jié)。
研究將故障數(shù)據(jù)預(yù)處理成可輸入算法的故障類型和特征值矩陣及相關(guān)矩陣。隨后計算自適應(yīng)正負實例集得到的聚類簇數(shù),對正負實例集利用k-means算法進行聚類[18];以聚類結(jié)果所體現(xiàn)的故障類型特征和實例與故障類型的對應(yīng)相關(guān)關(guān)系構(gòu)建二元分類訓(xùn)練集;根據(jù)設(shè)備表現(xiàn)比對構(gòu)建未知實例向量,并通過投票法對故障類型的可能結(jié)果進行預(yù)測排序;引入一個虛擬校準標(biāo)簽,作為可能性高低的閾值函數(shù)更新投票結(jié)果[19],最終預(yù)測得到可能相關(guān)故障類型及維修方式。算法模型流程圖如圖1所示。
圖1 算法模型流程圖Fig.1 Algorithm model flowchart
鐵路機車牽引系統(tǒng)包含主變壓器、牽引變流器和驅(qū)動單元等組成部分,其中主變壓器結(jié)構(gòu)較為復(fù)雜,工作環(huán)境負荷較高。目前主變壓器的監(jiān)測項點對設(shè)備性能覆蓋較為全面,包含溫度、油質(zhì)、氣體、阻抗等多種監(jiān)測對象,能夠較為充分地描述各類型故障的特征[20],因此研究的實驗部分選擇牽引主變壓器作為牽引系統(tǒng)的典型部件進行分析。
根據(jù)其系統(tǒng)結(jié)構(gòu)及故障類型對歷史數(shù)據(jù)進行整理,將輸入數(shù)據(jù)確定為2 個矩陣的形式,預(yù)處理數(shù)據(jù)的采集端配置如圖2所示。
圖2 預(yù)處理數(shù)據(jù)的采集端配置Fig.2 Collection end configuration of preprocessed data
研究以每一次故障數(shù)據(jù)為實例,每項故障類型為標(biāo)簽,故障類型包括主變壓器冷凝器漏油、主變壓器冷卻風(fēng)機異音、主變通風(fēng)機固定螺栓減震器橡膠墊老化等;故障類型對應(yīng)的具體參數(shù)為特征值,其中包含擊穿電壓、振動頻率等具體數(shù)值。構(gòu)建實例與特征值之間的特征矩陣F及實例與故障類型標(biāo)簽之間的相關(guān)矩陣R。
式中:m表示所有的實例數(shù);n表示所有的特征數(shù);q表示所有的標(biāo)簽數(shù);aij(1 ≤i≤m,1 ≤j≤n)為該實例的具體該特征參數(shù),如擊穿電壓、振動頻率等;bij(1 ≤i≤m,1 ≤j≤q)為-1 或1,-1 表示該實例不具有對應(yīng)標(biāo)簽,1 表示該實例具有對應(yīng)標(biāo)簽,即實例是否在后續(xù)維修中診斷出該項故障。
根據(jù)相關(guān)矩陣R中實例與故障類型的相關(guān)性,將實例集合分為每個故障類型標(biāo)簽對應(yīng)的正實例集合P和負實例集合N。為記錄各正負實例集中各故障類型包含的變化信息量,對各標(biāo)簽對應(yīng)的正負實例集合分別計算標(biāo)簽熵E(k)p,E(k)n。
式中:hp(j)表示在該標(biāo)簽對應(yīng)的正實例集中,出現(xiàn)的第j個標(biāo)簽向量與在正實例集中出現(xiàn)的總標(biāo)簽向量的比值;hn(j)則對應(yīng)表示第k個標(biāo)簽的負實例集對應(yīng)的向量比值。
利用正負實例集的標(biāo)簽熵可計算每個標(biāo)簽的基本熵以評估標(biāo)簽的最小變化。
式中:minE(k)表示該標(biāo)簽對應(yīng)的正負實例集標(biāo)簽熵中的最小值;wk表示第k個標(biāo)簽的基本熵。
由此計算比率參數(shù)rk為
式中:s為平滑參數(shù),此處被設(shè)置為1,使之為拉普拉斯平滑。
通過以上參數(shù)計算可得到根據(jù)訓(xùn)練數(shù)據(jù)自適應(yīng)的聚類簇數(shù)為
式中:ck表示第k個標(biāo)簽正負實例集的對應(yīng)聚類簇數(shù);|P|和|N|分別表示正負實例集的基數(shù)。對各標(biāo)簽對應(yīng)正負實例集合以相同的聚類簇數(shù)ck分別執(zhí)行k-means 聚類。聚類結(jié)果能夠反映實例間的關(guān)系和故障類型的深層特性,而聚類中心是對聚類結(jié)果的直觀體現(xiàn),根據(jù)聚類結(jié)果構(gòu)建映射
式中:ε(x)k表示實例與第j個標(biāo)簽對應(yīng)聚類結(jié)果構(gòu)建的映射;,,…,為實例與該標(biāo)簽正實例集各聚類中心的歐氏距離;,,…,對應(yīng)負實例集。
隨機森林是機器學(xué)習(xí)中的一種常用算法,其基本組成單元為決策樹。隨機森林法有放回的隨機選取數(shù)據(jù)集中的部分樣本,從每個樣本的特征中隨機選擇部分特征,在部分特征中再選擇出最佳分割特征作為節(jié)點創(chuàng)建決策樹,以學(xué)到整體數(shù)據(jù)集的特征。重復(fù)選取步驟構(gòu)建多個決策樹形成隨機森林,最終通過投票得到預(yù)測結(jié)果。
以實例與標(biāo)簽間的相關(guān)矩陣和實例映射結(jié)果為基礎(chǔ),構(gòu)建一個二元訓(xùn)練集Djk,該訓(xùn)練集中包含每兩對標(biāo)簽間與實例的相關(guān)性對應(yīng)關(guān)系。
式中:Djk表示對于每個實例特征向量xi與第j個標(biāo)簽和第k個標(biāo)簽的相關(guān)性二進制訓(xùn)練集;Ψ(Yi,lj,lk)表示實例xi相對于標(biāo)簽對的偏好值。對于每個實例對應(yīng)的訓(xùn)練集,可以利用二進制學(xué)習(xí)算法B誘導(dǎo)得到一個二進制分類器,即gjk←B(Djk)。依此可由二進制分類器分類結(jié)果得到未知實例xu每個可能的類標(biāo)簽的總體投票,票數(shù)越高表示故障類型的可能性概率越高。
式中:f(xu,lj)表示未知實例xu可能的類標(biāo)簽lj的投票結(jié)果;表示二進制訓(xùn)練集Dkj對應(yīng)的學(xué)習(xí)結(jié)果投票,若gkj(xu)≤0 成立,則為1,否則為0。當(dāng)票數(shù)相同時,可以被任意打破即隨機排名。
在成對比較的框架內(nèi),以排好序的標(biāo)簽集為基礎(chǔ),加入一個虛擬標(biāo)簽lv作為高可能性故障類型和低可能性故障類型之間的分割點,其對應(yīng)的二進制訓(xùn)練集可構(gòu)造如下。
式中:Djv表示對于每個實例xi與第j個標(biāo)簽和校準標(biāo)簽的相關(guān)性二進制訓(xùn)練集;Φ(Yi,lj,lv)表示實例xi相對于第j個標(biāo)簽的相關(guān)值。
對于每個新的訓(xùn)練集,得到二進制分類器:gjv←B(Djv)。依據(jù)該二進制分類器分類學(xué)習(xí)結(jié)果,對公式⑿中標(biāo)簽lj的總體投票結(jié)果進行更新如下。
投票法不會直接輸出標(biāo)簽的概率,但通過對標(biāo)簽進行排序,可以得到標(biāo)簽的相對概率分布。根據(jù)上述投票結(jié)果,未知實例xu的對應(yīng)相關(guān)標(biāo)簽集預(yù)測結(jié)果如下,即高發(fā)生可能性故障類型的合集為
研究評價指標(biāo)體系的建立參考經(jīng)典多標(biāo)簽分類評價指標(biāo)[19]。
(1)漢明損失(Hamming Loss)。漢明損失hammingloss用于評價標(biāo)簽被預(yù)測錯誤的頻率,記錄相關(guān)標(biāo)簽被錯誤預(yù)測為不相關(guān)及不相關(guān)標(biāo)簽被錯誤預(yù)測為相關(guān)的標(biāo)簽。
式中:p表示實例數(shù);q為標(biāo)簽數(shù);h(xi)表示實例xi對應(yīng)被預(yù)測錯誤的標(biāo)簽數(shù)。
(2)秩損失(Ranking Loss)。秩損失rankingloss評估反向排序標(biāo)簽對的比例,記錄相關(guān)標(biāo)簽的預(yù)測排名低于不相關(guān)標(biāo)簽預(yù)測排名的實例比例。
式中:l’表示第i個實例的實際相關(guān)標(biāo)簽;l”表示該實例的實際不相關(guān)標(biāo)簽;為實例的不相關(guān)標(biāo)簽集;f(x,y)為實值函數(shù),表示y是x的相關(guān)標(biāo)簽的置信度,由分類學(xué)習(xí)系統(tǒng)獲得。
(3)單個損失(One Error)。單個損失用于評價排名最高的標(biāo)簽與實例不相關(guān)的實例的比例。
式中:oneerror是標(biāo)簽的單個損失值;argmaxl∈y f(xi,l)表示實例xi相關(guān)排名最高的標(biāo)簽。
(4)覆蓋率(Coverage)。覆蓋率coverage評價平均需要多少步驟才能向下移動排名標(biāo)簽列表,以涵蓋實例的所有相關(guān)標(biāo)簽。
式中:rankf是與實值函數(shù)f對應(yīng)的秩函數(shù)。
(5)平均精度(Average Precision)。平均精度avgprec用于評價排名高于特定標(biāo)簽的相關(guān)標(biāo)簽的平均比例。
式中:rankf(xi,l)為實值函數(shù)對應(yīng)的秩函數(shù),表示未知實例xi預(yù)測結(jié)果中標(biāo)簽l的排名;rankf(xi,l’)同理。
主變壓器結(jié)構(gòu)復(fù)雜,其監(jiān)測項點對設(shè)備性能覆蓋較全面,能夠充分描述各種故障的特征。本研究方法可適用牽引系統(tǒng)其他部件,這里選擇牽引主變壓器作為典型部件,進行牽引系統(tǒng)故障分析的算例驗證。
研究在二元分類部分選擇隨機森林分類器,其中決策樹的數(shù)量及決策深度、子葉數(shù)量對分類結(jié)果有著直接影響。根據(jù)預(yù)測準確度結(jié)果,在子葉數(shù)量確定為5 的情況下,決策樹數(shù)量及決策深度對準確度的影響如圖3所示。
圖3 決策樹數(shù)量及決策深度對準確度的影響Fig.3 The impact of the number and depth of decision trees on accuracy
由圖3 可以看出,當(dāng)決策樹數(shù)量100,決策樹深度50時,預(yù)測準確度最高且穩(wěn)定性較好。
為消除算法在主觀選擇聚類簇數(shù)的影響,研究采用自適應(yīng)聚類簇數(shù)的方法,以第一個標(biāo)簽為例,計算得到的聚類簇數(shù)為11。聚類簇數(shù)對第一個標(biāo)簽預(yù)測準確性的影響如圖4所示。
圖4 聚類簇數(shù)對第一個標(biāo)簽預(yù)測準確性的影響Fig.4 Effect of number of clusters on prediction accuracy of the first label
由圖4 可知,研究計算的聚類簇數(shù)可以有效避免主觀選擇聚類簇數(shù)對預(yù)測結(jié)果的影響。當(dāng)聚類簇數(shù)設(shè)置過小,實例與故障類型的相關(guān)性等級劃分較寬泛,特征挖掘不夠細致;而聚類簇數(shù)設(shè)置過大時,相關(guān)性等級劃分過細,對最終的分類結(jié)果參考作用不大。自適應(yīng)設(shè)置簇數(shù)避免了多分類問題中手動選擇各標(biāo)簽聚類簇數(shù)對結(jié)果準確性、穩(wěn)定性的影響,驗證了改進的有效。
CLR 是二階多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為標(biāo)簽排序的方法。除了虛擬標(biāo)簽,還以一對一的方式構(gòu)造標(biāo)簽對的二進制分類器,類不平衡的問題在一定程度上得到緩解,且CLR 的性能在大規(guī)模數(shù)據(jù)集上能有更好的體現(xiàn)。
改進后的CLR 在經(jīng)典的基礎(chǔ)上,考慮標(biāo)簽的底層特定特征,其與標(biāo)簽的直接聯(lián)系更為緊密,簡化了二元分類的難度,改進后評價指標(biāo)提高顯著。由于CLR 算法的性能在較大數(shù)據(jù)集中有較為明顯的體現(xiàn),而研究所使用的牽引系統(tǒng)數(shù)據(jù)集因數(shù)據(jù)較少,不能充分體現(xiàn)CLR 的改進前后特點。因此,采用數(shù)據(jù)集較大的經(jīng)典多分類數(shù)據(jù)集yeast 對比改進前后的性能提升,改進前后CLR 在yeast 數(shù)據(jù)集中的評價指標(biāo)如表1所示。
表1 改進前后CLR在yeast數(shù)據(jù)集中的評價指標(biāo)Tab.1 Evaluation index of CLR in the yeast dataset before and after improvement
從表1可以看出,改進后的CLR各項指標(biāo)對比改進前均有不同程度提高,經(jīng)多次實驗,將改進前后各指標(biāo)的平均指標(biāo)進行對比,yeast 數(shù)據(jù)集驗證結(jié)果如圖5 所示,其中覆蓋率的指標(biāo)值已經(jīng)過歸一化處理。
圖5 yeast數(shù)據(jù)集驗證結(jié)果Fig.5 Yeast dataset validation results
在圖5的yeast數(shù)據(jù)集結(jié)果中,相比于經(jīng)典CLR算法,改進程度最大的秩損失降低了74.0%;其次是覆蓋率降低了43.7%;單個損失降低了13.1%,這些指標(biāo)都與相關(guān)標(biāo)簽的預(yù)測結(jié)果聯(lián)系緊密,能夠有效評估實例的實際相關(guān)標(biāo)簽的預(yù)測結(jié)果。這3 個指標(biāo)的改進結(jié)果說明利用標(biāo)簽對應(yīng)正負實例集的聚類結(jié)果構(gòu)建映射,能夠反映標(biāo)簽的底層特征,使得相關(guān)標(biāo)簽的預(yù)測準確率及排名結(jié)果得到顯著提高。平均精度相較于改進前提高了62.6%,漢明損失降低了13.2%,這2 個指標(biāo)能直接反映未知實例對應(yīng)的單個標(biāo)簽的預(yù)測排名質(zhì)量和預(yù)測準確率,表明聚類結(jié)果的應(yīng)用對分類預(yù)測難度的降低有一定影響。
對于鐵路機車牽引系統(tǒng)故障數(shù)據(jù)集,研究隨機采用70%的實例作為訓(xùn)練集,30%作為測試集。其中漢明損失、單個誤差、覆蓋率和秩損失,指標(biāo)值越小,系統(tǒng)性能越好;平均精度,指標(biāo)值越大,系統(tǒng)性能越好,最佳值為1。
實際故障數(shù)據(jù)集與公開數(shù)據(jù)集yeast 相比,因不同類型的故障易發(fā)性程度不一,各故障類型的實例數(shù)據(jù)量差距較大,即類不平衡問題較嚴重,導(dǎo)致模型訓(xùn)練的偏差,使得模型更傾向于預(yù)測樣本數(shù)量更多的類別,而忽略樣本數(shù)量較少的類別。本方法考慮標(biāo)簽之間的相關(guān)性和排序關(guān)系,從標(biāo)簽相關(guān)性的角度緩解標(biāo)簽數(shù)量上的類不平衡問題,而不僅是簡單地將樣本分配給單個類別。最終的標(biāo)簽排序結(jié)果,即標(biāo)簽的相對概率分布,可以反映出模型對不同標(biāo)簽的重要性和置信度,從而在一定程度上緩解類不平衡問題。
用實際故障數(shù)據(jù)集對改進后CLR進行驗證,故障數(shù)據(jù)集改進前后評價指標(biāo)體系結(jié)果如表2所示。
表2 故障數(shù)據(jù)集改進前后評價指標(biāo)體系結(jié)果Tab.2 Results of evaluation index system before and after improvement of the fault dataset
從表2可以看出,改進后的CLR在各項指標(biāo)中綜合表現(xiàn)較優(yōu),相對改進前各指標(biāo)均有一定幅度的提升,改進程度最大的單個損失降低了78.8%,其次是平均精度相較于改進前提高了31.4%,覆蓋率降低了21.7%,秩損失降低了16.7%,漢明損失降低了15.6%。
故障數(shù)據(jù)集各算法評價指標(biāo)對比結(jié)果如圖6所示。
圖6 故障數(shù)據(jù)集各算法評價指標(biāo)對比結(jié)果Fig.6 Results of comparison among evaluation indicators for various algorithms in the fault dataset
在圖6中可以發(fā)現(xiàn),改進后的CLR預(yù)測算法在牽引系統(tǒng)故障數(shù)據(jù)集的應(yīng)用中,相較于其他分類算法,平均精度、覆蓋率、單個損失及秩損失的指標(biāo)中均表現(xiàn)最優(yōu),即故障類型的可能性排序質(zhì)量較高且最有可能的故障類型預(yù)測結(jié)果準確率較高,可能故障類型的排名都較高。故障類型的可能性排序質(zhì)量直接影響到維修方式的預(yù)測結(jié)果,關(guān)鍵故障類型的預(yù)測準確率越高,維修方式預(yù)測越準確。故障類型排序越高,其故障發(fā)生概率越大,準確的可能發(fā)生故障類型排序有利于在維修中針對性地予以重視。
以牽引系統(tǒng)部分維修數(shù)據(jù)為基礎(chǔ)進行預(yù)測,部分實際故障數(shù)據(jù)維修預(yù)測結(jié)果如表3 所示,其中包含對每一維修方式的預(yù)測概率及該概率下的預(yù)測準確率。預(yù)測結(jié)果中C4 修的預(yù)測數(shù)據(jù)最多,這是由于實際維修中C4 修屬于較常見的小型維修,符合實際修程。根據(jù)與數(shù)據(jù)記錄的實際維修內(nèi)容對比,研究算法的最終預(yù)測結(jié)果的準確率達96.4%。
表3 部分實際故障數(shù)據(jù)維修預(yù)測結(jié)果Tab.3 Prediction results of maintenance for some actual fault data
在鐵路機車牽引系統(tǒng)中,擊穿電壓是采集端最易檢測并傳輸?shù)臄?shù)據(jù)。若檢測到擊穿電壓≥50 kV,預(yù)測出C3 修的概率為18.4%、C4 修概率為46.9%、C5 修概率為6.1%、C6 修概率為28.6%。與實際維修記錄相對比,當(dāng)擊穿電壓≥50 kV時,本方法預(yù)測準確率高達98.0%,具有現(xiàn)實指導(dǎo)意義。
混淆矩陣能夠反映模型預(yù)測結(jié)果的真假性比例,歸一化后的故障數(shù)據(jù)集各維修等級混淆矩陣如圖7 所示,C3 修與C6 修的預(yù)測結(jié)果中,真陽性比例較高,預(yù)測結(jié)果準確性較高,C4 修與C5 修的預(yù)測結(jié)果中預(yù)測失誤較多。C5 修為返廠維修等不常見的大型維修,由于C5 修的實例數(shù)據(jù)占比較低,類不平衡問題仍對結(jié)果有一定影響,因此難以區(qū)別與C4修特征規(guī)律的不同,預(yù)測結(jié)果穩(wěn)定性較低。
圖7 故障數(shù)據(jù)集各維修等級混淆矩陣Fig.7 Confusion matrix for various maintenance levels of the fault dataset
盡管改進后在故障數(shù)據(jù)集上并非所有指標(biāo)都有明顯優(yōu)勢,但綜合評價的較優(yōu)結(jié)果表明,聚類結(jié)果的應(yīng)用,使得算法更易得到標(biāo)簽底層特征,能夠充分考慮實例與故障類型的相關(guān)關(guān)系及故障類型間的特征差異,對并發(fā)故障類型的排名結(jié)果及最終準確度產(chǎn)生積極影響。
改進CLR 在實際故障數(shù)據(jù)集中預(yù)測準確率較高,且并發(fā)故障類型的可能性排名質(zhì)量較高,維修等級預(yù)測準確度高達96.4%。該方法在大數(shù)據(jù)集中改進的效果較為顯著,符合實際的鐵路部門故障數(shù)據(jù)預(yù)測需求。研究根據(jù)經(jīng)典的CLR 算法,利用正負實例集固定聚類簇數(shù)并分別進行聚類分析,將得到的故障類型底層特定特征結(jié)合二元分類的訓(xùn)練集,使得結(jié)果也更加有效。同時,該方法保留了經(jīng)典CLR 方法本身在類不平衡問題中的優(yōu)勢,通過考慮兩兩標(biāo)簽間的相關(guān)性得到標(biāo)簽的相對概率分布排序。另外,研究方法在漢明損失方面的改進提高效果不足,相比于更高階的RAKEL,其結(jié)果相差較大。未來將以此為改進方向,在保持其他維度指標(biāo)效果的同時,提高可能性較低的故障類型的預(yù)測準確率。