面向類不均衡數(shù)據(jù)的多任務(wù)博弈概率分類向量機(jī)*

2024-03-26 05:54:54潘海洋李丙新鄭近德童靳于

機(jī)電工程 2024年3期

潘海洋,李丙新,鄭近德,童靳于

(安徽工業(yè)大學(xué) 機(jī)械工程學(xué)院,安徽馬鞍山 243032)

0 引言

滾動軸承作為機(jī)械設(shè)備不可或缺的組成部分之一,被廣泛應(yīng)用于工業(yè)領(lǐng)域中。由于很多滾動軸承處于高速、重載等復(fù)雜工況下,致使其成為最易發(fā)生故障的零件之一。根據(jù)CERRADA M等人的統(tǒng)計,滾動軸承故障在旋轉(zhuǎn)機(jī)械總故障中占比40%左右[1-3]。因此,開展?jié)L動軸承狀態(tài)監(jiān)測與診斷對提高機(jī)械設(shè)備的可靠性與安全性具有重要意義。

近年來,基于數(shù)據(jù)驅(qū)動的智能故障診斷方法在滾動軸承故障診斷中得到廣泛應(yīng)用[4-5],如人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)算法、支持向量機(jī)(support vector machine,SVM)、相關(guān)向量機(jī)(relevance vector machine,RVM)等方法。人工神經(jīng)網(wǎng)絡(luò)是一種基于人體大腦神經(jīng)的復(fù)雜網(wǎng)絡(luò)系統(tǒng),擁有較強(qiáng)的容錯性和判斷能力,被廣泛應(yīng)用于故障診斷領(lǐng)域。但是,ANN及其改進(jìn)算法基于經(jīng)驗風(fēng)險最小化建立優(yōu)化目標(biāo),容易陷入局部最優(yōu)。SVM不同于神經(jīng)網(wǎng)絡(luò)算法,其基于結(jié)構(gòu)風(fēng)險最小化原則,通過求解凸優(yōu)化問題可以獲得全局唯一解,從而解決了局部最優(yōu)問題[6]。

由于SVM具有優(yōu)越的分類能力,相關(guān)學(xué)者提出了多種SVM演生算法,如,LI Yan-meng等人[7]提出了一種孿生支持向量機(jī)(twin support vector machine,TWSVM)方法,其通過構(gòu)造一對非平行超平面,解決了SVM中計算復(fù)雜度過高的問題;但處理大規(guī)模數(shù)據(jù)集時,TWSVM存在耗時的問題。CHEN Su-gen等人[8]提出了一種基于最小二乘支持向量機(jī)的故障診斷模型,其采用免疫算法克服了易陷入局部最優(yōu)的不足;但其對離群點仍較為敏感,導(dǎo)致模型泛化性能下降。此外,SVM及其改進(jìn)算法易受Mercer定理的限制,且預(yù)測結(jié)果缺少后驗概率,使其不具統(tǒng)計意義,制約著算法的進(jìn)一步發(fā)展。

在理想情況下,研究者通常希望模型能夠用于估計條件分布,以更好地捕捉預(yù)測中的不確定性。但是,SVM提供的是“硬”的二元決策,只能給出明確的分類結(jié)果,難以利用結(jié)果觀測獲得分類的理想準(zhǔn)確度[9-11]?；诖?相關(guān)學(xué)者提出了一種基于貝葉斯理論的統(tǒng)計學(xué)分類算法,即相關(guān)向量機(jī)[12]。RVM既可以實現(xiàn)概率性預(yù)測,也不受制于Mercer定理,且稀疏性和泛化能力明顯優(yōu)于SVM;但RVM仍存在一些不足[13],如大量樣本下訓(xùn)練時間過長,使得模型訓(xùn)練學(xué)習(xí)速度下降;噪聲對模型構(gòu)建造成影響,降低分類精度,使得模型魯棒性變差;使用單一核函數(shù)對全部數(shù)據(jù)進(jìn)行映射時存在局限性等。

為了解決上述問題,YANG Zheng-rong[14]提出了一種快速訓(xùn)練方法,其采用Gram-Schmidt算法剔除一些依賴性點以減少訓(xùn)練樣本的數(shù)量,解決了RVM在大規(guī)模訓(xùn)練集上訓(xùn)練時間過長的問題;但易受數(shù)據(jù)集影響而導(dǎo)致分類性能下降。王波等人[15]提出了一種基于多核多分類相關(guān)向量機(jī)的多特征融合智能故障診斷方法,其采用加權(quán)求和融合多種特征信息的方法,解決了不同特征直接融合導(dǎo)致的維數(shù)增高的問題;但其迭代運行時間較長,時效性有待提高。此外,RVM及其改進(jìn)算法仍存在使用零均值高斯分布導(dǎo)致基樣本不可靠的問題,增加了模型的不穩(wěn)定性[16]。針對上述問題,CHEN Huan-huan等人[17]進(jìn)一步提出了概率分類向量機(jī)(probabilistic classification vector machine,PCVM),采用了截斷高斯先驗方法,不僅使得樣本參數(shù)的正負(fù)與對應(yīng)的標(biāo)簽信息相同,而且使權(quán)重向量產(chǎn)生稀疏估計,降低了模型的復(fù)雜性。因此,相比于SVM和RVM,PCVM的輸出結(jié)果不僅具有概率統(tǒng)計意義,而且還具有稀疏性和穩(wěn)定性;但面對數(shù)據(jù)不平衡分類問題時,PCVM的分類性能表現(xiàn)欠佳。

工程實際中,機(jī)器運行大多處于正常工作狀態(tài),故障樣本的獲取極為困難,呈現(xiàn)出不均衡特點。由于SVM、RVM和PCVM方法在建模時沒有考慮類不均衡分類問題,致使其建立的模型出現(xiàn)偏向性,即分類傾向于多數(shù)類樣本[18-20]。

針對上述問題,基于稀疏貝葉斯理論、模糊隸屬度等理論,筆者提出一種MGPCVM模型。

通過在目標(biāo)函數(shù)中構(gòu)建博弈約束項,基于樣本質(zhì)心和樣本不平衡比等信息,給出一系列不同樣本質(zhì)心敏感值,使不同類別的樣本點具有不同的樣本質(zhì)心敏感值;并利用兩個不同的滾動軸承故障數(shù)據(jù)集進(jìn)行實驗分析,最后對MGPCVM方法的故障診斷分類性能進(jìn)行驗證。

1 多任務(wù)博弈概率分類向量機(jī)

MGPCVM是一種基于稀疏貝葉斯理論的核函數(shù)學(xué)習(xí)方法,其通過引入截斷高斯先驗、模糊隸屬理論等使模型實現(xiàn)稀疏性,并為不同類樣本點賦予不同的樣本質(zhì)心敏感值,消除了數(shù)據(jù)不平衡對模型構(gòu)建造成的影響。

(1)

式中:Φθ(x)為基函數(shù)(核函數(shù))向量,表達(dá)式為Φθ(x)=(φ1,θ(x),…,φN,θ(x));ω為模型權(quán)重向量,ω=(ω1,…,ωi)T,每個元素ωi均服從截斷高斯先驗;b為偏置,服從零均值高斯先驗。表達(dá)式如下:

(2)

對上式進(jìn)一步化簡可得:

(3)

式中:α為截斷高斯分布的逆方差;β為標(biāo)準(zhǔn)高斯分布的逆方差。

筆者采用高斯核函數(shù)作為基函數(shù),其一般形式表示如下:

(4)

式中:θ為基函數(shù)(核函數(shù))的參數(shù)。

為了使數(shù)值輸出轉(zhuǎn)化為概率輸出,MGPCVM使用了標(biāo)準(zhǔn)高斯累積分布函數(shù)作為概率鏈接函數(shù),將實數(shù)映射到[0,1]之間。其公式表示如下:

(5)

在概率模型中,筆者在稀疏預(yù)測模型Φθ(x)ω+b附加一個噪聲ξ～N(0,1),以增強(qiáng)模型魯棒性。模型hθ=Φθ(x)ω+b+ξ≥0時,樣本屬于正類的概率大于樣本屬于負(fù)類的概率,即樣本屬于正類的概率大于0.5;若hθ<0,則樣本屬于負(fù)類的概率大于0.5。由于ξ為一個觀測不到的變量,故hθ為隱變量。

關(guān)于Hθ的似然函數(shù)表示如下:

p(Hθ|ω,b)=

(6)

式中:I為元素全為1的N維向量;sn為樣本質(zhì)心敏感值;sn(Hθ-(Φθω+bI))為博弈約束項。

其中:Φθ(xi)=(φθ(x1,xi),…,φθ(xN,xi)),Φθ=(Φθ(x1)T,…,Φθ(xN)T)T,Hθ=(hθ(x1),…,hθ(xN))T。

(7)

式中:IR為負(fù)類樣本數(shù)與正類樣本數(shù)的比值,表示不平衡比;d1為樣本點與正類(少數(shù)類)樣本質(zhì)心的歐氏距離;d2為樣本點與負(fù)類(多數(shù)類)樣本質(zhì)心的歐氏距離;d為兩類樣本質(zhì)心之間的歐氏距離;r2為負(fù)類樣本與其同類樣本質(zhì)心之間的最大距離;C0為一個常數(shù),決定了指數(shù)函數(shù)的尺度。

由式(7)可以看出:根據(jù)負(fù)類樣本點相對于兩類樣本質(zhì)心的位置,負(fù)類樣本質(zhì)心敏感值取值范圍為1/(1+IR)到1,大小與IR有關(guān);當(dāng)d2=0時,負(fù)類樣本質(zhì)心敏感值等于1,這使得d1=d;當(dāng)樣本點最接近正類樣本質(zhì)心時,即d1=0,導(dǎo)致d=r2,且離負(fù)類樣本質(zhì)心最遠(yuǎn)時,即d2=r2,負(fù)類數(shù)據(jù)點的樣本質(zhì)心敏感值等于1/(1+IR)。

為了獲得完整的后驗分布,將α和β視為隱變量,此時存在hθ,α,β三個隱變量,則參數(shù)ω和b的后驗分布表達(dá)式表示如下:

(8)

取后驗分布的對數(shù)形式,公式表示如下:

logp(ω,b|y,Hθ,α,β)∝logp(Hθ|ω,b)+

logp(ω|α)+logp(b|β)∝-[sn(Hθ-(Φθω+

bI))]2-ωTAω-βb2

(9)

式中:A為對角矩陣,A=diag(α1,…,αN)。

為了求解參數(shù)ω和b的極大后驗估計,筆者采用期望最大化算法求解參數(shù)ω和b的后驗概率估計,并在此過程中使用共軛梯度法獲得最優(yōu)θ值。

因此,得到Q函數(shù)表示如下:

Q(ω,b|ωold,bold)=EHθ,α,β[logp(ω,b|y,Hθ,α,β)|y,

(10)

進(jìn)一步獲得Q函數(shù)的偏導(dǎo),表示如下:

(11)

(12)

(13)

式中:⊙為元素的哈達(dá)瑪矩陣乘法符號,表示矩陣對應(yīng)位置的元素相乘。

令式(11)和式(12)等于0,求解得到的ω和b更新式表示如下:

(14)

ITdiag(s2)Φθω]

(15)

(16)

2 MGPCVM方法分類流程

為驗證MGPCVM方法的有效性,筆者將滾動軸承故障振動信號作為具體的研究對象。

MGPCVM方法分類流程圖如圖1所示。

圖1 MGPCVM方法分類流程圖

診斷過程可以分為以下幾個環(huán)節(jié):

1)滾動軸承振動信號由傳感器進(jìn)行測量,并由數(shù)據(jù)采集系統(tǒng)進(jìn)行采集;

2)對數(shù)據(jù)進(jìn)行特征提取后,隨機(jī)分為訓(xùn)練樣本和測試樣本;

3)對訓(xùn)練樣本采用“一對一”策略完成多分類模型的構(gòu)建,然后利用測試樣本驗證模型準(zhǔn)確性,并給出診斷結(jié)果。

3 實驗與結(jié)果分析

筆者采用兩種不同的實驗臺獲得實驗數(shù)據(jù):1)湖南大學(xué)錐齒輪-滾動軸承實驗平臺數(shù)據(jù)集;2)安徽工業(yè)大學(xué)滾動軸承故障模擬實驗臺數(shù)據(jù)。

筆者在滾動軸承正常、內(nèi)圈故障、外圈故障和保持架故障(滾動體故障)4種類型中選取6種不同狀態(tài)進(jìn)行實驗驗證。

兩種實驗臺的滾動軸承數(shù)據(jù)信息如表1所示。

表1 滾動軸承數(shù)據(jù)信息

3.1 湖南大學(xué)軸承故障實驗

為了驗證MGPCVM方法的優(yōu)越性,筆者首先采用湖南大學(xué)滾動軸承故障實驗數(shù)據(jù)集進(jìn)行驗證。

湖南大學(xué)錐齒輪-滾動軸承實驗臺如圖2所示。

圖2 湖南大學(xué)錐齒輪-滾動軸承實驗臺

湖南大學(xué)滾動軸承數(shù)據(jù)集如表2所示。

表2 湖南大學(xué)滾動軸承數(shù)據(jù)集

滾動軸承每種運行狀態(tài)有150組數(shù)據(jù),筆者將數(shù)據(jù)按2∶1劃分為訓(xùn)練集和測試集。

為避免診斷結(jié)果的偶然性,筆者采取隨機(jī)選取訓(xùn)練集的策略,在每種故障類型的150組樣本中,隨機(jī)抽取100組樣本作為訓(xùn)練集,50組樣本作為測試集。

湖南大學(xué)軸承數(shù)據(jù)IR設(shè)置如表3所示。

表3 湖南大學(xué)軸承數(shù)據(jù)IR設(shè)置

為了客觀評價MGPCVM方法的性能,筆者將MGPCVM與SVM、TWSVM和PCVM進(jìn)行了對比,并選擇準(zhǔn)確率、F1-score、Kappa、Precision、Recall等評價指標(biāo)來綜合評價模型的分類性能。在不同IR下進(jìn)行5次實驗,并取平均值。

4種分類方法在不同評價指標(biāo)下的對比如圖3所示。

圖3 4種分類方法在不同評價指標(biāo)下的對比

從圖3(a)～圖3(e)可以看出:在5個模型評價指標(biāo)下,IR值較大時,SVM、TWSVM和PCVM均未達(dá)到理想效果,而在樣本失衡時,MGPCVM仍具有較高的識別率。在不同IR實驗條件下,MGPCVM方法的分類性能均表現(xiàn)最好,優(yōu)于其他對比方法。其中,不平衡比最大時,即IR為10時,MGPCVM相較其他方法的效果最為顯著,MGPCVM平均分類準(zhǔn)確率達(dá)到96.534%,而SVM、TWSVM和PCVM分類準(zhǔn)確率為89.800%、92.066%和89.532%,分別提升了6.734%、4.468%和7.002%。隨著IR的降低,即類間平衡度提高,總體呈現(xiàn)上升趨勢,且4種分類方法分類性能的差距逐漸減小。

產(chǎn)生上述結(jié)果的原因在于:MGPCVM模型考慮到了每個樣本對樣本質(zhì)心的敏感度,并使用基于距離的博弈約束項,對樣本賦予不同的樣本質(zhì)心敏感值,少數(shù)類樣本敏感值為1,而多數(shù)類樣本綜合考慮其與同類樣本質(zhì)心的距離以及異類樣本質(zhì)心的距離,然后賦予不同的敏感值,進(jìn)而能夠考慮并改善不平衡樣本對分類模型構(gòu)建產(chǎn)生的影響。SVM、TWSVM和PCVM三種方法默認(rèn)對所有樣本設(shè)置為1的敏感值,并未考慮到樣本的數(shù)量和距離等因素,使分類器的性能更偏向于多數(shù)類,降低了分類效果。

因此,實驗結(jié)果表明,該MGPCVM方法在樣本不均衡條件下的效果更加明顯。

3.2 安徽工業(yè)大學(xué)軸承故障模擬實驗

為了再次驗證MGPCVM方法的有效性,筆者擬選擇安徽工業(yè)大學(xué)滾動軸承故障模擬實驗數(shù)據(jù)進(jìn)行實驗。

安徽工業(yè)大學(xué)滾動軸承故障模擬實驗臺如圖4所示。

圖4 安徽工業(yè)大學(xué)滾動軸承故障模擬實驗臺

安徽工業(yè)大學(xué)滾動軸承數(shù)據(jù)集描述如表4所示。

表4 安徽工業(yè)大學(xué)滾動軸承數(shù)據(jù)集描述

在每種故障類型的150組實驗數(shù)據(jù)樣本中,筆者隨機(jī)抽取100組樣本作為訓(xùn)練集,50組樣本作為測試集。

安徽工業(yè)大學(xué)軸承數(shù)據(jù)IR設(shè)置如表5所示。

表5 安徽工業(yè)大學(xué)軸承數(shù)據(jù)IR設(shè)置

SVM、TWSVM、PCVM和MGPCVM 4種方法在不同IR下分類準(zhǔn)確率如圖5所示。

圖5 4種方法在不同IR分類準(zhǔn)確率

從圖5可以明顯看出:在不同的IR下,MGPCVM方法分類準(zhǔn)確率保持在95%以上。當(dāng)IR=10時,MGPCVM方法效果最為明顯,隨著IR降低,4種分類方法的準(zhǔn)確率均呈現(xiàn)上升趨勢,且4種方法的準(zhǔn)確率值之差逐漸縮小。

為了對MGPCVM方法進(jìn)行綜合評價,筆者仍選擇準(zhǔn)確率、F1-score、Kappa、Precision、Recall等評價指標(biāo)評價的分類性能。

4種方法對比結(jié)果如表6所示。

表6列出了4種分類器在不同評價標(biāo)準(zhǔn)下的對比結(jié)果。

由表6可以看出:當(dāng)IR=10時,MGPCVM平均分類準(zhǔn)確率為95.868%,SVM、TWSVM和PCVM分類準(zhǔn)確率為90.800%、91.800%和89.534%,分別提升了5.068%、4.068%和6.334%。

在F1-score、Kappa、Precision、Recall等評價指標(biāo)下,PCVM的分類性能在4種方法中的表現(xiàn)最差,面對不平衡數(shù)據(jù)分類時,PCVM難以建立具有平衡性的預(yù)測模型,進(jìn)而制約著分類性能;SVM的表現(xiàn)次之,其最優(yōu)超平面更加偏向于少數(shù)類,使得分類結(jié)果表現(xiàn)一般;TWSVM方法構(gòu)造了兩個非平行的超平面,其優(yōu)化問題是使每個超平面更接近自己的類別而遠(yuǎn)離另一個類別,故處理不平衡數(shù)據(jù)時,分類性能要優(yōu)于SVM,但忽略了不平衡樣本質(zhì)心敏感值;MGPCVM模型綜合考慮樣本質(zhì)心距離和不平衡比等信息,賦予不同樣本以不同的樣本質(zhì)心敏感值,故分類表現(xiàn)理想且均為最優(yōu)。

綜上所述,在不同指標(biāo)下,SVM、TWSVM、PCVM和MGPCVM的準(zhǔn)確識別率均呈現(xiàn)上升趨勢,并且MGPCVM在不同的IR下表現(xiàn)最好,顯著優(yōu)于其他三種對比方法。

因此,通過以上兩個實驗分析,分析結(jié)果證明了MGPCVM分類方法的可行性和優(yōu)越性。

4 結(jié)束語

針對傳統(tǒng)分類模型對不平衡樣本數(shù)據(jù)分類難以達(dá)到理想效果的問題,筆者提出了MGPCVM模型,通過設(shè)計樣本質(zhì)心博弈約束項,綜合考慮了樣本點距離及不平衡度等信息;為了驗證MGPCVM模型的有效性,針對湖南大學(xué)和安徽工業(yè)大學(xué)兩個軸承實驗臺數(shù)據(jù)進(jìn)行了實驗。

研究結(jié)論如下:

1)MGPCVM模型通過賦予各類樣本不同的樣本質(zhì)心敏感值,充分利用樣本間質(zhì)心博弈信息,解決了傳統(tǒng)分類器針對不平衡數(shù)據(jù)集較弱的問題;

2)在貝葉斯推理過程中使用截斷高斯先驗,不僅可以獲得概率輸出結(jié)果,同時確保了樣本參數(shù)正負(fù)與標(biāo)簽保持一致,且使樣本質(zhì)心敏感值具備了稀疏性;

3)通過兩種實驗臺的滾動軸承故障數(shù)據(jù)實驗分析,在F1-score、Kappa、Precision、Recall等評價指標(biāo)下,MGPCVM方法分類性能保持在95%～99%,優(yōu)于SVM、TWSVM和PCVM分類方法,有效地提高了非平衡數(shù)據(jù)分類精度。

然而,該模型存在訓(xùn)練較長等不足之處,在后續(xù)的研究方向中,筆者將針對該模型的時間成本等問題進(jìn)行研究,進(jìn)一步提升分類模型的效率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡