楊超越 唐建 翟凱
摘要:為了解決機(jī)械故障診斷中信號樣本不足這一問題,本文將DCGAN(Deep Convolutional Generative Adversarial Nets)應(yīng)用于故障診斷中廣泛使用的軸承振動加速度信號,證明了生成信號在時(shí)頻域表現(xiàn)與真實(shí)信號一致。通過SVM對比分類實(shí)驗(yàn),證明了利用DCGAN生成的振動信號可以用于解決故障診斷中的樣本缺少類間數(shù)據(jù)不均衡問題,以達(dá)到提高故障診斷準(zhǔn)確率的目的。
Abstract: In order to solve the problem of insufficient signal samples in mechanical fault diagnosis, DCGAN (Deep Convolutional Generative Adversarial Nets) is applied to the bearing vibration acceleration signal which is widely used in fault diagnosis to generate vibration signals under various working conditions. It is proved that the generated signal is consistent with the real signal in time and frequency domain. Through the comparative classification experiment of SVM, the results show that the correct rate of fault classification can be improved by adding generated vibration. It is proved that the vibration signal generated by DCGAN can be used to solve the problem of lack of inter-class data imbalance in fault diagnosis, so as to improve the accuracy of fault diagnosis.
關(guān)鍵詞:生成對抗網(wǎng)絡(luò);振動信號;機(jī)械振動
Key words: GAN;vibration signal;mechanical vibration
中圖分類號:TH113.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-957X(2021)23-0113-03
0? 引言
基于機(jī)器學(xué)習(xí)的智能模式識別方法近年來快速發(fā)展,在語音識別、自然語言處理等領(lǐng)域發(fā)展迅速。近年來,深度網(wǎng)絡(luò)越來越多地應(yīng)用到故障診斷。
深度學(xué)習(xí)模型一般需要大量的樣本才能保證良好的泛化和擬合能力,然而裝備正常運(yùn)行狀態(tài)下獲取故障振動信號數(shù)量有限,并且各類故障信號之間存在樣本不平衡和典型故障樣本缺少的情況,最理想的解決方法是根據(jù)已有樣本學(xué)習(xí)信號的特征并根據(jù)特征進(jìn)行擴(kuò)展。目前開始有基于深度網(wǎng)絡(luò)進(jìn)行機(jī)械振動信號生成的研究,運(yùn)用的模型主要有自動編碼器(Auto-Encoder,AE)[1]、變分編碼器(Variational Auto-Encoder,VAE)[2]等。
由于自動編碼器、變分編碼器設(shè)計(jì)的初衷是面向數(shù)據(jù)壓縮,模型優(yōu)化的最終目標(biāo)是實(shí)現(xiàn)輸出數(shù)據(jù)與輸入數(shù)據(jù)的均方誤差最小化,所以會導(dǎo)致生成數(shù)據(jù)僅僅是對真實(shí)數(shù)據(jù)的簡單復(fù)制。GAN(Generative Adversarial Networks)[3]是由Ian Goodfellow于2014年提出的生成模型,由于其自適應(yīng)學(xué)習(xí)、對抗訓(xùn)練的優(yōu)點(diǎn),已經(jīng)開始受到智能故障診斷研究人員的關(guān)注。
柴志豪[4]利用GAN生成了軸承振動信號的快速傅里葉變換(FFT)頻域圖,實(shí)現(xiàn)了頻域圖數(shù)據(jù)庫的擴(kuò)充,證明了利用GAN生成頻域圖的可行性,提高了故障識別率。何強(qiáng)[5]首先對一維軸承振動信號進(jìn)行短時(shí)傅里葉變換(STFT),得到時(shí)頻圖,將時(shí)頻圖放入WGAN-GP中進(jìn)行對抗訓(xùn)練,學(xué)習(xí)到二維時(shí)頻圖的特征。然而這必須將一維信號變換成二維信號,變換方法參數(shù)的選擇存在人為主觀性。使用Deep Convolution GAN(DCGAN)用來生成軸承振動信號的時(shí)頻圖,此方法雖然擴(kuò)充了數(shù)據(jù)集,然而時(shí)域信號通常攜帶大量的隱含信息,而且在變換的過程中存在人為主觀因素,產(chǎn)生偏差。
基于上述思考,本文嘗試將一維卷積運(yùn)算引入GAN的生成器和判別器中,構(gòu)建一維DCGAN,通過對抗訓(xùn)練自適應(yīng)地獲取信號的特征,進(jìn)而對生成信號的時(shí)域、頻域等特征進(jìn)行分析,以對生成信號的逼真度和可信性進(jìn)行評價(jià),實(shí)現(xiàn)一維振動信號的生成,并最終實(shí)現(xiàn)信號樣本庫的擴(kuò)充。
1? 基于一維DCGAN的振動信號生成
1.1 GAN原理
GAN的基本結(jié)構(gòu)如圖1,由生成器G(Generator)和判別器D(Discriminator)組成,生成器的輸入為符合高斯分布的隨機(jī)噪聲,輸出為學(xué)習(xí)到的生成數(shù)據(jù)。判別器計(jì)算生成器的輸出和真實(shí)信號之間的JS(Jensen-Shannon)距離,用來判別生成信號的逼真度,進(jìn)而反向調(diào)節(jié)生成器的參數(shù),提高生成器生成高逼真度信號的能力,判別器區(qū)分真實(shí)信號與生成信號的能力。這樣,生成器和判別器交替訓(xùn)練,生成能力和判別能力也在對抗訓(xùn)練中交替上升。
訓(xùn)練過程如圖2所示,判別器的目的是對真實(shí)數(shù)據(jù)的判別趨近真(1),對生成器生成數(shù)據(jù)的判別趨近假(0)。而生成器的目的是使判別器對生成數(shù)據(jù)判別趨近于真,達(dá)到以假亂真的目的,并根據(jù)損失更新生成器和判別器的參數(shù),訓(xùn)練的目標(biāo)函數(shù)如式(1):
■
■■(1)
式中,Pdata (x)為真實(shí)數(shù)據(jù),G(z)為生成數(shù)據(jù),Z為輸入的符合高斯分布的隨機(jī)噪聲。
1.2 DCGAN
為了利用GAN強(qiáng)大的生成能力,生成器和判別器從一維振動信號出發(fā),經(jīng)過生成器輸出生成信號,判別器輸出損失。
一維GAN中引入卷積層可以根據(jù)信號的不同自適應(yīng)地改進(jìn)核函數(shù)并學(xué)習(xí)到信號的特征。
而原始GAN中G和D的網(wǎng)絡(luò)使用的是全連接層。與全連接層相比,卷積層可以在減少大量參數(shù)的同時(shí)減少訓(xùn)練時(shí)間。
1.3 一維DCGAN
一維DCGAN中的生成器和判別器都是一維卷積網(wǎng)絡(luò),主要由卷積層、上采樣層、批標(biāo)準(zhǔn)化和激活函數(shù)組成。
1.3.1 結(jié)構(gòu)設(shè)計(jì)和參數(shù)
為了使生成器的輸入較穩(wěn)定,設(shè)置輸入為長度是100的符合標(biāo)準(zhǔn)正態(tài)分布的一維隨機(jī)噪聲,經(jīng)過兩次上采樣和卷積層,將信號長度擴(kuò)展為1024。具體過程為輸入信號經(jīng)過全連接層,映射為32768(256*128)長度,后接Reshape層將信號整合為大小為[128 256]的矩陣,卷積層1卷積核個數(shù)為128,大小為5,經(jīng)過上采樣層1輸出為[512 128]的矩陣,卷積層2的卷積核個數(shù)為32,步長為5,上采樣層2輸出為[1024 32]的矩陣,卷積層3卷積核個數(shù)為1,大小為5,之后輸出為[1024 1]即為信號的長度。全連接層和卷積層1-2的激活函數(shù)為ReLU,可以避免“梯度消失”問題,同時(shí)也能加快收斂速度。卷積層3使用雙曲正切激活函數(shù)tanh,使輸出的值在(-1,1)范圍內(nèi)。
判別器構(gòu)建原理與生成器類似,輸入為真實(shí)信號或者生成信號,維度為[1024 1],卷積層1個數(shù)為32,和大小為5,卷積層2個數(shù)為64,大小為5,卷積層3個數(shù)為128,大小為5,每個層卷積層后添加Dropout層,防止發(fā)生過擬合,導(dǎo)致生成數(shù)據(jù)與真實(shí)數(shù)據(jù)高度重合。卷積層后的激活函數(shù)為LeakyReLU。
1.3.2 算法細(xì)節(jié)
本文模型采用的是Keras2.2.4,訓(xùn)練過程優(yōu)化器為Adam,學(xué)習(xí)率為0.0002,批大小為64,當(dāng)目標(biāo)函數(shù)收斂且穩(wěn)定時(shí),訓(xùn)練結(jié)束。
2? 實(shí)驗(yàn)驗(yàn)證
實(shí)測信號為同一軸承故障的不同損傷程度振動信號,由于不同損傷程度振動信號的時(shí)頻圖區(qū)別非常小,很難分辨,故通過DCGAN生成各種損傷程度的振動信號,用來增加信號的多樣性。為表述方便,將0.1778mm、0.3556mm、0.5334mm、0.7112mm故障分別記為故障1~故障4,具體數(shù)據(jù)如表2。
2.1 實(shí)測信號時(shí)頻圖
從FFT變換分析,原信號的頻率主要集中在0.6kHz、1.4kHz、2kHz和2.5kHz范圍,最大分量在1.4kHz。從時(shí)頻圖分析,在1.4kHz的頻率下,間隔從0.005s至0.02s之間不等,且存在高頻成分干擾。生成信號在頻率和振幅等各個方面都很好地模擬了原信號。
故障2到故障4從FFT變換分析,主要集中在600Hz、1400Hz、2600-1800Hz和3500Hz,生成信號的頻率也主要集中在以上頻率,從小波變換分析,沖擊間隔0.005s至0.015s,故障2至故障4很難從時(shí)域、頻域和時(shí)頻域區(qū)分每種故障的時(shí)域或頻域特征。
故障2、故障3和故障4三種振動信號,頻率主要集中在0.6kHz,1.3kHz,2.5-2.9kHz和3.4-3.7kHz范圍,且間隔在0.003s-0.015s,且生成信號在時(shí)域和頻域都準(zhǔn)確地模擬了原信號。
2.2 基于SVM的分類結(jié)果分析
針對小樣本分類,由于樣本數(shù)少,防止過擬合常用的方法有SVM。同時(shí)實(shí)驗(yàn)結(jié)果表明,在KNN、樸素貝葉斯等分類模型中SVM效果最為優(yōu)秀。
每類故障采用70個真實(shí)故障信號、依次加入100個生成信號進(jìn)行SVM訓(xùn)練,30個信號進(jìn)行測試,分別進(jìn)行了六次實(shí)驗(yàn),取平均分類正確率,測試分類正確率如圖5。
未加入生成信號用SVM分類的混淆矩陣如表3,其中故障一分類正確率為100%,故障2至4分類正確率較低,這符合從時(shí)頻圖上的直覺觀察。
加入400生成信號用SVM分類的混淆矩陣如表 4,從實(shí)驗(yàn)結(jié)果可知,隨著生成信號個數(shù)地增加,分類正確率也隨之增加,故障4分類正確率已達(dá)到93%,效果明顯,證明生成信號在某些域可以比真實(shí)信號更接近超平面的距離,對超平面的確定比真實(shí)信號更具有價(jià)值。
實(shí)驗(yàn)表明,用一維DCGAN生成的一維振動信號在時(shí)域和頻域表現(xiàn)與原信號相差無幾,說明G和D學(xué)習(xí)到了原始信號的時(shí)域和頻域特征,并在SVM的對比分類實(shí)驗(yàn)中提高了分類正確率。
在SVM分類中,對超平面和邊距起決定性作用的是距離決策面最近的樣本。在真實(shí)數(shù)據(jù)的實(shí)驗(yàn)中,由于樣本數(shù)過于少,且數(shù)據(jù)維度高,樣本覆蓋范圍小,對決策面的支持向量少或者難以覆蓋全部的樣本范圍,只依賴真實(shí)數(shù)據(jù)訓(xùn)練出的模型魯棒性差,生成數(shù)據(jù)增加了樣本各個維度的多樣性,樣本覆蓋范圍大,生成信號會覆蓋真實(shí)數(shù)據(jù)未包括的隱含空間,對決策面的支持向量多,決策面更準(zhǔn)確。
還有類生成信號在低頻表現(xiàn)即使與真實(shí)信號略有區(qū)別,即使如此,與異類信號相比,距同類信號也要更近。對超平面的決策也有貢獻(xiàn)。在SVM分類的實(shí)驗(yàn)中,用GAN生成數(shù)據(jù)的方法對數(shù)據(jù)的寬容度較高,即生成的數(shù)據(jù)在時(shí)頻圖上不一定要和原信號保持一致,甚至為了避免過擬合,可以將SVM的訓(xùn)練數(shù)據(jù)中添加。
3? 結(jié)論
①從模擬信號的實(shí)驗(yàn)結(jié)果表明,生成對抗網(wǎng)絡(luò)可以學(xué)習(xí)到線性調(diào)頻信號、復(fù)雜周期信號、準(zhǔn)周期信號和復(fù)雜調(diào)頻信號的頻率變化,且有降噪作用。②在SVM對比分類實(shí)驗(yàn)中,隨著增加生成信號的個數(shù),分類正確率逐步增加,說明生成信號可以學(xué)習(xí)到真實(shí)信號的特征,增加樣本多樣性。
參考文獻(xiàn):
[1]葛磊蛟,廖文龍,王煜森,等.數(shù)據(jù)不足條件下基于改進(jìn)自動編碼器的變壓器故障數(shù)據(jù)增強(qiáng)方法 [J].電工技術(shù)學(xué)報(bào):1-11.
[2]張弛,吳東,王偉,等.不平衡樣本下基于變分自編碼器預(yù)處理深度學(xué)習(xí)和DGA的變壓器故障診斷方法[J].南方電網(wǎng)技術(shù), 2021,15(03):68-74.
[3]IAN G, JEAN P-A, MEHDI M, et al., editors. Generative adversarial nets. Advances in neural information processing systems; 2014.
[4]柴志豪.基于GAN的軸承故障診斷方法[J].內(nèi)燃機(jī)與配件, 2020(14):126-7.
[5]何強(qiáng),唐向紅,李傳江,等.負(fù)載不平衡下小樣本數(shù)據(jù)的軸承故障診斷[J].中國機(jī)械工程,2021,32(10):1164-1171,1180.