楊瑞雙,寧芊,雷印杰,陳炳才
(1.四川大學(xué) 電子信息學(xué)院,成都 610065;2.大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
近年來(lái),深度學(xué)習(xí)理論在故障診斷等領(lǐng)域取得了很大的進(jìn)展[1-4],卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為深度學(xué)習(xí)理論重要的模型之一,在軸承故障診斷領(lǐng)域也不斷展現(xiàn)出其自身的價(jià)值與巨大的潛力。文獻(xiàn)[5]使用離散小波變換對(duì)軸承振動(dòng)信號(hào)進(jìn)行預(yù)處理后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取深層次特征并得到了較好地診斷結(jié)果;文獻(xiàn)[6]提出了一種基于一維多尺度卷積自編碼的軸承故障診斷模型,利用并行、多尺度的卷積核和反卷積對(duì)原始信號(hào)進(jìn)行特征提取與重構(gòu),將提取到的特征圖輸入到分類器中取得了較好的分類結(jié)果;文獻(xiàn)[7]利用深度一維殘差卷積自編碼器對(duì)齒輪箱振動(dòng)信號(hào)進(jìn)行特征提取,并使用少量有標(biāo)簽數(shù)據(jù)對(duì)自編碼器進(jìn)行微調(diào)從而實(shí)現(xiàn)了齒輪箱的故障診斷。雖然卷積神經(jīng)網(wǎng)絡(luò)在故障診斷領(lǐng)域已經(jīng)取得了不錯(cuò)的成績(jī),但使用softmax層對(duì)卷積層提取的特征進(jìn)行分類不能很好的分離模型的特征提取與分類功能,可能會(huì)導(dǎo)致模型的分類和泛化能力不強(qiáng)。
SVM[9],KNN[10]等單一學(xué)習(xí)算法和隨機(jī)森林[11]、XGBoost[12]等集成學(xué)習(xí)算法在機(jī)械故障診斷領(lǐng)域取得了不錯(cuò)的成就,但是在現(xiàn)今大數(shù)據(jù)和高維度的環(huán)境下,這些分類算法在效率、精確度等方面不能滿足需求,輕量級(jí)梯度提升機(jī)(Light Gradient Boosting Machine,LightGBM)是一種基于決策樹的梯度提升算法[8],其在Boosting算法的基礎(chǔ)上針對(duì)分類準(zhǔn)確率和計(jì)算效率等方面進(jìn)行了優(yōu)化,比較適用于大樣本環(huán)境下的分類。然而,如果將原始信號(hào)直接輸入LightGBM,將會(huì)夾雜很多未經(jīng)處理的冗余信號(hào),在模型訓(xùn)練時(shí)會(huì)消耗過(guò)多的內(nèi)存空間并容易引起LightGBM分類器過(guò)擬合。
針對(duì)以上問(wèn)題,采用全局平均池化(Global Average Pooling,GAP)層代替全連接層對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)(下文簡(jiǎn)稱GCNN),與LightGBM算法相結(jié)合提出了一種軸承故障診斷模型,并構(gòu)建了同負(fù)載和變負(fù)載工況下的2種數(shù)據(jù)集,通過(guò)與其他模型的對(duì)比分析證明全局平均池化層對(duì)模型泛化能力的改進(jìn)效果,以及GCNN-LightGBM模型的有效性。
卷積層是卷積神經(jīng)網(wǎng)絡(luò)中的最基本的結(jié)構(gòu),其主要功能是對(duì)輸入數(shù)據(jù)進(jìn)行特征提取。相對(duì)于一般的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),卷積層最顯著的特征是局部感知、參數(shù)共享,這一特性大大減少了模型參數(shù),保證了網(wǎng)絡(luò)稀疏性。卷積層公式為
(1)
卷積的操作是線性的,但大部分樣本都是線性不可分的,為解決線性模型不能有效處理非線性樣本這一問(wèn)題,向卷積層中引入非線性激活函數(shù)。常見的激活函數(shù)有tanh,sigmoid和ReLU等,本文采用ReLU函數(shù),其表達(dá)式為
al(i,j)=max{0,yl(i,j)},
(2)
式中:al(i,j)為ReLU函數(shù)激活卷積輸出yl(i,j)后的值。
池化層也稱欠采樣層或下采樣層,主要用于特征選擇和信息過(guò)濾,同時(shí)減少過(guò)擬合,提高模型的容錯(cuò)性。常用的池化方式為最大池化和平均池化。相比于平均池化,最大池化能夠選取區(qū)域中最顯著的特點(diǎn),因此本文使用最大池化,選取區(qū)域中的最大值作為該區(qū)域池化后的值,其表達(dá)式為
pl(i,j)=max{al(i,j)};(j-1)n+1≤t≤jn,
(3)
式中:pl(i,j)為池化后的輸出;n為池化區(qū)域的寬度。
經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)在若干次卷積和池化后往往會(huì)接一層或多層全連接層,最后再采用softmax層進(jìn)行分類。全連接層的每一個(gè)神經(jīng)元與上一層的所有神經(jīng)元相連,用來(lái)把卷積層提取到的特征融合起來(lái)。由于全相連的特點(diǎn),全連接層的參數(shù)量非常龐大,不僅會(huì)降低模型訓(xùn)練速度,而且很容易引起過(guò)擬合。為彌補(bǔ)全連接層的缺陷,文獻(xiàn)[13]提出了全局平均池化層的概念,其對(duì)卷積輸出的每個(gè)特征圖求平均值,使每個(gè)特征圖只得到一個(gè)輸出且不需要訓(xùn)練調(diào)優(yōu)的參數(shù),從而極大減少了網(wǎng)絡(luò)參數(shù),得到的模型更加健壯,抗過(guò)擬合效果更佳。
全連接層與全局平均池化層的對(duì)比如圖1所示,其中:在使用全連接層之前先用Flatten函數(shù)將每個(gè)特征圖的所有特征展開,假設(shè)最后一層卷積輸出的是4*2*2的特征圖,全連接層輸出神經(jīng)元為4,則總共需訓(xùn)練4*2*2*4=64個(gè)參數(shù);全局平均池化層只需對(duì)每個(gè)特征圖求平均值即可,在沒有使用任何參數(shù)的情況下同樣得到4個(gè)輸出;因此,僅從這個(gè)簡(jiǎn)單的對(duì)比結(jié)構(gòu)圖很容易看出全局平均池化層代替全連接層可以大大降低經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)計(jì)算量。
圖1 全連接層與全局平均池化層的對(duì)比Fig.1 Comparison between FC and GAP
LightGBM算法巧妙解決了傳統(tǒng)boosting算法在大樣本環(huán)境下非常耗時(shí)的問(wèn)題,其關(guān)鍵是在傳統(tǒng)Boosting算法基礎(chǔ)上融合了基于梯度的單邊采樣(Gradient-based One-Side Sampling,GOSS)和互斥特征捆綁(Exclusive Feature Bundling,EFB)這兩種新方法。
1.3.1 GOSS算法
GOSS是一種減少數(shù)據(jù)量但保持精度的算法。每個(gè)數(shù)據(jù)都有不同的梯度值,梯度值越小表示數(shù)據(jù)訓(xùn)練誤差越小。如果完全丟掉梯度小的數(shù)據(jù),就會(huì)改變數(shù)據(jù)的分布,從而影響訓(xùn)練模型的精確度。GOSS提出了一種巧妙的采樣方式,具體算法步驟如下:
1)將要進(jìn)行分裂的特征的所有數(shù)據(jù)按照絕對(duì)值從大到小排列;
2)選取最大的前a%個(gè)數(shù)據(jù);
3)在剩下的較小梯度中隨機(jī)選擇b%個(gè)數(shù)據(jù),將其乘以一個(gè)常量系數(shù)(1-a)/b。
上述采樣方式在保留所有大梯度實(shí)例的同時(shí),也保證了一部分小梯度樣本得到訓(xùn)練。通過(guò)對(duì)小梯度數(shù)據(jù)引入常量系數(shù)的方式,盡可能使其與總數(shù)據(jù)分布一致,從而在減少訓(xùn)練樣本的情況下保證了訓(xùn)練樣本的精確度,提高了訓(xùn)練速度。
1.3.2 EFB算法
EFB是一種減少特征量但保持精度的算法。實(shí)際應(yīng)用中的高維數(shù)據(jù)一般具有稀疏性,EFB利用稀疏性設(shè)計(jì)了一種巧妙無(wú)損的方法減少特征維度。通常,被捆綁的稀疏特征都是互斥的,例如像one-hot特征一樣不會(huì)同時(shí)為非零值,這樣的特征捆綁起來(lái)不會(huì)丟失特征信息,但也會(huì)存在一些不完全互斥的特征,EFB算法新穎的提出了沖突比這個(gè)指標(biāo)對(duì)其不互斥程度進(jìn)行衡量,當(dāng)沖突比較小時(shí),將這些不完全互斥的特征也進(jìn)行融合綁定,從而可以得到更少的特征包,大大減少特征數(shù)量,提高計(jì)算效率。
如圖2所示,GCNN-LightGBM模型主要由卷積池化層、全局平均池化層和LightGBM分類器組成。在原始的一維振動(dòng)信號(hào)輸入卷積層之前,對(duì)其進(jìn)行了概率為0.2的隨機(jī)失活處理,可以提高訓(xùn)練模型的泛化能力和變負(fù)載條件下故障診斷的穩(wěn)定性。卷積池化層共2層,第1層采用大卷積核用于獲取原始信號(hào)中低頻段更多有效的信息[14];經(jīng)過(guò)2層卷積池化操作得到的特征圖被輸入到全局平均池化層中,通過(guò)對(duì)每個(gè)特征圖求平均值實(shí)現(xiàn)二次特征提取與數(shù)據(jù)降維;最后,將提取出的低維特征輸入到LightGBM分類器中進(jìn)行分類。
圖2 GCNN- LightGBM模型Fig.2 GCNN-LightGBM model
GCNN-LightGBM模型利用改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)對(duì)軸承振動(dòng)信號(hào)進(jìn)行自適應(yīng)特征提取,其中卷積神經(jīng)網(wǎng)絡(luò)超參數(shù)的選取對(duì)于特征提取效果至關(guān)重要,因此借助于softmax分類器對(duì)卷積神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練(表1),訓(xùn)練好卷積部分后用LightGBM取代softmax層。LightGBM參數(shù)的選取利用貝葉斯調(diào)參算法進(jìn)行處理,一些重要參數(shù)的含義與取值見表2。
表1 改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)超參數(shù)的設(shè)定Tab.1 Hyperparameter setting of GCNN
表2 LightGBM重要參數(shù)的含義與取值Tab.2 Meaning and value of important parameters of LightGBM
試驗(yàn)數(shù)據(jù)選自美國(guó)凱斯西儲(chǔ)大學(xué)(CWRU)軸承數(shù)據(jù)中心,選用了不同負(fù)載工況下的正常軸承數(shù)據(jù),以及驅(qū)動(dòng)端損傷直徑分別為0.178,0.356和0.534 mm的內(nèi)圈、鋼球和外圈故障軸承數(shù)據(jù),一共10種軸承運(yùn)行狀態(tài)。設(shè)置采樣頻率為12 kHz,每次采集1 024個(gè)數(shù)據(jù)點(diǎn)作為一個(gè)樣本。為加快卷積神經(jīng)網(wǎng)絡(luò)的收斂速度,在提取特征前采用Z-sore標(biāo)準(zhǔn)化方式對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,即
(4)
式中:x為原始樣本值;u為所有樣本數(shù)據(jù)的均值;σ為所有樣本的標(biāo)準(zhǔn)差;x′為標(biāo)準(zhǔn)化后的值。
將負(fù)載為1hp,2hp和3hp的數(shù)據(jù)設(shè)置為相應(yīng)的3個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集包含20 000個(gè)樣本,其中每種軸承狀態(tài)的樣本各2 000個(gè),隨機(jī)選取70%為訓(xùn)練集,20%為驗(yàn)證集,10%為測(cè)試集,具體的數(shù)據(jù)集見表3。
表3 軸承試驗(yàn)數(shù)據(jù)集Tab.3 Data set of bearing test
一般情況下,不同工況下的振動(dòng)信號(hào)會(huì)因幅值、波動(dòng)周期、相位等不一致而導(dǎo)致其組成數(shù)據(jù)集的分布有所差異,這就需要所設(shè)計(jì)的分類器具備很強(qiáng)的泛化能力和魯棒性。然而,要收集和標(biāo)記足夠的訓(xùn)練樣本以使分類器對(duì)所有工況都具有魯棒性是不現(xiàn)實(shí)的,因此,采用了一種使用單一負(fù)載訓(xùn)練模型并使用其他負(fù)載下的測(cè)試集進(jìn)行故障診斷的方式,以保證所訓(xùn)練模型的魯棒性[14]。例如,在1hp負(fù)載下訓(xùn)練的模型要求不僅在1hp測(cè)試集中取得很高的分類準(zhǔn)確率,而且在2hp或3hp測(cè)試集上也能獲得很好的分類效果。為實(shí)現(xiàn)該目標(biāo)構(gòu)建的變負(fù)載自適應(yīng)數(shù)據(jù)集見表4。
建筑節(jié)能就是在保證建筑物較高舒適度的前提下,合理使用能源、不斷提高能源利用效率并達(dá)到節(jié)約能源、減少能耗的目的。建筑能耗是指建筑在正常使用條件下所消耗的總能量,包括采暖、空調(diào)、照明、熱水供應(yīng)、炊事、家用電器等方面的能耗,隨著居民生活水平的提高,住宅建設(shè)的迅速發(fā)展及人們對(duì)住宅室內(nèi)舒適度環(huán)境的追求,造成了能源的大量消費(fèi),因此,推廣建筑節(jié)能對(duì)建設(shè)資源節(jié)約型社會(huì)有著十分重大的意義。要想達(dá)到節(jié)能效果,可通過(guò)合理的建筑規(guī)劃設(shè)計(jì)、單體設(shè)計(jì),改善建筑物圍護(hù)結(jié)構(gòu)的保溫及隔熱性能,充分利用自然通風(fēng)、太陽(yáng)能資源、余熱回收等措施,提高采暖、通風(fēng)及空調(diào)系統(tǒng)的能效。
表4 變負(fù)載自適應(yīng)數(shù)據(jù)集Tab.4 Variable load adaptive data set
試驗(yàn)中,改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模塊采用python語(yǔ)言中的深度學(xué)習(xí)框架Keras,分類模塊直接調(diào)用LightGBM軟件包,所用計(jì)算機(jī)的基本配置為CPU i7-6700,16 GB內(nèi)存,顯卡配置為RTX 2060 SUPER。利用搭建好的網(wǎng)絡(luò)分別使用不同數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,由于輸入數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)權(quán)值的初始化是隨機(jī)的,為保證試驗(yàn)結(jié)果的可靠性,每個(gè)數(shù)據(jù)集訓(xùn)練10次后求平均值。
為驗(yàn)證改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的泛化能力,構(gòu)建了經(jīng)典CNN-LightGBM模型用于對(duì)比,該模型除了全連接層以外的其他部分網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練參數(shù)均與GCNN-LightGBM模型保持一致;同時(shí),為驗(yàn)證LightGBM比softmax層具有更強(qiáng)的分類能力,也構(gòu)建了GCNN-softmax模型用于對(duì)比,該模型除softmax分類器以外的特征提取部分均與本文模型保持一致。
各模型在不同負(fù)載工況下的識(shí)別準(zhǔn)確率如圖3所示,由圖可知:
圖3 不同模型的分類準(zhǔn)確率Fig.3 Classification accuracy of different models
1)GCNN-LightGBM模型在同負(fù)載工況下的平均分類準(zhǔn)確率略高于CNN-LightGBM模型,但在變負(fù)載工況下的平均分類準(zhǔn)確率高出CNN-LightGBM模型2.39%,驗(yàn)證了改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)具有更好的抗過(guò)擬合效果,可以提高模型的泛化能力。
2)GCNN-LightGBM模型在同負(fù)載、變負(fù)載工況下的平均分類準(zhǔn)確率分別高出GCNN-softmax模型1.01%,0.75%,說(shuō)明LightGBM相較于softmax具有更強(qiáng)的分類能力。
3)LightGBM分類器在同負(fù)載工況下也能取得不錯(cuò)的分類效果,但在變負(fù)載工況下的平均分類準(zhǔn)確率不到68%,說(shuō)明LightGBM雖然是一個(gè)很強(qiáng)大的分類器,但直接用于訓(xùn)練原始數(shù)據(jù)很容易發(fā)生過(guò)擬合現(xiàn)象,有必要對(duì)原始數(shù)據(jù)進(jìn)行特征提取。
4)變負(fù)載工況下,相鄰工況之間的分類準(zhǔn)確率較高,間接反映了相鄰負(fù)載數(shù)據(jù)集的分布差異小,而非相鄰負(fù)載數(shù)據(jù)集分布差異大。
由于GCNN-LightGBM模型對(duì)同負(fù)載測(cè)試集的分類準(zhǔn)確率接近100%,為突出其泛化能力和負(fù)載遷移能力的優(yōu)越性,選取幾個(gè)已經(jīng)在同負(fù)載工況下取得很好分類效果的深度學(xué)習(xí)模型[14-16]進(jìn)行變負(fù)載測(cè)試集的對(duì)比分析。不同深度學(xué)習(xí)模型對(duì)變負(fù)載自適應(yīng)數(shù)據(jù)集的分類準(zhǔn)確率如圖4所示。
圖4 變負(fù)載工況下各模型的分類準(zhǔn)確率Fig.4 Classification accuracy of each model under variable load condition
由圖4可知:
1)CNN-LSTM和WDCNN模型在1hp,2hp訓(xùn)練所得模型的自適應(yīng)能力較強(qiáng),在其他變負(fù)載測(cè)試集上的分類準(zhǔn)確率可達(dá)90%以上,但在3hp訓(xùn)練所得模型的負(fù)載遷移能力不強(qiáng),在1hp和2hp測(cè)試集下的分類準(zhǔn)確率最高只能達(dá)到80%左右;CNN-SVM在3hp訓(xùn)練所得模型在其他測(cè)試集的分類準(zhǔn)確率接近100%,但在1hp訓(xùn)練所得模型在其他變負(fù)載測(cè)試集上的分類準(zhǔn)確率甚至不到80%。說(shuō)明這3個(gè)對(duì)比模型雖然能在某一變負(fù)載測(cè)試集上取得很好的分類效果,但整體的魯棒性和負(fù)載遷移能力并不是很強(qiáng)。
2)GCNN-LightGBM模型在變負(fù)載工況下最低的分類準(zhǔn)確率約為88.07%,相較于CNN-LSTM,WDCNN,CNN-SVM模型最差的情況分別提高了20.02%,9.71%,11.78%;GCNN-LightGBM模型的平均分類準(zhǔn)確率則高達(dá)95.04%,明顯高于其他模型的平均分類準(zhǔn)確率。可見GCNN-LightGBM模型在變負(fù)載工況下的整體分類效果較好,具有更好的泛化能力和負(fù)載遷移能力。
3.3.2 診斷效率
為進(jìn)一步突出GCNN-LightGBM模型在故障診斷效率方面的優(yōu)越性,在對(duì)比試驗(yàn)的過(guò)程中分別記錄了各個(gè)模型的訓(xùn)練時(shí)間、診斷時(shí)間,以及深度學(xué)習(xí)模塊的訓(xùn)練參數(shù)量和所需訓(xùn)練參數(shù)的層數(shù)(不包括池化層),見表5。其中,平均時(shí)長(zhǎng)為各模型分別在不同負(fù)載工況下各訓(xùn)練10次的平均值再次求不同負(fù)載平均值的結(jié)果。
表5 各模型訓(xùn)練時(shí)間和診斷時(shí)間的分析表Tab.5 Analysis table of training time and diagnosis time of each model
由表5可知:由于GCNN-LightGBM模型所需訓(xùn)練的參數(shù)與網(wǎng)絡(luò)層數(shù)最少,尤其是訓(xùn)練參數(shù)量與其他3個(gè)網(wǎng)絡(luò)相差幾個(gè)數(shù)量級(jí),因此所需的訓(xùn)練和診斷平均時(shí)長(zhǎng)在4種模型中最小,與CNN-LSTM相比,訓(xùn)練時(shí)間縮短了89.65%,故障診斷效率更是提高了11.75倍。
這些數(shù)據(jù)說(shuō)明模型所需訓(xùn)練的參數(shù)與層數(shù)越少,其模型訓(xùn)練與故障診斷時(shí)間越短,當(dāng)需要訓(xùn)練或診斷的樣本達(dá)到數(shù)十萬(wàn)甚至幾百萬(wàn)時(shí),GCNN-LightGBM模型故障診斷時(shí)間短的優(yōu)越性將會(huì)更加顯著的體現(xiàn)出來(lái),能夠節(jié)約大量的時(shí)間成本。
提出了一種基于GCNN-LightGBM的軸承故障診斷模型,該模型融合了改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)和LightGBM模型各自的優(yōu)點(diǎn),實(shí)現(xiàn)了對(duì)軸承健康狀況的高效診斷:
1)GCNN-LightGBM對(duì)同負(fù)載測(cè)試集的平均分類準(zhǔn)確率為99.72%,對(duì)變負(fù)載測(cè)試集的平均分類準(zhǔn)確率為95.04%。
2)與CNN-LSTM,WDCNN和CNN-SVM相比,GCNN-LightGBM模型在變負(fù)載測(cè)試集上具有更高的平均準(zhǔn)確率,具有較強(qiáng)的泛化能力和負(fù)載遷移能力。
3)GCNN-LightGBM模型所需訓(xùn)練的層數(shù)只有2層且參數(shù)計(jì)算量不足5 000,訓(xùn)練和故障診斷時(shí)長(zhǎng)分別為44.64,0.08 s,遠(yuǎn)遠(yuǎn)低于文中其他對(duì)比模型,表明GCNN-LightGBM模型具有結(jié)構(gòu)簡(jiǎn)單,參數(shù)計(jì)算量少,訓(xùn)練與故障診斷效率高等優(yōu)點(diǎn)。
本文主要是針對(duì)負(fù)載的變化提高模型的泛化能力,后續(xù)將通過(guò)向樣本中增加噪聲干擾進(jìn)一步提高模型的魯棒性。