肖楊,李亞,王海瑞,常夢容
(650500 云南省 昆明市 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院)
滾動(dòng)軸承作為一種十分重要的零部件,廣泛應(yīng)用于機(jī)械設(shè)備內(nèi)部。當(dāng)今滾動(dòng)軸承的重要性越來越明顯,其工作精度和可靠度對設(shè)備整體的運(yùn)行狀態(tài)都有關(guān)鍵性影響,使軸承故障診斷系統(tǒng)精度越來越高是故障診斷研究的主要方向[1]。
近年來,隨著GPU 的快速發(fā)展及大數(shù)據(jù)時(shí)代的來臨,深度信念網(wǎng)絡(luò)(DBN)已席卷人工智能各個(gè)領(lǐng)域[2]。熊景鳴[3]等將深度信念網(wǎng)絡(luò)與粒子群優(yōu)化支持向量機(jī)相結(jié)合提高了故障診斷的準(zhǔn)確率;沈長青[4]等提出一種基于Nesterov 動(dòng)量法的獨(dú)立自適應(yīng)學(xué)習(xí)率優(yōu)化的深度信念網(wǎng)絡(luò),引入Nesterov 動(dòng)量法代替?zhèn)鹘y(tǒng)動(dòng)量法預(yù)測參數(shù)下降的位置,控制參數(shù)達(dá)到最優(yōu)點(diǎn)的速度,避免了傳統(tǒng)動(dòng)量法引起的錯(cuò)過最優(yōu)點(diǎn)問題;楊宇[5]等提出結(jié)構(gòu)自適應(yīng)深度信念網(wǎng)絡(luò)(SADBN),當(dāng)診斷對象確定后,該網(wǎng)絡(luò)可以排除人為因素的干擾,充分利用網(wǎng)絡(luò)優(yōu)勢,自適應(yīng)地選取最優(yōu)深度網(wǎng)絡(luò)結(jié)構(gòu),從而可以有效提高診斷精度及診斷效率,滿足實(shí)時(shí)診斷的需求。
然而伴隨著深度神經(jīng)網(wǎng)絡(luò)模型的性能增加,神經(jīng)網(wǎng)絡(luò)的深度越來越深,接踵而來的是深度網(wǎng)絡(luò)模型[6]的高存儲(chǔ)、高功耗以及深度學(xué)習(xí)模型效率低等問題,尤其是在低資源環(huán)境條件下,學(xué)習(xí)一個(gè)好的深度學(xué)習(xí)模型將產(chǎn)生規(guī)模巨大的網(wǎng)絡(luò)參數(shù),計(jì)算和存儲(chǔ)成本也大大增加,最終導(dǎo)致花費(fèi)巨大的時(shí)間代價(jià)。在神經(jīng)網(wǎng)絡(luò)中,過參數(shù)化訓(xùn)練被認(rèn)為是神經(jīng)網(wǎng)絡(luò)必要一環(huán),但Dong 等[7]指出,不是模型越深越復(fù)雜就能取得良好的分類性能,反而有可能出現(xiàn)過擬合、模型參數(shù)大多導(dǎo)致計(jì)算量大、脈沖強(qiáng)度消失等問題,因此過參數(shù)化訓(xùn)練并不顯得特別重要。
本文提出一種PI-DBN 在滾動(dòng)軸承故障診斷中的研究方法。首先選取一個(gè)過參數(shù)化的深度信念網(wǎng)絡(luò)結(jié)構(gòu),在某些判別條件下,選取一些代表了整個(gè)模型的具有較高的訓(xùn)練價(jià)值的參數(shù)信息,而將剩余冗余的權(quán)值等信息進(jìn)行刪除,期望壓縮后的模型能夠達(dá)到原始過參數(shù)化訓(xùn)練時(shí)一樣的效果;其次,將軸承故障數(shù)據(jù)輸入到模型中,運(yùn)用剪枝算法對冗余權(quán)值進(jìn)行壓縮;最后,分別用預(yù)定義目標(biāo)網(wǎng)絡(luò)架構(gòu)和另外2 種剪枝算法進(jìn)行對比性能分析。實(shí)驗(yàn)結(jié)果表明,保留下來重要權(quán)值信息在整個(gè)模型訓(xùn)練中能達(dá)到一個(gè)較好的分類效果,整個(gè)模型在迭代過程中能夠較快地尋找到一個(gè)更加高效的模型結(jié)構(gòu)。
深度信念網(wǎng)絡(luò)(DBN)是由多層受限玻爾茲曼機(jī)(RBM)堆疊而成的神經(jīng)網(wǎng)絡(luò)模型[8],網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
玻爾茲曼機(jī)有2 層神經(jīng)元,一層為顯層,將數(shù)據(jù)輸入;一層為隱層,對數(shù)據(jù)進(jìn)行特征檢測[9]。顯層和隱層之間通過權(quán)值互相連接,層內(nèi)的神經(jīng)元元間不存在連接。隱層單元被訓(xùn)練去捕捉在可視層表現(xiàn)出來的高階數(shù)據(jù)的相關(guān)性。RBM 是一個(gè)隨機(jī)網(wǎng)絡(luò),描述一個(gè)隨機(jī)網(wǎng)絡(luò)主要有2 點(diǎn):(1)概率分布函數(shù):聯(lián)合概率密度、條件概率密度和邊緣概率密度。(2)能量函數(shù):隨機(jī)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)是統(tǒng)計(jì)力學(xué),能量函數(shù)是描述整個(gè)狀態(tài)的一種測度。系統(tǒng)越有序或者概率分布越集中,系統(tǒng)能量越小,反之,越無序并且概率分布越發(fā)散,則系統(tǒng)能量越小。
RBM 可見層和隱含層之間的能量函數(shù)為
式中:i ——可見層節(jié)點(diǎn)數(shù);j ——隱含層節(jié)點(diǎn)數(shù)。由能量函數(shù)可以得出可見層和隱含層之間的聯(lián)合概率密度為
通過聯(lián)合概率密度可以得到可見層的獨(dú)立分布為
此時(shí)得到一個(gè)含參數(shù)θ={w,b,c}的特殊Gibbs分布,根據(jù)聯(lián)合概率,可以得出條件概率為
由于同層之間神經(jīng)元沒有聯(lián)系,相互獨(dú)立,當(dāng)給定可見層神經(jīng)元狀態(tài)時(shí),隱含層上某個(gè)神經(jīng)元沒激活的概率為
同理可得:
式中:sig——sigmoid 函數(shù),sig(x)=1/(1+e-x)。
RBM 的訓(xùn)練目標(biāo)是讓Gibbs 分布最大可能地?cái)M合輸入數(shù)據(jù),即讓RBM 網(wǎng)絡(luò)表示的Gibbs 分布與輸入樣本的分布盡可能地接近,可用樣本分布和RBM 網(wǎng)絡(luò)的邊緣分布的KL 距離表示二者之間的差異性,KL 距離為
脈沖強(qiáng)度(Spiking intensity,SI)是指一個(gè)神經(jīng)元對輸入其信號的反應(yīng)程度,表征的是該神經(jīng)元的活躍程度。如果一個(gè)神經(jīng)元的SI 較大,說明這個(gè)神經(jīng)元對輸入信號具有較為活躍的反應(yīng);如果一個(gè)神經(jīng)元的SI 較小,說明這個(gè)神經(jīng)元對輸入信號的反應(yīng)較弱。SI 的表達(dá)式定義如下:
式中:α——一個(gè)正常數(shù);Oi.l——第i 個(gè)隱含層中第i 個(gè)神經(jīng)元的輸出,i=1,2,3,…,Nl,且Nl是第l個(gè)隱含層的神經(jīng)元個(gè)數(shù)?!趌 個(gè)隱含層中第i 個(gè)神經(jīng)元的輸入權(quán)值之和,如式(10)所示。
式中:rij——第i 個(gè)神經(jīng)元的第j 個(gè)輸入;wij——第i 個(gè)神經(jīng)元與第j 個(gè)輸入神經(jīng)元之間的連接權(quán)值;ni——第i 個(gè)神經(jīng)元的所有輸入神經(jīng)元個(gè)數(shù)。
基于PI-DBN 的具體剪枝流程(參見圖2):
(1)對原始信號進(jìn)行FFT 預(yù)處理,去除噪聲等無效信息;(2)初始化深度信念網(wǎng)絡(luò)參數(shù);(3)對輸入信號x 進(jìn)行訓(xùn)練,使網(wǎng)絡(luò)損失函數(shù)收斂;(4)對權(quán)值通道重要性進(jìn)行排序。在每層中,計(jì)算權(quán)值通道的脈沖強(qiáng)度分?jǐn)?shù),并根據(jù)重要性分?jǐn)?shù)按從小到大的方式對權(quán)值通道或進(jìn)行排序。(5)依據(jù)設(shè)定閾值剪除一部分權(quán)值通道,達(dá)到模型壓縮效果;(6)保留壓縮后的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入測試數(shù)據(jù)對模型進(jìn)行故障分析和診斷。
此次實(shí)驗(yàn)采用的是美國凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)中心采集的軸承故障數(shù)據(jù)集。數(shù)據(jù)集為12 kHz采樣頻率下的風(fēng)扇端軸承數(shù)據(jù),分別采集正常(OF)、內(nèi)圈故障(IF)、滾動(dòng)體故障(RF)以外圈故障(6 點(diǎn)鐘方向)4 種不同狀態(tài)的故障數(shù)據(jù),除正常數(shù)據(jù)外每種狀態(tài)有3 種故障深度類型,直徑分別為0.177 8,0.355 6,0.533 4 mm,軸承電機(jī)載荷為0,軸承轉(zhuǎn)速為1 797 r/min,總共10 種故障類別作為本次實(shí)驗(yàn)的數(shù)據(jù)來源。每類數(shù)據(jù)劃分為115個(gè)分類樣本,10 類總共1 150 個(gè)樣本。訓(xùn)練集大小為700 份,即每類70 份,測試集為450 份,每類45 份。分類情況如表1 所示。
表1 軸承故障數(shù)據(jù)集描述Tab.1 Description of bearing failure dataset
實(shí)驗(yàn)設(shè)置一個(gè)隱藏層,初始隱藏層含有10 個(gè)節(jié)點(diǎn),設(shè)置DBN 預(yù)訓(xùn)練階段的學(xué)習(xí)率為0.1,動(dòng)量為0,微調(diào)階段學(xué)習(xí)率為2,動(dòng)量為0.5,并設(shè)置剪枝算法的剪枝率為50%。
分別對2 個(gè)不同網(wǎng)絡(luò)架構(gòu)進(jìn)行實(shí)驗(yàn),其中原始DBN 為未修剪過的深度信念網(wǎng)絡(luò),PI-DBN 為經(jīng)過脈沖強(qiáng)度修剪過的深度信念網(wǎng)絡(luò)。剪枝算法對神經(jīng)元的活躍程度強(qiáng)度進(jìn)行大小排序,并按照剪枝率對相應(yīng)的權(quán)值通道進(jìn)行歸零,小端剪枝是將神經(jīng)元較小的權(quán)值通道進(jìn)行歸零,隨機(jī)剪枝則是不論大小隨機(jī)歸零50%的權(quán)值通道。不同窗口大小進(jìn)行100次迭代后運(yùn)行結(jié)果如表2 所示。
表2 方法準(zhǔn)確率對比Tab.2 Comparison of method accuracy
從表2 結(jié)果可以看出,經(jīng)過100 次迭代后,原始神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)最高識別準(zhǔn)確率為99.11%,最低為98.78%,而利用脈沖強(qiáng)度剪枝后進(jìn)行學(xué)習(xí)分類的網(wǎng)絡(luò)結(jié)構(gòu)最高可達(dá)100%,最低也能達(dá)到99.11%,均高于原始DBN 網(wǎng)絡(luò)架構(gòu)。因此,相比原始DBN 網(wǎng)絡(luò),脈沖強(qiáng)度剪枝后的DBN 具有良好的分類性能。由此可說明在小規(guī)模權(quán)值通道下,脈沖強(qiáng)度剪枝保存的權(quán)值矩陣相比于預(yù)定義架構(gòu)更能表征原始特征,權(quán)值的變化趨勢對小型網(wǎng)絡(luò)結(jié)構(gòu)具有較強(qiáng)的分類能力。
為了體現(xiàn)數(shù)據(jù)維度關(guān)于脈沖強(qiáng)度權(quán)值剪枝的意義,將原始數(shù)據(jù)劃分為1 024、512 兩個(gè)不同窗口大小的數(shù)據(jù)集,利用脈沖強(qiáng)度剪枝對原始DBN進(jìn)行修剪,迭代最大閾值為100,PI-DBN 為脈沖強(qiáng)度剪枝、DBN 為原始網(wǎng)絡(luò),并和基于權(quán)重剪枝以及隨機(jī)剪枝結(jié)果進(jìn)行對比,運(yùn)行結(jié)果如下:
表3 不同模型以及維度準(zhǔn)確率對比Tab.3 Comparison of accuracy of different models and dimensions
通過以上實(shí)驗(yàn)結(jié)果可以得出,脈沖強(qiáng)度剪枝算法對于低維數(shù)據(jù)集更加敏感,并且在更加小型的神經(jīng)網(wǎng)絡(luò)下,剪枝算法繼承的權(quán)值信息具有較強(qiáng)的特征表現(xiàn)力,在不同維度下都取得較好的分類效果,最高可達(dá)100%的分類準(zhǔn)確率。本次實(shí)驗(yàn)與其它兩個(gè)剪枝算法相比,脈沖強(qiáng)度剪枝能夠較好地保存原始數(shù)據(jù)的特征,較大概率剪除影響較小的神經(jīng)元,并且脈沖強(qiáng)度剪枝后的模型精度均和原始網(wǎng)絡(luò)并無多大變化,甚至可以比原始DBN 具有更好的分類性能。因此可以分析得到,當(dāng)權(quán)重規(guī)模較小時(shí),通過剪枝算法保存的網(wǎng)絡(luò)結(jié)構(gòu)將具有更強(qiáng)的分類性能權(quán)值變化大小能夠較好地表現(xiàn)原始數(shù)據(jù)的特征信息。
為了更好地體現(xiàn)權(quán)值通道的重要程度,進(jìn)行收斂性對比實(shí)驗(yàn)。設(shè)置迭代次數(shù)從0 開始,迭代100次為結(jié)束條件,記錄每次實(shí)驗(yàn)的準(zhǔn)確度,繪制收斂折線圖,如圖3 所示。通過收斂折線圖進(jìn)行PIDBN 的收斂性分析,其中RAND-DBN 為隨機(jī)剪枝,DBN 為原始網(wǎng)絡(luò),W-DBN 為權(quán)重剪枝。從圖3 可以看出,經(jīng)過隨機(jī)剪枝的方式去除一定的權(quán)值通道相比原始DBN 收斂性有較大的降低,原因是隨機(jī)剪枝剪除的神經(jīng)元重要性無法確定,在剪除時(shí)去除掉了重要性較高的權(quán)值通道,因而導(dǎo)致收斂性和準(zhǔn)確性都有所降低。而通過脈沖強(qiáng)度剪枝確定的權(quán)值矩陣建立的模型則具有較大的合理性。通過判別方法辨別出重要性程度較高的權(quán)值通道,剪除影響性較低的通道,使得收斂性有一定的改善,并且在收斂的最后階段時(shí)間內(nèi)基于PI-DBN 的模型具有較強(qiáng)的魯棒性。
圖4 為不同維度下刪除多個(gè)節(jié)點(diǎn)的準(zhǔn)確率示意圖,收集了當(dāng)前維度下刪除規(guī)定節(jié)點(diǎn)后所有可能的準(zhǔn)確率數(shù)據(jù)。圖4(a)、圖4(b)為原始節(jié)點(diǎn)為8 個(gè),然后進(jìn)行脈沖強(qiáng)度剪枝,保留5 個(gè)節(jié)點(diǎn)??梢钥吹?,原始數(shù)據(jù)為512 維度時(shí)最低準(zhǔn)確率為0.88 左右,最高為0.97 左右;1 024 維度時(shí)最低準(zhǔn)確率為0.88 左右,最高為0.99 左右。圖4(c)、圖4(d)為原始節(jié)點(diǎn)為10 個(gè),然后進(jìn)行脈沖強(qiáng)度剪枝,保留5 個(gè)節(jié)點(diǎn)??梢钥吹?,原始數(shù)據(jù)為512維度時(shí)最低準(zhǔn)確率為0.83 左右,最高為0.98 左右;1 024 維度時(shí)最低準(zhǔn)確率為0.88 左右,最高為1.00。由圖4 可知,脈沖強(qiáng)度在4 種情況下的準(zhǔn)確率分別達(dá)到了96.11%、98.66%、97.06%、100%,均達(dá)到了刪除相應(yīng)節(jié)點(diǎn)后的較好水平,相較其他剪枝算法保持了較高準(zhǔn)確率,達(dá)到了相應(yīng)的實(shí)驗(yàn)?zāi)康摹?/p>
深度信念網(wǎng)絡(luò)(DBN)在預(yù)訓(xùn)練階段學(xué)習(xí)階段以無監(jiān)督逐層貪婪的方式獲取數(shù)據(jù)的權(quán)重特征,權(quán)重變化在低維數(shù)據(jù)集下具有較強(qiáng)表現(xiàn)能力。本文通過脈沖強(qiáng)度剪枝刪除權(quán)值冗余部分,壓縮權(quán)值規(guī)模。對比不同維度剪枝后的收斂能力,得到如下結(jié)論:經(jīng)過脈沖強(qiáng)度剪枝后權(quán)值信息在低維數(shù)據(jù)集下能夠較好地表征數(shù)據(jù)的特征分布,使其快速收斂;隨著數(shù)據(jù)維度的不斷降低,脈沖強(qiáng)度剪枝收斂速度相比原始網(wǎng)絡(luò)獲取的收益更大;當(dāng)權(quán)值矩陣規(guī)模較小時(shí),變化較大的權(quán)值將具有較強(qiáng)的數(shù)據(jù)特征表現(xiàn)力。
因此在低維數(shù)據(jù)集下,建立小型神經(jīng)網(wǎng)絡(luò),然后進(jìn)行剪枝算法剔除冗余權(quán)值使模型快速收斂,具有較大的工程應(yīng)用價(jià)值。