姜琦, 馮慶勝
(大連交通大學(xué)自動化與電氣工程學(xué)院, 大連 116028)
鐵路信號系統(tǒng)的構(gòu)成十分復(fù)雜,需要眾多軟件和硬件基礎(chǔ)設(shè)施共同工作來保障列車高效安全的運行[1]。一旦系統(tǒng)中的某個部分發(fā)生故障,就可能導(dǎo)致列車運行效率低下或重大事故的發(fā)生[2-3]。其中,轉(zhuǎn)轍機因其具有移動和指示道岔位置,實現(xiàn)列車安全轉(zhuǎn)向的功能,在鐵路系統(tǒng)中被視為一種重要的信號基礎(chǔ)設(shè)備。但由于轉(zhuǎn)轍機長期處于室外工作,受到自然條件和列車沖擊等外界因素影響較大,也使其成為了一種有較高故障發(fā)生率的鐵路信號基礎(chǔ)設(shè)備[4-5]。因此,能夠準(zhǔn)確地識別出轉(zhuǎn)轍機的運行狀態(tài),對保證列車安全行駛具有重要的意義。
由于在故障發(fā)生時,轉(zhuǎn)轍機的電流和功率動作曲線會發(fā)生相應(yīng)的變化。因此以往對轉(zhuǎn)轍機的故障判別主要是依賴相關(guān)技術(shù)人員對微機監(jiān)測系統(tǒng)采集的電流曲線、功率曲線或二者結(jié)合,來進行人工分析。但這樣的判別方式效率很低,且常會出現(xiàn)誤判的情況。近年來,隨著人工智能的發(fā)展,轉(zhuǎn)轍機故障診斷方法逐漸結(jié)合了機器學(xué)習(xí)、深度學(xué)習(xí)等相關(guān)技術(shù),從而在診斷效率和準(zhǔn)確性方面都得到了相應(yīng)的提升。Vileiniskis等[6]通過現(xiàn)場采集的轉(zhuǎn)轍機電流數(shù)據(jù),使用具有編輯距離與真實懲罰相似度度量的一類支持向量機分類算法,更快的區(qū)分出轉(zhuǎn)轍機狀態(tài)是否正常。王林潔[7]對轉(zhuǎn)轍機不同狀態(tài)下的功率數(shù)據(jù)進行采集,提取功率數(shù)據(jù)的時域和頻域特征,采用簡約算法對特征集降維后輸入貝葉斯網(wǎng)絡(luò)進行分類診斷。周鑫[8]對轉(zhuǎn)轍機的電流與功率數(shù)據(jù)進行采集,應(yīng)用生成對抗網(wǎng)絡(luò)解決數(shù)據(jù)類型不平衡問題,最后將數(shù)據(jù)輸入具有殘差結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)進行分類診斷??梢?,在轉(zhuǎn)轍機故障診斷的研究中,其研究對象多基于電信號。但電信號存在采集較難,且在采集過程可能會對轉(zhuǎn)轍機造成干擾等問題[9]。相比之下,聲音信號因其在采集方面具有非接觸,無干擾,易獲得的優(yōu)點,越來越多的成為具有電機、軸承等機械結(jié)構(gòu)設(shè)備故障診斷的研究對象[10-12]。因此,對轉(zhuǎn)轍機運動過程中產(chǎn)生的聲音信號進行研究,也是轉(zhuǎn)轍機故障診斷的新方向。
Lee等[13]采集了3種轉(zhuǎn)轍機異常狀態(tài)聲音信號,對其提取梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient, MFCC)特征,并結(jié)合支持向量機技術(shù)實現(xiàn)了轉(zhuǎn)轍機故障診斷,證明了基于轉(zhuǎn)轍機聲音信號故障診斷的可行性。但MFCC特征是根據(jù)人耳聽覺特性所設(shè)計,對聲音信號的高頻分量有抑制作用[14-15],因此不能全面表征轉(zhuǎn)轍機聲音信號的聲學(xué)特性。Sun等[9]提取轉(zhuǎn)轍機聲音信號的時域和頻域特征,構(gòu)成13維特征向量,經(jīng)二元粒子群優(yōu)化算法進行特征降維,最后通過支持向量機進行分類。但該特征提取方式只考慮了轉(zhuǎn)轍機聲音信號整體變化的特性,缺乏了如MFCC算法中對信號短時特性的提取[16]。
為全面表征轉(zhuǎn)轍機聲音信號的特點,提出使用經(jīng)驗?zāi)B(tài)分解(empirical mode decomposition, EMD)獲取聲音信號的高頻分量,并計算高頻分量的時頻特性,與MFCC及其一階、二階差分共同組成多尺度MFCC的特征提取方法。并利用卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)構(gòu)建基于聲信號的轉(zhuǎn)轍機狀態(tài)識別模型。通過在S700K轉(zhuǎn)轍機上模擬故障狀態(tài),采集真實的聲音信號,用五折交叉驗證法獲取兩種特征的識別準(zhǔn)確率。此外,為驗證多尺度MFCC特征對含有復(fù)雜環(huán)境噪聲的轉(zhuǎn)轍機聲音信號的狀態(tài)識別效果,將采集的聲音信號加入不同信噪比的雨聲,構(gòu)建含噪數(shù)據(jù)集進行訓(xùn)練與識別。
將采集的聲音信號在特征提取之前進行幅值標(biāo)準(zhǔn)化、分幀和加窗操作稱為信號的預(yù)處理,整個預(yù)處理過程如圖1所示。
圖1 聲音信號預(yù)處理
為便于后續(xù)的計算處理,首先將音頻序列的幅值進行標(biāo)準(zhǔn)化,其函數(shù)表達式為
(1)
式(1)中:x(n)為聲音序列;|x(n)|max為聲音序列絕對值的最大值;x(m)為歸一化后的聲音序列。
經(jīng)過幅值標(biāo)準(zhǔn)化處理之后,接著需要對序列進行分幀和加窗,這也是預(yù)處理中重要的環(huán)節(jié)。雖然轉(zhuǎn)轍機聲音信號是非平穩(wěn)信號,但其在小段時間內(nèi)仍具有短時平穩(wěn)特性,因此可將聲音序列分割成若干個很小的時間段,也稱為一幀,從而得到信號的短時特征。一般將幀長取為20~30 ms[17],將幀移取幀長的0.3~0.5倍,讓鄰幀之間存在部分重疊,從而避免兩幀差異過大,特征丟失。然后將分幀后的聲音序列進行加窗處理,該操作可使幀的始末兩端過渡更為平滑,一般選用漢明窗。
在對人耳聽覺機理的研究中發(fā)現(xiàn),低頻聲音的行波相比高頻聲音行波在內(nèi)耳蝸基底膜上傳遞的距離更大,這使人耳對低頻聲音更為敏感,對高頻有掩蔽作用。傳統(tǒng)的MFCC聲音信號特征提取方法的關(guān)鍵就是構(gòu)建一系列具有不同權(quán)重的帶通濾波器組來模擬人耳對聲音信號的調(diào)節(jié)作用[18],整個特征提取過程如圖2所示。具體提取步驟如下。
FFT為快速傅里葉變換;DCT為離散余弦變換
步驟1設(shè)x(n)為轉(zhuǎn)轍機聲音信號預(yù)處理后獲得的逐幀的時域表達,并利用快速傅里葉變換求得x(n)的頻譜X(k),可表示為
(2)
式(2)中:Npoint為傅里葉變換的點數(shù);k為頻率點。
步驟2將聲音信號的頻譜取模的平方,計算其能量譜,即|X(k)|2,再將其通過一組模仿人耳調(diào)節(jié)作用的三角形濾波器,使|X(k)|2進行Mel非線性變換,可表示為
(3)
式(3)中:f(m)為三角濾波器中心頻率。
第m個濾波器的頻率響應(yīng)可表示為
(4)
步驟3將一組濾波器得到的所有MelSpec(m)取對數(shù),計算其對數(shù)能量E(m),計算公式為
E(m)=lg[MelSpec(m)], 0 (5) 式(5)中:M為濾波器的個數(shù)。 步驟4最后將E(m)進行離散余弦變換(DCT),求出的一組向量F(n)即為梅爾倒譜系數(shù),其表達式為 (6) 式(6)中:n為梅爾倒譜系數(shù)的階數(shù)。 為了改善傳統(tǒng)MFCC提取方法中因Mel濾波器組在高頻區(qū)域數(shù)目較少且分布稀疏導(dǎo)致的轉(zhuǎn)轍機聲音信號在高頻部分特征表征較差的問題,提出了多種尺度融合的MFCC特征提取方法。 EMD可使任意一個信號在任意時刻自適應(yīng)地分解成許多本征模態(tài)函數(shù)(intrinsic mode function, IMF)[19]。由于這些IMF分量代表著原始信號中不同的頻率分量,且分解的次序按照由高頻到低頻的方式排列。因此,首先將轉(zhuǎn)轍機聲音信號進行EMD分解獲得IMF分量,之后取前5個IMF分量分別對其計算11個時域特征和2個頻域特征,將計算出的數(shù)值構(gòu)成代表轉(zhuǎn)轍機聲音信號高頻部分特征一維向量。所用的時域和頻域特征公式如表1所示。 表1 時域和頻域特征 此外,為了得到更加豐富的信息,將MFCC系數(shù)做一階差分與二階差分得到組成MFCC的動態(tài)特征向量。差分計算公式為 (7) 式(7)中:dt和Ct分別為第t個一階差分和倒譜系數(shù);Q為倒譜系數(shù)的階數(shù);Ktd為一階導(dǎo)數(shù)的時間差。 將計算出的MFCC特征向量,MFCC動態(tài)特征向量和時頻域特征向量進行特征融合,形成了改進后的Ms-MFCC特征向量,該提取過程如圖3所示。 圖3 多尺度MFCC參數(shù)提取過程 所采集的聲音信號來自在提速區(qū)段得到了大量使用的S700K型交流電動轉(zhuǎn)轍機,其內(nèi)部結(jié)構(gòu)圖如圖4所示。 圖4 S700K型轉(zhuǎn)轍機內(nèi)部結(jié)構(gòu) 對轉(zhuǎn)轍機的正常運行、道岔卡阻、啟動斷相和轉(zhuǎn)換斷相4種狀態(tài)的聲音信號進行采集,其中3種故障狀態(tài)的模擬方式如表2所示。 表2 3種故障類型及模擬方式 使用華為手機作為音頻采集設(shè)備,并將其放置在轉(zhuǎn)轍機正上方10 cm處。共采集160個聲音樣本,每種狀態(tài)(包括一種正常運行狀態(tài)和3種故障狀態(tài))采集40個聲音樣本,每個聲音樣本長度為 5~7 s,采樣頻率為48 kHz。每種狀態(tài)下的聲音信號時域波形與頻域變換如圖5所示。 圖5 4種轉(zhuǎn)轍機狀態(tài)聲音信號的波形圖和頻譜圖 由圖5可知,S700K轉(zhuǎn)轍機4種狀態(tài)下聲音信號時域波形、持續(xù)時間等都有明顯的變化。而通過頻域圖可知,4種狀態(tài)聲音信號的頻率范圍都為0~240 000 Hz,在10 000~15 000 Hz的高頻段內(nèi)也都具有較高能量。 卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[20]是一種具有多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),由于CNN的層間采用局部連接且權(quán)值相互共享,使其可提取輸入值的局部特征,還具有參數(shù)量較小,模型復(fù)雜度低的特點。CNN可輸入不同維度的特征,既可以是一維的聲音序列,也可以是二維的頻譜圖,被廣泛應(yīng)用于聲音識別領(lǐng)域。構(gòu)建了一個包含9層結(jié)構(gòu)的CNN識別模型,其詳細(xì)構(gòu)架如圖6所示。 圖6 CNN識別模型詳細(xì)構(gòu)架 (1)輸入層:將采集的音頻樣本重采樣為22.05 kHz,并將樣本隨機剪裁出66 150個采樣點進行特征提取,取20個Mel濾波器,得到大小為61×65的多尺度MFCC特征,將該特征作為卷積層的輸入。 (2)卷積層:將圖6中包含的3個卷積層的卷積核數(shù)量從左至右分別設(shè)為64、128和256。令卷積核大小和步長統(tǒng)一設(shè)為3×3和1×1。在每一個卷積層后對輸出數(shù)據(jù)進行批歸一化處理,提高訓(xùn)練速度。由于聲音信號包含負(fù)值,因此選用可以保留負(fù)值的Leaky ReLU激活函數(shù)對數(shù)據(jù)進行激活。 (3)池化層:將圖6中包含的3個池化層的池化核大小和移動步長都設(shè)為2×2。令池化層的池化方式設(shè)為更有效的最大值法。 (4)全連接層:令圖6中的全連接層具有256個神經(jīng)元,并選用Leaky ReLU激活函數(shù)。此外,該在層前采用全局平均池化,層后再添加概率系數(shù)為p的Dropout函數(shù)。 (5)輸出層:該層也可視作輸出為4類的全連接層,并使用歸一化指數(shù)(softmax)激活函數(shù)計算樣本對應(yīng)4個類別的概率,從而進行分類。 首先將轉(zhuǎn)轍機聲音信號進行分幀預(yù)處理時的幀長設(shè)為30 ms,幀移設(shè)為15 ms,并選用漢明窗實現(xiàn)幀間的平滑處理。在提取特征時,為保證所得的兩種特征向量維度大小相同,將MFCC的濾波器個數(shù)設(shè)置為61,Ms-MFCC的濾波器個數(shù)設(shè)置為20。在實驗中,選用交叉熵來計算損失值。設(shè)置概率系數(shù)為0.5的Dropout函數(shù)。每次迭代使用批量大小為32的數(shù)據(jù)。選用初始學(xué)習(xí)速率為0.01的隨機梯度下降法(SGD)優(yōu)化器來更新參數(shù),并將學(xué)習(xí)率衰減策略設(shè)置為每20個epoch衰減一次,衰減后變?yōu)樵瓉韺W(xué)習(xí)率的0.1倍,具體衰減過程如圖7所示。 圖7 學(xué)習(xí)衰減策略 此外,考慮到所采集的轉(zhuǎn)轍機音頻數(shù)據(jù)集的數(shù)據(jù)量較少,隨意分化訓(xùn)練集與測試集可能導(dǎo)致樣本分布不均衡,無法獲得準(zhǔn)確的訓(xùn)練結(jié)果,因此選擇五折交叉驗證法對模型進行訓(xùn)練,該方法可將數(shù)據(jù)集分成平均分成互斥的5份。每次的迭代訓(xùn)練輪流提取4份做訓(xùn)練集,剩下的作為測試集。其中,將10%的訓(xùn)練集數(shù)據(jù)劃分為驗證集。詳細(xì)的五折交叉驗證數(shù)據(jù)劃分與提取過程如圖8所示。 Ei為準(zhǔn)確率,i=1,2,…,5; Train為訓(xùn)練集;Fold為折數(shù);Val 為驗證集;Iteration為迭代次數(shù);Test為測試集 (8) 式(8)中:Ei為第i折數(shù)據(jù)得到的訓(xùn)練準(zhǔn)確率。 將實驗數(shù)據(jù)集提取的Ms-MFCC和MFCC兩種特征經(jīng)過相同結(jié)構(gòu)與參數(shù)的CNN模型進行訓(xùn)練。兩種特征在不同的epoch次數(shù)下所得的五折交叉驗證結(jié)果分別如表3、表4所示。 對比表3和表4可知,在相同的epoch次數(shù)下,Ms-MFCC特征的準(zhǔn)確率均值總高于相對應(yīng)的傳統(tǒng)MFCC特征的準(zhǔn)確率均值。并且對于5種數(shù)據(jù)集的劃分方式,每次測試所得的準(zhǔn)確率都是Ms-MFCC特征表現(xiàn)更好。其中,Ms-MFCC特征在epoch為90次時的識別準(zhǔn)確率便可達到MFCC特征在epoch為110次時的效果,這表明多尺度MFCC特征更加全面的表征了轉(zhuǎn)轍機聲音信號的聲學(xué)特性,使模型可經(jīng)歷更少次數(shù)的迭代來達到較高的識別準(zhǔn)確率。 表3 Ms-MFCC五折交叉驗證準(zhǔn)確率 表4 MFCC五折交叉驗證準(zhǔn)確率 為了更直觀的顯示兩種特征識別準(zhǔn)確率的變化趨勢,擴大epoch訓(xùn)練范圍,記錄對應(yīng)的準(zhǔn)確率均值,得到兩種特征在相同迭代次數(shù)下的準(zhǔn)確率變化曲線如圖9所示。 由圖9可知,在epoch由60次增加至120次的過程中,兩種特征的識別準(zhǔn)確率都不斷提高。但在epoch由110增加到120時,Ms-MFCC的特征的識別準(zhǔn)確率不再發(fā)生變化,達到最優(yōu)的98.1%。而MFCC特征的識別準(zhǔn)確率繼續(xù)增加至93.75%,但其折線斜率降低,因此,傳統(tǒng)MFCC需要更多次迭代才能收斂到最優(yōu)解。 圖9 兩種特征的準(zhǔn)確率均值變化曲線 由于轉(zhuǎn)轍機工作在室外,會面臨不同的天氣狀況,擁有復(fù)雜的環(huán)境噪聲。因此,為了驗證在復(fù)雜天氣狀況出現(xiàn)時MFCC與Ms-MFCC兩種特征的狀態(tài)識別準(zhǔn)確率,將公共ESC-10聲音數(shù)據(jù)集中的雨聲[21]選作為環(huán)境噪聲,與轉(zhuǎn)轍機聲音信號按照信噪比為5、10、15 dB的比例相加,構(gòu)建出三個含有不同信噪比的聲音數(shù)據(jù)集。當(dāng)epoch=110時,兩種特征對含噪數(shù)據(jù)集的識別效果如表5所示。 表5 不同信噪比的識別準(zhǔn)確率 由表5可知,雖然在加入噪聲之后Ms-MFCC特征的狀態(tài)識別準(zhǔn)確率有明顯的下降,但其準(zhǔn)確率依然可保持90%以上,識別效果遠(yuǎn)好于傳統(tǒng)MFCC,尤其在低信噪比時效果更為顯著。 在采用S700K型轉(zhuǎn)轍機上模擬故障得到的聲音信號通過所提出的Ms-MFCC特征狀態(tài)識別方法實驗后,得出以下結(jié)論。 (1)提取聲音信號的MFCC特征并構(gòu)建卷積神經(jīng)識別網(wǎng)絡(luò)可對S700K型轉(zhuǎn)轍機進行狀態(tài)識別,經(jīng)過五折交叉驗證的識別準(zhǔn)確率能夠達到90.6%,滿足轉(zhuǎn)轍機狀態(tài)識別對準(zhǔn)確率的需求。 (2)改進后的Ms-MFCC特征對轉(zhuǎn)轍機聲音信號的聲學(xué)特性有更好的表征。經(jīng)實驗證明,使用Ms-MFCC特征向量將識別模型的準(zhǔn)確率提高至98.1%。 (3)Ms-MFCC特征相較傳統(tǒng)MFCC特征可使模型更快達到較高的識別準(zhǔn)確率。在同樣達到90.6%的準(zhǔn)確率的情況下,Ms-MFCC特征可使模型減少80次迭代訓(xùn)練。 (4)當(dāng)聲音信號含有復(fù)雜環(huán)境噪聲時,所提出的Ms-MFCC特征具有更強的魯棒性。經(jīng)實驗證明,在低信噪比時,Ms-MFCC識別效果相比傳統(tǒng)MFCC,其準(zhǔn)確率提升了35%。1.3 多尺度MFCC特征提取
2 數(shù)據(jù)采集與模型構(gòu)建
2.1 轉(zhuǎn)轍機聲音信號采集
2.2 基于CNN的轉(zhuǎn)轍機狀態(tài)識別網(wǎng)絡(luò)
3 實驗結(jié)果與分析
3.1 實驗設(shè)置
3.2 實驗結(jié)果
3.3 不同信噪比的精度驗證
4 結(jié)論