崔佳嘉,馬宏忠
(河海大學(xué) 能源與電氣學(xué)院,江蘇 南京 211100)
電力變壓器在運(yùn)輸、使用過(guò)程中出現(xiàn)的碰撞、擠壓和外部短路故障等將導(dǎo)致鐵心松動(dòng)變形,繼而造成嚴(yán)重的事故。因此對(duì)變壓器鐵心狀態(tài)進(jìn)行監(jiān)測(cè),對(duì)電網(wǎng)的安全運(yùn)行具有重要意義。
目前監(jiān)測(cè)變壓器鐵心松動(dòng)的方法主要是振動(dòng)信號(hào)監(jiān)測(cè)法[1-2]。根據(jù)已有的研究證明,存在缺陷的變壓器運(yùn)行時(shí),振動(dòng)信號(hào)含有更多的高頻分量[4],高頻分量的峰度值能夠反映變壓器鐵心的壓緊程度[5]?;谡駝?dòng)信號(hào)的故障診斷方法已經(jīng)取得了較為成熟的研究成果,但是振動(dòng)傳感器的安裝通常是附著于變壓器的器身,振動(dòng)信號(hào)的識(shí)別方法更依賴(lài)于傳感器的安裝位置及靈敏度??紤]到配電變壓器具有分布廣、數(shù)量多的特點(diǎn),普遍采用巡檢的方式進(jìn)行故障診斷,在巡檢過(guò)程中難以獲取振動(dòng)信號(hào),因此基于振動(dòng)信號(hào)的故障診斷方法不適用于配電變壓器。
雖然使用振動(dòng)信號(hào)對(duì)變壓器進(jìn)行故障診斷存在上述缺點(diǎn),但是變壓器的聲紋信號(hào)和振動(dòng)信號(hào)具有相關(guān)性,因此可以利用聲信號(hào)代替振動(dòng)信號(hào)對(duì)其進(jìn)行監(jiān)測(cè)和診斷[6]。聲紋信號(hào)的采集具有傳感器非接觸,測(cè)量便捷的優(yōu)點(diǎn),更適合于人工巡檢。劉云鵬等[1]提出了基于Mel時(shí)頻譜—卷積神經(jīng)網(wǎng)絡(luò)的變壓器鐵心松動(dòng)聲紋識(shí)別方法,能夠較好地識(shí)別故障;耿琪深等人[6]提出一種基于Gammatone濾波器倒譜系數(shù)和鯨魚(yú)算法優(yōu)化隨機(jī)森林的變壓器故障診斷方法,能有效地識(shí)別鐵心及繞組的松動(dòng)故障;華北電力大學(xué)張重遠(yuǎn)等[7]采用盲源分離的方法針對(duì)局部放電故障進(jìn)行了研究,使用2D-CNN對(duì)數(shù)據(jù)進(jìn)行了深度學(xué)習(xí),但未證明是否可用于鐵心松動(dòng)的故障診斷。上海交通大學(xué)王豐華團(tuán)隊(duì)[8]采用加權(quán)降維的MFCC與傳統(tǒng)的機(jī)器學(xué)習(xí)VQ相結(jié)合,對(duì)鐵心壓緊程度進(jìn)行了診斷;已有研究存在的不足是:特征提取采用提取梅爾頻率倒譜系數(shù)(MFCC)或者線(xiàn)性倒譜系數(shù)(LPCC),特征向量有過(guò)高的維數(shù),導(dǎo)致計(jì)算機(jī)運(yùn)行的速度大大下降;目前對(duì)語(yǔ)音信號(hào)進(jìn)行識(shí)別使用的識(shí)別模型是卷積神經(jīng)網(wǎng)絡(luò),主要采用的是一維或二維卷積神經(jīng)網(wǎng)絡(luò)(2D-CNN),2D-CNN雖然可以同時(shí)提取時(shí)域和頻域的信息,但是識(shí)別準(zhǔn)確率仍有上升的空間。三維卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN)目前已被有效地應(yīng)用于動(dòng)作的識(shí)別,不同于2D-CNN,其還能提取出反映時(shí)間變化上的信息。
針對(duì)上述問(wèn)題,本文采用經(jīng)LLE降維的MFCC作為聲紋信號(hào)的特征量,降維后的數(shù)據(jù)維度大大縮減,以降低計(jì)算的復(fù)雜度,提高計(jì)算速度;并首次使用3D-CNN識(shí)別模型對(duì)變壓器鐵心不同松動(dòng)程度進(jìn)行診斷,進(jìn)一步提高故障識(shí)別的準(zhǔn)確率。
1.1.1 噪聲信號(hào)預(yù)處理
噪聲信號(hào)x(t)的預(yù)處理包括分幀、加窗和離散傅里葉變換。截取一段變壓器在某工況下的噪聲信號(hào),首先對(duì)截取的片段作分幀處理,幀長(zhǎng)選擇太長(zhǎng)會(huì)影響特征量的準(zhǔn)確性,幀長(zhǎng)選擇太短會(huì)提取不到有用的特征量。取每幀N=2 500為50 ms(采樣頻率為50 kHz),為了使幀與幀之間能平滑過(guò)渡,取重疊率為50%。其次,若是直接對(duì)分幀后的數(shù)據(jù)進(jìn)行離散傅里葉變換,會(huì)出現(xiàn)頻譜泄露的情況,因此需要對(duì)每一幀先作加窗處理,選擇加漢明窗ω(n),使信號(hào)兩端變得平滑減少信號(hào)的失真,即
(1)
最后,根據(jù)下式再對(duì)分幀加窗后的每一幀數(shù)據(jù)作離散傅里葉變換得到能反應(yīng)時(shí)頻關(guān)系的復(fù)向量Y(k),為
(2)
1.1.2 MFCC特征向量提取
在語(yǔ)音識(shí)別技術(shù)中,梅爾倒譜系數(shù)(MFCC)是最常見(jiàn)的一種語(yǔ)音信號(hào)特征提取方法[8]。它是基于Mel頻率域的倒譜系數(shù),是根據(jù)人耳聽(tīng)覺(jué)感知特征變換的頻率域,將線(xiàn)性頻譜映射到Mel頻率域中,再轉(zhuǎn)換到倒譜上。求取MFCC特征向量的步驟包括對(duì)預(yù)處理后的各幀信號(hào)Mel濾波、對(duì)數(shù)變換及逆變換(離散余弦變換)。
Mel頻率和實(shí)際頻率的轉(zhuǎn)換公式為
(3)
式中:p為實(shí)際頻率,Hz;fmel(p)為Mel頻率。
Mel濾波器是一個(gè)由m個(gè)三角形濾波器組成的濾波器組。其中心頻率為f(m),在Mel頻率刻度上,濾波器之間的距離是等寬的。該濾波器組的傳遞函數(shù)為
(4)
其中,f(m)定義為
(5)
式中:fh與fl為濾波器濾波頻率的上限與下限;fs為變壓器聲紋采樣的采樣頻率(fs=50 kHz);N為進(jìn)行短時(shí)傅里葉變化時(shí)的幀長(zhǎng)。
信號(hào)經(jīng)過(guò)濾波器后可得到m個(gè)參數(shù)Mi(i=1,2,…,m)并取對(duì)數(shù),計(jì)算公式為
(6)
將計(jì)算得到的Mi進(jìn)行離散余弦變換,即可得到分幀信號(hào)的MFCC特征信號(hào),其計(jì)算公式為
(7)
梅爾倒譜系數(shù)(MFCC),它的物理含義是語(yǔ)言信號(hào)的能量在不同頻率范圍的分布。特征量具體提取步驟是:
1)對(duì)聲紋信號(hào)分幀加窗。本文是將一段2 s的信號(hào)首先截取成4段,分別對(duì)每段(0.5 s)進(jìn)行分幀加窗。取每幀N=2 500為50 ms(采樣頻率為50 kHz),重疊率為50%,并使用漢明窗處理使信號(hào)兩端變得平滑減少信號(hào)的失真,此時(shí)每段(0.5 s)可以得到加窗后的二維數(shù)組[19×2 500];
2)傅里葉變換。對(duì)步驟1)的每一幀作N=4 096的傅里葉變換,得到頻率特征的二維矩陣[19×2 049],并計(jì)算每一幀的能量得到能量譜E[19×2 049],將每幀的能量相加得到該幀的能量和有F[19×1];
3)計(jì)算能量特征參數(shù)的和能量總值。將步驟2)得到的能量譜E通過(guò)梅爾濾波器組,計(jì)算能量特征參數(shù)的和能量總值二維矩陣[19×26];
4)計(jì)算MFCC特征向量的基礎(chǔ)參數(shù)(第一組參數(shù))。對(duì)每一行作離散傅里葉變化,由于變壓器本體噪聲的頻率集中在低頻區(qū),因此只取每幀的前13個(gè)數(shù)據(jù),即二維數(shù)組[19×13],對(duì)該數(shù)組作升倒譜操作,得到MFCC參數(shù)的基礎(chǔ)參數(shù)也是第一組參數(shù)記作feat[19×13];
5)計(jì)算MFCC特征向量的第二、三組參數(shù)。第二組參數(shù)是在已有的基礎(chǔ)參數(shù)(feat[19×13])下作一階微分操作得二維數(shù)組feat′[19×13],第三組參數(shù)在第二組參數(shù)下作一階微分操作得二維數(shù)組feat″[19×13],即對(duì)基礎(chǔ)參數(shù)導(dǎo)數(shù)的導(dǎo)數(shù);
6)MFCC特征向量。將feat、feat′及feat″三個(gè)二維數(shù)組拼湊得到MFCC最終的特征向量數(shù)組[19×39]。
使用上述方法提取的MFCC特征向量在高維度的情況下,能有效地提取到噪聲信號(hào)中的信息,但是過(guò)高維度的數(shù)據(jù)會(huì)耗費(fèi)大量的時(shí)間,并且增加計(jì)算的復(fù)雜性,因此考慮使用局部線(xiàn)性嵌入(locally linear embedding,LLE)算法對(duì)提取到的高維度的MFCC特征向量進(jìn)行降維,且保證能保留變壓器噪聲信號(hào)的有效信息。
LLE算法的主要思想是高維的數(shù)據(jù)樣本點(diǎn)可以利用局部領(lǐng)域的點(diǎn)進(jìn)行線(xiàn)性表示,并保持局部領(lǐng)域權(quán)值不變,且在低維空間中利用修改權(quán)值重新構(gòu)造原來(lái)的數(shù)據(jù)點(diǎn),并使得重構(gòu)誤差達(dá)到最小[9]。對(duì)于數(shù)據(jù)X={x1,x2,…,xN}∈RD×N是高維歐式空間RD的數(shù)據(jù)集,通過(guò)LLE降維算法可將高維數(shù)據(jù)(D維)X降維到低維數(shù)據(jù)(d維)Y={y1,y2,…,yN}∈Rd×N,d 1)尋找數(shù)據(jù)樣本點(diǎn)xi(i=1,2,…,N)的k(k (8) 2)計(jì)算重構(gòu)權(quán)值矩陣。構(gòu)造誤差函數(shù)ε(W),并使得誤差最小,定義為 (9) 式中:xij表示為xi的第j個(gè)近鄰點(diǎn)(j=1,2,…,k),wij為xi和xij之間的權(quán)值,同時(shí)滿(mǎn)足 (10) 綜合式(9)和式(10),即有最小誤差函數(shù) (11) 3)將樣本點(diǎn)從高維空間映射到低維空間。在低維空間中應(yīng)滿(mǎn)足: (12) 式中:yi為xi映射在低維空間的輸出向量;yij表示為yi的第j個(gè)近鄰點(diǎn)(j=1,2,…,k),同時(shí)滿(mǎn)足 (13) (14) 則映射在低維空間的輸出向量Y=(y1,y2,…,yN),可以用下式求解: Y(I-W)(I-W)TYT=YMYT。 (15) 式中:Ii為N×N單位矩陣的第i列;Wi為矩陣W的第i列。 4)求解輸出向量Y。由推導(dǎo)公式可知,Y應(yīng)由矩陣M的從小到大排列的d個(gè)非零特征值的特征向量構(gòu)成的矩陣??紤]到最小的非零特征值無(wú)限趨近于0,因此選擇第2至第d+1個(gè)特征值對(duì)應(yīng)的特征向量作為L(zhǎng)LE降維算法的輸出向量Y。 卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),具有局部連接特性和權(quán)值共享特性,能夠自動(dòng)對(duì)原始數(shù)據(jù)進(jìn)行局部空間特征提取,因此被廣泛應(yīng)用于圖像識(shí)別等領(lǐng)域[10]。研究表明,卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到人工難以提取的深層次的特征,使用CNN有助于提高模型的判別能力和泛化能力。它通常是由多個(gè)卷積層、池化層和全連接層組成,每一層網(wǎng)絡(luò)輸入輸出的數(shù)據(jù)均是二維數(shù)據(jù),由多個(gè)獨(dú)立神經(jīng)元組成,有較高的識(shí)別精確度。 對(duì)于傳統(tǒng)的2D-CNN,只能提取二維圖像的特征信息,而3D-CNN適用于更高維度的圖像數(shù)據(jù),在處理過(guò)程中增加了時(shí)間維度的信息(連續(xù)幀),可以同時(shí)提取出時(shí)間與空間的信息。相比于二維卷積,三維卷積更能捕捉到時(shí)序上的特征。3D-CNN的卷積公式為 (16) 將采集的2 s原始數(shù)據(jù)分為4幀數(shù)據(jù),用上述方法生成4組MFCC特征向量,此時(shí)數(shù)據(jù)大小為[4×19×39×1],再將每一組數(shù)據(jù)經(jīng)過(guò)LLE算法降維,則數(shù)據(jù)大小縮小為[4×19×39×1],其中4表示數(shù)據(jù)深度;19表示時(shí)間分量;18表示特征維度,1表示輸入網(wǎng)絡(luò)的通道。則三維卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)集制作如圖1所示。 本文根據(jù)CNN網(wǎng)絡(luò)輸入數(shù)據(jù)的大小和特點(diǎn),設(shè)計(jì)了用于識(shí)別變壓器鐵心松動(dòng)故障的聲紋特征的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)能避免訓(xùn)練過(guò)程中出現(xiàn)的過(guò)擬合和梯度爆炸現(xiàn)象,且能有較高的識(shí)別率。 在搭建CNN結(jié)構(gòu)時(shí),采用激活函數(shù)ReLU,它能極大地提高網(wǎng)絡(luò)的訓(xùn)練速度;為了防止發(fā)生過(guò)擬合,使之在訓(xùn)練集上訓(xùn)練良好卻在測(cè)試集上準(zhǔn)確率低的現(xiàn)象,因此選擇在全連接層進(jìn)行了dropout操作,它是通過(guò)概率隨機(jī)丟棄部分神經(jīng)元,使得訓(xùn)練樣本在保持輸入和輸出神經(jīng)元數(shù)量不發(fā)生變化的情況下進(jìn)行參數(shù)的迭代;另外,為了防止發(fā)生梯度消失,又能夠加快學(xué)習(xí)收斂的速度,采用批規(guī)范操作,提高網(wǎng)絡(luò)的性能。 圖1 數(shù)據(jù)集制作過(guò)程Fig.1 Dataset production process 本文使用的3D-CNN是由兩層卷積層、兩層池化層及兩層全連接層組成,均采用“SAME”補(bǔ)零方式。其中,卷積層后接有激活層,激活層選擇的是線(xiàn)性整流函數(shù)(ReLu),dropout是一種非常有效的提高泛化能力,降低過(guò)擬合的方法,因此選擇在每一個(gè)全連接層后設(shè)置dropout層,速率均設(shè)置為0.5。由于本文作四分類(lèi)問(wèn)題,將最后一層設(shè)置為4節(jié)點(diǎn),用softmax函數(shù)激活作分類(lèi)。網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu)如表1所示(batch size表示批尺寸:一次輸入網(wǎng)絡(luò)訓(xùn)練的樣本數(shù)量)。 表1 3D-CNN網(wǎng)絡(luò)結(jié)構(gòu)Table 1 3D-CNN network structure 給每一段音頻生成經(jīng)過(guò)LLE降維后的MFCC特征向量標(biāo)記,送入3D-CNN模型中分別訓(xùn)練,用損失值loss和準(zhǔn)確率acc來(lái)評(píng)判模型的優(yōu)劣,損失值loss用來(lái)描述預(yù)測(cè)值與實(shí)際值之間的差距,acc表示正確分類(lèi)的數(shù)量占總預(yù)測(cè)樣本的比例。loss值越小,acc值越大,則判定該模型越適合變壓器鐵心松動(dòng)故障的識(shí)別。其中,損失函數(shù)選擇的是傳統(tǒng)的交叉熵?fù)p失函數(shù)(softmax loss)。softmax loss是由softmax和cross-entropy loss 組合而成的損失函數(shù),其損失函數(shù)的表達(dá)式為 (17) 鐵心的噪聲能代表變壓器運(yùn)行時(shí)的狀態(tài)信息,在不同的運(yùn)行工況下或者發(fā)生故障情況下,它的噪聲信號(hào)在時(shí)域、頻域會(huì)出現(xiàn)不同程度的變化,但是這種狀態(tài)信息的變化非常復(fù)雜,難以直接通過(guò)某一個(gè)數(shù)值的變化辨別,因此構(gòu)造由LLE改進(jìn)的MFCC-CNN的變壓器聲紋識(shí)別模型,用于變壓器鐵心松動(dòng)故障的診斷。 通過(guò)第1節(jié)的噪聲MFCC特征的提取并通過(guò)LLE的降維,將預(yù)處理后的特征向量作為CNN網(wǎng)絡(luò)的輸入量進(jìn)行深度學(xué)習(xí),形成基于LLE降維的MFCC-CNN識(shí)別模型,從而實(shí)現(xiàn)變壓器的鐵心在不同程度松動(dòng)下的聲紋特征的提取與故障的識(shí)別?;贚LE降維的MFCC-CNN識(shí)別模型實(shí)現(xiàn)的具體步驟為: 1)搭建變壓器鐵心松動(dòng)故障試驗(yàn)?zāi)M平臺(tái),采集鐵心在松動(dòng)不同程度下的變壓器噪聲信號(hào); 2)給采集的噪聲數(shù)據(jù)規(guī)范為統(tǒng)一的數(shù)據(jù)長(zhǎng)度并添加數(shù)據(jù)標(biāo)簽; 3)提取每一段信號(hào)的MFCC特征并使用LLE算法對(duì)其降維并制作成輸入網(wǎng)絡(luò)的數(shù)據(jù)集; 4)搭建3D-CNN網(wǎng)絡(luò)結(jié)構(gòu),將步驟3)制作的數(shù)據(jù)集輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并調(diào)整網(wǎng)絡(luò)參數(shù)至最佳; 5)使用測(cè)試集測(cè)試訓(xùn)練好的模型。 為了驗(yàn)證基于LLE降維的MFCC-CNN識(shí)別模型的變壓器鐵心松動(dòng)故障的識(shí)別效果,搭建了變壓器鐵心松動(dòng)故障試驗(yàn)平臺(tái),采集鐵心在不同松動(dòng)程度下的噪聲信號(hào)。 試驗(yàn)對(duì)象為一臺(tái)S13-M-200/10變壓器,根據(jù)國(guó)標(biāo)GB/T 1094.10—2003對(duì)該變壓器噪聲測(cè)量的標(biāo)準(zhǔn)和要求,采用電容式麥克風(fēng)作為聲傳感器對(duì)變壓器鐵心不同松動(dòng)情況下的噪聲進(jìn)行測(cè)量,采樣頻率為50 kHz,頻率響應(yīng)為20 Hz~20 kHz。試驗(yàn)在變壓器廠(chǎng)廠(chǎng)房中進(jìn)行,廠(chǎng)房空間較為空曠,幾乎不存在聲波反射的情況。試驗(yàn)環(huán)境如圖2所示。 圖2 試驗(yàn)環(huán)境Fig.2 Test environment 在設(shè)置鐵心不同松緊程度時(shí),將變壓器油抽出后吊心,鐵心的壓緊程度是通過(guò)改變螺栓的預(yù)緊力來(lái)確定的,首先使用扭力扳手確定鐵心的額定預(yù)緊力,再通過(guò)調(diào)整不同的預(yù)緊力達(dá)到模擬鐵心不同松緊程度的目的,模擬過(guò)程如圖3所示。在低壓側(cè)加400 V電壓,對(duì)變壓器做空載運(yùn)行如圖4所示,分別采集變壓器鐵心未松動(dòng)、松動(dòng)40%、松動(dòng)80%、松動(dòng)100%時(shí)若干個(gè)聲紋信號(hào)。 圖3 模擬鐵心松動(dòng)故障Fig.3 Simulated core looseness fault 圖4 空載運(yùn)行控制圖Fig.4 No load operation control diagram 分別采集鐵心在未松動(dòng)情況下的樣本82個(gè),松動(dòng)40%時(shí)的樣本129個(gè),松動(dòng)80%時(shí)的樣本129個(gè),松動(dòng)100%時(shí)的樣本140個(gè)(每個(gè)樣本的截取時(shí)間為2 s)。將變壓器鐵心在同一種松動(dòng)程度下的數(shù)據(jù)歸為一類(lèi),并統(tǒng)一添加標(biāo)簽,使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行無(wú)參特征量的訓(xùn)練學(xué)習(xí)。為了驗(yàn)證模型的泛化能力,隨機(jī)在樣本中抽取80%作為訓(xùn)練集,剩余20%則作為測(cè)試集。同時(shí),在每一次訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí),都將樣本數(shù)據(jù)重新打亂排序,以保證模型的有效性。 限于篇幅,本文以圖2中②號(hào)傳感器采集的聲紋信號(hào)測(cè)試結(jié)果為例進(jìn)行計(jì)算分析。圖為試驗(yàn)變壓器在鐵心未松動(dòng)、松動(dòng)40%、松動(dòng)80%及松動(dòng)100%時(shí)的聲紋信號(hào)的頻率分布圖。由圖可見(jiàn),在鐵心處于不同松動(dòng)程度時(shí),變壓器的聲紋信號(hào)的頻譜特征各不相同。 從圖5可以看出,鐵心在未松動(dòng)時(shí)(正常狀態(tài)下),聲紋信號(hào)的頻率主要集中在100、200、300 Hz等偶次諧波,并伴隨少量奇次諧波的存在;在鐵心發(fā)生松動(dòng)時(shí),聲音信號(hào)的能量在不同頻率范圍的分布發(fā)生了改變,具體表現(xiàn)為:各頻率分量的幅值均發(fā)生改變,且明顯出現(xiàn)了500、600、800、1 000 Hz等分量。對(duì)不同松動(dòng)程度的聲紋信號(hào)作3層小波包分解,分解出0~2 500 Hz的8個(gè)頻率帶,其各個(gè)頻段能量所占的比例分布圖如圖6所示。從圖6中可以明顯看出,隨著松動(dòng)程度的不同,各個(gè)頻率帶的能量比例會(huì)發(fā)生不同程度的變化,這為聲紋識(shí)別提供了可能。 且變壓器聲紋能量集中在低頻部分,從梅爾頻率的定義可以看出,梅爾濾波器加強(qiáng)了低頻部分,削弱了高頻部分,所以將變壓器聲紋信號(hào)映射到梅爾頻率域上,可以突出變壓器聲紋信號(hào)中富含信息的低頻部分,有助于對(duì)聲紋信號(hào)中有用信息的提取。 圖5 鐵心不同松動(dòng)程度的聲紋頻率分布Fig.5 Distribution of voiceprint frequency of iron core with different looseness 將變壓器噪聲信號(hào)通過(guò)3.1采集并制作成數(shù)據(jù)集后,分別提取信號(hào)的MFCC特征量,再對(duì)特征向量LLE降維。采集變壓器各種狀態(tài)下的穩(wěn)定聲紋信號(hào)2 s并截取成4段(每段0.5 s),對(duì)每段作相同處理:取每幀長(zhǎng)為50 ms,重疊率為50%。由此提取到的MFCC特征向量的每一幀的時(shí)間幀數(shù)為19,每一幀頻率的維數(shù)為39,此時(shí)數(shù)據(jù)的大小為[4×19×39×1] ,4代表的是將1個(gè)樣本數(shù)據(jù)分成4段,[19×39]代表每一幀數(shù)據(jù)的大小,1代表通道數(shù)。 將上述的特征向量使用LLE降維,降維后的每一個(gè)樣本的數(shù)據(jù)大小為[4×19×18×1],選擇降維后的維度是18的原因是,當(dāng)維度低于18時(shí),降維后的數(shù)據(jù)將提取不到有效的特征量,導(dǎo)致后續(xù)的3D-CNN計(jì)算不收斂,泛化性極低,因此選擇將數(shù)據(jù)降到18維。取某一幀數(shù)據(jù)提取MFCC后降維前后的計(jì)算結(jié)果如圖7所示,數(shù)據(jù)尺寸被大大縮小。 圖6 不同松動(dòng)程度聲紋的各個(gè)頻段能量所占比例分布圖Fig.6 Distribution of energy proportion of each frequency band of voiceprint with different looseness 在模型訓(xùn)練過(guò)程中,卷積神經(jīng)網(wǎng)絡(luò)超參數(shù)的選擇會(huì)直接影響網(wǎng)絡(luò)的訓(xùn)練結(jié)果。本文選擇調(diào)整的超參數(shù)為批尺寸(batch size)和學(xué)習(xí)率(learning rate)。 4.2.1 批尺寸優(yōu)化 不同的batch size直接影響的是完成一次完整樣本的訓(xùn)練所需要的次數(shù),batch size值越大,處理一次完整樣本的速度就越快,則當(dāng)需要達(dá)到相同精度時(shí)其需要迭代的次數(shù)也越多。在這個(gè)過(guò)程中,會(huì)存在一個(gè)最優(yōu)的數(shù)值,此時(shí)模型的訓(xùn)練結(jié)果最佳。本文選取batch size分別等于10、20、30、60,訓(xùn)練結(jié)果如圖8、圖9所示。 圖7 特征量將為前后對(duì)比Fig.7 Comparison before and after dimensionality reduction of feature quantity 圖8 不同批尺寸下的準(zhǔn)確率曲線(xiàn)Fig.8 Accuracy curve under different batch sizes 從圖8可以明顯看出,當(dāng)batch size=10、20、30時(shí),訓(xùn)練過(guò)程中準(zhǔn)確率波動(dòng)很大,且在圖7的loss曲線(xiàn)中,沒(méi)有呈現(xiàn)穩(wěn)定下降趨勢(shì),因此當(dāng)批尺寸選擇10、20或30時(shí),可能會(huì)導(dǎo)致模型最終不能收斂。而當(dāng)batch size=60時(shí),在訓(xùn)練過(guò)程中,當(dāng)?shù)螖?shù)達(dá)到43以后,準(zhǔn)確率已穩(wěn)定在1,且loss值在迭代過(guò)程中總體呈現(xiàn)出穩(wěn)定下降的趨勢(shì)。不同批尺寸最終訓(xùn)練模型在測(cè)試集上的表現(xiàn)效果如表2所示,當(dāng)batch size=60時(shí),準(zhǔn)確率最高達(dá)到96.88%;對(duì)于每個(gè)模型都選擇迭代100次,從表2中平均每次迭代所需時(shí)間可以看出,批尺寸的選擇對(duì)計(jì)算時(shí)間影響不大。因此根據(jù)準(zhǔn)確率與損失函數(shù)曲線(xiàn)選擇batch size=60。 圖9 不同批尺寸下的損失函數(shù)曲線(xiàn)Fig.9 Loss function curve under different batch sizes 表2 不同批尺寸的訓(xùn)練結(jié)果Table 2 Training results of different batch sizes 4.2.2 學(xué)習(xí)率優(yōu)化 學(xué)習(xí)率(Learning rate)作為監(jiān)督學(xué)習(xí)以及深度學(xué)習(xí)中重要的超參數(shù),其決定著目標(biāo)函數(shù)能否收斂到局部最小值以及何時(shí)收斂到最小值。合適的學(xué)習(xí)率能夠使目標(biāo)函數(shù)在合適的時(shí)間內(nèi)收斂到局部最小值。本文選取Learning rate分別等于1,0.1,0.01,0.001,訓(xùn)練結(jié)果如圖10、圖11所示。 如圖10所示,當(dāng)learning rate=1時(shí),訓(xùn)練過(guò)程中準(zhǔn)確率在0.2以下浮動(dòng),且呈現(xiàn)不收斂趨勢(shì);learning rate=0.1時(shí),隨著迭代次數(shù)的增加,準(zhǔn)確率和損失值還存在大幅度的波動(dòng),使得模型訓(xùn)練不穩(wěn)定;而對(duì)于learning rate=0.01和0.001,當(dāng)learning rate=0.001時(shí),迭代次數(shù)在25次以后,訓(xùn)練集的準(zhǔn)確率維持在1,而learning rate=0.01雖然在迭代次數(shù)36以后準(zhǔn)確率維持在1,但是在圖9損失函數(shù)曲線(xiàn)中,可以觀察到learning rate=0.01的曲線(xiàn)在learning rate=0.001的下方,且在測(cè)試集中,模型采用學(xué)習(xí)率為0.01的準(zhǔn)確率為98.33%,而模型采用學(xué)習(xí)率為0.001的準(zhǔn)確率為95.00%,且在表3中平均每次迭代的時(shí)間也達(dá)到近11 s.因此為該卷積神經(jīng)網(wǎng)絡(luò)選擇的學(xué)習(xí)率為0.01。 圖10 不同學(xué)習(xí)率下的準(zhǔn)確率曲線(xiàn)Fig.10 Accuracy curve under different learning rates 圖11 不同學(xué)習(xí)率下的損失函數(shù)曲線(xiàn)Fig.11 Loss function curve under different learning rates 表3 不同學(xué)習(xí)率的訓(xùn)練結(jié)果Table 3 Training results of different learning rates 將上述調(diào)參后的3D-CNN使用MFCC直接進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)計(jì)算和基于LLE降維的MFCC進(jìn)行訓(xùn)練的結(jié)果如表4所示。直接使用MFCC提取的特征量維數(shù)是39,而經(jīng)過(guò)LLE降維的MFCC的特征量維數(shù)是18,因此在網(wǎng)絡(luò)訓(xùn)練過(guò)程中計(jì)算量將大量下降,就會(huì)縮短每次迭代所需要的平均時(shí)間。從表4中可以看出采用改進(jìn)后的基于LLE降維的MFCC的特征量并使用調(diào)參后的3D-CNN訓(xùn)練的準(zhǔn)確率可以從90%提高到98.33%,且平均每次迭代的時(shí)間大大縮短。 表4 改進(jìn)算法前后對(duì)比Table 4 Comparison before and after the improved algorithm 使用2D-CNN作為識(shí)別模型進(jìn)行變壓器鐵心故障診斷時(shí),并不采用“連續(xù)幀”來(lái)制作數(shù)據(jù)集,而是將每個(gè)2 s的數(shù)據(jù)樣本直接提取MFCC特征向量,再使用LLE對(duì)其進(jìn)行降維。為了驗(yàn)證3D-CNN識(shí)別模型比2D-CNN識(shí)別模型的優(yōu)越性,采用與表1相同數(shù)量的卷積層和池化層。計(jì)算結(jié)果表明,采用2D-CNN模型同樣能收斂,但最終在測(cè)試集上的準(zhǔn)確率為93.33%,平均每次迭代時(shí)間為9.153 81 s,相較于表中顯示的基于LLE降維的MFCC提取的特征量并使用3D-CNN模型的識(shí)別效果準(zhǔn)確率達(dá)到98.33%,平均迭代時(shí)間只有8.511 26 s,那么隨著樣本數(shù)量的增加,2D-CNN訓(xùn)練所需要的時(shí)間要比3D-CNN大幅度增加,因此采用3D-CNN更有優(yōu)勢(shì)。 1)采用LLE算法降維后的MFCC作為變壓器聲紋信號(hào)的特征向量,能夠完整地保留其主要特征信息,并大幅降低模型的計(jì)算量,從而提高模型的識(shí)別速率,將平均每次迭代時(shí)間從14.337 0 s降至8.511 26 s; 2)使用經(jīng)LLE降維的MFCC作為特征量,消除MFCC的特征向量中不能反應(yīng)運(yùn)行狀況的冗余的特征向量,較直接使用MFCC作為特征量的準(zhǔn)確率從90.00%提高到98.33%。 3)構(gòu)建了相同網(wǎng)絡(luò)結(jié)構(gòu)的2D-CNN和3D-CNN,并使其訓(xùn)練同一批數(shù)據(jù)集,計(jì)算顯示在準(zhǔn)確率和識(shí)別速率上,3D-CNN更具優(yōu)勢(shì)。2 基于三維卷積神經(jīng)網(wǎng)絡(luò)的模式識(shí)別
2.1 數(shù)據(jù)集制作
2.2 網(wǎng)絡(luò)結(jié)構(gòu)及性能指標(biāo)
2.3 LLE改進(jìn)的MFCC-CNN的模式識(shí)別
3 試驗(yàn)描述
3.1 試驗(yàn)平臺(tái)搭建
3.2 聲紋數(shù)據(jù)分析
4 結(jié)果分析
4.1 基于LLE降維的MFCC特征提取
4.2 超參數(shù)優(yōu)化
4.3 3D-CNN識(shí)別結(jié)果
4.4 與2D-CNN比較
5 結(jié) 論