黎 煊 趙 建 高 云 雷明剛 劉望宏 龔永杰
(1.華中農(nóng)業(yè)大學(xué)工學(xué)院, 武漢 430070; 2.生豬健康養(yǎng)殖協(xié)同創(chuàng)新中心, 武漢 430070;3.華中農(nóng)業(yè)大學(xué)動(dòng)物科技學(xué)院動(dòng)物醫(yī)學(xué)院, 武漢 430070)
近年來,國家著力轉(zhuǎn)變生豬產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展方式,引導(dǎo)生豬產(chǎn)業(yè)向規(guī)?;?、集約化、標(biāo)準(zhǔn)化飼養(yǎng)方向發(fā)展。生豬產(chǎn)業(yè)規(guī)?;l(fā)展的同時(shí),呼吸道疾病已成為各大養(yǎng)豬場(chǎng)最常見、危害最嚴(yán)重的疾病之一。而咳嗽是豬呼吸道疾病的主要癥狀,尤其是早期癥狀,因此可以通過監(jiān)測(cè)咳嗽聲進(jìn)行豬早期呼吸道疾病預(yù)警[1-3]。目前所采用的方法一般為簡單易行的人工檢測(cè),但是人工檢測(cè)不僅人力成本高,并且識(shí)別率難以得到保證。隨著現(xiàn)代信息、數(shù)字信號(hào)處理、傳感器等技術(shù)的快速發(fā)展,將計(jì)算機(jī)技術(shù)與聲音特征分析相結(jié)合,利用語音識(shí)別技術(shù)分析豬咳嗽聲與豬非咳嗽聲,對(duì)豬咳嗽聲進(jìn)行識(shí)別,有利于生豬呼吸道疾病的預(yù)警,促進(jìn)生豬健康養(yǎng)殖的發(fā)展[4]。
圖1 豬場(chǎng)環(huán)境噪聲分析Fig.1 Analysis of environmental noise in pig farms
國外開展豬聲音識(shí)別的研究相對(duì)較早。MITCHELL等[2]發(fā)現(xiàn)了健康豬和病豬咳嗽聲短時(shí)能量動(dòng)態(tài)變化的差異,測(cè)得健康豬咳嗽聲持續(xù)時(shí)間一般為0.21 s,而病豬咳嗽聲持續(xù)時(shí)間一般為0.3 s。SARA等[3]通過實(shí)驗(yàn)發(fā)現(xiàn),病豬咳嗽音頻的標(biāo)準(zhǔn)化壓力均方差及峰值頻率均值均低于健康豬,而病豬咳嗽聲持續(xù)時(shí)間和頻率均高于健康豬。EXADAKTYLOS等[5]采用改進(jìn)的模糊c均值聚類算法識(shí)別豬咳嗽,總識(shí)別率達(dá)到85%,其中病豬咳嗽聲識(shí)別率達(dá)到82%。GUARINO等[6]采用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic time warping,DTW)算法識(shí)別豬咳嗽,識(shí)別率達(dá)到85.5%,非咳嗽聲識(shí)別率達(dá)到86.6%。HIRTUM等[7]考慮低頻環(huán)境噪聲對(duì)咳嗽聲的影響,建立環(huán)境噪聲模型,在此基礎(chǔ)上構(gòu)建基于模糊c均值聚類算法的咳嗽聲識(shí)別模型,非實(shí)時(shí)單個(gè)咳嗽聲識(shí)別率能夠達(dá)到92%,但錯(cuò)誤率達(dá)到21%。
目前,國內(nèi)針對(duì)豬聲音識(shí)別的研究尚處于起步階段。馬輝棟等[8]設(shè)計(jì)了基于短時(shí)能量和短時(shí)過零率的豬咳嗽聲雙門限端點(diǎn)檢測(cè)算法。劉振宇等[9]采用隱馬爾科夫模型(Hidden markov model,HMM)對(duì)豬咳嗽聲進(jìn)行識(shí)別,識(shí)別率達(dá)到80%。徐亞妮等[10]利用模糊c均值聚類算法進(jìn)行豬咳嗽聲與尖叫聲識(shí)別,識(shí)別率分別達(dá)到83.4%和83.1%。
深度信念網(wǎng)絡(luò)(Deep belief nets, DBN)由HINTON等[11]于2006年提出,DBN通過對(duì)人腦組織結(jié)構(gòu)和功能的模擬,有著與人類類似的記憶能力、概括推理能力以及強(qiáng)大的分類、預(yù)測(cè)能力[12]。最近幾年來,深度學(xué)習(xí)在語音識(shí)別領(lǐng)域得到了很好的應(yīng)用,體現(xiàn)了其強(qiáng)大的聲學(xué)建模能力[13-15]。本文把深度信念網(wǎng)絡(luò)引入豬聲音識(shí)別領(lǐng)域,以長白豬咳嗽、打噴嚏、吃食、尖叫、哼哼、甩耳朵等聲音為研究對(duì)象,構(gòu)建豬咳嗽聲識(shí)別模型,為生豬健康養(yǎng)殖過程中豬咳嗽聲的識(shí)別提供一種新方法。
豬聲音采集在校屬精品豬場(chǎng)進(jìn)行。采集工具為美博-M66錄音筆,采樣頻率為48 000 Hz,采樣精度為16位,可連續(xù)錄音24 h。聲音采集在3—4月豬病多發(fā)期進(jìn)行,共采集10頭75 kg左右長白豬的聲音,經(jīng)獸醫(yī)診斷10頭豬中5頭豬感染呼吸道疾病,咳嗽明顯。采用專家分類法對(duì)錄音筆采集的豬聲音進(jìn)行分類標(biāo)記,選取咳嗽、打噴嚏、吃食、尖叫、哼哼和甩耳朵聲作為研究對(duì)象。得到豬聲音樣本1 400個(gè),其中咳嗽樣本594個(gè),打噴嚏樣本241個(gè),吃食樣本152個(gè),尖叫樣本130個(gè),哼哼樣本125個(gè),甩耳朵樣本158個(gè),保存為wav格式。
豬場(chǎng)環(huán)境下采集到的豬聲音樣本包含很多噪聲和無效聲音,為提高豬咳嗽聲與非咳嗽聲識(shí)別率,在特征參數(shù)提取之前需要進(jìn)行去噪和端點(diǎn)檢測(cè)。
1.2.1豬聲音樣本噪聲分析
從圖1b和圖1d可以看出,豬場(chǎng)環(huán)境噪聲頻段主要集中在5 kHz以下,并且與豬咳嗽聲頻段(0.3~8 kHz)[8]有重疊,傳統(tǒng)數(shù)字濾波器(低通、高通或帶通)難以對(duì)豬聲音樣本進(jìn)行有效去噪,本文采用基于多窗譜的心理聲學(xué)語音增強(qiáng)算法對(duì)豬聲音樣本實(shí)現(xiàn)去噪。
1.2.2基于多窗譜的心理聲學(xué)語音增強(qiáng)
多窗譜即對(duì)待估計(jì)豬聲音樣本序列加多個(gè)相互正交的窗,分別計(jì)算頻譜,然后求平均的非參數(shù)譜估計(jì)方法。人耳掩蔽閾值的心理聲學(xué)約束可以對(duì)帶噪豬聲音信號(hào)中噪聲失真進(jìn)行限制[16-17]。
通過原始豬聲音樣本的多窗譜估計(jì)原始豬聲音樣本中噪聲與含噪信號(hào)之比(即先驗(yàn)信噪比倒數(shù)),用基于噪聲與含噪信號(hào)之比的幅度譜減法得到預(yù)估計(jì)豬聲音信號(hào),通過預(yù)估計(jì)豬聲音信號(hào)計(jì)算隱蔽閾值,用心理聲學(xué)算法得到去噪后的豬聲音信號(hào)。
圖2所示為基于多窗譜的心理聲學(xué)語音增強(qiáng)算法處理前后豬聲音樣本波形圖,對(duì)比語音增強(qiáng)前后波形圖可知,語音增強(qiáng)后豬聲音樣本噪聲明顯減少,聲音信號(hào)波形幾乎沒有發(fā)生失真。
圖2 豬聲音樣本濾波前后對(duì)比Fig.2 Comparison of original pig sounds and sounds after denoising
1.2.3單參數(shù)雙門限端點(diǎn)檢測(cè)
語音信號(hào)端點(diǎn)檢測(cè)是指從包含語音的一段信號(hào)中找出語音的起止點(diǎn),把起止點(diǎn)之間的信號(hào)定義為有效信號(hào)。豬聲音樣本經(jīng)過語音增強(qiáng)后,噪聲顯著減少,本文選擇基于短時(shí)能量的方法進(jìn)行豬聲音樣本端點(diǎn)檢測(cè)[18]。對(duì)豬聲音樣本y(n),分幀后第v幀表示為yv(n),此幀豬聲音信號(hào)的短時(shí)能量Ev計(jì)算公式為
(1)
式中L——幀長,根據(jù)聲音信號(hào)的短時(shí)平穩(wěn)特性取為200個(gè)采樣點(diǎn)
n——豬聲音樣本采樣點(diǎn)序號(hào)
基于短時(shí)能量的單參數(shù)雙門限端點(diǎn)檢測(cè)中,單參數(shù)是幅值歸一化后的短時(shí)能量ev,計(jì)算公式為
(2)
式中V——豬聲音樣本總幀數(shù)
設(shè)定2個(gè)閾值T1和T2,其公式為
T1=1.5max(e1,e2,…,eFINS)
(3)
T2=1.1max(e1,e2,…,eFINS)
(4)
式中FINS——豬聲音樣本前導(dǎo)無話段幀長
eFINS——第FINS幀幅值歸一化后的能量
由式(3)和式(4)計(jì)算得到T1、T2分別約為0.02、0.008。當(dāng)ev高于T1時(shí)判定為語音幀,低于或高于T2時(shí)確定為豬聲音樣本起止點(diǎn)。圖3所示為單參數(shù)雙門限端點(diǎn)檢測(cè)對(duì)應(yīng)的豬聲音樣本檢測(cè)結(jié)果。從圖3可知,基于短時(shí)能量的端點(diǎn)檢測(cè)可以較好地檢測(cè)出有效信號(hào)。
由圖3可知,經(jīng)過端點(diǎn)檢測(cè)后的豬聲音信號(hào)長度不同,而一個(gè)結(jié)構(gòu)確定的神經(jīng)網(wǎng)絡(luò)輸入層神經(jīng)元個(gè)數(shù)也是確定的,因此需要運(yùn)用時(shí)間規(guī)整算法[19]將預(yù)處理后的豬聲音樣本規(guī)整為同一長度再進(jìn)行特征參數(shù)提取。
圖3 豬聲音樣本端點(diǎn)檢測(cè)結(jié)果Fig.3 End point detection of pig sound
圖4 時(shí)間規(guī)整網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Structure diagram of time warping net
時(shí)間規(guī)整網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,對(duì)于一個(gè)有V幀的豬聲音樣本,規(guī)整網(wǎng)絡(luò)輸入層有V個(gè)節(jié)點(diǎn),第v個(gè)節(jié)點(diǎn)對(duì)應(yīng)豬聲音樣本第v幀的特征矢量A0,v(v=1,2,…,V)。規(guī)整至第l層后將距離最近的2個(gè)特征矢量以加權(quán)平均合并,其余特征矢量不變,第l層就具有V-l個(gè)節(jié)點(diǎn)以及與之聯(lián)系的V-l個(gè)矢量Al,v(v=1,2,…,V-l)。以此類推,經(jīng)過V-N步合并,最終網(wǎng)絡(luò)輸出層具有N個(gè)節(jié)點(diǎn)以及與之聯(lián)系的N個(gè)特征矢量AV-N,v(v=1,2,…,N)。
由圖2可知,不同種類豬聲音的波形不同,為了反映這一區(qū)別,利用式(1)計(jì)算出豬聲音信號(hào)的短時(shí)能量,6種豬聲音信號(hào)的短時(shí)能量變化情況如圖5所示。不同種類豬聲音持續(xù)時(shí)間不同,同種豬聲音持續(xù)時(shí)間也不完全相等。本文研究的6種豬聲音中咳嗽、打噴嚏持續(xù)時(shí)間一般在0.4 s左右,而吃食、尖叫、哼哼和甩耳朵持續(xù)時(shí)間在0.6~1.4 s不等。為了進(jìn)行統(tǒng)一衡量,可采用時(shí)間規(guī)整算法將所有豬聲音樣本規(guī)整到300幀組成的一個(gè)300維的短時(shí)能量特征參數(shù)數(shù)組。
V幀豬聲音信號(hào)對(duì)應(yīng)采樣點(diǎn)數(shù)NV的計(jì)算公式為
NV=(V-1)Linc+L
(5)
式中Linc——幀移,取為幀長L的40%
NV采樣點(diǎn)對(duì)應(yīng)時(shí)長Δt的計(jì)算公式為
Δt=NV/Fs
(6)
式中Fs——采樣頻率
由式(5)可以計(jì)算出300幀對(duì)應(yīng)采樣點(diǎn)數(shù)NV為24 120,進(jìn)一步由式(6)得到對(duì)應(yīng)時(shí)間長度Δt為0.502 5 s。時(shí)間規(guī)整為300幀(即約0.5 s)后6種豬聲音樣本短時(shí)能量分布如圖5所示。
對(duì)比時(shí)間規(guī)整前后豬聲音短時(shí)能量變化圖可知,豬咳嗽聲和打噴嚏聲短時(shí)能量波形圖在0.4~0.5 s部分相對(duì)其他種類豬聲音能量低,造成特征數(shù)組后面部分值相對(duì)較小?;跁r(shí)間規(guī)整的短時(shí)能量特征參數(shù)可以同時(shí)反映不同種類豬聲音信號(hào)短時(shí)能量動(dòng)態(tài)變化的差異和不同種類豬聲音信號(hào)持續(xù)時(shí)間的差異性。
梅爾頻率倒譜系數(shù)(Mel frequency cepstral coefficients,MFCC)的分析是基于人耳的聽覺機(jī)理,依據(jù)人的聽覺實(shí)驗(yàn)結(jié)果來分析聲音的頻譜特性[20-21]。將聲音在頻域上劃分成若干頻率群,選擇梅爾頻率濾波器組為24組。圖6a所示為豬咳嗽聲樣本MFCC三維圖,對(duì)于一個(gè)300幀的豬咳嗽樣本,24維的MFCC數(shù)據(jù)量是比較大的,可以采用時(shí)間規(guī)整算法將300幀的MFCC規(guī)整到30幀組成720維的MFCC特征向量。圖6b所示為時(shí)間規(guī)整后豬咳嗽聲MFCC三維圖。
圖5 豬聲音樣本短時(shí)能量時(shí)間規(guī)整前后對(duì)比Fig.5 Comparison of short-time energy of pig sound and sound after time warping
圖6 豬咳嗽聲的MFCC圖Fig.6 MFCC of pig cough
由豬咳嗽樣本MFCC時(shí)間規(guī)整前后三維圖可知,圖6b相對(duì)圖6a幀數(shù)從300幀減少到30幀,數(shù)據(jù)量大大減少。同時(shí),圖6b也保留了圖6a在時(shí)序上的動(dòng)態(tài)變化特性。
深度信念網(wǎng)絡(luò)是由多層受限玻爾茲曼機(jī)(Restricted boltzmann machine, RBM)堆疊而成的網(wǎng)絡(luò)模型[11]。RBM是一個(gè)由兩層神經(jīng)元組成的層間全連接、層內(nèi)無連接的網(wǎng)絡(luò)結(jié)構(gòu),顯層為輸入層,隱層為特征提取層。其結(jié)構(gòu)如圖7所示。
圖7 受限玻爾茲曼機(jī)網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Structure of RBM
RBM中神經(jīng)元通常只取0或1兩種狀態(tài),狀態(tài)0表示神經(jīng)元處于抑制狀態(tài),狀態(tài)1表示神經(jīng)元處于激活狀態(tài)。令向量s∈(0,1)d表示d個(gè)神經(jīng)元的狀態(tài),wij表示神經(jīng)元i與j之間的連接權(quán)值,θi表示神經(jīng)元i的閾值,則狀態(tài)向量s所對(duì)應(yīng)的玻爾茲曼機(jī)能量計(jì)算公式為
(7)
若網(wǎng)絡(luò)中的神經(jīng)元以不依賴于輸入值的順序進(jìn)行更新,則網(wǎng)絡(luò)最終會(huì)達(dá)到玻爾茲曼分布。此時(shí)狀態(tài)向量s出現(xiàn)的概率僅由其能量與所有可能狀態(tài)向量的能量確定,狀態(tài)向量s出現(xiàn)的概率計(jì)算公式為
(8)
本文采用3層RBM堆疊形成的DBN作為豬咳嗽聲識(shí)別模型,網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。
圖8 深度信念網(wǎng)絡(luò)豬咳嗽聲識(shí)別模型Fig.8 Pig cough sound recognition model based on DBN
將經(jīng)過時(shí)間規(guī)整算法提取的300維短時(shí)能量和720維MFCC組合得到1 020維組合特征參數(shù)作為DBN的輸入,DBN輸入層神經(jīng)元個(gè)數(shù)選為1 020個(gè)。最后一層為輸出層,根據(jù)識(shí)別對(duì)象為豬咳嗽聲與豬非咳嗽聲,將輸出層神經(jīng)元個(gè)數(shù)選為2個(gè)。隱層神經(jīng)元個(gè)數(shù)選取不合理會(huì)導(dǎo)致DBN識(shí)別能力和網(wǎng)絡(luò)容錯(cuò)性降低,設(shè)每個(gè)隱層神經(jīng)元個(gè)數(shù)分別為l1、l2和l3,則DBN模型可表示為1020-l1-l2-l3-2。隱層神經(jīng)元個(gè)數(shù)經(jīng)驗(yàn)公式為
(9)
式中l(wèi)h——隱層神經(jīng)元個(gè)數(shù)
lh-——前一層神經(jīng)元個(gè)數(shù)
lh+——后一層神經(jīng)元個(gè)數(shù)
δ——平衡參數(shù),取0~10之間的常數(shù)
根據(jù)式(9)得到求解各隱層神經(jīng)元個(gè)數(shù)的方程組為
(10)
通過選取合適的δ值,解方程組(10)得l1=37,l2=12,l3=7。
為了得到最優(yōu)的各隱層神經(jīng)元個(gè)數(shù),按照梯度5依次將l1取值為32、37、42和47,將l2取值為7、12、17和22,將l3取值為2、7、12和17。經(jīng)過多次訓(xùn)練對(duì)比重構(gòu)誤差和訓(xùn)練收斂時(shí)長,最終將l1、l2和l3分別取值為42、17和7,故DBN網(wǎng)絡(luò)模型結(jié)構(gòu)設(shè)定為1020-42-17-7-2。
本模型采用的非監(jiān)督貪婪算法逐層預(yù)訓(xùn)練RBM和BP算法[22-23]以整體微調(diào)的方式來訓(xùn)練DBN。預(yù)訓(xùn)練的過程即逐層訓(xùn)練RBM的過程。將每一個(gè)豬聲音樣本特征參數(shù)作為一個(gè)狀態(tài)向量s,RBM訓(xùn)練的目的是通過式(7)最小化玻爾茲曼機(jī)的能量,同時(shí)通過式(8)最大化狀態(tài)向量s出現(xiàn)的概率,進(jìn)而得到對(duì)應(yīng)的RBM權(quán)值wij和閾值θi參數(shù)。這個(gè)過程用對(duì)比散度(Contrastive divergence,CD)算法來實(shí)現(xiàn)[24-25]。
對(duì)于一個(gè)含有l(wèi)d個(gè)顯層神經(jīng)元、lq個(gè)隱層神經(jīng)元的RBM,令v和h分別表示顯層與隱層神經(jīng)元的狀態(tài)向量,由RBM的特殊網(wǎng)絡(luò)結(jié)構(gòu)可得,由隱層計(jì)算顯層和顯層計(jì)算隱層的條件概率分別為
(11)
(12)
由CD算法原理,對(duì)于每一個(gè)豬聲音樣本v,首先根據(jù)式(12)計(jì)算出隱層神經(jīng)元的狀態(tài)分布,然后由此概率分布通過吉布斯采樣得到h;接著根據(jù)式(11)和式(12)得到RBM權(quán)值更新公式為
wt+1=wt+η(vhT-v′h′T)
(13)
式中η——學(xué)習(xí)率,本文設(shè)置為0.1
v′——v經(jīng)過吉布斯采樣的結(jié)果
h′——h經(jīng)過吉布斯采樣的結(jié)果
wt——第t次訓(xùn)練得到的權(quán)值
wt+1——第t+1次訓(xùn)練得到的權(quán)值
為了提高DBN訓(xùn)練效率,本文采用數(shù)據(jù)包(每包50個(gè)樣本)分包進(jìn)行學(xué)習(xí)訓(xùn)練。為防止DBN訓(xùn)練時(shí)陷入過擬合,在權(quán)值更新過程中引入權(quán)重衰減(Weight decay)進(jìn)行修正,通常情況下權(quán)重衰減取值范圍為0.000 01~0.01[26]。將式(13)修改為
wt+1=wt+η(vhT-v′h′T+rwt)
(14)
式中r——權(quán)重衰減,本文設(shè)置為0.000 2
采用3個(gè)指標(biāo)來衡量實(shí)驗(yàn)結(jié)果:豬咳嗽聲識(shí)別率(正確識(shí)別的豬咳嗽樣本占測(cè)試集中豬咳嗽樣本總數(shù)百分比)、豬咳嗽聲誤識(shí)別率(被誤識(shí)別為豬咳嗽聲的豬非咳嗽樣本占測(cè)試集中豬非咳嗽樣本總數(shù)百分比)和總識(shí)別率(正確識(shí)別的豬咳嗽樣本和豬非咳嗽樣本占測(cè)試集樣本總數(shù)百分比)。采用5折交叉驗(yàn)證方法進(jìn)行交叉驗(yàn)證,即將豬咳嗽聲與5種非咳嗽樣本平均分成5等分,并按照訓(xùn)練集與測(cè)試集樣本4∶1的比例分成5組,進(jìn)行交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果如表1所示。
表1 5折交叉驗(yàn)證結(jié)果Tab.1 Comparison of recognition rate of cross validation method %
通過表1可知,各組豬咳嗽聲識(shí)別率和總識(shí)別率均高于90.00%,豬咳嗽聲誤識(shí)別率不超過8.07%,說明了本文采用的基于DBN的豬咳嗽聲識(shí)別模型是有效的。表1中第1組豬咳嗽聲識(shí)別率達(dá)到94.12%,誤識(shí)別率達(dá)到7.45%,總識(shí)別率達(dá)到93.21%,為最佳實(shí)驗(yàn)組。
經(jīng)過時(shí)間規(guī)整算法提取的300維短時(shí)能量和720維MFCC組合的1 020維豬聲音信號(hào)特征參數(shù)維數(shù)高,為了提煉出有效的特征參數(shù)進(jìn)而提高豬咳嗽聲識(shí)別效率,本文采用主成分分析(Principal component analysis,PCA)[27]舍去原1 020維特征參數(shù)中表征豬聲音信號(hào)能力弱的特征分量。
其主要實(shí)現(xiàn)過程為:
設(shè)m為豬聲音樣本個(gè)數(shù),n為每個(gè)樣本特征參數(shù)維度,原始數(shù)據(jù)矩陣Xm×n可表示為
(15)
將所有樣本進(jìn)行中心化得到初始化后的數(shù)據(jù)
(16)
初始化后的數(shù)據(jù)矩陣X′m×n的協(xié)方差矩陣為
(17)
Σ的特征值和特征向量為
(18)
式中λb——Σ的特征值
W——特征值λb對(duì)應(yīng)的特征向量
將特征值λb從大到小排列,取前p個(gè)特征值對(duì)應(yīng)的主成分,p值的選取通過特征值貢獻(xiàn)率確定,其計(jì)算公式為
(19)
1 020維短時(shí)能量和MFCC特征參數(shù)與貢獻(xiàn)率的關(guān)系如圖9所示。
圖9 特征參數(shù)維數(shù)的貢獻(xiàn)率Fig.9 Contribution rate of dimension of feature parameters
圖9中,當(dāng)特征值的貢獻(xiàn)率大于90%時(shí),可認(rèn)為這p個(gè)主成分的特征參數(shù)就能反映原豬聲音信號(hào)的信息。經(jīng)過計(jì)算,當(dāng)p取479時(shí),貢獻(xiàn)率達(dá)到98.01%。于是,將1 070維特征參數(shù)降到479維。通過式(9)再次計(jì)算DBN網(wǎng)絡(luò)結(jié)構(gòu)為479-27-14-6-2,5折交叉驗(yàn)證實(shí)驗(yàn)結(jié)果如表2所示。
表2 特征參數(shù)降維后識(shí)別結(jié)果Tab.2 Recognition rate after feature parameters dimension reduction %
對(duì)比表1和表2識(shí)別結(jié)果可知降維后的各實(shí)驗(yàn)組豬咳嗽聲識(shí)別率、誤識(shí)別率和總識(shí)別率較降維前均有相應(yīng)改善。降維后最佳組為第1組,相對(duì)降維前最佳組豬咳嗽聲識(shí)別率提高了1.68個(gè)百分點(diǎn),誤識(shí)別率降低了0.62個(gè)百分點(diǎn),總識(shí)別率提高了1.08個(gè)百分點(diǎn),因此經(jīng)過主成分分析法優(yōu)化得到的479維豬聲音特征參數(shù)可以代替原1 020維豬聲音特征參數(shù)。
(1)利用時(shí)間規(guī)整算法提取豬咳嗽、打噴嚏、吃食、尖叫、哼哼和甩耳朵6種聲音短時(shí)能量300維,MFCC 720維,以此1 020維組合特征參數(shù)作為豬咳嗽聲與豬非咳嗽聲的衡量指標(biāo)。進(jìn)一步采用主成分分析法提取原6種聲音的1 020維特征參數(shù)對(duì)應(yīng)的貢獻(xiàn)率為98.01%時(shí)的479維特征參數(shù)。實(shí)驗(yàn)表明,短時(shí)能量和MFCC的結(jié)合可以很好地衡量豬咳嗽聲與豬非咳嗽聲的差異。
(2)將深度信念網(wǎng)絡(luò)引入豬聲音識(shí)別領(lǐng)域,構(gòu)建一個(gè)5層的深度信念網(wǎng)絡(luò)豬咳嗽聲識(shí)別模型,采用非監(jiān)督貪婪算法逐層預(yù)訓(xùn)練RBM和BP算法以整體微調(diào)的方式訓(xùn)練DBN。設(shè)定50個(gè)樣本的小批量數(shù)據(jù)包訓(xùn)練模式,學(xué)習(xí)率為0.1,引入權(quán)重衰減0.000 2,能夠獲取收斂較優(yōu)的豬咳嗽聲識(shí)別模型。
(3)通過5折交叉實(shí)驗(yàn)驗(yàn)證,采用1 020維特征參數(shù),基于DBN的豬咳嗽聲識(shí)別模型最佳組豬咳嗽聲識(shí)別率達(dá)到94.12%,誤識(shí)別率為7.45%,總識(shí)別率達(dá)到93.21%,經(jīng)過PCA降維至479維后,豬咳嗽聲識(shí)別率和總識(shí)別率相對(duì)降維前均有所提高,誤識(shí)別率有所下降,最佳組豬咳嗽聲識(shí)別率為95.80%,誤識(shí)別率為6.83%,總識(shí)別率為94.29%。
1SILVA M, FERRARI S, COSTA A, et al. Cough localization for the detection of respiratory diseases in pig houses[J]. Computers and Electronics in Agriculture, 2008, 64(2):286-292.
2MITCHELL S, VASILEIOS E, SARA F, et al. The influence of respiratory disease on the energy envelope dynamics of pig cough sounds[J]. Computers and Electronics in Agriculture, 2009, 69(1):80-85.
3SARA F, MITCHELL S, MARCELLA G, et al. Cough sound analysis to identify respiratory infection in pigs[J]. Computers and Electronics in Agriculture, 2008, 64(2):318-325.
4何東健, 劉冬, 趙凱旋. 精準(zhǔn)畜牧業(yè)中動(dòng)物信息智能感知與行為檢測(cè)研究進(jìn)展[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2016, 47(5):231-244.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20160532&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2016.05.032.
HE Dongjian, LIU Dong, ZHAO Kaixuan. Review of perceiving animal information and behavior in precision livestock farming[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016,47(5): 231-244.(in Chinese)
5EXADAKTYLOS V, SILVA M, AERTS J M, et al. Real-time recognition of sick pig cough sounds[J]. Computers and Electronics in Agriculture, 2008, 63(2):207-214.
6GUARINO M, JANS P, COSTA A, et al. Field test of algorithm for automatic cough detection in pig house[J]. Computers and Electronics in Agriculture, 2008, 62(1):22-28.
7HIRTUM A V, BERCKMANS D. Fuzzy approach for improved recognition of citric acid induced piglet coughing from continuous registration[J]. Journal of Sound and Vibration, 2003, 266(3):677-686.
8馬輝棟,劉振宇. 語音端點(diǎn)檢測(cè)算法在豬咳嗽檢測(cè)中的應(yīng)用研究[J].山西農(nóng)業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版, 2016,36(6): 445-449.
MA Huidong, LIU Zhenyu.Application of end point detection in pig cough signal detection[J]. Journal of Shanxi Agricultural University:Natural Science Edition, 2016,36 (6): 445-449. (in Chinese)
9劉振宇,赫曉燕,桑靜,等.基于隱馬爾可夫模型的豬咳嗽聲音識(shí)別的研究[C]∥中國畜牧獸醫(yī)學(xué)會(huì)信息技術(shù)分會(huì)第十屆學(xué)術(shù)研討會(huì)論文集,2015:99-104.
10徐亞妮,沈明霞,閆麗,等. 待產(chǎn)梅山母豬咳嗽聲識(shí)別算法的研究[J].南京農(nóng)業(yè)大學(xué)學(xué)報(bào),2016,39(4): 681-687.
XU Yani, SHEN Mingxia, YAN Li, et al. Research of predelivery Meishan sow cough recognition algorithm[J]. Journal of Nanjing Agricultural University, 2016,39(4): 681-687. (in Chinese)
11HINTON G E, OSINDERO S,TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006,18(7):1527-1554.
12HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786):504-507.
13LECUN Y,BENGIO Y, HINTON G E.Deep learning[J]. Nature,2015,512:436-444.
14MOHAMED A R, DAHL G E, HINTON G E. Acoustic modeling using deep belief networks[J]. IEEE Transactions on Audio Speech and Language Processing, 2011, 20(1):14-22.
15LI Xiangang, YANG Yuning, PANG Zaihu,et al. A comparative study on selecting acoustic modeling units in deep neural networks based large vocabulary Chinese speech recognition[J].Neurocomputing,2015,170:251-256.
16HU Y, LOIZOU P C. Incorporating a psychoacoustical model in frequency domain speech enhancement[J]. Signal Processing Letters IEEE, 2004, 11(2):270-273.
17吳紅衛(wèi), 吳鎮(zhèn)揚(yáng), 趙力. 基于多窗譜的心理聲學(xué)語音增強(qiáng)[J].聲學(xué)學(xué)報(bào), 2007, 32(3):275-281.
WU Hongwei, WU Zhenyang, ZHAO Li. Psychoacoustical enhancement of speech based on multitaper spectrum[J]. Acta Acustica,2007,32(3):275-281.(in Chinese)
18戴元紅,陳鴻昶,喬德江,等. 基于短時(shí)能量比的語音端點(diǎn)檢測(cè)算法的研究[J]. 通信技術(shù),2009,42(2):181-183.
DAI Yuanhong, CHEN Hongchang, QIAO Dejiang, et al. Speech endpoint detection algorithm analysis based on short-term energy ratio[J]. Communications Technology, 2009,42(2):181-183.(in Chinese)
19王山海,景新幸,楊海燕. 基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語音識(shí)別的研究[J]. 計(jì)算機(jī)應(yīng)用研究,2015,32(8):2289-2292.
WANG Shanhai, JING Xinxing, YANG Haiyan. Study of isolated speech recognition based on deep learning neural networks[J].Application Research of Computers,2015,32(8):2289-2292.(in Chinese)
20林瑋,楊莉莉,徐柏齡. 基于修正MFCC參數(shù)漢語耳語音的話者識(shí)別[J]. 南京大學(xué)學(xué)報(bào):自然科學(xué)版,2006,42(1):54-62.
LIN Wei, YANG Lili, XU Boling. Speaker identification in Chinese whispered speech based on modified-MFCC[J]. Journal of Nanjing Uninersity: Natural Sciences,2006,42(1):54-62.(in Chinese)
21李志忠,騰光輝. 基于改進(jìn)MFCC的家禽發(fā)聲特征提取方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2008,24(11):202-205.
LI Zhizhong, TENG Guanghui. Feature extraction for poultry vocalization recognition based on improved MFCC[J]. Transactions of the CSAE,2008,24(11):202-205.(in Chinese)
22YU C C, LIU B D. A backpropagation algorithm with adaptive learning rate and momentum coefficient[C]∥International Joint Conference on Neural Networks. IEEE, 2002:1218-1223.
23HAMEED A A, KARLIK B, SALMAN M S. Back-propagation algorithm with variable adaptive momentum[J]. Knowledge-Based Systems, 2016,114:79-87.
24ERHAN D, BENGIO Y, COURVILLE A, et al. Why does unsupervised pre-training help deep learning?[J]. Journal of Machine Learning Research, 2010, 11(3):625-660.
25HINTON G E.Learning multiple layers of representation[J]. Trends in Cognitive Sciences, 2007, 11(10):428-434.
26HINTON G E. A practical guide to training restricted boltzmann machines[J]. Momentum, 2012, 9(1):599-619.
27李慧,祁力鈞,張建華,等. 基于PCA-SVM的棉花出苗期雜草類型識(shí)別[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào),2012,43(9):184-189.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20120934&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2012.09.034.
LI Hui, QI Lijun, ZHANG Jianhua, et al. Recognition of weed during cotton emergence based on principal component analysis and support vector machine[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2012,43(9): 184-189.(in Chinese)