李 嘉,黃程韋,韓 辰
(1.江蘇省廣播電視總臺(tái),南京 210013;2.蘇州大學(xué),蘇州 215006)
聲學(xué)場景深度識(shí)別系統(tǒng)設(shè)計(jì)
李 嘉1,黃程韋2,韓 辰1
(1.江蘇省廣播電視總臺(tái),南京 210013;2.蘇州大學(xué),蘇州 215006)
基于視頻的監(jiān)控系統(tǒng)存在很多不足,聲學(xué)場景識(shí)別系統(tǒng)依據(jù)基于人耳聽覺仿生的目標(biāo)聲音識(shí)別技術(shù),積極探索先進(jìn)的人耳仿生理論、特征提取技術(shù)、目標(biāo)聲音分類技術(shù),實(shí)現(xiàn)對(duì)聲音場景進(jìn)行自動(dòng)化分類和信息抽取,具有廣泛的應(yīng)用前景。
聲音識(shí)別;聲音場景;特征提??;神經(jīng)網(wǎng)絡(luò)
聲學(xué)場景深度識(shí)別系統(tǒng)既可對(duì)目前的視頻監(jiān)控進(jìn)行有益的補(bǔ)充,以應(yīng)對(duì)遮蔽、光照變化、死角等情況,還可對(duì)聲音信號(hào)場景進(jìn)行識(shí)別,方便自動(dòng)搜索海量數(shù)據(jù)、識(shí)別目標(biāo),并實(shí)時(shí)發(fā)現(xiàn)和處理突發(fā)事件。
2.1 系統(tǒng)總體架構(gòu)
系統(tǒng)總體框架如圖1所示。
圖1 系統(tǒng)總體架構(gòu)
2.2 網(wǎng)絡(luò)拓?fù)?/p>
音頻傳感器尺寸較小,可較為隱蔽的布放,也可以和視頻攝像頭布置在一起,作為對(duì)視頻監(jiān)控的有益補(bǔ)充,將采集的音頻特征通過Wi-Fi、數(shù)據(jù)網(wǎng)絡(luò)或者有線方式傳輸給后臺(tái)數(shù)據(jù)中心處理。
2.3 功能設(shè)計(jì)
該系統(tǒng)可實(shí)現(xiàn)如下幾個(gè)功能:場景識(shí)別,身份識(shí)別,內(nèi)容檢索,聲源定位與信號(hào)增強(qiáng)。
3.1 信號(hào)特征提取
通過對(duì)公共場所異常聲音聲譜圖等特性的分析,將公共場所異常聲音信號(hào)轉(zhuǎn)換為異常聲音的聲譜圖,采用2D-Gabor濾波器對(duì)聲譜圖時(shí)頻特征進(jìn)行特征描述;采用隨機(jī)非負(fù)獨(dú)立成分分析(SNICA)提取異常聲音的聲譜圖特征,最后采用稀疏表示分類(SRC)方法進(jìn)行分類識(shí)別。
下面描述基于人耳掩蔽效應(yīng)的增強(qiáng)算法。由于語音信號(hào)通常是逐幀進(jìn)行處理的,寫成幀的形式
y(m,n) = x(m,n) + d(m,n)
式中,m為幀的序號(hào),m=1,2,3…;n為幀內(nèi)數(shù)據(jù)點(diǎn)序號(hào),n=0,1,…,N-1,N為幀長。對(duì)等式兩邊進(jìn)行傅里葉變換,可得
Y(m,k) = X(m,k) + D(m,k)
式中,k是離散頻率;Y(m,k),X(m,k),D(m,k)分別是含噪語音y(m,n)、純凈語音x(m,n)、噪聲d(m,n)的傅立葉變換。
增強(qiáng)以后的語音幅度譜函數(shù)可以表達(dá)為
增強(qiáng)函數(shù)的形式可以表達(dá)為
定義信號(hào)功率譜估計(jì)
式中,Am(k)為第m幀估計(jì)語音譜的幅度,則有增強(qiáng)后的語音譜函數(shù)為
根據(jù)可聽聞閾的要求,令
上式就是令畸變?cè)肼暤哪芰吭谘诒伍撝狄韵?,而不被人耳感知。為了推?dǎo)方便,令
則有
化簡后得到
即
3.2 模型優(yōu)化算法
在模型優(yōu)化方面,通過啟發(fā)式優(yōu)化方法,對(duì)模型參數(shù)進(jìn)行優(yōu)化;通過高階馬爾科夫場對(duì)識(shí)別結(jié)果進(jìn)行動(dòng)態(tài)糾正,提高識(shí)別魯棒性。
3.3 深度機(jī)器學(xué)習(xí)
在深度機(jī)器學(xué)習(xí)方面,依據(jù)人耳聽覺特性,研究符合認(rèn)知規(guī)律的深度神經(jīng)網(wǎng)絡(luò)模型。依據(jù)短時(shí)記憶規(guī)律,提高聲音目標(biāo)的識(shí)別模型。
3.4 概率模型
高斯混合模型對(duì)這些數(shù)據(jù)的適應(yīng)能力較強(qiáng),可能是多數(shù)應(yīng)用場合的一種合理選擇。高斯混合模型(GMM)可以定義為
式中,X是語音樣本的D維特征向量,t為其樣本序號(hào);bi(X),i=1,2,…,M是成員密度;ai,i=1,2,…,M是混合權(quán)值。每個(gè)成員密度是一D維變量的關(guān)于均值矢量Ui和協(xié)方差矩陣的高斯函數(shù),形式如下
其中混合權(quán)值滿足條件:
完整的高斯混和密度由所有成員密度的均值矢量、協(xié)方差矩陣和混合權(quán)值參數(shù)化。這些參數(shù)聚集一起表示為
根據(jù)貝葉斯判決準(zhǔn)則,基于GMM的識(shí)別可以通過最大后驗(yàn)概率來獲得,
式中,k為類別序號(hào)。
對(duì)于高斯混合模型的參數(shù)估計(jì),可以采用EM (Expectation-maximization)算法進(jìn)行。EM是最大期望算法,它的基本思想是從一個(gè)初始化的模型開始,去估計(jì)一個(gè)新的模型,使得。這時(shí)新的模型對(duì)于下一次重復(fù)運(yùn)算來說成為初始模型,該過程反復(fù)執(zhí)行直到達(dá)到收斂門限,這類似于用來估計(jì)隱馬爾科夫模型(HMM)參數(shù)的Baum-Welch重估算法。每一步的EM重復(fù)中,下列重估公式保證模型的似然值單調(diào)增加:
方差矩陣的重估:
GMM各個(gè)分量的權(quán)重、均值和協(xié)方差矩陣的估計(jì)值,通過每一次迭代趨于收斂。
高斯混合模型中的混合度,在理論上只能推導(dǎo)出一個(gè)固定的范圍,具體的取值需要在實(shí)驗(yàn)中確定,各高斯分量的權(quán)重可以通過EM算法估計(jì)得到,在EM算法的迭代中,要避免協(xié)方差矩陣變?yōu)槠娈惥仃?,保證算法的收斂性。
聲學(xué)場景識(shí)別系統(tǒng)目前有兩大類應(yīng)用:安防監(jiān)控和內(nèi)容檢索,這兩類主要應(yīng)用可以很好地用于智慧城市中?;谝纛l的安防監(jiān)控在工業(yè)、消費(fèi)者、政府部門有不同的應(yīng)用。音頻場景識(shí)別技術(shù)的另一個(gè)重要應(yīng)用,是在基于內(nèi)容的多媒體檢索中。
[1] 李嘉,黃程韋,余華.語音情感的唯獨(dú)特征提取和識(shí)別[J].?dāng)?shù)據(jù)采集與處理,2012(03)
[2] 黃程韋,趙艷,金赟,于寅驊,趙力.實(shí)用語音情感的特征分析與識(shí)別的研究[J].電子與信息學(xué)報(bào),2011, 33(1): 112-116. EI: 20111213768173
[3] 黃程韋,金赟,王青云,趙艷,趙力.基于特征空間分解與融合的語音情感識(shí)別[J].信號(hào)處理,2011, 26(6): 835-842
[4] Chengwei Huang, Dong Han, YongqiangBao, Hua Yu, and Li Zhao,Cross-language Speech Emotion Recognition in German and Chinese,ICIC Express Letters, vol.6, no.8, August, 2012,pp.2141-2146. EI:20123515376775
[5] Chengwei Huang, Yun Jin, Yan Zhao, Yinhua Yu, Li Zhao, Speech emotion recognition based on re-composition of two-class classifiers. International Conference on Affective Computing and Intelligent Interaction and Workshops, Amsterdam, Netherlands, 10-12 Sept. 2009. EI: 20101112772813
Talk about Acoustic Scene Recognition System
Li Jia1, Huang Chengwei2, Han Chen1
(1.Jiangsu Broadcasting Corporation, Nanjing, 210013; 2.Soo Chow University, Suzhou, 215006)
As video monitoring systems has many deficiencies, Acoustic Scene Recognition System is built on target voice recognition technology based on Bionic ear hearing, and actively explore advanced ear bionic theory,feature extraction, target sound classification technology. It can achieve the sound scene automated classification and information extraction, and has broad application prospects.
Voice Recognitio; Sound Scene; Feature Extraction; Neural Networks
10.3969/J.ISSN.1672-7274.2016.07.005
TN912 文獻(xiàn)標(biāo)示碼:A
1672-7274(2016)07-0012-03