国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語(yǔ)譜圖提取瓶頸特征的情感識(shí)別算法研究

2017-06-05 14:15徐瓏婷
關(guān)鍵詞:置信識(shí)別率瓶頸

李 姍,徐瓏婷

(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)

基于語(yǔ)譜圖提取瓶頸特征的情感識(shí)別算法研究

李 姍,徐瓏婷

(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)

傳統(tǒng)的譜特征(諸如MFCC)來(lái)源于對(duì)語(yǔ)譜圖特征的再加工提取,但存在著因分幀處理引起相鄰幀譜特征之間相關(guān)性被忽略的問(wèn)題和所提取的譜特征與目標(biāo)標(biāo)簽不相關(guān)的問(wèn)題。這導(dǎo)致了從語(yǔ)譜圖中提取的特征丟失了很多有用信息。為此,提出了獲取深度譜特征(Deep Spectral Feature,DSF)的算法。DSF的特征是把直接從語(yǔ)譜圖中提取的譜特征用于深度置信網(wǎng)絡(luò)(DBN)訓(xùn)練,進(jìn)而從隱層節(jié)點(diǎn)數(shù)較少的瓶頸層提取到瓶頸特征。為了解決傳統(tǒng)譜特征的第一種缺陷,采用相鄰多幀語(yǔ)音信號(hào)中提取的特征參數(shù)構(gòu)成DSF特征。而深度置信網(wǎng)絡(luò)所具有的強(qiáng)大自學(xué)習(xí)能力以及與目標(biāo)標(biāo)簽密切相關(guān)的性能,使得經(jīng)過(guò)微調(diào)的DSF特征能夠解決傳統(tǒng)譜特征的第二個(gè)缺陷。大量的仿真實(shí)驗(yàn)結(jié)果表明,相對(duì)于傳統(tǒng)MFCC特征,經(jīng)過(guò)微調(diào)的DSF特征在語(yǔ)音情感識(shí)別領(lǐng)域的識(shí)別率比傳統(tǒng)MFCC高3.97%。

瓶頸特征;深度置信網(wǎng)絡(luò);譜特征;語(yǔ)譜圖;情感識(shí)別

1 概 述

在現(xiàn)今的大數(shù)據(jù)時(shí)代背景下,機(jī)器學(xué)習(xí)已成為人工智能領(lǐng)域中一個(gè)十分重要的研究方向。如今,越來(lái)越多的研究者考慮運(yùn)用機(jī)器學(xué)習(xí)的相關(guān)知識(shí)來(lái)實(shí)現(xiàn)語(yǔ)音信息識(shí)別。實(shí)際上,提取合適而準(zhǔn)確的語(yǔ)音特征參數(shù)是語(yǔ)音信息識(shí)別研究中的關(guān)鍵步驟。但是,語(yǔ)音特征參數(shù)的提取有兩個(gè)難點(diǎn):無(wú)法找到與識(shí)別目標(biāo)明確相關(guān)的特征;語(yǔ)音信息復(fù)雜多變,過(guò)分依賴于環(huán)境、說(shuō)話人、情感等因素。

目前,用于語(yǔ)音信息識(shí)別的特征參數(shù)主要分為三類:韻律特征、音質(zhì)特征以及譜特征[1-2]。其中,譜特征的研究受到了廣泛關(guān)注。并且梅爾頻率倒譜系數(shù)(MFCC)在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),在語(yǔ)音信息識(shí)別領(lǐng)域占據(jù)主導(dǎo)地位。Sun Yaxin[3]指出了MFCC譜特征存在的兩個(gè)缺陷:忽略了每個(gè)語(yǔ)音幀內(nèi)及相鄰幀之間的系數(shù)關(guān)系;忽略了語(yǔ)音標(biāo)簽信息,沒(méi)有提取到與目標(biāo)標(biāo)簽相關(guān)的特征。因此,從語(yǔ)譜圖中提取的MFCC特征會(huì)導(dǎo)致有用信息的丟失。文獻(xiàn)[4]詳細(xì)介紹了采用由深度置信網(wǎng)絡(luò)產(chǎn)生的堆疊瓶頸特征[5-6]作為語(yǔ)音識(shí)別中分類模型的輸入,能夠提高系統(tǒng)識(shí)別率??梢?jiàn),BN特征能充分挖掘特征參數(shù)相鄰幀之間的相關(guān)性,有助于系統(tǒng)性能的改善。Liu Yuan等[7]運(yùn)用深度學(xué)習(xí)強(qiáng)大的自學(xué)習(xí)能力,提高了說(shuō)話人確認(rèn)的識(shí)別率。深度置信網(wǎng)絡(luò)[8]是深度學(xué)習(xí)的一種結(jié)構(gòu),采用了預(yù)訓(xùn)練以及微調(diào)兩種方式改善參數(shù)收斂效果,使得特征參數(shù)與目標(biāo)標(biāo)簽相匹配。它具有非常強(qiáng)大的自學(xué)習(xí)能力,能夠獲得與目標(biāo)密切相關(guān)的區(qū)分性特征,濾除無(wú)關(guān)干擾,從而解決了傳統(tǒng)譜特征的第二個(gè)缺陷。

情感識(shí)別[9]是通過(guò)計(jì)算機(jī)處理并分析獲取的語(yǔ)音信號(hào),進(jìn)而判斷出語(yǔ)音的情感類型的技術(shù),它能使計(jì)算機(jī)有更加擬人化的能力。Zhang W等[10]研究了運(yùn)用DBN網(wǎng)絡(luò)進(jìn)行性別相關(guān)的和無(wú)關(guān)的情感分類,說(shuō)明了基于DBN的方法具有情感識(shí)別的優(yōu)秀潛能。王一等[11-13]提出了魯棒性較強(qiáng)的、層次稀疏的BN特征提取方法,分別用于語(yǔ)音識(shí)別和語(yǔ)種識(shí)別,均取得了不錯(cuò)的研究進(jìn)展。

為了挖掘相鄰幀之間的相關(guān)信息以及結(jié)合監(jiān)督訓(xùn)練的優(yōu)勢(shì),首次提出了采用深度置信網(wǎng)絡(luò)直接從語(yǔ)譜圖中提取瓶頸特征的算法,并將該特征稱作深度譜特征(DSF)。其不同于目前用MFCC特征作為訓(xùn)練DBN網(wǎng)絡(luò)的輸入?yún)?shù),直接把語(yǔ)譜圖作為輸入特征的方法能夠顯著減少有用信息的缺失,進(jìn)而提高識(shí)別率。為了驗(yàn)證目標(biāo)標(biāo)簽與語(yǔ)音樣本之間的相關(guān)性是否有助于提高系統(tǒng)性能,仿真實(shí)驗(yàn)比較了未經(jīng)微調(diào)的目標(biāo)無(wú)關(guān)的DSF特征和微調(diào)后的目標(biāo)有關(guān)的DSF特征。結(jié)果表明,該算法能利用標(biāo)簽信息和相鄰幀之間的相關(guān)信息,有效提高系統(tǒng)識(shí)別率,解決傳統(tǒng)譜特征的兩個(gè)缺陷。

2 相關(guān)研究

2.1 瓶頸特征

瓶頸特征產(chǎn)生于多層感知器(MLP)模型,最早由Greal[14]提出。當(dāng)MLP中間層的隱節(jié)點(diǎn)數(shù)相對(duì)于其他隱層較少時(shí),該模型將在該層學(xué)習(xí)到一個(gè)訓(xùn)練向量的低維表述,即瓶頸特征是一種非線性降維方式。圖1是一個(gè)三層MLP提取瓶頸特征的示意圖[15]。

2.2 深度置信網(wǎng)絡(luò)

深度學(xué)習(xí)的預(yù)訓(xùn)練機(jī)制有效地改進(jìn)了神經(jīng)網(wǎng)絡(luò)的收斂效果,為了更好地實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的低維表示,提出使用深度置信網(wǎng)絡(luò)來(lái)提取瓶頸特征。深度置信網(wǎng)絡(luò)是一種能量模型,擁有強(qiáng)大的自學(xué)習(xí)能力,且可以采用監(jiān)督訓(xùn)練提取目標(biāo)相關(guān)特征。

圖1 提取瓶頸特征的結(jié)構(gòu)圖

2.2.1 限制玻爾茲曼機(jī)(RBM)

限制玻爾茲曼機(jī)[16]要求可見(jiàn)層只和隱含層連接??梢?jiàn)層和隱含層之間的分布滿足指數(shù)分布,伯努利和高斯分布是最常用的分布形式。

設(shè)RBM模型參數(shù)為θ,可見(jiàn)層v以及隱含層h,則聯(lián)合分布為p(v,h;θ),定義為:

(1)

可見(jiàn),層向量邊緣概率分布如式(2)所示:

(2)

對(duì)于伯努利-伯努利分布和高斯-伯努利分布的限制玻爾茲曼機(jī),其能量函數(shù)分別如式(3)和式(4)所示[11]:

(3)

(4)

其中,wi,j為可見(jiàn)單元vi以及隱單元hj之間的連接權(quán)重;bi和aj為相應(yīng)的偏置項(xiàng)。

RBM的訓(xùn)練需要計(jì)算條件分布,伯努利-伯努利RBM條件分布如式(5)和式(6)所示:

(5)

(6)

而高斯-伯努利RBM條件分布如式(7)和式(8)所示:

(7)

(8)

其中,σ(x)=1/exp(x)為sigmoid函數(shù)。

最大化對(duì)數(shù)似然函數(shù)logp(v;θ)可以優(yōu)化RBM的參數(shù)集,更新式定義為:

Δwij=〈vihj〉data-〈vihj〉model

(9)

其中,〈vihj〉data為訓(xùn)練樣本中vi和hj發(fā)生的概率;〈vihj〉model為該模型中vi和hj發(fā)生的概率。由于〈vihj〉model計(jì)算困難,常用Gibbs采樣來(lái)替代〈vihj〉model[17]。

2.2.2 訓(xùn)練深度置信網(wǎng)絡(luò)

將RBM棧式連接就組成了深度置信網(wǎng)絡(luò),對(duì)DBN每一層的RBM網(wǎng)絡(luò)逐層訓(xùn)練,便可以得到預(yù)訓(xùn)練的DBN網(wǎng)絡(luò)。預(yù)訓(xùn)練DBN網(wǎng)絡(luò)的最后一層RBM輸出到softmax分類器即達(dá)到分類的目的。Softmax函數(shù)如式(10)所示[8]:

(10)

其中,l=k表示輸入被分為類別k;λik表示最后一層隱單元hi和類別k之間的權(quán)重;ak表示相應(yīng)的偏置;Z(h)表示歸一化項(xiàng)。

通過(guò)以上分類方法,采用監(jiān)督訓(xùn)練可以對(duì)整個(gè)預(yù)訓(xùn)練后的網(wǎng)絡(luò)進(jìn)行微調(diào)(fine-tune)。即整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練分為兩步:先逐層預(yù)訓(xùn)練;再微調(diào)整體結(jié)構(gòu)。

3 深度譜特征(DSF)算法

3.1 語(yǔ)譜圖

語(yǔ)譜圖是語(yǔ)音能量時(shí)頻分布的二維平面圖,橫坐標(biāo)是時(shí)間,縱坐標(biāo)是頻率,具有連通時(shí)頻兩域的特點(diǎn)。而MFCC特征產(chǎn)生于語(yǔ)譜圖,其提取流程為:將每幀的語(yǔ)譜經(jīng)過(guò)Mel頻率濾波器組濾波后,再進(jìn)行對(duì)數(shù)能量計(jì)算,然后經(jīng)過(guò)DCT變換即可獲得一幀的MFCC,而整幅語(yǔ)譜圖則可獲得一條語(yǔ)音的MFCC系數(shù)矩陣。

圖2為語(yǔ)譜圖和MFCC提取流程圖[18],下半部分為基于語(yǔ)譜圖提取MFCC特征參數(shù)的流程圖。

圖2 語(yǔ)譜圖和MFCC提取流程圖

由此可見(jiàn),對(duì)語(yǔ)譜圖特征進(jìn)行再加工提取可獲得傳統(tǒng)的譜特征,這一步會(huì)導(dǎo)致部分有用信息的丟失,造成MFCC的兩個(gè)缺陷。

3.2 深度譜特征模型

從語(yǔ)譜圖中提取相鄰幀譜特征用于深度置信網(wǎng)絡(luò)訓(xùn)練,進(jìn)而從隱層節(jié)點(diǎn)數(shù)最少的瓶頸層獲得瓶頸特征,得到深度譜特征(DSF),DSF特征提取流程見(jiàn)圖3。

圖3 深度譜特征提取模型

另外,DSF特征被分為兩類,分別為未經(jīng)微調(diào)的DSF特征(即第2步中不采用微調(diào)步驟)和微調(diào)后的DSF特征。下面分別將這兩種特征命名為目標(biāo)無(wú)關(guān)DSF特征和目標(biāo)相關(guān)DSF特征。

該模型提取DSF特征算法如下所示:

(2)使用分割后數(shù)據(jù)訓(xùn)練結(jié)構(gòu)參數(shù)為[M1,M2,M,M2,M1]的DBN網(wǎng)絡(luò),滿足M

(3)去掉包括分類器在內(nèi)的下三層網(wǎng)絡(luò),得到瓶頸特征提取結(jié)構(gòu)。

輸出:DSF特征Dtrain和Dtest,其中若第2步有微調(diào),得到目標(biāo)相關(guān)DSF,否則為目標(biāo)無(wú)關(guān)DSF。

4 實(shí)驗(yàn)結(jié)果與分析

旨在從語(yǔ)譜圖中提取比傳統(tǒng)譜特征MFCC更有表達(dá)力的DSF特征,證明DSF特征能夠克服MFCC特征的兩個(gè)缺陷。為此,分別設(shè)計(jì)了兩組實(shí)驗(yàn)來(lái)證明:DSF特征在語(yǔ)音情感識(shí)別上比MFCC特征具有更強(qiáng)的區(qū)分能力。

4.1 實(shí)驗(yàn)語(yǔ)音庫(kù)及實(shí)驗(yàn)設(shè)計(jì)

為了驗(yàn)證上述算法的有效性,基于柏林庫(kù)(EMO-DB)[19]進(jìn)行仿真。柏林庫(kù)由10個(gè)不同的人(5男5女)錄制而成,包含7種不同的情感。挑選其中四種情感,分別是害怕、快樂(lè)、平靜以及生氣,共427條語(yǔ)句構(gòu)成實(shí)驗(yàn)語(yǔ)音庫(kù)。

為了保證仿真是性別和說(shuō)話人無(wú)關(guān)的,首先對(duì)語(yǔ)音庫(kù)進(jìn)行隨機(jī)打亂,再采用四折交叉驗(yàn)證,最后多次實(shí)驗(yàn)求平均。支持向量機(jī)(Support Vector Machine,SVM)[16]和高斯混合模型(GMM)[20]是實(shí)驗(yàn)中用到的分類器。

采用三層DBN,隱層節(jié)點(diǎn)數(shù)為1 288,瓶頸層節(jié)點(diǎn)數(shù)為36。參數(shù)設(shè)置[21]依據(jù)實(shí)驗(yàn)結(jié)果調(diào)整得到,其中權(quán)重衰減系數(shù)0.005,沖量0.9,批大小5,迭代次數(shù)50。

4.2 基于DSF特征的情感識(shí)別

語(yǔ)音情感識(shí)別在人機(jī)交互領(lǐng)域發(fā)揮著重要作用,其目的是讓計(jì)算機(jī)像人一樣識(shí)別出人類情感,賦予機(jī)器更人性化的能力[22]。設(shè)計(jì)了兩個(gè)實(shí)驗(yàn)來(lái)證實(shí)DSF能解決MFCC的兩個(gè)缺陷,提高語(yǔ)音情感識(shí)別率。第一個(gè)實(shí)驗(yàn)分別比較了目標(biāo)相關(guān)DSF、目標(biāo)無(wú)關(guān)DSF、傳統(tǒng)MFCC特征的情感識(shí)別率,分別采用線性SVM和32階的GMM分類器,進(jìn)而驗(yàn)證了提取DSF特征算法的可行性。另外,實(shí)驗(yàn)也比較了上述兩種特征與MFCC串聯(lián)、三種特征串聯(lián)組成融合特征的情感識(shí)別率。實(shí)驗(yàn)結(jié)果如圖4所示。

由圖4可知,目標(biāo)相關(guān)DSF特征能利用標(biāo)簽相關(guān)性和相鄰幀之間的聯(lián)系,使SVM系統(tǒng)的平均識(shí)別率比目標(biāo)無(wú)關(guān)DSF、MFCC特征分別高12.65%、3.97%;GMM分類器趨勢(shì)一樣,但是性能提高不明顯。另外,基于SVM的目標(biāo)無(wú)關(guān)DSF特征識(shí)別結(jié)果較差,比傳統(tǒng)MFCC特征的識(shí)別率低8.68%,可見(jiàn)依據(jù)標(biāo)簽信息訓(xùn)練DBN網(wǎng)絡(luò)這一步十分關(guān)鍵。但是,當(dāng)把各個(gè)特征融合后,發(fā)現(xiàn)識(shí)別率并沒(méi)有比傳統(tǒng)MFCC特征提高太多??梢?jiàn),融合可以補(bǔ)充一些相關(guān)信息,但是也會(huì)造成冗余,反而導(dǎo)致識(shí)別率下降。

圖4 各種特征的情感識(shí)別結(jié)果對(duì)比

第二個(gè)實(shí)驗(yàn)選用目標(biāo)相關(guān)DSF特征作為特征參數(shù),用SVM分類器獲得每種情感識(shí)別率的矩陣,實(shí)驗(yàn)結(jié)果如圖5所示。

害怕/%快樂(lè)/%平靜/%生氣/%害怕/%75.367.2514.492.90快樂(lè)/%11.7666.180.0022.06平靜/%2.450.0097.550.00生氣/%1.577.870.0090.55

圖5 目標(biāo)相關(guān)DSF特征的情感識(shí)別矩陣

由圖5可知,平均識(shí)別率可達(dá)88.77%。其中,快樂(lè)的識(shí)別率最低,因?yàn)榭鞓?lè)的發(fā)音特性與害怕、生氣都很相似,三者的情感激活度都很高[23],所以僅僅深度譜特征不能很好地區(qū)分這三種類別的情感。但是該特征對(duì)平靜和生氣的識(shí)別性能很好。因?yàn)檫@兩種情感的效價(jià)維和激活維差異較大。

5 結(jié)束語(yǔ)

為了解決傳統(tǒng)譜特征存在的缺陷,提出了深度譜特征的算法。它把相鄰幀的語(yǔ)譜圖特征串聯(lián)起來(lái),再直接用來(lái)訓(xùn)練深度置信網(wǎng)絡(luò),最后從中間的瓶頸層獲得瓶頸特征,即為深度譜特征。實(shí)驗(yàn)結(jié)果表明:提出的目標(biāo)相關(guān)DSF特征能充分利用標(biāo)簽相關(guān)性,相對(duì)于SVM分類器的MFCC特征,系統(tǒng)平均識(shí)別率提高了3.97%。另外,該特征還考慮了相鄰幀間的關(guān)系,進(jìn)一步提高了識(shí)別率。今后,還要進(jìn)一步研究合適的網(wǎng)絡(luò)參數(shù)設(shè)置和網(wǎng)絡(luò)結(jié)構(gòu),比較不同的分類器性能。并且把該DSF特征運(yùn)用于多維說(shuō)話人信息識(shí)別中。

[1] Kinnunen T,Li H.An overview of text-independent speaker recognition:from features to supervectors[J].Speech Communication,2010,52(1):12-40.

[2] Samantaray A K, Mahapatra K,Kabi B, et al.A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of north-eastern languages[C]//2nd international conference on recent trends in information systems.[s.l.]:IEEE,2015:372-377.

[3] Sun Y,Wen G,Wang J.Weighted spectral features based on local Hu moments for speech emotion recognition[J].Biomedical Signal Processing and Control,2015,18:80-90.

[4] Tuerxun M,Zhang S,Bao Y,et al.Improvements on bottleneck feature for large vocabulary continuous speech recognition[C]//12th international conference on signal processing.[s.l.]:IEEE,2014:516-520.

[6] Zhang Y,Chuangsuwanich E,Glass J R.Extracting deep neural network bottleneck features using low-rank matrix factorization[C]//ICASSP.[s.l.]:[s.n.],2014:185-189.

[7] Liu Y,Qian Y,Chen N,et al.Deep feature for text-dependent speaker verification[J].Speech Communication,2015,73:1-13.

[8] Safari P,Ghahabi O, Hernando J. Feature classification by means of deep belief networks for speaker recognition[C]//23rd European signal processing conference.[s.l.]:IEEE,2015:2117-2121.

[9] Pal A,Baskar S.Speech emotion recognition using deep dropout autoencoders[C]//International conference on engineering and technology.[s.l.]:IEEE,2015:1-6.

[10] Zhang W,Zhao D,Chen X,et al.Deep learning based emotion recognition from Chinese speech[M]//Inclusive smart cities and digital health.[s.l.]:International Publishing,2016:49-58.

[11] 王 一,楊俊安,劉 輝,等.基于層次稀疏 DBN 的瓶頸特征提取方法[J].模式識(shí)別與人工智能,2015,28(2):173-180.

[12] 李晉徽,楊俊安,王 一.一種新的基于瓶頸深度信念網(wǎng)絡(luò)的特征提取方法及其在語(yǔ)種識(shí)別中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2014,41(3):263-266.

[13] 陳 雷,楊俊安,王 一,等.LVCSR系統(tǒng)中一種基于區(qū)分性和自適應(yīng)瓶頸深度置信網(wǎng)絡(luò)的特征提取方法[J].信號(hào)處理,2015,31(3):290-298.

[14] Grézl F,Karafiát M,Kontr S,et al.Probabilistic and bottle-neck features for LVCSR of meetings[C]//Proceedings of the IEEE international conference on acoustics,speech,and signal processing.Honolulu,USA:IEEE,2007:757-760.

[15] Gehring J,Miao Y,Metze F,et al.Extracting deep bottleneck features using stacked auto-encoders[C]//IEEE international conference on acoustics, speech and signal processing.[s.l.]:IEEE,2013:3377-3381.

[16] 張春霞,姬楠楠,王冠偉.受限波爾茲曼機(jī)[J].工程數(shù)學(xué)學(xué)報(bào),2015,32(2):159-173.

[17] You Y,Qian Y,He T,et al.An investigation on DNN-derived bottleneck features for GMM-HMM based robust speech recognition[C]//China summit and international conference on signal and information processing.[s.l.]:IEEE,2015:30-34.

[18] 陶華偉,査 誠(chéng),梁瑞宇,等.面向語(yǔ)音情感識(shí)別的語(yǔ)譜圖特征提取算法[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2015,45(5):817-821.

[19] Burkhardt F,Paeschke A,Rolfes M,et al.A database of German emotional speech[C]//Proceedings of Interspeech.[s.l.]:[s.n.],2005:1517-1520.

[20] Anagnostopoulos C N,Iliou T,Giannoukos I.Features and classifiers for emotion recognition from speech: a survey from 2000 to 2011[J].Artificial Intelligence Review,2015,43(2):155-177.

[21] Hinton G E.A practical guide to training restricted Boltzmann machines[J].Momentum,2010,9(1):599-616.

[22] Mariooryad S,Busso C.Compensating for speaker or lexical variabilities in speech for emotion recognition[J].Speech Communication,2014,57:1-12.

[23] Koolagudi S G,Rao K S.Emotion recognition from speech:a review[J].International Journal of Speech Technology,2012,15(2):99-117.

Research on Emotion Recognition Algorithm Based on Spectrogram Feature Extraction of Bottleneck Feature

LI Shan,XU Long-ting

(College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

Traditional spectral features (such as MFCC) can be extracted from spectrogram features.However,the relation between spectral features of adjacent frames has been ignored owing to frames division.What’s worse,the extracted spectral features are uncorrelated with the labels of corresponding targets,which lead to useful feature information lost.Therefore,a new Deep Spectral Feature (DSF) algorithm has been proposed,in which DSF features have been gained by applying spectral feature directly extracted from spectrogram for Deep Belief Network (DBN) and a kind of bottleneck (BN) feature from the bottleneck layer has been obtained with least hidden layer nodes number.To deal with the first drawback,a method is proposed to extract characteristic parameters from adjacent frames that consist of DSF features.What is more,owing to strong self-learning ability and substantial relationship with target labels in deep belief network,the proposed DSF feature can supply a better solution to the second drawback of conventional spectral features.Experimental results show that the accuracy of DSF feature with proper fine-tuning outperforms traditional MFCC about 3.97% in speech emotion recognition.

bottleneck feature;deep belief network;spectral feature;spectrogram;emotion recognition

2016-06-18

2016-09-22 網(wǎng)絡(luò)出版時(shí)間:2017-03-13

國(guó)家自然科學(xué)基金資助項(xiàng)目(61271335);國(guó)家“863”高技術(shù)發(fā)展計(jì)劃項(xiàng)目(2006AA010102)

李 姍(1992-),女,碩士研究生,研究方向?yàn)榍楦凶R(shí)別、多維說(shuō)話人信息識(shí)別技術(shù)。

http://kns.cnki.net/kcms/detail/61.1450.tp.20170313.1547.074.html

TP301.6

A

1673-629X(2017)05-0082-05

10.3969/j.issn.1673-629X.2017.05.018

猜你喜歡
置信識(shí)別率瓶頸
融合有效方差置信上界的Q學(xué)習(xí)智能干擾決策算法
基于模糊深度置信網(wǎng)絡(luò)的陶瓷梭式窯PID優(yōu)化控制
基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
聽(tīng)力正常青年人的低通濾波言語(yǔ)測(cè)試研究*
提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
基于深度置信網(wǎng)絡(luò)的近距空戰(zhàn)態(tài)勢(shì)評(píng)估
我國(guó)日間手術(shù)發(fā)展遇瓶頸
高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
突破瓶頸 實(shí)現(xiàn)多贏
民營(yíng)醫(yī)院發(fā)展瓶頸