国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)的語音情感識(shí)別技術(shù)研究?

2017-12-18 06:22
關(guān)鍵詞:段長度識(shí)別率時(shí)序

王 穎

(東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 大慶 163000)

基于改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)的語音情感識(shí)別技術(shù)研究?

王 穎

(東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 大慶 163000)

語音情感特征從時(shí)間粒度的角度可分為全局統(tǒng)計(jì)特征和瞬時(shí)特征。針對語音情感的動(dòng)態(tài)特性,提出一種改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)語音情感識(shí)別。網(wǎng)絡(luò)模型將全局特征信號(hào)與時(shí)序信號(hào)作為輸入,并根據(jù)輸入信號(hào)特征自動(dòng)修改網(wǎng)絡(luò)結(jié)構(gòu),不僅實(shí)現(xiàn)全局特征信號(hào)與時(shí)序信號(hào)的融合,還提供系統(tǒng)整體識(shí)別率。

語音情感特征;改進(jìn)Elman神經(jīng)網(wǎng)絡(luò);全局特征信號(hào);時(shí)序特征信號(hào)

1 引言

語音情感識(shí)別研究的開展距今已有30余年的歷史,在此期間,它得到了世界范圍內(nèi)相關(guān)研究者們的廣泛關(guān)注,也取得了一些令人矚目的成績,如其在遠(yuǎn)程網(wǎng)絡(luò)教學(xué)、醫(yī)療輔助、反恐偵測和客戶服務(wù)等領(lǐng)域的應(yīng)用得到廣泛認(rèn)可。尤其將人工智能應(yīng)用于語音情感識(shí)別領(lǐng)域后,更是取得了不俗的成績[1]。在此期間也針對語音情感識(shí)別提出了許多新型的神經(jīng)網(wǎng)絡(luò)模型,如韓文靜等提出的GCElman和何亮提出的IN-GABP在語音情感識(shí)別方面都取得了較好的成績[2~6]。

在取得以上成績的同時(shí)也面臨著諸多問題的考驗(yàn)與挑戰(zhàn),如網(wǎng)絡(luò)模型訓(xùn)練時(shí)間和訓(xùn)練樣本的選取。尤其對于作為輸入的語音情感特征信號(hào)的選取將直接決定識(shí)別的成功幾率[7]。在此之前一些網(wǎng)絡(luò)模型均只單獨(dú)針對短時(shí)時(shí)序特征信號(hào)進(jìn)行識(shí)別或語段特征信號(hào)進(jìn)行識(shí)別,本文在前人的基礎(chǔ)上進(jìn)行學(xué)習(xí)和研究,并對傳統(tǒng)的Elman神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,提出一種優(yōu)化的Elman神經(jīng)網(wǎng)絡(luò)模型,可根據(jù)輸入特征信號(hào)自動(dòng)修改網(wǎng)絡(luò)模型結(jié)構(gòu),一方面能夠?qū)⑷纸y(tǒng)計(jì)特征和時(shí)序特征進(jìn)行有效的融合,另一方面能夠有效的提高系統(tǒng)的整體識(shí)別率[8~12]。

2 改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型

2.1 改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型

Elman神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)除包含輸入、輸出和隱含層外還包含一個(gè)連接層,負(fù)責(zé)記憶前一時(shí)刻的輸出,基于此特性,Elman神經(jīng)網(wǎng)絡(luò)被應(yīng)用在在語音情感識(shí)別領(lǐng)域[13]。

當(dāng)以語句情感征作為輸入時(shí),基于Elman神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn),根據(jù)連接層記錄的前一時(shí)刻的輸出,結(jié)合當(dāng)前時(shí)刻的輸出語音情感識(shí)別和分析取得較好的成績。但當(dāng)輸入為語段情感特征時(shí),傳統(tǒng)Elman神經(jīng)網(wǎng)絡(luò)退化為MLP網(wǎng)絡(luò),失去其連接層的延時(shí)算子特性。因此有學(xué)者提出了基于全局特征的Elman神經(jīng)網(wǎng)絡(luò)模型,如OHF Elman神經(jīng)網(wǎng)絡(luò)模型[14]和GCElman神經(jīng)網(wǎng)絡(luò)模型等[15]。但大多數(shù)適用于全局時(shí)序特征的網(wǎng)絡(luò)模型均增加了網(wǎng)絡(luò)模型結(jié)構(gòu)復(fù)雜度,以時(shí)間為代價(jià)來換取識(shí)別準(zhǔn)確度,但當(dāng)識(shí)別信號(hào)為基于語句的時(shí)序信號(hào)時(shí),此類網(wǎng)絡(luò)模型雖增加了網(wǎng)絡(luò)訓(xùn)練時(shí)間卻并沒有換來識(shí)別精度的顯著提高,比較浪費(fèi)資源甚至容易陷入局部極小值導(dǎo)致無法收斂[16]。

針對以上問題,本文提出一種新的改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型。改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型包括輸入層、隱含層、輸出層以及兩個(gè)連接層。網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。其中輸入層包括兩部分:全局控制信號(hào)和時(shí)序信號(hào)。兩個(gè)連接層:連接層1為隱含層的延時(shí)算子,負(fù)責(zé)記憶隱含層前一時(shí)刻的輸出;承接層2為輸出層的延時(shí)算子,負(fù)責(zé)記憶輸出層前一時(shí)刻的輸出。兩個(gè)連接層分別構(gòu)造了各自的自反饋回路,并通過各自的自反饋增益因子實(shí)現(xiàn)系統(tǒng)動(dòng)態(tài)回溯系統(tǒng)當(dāng)前狀態(tài)前一時(shí)刻的信息甚至更為先前時(shí)刻的信息。改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型較傳統(tǒng)Elman網(wǎng)絡(luò)模型在輸入層增加了特征信號(hào)的輸入,當(dāng)特征信號(hào)為全局特征信號(hào)時(shí),網(wǎng)絡(luò)的連接層1負(fù)責(zé)記憶隱含層的前一時(shí)刻輸出,連接層2負(fù)責(zé)記憶輸出層的前一時(shí)刻輸出,并與當(dāng)前時(shí)刻的輸入一起反饋到網(wǎng)絡(luò)模型中,能夠有效提高基于語段的全局特征信號(hào)的識(shí)別。當(dāng)特征信號(hào)為時(shí)序信號(hào)特征時(shí),根據(jù)特征信號(hào)系數(shù)網(wǎng)絡(luò)模型將自動(dòng)刪除連接層2,僅依靠前一時(shí)刻隱含層的輸出與當(dāng)前時(shí)刻輸出對基于語句的特征信號(hào)進(jìn)行識(shí)別,以減少網(wǎng)絡(luò)運(yùn)行時(shí)間。

圖1 改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)

2.2 改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型

改進(jìn)Elman網(wǎng)絡(luò)數(shù)據(jù)模型:

其中W1、W2、W3、W4、W5分別為輸入層至隱含層,連接層1至隱含層,隱含層至輸出層,連接層2至隱含層,連接層2至輸出層的連接權(quán)值;x1(k)和x2(k)分別為連接層1和連接層2的輸出;α(0≤α≤1)和 β(0≤β≤1)為連接層1和連接層2的子反饋增益因子;θ(θ∈{0,1})為輸入信號(hào)特征系數(shù),當(dāng)輸入信號(hào)為全局統(tǒng)計(jì)特征時(shí)為1,當(dāng)輸入為時(shí)序特征信號(hào)時(shí)為0;f(·)為隱含層神經(jīng)元的傳遞函數(shù),本文采用Sigmoid函數(shù),g(·)為輸出層神經(jīng)元的激活函數(shù),本文采用線性函數(shù)。

2.3 改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)算法

改進(jìn)Elman網(wǎng)絡(luò)采用動(dòng)態(tài)BP算法對權(quán)值進(jìn)行修正,設(shè)第k步系統(tǒng)的實(shí)際輸出為 y(k),定義誤差函數(shù)為

分別計(jì)算E(k)對連接權(quán)限值的偏導(dǎo)數(shù),并使其等于0,可得到改進(jìn)后的Elman網(wǎng)絡(luò)學(xué)習(xí)算法

上式中:

其中 δ1、δ2、δ3、δ4、δ5分別為W1、W2、W3、W4、W5的學(xué)習(xí)步長;m、n、r分別為輸入層、輸出層、隱含層神經(jīng)元的個(gè)數(shù)。式(10)和式(11)構(gòu)成了梯度的動(dòng)態(tài)遞推關(guān)系,因而可以實(shí)現(xiàn)對高階系統(tǒng)的有效辨識(shí)。

3 基于改進(jìn)Elman網(wǎng)絡(luò)語音情感識(shí)別網(wǎng)絡(luò)模型訓(xùn)練

語音情感特征從時(shí)間粒度的角度可分為全局統(tǒng)計(jì)特征和瞬時(shí)特征。全局統(tǒng)計(jì)特征用來描述語音在語句時(shí)長內(nèi)的韻律學(xué)變化,它表征的是語音超音段方面的信息,一般認(rèn)為全局統(tǒng)計(jì)特征對情感區(qū)分度較大。瞬時(shí)時(shí)序特征,即語音特征,主要用來描述語音的頻譜特性,它在語音的內(nèi)容識(shí)別領(lǐng)域被廣法運(yùn)用,對語義的區(qū)分度較大。

本文提出Elman網(wǎng)絡(luò)模型可根據(jù)輸入信號(hào)類型在后臺(tái)自動(dòng)修改網(wǎng)絡(luò)結(jié)構(gòu),以適應(yīng)不同類型信號(hào)的語音情感分析。與傳統(tǒng)Elman神經(jīng)網(wǎng)絡(luò)輸入信號(hào)不同,改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)輸入層中包含全局控制信號(hào)和時(shí)序特征信號(hào)兩部分內(nèi)容。訓(xùn)練過程中當(dāng)某一樣本的輸入為全局統(tǒng)計(jì)特征信號(hào)時(shí),網(wǎng)絡(luò)模型可自動(dòng)過濾掉基于語句的時(shí)序特征,只接受該樣本中基于語段的特征,并自動(dòng)調(diào)整該樣本的網(wǎng)絡(luò)輸出向量,保證其為本樣本所屬的情感類別向量。

3.1 基于時(shí)序特征的語音情感識(shí)別

本文從基音頻率參數(shù)、共振峰參數(shù)和短時(shí)能量參數(shù)中選取了24個(gè)特征參數(shù)。其中1~8為基音頻率參數(shù),包括:基頻最大值、基頻最小值、基頻變化范圍、基頻局部最小值分布、基頻的均值、基頻方差、基頻變化率的均值、基頻變化率的方差;9~14為共振峰參數(shù),包括:第一、二、三共振峰均值及其對應(yīng)共振峰方差。15~24為短時(shí)能量參數(shù),包括:短時(shí)能量及其差分的均值、最大值、最小值、中值、方差。

表1 前10最佳特征

本文使用fisher準(zhǔn)則對所選取的特征參數(shù)進(jìn)行特征評價(jià),并選出了前10個(gè)最佳特征。

識(shí)別結(jié)果如表2所示。

表2 最佳特征組合識(shí)別結(jié)果

3.2 基于語段特征的語音情感識(shí)別

為驗(yàn)證時(shí)序特性對情感識(shí)別率的影響,本文分別選取24種情況的語段長度。從10幀/段開始至240幀/段,以10幀的步長增長。為了保證實(shí)驗(yàn)過程中所使用的測試樣本的語段長度與訓(xùn)練樣本的語段長度相同,便于對測試結(jié)果進(jìn)行交叉驗(yàn)證,根據(jù)語段的長度的情況,對應(yīng)的選取了24組訓(xùn)練樣本。

24組訓(xùn)練樣本全部訓(xùn)練完成后輸入測試樣本進(jìn)行驗(yàn)證。通過測試樣本得出的驗(yàn)證結(jié)果如圖2所示。通過圖2可以看出,不同的語段長度情感識(shí)別的結(jié)果也不相同,當(dāng)識(shí)別率到160幀/段時(shí)識(shí)別的準(zhǔn)確度最高,可達(dá)到68.7%,由此可得出160幀/段為識(shí)別的最佳語段長度。

圖2 基于語段情感識(shí)別結(jié)果

4 實(shí)驗(yàn)結(jié)果分析

上一節(jié)通過對網(wǎng)絡(luò)模型訓(xùn)練及驗(yàn)證得出圖3~圖6所示各類情感識(shí)別結(jié)果。如圖3所示,生氣情感的最佳識(shí)別語段長度為60幀/段,在該語段長度下,情感識(shí)別率可達(dá)到92.6%;如圖4所示,當(dāng)語段長度為180幀/段時(shí)高興情感的識(shí)別率為最高,在該語段長度下,語音情感識(shí)別的識(shí)別率為58.3%;圖5中所示悲傷情感在語段長度為160幀/段時(shí)識(shí)別率達(dá)到最高,最高識(shí)別率為98.8%;圖6中所示驚奇的情感在語段長度為110幀/段時(shí)識(shí)別為75.7%,已達(dá)到該情感識(shí)別率的最高值。

圖3 生氣情感識(shí)別結(jié)果

圖4 高興情感識(shí)別結(jié)果

圖5 悲傷情感識(shí)別結(jié)果

圖6 驚訝情感識(shí)別結(jié)果

圖2 和圖3到圖6所示的實(shí)驗(yàn)結(jié)果表明:語段的長度對情感識(shí)別率有較大的影響。而全局統(tǒng)計(jì)特征在一定程度能夠使某類情感的識(shí)別率達(dá)到最高,但并不能保證使系統(tǒng)的平均識(shí)別率達(dá)到最優(yōu)。平均識(shí)別率在語段長度小于160幀/段時(shí)整體呈現(xiàn)上升趨勢,當(dāng)語段長度等于160幀/段時(shí)達(dá)到最高,語段長度大于160幀/段時(shí)開始呈現(xiàn)下降趨勢。并且每種情感的最佳識(shí)別語段長度各不相同,高興和悲傷的最佳語段相對較長,生氣和驚奇相對較短,據(jù)此推測人耳對不同類別情感的敏感段長也不同。另外通過比較4類情感的識(shí)別率,發(fā)現(xiàn)在目前使用的情感特征和識(shí)別模型基礎(chǔ)上,悲傷類情感最容易被識(shí)別,相反對高興類情感的識(shí)別性能差強(qiáng)人意。

5 結(jié)語

本文提出一種改進(jìn)的Elman神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并將其應(yīng)用于語音情感識(shí)別領(lǐng)域,通過仿真實(shí)驗(yàn)取得了較好的識(shí)別效果。實(shí)驗(yàn)證明改進(jìn)的Elman神經(jīng)網(wǎng)絡(luò)模型能夠有效地對全局統(tǒng)計(jì)特征和時(shí)序特征進(jìn)行融合,在保證網(wǎng)絡(luò)訓(xùn)練不陷入局部極小值而導(dǎo)致無法收斂的情況下能有效提高系統(tǒng)的整體識(shí)別率。

[1]Kennedy J,Eberhart R C.Particle swarms optimization[C]//Proceedings of IEEE International Conference on Neural Networks,USA,1995:1942-1948.

[2]Ammar W,Nirod C,Tan K.Solving shortest path problem usingparticle swarm optimization[J].Soft Computing,2008,8(4):1643-1653.

[3] Marcio S,Evaristo C.Nonlinear parameter estimation through particle swarm optimization[J].Chemical Engineering Science,2008,63(6):1542-1552.

[4]C.J.Lin,S.J.Hong.The Design of Neuro-fuzzy Networks Using Particle Swarm Optimization and Recursive Singular Value Decomposition[J].Neurocomputing,2007,71(1-3):297-310.

[5]T.Souda,A.Silva,A.Neves.Particle Swarm based Data Mining Algorithms for classification task[J].Parallel Computing,2004,(30):767-783.

[6]F.Sahin,M.?.Yavuz,Z.Arnavut,?.Uluyol.Fault Diagnosis for Airplane Engines Using Bayesian Networks and Distributed Particle Swarm Optimization[J].Parallel Computing,2007,33(2):124-143.

[7]Hyun K,Kim J H.Quantum-inspired evolutionary algorithm fora class of combinational optimization[J].IEEE Transactions on Evolutionary Computing,2002,6(6):580-593.

[8]Shi Yuhui,Eberhart R.A Modified Particle Swarm Optimizer[C]//Proc.of IEEE International Conference on Evolutionary omputation.Anchorage,Alaska,USA:[s.n.],2007.

[8]黃程韋,趙艷等.實(shí)用語音情感的特征分析與識(shí)別的研究[M].電子與信息學(xué)報(bào),2011,33(1):312-317.HUANG Chengwei,ZHAO Yan,et al.Research on feature analysis and recognition of practical speech emotion[M].Journal of electronics and information,2011,33(1):312-317.

[9]林奕琳,韋崗,楊康才.語音情感識(shí)別的研究進(jìn)展[J].電路與系統(tǒng)學(xué)報(bào),2007,12(1):90-98.LIU Yilin,WEI Gang,YANG Kangcai.Research Progress of Speech Emotion Recognition[J].Journal of Cirouits and Systems,2007,12(1):90-98.

[10]郭鵬娟,蔣冬梅.基于基頻特征的情感語音識(shí)別研究[M].計(jì)算機(jī)應(yīng)用研究,2007,24(10):2056-2058.LIN Yilin,WEI Gang,YANG Kangcai.Advances in speech emotion recognition[M].Journal of circuits and systems,2007,12(1):569-574.

[11]姜曉慶,田嵐,崔國輝.多語種情感語音的韻律特征分析和情感識(shí)別研究[J].聲學(xué)學(xué)報(bào),2006,3(13):569-574.JIANG Xiaoqing,TIAN LAN,CUI Guohui.Prosodic feature analysis and emotion recognition of multilingual emotional speech[J].Journal of acoustics,2006,3(13):569-574.

[12]趙力,錢向民等.語音信號(hào)中的情感識(shí)別研究[J].軟件學(xué)報(bào),2001,12(7):1036-1038.ZHAO Li,QIAN Xiangming,et al.Research on emotion recognition of speech signal[J].Journal of software,2001,12(7):1036-1038.

[13]余伶俐,周開軍,邱愛兵.基于Elman神經(jīng)網(wǎng)絡(luò)的語音情感識(shí)別應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(5):56-58.YU Lingli,ZHOU Kaijun,QIU Hong.Application Research of speech emotion recognition based on Elman neural network[J].Computer application research,2012,29(5):56-58.

[14]韓文靜.基于神經(jīng)網(wǎng)絡(luò)的語音情感識(shí)別技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2007:339-345.HAN Wenjing.Research on speech emotion recognition technology based on neural network[D].Harbin Institute of Technology,2007:339-345.

[15]時(shí)小虎.Elman神經(jīng)網(wǎng)絡(luò)與進(jìn)化算法的若干理論研究及應(yīng)用[D].長春:吉林大學(xué),2006:789-794.SHI Xiaohu.Theoretical research and application of Elman neural network and evolutionary algorithm[D].Changchun:Jilin University,2006:789-794.

[16]趙志剛,常成.帶變異算子的自適應(yīng)粒子群優(yōu)化算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(17):42-44.ZHAO Zhigang,CHENG Chang.Adaptive particle swarm optimization with mutation operator[J].Computer engineering and applications,2011,47(17):42-44.

Study of Speech Emotion Recognition Based on Improved Elman Neural Network

WANG Ying
(College of Computer and Information Technology,Northeast Petrolem University,Daqing 163000)

Speech emotion features can be divided into the global statistical feature and instantaneous characteristics on the time granularity.According to the dynamic characteristics of speech emotion,this paper presents a realization of speech emotion recognition improved Elman neural network model.The improved Elman network receive global feature signal and the time sequence signal as input,and modify the network structure automatically according to the input signal characteristics.This new Elman network fuses the global feature of signal and the time sequence signal successfully,and enhances the discrimination of the whole system.

speech emotion features,improved Elman neural network,global feature signal,time sequence signal

TP389.1

10.3969/j.issn.1672-9722.2017.11.011

Class Number TP389.1

2017年5月6日,

2017年6月24日

王穎,女,碩士研究生,講師,研究方向:人工智能、情感計(jì)算。

猜你喜歡
段長度識(shí)別率時(shí)序
顧及多種弛豫模型的GNSS坐標(biāo)時(shí)序分析軟件GTSA
清明
基于GEE平臺(tái)與Sentinel-NDVI時(shí)序數(shù)據(jù)江漢平原種植模式提取
巧用參數(shù)法解答一類定值問題
高能管系中管段長度比與最大熱應(yīng)力的關(guān)系
煤矸光電分選輸送機(jī)上料段物料沖擊穩(wěn)定性研究*
你不能把整個(gè)春天都搬到冬天來
首排錨桿錨固段長度對基坑頂?shù)乇砹芽p開展的影響分析
檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用分析
基于PCA與MLP感知器的人臉圖像辨識(shí)技術(shù)
乌拉特后旗| 泽库县| 临桂县| 台南市| 龙胜| 山东省| 罗源县| 波密县| 赣州市| 罗定市| 河津市| 临邑县| 遵义县| 泗阳县| 东阿县| 平阴县| 高安市| 上虞市| 莲花县| 无锡市| 邢台市| 新晃| 十堰市| 时尚| 监利县| 延寿县| 台北县| 长沙市| 赞皇县| 潜江市| 响水县| 三亚市| 大安市| 安康市| 顺昌县| 蕉岭县| 乌什县| 大兴区| 滁州市| 峡江县| 临安市|