国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于HMM和ANN的語音情感識(shí)別研究

2011-08-07 07:53:24胡洋蒲南江吳黎慧高磊
電子測試 2011年8期
關(guān)鍵詞:特征參數(shù)識(shí)別率錄音

胡洋,蒲南江,吳黎慧,高磊

(中北大學(xué)信息與通信工程學(xué)院 太原 030051)

0 引言

目前,大多數(shù)研究者都是基于Plutchik劃分的6大基本情感(平靜、高興、驚奇、憤怒、悲傷、恐懼),本文也以上述分類標(biāo)準(zhǔn)進(jìn)行語音情感識(shí)別研究。語音情感識(shí)別的研究已取得許多成果,但是傳統(tǒng)的方法大多都是運(yùn)用單一的分類器來進(jìn)行情感識(shí)別,比如文獻(xiàn)[3]構(gòu)建HMM模型進(jìn)行語音情感識(shí)別,得到了不錯(cuò)的識(shí)別率。而文獻(xiàn)[4]通過自組織人工神經(jīng)網(wǎng)絡(luò)進(jìn)行語音情感識(shí)別也有比較理想的識(shí)別結(jié)果。但是由于單一分類器的固有缺點(diǎn),識(shí)別率還有待提高。本文考慮將HMM和ANN兩種分類器進(jìn)行融合,將進(jìn)一步提高語音情感識(shí)別率。

1 語音情感庫建立

由于語音情感識(shí)別研究的特殊性,沒有統(tǒng)一的語音情感識(shí)別庫,大多數(shù)研究者都是自建符合自己研究的語音情感識(shí)別庫,主要有兩種獲得語音情感庫的方法:一是誘導(dǎo)錄音法,通過準(zhǔn)備沒有情感狀態(tài)傾向的中性語句作為錄音腳本,記錄錄音者在各種模擬情感狀態(tài)下的語音材料作為語音庫;二是視頻剪輯法,通過截取影視作品中的帶有需要情感狀態(tài)的語句作為語音庫的來源。

因?yàn)橐曨l剪輯法工作量大,而且得到的語音材料大多包含背景音,給后期工作帶來額外的麻煩。本文采取誘導(dǎo)錄音法建立情感語音庫,即邀請8位(4男4女)情感豐富的錄音者對(duì)30個(gè)語音腳本分別用高興、憤怒、驚奇、悲傷、恐懼以及平靜的方式錄音1遍。然后邀請錄音者之外的10人對(duì)錄音材料進(jìn)行試聽實(shí)驗(yàn),去除情感特征不明顯的語句,最終得到600句符合要求的情感語句,400句作為訓(xùn)練語句,200句作為識(shí)別語句。

語音聽取實(shí)驗(yàn)的結(jié)果見表1。

表1 情感語音聽取實(shí)驗(yàn)結(jié)果

2 特征提取

語音之所以能夠表達(dá)情感,是因?yàn)槠渲邪荏w現(xiàn)情感特征的參數(shù)。情感的變化通過特征參數(shù)的差異而體現(xiàn)。因此研究從語音信號(hào)中提取什么樣的特征來反映情感狀態(tài)的差別,對(duì)于情感語音識(shí)別具有極其重要的意義。

選取語音情感特征要考慮兩個(gè)方面的因素:一是選取的情感特征要適合所采取的語音情感識(shí)別模型的結(jié)構(gòu)和特點(diǎn);二是要攜帶情感信息。本文分別從語音的語音特征和韻律特征兩個(gè)方面提取符合上述要求的語音情感特征。

2.1 基音頻率參數(shù)

研究表明在不同的情感狀態(tài)下,對(duì)于同一句話,基頻的變化是不同的,基音頻率反映的是整個(gè)語音信號(hào)的語調(diào)軌跡,較好地體現(xiàn)了人的情感的變化。比如驚奇情感信號(hào)的基頻軌跡曲線在句尾的地方往往有上翹的特征。

2.2 短時(shí)能量參數(shù)

短時(shí)能量參數(shù)反映了語音振幅或能量隨時(shí)間變化的關(guān)系。語音信號(hào)短時(shí)能量定義為:

2.3 線性預(yù)測倒譜系數(shù)(LPCC)

語音情感識(shí)別常用的一種特征參數(shù)是線性預(yù)測倒譜系數(shù)(LPCC),線性預(yù)測倒譜系數(shù)是從線性預(yù)測編碼系數(shù)LPC推導(dǎo)出來的。LPCC的主要優(yōu)點(diǎn)是提取出了語音產(chǎn)生過程的激勵(lì)信息,該信息主要反映聲道特性,而且只要十幾個(gè)倒譜特征參數(shù)就能很好的反映出語音的共振峰特性。

為了適應(yīng)HMM模型的結(jié)構(gòu),對(duì)提取出來的各種語音情感特征要進(jìn)行歸一化處理,歸一化后的特征參數(shù)連接形成了18維的語音特征向量:

3 語音情感識(shí)別

ANN和HMM是在語音情感識(shí)別中應(yīng)用較多的分類器,兩者各有優(yōu)勢和缺點(diǎn)。HMM是對(duì)語音信號(hào)進(jìn)行統(tǒng)計(jì)建模的強(qiáng)有力工具,但模式識(shí)別性能較差,識(shí)別和訓(xùn)練算法依賴于較強(qiáng)的假設(shè)。ANN則具有較強(qiáng)的模式識(shí)別性能和并行處理能力,它具有學(xué)習(xí)特定知識(shí)而不需要預(yù)先假設(shè)的能力,缺點(diǎn)是不能處理語音動(dòng)態(tài)變化的特征序列。本文將結(jié)合兩者的特點(diǎn),建立一個(gè)融合HMM和ANN的語音情感識(shí)別器。

隱馬爾科夫鏈(HMM)是雙重隨機(jī)過程,一個(gè)隨機(jī)過程描述狀態(tài)的轉(zhuǎn)移,另一個(gè)描述狀態(tài)與觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。在HMM中,不能直接看到隨機(jī)過程的狀態(tài),只能看到觀察值,通過另一個(gè)隨機(jī)過程去感知狀態(tài)的存在及其特性。

HMM模型可以很好地模擬人類的語言過程,自從20世紀(jì)80年代,L. R. Rabiner把HMM|統(tǒng)計(jì)模型引入語音情感識(shí)別上以來,研究者已經(jīng)取得了不少研究成果。HMM在語音情感識(shí)別中的主要問題有:Baum-Welch訓(xùn)練算法、Viterbi算法等問題。傳統(tǒng)的Baum-Welch算法是一種基于最大似然訓(xùn)練準(zhǔn)則的算法,其本質(zhì)上是似然概率 P ( X )最大化的問題的一個(gè)局部最優(yōu)解的問題。 是模型的參數(shù)集,X表示用于訓(xùn)練的數(shù)據(jù)。它是用已知類別的模型數(shù)據(jù)來訓(xùn)練模型,使其似然概率趨于局部最大,但是不能保證這個(gè)似然概率比其他模型對(duì)應(yīng)的數(shù)據(jù)的似然概率更大。本文考慮使用基于最大互信息量(MMI)的參數(shù)重估方法。

對(duì)于HMM模型,要為每一種情感建立一個(gè)HMM模型,本文對(duì)高興、驚奇、憤怒、悲傷、恐懼、平靜這6種情感分別建立一個(gè)HMM模型,標(biāo)記為 Hi, i = 1 , 2 , 3 , 4 , 5 , 6 。在進(jìn)行語音情感識(shí)別過程中,對(duì)于每一個(gè)要識(shí)別的情感語音樣本M,都要進(jìn)行分幀、預(yù)處理、特征參數(shù)的提取和特征參數(shù)的歸一化的準(zhǔn)備工作,得到所需要的語音特征向量Vi,對(duì)于每一種HMM模型,利用Viterbi算法求出相應(yīng)的最大概率,語音樣本就被識(shí)別與其匹配概率最大的HMM所代表的語音情感。

然后考慮HMM和ANN的融合問題,這里選用的人工神經(jīng)網(wǎng)絡(luò)是多層感知器(Multilayer perception)。MLP有以下特點(diǎn):(1)它能將復(fù)雜的聲學(xué)信號(hào)映射為不同級(jí)別的語音學(xué)和音韻學(xué)的表示(2)對(duì)不同的類,可以在超平面中形成分離得部分,適合于分類(3)不需要事先做出假設(shè),對(duì)模型使用全局約束,識(shí)別效果好。

HMM和ANN融合的整體識(shí)別流程圖如圖1所示。

圖1 ANN/HMM識(shí)別流程圖

首先對(duì)該分類器進(jìn)行訓(xùn)練,HMM采用簡單的從左到右的單向HMM模型,訓(xùn)練算法采用基于最大互信息量準(zhǔn)則。對(duì)每一個(gè)樣本計(jì)算它和所有HMM模型的似然概率,同時(shí)為了得到等維的特征矢量,這里采用平均矢量法對(duì)得到的語音特征矢量進(jìn)行規(guī)整,從而完成對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程。在識(shí)別階段,先用每個(gè)HMM的均值矢量序列與待識(shí)別的語音信號(hào)進(jìn)行線性匹配,選擇距離最小的HMM對(duì)待識(shí)別的語音規(guī)整,作為神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn),通過MLP識(shí)別。實(shí)驗(yàn)結(jié)果表明識(shí)別結(jié)果有了一定的提高。具體數(shù)據(jù)如表2所示。

表2 HMM和HMM/ANN識(shí)別結(jié)果對(duì)比

4 結(jié)束語

基于多種分類器的融合的方法是一種值得探究的方法,在單一分類器的識(shí)別率提高有一定困難的情況下,多分類器融合為提高語音情感識(shí)別率開創(chuàng)了新的方向,由于語音樣本不足等種種原因,語音情感識(shí)別率還有待提高,有些技術(shù)還有待突破,例如MMI準(zhǔn)則還有待改進(jìn)等問題。

[1]蔣丹寧,蔡蓮紅.基于語音聲學(xué)特征的情感信息識(shí)別[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2006, 46(1):86-89.

[2]趙力,蔣春暉,鄒采榮,等. 語音信號(hào)中的情感特征分析和識(shí)別的研究[J]. 電子學(xué)報(bào),2004,32(4):606-609.

[3]國辛純,郭繼昌,竇修全.基于HMM的語音情感識(shí)別研究[J].電子測量技術(shù),2006,29(5):69-71.

[4]石瑛,胡學(xué)鋼.基于神經(jīng)網(wǎng)絡(luò)的語音情感識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用, 2008, 44(24):191-194.

[5]林奕琳,韋崗. 基于短時(shí)和長時(shí)特征的語音情感識(shí)別研究[J]. 通信技術(shù),2006,6(4):450-454.

[6]趙力,錢向民,鄒采榮,等,語音信號(hào)中的情感識(shí)別研究[J]. 軟件學(xué)報(bào),2001(12):1050-1055.

[7]茅曉泉,胡光銳.基于最大互信息量的離散隱馬爾科夫模型訓(xùn)練方法[J].上海交通大學(xué)學(xué)報(bào),2001,35(11):1713-1716.

[8]李玉萍,樸春俊,韓永成.一種帶噪語音信號(hào)端點(diǎn)檢測方法研究[J].電子測試,2008(2):14-17.

猜你喜歡
特征參數(shù)識(shí)別率錄音
故障診斷中信號(hào)特征參數(shù)擇取方法
基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
Funny Phonics
funny phonics
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
A New Term
Colorful Seasons多彩四季
建水县| 柘城县| 贡嘎县| 城口县| 鸡东县| 渝中区| 天气| 安阳市| 象州县| 旬阳县| 汾阳市| 岳阳县| 云浮市| 和平县| 会昌县| 天长市| 东山县| 海盐县| 岳普湖县| 定襄县| 棋牌| 麟游县| 邓州市| 恭城| 乐都县| 兴宁市| 肇东市| 和政县| 万载县| 同心县| 舒兰市| 蕉岭县| 河北区| 平邑县| 临高县| 安顺市| 手机| 东至县| 新沂市| 保德县| 攀枝花市|