国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語(yǔ)音情感識(shí)別的關(guān)鍵技術(shù)

2015-02-10 23:10:06張雪英
關(guān)鍵詞:韻律語(yǔ)音數(shù)據(jù)庫(kù)

張雪英,孫 穎,張 衛(wèi),暢 江

(太原理工大學(xué) 信息工程學(xué)院,太原 030024)

語(yǔ)音情感識(shí)別的關(guān)鍵技術(shù)

張雪英,孫 穎,張 衛(wèi),暢 江

(太原理工大學(xué) 信息工程學(xué)院,太原 030024)

語(yǔ)音信號(hào)中的情感信息是一種很重要的信息資源,僅靠單純的數(shù)學(xué)模型搭建和計(jì)算來進(jìn)行語(yǔ)音情感識(shí)別就顯現(xiàn)出不足。情感是由外部刺激引發(fā)人的生理、心理變化,從而表現(xiàn)出來的一種對(duì)人或事物的感知狀態(tài),因此,將認(rèn)知心理學(xué)與語(yǔ)音信號(hào)處理相結(jié)合有益于更好地處理情感語(yǔ)音。首先介紹了語(yǔ)音情感與人類認(rèn)知的關(guān)聯(lián)性,總結(jié)了該領(lǐng)域的最新進(jìn)展和研究成果,主要包括情感數(shù)據(jù)庫(kù)的建立、情感特征的提取以及情感識(shí)別網(wǎng)絡(luò)等。其次介紹了基于認(rèn)知心理學(xué)構(gòu)建的模糊認(rèn)知圖網(wǎng)絡(luò)在情感語(yǔ)音識(shí)別中的應(yīng)用。接著,探討了人腦對(duì)情感語(yǔ)音的認(rèn)知機(jī)理,并試圖把事件相關(guān)電位融合到語(yǔ)音情感識(shí)別中,從而提高情感語(yǔ)音識(shí)別的準(zhǔn)確率,為今后情感語(yǔ)音識(shí)別與認(rèn)知心理學(xué)交叉融合發(fā)展提出了構(gòu)思與展望。

語(yǔ)音情感識(shí)別;語(yǔ)音自然度;聲學(xué)特征;認(rèn)知機(jī)理;模糊認(rèn)知圖;事件相關(guān)電位

情感能力是人類智能的重要標(biāo)志,情感在人與人的交流中必不可少。人類在有能力制造和研制機(jī)器以后,希望機(jī)器可以聽懂人的語(yǔ)言,判斷人的情感,從而實(shí)現(xiàn)更自然和諧的人機(jī)交互。情感語(yǔ)音識(shí)別(Emotion Speech Recognition)的出現(xiàn),使得人類的這一設(shè)想得以實(shí)現(xiàn)。目前,人機(jī)交互的方式大部分局限在使用鍵盤、鼠標(biāo)或觸摸屏。隨著社會(huì)的發(fā)展,人類希望機(jī)器能夠更人性化、更智能化、更便于操作。這一要求,必然需要計(jì)算機(jī)實(shí)現(xiàn)與人類相似的思維、感知以及行為功能。

研究計(jì)算機(jī)的情感識(shí)別技術(shù),可以從兩大方面進(jìn)行。一是面部表情,面部表情和手勢(shì)向來是情感識(shí)別系統(tǒng)中的基本方式;二是語(yǔ)音,在溝通過程中想要得知對(duì)方的動(dòng)機(jī)和情緒,語(yǔ)音是最有利和最直接的方式。語(yǔ)音信號(hào)中的情感信息是一種很重要的信息資源,它是人與人交流中必然存在的信息。同樣的一句話,由于說話人的情感不同,在聽者的感知上就可能會(huì)有較大的差別。目前,關(guān)于情感信息處理的研究正在逐步深入;而其中語(yǔ)音的情感識(shí)別因涉及到不同語(yǔ)種之間的差異,進(jìn)展也不盡相同。英語(yǔ)、日語(yǔ)、德語(yǔ)、西班牙語(yǔ)的語(yǔ)音情感分析處理研究較多,漢語(yǔ)語(yǔ)音的情感分析也逐漸成為研究熱點(diǎn)。隨著科技的發(fā)展,情感語(yǔ)音識(shí)別會(huì)越來越貼近人們的生活,開展這方面研究對(duì)于人類社會(huì)的進(jìn)步與發(fā)展具有重要的意義。目前,國(guó)內(nèi)外對(duì)語(yǔ)音情感識(shí)別的研究主要集中在以下幾個(gè)方面。

1 情感語(yǔ)音數(shù)據(jù)庫(kù)

情感語(yǔ)音數(shù)據(jù)庫(kù)是情感語(yǔ)音識(shí)別的基礎(chǔ)。情感語(yǔ)音數(shù)據(jù)庫(kù)的質(zhì)量對(duì)情感語(yǔ)音識(shí)別研究起著決定性的作用。情感語(yǔ)音數(shù)據(jù)庫(kù)按照應(yīng)用目的可以分為識(shí)別型和合成型;按照語(yǔ)種差異可以分為英語(yǔ)、德語(yǔ)、中文等類別;按照情感描述模型可以分為離散型情感語(yǔ)音數(shù)據(jù)庫(kù)和連續(xù)型情感語(yǔ)音數(shù)據(jù)庫(kù);按照獲取途徑可分為表演型、激勵(lì)型、啟發(fā)型和摘引型;按照語(yǔ)音的自然度可以分為模仿型、誘發(fā)型和自然型[1]。本文從自然度的角度對(duì)3種類型的情感語(yǔ)音數(shù)據(jù)庫(kù)進(jìn)行描述分析。

模仿型語(yǔ)音庫(kù)一般由專業(yè)演員朗讀的有情感要求的語(yǔ)音組成。這種語(yǔ)音庫(kù)的優(yōu)點(diǎn)是文本、性別、情感可以滿足研究要求。但因該庫(kù)由專業(yè)演員表演獲得,語(yǔ)音情感表現(xiàn)具有一定的夸張度,不同于生活中的真實(shí)情感,不利于將所得研究結(jié)果運(yùn)用到現(xiàn)實(shí)生活中。

誘發(fā)型語(yǔ)音庫(kù)是對(duì)被錄音人員進(jìn)行啟發(fā)、引導(dǎo)等獲得研究所需要的情感語(yǔ)音。它相對(duì)于自然型來說較為容易實(shí)現(xiàn)。但是這種方式的錄音效果是由激勵(lì)的情感程度決定。建立誘發(fā)型語(yǔ)音庫(kù)不僅要選取合適的激勵(lì)源,而且要克服人對(duì)激勵(lì)源的個(gè)體差異性,確定情感誘發(fā)的有效性。

自然型語(yǔ)音庫(kù)就是采集正常生活中的對(duì)話片段,在被錄音者不知道的情況下進(jìn)行語(yǔ)音的錄制,或者在廣播、電視等多媒體材料中剪輯研究所需要的情感語(yǔ)音片段。這種方法的優(yōu)點(diǎn)是情感真實(shí)度較高,情感表達(dá)直接由心理狀態(tài)出發(fā),并且有上下文的關(guān)聯(lián)信息,有利于以后的研究。但是數(shù)據(jù)的來源可能會(huì)涉及到隱私等問題,并且獲得自然型語(yǔ)音需要較大的工作量。

近年來,國(guó)內(nèi)外研究者已經(jīng)建立了多種情感語(yǔ)音數(shù)據(jù)庫(kù)[2-7]。這些數(shù)據(jù)庫(kù)涉及到多個(gè)語(yǔ)種,如瑞士語(yǔ)、英語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)、德語(yǔ)、漢語(yǔ)等。隨著對(duì)情感語(yǔ)音研究的關(guān)注度的提高,國(guó)內(nèi)高校、研究機(jī)構(gòu)也根據(jù)自己的研究需求建立了情感語(yǔ)音數(shù)據(jù)庫(kù)[8]。然而,由于情感語(yǔ)音數(shù)據(jù)庫(kù)的建立標(biāo)準(zhǔn)、研究任務(wù)不同,并且沒有公開共享的情感語(yǔ)音數(shù)據(jù)庫(kù),因此不同情感語(yǔ)音數(shù)據(jù)庫(kù)之間無法共享研究成果。

我們參照國(guó)內(nèi)外語(yǔ)音庫(kù)的制作規(guī)范建立了TYUT1.0情感語(yǔ)音數(shù)據(jù)庫(kù)[9]。該數(shù)據(jù)庫(kù)屬于模仿型情感語(yǔ)音數(shù)據(jù)庫(kù),選擇高興、生氣、中立等3種最基本的情感狀態(tài),6句中文、5句英文進(jìn)行語(yǔ)音的錄制。錄制結(jié)束后對(duì)語(yǔ)音進(jìn)行有效性分析,通過兩次主觀辨聽篩選出四種情感語(yǔ)音。

為了研究自然情感語(yǔ)音,我們又建立了TYUT2.0自然型情感語(yǔ)音庫(kù)。該數(shù)據(jù)庫(kù)是通過剪輯多媒體材料獲得包括高興、生氣、悲傷、驚奇等4種情感的語(yǔ)音庫(kù)。第一階段為初選階段的語(yǔ)音庫(kù),從廣播劇中截取4種情感的語(yǔ)音片段獲得。第二階段為情感語(yǔ)音數(shù)據(jù)庫(kù)的有效性評(píng)價(jià)階段,建立改進(jìn)的模糊綜合評(píng)價(jià)模型,利用該模型對(duì)初選階段語(yǔ)音庫(kù)從情感準(zhǔn)確度、自然度、背景噪聲等5個(gè)方面進(jìn)行評(píng)價(jià)篩選,得到最終的情感語(yǔ)音數(shù)據(jù)庫(kù)。

2 語(yǔ)音情感特征提取

提取情感關(guān)聯(lián)度高的特征是語(yǔ)音情感識(shí)別的又一關(guān)鍵。如果提取的特征不能很好地代表情感差異度,將導(dǎo)致之后的識(shí)別網(wǎng)絡(luò)處理結(jié)果難以令人滿意。近年來,情感語(yǔ)音特征種類雖然沒有一個(gè)統(tǒng)一的劃分,但是大致上可分為聲學(xué)特征和語(yǔ)言特征[10]。這兩類特征提取方法和對(duì)語(yǔ)音情感識(shí)別的貢獻(xiàn)也因選取的語(yǔ)音庫(kù)不同而截然不同。如果選取的語(yǔ)音庫(kù)是基于文本的數(shù)據(jù)庫(kù),語(yǔ)言特征就可以忽略不計(jì)。如果選取的語(yǔ)音庫(kù)是貼近現(xiàn)實(shí)生活的真實(shí)語(yǔ)料,語(yǔ)言特征將發(fā)揮極大的作用。以往的學(xué)者大多數(shù)關(guān)注的是對(duì)聲學(xué)特征的研究。目前,常用的語(yǔ)音情感識(shí)別的聲學(xué)特征主要包括韻律學(xué)特征、基于譜的特征和音質(zhì)特征等[11]。這些特征向量一般以全局統(tǒng)計(jì)的方式進(jìn)行構(gòu)造,作為語(yǔ)音情感識(shí)別網(wǎng)絡(luò)的輸入。常用的統(tǒng)計(jì)參數(shù)主要有方差、均值和中值等。

2.1 韻律特征

韻律體現(xiàn)了語(yǔ)音信號(hào)強(qiáng)度和語(yǔ)調(diào)的變化,可以使得語(yǔ)言結(jié)構(gòu)更加自然,同時(shí)增強(qiáng)語(yǔ)音流動(dòng)性。此外,韻律還可以被看作是音節(jié)、單詞、短語(yǔ)和句子相關(guān)的語(yǔ)音特征,表征了語(yǔ)音信號(hào)中的非言語(yǔ)特性[12]。因此,韻律特征也被稱為“超音段特征”。韻律已經(jīng)作為語(yǔ)音情感識(shí)別的特征取得了顯著結(jié)果,且常用的韻律特征主要包括能量、語(yǔ)速、基頻、時(shí)長(zhǎng)等。

IIiou和Anagnostopoulos[13]提取了柏林語(yǔ)音庫(kù)35維韻律特征(基頻、能量和時(shí)長(zhǎng)),采用神經(jīng)網(wǎng)絡(luò)對(duì)其中情感進(jìn)行判別,獲得了51%的識(shí)別結(jié)果。Rao et al[14]選用Telugu情感語(yǔ)音庫(kù)(IITKGP-SESC)和德國(guó)柏林語(yǔ)音庫(kù)(EMO-DB)作為實(shí)驗(yàn)室語(yǔ)料庫(kù)來源[15],提取韻律特征時(shí)長(zhǎng)(duration)、基頻(pitch)和能量(energy);并在此基礎(chǔ)上分別提取對(duì)應(yīng)的全局特征和局部特征。采用支持向量機(jī)(Support Vector Machine,SVM)對(duì)提取的特征向量進(jìn)行分類,并對(duì)7種情感進(jìn)行識(shí)別,得到了64.38%的平均識(shí)別結(jié)果。Kao和Lee[16]分別從幀、音節(jié)和詞語(yǔ)的水平上對(duì)韻律特征進(jìn)行研究,對(duì)4種情感的判別獲得了90%的識(shí)別結(jié)果。

2.2 基于譜的特征

基于譜的特征體現(xiàn)了語(yǔ)音信號(hào)頻譜特性,主要分為頻譜特征和倒譜特征。常用于語(yǔ)音情感識(shí)別的譜特征有梅爾倒譜系數(shù)(Mel-Frequency Cepstrum Coefficients,MFCC),線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstrum Coefficients,LPCC);對(duì)數(shù)頻率功率系數(shù)(Log Frequency Power Coefficients,LFPC),感知線性預(yù)測(cè)(Perceptual Linear Predictive,PLP),線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficients,LPC)。目前,用于語(yǔ)音情感識(shí)別中的基于譜的特征,MFCC表現(xiàn)出的性能最優(yōu),并得到了廣泛使用[17]。

臺(tái)灣學(xué)者選用MFCC[18]、LPCC等作為特征向量,分別使用SVM[19]和人工神經(jīng)網(wǎng)絡(luò)(Artifical Neural Network,ANN)對(duì)普通話5種情感進(jìn)行分類,分別獲得84.2%和80.8%的識(shí)別結(jié)果,并總結(jié)出SVM對(duì)憤怒情感的識(shí)別優(yōu)于ANN,但是沒有將高興與其他3種情感(悲傷,厭煩,中性)更好地區(qū)分開來[20]。

2.3 音質(zhì)特征

音質(zhì)特征描述了聲門激勵(lì)信號(hào)的性質(zhì),包括發(fā)聲者的語(yǔ)態(tài)、呼吸喘息,可以通過脈沖逆濾波補(bǔ)償聲道影響。此外,音質(zhì)特征的表現(xiàn)因情感不同而有所差異。通過對(duì)音質(zhì)特征的評(píng)價(jià),可以獲得說話人的生理、心理信息并區(qū)分情感狀態(tài)。音質(zhì)特征主要包括諧波噪聲比(Harmonics-to-noise Ratio,HNR)、抖動(dòng)(jitter)和閃光(shimmer)。

Lugger et al針對(duì)音質(zhì)特征在噪聲環(huán)境下的魯棒性進(jìn)行研究,分析了影響音質(zhì)特征的5個(gè)參數(shù)并驗(yàn)證參數(shù)對(duì)情感判別的性能[21]。此外,Lugger et al分別提取了65維MFCC統(tǒng)計(jì)特征、201維韻律統(tǒng)計(jì)特征和67維音質(zhì)統(tǒng)計(jì)特征對(duì)柏林語(yǔ)音庫(kù)6種情感進(jìn)行訓(xùn)練和測(cè)試。經(jīng)驗(yàn)證,針對(duì)說話人獨(dú)立的語(yǔ)音情感識(shí)別中,音質(zhì)特征性能優(yōu)于MFCC[22]。

2.4 融合特征

單獨(dú)使用某一方面的聲學(xué)特征存在一定的局限性,于是研究者相繼將以上3種特征融合起來進(jìn)行語(yǔ)音情感識(shí)別。趙力等在對(duì)實(shí)用語(yǔ)音情感的特征分析中,提取了針對(duì)煩躁、喜悅和平靜等實(shí)用情感的74個(gè)全局統(tǒng)計(jì)特征,其中前36個(gè)特征為韻律特征,后38個(gè)特征為音質(zhì)特征,平均識(shí)別率達(dá)到75%[23]。Amol et al選用MFCC,過零率(Zero-crossings Rate,ZCR)、能量等特征對(duì)柏林語(yǔ)音庫(kù)6種情感進(jìn)行實(shí)驗(yàn),獲得了98.31%的優(yōu)異結(jié)果[24]。此外,研究者使用上述3種聲學(xué)特征及其統(tǒng)計(jì)特征,在一定程度上容易造成特征向量維度過高,冗余量過大。特征維度過高對(duì)識(shí)別網(wǎng)絡(luò)的訓(xùn)練產(chǎn)生很大的干擾。因此,采用不同的算法來實(shí)現(xiàn)特征篩選也逐漸成了特征提取的另一研究熱點(diǎn)。趙力等分析了Fisher判別準(zhǔn)則(Fisher Discrimination Ratio,FDR)和線性降維分析算法(Linear Discrimination Analysis,LDA)的性能優(yōu)劣。此外,尤鳴宇對(duì)常用的情感特征篩選算法進(jìn)行了分析與研究[25]。

2.5 基于人耳聽覺特性的特征

過零峰值幅度特征(Zero Crossings with Peak Amplitudes,ZCPA)是一種基于人耳聽覺特性模型的特征。這種特征將信號(hào)的頻率及幅度信息用過零率和峰值的非線性壓縮來表示,并將兩種信息有機(jī)結(jié)合。ZCPA在孤立詞識(shí)別中具有較高的抗噪性,我們將其引入到語(yǔ)音情感識(shí)別后,獲得了較好的識(shí)別效果[26,27]。我們從語(yǔ)音信號(hào)短時(shí)平穩(wěn)理論的角度詳細(xì)分析了分幀長(zhǎng)短對(duì)ZCPA特征的影響,并將Teager 能量算子(Teager Energy Operator,TEO)與ZCPA特征相結(jié)合,提出了一種新的基于人耳聽覺特性模型的過零最大Teager 能量算子(Zero-Crossings with Maximal Teager Energy Operator,ZCMT)特征。該特征既保留了人耳的聽覺特性,又將最能表征情感狀態(tài)的特征融入了系統(tǒng)。實(shí)驗(yàn)取得了較好的識(shí)別結(jié)果。

3 認(rèn)知網(wǎng)絡(luò)

識(shí)別網(wǎng)絡(luò)模型是情感語(yǔ)音識(shí)別系統(tǒng)的核心部分,網(wǎng)絡(luò)的有效性對(duì)識(shí)別結(jié)果的高低有很大的影響。識(shí)別網(wǎng)絡(luò)模型的目的是實(shí)現(xiàn)模式匹配,在識(shí)別過程中,當(dāng)語(yǔ)音信號(hào)的特征輸入到識(shí)別網(wǎng)絡(luò)中時(shí),計(jì)算機(jī)通過相應(yīng)的算法得到識(shí)別結(jié)果。顯然,識(shí)別網(wǎng)絡(luò)的選擇與識(shí)別結(jié)果有著直接的關(guān)系。

現(xiàn)有的統(tǒng)計(jì)模型與識(shí)別算法大致有以下幾種:動(dòng)態(tài)時(shí)間規(guī)整模型(Dynamic Time Warping,DTW)、隱馬爾可夫模型(Hidden Markov Models,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)、支持向量機(jī)(SVM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)等。其中,DTW利用模板匹配法進(jìn)行識(shí)別,HMM和GMM利用概率統(tǒng)計(jì)原理進(jìn)行識(shí)別,ANN和SVM是基于判別模型的方法進(jìn)行識(shí)別。

DTW是一種較早的模型訓(xùn)練和模式匹配技術(shù),該模型以整個(gè)單詞作為一個(gè)識(shí)別單元,模板庫(kù)中存入了詞匯表中所有詞的特征矢量序列模板。識(shí)別時(shí)分別將待識(shí)別語(yǔ)音的特征矢量序列與庫(kù)中的各個(gè)模板進(jìn)行比較,并將最相似的模板作為識(shí)別結(jié)果輸出。DTW 應(yīng)用動(dòng)態(tài)規(guī)整方法成功解決了語(yǔ)音信號(hào)特征參數(shù)序列時(shí)長(zhǎng)不等的難題,在小詞匯量、孤立詞語(yǔ)音識(shí)別中有良好的性能。但因其不適合連續(xù)語(yǔ)音、大詞匯量語(yǔ)音識(shí)別系統(tǒng),目前已逐漸被HMM和ANN模型取代。

HMM是語(yǔ)音信號(hào)時(shí)變特征的有參表示法[28]。該模型通過兩個(gè)相互關(guān)聯(lián)的隨機(jī)過程共同描述語(yǔ)音信號(hào)的統(tǒng)計(jì)參數(shù)特性。一個(gè)是不可觀測(cè)的、具有有限狀態(tài)的馬爾可夫鏈,另一個(gè)是與該馬爾可夫鏈的各個(gè)狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程,它是可觀測(cè)的。HMM的應(yīng)用為語(yǔ)音識(shí)別帶來重大突破,尤其是在連續(xù)、大詞匯量語(yǔ)音識(shí)別方面。文獻(xiàn)[29]中指出,在連續(xù)語(yǔ)音句子中的每個(gè)單詞發(fā)音沒有明顯的界限,分割比較困難,典型的技術(shù)解決方案就是使用基于HMM的連續(xù)語(yǔ)音識(shí)別系統(tǒng)。Nwe et al[30]利用HMM識(shí)別系統(tǒng)識(shí)別6種情感,通過一個(gè)緬甸語(yǔ)語(yǔ)音庫(kù)和一個(gè)漢語(yǔ)普通話語(yǔ)音庫(kù)訓(xùn)練和測(cè)試HMM,系統(tǒng)識(shí)別率最高可以達(dá)到78.5%和75.5%。HMM很好地模擬了人類的語(yǔ)言過程,HMM模型的訓(xùn)練和識(shí)別都已研究出有效的算法,并被不斷完善以增強(qiáng)模型的魯棒性,目前該模型應(yīng)用十分廣泛。很多研究者提出了HMM改進(jìn)算法,例如加入遺傳算法、神經(jīng)網(wǎng)絡(luò)技術(shù)等,提高了HMM的訓(xùn)練速率和識(shí)別準(zhǔn)確率。但是訓(xùn)練HMM需要大量的訓(xùn)練樣本,時(shí)間成本比較高。

GMM是一種用于密度估計(jì)的概率模型[31],主要優(yōu)點(diǎn)是擬合能力很強(qiáng),在理論上可以擬合所有的概率分布函數(shù)。文獻(xiàn)[32]在GMM模型中使用了boosting算法進(jìn)行類條件分布估計(jì),相比傳統(tǒng)使用EM(Expectation Maximization)方法進(jìn)行估計(jì)的GMM模型,該方法獲得了更優(yōu)的性能。GMM成功地應(yīng)用在語(yǔ)種識(shí)別和說話人識(shí)別研究中,在2009年召開的語(yǔ)音領(lǐng)域著名國(guó)際會(huì)議Interspeech中,GMM的識(shí)別系統(tǒng)在總體性能上效果最佳。但是GMM的主要缺點(diǎn)是對(duì)數(shù)據(jù)的依賴性過強(qiáng),因此在采用GMM的情感語(yǔ)音識(shí)別系統(tǒng)中,訓(xùn)練數(shù)據(jù)的選擇會(huì)對(duì)系統(tǒng)識(shí)別結(jié)果產(chǎn)生很大的影響。

SVM是以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)的識(shí)別算法,它通過一個(gè)核函數(shù)將特征向量由低維空間映射到高維空間中,完成線性不可分到線性可分的轉(zhuǎn)化,從而在新的高維空間中實(shí)現(xiàn)最優(yōu)分類[33]。SVM適用于小樣本分類,在多分類問題中存在不足。很多研究者在情感語(yǔ)音識(shí)別系統(tǒng)中采用SVM,并且得到了很好的識(shí)別效果。文獻(xiàn)[34]中,Tato et al使用SVM作為識(shí)別模型對(duì)喜、怒、悲、平常4類情感進(jìn)行識(shí)別研究,最終平均識(shí)別率達(dá)到73%。

我們也一直在研究利用SVM建立識(shí)別網(wǎng)絡(luò),例如,將傳統(tǒng)的AdaBoost.M2與SVM結(jié)合以實(shí)現(xiàn)多類分類,采用Geesepso算法對(duì)弱分類器的權(quán)值全局尋優(yōu),這樣得到的弱分類器具有更高的準(zhǔn)確率。實(shí)驗(yàn)表明,在低信噪比語(yǔ)音識(shí)別中,改進(jìn)的AdaBoost.M2-SVM相比傳統(tǒng)的SVM有更好的泛化能力和較高的識(shí)別準(zhǔn)確率[35]。

ANN是當(dāng)前語(yǔ)音識(shí)別研究的一大熱點(diǎn)。ANN是由節(jié)點(diǎn)互連組成的計(jì)算網(wǎng)絡(luò),通過訓(xùn)練可以使其不斷學(xué)習(xí)知識(shí)從而獲得解決問題的能力,本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng)。它模擬了人類大腦神經(jīng)細(xì)胞活動(dòng),具有記憶、聯(lián)想、推理、總結(jié)和快速并行實(shí)現(xiàn)的特點(diǎn),同時(shí)還具備自適應(yīng)、自組織的功能。在一些環(huán)境因素復(fù)雜、背景信息模糊、推理規(guī)則不明確的情況下,ANN比HMM有更大的優(yōu)勢(shì),ANN因此為噪聲環(huán)境下非特定人的語(yǔ)音識(shí)別提供了很好的解決方法。目前利用ANN的語(yǔ)音識(shí)別系統(tǒng)大部分采用BP神經(jīng)網(wǎng)絡(luò),并取得了很好的識(shí)別效果[36]。在文獻(xiàn)[37]中,研究者采用時(shí)間規(guī)整網(wǎng)絡(luò)級(jí)聯(lián)BP神經(jīng)網(wǎng)絡(luò)分類器構(gòu)成了語(yǔ)音識(shí)別系統(tǒng),在對(duì)小詞表中文孤立詞語(yǔ)音識(shí)別中得到了98.25%的正確識(shí)別率。

此外,研究者經(jīng)常把以上模型相互結(jié)合,取長(zhǎng)補(bǔ)短,形成混合模型,應(yīng)用在不同的識(shí)別系統(tǒng)中,取得了較好的效果。文獻(xiàn)[38]提出了基于ANN/HMM混合模型的語(yǔ)音識(shí)別方法;該方法利用二者各自的優(yōu)勢(shì),將ANN強(qiáng)大的分類能力以及HMM較好的時(shí)域建模能力相結(jié)合。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的HMM和ANN識(shí)別結(jié)果對(duì)比,該混合模型語(yǔ)音識(shí)別方式改善了系統(tǒng)識(shí)別性能,提高了識(shí)別率,并在抗干擾性和魯棒性方面也得到加強(qiáng)。

目前我們主要側(cè)重選用模糊認(rèn)知圖(Fuzzy Cognitive Map,FCM)來構(gòu)建識(shí)別網(wǎng)絡(luò),其基本思路闡述如下。FCM是在認(rèn)知圖(Cognitive Map,CM)中加入模糊推理機(jī)制得來的一種有向圖,是一種用于研究認(rèn)知系統(tǒng)組織、相互關(guān)系以及行為特征的工具;情感維度理論是基于心理學(xué)提出的,語(yǔ)音情感識(shí)別與人類情感認(rèn)知過程有很大的關(guān)系;現(xiàn)擬將情感維度理論和FCM結(jié)合,構(gòu)建基于FCM和情感維度理論的語(yǔ)音情感識(shí)別模型,將復(fù)雜的認(rèn)知過程與信號(hào)處理手段相結(jié)合,對(duì)提高系統(tǒng)整體性能會(huì)有積極作用。并且在原有學(xué)習(xí)方法的基礎(chǔ)上,應(yīng)用人工蜂群算法訓(xùn)練FCM網(wǎng)絡(luò),從而實(shí)現(xiàn)了維度空間理論與人工蜂群算法的結(jié)合,以共同優(yōu)化FCM參數(shù)。

認(rèn)知網(wǎng)絡(luò)研究面對(duì)的主要問題是理論上沒有實(shí)現(xiàn)突破。雖然現(xiàn)在一直提出各種修正方法,但其優(yōu)缺點(diǎn)各異,沒有普遍適用性。縱觀近幾年的文獻(xiàn)來看,盡管有很多算法成功地運(yùn)用到了語(yǔ)音情感識(shí)別中,但大多數(shù)研究者只是使用這些算法在某些特定的數(shù)據(jù)庫(kù)上進(jìn)行了測(cè)試,對(duì)實(shí)驗(yàn)數(shù)據(jù)依賴性強(qiáng)。在不同的情感數(shù)據(jù)庫(kù)上和測(cè)試環(huán)境中,各種識(shí)別算法均有自己的優(yōu)劣勢(shì),沒有普遍性。

4 基于認(rèn)知的語(yǔ)音情感識(shí)別研究

常見的語(yǔ)音情感識(shí)別方法都是基于語(yǔ)音信號(hào)本身的情感特征進(jìn)行研究,但是不論這些情感識(shí)別方法有多么精確,它都無法與人腦相媲美。因此,研究人腦對(duì)語(yǔ)音情感的認(rèn)知機(jī)理,是研究語(yǔ)音情感識(shí)別的另一個(gè)領(lǐng)域。

行為學(xué)數(shù)據(jù)表明,人們對(duì)不同情感語(yǔ)音進(jìn)行識(shí)別,其識(shí)別速度和識(shí)別正確率都會(huì)有所不同,而且不同年齡和不同性別的人對(duì)情感的識(shí)別也會(huì)存在不同[39]。對(duì)于語(yǔ)音情感識(shí)別的認(rèn)知研究,目前主要采用功能核磁共振成像(Function Magnetic Resonance Imaging,FMRI)[40]及腦電(Electroencephalography,EEG)[41]等腦科學(xué)的研究方法。由于功能核磁共振的設(shè)備體積龐大、價(jià)格昂貴,不適用于實(shí)驗(yàn)室,因此目前人們更多地采用 EEG信號(hào)來進(jìn)行情感識(shí)別。EEG技術(shù)是近幾年興起的研究人腦加工機(jī)制的主要技術(shù)手段。它含有豐富的有用信息,若把特定事件刺激下引發(fā)的腦電波形按照一定規(guī)則疊加,就會(huì)產(chǎn)生關(guān)于該事件的腦電波形圖,也就是事件相關(guān)電位(Event-Related Potentials,ERP)[42]。ERP技術(shù)[43]可以對(duì)不同的刺激進(jìn)行分類,從而分辨不同的情緒狀態(tài)。采用ERP的方法探討情感語(yǔ)音對(duì)神經(jīng)的腦加工機(jī)制[44]、精神疾病的診斷[45]、治療選擇[46]及預(yù)后判斷具有潛在應(yīng)用價(jià)值[47]。

情感ERP研究始于20世紀(jì)60年代后期,早期的這類研究主要是基于兩個(gè)方面。一方面,通過某種情感誘發(fā)方式,使被試產(chǎn)生某種需要的情感以后,再對(duì)被試進(jìn)行腦電活動(dòng)研究;這類研究主要是對(duì)被試的腦電EEG信號(hào)進(jìn)行分析,觀察其腦電的節(jié)律變化。Ray et al[48]較早發(fā)現(xiàn)情感的認(rèn)知過程主要集中在β節(jié)律上;之后,他們又發(fā)現(xiàn)腦電中的γ節(jié)律與人的緊張和焦慮狀態(tài)有關(guān)[49]。上海交通大學(xué)聶聃[50]采用支持向量機(jī)SVM對(duì)腦電的節(jié)律特征進(jìn)行分類,并通過流形學(xué)習(xí)模型擬合出了被試在整個(gè)實(shí)驗(yàn)過程中的情感變化軌跡。另一方面,讓被試對(duì)一些基本的情感進(jìn)行辨別,研究某種特定情感事件出現(xiàn)時(shí)的ERP波形。通常這類研究都是通過視覺誘發(fā)的方式進(jìn)行,并采用國(guó)際情緒圖片系統(tǒng)(International Affective Picture System,IAPS)作為刺激材料。如Carretié et al[51]的研究結(jié)果顯示,負(fù)性圖片誘發(fā)出的ERP正性波波幅增大,而這個(gè)效應(yīng)發(fā)生在額部。Briggs和Martin[52]的研究結(jié)果顯示,與中性圖片相比,喚醒度高的情緒圖片能誘發(fā)更大的P300波幅。Yuan et al[53]、Meng et al[54]研究團(tuán)隊(duì)發(fā)現(xiàn)人腦對(duì)不同效價(jià)的負(fù)性情感具有敏感性,而對(duì)不同效價(jià)的正性情感卻不敏感。這些關(guān)于腦電的情感研究都是基于視覺的,但它們?yōu)槁犛X情感的研究提供了理論支持。

近年來,隨著腦認(rèn)知機(jī)理研究的深入,關(guān)于語(yǔ)音情感識(shí)別的ERP研究也受到越來越多的關(guān)注。這類研究主要集中在以下幾個(gè)方面。

1) 情感語(yǔ)義的研究。主要針對(duì)語(yǔ)義文本的研究,即字音、字形、字義及句法的研究[55]。Kutas和Hillyard[56]研究發(fā)現(xiàn),當(dāng)人們閱讀無意義語(yǔ)句時(shí),會(huì)產(chǎn)生N400事件相關(guān)電位。Hagoort[57]發(fā)現(xiàn)語(yǔ)義違反與句法違反相關(guān)聯(lián)的事件相關(guān)電位N400和P600。Niznikiewicz et al[58]對(duì)字形和語(yǔ)義分別進(jìn)行研究,設(shè)計(jì)了同音、同形、語(yǔ)義相關(guān)和無關(guān)4種詞對(duì),要求被試進(jìn)行語(yǔ)義相關(guān)判斷。我國(guó)浙江師范大學(xué)的曹曉華等[59]、郅菲菲[60]以及王魁[61]對(duì)漢語(yǔ)字詞認(rèn)知的N170成分進(jìn)行了研究,發(fā)現(xiàn)了漢語(yǔ)字詞認(rèn)知的敏感性和偏側(cè)化。但是關(guān)于情感語(yǔ)義的研究多數(shù)都是基于單個(gè)字詞的,對(duì)于整句的研究卻不多,而且這些研究大多也是基于視覺。雖然已有學(xué)者[62]從聽覺角度對(duì)其進(jìn)行研究,但是也都是基于單個(gè)字詞的。

2) 情感韻律的研究[63]。情感語(yǔ)音的研究表明,語(yǔ)音情感信息[64]主要體現(xiàn)在韻律特征的變化上[65]。韻律是言語(yǔ)的整體特性,包括語(yǔ)調(diào)、重讀位置、停頓、速度和持續(xù)長(zhǎng)短等[66]。有的進(jìn)一步指出,基本情感的聲學(xué)特征差異,主要反映在基頻的高低、能量的增減和語(yǔ)速的快慢[67-68]上。在停頓加工上,Besson et al[69]發(fā)現(xiàn)言語(yǔ)理解中,延長(zhǎng)詞與詞之間的停頓會(huì)引起在頭皮前中部分布,200 ms達(dá)到峰值的負(fù)波。Honbolygó et al[70]對(duì)單詞的重音部分進(jìn)行了研究。鐘毅平等[71]采用情感韻律不同的句子誘發(fā)了右單側(cè)化的ERP正波效應(yīng),而語(yǔ)義-情感韻律都誘發(fā)了早期雙側(cè)化分布的ERP負(fù)波效應(yīng)。此外,鄭志偉等[72]還對(duì)情緒韻律調(diào)節(jié)情緒詞識(shí)別的 ERP進(jìn)行研究,發(fā)現(xiàn)情緒韻律能夠調(diào)節(jié)情緒詞識(shí)別。

3) 情感時(shí)長(zhǎng)的研究。盡管語(yǔ)音情緒變化加工機(jī)制的研究還不多見,但聽覺刺激變化加工的研究卻頗為豐富。聽覺刺激在時(shí)間維度延伸,導(dǎo)致預(yù)期式加工是聽覺加工的重要特征[73],即聽者會(huì)根據(jù)已聽到的刺激對(duì)即將出現(xiàn)的刺激形成預(yù)期,并將后來的刺激與預(yù)期相對(duì)比。大量研究發(fā)現(xiàn),人腦能夠迅速檢測(cè)這種聽覺刺激的變化,在自動(dòng)加工時(shí)偏差刺激誘發(fā) MMN,主動(dòng)加工時(shí)誘發(fā) N2/P3 復(fù)合成分[74]。有研究者[75]認(rèn)為情感語(yǔ)音加工是多階段的,它主要由情感顯著感知、相關(guān)意義處理及情感識(shí)別這三個(gè)階段構(gòu)成。同時(shí)文獻(xiàn)[72]指出了漢語(yǔ)情緒言語(yǔ)加工的三個(gè)基本過程:在100 ms左右,首先對(duì)韻律和詞匯的聲學(xué)特征進(jìn)行早期的感覺加工;在200 ms 左右,再對(duì)情緒詞的語(yǔ)音特征進(jìn)行加工;在250 ms 左右,情緒韻律還對(duì)情緒詞的語(yǔ)義加工產(chǎn)生影響。此外,文獻(xiàn)[76]發(fā)現(xiàn)不同語(yǔ)境中聲調(diào)的早期加工及時(shí)間進(jìn)程。

我們?cè)诨诼犛X條件下,對(duì)不同語(yǔ)句的情感聲音及非言語(yǔ)情感聲音進(jìn)行了初步研究[77]。主要從兩個(gè)方面進(jìn)行分析和比較:一是比較不同語(yǔ)種在相同情感下的 ERP 成分;二是對(duì)言語(yǔ)和非言語(yǔ)的ERP 成分進(jìn)行比較。研究結(jié)果發(fā)現(xiàn),在 200 ms 左右出現(xiàn)的ERP成分,其潛伏期可能受到語(yǔ)義理解的影響,其峰值可能受到語(yǔ)音情感強(qiáng)烈程度的影響,由此可以推測(cè)人腦對(duì)熟悉的情感語(yǔ)言更具有敏感性,且對(duì)非言語(yǔ)情感聲音處理的時(shí)間進(jìn)程相對(duì)較快[77]。

5 語(yǔ)音情感識(shí)別研究展望

對(duì)于語(yǔ)音情感的研究已取得了部分成果,但是大多數(shù)都是基于信號(hào)處理角度的研究。情感與人腦的認(rèn)知機(jī)理密切相關(guān),因此今后的研究工作在情感的認(rèn)知模型及事件相關(guān)電位研究等方面有較大的發(fā)展空間。情感的認(rèn)知模型在語(yǔ)音情感識(shí)別中的應(yīng)用剛剛開始,諸多認(rèn)知概念與模型可以與信號(hào)處理算法相結(jié)合,以提出更為符合人類行為的識(shí)別算法。同時(shí),之前的事件相關(guān)電位研究中多數(shù)都是從單個(gè)字詞或短語(yǔ)或從視覺角度出發(fā)來研究的,基于聽覺條件的情感語(yǔ)音語(yǔ)句的事件相關(guān)電位研究卻不多。由于聽覺的呈現(xiàn)方式與視覺的呈現(xiàn)方式不同,如果用完全相同的方法進(jìn)行研究,就很難得到理想的效果。因此,可以從信號(hào)處理的角度與心理認(rèn)知實(shí)驗(yàn)相結(jié)合,設(shè)計(jì)出符合聽覺事件相關(guān)電位研究的實(shí)驗(yàn),并分析其與不同情感的關(guān)系,這也是今后研究的方向。

[1] 趙力,黃程韋.實(shí)用語(yǔ)音情感識(shí)別中的若干關(guān)鍵技術(shù)[J].數(shù)據(jù)采集與處理,2014,29(2):157-170.

[2] Ververidis D,Kotropoulos C.A state of the art review on emotional speech databases[C]∥Proc 1st Richmedia Conference.Lausanne,Switzerland,2003:109-119.

[3] Ambrus D C.Collecting and Recording of an Emotional Speech Database[D].Maribor,Slovenia:Faculty of Electrical Engineering and Computer Science,Institute of Electronics,University of Maribor,2000.

[4] Burkhardt F,Paeschke A,Rolfes M,et al.A database of German emotional speech[C]∥Interspeech-200.Lisbon,Portugal,2005:1-4.

[5] Oflazoglu C,Yildirim S.Recognizing emotion from Turkish speech using acoustic features[J].EURASIP Journal on Audio,Speech,and Music Processing,2013,2013:26.

[6] Grimm M,Kroschel K.The Vera am mittag German audio-visual emotional speech database[C]∥Proc of the 2008 IEEE International Conference on Multimedia and Expo(ICME).Hannover,Germany,2008:865-868.

[7] Pan Y,Xu M,Liu L,et al.Emotion-detecting based model selection for emotional speech recognition[C]∥Proc IMACS Multiconference on Computational Engineering in Systems Applications.Beijing,China,2006:2169-2172.

[8] 徐露,徐明星.面向情感變化檢測(cè)的漢語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù)[C]∥第十屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集.2009:135-140.

[9] Sun Ying,Werner V,Zhang Xueying.A robust feature extraction approach based on an auditory model for classification of speech and expressiveness[J].Journal of Central South University of Technology (English Edition),2012,19(2):504-510.

[10] Bjorn S,Anton B,Stefan S,et al.Recognising realistic emotions and affect in speech:State of the art and lessons learnt from the first challenge[J].Speech Communication,2011,53(9):1062-1087.

[11] 韓文靜,李海峰,阮華斌,等.語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J].軟件學(xué)報(bào),2014,25(1):37-50.

[12] Rainer B,Klaus R.Acoustic profiles in vocal emotion expression[J].Journal of Personality and Social Psychology,1996,70(3):614-636.

[13] Kao Y H,Lee L S.Feature analysis for emotion recognition from Mandarin speech considering the special characteristics of Chinese language[C]∥Proceedings of 9th International Conference on Spoken Language Processing.Pittsburgh,Pennsylvania,2006:1814-1817.

[14] Rao K S,Shashidhar G K,Ramu R V.Emotion recognition from speech using global and local prosodic features[J].International Journal of Speech Technology,2013,16(2):143-160.

[15] Shashidhar G K,Rao K S.Emotion recognition from speech using source,system and prosodic features[J].International Journal of Speech Technology,2012,15(2):265-289.

[16] Iliou T.Statistical evaluation of speech features for emotion recognition[C]∥Proceedings of Fourth International Conference on Digital Telecommunications.Colmar,France,2009:121-126.

[17] Wang Y T,Yang X H,Zou J.Research of emotion recognition based on speech and facial expression[J].Indonesian Journal of Electrical Engineering,2013,11(1):83-90.

[18] 韓一,王國(guó)胤,楊勇.基于MFCC的語(yǔ)音情感識(shí)別[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2008,20(5):597-602.

[19] Milton A,Roy S S,Selvi S T.SVM scheme for speech emotion recognition using MFCC Feature[J].International Journal of Computer Applications,2013,69(9):34-39.

[20] Pao T L,Chen Y T,Yeh J H,et al.Mandarin emotional speech recognition based on SVM and NN[C]∥Proceedings of 18th International Conference on Pattern Recognition.Hong Kong,China,2006:1096-1100.

[21] Lugger M,Yang B,Wokurek W.Robust estimation of voice quality parameters under realworld disturbances[C]∥Proc of 2006 International Conference on Acoustics,Speech and Signal Processing.Toulouse,France,2006:1097-1100.

[22] Lugger M,Yang B.Cascaded emotion classification via psychological emotion dimensions using a large set of voice quality parameters [C]∥Proc of International Conference on Acoustics,Speech and Signal Processing.Las Vegas,NY,2008:4945-4948.

[23] 黃程韋,趙力.實(shí)用語(yǔ)音情感的特征分析與識(shí)別的研究[J].電子與信息學(xué)報(bào),2011,33(1):112-116.

[24] Amol T K,Guddeti R M R.Multiclass svm-based language independent emotion recognition using selective speech features[C]∥Proc of 2014 International Conference on Advances in Computing,Communications and Informatics.New Delhi,India,2014:1069-1073.

[25] 尤鳴宇.語(yǔ)音情感識(shí)別的關(guān)鍵技術(shù)研究[D].杭州:浙江大學(xué),2007.

[26] Sun Y,Zhang X.A study of zero-crossings with peak-amplitudes in speech emotion classification[C]∥Proc of 2010 1st International Conference on Pervasive Computing,Signal Processing and Applications.2010:328-331.

[27] Sun Y,Zhang X Y.Study for classification of emotional speech by using optimized frame zero crossing with peak amplitudes feature extraction algorithm[J].Journal of Computational Information Systems,2011,7(10):3508-3515.

[28] 劉豫軍,夏聰.連續(xù)語(yǔ)音識(shí)別技術(shù)及其應(yīng)用前景分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(8):15-16.

[29] 崔文迪,黃關(guān)維.語(yǔ)音識(shí)別綜述[J].福建電腦,2008(1):28-29.

[30] Nwe T L,Foo S W,De S L C.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.

[31] Vlassis N,Likas A.A greedy em algorithm for gaussian mixture learning[J].Neural Processing Letters,2002,15(1):77-87.

[32] Tang H,Chu S M,Hasegawa J M,et al.Emotion recognition from speech via boosted gaussian mixture models[C]∥Proc of the 2009 IEEE International Conference on Multimedia and Expo.New York,2009:294-297.

[33] Hassan A,Damper R I.Multi-class and hierarchical SVMs for emotion recognition[C]∥Proc of International Speech Communication Association.Chiba,Japan,2010:2354-2357.

[34] Tato R,Santos R,Kompe R,et al.Emotion space improves emotion recognition[C]∥Proc of CSLP.Denver,Colorado,2002:2029-2032.

[35] 劉紅芬,劉曉峰,張雪英,等.改進(jìn)的AdaBoost.M2-SVM在低信噪比語(yǔ)音識(shí)別中的應(yīng)用[J].微電子學(xué)與計(jì)算機(jī),2015,32(2):88-91.

[36] 邢銘生,朱浩,王宏斌.語(yǔ)音識(shí)別技術(shù)綜述[J].科協(xié)論壇,2010(3):62-63.

[37] 孫光民,董笑盈.基于神經(jīng)網(wǎng)絡(luò)的漢語(yǔ)孤立詞語(yǔ)音識(shí)別[J].北京工業(yè)大學(xué)學(xué)報(bào),2002,28(3):289-292.

[38] 高維深.基于HMM/ANN混合模型的非特定人語(yǔ)音識(shí)別研究[D].成都:電子科技大學(xué),2013.

[39] Paulmann S,Pell M D,Kotz S A.How aging affects the recognition of emotional speech[J].Brain and Language,2008,104(3):262-269.

[40] Nummenmaa L,Saarim?ki H,Glerean E,et al.Emotional speech synchronizes brains across listeners and engages large-scale dynamic brain networks[J].NeuroImage,2014,102:498-509.

[41] Liu Y,Sourina O,Nguyen M K.Real-time EEG-based emotion recognition and its applications [M]∥Transactions on computational science XII.Berlin,Heidelberg:Springer,2011:256-277.

[42] 趙侖.ERPs實(shí)驗(yàn)教程[M].南京:東南大學(xué)出版社,2010.

[43] 魏景漢,羅躍嘉.事件相關(guān)電位原理與技術(shù)[M].北京:科學(xué)出版社,2010.

[44] Rohaut B,Faugeras F,Chausson N,et al.Probing ERP correlates of verbal semantic processing in patients with impaired consciousness[J].Neuropsychologia,2015,66:279-292.

[45] UedaK.A psychophysiological approach towards understanding emotions[M]∥Emotional Engineering:Vol.3.Springer International Publishing,2015:105-116.

[46] 劉光雄,楊征,葉明,等.首發(fā)精神分裂癥執(zhí)行功能異常的心理生理機(jī)制[J].神經(jīng)疾病與精神衛(wèi)生,2013,13(3):247-249.

[47] Cason N,Astésano C,Sch?n D.Bridging music and speech rhythm:Rhythmic priming and audio-motor training affect speech perception [J].Acta Psychologica,2015,155:43-50.

[48] Ray W J,Cole H W.EEG alpha activity reflects attentional demands,and beta activity reflects emotional and cognitive processes[J].Science,1985,228(4700):750-752.

[49] Oathes D J,Ray W J,Yamasaki A S,et al.Worry,generalized anxiety disorder,and emotion:Evidence from the EEG gamma band[J].Biological Psychology,2008,79(2):165-170.

[50] 聶聃.基于腦電的情感識(shí)別[D].上海:上海交通大學(xué),2012.

[51] Carretié L,Iglesias J,Garcia T,et al.N300,P300 and the emotional processing of visual stimuli[J].Electroencephalography and Clinical Neurophysiology,1997,103(2):298-303.

[52] Briggs K E,Martin F H.Affective picture processing and motivational relevance:arousal and valence effects on ERPs in an oddball task[J].International Journal of Psychophysiology,2009,72(3):299-306.

[53] Yuan J,Zhang Q,Chen A,et al.Are we sensitive to valence differences in emotionally negative stimuli? Electrophysiological evidence from an ERP study[J].Neuropsychologia,2007,45(12):2764-2771.

[54] Meng X,Yuan J,Li H.Automatic processing of valence differences in emotionally negative stimuli:Evidence from an ERP study[J].Neuroscience Letters,2009,464(3):228-232.

[55] 劉燕妮,舒華.ERP與語(yǔ)言研究[J].心理科學(xué)進(jìn)展,2003,11(3):296-302.

[56] Kutas M,Hillyard S A.Reading senseless sentences:Brain potentials reflect semantic incongruity[J].Science,1980,207(4427):203-205.

[57] Hagoort P.Interplay between syntax and semantics during sentence comprehension:ERP effects of combining syntactic and semantic violations[J].Cognitive Neuroscience,2003,15(6):883-899.

[58] Niznikiewicz M,Squires N.Phonological processing and the role of strategy in silent reading:behavioral and electrophysiological evidence[J].Brain and Language,1996,52:342-364.

[59] 曹曉華,李超,張煥婷,等.字詞認(rèn)知N170成分及其發(fā)展[J].心理科學(xué)進(jìn)展,2013,21(7):1162-1172.

[60] 郅菲菲.字詞認(rèn)知N170成分發(fā)展的人工語(yǔ)言訓(xùn)練研究[D].金華:浙江師范大學(xué),2013.

[61] 王魁.漢字視知覺左側(cè)化N170——反映字形加工還是語(yǔ)音編碼[D].重慶:西南大學(xué),2012.

[62] Hagoort P,Brown C M.ERP effects of listening to speech:Semantic ERP effects[J].Neuropsychologia,2000,38(11):1518-1530.

[63] Sobin C,Alpert M.Emotion in speech:The acoustic attributes of fear,anger,sadness,and joy[J].Journal of Psycholinguistic Research,1999,28(4):347-365.

[64] Vergyri D,Stolcke A,Gadde V R R,et al.Prosodic knowledge sources for automatic speech recognition[C]∥Acoustics,Speech,and Signal Processing:2003 IEEE International Conference on IEEE,2003,1:I-208-I-211.

[65] 蔣丹寧,蔡蓮紅.基于語(yǔ)音聲學(xué)特征的情感信息識(shí)別[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2006,46(1):86-89.

[66] 楊潔,舒華.言語(yǔ)韻律加工的 ERP 研究[J].心理學(xué)探新,2009(2):43-47.

[67] 曹劍芬.普通話節(jié)奏的聲學(xué)語(yǔ)音學(xué)特性[C]∥中國(guó)科學(xué)院聲學(xué)研究所.第四屆全國(guó)現(xiàn)代語(yǔ)音學(xué)學(xué)術(shù)會(huì)議論文集.1999.

[68] 劉紅芬,張雪英,劉曉峰,等.基于特征加權(quán)的FSVM在低信噪比語(yǔ)音識(shí)別中的應(yīng)用[J].太原理工大學(xué)學(xué)報(bào),2014,45(6):764-768.

[69] Besson M,Faita F,Czternasty C,et al.What’s in a pause:event-related potential analysis of temporal disruptions in written and spoken sentences[J].Biological Psychology,1997,46:3-23.

[70] Honbolygó F,Csépe V.Saliencyor template? ERP evidence for long-term representation of word stress[J].International Journal of Psychophysiology,2013,87(2):165-172.

[71] 鐘毅平,范偉,趙科,等.情感韻律在真假句子加工上的差異:來自ERPs的證據(jù)[J].心理科學(xué),2011,34(2):312-316.

[72] 鄭志偉,黃賢軍,張欽,等.情緒韻律調(diào)節(jié)情緒詞識(shí)別的 ERP研究[J].心理學(xué)報(bào),2013,45(4):428-437.

[73] 陳煦海,楊曉虹,楊玉芳.語(yǔ)音情緒變化內(nèi)隱加工的神經(jīng)生理機(jī)制[J].心理學(xué)報(bào),2013,45(4):416-426.

[74] 常翼,龐小梅,許晶.情緒語(yǔ)音信息自動(dòng)加工的失匹配負(fù)波研究[J].醫(yī)學(xué)與哲學(xué),2013,34(6):41-44.

[75] Paulmann S,Ott D V M,Kotz S A.Emotional speech perception unfolding in time:the role of the basal ganglia[J].PLoS One,2011,6(3):e17694.

[76] 齊佳凝,任桂琴,任延濤,等.不同語(yǔ)境中聲調(diào)早期加工的作用及時(shí)間進(jìn)程[J].社會(huì)心理科學(xué),2014,29(2):221-225.

[77] 暢江,張雪英,張奇萍,等.不同語(yǔ)種及非言語(yǔ)情感聲音的 ERP 研究[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2016.

(編輯:張紅霞)

Key Technologies in Speech Emotion Recognition

ZHANG Xueying,SUN Ying,ZHANG Wei,CHANG Jiang

(CollegeofInformationEngineering,TaiyuanUniversityofTechnology,Taiyuan030024,China)

Emotional information in speech signal is an important information resource.When verbal expression is combined with human emotion,emotional speech processing is no longer a simple mathematical model or pure calculation.Fluctuations of the mood are controlled by the brain perception; speech signal processing based on cognitive psychology can capture emotion better.In this paper the relevance analysis between speech emotion and human cognition is introduced firstly.The recent progress in speech emotion recognition is summarized,including the review of speech emotion databases,feature extraction and emotion recognition networks.Secondly a fuzzy cognitive map network based on cognitive psychology is introduced into emotional speech recognition.In addition,the mechanism of the human brain for cognitive emotional speech is explored.To improve the recognition accuracy,this report also tries to integrate event-related potentials to speech emotion recognition.This idea is the conception and prospect of speech emotion recognition integrated with cognitive psychology in the future.

emotional speech recognition;speech naturalness;acoustic features;cognitive mechanism;fuzzy cognitive map;event related potential

1007-9432(2015)06-0629-08

2015-09-01

國(guó)家自然科學(xué)基金資助項(xiàng)目(61376693);山西省青年科技研究基金資助項(xiàng)目(2013021016-2);山西省研究生教育創(chuàng)新項(xiàng)目(2015-24)

張雪英(1964-),女,河北行唐人,博士,教授,博導(dǎo),主要從事語(yǔ)音信號(hào)處理和情感識(shí)別研究,(E-mail)zhangxy@tyut.edu.cn

TN912.34

A

10.16355/j.cnki.issn1007-9432tyut.2015.06.001

猜你喜歡
韻律語(yǔ)音數(shù)據(jù)庫(kù)
魔力語(yǔ)音
春天的韻律
基于MATLAB的語(yǔ)音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對(duì)方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
韻律之美——小黃村
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
大理市| 东源县| 普陀区| 阿城市| 萍乡市| 寿阳县| 双江| 自贡市| 吴江市| 吉隆县| 丹阳市| 华宁县| 缙云县| 宜都市| 托里县| 秦皇岛市| 丹阳市| 通城县| 成都市| 鲁甸县| 平安县| 滦平县| 连南| 丘北县| 黎平县| 自贡市| 内乡县| 延吉市| 府谷县| 全州县| 惠安县| 手游| 祁东县| 东乌珠穆沁旗| 民县| 湾仔区| 开封县| 泾川县| 海原县| 鹤庆县| 河源市|