胡海翔貴州交通職業(yè)技術(shù)學(xué)院,貴州貴陽 550008
語音情感識別中情感特征研究進(jìn)展
胡海翔
貴州交通職業(yè)技術(shù)學(xué)院,貴州貴陽550008
摘要近年來,隨著人機(jī)交換技術(shù)的迅猛發(fā)展,語音情感識別引起了研究者廣泛的關(guān)注,特別是在語音情感特征提取方面,研究者做了大量工作,取得了豐碩的成果。本文首先介紹了語音情感識別系統(tǒng)的模型,然后對情感識別中用到的語音情感特征進(jìn)行了總結(jié)分析,并對情感特征提取面臨的問題進(jìn)行了探討。
關(guān)鍵詞語音;情感特征;特征提取;情感識別
隨著信息技術(shù)的飛速發(fā)展以及人機(jī)交互技術(shù)的不斷進(jìn)步,人們對計算機(jī)的要求越來越高,人們希望未來和計算機(jī)的交互能像人與人之間的交流一樣,既方便,快捷,又具人性化。語音作為人類交流的主要工具之一,不僅能傳送語義內(nèi)容,同時不同語氣的發(fā)音還包含大量情感信息,因此如何讓計算機(jī)從語音中識別出說話者的情感狀態(tài),成為了研究熱點,而語音情感識別廣闊的應(yīng)用前景也引起了越來越多的研究者的重視。語音情感識別不僅能應(yīng)用于人機(jī)交互系統(tǒng),還能廣泛的應(yīng)用于遠(yuǎn)程網(wǎng)絡(luò)教學(xué)、醫(yī)療輔助、反恐偵測,客戶服務(wù)等領(lǐng)域[1]。
語音情感識別的系統(tǒng)模型主要由3部分組成,即語音信號處理、情感特征的提取和語音情感識別。
語音信號處理主要包含語音信號的采集、數(shù)字化、預(yù)處理、頻譜提取等方面,它主要為下一步的特征提取做準(zhǔn)備;情感特征提取就是從處理好的語音數(shù)字信號中提取出能表征語音情感的特征向量;而情感識別則是通過選好的分類算法將情感特征向量進(jìn)行分類從而達(dá)到識別的目的。其中,情感特征的提取是其中的重要環(huán)節(jié),因為情感特征是語音信號內(nèi)所含情感信息的抽象,它的好壞直接影響系統(tǒng)情感識別準(zhǔn)確性。因此,本文主要對語音情感識別中情感特征的研究現(xiàn)狀進(jìn)行分析總結(jié)。
從1972年Williams發(fā)現(xiàn)人的情感變化對語音的基音輪廓有很大的影響,并將其用于語音情感識別的研究開始到如今,經(jīng)過四十多年的探索,語音情感特征的類型越來越豐富,語音情感識別的效果越來越好。但總體而言,目前用于語音情感識別的情感特征大致可以分為三種類型,即韻律特征、音質(zhì)特征以及基于頻譜的相關(guān)特征。這些特征一般相互融合以全局特征統(tǒng)計值的形式,如統(tǒng)計最大值、最小值、平均值、方差等參與情感識別。
2.1韻律特征
韻律特征是指蘊(yùn)含于語音之中但不同于語義內(nèi)容的一類語音特征。它具體體現(xiàn)為音量的高低、發(fā)音的長短、語速的快慢、語氣的輕重等,決定了講話聲音的抑揚(yáng)頓挫,是對語音表達(dá)方式的一種結(jié)構(gòu)性安排及補(bǔ)充。它的存在與否并不影響我們對字、詞、句的聽辨,但卻與語音中蘊(yùn)含的情感密切相關(guān)。如當(dāng)人憤怒時,說話語速明顯加快、音量高、語氣重;而悲傷時語調(diào)低沉、語速慢、音量小等。
目前,最為常用的韻律特征主要有:基音頻率、能量、時長等。Iliou等人研究了德語情感語料庫中的七種情感語音,提取了35維韻律特征,取得了約51%的情感識別率。Zhang等人以漢語情感語音庫為研究對象,提取了四種情感語音的韻律特征,得到了約76%的情感識別率。Wang等人也基于漢語情感語料庫做了研究,提取了六類情感語音的韻律特征,采用支持向量機(jī)做識別得到了約88%的平均情感識別率。
韻律特征是語音情感識別中應(yīng)用最早、使用最為廣泛、并且情感區(qū)分能力已得到了研究者一致認(rèn)可的一類情感特征。
2.2音質(zhì)特征
音質(zhì)特征是一類用來體現(xiàn)說話人語音是否清晰純凈、容易辨識的語音特征。人在不同情感狀態(tài)下,其聲音的質(zhì)量會有很大不同,具體體現(xiàn)為:隨情緒波動,人會不由自主的產(chǎn)生喘息、顫音、哽咽等。而在不同情感狀態(tài)下,這些聲學(xué)表現(xiàn)各不相同,因此,聲音質(zhì)量的變化蘊(yùn)含有豐富的情感信息,提取音質(zhì)特征有利于語音情感的識別。
在語音情感識別中用于衡量聲音質(zhì)量的音質(zhì)特征一般有:共振峰、呼吸喉化音和聲門參數(shù)等。文獻(xiàn)的研究表明,語音情感與音質(zhì)特征有很大關(guān)聯(lián)性。R.Sun等將聲門參數(shù)和基頻、能量等韻律特征在情感識別中發(fā)揮的作用進(jìn)行了比較。眾多研究證明,音質(zhì)特征有利于語音情感的識別。
2.3基于頻譜的特征
頻譜特征是語音情感識別中衍生種類最多,應(yīng)用最為廣泛的一類情感特征向量,它一般是通過模擬人的語音產(chǎn)生機(jī)制或聽覺特性而提取,因此,情感區(qū)分效果較為理想,一直備受研究者重視。如使用最為廣泛的線性預(yù)測倒譜系數(shù)(LPCC),它是模擬了人的聲道特性、聲門激勵特性而提取的特征參數(shù);而梅爾頻率倒譜系數(shù)(MFCC)則是模仿了人耳聽覺特性。除了LPCC和MFCCC,還有一些新的頻譜特征也用于語音情感識別,Yildirim
等人將頻譜能量特征與語音韻律特征相融合對四類英語情感語音進(jìn)行識別,取得了75%的平均情感識別率。此外,隨著信號處理技術(shù)的不斷進(jìn)步,一些基于頻譜的新特征也被探索出來用于情感的識別,葉吉祥等[2]利用希爾伯特黃變換提取語音信號的邊際能量譜特征用于情感識別也取得了不錯的效果。
盡管經(jīng)過幾十年的不斷發(fā)展以及研究者的不懈努力,越來越多的新的情感特征被不斷探索出來,對語音情感識別的研究進(jìn)展起到了巨大的推動作用,但情感特征的提取依然存在一些問題,主要表現(xiàn)在以下方面。
1)語料庫語種單一,提取的情感特征局限性較大。
目前,用于語音情感識別的語料庫大多語種單一,說話人及情感種類數(shù)量有限,提取出的情感特征受到了很大的局限,有些新的情感特征在一種語料庫上的識別效果好,而在其他語料庫情感識別上卻波動較大,而現(xiàn)實環(huán)境更為復(fù)雜,它是一個動態(tài)的實時變化的語境。因此,為了使語音情感識別從理論走向應(yīng)用,探索適用性強(qiáng),識別效果穩(wěn)定的情感特征依然需要更多的努力。
2)情感強(qiáng)度相近的情感語音難以辨識。
情感強(qiáng)度相近的語音由于在發(fā)音上具有相似的生理特性,如高興語音和生氣語音它們在發(fā)音上語速都較快,語音信號能量都較高,因此提取的情感特征參數(shù)都較為相似,這為情感的識別帶來了困難。探索能較好區(qū)分相近情感強(qiáng)度的語音情感特征仍然是未來研究者需要進(jìn)一步努力的方向。
語音情感識別是一門有廣闊應(yīng)用前景的學(xué)科,經(jīng)過幾十年的發(fā)展,在部分領(lǐng)域,它已逐漸從理論研究走向了實際應(yīng)用,盡管我們已經(jīng)取得了較大的成果,然而依然有一些亟待解決的問題。情感特征提取作為語音情感識別中的重要環(huán)節(jié),它對情感的識別的準(zhǔn)確性起著決定性作用,本文對目前情感識別中用到的情感特征進(jìn)行了分析總結(jié),并對情感特征提取面臨的問題進(jìn)行了探討,以期為下一步的研究工作指明方向。
參考文獻(xiàn)
[1]張永皋,馬青玉,孫青.基于MFCC和CHMM技術(shù)的語音情感分析及其在教育中的應(yīng)用研究[J].南京師范大學(xué)學(xué)報,2009,9(2):89-92.
[2]葉吉祥,胡海翔.Hilbert邊際能量譜在語音情感識別中的應(yīng)用[J].計算機(jī)工程與應(yīng)用,2014(7).
作者簡介:胡海翔,碩士研究生,教師,工作單位:貴州交通職業(yè)技術(shù)學(xué)院,研究方向:人工智能、語音情感識別、通信技術(shù)
中圖分類號TP39
文獻(xiàn)標(biāo)識碼A
文章編號1674-6708(2015)140-0223-01