羅相林,秦雪佩,賈年
(西華大學(xué)計算機與軟件工程學(xué)院,成都610039)
隨著計算機科學(xué)的發(fā)展,計算機的計算能力逐年顯著提升,語音情感識別充分利用現(xiàn)代計算機強大的計算能力,通過計算機識別語音情感信息,是人機交互的重要領(lǐng)域,在醫(yī)療、教育都有廣泛的應(yīng)用,目前很多國家都在進行這方面的研究。語音情感識別主要包括預(yù)處理、特征參數(shù)提取和情感分類三部分,預(yù)處理包括采樣、量化、分幀加窗等操作,特征提取包括著名的MFCC特征提取、基頻、共振峰、短時能量、短時過零率等。對于情感的分類,目前國內(nèi)外學(xué)者普遍采用基本情感、情感二維空間、情感輪三種分類方式[1]。識別方法方面,目前國內(nèi)外學(xué)者和研究機構(gòu)采用SVM、DNN、HMM、RNN等分類方法。
本文通過提取語音信號的MFCC和其一階特征,對特征進行歸一化和降維后,采用SVM模型對進行訓(xùn)練,識別語音情感,提升了語音情感的識別率。MFCC特征反映了語音信號的靜態(tài)特征,一階差分MFCC特征則反映了語音信號的動態(tài)特征,兩種特征結(jié)合是本文的一個特色;PCA降維降低了特征的維度,提升了模型的訓(xùn)練效率;用網(wǎng)格搜索法[2]對模型進行調(diào)參,求出最優(yōu)解,方便實用;十折交叉驗證法選用模型降低了由數(shù)據(jù)分割帶來的模型評估的誤差,利于模型擇優(yōu)。
研究表明,由于人耳的特殊構(gòu)造,人耳的濾波作用在1000Hz一下為線性尺度,在1000Hz以上為對數(shù)尺度,這使得人耳對于低頻的信號更加靈敏[3];人耳并不能區(qū)分所有頻率分量,只有兩個頻率分量相差一定帶寬時,人類才能區(qū)分,否則人就會把兩個音調(diào)聽成同一個,這稱為屏蔽效應(yīng),帶寬稱為臨界帶寬。MFCC在一定程度上模仿了人耳的這一特性,MFCC濾波器組就相當于人耳的濾波器,提取過程如圖1。
圖1
預(yù)加重的作用是放大高頻,平衡頻譜,因為通常高頻與低頻相比具有較小的幅度,也可以改善信噪比,本文使用一階預(yù)加重濾波器對信號進行預(yù)加重,公式如下:
其中α的值一般取0.95或0.97,本文取0.97。
信號預(yù)加重之后,需要將信號分成短時幀。這一步驟的基本原理是信號中的頻率隨時間變化,因此大多數(shù)情況下,對整個信號進行傅里葉變換是沒有意義的,因為我們會隨著時間的推移而丟失信號的頻率輪廓。為了避免這種情況,我們可以假設(shè)在短時間內(nèi)信號的頻率是靜止的。因此,我們通過在該短時幀上進行傅里葉變換,再通過相鄰幀的連接來獲得信號輪廓的良好近似。語音處理中典型幀大小范圍為20ms至40ms,連續(xù)幀之間具有50%(+/-10%)的重疊,本文采用通常語音處理中的設(shè)置,幀大小為25ms,幀重疊為15ms。
分幀之后,需要對每一幀信號進行加窗處理。加窗的目的主要有兩個:一是信號使全局更加連續(xù),避免出現(xiàn)吉布斯效應(yīng);二是使原本沒有周期的語音信號呈現(xiàn)出周期函數(shù)的部分特征。本文采用漢明窗進行加窗,漢明窗的公式如下:
傅里葉變換將信號從時域變換到頻域,得到信號的頻譜特征,傅里葉變換的公式如下:
計算功率譜,即每幀譜線能量,公式如下:
將每幀譜線能量譜通過Mel濾波器組,得到濾波后的能量譜,Mel濾波器公式:
將通過Mel濾波器組的能量取對數(shù),然后進行離散余弦變換就得到MFCC特征。
MFCC為語音信號的靜態(tài)特征,不符合語音動態(tài)變化的特征,如果能提取語音的動態(tài)特征就更能反映語音的實際特性[4]。對MFCC進行差分運算就得到語音信號的動態(tài)特征,即一階MFCC特征。差分運算公式:
其中d(n)表示第n個一階差分,c(n+i)表示第n+i個倒譜系數(shù)的階數(shù),k表示差分幀的區(qū)間。
由于提取到的初始特征在數(shù)量級方面相差很大,單位不統(tǒng)一,根據(jù)機器學(xué)習(xí)的相關(guān)理論,應(yīng)該對數(shù)據(jù)進行歸一化處理,提高機器學(xué)習(xí)的效果。本文采用數(shù)據(jù)縮放的形式,經(jīng)過實驗,將特征縮放到指定的區(qū)間,以提升語音情感識別效果。
語音情感識別的結(jié)果受特征參數(shù)的影響比較大[5],為了提高識別率,一般會提取更多特征,但是維數(shù)過多會造成維數(shù)災(zāi)難,導(dǎo)致識別率降低。因此,本文選擇常用的一種降維方法,PCA降維方法對特征進行降維[6]。PCA是一個線性變換,將數(shù)據(jù)集變換到新的坐標系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。PCA的目標是尋找r(r小于特征向量維數(shù))個新變量,使它們反映事物的主要特征,壓縮原有數(shù)據(jù)矩陣的規(guī)模,將特征向量的維數(shù)降低,挑選出最少的維數(shù)來概括最重要特征。尋找到的r個新變量是互不相關(guān)、正交的,它很大程度上體現(xiàn)了原始特征。
本文選擇SVM分類器進行語音情感識別。SVM是一種應(yīng)用廣泛的機器學(xué)習(xí)方法,具有如下特點:①非線性映射是SVM方法的理論基礎(chǔ),SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射;②對特征空間劃分的最優(yōu)超平面是SVM的目標,最大化分類邊際的思想是SVM方法的核心;③支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定作用的是支持向量;④SVM是一種有堅實理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概率測度及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計方法。從本質(zhì)上看,它避開了從歸納到演繹的傳統(tǒng)過程,實現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡化了通常的分類和回歸等問題;⑤SVM的最終決策函數(shù)只由少數(shù)的支持向量所確定,計算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”;⑥少數(shù)支持向量決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣本、剔除大量冗余樣本,而且注定了該方法不但算法簡單,而且具有較好的魯棒性。
SVM用于處理多分類問題時,常用的有一對多(one-to-rest)和一對一(one-to-one)兩種策略[7]。根據(jù)前期的分析研究,一對一的分類策略更有效,本文采用該策略。核函數(shù)是支持向量機的關(guān)鍵,目前常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)等。根據(jù)前期的實驗數(shù)據(jù),文中采用效果最好的高斯核函數(shù)。如何選擇合適的懲罰因子C和核函數(shù)參數(shù)g是訓(xùn)練一個SVM分類器的關(guān)鍵問題,本文采取網(wǎng)格搜索法[8]進行參數(shù)搜索,用K折交叉驗證法進行評估,選擇出最優(yōu)模型。
本文用十折交叉驗證評估SVM的超參(C和g),進而選擇模型[9]。模型評估的方法是將數(shù)據(jù)分為訓(xùn)練集、驗證集、測試集,訓(xùn)練集用于訓(xùn)練模型,驗證集用于模型的參數(shù)選擇配置,測試集用于評估模型的泛化能力。傳統(tǒng)的模型評估方法只需按比例將原始數(shù)據(jù)劃分成三部分,不過如果只做一次分割,評估結(jié)果對訓(xùn)練集、驗證集和測試集的樣本數(shù)比例,還有分割后數(shù)據(jù)的分布是否和原始數(shù)據(jù)集的分布相同等因素比較敏感,不同的劃分會得到不同的最優(yōu)模型,而且分成三個集合后,用于訓(xùn)練的數(shù)據(jù)更少了。
K折交叉驗證是對傳統(tǒng)的模型評估方法的改進。以K取十為例,先將原始數(shù)據(jù)劃分為訓(xùn)練集和測試集,再將訓(xùn)練集劃分為十份互斥的數(shù)據(jù),設(shè)定模型參數(shù)后,每次選取其中九份數(shù)據(jù)做訓(xùn)練集訓(xùn)練模型,另一份數(shù)據(jù)集作為驗證集評估模型,總共進行十次,求出平均得分,得到模型最終得分。具體過程如圖2所示。
K折交叉驗證減少了原始數(shù)據(jù)分割后數(shù)據(jù)的分布對模型評估的影響,增強了模型的泛化能力。
本文選取德國柏林技術(shù)大學(xué)錄制的柏林德語情感語料庫作為實驗數(shù)據(jù),它共535句語音,由5男5女錄制,它包含生氣(anger)、害怕(fear)、高興(happy)、厭煩(boredom)、悲傷(sad)、平靜(neutral)、厭惡(disgust)7種情感。由于提取特征的單位和數(shù)量級不統(tǒng)一,經(jīng)過實驗,用[-10,10]將特征歸一化效果最好,然后用PCA選擇60個特征向量。
圖2
首先將7類語音情感數(shù)據(jù)中的每一類隨機抽取80%作為訓(xùn)練集,余下20%作為測試集,分別提取訓(xùn)練集和測試集的特征;其次將訓(xùn)練集隨機劃分成10份用于十折交叉驗證訓(xùn)練和評估模型,選出最優(yōu)模型;最后用測試集評估最優(yōu)模型的性能,得出情感識別結(jié)果。本文提取MFCC和MFCC一階差分特征的均值、方差、最大值、最小值共104維特征向量,用數(shù)據(jù)歸一化和PCA對特征進行預(yù)處理,通過網(wǎng)格參數(shù)提供SVM的C和gamma值,并用十折交叉驗證法對評估模型,最終選出最優(yōu)模型,并用測試集測試模型的泛化能力,得出語音情感識別的結(jié)果。具體流程如圖3。
圖3
運用上述實驗設(shè)計流程進行實驗,得到識別的混淆矩陣,結(jié)果如表1。
表1
分類結(jié)果報告如表2。
表2
從以上兩張表可以看出:①采用7種情感的平均識別率為80.66%,每種情感的識別率都處于合理范圍;②happiness情感容易被識別成anger情感,導(dǎo)致識別率較低,fear情感容易被識別成anger和happiness情感;③boredom、disgust、sadness、neutral識別率超過80%,其中 disgust、sadness、neutral識別率超過 90%??梢姡疚牡恼Z音情感識別率較高。
在柏林語音數(shù)據(jù)集下,將本文實驗結(jié)果與相關(guān)研究結(jié)果進行對比,如表3。
可見,除了文獻[10]之外,其余的識別率均低于本文的語音情感識別率,說明本文的語音識別方法是有效的。文獻[11]提取了語音信號的MEDC特征,本文并沒有提取這種特征,識別率比本文高,也在情理之中;文獻[11]采用DNN的識別率與本文識別率相近;文獻[12]采用DNN+HMM的識別方法識別率比本文低2.74%。綜上,本文的提出語音識別方法具有有效的識別率,且達到該領(lǐng)域的識別水平。
表3
針對語音情感識別中特征維數(shù)高、識別率低的問題,本文采用PCA降低特征維數(shù),用網(wǎng)格參數(shù)搜索結(jié)合十折交叉驗證選擇SVM模型。在柏林情感語料庫的實驗結(jié)果表明,本文采用的語音情感識別方法是有效的。但是happiness、fear和anger的識別率不高,希望以后進行相關(guān)研究,提高語音情感的識別率。