基于MFCC及其一階差分特征的語音情感識別研究

2019-05-27 01:18羅相林秦雪佩賈年

現(xiàn)代計算機 2019年11期

羅相林，秦雪佩，賈年

（西華大學(xué)計算機與軟件工程學(xué)院，成都610039）

0 引言

隨著計算機科學(xué)的發(fā)展，計算機的計算能力逐年顯著提升，語音情感識別充分利用現(xiàn)代計算機強大的計算能力，通過計算機識別語音情感信息，是人機交互的重要領(lǐng)域，在醫(yī)療、教育都有廣泛的應(yīng)用，目前很多國家都在進行這方面的研究。語音情感識別主要包括預(yù)處理、特征參數(shù)提取和情感分類三部分，預(yù)處理包括采樣、量化、分幀加窗等操作，特征提取包括著名的MFCC特征提取、基頻、共振峰、短時能量、短時過零率等。對于情感的分類，目前國內(nèi)外學(xué)者普遍采用基本情感、情感二維空間、情感輪三種分類方式[1]。識別方法方面，目前國內(nèi)外學(xué)者和研究機構(gòu)采用SVM、DNN、HMM、RNN等分類方法。

本文通過提取語音信號的MFCC和其一階特征，對特征進行歸一化和降維后，采用SVM模型對進行訓(xùn)練，識別語音情感，提升了語音情感的識別率。MFCC特征反映了語音信號的靜態(tài)特征，一階差分MFCC特征則反映了語音信號的動態(tài)特征，兩種特征結(jié)合是本文的一個特色；PCA降維降低了特征的維度，提升了模型的訓(xùn)練效率；用網(wǎng)格搜索法[2]對模型進行調(diào)參，求出最優(yōu)解，方便實用；十折交叉驗證法選用模型降低了由數(shù)據(jù)分割帶來的模型評估的誤差，利于模型擇優(yōu)。

1 語音信號的特征提取

1. 1 MFCC特征提取

研究表明，由于人耳的特殊構(gòu)造，人耳的濾波作用在1000Hz一下為線性尺度，在1000Hz以上為對數(shù)尺度，這使得人耳對于低頻的信號更加靈敏[3]；人耳并不能區(qū)分所有頻率分量，只有兩個頻率分量相差一定帶寬時，人類才能區(qū)分，否則人就會把兩個音調(diào)聽成同一個，這稱為屏蔽效應(yīng)，帶寬稱為臨界帶寬。MFCC在一定程度上模仿了人耳的這一特性，MFCC濾波器組就相當于人耳的濾波器，提取過程如圖1。

圖1

預(yù)加重的作用是放大高頻，平衡頻譜，因為通常高頻與低頻相比具有較小的幅度，也可以改善信噪比，本文使用一階預(yù)加重濾波器對信號進行預(yù)加重，公式如下：

其中α的值一般取0.95或0.97，本文取0.97。

信號預(yù)加重之后，需要將信號分成短時幀。這一步驟的基本原理是信號中的頻率隨時間變化，因此大多數(shù)情況下，對整個信號進行傅里葉變換是沒有意義的，因為我們會隨著時間的推移而丟失信號的頻率輪廓。為了避免這種情況，我們可以假設(shè)在短時間內(nèi)信號的頻率是靜止的。因此，我們通過在該短時幀上進行傅里葉變換，再通過相鄰幀的連接來獲得信號輪廓的良好近似。語音處理中典型幀大小范圍為20ms至40ms，連續(xù)幀之間具有50%（+/-10%）的重疊，本文采用通常語音處理中的設(shè)置，幀大小為25ms，幀重疊為15ms。

分幀之后，需要對每一幀信號進行加窗處理。加窗的目的主要有兩個：一是信號使全局更加連續(xù)，避免出現(xiàn)吉布斯效應(yīng)；二是使原本沒有周期的語音信號呈現(xiàn)出周期函數(shù)的部分特征。本文采用漢明窗進行加窗，漢明窗的公式如下：

傅里葉變換將信號從時域變換到頻域，得到信號的頻譜特征，傅里葉變換的公式如下：

計算功率譜，即每幀譜線能量，公式如下：

將每幀譜線能量譜通過Mel濾波器組，得到濾波后的能量譜，Mel濾波器公式：

將通過Mel濾波器組的能量取對數(shù)，然后進行離散余弦變換就得到MFCC特征。

1. 2 一階MFCC特征提取

MFCC為語音信號的靜態(tài)特征，不符合語音動態(tài)變化的特征，如果能提取語音的動態(tài)特征就更能反映語音的實際特性[4]。對MFCC進行差分運算就得到語音信號的動態(tài)特征，即一階MFCC特征。差分運算公式：

其中d(n)表示第n個一階差分，c(n+i)表示第n+i個倒譜系數(shù)的階數(shù)，k表示差分幀的區(qū)間。

2 數(shù)據(jù)預(yù)處理和模型尋優(yōu)

2. 1 數(shù)據(jù)歸一化和PCA降維

由于提取到的初始特征在數(shù)量級方面相差很大，單位不統(tǒng)一，根據(jù)機器學(xué)習(xí)的相關(guān)理論，應(yīng)該對數(shù)據(jù)進行歸一化處理，提高機器學(xué)習(xí)的效果。本文采用數(shù)據(jù)縮放的形式，經(jīng)過實驗，將特征縮放到指定的區(qū)間，以提升語音情感識別效果。

語音情感識別的結(jié)果受特征參數(shù)的影響比較大[5]，為了提高識別率，一般會提取更多特征，但是維數(shù)過多會造成維數(shù)災(zāi)難，導(dǎo)致識別率降低。因此，本文選擇常用的一種降維方法，PCA降維方法對特征進行降維[6]。PCA是一個線性變換，將數(shù)據(jù)集變換到新的坐標系統(tǒng)中，使得任何數(shù)據(jù)投影的第一大方差在第一個坐標（稱為第一主成分）上，第二大方差在第二個坐標（第二主成分）上，依次類推。PCA的目標是尋找r（r小于特征向量維數(shù)）個新變量，使它們反映事物的主要特征，壓縮原有數(shù)據(jù)矩陣的規(guī)模，將特征向量的維數(shù)降低，挑選出最少的維數(shù)來概括最重要特征。尋找到的r個新變量是互不相關(guān)、正交的，它很大程度上體現(xiàn)了原始特征。

2. 2 支持向量機

本文選擇SVM分類器進行語音情感識別。SVM是一種應(yīng)用廣泛的機器學(xué)習(xí)方法，具有如下特點：①非線性映射是SVM方法的理論基礎(chǔ),SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射；②對特征空間劃分的最優(yōu)超平面是SVM的目標,最大化分類邊際的思想是SVM方法的核心；③支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定作用的是支持向量；④SVM是一種有堅實理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概率測度及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計方法。從本質(zhì)上看,它避開了從歸納到演繹的傳統(tǒng)過程,實現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡化了通常的分類和回歸等問題；⑤SVM的最終決策函數(shù)只由少數(shù)的支持向量所確定,計算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”；⑥少數(shù)支持向量決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣本、剔除大量冗余樣本,而且注定了該方法不但算法簡單,而且具有較好的魯棒性。

SVM用于處理多分類問題時，常用的有一對多（one-to-rest）和一對一（one-to-one）兩種策略[7]。根據(jù)前期的分析研究，一對一的分類策略更有效，本文采用該策略。核函數(shù)是支持向量機的關(guān)鍵，目前常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)等。根據(jù)前期的實驗數(shù)據(jù)，文中采用效果最好的高斯核函數(shù)。如何選擇合適的懲罰因子C和核函數(shù)參數(shù)g是訓(xùn)練一個SVM分類器的關(guān)鍵問題，本文采取網(wǎng)格搜索法[8]進行參數(shù)搜索，用K折交叉驗證法進行評估，選擇出最優(yōu)模型。

2. 3 K折交叉驗證

本文用十折交叉驗證評估SVM的超參（C和g），進而選擇模型[9]。模型評估的方法是將數(shù)據(jù)分為訓(xùn)練集、驗證集、測試集，訓(xùn)練集用于訓(xùn)練模型，驗證集用于模型的參數(shù)選擇配置，測試集用于評估模型的泛化能力。傳統(tǒng)的模型評估方法只需按比例將原始數(shù)據(jù)劃分成三部分，不過如果只做一次分割，評估結(jié)果對訓(xùn)練集、驗證集和測試集的樣本數(shù)比例，還有分割后數(shù)據(jù)的分布是否和原始數(shù)據(jù)集的分布相同等因素比較敏感，不同的劃分會得到不同的最優(yōu)模型，而且分成三個集合后，用于訓(xùn)練的數(shù)據(jù)更少了。

K折交叉驗證是對傳統(tǒng)的模型評估方法的改進。以K取十為例，先將原始數(shù)據(jù)劃分為訓(xùn)練集和測試集，再將訓(xùn)練集劃分為十份互斥的數(shù)據(jù)，設(shè)定模型參數(shù)后，每次選取其中九份數(shù)據(jù)做訓(xùn)練集訓(xùn)練模型，另一份數(shù)據(jù)集作為驗證集評估模型，總共進行十次，求出平均得分，得到模型最終得分。具體過程如圖2所示。

K折交叉驗證減少了原始數(shù)據(jù)分割后數(shù)據(jù)的分布對模型評估的影響，增強了模型的泛化能力。

3 實驗與結(jié)果分析

3. 1 實驗設(shè)計

本文選取德國柏林技術(shù)大學(xué)錄制的柏林德語情感語料庫作為實驗數(shù)據(jù)，它共535句語音，由5男5女錄制，它包含生氣（anger）、害怕（fear）、高興（happy）、厭煩（boredom）、悲傷（sad）、平靜（neutral）、厭惡（disgust）7種情感。由于提取特征的單位和數(shù)量級不統(tǒng)一，經(jīng)過實驗，用[-10,10]將特征歸一化效果最好，然后用PCA選擇60個特征向量。

圖2

首先將7類語音情感數(shù)據(jù)中的每一類隨機抽取80%作為訓(xùn)練集，余下20%作為測試集，分別提取訓(xùn)練集和測試集的特征；其次將訓(xùn)練集隨機劃分成10份用于十折交叉驗證訓(xùn)練和評估模型，選出最優(yōu)模型；最后用測試集評估最優(yōu)模型的性能，得出情感識別結(jié)果。本文提取MFCC和MFCC一階差分特征的均值、方差、最大值、最小值共104維特征向量，用數(shù)據(jù)歸一化和PCA對特征進行預(yù)處理，通過網(wǎng)格參數(shù)提供SVM的C和gamma值，并用十折交叉驗證法對評估模型，最終選出最優(yōu)模型，并用測試集測試模型的泛化能力，得出語音情感識別的結(jié)果。具體流程如圖3。

圖3

3. 2 結(jié)果分析

運用上述實驗設(shè)計流程進行實驗，得到識別的混淆矩陣，結(jié)果如表1。

表1

分類結(jié)果報告如表2。

表2

從以上兩張表可以看出：①采用7種情感的平均識別率為80.66%，每種情感的識別率都處于合理范圍；②happiness情感容易被識別成anger情感，導(dǎo)致識別率較低，fear情感容易被識別成anger和happiness情感；③boredom、disgust、sadness、neutral識別率超過80%，其中 disgust、sadness、neutral識別率超過 90%?？梢姡疚牡恼Z音情感識別率較高。

在柏林語音數(shù)據(jù)集下，將本文實驗結(jié)果與相關(guān)研究結(jié)果進行對比，如表3。

可見，除了文獻[10]之外，其余的識別率均低于本文的語音情感識別率，說明本文的語音識別方法是有效的。文獻[11]提取了語音信號的MEDC特征，本文并沒有提取這種特征，識別率比本文高，也在情理之中；文獻[11]采用DNN的識別率與本文識別率相近；文獻[12]采用DNN+HMM的識別方法識別率比本文低2.74%。綜上，本文的提出語音識別方法具有有效的識別率，且達到該領(lǐng)域的識別水平。

表3

4 結(jié)語

針對語音情感識別中特征維數(shù)高、識別率低的問題，本文采用PCA降低特征維數(shù)，用網(wǎng)格參數(shù)搜索結(jié)合十折交叉驗證選擇SVM模型。在柏林情感語料庫的實驗結(jié)果表明，本文采用的語音情感識別方法是有效的。但是happiness、fear和anger的識別率不高，希望以后進行相關(guān)研究，提高語音情感的識別率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡