国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進線性預測基音頻率的語音情感識別系統(tǒng)

2022-11-01 05:40:18汪蘭蘭蔡昌新
科學技術與工程 2022年26期
關鍵詞:基音識別率特征提取

汪蘭蘭, 蔡昌新

(長江大學電子信息學院, 荊州 434023)

要實現(xiàn)自然人機交互,需要計算機能夠學習和理解人類情感,現(xiàn)今語音情感識別隨著人們對于機器智能化要求的增加,逐漸被許多研發(fā)人員開始研究與應用??茖W實驗證實,語音情感在基礎的理性和智能行為中起到重要作用,此外,語音情感識別不但可以增進人與人之間交互的質量,且直接影響人們以智能的方式進行交互的能力。語音情感識別作為信號處理、人工智能、自然語言處理等各個領域的交叉學科研究,在研究前期,主要是對語音信號進行初期的探索,語音信號是傳遞信息的載體,其中包含大量聲學、韻律學等復雜的特征信息,對于語音信號中準確提取表征情感的特征參數(shù)一直是語音情感識別研究的重點。

在語音信號探索初期至今為止,語音識別相關的研究和應用方向已經(jīng)發(fā)展較為成熟。目前智能語音識別在生活中有著具體的體現(xiàn),比如手機語音助手、車載語音識別系列功能、家庭智能語音遙控等,這些應用表明了語音識別在噪聲環(huán)境下也具有準確識別的能力,但目前語音識別僅在低信噪比環(huán)境下研究較多。王群等[1]根據(jù)語音識別在低信噪比中所使用的語音增強算法并不能明顯提高識別率的這種情況,提出一種麥克風陣列增強算法,從而提高語音識別的魯棒性,利用梅爾頻率倒譜系數(shù)(Mel-frequency ceptral coefficients,MFCC)和隱馬爾可夫模型(hidden Markov model,HMM)來對增強后的信號進行特征提取和識別,實驗表明此增強算法有效提高了真實環(huán)境下的語音識別魯棒性。戚龍等[2]提出利用改進BP神經(jīng)網(wǎng)絡(back propagation neural network)來提高語音識別率,并根據(jù)非特定人群中出現(xiàn)連續(xù)和非連續(xù)語音的情況都能夠準確識別。而語音情感識別作為語音識別方向的分支,相比語音識別而言其研究要較為落后,陳鵬展等[3]提出一種改進k最近鄰(k-nearest neighbor,KNN)識別算法,利用此算法能夠識別出個人情感;楊明極等[4]提出將卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)和長短期記憶網(wǎng)絡(long short-term memory,LSTM)先后提取語音情感特征的方法,最后得出兩者結合比單一模型能夠提高語音情感識別率。

對比中外語音識別和語音情感識別的研究,語音情感識別在噪聲干擾下的研究較少,且未應用到實際生活中,主要原因有三點:一是目前大部分實驗數(shù)據(jù)來源相比其他類型構建困難,只能利用現(xiàn)有的情感語料集進行實驗分析及驗證;二是目前語音特征提取方法較多,但同時具有準確表征語音情感和抗噪性的特征提取方法目前并沒有提及;三是情感語料集中的語音都是專業(yè)發(fā)音人員在無噪環(huán)境下進行錄制,應用到實際噪聲干擾環(huán)境中會使得語音情感識別率較低。針對此三點情況,現(xiàn)提出一種新的特征提取方法,即線性預測基音頻率特征提取方法,利用模型相同的LPC美爾倒頻譜系數(shù)(LPC Mel cepstral coefficients,LPCMCC)[5]特征提取方法來改進,從而改善噪聲干擾下所出現(xiàn)的情感分類模糊化問題,并設計基于改進特征的語音情感識別系統(tǒng),測試此改進特征在實際生活中的應用價值。

1 線性預測基音頻率

1.1 線性預測分析

基于人的發(fā)音器官特點和語音產(chǎn)生的機理,構成了語音信號生成的數(shù)學模型[6]。而線性預測模型則是將數(shù)學模型進行簡化處理,并提出了一種非常好的聲道模型(全極點模型)及模型參數(shù)估計方法。其實質是將聲門激勵、聲道以及輻射的全部效應簡化為一個時變的數(shù)字濾波器來等效,簡化模型如圖1所示。

圖1 簡化模型Fig.1 The simplified model

其模型傳遞函數(shù)為

(1)

式(1)中:S(z)為語音信號的z變換形式;U(z)為激勵信號的z變換形式;ai為線性預測系數(shù),其中i=1,2,…,p;p為線性預測模型階數(shù);G為聲道濾波器增益。將式(1)變換為s(n)和u(n)之間的關系,即

(2)

線性預測模型的數(shù)學表達形式為

(3)

由式(3)可知,線性預測分析的基本思想是由s(n)過去p個樣本值加權線性組合來預測或估計當前語音信號,通過在方均誤差準則下使e(n)達到最小值的方法來獲得線性預測系數(shù)[7],主要原理過程如下。

首先定義某一幀內(nèi)的短時方均預測誤差為E,可表示為

(4)

式(4)中:N為語音幀數(shù);e(n)為預測誤差。對式中ai求偏導后,由于求導后運算較為復雜,引入自相關函數(shù)來降低運算量,自相關函數(shù)[8]表示為

(5)

式(5)中:N為語音段的N個樣點。將式(5)代入式(4)求偏導過程中,則最小方均預測誤差可表示為

(6)

φ(j,i)的計算較為復雜,根據(jù)自相關法將最小方均預測誤差改寫為

(7)

式(6)中:r(i)為語音段s(n)的自相關函數(shù),為求得式(7)最小解,引入萊文遜-杜賓(Levinson-Durbin)算法進行遞推求解,最終求得解集為

(8)

式(8)中:E隨著預測器階數(shù)p的增加而減小,表明了線性預測模型的精度會隨著階數(shù)的增加而提高,在實驗時取得較為合適的階數(shù)能夠提高語音情感識別率,當階數(shù)無窮大時,誤差并不會消除。

1.2 線性預測基音頻率

根據(jù)式(2)和式(3)可知,線性預測模型并沒有考慮到聲帶激勵信號中的聲學參數(shù),而基音周期[9]作為語音信號處理中描述激勵源的重要參數(shù)之一,在語音合成、語音壓縮編碼、語音識別和說話人識別等領域有著廣泛的應用。

基音周期相應的頻率稱為基音頻率[10]?;纛l率與個人聲帶的長短、厚薄、韌性和發(fā)音習慣等相關,且隨著人的性別、年齡不同而有所不同。一般男性說話者的基音頻率較低,大部分在70~200 Hz的范圍內(nèi),女性說話者和小孩的基音頻率相對較高,為200~450 Hz,因此相比基音周期而言,基音頻率在聲帶激勵信號中更能表征說話人情感特征。通常使用基音頻率作為特征提取方法不能準確表征說話人情感特性,導致情感識別時出現(xiàn)分類模糊化情況,主要原因為:其一,基音頻率能夠在無噪環(huán)境中利用公式進行準確提取,但在含噪語音中的噪聲干擾或類噪激勵信號干擾下,反映基音信息的特征將會變得不清晰;其二,語音信號中的聲道響應信息也會對基音信息提取造成困難。

為解決這些問題,提取一種新的特征提取方法,即線性預測基音頻率特征提取方法。首先,此方法利用線性預測模型去除語音信號中的聲道響應信息,對分幀語音進行線性預測模型得到主要預測系數(shù)ai,利用預測系數(shù)構成逆濾波器為

(9)

將原分幀語音通過式(9)進行濾波,得到不包含聲道響應信息的預測余量信號v(n),為提取包含噪聲干擾的激勵信息,利用常用的倒譜分析方法,即對v(n)做傅里葉變換、取對數(shù)。由于語音基音頻率一般低于500 Hz,根據(jù)信號特性和噪聲特性,通過一個低通濾波器或者將高頻分量置0來抑制噪聲干擾。本文利用將高頻分量置0的方式,這樣操作既可實現(xiàn)低通濾波,又可以濾去含噪語音中的噪聲和激勵源的高頻分量,由于噪聲不可消除,此方法對噪聲干擾有較好的抑制作用。此后作傅里葉逆變換得到原分幀信號的倒譜,尋找倒譜信號樣本點最大值,利用區(qū)間篩選出基音周期,選擇區(qū)間為

(10)

式中:fs為語音信號的抽樣頻率; 60、500 Hz為帶寬,選擇60 Hz是為了降低低頻上的噪聲干擾,選擇500 Hz是由于基音頻率一般低于500 Hz?;糁芷趨?shù)中包含一些“野點”,這些點偏離其他點的軌跡,并不具有一定的參考價值,采用中值平滑濾波來去除野點?;纛l率利用公式為

(11)

式(11)中:T為篩選出的基音周期,計算后得到一個語音信號的線性預測基音頻率,在此算法過程表述中,解決了情感識別時出現(xiàn)的模糊化問題,濾除聲道響應信息,抑制噪聲干擾。

2 LPC 美爾倒譜系數(shù)(LPCMCC)

目前與本文提出新的特征提取方法較為相似的僅有LPCMCC特征提取方法,都是基于線性預測分析以及倒譜分析進行算法完善。LPCMCC實質是提取包含聲學特性與聽覺特性的特征參數(shù),其算法原理如下。

先設通過線性預測分析得到的聲道模型系統(tǒng)函數(shù)為

(12)

式(12)中:p為線性預測階數(shù)。

其次設h1(n)為h(n)的復倒譜,將式(12)代入H1(z)=ln[H(z)]中,兩邊對z-1求導數(shù),有

(13)

令式(13)左右兩邊的常數(shù)項和z-1各次冪的系數(shù)分別相等,則由ak求出h1(n):

(14)

由式(14)得出復倒譜,需將復倒譜變換為倒譜,由

(15)

得到倒譜c(n),此倒譜為實際頻率尺度的倒譜系數(shù),稱為LPC倒譜系數(shù)(linear predictive cepstral coding,LPCC)[11]。將此LPCC系數(shù)進一步按符合人的聽覺特性的Mel尺度進行非線性變換,從而求出LPCMCC[12]為:

(16)

式(16)中:n為迭代次數(shù);k為Mel倒譜階數(shù);?為自定義因子。

綜上算法原理概述,對比LPCMCC特征與線性預測基音頻率,兩者相同之處在于都是基于線性預測分析與倒譜分析進行算法完善,不同之處在于LPCMCC特征不僅具有聲學特性,且在此基礎上增加了聽覺特性,而線性預測基音頻率特征中僅僅只包含聲學特性。

3 改進線性預測基音頻率

目前語音特征分類較廣,大體分為兩類:根據(jù)人的發(fā)音器官而產(chǎn)聲的聲學特性,以及根據(jù)人耳聽覺的生理結構和心理特性而識音的聽覺特性。將聲學特性與聽覺特性都包含的特征提取方法并不常見,本文提出新的特征提取方法僅僅基于聲學特性的部分特征提取,而LPCMCC特征提取方法基于聲學特性和聽覺特性的部分特征混合提取,將兩者結合后得到改進線性預測基音頻率特征,改進線性預測基音頻率算法框圖如圖2所示,此改進線性預測基音頻率的具體步驟如下。

(1)對輸入語音進行分幀加窗,此后對分幀段進行LPC分析,得到線性預測系數(shù)并由此系數(shù)構成逆濾波器A(z)。

(2)將原分幀段通過逆濾波器得到預測誤差e(n)。

(3)將此預測誤差進行傅里葉變換、取模和對數(shù)之后,將此信號作反傅里葉變換后得到原信號的倒譜。

(4)在最大值和最小值區(qū)間內(nèi)尋找語音幀的最大值,獲取整個語音的全部基音周期后聽過五點中值平滑算法去除偏離基音軌跡的“野點”。

(5)利用F=fs/T公式,獲得最終線性預測基音頻率F。

(6)將線性預測系數(shù)通過傅里葉變換、取模、取對數(shù)后得到復倒譜信號,利用式(15)轉換為倒譜信號。

(7)根據(jù)符合人聽覺特性的Mel尺度進行非線性變換,即在式(16)的運算下最終獲得LPCMCC特征參數(shù)。

(8)利用矩陣運算的法則,將線性預測基音頻率特征參數(shù)進行數(shù)據(jù)處理后與LPCMCC特征參數(shù)進行融合運算,最后得到改進線性預測基音頻率特征參數(shù)。

4 實驗及結果分析

4.1 實驗環(huán)境和實驗數(shù)據(jù)集

為了驗證線性預測基音頻率特征提取方法是否在噪聲干擾下對語音情感識別具有較好的應用性,設計基于線性基頻的語音情感識別實驗。設計基于LPCMCC的對比實驗,探究線性基頻特征提取方法與目前特征提取方法在語音情感識別領域的精確度。設計基于改進線性預測基音頻率的語音情感識別實驗,研究此改進方法相比以上兩類方法所提高的情感識別率。在設計的三類實驗中,部分算法是在MATLAB2020b和Spyder (anaconda3)平臺上進行編譯,訓練和預測函數(shù)均調用libsvm-3.20工具箱,下載相對應的C語言編譯器,通過生成的mex文件來調用C語言函數(shù)文件。

采用CASIA漢語情感語料庫對實驗所需數(shù)據(jù)集進行構建,整理出適應自然環(huán)境下的含噪數(shù)據(jù)集。選取300句語音文件,其中包括說話內(nèi)容相同的6種情感各具50個語音文件,將噪聲和選取的300句純凈語音在-5 db的信噪比下進行語音合成,其中所選用的噪聲為常見的加性噪聲[13]:語音干擾(babble noise)、周期噪聲(f16 noise)、沖激噪聲(machinegun noise)、寬帶噪聲(white noise),而語音合成后的4類含噪情感數(shù)據(jù)集則是本文所需的實驗數(shù)據(jù)集。部分數(shù)據(jù)集類別和數(shù)量分布如表1所示,其中將實驗數(shù)據(jù)集劃分為60%的訓練集和40%的測試集。

表1 部分數(shù)據(jù)集類別和數(shù)量分布Table 1 Part of the dataset category and quantity distribution

4.2 實驗參數(shù)選取

在CASIA漢語情感語料庫與4類噪聲按照信噪比為-5 db進行合成數(shù)據(jù)集過程中,設置采樣頻率為16 kHz,使得合成語音為人耳適應的范圍。在語音預處理階段,設置的幀長和幀移分別為320、80,所加窗函數(shù)為漢明窗,窗長為320。在開始對線性預測基音頻率以及LPCMCC、改進線性預測基音頻率實驗前,都需要進行線性預測分析,在線性預測分析中階數(shù)設置為36。式(16)中參數(shù)?的選取對于后期實驗較為關鍵,即?的選取會對語音情感識別的準確率有較高的影響,目前中外研究有兩類此參數(shù)的選取:當抽樣頻率為8 kHz時,?的取值為0.31;抽樣頻率為10 kHz時,?的取值為0.35,但本文選取的抽樣頻率為16 kHz,并不適合以上兩類情況。設計基于LPCMCC的SVM語音情感識別實驗來選取較為適合的?參數(shù),選取6種情感平均F1作為評估指標,?參數(shù)的選取下平均F1情況如表2所示。

表2 ?參數(shù)的選取下平均F1情況Table 2 The average F1 situation under the selection of ? parameters

根據(jù)上述實驗情況可以得出,在babble數(shù)據(jù)集上的語音情感識別率在?為0.47時達到最高;在f16數(shù)據(jù)集上?從0.43~0.48波動時,語音情感識別率從穩(wěn)定的64%下降為56%,說明?為0.47時已經(jīng)趨于穩(wěn)定;在machinegun數(shù)據(jù)集上?從0.45~0.47過渡時,語音情感識別率從64%下降為60%,但從這后面基本趨于穩(wěn)定不變;在white數(shù)據(jù)集上?從0.43~0.47波動時,語音情感識別率基本趨于穩(wěn)定狀態(tài),并達到峰值為62%。以上的4種情況可以說明當?為0.47時,語音情感識別率不僅可以達到最高,且相比其他參數(shù)而言較為穩(wěn)定。

4.3 對比實驗

設計基于線性預測基音頻率、改進線性預測基音頻率與LPCMCC的三類語音情感識別實驗,實驗中所用情感識別模型則是選用在小樣本上識別效果較好的非線性SVM(支持向量機),并沒有選取目前較為流行的神經(jīng)網(wǎng)絡算法,主要在于神經(jīng)網(wǎng)絡并不適合應用于小樣本數(shù)據(jù)上,并且實驗結果具有不穩(wěn)定性,并不具有實際應用價值。而非線性SVM在解決小樣本、非線性及高維數(shù)據(jù)模式識別等這些方面,具有穩(wěn)健的識別率?;诟倪M特征部分數(shù)據(jù)如表3所示,計算F1評估指標均值的三個特征提取方法對比數(shù)據(jù),方法對比數(shù)據(jù)如表4所示。

表3 基于改進特征部分數(shù)據(jù) Table 3 Partial data based on improved features

表4 方法對比數(shù)據(jù)Table 4 Method comparison data

從表3可以看出,其中悲傷的精確度、召回率、F1在兩類數(shù)據(jù)集下都是一樣的,并且相比其他情感要低于10%~20%。說明在數(shù)據(jù)處理過程中對于悲傷這一類語音文件的情感特征并沒有很好地進行提取,導致最后語音情感識別率較低,但對于其他類別情感的語音情感識別率較高。整體說明改進線性預測基音頻率的特征提取方法在噪聲干擾下具有抗噪性,并且應用到語音情感識別中的識別率較高。從表4可以看出,改進線性預測基音頻率特征參數(shù)下的情感識別精度相比LPCMCC最高提高了20%,相比線性預測基音頻率最高提高了32%。說明本文提出新的語音特征提取方法在噪聲干擾下能夠有效地識別出語音情感,以及在此基礎上改進的特征提取方法在原先的基礎上能夠較大的提高語音情感識別率,并比國內(nèi)目前的特征提取方法在噪聲干擾下的語音情感識別率要高。反映出改進特征提取方法不僅具有抗噪性,也具有在語音情感識別方面的應用價值。

5 系統(tǒng)仿真

為了驗證基于改進特征是否具有廣泛實際應用價值,設計基于MATLAB GUI技術[14]的語音情感識別系統(tǒng)仿真界面。MATLAB GUI界面是通過MATLAB命令行運行guide設計平臺,并在guide平臺上擺放按鈕、圖形句柄、文本編輯框等控件,設計完成基于改進線性預測基音頻率的語音情感識別系統(tǒng)仿真界面,所包含的功能為導入語音文件、波形顯示、端點檢測、語音增強、改進特征參數(shù)提取、情感識別。在設計完成后對系統(tǒng)進行功能性測試,其中隨機錄制不同環(huán)境下的語音文件導入系統(tǒng)中進行測試,部分測試界面如圖3~圖5所示。

圖3 正確識別為“中性”情感Fig.3 Correctly identified as “neutral” emotion

圖4 正確識別為“高興”情感Fig.4 Correctly identified as “happy” emotion

圖5 錯誤識別為“驚訝”情感Fig.5 Misidentified as “surprise” emotion

圖3和圖4顯示界面是在不同高信噪比環(huán)境下進行測試實驗的結果,圖3為正確識別為“中性”情感的測試結果,圖4為正確識別為“高興”情感的測試結果。從圖3(b)和圖4(b)標的語譜圖[15]可以看出,其中含有較清晰的黑紅橫條(共振峰頻率)和豎直條紋(基音頻率),從側面印證了語音文件含噪率較低,少量噪聲對于語音情感的正確識別并沒有影響。以上說明反映了基于本文所提出新的特征提取方法的改進特征,在高信噪比環(huán)境下具有實際語音情感識別應用價值,降低了分類模糊化出現(xiàn)的情況。圖5顯示界面是在較低信噪比環(huán)境下進行測試實驗,實驗結果為錯誤地將“害怕”識別為“驚訝”。從圖5(b)標的語譜圖中看出噪聲將整個語音段進行覆蓋,但圖5(d)標的濾波語譜圖相比圖5(b)標而言噪聲含量較少,但相應地濾掉部分重要特征,使得最后的識別結果與預期不同。以上說明反映了改進特征提取方法在較低信噪比環(huán)境下的語音情感識別率較低,選用的語音增強算法并不適用于改進特征提取方法。綜上所述,基于本文所提出新的特征提取方法的改進特征在日常生活中具有廣泛實際應用價值,但在一些噪聲完全覆蓋說話者語音的情況下并不具有實際應用價值。

6 結論

首先,利用線性預測模型對本文提出新的語音特征提取方法進行算法完善,設計基于線性預測基音頻率的SVM語音情感識別實驗,驗證其在日常噪聲干擾下的語音情感識別應用中是否具有一定的抗噪性。實驗結果表明,其在語音情感識別中具有一定的抗噪性,但提取的特征并不能很好地表征情感特征。其次,根據(jù)LPCMCC原理對其進行改進得到改進線性預測基音頻率特征提取方法,利用線性預測基音頻率、LPCMCC、改進線性預測基音頻率這3類方法對4類自建含噪數(shù)據(jù)集分別進行特征提取。最后,將3類特征提取方法所提取的特征各自導入SVM模型中進行訓練和測試。實驗表明,相比線性基頻以及LPCMCC而言,改進特征能夠改善分類模糊化這類情況,比線性預測基音頻率和LPCMCC要高出22%、14%。為驗證改進特征在真實環(huán)境下的實際應用價值,設計基于改進方法的語音情感識別系統(tǒng),整體系統(tǒng)界面基于MATLAB GUI技術進行功能性完善,對其系統(tǒng)進行功能性測試。實驗結果表明其改進方法在日常噪聲干擾下具有廣泛實際應用價值。在接下來的研究工作中,會嘗試在較低信噪比環(huán)境下對改進方法進行優(yōu)化。

猜你喜歡
基音識別率特征提取
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
計算機工程(2020年3期)2020-03-19 12:24:50
基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關系
基于基音跟蹤的語音增強研究
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
提升高速公路MTC二次抓拍車牌識別率方案研究
Bagging RCSP腦電特征提取算法
高速公路機電日常維護中車牌識別率分析系統(tǒng)的應用
基于MED和循環(huán)域解調的多故障特征提取
樂理小知識
小演奏家(2014年11期)2014-12-17 01:18:52
一種改進的基音周期提取算法
孙吴县| 凭祥市| 巴南区| 区。| 泸州市| 长治市| 新建县| 泰州市| 临洮县| 胶州市| 凌源市| 雷山县| 龙游县| 冷水江市| 滦南县| 罗田县| 江油市| 关岭| 化德县| 蒲江县| 镇平县| 周口市| 沭阳县| 乌海市| 新昌县| 杭锦后旗| 出国| 河南省| 武安市| 水城县| 介休市| 施甸县| 乌兰浩特市| 灵丘县| 宜良县| 长武县| 无极县| 新野县| 太康县| 乳山市| 仁怀市|