尹文昊
摘 要:語音識別對于人機(jī)交互而言一直以來都是非常重要的。而僅僅識別語音的內(nèi)容,忽略它的情感是不完整的識別。因此,對語音情感的研究十分有必要。卷積神經(jīng)網(wǎng)絡(luò)在圖像分類和語音識別等領(lǐng)域中取得了一系列的突破,十分具有分析和研究價值。將語音信號轉(zhuǎn)換成三維語譜圖的形式,送入到卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類識別是最基本的方式。文章做了以下工作:(1)研究了對語譜圖進(jìn)行不同的預(yù)處理,然后再送入網(wǎng)絡(luò)模型中進(jìn)行比較。(2)對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),對比改進(jìn)后的網(wǎng)絡(luò)與原始的網(wǎng)絡(luò),得出改進(jìn)后的網(wǎng)絡(luò)在識別率上具備更好的效果。
關(guān)鍵詞:語音情感;卷積神經(jīng)網(wǎng)絡(luò);語譜圖;改進(jìn)
中圖分類號:TN912.34 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2018)13-0040-02
Abstract: Speech recognition is always essential for human-computer interaction. It is incomplete to recognize the content of speech only but ignore its emotion. Therefore, it is necessary to study speech emotion. Convolution neural network (CNN) has made a series of breakthroughs in the field of image classification and speech recognition, which is of great value for analysis and research. It is the most basic way to convert the speech signal into the form of three-dimensional spectrum and send it to the convolution neural network for classification and recognition. In this paper, we do the following work: 1) We study the different preprocessing of the linguistic spectrum, and then send it into the network model for comparison. 2) We improve the convolutional neural network, compare the improved network with the original network, and conclude that the improved network has better effect in recognition rate.
Keywords: speech emotion; convolutional neural network (CNN); linguistic spectrogram; improvement
當(dāng)今時代智能科技飛速發(fā)展,科學(xué)家們致力投身于一個偉大的行業(yè),不斷探索、不斷進(jìn)步,創(chuàng)造了一項又一項的世界紀(jì)錄。情感計算這一概念首先被美國Picard教授提出,在她的論文中,情感計算被定義為:與情感相關(guān),來源于情感,或者能夠?qū)η楦惺┘佑绊懙挠嬎鉡1]。中科院胡包鋼教授對情感計算有重新的定義:通過技術(shù)手段,賦予計算機(jī)諸如人類識別、理解、表達(dá)情感這樣的能力,從而可以實現(xiàn)更加和諧的人際交互,實現(xiàn)更加高級的智能[2]。20世紀(jì)80年代中期,Bezooijen和Tolkmitt對語音情感的基本特性以及模式進(jìn)行了研究,開啟了運用聲學(xué)特征對情感識別的時代。1999年,Moriyama建立了語音和情感的聯(lián)系模型,并在電子商務(wù)領(lǐng)域中得到了應(yīng)用[3]。到了21世紀(jì),語音情感識別的研究開始逐步加快。美國教授Picard證明了聲學(xué)特征參數(shù)與情感間的聯(lián)系[4];德國Schuller團(tuán)隊提出了情感識別框架的諸多構(gòu)想[5];Narayanan科研小組探索了語音中與情感相關(guān)的聲學(xué)特征參數(shù),研究了情感的合成以及結(jié)合語義信息的情感識別[6];日本Nicholson選用神經(jīng)網(wǎng)絡(luò)技術(shù)對情感進(jìn)行識別[7]。21世紀(jì)初,國內(nèi)東南大學(xué)趙力教授率先提出了語音中情感信息的研究[8],隨后,許多科研機(jī)構(gòu)也開始了相關(guān)研究。
1 語音信號的預(yù)處理
研究卷積神經(jīng)網(wǎng)絡(luò)的輸入后,了解到網(wǎng)絡(luò)的輸入是二維矩陣,那么對于復(fù)雜的語音信號,該如何轉(zhuǎn)換成研究所需要的二維矩陣。這個時候就要應(yīng)用語譜圖了,語譜圖是一種三維頻譜,它將和時序相關(guān)的傅立葉分析顯示到圖形上。語譜圖的規(guī)范化將是CNN語音情感識別研究的第一步,也是至關(guān)重要的一步。為了適應(yīng)于卷積神經(jīng)網(wǎng)絡(luò)的要求,介紹下面四種語譜圖預(yù)處理算法。(1)時間維度降采樣:取所有樣本中最小的采樣頻率cmin,以cmin/c為重采樣率,獲得處理后的樣本集合。(2)時間維度中采樣:取所有樣本的采樣頻率求平均值得到cmean,以cmean/c為重采樣率,可以獲得處理后的樣本集合。(3)對樣本時間維度進(jìn)行切割,以c為目標(biāo)時間維度,可以獲得處理后的樣本集合。(4)時間維度PCA降維,利用PCA降維的方法對時間維度進(jìn)行處理,獲得處理后的樣本集合。
2 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計
2.1 多卷積核CNN
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在卷積核尺度上是固定的,而語譜圖上所包含的信息是多尺度的,為了能提取到更具備情感敏感度的特征,采取兩種尺度的卷積核進(jìn)行研究。雙卷積核CNN的網(wǎng)絡(luò)結(jié)構(gòu)為:輸入-雙卷積-分別池化-分類。
2.2 顯著性特征CNN
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在池化層后將一維變量直接送入到Softmax分類器中,并沒有對一維向量做任何的處理。分析這些一維向量可以得到,這些并不全是與情感特征相關(guān)的向量,所以提出對這些一維向量進(jìn)行二次特征提取,得到與語音情感更加密切相關(guān)的向量。顯著性特征提取CNN將情感相關(guān)特征與其他特征解耦,實現(xiàn)了特征集合降維的同時,提取了與目標(biāo)標(biāo)簽更為相關(guān)的特征。
2.3 瓶頸特征提取CNN
與顯著性特征CNN類似,瓶頸特征提取CNN同樣在處理一維向量的方法進(jìn)行了改進(jìn)。利用瓶頸特征模型去提取更加相關(guān)的情感特征。瓶頸特征最早由Greal提出,指的是在多層感知器(MLP)中,處于中間隱含層神經(jīng)元個數(shù)相對于其它層比較少,這樣看起來像一個瓶頸,該模型將在該層學(xué)習(xí)到一個訓(xùn)練向量的低維表述。采用瓶頸特征模型能夠挖掘與語音情感更為相關(guān)的特征,然后送入到SVM中進(jìn)行分類,這樣可以提升語音情感識別率。
3 實驗與分析
3.1 語譜圖預(yù)處理對比實驗
在分析了語譜圖對于卷積神經(jīng)網(wǎng)絡(luò)的重要性后,了解到對語譜圖進(jìn)行預(yù)處理是有必要的,實驗采用四種方式分別對語譜圖進(jìn)行預(yù)處理,處理后的語譜圖可以直接與CNN對接,方便進(jìn)行卷積和池化的操作。實驗結(jié)果為分段預(yù)處理的平均識別率為61%,最小值預(yù)處理的平均識別率為53%,中值預(yù)處理的平均識別率為53%,PCA預(yù)處理的平均識別率為52%。
3.2 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)對比實驗
上章介紹了幾種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò),分別是多卷積核CNN、顯著性特征CNN和瓶頸特征提取CNN。本節(jié)將設(shè)計四組實驗進(jìn)行比較,語譜圖預(yù)處理方式采取上節(jié)中效果較好的分段預(yù)處理,下面是實驗設(shè)計步驟:(1)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)CNN:網(wǎng)絡(luò)結(jié)構(gòu)為輸入、卷積、池化、全連接和分類。卷積層采用大小為3x3的卷積核,池化層采用2x2的均值池化。(2)多卷積核CNN:采用雙卷積核的形式進(jìn)行研究,其卷積核大小分別為3x3和7x7。池化層均采用2x2的均值池化。(3)顯著性特征提取CNN:在多卷積核CNN的基礎(chǔ)上,在池化層產(chǎn)生一維向量后,利用SDA模型網(wǎng)絡(luò)進(jìn)行二次提取,提取后送入SVM中進(jìn)行識別分類。(4)瓶頸特征CNN:與顯著性特征提取CNN類似,同樣在池化層后利用瓶頸特征模型去提取情感特征,提取后送入SVM中進(jìn)行識別分類。實驗結(jié)果為傳統(tǒng)CNN的識別率為61%,多卷積核CNN的識別率為75%,瓶頸特征CNN的識別率為79%,顯著性特征CNN的識別率為81%。
3.3 實驗結(jié)果分析
在上一節(jié)的語譜圖預(yù)處理方式的實驗中,發(fā)現(xiàn)其中的分段預(yù)處理的方式識別效果是最好的,由分段預(yù)處理的步驟可知,它采用的是分段的手段將語譜圖分割成不同的片段,這不僅充分利用了語譜圖上的大量信息,而且增加了訓(xùn)練樣本的總數(shù)量,所以相比于其他三種預(yù)處理方式來說,識別率是最好的。在改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)對比實驗中,多卷積核CNN在卷積核尺度方面做出了改變,利用到語譜圖多維度的特點,采用多卷積核進(jìn)行卷積提取,實驗結(jié)果證明確實在識別效果上優(yōu)于基本CNN。顯著性特征CNN是在多卷積核CNN的基礎(chǔ)上進(jìn)行改進(jìn)的,所以只需與多卷積核CNN進(jìn)行比較,而在識別率上顯著性CNN相比于多卷積核CNN是有較大提高的。瓶頸特征CNN在語音情感識別率上的確優(yōu)于基本CNN。
參考文獻(xiàn):
[1]Picard,R.W.Affective Computing[M].Cambridge:MIT Press,1997.
[2]胡包鋼,譚鐵牛,王玨.情感計算-計算機(jī)科技發(fā)展的新課題[N].科學(xué)時報,2000.3.24.
[3]Van Bezooijen R, Otto SA, Heenan TA. Recognition of vocal expressions of emotion: A three-nation study to identify universal characteristics[J].Journal of Cross-Cultural Psychology,1983,14
(4):387-406.
[4]Moriyama T, Ozawa S. Emotion recognition and synthesis system on speech[C].Multimedia Computing and Systems,1999.IEEE International Conference on. IEEE,1999,1:840-844.
[5]Picard,R.W. Toward computers that recognize and respond to user emotion[J].IBM Technical Journal,2000,38(2):705-719.
[6]Schuller B, Batliner A, Steidl S, et al. Emotion recognition from speech: putting ASR in the loop[C].Acoustics, Speech and
Signal Processing, 2009. ICASSP 2009. IEEE International Conference on. IEEE,2009.
[7]Tato, R.S., R. Kompe, and J.M. Pardo. Emotional space improves emotion recognition[C].In Proc.International Conference on Spoken Language Processing, Denver, Colorado, USA, 2002:2029-2032.
[8]Nicholson J,Takahashi K,Nakatsu R. Emotion Recognition in Speech using Neural[Z].