国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)組合模型的語音情感識別

2019-01-02 09:01陳軍,王力,徐計
軟件 2019年12期

摘 ?要: 語音情感識別在人機交互、人工智能(AI)、自然語言處理(NLP)、5G技術(shù)等方面扮演著重要的角色。為了克服單模態(tài)模型語音情感識別率低和手工調(diào)參的缺點,本文首先在Gaurav Sahu的基礎模型上增加KNN、CNB和Adaboost單模態(tài)模型,提出多模態(tài)組合模型C3;然后應用排列組合方法通過計算機實現(xiàn)自動組合,克服Gaurav Sahu手工組合存在的不足;最后用超參數(shù)優(yōu)化方法和交叉驗證方法對網(wǎng)絡模型進行訓練和測試,解決手工調(diào)參存在的不足。在IEMOCAP數(shù)據(jù)集上對本文提出的C3進行實驗,實驗結(jié)果表明,C3比Gaurav Sahu提出的多模態(tài)組合模型E2的語音情感識別性能提升1.56%。

關(guān)鍵詞: 單模態(tài)模型;多模態(tài)組合模型;超參數(shù)優(yōu)化;語音情感識別;交叉驗證;自動組合

中圖分類號: TN912.3 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.12.013

本文著錄格式:陳軍,王力,徐計. 基于多模態(tài)組合模型的語音情感識別[J]. 軟件,2019,40(12):5660+214

Speech Emotion Recognition Based on Multi-modal Combination Model

CHEN Jun1, WANG Li1,2, XU Ji2

(1. College of Big Data and Information Engineerin, Guizhou University, Guiyang 550025, Guizhou;

2. College of Information Engineering, Guizhou Institute of Engineering Application Technology, Bijie 551700, Guizhou)

【Abstract】: Speech emotion recognition plays an important role in human-computer interaction, artificial intelligence (AI), natural language processing (NLP), 5G technology and so forth. In order to overcome the shortcomings of low speech emotion recognition rate and manual parameter tuning in single modal model, this paper first proposes a multi-modal combination model C3 by adding KNN, CNB and Adaboost single modal model on the basic models of Gaurav Sahu. Then, the method of permutation and combination is applied to realize automatic combination by computer to overcome the shortcomings of Gaurav Sahu manual combination. Finally, the network model is trained and tested by hyper-parameter optimization method and cross-validation method to solve the shortcomings of manual parameter adjustment. Experiments on IEMOCAP dataset show that the performance of multi-modal combination model C3 is 1.56% better than that of Gaurav Sahu's multi-modal combination model E2.

【Key words】: Single modal model; Multi-modal combination model; Hyper-parameter optimization; Speech emotion recognition; Cross-validation; Automatic combination

0 ?引言

近年來,在語音識別、自然語言處理等領域,形成了一種從單模態(tài)分析到多模態(tài)融合的思維[1]。多模態(tài)融合的研究方法引起了不同研究領域和眾多學者的高度關(guān)注。

有關(guān)研究者對多模態(tài)特征融合進行深層次的研究。Liu[2]等人提出LMF(Low-rank Multimodal Fusion)方法,利用低秩張量進行多模態(tài)融合,即對語言(Language)、視覺(Visual)和聲學(Acoustic)這三種模態(tài)特征進行融合,以提高模型的識別率。Zadeh[3]等人采用TFN(Tensor Fusion Network)方法對情感進行分析。Sharma[4]等人提出一個多模態(tài)系統(tǒng)(SVMS),該系統(tǒng)基于面部數(shù)據(jù)和聲學數(shù)據(jù)對性別進行識別,其實質(zhì)是將面部特征和聲學特征作為兩種特征模態(tài)。

然而有相關(guān)的研究者將多模態(tài)特征融合的思想應用在多模態(tài)模型組合上,以探索研究不同組合模型的識別性能。Ftoon Abu Shaqra[5] 等人組合三個單模態(tài)模型(Simple Model、Gender-based Model和Age-based Model)得到一個組合的分類模型(Compound Model),該組合分類模型將三個單模態(tài)模型中每個標簽的所有預測概率集中在一起,然后再對語音情感數(shù)據(jù)進行識別(識別的準確率達到74%)。Ftoon Abu Shaqra的組合模型將語音的性別、年齡和情感這三種元素聯(lián)系在一起。Gaurav Sahu[6] 提出多模態(tài)模型E1(組合RF、XGP和MLP)和E2(組合RF、XGP、MLP、MNB和LR)并對語音情感標簽進行識別,其思想是通過隨機森林(RF)、極端梯度提升(XGB)、支持向量機(SVM)[7,8]、多項式樸素貝葉斯(MNP)、邏輯回歸(LR)、多層感知機(MLP)和長短期記憶網(wǎng)絡(LSTM)[9]作為單模態(tài)模型,并對七種單模態(tài)模型進行人為組合,得到多模態(tài)模型E2。Gaurav Sahu首先從音頻信號中抽取8種時域信號作為音頻特征,其次從文本信息中抽取TF-IDF(Term Frequency-Inverse Document Frequency)[10]作為文本特征,最后再組合音頻特征和文本特征作為新的特征。

雖然Gaurav Sahu[6]提出的多模態(tài)組合模型E2能夠取得比單模態(tài)模型較好的語音情感識別效果,但是存在人為組合單模態(tài)模型不全面和手工調(diào)參量大的缺陷,導致整個模型存在很強的主觀性和識別率低。

本文在Gaurav Sahu的單模態(tài)模型上增加KNN、CNB和AdaBoost三個單模態(tài)模型,通過排列組合對單模態(tài)模型的預測概率進行排列組合,有效避免人為組合模型存在的主觀性;為有效避免手工調(diào)整超參數(shù),采用超參數(shù)優(yōu)化方法和交叉驗證方法對網(wǎng)絡模型進行訓練和測試,選出最優(yōu)的多模態(tài)組合模型C3。

1 ?相關(guān)工作

1.1 ?數(shù)據(jù)預處理

(1)音頻序列

語音情感信號“happy”和“excited”(“sadness”和“frustration”)的頻譜圖非常相似,將“happy”和“excited”(“sadness”和“frustration”)融合為“happy”(“sadness”)。除此之外,忽略了“xxx”和“others”的情感標簽。融合后的語音情感標簽如表1所示。

表1 ?融合的語音情感標簽

Tab.1 ?Fused speech emotion labels

Before Now

anger anger

happy happy

excited

neutral neutral

surprise surprise

sadness sadness

frustration

fear fear

xxx /

other /

(2)文本序列

文本情感分類中存在一些對分類無意義的符號,需要進行數(shù)據(jù)預處理,即去掉文本序列中無關(guān)的“”、“,”等標點符號,如圖1所示。

圖1 ?文本標準化

Fig.1 ?Texts standardization

1.2 ?語音情感特征提取

從音頻信號中計算出8維的音頻特征,從文本信息中計算TF-IDF作為文本特征,具體如下:

(1)信號音高[11,12](Signal Pitch)

在時域中,自相關(guān)算法被廣泛用于評估語音信號的周期性音高[4]。在本文中,使用短時的自相關(guān)算法,因為語音信號的采樣長度是有限的。短時自相關(guān)形式被定義為:

(1)

(2)

其中,為序列的延遲,為信號的幀數(shù),當接近無窮大,公式(1)變?yōu)殚L時自相關(guān)表達式(2)。公式(1)的最大值對應的等于音高。為了得到音高,對輸入信號使用center-clipped[4,5]方法,得到:

(3)

其中,CL為門限值,將其設置為絕對輸入信號的平均值的45%。接下來,計算的自相關(guān)函數(shù),即:

(4)

最后,

(5)

(2)信號能量[6](Signal Energy)

可以根據(jù)語音信號能量特征識別出其對應的情感。圖2顯示了“happy”信號和“frustration”信號的能量,它是根據(jù)均方根能量(Root Mean Square Energy, RMSE)計算出來的,其定義如下:

(6)

計算的平均值和標準差作為模型的另外兩個特征輸入。

圖2 ?happy(紅色)和frustration(藍色)

Fig.2 ?Happy (red) and frustration (blue)

(3)Pause[6]

語音信號中“silent”片段的特征,其值隨情緒信號的變化而變化,例如,音頻對話信號“happy”具有較低的pause值,pause表達式為:

(7)

其中,是一個恒定的門限值。

在本文中,使用的音頻特還有音頻信號的均值(Mean)、標準差(Standard Deviation)和諧波(Harmonics);文本特征有TF-IDF(Term Frequency- Inverse Document Frequency)。

2 ?多模態(tài)組合模型

計算RF、XGB、MNP、MLP等10種單模態(tài)模型的預測概率。用高等數(shù)學的排列組合知識,讓計算機對10種單模態(tài)模型的預測概率[13]進行自動組合(共1013種)求平均值,比如:對模型RF(預測概率為P1)、XGB(預測概率為P2)和MNP(預測概率為P3)進行列表化為[RF, XGB, MNP],對其進行組合共有4種組合模型,即:[RF, XGB]、[RF, MNP]、[XGB, MNP]和[RF, XGB, MNP],組合后的預測概率分別為:

(8)

(9)

(10)

(11)

在所有的單模態(tài)模型和多模態(tài)模型中,使用混淆矩陣(Confusion Matrix)作為評估矩陣來計算模型的性能。利用accuracy、precision、recall和F-score共同評估模型的性能。

理想情況下,精確率(precision)和召回率(recall)越高,說明網(wǎng)絡模型對語音情感識別性能就越好,但一般情況下,精確率與召回率的變化是相反的。在實驗中,采用精確率與召回率的調(diào)和值F-score作為模型預測性能的最佳度量。如果精確率(precision)和召回率(recall)兩者都很低,則表明該模型識別率很低,也就是模型不能很好地識別語音信號的情感。

對組合的模型進行測試,根據(jù)多模態(tài)組合模型的混淆矩陣求accuracy、precision、recall、F-score的值,最后求四個性能之和最大的多模態(tài)組合模型作為最好的模型組合。基于音頻特征、文本特征、音頻特征與文本特征組合后的新特征,識別性能最好的多模態(tài)模型組合分別是C1、C2、C3。

3 ?模型優(yōu)化

3.1 ?超參數(shù)優(yōu)化

在模型訓練中,手動調(diào)參是一個復雜的過程,如果模型數(shù)量或者模型層數(shù)越多手動調(diào)參就越不利于科研工作,而且調(diào)出來的參數(shù)不一定是最好的。因此在本文中,利用超參數(shù)優(yōu)化方法,即給網(wǎng)絡模型的某些參數(shù)設置一定的范圍,在訓練時讓模型本身找到最佳的參數(shù)。另外,為了提高工作效率,在超參數(shù)優(yōu)化時,還采用三種并行工作方式縮短模型的訓練時間。

3.2 ?交叉驗證(Cross Validation)

超參數(shù)優(yōu)化網(wǎng)絡模型后,第二次對網(wǎng)絡模型訓練時最優(yōu)網(wǎng)絡模型很少出現(xiàn)過擬合現(xiàn)象,但在預測模型性能時,對測試數(shù)據(jù)的擬合程度不是很理想。交叉驗證方法可以避免測試數(shù)據(jù)的過度擬合,在研究工作中,采用K-fold交叉驗證(K=10),即將數(shù)據(jù)分為10個子樣本集,其中一個是驗證模型的數(shù)據(jù),其他子樣本用于訓練,交叉驗證重復10次,每個子樣本一次。該方法的優(yōu)點在于,隨機生成的子樣本集被重復用于訓練和驗證,并且每次都驗證一次。

4 ?實驗及結(jié)果分析

4.1 ?實驗數(shù)據(jù)

本文采用了IEMOCAP[14](Interactive Emotional Dyadic Motion Capture)數(shù)據(jù)集,該數(shù)據(jù)集是在南加州大學薩爾實驗室建立的,并且包含來自10位對話者的對話,涉及約12小時的信息(音頻、視頻以及文本)。它標有10個類別的情感標簽,即:憤怒(anger)、高興(happy)、悲傷(sadness)、中性(neutral)、驚訝(surprise)、恐懼(fear)、沮喪(frustration)、興奮(excited)、xxx(xxx)和其他(others)。然而,在研究工作中,僅僅利用了六種情感標簽。

在計算并獲取原始語音數(shù)據(jù)集IEMCOP的8維音頻特征時,如果CPU只有8 GB的內(nèi)存,那么最好讀取1個session數(shù)據(jù)集,當然如果CPU內(nèi)存容量超過16 GB,可以一次性獲得5個session數(shù)據(jù)集。對5個session數(shù)據(jù)集的8個音頻特征進行計算時最好是分二到五次計算,然后將計算的特征合并在同一個excel表單中。

4.2 ?模型部署

使用pycharm平臺部署實驗。網(wǎng)絡模型來自Torch包和sklearn包。在整個實驗中,采用RF、XGB、MNB、LR、MLP、SVM、KNN、AdaBoost、CNB和LSTM作為單模態(tài)模型。組合十個單模態(tài)模型得到1013個多模態(tài)模型,再求出1013個模型中四個性能(Accuracy、Precision、Recall和F-score)總和最高的模型組合。增加兩個多模態(tài)模型E11和E21作為實驗對照組,且E1和E11由單模態(tài)模型RF、XGB、MLP組合而成;E2和E21由RF、XGB、MLP、MNB、LR組合而成,唯一不同的是E1模型和E2模型沒有經(jīng)過超參數(shù)優(yōu)化、交叉驗證、并行處理。

4.3 ?實驗結(jié)果

(1)基于音頻特征的模型性能

在表2中,基于音頻特征的所有單模態(tài)模型中,單模態(tài)模型XGB的F-score值最高。在使用超參數(shù)優(yōu)化和交叉驗證這兩種方法后的E11,其F-score值高于先前的E1。四種性能之和最高的組合模型C1,其F-score值(60.98%)高于E1接近9.48%。此外,還可以看到學習模型LSTM(或MLP)的F-score值低于RF、XGB和KNN,更遠小于C1。

表2 ?基于音頻特征的模型性能

Tab.2 ?Performance of models based on audio features

Models Accuracy F_score Precision Recall

RF 55.92 56.92 56.86 57.69

XGB 61.54 59.67 59.35 60.28

SVM 30.27 29.01 30.44 30.35

MNB 22.33 9.67 14.09 18.35

LR 30.52 27.06 30.07 28.85

MLP 34.24 35.04 38.04 35.42

AdaBoost 33.27 30.29 34.09 29.68

KNN 56.58 53.79 52.95 56.10

CNB 26.30 18.46 14.06 26.89

LSTM 38.71 37.05 36.47 39.20

E1 56.60 55.70 57.30 57.30

E11 60.79 59.69 59.25 60.43

C1 59.49 60.98 61.51 61.09

C1:組合RF、XGB、MNB和LR

(2)基于文本特征的模型性能

在表3中,基于文本特征序列訓練后的LSTM(或MLP)模型,其F-score值得到提升,特別是LSTM的性能(62.75%)超出所有單模態(tài)模型。雖然SVM的Recall值最高,但最終將F-score的值作為模型的真實性能評估。此外,組合模型E21的F-score值不僅高于E2而且低于C2。組合的多模態(tài)模型C2(68.01%)的F-score值高于E2(接近3.05%)。

(3)基于音頻特征與文本特征組合的模型性能

在表4中,實驗中發(fā)現(xiàn)單模態(tài)模型XGB的

F-score值高于所有的單模態(tài)模型。多模態(tài)模型E21的F-score值高于E2低于C2。另外,相對于表3而言,LSTM和MLP模型的四種評估值仍然保持在60%-70%中。雖然單模態(tài)模型AdaBoost模型的F- score值(37.60%)最低,但與AdaBoost模型組合的多模態(tài)模型C3(XGB+MNB+AdaBoost)的F-score值最高,C3的F-score值高于E2約1.56%。

4.4 ?實驗分析

基于音頻特征的LSTM模型對情感的識別力最低,而基于文本特征或者音頻特征與文本特征組合后的LSTM對情感具有較好的識別效果。在采用超參數(shù)優(yōu)化和交叉驗證方法后,基于音頻特征(或者文本特征)的單模態(tài)模型XGB在所有單模態(tài)模型中對語音情感識別具有較好的性能,但是在超參數(shù)優(yōu)化時,XGB模型的參數(shù)范圍不應太大,否則CPU工作線程的數(shù)量將被終止,或者CPU將因內(nèi)存不足而停止工作。

Gaurav Sahu的多模態(tài)模型E1和E2是未經(jīng)超參數(shù)優(yōu)化和交叉驗證,E1、E2與經(jīng)過超參數(shù)調(diào)優(yōu)、交叉驗證自動組合的多模態(tài)模型E11、E21、C1、C2、C3的性能排序(根據(jù)F-score值大小來排序)分析如表5所示。在同等條件下的多模態(tài)組合模型中,E1、E2識別性能最低,且基于音頻特征與文本特征組合的多模態(tài)模型組合C3對語音情感識別率最高(大約72.92%)。

雖然表5中的C1是音頻特征中最佳的多模態(tài)模型,但是在圖3(a)中,觀察到“anger”、“happy”和“neutral”的識別率不是很高,特別是多模態(tài)模型C1對“sad”的識別能力最低。從圖3(b)中可以看到“anger”、“happy”、“neutral”和“sad”的識別力在多模態(tài)模型C2中得到明顯提升。在圖3(c)中,多模態(tài)組合模型C3可以較好的識別“anger”、“happy”、“fear”和“surprise”,另外,“sad”的識別能力也得到了極大地提高。

表5 ?多模態(tài)模型性能比較

Tab.5 ?Performance comparison of multi-modal models

特征序列 識別性能排序/

F-score 綜合排序/

F-score

音頻特征 E1

文本特征 E2

音頻特征與文本特征組合 E2

(a)音頻特征,C1 (b)文本特征,C2 (c)音頻特征與文本特征的組合,C3

5 ?總結(jié)

針對Gaurav Sahu的語音情感識別模型,存在識別效果低、手工調(diào)參量大和手工組合單模態(tài)模型的主觀性,提出基于多模態(tài)組合模型C3對音頻特征與文本特征組合的新特征序列進行情感識別,本文提出的多模態(tài)組合模型C3經(jīng)過超參數(shù)調(diào)優(yōu)、交叉驗證和自動組合后,其性能(72.92%)優(yōu)于Gaurav Sahu手工組合的多模態(tài)組合模型E2。在未來的研究工作中,將對多維特征融合的方法進行研究,進一步提高語音情感的識別率。

參考文獻

[1]Soujanya Poria, Erik Cambria, Rajiv Bajpai, er al. A review of affective computing: From unimodal analysis to multimodal fusion. Information Fusion. 2017, 37: 98-125.

[2]Z. Liu, Y. Shen, V. B. Lakshminarasimhan, et al. “Efficient low-rank multimodal fusion with modality-specific factors,” arXiv preprintarXiv: 1806.00064, 2018.

[3]A. Zadeh, M. Chen, S. Poria, et al. “Tensor fusion network for multimodal sentiment analysis,” arXiv preprintarXiv: 1707.07250, 2017.

[4]Sharma, Rajeev, Mohammed Yeasin, et al. “Multi-modal gender classification using support vector machines (SVMs).” U. S. Patent Application No. 10/271, 911.

[5]Ftoon Abu Shaqra, Rehab Duwairi, Mahmoud Al-Ayyoub.

Recognizing Emotion from Speech Based on Age and Gender Using Hierarchical Models[J]. Procedia Computer Science, 2019, 151.

[6]Gaurav Sahu. “Multimodal Speech Emotion Rcogni-tion and

Ambiguity Resolution,” 2019. 4.

[7]劉夢迪. 基于網(wǎng)絡輿情分析的智能手機用戶反饋跨文化研究[D]. 清華大學, 2017.

[8]V. Vapnik, C. Cortes. Support vector networks. Machine Learning, 1995, 20(3): 273-197.

[9]S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural computation, 1997, vol. 9, no. 8, pp. 1735-1780.

[10]程一峰. 基于TF-IDF的音頻和歌詞特征融合模型的音樂情感分析研究[D]. 重慶大學, 2012.

[11]M. Sondhi, “New methods of pitch extraction,” IEEE Transactions on audio and electroacoustics, 1968, vol. 16, no. 2, pp. 262-266.

[12]Hu, Yakun, Dapeng Wu, et al. “Pitch-based gender identific ation with two-stage classification.” Security and Communication Networks 5.2 (2012): 211-225.

[13]Ftoon Abu Shaqra, Rehab Duwairi, Mahmoud Al-Ayyoub. Recognizing Emotion from Speech Based on Age and Gender Using Hierarchical Models[J]. Procedia Computer Science, 2019, 151.

[14]Carlos Busso, Murtaza Bulut, Chi-Chun Lee, et al. “Iemocap: Interactive emotional dyadic motion capture database,” Lang uage resources and evaluation, 2008, vol. 42, no. 4, p. 335.

西宁市| 栾川县| 永昌县| 岗巴县| 英山县| 五指山市| 武鸣县| 东阿县| 栖霞市| 辛集市| 凌云县| 台湾省| 陆丰市| 色达县| 吉木乃县| 德州市| 长宁县| 河曲县| 木兰县| 开封县| 芜湖市| 涟水县| 宁晋县| 乐东| 会东县| 锦屏县| 宜阳县| 辽宁省| 石楼县| 临洮县| 郎溪县| 盈江县| 青阳县| 自贡市| 东辽县| 广元市| 河曲县| 无锡市| 新巴尔虎左旗| 龙里县| 岳普湖县|