国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語音與文本情感識別中憤怒與開心誤判分析

2018-11-22 12:02:52胡婷婷沈凌潔馮亞琴
關(guān)鍵詞:聲學(xué)分類器語音

胡婷婷,沈凌潔,馮亞琴,王 蔚

(南京師范大學(xué) 教育科學(xué)學(xué)院機(jī)器學(xué)習(xí)與認(rèn)知實驗室,江蘇 南京 210097)

1 概 述

情感在人類認(rèn)知與交流過程中具有重大作用。情感識別是人工智能領(lǐng)域的重要研究方向。語音是情感識別的一項重要通道,然而,在使用語音通道信息進(jìn)行情感識別時,容易出現(xiàn)一些情感難以區(qū)分的情況,尤其是憤怒與開心之間難以區(qū)分的問題[1]。在使用文本通道信息進(jìn)行情感識別時,有不同效果。因此,研究不同通道信息中包含的情感識別能力具有重要研究意義。

語音情感識別已經(jīng)取得了一定的研究成果,但是在語音情感識別中一直存在憤怒與開心之間難以區(qū)分的問題。M Grimm和K Kroschel基于德語VAM數(shù)據(jù)集,采用單通道的聲學(xué)特征進(jìn)行情感識別,使用KNN(K-nearest-neighbors classification)方式對四類情感進(jìn)行識別,在說話人無關(guān)實驗中發(fā)現(xiàn),憤怒與開心之間容易誤判,中性和悲傷容易誤判,憤怒識別準(zhǔn)確率最高,開心識別率最低[2]。在基于多分類器集成的語音情感識別研究中,使用Berlin情感語言數(shù)據(jù)庫中的語音數(shù)據(jù),提取聲學(xué)特征進(jìn)行情感識別,憤怒和開心之間容易誤判,悲傷識別準(zhǔn)確率最高,開心識別準(zhǔn)確率最低[3]。在基于決策樹的多特征語音情感識別中,采用多種語音特征進(jìn)行情感識別,對憤怒與開心容易誤判,且對憤怒與害怕也易誤判[4]。基于神經(jīng)網(wǎng)絡(luò)的語音情感識別研究發(fā)現(xiàn),憤怒和悲傷是四種語音情感中最容易識別的兩種表達(dá)方式,憤怒與開心之間容易誤判[5]。在使用二次特征選擇及核融合的語音情感識別中,對于憤怒與開心容易誤判[6]?;谶z傳小波神經(jīng)網(wǎng)絡(luò)的語音情感識別中,憤怒與開心也容易產(chǎn)生誤判[7]。分析發(fā)現(xiàn),憤怒與開心誤判的問題在語音情感識別中廣泛存在。

文本通道包含不同情感識別信息。ZJ Chuang采用中文戲劇節(jié)目中的男女對話,將對話語音轉(zhuǎn)錄為文本,通過單通道的文本信息提取特征進(jìn)行情感識別,憤怒識別準(zhǔn)確率最高,開心次之,悲傷識別率最低[8]。之后ZJ Chuang采用了聲學(xué)與文本兩個通道的特征進(jìn)行情感識別,采用SVM模型訓(xùn)練,文本通道情感識別中,憤怒識別準(zhǔn)確率最高,悲傷識別準(zhǔn)確率最低[9]。在基于語音信號與文本信息的雙模態(tài)情感識別研究中[10],文本通道對四類情感識別準(zhǔn)確率大致相當(dāng),但生氣與高興相對偏高。分析發(fā)現(xiàn),文本通道信息對于情感識別也具有重要影響。

為了解決語音信息容易將憤怒與開心誤判的問題,文中將文本通道信息加入情感識別中,以求能改善誤判情況。通過采用IEMOCAP與SAVEE數(shù)據(jù)集中的語音數(shù)據(jù)提取聲學(xué)特征,使用CNN(convolutional neural network)與SVM(support vector machine)分類器分別訓(xùn)練情感識別模型,對中性、憤怒、開心、悲傷四類情感進(jìn)行識別,驗證聲學(xué)特征對于憤怒與開心的誤判情況,并對聲學(xué)特征對于其他情感的識別情況進(jìn)行分析。然后,使用兩個數(shù)據(jù)集中的文本數(shù)據(jù)提取文本特征,訓(xùn)練分類器,分析文本特征對于憤怒與開心的誤判情況,并對其他情感識別情況進(jìn)行分析。對兩通道信息對情感識別的不同影響進(jìn)行分析。最后,使用兩通道融合特征訓(xùn)練分類模型,通過分析憤怒與開心誤判的情況,判斷文本通道特征是否具有彌補(bǔ)此問題的作用。并對兩通道信息包含的對情感識別不同能力進(jìn)行比較。

2 方 法

2.1 特征提取與選擇

聲學(xué)特征是語音情感識別中最常用的一類特征,包括音高、音強(qiáng)等韻律特征,頻譜特征以及聲音質(zhì)量特征。聲學(xué)特征采用開源軟件openSMILE進(jìn)行幀水平的低層次基礎(chǔ)聲學(xué)特征的提取,應(yīng)用全局統(tǒng)計函數(shù)得到全局特征[11],參考了Interspeech 2010年泛語言學(xué)挑戰(zhàn)賽(Paralinguistic Challenge)中廣泛使用的特征提取配置文件。包含38個低層次聲學(xué)特征,如音高、梅爾倒譜系數(shù)等,在這些低層特征上應(yīng)用如最大值、最小值、均值、均方差等21個全局統(tǒng)計函數(shù)。如表1所示,得到共1 582維聲學(xué)特征[12]。

表1 低層次聲學(xué)特征(LLDs)及統(tǒng)計函數(shù)

文本特征常用的有基于情感詞典稀疏特征,基于機(jī)器學(xué)習(xí)n-gram特征以及深度學(xué)習(xí)的詞向量等文本特征。文中采用基于情感詞典的文本特征,采用詞袋方式對樣本進(jìn)行處理[13],對四種情感分別進(jìn)行詞頻統(tǒng)計后,提取出四百個情感詞,去除重復(fù)詞,得到955個詞作為詞典,以每個詞在每個樣本中出現(xiàn)與否作為該樣本特征,出現(xiàn)為1,不出現(xiàn)為0。在IEMOCAP數(shù)據(jù)集中得到共955維文本特征。在SAVEE數(shù)據(jù)集中,提取159維文本特征。

2.2 分類器

支持向量機(jī)與卷積神經(jīng)網(wǎng)絡(luò)分類器在情感識別中應(yīng)用廣泛并取得了良好效果[14-15]。為了驗證聲學(xué)特征對憤怒與開心識別結(jié)果產(chǎn)生的影響,消除分類器對識別結(jié)果可能會產(chǎn)生的影響,文中實驗分別采用SVM和CNN建立情感識別模型。對于支持向量機(jī),使用Linear SVC,損失函數(shù)使用“squared_hinge”,損失函數(shù)的懲罰項使用“L2”正則化函數(shù),停止標(biāo)準(zhǔn)為0.000 1,誤差項的懲罰因子C設(shè)為1。卷積神經(jīng)網(wǎng)絡(luò)模型使用兩個卷積層加上一個全連接層,經(jīng)過softmax激活層后得到四類預(yù)測結(jié)果。使用“Adam”優(yōu)化器,損失函數(shù)使用交叉熵。每十個樣本計算一次梯度下降,更新一次權(quán)重。對于模型中具體參數(shù)設(shè)置,第一層使用一維的卷積層,卷積核數(shù)目采用32個,第二層卷積層采用64個卷積核,卷積核的窗長度為10,卷積步長為1,補(bǔ)零策略采用“same”,保留邊界處的卷積結(jié)果。激活函數(shù)使用“ReLu”,為防止過擬合,在訓(xùn)練過程中每次更新參數(shù)時按0.2的概率隨機(jī)斷開輸入神經(jīng)元。池化層采用最大值池化方式,池化窗口大小設(shè)為2,下采樣因子設(shè)為2,補(bǔ)零策略采用“same”,保留邊界處的卷積結(jié)果。對所有訓(xùn)練樣本循環(huán)20輪。

2.3 混淆矩陣

混淆矩陣是人工智能中重要的可視化工具。文中采用混淆矩陣方式分析憤怒與開心以及其他各類情感之間的誤判情況[16]。對四類情感進(jìn)行分析,橫向每行表示真實結(jié)果,縱向每列表示預(yù)測結(jié)果。每一行四類值的和為一,表示所有樣本數(shù)標(biāo)準(zhǔn)化后的值。從左上到右下的對角線上的值為預(yù)測正確的值,其余為誤分值?;煜仃嚹茉敿?xì)表示出四類情感之間的誤判情況,從而分析語音與文本兩通道特征對于憤怒與開心的誤判情況的差別。

3 實 驗

3.1 數(shù)據(jù)集

采用由美國南加州大學(xué)SAIL實驗室收集的IEMOCAP多模態(tài)數(shù)據(jù)集,以及Philip Jackson和Sanaul Haq等收集制作的SAVEE數(shù)據(jù)集作為實驗數(shù)據(jù)。為了排除單個數(shù)據(jù)集可能對結(jié)果產(chǎn)生的影響,采用兩個數(shù)據(jù)集驗證研究結(jié)論。之前的情感識別研究中,研究者們盡量避免在不同數(shù)據(jù)集上比較多通道特征的識別表現(xiàn),由于不同數(shù)據(jù)集錄制方式不同,環(huán)境不同,說話人不同,表達(dá)語言不同等因素,會得到不一致的結(jié)論。因此,試圖去比較不同數(shù)據(jù)集的情感識別結(jié)果,從而發(fā)現(xiàn)一般性的結(jié)論是一項具有挑戰(zhàn)性的工作。本研究做出嘗試,使用兩個數(shù)據(jù)集的數(shù)據(jù)進(jìn)行情感識別,分析情感識別中的普遍現(xiàn)象。

IEMOCAP(interactive emotional dyadic motion capture database)公用英文數(shù)據(jù)集由五男五女在錄音室進(jìn)行錄制,數(shù)據(jù)集包含語音數(shù)據(jù)與文本數(shù)據(jù),以及運(yùn)動姿勢數(shù)據(jù)。每個句子對應(yīng)一個標(biāo)簽,每個樣本情感在離散方式上標(biāo)注為憤怒、悲傷、開心、厭惡、恐懼、驚訝、沮喪、激動、中性等九類情感。在維度上,在效價度(valence)、激活度(activation)、優(yōu)勢度(dominance)三個維度上進(jìn)行標(biāo)注[17]。由于激動和開心在之前研究中,在情感聚類識別時表現(xiàn)相似,區(qū)分不明顯,因此將其處理為一類情感,合并為開心[18]。最終本研究參考一種常用情感識別方式,選取中性、憤怒、開心、悲傷四類情感,共5 531個樣本。

SAVEE(surrey audio-visual expressed emotion)數(shù)據(jù)集,收集用于自動情感識別,數(shù)據(jù)集由四個演員,分別表演七種不同的情感,在視聽的多媒體錄音室中收集,包含語音與視頻以及對應(yīng)的文本數(shù)據(jù),共有480個英文句子。本研究選取四類情感,共包含300個樣本。

3.2 基于聲學(xué)特征的情感識別

分別使用在IEMOCAP與SAVEE數(shù)據(jù)集中提取的聲學(xué)特征訓(xùn)練分類器模型,圖1表示聲學(xué)特征對情感識別的結(jié)果。通過分析可以發(fā)現(xiàn),與之前研究[2-3,5]取得了類似的結(jié)論,對于憤怒與開心之間誤判效果較明顯;同時還發(fā)現(xiàn),中性與開心,中性與悲傷通過聲學(xué)通道也容易產(chǎn)生誤判;中性與憤怒,憤怒與悲傷通過聲音得到有效區(qū)分。

圖1 聲學(xué)特征情感識別混淆矩陣

3.3 基于文本特征的情感識別

分別使用IEMOCAP與SAVEE數(shù)據(jù)集中提取的文本特征訓(xùn)練分類器模型,圖2表示文本特征對情感識別的結(jié)果。之前文本通道對情感識別的研究中[7-8],對于憤怒和開心識別準(zhǔn)確率較高。而本研究中對憤怒識別率偏低,但是對于憤怒與開心具有良好的區(qū)分效果;同時發(fā)現(xiàn)文本通道特征容易將其余情感誤判為中性情感;文本中的憤怒、開心、悲傷三類情感之間互相區(qū)分效果優(yōu)于語音的區(qū)分效果。

圖2 文本特征情感識別混淆矩陣

3.4 基于聲學(xué)與文本融合特征的情感識別

通過分析發(fā)現(xiàn),文本通道特征對于憤怒與開心區(qū)分良好,因此文中通過將文本特征與聲學(xué)特征相融合,旨在改善憤怒與開心的誤判情況。在IEMOCAP中,將聲學(xué)特征與文本特征前期融合為2 537維特征,進(jìn)行情感識別。在SAVEE數(shù)據(jù)集中,聲學(xué)特征與文本特征融合為1 741維特征,由于樣本數(shù)與特征數(shù)限制,雖然不明顯但也取得了相似的結(jié)果。圖3展示了IEMOCAP數(shù)據(jù)集的聲學(xué)與文本融合特征,分別使用CNN與SVM分類器識別的結(jié)果。在圖1中,在IEMOCAP數(shù)據(jù)集,單通道聲學(xué)特征中使用CNN分類器,憤怒誤判為開心的占總憤怒樣本比例的0.18,開心誤判為憤怒占總開心樣本的0.14。在加入對憤怒與開心區(qū)分良好的文本通道特征后,如圖3所示,憤怒誤判為開心占憤怒樣本的0.12,開心誤判為憤怒的占開心樣本的0.09。可見在聲學(xué)通道特征中加入文本通道特征后,對于憤怒與開心的誤判情況相比于單聲學(xué)通道得到明顯改善。

圖3 聲學(xué)加文本特征情感識別混淆矩陣

采用混淆矩陣方式,驗證了語音對于憤怒與開心誤判效果,通過加入文本特征,改善了憤怒與悲傷的誤判效果。通過對識別結(jié)果的進(jìn)一步分析,比較聲學(xué)通道特征與文本通道特征在情感識別中的不同影響。

圖4和圖5分別展示了基于CNN和SVM分類器在兩個數(shù)據(jù)集上的表現(xiàn)。

圖4 聲學(xué)特征情感識別

圖5 文本特征情感識別

使用SVM建立的情感識別模型,對兩個數(shù)據(jù)集中的兩通道特征進(jìn)行情感識別對比,可見CNN與SVM對于四類情感識別總體趨勢類似。由圖4可見,聲學(xué)通道特征對憤怒與悲傷兩種情感的識別準(zhǔn)確率較高,對中性與開心識別準(zhǔn)確率較低。由圖5可見,文本通道特征對憤怒與悲傷兩種情感的識別準(zhǔn)確率較低,對中性與開心識別準(zhǔn)確率較高。可見文本與聲音中包含對情感識別具有不同作用的信息。

由圖6可以看出,兩通道特征融合后的特征模型相比于單通道聲學(xué)模型與單通道文本模型,對于各情感分類效果均有所提升??梢娐晫W(xué)特征與文本特征融合后沒有互相干擾,且對于情感識別產(chǎn)生了互補(bǔ)作用。

圖6 聲學(xué)加文本特征CNN分類器情感識別

4 結(jié)束語

在語音情感識別中,憤怒與開心誤判的情況普遍存在,文中加入文本信息以改善此情形。并對聲音與文本中包含的情感識別能力進(jìn)行比較。實驗結(jié)果表明,憤怒與開心兩類情感通過聲學(xué)特征難以區(qū)分,容易出現(xiàn)誤判。通過加入文本通道特征,有效改善了憤怒與開心的誤判問題。同時通過分析發(fā)現(xiàn),聲學(xué)通道特征與文本通道特征對于情感識別有著不同影響。聲學(xué)特征在情感識別時,對憤怒與悲傷的識別率較高,對中性與開心識別率較低;文本通道特征對于憤怒與悲傷的識別率較低,對中性與開心識別率較高,與聲學(xué)特征呈現(xiàn)互補(bǔ)的情感識別效果;通過將兩通道特征融合后,兩通道信息互相影響,提高了各類情感的識別準(zhǔn)確率。

猜你喜歡
聲學(xué)分類器語音
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
峡江县| 汉阴县| 乐安县| 达州市| 板桥市| 游戏| 乐业县| 奉贤区| 长海县| 区。| 灵川县| 准格尔旗| 永寿县| 岳西县| 仙桃市| 个旧市| 苏尼特左旗| 永昌县| 视频| 德昌县| 万山特区| 朝阳县| 繁昌县| 寿宁县| 方正县| 江山市| 卓资县| 德化县| 静乐县| 抚宁县| 富民县| 高要市| 伊春市| 兴仁县| 桐城市| 富川| 丰顺县| 洛隆县| 巢湖市| 新龙县| 会宁县|