国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于一致性圖卷積模型的多模態(tài)對話情緒識別

2023-10-17 12:07:01譚曉聰郭軍軍線巖團(tuán)相艷
計(jì)算機(jī)應(yīng)用研究 2023年10期
關(guān)鍵詞:情感分析多模態(tài)

譚曉聰 郭軍軍 線巖團(tuán) 相艷

摘 要:多模態(tài)對話情緒識別是一項(xiàng)根據(jù)對話中話語的文本、語音、圖像模態(tài)預(yù)測其情緒類別的任務(wù)。針對現(xiàn)有研究主要關(guān)注話語上下文的多模態(tài)特征提取和融合,而沒有充分考慮每個說話人情緒特征利用的問題,提出一種基于一致性圖卷積網(wǎng)絡(luò)的多模態(tài)對話情緒識別模型。該模型首先構(gòu)建了多模態(tài)特征學(xué)習(xí)和融合的圖卷積網(wǎng)絡(luò),獲得每條話語的上下文特征;在此基礎(chǔ)上,以說話人在完整對話中的平均特征為一致性約束,使模型學(xué)習(xí)到更合理的話語特征,從而提高預(yù)測情緒類別的性能。在兩個基準(zhǔn)數(shù)據(jù)集IEMOCAP和MELD上與其他基線模型進(jìn)行了比較,結(jié)果表明所提模型優(yōu)于其他模型。此外,還通過消融實(shí)驗(yàn)驗(yàn)證了一致性約束和模型其他組成部分的有效性。

關(guān)鍵詞:多模態(tài);情緒識別;一致性約束;圖卷積網(wǎng)絡(luò);情感分析

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2023)10-033-3100-07

doi:10.19734/j.issn.1001-3695.2023.02.0064

Consistency based graph convolution network for multimodal emotion recognition in conversation

Tan Xiaoconga,Guo Junjuna,b,Xian Yantuana,b,Xiang Yana,b

(a.Faculty of Information Engineering & Automation,b.Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science & Technology,Kunming 650500,China)

Abstract:Multimodal emotion recognition in conversations (MERC) is a task to predict the emotional category of the discourse in a dialogue based on its textual,audio,and visual modality.Existing studies focus on multimodal feature extraction and fusion of discourse context without fully considering the utilization of emotional features of different speakers.Therefore,this paper proposed a model of multimodal dialogue emotion recognition based on a consistent graph convolutional network.The model first constructed a graph convolutional network of multimodal feature learning and fusion,and obtained the context features of each discourse.On this basis,the average features of the speaker in the complete dialogue as the constraint to make the model learn more reasonable discourse features,so as to improve the performance of predicting emotion class.The paper compared with other baseline models on two benchmark datasets IEMOCAP and MELD.And the results show that the proposed model is superior to the other models.In addition,the paper verifies the consistency constraints and other components of the model through ablation experiments.

Key words:multimodal;emotion recognition;consistency constraint;graph convolution network;sentiment analysis

0 引言

隨著社交媒體的快速發(fā)展,對話中的多模態(tài)情緒識別(multimodal emotion recognition in conversation,MERC)受到學(xué)術(shù)界越來越多的關(guān)注,該任務(wù)旨在根據(jù)對話中話語的文本、語音、圖像、模態(tài)信息預(yù)測其情緒類別。由于對話本身具有多種要素,多模態(tài)對話情緒識別需要綜合考慮多種模態(tài)信息的提取和交互,以及對話中的上下文、說話人等信息的利用。在多模態(tài)信息的利用方面,研究者常常關(guān)注不同模態(tài)特征的表征和融合策略。例如Tsai等人[1]采用基于Transformer的框架對不同模態(tài)的特征進(jìn)行抽?。晃墨I(xiàn)[2,3]提出基于張量融合網(wǎng)絡(luò)對不同的模態(tài)信息進(jìn)行融合。在對話情緒識別(emotion recognition in conversation,ERC)方面,現(xiàn)有工作主要考慮對話中不同話語和模態(tài)表征的關(guān)系。例如文獻(xiàn)[4,5]提出基于圖卷積網(wǎng)絡(luò)(graph convolution network,GCN)的模型,通過圖卷積網(wǎng)絡(luò)的節(jié)點(diǎn)特征傳遞和學(xué)習(xí)機(jī)制可以解決不同話語的長距離依賴和話語模態(tài)特征融合問題,協(xié)助完成情緒分類。但該模型對模態(tài)進(jìn)行平等的融合,會產(chǎn)生一定的信息冗余。此外,與傳統(tǒng)的獨(dú)白演講等情感識別不同,對話中個體的話語關(guān)系和語境建模有助于情緒識別。對話中的語境可歸納為歷史話語、會話中的時間性或說話人相關(guān)信息等。Li等人[6]提出可以從說話人的音頻信息中提取個性化信息。Hu等人[5]構(gòu)建了一種說話人編碼器來區(qū)分不同的說話人。然而,這些模型在上下文信息提取方面的處理成本較高,或者具有說話人特征學(xué)習(xí)的局限性。

Wang等人[7]指出,對話中每個說話人具有自我依賴關(guān)系,即在情感慣性的影響下,說話人傾向于保持一種相對穩(wěn)定的情緒狀態(tài)。在表1所示的一段節(jié)選對話中有兩個說話人,說話人B提出了一個針對說話人A丟失行李箱的補(bǔ)償方案。雖然說話人B的話語中有“bad”“frustrating”等負(fù)面情感詞,但他在整個談話過程中基本保持中性的情緒。本文統(tǒng)計(jì)了兩個多模態(tài)數(shù)據(jù)集中,說話人在對話中穩(wěn)定情緒的比例(說話者穩(wěn)定情緒比例的計(jì)算過程為:a)計(jì)算某段對話中說話者出現(xiàn)次數(shù)最多的情緒類別的話語數(shù)目,除以他在整個對話中總的話語數(shù)量;b)計(jì)算整個數(shù)據(jù)集中所有說話人所有對話中這個比例的平均值),數(shù)據(jù)集IEMOCAP[8]比值為68%,MELD[9]比值為72%。可以看出,在一段對話中,同一個說話人的情緒特征呈現(xiàn)一定的整體一致性,即同一個說話人的情緒特征在特征空間中應(yīng)該具有一定的相似性。

基于以上分析可以看出,利用同一個說話人的情緒特征相似性作為指導(dǎo)將有助于情緒判別?,F(xiàn)有研究雖然注意到說話人個性信息對于MERC的作用,但沒有充分考慮說話人情緒特征的整體一致性。為此,本文提出了一種基于一致性的多模態(tài)圖卷積網(wǎng)絡(luò)(consistency based multimodal graph convolution network,CMGCN)模型。CMGCN根據(jù)兩個話語是否屬于同一對話,以及是否具有模態(tài)特征相似性來構(gòu)建多關(guān)系圖,采用圖卷積網(wǎng)絡(luò)對不同模態(tài)的信息進(jìn)行信息傳遞和融合;同時,將話語情緒特征和對應(yīng)說話人平均情緒特征的相似度作為一致性損失加入模型,以約束模型調(diào)整話語的特征學(xué)習(xí);最后,利用調(diào)整后的情緒特征進(jìn)行分類。通過大量的實(shí)驗(yàn)表明,CMGCN在兩個公共數(shù)據(jù)集上優(yōu)于基線模型,并且一致性有益于MERC。

1 相關(guān)工作

1.1 多模態(tài)情緒識別

在多模態(tài)情緒分析中,研究的重點(diǎn)是如何提取和融合不同的模態(tài)信息。非對齊多模態(tài)語言序列模型的多模態(tài)Transformer(multimodal transformer for unaligned multimodal language sequences model,MulT)[1]通過端到端方式處理數(shù)據(jù)對齊、跨模態(tài)元素之間的長期依賴關(guān)系。基于多模態(tài)Transformer的seq2seq模型(multi-modal seq2seq model,MMS2S)[10]使用三個單峰編碼器來捕獲文本、視覺和聲學(xué)模態(tài)的單模態(tài)特性,并使用多頭軟模態(tài)注意來控制不同模態(tài)的貢獻(xiàn)。張量融合網(wǎng)絡(luò)(tensor fusion network,TFN)[3]通過矩陣運(yùn)算來融合特征。對每個模態(tài)進(jìn)行維數(shù)展開,然后用不同模態(tài)的張量笛卡爾積來計(jì)算不同模態(tài)之間的相關(guān)性。記憶融合網(wǎng)絡(luò)(memory fusion network,MFN)[11]利用LSTM分別對模態(tài)內(nèi)部進(jìn)行建模,然后利用delta記憶注意網(wǎng)絡(luò)和多視圖門控記憶對不同模態(tài)之間的信息進(jìn)行建模,可以保存多模態(tài)交互信息,得到更好的預(yù)測效果。

在模態(tài)信息融合方面,可以分為模型無關(guān)的融合方法和基于模型的融合方法[12]。其中模型無關(guān)的方法較簡單但實(shí)用性低,可以分為早期融合(特征級融合[13])、晚期融合(決策級融合)、混合融合;其中基于模型的融合方法較多,例如宋云峰等人[14]利用跨模態(tài)注意力機(jī)制融合兩兩模態(tài)。深度特征融合模型(deep feature fusion-audio and text modality fusion,DFF-ATMF)[15]通過多特征向量和多模態(tài)注意機(jī)制融合語音模態(tài)和文本模態(tài)。層次特征融合網(wǎng)絡(luò)(hierarchical feature fusion network,HFFN)[2]通過雙向跳躍連接的LSTM直接連接局部交互,并整合了兩層注意機(jī)制,以獲得多模態(tài)的整體視圖。此外,對話圖卷積模型DialogueGCN[4]使用圖卷積網(wǎng)絡(luò)來獲取遠(yuǎn)距離上下文信息;深度圖卷積多模態(tài)融合模型(multimodal fusion via deep graph convolution,MMGCN)[5]同樣構(gòu)造了一個圖網(wǎng)絡(luò)來建模不同的模態(tài)數(shù)據(jù)。利用圖卷積網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)信息傳輸?shù)奶卣?,可以很好地解決長距離依賴性和模態(tài)融合問題。

1.2 對話情緒識別

隨著ERC的應(yīng)用越來越廣泛,出現(xiàn)了較多基于對話形式的情緒識別模型,包括會話記憶網(wǎng)絡(luò)(conversational memory network,CMN)模型[16]、交互式對話記憶網(wǎng)絡(luò)(interactive conversational memory network,ICON)模型[17]、對話循環(huán)神經(jīng)網(wǎng)絡(luò)模型DialogueRNN[18]、以及基于常識知識的對話情緒識別(commonsense knowledge for emotion identification in conversations,COSMIC)模型[19]等。這些方法的主要思路是在文本模態(tài)情境下對上下文對話信息進(jìn)行建模。

研究人員指出,不同說話人的話語應(yīng)該被區(qū)別對待。會話記憶網(wǎng)絡(luò)CMN[16]通過注意機(jī)制對每個說話人的歷史話語和當(dāng)前話語的表征進(jìn)行整合,進(jìn)行話語情感分類,從而模擬了說話人個體的狀態(tài)以及不同說話人狀態(tài)對當(dāng)前話語的影響。與CMN類似,交互式會話記憶網(wǎng)絡(luò)ICON[17]利用兩個依賴于說話人的GRU和一個全局GRU來跟蹤整個對話過程中情緒狀態(tài)的變化,并利用一個多層記憶網(wǎng)絡(luò)來模擬全局情緒狀態(tài)。DialogueRNN[18]則通過一個具有注意機(jī)制的RNN來模擬說話人之間的情緒影響,并使用三個GRU來分別捕獲說話人之前的話語信息、上下文和情感信息。此外,深度圖卷積多模態(tài)融合模型MMGCN[5]增加了說話人身份嵌入,在一定程度上增強(qiáng)了情感表征,但這種嵌入只能區(qū)分不同的說話人,而不能區(qū)分同一說話人的不同話語之間的關(guān)系。

1.3 圖卷積網(wǎng)絡(luò)

圖卷積網(wǎng)絡(luò)由于其具有處理非歐幾里德數(shù)據(jù)的能力,在過去的幾年中得到了廣泛應(yīng)用。主流GCN方法可分為譜域法和非譜域法[20]。譜域GCN方法[21]是基于拉普拉斯譜分解理論,只能處理無向圖。非譜域GCN方法[22]可以應(yīng)用于有向圖和無向圖,但消耗更大的計(jì)算資源。近來研究人員提出了在不過度平滑的情況下加深譜域GCN的方法[23]。GCN在MERC任務(wù)上也有所應(yīng)用,例如MMGCN模型使用具有深層的譜域GCN對多模態(tài)圖進(jìn)行編碼,取得了較好的結(jié)果。但是該模型在對上下文進(jìn)行建模時,僅考慮相同模態(tài)下相同對話、不同模態(tài)下相同話語的關(guān)系,而忽略了相同模態(tài)下不同對話、不同模態(tài)下不同話語之間的關(guān)系。

根據(jù)上述分析可以看出,多模態(tài)情緒識別側(cè)重于不同模態(tài)特征的提取與模態(tài)特征融合,而對話情緒識別需要考慮話語上下文的信息。因此,本文模型同時考慮了不同模態(tài)特征的學(xué)習(xí)和交互,以及話語上下文特征的提取,以更好地完成MERC任務(wù)。

2 本文模型

2.1 問題定義

給定多模態(tài)對話數(shù)據(jù)集,每個數(shù)據(jù)集中有若干個對話(dialogue),每個對話包含若干個話語(utterance),則整個數(shù)據(jù)集有N個話語,每個話語均有語音(a)、文本(t)、圖像(v)三種模態(tài)信息。ERC的任務(wù)是識別出第i個話語ui的情緒類別標(biāo)簽i。

2.2 模型整體結(jié)構(gòu)

本文模型分為三個主要模塊,圖1所示為模型的總體框架。

a)基于圖的特征學(xué)習(xí)模塊。在這個模塊中,將數(shù)據(jù)集中的所有話語作為節(jié)點(diǎn),并根據(jù)節(jié)點(diǎn)之間的不同關(guān)系構(gòu)建圖鄰接矩陣,使用圖卷積機(jī)制來傳遞每個節(jié)點(diǎn)的單模態(tài)特征,以對上下文依賴關(guān)系進(jìn)行編碼。將一個節(jié)點(diǎn)的三個單模態(tài)特征相結(jié)合,得到其綜合的特征。

b)說話人一致性約束模塊。在該模塊中,計(jì)算對話中屬于同一說話人的話語的平均特征,令屬于說話人的每個話語的特征在特征空間中盡可能接近平均特征。

c)情緒分類模塊。在該模塊中,利用每個話語的特征來獲得情緒類別預(yù)測結(jié)果。

2.3 圖節(jié)點(diǎn)的初始特征

對于某個話語節(jié)點(diǎn)ui,分別提取其語音、文本、圖像三種模態(tài)的初始節(jié)點(diǎn)特征。對于語音模態(tài),本文使用帶有IS10配置的OpenSmile工具包[24]對原始語音數(shù)據(jù)進(jìn)行特征提取,再經(jīng)過全連接網(wǎng)絡(luò)進(jìn)行編碼得到初始的音頻特征向量xa(0)i∈Euclid Math TwoRApd0;對文本模態(tài),采用RoBERTa模型進(jìn)行提取特征,然后應(yīng)用BiLSTM對文本中的上下文信息進(jìn)行編碼,得到初始的文本特征向量xt(0)i∈Euclid Math TwoRApd0;對圖像模態(tài),采用DenseNet提取人物的面部表情特征,再經(jīng)過全連接網(wǎng)絡(luò)進(jìn)行編碼得到初始圖像特征向量xv(0)i∈Euclid Math TwoRApd0;這三個初始特征包含了一個話語的內(nèi)部信息。對于有N個話語的數(shù)據(jù)集,有初始特征矩陣Χa(0),Χv(0),Χt(0)∈Euclid Math TwoRApN×d0。

2.4 基于圖的特征學(xué)習(xí)

將數(shù)據(jù)集中每個話語作為一個圖節(jié)點(diǎn),構(gòu)建圖G=(υ,ε),其中υ(|υ|=N)表示話語節(jié)點(diǎn),ευ×υ是節(jié)點(diǎn)之間的邊。

2.4.1 圖鄰接矩陣的構(gòu)建

兩個節(jié)點(diǎn)可以通過不同的邊來連接,代表三個模態(tài)特征的多重關(guān)系。本文根據(jù)以下情況計(jì)算節(jié)點(diǎn)ui、uj之間邊的權(quán)重:

a)考慮兩個節(jié)點(diǎn)之間同種模態(tài)的特征傳遞。由于兩個節(jié)點(diǎn)的同一模態(tài)特征在同一個語義空間下,所以無論節(jié)點(diǎn)是否來自于同一對話,都可以進(jìn)行特征傳遞。兩個節(jié)點(diǎn)之間邊的權(quán)重用角相似度衡量。

其中:sim(·)是余弦相似度函數(shù);xmod(0)i,xmod(0)j∈Euclid Math TwoRApd0分別表示第i和j個話語某種相同模態(tài)的初始特征,mod{a,t,v}。

b)考慮兩個節(jié)點(diǎn)之間不同模態(tài)的特征傳遞,可以根據(jù)兩個節(jié)點(diǎn)是否來自于一個對話,分為兩種情況:

(a)如果兩個節(jié)點(diǎn)來自于不同的對話,則不同模態(tài)特征不進(jìn)行傳遞,這種情況下邊的權(quán)重為0。這是因?yàn)槿N模態(tài)的初始特征抽取過程中雖然都進(jìn)行了線性變換,不同模態(tài)特征在語義空間中可以認(rèn)為基本對齊,但不同對話的場景和對話內(nèi)容差異較大,加大了不同模態(tài)之間的鴻溝,因此本文認(rèn)為這種情況下不應(yīng)該進(jìn)行特征傳遞。

(b)如果兩個節(jié)點(diǎn)來自于相同的對話,則由于對話的主題和內(nèi)容一致,不同模態(tài)特征也是具有相關(guān)性的,需要進(jìn)行特征傳遞。兩個節(jié)點(diǎn)之間邊的權(quán)重同樣用角相似度衡量:

其中:xmod′(0)i,xmod″(0)j∈Euclid Math TwoRApd0分別表示第i和j個話語不同模態(tài)的初始特征;mod′,mod″{a,t,v},mod′≠mod″。

根據(jù)上述節(jié)點(diǎn)之間邊的權(quán)重計(jì)算方法構(gòu)建鄰接矩陣。對于某個節(jié)點(diǎn)的某種模態(tài)特征,可以構(gòu)建三種鄰接矩陣來進(jìn)行特征傳遞和學(xué)習(xí)。以節(jié)點(diǎn)的語音模態(tài)a的特征學(xué)習(xí)為例,如圖2所示,分別考慮語音模態(tài)a與自身語音模態(tài)a、文本模態(tài)t和圖像模態(tài)v的關(guān)系,可以構(gòu)建三種圖鄰接矩陣,始特征矩陣Χa(0)進(jìn)行更新。

此外,對于節(jié)點(diǎn)的文本模態(tài)t的特征學(xué)習(xí),構(gòu)建了三種圖鄰接矩陣Αtt、Αta、Αtv;對于節(jié)點(diǎn)的圖像模態(tài)v的特征學(xué)習(xí),構(gòu)建了三種圖鄰接矩陣Αvv、Αva、Αvt。

2.4.2 圖節(jié)點(diǎn)特征的學(xué)習(xí)

本文以節(jié)點(diǎn)的語音模態(tài)a的特征學(xué)習(xí)為例,說明不同模態(tài)的特征學(xué)習(xí)過程。如圖2所示,將三種圖鄰接矩陣Aaa、Aat、Aav,分別與節(jié)點(diǎn)的初始語音特征Xa(0)進(jìn)行多層的GCN卷積,這里使用四層的GCN進(jìn)行編碼,得到更新后的三種語音特征Xaa(l)、Xat(l)、Xav(l)。具體過程為

2.5 說話人一致性約束

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集

在IEMOCAP[8]和MELD[9]兩個多模態(tài)對話數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),兩個數(shù)據(jù)集都包含文本、圖像、音頻三種模態(tài)。如表2所示,本文將數(shù)據(jù)集大致以8:1:1的比例分為訓(xùn)練集、驗(yàn)證集與測試集。

a)IEMOCAP。該數(shù)據(jù)集包含12 h的二元對話視頻,每個視頻都包含一個的二元對話,共有7 433條話語和151個對話。對話中的每一條話語都有六個類別的情感標(biāo)簽,包括快樂、悲傷、中性、憤怒、興奮和沮喪。

b)MELD。該數(shù)據(jù)集同樣是一個多模態(tài)對話數(shù)據(jù)集,但MELD是一個多元的對話數(shù)據(jù)集。MELD包含了《老友記》電視劇中1 400多個對話和13 000條話語的文本、語音和圖像信息。每個對話中的每一個話語都被標(biāo)注為憤怒、厭惡、悲傷、快樂、驚訝、恐懼或中性七個情緒類別之一。

3.2 實(shí)驗(yàn)設(shè)置

本文所有實(shí)驗(yàn)在CPU為Intel I9-10900K,顯卡為NVIDIA GeForce GTX 3090的實(shí)驗(yàn)環(huán)境中進(jìn)行,深度學(xué)習(xí)框架為PyTorch。本文將初始特征維度d0設(shè)置為200,d1設(shè)置為100。通過實(shí)驗(yàn)比較,將GCN層數(shù)設(shè)置為4,dropout率設(shè)置為0.32。batchsize設(shè)置為58,epoch設(shè)置為120。使用Adam優(yōu)化器[25]優(yōu)化模型參數(shù),學(xué)習(xí)率設(shè)置為0.000 221。超參數(shù)α和η分別設(shè)置為0.1和0.5;λ1設(shè)置為0.000 03,λ2設(shè)置為0.01。

3.3 基模型

為了驗(yàn)證模型的有效性,本文模型與以下基線模型進(jìn)行了比較。其中文本模態(tài)的初始特征采用GloVe和RoBERTa兩種。

a)DialogueRNN-{GloVe,RoBERTa}[18]。該模型使用了三個GRU來對說話者、來自前面話語的上下文和前面話語的情緒進(jìn)行建模,三種不同類型的GRU都是以遞歸的方式連接的。

b)DialogueGCN-{GloVe,RoBERTa}[4]。該模型通過構(gòu)建圖卷積網(wǎng)絡(luò)對會話進(jìn)行建模,通過圖網(wǎng)絡(luò)解決了基于RNN的方法中存在的上下文傳播問題。

c)MMGCN-{GloVe,RoBERTa}[5]。該模型提出了一種多模態(tài)的圖卷積神經(jīng)網(wǎng)絡(luò),將對話中一句話對應(yīng)三個模態(tài)的特征和說話嵌入分別進(jìn)行拼接來構(gòu)建多模態(tài)圖,之后通過多層GCN來進(jìn)行編碼,最后拼接GCN編碼后的特征和圖的節(jié)點(diǎn)初始化特征,送入一個全連接層,完成情感分類。

d)COSMIC[19]。該模型以常識知識為基礎(chǔ)來進(jìn)行建模,從而解決對話中話語級別的情感識別問題,其中常識要素包括心理狀態(tài)、事件、因果關(guān)系等。模型由三部分組成:從預(yù)訓(xùn)練的Transformer語言模型中提取獨(dú)立于上下文的特征;從常識知識圖中提取常識特征;整合常識知識以設(shè)計(jì)更好的上下文表示并將其用于最終的情感分類。

e)TUCORE-GCN[26]。該模型提出將對話中的情緒識別視為基于對話的關(guān)系提取任務(wù),即提取對話中出現(xiàn)的兩個參數(shù)之間的關(guān)系。通過構(gòu)建對話圖并應(yīng)用GCN機(jī)制結(jié)合BiLSTM,結(jié)合先前節(jié)點(diǎn)信息來預(yù)測結(jié)果。

4 實(shí)驗(yàn)與討論

4.1 與基模型的比較

本文模型與其他基模型的實(shí)驗(yàn)結(jié)果如表3所示??梢钥闯?,本文模型在IEMOCAP和MELD數(shù)據(jù)集上都優(yōu)于其他模型。對于IEMOCAP數(shù)據(jù)集,在本文模型結(jié)合GloVe預(yù)訓(xùn)練向量的條件下,micro-F1達(dá)到67.32%,比性能第二的MMGCN提高了1.1%。本文模型結(jié)合RoBERTa的micro-F1達(dá)到67.92%,比性能第二的MMGCN-RoBERTa增加了0.66%。對于MELD數(shù)據(jù)集,在GloVe與RoBERTa預(yù)處理模型下本文模型的micro-F1分別比性能次優(yōu)的模型提高了0.74%、0.44%。

本文進(jìn)一步比較了不同模型的表現(xiàn)。DialogueGCN-{GloVe,RoBERTa}比DialogueRNN-{GloVe,RoBERTa}有更好的性能。分析原因是,DialogueRNN-{GloVe,RoBERTa}只對單個話語序列進(jìn)行特征學(xué)習(xí),而DialogueGCN-{GloVe,RoBERTa}使用GCN框架獲取每個話語的上下文信息,從而提高了性能。MMGCN-{GloVe,RoBERTa}在DialogueGCN-{GloVe,RoBERTa}上引入了不同的模態(tài)特性,進(jìn)一步改善了模型。此外,在模型中使用RoBERTa的文本初始向量比GloVe更有效。在使用RoBERTa后,DialogueRNN、DialogueGCN和其他模型的micro-F1在IEMOCAP數(shù)據(jù)集上增加了約2%,在MELD數(shù)據(jù)集上增加了約7%。

4.2 一致性約束的實(shí)驗(yàn)分析

4.2.1 約束條件的消融分析

為了研究CMGCN中一致性約束的貢獻(xiàn),將模型中的一致性損失去掉,即只用分類損失來指導(dǎo)模型進(jìn)行參數(shù)優(yōu)化。消融結(jié)果如表4所示。

可以看出,一致性約束對于模型性能的影響較大。在去除一致性約束后,模型在兩個數(shù)據(jù)集的性能分別下降了近1%。這證明了一致性約束對于MERC作用較大。本文模型在一致性約束下能更好地捕捉每個說話人的情緒狀態(tài),提升模型預(yù)測每條話語情緒的能力。

4.2.2 一致性約束中的特征分析

本文進(jìn)一步分析了使用不同特征計(jì)算一致性約束損失對模型的影響。CMGCN使用的是GCN學(xué)習(xí)更新的特征向量來計(jì)算一致性約束損失。而CMGCNitl則使用三個模態(tài)的初始特征向量拼接來計(jì)算一致性約束損失。表5展示了實(shí)驗(yàn)結(jié)果,與CMGCNitl相比,CMGCN的micro-F1在兩個數(shù)據(jù)集上分別提高了1.38%和1.49%。分析原因可能是,經(jīng)過圖卷積學(xué)習(xí)后的節(jié)點(diǎn)特征具有更強(qiáng)的表征能力,模型使用這些節(jié)點(diǎn)特征作為一致性約束能獲得更好的情緒分類。

4.3 鄰接矩陣的消融分析

為了證明CMGCN中鄰接矩陣的合理性,本文使用以下方法來計(jì)算邊權(quán)重,構(gòu)造新的鄰接矩陣來進(jìn)行比較:

a)CMGCNadj_A。在該模型的鄰接矩陣Aaa、Att、Avv中,如果兩個節(jié)點(diǎn)來自不同的對話,則將它們的邊權(quán)重置為0。其他鄰接矩陣的構(gòu)建方式保持不變。

b)CMGCNadj_B。對于鄰接矩陣Amod′mod″,mod′≠mod″,即使兩個節(jié)點(diǎn)來自不同的對話,也使用角相似度來計(jì)算邊的權(quán)重。

本文在兩個數(shù)據(jù)集上用新的鄰接矩陣來測試模型的性能,比較結(jié)果如表6所示。與CMGCNadj_A相比,本文模型的micro-F1得分在兩個數(shù)據(jù)集上分別增加了1.11%和1.52%。結(jié)果表明,即使兩個話語來自不同的對話,它們相同的模態(tài)之間也會存在相關(guān)性。因此,在這些節(jié)點(diǎn)之間傳輸相同的模態(tài)特征是有益的。同時,CMGCNadj_B的micro-F1比CMGCN分別降低了1.07%和2.22%。原因可能是:如果兩個節(jié)點(diǎn)來自不同的對話,它們不同的模態(tài)之間存在語義差距,這種情況下不應(yīng)該進(jìn)行特征傳遞,否則過度的模態(tài)特征傳播會干擾節(jié)點(diǎn)的特征學(xué)習(xí)。

4.4 不同模態(tài)設(shè)置對比

為了驗(yàn)證多種模態(tài)組合下的實(shí)驗(yàn)結(jié)果,本文做了單一模態(tài)與任意兩種模態(tài)組合設(shè)置下的實(shí)驗(yàn),結(jié)果如表7所示。對基于單一模態(tài)的情緒識別模型而言,選擇某一種模態(tài)的初始特征進(jìn)行DeepGCN特征學(xué)習(xí),并用更新后的單一模態(tài)特征進(jìn)行情緒預(yù)測;對基于兩種模態(tài)的情緒識別模型而言,選擇其中兩種模態(tài)的初始特征構(gòu)建鄰接矩陣,從而對兩種模態(tài)特征進(jìn)行特征學(xué)習(xí)。

從表7的結(jié)果可以看出,當(dāng)同時使用三種模態(tài)進(jìn)行情緒預(yù)測時,能獲得最優(yōu)的性能,證明了多模態(tài)設(shè)置的優(yōu)越性。在單一模態(tài)下,圖像模態(tài)表現(xiàn)最差,原因可能是圖像模態(tài)中的手勢動作或者臉部表情并不能很好地表征當(dāng)前話語的情緒狀態(tài);相較于視覺模態(tài),語音語調(diào)的特征提取更能表征情緒狀態(tài),所以性能優(yōu)于基于單一圖像模態(tài)的模型;三種單一模態(tài)中,文本模態(tài)表現(xiàn)最好,而在文本模態(tài)基礎(chǔ)上添加語音和圖像模態(tài)后,可以比單一的文本模態(tài)帶來額外的性能改進(jìn)。

4.5 實(shí)例分析

本文對IEMOCAP數(shù)據(jù)集中兩個不同對話進(jìn)行了實(shí)例分析,如表8所示,其中“√”表示分類正確,“×”表示分類錯誤。DialogueGCN和MMGCN錯誤地將實(shí)例1的第3句話預(yù)測為“sad”的情緒類別,原因可能是該話語中含有負(fù)向的情緒詞。同樣地,由于受到“amusing”一詞的干擾,DialogueGCN和MMGCN未能正確預(yù)測實(shí)例2的第3句話語的“angry”情緒。由于本文方法能夠感知多模態(tài)的語境信息和說話者的整體一致性,從而能正確捕捉到潛在的情緒類別。

5 結(jié)束語

本文提出了一種基于一致性約束的MERC圖卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)將話語作為圖網(wǎng)絡(luò)的節(jié)點(diǎn),通過GCN的特征傳遞和交互機(jī)制使模型能學(xué)習(xí)到話語的不同模態(tài)上下文特征;同時,利用說話人一致性約束引導(dǎo)模型學(xué)習(xí)到更符合對話情感邏輯的話語情緒特征,從而提高識別準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,本文模型在公共數(shù)據(jù)集上的性能優(yōu)于其他對比模型。通過消融實(shí)驗(yàn)驗(yàn)證了一致性約束的有效性和重要性。本文方法皆在模態(tài)信息完整的情況下進(jìn)行,未來工作將對模態(tài)信息受損下的模態(tài)模糊問題的魯棒性融合問題進(jìn)行探討。

參考文獻(xiàn):

[1]Tsai Y H H,Bai Shaojie,Liang P P,et al.Multimodal transformer for unaligned multimodal language sequences[EB/OL].(2019-06-01).https://arxiv.org/abs/1906.00295.

[2]Mai Sijie,Hu Haifeng,Xing Songlong.Divide,conquer and combine:hierarchical feature fusion network with local and global perspectives for multimodal affective computing[C]//Proc of the 57th Annual Meeting of Association for Computational Linguistics.2019:481-492.

[3]Zadeh A,Chen Minghai,Poria S,et al.Tensor fusion network for multimodal sentiment analysis [EB/OL].(2017).https://arxiv.org/abs/1707.07250.

[4]Ghosal D,Majumder N,Poria S,et al.DialogueGCN:a graph convolutional neural network for emotion recognition in conversation[EB/OL].(2019).https://arxiv.org/abs/1908.11540.

[5]Hu Jingwen,Liu Yuchen,Zhao Jinming,et al.MMGCN:multimodal fusion via deep graph convolution network for emotion recognition in conversation[EB/OL].(2021-07-14).https://arxiv.org/abs/ 2107.06779.

[6]Li Jiwei,Galley M,Brockett C,et al.A persona-based neural conversation model[EB/OL].(2016).https://arxiv.org/abs/ 1603.06155.

[7]Wang Yan,Zhang Jiayu,Ma Jun,et al.Contextualized emotion recognition in conversation as sequence tagging [C]// Proc of the 21st Annual Meeting of the Special Interest Group on Iscourse and Dialogue.2020:186-195.

[8]Busso C,Bulut M,Lee C C,et al.IEMOCAP:interactive emotional dyadic motion capture database [J].Language Resources and Evaluation,2008,42(4):335-359.

[9]Poria S,Hazarika D,Majumder N,et al.MELD:a multimodal multi-party dataset for emotion recognition in conversations [EB/OL].(2018).https://arxiv.org/abs/1810.02508.

[10]Zhang Dong,Ju Xingchen,Li Junhui,et al.Multi-modal multi-label emotion detection with modality and label dependence[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2020:3584-3593.

[11]Zadeh A,Liang P P,Mazumder N,et al.Memory fusion network for multi-view sequential learning[C]//Proc of the 32nd AAAI Confe-rence on Artificial Intelligence.2018:5634-5641.

[12]任澤裕,王振超,柯尊旺,等.多模態(tài)數(shù)據(jù)融合綜述 [J].計(jì)算機(jī)工程與應(yīng)用,2021,57(18):49-64.(Ren Zeyu,Wang Zhenchao,Ke Zunwang,et al.Review of multimodal data fusion[J].Computer Engineering and Applications,2021,57(18):49-64.)

[13]劉繼明,張培翔,劉穎,等.多模態(tài)的情感分析技術(shù)綜述 [J].計(jì)算機(jī)科學(xué)與探索,2021,15(7):1165-1182.(Liu Jiming,Zhang Pei-xiang,Liu Ying, et al.Review of multimodal sentiment analysis techniques[J].Journal of Frontiers of Computer Science & Techno-logy,2021,15(7):1165-1182.)

[14]宋云峰,任鴿,楊勇,等.基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析 [J].計(jì)算機(jī)應(yīng)用研究,2022,39(3):716-720.(Song Yunfeng,Ren Ge,Yang Yong,et al.Multi-task multimodal sentiment analysis based on multi-level mixed fusion based on attention[J].Application Research of Computers,2022,39(3):716-720.)

[15]Chen Feiyang,Luo Ziqian,Xu Yanyan,et al.Complementary fusion of multi-features and multi-modalities in sentiment analysis[EB/OL].(2019).https://arxiv.org/abs/1904.08138.

[16]Hazarika D,Poria S,Zadeh A,et al.Conversational memory network for emotion recognition in dyadic dialogue videos[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2018:2122-2132.

[17]Hazarika D,Poria S,Mihalcea R,et al.ICON:interactive conversational memory network for multimodal emotion detection[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2018:2594-2604.

[18]Majumder N,Poria S,Hazarika D,et al.DialogueRNN:an attentive RNN for emotion detection in conversations[C]//Proc of AAAI Confe-rence on Artificial Intelligence.2019:6818-6825.

[19]Ghosal D,Majumder N,Gelbukh A,et al.COSMIC:commonsense knowledge for emotion identification in conversations [EB/OL].(2020).https://arxiv.org/abs/2010.02795.

[20]Velic′kovic′ P,Cucurull G,Casanova A,et al.Graph attention networks [EB/OL].(2017).https://arxiv.org/abs/ 1710.10903.

[21]Zhang Dong,Wu Liangqing,Sun Changlong,et al.Modeling both context-and speaker-sensitive dependence for emotion detection in multi-speaker conversations[C]//Proc of the 28th International Joint Conference on Artificial Intelligence.2019:5415-5421.

[22]Schlichtkrull M,Kipf T N,Bloem P,et al.Modeling relational data with graph convolutional networks [C]//Proc of European Semantic Web Conference.Cham:Springer,2018:593-607.

[23]Li Guohao,Muller M,Thabet A,et al.DeepGCNs:can GCNs go as deep as CNNs? [C]//Proc of IEEE/CVF International Conference on Computer Vision.2019:9267-9276.

[24]Schuller B,Batliner A,Steidl S,et al.Recognising realistic emotions and affect in speech:state of the art and lessons learnt from the first challenge[J].Speech Communication,2011,53(9-10):1062-1087.

[25]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2014).https://arxiv.org/abs/ 1412.6980.

[26]Lee B,Choi Y S.Graph based network with contextualized representations of turns in dialogue[EB/OL].(2021).https://arxiv.org/abs/ 2109.04008.

[27]Li Yujia,Tarlow D,Brockschmidt M,et al.Gated graph sequence neural networks[EB/OL].(2015).https://arxiv.org/abs/1511.05493.

[28]Chen Ming,Wei Zhewei,Huang Zengfeng,et al.Simple and deep graph convolutional networks [C]//Proc of International Conference on Machine Learning.2020:1725-1735.

收稿日期:2023-02-14;修回日期:2023-04-19基金項(xiàng)目:國家自然科學(xué)基金地區(qū)項(xiàng)目(62162037);云南省科技廳面上項(xiàng)目(202001AT070047,202001AT070046)

作者簡介:譚曉聰(1998-),男,廣東茂名人,碩士研究生,主要研究方向?yàn)樽匀徽Z言處理、多模態(tài)情感分析;郭軍軍(1987-),男,山西呂梁人,副教授,博士,CCF會員,主要研究方向?yàn)樽匀徽Z言處理、神經(jīng)機(jī)器翻譯、多模態(tài)情感分析;線巖團(tuán)(1981-),男,云南芒市人,副教授,博士,CCF會員,主要研究方向?yàn)樽匀徽Z言處理、信息檢索;相艷(1979-),女(通信作者),云南大理人,副教授,博士,CCF會員,主要研究方向?yàn)樽匀徽Z言處理、情感計(jì)算(sharonxiang@126.com).

猜你喜歡
情感分析多模態(tài)
基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
在線評論情感屬性的動態(tài)變化
預(yù)測(2016年5期)2016-12-26 17:16:57
多模態(tài)話語中的詹姆斯·卡梅隆電影
英語閱讀教學(xué)中多模態(tài)識讀能力的培養(yǎng)
網(wǎng)絡(luò)環(huán)境下大學(xué)英語多模態(tài)交互式閱讀教學(xué)模式研究
戲劇之家(2016年22期)2016-11-30 18:20:43
多模態(tài)理論視角下大學(xué)英語課堂的構(gòu)建
新媒體環(huán)境下多模態(tài)商務(wù)英語課堂教師角色定位
寻乌县| 长汀县| 茂名市| 临沂市| 鹰潭市| 琼中| 凤庆县| 安福县| 大同市| 湘乡市| 古交市| 山东省| 思南县| 井陉县| 彭州市| 天峻县| 西和县| 社会| 南和县| 青海省| 固原市| 息烽县| 黔江区| 昭平县| 桃源县| 宁化县| 家居| 印江| 马尔康县| 福建省| 贵州省| 利津县| 深水埗区| 惠安县| 吴川市| 怀仁县| 厦门市| 象州县| 常德市| 青岛市| 额尔古纳市|