包廣斌,李港樂,王國雄
蘭州理工大學(xué) 計算機與通信學(xué)院,蘭州730050
隨著移動互聯(lián)網(wǎng)和和社交媒體的蓬勃發(fā)展,越來越多的用戶通過YouTube、微博、抖音等社交媒體討論時事、表達觀點、分享日常等,從而產(chǎn)生了海量的具有情感取向的多模態(tài)數(shù)據(jù)。在社交媒體平臺上,用戶上傳的視頻是多模態(tài)數(shù)據(jù)的重要來源之一。視頻數(shù)據(jù)通常包含三種模態(tài):描述用戶觀點的文本、表達用戶面部表情的圖像以及記錄用戶語音語調(diào)的音頻。針對這些多模態(tài)數(shù)據(jù)進行情感分析將有利于了解人們對某些事件或商品的觀點和態(tài)度,在輿情分析、心理健康、政治選舉等方面都有著巨大的應(yīng)用價值。
與傳統(tǒng)的單模態(tài)情感研究相比,多模態(tài)情感分析的目標(biāo)是通過融合多個模態(tài)的數(shù)據(jù)來推斷目標(biāo)序列的情感狀態(tài)。如圖1 顯示了文本、面部表情和語音語調(diào)對于情感分類的作用。其中,視頻中說話人關(guān)于某部電影發(fā)表評論“The only actor who can really sell their lines is Erin.”這條評論是一個陳述句,而且沒有明顯體現(xiàn)情感取向的詞語,因此僅僅依據(jù)這句話所傳達的信息很難判斷出說話人的情感狀態(tài),但如果為這句評論加入說話人的面部表情(facial expressions)和語音語調(diào)(voice intonation),則可以反映出說話人目前的情感狀態(tài)是消極的。因此,對于多模態(tài)情感分析任務(wù),文本、語音和視頻模態(tài)之間的語義和情感關(guān)聯(lián)能夠為情感分類帶來重要的補充信息。
圖1 文本、面部表情和語音語調(diào)對于情感分類的作用Fig.1 Effect of text,facial expressions and voice intonation on sentiment classification
由于文本、語音和視頻特征在時間、語義維度上存在較大差異,目前大多數(shù)多模態(tài)情感分析方法是將所有可用的模態(tài)特征直接映射到一個共享空間中,學(xué)習(xí)不同模態(tài)之間復(fù)雜的交互作用。但是,大多數(shù)情況下,并不是融合的模態(tài)信息越豐富,情感分類的準(zhǔn)確率就越高,這主要是因為不同模態(tài)的信息對于情感分類的貢獻是不相等的。
為了解決上述問題,本文提出了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析方法,該方法首先采用BiGRU(bidirectional gated recurrent unit)分別捕獲文本、語音和視頻序列的上下文特征。然后利用不同模態(tài)之間存在的語義和情感關(guān)聯(lián),設(shè)計了一種雙模態(tài)交互注意力,并結(jié)合自注意力和全連接層構(gòu)造了一個層次化的多模態(tài)特征融合模塊,旨在通過注意力機制更多地關(guān)注目標(biāo)序列及其上下文信息與各模態(tài)之間的相關(guān)性,從而幫助模型區(qū)分哪些模態(tài)信息對于判別目標(biāo)序列的情感分類更加重要,實現(xiàn)跨模態(tài)交互信息的有效融合。最后,在CMU-MOSI(CMU multimodal opinion-level sentiment intensity)數(shù)據(jù)集上進行實驗,實驗結(jié)果表明,相比現(xiàn)有的多模態(tài)情感分類模型,該模型在準(zhǔn)確率和1分數(shù)上均有所提升。
多模態(tài)情感分析主要致力于聯(lián)合文本、圖像、語音與視頻模態(tài)的情感信息來進行情感的識別與分類,是自然語言處理、計算機視覺和語音識別相交叉的一個新興領(lǐng)域。與單一模態(tài)的情感分析相比,多模態(tài)情感分析不僅要學(xué)習(xí)單模態(tài)的獨立特征,還要融合多種模態(tài)的數(shù)據(jù)。多模態(tài)融合主要是通過建立能夠分析和處理不同模態(tài)數(shù)據(jù)的模型來為情感分類提供更多的有效信息。Zadeh 等人利用模態(tài)之間的聯(lián)系建立了一種張量融合網(wǎng)絡(luò)模型,采用三倍笛卡爾積以端到端的方式學(xué)習(xí)模態(tài)之間的動力學(xué)。Zadeh等人提出了一種可解釋的動態(tài)融合圖(dynamic fusion graph,DFG)模型,用于研究跨模態(tài)動力學(xué)的本質(zhì),并根據(jù)每個模態(tài)的重要性動態(tài)改變其結(jié)構(gòu),從而選擇更加合理的融合圖網(wǎng)絡(luò)。Chen 等人提出利用時間注意力的門控多模態(tài)嵌入式模型來實現(xiàn)多模態(tài)輸入時單詞級別的特征融合,該方法有效地緩解了噪聲對特征融合的影響。上述方法在進行特征提取時都將每個話語看作獨立的個體,忽略了與上下文之間的依賴關(guān)系。
多模態(tài)情感分析的研究數(shù)據(jù)通常來自社交網(wǎng)站上用戶上傳的視頻,這些視頻數(shù)據(jù)被人為地劃分成視頻片段序列,而片段序列之間往往存在著一定的語義和情感聯(lián)系。因此,當(dāng)模型對目標(biāo)序列進行情感分類時,不同片段序列之間的上下文可以提供重要的提示信息。Poria 等人建立了一種基于LSTM(long short-term memory)的層次模型來捕捉視頻片段間的上下文信息。Majumder 等人通過保持兩個獨立的門控循環(huán)單元來跟蹤視頻中對話者的狀態(tài),有效地利用了說話者之間的區(qū)別和對話中的上下文信息。Shenoy 等人提出的基于上下文感知的RNN(recurrent neural network)模型能夠有效地利用和捕獲所有模態(tài)對話的上下文用于多模態(tài)情緒識別和情感分析。Kim 等人建立了一種基于多頭注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,該模型采用BiGRU 和注意力機制來捕獲會話的上下文信息的關(guān)鍵部分。但是,現(xiàn)在人們表達情感的方式已不再局限于單一的文字,往往通過文本、圖像、視頻等多種模態(tài)相結(jié)合的方式共同傳遞信息,那么如何有效利用多模態(tài)信息進行情感分析仍是一項艱巨的任務(wù)。
近年來,注意力機制已被廣泛應(yīng)用于NLP(natural language processing)領(lǐng)域。研究表明,注意力機制能夠聚焦于輸入序列的關(guān)鍵信息,并忽略其中不相關(guān)的信息,從而提高模型的整體性能。因此,越來越多的研究人員嘗試將注意力機制應(yīng)用于探索模態(tài)內(nèi)部和不同模態(tài)之間的交互作用。Zadeh 等人提出了一種多注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(multi-attention recurrent network,MARN),利用多注意力模塊(multi-attention block,MAB)發(fā)現(xiàn)模態(tài)之間的相互作用,并將其存儲在長短時混合記憶(long-short term hybrid memory,LSTHM)的循環(huán)網(wǎng)絡(luò)中。Xi 等人提出利用多頭交互注意力來學(xué)習(xí)文本、語音和視頻模態(tài)之間的相關(guān)性。Verma 等人提出了一種高階通用網(wǎng)絡(luò)模型來封裝模態(tài)之間的時間粒度,從而在異步序列中提取信息,并利用LSTM 和基于張量的卷積神經(jīng)網(wǎng)絡(luò)來發(fā)現(xiàn)模態(tài)內(nèi)部和模態(tài)之間的動力學(xué)。
綜上所述,隨著深度學(xué)習(xí)研究的不斷深入,多模態(tài)情感分析實現(xiàn)了跨越式的進步和發(fā)展,但如何有效地利用單模態(tài)獨立特征和多模態(tài)交互特征進行建模依舊是多模態(tài)情感分析所面臨的主要問題。為此,本文在現(xiàn)有多模態(tài)情感分析方法的基礎(chǔ)上,提出了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析模型,旨在利用BiGRU 和注意力機制更多地關(guān)注相鄰話語之間的依賴關(guān)系以及文本、語音和視頻模態(tài)之間的交互信息并為其分配合理的權(quán)重,實現(xiàn)多模態(tài)特征的有效融合,從而提高多模態(tài)情感分類的準(zhǔn)確率。
本文針對現(xiàn)有多模態(tài)情感分析方法中存在情感分類準(zhǔn)確率不高,難以有效融合多模態(tài)特征等問題,提出了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析模型(multimodal sentiment analysis model based on context and bimodal interactive attention,Con-BIAM),如圖2 所示。具體來說,Con-BIAM 模型分為以下四部分:
圖2 融合上下文和雙模態(tài)交互注意力的模型結(jié)構(gòu)Fig.2 Model structure combining context and bimodal interactive attention
(1)針對文本、語音和視頻模態(tài)數(shù)據(jù)的不同特點,構(gòu)建不同的神經(jīng)網(wǎng)絡(luò)提取單模態(tài)特征。
(2)利用BiGRU 分別編碼文本、語音和視頻序列,然后將其映射到共享的語義空間中,在每個模態(tài)的不同時間步長上捕獲視頻目標(biāo)序列的上下文信息。
(3)利用不同模態(tài)之間的交互作用,設(shè)計了一種新穎的雙模態(tài)交互注意力機制融合不同模態(tài)的信息;然后通過雙模態(tài)交互注意力、自注意力和全連接層構(gòu)造多模態(tài)特征融合模塊,得到跨模態(tài)聯(lián)合特征。
(4)將得到的上下文特征和跨模態(tài)聯(lián)合特征連接起來,經(jīng)過一層全連接層后饋送至Softmax 進行最終的情感分類。
為了獲取視頻中的文本、語音和視覺特征,采用卡內(nèi)基梅隆大學(xué)提供的多模態(tài)數(shù)據(jù)分析工具CMUMultimodal Data SDK進行提取。對于文本數(shù)據(jù),首先將視頻中的每個話語進行轉(zhuǎn)錄,然后將其表示為Glove 詞向量,輸入至卷積神經(jīng)網(wǎng)絡(luò)中提取文本特征。為了有效地利用視頻中的動態(tài)信息,使用3DCNN(3D convolutional neural networks)從視頻中提取視覺特征。在實驗過程中,32 個特征圖(f)和5×5×5(f×f×f)的過濾器取得了最優(yōu)的結(jié)果。對于音頻模態(tài)數(shù)據(jù),利用openSMILE工具包以30 Hz的幀速率和100 ms的滑動窗口提取音頻特征。
本文將預(yù)處理后的文本()、語音()和視頻()特征分別輸入至BiGRU 中提取序列的上下文信息??紤]到不同模態(tài)數(shù)據(jù)的異構(gòu)性,利用Dense層在時間維度上提取目標(biāo)序列與上下文特征之間的長跨度信息,獲得相同數(shù)據(jù)維度的上下文特征表示。
假設(shè)數(shù)據(jù)集包含個視頻片段,每個視頻片段對應(yīng)一個固定情感強度的觀點。視頻中包含的一系列片段序列可表示為:
此外,為了更加準(zhǔn)確地對視頻片段X進行情感分類,將X定義為X的上下文:
其中,表示視頻中其他片段序列的長度。
BiGRU 由兩個方向相反的GRU(gated recurrent unit)構(gòu)成,能夠有效地捕獲序列中上下文的長依賴關(guān)系,解決RNN 訓(xùn)練過程中出現(xiàn)的梯度消失和梯度爆炸問題。在BiGRU 中,正向和反向輸入的特征向量會得到對應(yīng)時刻的隱藏層表示,之后通過拼接操作得到具有上下文信息的文本、視覺和語音特征。雙向門控循環(huán)單元的結(jié)構(gòu)如圖3 所示。
圖3 BiGRU 結(jié)構(gòu)模型圖Fig.3 BiGRU structure model diagram
每個GRU 單元的工作原理如下:
其中,X是當(dāng)前節(jié)點的輸入序列,h是上一個GRU 單元傳輸下來的狀態(tài),r是GRU 的重置門,z是GRU 的更新門,W,W,U,U∈R是訓(xùn)練過程中要學(xué)習(xí)的參數(shù),是Sigmoid 函數(shù),⊙表示對應(yīng)元素相乘。
為了深度挖掘單模態(tài)特征的內(nèi)部相關(guān)性,將得到的具有上下文信息的單模態(tài)特征分別映射到各自的語義空間中。計算過程如下:
其中,W、、、分別是激活函數(shù)tanh 的參數(shù),、、是經(jīng)過BiGRU 得到的文本、語音和視覺特征。∈R,∈R,∈R分別表示最終輸出的具有上下文信息的文本、語音和視覺特征向量,表示Dense層中神經(jīng)元的數(shù)量。
對于多模態(tài)情感分析任務(wù),不同模態(tài)的數(shù)據(jù)包含了各自的情感信息,它們彼此不同卻又相輔相成。因此,在基于模態(tài)內(nèi)部關(guān)系建模的同時關(guān)注另一種模態(tài)信息的補充作用,能夠有效地提升模型的分類性能。此外,在進行多模態(tài)信息融合時,不同模態(tài)的信息對情感分類結(jié)果的重要性也是不同的。因此,對多模態(tài)信息進行建模時,需要有選擇性地區(qū)分各模態(tài)信息對目標(biāo)序列的情感預(yù)測的重要程度,增強重要信息所占的權(quán)重,從而輸出更有效的跨模態(tài)聯(lián)合特征表示。
由此,本文提出了一種多模態(tài)特征融合模塊(multimodal feature fusion module,MFM)。該模塊采用層次化的融合策略融合所有的模態(tài)特征,主要由兩層注意力機制和一個全連接層串聯(lián)構(gòu)成。首先第一層是雙模態(tài)交互注意力(bimodal interactive attention,Bim_Att)層,Bim_Att 能夠?qū)煞N模態(tài)的融合特征作為條件向量,強化與模態(tài)間重要交互特征的關(guān)聯(lián),弱化與次要交互特征的關(guān)聯(lián),深度探索不同模態(tài)之間的交互性;第二層是自注意力層(self attention,Self_Att),用于捕獲目標(biāo)序列及其上下文信息與模態(tài)自身的相關(guān)性,從而減少對外部信息的依賴;最后一層是全連接層,用于提取雙模態(tài)交互融合信息和單模態(tài)內(nèi)部信息,輸出跨模態(tài)聯(lián)合特征。
為了進一步增強模態(tài)之間的交互性,本文提出了一種雙模態(tài)交互注意力機制,整體結(jié)構(gòu)如圖4 所示。雙模態(tài)交互注意力機制類似于一種門控機制,能夠?qū)⑽谋?、語音和視覺特征進行兩兩融合,即文本+視頻、文本+語音和語音+視頻,并有條件地計算不同模態(tài)之間的交互向量。以文本()和語音()為例,首先將兩種模態(tài)的信息進行拼接,并經(jīng)過一層全連接層捕獲模態(tài)之間的交互信息,得到雙模態(tài)聯(lián)合特征;接著在激活函數(shù)Sigmoid 的作用下生成條件向量,用于約束每個模態(tài)內(nèi)部的相似程度,增加強關(guān)聯(lián)特征所持的比重。計算過程如式(10)、式(11)所示。
圖4 雙模態(tài)交互注意力(Bim_Att)結(jié)構(gòu)圖Fig.4 Structure diagram of bimodal interactive attention(Bim_Att)
其中,⊕表示向量的拼接操作;表示隨機初始化的權(quán)重矩陣;表示偏置項。
其中,⊙表示對應(yīng)元素相乘,·表示矩陣乘法。
最后,將得到的注意力特征向量與上下文特征向量進行拼接,并使用全連接層整合得到的模態(tài)間交互特征和模態(tài)內(nèi)部特征,輸入至Softmax 進行情感分類,其計算過程如下:
其中,∈R,′表示全連接層輸出的特征維度,W和b是激活函數(shù)ReLU 的權(quán)重和偏置。
本文使用多模態(tài)情感分析數(shù)據(jù)集CMU-MOSI 進行實驗,簡稱MOSI。該數(shù)據(jù)集由89 位不同英語演講者對來自YouTube網(wǎng)站中的主題進行評論,共有93個視頻。數(shù)據(jù)集中共包含3 702個觀點片段,共計26 295個單詞。每個視頻片段的情感強度在∈[-3.0,3.0]的線性范圍內(nèi),其中大于或等于0 的情感值表示正面情緒,小于0 的情感值表示負面情緒。本實驗將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,分別設(shè)置為52、10、31。每個集合分別包含1 151、296和752個視頻片段。
本實驗所有代碼都是在Pycharm 代碼編輯器上采用Tensorflow 和Keras 深度學(xué)習(xí)框架編寫,利用顯存為32 GB 的GPU(NVIDIA Tesla V100)進行模型的訓(xùn)練。實驗參數(shù)設(shè)置如表1 所示。
表1 實驗參數(shù)設(shè)置Table 1 Experimental parameter setting
本文選取1 分數(shù)和準(zhǔn)確率(Accuracy)作為分類性能的評價指標(biāo)。1 分數(shù)和Accuracy 的值越大,說明模型的整體性能越好。為了進一步驗證模型的有效性,將本文提出的Con-BIAM 模型與現(xiàn)有的一些多模態(tài)情感分析模型進行對比,實驗結(jié)果如表2 所示。
表2 列出了不同模型在MOSI 數(shù)據(jù)集上的實驗結(jié)果。圖5 是Con-BIAM 模型在MOSI 數(shù)據(jù)集上得到的混淆矩陣。
表2 在MOSI數(shù)據(jù)集上的實驗結(jié)果Table 2 Experimental results on MOSI dataset %
圖5 Con-BIAM 模型在MOSI數(shù)據(jù)集上的混淆矩陣Fig.5 Con-BIAM model confusion matrix on MOSI dataset
實驗結(jié)果表明,本文提出的Con-BIAM 模型在準(zhǔn)確率和1 分數(shù)這兩個評價指標(biāo)上的表現(xiàn)都要優(yōu)于其他對比模型,準(zhǔn)確率和1分數(shù)分別提升了5.41個百分點和12個百分點,尤其是對比現(xiàn)有先進的Multilogue-Net模型,準(zhǔn)確率提升了0.72 個百分點,1 提升了5.3個百分點。這充分地說明了融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析(Con-BIAM)在多模態(tài)情感分類任務(wù)上的有效性和先進性。此外,根據(jù)上述實驗結(jié)果可以看出,Con-BIAM 模型的1 值與其他模型相比具有較大提升,這可能是因為不同層次不同組合的模態(tài)融合方法關(guān)注到了模態(tài)的內(nèi)部信息和更高層次的模態(tài)交互信息,使得模型的精確率和召回率分別達到了85.22%和85.59%,進而增大了模型的1 值,提高了模型的分類性能。
為了進一步分析模態(tài)之間的聯(lián)合特征對模型最終分類效果的貢獻程度,在MOSI 數(shù)據(jù)集上分別針對雙模態(tài)和三模態(tài)聯(lián)合特征,選擇以下幾種多模態(tài)情感分析方法進行對比,實驗結(jié)果如表3 和表4 所示。
表3 不同模型在雙模態(tài)、三模態(tài)特征融合的準(zhǔn)確率Table 3 Accuracy of different models in bimodal and trimodal feature fusion %
表4 不同模型在雙模態(tài)、三模態(tài)特征融合的F1 分數(shù)Table 4 F1 scores of different models in bimodal and trimodal feature fusion %
實驗結(jié)果表明,與其他模型相比,除了語音和視頻模態(tài)的融合之外,Con-BIAM 模型的其他模態(tài)融合方式都達到了最好的結(jié)果。其中,三種模態(tài)(文本、語音和視覺)融合的分類效果最佳,證明了多模態(tài)信息的必要性。在雙模態(tài)融合的實驗中,文本+圖像和文本+語音融合分類準(zhǔn)確率高于語音+視頻的融合。這一方面說明了文本模態(tài)的情感特性更為顯著,另一方面也反映了語音和視頻模態(tài)的情感特性較弱,可能存在噪聲的干擾。
為了進一步分析視頻片段的上下文信息、自注意力和雙模態(tài)交互注意力對模型性能的貢獻,本文設(shè)計了三組對比實驗,比較不同模塊對于模型整體性能的影響。在MOSI 數(shù)據(jù)集上對比實驗的結(jié)果如圖6 所示。
圖6 在MOSI數(shù)據(jù)集上的對比實驗Fig.6 Comparative experiment on MOSI dataset
(1)Con-BIAM(GRU):使用GRU代替模型中BiGRU,比較上下文信息對模型性能的影響。
(2)Con-BIAM(Self_Att):舍棄雙模態(tài)交互注意力機制,保留自注意力機制,探究兩種模態(tài)之間的交互信息對分類效果的影響。
(3)Con-BIAM(Bim_Att):舍棄自注意力機制,保留雙模態(tài)交互注意力,探究單模態(tài)情感信息對分類效果的影響。
(4)Con-BIAM:本文所提出模型。
實驗結(jié)果表明,對于MOSI 數(shù)據(jù)集,舍棄Con-BIAM 模型中的任一重要模塊,都會使得模型的分類性能下降。首先,相比于GRU 模型,基于BiGRU 的模型準(zhǔn)確率提升了2.52 個百分點,說明了對于視頻中某一片段序列,序列前面和后面的視頻片段都會對它產(chǎn)生一定的影響,而BiGRU 能夠同時捕捉到視頻片段序列前向和反向的信息。其次,多模態(tài)特征融合模塊中的雙模態(tài)交互注意力和自注意力對情感分類的準(zhǔn)確率分別貢獻了1.20 個百分點和0.94 個百分點,1 值也分別提升了2.67 個百分點和2.36 個百分點。這主要是因為文本、語音和視頻模態(tài)內(nèi)部與模態(tài)之間存在著大量的情感信息,而本文所設(shè)計的多模態(tài)特征融合模塊能夠同時提取單模態(tài)信息和雙模態(tài)融合信息,并通過注意力機制有選擇地關(guān)注有利于情感分類的模態(tài)信息,從而提高了模型分類性能。
本文建立了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析模型,利用視頻片段的上下文信息和不同模態(tài)之間的交互信息來預(yù)測情感分類。該模型首先采用BiGRU 捕獲文本、語音和視頻序列之間的上下文信息。然后,通過雙模態(tài)交互注意力、自注意力和全連接層構(gòu)成的多模態(tài)特征融合模塊,關(guān)注目標(biāo)序列及其上下文信息與模態(tài)內(nèi)部和模態(tài)之間的關(guān)聯(lián)性,實現(xiàn)了多模態(tài)信息的有效融合。最后,將得到的上下文特征和跨模態(tài)聯(lián)合特征輸入至分類器進行情感分類。在MOSI 數(shù)據(jù)集上的實驗結(jié)果證明了所提出的模型在多模態(tài)情感分類任務(wù)上的有效性和優(yōu)異性。在未來的工作中,將針對多模態(tài)融合過程中所出現(xiàn)的語義沖突和噪聲問題展開進一步研究。