陶全檜 安俊秀 陳宏松
(成都信息工程大學(xué)軟件工程學(xué)院,四川 成都 610225)
隨著新媒體技術(shù)的迅速發(fā)展,具有豐富情感的多模態(tài)數(shù)據(jù)也日益巨增,例如圖片、短視頻、音頻和文本等,利用大量數(shù)據(jù)進(jìn)行多模態(tài)情感分析已成為一個(gè)新興領(lǐng)域,并且情感分析的研究有利于疫情防控。新冠肺炎疫情期間,國務(wù)院倡議要充分發(fā)揮科技支撐作用,運(yùn)用技術(shù)手段積極有效地開展疫情防控,及時(shí)加強(qiáng)輿論引導(dǎo),積極挖掘情感分析的研究價(jià)值。
早期情感分析任務(wù)主要使用單模態(tài)文本數(shù)據(jù),首先使用傳統(tǒng)的統(tǒng)計(jì)學(xué)方法提取詞語特征進(jìn)行文本表征,然后使用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)情感分類和預(yù)測(cè),隨后使用深度學(xué)習(xí)技術(shù),例如卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)或詞向量提取文本數(shù)據(jù)特征,解決特征提取困難問題,特別是傳統(tǒng)統(tǒng)計(jì)機(jī)器方法無法解決大數(shù)據(jù)量的情況。然而目前這些方法只關(guān)注單模態(tài)文本數(shù)據(jù),信息含量有限,數(shù)據(jù)特征質(zhì)量低,在如今多媒體時(shí)代下很難通過單模態(tài)(文本信息)來準(zhǔn)確地判斷情緒,無法滿足多模態(tài)的社交網(wǎng)絡(luò)環(huán)境中情感分析問題。
已有的微調(diào)預(yù)訓(xùn)練模型方法可實(shí)現(xiàn)大規(guī)模音頻與文本的聯(lián)合表示。然而這類方法不能對(duì)上下文相關(guān)詞加以區(qū)分,忽視了構(gòu)建文本和音頻上下詞之間語義相關(guān)的重要性,導(dǎo)致預(yù)訓(xùn)練語言模型無法充分表示所需要的語義信息。最近,微調(diào)預(yù)訓(xùn)練語言模型ERNIE(enhanced language representation with informative entities)作為一種高效的預(yù)訓(xùn)練語言模型,與傳統(tǒng)的預(yù)訓(xùn)練語言模型不同,ERNIE通過對(duì)所有層的上下文進(jìn)行聯(lián)合調(diào)節(jié)來生成上下文詞特征表示。因此,單詞的表征可表達(dá)文本上下文內(nèi)容。ERNIE在句子級(jí)[1]和分詞級(jí)任務(wù)上都取得了較高的結(jié)果。然而,大多數(shù)微調(diào)策略僅基于單模態(tài)文本[2]設(shè)計(jì),如何將其從單模態(tài)擴(kuò)展到多模態(tài)并獲得更好的表示,結(jié)合多模態(tài)信息進(jìn)行實(shí)驗(yàn)研究是一個(gè)亟待解決的問題。
本文提出一種跨模態(tài)Cross Modality ERNIE(CMERNIE)模型,即通過引入音頻模態(tài)的信息,以幫助文本模態(tài)微調(diào)預(yù)訓(xùn)練ERNIE模型,進(jìn)而進(jìn)行多模態(tài)情感分析。Masked multi-modal attention作為CM-ERNIE的核心單元,旨在通過跨模態(tài)交互動(dòng)態(tài)調(diào)整詞的權(quán)重。實(shí)驗(yàn)結(jié)果表明,CM-ERNIE比以前的基線和ERNIE等的純文本微調(diào)模型能較顯著提高性能。
多模態(tài)情感分析在不同模式之間具有內(nèi)部相關(guān)性以及數(shù)據(jù)上下文具有時(shí)序相關(guān)性,多模態(tài)融合可以更有效全面地捕獲情緒特征,結(jié)合不同模態(tài)數(shù)據(jù)的相關(guān)性以及互補(bǔ)性來進(jìn)行情緒分析。多模態(tài)融合的關(guān)鍵點(diǎn)是如何有效地融合多模態(tài)之間的信息進(jìn)行互補(bǔ),目前主要的融合方式為特征層融合和決策層融合兩種,特征層融合是通過連接和其他模態(tài)數(shù)據(jù)的有效特征來融合不同模態(tài)數(shù)據(jù)的特征或者補(bǔ)全不同模態(tài)之間的特征差異,由于不同特征交互融合,使情感信息更豐富,因此可以顯著地提高性能。不同模態(tài)融合可明顯提高其分類效果,Borth等[3]提出了利用詞性對(duì)組合特征補(bǔ)充表達(dá)圖像包含的語義信息。Guillaumin等[4]發(fā)現(xiàn)圖像特征結(jié)合文本特征信息(例如文本上下文與時(shí)序性)可獲得更豐富的情感信息。多模態(tài)數(shù)據(jù)(圖像與文本)在處理多模態(tài)數(shù)據(jù)分析可提高準(zhǔn)確度[5]。考慮到上下文以及話語之間的關(guān)系,Poria等[6]引入語境長短時(shí)期記憶網(wǎng)絡(luò),可以利用話語水平的話語情境信息來捕捉更多的情緒特征。隨著注意力機(jī)制的普及以及它在多模態(tài)融合中起著越來越重要的作用,Tsai等[7]在多模態(tài)轉(zhuǎn)換模型中使用定向成對(duì)的跨模態(tài)注意。文獻(xiàn)[8]通過跨時(shí)間步長的多模態(tài)序列的相互作用,并潛在地從一種模態(tài)調(diào)整到另一種模態(tài)。文獻(xiàn)[9]通過對(duì)視頻彈幕進(jìn)行聚類分析,實(shí)現(xiàn)文本與視頻的結(jié)合進(jìn)行多模態(tài)情感分析。
微調(diào)預(yù)訓(xùn)練語言模型兩種主要方法為基于特征的方法和基于微調(diào)預(yù)訓(xùn)練模型。
早期工作[10]專注于采用基于特征的方法,將單詞轉(zhuǎn)換為分布式表示。由于這些預(yù)訓(xùn)練的詞表示捕獲語料庫中的句法和語義信息,通常用作輸入嵌入和各種NLP模型的初始化參數(shù),并提供對(duì)隨機(jī)初始化參數(shù)的顯著改進(jìn)[11]。由于這些詞級(jí)模型經(jīng)常遭受多義詞,Peters等[12]采用序列級(jí)模型(ELMo)來捕捉跨不同語言的復(fù)雜詞特征上下文。
隨著人工智能技術(shù)的快速發(fā)展,Lai等[13]提出了一種用于中文微博情感分類的圖卷積神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),該體系的F1值達(dá)到了83.32%。Pal等[14]用基于邏輯回歸技術(shù),對(duì)文本情緒(喜悅、憤怒、悲傷、懸念)進(jìn)行分類,準(zhǔn)確率為73%。Puposh等[15]用支持向量機(jī)(svm)對(duì)單模態(tài)文本進(jìn)行情感六分類,獲得73%的準(zhǔn)確率。文獻(xiàn)[16]用Elmo對(duì)單模態(tài)文本數(shù)據(jù)進(jìn)行情感分類。文獻(xiàn)[17]通過用Bert和BiLSTM結(jié)合模型,實(shí)現(xiàn)文本情感分類。文獻(xiàn)[18]使Bert和BiLSTM相結(jié)合,對(duì)新媒體時(shí)代網(wǎng)絡(luò)文本情緒趨向進(jìn)行歸類。文獻(xiàn)[19]利用Bert與Transformer相結(jié)合,處理名詞隱喻識(shí)別實(shí)現(xiàn)情感分類問題。
盡管基于特征和微調(diào)的語言表示模型都取得了很大的成功,但忽略了多模態(tài)預(yù)訓(xùn)練信息的融合。融合多模態(tài)信息可以顯著提升原始模型學(xué)習(xí)能力,例如閱讀理解[20]、機(jī)器翻譯[21]、自然語言推理[22]、知識(shí)獲取[23]和對(duì)話系統(tǒng)[24]。因此,融合信息可以有效地使現(xiàn)有的預(yù)訓(xùn)練語言模型受益。事實(shí)上,有些工作試圖聯(lián)合詞和實(shí)體的表示學(xué)習(xí),充分利用多模態(tài)信息并取得了可觀的成果。Yu等[25]提出了屏蔽語言的知識(shí)模型,引入場(chǎng)景圖片模態(tài)信息增強(qiáng)語言表征?;诖?本文提出利用多模態(tài)語料庫和多模態(tài)融合方式來訓(xùn)練基于ERNIE的模型。
提出的跨模態(tài)ERNIE(CM-ERNIE),首先挖掘單模態(tài)文本以及音頻內(nèi)部的特征,對(duì)單模態(tài)文本及音頻數(shù)據(jù)進(jìn)行特征表示,并提取音頻模態(tài)信息。然后,采用屏蔽多模態(tài)注意作為其核心,通過跨模態(tài)交互作用來動(dòng)態(tài)調(diào)整單詞的權(quán)重。結(jié)合來自文本和音頻模態(tài)的信息微調(diào)預(yù)先訓(xùn)練過的ERNIE模型。
輸入字符級(jí)別序列長度為n的文本序列:T=[T1,T2,…,Tn]。由于ERNIE模型的嵌入層將在輸入序列之前附加一個(gè)特殊的分類embedding([CLS]),因此最后一個(gè)encoder層的輸出是一個(gè)n+1長度的序列,記為Xt=[E[CLS],E1,E2,…,En],為了與文本模態(tài)一致,在分詞級(jí)任務(wù)上對(duì)齊音頻特征之前附加一個(gè)零向量,對(duì)音頻特征進(jìn)行特征表示:Xa=[A[CLS],A1,A2,…,An]。其中,A[CLS]是一個(gè)零向量,利用Xt和Xa之間的交互作用來調(diào)整每個(gè)單詞的權(quán)重,以便更好地微調(diào)預(yù)先訓(xùn)練過的ERNIE模型,提高情緒分析的性能,模型的總體架構(gòu)如圖1所示。
2.2.1 模態(tài)輸入表征
CM-ERNIE模型的輸入包括兩部分:字塊令牌(word-piece tokens)的文本序列和字級(jí)(word-level)對(duì)齊音頻特征。首先,文本序列將經(jīng)過ERNIE模型,并使用最后一個(gè)Encoder層的輸出作為文本特征,其定義為Xt=[E[CLS],E1,E2,…,En]。其次,音頻首先經(jīng)過卷積神經(jīng)網(wǎng)絡(luò):
將CNN處理后的音頻數(shù)據(jù)輸入到BiGRU中,提取與文本對(duì)應(yīng)的音頻特征:
因?yàn)閄t的維數(shù)明顯高于,所以在訓(xùn)練過程中,的值會(huì)越來越大于,為了防止點(diǎn)積變大,將文本特征t縮放到和音頻特征a縮放到。
2.2.2 屏蔽多模態(tài)注意力
首先,評(píng)估每個(gè)詞在不同模態(tài)下的權(quán)重。QueryQt和KeyKt文本模態(tài)為,其中為縮放后文本特征。QueryQa和音頻模態(tài)的KeyKa為,其中是縮放后的詞級(jí)對(duì)齊音頻特征。然后,文本注意力矩陣αt和音頻注意力矩陣βa定義為:
為通過文本和音頻模態(tài)之間的信息交互來動(dòng)態(tài)調(diào)整特征單詞權(quán)重,對(duì)αt和βa加權(quán)求和,加權(quán)融合注意力矩陣Wf為
其中,wt為文本模態(tài)權(quán)重,wa為音頻模態(tài)權(quán)重,b為偏差。然后引入Mask矩陣M,減少padding序列的影響,然后將多模態(tài)注意力矩陣Wm定義為:
得到多模態(tài)注意力矩陣后,將Wm與屏蔽多模態(tài)注意力Vm的值相乘,得到注意力XAtt的輸出。其中Vm是ERNIE最后一個(gè)Encoder層的輸出,定義為Vm=Xt。
在本節(jié)中評(píng)估了跨模態(tài)ERNIE在公共多模態(tài)情緒分析數(shù)據(jù)集CMU-MOSI和CMU-MOSEI上的性能,和在公共數(shù)據(jù)集(ChnSentCorp)和(Nlpcc2014-Sc)上的準(zhǔn)確性。
實(shí)驗(yàn)使用CMU多模態(tài)觀點(diǎn)級(jí)情緒強(qiáng)度(CMUMOSI)和CMU多模態(tài)意見情緒和情緒強(qiáng)度(CMUMOSEI)數(shù)據(jù)集進(jìn)行評(píng)估,并且使用另外兩個(gè)官方團(tuán)隊(duì)提供的文本單模態(tài)公共數(shù)據(jù)集(ChnSentCorp)和(Nlpcc2014-Sc)驗(yàn)證模型的準(zhǔn)確性。
(1)CMU-MOSI是由關(guān)于YouTube電影評(píng)論觀點(diǎn)視頻組成,視頻共包含93個(gè)觀點(diǎn),共計(jì)2199條話語,每個(gè)話語的標(biāo)簽值由人工注釋且標(biāo)簽值在(-3~3),其中,-3表示負(fù)面最大值,3表示正面最大值。另外考慮到說話者話語不應(yīng)同時(shí)出現(xiàn)在訓(xùn)練集和測(cè)試集中,以及正負(fù)數(shù)據(jù)的平衡,將訓(xùn)練、驗(yàn)證和測(cè)試集視頻數(shù)量拆分為52、10、31,且對(duì)應(yīng)的話語數(shù)量分別對(duì)應(yīng)為1284、229 和686。
證明 記δQk(x,t)=Qk+1(x,t)-Qk(x,t),δuk(x,t)=uk+1(x,t)-uk(x,t),將式(3)改寫為:
(2)CMU-MOSEI由來自YouTube的23454個(gè)電影評(píng)論視頻剪輯組成。
(3)ChnSentCorp為情感分析任務(wù)的中文句子評(píng)論級(jí)情感分類數(shù)據(jù)集。
(4)Nlpcc2014-Sc是微博短文本情感分析數(shù)據(jù)集。
為防止預(yù)訓(xùn)練ERNIE模型過擬合,encoder層的學(xué)習(xí)率設(shè)置為0.01,其余層的學(xué)習(xí)率設(shè)為2e-5。為提升實(shí)驗(yàn)性能,凍結(jié)嵌入層的參數(shù)。為訓(xùn)練CM-ERNIE模型,將批量大小和最大序列長度分別設(shè)置為24和50,epoch數(shù)設(shè)置為3。此外,使用Adam優(yōu)化器和均方誤差損失函數(shù)。
為與文本模態(tài)一致,在詞級(jí)對(duì)齊音頻特征之前附加一個(gè)零向量,然后分別對(duì)文本與音頻進(jìn)行特征提取。其中,音頻提取過程中需重點(diǎn)注意與對(duì)應(yīng)的文本對(duì)齊。
實(shí)驗(yàn)中,用相同的評(píng)價(jià)指標(biāo)來評(píng)估基線和提出模型的性能。情緒評(píng)分分類任務(wù)采用7類精度(),二元情緒分類任務(wù)采用2類精度()和F1評(píng)分()。指標(biāo)值越高,模型的性能就越好。為了使實(shí)驗(yàn)結(jié)果更具準(zhǔn)確性,最終的實(shí)驗(yàn)結(jié)果為隨機(jī)選擇5次運(yùn)行的平均結(jié)果。
EF-LSTM:early fusion LSTM(EF-LSTM)是融合早期輸入特征,也稱前期融合特征,然后送入LSTM模型來學(xué)習(xí)多模態(tài)上下文交互相關(guān)信息。
LMF:低秩多模態(tài)融合(LMF)是一種利用低秩權(quán)重張量,在不影響實(shí)驗(yàn)性能的情況下,使多模態(tài)數(shù)據(jù)高效融合的方法。
MARN:multi-attention recurrent network(MARN)使用多頭注意力塊和長短時(shí)混合記憶網(wǎng)絡(luò)來挖掘不同模式之間的交互信息。
RMFN:循環(huán)多級(jí)融合網(wǎng)絡(luò)(RMFN)將多級(jí)融合過程與循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,以對(duì)時(shí)間和模態(tài)數(shù)據(jù)特征的進(jìn)行交互建模。
MFM:多模態(tài)分解模型(MFM)幫助多模態(tài)判別因子和模態(tài)特定生成因子中每個(gè)因子的提取,專注于從跨多模態(tài)數(shù)據(jù)和標(biāo)簽的聯(lián)合信息學(xué)習(xí)表示提取多模態(tài)數(shù)據(jù)特征。
MCTN:多模態(tài)循環(huán)翻譯網(wǎng)絡(luò)(MCTN)不同模態(tài)之間進(jìn)行轉(zhuǎn)換,聯(lián)合表示數(shù)據(jù)特征。
MulT:multimodal transformer(MulT)使用定向成對(duì)交叉模式注意力跨不同時(shí)間步長的多模式序列之間的交互,并潛在地將數(shù)據(jù)流進(jìn)行模式轉(zhuǎn)換,它是MOSI數(shù)據(jù)集上當(dāng)前最先進(jìn)的方法。
T-BERT:是改進(jìn) Transformers(Bert)的雙向 Encoder表示,僅使用文本模態(tài)信息進(jìn)行微調(diào)。
本節(jié)展示了實(shí)驗(yàn)結(jié)果,討論了提出的方法與前期成果的差異。此外,將屏蔽多模態(tài)注意力可視化,以及在單模態(tài)數(shù)據(jù)集上的結(jié)果對(duì)比,并討論了引入音頻模態(tài)信息后注意力矩陣的變化。
表1顯示了在 CMU-MOSI數(shù)據(jù)集上評(píng)估 CMERNIE模型的實(shí)驗(yàn)結(jié)果。由表1知,CM-ERNIE模型在MOSI數(shù)據(jù)集上創(chuàng)建了一個(gè)新的最好的結(jié)果,并提高了所有評(píng)估指標(biāo)的性能。在二元情感分類任務(wù)中,CM-ERNIE模型在上達(dá)到了83.9%。在情感評(píng)分分類任務(wù)中,CM-ERNIE模型的提升效果更加明顯。CM-ERNIE的模型在上達(dá)到了42.9%,另外,除T-BERT之外的其他基線模型都使用三模態(tài)數(shù)據(jù)信息,但本文提出的模型僅使用雙模態(tài)數(shù)據(jù)(文本和音頻)取得了新的最好的結(jié)果。
表1 CM-ERNIE模型在CMU-MOSI上的實(shí)驗(yàn)結(jié)果 單位:%
類似地,在CMU-MOSEI數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。為了便于比較,繼之前數(shù)據(jù)集實(shí)驗(yàn)的工作之后,將表1中后3個(gè)模型的和進(jìn)行了比較。首先,MulT在上達(dá)到了82.5%,為82.3%。T-BERT表現(xiàn)出更好的性能,它在上達(dá)到了83.0%,為82.7%。但是,CM-ERNIE在上與T-BERT相比,在上達(dá)到了83.6%。因此,在CMU-MOSEI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也說明本文所提的方法在其他多模態(tài)數(shù)據(jù)集上也有不錯(cuò)的泛化性。
為驗(yàn)證所提模型在多模態(tài)數(shù)據(jù)集上的提升,在單模態(tài)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證模型的準(zhǔn)確性,并與TextCnn、FastText、ERNIE、Bert模型對(duì)比,結(jié)果如表 2所示。
表2 CM-ERNIE模型在單模態(tài)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果 單位:%
從表2可以看出,CM-ERNIE模型將預(yù)訓(xùn)練的ERNIE模型從單模態(tài)擴(kuò)展到多模態(tài),并引入了音頻模態(tài)的信息,幫助文本模態(tài)有效地調(diào)整詞的權(quán)重。由于CM-ERNIE模型可以更全面地反映說話者的情緒狀態(tài),并且可以通過文本和音頻模態(tài)之間的交互來捕捉更多的情感特征,因此它在所有評(píng)估指標(biāo)上的表現(xiàn)都得到了顯著的提升。
為證明屏蔽多模態(tài)注意力的效率,分別可視化對(duì)比了單模態(tài)文本數(shù)據(jù)注意力矩陣αt和多模態(tài)數(shù)據(jù)注意力矩陣Wm中詞語權(quán)重的差異,并且容易得知在引入多模態(tài)音頻數(shù)據(jù)信息后,Masked multimodal attention可以合理調(diào)整詞權(quán)重。例如從CMU-MOSI數(shù)據(jù)集中選擇一個(gè)句子,將其單模態(tài)文本數(shù)據(jù)注意力矩陣和多模態(tài)數(shù)據(jù)注意力矩陣可視化,如圖2所示,顏色梯度代表單詞的重要性。
圖2例句為“THERE ARE SOME FUNNY MOMENTS”,圖2(a)和(b)是對(duì)應(yīng)的注意力矩陣。很明顯,圖2(a)和(b)之間存在很多差異。例如,圖2(a)中“FUNNY”這個(gè)詞在“ARE”這個(gè)詞上的注意力得分很高。然而,AER這個(gè)詞不包含任何情感信息。引入音頻信息后的圖2(b),Masked multi-modal attention降低了“ARE”的分?jǐn)?shù)。相比之下,它更多地關(guān)注“SOME”和“MOMENTS”這兩個(gè)詞。為了充分說明CM-ERNIE模型的性能,分別統(tǒng)計(jì)比較了Bert和CMERNIE模型在兩個(gè)不同數(shù)據(jù)集10輪結(jié)果的加權(quán)F1值,其性能如圖2(c)和(d)所示。通過實(shí)驗(yàn)發(fā)現(xiàn),結(jié)合音頻的語音語調(diào)信息,音頻詞與文本交互可挖掘更豐富的情感信息,對(duì)于情感極性判斷結(jié)果更準(zhǔn)確。
提出一種新穎的多模態(tài)情感數(shù)據(jù)交互分析模型CM-ERNIE。將預(yù)訓(xùn)練的ERNIE模型從單模態(tài)文本數(shù)據(jù)擴(kuò)展到多模態(tài)文本加語音數(shù)據(jù),引入音頻模態(tài)信息(例如語音,語調(diào))來輔助文本模態(tài)微調(diào)預(yù)訓(xùn)練模型ERNIE,通過屏蔽多模態(tài)注意力為CM-ERNIE的核心單元,動(dòng)態(tài)調(diào)整文本和音頻跨模態(tài)交互數(shù)據(jù)特征權(quán)重。實(shí)驗(yàn)結(jié)果表明,CM-ERNIE在多模態(tài)數(shù)據(jù)集上的性能比以前的基線有顯著提高,并且在單模態(tài)數(shù)據(jù)集上的性能也超越ERNIE、Bert、FastText等。此外,將注意力矩陣可視化,可以清楚地表明在引入音頻模態(tài)后,能更有效地提升準(zhǔn)確度。事實(shí)上,CM-ERNIE也適用于文本和圖片模態(tài),也可應(yīng)用于兩種以上的模態(tài)。未來,由于大多數(shù)多模態(tài)數(shù)據(jù)通常是未對(duì)齊,并且數(shù)據(jù)具有時(shí)序性,將會(huì)更多地關(guān)注如何對(duì)齊不同模態(tài)數(shù)據(jù),挖掘數(shù)據(jù)的時(shí)序特征以及數(shù)據(jù)的上下文特征,以及如何使用預(yù)訓(xùn)練語言模型從未對(duì)齊的多模態(tài)數(shù)據(jù)中學(xué)習(xí)更好的表示。