田昌寧 賀昱政 王笛 萬(wàn)波 郭栩彤
摘要 多模態(tài)情感分析是指通過(guò)文本、 視覺(jué)和聲學(xué)信息識(shí)別視頻中人物表達(dá)出的情感。 現(xiàn)有方法大多通過(guò)設(shè)計(jì)復(fù)雜的融合方案學(xué)習(xí)多模態(tài)一致性信息, 而忽略了模態(tài)間和模態(tài)內(nèi)的差異化信息, 導(dǎo)致缺少對(duì)多模態(tài)融合表示的信息補(bǔ)充。 為此提出了一種基于Transformer的多子空間多模態(tài)情感分析(multi-subspace Transformer fusion network for multimodal sentiment analysis,MSTFN)方法。該方法將不同模態(tài)映射到私有和共享子空間,獲得不同模態(tài)的私有表示和共享表示,學(xué)習(xí)每種模態(tài)的差異化信息和統(tǒng)一信息。首先,將每種模態(tài)的初始特征表示分別映射到各自的私有和共享子空間,學(xué)習(xí)每種模態(tài)中包含獨(dú)特信息的私有表示與包含統(tǒng)一信息的共享表示。其次,在加強(qiáng)文本模態(tài)和音頻模態(tài)作用的前提下,設(shè)計(jì)二元協(xié)同注意力跨模態(tài)Transformer模塊,得到基于文本和音頻的三模態(tài)表示。 然后, 使用模態(tài)私有表示和共享表示生成每種模態(tài)的最終表示, 并兩兩融合得到雙模態(tài)表示, 以進(jìn)一步補(bǔ)充多模態(tài)融合表示的信息。 最后, 將單模態(tài)表示、 雙模態(tài)表示和三模態(tài)表示拼接作為最終的多模態(tài)特征進(jìn)行情感預(yù)測(cè)。 在2個(gè)基準(zhǔn)多模態(tài)情感分析數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明, 該方法與最好的基準(zhǔn)方法相比, 在二分類準(zhǔn)確率指標(biāo)上分別提升了0.025 6/0.014 3和0.000 7/0.002 3。
關(guān)鍵詞 多模態(tài)情感分析;Transformer結(jié)構(gòu);多子空間;多頭注意力機(jī)制
Multi-subspace multimodal sentiment analysismethod based on Transformer
Abstract Multimodal sentiment analysis refers to recognizing the emotions expressed by characters in a video through textual, visual and acoustic information.? Most of the existing methods learn multimodal coherence information by designing complex fusion schemes, while ignoring inter-and intra-modal differentiation information, resulting in a lack of information complementary to multimodal fusion representations. To this end, we propose a multi-subspace Transformer fusion network for multimodal sentiment analysis (MSTFN) method. The method maps different modalities to private and shared subspaces to obtain private and shared representations of different modalities, learning differentiated and unified information for each modality. Specifically, the initial feature representations of each modality are first mapped to their respective private and shared subspaces to learn the private representation containing unique information and the shared representation containing unified information in each modality. Second, under the premise of strengthening the roles of textual and audio modalities, a binary collaborative attention cross-modal Transformer module is designed to obtain textual and audio-based tri-modal representations. Then, the final representation of each modality is generated using modal private and shared representations and fused two by two to obtain a bimodal representation to further complement the information of the multimodal fusion representation. Finally, the unimodal representation, bimodal representation, and trimodal representation are stitched together as the final multimodal feature for sentiment prediction. Experimental results on two benchmark multimodal sentiment analysis datasets show that the present method improves on the binary classification accuracy metrics by 0.025 6/0.014 3 and 0.000 7/0.002 3, respectively, compared to the best benchmark method.
Keywords multimodal sentiment analysis; Transformer structure; multiple subspaces; multi-head attention mechanism
在互聯(lián)網(wǎng)發(fā)展初期,用戶大多只用文本這一單一模態(tài)來(lái)表達(dá)觀點(diǎn)態(tài)度,但隨著互聯(lián)網(wǎng)不斷向著多模態(tài)信息方向發(fā)展,僅從文本中獲得的信息不足以挖掘人們的觀點(diǎn)態(tài)度[1]?,F(xiàn)有的多模態(tài)情感分析方法致力于探索一種復(fù)雜且有效的多模態(tài)融合方法以學(xué)習(xí)融合表示,從而獲得多模態(tài)一致性信息,但由于說(shuō)話者的特殊風(fēng)格(如反諷),單一模態(tài)中可能包含與多模態(tài)一致性信息不同的情感信息。這些方法大多將這些單一模態(tài)信息當(dāng)作噪聲處理,因此,丟失了模態(tài)內(nèi)和模態(tài)間的差異性信息,導(dǎo)致模型學(xué)習(xí)到的情感信息并不全面,從而限制了模型的性能。
盡管不同模態(tài)之間存在異質(zhì)性,但均具有相同的動(dòng)機(jī)和情感傾向,與視頻片段整體的情感走向一致。因此,將不同模態(tài)映射到同一個(gè)特征子空間中,可以學(xué)習(xí)到包含統(tǒng)一信息的多模態(tài)表示。同時(shí),將不同模態(tài)映射到不同的特征子空間中,能夠?qū)W習(xí)特定于某個(gè)模態(tài)的信息,從而更全面地學(xué)習(xí)每種模態(tài)所表達(dá)的情感信息?,F(xiàn)有的多模態(tài)情感分析方法在設(shè)計(jì)跨模態(tài)Transformer進(jìn)行模態(tài)融合時(shí)使用三元對(duì)稱的結(jié)構(gòu),如圖1 (a)所示,這種方式將每種模態(tài)分別與另外2種模態(tài)進(jìn)行融合,導(dǎo)致多模態(tài)融合表示存在冗余信息,從而影響了模型對(duì)視頻中情感的判斷。因此,如何設(shè)計(jì)一種能夠充分融合多模態(tài)表示并去除冗余信息的二元跨模態(tài)Transformer融合方案成為目前多模態(tài)情感分析中的一個(gè)熱點(diǎn)研究問(wèn)題。圖1(b)為二元融合結(jié)構(gòu)示意圖,這種方式只選取其中2個(gè)模態(tài)與另外2個(gè)模態(tài)進(jìn)行融合,因此,能夠在保證模態(tài)融合的前提下,減少冗余信息的生成,提升模型的性能。
本文提出了一種能夠同時(shí)學(xué)習(xí)模態(tài)統(tǒng)一性信息和模態(tài)間與模態(tài)內(nèi)差異化信息,并減少冗余信息的多模態(tài)情感分析方法,即基于Transformer的多子空間多模態(tài)情感分析方法。該方法設(shè)計(jì)了多個(gè)子空間,將不同模態(tài)的表示映射后得到包含統(tǒng)一信息和特定于某種模態(tài)的差異化信息的特征表示。設(shè)計(jì)了基于文本、音頻、視頻模態(tài)的協(xié)同注意力二元跨模態(tài)Transformer模塊,使得一種模態(tài)能夠同時(shí)與另外2種模態(tài)相互映射,簡(jiǎn)化復(fù)雜的融合結(jié)構(gòu)、減少冗余信息的同時(shí)更充分地建模模態(tài)間的交互作用。此外,將每種模態(tài)的2種表示融合后生成最終包含多方面情感信息的單模態(tài)表示,并兩兩結(jié)合生成雙模態(tài)表示,使模型更進(jìn)一步學(xué)習(xí)到與情感相關(guān)的信息。最后,通過(guò)在2個(gè)基準(zhǔn)數(shù)據(jù)集上設(shè)計(jì)的一系列實(shí)驗(yàn)驗(yàn)證了該方法的優(yōu)越性和有效性。
1 相關(guān)工作
1.1 單模態(tài)情感分析
情感分析作為當(dāng)前的熱門(mén)研究領(lǐng)域,其發(fā)展初期是以文本為主的單模態(tài)情感分析,許多研究者在文本情感分析領(lǐng)域做了深入研究,為情感分析的進(jìn)一步發(fā)展奠定了基礎(chǔ)。早期的文本情感分析工作首先使用詞袋模型Bagofwords[2]或帶有頻率的N-gram[3]從文本中提取特征,將文本轉(zhuǎn)換成向量。然后使用支持向量機(jī)[4]、樸素貝葉斯[5]等傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)情感極性進(jìn)行分類。隨著深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用,卷積神經(jīng)網(wǎng)絡(luò)[6]和循環(huán)神經(jīng)網(wǎng)絡(luò)[7]被應(yīng)用到文本情感分析中,由于這些網(wǎng)絡(luò)能夠捕捉上下文之間的關(guān)系,因此取得了良好的效果。近年來(lái),隨著基于Transformer結(jié)構(gòu)的預(yù)訓(xùn)練模型的興起,文本情感分析的性能也取得了突破性的發(fā)展。除了文本數(shù)據(jù)中包含豐富的情感信息之外,視頻和音頻數(shù)據(jù)中也包含了大量的情感信息。視頻中人物的面部表情和肢體動(dòng)作均包含了人物的情感信息,早期的方法采用局部二值模式[8]、局部相位量化特征[9]以及Gabor特征[10]等手工特征對(duì)圖像的情感進(jìn)行分類。近年來(lái),大多數(shù)方法均采用深度神經(jīng)網(wǎng)絡(luò)對(duì)圖像中的情感極性進(jìn)行分析。音頻中的語(yǔ)速、語(yǔ)調(diào)、聲音強(qiáng)度以及Mel頻率倒譜系數(shù)[11]等聲學(xué)特征均與說(shuō)話者的情感息息相關(guān),對(duì)這些音頻特征進(jìn)行分析也可以得到說(shuō)話者的情感極性。
盡管各領(lǐng)域的單模態(tài)情感分析方法在不斷發(fā)展進(jìn)步,但由于單一模態(tài)所包含的與情感相關(guān)的信息是有限的,在缺乏與其他模態(tài)信息進(jìn)行交互的情況下難以全面理解人的真實(shí)情感,而多模態(tài)情感分析可以很好地解決該問(wèn)題。
1.2 多模態(tài)情感分析
隨著新媒體產(chǎn)業(yè)的高速發(fā)展以及智能手機(jī)的普及,包含多種模態(tài)數(shù)據(jù)的短視頻數(shù)量激增,越來(lái)越多的人通過(guò)短視頻來(lái)表達(dá)對(duì)某一產(chǎn)品或事物的看法。多模態(tài)情感分析任務(wù)利用短視頻中文本、圖像以及音頻多種模態(tài)的數(shù)據(jù)分析人們的情感極性。針對(duì)這一任務(wù),研究者提出了許多方法來(lái)提高情感分析的準(zhǔn)確率。Poria等人使用各個(gè)模態(tài)的特征提取器提取特征,然后將3個(gè)模態(tài)的特征輸入到淺層模型中進(jìn)行拼接,最后將拼接的特征輸入到分類模塊中得到情感極性[12]。由于不同模態(tài)對(duì)情感極性判斷的貢獻(xiàn)度不同,Kampman等人對(duì)不同的模態(tài)特征進(jìn)行加權(quán)融合[13]。羅淵貽等人提出一種自適應(yīng)權(quán)重融合策略獲取不同模態(tài)對(duì)情感分析的貢獻(xiàn)度[14]。Zadeh等人提出的TFN模型通過(guò)笛卡爾積和張量融合的方式對(duì)模態(tài)內(nèi)和模態(tài)間進(jìn)行建模[15]。隨著注意力機(jī)制在各個(gè)領(lǐng)域表現(xiàn)出的顯著成果,許多研究者利用注意力機(jī)制將不同模態(tài)的信息進(jìn)行融合。張濤等人和陳宏松等人均使用交叉注意力對(duì)不同模態(tài)的信息進(jìn)行融合[16-17]。周柏男等人使用模態(tài)內(nèi)自注意力和模態(tài)間的交叉注意力使各模態(tài)間信息共享并減少噪聲信息[18]。盧嬋等人提出文本指導(dǎo)的多模態(tài)層級(jí)自適應(yīng)融合方法,利用注意力機(jī)制將文本模態(tài)與其他模態(tài)進(jìn)行融合[19]。不同的是,Han等人提出了一種多模態(tài)融合的新思路,摒棄了設(shè)計(jì)復(fù)雜的融合方式的想法,設(shè)計(jì)一種層次化框架,最大化單模態(tài)輸入對(duì)和多模態(tài)融合結(jié)果與單模態(tài)輸入之間的互信息,通過(guò)多模態(tài)融合維護(hù)情感分析任務(wù)相關(guān)信息[20]。
2 多模態(tài)情感分析方法
圖2為本文提出的基于Transformer[21]的多子空間多模態(tài)情感分析方法的整體網(wǎng)絡(luò)框架圖,該網(wǎng)絡(luò)主要由4個(gè)模塊組成,分別是模態(tài)私有與共享表示學(xué)習(xí)模塊(private and shared representations learning module,PSRLM)、協(xié)同注意力跨模態(tài)Transformer模塊(co-attention cross-modal Transformer,CACT)、雙模態(tài)表示生成模塊(bi-modal representation generation module,BRGM)以及情感預(yù)測(cè)模塊。模態(tài)私有與共享表示學(xué)習(xí)模塊通過(guò)將不同模態(tài)的特征序列映射到不同子空間來(lái)學(xué)習(xí)模態(tài)的私有表示和共享表示。協(xié)同注意力跨模態(tài)Transformer模塊同時(shí)建模1種模態(tài)和其余2種模態(tài)之間的交互作用,獲得基于文本和基于音頻模態(tài)的三模態(tài)表示。在雙模態(tài)表示生成模塊中,首先使用模態(tài)的私有表示和共享表示生成該模態(tài)的最終表示,每2種模態(tài)相融合后再生成雙模態(tài)表示。在情感預(yù)測(cè)模塊中,將單模態(tài)表示、雙模態(tài)表示與協(xié)同注意力跨模態(tài)Transformer模塊中獲得的多模態(tài)表示進(jìn)行拼接后,經(jīng)過(guò)Transformer編碼器編碼得到最終的融合表示,并通過(guò)全連接層進(jìn)行情感預(yù)測(cè)。
2.1 模態(tài)私有與共享表示學(xué)習(xí)模塊
在分別使用語(yǔ)言預(yù)訓(xùn)練模型BERT[22]、視覺(jué)預(yù)訓(xùn)練模型ViT[23]以及音頻預(yù)訓(xùn)練模型wav2vec從原始數(shù)據(jù)中提取初始的特征序列Im之后,為了使視覺(jué)和音頻模態(tài)的特征序列獲得時(shí)序信息,使用單層單向長(zhǎng)短期記憶網(wǎng)絡(luò)為這2種模態(tài)的特征序列注入上下文相關(guān)信息和長(zhǎng)期依賴,并使用全連接層將3種模態(tài)的特征表示映射到同一維度,以便輸入到后續(xù)的網(wǎng)絡(luò)模型中進(jìn)行操作,該過(guò)程如式(1)~(3)所示。
為了學(xué)習(xí)同一模態(tài)內(nèi)不同方面的情感信息和不同模態(tài)間的差異化信息,設(shè)計(jì)了模態(tài)私有與共享表示學(xué)習(xí)模塊。首先,同一個(gè)視頻片段中的每種模態(tài)的數(shù)據(jù)都具有相同的情感傾向,這也是多模態(tài)情感分析能夠?qū)崿F(xiàn)的原因。因此,為了獲取每種模態(tài)所包含的統(tǒng)一性信息,首先定義一個(gè)共享編碼器Encshared,將每種模態(tài)的初始特征序列表示經(jīng)過(guò)Encshared編碼后映射到同一個(gè)子空間中,獲得具有統(tǒng)一情感傾向和共性情感信息的共享表示。同時(shí),特征序列在經(jīng)過(guò)共享編碼器編碼后有助于縮小不同模態(tài)之間的異質(zhì)鴻溝,如式(4)所示。
同一模態(tài)的數(shù)據(jù)在包含統(tǒng)一情感傾向信息的同時(shí),也具有特定于模態(tài)和包含說(shuō)話者敏感風(fēng)格的特殊信息,比如文本模態(tài)時(shí)常具有的諷刺傾向,一部分人群習(xí)慣于采用夸張的面部表情表達(dá)與所述文字相反的情感。因此,學(xué)習(xí)特定模態(tài)與情感相關(guān)的信息,能夠?qū)崿F(xiàn)對(duì)情感分析進(jìn)一步的信息補(bǔ)充,從而提升模型的性能。在將每種模態(tài)的初始特征序列通過(guò)Encshared映射到共享子空間以學(xué)習(xí)模態(tài)統(tǒng)一表示的同時(shí),分別為3種模態(tài)定義各自的私有編碼器Encpm,經(jīng)過(guò)Encpm編碼后將每種模態(tài)的初始特征序列映射到各自的私有子空間中,以捕獲特定于不同模態(tài)的差異化信息,并且學(xué)習(xí)模態(tài)內(nèi)和模態(tài)間的不同特征,該過(guò)程如式(5)所示。
2.2 協(xié)同注意力跨模態(tài)Transformer模塊
在將每種模態(tài)的初始特征序列映射到共享子空間并獲得共享表示之后,每種模態(tài)的共享表示都獲得了一致的情感傾向和統(tǒng)一性信息,為了更進(jìn)一步挖掘每種模態(tài)與情感相關(guān)的信息,同時(shí)建模不同模態(tài)之間的交互作用,并減小不同模態(tài)間的異質(zhì)性,從而學(xué)習(xí)多模態(tài)融合表示,本文設(shè)計(jì)了一種協(xié)同注意力跨模態(tài)Transformer,其結(jié)構(gòu)如圖3所示。
為每種模態(tài)的共享表示添加位置編碼以使模型能夠捕獲序列的順序信息,如式(6)所示,
多頭注意力機(jī)制output(式中簡(jiǎn)記Ooutput作為跨模態(tài)注意力的核心組成部分,定義多頭注意力機(jī)制Ooutput=MHA(Q,K,V),如式(7)~(9)所示,
在協(xié)同注意力跨模態(tài)Transformer模塊中,以基于文本的協(xié)同注意力跨模態(tài)Transformer(t→a+v)為例,共包含L層協(xié)同注意力跨模態(tài)Transformer層(簡(jiǎn)稱為CACT層),對(duì)于第i層CACT層(i=1,2,…,L),針對(duì)每種模態(tài)的輸入首先采用自注意力機(jī)制探索模態(tài)內(nèi)的交互作用,如式(10)~(12)所示。
在每種模態(tài)進(jìn)行模態(tài)內(nèi)的交互作用之后,建模文本模態(tài)與音頻、視覺(jué)模態(tài)的交互作用以及音頻模態(tài)與文本、視覺(jué)模態(tài)的交互作用。以基于文本模態(tài)的協(xié)同注意力跨模態(tài)Transformer為例,將文本模態(tài)的表示投影后作為查詢,音頻模態(tài)和視覺(jué)模態(tài)的表示拼接后作為中間值,將中間值經(jīng)過(guò)投影后獲得鍵和值。此時(shí),能夠獲得文本模態(tài)句子中的每個(gè)單詞與每一幀音頻和視覺(jué)特征的相似性關(guān)系,其次,將跨模態(tài)注意力的輸出送入前饋神經(jīng)網(wǎng)絡(luò)中獲得協(xié)同注意力跨模態(tài)Transformer層的輸出,如式(13)、(14)所示。
2.3 雙模態(tài)表示生成模塊
在學(xué)習(xí)到每種模態(tài)的私有表示和共享表示之后,為了綜合表示單模態(tài)表示,將同一模態(tài)的2種不同表示融合后生成最終的單模態(tài)表示,每種單模態(tài)表示的輸出由式(15)定義,
um=Sigmoid(FC(Fsharedm,F(xiàn)pm))(15)
式中:um∈Rd。此時(shí),最終獲得的單模態(tài)表示融合了同一模態(tài)不同方面與情感相關(guān)的信息,既包含統(tǒng)一性信息,又同時(shí)具備特定于某種模態(tài)獨(dú)特的信息。
為了實(shí)現(xiàn)補(bǔ)充基于文本和基于音頻的多模態(tài)融合表示的信息,設(shè)計(jì)了雙模態(tài)表示生成模塊,將包含不同方面信息的單模態(tài)表示雙雙進(jìn)行融合,以獲得雙模態(tài)融合表示,彌補(bǔ)了多模態(tài)融合表示只注重學(xué)習(xí)多模態(tài)統(tǒng)一性信息的缺陷,如式(16)所示,
bm1m2=MLP((um1,um2)θMLP)
m1,m2∈{a,v,t},m1≠m2(16)
式中:bm1m2∈Rd;MLP(·)表示多層神經(jīng)融合網(wǎng)絡(luò),由2層全連接層分別后接Leaky ReLU激活函數(shù)和tanh激活函數(shù)組成;θMLP代表其網(wǎng)絡(luò)參數(shù)。
2.4 情感預(yù)測(cè)模塊
將單模態(tài)表示、雙模態(tài)表示和多模態(tài)融合表示進(jìn)行拼接后,得到最終的多模態(tài)融合表示,該多模態(tài)融合表示同時(shí)具備統(tǒng)一性信息以及模態(tài)內(nèi)和模態(tài)間的差異化信息,使模型能夠?qū)W習(xí)到更全面的與情感相關(guān)的信息。將拼接后的多模態(tài)融合表示輸入到兩層標(biāo)準(zhǔn)Transformer編碼器中進(jìn)行編碼以建模不同表示之間的自注意力,再將具有自注意力的融合表示送入多層預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行情感預(yù)測(cè),如式(17)、(18)所示。
f=TRM(ua,…,bav,…,hLt,hLa)(17)
=MLPN(f,θMLPN)(18)
式中: f∈R8d;MLPN(·)表示多層預(yù)測(cè)網(wǎng)絡(luò),由2層全連接層和一個(gè)ReLU激活函數(shù)組成;θMLPN代表其網(wǎng)絡(luò)參數(shù)。
2.5 損失函數(shù)
為了確保每種模態(tài)的私有表示和共享表示捕獲到同一種模態(tài)不同方面的信息,同時(shí)確保能夠?qū)W到不同模態(tài)之間的差異化信息,采用軟正交約束計(jì)算同一模態(tài)間不同表示的相似性和不同模態(tài)表示之間的相似性之和作為差異損失,其定義如式(19)所示,
式中:‖·‖2F表示弗羅貝尼烏斯范數(shù)的平方操作;N表示訓(xùn)練樣本的個(gè)數(shù)。
對(duì)于情感分析中的回歸任務(wù),采用均方誤差損失作為損失函數(shù),將差異損失加權(quán)后作為回歸任務(wù)中的總體損失函數(shù)來(lái)衡量情感強(qiáng)度預(yù)測(cè)的準(zhǔn)確性,如式(20)所示,
對(duì)于分類任務(wù),采用交叉熵?fù)p失作為損失函數(shù),將差異損失加權(quán)后作為分類任務(wù)中的總體損失函數(shù)來(lái)衡量情感分類的準(zhǔn)確性,如式(21)所示,
式中:γ作為超參數(shù),用于調(diào)整差異化損失Ldiff在總體損失函數(shù)中的權(quán)重值。
3 實(shí)驗(yàn)及結(jié)果分析
本節(jié)將對(duì)本文所提出的基于Transformer的多子空間多模態(tài)情感分析方法的有效性進(jìn)行驗(yàn)證,在2個(gè)基準(zhǔn)數(shù)據(jù)集上設(shè)計(jì)并完成多項(xiàng)實(shí)驗(yàn)。
3.1 實(shí)驗(yàn)設(shè)置
1)基準(zhǔn)數(shù)據(jù)集。為評(píng)估本方法的有效性,本文使用由卡耐基梅隆大學(xué)公開(kāi)的多模態(tài)意見(jiàn)級(jí)情感強(qiáng)度數(shù)據(jù)集(Multimodal Opinion-level Sentiment Intensity,CMU-MOSI)和多模態(tài)意見(jiàn)情感與情緒強(qiáng)度數(shù)據(jù)集(Multimodal Opinion Sentiment and Emotion Intensity,CMU-MOSEI),數(shù)據(jù)集中分別包含文本、視覺(jué)和音頻3種模態(tài)的數(shù)據(jù),2個(gè)數(shù)據(jù)集的組成與劃分如表1所示。CMU-MOSI數(shù)據(jù)集是一個(gè)評(píng)論性視頻的集合,每條評(píng)論數(shù)據(jù)的情感強(qiáng)度被標(biāo)注為區(qū)間[-3,3]內(nèi)的實(shí)數(shù),從-3到3分表代表:強(qiáng)消極、消極、弱消極、中立、弱積極、積極和強(qiáng)積極。CMU-MOSEI比CMU-MOSI的視頻數(shù)量更多,涵蓋的話題范圍更廣,其情感標(biāo)簽包含二分類、五分類以及七分類的標(biāo)注,常用的是區(qū)間為[-3,3]的七分類情感強(qiáng)度標(biāo)簽。除此之外,該數(shù)據(jù)集也包含6種情緒標(biāo)簽,分別為:開(kāi)心、悲傷、生氣、厭惡、驚喜與恐懼,每種情緒的強(qiáng)度為取值在[0,3]的實(shí)數(shù)。
2)實(shí)現(xiàn)細(xì)節(jié)。在模態(tài)私有與共享表示學(xué)習(xí)模塊中,長(zhǎng)短期記憶網(wǎng)絡(luò)的隱藏狀態(tài)的維度設(shè)置為768,輸出維度為128。在協(xié)同注意力跨模態(tài)Transformer模塊中,每個(gè)協(xié)同注意力跨模態(tài)Transformer塊包含4層協(xié)同注意力跨模態(tài)Transformer層,自注意力的注意力頭數(shù)設(shè)置為4,基于文本和基于音頻的跨模態(tài)注意力中的注意力頭數(shù)都設(shè)置為8,最終輸出的多模態(tài)表示的維度設(shè)置為128維。在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)訓(xùn)練采用的是Adam優(yōu)化器,batch-size的調(diào)整范圍是{16,32,64},迭代次數(shù)epoch設(shè)置為50。本文提出的方法使用深度學(xué)習(xí)框架Pytorch實(shí)現(xiàn),在RTX 3090GPU上進(jìn)行模型訓(xùn)練。
3.2 基準(zhǔn)方法
LMF[15]:利用低秩張量進(jìn)行多模態(tài)融合,以提高效率。
MFN[24]:明確地解釋了神經(jīng)架構(gòu)中的2種交互,并隨著時(shí)間對(duì)其進(jìn)行建模。
RAVEN[25]:對(duì)非語(yǔ)言子詞序列的細(xì)粒度結(jié)構(gòu)進(jìn)行建模,并基于非語(yǔ)言線索動(dòng)態(tài)地調(diào)整單詞表示。
MulT[26]:使用基于跨模態(tài)注意力的跨模態(tài)Transformer進(jìn)行模態(tài)翻譯。
ICCN[27]:通過(guò)深度典型相關(guān)性分析來(lái)學(xué)習(xí)模態(tài)之間的相關(guān)性。
MAG-BERT[28]:采用多模態(tài)適應(yīng)門(mén)將對(duì)齊的非語(yǔ)言信息與文本表示相結(jié)合。
MISA[29]:將各模態(tài)表示投影到模態(tài)特定和模態(tài)不變空間中,并學(xué)習(xí)分布相似性、正交損失、重構(gòu)損失以及任務(wù)預(yù)測(cè)損失。
Self-MM[30]:設(shè)計(jì)了一個(gè)多模態(tài)和單模態(tài)任務(wù)來(lái)學(xué)習(xí)模態(tài)間的一致性和模態(tài)內(nèi)的特異性。
MMIM[20]:分層最大化單模態(tài)輸入對(duì)和多模態(tài)融合結(jié)果與單模態(tài)輸入之間的互信息。
Hycon-B[31]:通過(guò)不同種類的對(duì)比學(xué)習(xí)模態(tài)間和模態(tài)內(nèi)的交互關(guān)系以及樣本間和類間關(guān)系,從而減小模態(tài)差距。
ICDN[32]:結(jié)合跨模態(tài)Transformer方法和自監(jiān)督獲取單模態(tài)情感標(biāo)簽方法,同時(shí)學(xué)習(xí)一致性和差異化信息。
PS-Mixer[33]:采用基于MLP-Mixer的極性向量和強(qiáng)度向量的混合器模型實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)之間的通信。
3.3 實(shí)驗(yàn)結(jié)果分析
本小節(jié)將本文所提出的基于Transformer的多子空間多模態(tài)情感分析方法與基準(zhǔn)方法在CMU-MOSI和CMU-MOSEI這2個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行性能比較,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了多方面的詳細(xì)分析,實(shí)驗(yàn)結(jié)果如表2和表3所示。
對(duì)表2中的實(shí)驗(yàn)結(jié)果分析可得,在CMU-MOSI數(shù)據(jù)集上,本文所提方法的實(shí)驗(yàn)結(jié)果均要高于基線方法。其中,在回歸任務(wù)中,本文方法在MAE、Corr評(píng)價(jià)指標(biāo)上得出了0.705、0.800的實(shí)驗(yàn)結(jié)果,相比最好的基準(zhǔn)方法,MAE下降了0.008,Corr提升了0.008;在分類任務(wù)上,二分類準(zhǔn)確率Acc-2和F1得分分別為85.71%/86.63%、85.64%/86.63%,相比最好的基準(zhǔn)方法分別提升了0.025 6/0.014 3、0.025 2/0.015 3。本方法在各項(xiàng)評(píng)價(jià)指標(biāo)上的結(jié)果均優(yōu)于最好的基準(zhǔn)模型,驗(yàn)證了本文提出的模型的有效性。其中,“/”左邊是消極與非消極時(shí)的二分類結(jié)果,“/”右邊是消極與積極時(shí)的二分類結(jié)果。
表3展示了本方法在CMU-MOSEI數(shù)據(jù)集上的多模態(tài)情感分析實(shí)驗(yàn)結(jié)果。從表3中的數(shù)據(jù)分析得知,本方法在回歸任務(wù)的評(píng)價(jià)指標(biāo)MAE和Corr上的結(jié)果與相對(duì)應(yīng)的最好的基準(zhǔn)方法SELF-MM和Hycon-B分別相差0.004和0.014;在分類任務(wù)中,本方法在二分類準(zhǔn)確率Acc-2和F1得分上均取得了最優(yōu)的結(jié)果:83.17%/85.99%和83.31%/85.92%,與最好的基準(zhǔn)方法PS-Mixer相比分別提升了0.000 7/0.002 3和0.002 1/0.001 5,進(jìn)一步證明去除冗余信息后對(duì)提升多模態(tài)情感分析精度有著重要作用。
綜合表2和表3的實(shí)驗(yàn)結(jié)果可以得到,本方法在2個(gè)數(shù)據(jù)集上均實(shí)現(xiàn)了優(yōu)于其他基線方法的性能,強(qiáng)基線模型PS-Mixer僅在較小的數(shù)據(jù)集CMU-MOSI上的實(shí)驗(yàn)結(jié)果較為突出,證明該模型的魯棒性較差。本文提出的方法性能不局限于輸入數(shù)據(jù)的類型,具有較高的魯棒性。與應(yīng)用傳統(tǒng)的三元Transformer結(jié)構(gòu)方法如MulT和ICDN相比,MSTFN在各項(xiàng)評(píng)價(jià)指標(biāo)上的實(shí)驗(yàn)結(jié)果均遠(yuǎn)高于這2種方法的實(shí)驗(yàn)結(jié)果,由此可以分析得出,采用二元Transformer融合方案的模型能夠更好地實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的融合,縮小模態(tài)間的異質(zhì)性,提升模型情感分析能力。綜合以上分析可以得出,本方法是具有較高性能的多模態(tài)情感分析方法。
3.4 消融實(shí)驗(yàn)
本文提出的基于Transformer的多子空間多模態(tài)情感分析方法由4個(gè)模塊組成,其中的主要模塊為模態(tài)私有與共享表示學(xué)習(xí)模塊、協(xié)同注意力跨模態(tài)Transformer模塊以及雙模態(tài)表示生成模塊。為了驗(yàn)證3個(gè)主要模塊的有效性,在非對(duì)齊的CMU-MOSI數(shù)據(jù)集上設(shè)計(jì)了多項(xiàng)消融實(shí)驗(yàn)。在完整模型MSTFN的基礎(chǔ)上,逐步去除各個(gè)主要模塊生成不同的模型版本,對(duì)本模型的各個(gè)版本的定義和解釋如下。MSTFN w/o PSRLM:去除模態(tài)私有與共享表示學(xué)習(xí)模塊的模型,相對(duì)應(yīng)地,在訓(xùn)練階段只保留基本的任務(wù)損失函數(shù),去除差異化損失函數(shù)。此時(shí),模型只能學(xué)習(xí)到多模態(tài)一致性信息而忽略了模態(tài)內(nèi)和模態(tài)間的差異化信息。MSTFN w/o CACT:去除協(xié)同注意力跨模態(tài)Transformer模塊的模型。3種模態(tài)的共享表示被簡(jiǎn)單地拼接起來(lái),再經(jīng)過(guò)情感預(yù)測(cè)模塊進(jìn)行情感分析。這樣模態(tài)共享表示之間缺乏交互作用,導(dǎo)致不同模態(tài)之間仍存在較大的異質(zhì)鴻溝。MSTFN w/o BRGM:去除雙模態(tài)表示生成模塊的模型。這會(huì)導(dǎo)致缺少同一模態(tài)內(nèi)的交互作用,并且缺少對(duì)包含不同方面情感信息的單模態(tài)表示之間關(guān)系的建模,缺少對(duì)多模態(tài)融合表示的信息補(bǔ)充。
表4顯示了使用本模型的幾種變體所進(jìn)行的消融實(shí)驗(yàn)的結(jié)果。由表4中的數(shù)據(jù)可以得出,模態(tài)私有與共享表示學(xué)習(xí)模塊以及協(xié)同注意力跨模態(tài)Transformer模塊是使本方法達(dá)到最優(yōu)性能的必要條件,協(xié)同注意力跨模態(tài)Transformer模塊對(duì)本方法的貢獻(xiàn)度最高。模態(tài)私有與共享表示在建模多模態(tài)統(tǒng)一性信息的同時(shí),學(xué)習(xí)了模態(tài)內(nèi)和模態(tài)間的差異化信息,對(duì)多模態(tài)融合信息進(jìn)行了補(bǔ)充。協(xié)同注意力跨模態(tài)Transformer模塊同時(shí)建模文本和視覺(jué)、音頻模態(tài)以及音頻和視覺(jué)、文本模態(tài)之間的交互作用,保證了多模態(tài)融合表示包含足夠的與情感相關(guān)的信息,促進(jìn)了多模態(tài)數(shù)據(jù)進(jìn)一步融合。同時(shí),相比于傳統(tǒng)的三元對(duì)稱的跨模態(tài)Transformer結(jié)構(gòu),二元跨模態(tài)Transformer結(jié)構(gòu)能夠在保證減小模態(tài)間異質(zhì)性的前提下減少冗余信息。
在協(xié)同注意力跨模態(tài)Transformer模塊中,本方法采用基于文本和基于音頻模態(tài)的多模態(tài)融合表示,為了驗(yàn)證基于不同模態(tài)的協(xié)同注意力跨模態(tài)Transformer模塊對(duì)整個(gè)模型的影響,除了使用文本和音頻模態(tài)作為目標(biāo)模態(tài)的完整模型上的實(shí)驗(yàn)之外,分別在CMU-MOSI數(shù)據(jù)集上進(jìn)行了1種目標(biāo)模態(tài)、2種目標(biāo)模態(tài)以及3種目標(biāo)模態(tài)的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。只有1種目標(biāo)模態(tài)的情況下,分別以a、v、t為目標(biāo)模態(tài),利用1個(gè)單一的協(xié)同注意力跨模態(tài)Transformer獲得音頻與視覺(jué)和文本的交互[a→t+v]、視覺(jué)與音頻和文本的交互[v→t+a]以及文本與音頻和視覺(jué)的交互[t→a+v]。其次,對(duì)于2種目標(biāo)模態(tài)的情況,同時(shí)采用2個(gè)協(xié)同注意力跨模態(tài)Transformer,獲得基于2種模態(tài)的多模態(tài)表示:[a→t+v]和[v→t+a]、[a→t+v]和[t→a+v]、[v→t+a]和[t→a+v]。最后,在有3種目標(biāo)模態(tài)時(shí),構(gòu)建3個(gè)協(xié)同注意力跨模態(tài)Transformer模塊以同時(shí)建模基于文本、音頻和視覺(jué)模態(tài)的多模態(tài)融合表示,即[t→a+v]、[a→t+v]和[v→t+a]。由表5中的實(shí)驗(yàn)結(jié)果可以得出,在只有1種目標(biāo)模態(tài)時(shí),基于音頻的協(xié)同注意力跨模態(tài)Transformer的性能最優(yōu),文本僅次于音頻模態(tài),二者之間的差異很小且結(jié)果均高于單獨(dú)的視覺(jué)模態(tài),說(shuō)明基于具有語(yǔ)義信息的音頻、文本模態(tài)更能夠提升模態(tài)間的交互作用。同理,在2種目標(biāo)模態(tài)的情況下,本方法中使用基于文本和音頻的協(xié)同注意力跨模態(tài)Transformer的結(jié)果最高。在3種目標(biāo)模態(tài)的情況下,雖然對(duì)多種模態(tài)之間進(jìn)行了復(fù)雜且全面的交互作用的建模,但是由于存在過(guò)多冗余信息,導(dǎo)致模型的性能降低,分類準(zhǔn)確率以及預(yù)測(cè)精度甚至低于單獨(dú)的文本和音頻模態(tài)。
4 結(jié)語(yǔ)
本文提出了一種通過(guò)將不同模態(tài)的初始特征表示映射到不同子空間中以獲得多模態(tài)統(tǒng)一信息并學(xué)習(xí)模態(tài)內(nèi)和模態(tài)間差異化信息的方法,稱為基于Transformer的多子空間多模態(tài)情感分析方法。該方法通過(guò)構(gòu)建多模態(tài)的共享子空間和每種模態(tài)的私有子空間,獲得具有統(tǒng)一信息的共享表示和包含模態(tài)內(nèi)與模態(tài)間的差異化信息的私有表示,摒棄傳統(tǒng)的三元對(duì)稱Transformer融合方案,設(shè)計(jì)了二元的協(xié)同注意力跨模態(tài)Transformer模塊對(duì)共享表示進(jìn)行融合,同時(shí)建模1種模態(tài)與其余2種模態(tài)之間的交互作用,生成雙模態(tài)表示,對(duì)多模態(tài)融合表示進(jìn)行信息補(bǔ)充。與以往的工作相比,本方法在2個(gè)多模態(tài)情感分析數(shù)據(jù)集中取得了具有競(jìng)爭(zhēng)力的結(jié)果,這也有力地證明了模態(tài)內(nèi)和模態(tài)間的差異化信息對(duì)多模態(tài)數(shù)據(jù)中包含的統(tǒng)一性信息在情感分析中能夠起到信息補(bǔ)充的作用,同時(shí),驗(yàn)證了二元Transformer融合方案能夠去除冗余信息,以此提升情感分析的準(zhǔn)確率。更進(jìn)一步地,設(shè)計(jì)多個(gè)消融實(shí)驗(yàn)證明每個(gè)模塊的有效性,同時(shí)驗(yàn)證了具有不同目標(biāo)模態(tài)的協(xié)同注意力跨模態(tài)Transformer模塊對(duì)本方法的性能影響。最后,對(duì)超參數(shù)對(duì)整體損失函數(shù)的貢獻(xiàn)度進(jìn)行分析,并從模型復(fù)雜度的角度進(jìn)一步評(píng)估和分析本方法。
參考文獻(xiàn)
[1] PORIA S, CAMBRIA E, BAJPAI R, et al. A review of affective computing: From unimodal analysis to multimodal fusion[J]. Information Fusion, 2017, 37(C): 98-125.
[2] ZHANG Y, JIN R, ZHOU Z H. Understanding bag-of-words model: A statistical framework[J].International Journal of Machine Learning and Cybernetics, 2010, 1(1): 43-52.
[3] LI B F, LIU T, ZHAO Z, et al. Neural bag-of-ngrams[C]∥Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco: ACM,? 2017: 3067-3074.
[4] CHEN P H, LIN C J, SCHLKOPF B. A tutorial on ν-support vector machines[J].Applied Stochastic Models in Business and Industry, 2005, 21(2): 111-136.
[5] RISH I.An empirical study of the naive Bayes classifier[J].Journal of Universal Computer Science, 2001, 1(2):41-46.
[6] ALBAWI S, ABED MOHAMMED T A, Al-ZAWI S. Understanding of a convolutional neural network[C]∥2017 International Conference on Engineering and Technology (ICET). Antalya: IEEE, 2017: 1-6.
[7] MALHOTRA P, VIG L, SHROFF G, et al.Long short term memory networks for anomaly detection in time series[C]∥23rd European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning. Bruges:ESANN,2015.
[8] SONG K C, YAN Y H, CHEN W H, et al. Research and perspective on local binary pattern[J]. Acta Automatica Sinica, 2013, 39(6): 730-744.
[9] WANG Z, YING Z L. Facial expression recognition based on local phase quantization and sparse representation[C]∥2012 8th International Conference on Natural Computation. Chongqing: IEEE, 2012: 222-225.
[10]KAMARAINEN J K. Gabor features in image analysis[C]∥2012 3rd International Conference on Image Processing Theory, Tools and Applications (IPTA). Istanbul: IEEE, 2012: 13-14.
[11]HAN W, CHAN C F, CHOY C S, et al. An efficient MFCC extraction method in speech recognition[C]∥2006 IEEE International Symposium on Circuits and Systems (ISCAS). Kos: IEEE, 2006: 4pp.
[12]PORIA S, CHATURVEDI I, CAMBRIA E, et al. Convolutional MKL based multimodal emotion recognition and sentiment analysis[C]∥2016 IEEE 16th International Conference on Data Mining (ICDM). Barcelona: IEEE, 2016: 439-448.
[13]KAMPMAN O, BAREZI E J, BERTERO D, et al. Investigating audio, video, and text fusion methods for end-to-end automatic personality prediction[C]∥Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Melbourne: Association for Computational Linguistics, 2018: 606-611.
[14]羅淵貽,吳銳,劉家鋒,等.基于自適應(yīng)權(quán)值融合的多模態(tài)情感分析方法[J/OL].軟件學(xué)報(bào).(2023-10-07)[2023-11-20].https:∥doi.org/10.13328/j.cnki.jos.006998.
LUO Y Y, WU R, LIU J F, et al. Multimodal sentiment analysis based on adaptive weight fusion[J/OL].Journal of Software.(2023-10-07)[2023-11-20].https:∥doi.org/10.13328/j.cnki.jos.006998.
[15]ZADEH A, CHEN M H, PORIA S, et al. Tensor fusion network for multimodal sentiment analysis[C]∥Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen: Association for Computational Linguistics, 2017: 1103-1114.
[16]張濤,郭青冰,李祖賀,等.MC-CA:基于模態(tài)時(shí)序列耦合與交互式多頭注意力的多模態(tài)情感分析[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,35(4):680-687.
ZHANG T, GUO Q B, LI Z H, et al. MC-CA: Multimodal sentiment analysis based on modal temporalcoupling and interactive multi-head attention[J].Journal of Chongqing University of Posts & Telecommunications (Natural Science Edition), 2023, 35(4):680-687.
[17]陳宏松,安俊秀,陶全檜,等.基于BERT-VGG16的多模態(tài)情感分析模型[J].成都信息工程大學(xué)學(xué)報(bào),2022,37(4):379-385.
CHEN H S, AN J X,TAO Q H, etal. Multi-modal sentiment analysis model based on BERT-VGG16[J].Journal of Chengdu University of Information Technology, 2022, 37(4):379-385.
[18]周柏男,李旭,范豐龍,等.基于交互注意力機(jī)制的多模態(tài)情感分析模型[J].大連工業(yè)大學(xué)學(xué)報(bào),2023,42(5):378-384.
ZHOU B N, LI X, FAN F L, et al. Multi-modal sentiment analysis model based on interactive attention mechanism[J].Journal of Dalian Polytechnic University, 2023, 42(5):378-384.
[19]盧嬋,郭軍軍,譚凱文,等.基于文本指導(dǎo)的層級(jí)自適應(yīng)融合的多模態(tài)情感分析[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2023,58(12):31-40.
LU C, GUO J J, TAN K W, et al. Multimodal sentiment analysis based on text-guided hierarchical adaptive fusion[J].Journal of Shandong University(Natural Science), 2023, 58(12):31-40.
[20]HAN W, CHEN H, PORIA S. Improving multimodal fusion with hierarchical mutual information maximization for multimodal sentiment analysis[C]∥Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Punta Cana: Association for Computational Linguistics, 2021: 9180-9192.
[21]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: ACM, 2017: 6000-6010.
[22]DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[EB/OL]. (2019-05-24)[2023-11-20]. http:∥arxiv.org/abs/1810.04805.
[23]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[EB/OL]. (2021-06-03)[2023-11-20]. http:∥arxiv.org/abs/2010.11929.
[24]ZADEH A, LIANG P P, MAZUMDER N, et al. Memory fusion network for multi-view sequential learning[C]∥Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Innovative Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence. New Orleans: ACM, 2018: 5634-5641.
[25]WANG Y S, SHEN Y, LIU Z, et al. Words can shift: Dynamically adjusting word representations using nonverbal behaviors[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 7216-7223.
[26]TSAI Y H H, BAI S J, LIANG P P, et al. Multimodal transformer for unaligned multimodal language sequences[J].Proceedings of the Conference Association for Computational Linguistics Meeting, 2019, 2019: 6558-6569.
[27]SUN Z K, SARMA P, SETHARES W, et al. Learning relationships between text, audio, and video via deep canonical correlation for multimodal language analysis[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(5): 8992-8999.
[28]RAHMAN W, HASAN M K, LEE S W, et al. Integrating multimodal information in large pretrained transformers[J].Proceedings of the Conference Association for Computational Linguistics Meeting, 2020, 2020: 2359-2369.
[29]HAZARIKA D, ZIMMERMANN R, PORIA S. Misa: Modality-invariant and-specific representations for multimodal sentiment analysis[C]∥Proceedings of the 28th ACM International Conference on Multimedia. Seattle: ACM, 2020: 1122-1131.
[30]YU W M, XU H, YUAN Z Q, et al. Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(12): 10790-10797.
[31]MAI S J, ZENG Y, ZHENG S J, et al. Hybrid contrastive learning of tri-modal representation for multimodal sentiment analysis[J]. IEEE Transactions on Affective Computing, 2023,14 (3): 2276-2289.
[32]ZHANG Q A, SHI L, LIU P Y, et al. RETRACTED ARTICLE: ICDN: Integrating consistency and difference networks by transformer for multimodal sentiment analysis[J]. Applied Intelligence, 2023, 53(12): 16332-16345.
[33]LIN H, ZHANG P L, LING J D, et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis[J].Information Processing & Management, 2023, 60(2): 103229.
西北大學(xué)學(xué)報(bào)(自然科學(xué)版)2024年2期