摘 要:
多模態(tài)諷刺檢測的關(guān)鍵在于有效地對(duì)齊和融合不同模態(tài)的特征。然而,現(xiàn)有融合方法通常忽略多模態(tài)間組成結(jié)構(gòu)的關(guān)系,并且在識(shí)別諷刺時(shí)也經(jīng)常忽略了多模態(tài)數(shù)據(jù)中與諷刺情感相關(guān)的共同特征的重要性。因此,提出一種基于跨模態(tài)分層交互網(wǎng)絡(luò)和對(duì)比學(xué)習(xí)的模型。首先,跨模態(tài)分層交互網(wǎng)絡(luò)采用了基于交叉注意力機(jī)制的最小單元對(duì)齊模塊和基于圖注意力網(wǎng)絡(luò)的組成結(jié)構(gòu)融合模塊,從不同層面上識(shí)別文本和圖像之間的不一致性,將低一致性的樣本判定為含諷刺意味的樣本。其次,該模型通過數(shù)據(jù)增強(qiáng)和類別增強(qiáng)兩個(gè)對(duì)比學(xué)習(xí)任務(wù),幫助學(xué)習(xí)諷刺相關(guān)的共同特征。實(shí)驗(yàn)結(jié)果表明,所提模型與基線模型相比,在準(zhǔn)確率上提升了0.81%,F(xiàn)1值上提升了1.6%,驗(yàn)證了提出的分層交互網(wǎng)絡(luò)和對(duì)比學(xué)習(xí)方法在多模態(tài)諷刺檢測中的關(guān)鍵作用。
關(guān)鍵詞:多模態(tài)諷刺檢測;分層交互;對(duì)比學(xué)習(xí);交叉注意力機(jī)制;圖注意力網(wǎng)絡(luò)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)09-008-2620-08
doi:10.19734/j.issn.1001-3695.2023.12.0626
CMHICL: multi-modal sarcasm detection with cross-modal hierarchical interaction network and contrastive learning
Lin Jiexia, Zhu Xiaodong
(School of Management, University of Shanghai for Science & Technology, Shanghai 200093, China)
Abstract:
The key to multimodal sarcasm detection is to effectively align and fuse the features of different modes. However, the existing multimodal data fusion methods ignore the relationship between multimodal intercomponent structures. Also, the importance of common features associated with sarcastic emotions in multimodal data is overlooked in the process of recognizing sarcasm. To address the above problems, this paper proposed a model based on cross-modal hierarchical interaction networks and contrastive learning (CMHICL). Firstly, the cross-modal hierarchical interaction network employed a minimal unit alignment module based on the cross-attention mechanism and a compositional structure fusion module based on the graph attention network to identify inconsistencies between text and images at different levels, and determined the samples with low consistency as sarcasm samples. Secondly, two contrastive learning tasks, based on data enhancement and category enhancement, helped to learn common features related to sarcasm and reduce false correlations within the modality. The experimental results show that the proposed CMHICL model has increased the Acc by 0.81% and the F1 value by 1.6% compared to the baseline mo-dels, which verifies the key role of the hierarchical interactive network and contrastive learning method proposed in this paper in multimodal sarcasm detection.
Key words:multimodal sarcasm detection; hierarchical interaction; contrastive learning; cross-attention mechanism; graph attention network
0 引言
諷刺作為人類之間交流的一種特殊表達(dá)方式,通過幽默和譏諷來傳遞批評(píng)和反思。隨著互聯(lián)網(wǎng)的廣泛使用,越來越多的用戶通過發(fā)布帖子來表達(dá)自己的觀點(diǎn)和看法,特別是在社交媒體、新聞報(bào)道、論壇和商品評(píng)價(jià)等方面。因此,為了全面挖掘這些數(shù)據(jù)中的信息,分析人類的態(tài)度、情感和傾向,有必要建立一個(gè)能夠感知和理解諷刺意義的諷刺檢測系統(tǒng)[1]。此外,用戶在平臺(tái)上的表達(dá)形式已不局限于文本,圖文的結(jié)合往往能夠更貼切地表達(dá)個(gè)人的情感[2,3],因此僅針對(duì)文本進(jìn)行諷刺檢測已經(jīng)不足以區(qū)分用戶的真實(shí)想法,在多模態(tài)下識(shí)別諷刺有助于檢測帖子字面意義和真實(shí)意圖之間的不一致性。然而,由于圖像和文本處于不同的特征空間,多模態(tài)諷刺檢測面臨著一個(gè)挑戰(zhàn),即如何對(duì)齊和融合文本和圖像模態(tài)的特征,以識(shí)別諷刺性表達(dá)中的情感矛盾。
目前的多模態(tài)諷刺檢測研究中,有的研究方法通過直接串聯(lián)圖像模態(tài)和文本模態(tài)的特征來學(xué)習(xí)不一致的表達(dá)[4]。另有一些則利用注意力機(jī)制來融合不同模態(tài)之間的特征[5~7],或者采用模態(tài)內(nèi)、模態(tài)間的交互圖[1,8,9]對(duì)不同模態(tài)間的關(guān)系進(jìn)行建模。盡管現(xiàn)有研究工作已取得較大進(jìn)展,但這些方法仍然具有以下局限性:僅以微觀視角考慮每個(gè)圖像塊和文本詞元的一致性水平,且只在粗略層面上學(xué)習(xí)文本和圖像間的關(guān)系。對(duì)于微觀層面而言,諷刺可能通過圖像局部區(qū)域或物體與文本中單詞或短語含義的不協(xié)調(diào)性來傳達(dá),如圖1(a)所示,圖像中“99+”的通知量與文本的“l(fā)ittle”形成鮮明的對(duì)比。然而,在一些情況下,圖像和文本中隱含的感情可能在整體上完全相反,如圖1(b)所示。在這種情況下,有必要探索宏觀層面上的語義,在不同層次上(即圖像和文本的組成結(jié)構(gòu))考慮文本與圖像間更復(fù)雜的情感交互,以識(shí)別更復(fù)雜的不一致性。
此外,已有一些研究工作探索了對(duì)比學(xué)習(xí)在多模態(tài)領(lǐng)域的應(yīng)用。這些研究利用對(duì)比學(xué)習(xí)方法來對(duì)齊文本和視覺信息[10],或?qū)D對(duì)比學(xué)習(xí)應(yīng)用于推薦系統(tǒng)[11]或情感分析上[12]。然而,關(guān)于利用對(duì)比學(xué)習(xí)在諷刺檢測研究中提高模型提取具有辨別性特征能力的工作仍較缺乏。對(duì)比學(xué)習(xí)可以通過減小類內(nèi)差異并增大類間差異,提升模型提取辨別性特征的能力;同時(shí)使多模態(tài)數(shù)據(jù)表征具有特征不變性,幫助減少模態(tài)內(nèi)的錯(cuò)誤相關(guān)性。例如,對(duì)于句子“作業(yè)是我生日最好的禮物”和“我收到的最好的生日禮物是家庭作業(yè)”,諷刺性體現(xiàn)在“作業(yè)”和“最好的禮物”上。盡管其他詞語和句式發(fā)生了改變,但關(guān)鍵詞傳達(dá)的諷刺意味并沒有改變,如果模型能夠?qū)W習(xí)到這些諷刺的共同特征,就能夠提高模型的性能。
因此,本文提出了一種基于對(duì)比學(xué)習(xí)和跨模態(tài)分層交互網(wǎng)絡(luò)的方法CMHICL(cross-modal hierarchical interaction network and contrastive learning),用于多模態(tài)諷刺檢測任務(wù)。其中,跨模態(tài)分層交互網(wǎng)絡(luò)CMHI(cross-modal hierarchical interaction network)包括最小單元對(duì)齊模塊MUAM(minimum unit alignment module)和組成結(jié)構(gòu)融合模塊CSFM(compose structural fusion module),最小單元指的是單個(gè)詞元和單個(gè)圖像塊之間的對(duì)齊,組成結(jié)構(gòu)級(jí)是指一系列詞元和一系列圖像塊之間的對(duì)齊。這兩個(gè)模塊分別基于交叉注意力機(jī)制和圖注意力網(wǎng)絡(luò),計(jì)算最小單元對(duì)齊度分?jǐn)?shù)和組成結(jié)構(gòu)的融合度分?jǐn)?shù),從微觀和宏觀兩個(gè)角度學(xué)習(xí)圖像和文本模態(tài)間的交互,識(shí)別不同模態(tài)之間的不一致性。此外,本文還提出了基于多模態(tài)的數(shù)據(jù)增強(qiáng)MBDA(multimodal-based data augmentation)和類別增強(qiáng)MBCA(multimodal-based category augmentation)的對(duì)比學(xué)習(xí)CL(contrastive learning)任務(wù),通過MBCA幫助模型提取與諷刺類別相關(guān)的特征,并通過MBDA提升模型對(duì)數(shù)據(jù)中不變特征的學(xué)習(xí)能力。
本文的主要貢獻(xiàn)包括三個(gè)方面:a)提出了CMHI方法,其在微觀和宏觀層面上考慮圖像和文本間的交互,識(shí)別語義上的不一致性。CMHI方法使用基于交叉注意力機(jī)制的模塊MUAM識(shí)別圖像與文本在最小單元上的差異性,并利用基于圖注意力網(wǎng)絡(luò)的模塊CSFM學(xué)習(xí)圖像整體和文本上下文的不協(xié)調(diào)性。b)設(shè)計(jì)了MBDA和MBCA兩個(gè)對(duì)比學(xué)習(xí)任務(wù)。MBDA通過數(shù)據(jù)增強(qiáng)擴(kuò)充了樣本數(shù)量,并在訓(xùn)練過程中增強(qiáng)了模型對(duì)樣本的辨識(shí)能力;MBCA通過樣本的標(biāo)簽,在訓(xùn)練過程中動(dòng)態(tài)地減小了類內(nèi)差異并增大類間差異。c)在公開的多模態(tài)諷刺檢測基準(zhǔn)數(shù)據(jù)集上進(jìn)行一系列實(shí)驗(yàn),結(jié)果表明,與已有方法相比,本文方法具有更優(yōu)秀、更穩(wěn)定的性能。另外,本文通過消融實(shí)驗(yàn)驗(yàn)證了本文CMHI和CL方法的有效性和必要性。
1 相關(guān)工作
1.1 諷刺檢測
近年來,許多研究采用基于深度神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行文本的諷刺檢測。Poria 等人[13]首先設(shè)計(jì)了基于預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的模型,用于提取情感和個(gè)性特征來進(jìn)行諷刺檢測。Tay 等人[14]提出了一種基于注意力的神經(jīng)網(wǎng)絡(luò)模型,對(duì)上下文的不相似性進(jìn)行建模。文獻(xiàn)[15]在編碼器-解碼器架構(gòu)中引入了注意力機(jī)制,并采用三種不同的方法分別探索每種注意機(jī)制對(duì)諷刺釋義的影響??紤]到單一模態(tài)數(shù)據(jù)對(duì)檢測諷刺情感的準(zhǔn)確性會(huì)受限,越來越多的研究工作使用多模態(tài)數(shù)據(jù)分析諷刺情感。
與純文本的諷刺檢測不同,基于多模態(tài)數(shù)據(jù)的諷刺檢測旨在識(shí)別融合多種模態(tài)數(shù)據(jù)情況下的諷刺情緒[16]。Schifanella 等人[4]首次定義了多模態(tài)諷刺檢測任務(wù),并通過設(shè)計(jì)文本和視覺特征來處理基于文本模態(tài)和圖像模態(tài)的諷刺檢測任務(wù)。Cai 等人[5]創(chuàng)建了一個(gè)基于Twitter的多模態(tài)諷刺檢測數(shù)據(jù)集,并提出了一種分層融合模型用于解決多模態(tài)諷刺檢測任務(wù)。Pan 等人[6]設(shè)計(jì)了一種同時(shí)關(guān)注模態(tài)間和模態(tài)內(nèi)不一致性的模型,利用注意力機(jī)制捕捉模態(tài)間的不一致性。此外,Liang 等人[1]提出了一種基于圖的方法,為每個(gè)多模態(tài)示例構(gòu)建異構(gòu)的模態(tài)內(nèi)和跨模態(tài)圖,以確定模態(tài)內(nèi)和跨不同模態(tài)的情感不一致,并且在此基礎(chǔ)上設(shè)計(jì)了一個(gè)跨模態(tài)圖卷積網(wǎng)絡(luò),利用重要的視覺信息和情感線索來感知模態(tài)之間的不一致關(guān)系。Liu 等人[17]提出了在分層模型中加入圖像標(biāo)題等外部知識(shí)資源,以增強(qiáng)模型諷刺檢測的性能。
1.2 多模態(tài)數(shù)據(jù)融合
由于多模態(tài)數(shù)據(jù)融合對(duì)諷刺檢測任務(wù)起到重要作用,有多項(xiàng)工作研究了不同數(shù)據(jù)模態(tài)間的融合方法。Zadeh 等人[18]首次提出了一種張量融合網(wǎng)絡(luò)模型,實(shí)現(xiàn)雙模態(tài)和三模態(tài)特征的交互。基于對(duì)模態(tài)之間的細(xì)粒度交互的關(guān)注,Chen等人[19]提出基于詞級(jí)的多模態(tài)融合方法,包含門控多模態(tài)嵌入和具有時(shí)間關(guān)注度的LSTM(long short-term memory)兩部分。Wu 等人[20]提出了以文本為中心的共享私有框架用于多模態(tài)融合,以文本模態(tài)為核心,通過其他兩種模態(tài)增強(qiáng)文本的語義。受Pan等人[6]啟發(fā),Xu等人[7]通過構(gòu)建分解和關(guān)系網(wǎng)絡(luò)對(duì)跨模態(tài)對(duì)比和語義關(guān)聯(lián)進(jìn)行建模。李麗等人[21]采用了圖神經(jīng)網(wǎng)絡(luò)的消息傳遞機(jī)制實(shí)現(xiàn)多模態(tài)特征融合。
然而,上述工作存在一個(gè)不足之處,即缺乏在多模態(tài)數(shù)據(jù)不同層次上的交互,以及在宏觀層面上對(duì)語義結(jié)構(gòu)的深入探索。為了解決上述局限性,本文提出了跨模態(tài)分層交互網(wǎng)絡(luò)(CMHI),其使用交叉注意力機(jī)制和圖注意力網(wǎng)絡(luò)去捕捉圖像和文本在不同層面上的對(duì)齊和融合。
1.3 對(duì)比學(xué)習(xí)
自監(jiān)督學(xué)習(xí)是一種無須人工標(biāo)注標(biāo)簽的學(xué)習(xí)方法,在自然語言處理、計(jì)算機(jī)視覺和語音處理等領(lǐng)域取得了重大進(jìn)展。在計(jì)算機(jī)視覺領(lǐng)域,SimCLR[22]作為簡單的視覺表征對(duì)比學(xué)習(xí)框架被提出,在表征和對(duì)比損失之間引入可學(xué)習(xí)的非線性轉(zhuǎn)換。在MoCo[23]這個(gè)項(xiàng)目中,研究人員以對(duì)比學(xué)習(xí)為出發(fā)點(diǎn),構(gòu)建了一個(gè)具有隊(duì)列和移動(dòng)平均編碼器的動(dòng)態(tài)字典,這一方法使得所學(xué)到的表征能夠更好地遷移到下游任務(wù)中。在自然語言處理領(lǐng)域,ConSERT[24]和SimCSE[25]將對(duì)比學(xué)習(xí)應(yīng)用于句子表征學(xué)習(xí),并取得了較高的性能。對(duì)比學(xué)習(xí)在多模態(tài)領(lǐng)域也得到了廣泛應(yīng)用,如Clip[26]利用圖片-文本對(duì)進(jìn)行對(duì)比學(xué)習(xí)訓(xùn)練,預(yù)訓(xùn)練后,用自然語言來引用已學(xué)過的視覺概念,從而將模型遷移到下游任務(wù)中;UNIMO[10]通過跨模態(tài)對(duì)比學(xué)習(xí),將文本和視覺信息對(duì)齊到一個(gè)統(tǒng)一的語義空間,并且能夠利用大規(guī)模數(shù)據(jù)學(xué)習(xí)更通用的表征。在多模態(tài)情感分析的工作中,Lin 等人[12]提出了一種層次圖對(duì)比學(xué)習(xí)(HGraph-CL)框架,加入圖對(duì)比學(xué)習(xí)策略,探索基于圖增強(qiáng)的更合適的圖結(jié)構(gòu)。
然而,為了幫助系統(tǒng)學(xué)習(xí)更富有判別性的特征表示,對(duì)比學(xué)習(xí)在諷刺檢測任務(wù)中應(yīng)用,以實(shí)現(xiàn)這一目標(biāo)的可能性仍然缺乏深入的探索。對(duì)此,本文將提出的基于多模態(tài)的數(shù)據(jù)增強(qiáng)(MBDA)和類別增強(qiáng)(MBCA)兩個(gè)對(duì)比學(xué)習(xí)方法集成于模型的訓(xùn)練中,幫助提高模型性能。
2 CMHICL模型
在本文模型包括了圖像、文本的特征提取編碼器,以及用于信息融合的跨模態(tài)分層交互模塊。首先,用于提取圖像、網(wǎng)絡(luò)特征的骨干網(wǎng)絡(luò)分別學(xué)習(xí)各自的高維表征。然后,在通過交叉注意力機(jī)制(cross-attention mechanism)進(jìn)行跨模態(tài)特征對(duì)齊后,計(jì)算矩陣內(nèi)積得到最小單元的對(duì)齊度分?jǐn)?shù)。接下來,將最小單元模塊的輸出作為圖注意力網(wǎng)絡(luò)的輸入,分別得到圖像和文本模態(tài)的結(jié)構(gòu)表示,并計(jì)算兩個(gè)模態(tài)的融合度分?jǐn)?shù)。模型可通過基于多模態(tài)的數(shù)據(jù)增強(qiáng)(MBDA)和類別增強(qiáng)(MBCA)的對(duì)比學(xué)習(xí)訓(xùn)練任務(wù)去擬合多模態(tài)的數(shù)據(jù)分布,具體過程如圖2所示。
2.1 文本模態(tài)表示
文本模態(tài)的處理中,對(duì)于給定的單詞序列s={wi}ni=1,采用預(yù)訓(xùn)練BERT模型[27]和一個(gè)額外的多層感知器(MLP)提取文本特征,得到詞級(jí)別的上下文表示,并解決一詞多義的問題.每個(gè)詞wi被映射成d維的詞向量表示:
4 實(shí)驗(yàn)
4.1 數(shù)據(jù)集
實(shí)驗(yàn)中,本文采用了文獻(xiàn)[5]公開可用的多模態(tài)諷刺檢測基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集是基于Twitter網(wǎng)站中用戶發(fā)表的評(píng)論構(gòu)建的,每個(gè)示例包含一個(gè)圖像和對(duì)應(yīng)的文本,并且每個(gè)圖像-文本對(duì)都有單獨(dú)的情感標(biāo)注。其中,標(biāo)簽為1表示情感值為諷刺性,并包含一些話題標(biāo)簽(比如:#sarcasm,#joking 等);標(biāo)簽為0表示情感值為非諷刺性,不包含以上話題標(biāo)簽。此外,本文采用了與文獻(xiàn)[5]相同的數(shù)據(jù)預(yù)處理方法,將數(shù)據(jù)集按照8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測試集,數(shù)據(jù)集的詳細(xì)數(shù)據(jù)如表1所示。
4.2 實(shí)驗(yàn)設(shè)置及評(píng)價(jià)指標(biāo)
本文使用了spaCy提取文本中詞元之間的依賴關(guān)系,并采用BERT-base-uncased[27]和ViT模型[28]獲取文本和圖像的嵌入。對(duì)于圖像預(yù)處理,首先將圖像的尺寸調(diào)整為224×224,然后將其劃分為32×32的圖像塊,即r=49。模型訓(xùn)練方面,本文采用了Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為2E-5,權(quán)重衰減為5E-3,批量大小為64,并使用了早停機(jī)制避免過擬合。式(16)中的系數(shù)λMBDA和λMBCA都設(shè)置為1.0。將多頭交叉注意力機(jī)制的頭數(shù)設(shè)置為2,其層數(shù)為3,圖注意力網(wǎng)絡(luò)的層數(shù)設(shè)置為1,在5.4節(jié)中將對(duì)關(guān)鍵超參數(shù)的取值影響展開實(shí)驗(yàn)分析。本實(shí)驗(yàn)使用了準(zhǔn)確率(Acc)、精確率(Pre)、召回率(Rec)和F1值作為評(píng)價(jià)指標(biāo)。
4.3 對(duì)比模型
本文將基線模型分為文本模態(tài)模型、圖像模態(tài)模型和多模態(tài)模型三種類型,用于與CMHICL進(jìn)行比較。
對(duì)于文本模態(tài)模型,僅使用文本數(shù)據(jù)進(jìn)行諷刺檢測。TextCNN[32]是一種用于文本數(shù)據(jù)的基于CNN的深度學(xué)習(xí)網(wǎng)絡(luò);Bi-LSTM結(jié)合了兩個(gè)LSTM層,在處理長序列數(shù)據(jù)時(shí)表現(xiàn)出色,用于處理文本時(shí),能夠捕捉句子中最重要的語義信息;SIARN[14]采用了多維內(nèi)部注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行諷刺檢測;SMSD[33]使用自匹配網(wǎng)絡(luò)捕獲句子中的語義不一致信息;BERT[26]是一種基于Transformer-encoder的預(yù)訓(xùn)練語言模型,通過在大規(guī)模無標(biāo)簽數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,可以捕捉詞語、短語和句子之間的語義關(guān)系。
對(duì)于圖像模態(tài)模型,僅使用圖像數(shù)據(jù)進(jìn)行諷刺檢測。Image模型[5]使用ResNet[34]的池化層之后的圖像向量來預(yù)測諷刺檢測;ViT[28]利用Transformer架構(gòu)和自注意力機(jī)制,使得模型能夠從圖像中獲取全局的上下文信息;ConvNeXt[35]是一種基于CNN的模型,在圖像處理方面取得了先進(jìn)的性能。
對(duì)于多模態(tài)模型,則同時(shí)使用文本數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行多模態(tài)諷刺檢測。HFM[5]提出一個(gè)新的分層融合框架模型來處理多模態(tài)諷刺檢測任務(wù);近來提出的模型,如D&R Net[7]、Res-BERT[6]、Att-BERT[6],都是基于注意力機(jī)制;InCrossMGs[1]和CMGCN[8]是基于圖神經(jīng)網(wǎng)絡(luò)的模型;HKEmodel[17]將圖像標(biāo)題作為外部知識(shí)資源資源加入其分層模型中,用于提高諷刺檢測的性能。
5 結(jié)果
5.1 諷刺檢測任務(wù)結(jié)果
表2展示了本文模型與基準(zhǔn)模型在性能上的比較結(jié)果。在諷刺檢測任務(wù)中的實(shí)驗(yàn)結(jié)果表明,首先,基于文本模態(tài)的方法在性能上優(yōu)于基于圖像的方法,這表明文本中包含更多的諷刺性語義信息,具有更高的信息量。其次,多模態(tài)的方法在性能上優(yōu)于單模態(tài)的方法,證明圖像和文本的不一致性能夠更好地表達(dá)諷刺性信息。同時(shí),在多模態(tài)任務(wù)中,使用注意力機(jī)制的模型,如D&R Net[7]、Res-BERT[6]、Att-BERT[6],以及引入圖神經(jīng)網(wǎng)絡(luò)方法的模型,如InCrossMGs[1]和CMGCN[8],在性能上取得了更好的效果。與HKEmodel[17]相比,本文模型在準(zhǔn)確率(Acc)上提升了0.81百分點(diǎn),在精確率(Pre)上提升了4.67百分點(diǎn),在F1值上提升了1.6百分點(diǎn)。這表明本文模型通過識(shí)別圖像和文本在局部區(qū)域和全局上的不協(xié)調(diào)性,并結(jié)合數(shù)據(jù)增強(qiáng)和標(biāo)簽增強(qiáng)的對(duì)比學(xué)習(xí)任務(wù),在諷刺檢測任務(wù)上取得了更好的性能。此外,本文模型優(yōu)于使用外部知識(shí)的HKEmodel,進(jìn)一步驗(yàn)證了分層模塊與對(duì)比學(xué)習(xí)的結(jié)合在捕獲圖像和文本間的跨模態(tài)不一致性方面的優(yōu)越性和有效性。
5.2 消融實(shí)驗(yàn)結(jié)果
本文為了進(jìn)一步驗(yàn)證模型中各個(gè)模塊的有效性,進(jìn)行了多組消融實(shí)驗(yàn),包括:a)去除最小單元對(duì)齊模塊(w/o MUAM);b)去除組成結(jié)構(gòu)融合模塊(w/o CSFM);c)去除數(shù)據(jù)增強(qiáng)模塊(w/o MBDA);d)去除標(biāo)簽增強(qiáng)模塊(w/o MBCA);e)去除對(duì)比學(xué)習(xí)訓(xùn)練任務(wù)(w/o CL)。
實(shí)驗(yàn)結(jié)果如表3所示,從表中可看出,當(dāng)組合所有模塊時(shí),模型取得了最佳性能。從w/o MUAM和w/o CSFM的結(jié)果中可以觀察到,去除組成結(jié)構(gòu)融合模塊(w/o CSFM)會(huì)導(dǎo)致性能顯著下降,這表明在宏觀層面上捕捉文本的語義依賴和圖像的空間關(guān)系及結(jié)構(gòu)對(duì)于識(shí)別文本模態(tài)和圖像模態(tài)的不一致性起到更重要的作用,能夠有效地檢測諷刺。此外,去除對(duì)比學(xué)習(xí)模塊(w/o CL)也導(dǎo)致性能下降,說明對(duì)比學(xué)習(xí)在諷刺檢測任務(wù)中具有有效性。特別是在去除類別增強(qiáng)模塊(w/o MBCA)時(shí),模型性能大幅下降,這證明類別增強(qiáng)能夠引導(dǎo)模型更有效地學(xué)習(xí)諷刺的共同特征,增大類間方差,使不同情感類別的樣本相互遠(yuǎn)離。去除數(shù)據(jù)增強(qiáng)模塊(w/o MBDA)會(huì)導(dǎo)致輕微的性能下降,這表明數(shù)據(jù)增強(qiáng)能夠減少模態(tài)內(nèi)的錯(cuò)誤相關(guān)性,增加模型對(duì)于噪聲和變化的魯棒性,從而提高諷刺檢測的性能。
5.3 不同圖像、文本骨干網(wǎng)絡(luò)的影響
預(yù)jfYLFbKVANBT+X4AZeUR/g==訓(xùn)練編碼器的影響:為了研究本文CMHICL與不同預(yù)訓(xùn)練編碼器搭配使用的效果,并進(jìn)一步分析使用BERT和ViT作為文本和圖像的預(yù)訓(xùn)練編碼器的原因,設(shè)置了以下變體,實(shí)驗(yàn)結(jié)果如圖4所示。
a)BERT+ResNet:用BERT作為文本編碼器,將ViT替換為ResNet-152,將每個(gè)圖像塊嵌入為2 048維向量。
b)RoBERTa+ViT:用RoBERTa替換BERT作為文本編碼器,使用ViT作為圖像編碼器。
c)RoBERTa+ResNet:使用RoBERTa和ResNet編碼器替換BERT和ViT編碼器。
通過實(shí)驗(yàn)結(jié)果的觀察,可以得出結(jié)論:基于BERT和ViT的CMHICL模型在準(zhǔn)確率和F1值方面表現(xiàn)出色。BERT和ViT都是經(jīng)過大規(guī)模預(yù)訓(xùn)練的模型,使用強(qiáng)大的預(yù)訓(xùn)練模型作為文本和圖像編碼器可以獲得更好的節(jié)點(diǎn)表示,從而實(shí)現(xiàn)更好的聚合和性能。同時(shí),它們在各自領(lǐng)域取得了顯著的成果。BERT在自然語言處理任務(wù)中表現(xiàn)出色,ViT在計(jì)算機(jī)視覺任務(wù)中也取得了很好的效果。因此,將它們作為CMHICL的編碼器可以充分利用它們在文本和圖像領(lǐng)域的優(yōu)勢,提高模型的性能和泛化能力。
5.4 關(guān)鍵超參數(shù)的影響
為了對(duì)比不同超參數(shù)的取值對(duì)模型性能的影響,本節(jié)比較了模型在不同的MCA頭數(shù)、MCA層數(shù)以及GAT層數(shù)下諷刺檢測任務(wù)的結(jié)果??紤]MUAM中MCA不同頭數(shù)的影響,取MCA頭數(shù)為1~6,驗(yàn)證其頭數(shù)對(duì)模型性能的影響,結(jié)果如圖5(a)所示。當(dāng)MCA頭數(shù)為2時(shí),模型性能最佳。在此之后,隨著頭數(shù)的增加,性能有所下降。原因可能是:a)注意力頭數(shù)的增加不適用于多模態(tài)諷刺檢測任務(wù)中捕捉文本與對(duì)應(yīng)圖像間的關(guān)聯(lián)信息,并且可能導(dǎo)致模型在訓(xùn)練集上過擬合;b)不同模態(tài)的數(shù)據(jù)之間存在復(fù)雜的關(guān)聯(lián),而增加注意力頭數(shù)可能導(dǎo)致模型過度關(guān)注多模態(tài)數(shù)據(jù)中的局部信息,使得在最小單元對(duì)齊時(shí)忽略了全局關(guān)聯(lián)信息。
考慮在MUAM中MCA層數(shù)的影響,本文將MCA層數(shù)取1~8,以驗(yàn)證其層數(shù)對(duì)模型性能的影響,實(shí)驗(yàn)結(jié)果如圖5(b)所示。在層數(shù)從1~3逐漸增加的過程中,準(zhǔn)確率和F1值呈現(xiàn)上升的趨勢,達(dá)到了最佳性能。然而,隨著層數(shù)進(jìn)一步增加,模型的性能開始下降。這可能是因?yàn)樵谧钚卧獙?duì)齊模塊中,交叉注意力機(jī)制在前三層已經(jīng)學(xué)習(xí)到了重要的信息,而后續(xù)層可能過度擬合了噪聲或無關(guān)信息,導(dǎo)致性能下降。
對(duì)于CSFM中GAT層數(shù)的影響,本文將GAT層數(shù)分別設(shè)置為1~4,實(shí)驗(yàn)結(jié)果如圖5(c)所示。結(jié)果表明,當(dāng)文本和圖像都使用一層圖注意力網(wǎng)絡(luò)時(shí),模型達(dá)到最佳的性能。然而,隨著層數(shù)的增加,模型的性能逐漸下降。這里分析原因可能如下:a)GAT模型層數(shù)過多時(shí),節(jié)點(diǎn)間的注意力權(quán)重可能會(huì)逐漸趨于相似,導(dǎo)致節(jié)點(diǎn)之間差異性減小,失去自身的特性,導(dǎo)致產(chǎn)生過平滑問題;b)過深的GAT模型可能會(huì)記住訓(xùn)練集中的一些異常樣本或噪聲,而無法泛化到測試集上,導(dǎo)致性能下降。
5.5 諷刺情感樣本聚類可視化
為了驗(yàn)證對(duì)比學(xué)習(xí)是否能夠幫助模型學(xué)習(xí)更多隱含在多模態(tài)數(shù)據(jù)中與諷刺相關(guān)的共同特征,本文實(shí)施了樣本聚類的可視化。在實(shí)驗(yàn)中,提取模型最后一層的數(shù)據(jù)特征向量進(jìn)行可視化降維,使用t-SNE方法[36]將高維向量轉(zhuǎn)換為二維向量,降維結(jié)果如圖6所示。圖6(a)是提取經(jīng)過CMHI網(wǎng)絡(luò)后的特征向量進(jìn)行降維得到的,圖6(b)是CMHICL模型輸出的結(jié)果可視化。從圖中可以看出,當(dāng)去除對(duì)比學(xué)習(xí)模塊時(shí),數(shù)據(jù)分散在向量空間中,且有大量的重疊,表明模型難以區(qū)分不同諷刺情感的樣本;圖6(b)加入對(duì)比學(xué)習(xí)后,可以發(fā)現(xiàn)諷刺類數(shù)據(jù)全部聚集在中間部分,即相同情感數(shù)據(jù)的聚合程度更明顯,而諷刺情感和非諷刺情感在向量空間中拉開了更大的距離。這說明加入對(duì)比學(xué)習(xí)能夠幫助模型學(xué)習(xí)同一諷刺情感的共同特征,據(jù)此將向量空間中的數(shù)據(jù)進(jìn)行分類,拉近類內(nèi)距離,增大類間差距,提升多模態(tài)高級(jí)表征的辨別性,進(jìn)一步證明了本文CMHICL在多模態(tài)諷刺檢測任務(wù)上的有效性。
5.6 案例分析
為了證明本文所提分層交互網(wǎng)絡(luò)的有效性,本節(jié)選取Twitter數(shù)據(jù)集中的一組圖像和文本作為案例,如圖7所示,其中文本內(nèi)容為“感謝你安全地投遞我的包裹 #新的投遞方式”(譯文),若僅從文本的角度看,該句話并未表達(dá)出諷刺意味;然而,由于圖像中的包裹是裸露在外的,與文本表達(dá)意思相反,因此本文CMHICL在將圖像和文本的信息融合后,成功檢測出該例子呈現(xiàn)諷刺意味。進(jìn)一步地,將該圖像-文本對(duì)輸入MUAM和CSFM模塊后分別得到的最小單元對(duì)齊度分?jǐn)?shù)Mu以及組成結(jié)構(gòu)融合度分?jǐn)?shù)Mc進(jìn)行可視化,得到對(duì)應(yīng)的一致性分?jǐn)?shù)圖,若數(shù)值越小,則說明圖像與文本的一致性越低,檢測出諷刺意味的可能性越大。從最小單元對(duì)齊模塊可視化圖可發(fā)現(xiàn),圖像中包裹的對(duì)應(yīng)區(qū)域(紅框區(qū)域)的一致性分?jǐn)?shù)較高,無法準(zhǔn)確地判斷出諷刺意味;而組成結(jié)構(gòu)融合模塊降低了包裹對(duì)應(yīng)區(qū)域的融合度分?jǐn)?shù),并且區(qū)域更為集中,凸顯出包裹區(qū)域與文本在諷刺檢測中的低一致性。這表明,組成結(jié)構(gòu)融合模塊能夠識(shí)別文本和圖像更復(fù)雜的結(jié)構(gòu),從整體宏觀的角度關(guān)注圖片與文本的不一致性,彌補(bǔ)最小單元對(duì)齊模塊的片面性,全面、綜合地建立多模態(tài)融合表征與諷刺意圖標(biāo)簽的映射,提高了模型檢測多模態(tài)諷刺情感的性能。
6 結(jié)束語
本文提出了一種用于多模態(tài)諷刺檢測的對(duì)比學(xué)習(xí)和跨模態(tài)分層網(wǎng)絡(luò)。其采用了交叉注意力機(jī)制和圖注意力網(wǎng)絡(luò),分別從最小單元層面和組成結(jié)構(gòu)層面對(duì)圖像和文本模態(tài)進(jìn)行對(duì)齊和融合,從而學(xué)習(xí)多模態(tài)數(shù)據(jù)之間更復(fù)雜的關(guān)系。此外,為了減少模態(tài)內(nèi)的錯(cuò)誤相關(guān)性,并識(shí)別與諷刺相關(guān)的共同特征,本文設(shè)計(jì)了基于多模態(tài)數(shù)據(jù)增強(qiáng)和類別增強(qiáng)的對(duì)比學(xué)習(xí)任務(wù)。實(shí)驗(yàn)結(jié)果表明,本文模型相比多個(gè)基線模型具有競爭力和有效性。此外,本文模型仍存在以下局限性:a)基于類別增強(qiáng)的對(duì)比學(xué)習(xí)方法仍需要借助類別標(biāo)簽的監(jiān)督信號(hào),考慮到在多媒體數(shù)據(jù)中精準(zhǔn)采集標(biāo)簽的巨大成本,后續(xù)工作將嘗試采用自監(jiān)督學(xué)習(xí)的方法,幫助系統(tǒng)學(xué)習(xí)到更具有判別性的特征表示;b)本文模型未考慮外部知識(shí)中包含的豐富信息,后續(xù)工作中將從圖像中提取圖像標(biāo)題、形容詞-名詞對(duì)(ANPs)等信息進(jìn)一步輔助諷刺檢測任務(wù);c)目前方法僅針對(duì)圖像和文本兩個(gè)模態(tài)的數(shù)據(jù),在未來工作中將把其他模態(tài)數(shù)據(jù)如音頻、視頻、人體生理數(shù)據(jù)等納入諷刺檢測任務(wù)中,以進(jìn)一步豐富模型的多模態(tài)數(shù)據(jù)分析能力。此外,在單一模態(tài)數(shù)據(jù)缺失情況下的多模態(tài)諷刺檢測任務(wù)也值得深入探討。
參考文獻(xiàn):
[1]Liang Bin,Lou Chenwei,Li Xiang,et al. Multi-modal sarcasm detection with interactive in-modal and cross-modal graphs[C]// Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press,2021: 4707-4715.
[2]Zhang Dong,Li Shoushan,Zhu Qiaoming,et al. Effective sentiment-relevant word selection for multi-modal sentiment analysis in spoken language[C]// Proc of the 27th ACM International Conference on Multimedia. New York: ACM Press,2019: 148-156.
[3]Zhang Dong,Wei Suzhong,Li Shoushan,et al. Multi-modal graph fusion for named entity recognition with targeted visual guidance[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press,2021: 14347-14355.
[4]Schifanella R,De Juan P,Tetreault J,et al. Detecting sarcasm in multimodal social platforms[C]// Proc of the 24th ACM International Conference on Multimedia. New York: ACM Press,2016: 1136-1145.
[5]Cai Yitao,Cai Huiyu,Wan Xiaojun. Multi-modal sarcasm detection in twitter with hierarchical fusion model[C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2019: 2506-2515.
[6]Pan Hongliang,Lin Zheng,F(xiàn)u Peng,et al. Modeling intra and inter-modality incongruity for multi-modal sarcasm detection[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2020: 1383-1392.
[7]Xu Nan,Zeng Zhixiong,Mao Wenji. Reasoning with multimodal sarcastic tweets via modeling cross-modality contrast and semantic association[C]// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2020: 3777-3786.
[8]Liang Bin,Lou Chenwei,Li Xiang,et al. Multi-modal sarcasm detection via cross-modal graph convolutional network[C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2022: 1767-1777.
[9]余本功,季曉晗. 基于ADGCN-MFM的多模態(tài)諷刺檢測研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2023,7(10): 85-94. (Yu Bengong,Ji Xiaohan. Research on multimodal sarcasm detection based on ADGCN-MFM[J]. Data Analysis and knowledge Discovery,2023,7(10): 85-94.)
[10]Li Wei,Gao Can,Niu Guocheng,et al. UNIMO: towards unified-modal understanding and generation via cross-modal contrastive learning[C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2021: 2592-2607.
[11]Liu Kang,Xue Feng,Guo Dan,et al. Multimodal graph contrastive learning for multimedia-based recommendation[J]. IEEE Trans on Multimedia,2023,25: 9343-9355.
[12]Lin Zijie,Liang Bin,Long Yunfei,et al. Modeling intra-and inter-modal relations: hierarchical graph contrastive learning for multimodal sentiment analysis[C]// Proc of the 29th International Conference on Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2022: 7124-7135.
[13]Poria S,Cambria E,Hazarika D,et al. A deeper look into sarcastic tweets using deep convolutional neural networks[C]// Proc of the 26th International Conference on Computational Linguistics. StpFZ7tEqXRa4YJgAFQ5ZaQZJW1eET/6YTp5JqKOPnmD4=roudsburg,PA: Association for Computational Linguistics,2016: 1601-1612.
[14]Tay Y,Tuan L A,Hui S C,et al. Reasoning with sarcasm by reading in between[C]// Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2018: 1010-1020.
[15]Keivanlou-Shahrestanaki Z,Kahani M,Zarrinkalam F. Interpreting sarcasm on social media using attention-based neural networks[J]. Knowledge-Based Systems,2022,258: 109977.
[16]Joshi A,Sharma V,Bhattacharyya P. Harnessing context incongruity for sarcasm detection[C]// Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2015: 757-762.
[17]Liu Hui,Wang Wenya,Li Haoliang. Towards multi-modal sarcasm detection via hierarchical congruity modeling with knowledge enhancement[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2022: 4995-5006.
[18]Zadeh A,Chen Minghai,Poria S,et al. Tensor fusion network for multimodal sentiment analysis[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2017: 1103-1114.
[19]Chen Minghai,Wang Sen,Liang P P,et al. Multimodal sentiment analysis with word-level fusion and reinforcement learning[C]// Proc of the 19th ACM International Conference on Multimodal Interaction. New York: ACM Press,2017: 163-171.
[20]Wu Yang,Lin Zijie,Zhao Yanyan,et al. A text-centered shared-private framework via cross-modal prediction for multimodal sentiment analysis[C]// Proc of Findings of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2021: 4730-4738.
[21]李麗,李平. 基于交互圖神經(jīng)網(wǎng)絡(luò)的方面級(jí)多模態(tài)情感分析[J]. 計(jì)算機(jī)應(yīng)用研究,2023,40(12): 3683-3689. (Li Li,Li Ping. Aspect-level multimodal sentiment analysis based on interaction graph neural network[J]. Application Research of Computers,2023,40(12): 3683-3689.)
[22]Chen Ting,Kornblith S,Norouzi M,et al. A simple framework for contrastive learning of visual representations[C]// Proc of the 37th International Conference on Machine Learning. [S.l.]: JMLR.org,2020: 1597-1607.
[23]He Kaiming,F(xiàn)an Haoqi,Wu Yuxin,et al. Momentum contrast for unsupervised visual representation learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 9729-9738.
[24]Yan Yuanmeng,Li Rumei,Wang Sirui,et al. ConSERT: a contrastive framework for self-supervised sentence representation transfer[C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2021: 5065-5075.
[25]Gao Tianyu,Yao Xingcheng,Chen Danqi. SimCSE: simple contrastive learning of sentence embeddings[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2021: 6894-6910.
[26]Radford A,Kim J W,Hallacy C,et al. Learning transferable visual models from natural language supervision[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR,2021: 8748-8763.
[27]Devlin J,Chang Mingwei,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2019: 4171-4186.
[28]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.
[29]Velikovic' P,Cucurull G,Casanova A,et al. Graph attention networks[EB/OL]. (2018-02-04). https://arxiv.org/abs/1710.10903.
[30]Edunov S,Ott M,Auli M,et al. Understanding back-translation at scale[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2018: 489-500.
[31]Cubuk E D,Zoph B,Shlens J,et al. RandAugment: practical automated data augmentation with a reduced search space[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway,NJ: IEEE Press,2020: 702-703.
[32]Kim Y. Convolutional neural networks for sentence classification[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2014: 1746-1751.
[33]Xiong Tao,Zhang Peiran,Zhu Hongbo,et al. Sarcasm detection with self-matching networks and low-rank bilinear pooling[C]// Proc of the World Wide Web Conference. New York: ACM Press,2019: 2115-2124.
[34]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.
[35]Liu Zhuang,Mao Hanzi,Wu Chaoyuan,et al. A ConvNet for the 2020s [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 11976-11986.
[36]Van der Maaten L,Hinton G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research,2008,9(11): 2579-2605.
收稿日期:2023-12-15;修回日期:2024-02-29 基金項(xiàng)目:國家自然科學(xué)基金面上項(xiàng)目(71871144)
作者簡介:林潔霞(1999—),女,廣東潮州人,碩士研究生,CCF會(huì)員,主要研究方向?yàn)樽匀徽Z言處理、多模態(tài)情感分析;朱小棟(1981—),男(通信作者),安徽太湖人,副教授,碩導(dǎo),博士,主要研究方向?yàn)閿?shù)據(jù)挖掘與深度學(xué)習(xí)、電子商務(wù)(zhuxd@usst.edu.cn).