摘要:多模態(tài)諷刺檢測(cè)是在多模態(tài)場(chǎng)景下識(shí)別用戶(hù)的諷刺言語(yǔ)?,F(xiàn)有的多模態(tài)諷刺識(shí)別方法大多對(duì)編碼之后的特征直接融合,并未關(guān)注圖像和文本的深層特征以及圖像和文本之間的交互。針對(duì)上述問(wèn)題,本文提出基于圖文交互和深層特征融合的多模態(tài)諷刺檢測(cè)框架。首先,使用具有長(zhǎng)文本能力的對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練模型(Contrastive Language-Image Pre-training" model with Long text capability,Long-CLIP),對(duì)圖像和文本進(jìn)行編碼,獲得圖像和文本的特征表示,進(jìn)一步引入跨模態(tài)注意力機(jī)制,建立圖像和文本特征之間的交互表示;其次,利用多個(gè)卷積神經(jīng)網(wǎng)絡(luò)從不同角度分別獲得圖像和文本的深層特征表示,并利用Key_less Attention"機(jī)制融合圖像和文本的深層特征;最后,通過(guò)多層感知機(jī)實(shí)現(xiàn)多模態(tài)諷刺檢測(cè)。在公開(kāi)的數(shù)據(jù)集MMSD2.0上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明所提出的方法與現(xiàn)有的最先進(jìn)的基線模型相比,Acc和F1分別提升0.33%和0.15%,表明了圖文交互及深層特征可以提升多模態(tài)諷刺檢測(cè)的性能。
關(guān)鍵詞:Long-CLIP模型;圖文融合;深層特征表示;注意力機(jī)制
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):0253-2395(2025)02-0391-09
0引言
諷刺是言語(yǔ)反諷的一種語(yǔ)言現(xiàn)象,以其固有的微妙和復(fù)雜性,在人類(lèi)交流中發(fā)揮著重要作用,人們經(jīng)常利用諷刺傳達(dá)嘲弄或隱藏的意圖或情感,對(duì)諷刺進(jìn)行檢測(cè),將有助于識(shí)別用戶(hù)隱式的真實(shí)情感和意見(jiàn)。隨著多媒體技術(shù)的發(fā)展,用戶(hù)經(jīng)常使用文字- 圖像組合來(lái)傳達(dá)他們的信息,因此,識(shí)別多模態(tài)場(chǎng)景(如文本和圖像模態(tài))中的諷刺越來(lái)越受到研究者的關(guān)注。如表1 所示,有關(guān)描述天氣的多模態(tài)諷刺圖-文示例,其中0表示非諷刺,1表示諷刺。
對(duì)于表1中僅通過(guò)文本“What a wonderfulweather!”,可以認(rèn)為是感嘆天氣很好,不具有諷刺的意味。同樣的,文本對(duì)應(yīng)的圖像是一張陰雨天的天空照片,僅通過(guò)該照片,無(wú)法識(shí)別出其中的諷刺情感。但是同時(shí)關(guān)注圖像和文本信息時(shí),文本描述的“wonderful weather”與圖像中展示的陰雨天形成反差,可以判別其具有諷刺意味。因此,建立圖像和文本之間信息的交互顯得尤為重要。
現(xiàn)有多模態(tài)反諷檢測(cè)的研究者[1-3]使用圖像和文本單獨(dú)編碼,使得模型難以捕捉文本和圖像之間復(fù)雜的交互信息,盡管Qin 等[4]利用對(duì)比語(yǔ)言- 圖像預(yù)訓(xùn)練(Contrastive" Language-Image Pre-training,CLIP)模型 [5]對(duì)反諷樣本進(jìn)行編碼,并在多模態(tài)諷刺檢測(cè)數(shù)據(jù)集(MultimodalSarcasm Detection Dataset 2.0,MMSD2.0)反諷基準(zhǔn)上獲得了不錯(cuò)的效果,但原始CLIP 僅能直接對(duì)齊文本和圖像,缺乏對(duì)于圖像和文本深層特征的利用。隨著多模態(tài)大模型的興起,也有研究者嘗試使用多模態(tài)大模型進(jìn)行多模態(tài)諷刺檢測(cè),Tang 等[6]通過(guò)微調(diào)生成式的多模態(tài)大模型的框架,取得了較好的諷刺檢測(cè)性能,但是消耗時(shí)間和硬件資源較多。
針對(duì)上述問(wèn)題,本文提出一種基于圖文交互和深層特征融合的多模態(tài)諷刺檢測(cè)方法,目的是在較低消耗的條件下,充分利用圖像和文本包含的信息,提升多模態(tài)諷刺檢測(cè)的性能。首先,對(duì)于圖文信息交互模塊,引進(jìn)交叉注意力機(jī)制,旨在通過(guò)圖像和文本之間信息的交互,使得模型可以更好地建模圖像和文本之間的相互關(guān)系。在此基礎(chǔ)上,引入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),獲取單模態(tài)的深層特征表示。然后使用構(gòu)建的注意力模塊,實(shí)現(xiàn)特征的充分融合。最后,使用多層感知機(jī)(Multilayer Perceptron,MLP),得到更高層次的抽象特征,進(jìn)一步將文本、圖像和融合特征得分相加,實(shí)現(xiàn)多模態(tài)諷刺檢測(cè)。本文提出的方法在MMSD2.0反諷數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該模型與目前最先進(jìn)的方法相比取得了較好的性能。本文的主要貢獻(xiàn)如下:
(1)本文提出了一種基于圖文交互和深層特征融合的多模態(tài)諷刺檢測(cè)方法,引入跨模態(tài)注意力機(jī)制,建立圖像和文本特征之間的交互表示,并從不同角度分別構(gòu)建了圖像和文本的深層特征表示,以充分利用圖像和文本的融合特征以及圖像和文本的單模態(tài)深層特征,提升多模態(tài)諷刺檢測(cè)的性能。
(2)本文在MMSD2.0 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明所提出的模型優(yōu)于現(xiàn)有基線模型,驗(yàn)證了本文方法的有效性。
1相關(guān)工作
傳統(tǒng)的諷刺檢測(cè)任務(wù)旨在識(shí)別用戶(hù)的情緒,并從文本中檢測(cè)是否存在諷刺[7-9]。隨著社交媒體的發(fā)展,所產(chǎn)生的多模態(tài)數(shù)據(jù)激增,多模態(tài)諷刺檢測(cè)逐漸受到人們的關(guān)注。多模態(tài)諷刺檢測(cè)的方法可以大致分為基于不同模態(tài)單獨(dú)編碼的方法、基于多模態(tài)Transformers 的方法和基于多模態(tài)大模型的方法。
基于單模態(tài)單獨(dú)編碼的方法:?jiǎn)文B(tài)單獨(dú)編碼的方法側(cè)重于為不同的模態(tài)使用不同的編碼器,再融合多模態(tài)進(jìn)行有效表示,以滿(mǎn)足模態(tài)內(nèi)部和模態(tài)之間的不一致性。Schifanella 等[10]提出的方法將編碼器提取的視覺(jué)和文本特征進(jìn)行連接,驗(yàn)證了視覺(jué)形態(tài)有助于發(fā)現(xiàn)社交媒體中的諷刺,但是他們沒(méi)有考察這種現(xiàn)象的本質(zhì),忽略了圖像和文本之間存在潛在的聯(lián)系。Cai 等[11]提出了一種分層融合網(wǎng)絡(luò),該方法在不同的融合層融合編碼后的文本、圖像以及圖像屬性,但是在對(duì)上述三種信息編碼時(shí)仍舊采取獨(dú)立編碼的方式,未能充分利用圖像和文本信息之間的聯(lián)系。Xu 等[1]通過(guò)構(gòu)建分解關(guān)系網(wǎng)絡(luò)進(jìn)一步建模視覺(jué)和文本模式之間的共同性和不一致性,該方法通過(guò)表示推文的圖像和文本的共性和差異,隱式地對(duì)跨模態(tài)對(duì)比信息進(jìn)行建模。Pan 等[2]提出了一個(gè)基于Transformer的雙向編碼器(Bidirectional" Encoder Representations from Transformers,BERT)和殘差網(wǎng)絡(luò)(Residual Network,ResNet)的架構(gòu),通過(guò)在模態(tài)內(nèi)和模態(tài)間引入注意力機(jī)制解決模態(tài)內(nèi)和模態(tài)間的不一致問(wèn)題。Liang 等[3]利用圖像屬性與文本詞之間的相似度,提出了生成交叉模態(tài)圖方法識(shí)別諷刺檢測(cè)中的重要線索,更好地捕獲了不同模態(tài)之間的關(guān)系。Tian 等[12]提出動(dòng)態(tài)路由Transformer 網(wǎng)絡(luò)(Dynamic Routing TransformerNetwork,DynRT-Net),該網(wǎng)絡(luò)通過(guò)調(diào)整動(dòng)態(tài)路徑來(lái)適應(yīng)多模態(tài)樣本條件下圖像和文本之間的分層共關(guān)注,能夠動(dòng)態(tài)捕獲跨模態(tài)不一致。
基于多模態(tài)Transformers的方法:多模態(tài)Transformers可以將文本和圖像編碼到公共特征空間,通過(guò)該方法能夠有效地識(shí)別和理解圖像與文本之間的關(guān)系。Wang 等[13]為了對(duì)齊文本特征和圖像特征,通過(guò)設(shè)計(jì)橋連接層,將圖像特征從ResNet 空間映射到BERT 空間,通過(guò)該方法證明編碼到公共特征空間確實(shí)對(duì)于多模態(tài)諷刺檢測(cè)有幫助。Qin 等[4]提出了一個(gè)基于CLIP 的諷刺檢測(cè)框架多視角CLIP(Multi-viewCLIP),雖然通過(guò)CLIP 編碼的文本特征和圖像特征在同一空間中,但該方法未考慮單模態(tài)自身深層特征的作用。Chen 等[14]引入了交互式CLIP 和記憶增強(qiáng)預(yù)測(cè)器( Interactive CLIP andMemory-Enhanced Predictor,InterCLIP-MEP)框架,通過(guò)視覺(jué)信息和文本信息的交互,實(shí)現(xiàn)更可靠的多模態(tài)諷刺檢測(cè),但是該方法利用的仍舊只有淺層的特征。
基于多模態(tài)大模型的方法:隨著大模型的發(fā)展,Yang 等[15]發(fā)布了一個(gè)包含多模態(tài)諷刺檢測(cè)任務(wù)的基準(zhǔn),他們對(duì)各種大模型進(jìn)行了基準(zhǔn)測(cè)試,如第四代生成式預(yù)訓(xùn)練Transformer 模型(Generative Pre-trained Transformer 4,GPT-4),大語(yǔ)言模型Meta AI(Large Language Model MetaAI,LLaMA),引導(dǎo)式語(yǔ)言-圖像預(yù)訓(xùn)練(BootstrappingLanguage-Image Pre-training,BLIP)模型等。Tang 等[6]將諷刺檢測(cè)看成生成任務(wù),嘗試使用大模型微調(diào)的方式實(shí)現(xiàn)多模態(tài)諷刺檢測(cè),該方法雖然取得了先進(jìn)的性能,但是在微調(diào)大模型的過(guò)程中,需要消耗較多的時(shí)間和資源。
針對(duì)以上工作的不足,本文提出了一種基于圖文交互和深層特征融合的多模態(tài)諷刺檢測(cè)方法,該方法利用具備長(zhǎng)文本能力的對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練模型(Contrastive Language-Image" Pretrainingmodel with Long-Text capability,Long-CLIP),將文本和圖像編碼到公共的特征空間中,然后設(shè)計(jì)一個(gè)圖像和文本信息之間的交互表示模塊,進(jìn)一步,設(shè)計(jì)深層特征表示模塊,從不同的角度獲得圖像和文本的深層特征表示。對(duì)于得到的圖像和文本的深層特征,設(shè)計(jì)了圖像和文本特征的融合模塊,將兩者充分融合。另外,設(shè)計(jì)多層感知機(jī)模塊,獲得更高層次的抽象特征,實(shí)現(xiàn)多模態(tài)場(chǎng)景下的諷刺檢測(cè)。
2 基于圖文交互和深層特征融合的多模態(tài)諷刺檢測(cè)框架
對(duì)于多模態(tài)諷刺檢測(cè),本文主要關(guān)注圖像和文本兩種模態(tài)信息,提出了基于圖文交互和深層特征融合的諷刺檢測(cè)框架,如圖1 所示。
該框架的核心在于圖像和文本之間的信息交互以及深層特征的獲取??蚣苡梢韵氯糠纸M成:圖文信息交互融合(2.1 節(jié))、深層特征表示(2.2 節(jié))、圖文特征融合(2.3 節(jié))。
2.1圖文信息交互融合
圖文信息交互融合模塊的目的是建立圖像和文本之間的信息交互,使得模型能夠更有效地建??缒B(tài)數(shù)據(jù)之間的關(guān)系。對(duì)于圖像和文本信息,本文使用Long-CLIP對(duì)圖像和文本進(jìn)行編碼,得到圖像和文本的淺層特征表示TS和IS,并引入圖文交互模塊,分階段建立圖像和文本之間的信息交互。
第一個(gè)階段,將文本特征(TS)作為查詢(xún)(Query),而圖像特征(IS)作為鍵(Key)和值(Value),通過(guò)交叉注意力(Cross_Attention)函數(shù)得到的特征標(biāo)記為Attti。
3實(shí)驗(yàn)結(jié)果與分析
3.1數(shù)據(jù)集
本文使用Qin 等[4]提供的MMSD2.0基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集是在Cai 等[11]提出的數(shù)據(jù)集MMSD 基礎(chǔ)上,建立的改進(jìn)版本,具體地,是在MMSD數(shù)據(jù)集上進(jìn)一步刪除虛假線索,糾正錯(cuò)誤標(biāo)記樣本建立的。該數(shù)據(jù)集包含24635條來(lái)自Twitter的英文數(shù)據(jù),其中訓(xùn)練集數(shù)據(jù)19 816條,驗(yàn)證集數(shù)據(jù)2410條,測(cè)試集數(shù)據(jù)2409條。為直觀了解數(shù)據(jù)集中數(shù)據(jù)的分布情況,在表2中給出了相關(guān)的統(tǒng)計(jì)信息。
3.2評(píng)價(jià)指標(biāo)與實(shí)驗(yàn)設(shè)置
本文參照Qin等[4]的評(píng)價(jià)指標(biāo),采取Acc、P、R、F1作為評(píng)價(jià)指標(biāo),其中Acc指Accuracy即準(zhǔn)確率,P(Precision)是精確率,R(Recall)是召回率,F(xiàn)1(F1 Score)是F1 分?jǐn)?shù)。本文采用Long-CLIP-L 作為編碼器,對(duì)輸入的文本和圖像進(jìn)行編碼,使用AdamW作為優(yōu)化器來(lái)優(yōu)化模型中的參數(shù),模型的學(xué)習(xí)率設(shè)置為5×10-4,整個(gè)訓(xùn)練過(guò)程持續(xù)30 輪,整個(gè)模型在單個(gè)英偉達(dá)NVIDIA 4090 GPU上進(jìn)行訓(xùn)練,并在單個(gè)NVIDIA 4090 GPU上進(jìn)行測(cè)試。
3.3基線模型
根據(jù)之前的工作,本文將提出的方法與MMSD2.0上的諷刺檢測(cè)的單模態(tài)方法和多模態(tài)方法進(jìn)行比較,下面是選取的基線模型。
(1)純文本的方法
文本卷積神經(jīng)網(wǎng)絡(luò)(Text Convolutional Neural Network,TextCNN):該方法是一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)網(wǎng)絡(luò)[17]。
雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional LongShort-term Memory,BiLSTM):該方法是一種用于文本分類(lèi)的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)[18]。
自匹配諷刺檢測(cè)模型(Self-matching SarcasmDetection model,SMSD):該方法是一種用于諷刺檢測(cè)的低秩雙線性池自匹配網(wǎng)絡(luò)[19]。
穩(wěn)健優(yōu)化的BERT 預(yù)訓(xùn)練方法(RobustlyOptimized BERT Pretraining Approach,RoBERTa):該方法是一個(gè)魯棒優(yōu)化的BERT 預(yù)訓(xùn)練語(yǔ)言模型[20]。
聊天生成語(yǔ)言模型(Chat Generative Language Model,ChatGLM):該方法是基于通用語(yǔ)言模型框架的開(kāi)放式大語(yǔ)言模型,具有62億個(gè)參數(shù)[21]。
LLaMA2-7B:該方法是一個(gè)具有70億個(gè)參數(shù)的預(yù)訓(xùn)練的基礎(chǔ)的大語(yǔ)言模型[22]。
(2)純圖像方法
ResNet:該方法利用池化層產(chǎn)生的圖像嵌入來(lái)檢測(cè)諷刺[23]。
視覺(jué)轉(zhuǎn)換器(Vision Transformer,ViT):該方法是一種預(yù)訓(xùn)練的視覺(jué)Transformer 模型[24]。
(3)多模態(tài)方法
層次融合模型(Hierarchical Fusion Model,HFM):該方法是一個(gè)多模態(tài)融合的分層網(wǎng)絡(luò)[11]。
注意力增強(qiáng)的BERT(Attention-Augmented BERT,Att-BERT):該方法采用自注意和共注意機(jī)制對(duì)模內(nèi)不協(xié)調(diào)和模間不協(xié)調(diào)進(jìn)行建模[2]。
跨模態(tài)圖卷積網(wǎng)絡(luò)(Cross-modal GraphConvolutional Network,CMGCN):該方法是一種細(xì)粒度的跨模態(tài)圖架構(gòu)來(lái)捕獲諷刺線索[3]。
分層一致性建模與知識(shí)增強(qiáng)(Hierarchical Congruity Modeling with Knowledge" Enhancement,HKE):該方法使用基于分層圖的框架,并結(jié)合圖像標(biāo)題等外部知識(shí)進(jìn)行多模態(tài)諷刺檢測(cè)[25]。
DynRT-Net:該方法是一種動(dòng)態(tài)路由Transformer網(wǎng)絡(luò),用來(lái)從圖像和文本中捕獲諷刺線索[12]。
Multi-view CLIP:該方法利用基于CLIP的框架,從圖像、文本和圖像-文本交互三個(gè)視角進(jìn)行多模態(tài)諷刺檢測(cè)[4]。
基于多模態(tài)大模型的方法(Based on Multimodal Large Models,MLLM-Based):該方法是一個(gè)基于大語(yǔ)言模型的生成式多模態(tài)諷刺模型[6],通過(guò)微調(diào)的方式來(lái)適配多模態(tài)諷刺檢測(cè)任務(wù)。
3.4比較實(shí)驗(yàn)結(jié)果分析
本文將所提出的模型與基線模型在多模態(tài)諷刺數(shù)據(jù)集MMSD2.0上進(jìn)行對(duì)比實(shí)驗(yàn),其結(jié)果如表3所示。其中,最好的結(jié)果用粗體突出顯示,“*”表示使用BLIP 獲得圖像的標(biāo)題,將得到的圖像標(biāo)題作為視覺(jué)信息輸入給大模型。
由表3可以發(fā)現(xiàn):
(1)與現(xiàn)有的基線模型相比,本文提出的基于圖文交互和深層特征融合的諷刺檢測(cè)方法,在Acc 和F1 值中取得了領(lǐng)先的性能,相較于目前最好的性能有0.33% 和0.15% 的提升。這表明,本文所建立的圖文信息交互模塊以及將深層特征應(yīng)用于圖- 文多模態(tài)諷刺檢測(cè)中是有效的。
(2)使用BLIP 獲得圖像標(biāo)題,并將圖像標(biāo)題作為視覺(jué)信息輸入給大模型,在純文本方法中,取得了最好的成績(jī),這也說(shuō)明了同時(shí)關(guān)注文本信息和視覺(jué)信息能夠更好地捕捉到諷刺信息,也證實(shí)了建立不同模態(tài)之間信息交互的必要性。
(3)本文提出的模型相較于僅使用文本的方法和僅使用圖像的方法,在準(zhǔn)確率(Acc)、精確率(P)、召回率(R)以及F1分?jǐn)?shù)(F1)均有較大提升,因此認(rèn)為通過(guò)本文設(shè)計(jì)的框架能夠建立不同模態(tài)之間的信息交互,模型能夠更有效地理解跨模態(tài)數(shù)據(jù)之間的關(guān)系。
(4)本文提出的模型相較于目前最先進(jìn)的多模態(tài)方法(MLLM-Based)在準(zhǔn)確率(Acc)、召回率(R)以及F1 分?jǐn)?shù)(F1)均有一定幅度的提升。因此本文認(rèn)為在多模態(tài)任務(wù)中,通過(guò)建立圖像和文本之間的信息交互,同時(shí)利用圖像和文本的深層特征,能夠更好地建模圖像和文本模態(tài)之間的信息交互,捕獲多模態(tài)諷刺信息,提升多模態(tài)諷刺檢測(cè)的性能。
3.5消融實(shí)驗(yàn)
為了探究不同模塊的有用性,本文設(shè)置了消融實(shí)驗(yàn),分別探究了圖文信息交互部分、深層特征表示部分及圖文特征融合部分的有效性,設(shè)計(jì)了在原有的模型上去掉三個(gè)模塊的方法。-Cross-attention:表示去除圖文交互部分;-CNN:表示去除深層特征表示部分;-Fuse”表示去掉圖文特征融合部分;四種方法的比較實(shí)驗(yàn)結(jié)果如表4 所示。
通過(guò)表4 可以發(fā)現(xiàn):
(1)-Cross-attention,與本文方法相比模型效果有較大的下降,原因可能是由于未能充分建模圖像和文本之間的信息交互,缺少圖像和文本信息的相互補(bǔ)充,使得模型未能充分捕捉文本和圖像之間的關(guān)聯(lián),進(jìn)而影響最終性能。
(2)-CNN,與本文方法相比模型效果也有一定的下降,原因可能在于模型不能從多個(gè)角度表示圖像和文本深層特征,僅利用了較為淺層的特征,導(dǎo)致模型效果下降。
(3)-Fuse,與本文方法相比整體效果下降最少,原因可能是由于在經(jīng)過(guò)圖文信息交互部分后,模型已經(jīng)得到圖像和文本之間的交互信息,當(dāng)去除Fuse這部分時(shí),對(duì)模型的影響相較于其他模塊較小。
4結(jié)論
本文提出了一個(gè)基于圖文交互和深層特征融合的諷刺檢測(cè)框架,通過(guò)借助交叉注意力機(jī)制建立圖文交互模塊,將圖像和文本信息得到充分的交互,然后利用卷積神經(jīng)網(wǎng)絡(luò)從不同的角度得到圖像和文本的深層特征的表示,同時(shí)設(shè)計(jì)圖像和文本的信息融合模塊,將圖像和文本特征充分地融合,得到多模態(tài)的特征。最后從圖像、文本和多模態(tài)三種特征入手,分別得到它們更高層次的特征表示,最終得到諷刺檢測(cè)的結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出的諷刺檢測(cè)框架在部分指標(biāo)上,達(dá)到了最先進(jìn)的性能。在未來(lái)研究中,可以考慮針對(duì)諷刺文本所具有的語(yǔ)義特征進(jìn)行建模,并進(jìn)一步嘗試捕獲圖像中局部的細(xì)節(jié)特征進(jìn)行建模。此外,如何在低時(shí)間和資源消耗的情況下使用圖像多模態(tài)大模型助力于多模態(tài)諷刺檢測(cè)也是一個(gè)值得思考的問(wèn)題。