摘" 要: 圖文匹配任務(wù)在計算機視覺以及多模態(tài)信息處理領(lǐng)域引起了廣泛關(guān)注。這一跨模態(tài)任務(wù)主要難點在于如何高效地提取視覺和文本的信息以及如何解決不一致圖文沖突問題。文中提出了一種新穎的圖像文本匹配方法,利用圖像對象相對位置的注意力機制解決忽視圖像中物體相對位置信息的問題,從而更好地關(guān)注視覺信息的提取,同時為了解決忽視圖像?文本間不對齊內(nèi)容相似度貢獻的問題,運用了負向感知模塊關(guān)注物體相對位置和文本中的單詞非對齊的信息對相似度的負貢獻,從而提高圖像?文本匹配相似度的準確性。最后,在公開圖文匹配數(shù)據(jù)集Flickr30K上達到了最好的[rSum],比當前最好的負向感知模型提高了7.3,取得了最先進的性能。
關(guān)鍵詞: 多模態(tài); 圖文匹配; 視覺信息提?。?相對位置編碼; 注意力機制; 負向感知
中圖分類號: TN911.73?34; TP391" " " " " " " " " "文獻標識碼: A" " " " " " nbsp; " " 文章編號: 1004?373X(2024)17?0088?06
Image?text matching based on image relative position and negative perception
YU Chao1, WANG Mingshuo1, ZHAO Ziqiao1, YU Qing2
(1. School of Software, Xinjiang University, Urumqi 830046, China;
2. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)
Abstract: Image?text matching has attracted extensive attention in the field of computer vision and multimodal information processing. The challenges of the cross?modal task are how to extract the information of vision and text efficiently and how to deal with the inconsistency image?text conflicts. In this paper, a novel image?text matching method is proposed. In this method, the attention mechanism of the relative position of image objects is utilized to avoid ignoring the relative position information of objects in an image, so as to extract visual information more efficiently. Meanwhile, in order to get rid of ignoring the similarity contribution of the unaligned content between image and text, a negative perception module is employed to pay attention to the negative contribution from the relative position of the image objects and the information of unaligned words in the text, so as to improve the accuracy of image?text matching. Finally, the proposed method achieves the best [rSum] score on the publicly available image?text matching dataset Flickr30K, and it is an improvement of 7.3% over the best negative perception model at present. Therefore, the proposed method is of the most advanced performance.
Keywords: multimodality; image?text matching; visual information extraction; relative position encoding; attention mechanism; negative perception
0" 引" 言
圖像?文本匹配是計算機視覺和自然語言處理中的一項基礎(chǔ)任務(wù),旨在對齊這兩種不同模態(tài)之間的語義差距。這項匹配任務(wù)的目標是為給定的文本描述搜索圖像,或者根據(jù)圖像查詢找到相應(yīng)的文本。圖像?文本匹配的關(guān)鍵挑戰(zhàn)在于準確地學(xué)習(xí)圖像和文本之間的語義對應(yīng)關(guān)系,從而衡量它們的相似性。
現(xiàn)有的圖像?文本匹配方法側(cè)重于在圖像的顯著區(qū)域和文本中的詞匯之間進行匹配,考慮了圖像和文本之間的細粒度語義對應(yīng)[1]。這種方法通常是將圖片和文本分別進行編碼并提取模態(tài)對應(yīng)的特征,再利用三元組損失函數(shù)計算兩種模態(tài)之間的相似度。然而這種方法有兩點不足:
1) 忽略了物體相對位置包含的視覺信息。例如:如果物體區(qū)域更靠近中心,它可能以更高的概率表達圖像的主要語義,而邊緣區(qū)域可能不那么重要。正如圖1a)所示,對應(yīng)于單詞“男人”的主要語義部分位于圖片的中心,而圖片的背景位于邊緣。從這個圖片中,一個直觀的想法是更多地關(guān)注靠近中心的區(qū)域。然而,并非所有靠近中心的區(qū)域都那么重要,如圖1b)所示,最重要的對象(兩輛吉普車)分別位于左右兩邊。此外,簡單地根據(jù)固定位置(例如中心)分配注意力會導(dǎo)致不佳的可擴展性[2]。
2) 沒有考慮到物體相對位置與文本單詞中非對齊信息對相似度的負貢獻:對于相對位置匹配的片段(即具有高相關(guān)性得分的單詞?區(qū)域?qū)Γ⒋蟠筘暙I于最終的圖像?文本相似度,而不匹配的片段(即具有低相關(guān)性得分的單詞?區(qū)域?qū)Γ┑挠绊憣⒈幌魅跎踔聊ㄈ3]。
因此,本文設(shè)計了一個全新的基于相對位置的注意力,能更好地提取每個區(qū)域生成有價值的位置特征,并且對于物體相對位置與單詞不匹配的片段,本文結(jié)合以往的一些負向感知方式,提出了一個新的負向感知注意力。不僅針對于圖像?文本對負向感知,還對已有物體的相對位置與文本進行負感知,能夠更好地實現(xiàn)對圖像?文本的匹配。
此外,本文提出了一個新穎的基于圖像相對位置負向感知的網(wǎng)絡(luò),將負向感知注意力用于相對位置和整體圖像,用于研究圖像區(qū)域和單詞之間的細粒度相互作用。本文的貢獻可以總結(jié)如下:
1) 本文設(shè)計了一個全新的區(qū)域?位置注意力模塊,幫助本文更好地融合圖像中物體的區(qū)域特征和位置特征信息,形成了圖像整體的視覺特征。
2) 本文將負向感知技術(shù)運用到圖像視覺特征和文本特征的細粒度對齊上,同時關(guān)注對齊和非對齊的視覺和文本特征。
3) 在Flickr30K數(shù)據(jù)集上評估應(yīng)用價值,本文方法在這個數(shù)據(jù)集上取得了最先進的性能。
1" 相關(guān)工作
在本節(jié)中將討論圖像?文本匹配的相關(guān)方法。近期,圖像?文本匹配技術(shù)得到了顯著的發(fā)展,大致上分為兩個研究方向:全局級匹配和局部級匹配。本文方法屬于后者。
1.1" 全局級匹配方法
全局匹配旨在學(xué)習(xí)圖像或文本的整體特征,以測量它們之間的相似性。通常是通過將圖像?文本對映射到一個共享空間,并通過排名損失進行優(yōu)化來學(xué)習(xí)語義對齊。研究人員關(guān)注于優(yōu)化不同的損失函數(shù)。如引入一種通過word2vec嵌入來表示句子的費舍爾向量方法,使用費舍爾向量的新變體來計算圖像?文本的匹配相似度,研究關(guān)聯(lián)句子來改進圖像的匹配,或者通過將三重損失不等式擴展到更一般的不等式鏈,提出了新的階梯損失,并根據(jù)各自的相關(guān)度實現(xiàn)可變的推開邊際,適應(yīng)不同的小批量統(tǒng)計,提高匹配的效率。除此之外,近期的一些研究還提出了一些新穎的優(yōu)化設(shè)計,如階梯損失、多項式損失和自適應(yīng)離線五元組損失[4],在全局級匹配中起到了較好的效果。
1.2" 局部級匹配方法
局部匹配方法側(cè)重于局部片段之間的細粒度對齊,即通過所有單詞區(qū)域?qū)Φ南嚓P(guān)性推斷整體圖像?文本相似性。通常是學(xué)習(xí)圖像區(qū)域與文本單詞之間的語義對齊,這種方法在圖文匹配中很受歡迎。在文獻[5]中,將圖像用自底而上的注意力機制提取視覺的特征信息,將視覺特征信息和文本信息用三元組損失函數(shù)計算相似度,達到了較好的效果。之后研究者據(jù)此還開發(fā)了一個基于關(guān)系的圖像描述生成器,這一生成器可以自頂向下更加準確地描述圖像中的細節(jié)和關(guān)系。文獻[2]通過將物體相對位置信息和圖像運用位置注意力整體融入視覺特征,首次提出了物體相對位置對匹配的重要性。一些使用圖神經(jīng)網(wǎng)絡(luò)提取圖像相對位置信息的方法[6?7],也證明了相對位置對視覺特征的有效性。但是,這些模型并未關(guān)注相對位置和單詞不匹配的情況。文獻[3]使用了負向感知方法,關(guān)注了文本和圖像中的非對齊元素,將非對齊的圖像?文本對標注為負例,使結(jié)果有了比較好的提升。
受上述方法的啟發(fā),本文在局部級圖像?文本匹配方法中引入了一種新的物體區(qū)域?位置注意力,該機制可以更好地將圖像的區(qū)域特征和圖像中物體的相對位置信息進行融合。此外,本文還引入了負向感知模塊來關(guān)注圖像和本文中的非對齊元素,更準確地計算圖文匹配的相似度。
2" 方" 法
2.1" 模型架構(gòu)
該框架包含三個主要模塊,用于聯(lián)合推斷圖像?文本相似性。
1) 用自底而上注意力對圖像提取特征生成區(qū)域特征向量;將圖像切分為若干block來獲得位置特征向量,用Bi?GRU對文本提取文本特征向量,如圖2a)所示。
2) 將位置特征向量經(jīng)過線性層變換作為查詢向量,將區(qū)域特征向量作為鍵和值向量做交叉注意力,生成視覺特征向量,如圖2b)所示。
3) 對文本特征向量和視覺特征向量進行相似度采樣,最大限度地分離不匹配片段與匹配片段的相似性分布,同時學(xué)習(xí)在這兩種分布之間的自適應(yīng)邊界,使不匹配的線索能夠產(chǎn)生更強大的負面影響,如圖2c)所示。
之后引入正向注意力和負向注意力兩個分支,用不同的掩碼來精確計算兩種類型片段的正效應(yīng)和負效應(yīng),以測量整體相似性。
2.2" 輸入特征表示
區(qū)域特征:在本文中,一張圖像[I]將被表示為一系列的特征向量[v1,v2,…,vn],[v∈RD],其中[n]表示圖像中區(qū)域的個數(shù)。在這個過程中本文使用Faster R?CNN[8]提取圖片中的物體特征使本文更集中于圖像中的物體,并且配合在Visual Genomes數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet?101模型來抽取區(qū)域特征,把輸入的圖像最終表示為[n×d]的特征向量[V]。
文本特征:本文使用Bert最后輸出層向量作為輸入文本的嵌入向量,并將其嵌入到預(yù)訓(xùn)練GloVe[6]模型中,然后通過雙向GRU網(wǎng)絡(luò)將其編碼為[{w1,w2,…,wT}],[w][∈] [RD×N],[N]代表詞表的大小,[D]代表特征向量的維度,[T]代表單詞的個數(shù)。
位置特征:本文根據(jù)文獻[2]的方法提取圖像中的位置信息。將輸入的圖像[I]平均分割為[K×K]個block,用向量[b]表示。每個block都有一個索引編號[k],[k]∈[[1, K2]]。對于每個圖像的區(qū)域特征向量[vi],找到前[L]個重疊最多的塊的索引編號,構(gòu)成初始位置編碼信息。
[OV(vi,bpij)≥OV(vi,bq)," " " j=1,2,…,L] (1)
式中OV代表[vi]在某個特征區(qū)域中覆蓋的像素數(shù)量。
[OV(vi,bq)=vi?bq] (2)
方便起見,本文約定一個額外的向量[a]∈[RL]記錄每個block的權(quán)重,即:
[aij=OV(vi,bpij)∈R] (3)
對于每個圖像區(qū)域[vi]來說,前[L]個block與對應(yīng)權(quán)重進行加權(quán)求和,求出對應(yīng)的位置編碼特征[p]。
[Pei=j=1Lbpij×aij] (4)
由于在一個區(qū)域[vi]內(nèi),會完全覆蓋若干個block,導(dǎo)致每個block的權(quán)重相同,然而在某個區(qū)域中,不同位置的編碼信息重要程度應(yīng)該都不盡相同,互相區(qū)分才會獲得更加細粒度精確的信息。所以本文使用[vi]的Faster? RCNN特征對上一步得到的初始位置編碼信息做注意力機制得到權(quán)重[β],歸一化求和得到最終的位置編碼信息。
[Pei=j=1Lbpij×γij] (5)
[γij=γ′ijj=1Lγ′ij," γ′ij=exp(βij)j=1Lexp(βij)×aij] (6)
為了充分融合文本特征和視覺特征,本文提出了一種區(qū)域?位置注意力模塊。在該模塊中,本文將區(qū)域特征和位置特征結(jié)合為視覺特征向量[{w1,w2,…,wn}],[w∈][RD],通過一個線性層將位置特征向量映射為[{p1,p2,…,pn}],[p][∈][RD],確保其和區(qū)域特征向量維度相同。之后本文將映射后的位置特征向量作為查詢向量[Q],將區(qū)域特征向量作為鍵值對向量[K]和[V]。這樣的設(shè)計使得在計算注意力時同時關(guān)注位置和區(qū)域信息,從而更全面地捕捉到圖像中不同區(qū)域的特征。
在交叉注意力機制中,查詢向量[Q]主要用于捕捉位置信息,而鍵[K]和值[V]向量代表了區(qū)域特征。通過計算查詢向量和鍵向量之間的相似度,可以生成注意力權(quán)重。這些權(quán)重被用于加權(quán)合成值向量,最終形成輸出。這樣的注意力機制能夠使得模型更加注重與查詢位置相對應(yīng)的區(qū)域特征,提高了模型對位置感知的能力。
通過引入?yún)^(qū)域?位置注意力模塊,模型能夠?qū)⑽谋咎卣骱鸵曈X特征相互融合,并更好地捕捉到不同區(qū)域的相關(guān)信息。位置特征的引入使得本文能夠在計算注意力時加入位置信息的約束,提高了特征的區(qū)分能力。此外,交叉注意力機制的應(yīng)用進一步增強了模型對位置和區(qū)域之間關(guān)系的建模能力,有效地提高了特征融合的質(zhì)量。
2.3" 計算正向相似度
本文使用余弦相似度來衡量視覺特征和文本特征之間的相似度,利用視覺特征向量和文本特征向量的點積除以它們各自的大小。結(jié)果范圍為-1~1,其中1表示完全相關(guān),0表示不相關(guān),-1表示完全不相關(guān)。
[si=maxjvjuTivjuinj=1] (7)
式中:[vj]表示圖像對象[j]特征向量;[ui]表示文本第[i]個詞特征向量。
正向相似度得分旨在衡量圖像?文本對的相似程度,首先關(guān)注跨模態(tài)的共享語義,第[i]個單詞在圖像中相關(guān)的共享語義可以被聚合為:
[winterij=softmaxλMaskpos(sij-tk)nj=1] (8)
式中:[winterij]是單詞[ui]和圖像區(qū)域[vj]之間的語義關(guān)系;[Maskpos(·)]表示當輸入為正時等于輸入的掩碼,否則為[-∞],其中不相關(guān)圖像區(qū)域(即[sij-tklt;0])的注意力權(quán)重將被擦除為零。
根據(jù)以上模態(tài)間相似度[wij],可以求出第[i]個圖像的加權(quán)相似度為:
[vi=j=1nwinterijvj] (9)
由此,匹配的圖像和文本之間的相似度分數(shù)表示為:
[sfi=uiviuivi] (10)
由于區(qū)域與單詞間的相關(guān)度分數(shù)也反映了圖文間的相似程度,本文基于單詞相應(yīng)相關(guān)性得分計算加權(quán)相似性如下:
[sri=j=1nwrelevijsij] (11)
其中相關(guān)性權(quán)重計算如下:
[wrelevij=softmaxλsijnj=1]," [sij=sij+i=1m[sij]2+] (12)
因此,圖像?文本對([U],[V])中匹配片段的相似度正向得分可以表示為:
[sposi=sfi+sri] (13)
2.4" 負向感知
2.4.1" 不匹配片段挖掘
本文期望顯式地和自適應(yīng)地對不匹配和匹配片段的相似性分布進行建模,并最大限度地分離它們,以實現(xiàn)有效的不匹配片段挖掘。本文基于文獻[3]的假設(shè):
1) 對齊的圖像與文本中至少有一個匹配區(qū)域。
2) 非對齊的圖像與文本中,錯誤匹配的圖像所有區(qū)域都應(yīng)與單詞不匹配。
基于這兩個假設(shè),本文抽樣兩組[S-k]和[S+k]分別表示不匹配和匹配的片段,它們的概率分布可以建模為:
[f-k(s)=1σ-k2πe-(s-μ-k)22(σ-k)2f+k(s)=1σ+k2πe-(s-μ+k)22(σ+k)2] (14)
式中:[μ-k,σ-k]和[μ+k,σ+k]分別是[E1]和[E2]兩個分布的均值和標準差。本文的目標是學(xué)習(xí)一個最優(yōu)邊界[t],可以最大限度地區(qū)分不匹配的片段,同時也降低誤差概率。
[mintα?t+∞f-k(S-k)ds+-∞tf+k(S+k)dss.t." " t≥0 ] (15)
式中[α]是為了避免對匹配片段的誤判導(dǎo)致性能下降,本文給出了調(diào)整初始懲罰參數(shù):
[α*=σ-kσ+k?expβk42((σ+k)2-(σ-k)2)-1] (16)
其中[βk4]計算公式為:
[βk4=σ+k?μ+k-μ-kσ-k-3σ+k2-σ-k22-μ+k-μ-k2] (17)
2.4.2" 計算負向得分
在負向相似度得分這一分支中,本文的目標是準確有效地利用不匹配的片段,使它們有助于降低不匹配的圖像?文本對的整體相似性。文本特征中沒有匹配到任何圖像視覺特征的片段被認為是失配的。本文求出每個單詞片段[uii∈1,m]和所有圖像區(qū)域[vjnj=1]的相似度,并計算出其與自適應(yīng)學(xué)習(xí)的相關(guān)性邊界[tk]差值的最大值。
為了能夠更加敏銳地捕獲到圖像?文本對([U],[V])中第[i]個單詞的不匹配程度,本文進一步過濾出相似度小于相關(guān)性邊界[tk]的圖像?文本對,得到負向分數(shù):
[snegi=si⊙Maskneg(si)] (18)
式中:[Maskneg(·)]是當輸入為負時等于1的掩碼,否則為0;“⊙”表示點積。
考慮到具有相似語義的片段很大可能具有相同的匹配關(guān)系,為了更準確地測量文本中每個單詞的不匹配程度,本文結(jié)合了單詞之間的語義信息和其對圖像區(qū)域的匹配度。
[sl=l=1mwintrailsl] (19)
[wintrail=softmaxλuiuTluiulml=1] (20)
式中:[wintrailsl]表示第[i]個和第[l]個單詞片段之間的語義關(guān)系;[λ]是比例因子。
最后,圖像文本([U],[V])的相似度可以由負向和正向分數(shù)共同確定為:
[S(U,V)=1mi=1m(snegi+sposi)] (21)
3" 實" 驗
3.1" 數(shù)據(jù)集和實現(xiàn)細節(jié)
為了驗證有效性,本文在Flickr30K公開數(shù)據(jù)集上進行了廣泛的實驗,F(xiàn)lickr30K共有3.1萬幅圖像和15.5萬個句子。根據(jù)其中的相同協(xié)議,F(xiàn)lickr30K被劃分為1 000個測試圖像、1 000個驗證圖像和29 000個訓(xùn)練圖像。
本文在[K]([R@K],[K]=1,5,10)和[rSum]處采用了常用的Recall評估。[R@K]表示檢索到的前[K]個可能結(jié)果中包含真實結(jié)果的百分比。[rSum]是圖像到文本和文本到圖像中所有[R@K]的總和,反映了整體匹配性能。
所有的實驗本文都在NVIDIA RTX 4090 GPU上進行,在訓(xùn)練過程中使用Adam優(yōu)化算法來訓(xùn)練整個網(wǎng)絡(luò),將學(xué)習(xí)率設(shè)置為0.000 5,迭代次數(shù)設(shè)置為30,一個批次的大小設(shè)置為128。區(qū)域特征由Faster RCNN model[7]提取,本文提取位置特征時將[k]設(shè)置為16,表示每張圖片被平分成了16×16個block。在圖像方面,本文將區(qū)域特征的嵌入維度固定為1 024,然后將得到的位置特征通過線性層映射到1 024維空間,最后用交叉注意力得到視覺特征。在文本方面,首先將文本編碼成300維的稠密向量,然后將稠密向量輸入到 1 024維空間中。最后將密集向量輸入隱藏維度為1 024的Bi?GRU中。
3.2" 實驗結(jié)果
本文在兩個基準(圖像匹配文本和文本匹配圖像)上比較了本文提出的模型和最新的最先進模型。分別比較了前1、3、5個結(jié)果包含真實結(jié)果的占比。表1顯示了本文方法在Flickr30K上的量化結(jié)果(最佳表現(xiàn)使用粗體強調(diào))。
本文模型在圖像匹配文本的[R@1],文本匹配圖像的[R@1]、[R@5]、[R@10]以及最終的總和[rSum]均高于目前已知的最好模型。尤其是在文本匹配圖像的任務(wù)中平均準確度比目前已知的最好模型提高了2.3%,在總和[rSum]指標上也提高了7。對比基線模型SCAN[9],本文模型在[rSum]指標上提高了42.3。
4" 結(jié)" 語
本文提出了一種新的用于圖像?文本匹配的圖像相對位置負感知注意框架。與傳統(tǒng)的框架不同,本文方法可以運用區(qū)域?位置注意力機制,同時關(guān)注圖像中物體本身的信息和物體之間的相對位置,解決了忽略物體相對位置包含的視覺信息。此外,本文方法還可以關(guān)注圖像和文本不匹配和匹配的片段,并利用雙分支匹配機制精確地測量相似度/不相似度,共同推斷出圖像?文本的整體相似度,解決了現(xiàn)有方法中忽略不匹配線索的問題。最后,在Flickr30K數(shù)據(jù)集上證明了本文所提出框架的優(yōu)越性。
注:本文通訊作者為于清。
參考文獻
[1] LEE K H, CHEN X, HUA G, et al. Stacked cross attention for image?text matching [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg, Germany: Springer, 2018: 212?228.
[2] WANG Y X, YANG H, QIAN X M, et al. Position focused attention network for image?text matching [EB/OL]. [2021?09?29]. http://arxiv.org/abs/1907.09748.
[3] ZHANG K, MAO Z D, LIU A A, et al. Unified adaptive relevance distinguishable attention network for image?text matching [J]. IEEE transactions on multimedia, 2023, 25: 1320?1332.
[4] ZHOU M, NIU Z X, WANG L, et al. Ladder loss for coherent visual?semantic embedding [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI Press, 2020: 13050?13057.
[5] LEE K H, PALANGI H, CHEN X, et al. Learning visual relation priors for image?text matching and image captioning with neural scene graph generators [EB/OL]. [2024?04?11]. http://arxiv.org/abs/1909.09953.
[6] WANG Z H, LIU X H, LI H S, et al. CAMP: Cross?modal adaptive message passing for text?image retrieval [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 5763?5772.
[7] LI K P, ZHANG Y L, LI K, et al. Visual semantic reasoning for image?text matching [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 4653?4661.
[8] ANDERSON P, HE X D, BUEHLER C, et al. Bottom?up and top?down attention for image captioning and visual question answering [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 6077?6086.
[9] WEI J W, XU X, YANG Y, et al. Universal weighting metric learning for cross?modal matching [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 13002?13011.
[10] BROCHIER R, GUILLE A, VELCIN J. Global vectors for node representations [C]// 2019 World Wide Web Conference. New York: ACM, 2019: 2587?2593.
[11] HU Z B, LUO Y S, LIN J, et al. Multi?level visual?semantic alignments with relation?wise dual attention network for image and text matching [C]// Proceedings of the Twenty?eighth International Joint Conference on Artificial Intelligence. [S.l.: s.n.], 2019: 789?795.
[12] CHEN T L, LUO J B. Expressing objects just like words: Recurrent visual embedding for image?text matching [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI Press, 2020: 10583?10590.
[13] WANG S J, WANG R P, YAO Z W, et al. Cross?modal scene graph matching for relationship?aware image?text retrieval [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. New York: IEEE, 2020: 1497?1506.
[14] WANG T, XU X, YANG Y, et al. Matching images and text with multi?modal tensor fusion and re?ranking [C]// Proceedings of the 27th ACM International Conference on Multimedia. New York: IEEE, 2019: 12?20.
[15] REN S Q, HE K M, GIRSHICK R B, et al. Faster R?CNN: Towards real?time object detection with region proposal networks [C]// Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015. [S.l.: s.n.], 2015: 91?99.
[16] KLEIN B E, LEV G, SADEH G, et al. Associating neural word embeddings with deep image representations using fisher vectors [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 4437?4446.
[17] CHENG Y H, ZHU X G, QIAN J C, et al. Cross?modal graph matching network for image?text retrieval [J]. ACM transactions on multimedia computing, communications, and applications, 2022, 18(4): 1?23.
[18] LI Z, GUO C L, FENG Z R, et al. Integrating language guidance into image?text matching for correcting 1 negatives [J]. IEEE transactions on multimedia, 2024, 26: 103?116.