涂榮成 毛先領(lǐng) 孔偉杰 蔡成飛 趙文哲 王紅法 黃河燕
1(北京理工大學計算機學院 北京 100081)
2(北京大學信息工程學院 廣東深圳 518055)
3(浙江大學電子信息學院 杭州 310058)
4(華南理工大學軟件學院 廣州 510006)
5(中國科學院自動化所 北京 100190)
(tu_rc@bit.edu.cn)
隨著互聯(lián)網(wǎng)上視頻文本數(shù)據(jù)的日益增多,如何檢索視頻、文本[1-6]以及如何對視頻、文本中的信息進行挖掘[7-11]等任務成為了人們?nèi)粘I钪械男滦枨?視頻文本間的檢索作為多模態(tài)視覺和語義理解的一項基礎(chǔ)研究任務,近年來受到了越來越多的研究者關(guān)注.現(xiàn)有的視頻文本檢索方法依據(jù)視頻模態(tài)輸入數(shù)據(jù)類型的不同主要可以分為基于原視頻像素以及基于視頻特征的檢索方法.
基于原視頻像素的這類方法[12-19]在訓練模型時直接將原始視頻作為輸入,通過利用視頻文本對匹配信息,將視頻特征提取以及視頻文本間相似性計算聯(lián)合起來訓練.早期的大部分視頻文本檢索方法主要是屬于這類方式.近年來,在大規(guī)模視頻-文本數(shù)據(jù)集(如Howto100M[20])上預訓練好的模型表現(xiàn)出了強大的視頻特征提取能力,因而基于視頻特征的視頻文本檢索方法[1-6]應運而生.該類方法通過將預訓練模型作為視頻特征提取器來為每個視頻提取好特征,并將提取到的特征作為視頻模態(tài)的輸入以訓練視頻文本匹配模塊.由于預訓練模型已在大規(guī)模數(shù)據(jù)集上訓練至收斂,這些模型已能較好地將視覺中的語義概念以及文本中的語義概念進行對齊,因此用它們作為特征提取器能使所提取的數(shù)據(jù)特征更好地連接視覺和語言模態(tài)并包含豐富的語義信息,更利于訓練檢索模型.所以基于預訓練模型的視頻文本檢索方法往往具有較快的訓練速度以及出色的檢索效果.但由于在訓練視頻文本檢索模型時預訓練好的視頻特征提取器將不會參與訓練,即其參數(shù)在訓練時不會被更新,因而該類方法往往受限于預訓練好的視頻特征提取器的能力.
為了進一步提升視頻文本檢索的效果,如何將預訓練模型與原始視頻相結(jié)合作為輸入是一個重要的研究方向.近年來,有些工作開始使用原始視頻作為輸入預訓練視頻文本檢索模型.這些方法的主要難點在于如何解決稠密視頻輸入所帶來的高計算量問題.為解決該問題,Lei 等人[12]提出ClipBERT 通過采用稀疏采樣策略,使端到端預訓練模型成為可能.具體來說,該方法在每個訓練批次中僅從視頻中稀疏地采樣1 個或幾個短片段作為視頻輸入以訓練模型,最終實驗結(jié)果表明,這種端到端訓練方式有利于低層特征提取,并且少量稀疏采樣的視頻片段足以解決視頻文本檢索任務.雖然這些方法的效果相比于以前的工作取得了不錯的提升,但受限于預訓練模型的文本視頻數(shù)據(jù)集的規(guī)?;蚱錁俗①|(zhì)量,這些方法的效果仍然難以滿足用戶對檢索精度的需求.
近年來,在大規(guī)模數(shù)據(jù)集上預訓練的圖文匹配模型—對比圖文預訓練(contrastive language-image pretraining,CLIP)[21]受到很多研究者的關(guān)注.該模型提出的CLIP 方法在從網(wǎng)絡(luò)中收集到的4 億條圖文對中進行預訓練.因其訓練數(shù)據(jù)規(guī)模巨大,該模型相比于同時期的預訓練模型具有更強的視覺、文本語義概念對齊能力,在多個視覺-語言跨模態(tài)任務上表現(xiàn)出了更強的泛化能力,例如在zero-shot 圖片文本檢索任務上相比其他預訓練模型能取得更好的檢索效果.因此,目前有些工作開始研究如何將圖文預訓練模型CLIP[21]所學到的知識轉(zhuǎn)換到視頻文本檢索模型中以提升視頻文本檢索效果.這些方法一般是基于全局特征的哈希方法,如圖1 所示,它們將視頻和文本分別映射成全局特征表示,進而利用全局特征表示計算視頻、文本間的相似性關(guān)系.例如,由Luo 等人[17]提出的CLIP4Clip 通過在檢索數(shù)據(jù)集上微調(diào)預訓練模型CLIP 來將視頻文本映射到同一個特征空間,然后在檢索時每個視頻以及文本都被映射成1個全局特征向量,只需計算視頻特征與文本特征之間的點積得到視頻文本之間的相似度,進而找出匹配的數(shù)據(jù)點.然而,這些方法忽略了視頻、文本數(shù)據(jù)都是由一個個事件組合而成,如圖1 所示,這一視頻文本對可以概括成“倒水入鍋中”“倒番茄醬”“攪拌食物”3 個事件.因此,若我們將視頻和文本中的事件表示出來,進而計算視頻事件與文本事件間的細粒度關(guān)系,然后以此更為精準地計算出文本數(shù)據(jù)與視頻數(shù)據(jù)之間的語義相似性關(guān)系,進而提升文本視頻間跨模態(tài)檢索效果.
Fig.1 Difference between our proposed CLIPMERG and existing methods圖1 本文所提的CLIPMERG 與現(xiàn)有方法的區(qū)別
因此針對上述問題,本文提出了一種基于CLIP 生成多事件表示的視頻文本檢索方法(CLIP based multievent representation generation for video-text retrieval,CLIPMERG),模型框架圖如圖2 所示.該模型首先通過利用大規(guī)模圖文預訓練模型CLIP 的視覺編碼器(ViT[22])以及文本編碼器(Tansformer[23])分別將視頻、文本數(shù)據(jù)轉(zhuǎn)換成視頻幀token 序列以及文本的單詞token 序列,而后通過視頻事件生成器(文本事件生成器)將視頻幀token 序列(單詞token 序列)轉(zhuǎn)換成k個視頻事件表示(k個文本事件表示).最后,通過挖掘視頻事件表示與文本事件表示之間的細粒度關(guān)系以定義視頻、文本間的相似性關(guān)系.通過在3 個常用的公開視頻文本檢索數(shù)據(jù)集MSR-VTT[24],DiDeMo[25],LSMDC[26]上的大量實驗結(jié)果表明,本文所提的CLIPMERG 優(yōu)于現(xiàn)有的視頻文本檢索方法.
視頻文本檢索是一項被廣泛應用于現(xiàn)實生活中的多模態(tài)檢索技術(shù),其旨在對于給定的輸入文本(視頻)在視頻(文本)數(shù)據(jù)庫中查找與其相似的視頻(文本)數(shù)據(jù).現(xiàn)有的視頻文本檢索方法依據(jù)視頻模態(tài)數(shù)據(jù)輸入形式可以被分成基于視頻特征的視頻文本檢索方法以及基于原視頻像素的視頻文本檢索方法.
基于視頻特征的視頻文本檢索方法[1-6]通過將預訓練模型作為視頻特征提取器來為每個視頻提取好特征,并將提取到的特征作為視頻模態(tài)的輸入以訓練視頻文本匹配模塊.這些預訓練模型在大規(guī)模視頻-文本數(shù)據(jù)集(如Howto100M[20])上預訓練好,具有強大的視頻特征提取能力,因而這類方法往往能取得不錯的檢索效果.例如Gabeur 等人[4]提出MMT(multi-modal transformer),該方法通過利用在大規(guī)模數(shù)據(jù)集Howto100M[20]上訓練了多個模態(tài)的特征提取器,如視頻模態(tài)、文本模態(tài)以及音頻模態(tài)等.而后用這些預訓練好的提取器提取視頻、文本數(shù)據(jù)的特征以進行視頻文本間的檢索,此外,Patrick 等人[5]提出SSB(support-set bottlenecks),該方法通過為每個數(shù)據(jù)文本對選擇支持集并根據(jù)支持集中的數(shù)據(jù)加權(quán)組合以重構(gòu)文本來提升預訓練模型的表征能力,進而提升模型在視頻文本檢索任務上的檢索效果.然而,由于這類方法在訓練視頻文本檢索模型時,預訓練好的視頻特征提取器將不會參與訓練,即特征提取器的參數(shù)在訓練時不會被更新,因而該類方法往往受限于預訓練好的特征提取器的表征能力.
基于原視頻像素的這類方法[8-15]在訓練模型時直接將原始視頻作為輸入,通過利用視頻文本對匹配信息,將視頻特征提取以及視頻文本間相似性計算聯(lián)合起來訓練.該類別中,早期的工作如Yu 等人[15]所提的h-RNN(hierarchical recurrent neural networks)在訓練時使用原視頻作為輸入導致計算復雜度極高,因而使其訓練速度十分緩慢,難以在較大規(guī)模的數(shù)據(jù)集中訓練,最終使其檢索效果往往不如基于視頻特征的視頻文本檢索方法.另外,Bain 等人[16]提出Frozen 模型,該方法將1 張圖片視為單幀視頻,并設(shè)計了課程學習計劃使得模型能在圖像和視頻數(shù)據(jù)集上進行訓練.此外,最近由Radford 等人[21]提出的在大規(guī)模的圖片文本數(shù)據(jù)集上預訓練的圖文匹配模型CLIP 在多個視覺-語言跨模態(tài)任務上取得了令人印象深刻的效果,展現(xiàn)了強大的視覺、語言特征提取能力,因此,目前有些工作開始研究如何將圖文預訓練模型CLIP 所學到的知識轉(zhuǎn)換到視頻文本檢索模型中以提升視頻文本檢索效果.例如,由Luo 等人[17]提出的CLIP4Clip,這個方法通過在檢索數(shù)據(jù)集上微調(diào)預訓練模型CLIP 以將視頻文本映射到同一個特征空間,然后在檢索時每個視頻以及文本都被映射成1 個全局特征向量,只需計算視頻特征與文本特征之間的點積得到視頻文本之間的相似度,進而找出匹配的數(shù)據(jù)點.之后,Cheng 等人[18]又提出CAMoE,該方法通過從數(shù)據(jù)點的實體、動作以及全局3 個視角計算視頻文本之間的相似性關(guān)系以提升模型的檢索效果.
然而,文獻[8-18]所提的方法忽略了視頻、文本數(shù)據(jù)都是由一個個事件組合而成.倘若我們能捕捉視頻事件與文本事件之間的細粒度關(guān)系,這將能幫助模型更好地計算文本數(shù)據(jù)與視頻數(shù)據(jù)之間的相似性關(guān)系,進而提升文本視頻間跨模態(tài)檢索效果.因此,為解決這一問題,本文提出基于CLIP 生成多事件表示的視頻文本檢索方法.
雖然目前已有基于圖文匹配預訓練模型CLIP的視頻文本檢索工作被提出,但這些工作忽略了捕捉視頻事件與文本事件之間的細粒度關(guān)系以輔助計算出更為準確的文本與視頻間的語義相似性關(guān)系.因此,本文提出一種基于CLIP 生成多事件表示的視頻文本檢索方法CLIPMERG,其框架如圖2 所示.
本文使用對稱交叉熵損失作為CLIPMERG 的目標函數(shù)L以優(yōu)化模型參數(shù),對稱交叉熵損失定義為:
式(10)~(12)中L的下標V2T 表示視頻檢索文本,T2V 表示文本檢索視頻.式(12)是由2 個標準對比損失構(gòu)成,其中對比損失LV2T的目標是使得視頻vi與來自同一個視頻文本對中的文本ti的相似性s(vi,ti)大于vi與來自其他視頻文本對中的文本tj的相似性s(vi,tj);類似地,LT2V的目標是使得文本ti與來自同一個視頻文本對中的視頻vi的相似性s(vi,ti)大于ti與來自其他視頻文本對中的視頻vj的相似性s(vj,ti).因此,通過最小化式(12),將會使得匹配的視頻文本對中的視頻文本相似性s(vi,ti)大于來自不同視頻文本對中的數(shù)據(jù)之間的相似性.
我們在3 個公開視頻文本數(shù)據(jù)集上進行實驗,包括MSR-VTT[22],DiDeMo[23],LSMDC[24].這3 個數(shù)據(jù)集的詳細劃分如表1 所示.
Table 1 Datasets Division表1 數(shù)據(jù)集劃分
MSR-VTT 數(shù)據(jù)集包含了10 000 個視頻,每個視頻的時長在10~32 s 之間,且每個視頻對應了20 個文本描述.對于該實驗數(shù)據(jù)集的劃分,我們采用與CLIP4Clip[13]一樣的劃分方式.具體地,我們使用其中的9 000 個視頻及其對應的文本描述作為訓練集,其中每個視頻有20 個與其相對應的文本,因此訓練集總共有18 萬個視頻文本對;測試集則用剩余的1 000 個視頻以及其對應的文本構(gòu)成1 000 個視頻文本對.
DiDeMo 數(shù)據(jù)集包含10 464 個視頻,每個視頻有3~5 個句子描述.按照CLIP4Clip[13]的實驗設(shè)置,我們將每個視頻的所有句子描述,拼接起來作為整個視頻的最終描述,并且我們用其中的8 395 對視頻文本對作為訓練集、1 065 對視頻文本對作為驗證集以及剩余的1 004 對圖片文本對作為測試集.
LSMDC 數(shù)據(jù)集包含了118 081 對視頻文本對,這些視頻是從202 部電影中抽取出來的,并且每個視頻的時長在2~30 s 之間.對于該數(shù)據(jù)集,我們用其中的109 673 對視頻文本對作為訓練集、7 408 對視頻文本對作為驗證集以及剩余的1 000 對視頻文本對作為測試集.
本文使用標準的視頻文本檢索的評價指標R@K,MdR,MnR.其中,R@K表示返回前K個檢索結(jié)果中包含與查詢樣本相關(guān)結(jié)果的查詢點占總查詢點數(shù)的比例,該值越高表示檢索效果越好.在本文中主要考察R@1,R@5,R@10;MdR 表示返回結(jié)果中與查詢點相關(guān)結(jié)果排名的中位數(shù),該值越低表示結(jié)果越好;MnR 表示返回結(jié)果中與查詢點相關(guān)結(jié)果排名的均值,該值越低表示檢索效果越好.
我們將所提方法CLIPMERG 與MMT[4],SSB[5],ClipBERT[12],Frozen[16],CLIP4Clip[17],CAMoE[18],MDMMT[19],CLIP[21],HiT[28],TT-CE+[29],CE[30]進行了比較.其中:ClipBERT 提出了一個通用的端到端的視頻文本學習框架,通過稀疏采樣用部分視頻片段來表示整個視頻以訓練模型;SSB 通過將跨實例間的視頻描述生成任務作為輔助任務以拉近相似的視頻、文本表示間的距離;HiT 通過考慮視頻、文本間的層次信息來提升模型檢索效果;CE 通過聚合不同模態(tài)預訓練模型中的信息來輔助視頻文本檢索;MMT 通過利用原視頻、音頻等不同模態(tài)特征來對齊視頻文本的表征;Frozen 將一張圖片視為單幀視頻,并設(shè)計了課程學習計劃使得模型能在圖像和視頻數(shù)據(jù)集上進行訓練;MDMMT 通過著重關(guān)注文本中有關(guān)動作的單詞來提升模型檢索效果;CLIP4Clip 通過在檢索數(shù)據(jù)集上微調(diào)預訓練模型CLIP 來將視頻文本映射到同一個特征空間;CAMoE 通過從數(shù)據(jù)點的實體、動作以及全局3 個視角計算視頻文本之間的相似性關(guān)系以提升模型的檢索效果.
在實驗過程中,本文方法對實驗數(shù)據(jù)集的劃分與CLIP4Clip 和CAMoE 方法的劃分一致,故所有對比方法的實驗結(jié)果均來源于文獻[17-18].本文所提方法CLIPMERG 的視頻編碼器以及文本編碼器的參數(shù)用預訓練好的CLIP 模型中相應編碼器的參數(shù)初始化,CLIPMERG 中的其他參數(shù)則隨機初始化.設(shè)置視頻、文本的事件數(shù)k=4.通過使用Adam[31]優(yōu)化器優(yōu)化模型,每次采樣的批次大小為128,CLIPMERG 模型參數(shù)中,由CLIP 模型參數(shù)初始化部分的學習率為1E-7,其余部分的學習率為5E-5.
為了評估本文所提出的基于CLIP 生成多事件表示的視頻文本檢索方法CLIPMERG 的有效性,我們分別在數(shù)據(jù)集MSR-VTT 上進行了文本檢索視頻任務以及視頻檢索文本任務實驗,實驗結(jié)果如表2所示.在數(shù)據(jù)集DiDeMo 以及數(shù)據(jù)集LSMDC 上進行了文本檢索視頻任務實驗,實驗結(jié)果分別展示在表3和表4 中.另外,在表2~4 中,除CLIPMERG 的實驗結(jié)果均來源于CLIP4Clip.
Table 2 Results of CLIPMERG and All the Baselines on MSR-VTT Dataset表2 CLIPMERG 與基準方法在數(shù)據(jù)集MSR-VTT 上的結(jié)果
Table 3 Results of CLIPMERG and All the Baselines on DiDeMo Dataset表3 CLIPMERG 與基準方法在數(shù)據(jù)集DiDeMo 上的結(jié)果
Table 4 Results of CLIPMERG and All the Baselines on LSMDC Dataset表4 CLIPMERG 與基準方法在數(shù)據(jù)集LSMDC 上的結(jié)果
由表2~4 的實驗結(jié)果可知,CLIPMERG 視頻文本檢索方法能取得比現(xiàn)有方法更好的檢索效果.如表2所示,在MSR-VTT 數(shù)據(jù)集上,本文所提方法CLIPMERG相比于實驗效果最好的基準方法CAMoE,在文本檢索視頻任務的 R@1,R@5,R@10等指標上取得了3.8%,1.4%,1.0%的提升;在視頻檢索文本任務的R @1,R@5,R@10等指標上取得了2.8%,2.8%,2.0%的提升.如表3 所示,在DiDeMo 數(shù)據(jù)集上,本文所提方法CLIPMERG 相比于方法CLIP4Clip,在文本檢索視頻任務的 R@1,R @5,R@10,MnR 等指標上取得了0.9%,2.6%,1.3%,2.8 的提升.如表4 所示,在LSMDC 數(shù)據(jù)集上,本文所提方法CLIPMERG 相比于方法CAMoE,在文本檢索視頻任務的 R@1,R @5,R @10等指標上取得了1.7%,0.9%,2.1%的提升.表2~4 充分表明,本文所提方法CLIPMERG 通過利用預訓練模型CLIP 為視頻文本分別生成事件表示來定義視頻文本間相似性的方式比現(xiàn)有的視頻文本檢索方法取得更好的實驗效果.
為了驗證本文提出的為視頻、文本數(shù)據(jù)分別生成多個事件表示,并通過這些事件間的細粒度的相似性關(guān)系更好地刻畫岀視頻與文本間的語義相似性關(guān)系這一想法的有效性,我們提出了1 個CLIPMERG的變種CLIPMERG_1,即在計算視頻與文本相似性關(guān)系時直接用視頻的視頻幀token 序列的平均池化后的全局特征與文本的EOS 特征直接進行點積表示,并在數(shù)據(jù)集MSR-VTT,DiDeMo,LSMDC 上做實驗,實驗結(jié)果如表5 所示.
Table 5 Experimental Results of CLIPMERG and Its Variants on Three Datasets表5 CLIPMERG 與其變種在3 個數(shù)據(jù)集上的實驗結(jié)果
由表5 可以發(fā)現(xiàn),CLIPMERG 相比于CLIPMERG_1在3 個數(shù)據(jù)集上均能取得更好的實驗效果.如在數(shù)據(jù)集DiDeMo 上,在文本檢索視頻的任務中CLIPMERG在R@1,R@5,R@10,MnR 等指標上分別取得了2.8%,2.4%,2.8%,3.5 的提升.表5 表明,通過挖掘視頻與文本中事件間的細粒度相似性關(guān)系將能更好地刻畫出視頻與文本間的語義相似性關(guān)系,進而提升視頻、文本間的檢索效果.
為了充分探討視頻、文本數(shù)據(jù)生成不同的事件個數(shù)k對模型最終的檢索效果的影響,本文展示了隨k值變化,CLIPMERG 模型在 R@1指標上的檢索效果變化趨勢,在數(shù)據(jù)集MSR-VTT,DiDeMo,LSMDC 上的實驗結(jié)果分別如圖3 所示.
Fig.3 Influence of the number of video and text events on R@1圖3 視頻、文本的事件數(shù)k 對R@1 的影響
由圖3 可以發(fā)現(xiàn),在這3 個數(shù)據(jù)集中,當事件數(shù)k=4 時,本文所提的CLIPMERG 在文本檢索視頻(T2V)任務以及視頻檢索文本(V2T)任務上均能取得不錯的實驗結(jié)果,因此在本文的其他實驗中,我們將為每個視頻(文本)數(shù)據(jù)分別生成4 個視頻(文本)事件表示,然后通過挖掘數(shù)據(jù)的事件間的細粒度相似性關(guān)系以定義數(shù)據(jù)點間的語義相似性.
圖4 展示了 CLIP4Clip 方法以及CLIPMERG 方法在用視頻檢索文本時的一個示例,其中正確返回的文本為框中的文本.CLIP4Clip 方法返回最相似的3 個文本,且相似性從左往右依次降低;CLIPMERG方法返回最相似的3 個文本,且相似性從左往右依次降低.可以發(fā)現(xiàn),CLIPMERG 的檢索效果更好,這表明通過挖掘視頻事件與文本事件間細粒度關(guān)系能更好地定義視頻文本間的語義關(guān)系,進而提升模型的檢索效果.
Fig.4 The case of video retrieval text on MSR-VTT dataset圖4 MSR-VTT 數(shù)據(jù)集上視頻檢索文本示例
本文提出了一個基于CLIP 生成多事件表示的視頻文本檢索方法CLIPMERG.該方法通過捕捉視頻中事件與文本中事件之間的細粒度相似性關(guān)系來更好地計算文本與視頻間的相似性關(guān)系,進而提升文本視頻間跨模態(tài)檢索效果.具體地,該方法首先通過利用大規(guī)模圖文預訓練模型CLIP 的視頻編碼器(ViT)以及文本編碼器(Tansformer)分別將視頻、文本數(shù)據(jù)轉(zhuǎn)換成視頻幀token 序列以及文本的單詞token 序列,而后通過視頻事件生成器(文本事件生成器)將視頻幀token 序列(單詞token 序列)轉(zhuǎn)換成k個視頻事件表示(k個文本事件表示).最后,通過挖掘視頻事件表示與文本事件表示之間的細粒度關(guān)系以定義視頻、文本間的相似性關(guān)系.在3 個常用的公開視頻文本檢索數(shù)據(jù)集MSR-VTT,DiDeMo,LSMDC 上的實驗結(jié)果表明本文所提的CLIPMERG優(yōu)于現(xiàn)有的視頻文本檢索方法.
作者貢獻聲明:涂榮成提出了算法思路、實驗方案以及撰寫論文;毛先領(lǐng)負責指導實驗、撰寫論文以及論文潤色;孔偉杰、蔡成飛以及趙文哲負責實驗部分;王紅法以及黃河燕提出指導意見并修改論文.