卓昀侃,綦金瑋,彭宇新
(北京大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)研究所,北京 100871)
在大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)數(shù)據(jù)以圖像、視頻、文本、音頻等多種媒體形式廣泛存在,它們是計(jì)算機(jī)感知和認(rèn)知真實(shí)世界的重要載體.由于數(shù)據(jù)總量和媒體類型的迅猛增長(zhǎng),多媒體信息檢索[1]的相關(guān)研究得以迅速發(fā)展,其中跨媒體檢索[2-4]是最新的研究熱點(diǎn)之一.跨媒體檢索是指用戶通過(guò)輸入任意媒體類型的查詢數(shù)據(jù),檢索出所有媒體類型中的語(yǔ)義相關(guān)數(shù)據(jù),如圖 1所示,用戶可以輸入“飛機(jī)”的相關(guān)圖像作為查詢來(lái)檢索和飛機(jī)相關(guān)的圖像、視頻、文本、音頻和3D模型.相比傳統(tǒng)的單媒體檢索,例如圖像檢索[5]、視頻檢索[6]等,跨媒體檢索能夠更加靈活、全面地滿足用戶的檢索需求.然而,“異構(gòu)鴻溝”問(wèn)題導(dǎo)致不同媒體類型的數(shù)據(jù)分布和特征表示之間存在不一致性,因此難以直接度量多種媒體數(shù)據(jù)之間的相似性,使得跨媒體檢索面臨巨大挑戰(zhàn).
Fig.1 An example of cross-media retrieval圖1 跨媒體檢索示例
事實(shí)上,認(rèn)知科學(xué)的研究表明,人類大腦能夠通過(guò)多種感官信息的融合來(lái)認(rèn)知外部世界[7],視覺(jué)、聽(tīng)覺(jué)和語(yǔ)言等系統(tǒng)能夠很好地協(xié)同處理從外界接受的信息.因此,如何通過(guò)模擬人腦的認(rèn)知過(guò)程,實(shí)現(xiàn)多媒體數(shù)據(jù)的語(yǔ)義互通與關(guān)聯(lián)理解,是跨媒體檢索需要解決的關(guān)鍵問(wèn)題.對(duì)此,現(xiàn)有方法的解決思路通常是建立一個(gè)共同子空間,將不同媒體類型的異構(gòu)數(shù)據(jù)映射到這個(gè)共同子空間中得到統(tǒng)一表征,然后通過(guò)常用的距離度量方法來(lái)直接計(jì)算不同媒體數(shù)據(jù)之間的相似性,實(shí)現(xiàn)跨媒體交叉檢索.
根據(jù)以上思路,已有一些工作[8-10]嘗試為不同媒體類型的數(shù)據(jù)學(xué)習(xí)統(tǒng)一表征,可以將其主要分為兩類:傳統(tǒng)方法和基于深度學(xué)習(xí)的方法.傳統(tǒng)方法通過(guò)統(tǒng)計(jì)分析學(xué)習(xí)線性映射矩陣,其中,最具代表性的是典型相關(guān)分析(canonical correlation analysis,簡(jiǎn)稱CCA)[11],該方法通過(guò)最大化成對(duì)媒體數(shù)據(jù)間的關(guān)聯(lián)來(lái)優(yōu)化映射矩陣.另有一些工作基于典型相關(guān)分析,嘗試引入其他信息提升其性能,例如語(yǔ)義類別信息[12]等.近年來(lái),隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)[13,14]等領(lǐng)域取得巨大進(jìn)展,研究人員嘗試通過(guò)深度網(wǎng)絡(luò)的非線性建模能力來(lái)分析不同媒體類型數(shù)據(jù)間的復(fù)雜關(guān)聯(lián)關(guān)系.Feng等人[8]提出對(duì)應(yīng)自編碼器(correspondence autoencoder,簡(jiǎn)稱 Corr-AE)同時(shí)對(duì)關(guān)聯(lián)關(guān)系和重建信息進(jìn)行建模.Peng等人[15]提出將媒體內(nèi)和媒體間的關(guān)聯(lián)信息通過(guò)層次化網(wǎng)絡(luò)的方式進(jìn)行聯(lián)合學(xué)習(xí)以提升檢索準(zhǔn)確率.圖2給出跨媒體關(guān)聯(lián)學(xué)習(xí)方法的框架示意.
Fig.2 An illustration of the mainstream framework for cross-media correlation learning圖2 跨媒體關(guān)聯(lián)學(xué)習(xí)方法框架示意圖
然而,上述方法一般僅針對(duì)圖像和文本兩種媒體類型的跨媒體檢索任務(wù),由于它們的泛化性能有限,很難將其擴(kuò)展至更多種媒體類型的交叉檢索,如典型相關(guān)分析及其變種方法[16-18]旨在分析兩組變量之間的相關(guān)關(guān)系,盡管可以通過(guò)兩兩組合的方式來(lái)將這些方法擴(kuò)充至多種媒體交叉檢索的場(chǎng)景,但不僅無(wú)法在一個(gè)模型內(nèi)解決問(wèn)題,算法復(fù)雜度高,而且忽視了多種媒體關(guān)聯(lián)的共存和互補(bǔ)性,導(dǎo)致關(guān)聯(lián)信息有限,降低了檢索的準(zhǔn)確率.顯然,在多種媒體交叉檢索的場(chǎng)景下,挖掘不同媒體類型數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)更加困難.由于任意兩種媒體之間都存在著異構(gòu)鴻溝,而且不同媒體類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系也有各自獨(dú)特的特性,現(xiàn)有方法很難將其同時(shí)建模在一個(gè)模型中.
事實(shí)上,描述同一語(yǔ)義的不同媒體類型數(shù)據(jù)存在天然的語(yǔ)義一致性,且數(shù)據(jù)內(nèi)部蘊(yùn)含著豐富的細(xì)粒度上下文信息.其中,細(xì)粒度指的是數(shù)據(jù)的局部區(qū)域或片段,上下文指的是這些區(qū)域或片段間的關(guān)聯(lián)關(guān)系,如圖像前景區(qū)域和背景區(qū)域之間的關(guān)系或前后視頻幀之間的關(guān)系,充分利用細(xì)粒度上下文信息能夠有效挖掘不同媒體數(shù)據(jù)之間的關(guān)聯(lián).例如,在多種媒體交叉檢索的場(chǎng)景下,很可能文本的某一部分描述并未在圖像中體現(xiàn),但卻和音頻或視頻的某一片段存在明顯的關(guān)聯(lián).這表明,在多種媒體相互檢索的任務(wù)中,不同媒體數(shù)據(jù)之間存在著豐富的語(yǔ)義互補(bǔ)關(guān)系,能夠?yàn)榭缑襟w關(guān)聯(lián)學(xué)習(xí)提供充足的線索,而且挖掘其中細(xì)粒度信息之間的語(yǔ)義關(guān)聯(lián)尤為重要.然而,現(xiàn)有方法一般僅考慮了不同媒體數(shù)據(jù)的成對(duì)關(guān)聯(lián),忽略了細(xì)粒度局部上下文信息之間的語(yǔ)義關(guān)聯(lián).此外,現(xiàn)有方法一般僅使用語(yǔ)義類別信息來(lái)約束不同媒體數(shù)據(jù)之間的關(guān)聯(lián)學(xué)習(xí),在多種媒體的場(chǎng)景下,其約束能力不足以彌補(bǔ)多種媒體數(shù)據(jù)間的分布差異.針對(duì)上述問(wèn)題,本文提出了跨媒體深層細(xì)粒度關(guān)聯(lián)學(xué)習(xí)方法,同時(shí)在語(yǔ)義和分布兩個(gè)方面挖掘多達(dá)5種媒體類型數(shù)據(jù)(圖像、視頻、文本、音頻和3D模型)細(xì)粒度上下文信息間的關(guān)聯(lián)關(guān)系.本文主要貢獻(xiàn)如下.
(1) 提出了針對(duì)5種媒體的跨媒體循環(huán)神經(jīng)網(wǎng)絡(luò),構(gòu)建統(tǒng)一的網(wǎng)絡(luò)結(jié)構(gòu)聯(lián)合建模不同媒體數(shù)據(jù)內(nèi)部的細(xì)粒度信息,并進(jìn)一步挖掘不同媒體數(shù)據(jù)細(xì)粒度局部區(qū)域或片段之間的上下文關(guān)系,充分學(xué)習(xí)各種媒體內(nèi)獨(dú)有的內(nèi)在信息,為跨媒體關(guān)聯(lián)學(xué)習(xí)提供更加細(xì)粒度的線索.
(2) 提出了基于分布對(duì)齊和語(yǔ)義對(duì)齊的跨媒體聯(lián)合關(guān)聯(lián)損失函數(shù).一方面,通過(guò)分布對(duì)齊彌補(bǔ)不同媒體類型數(shù)據(jù)之間的分布差異;另一方面,通過(guò)語(yǔ)義對(duì)齊增強(qiáng)關(guān)聯(lián)學(xué)習(xí)過(guò)程中的語(yǔ)義辨識(shí)能力.使分布對(duì)齊與語(yǔ)義對(duì)齊相互促進(jìn),實(shí)現(xiàn)對(duì)不同媒體數(shù)據(jù)的語(yǔ)義一致性表達(dá),更好地在 5種媒體條件下實(shí)現(xiàn)細(xì)粒度跨媒體關(guān)聯(lián)分析與挖掘,提升跨媒體檢索的準(zhǔn)確率.
為了驗(yàn)證方法的有效性,本文在兩個(gè)包含5種媒體(圖像、視頻、文本、音頻和3D模型)的跨媒體數(shù)據(jù)集PKU XMedia和PKU XMediaNet上與現(xiàn)有方法進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明,本文方法有效地提高了跨媒體檢索的準(zhǔn)確率.
現(xiàn)有方法往往旨在解決兩種媒體類型數(shù)據(jù)之間的異構(gòu)鴻溝問(wèn)題,通常是針對(duì)圖像和文本,將其映射至統(tǒng)一空間得到跨媒體統(tǒng)一表征.其中,傳統(tǒng)方法通過(guò)優(yōu)化特定統(tǒng)計(jì)量來(lái)學(xué)習(xí)線性映射矩陣.典型相關(guān)分析(canonical correlation analysis,簡(jiǎn)稱 CCA)[11]是第一個(gè)被廣泛使用的跨媒體模型,該方法通過(guò)最大化不同媒體類型成對(duì)數(shù)據(jù)之間的關(guān)聯(lián)來(lái)優(yōu)化模型.一些后續(xù)工作基于典型相關(guān)分析進(jìn)行了擴(kuò)展,例如,Hardoon等人[17]提出核典型相關(guān)分析(kernel canonical correlation analysis,簡(jiǎn)稱KCCA),利用核函數(shù)實(shí)現(xiàn)非線性典型相關(guān)分析.此外,Li等人[18]提出了跨媒體因子分析(cross-modal factor analysis,簡(jiǎn)稱CFA)算法,通過(guò)最小化成對(duì)數(shù)據(jù)之間的Frobenius范數(shù)來(lái)優(yōu)化跨媒體模型.
近年來(lái),深度網(wǎng)絡(luò)在圖像識(shí)別[19,20]、視頻分類[21]等領(lǐng)域顯示出強(qiáng)大的學(xué)習(xí)能力.受此啟發(fā),一些工作嘗試使用深度網(wǎng)絡(luò)來(lái)學(xué)習(xí)統(tǒng)一表征以實(shí)現(xiàn)跨媒體檢索.Andrew等人[22]提出深度典型相關(guān)分析(deep canonical correlation analysis,簡(jiǎn)稱 DCCA)方法,通過(guò)兩個(gè)子網(wǎng)絡(luò)的輸出關(guān)聯(lián)來(lái)優(yōu)化模型.Feng等人[8]構(gòu)建對(duì)應(yīng)自編碼器(correspondence autoencoder,簡(jiǎn)稱 Corr-AE),通過(guò)中間層來(lái)鏈接兩路子網(wǎng)絡(luò),同時(shí)對(duì)關(guān)聯(lián)關(guān)系和重建信息進(jìn)行建模.Wei等人[23]提出的深度語(yǔ)義匹配(deep semantic match,簡(jiǎn)稱Deep-SM)模型使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)建模圖像數(shù)據(jù),從而進(jìn)一步挖掘語(yǔ)義關(guān)聯(lián)信息.Peng等人[15]提出了跨媒體多網(wǎng)絡(luò)結(jié)構(gòu)(cross-media multiple deep network,簡(jiǎn)稱CMDN)模型,將媒體內(nèi)和媒體間的關(guān)聯(lián)信息通過(guò)層次化網(wǎng)絡(luò)的方式進(jìn)行聯(lián)合學(xué)習(xí)以提升檢索準(zhǔn)確率.他們?cè)诖嘶A(chǔ)上進(jìn)一步提出了跨模態(tài)關(guān)聯(lián)學(xué)習(xí)(cross-modal correlation learning,簡(jiǎn)稱CCL)方法[24],通過(guò)多任務(wù)學(xué)習(xí)的方式挖掘不同媒體類型數(shù)據(jù)的粗細(xì)粒度信息.Huang等人[25]提出了基于混合遷移網(wǎng)絡(luò)的跨媒體統(tǒng)一表征(cross-modal hybrid transfer network,簡(jiǎn)稱CHTN)方法,實(shí)現(xiàn)了從單媒體源域到跨媒體目標(biāo)域的知識(shí)遷移.此外,對(duì)抗式學(xué)習(xí)也被應(yīng)用在跨媒體檢索中[26].
目前僅有很少的工作針對(duì)多于兩種媒體的交叉檢索任務(wù),其中,Zhai等人[27]嘗試構(gòu)建圖模型來(lái)學(xué)習(xí)映射矩陣,首先將 5種媒體同時(shí)在傳統(tǒng)框架中建模,并進(jìn)一步提出了聯(lián)合表示學(xué)習(xí)(joint representation learning,簡(jiǎn)稱JRL)方法[10],加入語(yǔ)義信息和半監(jiān)督規(guī)約來(lái)構(gòu)建統(tǒng)一空間.此外,Peng等人[28]提出構(gòu)建統(tǒng)一的跨媒體關(guān)聯(lián)超圖,同時(shí)利用了不同媒體的細(xì)粒度信息并結(jié)合半監(jiān)督規(guī)約來(lái)學(xué)習(xí)跨媒體統(tǒng)一表征.然而,由于以上方法均使用傳統(tǒng)框架學(xué)習(xí)線性映射,難以充分挖掘多達(dá) 5種媒體類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系.而某些基于深度學(xué)習(xí)的方法,如深度語(yǔ)義匹配模型,盡管可以通過(guò)增加子網(wǎng)絡(luò)的方式將其擴(kuò)展至多種媒體,但其僅考慮了數(shù)據(jù)內(nèi)部的語(yǔ)義類別信息,難以挖掘多種媒體之間復(fù)雜且多樣的關(guān)聯(lián)關(guān)系.
本文旨在彌補(bǔ)上述缺陷,聯(lián)合建模多達(dá) 5種媒體類型數(shù)據(jù)的細(xì)粒度上下文信息,同時(shí)實(shí)現(xiàn)不同媒體數(shù)據(jù)類型數(shù)據(jù)之間的語(yǔ)義對(duì)齊和分布對(duì)齊,從而提升5種媒體交叉檢索的準(zhǔn)確率.
本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.首先,構(gòu)建針對(duì)5種媒體數(shù)據(jù)的跨媒體循環(huán)神經(jīng)網(wǎng)絡(luò),通過(guò)將不同媒體類型數(shù)據(jù)的局部區(qū)域或片段序列輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中建模數(shù)據(jù)內(nèi)部的細(xì)粒度上下文信息.然后,在循環(huán)神經(jīng)網(wǎng)絡(luò)之上設(shè)計(jì)跨媒體聯(lián)合關(guān)聯(lián)損失函數(shù),通過(guò)語(yǔ)義對(duì)齊和分布對(duì)齊相結(jié)合的方式,聯(lián)合優(yōu)化異構(gòu)數(shù)據(jù)到統(tǒng)一空間的映射,從而學(xué)習(xí)更加精確的細(xì)粒度跨媒體關(guān)聯(lián).
首先介紹本文的形式化定義,其中,D={DI,DT,DA,DV,DM}為包含 5種媒體類型的跨媒體數(shù)據(jù)集,{xi,xt,xa,xv,xm}∈D分別代表數(shù)據(jù)集中圖像、文本、音頻、視頻和3D模型數(shù)據(jù).此外,定義l∈{i,t,v,a,m}表示任意一種媒體類型,這樣,{xl,yl}∈D分別代表數(shù)據(jù)集中的任意媒體類型的數(shù)據(jù)及其類別標(biāo)簽.跨媒體檢索旨在給定任意一種媒體類型的數(shù)據(jù),返回與其語(yǔ)義相關(guān)的所有媒體類型的檢索結(jié)果.
Fig.3 An overview of our proposed FGCL approach圖3 本文方法整體框架示意圖
為了充分利用多種媒體類型數(shù)據(jù)中豐富的細(xì)粒度上下文信息,本文構(gòu)建了多路循環(huán)神經(jīng)網(wǎng)絡(luò),將每種媒體類型數(shù)據(jù)的局部區(qū)域或片段的序列輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)細(xì)粒度特征表示.對(duì)不同媒體類型數(shù)據(jù)分別進(jìn)行分割并獲取細(xì)粒度特征序列的具體策略將在第2.3節(jié)中詳細(xì)加以介紹.
上述得到的每種媒體類型數(shù)據(jù)局部區(qū)域或片段的特征序列蘊(yùn)含了豐富的細(xì)粒度信息,進(jìn)一步將其輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中來(lái)充分挖掘不同媒體類型數(shù)據(jù)內(nèi)部的細(xì)粒度上下文信息.本文采用了長(zhǎng)短時(shí)記憶(long short term memory,簡(jiǎn)稱 LSTM)網(wǎng)絡(luò)[29],LSTM 網(wǎng)絡(luò)作為一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),能夠利用記憶單元(cell)及門(mén)限(gate)的更新有效地學(xué)習(xí)序列數(shù)據(jù)中的長(zhǎng)期依賴,并充分保存歷史時(shí)間步中的信息.本文將上述每種媒體類型數(shù)據(jù)的特征按照序列逐步輸入到LSTM網(wǎng)絡(luò)中,并根據(jù)如下公式逐步更新網(wǎng)絡(luò):
其中,x表示輸入序列,i,f,o和c分別表示輸入門(mén)、遺忘門(mén)、輸出門(mén)和記憶單元,⊙表示元素相乘,而σ表示Sigmoid激活函數(shù),W和U為循環(huán)神經(jīng)網(wǎng)絡(luò)中待學(xué)習(xí)的參數(shù).將輸出序列通過(guò)全連接層就可以得到每種媒體數(shù)據(jù)固定維數(shù)的序列特征,隨后將序列特征取平均得到,其中,j為序列長(zhǎng)度.這樣,每個(gè)任意媒體類型數(shù)據(jù)的特征hl都包含了豐富的細(xì)粒度上下文信息,為進(jìn)一步挖掘跨媒體細(xì)粒度關(guān)聯(lián)關(guān)系提供了重要線索.
在得到包含細(xì)粒度上下文信息的不同媒體特征之后,如何更好地將其映射至統(tǒng)一空間中成為解決 5種媒體類型數(shù)據(jù)間交叉檢索的關(guān)鍵問(wèn)題.具體地,本文在上述循環(huán)神經(jīng)網(wǎng)絡(luò)頂層提出了基于分布對(duì)齊和語(yǔ)義對(duì)齊的跨媒體聯(lián)合關(guān)聯(lián)損失函數(shù),通過(guò)彌補(bǔ)不同媒體類型數(shù)據(jù)之間的分布差異,同時(shí)充分利用了數(shù)據(jù)的語(yǔ)義類別信息增強(qiáng)關(guān)聯(lián)學(xué)習(xí)過(guò)程中的語(yǔ)義辨識(shí)能力,能夠更好地在5種媒體的條件下實(shí)現(xiàn)細(xì)粒度跨媒體關(guān)聯(lián)的分析與挖掘.
首先,我們?cè)O(shè)計(jì)了基于語(yǔ)義對(duì)齊的關(guān)聯(lián)損失函數(shù).將第2.1節(jié)得到的不同媒體類型的數(shù)據(jù)表征hl通過(guò)全連接網(wǎng)絡(luò)(fully-connected network)映射到統(tǒng)一的語(yǔ)義空間中,并采用如下?lián)p失函數(shù)來(lái)約束不同媒體類型數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián):
其中,lsm(hl,yl)為交叉熵?fù)p失函數(shù)項(xiàng),yl為hl的語(yǔ)義類別標(biāo)簽,共有n個(gè)類別.當(dāng)yl=q時(shí),1{yl=q}值為1,否則,其值為表示預(yù)測(cè)該樣本屬于第q個(gè)類別的概率.
通過(guò)三元組的形式,約束屬于相同語(yǔ)義類別的不同媒體類型數(shù)據(jù),使其距離其對(duì)應(yīng)類別的特征向量盡可能地近,同時(shí)距離其他類別的特征向量盡可能地遠(yuǎn).由于類別標(biāo)簽通過(guò) Word2Vec模型來(lái)映射,其映射后的特征向量本身帶有語(yǔ)義信息,通過(guò)將不同媒體數(shù)據(jù)映射到其類別向量周?chē)?使得不同媒體數(shù)據(jù)映射后的統(tǒng)一表征保留其對(duì)應(yīng)類別的語(yǔ)義信息,同時(shí)保證它們的語(yǔ)義一致性.因此,通過(guò)基于語(yǔ)義對(duì)齊的關(guān)聯(lián)損失函數(shù),能夠有效地增強(qiáng)統(tǒng)一表征的語(yǔ)義辨識(shí)能力,促進(jìn)細(xì)粒度的跨媒體關(guān)聯(lián)挖掘.
進(jìn)一步地,我們?cè)O(shè)計(jì)了基于分布對(duì)齊的關(guān)聯(lián)損失函數(shù).具體地,我們采用最大均值差異(maximum mean discrepancy,簡(jiǎn)稱 MMD)[31]損失函數(shù)來(lái)優(yōu)化不同媒體類型數(shù)據(jù)之間的分布差異.最大均值差異被廣泛使用在遷移學(xué)習(xí)和域自適應(yīng)中,是衡量?jī)蓚€(gè)數(shù)據(jù)分布差異的重要標(biāo)準(zhǔn).其基本原理是針對(duì)兩個(gè)不同分布的樣本,通過(guò)尋找在樣本空間上的連續(xù)函數(shù),使不同分布的樣本在該函數(shù)上函數(shù)值均值的差值最大,從而得到最大均值差異MMD.通過(guò)最小化 MMD損失,可以減小不同分布之間的差異,達(dá)到對(duì)齊分布的效果.基于上述思想,我們定義了如下基于分布對(duì)齊的關(guān)聯(lián)損失函數(shù):
其中,i,j表示任意兩種不同的媒體類型.而任意兩種媒體類型數(shù)據(jù)之間的MMD損失函數(shù)定義如下:
其中,MMD損失函數(shù)是在再生希爾伯特空間(reproducing kernel Hilbert space,簡(jiǎn)稱RKHS)的平方形式.通過(guò)最小化上式,可以減小hi和hj之間的分布差異,達(dá)到不同媒體類型之間的分布對(duì)齊.綜上,基于語(yǔ)義對(duì)齊和分布對(duì)齊的跨媒體聯(lián)合關(guān)聯(lián)損失函數(shù)定義如下:
通過(guò)最小化上述損失函數(shù),不僅可以增強(qiáng)跨媒體統(tǒng)一表征的語(yǔ)義辨識(shí)能力,在統(tǒng)一空間中將不同媒體類型的數(shù)據(jù)約束至其語(yǔ)義中心,同時(shí)可以減小 5種媒體之間的數(shù)據(jù)分布差異,從而有效學(xué)習(xí)不同媒體類型數(shù)據(jù)細(xì)粒度上下文信息之間的關(guān)聯(lián)關(guān)系,提高跨媒體檢索的準(zhǔn)確率.
本文提出的網(wǎng)絡(luò)在Torch框架上得以實(shí)現(xiàn).具體地,對(duì)于每個(gè)圖像樣本xi,將其縮放后輸入VGG-19卷積神經(jīng)網(wǎng)絡(luò)[32],通過(guò)最后一個(gè)池化層(pool5)來(lái)提取出49個(gè)不同區(qū)域的局部特征,每個(gè)特征維數(shù)為512維,然后按照人眼觀察的順序組成序列.對(duì)于每個(gè)文本樣本xt,首先按照段落或語(yǔ)句將其切分成片段,然后利用文本卷積神經(jīng)網(wǎng)絡(luò)[33]對(duì)每個(gè)片段提取300維特征,最后按照文本片段本身順序組成序列.對(duì)于每個(gè)音頻樣本xa,按照固定時(shí)間間隔將其分割成片段,對(duì)每個(gè)片段分別提取128維Mel頻率倒譜系數(shù)特征(mel frequency cepstrum coefficient,簡(jiǎn)稱MFCC)形成序列.對(duì)于視頻,對(duì)每一個(gè)視頻幀提取VGG-19網(wǎng)絡(luò)[32]全連接層(fc7)的4 096維圖像特征,然后按照其原本時(shí)間順序組成序列.對(duì)于 3D模型,我們采用 47個(gè)不同角度來(lái)觀察 3D模型數(shù)據(jù),然后使用光場(chǎng)描述子(light field)[34]對(duì)每一個(gè)角度提取 100維特征,再依照文獻(xiàn)[28]將其組成序列.總的來(lái)說(shuō),針對(duì)特征選擇,本文旨在探究跨媒體關(guān)聯(lián)學(xué)習(xí)問(wèn)題,特征選擇并非本文重點(diǎn),且本文的模型可以支持多種輸入特征.針對(duì)序列選擇,對(duì)于帶有內(nèi)在序列性質(zhì)的媒體類型,如文本、音頻和視頻,我們按照其天然順序?qū)^(qū)域片段組成序列.對(duì)于序列性質(zhì)不明顯的媒體類型,如圖像和 3D 模型,我們按照固定順序組成序列,且其細(xì)粒度數(shù)據(jù)之間的順序?qū)﹃P(guān)聯(lián)學(xué)習(xí)的最終結(jié)果影響不大.使用上述固定切分方式不僅能夠有效地保留某些媒體數(shù)據(jù)的細(xì)粒度單元,也降低了模型的復(fù)雜度.此外,在實(shí)驗(yàn)過(guò)程中,我們將跨媒體循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出,即統(tǒng)一表征的維數(shù)設(shè)置為 300維,語(yǔ)義對(duì)齊關(guān)聯(lián)損失函數(shù)(見(jiàn)公式(7))中的邊界參數(shù)α設(shè)置為1,網(wǎng)絡(luò)訓(xùn)練的學(xué)習(xí)率固定為1e-4.
本文模型訓(xùn)練過(guò)程需要 25個(gè) epoch,時(shí)間復(fù)雜度和其他基于深度網(wǎng)絡(luò)的跨媒體檢索方法相當(dāng),并且由于算法充分挖掘了跨媒體細(xì)粒度數(shù)據(jù)之間的上下文關(guān)系,泛化能力較強(qiáng),輸入特征可以直接使用預(yù)訓(xùn)練的深度網(wǎng)絡(luò)或是傳統(tǒng)特征而不需要進(jìn)行微調(diào),這也縮短了算法的運(yùn)行時(shí)間.空間復(fù)雜度上,一方面循環(huán)神經(jīng)網(wǎng)絡(luò)的自身性質(zhì)決定了不同時(shí)刻輸入循環(huán)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)經(jīng)過(guò)同一個(gè)神經(jīng)元,大大節(jié)省了參數(shù)量.另一方面,較低的統(tǒng)一空間維度(300維)也減少了模型的空間復(fù)雜度.
本文在兩個(gè)具有挑戰(zhàn)性的跨媒體數(shù)據(jù)集PKU XMedia和PKU XMediaNet上進(jìn)行了多種媒體的交叉檢索實(shí)驗(yàn),兩個(gè)數(shù)據(jù)集均包含多達(dá)5種媒體類型(圖像、文本、音頻、視頻和3D模型)的數(shù)據(jù).為了更加全面地驗(yàn)證本文提出方法的有效性,我們進(jìn)行了兩大類的實(shí)驗(yàn)對(duì)比,包括5種媒體的交叉檢索和2種媒體(圖像和文本)的相互檢索,與12種現(xiàn)有方法進(jìn)行了對(duì)比.此外,本文還進(jìn)一步通過(guò)基線實(shí)驗(yàn)以驗(yàn)證本文方法各個(gè)部分的效果.
下面簡(jiǎn)要介紹本文使用的兩個(gè)包含5種媒體類型的跨媒體數(shù)據(jù)集,每個(gè)數(shù)據(jù)集均劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集3個(gè)部分,具體劃分方式見(jiàn)表1和表2.
數(shù)據(jù)集網(wǎng)址為http://www.icst.pku.edu.cn/mipl/XMedia.
PKU XMedia數(shù)據(jù)集[2]是第一個(gè)包含5種媒體類型的跨媒體數(shù)據(jù)集.數(shù)據(jù)集共有20個(gè)常見(jiàn)的語(yǔ)義類別,比如自行車(chē)、鋼琴、昆蟲(chóng)等,數(shù)據(jù)來(lái)源包括維基百科(Wikipedia)、Flickr、YouTube等.
Table 1 The dataset partition on PKU XMedia表1 PKU XMedia數(shù)據(jù)集的劃分方式
Table 2 The dataset partition on PKU XMediaNet表2 PKU XMediaNet數(shù)據(jù)集的劃分方式
PKU XMediaNet數(shù)據(jù)集[2]是目前國(guó)際上最大的包含5種媒體類型的跨媒體數(shù)據(jù)集,共包含超過(guò)10萬(wàn)個(gè)數(shù)據(jù)樣本,其規(guī)模是XMedia的10倍.共包含了200個(gè)常見(jiàn)類別,主要分為動(dòng)物和人造物兩大類.圖4展示了該數(shù)據(jù)集的部分樣例.數(shù)據(jù)來(lái)源包括Wikipedia、Flickr、YouTube、Freesound、Yobi3D等.
Fig.4 Quintuple-media examples from PKU XMediaNet dataset圖4 來(lái)自PKU XMediaNet數(shù)據(jù)集的5種不同媒體類型數(shù)據(jù)示意圖
不同媒體數(shù)據(jù)之間的相似度可以通過(guò)計(jì)算跨媒體統(tǒng)一表征之間的距離來(lái)得到,本文采用余弦距離來(lái)計(jì)算相似度,從而對(duì)檢索結(jié)果進(jìn)行排序.為了全面驗(yàn)證本文方法的有效性,我們分別設(shè)置了5種媒體交叉檢索和2種媒體相互檢索的實(shí)驗(yàn).
3.2.1 5種媒體交叉檢索
5種媒體交叉檢索是指將任意一種媒體類型的查詢樣例作為輸入,檢索所有5種媒體類型數(shù)據(jù)中與之語(yǔ)義相關(guān)的結(jié)果.舉例來(lái)說(shuō),將圖像作為查詢樣例輸入,檢索測(cè)試集中圖像、文本、音頻、視頻和 3D模型的樣本,表示為圖像檢索全部(Image?All).以其余 4種媒體類型作為查詢的檢索可以表示為:文本檢索全部(Text?All)、音頻檢索全部(Audio?All)、視頻檢索全部(Video?All)和3D模型檢索全部(3D?All).
本文采用平均準(zhǔn)確率均值(mean average precision,簡(jiǎn)稱MAP)作為評(píng)價(jià)指標(biāo),該指標(biāo)能夠同時(shí)兼顧返回結(jié)果的排序以及準(zhǔn)確率,在信息檢索領(lǐng)域被廣泛使用.具體地,首先計(jì)算查詢樣本所有返回結(jié)果的平均準(zhǔn)確率(average precision,簡(jiǎn)稱AP),然后計(jì)算所有查詢的AP結(jié)果的平均值得到最終的MAP值.
本文方法與3種支持5種媒體場(chǎng)景或可以擴(kuò)展至5種媒體場(chǎng)景的現(xiàn)有方法進(jìn)行了實(shí)驗(yàn)對(duì)比,分別是JRL[10]、S2UPG[28]和Deep-SM[23],其中,前兩種是直接支持5種媒體的交叉檢索的傳統(tǒng)方法,而Deep-SM[23]是基于深度學(xué)習(xí)的方法,其本身僅針對(duì)兩種媒體相互檢索,但可以通過(guò)擴(kuò)充另外 3路子網(wǎng)絡(luò)的方式來(lái)支持 5種媒體的交叉檢索.為了更加公平地與現(xiàn)有方法進(jìn)行比較,所有方法在 5種媒體上都使用了與本文相同的深度網(wǎng)絡(luò)或描述子來(lái)提取輸入特征.具體地,對(duì)于圖像,我們采用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練,并在目標(biāo)數(shù)據(jù)集上微調(diào)的VGG-19卷積神經(jīng)網(wǎng)絡(luò)[32]提取4 096維全連接層特征(fc7).對(duì)于文本,我們依照文獻(xiàn)[33]中的方式通過(guò)文本卷積神經(jīng)網(wǎng)絡(luò)對(duì)其提取300維的特征.對(duì)于音頻,我們對(duì)音頻幀分別提取Mel頻率倒譜系數(shù)特征(mel frequency cepstrum coefficient,簡(jiǎn)稱MFCC),然后取平均獲得128維MFCC特征.對(duì)于視頻,我們通過(guò)平均每一個(gè)視頻幀的VGG-19網(wǎng)絡(luò)全連接層特征(fc7)得到4 096維特征.對(duì)于3D模型,我們將47個(gè)角度的光場(chǎng)描述子特征(light field)[34]拼接得到4 700維特征.
3.2.2 兩種媒體相互檢索
由于現(xiàn)有方法往往僅針對(duì)兩種媒體的跨媒體檢索任務(wù),且以圖像和文本相互檢索為主,為了更全面地與現(xiàn)有方法進(jìn)行實(shí)驗(yàn)比較,本文也進(jìn)行了圖像和文本相互檢索的實(shí)驗(yàn),包括兩個(gè)檢索任務(wù):圖像檢索文本(Image?Text)和文本檢索圖像(Text?Image).實(shí)驗(yàn)結(jié)果評(píng)估同樣采用了第3.2.1節(jié)中提到的MAP指標(biāo),這里需要說(shuō)明的是,本文中的 MAP值通過(guò)計(jì)算每個(gè)樣例返回的所有檢索結(jié)果得到,與 Corr-AE[8]以及 ACMR[26]中僅使用前 50個(gè)返回結(jié)果的計(jì)算方式不同.圖像文本相互檢索的實(shí)驗(yàn)對(duì)比了 12種現(xiàn)有方法,包括 6種傳統(tǒng)跨媒體檢索方法:CCA[11]、CFA[18]、KCCA[17]、JRL[10]、S2UPG[28]和LGCFL[9],以及6種基于深度學(xué)習(xí)的跨媒體檢索方法:Corr-AE[8]、DCCA[22]、Deep-SM[23]、CMDN[15]、CCL[24]和 ACMR[26].為了實(shí)驗(yàn)的公平對(duì)比,如第 3.2.1 節(jié)中所述,所有對(duì)比方法的圖像和文本都使用了相同的輸入特征.本文代碼已經(jīng)發(fā)布在https://github.com/PKU-ICSTMIPL,對(duì)比方法JRL[10]、S2UPG[28]、CMDN[15]和CCL[24]的發(fā)布代碼也在此目錄下.
3.3.1 5種媒體交叉檢索
5種媒體交叉檢索的實(shí)驗(yàn)結(jié)果見(jiàn)表3和表4.從對(duì)比結(jié)果可以看出,本文提出的方法在兩個(gè)數(shù)據(jù)集上均超過(guò)了所有對(duì)比方法,跨媒體檢索的準(zhǔn)確率有比較明顯的提升.以 PKU XMediaNet數(shù)據(jù)集為例,平均檢索準(zhǔn)確率從0.303提升到0.366.對(duì)比方法中,基于深度網(wǎng)絡(luò)的Deep-SM方法未能超過(guò)另外兩種基于傳統(tǒng)框架的方法JRL和S2UPG,因?yàn)槠渲豢紤]了粗粒度的全局語(yǔ)義信息,沒(méi)有考慮不同媒體數(shù)據(jù)之間的分布差異.而本文方法充分挖掘了不同媒體數(shù)據(jù)內(nèi)部的細(xì)粒度上下文信息,同時(shí)結(jié)合語(yǔ)義對(duì)齊和分布對(duì)齊來(lái)優(yōu)化不同媒體數(shù)據(jù)到統(tǒng)一空間的映射,更好地克服了5種媒體之間的異構(gòu)鴻溝問(wèn)題.
Table 3 Results of cross-media retrieval with five media types on PKU XMedia dataset表3 PKU XMedia數(shù)據(jù)集上的5種媒體交叉檢索結(jié)果
Table 4 Results of cross-media retrieval with five media types on PKU XMediaNet dataset表4 PKU XMediaNet數(shù)據(jù)集上的5種媒體交叉檢索結(jié)果
3.3.2 兩種媒體相互檢索
圖像文本相互檢索的實(shí)驗(yàn)結(jié)果見(jiàn)表5和表6,本文提出的方法在兩個(gè)數(shù)據(jù)集上同樣超過(guò)了12種對(duì)比方法,表明本文方法在兩種媒體相互檢索的場(chǎng)景下同樣具有很好的效果.對(duì)比方法中,傳統(tǒng)方法和基于深度學(xué)習(xí)的方法的檢索準(zhǔn)確率并沒(méi)有很大的差異,一些傳統(tǒng)方法甚至超過(guò)了部分基于深度學(xué)習(xí)的方法,例如JRL[10]、S2UPG[28]和 LGCFL[22].另一方面,CCL[24]方法采用多任務(wù)學(xué)習(xí)的方式同時(shí)考慮粗細(xì)粒度的信息,在對(duì)比方法中取得了最好的結(jié)果.而本文方法不僅充分挖掘了數(shù)據(jù)內(nèi)部的細(xì)粒度信息,還考慮到了它們之間的上下文關(guān)系,有效地學(xué)習(xí)了兩種媒體類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系.
Table 5 Results of cross-media retrieval between image and text on PKU XMedia dataset表5 PKU XMedia數(shù)據(jù)集上的兩種媒體相互檢索結(jié)果
Table 6 Results of cross-media retrieval between image and text on PKU XMediaNet dataset表6 PKU XMediaNet數(shù)據(jù)集上的兩種媒體相互檢索結(jié)果
為了驗(yàn)證本文方法各個(gè)部分的效果,我們進(jìn)一步進(jìn)行了基線實(shí)驗(yàn)的對(duì)比,其中,“無(wú)三元組損失”表示去掉語(yǔ)義對(duì)齊關(guān)聯(lián)損失函數(shù)(見(jiàn)公式(5))中的三元組損失函數(shù)(見(jiàn)公式(7))部分,“無(wú) MMD損失”表示去掉分布對(duì)齊關(guān)聯(lián)損失函數(shù)(見(jiàn)公式(8)),“基線方法”表示同時(shí)去掉上述兩個(gè)部分,僅使用語(yǔ)義類別信息(見(jiàn)公式(6))來(lái)約束不同媒體類型數(shù)據(jù)到統(tǒng)一空間的映射.從表 7和表 8可以看出,僅使用語(yǔ)義類別約束的平均檢索準(zhǔn)確率也同樣高于 3種對(duì)比方法的結(jié)果,表明充分利用數(shù)據(jù)內(nèi)部的細(xì)粒度上下文信息能夠更有效地建模不同媒體類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,而三元組損失函數(shù)和分布對(duì)齊損失函數(shù)能夠使模型在擁有語(yǔ)義辨識(shí)能力的同時(shí),有效地將不同媒體類型數(shù)據(jù)的分布在統(tǒng)一空間內(nèi)對(duì)齊,進(jìn)一步提高了跨媒體檢索的準(zhǔn)確率.
Table 7 Baseline experiments on PKU XMedia dataset表7 PKU XMedia數(shù)據(jù)集上的基線實(shí)驗(yàn)結(jié)果
Table 8 Baseline experiments on PKU XMediaNet dataset表8 PKU XMediaNet數(shù)據(jù)集上的基線實(shí)驗(yàn)結(jié)果
本文提出了跨媒體深層細(xì)粒度關(guān)聯(lián)學(xué)習(xí)方法,首先提出跨媒體循環(huán)神經(jīng)網(wǎng)絡(luò)以充分挖掘多達(dá) 5種媒體類型數(shù)據(jù)的細(xì)粒度上下文信息,然后設(shè)計(jì)了跨媒體聯(lián)合關(guān)聯(lián)損失函數(shù),將分布對(duì)齊和語(yǔ)義對(duì)齊相結(jié)合,在準(zhǔn)確挖掘媒體內(nèi)和媒體間細(xì)粒度關(guān)聯(lián)的同時(shí),利用語(yǔ)義類別信息增強(qiáng)關(guān)聯(lián)學(xué)習(xí)過(guò)程中的語(yǔ)義辨識(shí)能力,有效提升了跨媒體檢索的準(zhǔn)確率.通過(guò)在兩個(gè)包含多達(dá)5種媒體類型(圖像、視頻、文本、音頻和3D模型)的跨媒體數(shù)據(jù)集PKU XMedia和PKU XMediaNet上與現(xiàn)有方法進(jìn)行實(shí)驗(yàn)對(duì)比,表明了本文方法在多種媒體交叉檢索任務(wù)的有效性.
下一步工作將嘗試擴(kuò)展現(xiàn)有框架,在不同尺度上挖掘跨媒體數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,同時(shí)充分利用無(wú)標(biāo)注數(shù)據(jù)并結(jié)合外部知識(shí)庫(kù)以進(jìn)一步提升跨媒體檢索的準(zhǔn)確率.