丁凱旋,陳雁翔,趙鵬鋮,朱玉鵬,盛振濤
合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥 230601
現(xiàn)如今,互聯(lián)網(wǎng)上存在海量的諸如圖像、文本以及音頻等不同形式的多模態(tài)數(shù)據(jù)。相較于單模態(tài)數(shù)據(jù),多模態(tài)數(shù)據(jù)之間的信息互補(bǔ)性使其在某些特定的任務(wù)中具有一定的優(yōu)越性[1-2]。因此,多模態(tài)機(jī)器學(xué)習(xí)在近年來取得了空前的發(fā)展。特別是跨模態(tài)表示學(xué)習(xí),其廣泛應(yīng)用于跨模態(tài)檢索[3-4]、圖像字幕生成[5-7]以及視覺問答[8-9]等領(lǐng)域中??缒B(tài)表示學(xué)習(xí)旨在擬合不同模態(tài)數(shù)據(jù)之間的異質(zhì)性差距,在特征層面建立起模態(tài)間的語義聯(lián)系并擴(kuò)大模態(tài)內(nèi)的類別差異(如圖1 所示)。早期的研究者主要利用CCA[10]進(jìn)行跨模態(tài)表示學(xué)習(xí),其通過最大程度地利用不同模態(tài)數(shù)據(jù)之間的相關(guān)性來學(xué)習(xí)公共子空間。此后CCA衍生出了許多變體,KCCA[11]通過核函數(shù)引入非線性映射,改善了CCA 單純的線性映射;DCCA[12]則利用深度學(xué)習(xí)的方法研究?jī)蓚€(gè)數(shù)據(jù)視圖的復(fù)雜非線性變換以使不同模態(tài)樣本特征的最終表示形式高度相關(guān)聯(lián);GMA[13]是CCA在監(jiān)督任務(wù)上的拓展算法,它使用數(shù)據(jù)的類別信息來學(xué)習(xí)子空間。在目前的主流方法中,跨模態(tài)表示學(xué)習(xí)一般分為兩個(gè)步驟:第一步是獲取每種模態(tài)數(shù)據(jù)對(duì)應(yīng)的特征表示,第二步是在共享子空間中建立特征間的語義關(guān)聯(lián)性以獲取良好的跨模態(tài)表示。LCFS[14]同時(shí)從兩種模態(tài)中選擇相關(guān)特征和判別特征,使學(xué)習(xí)到的子空間更加有效。ACMR[15]基于對(duì)抗學(xué)習(xí)的思想,并針對(duì)特征投影構(gòu)造了三元組損失,以最小化具有相同語義標(biāo)簽的不同模態(tài)特征表示間的語義鴻溝,同時(shí)最大化語義不相關(guān)的跨模態(tài)特征表示在子空間中的距離。DSCMR[16]通過在共享子空間和標(biāo)簽空間中最小化區(qū)別度損失來學(xué)習(xí)跨模態(tài)特征的相關(guān)性。Peng 等人[17-18]聯(lián)合模態(tài)內(nèi)和模態(tài)間的信息,通過分層學(xué)習(xí)機(jī)制來挖掘復(fù)雜的跨模態(tài)相關(guān)性,以獲得跨模態(tài)共享表示。Salvador等人[19]和Surís等人[20]借助相似度損失和正則化損失,實(shí)現(xiàn)了嚴(yán)格的跨模態(tài)特征對(duì)齊。Zeng等人[21]提出了基于Cluster-CCA 的深度三重態(tài)神經(jīng)網(wǎng)絡(luò),以此來最大化不同模態(tài)數(shù)據(jù)在共享子空間中的相關(guān)性。
圖1 跨模態(tài)表示學(xué)習(xí)的可視化Fig.1 Visualization of cross-modal representation learning
雖然跨模態(tài)表示學(xué)習(xí)領(lǐng)域碩果累累,但是仍然有很大的進(jìn)步空間。無論樣本屬于哪種模態(tài),本文將屬于相同類別的數(shù)據(jù)定義為正例,屬于不同類別的數(shù)據(jù)定義為負(fù)例。現(xiàn)有的大多數(shù)方法在特征空間僅使用少量負(fù)例進(jìn)行訓(xùn)練,未能充分利用跨模態(tài)數(shù)據(jù)集提供的類別信息來辨識(shí)類內(nèi)的區(qū)別性和類間的相關(guān)性。受到監(jiān)督對(duì)比學(xué)習(xí)[22]的啟發(fā),本文將多負(fù)例對(duì)比機(jī)制應(yīng)用到跨模態(tài)表示學(xué)習(xí)中,即在訓(xùn)練階段讓正例特征與多個(gè)負(fù)例特征之間進(jìn)行對(duì)比,使模型學(xué)習(xí)到的跨模態(tài)表示具有模態(tài)一致性和語義區(qū)分性。現(xiàn)有的跨模態(tài)任務(wù)大多聚焦于視覺模態(tài)和文本模態(tài),然而視覺和聽覺是人類與外界環(huán)境進(jìn)行交互時(shí)更為重要的媒介,并且視聽覺之間存在著十分自然的關(guān)聯(lián)性。例如,當(dāng)聽見狗叫聲時(shí),狗的樣子可能會(huì)浮現(xiàn)在腦海中。因此,有必要對(duì)視聽覺之間的關(guān)聯(lián)性進(jìn)行更為深入的研究。在此背景下,本文提出了SCCMRL 算法來進(jìn)行跨模態(tài)表示學(xué)習(xí),并將其應(yīng)用于視聽覺跨模態(tài)檢索任務(wù)中,構(gòu)建了相應(yīng)的跨模態(tài)檢索系統(tǒng),最后結(jié)合Sub_URMP數(shù)據(jù)集和XmediaNet數(shù)據(jù)集中的視聽覺數(shù)據(jù)實(shí)施了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的SCCMRL算法在跨模態(tài)表示學(xué)習(xí)過程中具有優(yōu)良的性能表現(xiàn)。綜上所述,本文的貢獻(xiàn)主要如下:
(1)提出了一種新穎的跨模態(tài)表示學(xué)習(xí)算法SCCMRL,該算法在監(jiān)督信息的指導(dǎo)下,采用端到端的學(xué)習(xí)策略,在訓(xùn)練階段引入了多負(fù)例對(duì)比機(jī)制,使相同類別的數(shù)據(jù)樣本在特征空間中的語義距離盡可能靠近,而不同類別的數(shù)據(jù)樣本的語義距離盡可能遠(yuǎn)離。與此同時(shí),SCCMRL 利用標(biāo)簽損失和中心損失進(jìn)一步維護(hù)跨模態(tài)表示的模態(tài)一致性和語義區(qū)分性。
(2)將學(xué)習(xí)到的跨模態(tài)表示應(yīng)用于跨模態(tài)視聽檢索任務(wù),構(gòu)建出視聽跨模態(tài)檢索系統(tǒng),并且針對(duì)Sub_URMP數(shù)據(jù)集和XmediaNet數(shù)據(jù)集實(shí)施了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了SCCMRL方法要優(yōu)于現(xiàn)有的跨模態(tài)表示學(xué)習(xí)方法。
負(fù)例對(duì)比損失函數(shù)即利用正負(fù)例之間對(duì)比來突出類間區(qū)別性,其廣泛應(yīng)用于人臉識(shí)別和視聽覺對(duì)應(yīng)等領(lǐng)域中,其中比較有代表性的是contrastive loss[23]和triplet loss[24]。
表示學(xué)習(xí)的核心就是學(xué)習(xí)一個(gè)映射函數(shù)f,把樣本x編碼成其表示f(x)。而對(duì)比學(xué)習(xí)就是使得f滿足公式(3):
公式中的分子即錨樣本與正樣本的向量積,分母則為錨樣本與正樣本的向量積加上錨樣本與所有負(fù)樣本向量積的和。在優(yōu)化該式的過程中錨樣本與正樣本的向量積逐漸增大,即距離縮?。诲^樣本與負(fù)樣本的向量積逐漸縮小,即距離增大。實(shí)際上,這種對(duì)比思想已經(jīng)廣泛應(yīng)用于自監(jiān)督學(xué)習(xí)領(lǐng)域并取得了良好的效果。He 等人[25]提出負(fù)例樣本數(shù)量在對(duì)比學(xué)習(xí)中十分重要,并采用動(dòng)量更新的訓(xùn)練方式來解決內(nèi)存庫(kù)和端到端這兩種方式在大樣本數(shù)量下的所存在的問題。Dai等人[26]使用對(duì)比學(xué)習(xí)來解決圖像字幕中標(biāo)題文本可區(qū)別性的問題。Oord 等人[27]則是通過自回歸模型與InfoNCE 損失建立真實(shí)幀與預(yù)測(cè)幀之間的對(duì)比關(guān)系。
以往的檢索工作只關(guān)注單一模態(tài)[28],而跨模態(tài)檢索的目標(biāo)是實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)間的相互檢索,其首先需要解決的問題就是如何消除不同模態(tài)數(shù)據(jù)樣本之間的異質(zhì)性差距,因?yàn)檫@種異質(zhì)性差距使得多模態(tài)數(shù)據(jù)表示間的特征相似性變得難以度量[29]。通過將不同模態(tài)特征投射到子空間,進(jìn)而在子空間中學(xué)習(xí)到不同模態(tài)間的共生關(guān)系。Ngiam等人[30]、Wang等人[31]利用深度卷積神經(jīng)網(wǎng)絡(luò)提取不同模態(tài)的特征并建立其對(duì)應(yīng)的跨模態(tài)語義聯(lián)系。Kumar等人[32]、Ding等人[33]以及Wang等人[34]則利用哈希變換將不同模態(tài)特征映射到一個(gè)漢明二值空間,然后在漢明空間實(shí)現(xiàn)快速的跨模態(tài)檢索。
跨模態(tài)檢索的方法大多應(yīng)用于圖文檢索,然而視覺與聽覺是人類與外部世界進(jìn)行交互的重要媒介,因此有必要研究如何實(shí)現(xiàn)視聽跨模態(tài)檢索?,F(xiàn)有的一些研究已經(jīng)對(duì)視聽跨模態(tài)檢索進(jìn)行相當(dāng)深入的探究。Zeng等人[21]利用聚類CCA 和深度三重神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)使得視頻與語音的正負(fù)例特征之間的區(qū)別更加明顯。Surís 等人[20]則利用分類損失和相似度損失將視聽覺模態(tài)數(shù)據(jù)投射到一個(gè)共同特征空間,以此來獲取聯(lián)合的視聽覺表示。
本章將介紹提出的多負(fù)例對(duì)比機(jī)制下的跨模態(tài)表示學(xué)習(xí)方法(SCCMRL)。該部分首先對(duì)本文的研究方法進(jìn)行一個(gè)簡(jiǎn)單的表述,然后闡述SCCMRL 的整體架構(gòu)和所構(gòu)建的損失函數(shù),最后介紹了網(wǎng)絡(luò)在訓(xùn)練與優(yōu)化過程中所使用的策略。
目前,多負(fù)例對(duì)比機(jī)制已經(jīng)廣泛應(yīng)用于自監(jiān)督表示學(xué)習(xí)中。然而自監(jiān)督任務(wù)沒有提供標(biāo)簽,通常只能對(duì)錨樣本進(jìn)行數(shù)據(jù)增強(qiáng)來獲取正例,而將數(shù)據(jù)集中其余的樣本都視作負(fù)例。但這樣的負(fù)例中極有可能會(huì)出現(xiàn)與錨樣本屬于同一類別的樣本,造成了假負(fù)例現(xiàn)象,從而使對(duì)比學(xué)習(xí)在拉遠(yuǎn)正例與這種假負(fù)例特征之間距離的過程中獲得了壞的樣本表示。本文受到監(jiān)督對(duì)比學(xué)習(xí)[22]的啟發(fā),在監(jiān)督信息的指導(dǎo)下將多負(fù)例對(duì)比機(jī)制與跨模態(tài)表示學(xué)習(xí)相結(jié)合,提出了SCCMRL 方法。該方法在標(biāo)簽信息的指導(dǎo)下允許每個(gè)錨樣本有多個(gè)正例,消除了假負(fù)例現(xiàn)象,并且通過與多負(fù)例樣本特征之間的對(duì)比,使得正例之間的語義距離更近,負(fù)例之間的語義距離更遠(yuǎn),從而維護(hù)了跨模態(tài)表示在共享子空間中的模態(tài)一致性和語義區(qū)分性。在這項(xiàng)工作中,僅關(guān)注并研究了視覺模態(tài)數(shù)據(jù)(圖片)和聽覺模態(tài)數(shù)據(jù)(語音)。將第j個(gè)圖
SCCMRL 的目標(biāo)是把跨模態(tài)數(shù)據(jù)投射到一個(gè)共享子空間中以獲取跨模態(tài)表示,并且該跨模態(tài)表示在共享子空間中應(yīng)具有模態(tài)一致性和語義區(qū)分性。因此,基于該目標(biāo)構(gòu)建了SCCMRL 的總體模型架構(gòu),如圖2 所示。該模型是以端到端的方式進(jìn)行訓(xùn)練,其包含了視覺編碼器和音頻編碼器這兩個(gè)子網(wǎng)絡(luò)。視覺子網(wǎng)絡(luò)和音頻子網(wǎng)絡(luò)參考了L3-Net[35],具體參數(shù)細(xì)節(jié)如圖3 所示,其中圖(a)是視覺編碼器的參數(shù)細(xì)節(jié),圖(b)是音頻編碼器的參數(shù)細(xì)節(jié);每一部分中的藍(lán)色矩形塊代表卷積層,黃色矩形塊代表池化層,每個(gè)塊內(nèi)第一行代表層的名稱,第二行代表層的參數(shù):卷積層的參數(shù)分別表示卷積核的大小和通道數(shù);池化層的參數(shù)表示步幅的大小,并且沒有填充;每個(gè)卷積層之后是批歸一化層和ReLU非線性激活函數(shù)。視覺編碼器的輸入為224×224×3的圖片,音頻編碼器的輸入為257×200×3的聲譜圖,在視覺編碼器和音頻編碼器后還分別添加了一個(gè)全連接層,最終獲得維度一致的圖片特征fI和語音特征fA,然后針對(duì)fI和fA設(shè)計(jì)監(jiān)督對(duì)比損失函數(shù),從而使正例特征與多個(gè)負(fù)例特征形成對(duì)比,讓正例特征之間的語義距離更加接近,并逐漸拉開正例特征與這些負(fù)例特征之間的語義距離。假設(shè)在共享子空間中獲取到良好的視覺表示與聽覺表示,那么這種表示對(duì)于分類任務(wù)來說也必然是理想的。因此,SCCMRL 模型在原有的視覺編碼器和音頻編碼器后連接一個(gè)共享權(quán)重的線性分類層,通過該線性分類層,圖片和語音的類別特征xI和xA也被捕捉到,利用類別特征與標(biāo)簽信息分別計(jì)算中心損失與標(biāo)簽損失。通過這樣的模型結(jié)構(gòu)設(shè)計(jì),跨模態(tài)特征的模態(tài)一致性和語義區(qū)分性能夠很好地被學(xué)習(xí)。SCCMRL 模型的總損失定義為標(biāo)簽預(yù)測(cè)損失、中心損失、監(jiān)督對(duì)比損失的加權(quán)和,各損失函數(shù)的定義詳見下文所述。
圖2 SCCMRL模型的總體結(jié)構(gòu)Fig.2 Overall structure of SCCMRL model
圖3 視覺編碼器和音頻編碼器的參數(shù)細(xì)節(jié)Fig.3 Detailed parameters of visual encoder and audio encoder
2.2.1 監(jiān)督對(duì)比損失(supervised contrastive loss)
監(jiān)督對(duì)比損失采用多負(fù)例對(duì)比機(jī)制,能夠使得訓(xùn)練集中不同類別樣本間的數(shù)據(jù)特征距離更遠(yuǎn),同時(shí)使得相同類別樣本間的數(shù)據(jù)特征距離更近。此外,要想實(shí)現(xiàn)監(jiān)督對(duì)比損失,正例與負(fù)例的定義至關(guān)重要。給出一個(gè)錨樣本數(shù)據(jù),無論它屬于哪種模態(tài),將正例定義為與錨樣本屬于同一類別的樣本數(shù)據(jù),負(fù)例定義為與錨樣本屬于不同類別的樣本數(shù)據(jù)。即正負(fù)例的定義只關(guān)注樣本數(shù)據(jù)是否屬于同一類別,而不關(guān)注它們是否屬于同一模態(tài)。因此,錨數(shù)據(jù)與正例構(gòu)成正樣本對(duì),錨數(shù)據(jù)與負(fù)例構(gòu)成負(fù)樣本對(duì)。監(jiān)督對(duì)比損失中的得分函數(shù)要求能夠?qū)φ龢颖緦?duì)產(chǎn)生高值,對(duì)負(fù)樣本對(duì)產(chǎn)生低值。一般地,可以選擇點(diǎn)積和余弦距離作為得分函數(shù),這項(xiàng)工作中把得分函數(shù)定義為公共子空間中的樣本特征的點(diǎn)積。在監(jiān)督對(duì)比編碼中,每個(gè)批次中的某個(gè)錨樣本可能會(huì)有多個(gè)樣本和它屬于同一類別,包括相同模態(tài)和不同模態(tài)。因此SCCMRL中的監(jiān)督對(duì)比損失定義如下:
其中N為批次大小,yi代表批次中第i個(gè)樣本的類別標(biāo)簽,yj表批次中第j個(gè)樣本的類別標(biāo)簽,Nyi表示批次中類別為yi的樣本總數(shù),g(·)的函數(shù)定義為:當(dāng)下標(biāo)·式為真時(shí)函數(shù)值為1,否則為0。因此,當(dāng)fi代表錨樣本的特征,fj表示正例樣本的特征,fk表示批次中除fi之外所有的樣本特征,T代表溫度超參。公式(5)表示單個(gè)錨樣本fi在這個(gè)批次里所貢獻(xiàn)的監(jiān)督對(duì)比損失,公式(6)表示輪流將批次里的數(shù)據(jù)作為錨樣本來計(jì)算總的監(jiān)督對(duì)比損失。當(dāng)優(yōu)化整個(gè)損失函數(shù)時(shí),錨樣本與正例之間的點(diǎn)積增大(即余弦距離縮?。?,而錨樣本與負(fù)例之間的點(diǎn)積減小(即余弦距離增大)。從損失函數(shù)的定義可以看出,由于提供了類別標(biāo)簽,監(jiān)督對(duì)比損失在每個(gè)批次里可以處理任意數(shù)量的正例樣本,并且對(duì)于每個(gè)錨樣本,監(jiān)督對(duì)比損失都會(huì)將它與批次中的所有負(fù)例進(jìn)行對(duì)比,以使正樣本對(duì)特征之間更加緊湊,負(fù)樣本對(duì)特征之間更加稀疏。因此,通過這種方式獲得的跨模態(tài)表示既具有模態(tài)一致性又具有語義區(qū)分性。
2.2.2 標(biāo)簽損失(label loss)
在進(jìn)行特征提取后,SCCMRL 模型在視覺編碼器和音頻編碼器后分別添加一個(gè)共享權(quán)重的線性分類
算法1 SCCMRL的優(yōu)化步驟
SCCMRL 模型總損失被定義為標(biāo)簽損失、中心損失和監(jiān)督對(duì)比損失的加權(quán)之和,即:
其中α、β、γ分別為標(biāo)簽損失、中心損失和監(jiān)督對(duì)比損失的權(quán)重系數(shù)。在這項(xiàng)工作中,將α、β、γ分別設(shè)置為0.05、0.05、0.9。初始學(xué)習(xí)率設(shè)置為0.01,采用變動(dòng)學(xué)習(xí)率的策略,每30 輪后學(xué)習(xí)率降為原來的1/10。使用Adam優(yōu)化器對(duì)SCCMRL模型進(jìn)行優(yōu)化,并使用端到端的訓(xùn)練策略。此外,SCCMRL 是基于Pytorch 框架進(jìn)行模型的設(shè)計(jì)與搭建,并在一塊NVIDIA GTX 1080Ti GPU 進(jìn)行訓(xùn)練。算法1 中展示了SCCMRL 的訓(xùn)練步驟與優(yōu)化細(xì)節(jié)。
本文使用Sub_URMP 數(shù)據(jù)集和XmediaNet 數(shù)據(jù)集作為實(shí)驗(yàn)的基準(zhǔn)數(shù)據(jù)集。為了驗(yàn)證所提出的SCCMRL模型的有效性,在這兩種不同的視聽數(shù)據(jù)集上實(shí)施了兩種任務(wù):跨模態(tài)檢索和多模態(tài)分類。跨模態(tài)檢索展示了SCCMRL 模型能夠很好地建立不同模態(tài)數(shù)據(jù)的語義相關(guān)性,多模態(tài)分類則表明SCCMRL 模型能夠捕捉各種模態(tài)內(nèi)的語義區(qū)分性。
3.1.1 Sub_URMP數(shù)據(jù)集
Sub_URMP 數(shù)據(jù)集是URMP(University of Rochester Multimodal Music Performance)數(shù)據(jù)集的子集,由羅切斯特大學(xué)于2016年發(fā)布。Sub_URMP數(shù)據(jù)集中包含13 類樂器(巴松管、大提琴等)的視聽覺雙模態(tài)信息,分別是樂器演奏的音頻和對(duì)應(yīng)的圖片。整個(gè)數(shù)據(jù)集是在高清視頻下裁剪得到的,在同一個(gè)樂器演奏視頻下每隔0.5 s截取音頻和圖片,人為地刪去了其中的無聲音頻和其對(duì)應(yīng)的圖片,并選擇其中的部分作為訓(xùn)練所用,最后得到了8 151張圖片和對(duì)應(yīng)的音頻。
3.1.2 XmediaNet數(shù)據(jù)集
XmediaNet 數(shù)據(jù)集是北京大學(xué)專為跨模態(tài)檢索任務(wù)而設(shè)計(jì)的大規(guī)模多模態(tài)數(shù)據(jù)集,其包含文本、圖像、視頻、音頻以及3D 模型這5 種模態(tài)的數(shù)據(jù),包含超過100 000個(gè)實(shí)例的樣本數(shù)據(jù)。選擇其中的圖片模態(tài)和音頻模態(tài)進(jìn)行實(shí)驗(yàn)。圖片和音頻都包含多個(gè)類別,例如狗叫聲、鬧鐘、鍵盤打字等。其中的一些特殊對(duì)象,例如自行車、鬧鈴、門鈴,統(tǒng)一用鈴聲作為對(duì)應(yīng)的音頻;小船、小汽車、公共汽車統(tǒng)一用引擎聲作為對(duì)應(yīng)的音頻。對(duì)于這樣的情況,在數(shù)據(jù)集中只保留其中一種對(duì)象。由于語音片段長(zhǎng)度不固定,需要將其統(tǒng)一分割為1 s的語音長(zhǎng)度,并通過LMS算法將語音片段生成聲譜圖,最后獲得24個(gè)類別共計(jì)2 448張圖片和2 994個(gè)聲譜圖組成的數(shù)據(jù)集。
為了驗(yàn)證所提出模型的有效性,對(duì)其進(jìn)行了跨模態(tài)檢索實(shí)驗(yàn),通過對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)來定量地驗(yàn)證SCCMRL 模型的性能表現(xiàn),并直觀地展示了跨模態(tài)檢索的結(jié)果。
3.2.1 對(duì)比實(shí)驗(yàn)
將mAP(mean average precision)作為跨模態(tài)檢索性能好壞的評(píng)估標(biāo)準(zhǔn)。mAP是跨模態(tài)檢索領(lǐng)域一個(gè)經(jīng)典的評(píng)估標(biāo)準(zhǔn),它是對(duì)查詢樣本和所有返回的檢索樣本之間進(jìn)行余弦相似度或歐式距離的計(jì)算(實(shí)驗(yàn)中選擇余弦相似度),綜合考慮了檢索結(jié)果的精確度和排序信息。在具體的跨模態(tài)檢索實(shí)驗(yàn)中,實(shí)施兩種不同的任務(wù):用查詢圖片檢索語音樣本(Img2Aud)和用查詢語音檢索圖片樣本(Aud2Img),并進(jìn)行了兩組對(duì)比實(shí)驗(yàn)如下:
(1)與僅使用少量負(fù)例損失的模型進(jìn)行比較
為了證明多負(fù)例對(duì)比機(jī)制在跨模態(tài)表示學(xué)習(xí)過程中確實(shí)優(yōu)于少負(fù)例對(duì)比機(jī)制,對(duì)比了supervised contrastive loss(Sup loss)、contrastive loss(Con loss)以 及triplet loss(Tri loss)在跨模態(tài)表示學(xué)習(xí)中的表現(xiàn)。為了減少客觀因素對(duì)實(shí)驗(yàn)結(jié)果的影響,在實(shí)驗(yàn)中摒棄了center loss(Cen loss)和label loss(Lab loss),并且將權(quán)重系數(shù)均設(shè)置為1。
表1 和表2 展示了Sup loss、Con loss 和Tri loss 在跨模態(tài)檢索任務(wù)中的表現(xiàn),從中可以看出Sup loss在跨模態(tài)表示學(xué)習(xí)中的表現(xiàn)明顯優(yōu)于Con loss 和Tri loss。由此證明,相較于使用少量負(fù)例對(duì)比的損失函數(shù),采用多負(fù)例對(duì)比機(jī)制的監(jiān)督對(duì)比損失能夠更加有效的形成類間區(qū)別性,從而獲取更為優(yōu)秀的跨模態(tài)表示。
表1 不同損失函數(shù)在Sub_URMP數(shù)據(jù)集上的表現(xiàn)(mAP)Table 1 Performance(mAP)of different loss functions on Sub_URMP dataset
表2 不同損失函數(shù)在XmediaNet數(shù)據(jù)集上的表現(xiàn)(mAP)Table 2 Performance(mAP)of different loss functions on XmediaNet dataset
(2)與當(dāng)前常用的跨模態(tài)檢索方法進(jìn)行比較
現(xiàn)有的大多數(shù)跨模態(tài)表示學(xué)習(xí)方法都是聚焦于圖片和文本模態(tài)之間的跨模態(tài)檢索,SCCMRL 很難直接同它們進(jìn)行比較。雖然不同模態(tài)的特征提取方法不盡相同,但在特征提取后的處理方式基本相似。因此對(duì)現(xiàn)有的模型進(jìn)行細(xì)微的修改,將文本編碼器替換為音頻編碼器,整體模型結(jié)構(gòu)仍與原有方法保持一致。最后,將它們應(yīng)用到Sub_URMP數(shù)據(jù)集和XmediaNet數(shù)據(jù)集上,并和所提出的模型SCCMRL進(jìn)行實(shí)驗(yàn)結(jié)果的對(duì)比。表3 和表4 展示了SCCMRL 模型和一些現(xiàn)有方法在兩種視聽數(shù)據(jù)集(Sub_URMP 和XmediaNet)上的表現(xiàn)。從兩張表中的數(shù)據(jù)可以看出,SCCMRL 的表現(xiàn)要優(yōu)于目前常用的跨模態(tài)檢索模型。
表3 不同模型在Sub_URMP數(shù)據(jù)集上的表現(xiàn)(mAP)Table 3 Performance(mAP)of different models on Sub_URMP dataset
表4 不同模型在XmediaNet數(shù)據(jù)集上的表現(xiàn)(mAP)Table 4 Performance(mAP)of different models on XmediaNet dataset
3.2.2 消融實(shí)驗(yàn)
為了驗(yàn)證SCCMRL 模型所提出的3 種監(jiān)督對(duì)比損失對(duì)模型性能的影響,在XmediaNet 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。消融實(shí)驗(yàn)在Sup loss、Cen loss、Lab loss 系數(shù)設(shè)置為0.9、0.05、0.05的前提下進(jìn)行。
表5的實(shí)驗(yàn)結(jié)果表明了Sup loss的存在是模型表現(xiàn)優(yōu)異的主要原因,進(jìn)一步說明了多負(fù)例對(duì)比機(jī)制在跨模態(tài)表示學(xué)習(xí)中的有效性。Cen loss 和Lab loss 的添加則進(jìn)一步增強(qiáng)了不同模態(tài)表示間的模態(tài)一致性和語義區(qū)分性,對(duì)模型性能也具有一定的提升。
表5 不同損失函數(shù)在XmediaNet數(shù)據(jù)集上的表現(xiàn)(mAP)Table 5 Performance(mAP)of different loss functions on XmediaNet dataset
3.2.3 跨模態(tài)視聽檢索效果展示
除了上述對(duì)跨模態(tài)檢索結(jié)果的定量分析,還在圖4中直觀地展示了跨模態(tài)檢索的結(jié)果,圖(a)是查詢項(xiàng)(圖片或聲譜圖),圖(b)是在該查詢條件下檢索出的另一模態(tài)排名前五的結(jié)果。
圖4結(jié)果表明,無論是由圖片檢索聲譜圖或是由聲譜圖檢索圖片,SCCMRL 模型的檢索結(jié)果均對(duì)應(yīng)于查詢項(xiàng)的標(biāo)簽,直觀地表明SCCMRL 方法在跨模態(tài)檢索任務(wù)中的優(yōu)越性。
為了驗(yàn)證SCCMRL模型能夠捕捉各種模態(tài)內(nèi)的語義類別信息,將學(xué)習(xí)到的圖片表示和語音表示應(yīng)用到分類任務(wù)上,分類結(jié)果的好壞可以間接反映所學(xué)習(xí)到的跨模態(tài)特征表示的語義區(qū)分性。在目前主流的分類模型中,最經(jīng)典的方法是利用交叉熵?fù)p失,將學(xué)習(xí)到的特征向量向one-hot 標(biāo)簽拉近,再將其通過softmax 激活函數(shù),從而預(yù)測(cè)類別標(biāo)簽。將SCCMRL 模型同僅使用交叉熵?fù)p失的分類模型進(jìn)行對(duì)比,表6分別展示了兩種方法在分類實(shí)驗(yàn)上的性能表現(xiàn)。對(duì)于Sub_URMP 數(shù)據(jù)集中的圖片數(shù)據(jù)分類,二者均獲得了100%的準(zhǔn)確率;而在音頻的分類上,SCCMRL 的表現(xiàn)要略優(yōu)于傳統(tǒng)的交叉熵模型)。對(duì)于XmediaNet 數(shù)據(jù)集,其中的數(shù)據(jù)構(gòu)成相對(duì)復(fù)雜,進(jìn)而導(dǎo)致其對(duì)于分類實(shí)驗(yàn)并不友好,例如,其中的樂器圖片是由人和樂器組成的,而不是單獨(dú)的樂器圖片,并且存在易拉罐和瓶子這種在視覺效果上差別不大的圖片類別。即便如此,SCCMRL 依然實(shí)現(xiàn)了88.4%的圖片分類準(zhǔn)確率(優(yōu)于交叉熵的70.8%)和82.2%的語音分類準(zhǔn)確率(優(yōu)于交叉熵的73.3%)。總體來看,SCCMRL 方法在多模態(tài)分類任務(wù)上具有一定的優(yōu)越性,認(rèn)為這是因?yàn)楸O(jiān)督對(duì)比損失更自然地進(jìn)行正負(fù)例樣本特征之間的對(duì)比,進(jìn)而在特征空間中將同一類別的樣本表示拉近到一起,讓不同類別的樣本表示互相遠(yuǎn)離,而不是像交叉熵那樣強(qiáng)迫它們被拉向特定的one-hot標(biāo)簽。
表6 分類準(zhǔn)確率的比較Table 6 Comparison of classification accuracy單位:%
為了直觀地展示跨模態(tài)表示學(xué)習(xí)效果,選取了XmediaNet數(shù)據(jù)集中10個(gè)類別的圖片和語音數(shù)據(jù),并使用t-SNE方法將它們的特征進(jìn)行了可視化。圖5和圖6分別展示了SCCMRL方法所學(xué)習(xí)到的特征表示。從圖5 和圖6 可以看出,當(dāng)不同模態(tài)的高維特征進(jìn)行降維之后,相同類別的特征表示依然緊湊,而不同類別的表示則相距甚遠(yuǎn),進(jìn)一步反映了SCCMRL 所學(xué)習(xí)到跨模態(tài)表示兼具模態(tài)一致性和語義區(qū)分性。
圖5 圖片特征的t-SNE可視化Fig.5 t-SNE visualization of image features
圖6 語音特征的t-SNE可視化Fig.6 t-SNE visualization of audio features
提出了一種新的跨模態(tài)表示學(xué)習(xí)方法SCCMRL。相較于現(xiàn)有方法,SCCMRL在有監(jiān)督學(xué)習(xí)的形式下,引入多負(fù)例對(duì)比機(jī)制。對(duì)于不同模態(tài)的特征表示,SCCMRL利用正例特征與多個(gè)負(fù)例特征之間的對(duì)比,確保了相同類別的數(shù)據(jù)樣本在特征空間中的語義距離盡可能靠近,而不同類別的數(shù)據(jù)樣本間的語義距離盡可能遠(yuǎn)離。除此之外,SCCMRL 還在標(biāo)簽空間引入了標(biāo)簽損失和中心損失聯(lián)合來聯(lián)合優(yōu)化視覺編碼器和音頻編碼器,保證了模型學(xué)習(xí)到的跨模態(tài)表示能夠同時(shí)滿足模態(tài)一致性和語義區(qū)分性。針對(duì)兩種不同的視聽數(shù)據(jù)集,進(jìn)行了大量的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了本文提出的跨模態(tài)表示學(xué)習(xí)方法SCCMRL 要優(yōu)于現(xiàn)有的相關(guān)模型,同時(shí)論證了多負(fù)例對(duì)比機(jī)制的引入對(duì)于模型性能的提升至關(guān)重要。