張璐
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
近年來,由于多媒體數(shù)據(jù)的快速增長(zhǎng),跨模態(tài)檢索這一研究領(lǐng)域吸引了學(xué)者們的廣泛關(guān)注。跨模態(tài)檢索的任務(wù)是用一種模態(tài)數(shù)據(jù)作為查詢條件,檢索相關(guān)語義的另一種模態(tài)的數(shù)據(jù)。該研究領(lǐng)域的核心問題和難點(diǎn)是如何去衡量不同模態(tài)數(shù)據(jù)的內(nèi)容相似度,同時(shí)目前的研究致力于提高檢索的精度。2017年,B.Wang等人第一次提出了將生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks)[1]應(yīng)用到跨模態(tài)檢索問題的方法ACMR(Adversarial Cross-Modal Retrieval)[2],該方法中使用對(duì)抗學(xué)習(xí)來使得文本和圖像兩種模態(tài)數(shù)據(jù)的特征分布趨于一致,可以有效地尋找不同模態(tài)的共同子空間。2018年,出現(xiàn)了更多使用對(duì)抗學(xué)習(xí)進(jìn)行跨模態(tài)檢索的研究方法,并在公開數(shù)據(jù)集上取得了優(yōu)秀的效果,進(jìn)一步證明了對(duì)抗學(xué)習(xí)在跨模態(tài)檢索問題上的有效性和研究?jī)r(jià)值。
跨模態(tài)檢索的一般步驟分為三步,如圖1所示。第一步是對(duì)不同模態(tài)的數(shù)據(jù)進(jìn)行特征提取,第二步是進(jìn)行跨模態(tài)相關(guān)性建模,第三步是對(duì)檢索結(jié)果進(jìn)行排序??缒B(tài)檢索方法大致分為兩類,一類是基于實(shí)值特征學(xué)習(xí)的方法,另一類是基于二值特征學(xué)習(xí)的方法[3]。先進(jìn)的實(shí)值特征學(xué)習(xí)方法包括 CCA[4]、Corr-AE[5]、LCFS[6]、JRL[7],先進(jìn)的二值特征學(xué)習(xí)方法包括 CMSSH[8]、SCM[9]、SePH[10]、DCMH[11]。雖然二值特征會(huì)損失部分信息,但是由于采用位運(yùn)算,二值特征學(xué)習(xí)方法在檢索速度上優(yōu)于實(shí)值特征學(xué)習(xí)方法。
圖1 跨模態(tài)檢索的總體框架[3]
Ian J.Goodfellow等人在2014年提出了生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks),該網(wǎng)絡(luò)的原理是利用零和博弈的思想,讓網(wǎng)絡(luò)結(jié)構(gòu)中負(fù)責(zé)生成偽造數(shù)據(jù)的生成器(Generator)和負(fù)責(zé)鑒別真實(shí)數(shù)據(jù)與偽造數(shù)據(jù)的判別器(Discriminator)進(jìn)行對(duì)抗訓(xùn)練,從而讓生成器學(xué)習(xí)到正確的數(shù)據(jù)分布。GAN相比較于傳統(tǒng)的模型,不同點(diǎn)在于它擁有兩個(gè)不同的網(wǎng)絡(luò),訓(xùn)練的時(shí)候采用的是對(duì)抗訓(xùn)練,其中生成器的梯度更新信息來源于判別器而不是真實(shí)的數(shù)據(jù)樣本。在跨模態(tài)檢索領(lǐng)域,對(duì)抗學(xué)習(xí)中的判別器通常替換為一個(gè)進(jìn)行二分類的分類器,判別生成的數(shù)據(jù)是文本模態(tài)或者圖片模態(tài),來使得生成器生成模態(tài)不變的共同特征。
對(duì)抗跨模態(tài)檢索是第一個(gè)將對(duì)抗學(xué)習(xí)應(yīng)用到跨模態(tài)檢索問題的論文。該方法是一個(gè)實(shí)值特征學(xué)習(xí)方法。該方法使用特征生成器和模態(tài)分類器組成的對(duì)抗網(wǎng)絡(luò)生成具有模態(tài)間不變性和模態(tài)內(nèi)判別性的共同特征。特征生成器由標(biāo)簽預(yù)測(cè)和結(jié)構(gòu)保存兩個(gè)模塊組成。標(biāo)簽預(yù)測(cè)模塊以圖片和文本的特征匹配對(duì)為輸入,輸出該匹配對(duì)的語義類別概率分布,損失函數(shù)表示為:
其中yi表示圖片和文本匹配對(duì)的真實(shí)的類別標(biāo)簽向量,log和log分別表示圖像和文本的多標(biāo)簽分類概率。優(yōu)化該損失函數(shù)的目的是保存特征的模態(tài)內(nèi)判別性。結(jié)構(gòu)保存模塊引入了三元組約束和模態(tài)間不變性損失。損失函數(shù)表示為:
其中mi表示輸入的文本或者圖片特征的模態(tài)標(biāo)簽,是一個(gè)one-hot向量。D(vi;θD)和 D(ti;θD)分別表示預(yù)測(cè)輸入特征為文本或者圖片模態(tài)的概率。對(duì)抗訓(xùn)練的過程是在一次迭代中固定特征生成器或者模態(tài)分類器的參數(shù),最小化正在訓(xùn)練的模塊的損失函數(shù)來進(jìn)行優(yōu)化的,這兩個(gè)子進(jìn)程可以表示為:
自監(jiān)督對(duì)抗哈希網(wǎng)絡(luò)跨模態(tài)檢索[12]是一個(gè)二值特征學(xué)習(xí)方法。該方法使用自監(jiān)督語義生成網(wǎng)絡(luò)和對(duì)抗學(xué)習(xí)來保存生成的統(tǒng)一的哈希碼的語義相關(guān)性和分布一致性。該方法利用自監(jiān)督語義生成網(wǎng)絡(luò)生成保存圖像和文本語義信息的標(biāo)簽的語義特征,并使得圖像和文本的生成網(wǎng)絡(luò)學(xué)習(xí)到的特征對(duì)齊語義特征,以此建立文本和圖像特征的語義關(guān)聯(lián)。利用兩個(gè)模態(tài)分類器對(duì)輸入的語義特征或者文本和圖像特征進(jìn)行模態(tài)分類,以此在對(duì)抗學(xué)習(xí)中學(xué)習(xí)不同模態(tài)特征分布的一致性。自監(jiān)督語義生成網(wǎng)絡(luò)的損失函數(shù)表示為:
該損失函數(shù)表示模態(tài)分類器分類錯(cuò)誤的個(gè)數(shù)。對(duì)抗學(xué)習(xí)的損失函數(shù)表示為:
對(duì)抗訓(xùn)練時(shí)固定生成網(wǎng)絡(luò)或者判別網(wǎng)絡(luò)的參數(shù),優(yōu)化另一個(gè)網(wǎng)絡(luò)中的參數(shù)。
基于注意力機(jī)制的深度對(duì)抗哈??缒B(tài)檢索[13]是一個(gè)二值特征學(xué)習(xí)方法。該方法引入注意力機(jī)制去檢測(cè)多媒體數(shù)據(jù)中有益于不同模態(tài)數(shù)據(jù)進(jìn)行相似度比較的信息量大的區(qū)域,即受關(guān)注區(qū)域。使用深度對(duì)抗哈希去學(xué)習(xí)有效的注意力掩碼和哈希碼,通過實(shí)驗(yàn)驗(yàn)證了注意力機(jī)制在跨模態(tài)哈希方法中的有效性。該方法包括三個(gè)模塊,分別是特征學(xué)習(xí)模塊,注意力模塊和哈希模塊。特征學(xué)習(xí)模塊用于提取圖像和文本的特征,注意力模塊學(xué)習(xí)注意力掩碼用于區(qū)分圖像與文本的受關(guān)注區(qū)域和不受關(guān)注區(qū)域,哈希模塊用于將圖像和文本的受關(guān)注區(qū)域特征和不受關(guān)注區(qū)域特征分別轉(zhuǎn)換成對(duì)應(yīng)的哈希碼。特征學(xué)習(xí)模塊和注意力模塊對(duì)應(yīng)對(duì)抗學(xué)習(xí)中的生成器,哈希模塊對(duì)應(yīng)對(duì)抗學(xué)習(xí)中的判別器。該方法引入了跨模態(tài)檢索損失和對(duì)抗檢索損失對(duì)網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化??缒B(tài)檢索損失函數(shù)表示為:
其中A和B表示不同的模態(tài),HiA和HjB是語義相同的不同模態(tài)的哈希碼,HiA和HkB是不同語義不同模態(tài)的哈希碼,優(yōu)化該損失函數(shù)的目的是保存哈希碼的語義相似性。對(duì)抗檢索損失表示為:
哈希模塊優(yōu)化該損失函數(shù)的目的是盡量讓同一語義不同模態(tài)的不受關(guān)注區(qū)域保存相似性,而注意力模塊盡量區(qū)分出受關(guān)注區(qū)域和不受關(guān)注區(qū)域,讓不受關(guān)注區(qū)域不保存相似性信息。整個(gè)框架的目標(biāo)損失函數(shù)表示為:
訓(xùn)練的時(shí)候固定哈希模塊,更新特征生成模塊和注意力模塊的參數(shù):
固定特征生成模塊和注意力模塊的參數(shù),更新哈希模塊的參數(shù):
自監(jiān)督對(duì)抗哈希網(wǎng)絡(luò)與對(duì)抗跨模態(tài)檢索的區(qū)別在于后者是一個(gè)實(shí)值特征學(xué)習(xí)方法,而前者是一個(gè)二值特征學(xué)習(xí)方法;后者是讓圖像和文本的特征在擬合真實(shí)語義標(biāo)簽的過程中進(jìn)行共同決策來使得圖像和文本預(yù)測(cè)標(biāo)簽分類的概率分布趨于一致,而前者是讓圖像和文本的特征對(duì)齊真實(shí)語義標(biāo)簽的特征分布來使得特征分布趨于一致?;谧⒁饬C(jī)制的深度對(duì)抗哈希與對(duì)抗跨模態(tài)檢索的區(qū)別在于前者是一個(gè)二值方法;后者使用對(duì)抗學(xué)習(xí)來尋找共同子空間,而前者使用對(duì)抗學(xué)習(xí)處理注意力網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)。從以上內(nèi)容的介紹可以看出,基于對(duì)抗學(xué)習(xí)的跨模態(tài)檢索方法受到了廣泛的關(guān)注,且在已發(fā)表的文獻(xiàn)中呈現(xiàn)的實(shí)驗(yàn)結(jié)果也充分證明了對(duì)抗學(xué)習(xí)應(yīng)用到跨模態(tài)檢索問題上的有效性和進(jìn)一步的研究?jī)r(jià)值。