多負(fù)例對(duì)比機(jī)制下的跨模態(tài)表示學(xué)習(xí)

2022-10-18 01:02丁凱旋陳雁翔趙鵬鋮朱玉鵬盛振濤

計(jì)算機(jī)工程與應(yīng)用 2022年19期

丁凱旋，陳雁翔，趙鵬鋮，朱玉鵬，盛振濤

合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院，合肥 230601

現(xiàn)如今，互聯(lián)網(wǎng)上存在海量的諸如圖像、文本以及音頻等不同形式的多模態(tài)數(shù)據(jù)。相較于單模態(tài)數(shù)據(jù)，多模態(tài)數(shù)據(jù)之間的信息互補(bǔ)性使其在某些特定的任務(wù)中具有一定的優(yōu)越性[1-2]。因此，多模態(tài)機(jī)器學(xué)習(xí)在近年來取得了空前的發(fā)展。特別是跨模態(tài)表示學(xué)習(xí)，其廣泛應(yīng)用于跨模態(tài)檢索[3-4]、圖像字幕生成[5-7]以及視覺問答[8-9]等領(lǐng)域中?？缒B(tài)表示學(xué)習(xí)旨在擬合不同模態(tài)數(shù)據(jù)之間的異質(zhì)性差距，在特征層面建立起模態(tài)間的語義聯(lián)系并擴(kuò)大模態(tài)內(nèi)的類別差異（如圖1 所示）。早期的研究者主要利用CCA[10]進(jìn)行跨模態(tài)表示學(xué)習(xí)，其通過最大程度地利用不同模態(tài)數(shù)據(jù)之間的相關(guān)性來學(xué)習(xí)公共子空間。此后CCA衍生出了許多變體，KCCA[11]通過核函數(shù)引入非線性映射，改善了CCA 單純的線性映射；DCCA[12]則利用深度學(xué)習(xí)的方法研究?jī)蓚€(gè)數(shù)據(jù)視圖的復(fù)雜非線性變換以使不同模態(tài)樣本特征的最終表示形式高度相關(guān)聯(lián)；GMA[13]是CCA在監(jiān)督任務(wù)上的拓展算法，它使用數(shù)據(jù)的類別信息來學(xué)習(xí)子空間。在目前的主流方法中，跨模態(tài)表示學(xué)習(xí)一般分為兩個(gè)步驟：第一步是獲取每種模態(tài)數(shù)據(jù)對(duì)應(yīng)的特征表示，第二步是在共享子空間中建立特征間的語義關(guān)聯(lián)性以獲取良好的跨模態(tài)表示。LCFS[14]同時(shí)從兩種模態(tài)中選擇相關(guān)特征和判別特征，使學(xué)習(xí)到的子空間更加有效。ACMR[15]基于對(duì)抗學(xué)習(xí)的思想，并針對(duì)特征投影構(gòu)造了三元組損失，以最小化具有相同語義標(biāo)簽的不同模態(tài)特征表示間的語義鴻溝，同時(shí)最大化語義不相關(guān)的跨模態(tài)特征表示在子空間中的距離。DSCMR[16]通過在共享子空間和標(biāo)簽空間中最小化區(qū)別度損失來學(xué)習(xí)跨模態(tài)特征的相關(guān)性。Peng 等人[17-18]聯(lián)合模態(tài)內(nèi)和模態(tài)間的信息，通過分層學(xué)習(xí)機(jī)制來挖掘復(fù)雜的跨模態(tài)相關(guān)性，以獲得跨模態(tài)共享表示。Salvador等人[19]和Surís等人[20]借助相似度損失和正則化損失，實(shí)現(xiàn)了嚴(yán)格的跨模態(tài)特征對(duì)齊。Zeng等人[21]提出了基于Cluster-CCA 的深度三重態(tài)神經(jīng)網(wǎng)絡(luò)，以此來最大化不同模態(tài)數(shù)據(jù)在共享子空間中的相關(guān)性。

圖1 跨模態(tài)表示學(xué)習(xí)的可視化Fig.1 Visualization of cross-modal representation learning

雖然跨模態(tài)表示學(xué)習(xí)領(lǐng)域碩果累累，但是仍然有很大的進(jìn)步空間。無論樣本屬于哪種模態(tài)，本文將屬于相同類別的數(shù)據(jù)定義為正例，屬于不同類別的數(shù)據(jù)定義為負(fù)例。現(xiàn)有的大多數(shù)方法在特征空間僅使用少量負(fù)例進(jìn)行訓(xùn)練，未能充分利用跨模態(tài)數(shù)據(jù)集提供的類別信息來辨識(shí)類內(nèi)的區(qū)別性和類間的相關(guān)性。受到監(jiān)督對(duì)比學(xué)習(xí)[22]的啟發(fā)，本文將多負(fù)例對(duì)比機(jī)制應(yīng)用到跨模態(tài)表示學(xué)習(xí)中，即在訓(xùn)練階段讓正例特征與多個(gè)負(fù)例特征之間進(jìn)行對(duì)比，使模型學(xué)習(xí)到的跨模態(tài)表示具有模態(tài)一致性和語義區(qū)分性。現(xiàn)有的跨模態(tài)任務(wù)大多聚焦于視覺模態(tài)和文本模態(tài)，然而視覺和聽覺是人類與外界環(huán)境進(jìn)行交互時(shí)更為重要的媒介，并且視聽覺之間存在著十分自然的關(guān)聯(lián)性。例如，當(dāng)聽見狗叫聲時(shí)，狗的樣子可能會(huì)浮現(xiàn)在腦海中。因此，有必要對(duì)視聽覺之間的關(guān)聯(lián)性進(jìn)行更為深入的研究。在此背景下，本文提出了SCCMRL 算法來進(jìn)行跨模態(tài)表示學(xué)習(xí)，并將其應(yīng)用于視聽覺跨模態(tài)檢索任務(wù)中，構(gòu)建了相應(yīng)的跨模態(tài)檢索系統(tǒng)，最后結(jié)合Sub_URMP數(shù)據(jù)集和XmediaNet數(shù)據(jù)集中的視聽覺數(shù)據(jù)實(shí)施了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，本文提出的SCCMRL算法在跨模態(tài)表示學(xué)習(xí)過程中具有優(yōu)良的性能表現(xiàn)。綜上所述，本文的貢獻(xiàn)主要如下：

（1）提出了一種新穎的跨模態(tài)表示學(xué)習(xí)算法SCCMRL，該算法在監(jiān)督信息的指導(dǎo)下，采用端到端的學(xué)習(xí)策略，在訓(xùn)練階段引入了多負(fù)例對(duì)比機(jī)制，使相同類別的數(shù)據(jù)樣本在特征空間中的語義距離盡可能靠近，而不同類別的數(shù)據(jù)樣本的語義距離盡可能遠(yuǎn)離。與此同時(shí)，SCCMRL 利用標(biāo)簽損失和中心損失進(jìn)一步維護(hù)跨模態(tài)表示的模態(tài)一致性和語義區(qū)分性。

（2）將學(xué)習(xí)到的跨模態(tài)表示應(yīng)用于跨模態(tài)視聽檢索任務(wù)，構(gòu)建出視聽跨模態(tài)檢索系統(tǒng)，并且針對(duì)Sub_URMP數(shù)據(jù)集和XmediaNet數(shù)據(jù)集實(shí)施了大量的實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果證明了SCCMRL方法要優(yōu)于現(xiàn)有的跨模態(tài)表示學(xué)習(xí)方法。

1 相關(guān)工作

1.1 負(fù)例對(duì)比損失函數(shù)

負(fù)例對(duì)比損失函數(shù)即利用正負(fù)例之間對(duì)比來突出類間區(qū)別性，其廣泛應(yīng)用于人臉識(shí)別和視聽覺對(duì)應(yīng)等領(lǐng)域中，其中比較有代表性的是contrastive loss[23]和triplet loss[24]。

1.2 多負(fù)例對(duì)比機(jī)制下的表示學(xué)習(xí)

表示學(xué)習(xí)的核心就是學(xué)習(xí)一個(gè)映射函數(shù)f，把樣本x編碼成其表示f(x)。而對(duì)比學(xué)習(xí)就是使得f滿足公式（3）：

公式中的分子即錨樣本與正樣本的向量積，分母則為錨樣本與正樣本的向量積加上錨樣本與所有負(fù)樣本向量積的和。在優(yōu)化該式的過程中錨樣本與正樣本的向量積逐漸增大，即距離縮?。诲^樣本與負(fù)樣本的向量積逐漸縮小，即距離增大。實(shí)際上，這種對(duì)比思想已經(jīng)廣泛應(yīng)用于自監(jiān)督學(xué)習(xí)領(lǐng)域并取得了良好的效果。He 等人[25]提出負(fù)例樣本數(shù)量在對(duì)比學(xué)習(xí)中十分重要，并采用動(dòng)量更新的訓(xùn)練方式來解決內(nèi)存庫(kù)和端到端這兩種方式在大樣本數(shù)量下的所存在的問題。Dai等人[26]使用對(duì)比學(xué)習(xí)來解決圖像字幕中標(biāo)題文本可區(qū)別性的問題。Oord 等人[27]則是通過自回歸模型與InfoNCE 損失建立真實(shí)幀與預(yù)測(cè)幀之間的對(duì)比關(guān)系。

1.3 跨模態(tài)檢索

以往的檢索工作只關(guān)注單一模態(tài)[28]，而跨模態(tài)檢索的目標(biāo)是實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)間的相互檢索，其首先需要解決的問題就是如何消除不同模態(tài)數(shù)據(jù)樣本之間的異質(zhì)性差距，因?yàn)檫@種異質(zhì)性差距使得多模態(tài)數(shù)據(jù)表示間的特征相似性變得難以度量[29]。通過將不同模態(tài)特征投射到子空間，進(jìn)而在子空間中學(xué)習(xí)到不同模態(tài)間的共生關(guān)系。Ngiam等人[30]、Wang等人[31]利用深度卷積神經(jīng)網(wǎng)絡(luò)提取不同模態(tài)的特征并建立其對(duì)應(yīng)的跨模態(tài)語義聯(lián)系。Kumar等人[32]、Ding等人[33]以及Wang等人[34]則利用哈希變換將不同模態(tài)特征映射到一個(gè)漢明二值空間，然后在漢明空間實(shí)現(xiàn)快速的跨模態(tài)檢索。

跨模態(tài)檢索的方法大多應(yīng)用于圖文檢索，然而視覺與聽覺是人類與外部世界進(jìn)行交互的重要媒介，因此有必要研究如何實(shí)現(xiàn)視聽跨模態(tài)檢索?，F(xiàn)有的一些研究已經(jīng)對(duì)視聽跨模態(tài)檢索進(jìn)行相當(dāng)深入的探究。Zeng等人[21]利用聚類CCA 和深度三重神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)使得視頻與語音的正負(fù)例特征之間的區(qū)別更加明顯。Surís 等人[20]則利用分類損失和相似度損失將視聽覺模態(tài)數(shù)據(jù)投射到一個(gè)共同特征空間，以此來獲取聯(lián)合的視聽覺表示。

2 提出的方法

本章將介紹提出的多負(fù)例對(duì)比機(jī)制下的跨模態(tài)表示學(xué)習(xí)方法（SCCMRL）。該部分首先對(duì)本文的研究方法進(jìn)行一個(gè)簡(jiǎn)單的表述，然后闡述SCCMRL 的整體架構(gòu)和所構(gòu)建的損失函數(shù)，最后介紹了網(wǎng)絡(luò)在訓(xùn)練與優(yōu)化過程中所使用的策略。

2.1 研究方法

目前，多負(fù)例對(duì)比機(jī)制已經(jīng)廣泛應(yīng)用于自監(jiān)督表示學(xué)習(xí)中。然而自監(jiān)督任務(wù)沒有提供標(biāo)簽，通常只能對(duì)錨樣本進(jìn)行數(shù)據(jù)增強(qiáng)來獲取正例，而將數(shù)據(jù)集中其余的樣本都視作負(fù)例。但這樣的負(fù)例中極有可能會(huì)出現(xiàn)與錨樣本屬于同一類別的樣本，造成了假負(fù)例現(xiàn)象，從而使對(duì)比學(xué)習(xí)在拉遠(yuǎn)正例與這種假負(fù)例特征之間距離的過程中獲得了壞的樣本表示。本文受到監(jiān)督對(duì)比學(xué)習(xí)[22]的啟發(fā)，在監(jiān)督信息的指導(dǎo)下將多負(fù)例對(duì)比機(jī)制與跨模態(tài)表示學(xué)習(xí)相結(jié)合，提出了SCCMRL 方法。該方法在標(biāo)簽信息的指導(dǎo)下允許每個(gè)錨樣本有多個(gè)正例，消除了假負(fù)例現(xiàn)象，并且通過與多負(fù)例樣本特征之間的對(duì)比，使得正例之間的語義距離更近，負(fù)例之間的語義距離更遠(yuǎn)，從而維護(hù)了跨模態(tài)表示在共享子空間中的模態(tài)一致性和語義區(qū)分性。在這項(xiàng)工作中，僅關(guān)注并研究了視覺模態(tài)數(shù)據(jù)（圖片）和聽覺模態(tài)數(shù)據(jù)（語音）。將第j個(gè)圖

2.2 模型架構(gòu)

SCCMRL 的目標(biāo)是把跨模態(tài)數(shù)據(jù)投射到一個(gè)共享子空間中以獲取跨模態(tài)表示，并且該跨模態(tài)表示在共享子空間中應(yīng)具有模態(tài)一致性和語義區(qū)分性。因此，基于該目標(biāo)構(gòu)建了SCCMRL 的總體模型架構(gòu)，如圖2 所示。該模型是以端到端的方式進(jìn)行訓(xùn)練，其包含了視覺編碼器和音頻編碼器這兩個(gè)子網(wǎng)絡(luò)。視覺子網(wǎng)絡(luò)和音頻子網(wǎng)絡(luò)參考了L3-Net[35]，具體參數(shù)細(xì)節(jié)如圖3 所示，其中圖（a）是視覺編碼器的參數(shù)細(xì)節(jié)，圖（b）是音頻編碼器的參數(shù)細(xì)節(jié)；每一部分中的藍(lán)色矩形塊代表卷積層，黃色矩形塊代表池化層，每個(gè)塊內(nèi)第一行代表層的名稱，第二行代表層的參數(shù)：卷積層的參數(shù)分別表示卷積核的大小和通道數(shù)；池化層的參數(shù)表示步幅的大小，并且沒有填充；每個(gè)卷積層之后是批歸一化層和ReLU非線性激活函數(shù)。視覺編碼器的輸入為224×224×3的圖片，音頻編碼器的輸入為257×200×3的聲譜圖，在視覺編碼器和音頻編碼器后還分別添加了一個(gè)全連接層，最終獲得維度一致的圖片特征fI和語音特征fA，然后針對(duì)fI和fA設(shè)計(jì)監(jiān)督對(duì)比損失函數(shù)，從而使正例特征與多個(gè)負(fù)例特征形成對(duì)比，讓正例特征之間的語義距離更加接近，并逐漸拉開正例特征與這些負(fù)例特征之間的語義距離。假設(shè)在共享子空間中獲取到良好的視覺表示與聽覺表示，那么這種表示對(duì)于分類任務(wù)來說也必然是理想的。因此，SCCMRL 模型在原有的視覺編碼器和音頻編碼器后連接一個(gè)共享權(quán)重的線性分類層，通過該線性分類層，圖片和語音的類別特征xI和xA也被捕捉到，利用類別特征與標(biāo)簽信息分別計(jì)算中心損失與標(biāo)簽損失。通過這樣的模型結(jié)構(gòu)設(shè)計(jì)，跨模態(tài)特征的模態(tài)一致性和語義區(qū)分性能夠很好地被學(xué)習(xí)。SCCMRL 模型的總損失定義為標(biāo)簽預(yù)測(cè)損失、中心損失、監(jiān)督對(duì)比損失的加權(quán)和，各損失函數(shù)的定義詳見下文所述。

圖2 SCCMRL模型的總體結(jié)構(gòu)Fig.2 Overall structure of SCCMRL model

圖3 視覺編碼器和音頻編碼器的參數(shù)細(xì)節(jié)Fig.3 Detailed parameters of visual encoder and audio encoder

2.2.1 監(jiān)督對(duì)比損失（supervised contrastive loss）

監(jiān)督對(duì)比損失采用多負(fù)例對(duì)比機(jī)制，能夠使得訓(xùn)練集中不同類別樣本間的數(shù)據(jù)特征距離更遠(yuǎn)，同時(shí)使得相同類別樣本間的數(shù)據(jù)特征距離更近。此外，要想實(shí)現(xiàn)監(jiān)督對(duì)比損失，正例與負(fù)例的定義至關(guān)重要。給出一個(gè)錨樣本數(shù)據(jù)，無論它屬于哪種模態(tài)，將正例定義為與錨樣本屬于同一類別的樣本數(shù)據(jù)，負(fù)例定義為與錨樣本屬于不同類別的樣本數(shù)據(jù)。即正負(fù)例的定義只關(guān)注樣本數(shù)據(jù)是否屬于同一類別，而不關(guān)注它們是否屬于同一模態(tài)。因此，錨數(shù)據(jù)與正例構(gòu)成正樣本對(duì)，錨數(shù)據(jù)與負(fù)例構(gòu)成負(fù)樣本對(duì)。監(jiān)督對(duì)比損失中的得分函數(shù)要求能夠?qū)φ龢颖緦?duì)產(chǎn)生高值，對(duì)負(fù)樣本對(duì)產(chǎn)生低值。一般地，可以選擇點(diǎn)積和余弦距離作為得分函數(shù)，這項(xiàng)工作中把得分函數(shù)定義為公共子空間中的樣本特征的點(diǎn)積。在監(jiān)督對(duì)比編碼中，每個(gè)批次中的某個(gè)錨樣本可能會(huì)有多個(gè)樣本和它屬于同一類別，包括相同模態(tài)和不同模態(tài)。因此SCCMRL中的監(jiān)督對(duì)比損失定義如下：

其中N為批次大小，yi代表批次中第i個(gè)樣本的類別標(biāo)簽，yj表批次中第j個(gè)樣本的類別標(biāo)簽，Nyi表示批次中類別為yi的樣本總數(shù)，g(·)的函數(shù)定義為：當(dāng)下標(biāo)·式為真時(shí)函數(shù)值為1，否則為0。因此，當(dāng)fi代表錨樣本的特征，fj表示正例樣本的特征，fk表示批次中除fi之外所有的樣本特征，T代表溫度超參。公式（5）表示單個(gè)錨樣本fi在這個(gè)批次里所貢獻(xiàn)的監(jiān)督對(duì)比損失，公式（6）表示輪流將批次里的數(shù)據(jù)作為錨樣本來計(jì)算總的監(jiān)督對(duì)比損失。當(dāng)優(yōu)化整個(gè)損失函數(shù)時(shí)，錨樣本與正例之間的點(diǎn)積增大（即余弦距離縮?。?，而錨樣本與負(fù)例之間的點(diǎn)積減小（即余弦距離增大）。從損失函數(shù)的定義可以看出，由于提供了類別標(biāo)簽，監(jiān)督對(duì)比損失在每個(gè)批次里可以處理任意數(shù)量的正例樣本，并且對(duì)于每個(gè)錨樣本，監(jiān)督對(duì)比損失都會(huì)將它與批次中的所有負(fù)例進(jìn)行對(duì)比，以使正樣本對(duì)特征之間更加緊湊，負(fù)樣本對(duì)特征之間更加稀疏。因此，通過這種方式獲得的跨模態(tài)表示既具有模態(tài)一致性又具有語義區(qū)分性。

2.2.2 標(biāo)簽損失（label loss）

在進(jìn)行特征提取后，SCCMRL 模型在視覺編碼器和音頻編碼器后分別添加一個(gè)共享權(quán)重的線性分類

2.3 訓(xùn)練與優(yōu)化策略

算法1 SCCMRL的優(yōu)化步驟

SCCMRL 模型總損失被定義為標(biāo)簽損失、中心損失和監(jiān)督對(duì)比損失的加權(quán)之和，即：

其中α、β、γ分別為標(biāo)簽損失、中心損失和監(jiān)督對(duì)比損失的權(quán)重系數(shù)。在這項(xiàng)工作中，將α、β、γ分別設(shè)置為0.05、0.05、0.9。初始學(xué)習(xí)率設(shè)置為0.01，采用變動(dòng)學(xué)習(xí)率的策略，每30 輪后學(xué)習(xí)率降為原來的1/10。使用Adam優(yōu)化器對(duì)SCCMRL模型進(jìn)行優(yōu)化，并使用端到端的訓(xùn)練策略。此外，SCCMRL 是基于Pytorch 框架進(jìn)行模型的設(shè)計(jì)與搭建，并在一塊NVIDIA GTX 1080Ti GPU 進(jìn)行訓(xùn)練。算法1 中展示了SCCMRL 的訓(xùn)練步驟與優(yōu)化細(xì)節(jié)。

3 實(shí)驗(yàn)

本文使用Sub_URMP 數(shù)據(jù)集和XmediaNet 數(shù)據(jù)集作為實(shí)驗(yàn)的基準(zhǔn)數(shù)據(jù)集。為了驗(yàn)證所提出的SCCMRL模型的有效性，在這兩種不同的視聽數(shù)據(jù)集上實(shí)施了兩種任務(wù)：跨模態(tài)檢索和多模態(tài)分類。跨模態(tài)檢索展示了SCCMRL 模型能夠很好地建立不同模態(tài)數(shù)據(jù)的語義相關(guān)性，多模態(tài)分類則表明SCCMRL 模型能夠捕捉各種模態(tài)內(nèi)的語義區(qū)分性。

3.1 數(shù)據(jù)集介紹

3.1.1 Sub_URMP數(shù)據(jù)集

Sub_URMP 數(shù)據(jù)集是URMP（University of Rochester Multimodal Music Performance）數(shù)據(jù)集的子集，由羅切斯特大學(xué)于2016年發(fā)布。Sub_URMP數(shù)據(jù)集中包含13 類樂器（巴松管、大提琴等）的視聽覺雙模態(tài)信息，分別是樂器演奏的音頻和對(duì)應(yīng)的圖片。整個(gè)數(shù)據(jù)集是在高清視頻下裁剪得到的，在同一個(gè)樂器演奏視頻下每隔0.5 s截取音頻和圖片，人為地刪去了其中的無聲音頻和其對(duì)應(yīng)的圖片，并選擇其中的部分作為訓(xùn)練所用，最后得到了8 151張圖片和對(duì)應(yīng)的音頻。

3.1.2 XmediaNet數(shù)據(jù)集

XmediaNet 數(shù)據(jù)集是北京大學(xué)專為跨模態(tài)檢索任務(wù)而設(shè)計(jì)的大規(guī)模多模態(tài)數(shù)據(jù)集，其包含文本、圖像、視頻、音頻以及3D 模型這5 種模態(tài)的數(shù)據(jù)，包含超過100 000個(gè)實(shí)例的樣本數(shù)據(jù)。選擇其中的圖片模態(tài)和音頻模態(tài)進(jìn)行實(shí)驗(yàn)。圖片和音頻都包含多個(gè)類別，例如狗叫聲、鬧鐘、鍵盤打字等。其中的一些特殊對(duì)象，例如自行車、鬧鈴、門鈴，統(tǒng)一用鈴聲作為對(duì)應(yīng)的音頻；小船、小汽車、公共汽車統(tǒng)一用引擎聲作為對(duì)應(yīng)的音頻。對(duì)于這樣的情況，在數(shù)據(jù)集中只保留其中一種對(duì)象。由于語音片段長(zhǎng)度不固定，需要將其統(tǒng)一分割為1 s的語音長(zhǎng)度，并通過LMS算法將語音片段生成聲譜圖，最后獲得24個(gè)類別共計(jì)2 448張圖片和2 994個(gè)聲譜圖組成的數(shù)據(jù)集。

3.2 跨模態(tài)檢索

為了驗(yàn)證所提出模型的有效性，對(duì)其進(jìn)行了跨模態(tài)檢索實(shí)驗(yàn)，通過對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)來定量地驗(yàn)證SCCMRL 模型的性能表現(xiàn)，并直觀地展示了跨模態(tài)檢索的結(jié)果。

3.2.1 對(duì)比實(shí)驗(yàn)

將mAP（mean average precision）作為跨模態(tài)檢索性能好壞的評(píng)估標(biāo)準(zhǔn)。mAP是跨模態(tài)檢索領(lǐng)域一個(gè)經(jīng)典的評(píng)估標(biāo)準(zhǔn)，它是對(duì)查詢樣本和所有返回的檢索樣本之間進(jìn)行余弦相似度或歐式距離的計(jì)算（實(shí)驗(yàn)中選擇余弦相似度），綜合考慮了檢索結(jié)果的精確度和排序信息。在具體的跨模態(tài)檢索實(shí)驗(yàn)中，實(shí)施兩種不同的任務(wù)：用查詢圖片檢索語音樣本（Img2Aud）和用查詢語音檢索圖片樣本（Aud2Img），并進(jìn)行了兩組對(duì)比實(shí)驗(yàn)如下：

（1）與僅使用少量負(fù)例損失的模型進(jìn)行比較

為了證明多負(fù)例對(duì)比機(jī)制在跨模態(tài)表示學(xué)習(xí)過程中確實(shí)優(yōu)于少負(fù)例對(duì)比機(jī)制，對(duì)比了supervised contrastive loss（Sup loss）、contrastive loss（Con loss）以及triplet loss（Tri loss）在跨模態(tài)表示學(xué)習(xí)中的表現(xiàn)。為了減少客觀因素對(duì)實(shí)驗(yàn)結(jié)果的影響，在實(shí)驗(yàn)中摒棄了center loss（Cen loss）和label loss（Lab loss），并且將權(quán)重系數(shù)均設(shè)置為1。

表1 和表2 展示了Sup loss、Con loss 和Tri loss 在跨模態(tài)檢索任務(wù)中的表現(xiàn)，從中可以看出Sup loss在跨模態(tài)表示學(xué)習(xí)中的表現(xiàn)明顯優(yōu)于Con loss 和Tri loss。由此證明，相較于使用少量負(fù)例對(duì)比的損失函數(shù)，采用多負(fù)例對(duì)比機(jī)制的監(jiān)督對(duì)比損失能夠更加有效的形成類間區(qū)別性，從而獲取更為優(yōu)秀的跨模態(tài)表示。

表1 不同損失函數(shù)在Sub_URMP數(shù)據(jù)集上的表現(xiàn)（mAP）Table 1 Performance（mAP）of different loss functions on Sub_URMP dataset

表2 不同損失函數(shù)在XmediaNet數(shù)據(jù)集上的表現(xiàn)（mAP）Table 2 Performance（mAP）of different loss functions on XmediaNet dataset

（2）與當(dāng)前常用的跨模態(tài)檢索方法進(jìn)行比較

現(xiàn)有的大多數(shù)跨模態(tài)表示學(xué)習(xí)方法都是聚焦于圖片和文本模態(tài)之間的跨模態(tài)檢索，SCCMRL 很難直接同它們進(jìn)行比較。雖然不同模態(tài)的特征提取方法不盡相同，但在特征提取后的處理方式基本相似。因此對(duì)現(xiàn)有的模型進(jìn)行細(xì)微的修改，將文本編碼器替換為音頻編碼器，整體模型結(jié)構(gòu)仍與原有方法保持一致。最后，將它們應(yīng)用到Sub_URMP數(shù)據(jù)集和XmediaNet數(shù)據(jù)集上，并和所提出的模型SCCMRL進(jìn)行實(shí)驗(yàn)結(jié)果的對(duì)比。表3 和表4 展示了SCCMRL 模型和一些現(xiàn)有方法在兩種視聽數(shù)據(jù)集（Sub_URMP 和XmediaNet）上的表現(xiàn)。從兩張表中的數(shù)據(jù)可以看出，SCCMRL 的表現(xiàn)要優(yōu)于目前常用的跨模態(tài)檢索模型。

表3 不同模型在Sub_URMP數(shù)據(jù)集上的表現(xiàn)（mAP）Table 3 Performance（mAP）of different models on Sub_URMP dataset

表4 不同模型在XmediaNet數(shù)據(jù)集上的表現(xiàn)（mAP）Table 4 Performance（mAP）of different models on XmediaNet dataset

3.2.2 消融實(shí)驗(yàn)

為了驗(yàn)證SCCMRL 模型所提出的3 種監(jiān)督對(duì)比損失對(duì)模型性能的影響，在XmediaNet 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。消融實(shí)驗(yàn)在Sup loss、Cen loss、Lab loss 系數(shù)設(shè)置為0.9、0.05、0.05的前提下進(jìn)行。

表5的實(shí)驗(yàn)結(jié)果表明了Sup loss的存在是模型表現(xiàn)優(yōu)異的主要原因，進(jìn)一步說明了多負(fù)例對(duì)比機(jī)制在跨模態(tài)表示學(xué)習(xí)中的有效性。Cen loss 和Lab loss 的添加則進(jìn)一步增強(qiáng)了不同模態(tài)表示間的模態(tài)一致性和語義區(qū)分性，對(duì)模型性能也具有一定的提升。

表5 不同損失函數(shù)在XmediaNet數(shù)據(jù)集上的表現(xiàn)（mAP）Table 5 Performance（mAP）of different loss functions on XmediaNet dataset

3.2.3 跨模態(tài)視聽檢索效果展示

除了上述對(duì)跨模態(tài)檢索結(jié)果的定量分析，還在圖4中直觀地展示了跨模態(tài)檢索的結(jié)果，圖（a）是查詢項(xiàng)（圖片或聲譜圖），圖（b）是在該查詢條件下檢索出的另一模態(tài)排名前五的結(jié)果。

圖4結(jié)果表明，無論是由圖片檢索聲譜圖或是由聲譜圖檢索圖片，SCCMRL 模型的檢索結(jié)果均對(duì)應(yīng)于查詢項(xiàng)的標(biāo)簽，直觀地表明SCCMRL 方法在跨模態(tài)檢索任務(wù)中的優(yōu)越性。

3.3 多模態(tài)分類

為了驗(yàn)證SCCMRL模型能夠捕捉各種模態(tài)內(nèi)的語義類別信息，將學(xué)習(xí)到的圖片表示和語音表示應(yīng)用到分類任務(wù)上，分類結(jié)果的好壞可以間接反映所學(xué)習(xí)到的跨模態(tài)特征表示的語義區(qū)分性。在目前主流的分類模型中，最經(jīng)典的方法是利用交叉熵?fù)p失，將學(xué)習(xí)到的特征向量向one-hot 標(biāo)簽拉近，再將其通過softmax 激活函數(shù)，從而預(yù)測(cè)類別標(biāo)簽。將SCCMRL 模型同僅使用交叉熵?fù)p失的分類模型進(jìn)行對(duì)比，表6分別展示了兩種方法在分類實(shí)驗(yàn)上的性能表現(xiàn)。對(duì)于Sub_URMP 數(shù)據(jù)集中的圖片數(shù)據(jù)分類，二者均獲得了100%的準(zhǔn)確率；而在音頻的分類上，SCCMRL 的表現(xiàn)要略優(yōu)于傳統(tǒng)的交叉熵模型）。對(duì)于XmediaNet 數(shù)據(jù)集，其中的數(shù)據(jù)構(gòu)成相對(duì)復(fù)雜，進(jìn)而導(dǎo)致其對(duì)于分類實(shí)驗(yàn)并不友好，例如，其中的樂器圖片是由人和樂器組成的，而不是單獨(dú)的樂器圖片，并且存在易拉罐和瓶子這種在視覺效果上差別不大的圖片類別。即便如此，SCCMRL 依然實(shí)現(xiàn)了88.4%的圖片分類準(zhǔn)確率（優(yōu)于交叉熵的70.8%）和82.2%的語音分類準(zhǔn)確率（優(yōu)于交叉熵的73.3%）。總體來看，SCCMRL 方法在多模態(tài)分類任務(wù)上具有一定的優(yōu)越性，認(rèn)為這是因?yàn)楸O(jiān)督對(duì)比損失更自然地進(jìn)行正負(fù)例樣本特征之間的對(duì)比，進(jìn)而在特征空間中將同一類別的樣本表示拉近到一起，讓不同類別的樣本表示互相遠(yuǎn)離，而不是像交叉熵那樣強(qiáng)迫它們被拉向特定的one-hot標(biāo)簽。

表6 分類準(zhǔn)確率的比較Table 6 Comparison of classification accuracy單位：%

為了直觀地展示跨模態(tài)表示學(xué)習(xí)效果，選取了XmediaNet數(shù)據(jù)集中10個(gè)類別的圖片和語音數(shù)據(jù)，并使用t-SNE方法將它們的特征進(jìn)行了可視化。圖5和圖6分別展示了SCCMRL方法所學(xué)習(xí)到的特征表示。從圖5 和圖6 可以看出，當(dāng)不同模態(tài)的高維特征進(jìn)行降維之后，相同類別的特征表示依然緊湊，而不同類別的表示則相距甚遠(yuǎn)，進(jìn)一步反映了SCCMRL 所學(xué)習(xí)到跨模態(tài)表示兼具模態(tài)一致性和語義區(qū)分性。

圖5 圖片特征的t-SNE可視化Fig.5 t-SNE visualization of image features

圖6 語音特征的t-SNE可視化Fig.6 t-SNE visualization of audio features

4 結(jié)束語

提出了一種新的跨模態(tài)表示學(xué)習(xí)方法SCCMRL。相較于現(xiàn)有方法，SCCMRL在有監(jiān)督學(xué)習(xí)的形式下，引入多負(fù)例對(duì)比機(jī)制。對(duì)于不同模態(tài)的特征表示，SCCMRL利用正例特征與多個(gè)負(fù)例特征之間的對(duì)比，確保了相同類別的數(shù)據(jù)樣本在特征空間中的語義距離盡可能靠近，而不同類別的數(shù)據(jù)樣本間的語義距離盡可能遠(yuǎn)離。除此之外，SCCMRL 還在標(biāo)簽空間引入了標(biāo)簽損失和中心損失聯(lián)合來聯(lián)合優(yōu)化視覺編碼器和音頻編碼器，保證了模型學(xué)習(xí)到的跨模態(tài)表示能夠同時(shí)滿足模態(tài)一致性和語義區(qū)分性。針對(duì)兩種不同的視聽數(shù)據(jù)集，進(jìn)行了大量的對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果證明了本文提出的跨模態(tài)表示學(xué)習(xí)方法SCCMRL 要優(yōu)于現(xiàn)有的相關(guān)模型，同時(shí)論證了多負(fù)例對(duì)比機(jī)制的引入對(duì)于模型性能的提升至關(guān)重要。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡