基于深度監(jiān)督的跨模態(tài)圖文檢索方法研究

2021-06-24 03:32徐慧銘

黑龍江大學(xué)自然科學(xué)學(xué)報 2021年2期

焦隆，徐慧銘，程海

(黑龍江大學(xué) 電子工程學(xué)院，哈爾濱 150080)

0 引言

隨著互聯(lián)網(wǎng)文本、視頻和圖片等不同類型媒體數(shù)據(jù)的快速增長，跨模態(tài)檢索在現(xiàn)實應(yīng)用中變得越來越重要?？缒B(tài)檢索旨在實現(xiàn)不同數(shù)據(jù)模式之間的靈活檢索，它將一種類型的數(shù)據(jù)作為查詢,來檢索另一種類型的相關(guān)數(shù)據(jù)[1]?？缒B(tài)搜索結(jié)果有助于用戶獲取有關(guān)目標(biāo)事件或主題的全面信息。跨模態(tài)學(xué)習(xí)方法可分為二值表示學(xué)習(xí)和實值表示學(xué)習(xí)兩類[2]。文獻[3]利用二值表示方法提高計算效率，并將異構(gòu)數(shù)據(jù)映射到一個共同的漢明空間中，跨模態(tài)檢索速度更快。由于表示學(xué)習(xí)被編碼為二進制碼，檢索精度通常會因信息丟失而略有下降。實值表示學(xué)習(xí)方法包括無監(jiān)督方法、成對方法和有監(jiān)督方法。文獻[4]使用無監(jiān)督方法，利用多媒體文檔中共存的信息來學(xué)習(xí)不同類型的共同表示。文獻[5]使用成對的方法，利用更多相似的圖像文本對來學(xué)習(xí)公共表示，比較來自不同模態(tài)的樣本。文獻[6]使用有監(jiān)督方法，利用標(biāo)簽信息來區(qū)別不同類別的信息。盡管這些方法已經(jīng)使用了分類信息，但分類信息僅用于學(xué)習(xí)每種模態(tài)中或多模態(tài)之間的區(qū)別特征，并沒有充分利用語義信息。文獻[7]使用典型相關(guān)分析CCA方法，通過最大化兩組異構(gòu)數(shù)據(jù)之間的成對相關(guān)性來學(xué)習(xí)公共空間。然而，多媒體數(shù)據(jù)之間的關(guān)聯(lián)過于復(fù)雜，無法通過應(yīng)用線性投影來完全建模。文獻[8]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)和神經(jīng)語言模型的多模態(tài)深度神經(jīng)網(wǎng)絡(luò)，分別學(xué)習(xí)圖像模態(tài)和文本模態(tài)的映射函數(shù)。利用樣本的標(biāo)簽分類信息來學(xué)習(xí)圖像和文本的模態(tài)內(nèi)語義特征，隨著多媒體數(shù)據(jù)的不斷增長，采用一般深度學(xué)習(xí)的特征表示，由于維數(shù)過大而面臨儲存空間與檢索效率的挑戰(zhàn)，導(dǎo)致無法適應(yīng)大規(guī)模多媒體數(shù)據(jù)檢索任務(wù)。

本文提出了基于深度監(jiān)督跨模態(tài)檢索方法，保持不同語義類別樣本之間的區(qū)別，同時消除跨模態(tài)差異。將樣本在標(biāo)簽空間和公共表示空間中的判別損失最小化，以監(jiān)督模型學(xué)習(xí)鑒別特征。此外，最小化了模態(tài)不變性損失，并使用權(quán)重共享策略來學(xué)習(xí)公共表示空間中的模態(tài)變化特征，在這種學(xué)習(xí)策略下，充分利用了分類信息和語義信息。利用新增的數(shù)據(jù)集對改進的模型進行調(diào)參優(yōu)化，提高了圖文檢索的準(zhǔn)確率，實驗證明所改進的算法在平均精度值上優(yōu)于現(xiàn)有圖文檢索算法。

1 圖文檢索數(shù)據(jù)特點

1.1 跨模態(tài)檢索函數(shù)表示

雙模數(shù)據(jù)的跨模態(tài)檢索即圖像和文本的跨模態(tài)檢索。把圖像-文本對的實例集合映射為函數(shù)表達式：

(1)

由于圖像特征向量和文本特征向量通常具有不同的統(tǒng)計特性，并且位于不同的表示空間中，所以它們不能在跨模態(tài)檢索中互相直接比較。利用交叉模態(tài)學(xué)習(xí)可以得到這兩種不同模態(tài)的函數(shù)，圖像模態(tài)的函數(shù)表示為:

(2)

文本模態(tài)的函數(shù)表示為:

(3)

式中：d為表示公共空間的維數(shù)；γα和γβ為兩個函數(shù)的可訓(xùn)練參數(shù)，可以使不同數(shù)據(jù)模態(tài)的樣本直接進行比較。

在公共空間中，同一種類別樣本的相似度大于不同種類別樣本的相似度。因此，可以利用返回數(shù)據(jù)集中不同數(shù)據(jù)類型的相關(guān)樣本來查詢數(shù)據(jù)類型。將ω中實例的圖像、文本和標(biāo)簽用矩陣表示，分別為U=[u1,u2，…,un]、V=[v1,v2，…,vn]和Y=[y1,y2，…,yn]。

1.2 VGGNet和Word2V-ec模型

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network，CNN)是一種前饋神經(jīng)網(wǎng)絡(luò)[9]，本文跨模態(tài)圖文檢索網(wǎng)絡(luò)模型采用經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)VGGNet網(wǎng)絡(luò)結(jié)構(gòu)來提取圖像和文本的特征[10]。小卷積核是VGGNet的重要特點，使用多個較小的卷積核代替一個卷積核較大的卷積層，一方面可以減少參數(shù)，另一方面相當(dāng)于進行了更多的非線性映射，可以增加網(wǎng)絡(luò)的擬合能力。在訓(xùn)練高級別的網(wǎng)絡(luò)時，可以先訓(xùn)練低級別的網(wǎng)絡(luò)，用前者獲得的權(quán)重初始化高級別的網(wǎng)絡(luò)，可以加速網(wǎng)絡(luò)的收斂。

文本模態(tài)的公共表示學(xué)習(xí)采用了Word2V-ec模型，包含Skip-grams(SG)和Continuous bag of words(CBOW)兩種算法。通過訓(xùn)練模型，保留模型中的一部分權(quán)重參數(shù)，來獲得詞向量。Skip-gram根據(jù)中心詞預(yù)測周圍的詞，模型如圖1所示。可以看出，SG模型預(yù)測的是p(wt-2|wt)，p(wt-1|wt)， …，p(wt+2|wt)，由于圖中詞wt前后只取了各2個詞，所以窗口的總大小是2。假設(shè)詞ωt前后各取k個詞，即窗口的大小是k，那么SG模型預(yù)測的將是p(wt+p|wt)(-k≤p≤k,k≠0)。

CBOW根據(jù)周圍的詞預(yù)測中心的詞語，模型如圖2所示，CBOW與神經(jīng)網(wǎng)絡(luò)語言模型不同的是去掉了最耗時的非線性隱藏層。模型預(yù)測的是p(wt|wt-2,wt-1,wt+1,wt+2)，由于圖中目標(biāo)詞wt前后只取了2個詞，所以窗口的總大小是2。假設(shè)目標(biāo)詞wt前后各取k個詞，即窗口大小是k，那么模型預(yù)測將是p(wt,wt-(k-1)，…,wt+1,…,wt+(k-1),wt+k)。

圖1 SG模型

2 設(shè)計與實現(xiàn)

2.1 跨模態(tài)圖文檢索的網(wǎng)絡(luò)結(jié)構(gòu)

跨模態(tài)圖文檢索方法的總體框架如圖3所示，其中包括兩個子網(wǎng)絡(luò):一個子網(wǎng)絡(luò)用于圖像模態(tài)，另一個子網(wǎng)絡(luò)用于文本模態(tài)，它們都是以端到端的方式進行訓(xùn)練。圖像子網(wǎng)絡(luò)通過深度卷積神經(jīng)網(wǎng)絡(luò)VGGNet生成4 096維特征向量作為圖像的原始高層語義表示，進行公共表示學(xué)習(xí)，得到每個圖像的公共表示。采用Word2V-ec模型將文本矩陣輸入到與文本CNN[11]配置相同的卷積層，生成文本的原始高層語義表示，可以進行公共學(xué)習(xí)表示。為了確保這兩個子網(wǎng)絡(luò)學(xué)習(xí)圖像和文本是共同的表示空間，強制兩個子網(wǎng)絡(luò)共享最后一層的權(quán)重。最后，假設(shè)空間中的公共表示是在理想分類的基礎(chǔ)上，將參數(shù)矩陣為p的線性分類器連接到這兩個子網(wǎng)絡(luò)中，利用標(biāo)簽信息學(xué)習(xí)判別特征。因此，可以很好地學(xué)習(xí)交叉模態(tài)相關(guān)信息，提取判別特征。

圖3 方法總體框架

2.2 損失函數(shù)的設(shè)計

基于深度監(jiān)督跨模態(tài)檢索的目標(biāo)是學(xué)習(xí)數(shù)據(jù)的語義結(jié)構(gòu)，即學(xué)習(xí)一個公共空間，其中來自同一語義類別的樣本應(yīng)該是相似的，即使這些數(shù)據(jù)可能來自不同的形式。來自不同語義類別的樣本應(yīng)該是不同的，為了了解多媒體數(shù)據(jù)的鑒別特征，提出在標(biāo)簽空間和公共標(biāo)識空間中最小化鑒別損失，通過最小化每一個圖像-文本對表示之間的距離，以減少交叉模式的差異。為了保持特征投影后不同類別樣本的區(qū)分性，假設(shè)公共表示是理想的分類，并使用線性分類器來預(yù)測投影在公共表示空間中的樣本語義標(biāo)簽，在圖像模態(tài)網(wǎng)絡(luò)和文本模態(tài)網(wǎng)絡(luò)的頂部連接線性層。分類器利用訓(xùn)練數(shù)據(jù)在公共空間中表示，為每個樣本生成一個c維向量的預(yù)測標(biāo)簽。引入不同的損失函數(shù)來優(yōu)化模型，標(biāo)簽空間中的判別損失函數(shù)為：

(4)

公共空間中的判別損失函數(shù)為：

(5)

模態(tài)不變性損失函數(shù)為：

(6)

結(jié)合方程得出總損失函數(shù)為：

μ=μ1+Aμ2+Bμ3

(7)

式中：超參數(shù)A和B控制最后兩個分量對模型的影響；n是輸入實例的數(shù)目，函數(shù)采用隨機梯度下降算法進行優(yōu)化[12]。

3 實驗測試與分析

3.1 數(shù)據(jù)集訓(xùn)練

采用交叉模態(tài)數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集，Pascal sentence數(shù)據(jù)集包含1 000幅圖像，共20個圖像類別，每個圖像都對應(yīng)有描述圖像內(nèi)容的英文文本[13]，如圖4所示。在此基礎(chǔ)上增加了5個不同類別的數(shù)據(jù)集，每個類別包含50幅圖像和對應(yīng)的英文文本，新增后的數(shù)據(jù)集共有1 250幅圖像，25個圖像類別。將新增后的數(shù)據(jù)集按照4∶ 1的比例將數(shù)據(jù)集分為訓(xùn)練集和測試集，其中1 000幅圖像用于跨模態(tài)圖文檢索網(wǎng)絡(luò)模型的訓(xùn)練學(xué)習(xí)，250幅圖像用于測試檢索準(zhǔn)確率試驗。

圖4 Pascal sentence數(shù)據(jù)集示意圖

在訓(xùn)練模型時，用大小不同的隨機數(shù)對網(wǎng)絡(luò)的權(quán)值和閾值進行初始化。選用5種新增的圖文數(shù)據(jù)集進行訓(xùn)練調(diào)參和優(yōu)化模型，訓(xùn)練過程中各參數(shù)的變化對訓(xùn)練準(zhǔn)確率的影響曲線如圖5和圖6所示?？梢钥闯鯞atchsize對準(zhǔn)確率的影響，迭代次數(shù)相同、在Batchsize=100時，準(zhǔn)確率達到最大穩(wěn)定值。在調(diào)整學(xué)習(xí)率參數(shù)時，Learning_rate為0.1、0.01和0.00 1時都出現(xiàn)了因?qū)W習(xí)率過大導(dǎo)致無法正常收斂的問題。由圖6可知，在Learning_rate=0.000 1時，準(zhǔn)確率更高，收斂性最好。在參數(shù)選擇時，Batchsize為100，學(xué)習(xí)率為0.000 1時，在訓(xùn)練過程中會達到最優(yōu)權(quán)重。經(jīng)過多次的調(diào)參訓(xùn)練，模型的主要參數(shù)設(shè)置如表1所示，參數(shù)的設(shè)置是由多次訓(xùn)練保存最優(yōu)模型時確定的。

表1 主要參數(shù)設(shè)置

圖5 不同訓(xùn)練批次的訓(xùn)練準(zhǔn)確率

將整個Pascal sentence數(shù)據(jù)集放到模型中訓(xùn)練，自動提取學(xué)習(xí)特征，訓(xùn)練的準(zhǔn)確率如圖7所示，損失率如圖8所示。可以看出，隨著迭代次數(shù)的增加，準(zhǔn)確率增加，最后達到穩(wěn)定狀態(tài)。損失率恰恰相反。隨著訓(xùn)練的次數(shù)不斷增加，準(zhǔn)確率最高為98.2%，實驗證明本文的跨模態(tài)圖文檢索模型檢測效果很好。

圖7 Pascal sentence數(shù)據(jù)集的訓(xùn)練準(zhǔn)確率

3.2 損失函數(shù)實驗

通過實驗測試所研究的損失函數(shù)對算法性能的影響，損失函數(shù)主要由三部分組成，分別是公共空間中的模態(tài)不變性損失μ1、公共空間中的判別損失μ2和最小化標(biāo)簽空間中的判別損失μ3。為了綜合評估本算法相關(guān)的性能，執(zhí)行了兩個模式檢索任務(wù)：圖像檢索文本和文本檢索圖像。平均精度值MAP綜合考慮了排序信息和精度，是跨模態(tài)檢索研究中廣泛使用的性能評價標(biāo)準(zhǔn)[14]。本文采用平均精度值MAP作為評價指標(biāo)，對所改進的損失函數(shù)進行消融實驗，分別測試了沒有模態(tài)不變性損失函數(shù)μ1的模型1、沒有公共空間中判別損失函數(shù)μ2的模型2和沒有標(biāo)簽空間中判別損失函數(shù)μ3的模型3,并與完整模型在Pascal sentence數(shù)據(jù)集上平均精度值(MAP)對比，最高分?jǐn)?shù)以黑色字體顯示，如表2所示?？梢钥闯?，完整的目標(biāo)函數(shù)在數(shù)據(jù)集上表現(xiàn)的最好。通過數(shù)據(jù)分析發(fā)現(xiàn)，在目標(biāo)函數(shù)中同時考慮識別損失和模態(tài)不變性損失是一種有價值的多模態(tài)學(xué)習(xí)策略。

表2 不同模型的MAP值

3.3 對比實驗及測試結(jié)果

在新增后的Pascal sentence數(shù)據(jù)集上,使用平均精度值(MAP)對3種現(xiàn)有的圖文檢索算法進行性能評估。本算法與傳統(tǒng)的圖文檢索算法CCA[7]、基于深度學(xué)習(xí)的圖文檢索算法DCCA[15]和ACMR[1]等不同類型的圖文檢索算法進行對比，結(jié)果如表3所示?？梢钥闯觯谏疃葘W(xué)習(xí)的DCCA和ACMR算法在數(shù)據(jù)集中測試的平均精度值遠高于傳統(tǒng)算法CCA。實驗表明,改進的算法比DCCA和ACMR的平均精度值分別提升了5.6%和6.2%，改進后算法的性能優(yōu)于傳統(tǒng)算法和現(xiàn)有基于深度學(xué)習(xí)的算法。

表3 不同方法的MAP值

測試方法是在Pascal sentence數(shù)據(jù)集中的測試集上隨機進行的。由圖像檢索文本，檢測結(jié)果是返回與圖像內(nèi)容匹配度最高的3個英文文本，如表4所示。由文本檢索圖像，檢測結(jié)果是返回與文本內(nèi)容匹配度最高的3個圖像，如表5所示。可以看出，本文改進算法的識別分類是有效的，能夠準(zhǔn)確地返回圖文內(nèi)容相互匹配的結(jié)果。

表4 圖像檢索文本結(jié)果

表5 文本檢索圖像結(jié)果

4 結(jié) 論

針對基于深度監(jiān)督的跨模態(tài)檢索網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計與優(yōu)化作了深入研究。對于跨模態(tài)檢索，所學(xué)習(xí)的公共表示既可以是有區(qū)別性的，也可以是模態(tài)不變的。通過在公共表示空間和標(biāo)簽空間最小化判別損失和模態(tài)不變性損失來實現(xiàn)這個目標(biāo)。利用卷積神經(jīng)網(wǎng)絡(luò)對新增的數(shù)據(jù)集進行訓(xùn)練學(xué)習(xí)，對算法進行多次調(diào)整參數(shù)，得到最優(yōu)網(wǎng)絡(luò)模型。通過數(shù)據(jù)集進行驗證測試，實現(xiàn)了圖文檢索內(nèi)容的相互匹配，對比現(xiàn)有其他圖文檢索的模型，本方法的平均精度值更高，性能更好。所改進的模型不僅可以應(yīng)用于圖像和文本兩種模態(tài)的跨模態(tài)檢索，可以涉及到更多的模態(tài)，如音頻和視頻等，也可以應(yīng)用到智慧醫(yī)療和腦科學(xué)等領(lǐng)域。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡