国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

標(biāo)簽松弛回歸的跨模態(tài)哈希檢索

2022-10-15 01:00莊智鈞滕少華滕璐瑤
小型微型計算機系統(tǒng) 2022年10期
關(guān)鍵詞:哈希集上模態(tài)

莊智鈞,滕少華,張 巍,滕璐瑤

1(廣東工業(yè)大學(xué) 計算機學(xué)院,廣州 510006)

2(廣州番禺職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,廣州 511400)

E-mail:shteng@gdut.edu.cn

1 引 言

近年來隨著網(wǎng)絡(luò)技術(shù)的提升及多媒體數(shù)據(jù)的爆炸性增長,使得我們在現(xiàn)實生活中要面對的數(shù)據(jù)量越發(fā)龐大,同時,我們目前的需求不再滿足于單一模態(tài)數(shù)據(jù)的相似性檢索,而是多模態(tài)數(shù)據(jù)間的相互檢索,即跨模態(tài)檢索.它可以使用一種模態(tài)的樣本來獲得另一種模態(tài)的相關(guān)結(jié)果.在多媒體領(lǐng)域,跨模態(tài)檢索的應(yīng)用很廣,引起了不小的關(guān)注[1-3].在大型數(shù)據(jù)庫中,傳統(tǒng)的比較搜索方法由于時間和存儲成本高昂,導(dǎo)致現(xiàn)有計算設(shè)備幾乎不可能對大型多模態(tài)數(shù)據(jù)執(zhí)行精確搜索.而哈希技術(shù)的出現(xiàn)大大降低了檢索時間與存儲成本,由于其在跨模態(tài)檢索中的高效率和高準(zhǔn)確率,因此在近年來也引起了廣泛的關(guān)注與應(yīng)用.哈希學(xué)習(xí)是將實例的數(shù)據(jù)點編碼成二進(jìn)制碼,即哈希碼,以此原始特征之間的距離可以用漢明距離來計算.而待檢索的樣本則通過哈希函數(shù)將原始特征向量映射到漢明空間中,并通過漢明距離進(jìn)行相似性檢索.這樣,哈希碼能減少存儲量并通過位操作來提高檢索速度,因此哈希檢索技術(shù)還具有高效性和靈活性的特點.

最早出現(xiàn)的哈希方法是單模態(tài)哈希方法[4-6],它們專注于從單模態(tài)數(shù)據(jù)的特征中挖掘樣本之間的聯(lián)系來學(xué)習(xí)緊湊的哈希碼.現(xiàn)如今,面對大量的多模態(tài)數(shù)據(jù),我們常用的需求已經(jīng)演變?yōu)橛梦谋緳z索圖片或者用圖片檢索文本等多個模態(tài)的需求,單模態(tài)哈希已經(jīng)不能滿足于我們?nèi)粘I畹男枰虼耍陙碓S多跨模態(tài)哈希方法應(yīng)運而生[7-9].而根據(jù)是否使用標(biāo)簽信息,跨模態(tài)哈希方法大致可以分為無監(jiān)督方法和有監(jiān)督方法.無監(jiān)督哈希方法[10-13]通常致力于挖掘原始的異構(gòu)數(shù)據(jù)中的相關(guān)性,并將獲得的相關(guān)性保持在被映射的漢明空間里.使用這種方法可以在缺少標(biāo)簽信息的數(shù)據(jù)中進(jìn)行哈希學(xué)習(xí).與無監(jiān)督方法不同,有監(jiān)督哈希方法[14-17]能把標(biāo)簽中的語義相關(guān)性保留在哈希碼中,使標(biāo)簽中的相關(guān)信息得到了利用,因此生成的哈希碼更具判別力和準(zhǔn)確性.因而近年來,這種有監(jiān)督的哈希受到了越來越多的關(guān)注.代表性的有監(jiān)督哈希方法包括語義相關(guān)最大化哈希(SCM)[14],離散跨模態(tài)哈希(DCH)[16]等.這些有監(jiān)督方法使用不同的方式將標(biāo)簽的語義信息保留到哈希碼中.如語義相關(guān)最大化哈希(SCM)通過構(gòu)造一個語義相似度矩陣,以此將標(biāo)簽的語義信息集成到哈希碼學(xué)習(xí)過程中,并采用松弛策略來解決哈希碼的二進(jìn)制約束,使得模型簡單且求解高效,但是該松弛策略也導(dǎo)致了較大的量化誤差.如半松弛監(jiān)督哈希(SRSH)[17]也使用標(biāo)簽的語義信息構(gòu)造成對相似度矩陣,并把實例的相似性保留在哈希碼中,采用半松弛策略來解決NP難的二進(jìn)制優(yōu)化問題.SRSH在一定程度上提升了檢索的準(zhǔn)確性,但仍然存在松弛策略引起的量化誤差問題,且訓(xùn)練時間成本高.如有監(jiān)督離散哈希(SDH)[18]則是直接將哈希碼矩陣線性回歸到標(biāo)簽矩陣中,以此利用標(biāo)簽的類別信息來生成哈希碼,但是這種直接回歸的方式會導(dǎo)致擬合效果不佳,因此模型的檢索準(zhǔn)確率并不高.而可擴展的離散矩陣分解哈希(SCRATCH)[19]則是在SDH基礎(chǔ)上通過學(xué)習(xí)一個子空間矩陣來近似替代哈希碼矩陣,從而提高回歸的擬合效果.然而這些方法對標(biāo)簽信息的利用都比較單一,如SCM和SRSH只利用了標(biāo)簽的語義信息,SDH和SCRATCH則是只考慮了標(biāo)簽的類別信息,均未充分利用樣本的標(biāo)簽信息.另外,由于哈希碼是離散的,會導(dǎo)致求解困難,因而大多數(shù)哈希方法放寬了原始離散約束,然后以連續(xù)方式求解目標(biāo)函數(shù)以加速算法[20],這會引起較大的量化誤差從而導(dǎo)致學(xué)習(xí)的哈希碼準(zhǔn)確性降低.為了解決這個問題,比如DCH[16]利用了一種離散優(yōu)化算法,可以逐位地求解哈希碼,卻造成了效率相對較低的短板.

為了克服這些缺點,本文提出了一種新穎的有監(jiān)督哈希方法,稱為標(biāo)簽松弛回歸哈希,簡稱LRRH.該方法使用成對相似度矩陣來度量實例之間的相似度,并且采用了半松弛策略來解決原始NP難的二進(jìn)制優(yōu)化問題.此外,為了保留標(biāo)簽的類別信息,本文還采用了標(biāo)簽松弛回歸項,這使得標(biāo)簽信息能更自由地嵌入哈希碼中.最后,本文引入量化誤差項,以生成更有效和高質(zhì)量的哈希碼.而在哈希碼的求解中,本文的優(yōu)化算法能離散地一步生成哈希碼的所有位.因此,能避免低效和較大的量化誤差問題.本文的主要工作可以總結(jié)如下:

1)提出了一種新穎的有監(jiān)督跨模態(tài)哈希方法.該方法能更好地利用樣本的標(biāo)簽信息,使學(xué)習(xí)到的哈希碼既考慮了標(biāo)簽的語義相似性,也保留了標(biāo)簽的類別信息.

2)在保留標(biāo)簽的類別信息過程中,引入了標(biāo)簽松弛變量矩陣,使得標(biāo)簽矩陣由定值變?yōu)閰^(qū)間,增大了標(biāo)簽矩陣的魯棒性,使得回歸擬合效果更佳.

3)在3個公開數(shù)據(jù)集上進(jìn)行了廣泛的實驗.實驗結(jié)果表明,LRRH有明顯的優(yōu)勢.

本文的其余部分組織如下.第2節(jié)簡要概述了一些相關(guān)的工作.第3節(jié)詳細(xì)介紹了提出的方法.第4節(jié)報告了實驗結(jié)果并進(jìn)行分析,最后是第五節(jié)的總結(jié)與展望.

2 相關(guān)工作

如前所述,有監(jiān)督哈希方法能夠結(jié)合語義標(biāo)簽來學(xué)習(xí)更有效的哈希碼.例如,跨模態(tài)相似度敏感哈希(CMSSH)[21]通過最大化不同模態(tài)的哈希碼的相關(guān)性來近似原始特征的相似性.但是,CMSSH僅保留不同模態(tài)間的相關(guān)性,而忽略了模態(tài)內(nèi)的相關(guān)性.為了同時保留模態(tài)內(nèi)和模態(tài)間的相似性,跨視圖哈希(CVH)[22]將單視圖譜哈希技術(shù)[5]擴展到多視圖的情況,并通過最小化哈希碼之間的相似度加權(quán)漢明距離來學(xué)習(xí)哈希函數(shù).語義保留哈希(SePH)[15]通過監(jiān)督信息構(gòu)造相似度矩陣,并最小化KL散度將語義相似度近似保留在待學(xué)習(xí)的哈希碼中,然后以兩步方式學(xué)習(xí)統(tǒng)一的哈希碼和哈希函數(shù).該方法將標(biāo)簽轉(zhuǎn)換為成對相似度,這會導(dǎo)致較高的訓(xùn)練時間復(fù)雜度.而語義相關(guān)最大化哈希(SCM)[14]通過將語義標(biāo)簽無縫地集成到哈希碼學(xué)習(xí)過程中,從而避免了這種類型的轉(zhuǎn)換過程,并采用松弛策略來解決哈希碼的二進(jìn)制約束,但這會產(chǎn)生較大的量化誤差.離散跨模態(tài)哈希(DCH)[16]則通過離散循環(huán)坐標(biāo)下降法(DCC)來保持離散約束并逐位迭代生成二進(jìn)制碼.然而,當(dāng)哈希碼位數(shù)較多時,這種方式會導(dǎo)致學(xué)習(xí)哈希碼時的低效問題.廣義語義保留哈希(GSPH)[23]通過分解標(biāo)簽信息構(gòu)造的語義相似度矩陣來學(xué)習(xí)最佳哈希碼,然后使用嶺回歸和核邏輯回歸來學(xué)習(xí)哈希函數(shù).半松弛監(jiān)督哈希(SRSH)[17]也是使用標(biāo)簽信息來構(gòu)造相似度矩陣,并引入一個中間表示矩陣來放寬一部分二進(jìn)制約束,從而解決離散優(yōu)化問題.但是該方法沒有考慮到中間表示矩陣和哈希碼矩陣之間的量化誤差問題.值得注意的是,大多數(shù)有監(jiān)督方法如SePH,GSPH,SRSH等都將標(biāo)簽信息轉(zhuǎn)換為成對相似度矩陣來嵌入語義信息,卻忽略了類別信息,而此類信息對于檢索也很重要.

本文主要關(guān)注標(biāo)簽信息的充分利用和量化損失問題,為此提出了一種新的有監(jiān)督哈希方法,該方法不僅考慮到標(biāo)簽的成對語義相似性,還考慮到它的類別信息,這對于生成高質(zhì)量的哈希碼非常重要.

3 提出的方法

本節(jié)介紹了所提出的LRRH的細(xì)節(jié).本文主要關(guān)注圖像數(shù)據(jù)和文本數(shù)據(jù)的哈希碼學(xué)習(xí).在不失一般性下,可以很容易將該哈希方法擴展到更多模態(tài).本文使用的主要符號總結(jié)在表1中.LRRH的框架示意圖如圖1所示,LRRH先是通過分解語義相似度矩陣S來學(xué)習(xí)哈希碼矩陣B和中間表示矩陣V,然后通過最小化B和V之間的平方損失以及對V的正交與均衡約束,使得V近似于B,并通過標(biāo)簽松弛回歸,進(jìn)一步學(xué)習(xí)到V,最后聯(lián)合哈希函數(shù)得到最終的哈希碼.

圖1 LRRH框架示意圖Fig.1 Diagram of LRRH frame

表1 主要符號總結(jié)Table 1 Summary of the main symbols

3.1 哈希碼學(xué)習(xí)

3.1.1 成對相似性保留和量化誤差最小

為了保證語義相似的標(biāo)簽?zāi)軐W(xué)習(xí)相似的哈希碼,SRSH[17]提出了一種分解相似矩陣來學(xué)習(xí)哈希碼的方法,如式(1)所示:

(1)

其中,S∈{-1,1}n×n是語義相似度矩陣,如果第i個樣本和第j個樣本在標(biāo)簽語義上是相似的(即至少屬于同一個類標(biāo)簽),則Sij=1,否則Sij=0.V是和B同樣大小的中間表示矩陣.通過求解式(1)中的目標(biāo)函數(shù),哈希碼保留了S中的語義相似性.雖然式(1)通過矩陣V替換原來的一個B從而使得原來的離散優(yōu)化問題得以解決,但是存在這樣一個問題:哈希碼矩陣B和中間表示矩陣V之間存在一定的量化誤差,這在一定程度上會影響學(xué)習(xí)到的哈希碼的質(zhì)量.

因此,為了減少B和V之間的誤差,本文引入量化誤差項,并最小化B和V之間的平方損失.此外,為了使學(xué)習(xí)到的哈希碼更有效,本文在哈希碼上添加了正交約束與均衡約束,這使得哈希碼矩陣列間互不相關(guān),并且每個比特保持平衡[5].式(1)變?yōu)槭?2)的形式:

(2)

其中η是權(quán)衡參數(shù).但是對B這樣嚴(yán)格的正交和均衡約束使得優(yōu)化難以實現(xiàn).為了解決這個問題,本文通過將約束轉(zhuǎn)移到V來放寬最后兩個約束,并將式(2)構(gòu)造為式(3)形式:

(3)

3.1.2 標(biāo)簽松弛回歸

為了更充分地利用標(biāo)簽信息,本文還考慮了用標(biāo)簽的類別信息生成哈希碼.SDH[18]提出了一種將哈希碼回歸到標(biāo)簽以此保留標(biāo)簽類別信息的方法,如式(4)所示:

(4)

矩陣V和哈希碼矩陣B具有相同的維度大小,且通過量化誤差項以及施加在V上的正交約束與均衡約束,使得矩陣V能近似于哈希碼矩陣B,因為哈希碼存在二進(jìn)制約束,直接求解式(4)是困難的,因此,為了便于求解式(4)中的目標(biāo)函數(shù),可以將中間表示矩陣V替換式(4)中的B,進(jìn)一步轉(zhuǎn)換為式(5)的形式:

(5)

但是式(5)存在這樣一個問題:該方法假定在學(xué)習(xí)階段,要將V準(zhǔn)確地線性回歸到嚴(yán)格的二進(jìn)制標(biāo)簽矩陣L,但矩陣的自由度太小,這會導(dǎo)致擬合的效果不佳,使學(xué)習(xí)到的V質(zhì)量不高.

為了解決這個問題,本文引入標(biāo)簽松弛變量矩陣.

定義1.二元矩陣.二元矩陣D∈Rn×c定義為如下形式:

(6)

定義2.矩陣Hadamard積.設(shè)A、Y、C∈Rn×c,如果有:

C=A?Y

其中:cij=aij×yij,且aij∈A,yij∈Y,cij∈C.則,?為矩陣的Hadamard積.

定義3.標(biāo)簽松弛變量矩陣.設(shè)L為一個標(biāo)簽矩陣,且L∈{0,1}n×c,D為一個二元矩陣,M∈Rn×c為非負(fù)變量矩陣.則矩陣L的標(biāo)簽松弛變量矩陣定義為:

L°=L+D?M

(7)

定義3將嚴(yán)格的二進(jìn)制標(biāo)簽矩陣L擴展為標(biāo)簽松弛變量矩陣L°,這使L由定值變?yōu)閰^(qū)間,增大了L的魯棒性.

用式(7)中的L°代替式(5)中的L,則有式(8):

(8)

由式(8),L°比L具有更大的靈活性,這為V擬合標(biāo)簽提供了更大的自由度,使得擬合效果更好;同時L°擴大了不同類別之間的邊距,因而L°比L具有更好的判別力.通過擬合L°,標(biāo)簽中更多的類別語義信息被嵌入到V中,這使標(biāo)簽中的信息得到了進(jìn)一步的利用,因而,生成的哈希碼判別力更強.

3.2 哈希函數(shù)學(xué)習(xí)

對于訓(xùn)練集外的實例需學(xué)習(xí)哈希函數(shù),并通過哈希函數(shù)將實例映射成哈希碼,從而進(jìn)行檢索.在學(xué)習(xí)哈希函數(shù)之前將對原始數(shù)據(jù)進(jìn)行核化處理,因為核化方法能使機器學(xué)習(xí)模型更好地適合于非線性可分離數(shù)據(jù).核函數(shù)可以更好地表達(dá)原始特征之間的非線性模態(tài)內(nèi)相關(guān)性[24].因此,本文采用RBF核函數(shù),即徑向基函數(shù),如式(9)所示:

(9)

哈希函數(shù)的學(xué)習(xí)可以采用許多分類模型,例如線性分類,支持向量機和神經(jīng)網(wǎng)絡(luò)等.一般來說,更復(fù)雜的模型可以達(dá)到更好的精度,但是,計算成本也可能顯著增加.因此,為了平衡準(zhǔn)確性和效率,本文采用線性分類器模型來學(xué)習(xí)哈希函數(shù).具體如式(10)所示:

(10)

其中β是權(quán)衡參數(shù),通過最優(yōu)化式(10)中的目標(biāo)函數(shù),可以得到相應(yīng)的投影矩陣Pt.本文定義的哈希函數(shù)如式(11)所示:

Ht(x(t))=sgn(φt(x(t))Pt)

(11)

對于訓(xùn)練集外的實例,可以通過式(11)中的哈希函數(shù)得到相應(yīng)的哈希碼.

3.3 總體目標(biāo)函數(shù)

LRRH的總體目標(biāo)函數(shù)將式(3)中成對相似性保留項,式(8)中的標(biāo)簽松弛回歸項以及式(10)中的哈希函數(shù)學(xué)習(xí)項聯(lián)合優(yōu)化,得到式(12)形式:

(12)

3.4 優(yōu)化算法

對于6個矩陣變量B,V,M,G,P1,P2來說,目標(biāo)函數(shù)式(9)是非凸的,直接求解非常困難.為了解決這個問題,本文提出了一種有效的迭代優(yōu)化算法.具體而言,首先使用標(biāo)準(zhǔn)正態(tài)分布將B,V,G隨機初始化.此后,P1,P2,M,G,V,B交替更新,直到收斂或達(dá)到最大迭代次數(shù)T.具體的優(yōu)化過程如下所述.

1)固定B,V,M,G,P2,求解P1,則式(12)可寫為:

(13)

展開式(13)并對P1求導(dǎo),令其導(dǎo)數(shù)為零,可以得到閉合解:

P1=(λ1φ1(X(1))Tφ1(X(1))+βIk1)-1λ1φ1(X(1))TB

(14)

同理,

P2=(λ2φ2(X(2))Tφ2(X(2))+βIk2)-1λ2φ2(X(2))TB

(15)

2)固定B,V,G,P1,P2,求解M,則式(12)可寫為:

(16)

令U=VG-L,則式(16)可寫為:

(17)

根據(jù)文獻(xiàn)[25],可以得到M的最優(yōu)解:

M=max(D?U,0)

(18)

3)固定B,V,M,P1,P2,求解G,則式(12)可寫為:

(19)

由式(7)并展開式(19)對G求導(dǎo),令其導(dǎo)數(shù)為零,可以得到閉合解:

(20)

4)固定B,M,G,P1,P2,求解V,則式(12)可寫為:

(21)

為了解決上述問題,本文把式(21)中的目標(biāo)函數(shù)在約束VTV=nIr,以及B∈{-1,1}n×r下,并由式(7),轉(zhuǎn)為矩陣的跡的形式,最終簡化如式(22)所示:

(22)

(23)

(24)

5)固定V,M,G,P1,P2,求解B,則式(12)可寫為:

(25)

將式(25)轉(zhuǎn)為矩陣的跡的形式,最終簡化如式(26)所示:

(26)

因此,式(26)的最優(yōu)解為:

(27)

因為B具有離散約束,一些方法放寬了二進(jìn)制約束以生成哈希碼,這可能會產(chǎn)生較大的量化誤差,而常規(guī)離散優(yōu)化算法使用離散循環(huán)坐標(biāo)下降(DCC)逐位地求解最佳哈希碼,從而導(dǎo)致求解B的子步驟中存在許多的迭代.在本文優(yōu)化算法中,求解B時,哈希碼的所有位都可以離散地一步生成,因此效率更高,尤其是在哈希碼較長時.算法1總結(jié)了LRRH的整個訓(xùn)練過程,包括哈希碼學(xué)習(xí)和哈希函數(shù)的學(xué)習(xí).

算法1.LRRH的優(yōu)化算法

輸入:圖像矩陣X(1)和文本矩陣X(2),標(biāo)簽矩陣L,哈希碼長度r,迭代次數(shù)T,圖像和文本核化后的特征維數(shù)k1和k2,參數(shù)γ,λ1,η,β

輸出:哈希函數(shù)投影矩陣P1,P2和哈希碼矩陣B

1.通過RBF核函數(shù)分別把X(1),X(2)映射到核空間

2.用標(biāo)準(zhǔn)正態(tài)分布隨機初始化B,V,G

Repeat

3.用式(14)和式(15)分別更新P1,P2;

4.用式(18)更新M;

5.用式(20)更新G;

6.用式(24)更新V;

7.用式(27)更新B;

Until 收斂或者達(dá)到最大迭代次數(shù)

3.5 計算復(fù)雜度分析

3.6 多模態(tài)的擴展

本文所提出的LRRH中,只考慮了兩個模態(tài)的情況,即圖像和文本.但本文提出的方法也能容易擴展于多模態(tài)的情況.假設(shè)訓(xùn)練集的實例包含了m個不同的模態(tài),則本文在式(12)中提出的目標(biāo)函數(shù)可以擴展為:

(28)

4 實驗與分析

為了評估LRRH的性能,本文在LabelMe[27],MIRFlickr[28]以及NUS-WIDE[29]這3個公開數(shù)據(jù)集上進(jìn)行了實驗驗證,這些數(shù)據(jù)集已廣泛用于跨模態(tài)哈希檢索文獻(xiàn)中,表2總結(jié)了3個數(shù)據(jù)集的統(tǒng)計數(shù)據(jù).本文與近年來的無監(jiān)督圖哈希方法FSH[11],無監(jiān)督基于矩陣分解的哈希方法CMFH[13],及有監(jiān)督的DCH[16],SCM[14],SRSH[17],SCRATCH[19],GSPH[23],在用文本檢索圖像(簡化為T→I)和用圖像檢索文本(簡化為I→T)兩個跨模態(tài)檢索任務(wù)上進(jìn)行了性能比較和分析.在實驗中,本文使用廣泛應(yīng)用于跨模態(tài)哈希算法的評估指標(biāo)Mean Average Precision(MAP)和精度-召回率曲線(PR曲線)來評估各算法的性能.對于MAP,值越大,結(jié)果越好.對于PR曲線,其平均值越高,則表現(xiàn)越好.再者,為了評估所提出方法和所有對比方法的計算成本,本文還對比了它們在不同哈希碼長度下的訓(xùn)練時間.

表2 3個基準(zhǔn)數(shù)據(jù)集的統(tǒng)計信息Table 2 Statistical information of three benchmark datasets

4.1 實驗設(shè)置

所有對比方法由作者提供的代碼及其論文中建議的參數(shù)來實現(xiàn).對于LRRH,在所有數(shù)據(jù)集上,迭代次數(shù)T=3,圖像數(shù)據(jù)核化后的特征維數(shù)k1=1000,文本數(shù)據(jù)核化后的特征維數(shù)k2=1500.在LabelMe數(shù)據(jù)集上,各項參數(shù)設(shè)置為:λ1=0.5,λ2=0.5,γ=10,η=100,正則化參數(shù)β=0.001;在MIRFlickr數(shù)據(jù)集上,各項參數(shù)設(shè)置為:λ1=0.9,λ2=0.1,γ=1,η=10,正則化參數(shù)β=0.01;在NUS-WIDE數(shù)據(jù)集上,各項參數(shù)設(shè)置為:λ1=0.2,λ2=0.8,γ=0.01,η=0.01,正則化參數(shù)β=0.01;所有實驗都在配備Intel(R)Core(TM)i5-9400F CPU@2.90GHz,32GB RAM的機器上進(jìn)行.

4.2 實驗結(jié)果及分析

4.2.1 LabelMe數(shù)據(jù)集的實驗結(jié)果

表3給出了LRRH和其它對比方法在LabelMe數(shù)據(jù)集上的MAP結(jié)果.它包括圖像檢索文本和文本檢索圖像在8~128位不同哈希碼長度上的結(jié)果.其中最好的結(jié)果加粗黑體顯示.圖2分別繪制了在16位和64位不同哈希碼長度下的精度-召回率曲線.

圖2 在LabelMe上哈希碼分別為16位和64位時的PR曲線Fig.2 PR curves on LabelMe with the code length of 16 bits and 64 bits

表3 在LabelMe上的MAP結(jié)果Table 3 MAP results on LabelMe dataset

從表3中可以發(fā)現(xiàn),與所有對比方法相比,LRRH在所有的哈希碼長度上都獲得最佳的MAP結(jié)果,尤其是在文本檢索圖像的任務(wù)中,在所有哈希碼位上MAP值都超過92%,同時,與SRSH相比,在I→T的任務(wù)中,MAP至少提高了2%,但是與對比方法中的最好結(jié)果相比,即GSPH,本文的LRRH性能提升并不明顯,同時,從圖2的 PR曲線可以看出,LRRH的曲線與部分對比方法非常接近,可能的原因是LabelMe是單標(biāo)簽數(shù)據(jù)集,在一定程度上限制了LRRH的學(xué)習(xí)能力.

從表3還可以看出,有監(jiān)督的方法比無監(jiān)督的方法表現(xiàn)更好,這也說明了語義信息的重要性.而大多數(shù)方法隨著哈希碼長度的增加會表現(xiàn)得更好,這表明更長的哈希碼可以編碼更多的判別信息,從而提高檢索性能.

4.2.2 MIRFlickr數(shù)據(jù)集的實驗結(jié)果

表4總結(jié)了MIRFlickr數(shù)據(jù)集上所有方法的MAP結(jié)果,圖3分別展示了在16位和64位哈希碼長度下的PR曲線.

表4 在MIRFlickr上的MAP結(jié)果Table 4 MAP results on MIRFlickr dataset

從表4可以看出,在該數(shù)據(jù)集下,LRRH的MAP結(jié)果要優(yōu)于其它所有對比方法.與SRSH相比,LRRH的性能提升顯著.同時,與對比方法中表現(xiàn)最好的SCRATCH相比,在I→T的任務(wù)中,LRRH最好結(jié)果大約高出了3.8%;而在T→I的任務(wù)中,最好結(jié)果大約高出了5%.從圖3的PR曲線可以看出,LRRH總體表現(xiàn)也優(yōu)于其它對比方法,且在文本檢索圖像任務(wù)中有較大的優(yōu)勢.與LabelMe數(shù)據(jù)集不同的是,MIRFlickr是多標(biāo)簽數(shù)據(jù)集,且類別數(shù)也較多.該數(shù)據(jù)集的實驗結(jié)果表明了LRRH考慮到了標(biāo)簽的類別信息,而此類信息對于檢索效果也很重要,因此在類別數(shù)較多的多標(biāo)簽數(shù)據(jù)集上,LRRH更能體現(xiàn)其優(yōu)越性.

圖3 在MIRFlickr上哈希碼分別為16位和64位時的PR曲線Fig.3 PR curves on MIRFlickr with the code length of 16 bits and 64 bits

4.2.3 NUS-WIDE數(shù)據(jù)集的實驗結(jié)果

表5顯示了在NUS-WIDE數(shù)據(jù)集上的MAP結(jié)果,而圖4分別繪制了在16位和64位不同哈希碼長度下的PR曲線.

圖4 在NUS-WIDE上哈希碼分別為16位和64位時的PR曲線Fig.4 PR curves on NUS-WIDE with the code length of 16 bits and 64 bits

從表5可以得出與前兩個數(shù)據(jù)集相同的觀察結(jié)果是:LRRH在所有情況下,MAP結(jié)果始終優(yōu)于所有對比方法,這也很好說明了本文提出的LRRH在跨模態(tài)檢索中的有效性.與SRSH相比,LRRH性能提升更為顯著.在圖4的PR曲線中,總的來說,LRRH表現(xiàn)也優(yōu)于其它對比方法.這說明了LRRH能更充分地利用標(biāo)簽的語義信息,具有更強的語義判別能力,對多標(biāo)簽數(shù)據(jù)集有更好的學(xué)習(xí)能力.

表5 在NUS-WIDE上的MAP結(jié)果Table 5 MAP results on NUS-WIDE dataset

4.2.4 收斂分析

在本節(jié)中,本文進(jìn)行實驗以驗證迭代優(yōu)化算法的收斂性.圖5展示了LRRH在3個數(shù)據(jù)集上哈希碼長度分別為32位和64位時的收斂曲線.可以看出,作為優(yōu)化算法的結(jié)果,本文的目標(biāo)函數(shù)在不同的3個數(shù)據(jù)集上僅僅需要3次迭代就能收斂.同時,無論是在LabelMe的小規(guī)模數(shù)據(jù)集上還是在NUS-WIDE之類的大規(guī)模數(shù)據(jù)集上,優(yōu)化算法收斂都非常快,這表明本文優(yōu)化算法具有一定的優(yōu)勢.而為了取得最優(yōu)的結(jié)果,本文對不同的數(shù)據(jù)集統(tǒng)一將迭代次數(shù)設(shè)置為3次.

圖5 迭代優(yōu)化算法的收斂性分析Fig.5 Convergence analysis of iterrative optimization algorithm

4.2.5 參數(shù)敏感性分析

本小節(jié)在LabelMe數(shù)據(jù)集上進(jìn)行實驗分析了參數(shù)γ,η,λ1和β的變化對MAP結(jié)果的影響.其中,λ2=1-λ1,哈希碼長度設(shè)置為16位,在測試每個參數(shù)的同時保持其他參數(shù)不變,被固定的其他參數(shù)采用4.1節(jié)實驗設(shè)置中LabelMe上的參數(shù)取值.圖6顯示了各參數(shù)的變化對MAP結(jié)果的影響.其中,參數(shù)γ控制標(biāo)簽松弛回歸項在方法中的影響程度,參數(shù)η控制量化誤差項在方法中的影響程度,參數(shù)λ1控制圖像模態(tài)的權(quán)重,參數(shù)β控制正則化項的懲罰程度.從圖6可以觀察到,當(dāng)參數(shù)γ的值從1增加到100時,在圖像檢索文本的任務(wù)上,效果有不小的提升,表明標(biāo)簽松弛回歸項對哈希碼質(zhì)量的提升是有效的.而參數(shù)η在[0.01,0.1]范圍內(nèi),對結(jié)果影響較大,說明量化誤差項對LRRH的性能也有一定的貢獻(xiàn).參數(shù)λ1的值取在0.3附近時,表現(xiàn)的結(jié)果較好,說明在LabelMe上,應(yīng)適當(dāng)側(cè)重文本模態(tài).正則化參數(shù)β的值取在0.001附近時,結(jié)果表現(xiàn)最佳,當(dāng)它取值太大時,結(jié)果顯著下降,因為此時導(dǎo)致模型欠擬合,而取值太小時,會使得模型容易過擬合.同時也可以發(fā)現(xiàn),本文方法在各參數(shù)的較大范圍內(nèi)都能表現(xiàn)良好.

圖6 LabelMe數(shù)據(jù)集上參數(shù)γ,η,λ1,β的敏感性分析Fig.6 Sensitivity analysis of parameters γ,η,λ1,β on LabelMe dataset

4.2.6 訓(xùn)練時間對比分析

在本小節(jié)中,進(jìn)行了實驗,對比所有方法在3個數(shù)據(jù)集上哈希碼長度分別為32位和128位時的訓(xùn)練時間,其結(jié)果總結(jié)在表6中.從表6可以看出,大部分方法在哈希碼長度為128位時的訓(xùn)練時間要比32位時增加不少,而LRRH的訓(xùn)練時間并沒有明顯增加,主要原因是LRRH是同時生成哈希碼的所有位而不是逐位生成.在NUS-WIDE大型數(shù)據(jù)集上,部分方法訓(xùn)練時間將近1000秒,其中SRSH則超過了5000秒,盡管LRRH使用了n×n的相似度矩陣從而計算復(fù)雜度無法與訓(xùn)練集大小成線性關(guān)系,但因為本文優(yōu)化算法的有效性和穩(wěn)定性,使得迭代次數(shù)較小,所以在NUS-WID大型數(shù)據(jù)集上,LRRH訓(xùn)練時間并無很高.

表6 3個數(shù)據(jù)集上所有方法的訓(xùn)練時間(單位:秒)Table 6 Training time(second)of all methods on three datasets

5 總結(jié)與展望

本文提出了一種新的有監(jiān)督跨模態(tài)哈希方法,即標(biāo)簽松弛回歸哈希,簡稱LRRH.LRRH通過引入語義相似度矩陣來保持實例間的語義相似性,同時為了也保留標(biāo)簽的類別信息,LRRH將標(biāo)簽矩陣擴展為標(biāo)簽松弛變量矩陣,通過標(biāo)簽松弛回歸將標(biāo)簽的類別信息嵌入到哈希碼中,同時添加正交與均衡約束,使學(xué)習(xí)到的哈希碼判別力更強.此外,在哈希碼的求解中,能離散地一步生成哈希碼的所有位.在3個公開數(shù)據(jù)集上與最近的跨模態(tài)哈希方法進(jìn)行了實驗比較,實驗結(jié)果表明,在跨模態(tài)檢索任務(wù)上,LRRH優(yōu)于最近的一些方法,具有較好的優(yōu)越性.

下一步工作將考慮引入子空間學(xué)習(xí),使其和哈希碼之間建立關(guān)聯(lián),加強哈希碼之間的語義相關(guān)性,同時也將進(jìn)一步考慮不同模態(tài)特征表示間的語義層上的相關(guān)性.

猜你喜歡
哈希集上模態(tài)
基于標(biāo)記相關(guān)性和ReliefF的多標(biāo)記特征選擇
聯(lián)合仿真在某車型LGF/PP尾門模態(tài)仿真上的應(yīng)用
關(guān)于短文本匹配的泛化性和遷移性的研究分析
基于老年駕駛?cè)说亩嗄B(tài)集成式交互設(shè)計研究
哈希值處理 功能全面更易用
Windows哈希值處理不犯難
文件哈希值處理一條龍
模態(tài)可精確化方向的含糊性研究
師如明燈,清涼溫潤
巧用哈希數(shù)值傳遞文件