解姍姍,神顯豪
(1.閩南理工學(xué)院 信息管理學(xué)院, 福建 石獅 362700;2.桂林理工大學(xué) 信息科學(xué)與工程學(xué)院, 廣西 桂林 541004)
隨著移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展以及社交媒體的普及,社交媒體的用戶每天上傳數(shù)以億計(jì)的新圖片,導(dǎo)致從海量的圖像數(shù)據(jù)集中準(zhǔn)確搜索出目標(biāo)圖像成為了巨大的挑戰(zhàn)[1-2]。目前主流的圖像檢索技術(shù)主要分為基于文字檢索(text-based image retrieval,TBIR)[3]、基于圖像內(nèi)容檢索(content-based image retrieval,CBIR)[4]兩種方案。CBIR方案提取圖像的視覺(jué)特征,通過(guò)視覺(jué)特征匹配出相似的圖像。CBIR技術(shù)的檢索準(zhǔn)確率較高,但是“語(yǔ)義鴻溝”是CBIR技術(shù)一個(gè)難以解決的問(wèn)題[5]。TBIR技術(shù)基于圖像的標(biāo)注信息匹配相似的圖像,但一般需要人工完成圖像的標(biāo)注任務(wù),而海量的社交圖像集難以通過(guò)人工實(shí)現(xiàn)對(duì)圖像的標(biāo)注[6]。兩種圖像檢索技術(shù)均具有顯著的優(yōu)勢(shì),同時(shí)也具有明顯的缺陷。
為了提高海量圖像數(shù)據(jù)庫(kù)的檢索效果,研究人員考慮融合CBIR與TBIR兩種技術(shù)以實(shí)現(xiàn)互補(bǔ)的效果[7-8]。文獻(xiàn)[9]設(shè)計(jì)了一種基于文本和視覺(jué)內(nèi)容的圖像檢索算法,該算法采用稠密的尺度不變特征轉(zhuǎn)換構(gòu)造視覺(jué)單詞的方式描述圖像的內(nèi)容,依據(jù)基于概率潛在語(yǔ)義分析模型的圖像自動(dòng)標(biāo)注方法獲取的視覺(jué)語(yǔ)義對(duì)圖像進(jìn)行查詢。文獻(xiàn)[10]提出了一種新的混合圖像檢索技術(shù),該算法主要分為2個(gè)階段:首先得到分類(lèi)完成的圖庫(kù)、概率分配參數(shù)表和基本詞庫(kù),然后在該類(lèi)下搜索最相似圖片。該算法在檢索之前將圖片庫(kù)中所有圖片按其本身特征進(jìn)行自動(dòng)分類(lèi),取代人工標(biāo)注圖像信息的過(guò)程。文獻(xiàn)[9-10]參考人工標(biāo)注或者從Web提取相關(guān)的文字信息,限制了檢索算法的性能。文獻(xiàn)[11]提出一種混合的圖像檢索算法,該算法采用語(yǔ)義標(biāo)注信息、Gabor小波特征以及顏色特征,有效地提高了圖像檢索算法的魯棒性,但是特征量較大,難以應(yīng)用于海量數(shù)據(jù)集。
大多數(shù)圖像檢索算法采用人工標(biāo)注或從Web提取相關(guān)的標(biāo)注信息,降低了檢索算法的準(zhǔn)確率。實(shí)際情況中社交媒體圖像的標(biāo)注信息大多不完整,并且存在噪聲,導(dǎo)致圖像檢索的精度不足。為了解決上述問(wèn)題,本文設(shè)計(jì)了一種混合的圖像檢索算法,該算法能夠自動(dòng)關(guān)聯(lián)圖像的視覺(jué)內(nèi)容與文字標(biāo)注,有效地提高了圖像檢索的效率。首先,將圖像建模為局部特征集,將特征量化為視覺(jué)詞匯集。然后,設(shè)計(jì)了基于概率的主題模型(probabilistic fusion topic model,PFTM),根據(jù)共生的標(biāo)注信息與視覺(jué)特征提取圖像的語(yǔ)義主題。本文的主題模型中基于視覺(jué)特征生成的最近主題能夠有效地增強(qiáng)圖像與文字標(biāo)注之間的相關(guān)性,并構(gòu)建視覺(jué)特征中空間位置與顏色之間的關(guān)系。此外,主題模型能夠有效地補(bǔ)全缺失的文字標(biāo)注信息,同時(shí)刪除噪聲標(biāo)注。主題模型保證了圖像標(biāo)注的完整性,有助于提高檢索結(jié)果的準(zhǔn)確性。
本方法的基本架構(gòu)如圖1所示,主要由離線階段與線上階段兩部分組成。離線階段提取每個(gè)社交圖像的主題,補(bǔ)全缺失的文字標(biāo)注,刪除噪聲標(biāo)注。從訓(xùn)練圖像集學(xué)習(xí)PFTM模型的模型參數(shù),通過(guò)搜索圖像視覺(jué)特征與文字標(biāo)注的共生模式,將主題建模為關(guān)于視覺(jué)特征與文字標(biāo)注的兩個(gè)分布。如果圖像的視覺(jué)特征(空間位置與顏色特征)較為接近,那么將圖像分為相同的主題,因此學(xué)習(xí)的模型參數(shù)僅反映了標(biāo)注與視覺(jué)特征之間的相關(guān)性。在線上階段,采用離線學(xué)習(xí)的PFTM模型來(lái)加速圖像搜索的過(guò)程。系統(tǒng)的查詢可以是圖像、關(guān)鍵詞或者兩者的組合。
圖1 本算法離線、線上階段的流程
1.1.1特征提取
1.1.2問(wèn)題模型
PFTM模型是一種多實(shí)體數(shù)據(jù)的生成模型,社交圖像是視覺(jué)詞匯與文字詞匯的組合,屬于一種多實(shí)體數(shù)據(jù)。本文的主題模型表示為流程圖模型,如圖3所示。
圖3 主題模型的流程框圖
圖3顯示,給定一個(gè)包含D個(gè)圖像的集合,每個(gè)圖像Id由Nd個(gè)視覺(jué)詞匯與Md個(gè)文字標(biāo)注詞匯組成。使用最近的變量(zdi)來(lái)表征主題,主題z表示與每個(gè)視覺(jué)特征語(yǔ)義相關(guān)的主題。將圖像表示為T(mén)個(gè)主題的組合,每個(gè)主題建模為視覺(jué)詞匯與標(biāo)注詞匯的兩個(gè)分布,假設(shè)視覺(jué)詞匯與標(biāo)注詞匯的大小分別為v與w。文字主題是主題z的一部分,PFTM模型直接使用最近的視覺(jué)詞匯主題生成文字詞匯。根據(jù)圖4的模型,vdi與wdj是兩個(gè)顯變量,引入新的顯變量fdi表示第i個(gè)patch的特征。圖像語(yǔ)料庫(kù)的PFTM模型主要流程如算法1描述。
算法1 圖像語(yǔ)料庫(kù)的PFTM模型foreach 主題t: 計(jì)算視覺(jué)分布?1,t~Dir(β1); 計(jì)算文字分布?2,t~Dir(β2);foreach圖像Id: 計(jì)算主題傳播概率θd~Dir(α);foreach 主題t;計(jì)算局部的特征分布:{μtd,Λtd} ~ NW(μ0,κ,v,Q);foreach 視覺(jué)詞匯vdi: 計(jì)算主題zdi~Multi(θd); 計(jì)算視覺(jué)詞匯vdi~Multi(?1,zdi); 計(jì)算局部向量fdi~N(μdzdi,Α-1dzdi);foreach 標(biāo)注詞匯wdj 計(jì)算主題ydj~Unif(z1,…,zNd); 計(jì)算文字詞匯wdj~Multi(?2,ydj);
此處dir、multi、n與nw分別表示狄利克雷分布、多項(xiàng)式分布、正態(tài)分布以及正態(tài)-Wishart分布。優(yōu)先選擇多項(xiàng)式分布與正態(tài)-Wishart分布分別表示標(biāo)注分布與位置分布,原因在于這兩個(gè)分布的計(jì)算簡(jiǎn)單且效率高。本模型采用了視覺(jué)實(shí)體與文字標(biāo)注實(shí)體。視覺(jué)詞匯與文字詞匯是離散隨機(jī)變量,因此服從多項(xiàng)式分布;區(qū)域特征是實(shí)數(shù)向量形式,因此服從正態(tài)分布。
PFTM模型支持先驗(yàn)信息,由圖像視覺(jué)內(nèi)容的貝葉斯先驗(yàn)與實(shí)體之間的關(guān)系實(shí)現(xiàn)。在PFTM處理步驟中,圖像d的每個(gè)主題t表示為1個(gè)區(qū)域特征分布p(μtd,Λtd),以及1個(gè)視覺(jué)詞匯的概率分布Φt。設(shè)置每個(gè)圖像的區(qū)域特征分布p(μtd,Λtd)具有獨(dú)立性,而不同圖像之間共享視覺(jué)詞匯分布信息Φ1,t。不同圖像的目標(biāo)形狀特征Φ1,t較為相似,目標(biāo)的位置分布與顏色分布則相差較大,所以將不同圖像的p(μtd,Λtd)設(shè)為獨(dú)立信息。圖像中視覺(jué)詞匯的關(guān)系編碼為參數(shù)μtd與Λtd,主題t的視覺(jué)詞匯接近分布p(μtd,Λtd)的期望值。文字主題y通過(guò)均勻分布與1個(gè)視覺(jué)主題z相關(guān)聯(lián),然后根據(jù)主題分布Multi(Φ2)生成文字詞匯。通過(guò)該方法加強(qiáng)了視覺(jué)詞匯與文字詞匯之間的相關(guān)性。
通過(guò)有效的學(xué)習(xí)方法實(shí)現(xiàn)對(duì)PFTM模型的參數(shù)估計(jì)。假設(shè)Π={α,β1,β2,μ,κ,v,Q}是超參數(shù)(hyper parameters)集合,給定一個(gè)共有D個(gè)圖像的訓(xùn)練集B,模型參數(shù)包括視覺(jué)主題分布Φ1與文字主題分布Φ2,其估計(jì)方法為最大化式(1)的對(duì)數(shù)似然方程。
(1)
采用Monte Carlo EM算法對(duì)模型參數(shù)進(jìn)行估計(jì),算法流程如算法2描述。
算法2 主題模型的參數(shù)估計(jì)算法輸入:圖像數(shù)據(jù)語(yǔ)料庫(kù){vd,fd,wd}Dd=1,由視覺(jué)詞袋、區(qū)域特征以及文字詞匯組成。輸出:估計(jì)的模型參數(shù)Φ1,Φ2。1.初始化參數(shù)集{Φ(0)1,Φ(0)2}2.foreach k=1,…,K do:3.給定Φ(k-1)1,每個(gè)圖像為Id,使用式(2)計(jì)算視覺(jué)主題 p(zd| vd,fd,yd,Π)后驗(yàn)分布的采樣。4.給定Φ(k-1)2,每個(gè)圖像為Id,使用式(3)計(jì)算文字主題 p(yd| wd,zd,Π)后驗(yàn)分布的采樣。5.使用式(5)(6)計(jì)算{Φ(k)1,Φ(k)2}6.endfor
算法2實(shí)現(xiàn)了模型參數(shù)的近似估計(jì),然后通過(guò)檢查后驗(yàn)樣本估計(jì)出模型的參數(shù)。具體采用Gibbs采樣算法分別采樣視覺(jué)詞匯v與文字詞匯w的最近變量z與y,定義為式(2)(3)。
(2)
(3)
在采樣迭代之后,使用最近變量的后驗(yàn)樣本迭代地估計(jì)Φ1與Φ2兩個(gè)參數(shù),直至達(dá)到收斂。主題-視覺(jué)詞匯的后驗(yàn)多項(xiàng)式分布計(jì)算見(jiàn)式(4)。
(4)
(5)
與之相似,文字主題分布的估計(jì)方法如式(6)所示。
(6)
式(2)(3)中對(duì)標(biāo)注完整性進(jìn)行了處理,補(bǔ)全缺失的標(biāo)注并刪除噪聲標(biāo)注。式(2)的第1項(xiàng)是視覺(jué)詞匯v分配到主題t的概率,第2、3項(xiàng)分別是主題t關(guān)于區(qū)域特征與視覺(jué)詞匯的概率。因此,增強(qiáng)了同一圖像中共生的視覺(jué)詞匯,通過(guò)將區(qū)域特征分配至同一個(gè)主題實(shí)現(xiàn)兩者之間的關(guān)聯(lián)。式(2)的最后一項(xiàng)是文字詞匯的分配概率。最終,與主題t頻繁共同出現(xiàn)的人工標(biāo)注優(yōu)先分配至該主題,根據(jù)各個(gè)圖像提取的主題可以有效地預(yù)測(cè)丟失的標(biāo)注。式(3)度量了文字詞匯分配至主題t的概率,其中第1項(xiàng)是文字詞匯w分配至主題t在全部數(shù)據(jù)集中的概率,第2項(xiàng)表示主題t在圖像d中的比例。人工標(biāo)注導(dǎo)致的噪聲詞匯極少出現(xiàn)在圖像數(shù)據(jù)庫(kù)中,因此將噪聲詞匯w分配至主題t的概率極低。如果主題t支配圖像d,此時(shí)文字詞匯分配至主題t的概率較高。綜上所述,因?yàn)樵肼曉~匯的比重遠(yuǎn)低于語(yǔ)義相關(guān)的詞匯,所以采用分配概率即可直接地解決標(biāo)注完整性的問(wèn)題。
未知圖像預(yù)測(cè)的目標(biāo)是推導(dǎo)未知圖像Id′的最近變量。未知圖像的預(yù)測(cè)過(guò)程與本文1.3小節(jié)的參數(shù)預(yù)測(cè)過(guò)程相似,修改式(2)(3)的第1項(xiàng),單獨(dú)考慮每個(gè)未知圖像。未知圖像的預(yù)測(cè)方法如式(7)(8)所示。
(7)
(8)
基于feacorrlda模型以及估計(jì)的模型參數(shù),提出了標(biāo)注相關(guān)性的估計(jì)算法,如算法3所示。
算法3 主題模型的標(biāo)注相關(guān)性輸入:未知圖像{vd′,fd′,wd′}Dd=1,由視覺(jué)詞袋、區(qū)域特征以及文字詞匯組成。算法1學(xué)習(xí)的參數(shù)Φ1,Φ2。輸出:標(biāo)注相關(guān)性概率P(w|vd′, fd′,Φ1,Φ2)1.使用式(7)計(jì)算視覺(jué)主題p(zd′|vd′, fd′,yd′,Π)后驗(yàn)分布的采樣。2.使用式(8)計(jì)算文字主題p(yd′|wd′,zd′,Π)后驗(yàn)分布的采樣。3.使用式(9)計(jì)算P(w|vd′, fd′,Φ1,Φ2)。
標(biāo)注w對(duì)圖像Id′的相關(guān)性計(jì)算為區(qū)域特征fd′、視覺(jué)詞匯vd′以及訓(xùn)練集B估計(jì)所估計(jì)參數(shù)的條件概率。具體計(jì)算見(jiàn)下式:
P(w|Id′,B)=P(w|vd′,fd,Φ1,Φ2)=
(9)
給定一個(gè)標(biāo)注,之前基于文字的方法僅使用標(biāo)注信息完成圖像的檢索任務(wù)。本文采用基于Fisher向量的視覺(jué)內(nèi)容信息,使用GMM將圖像的全部局部特征收集至一個(gè)全局向量中,該編碼技術(shù)顯示了較好的性能。
根據(jù)本文1.1小節(jié)的內(nèi)容,一個(gè)圖像由SFIT描述符與hue描述符兩種特征組成。文獻(xiàn)[10]顯示組合兩種特征能夠有效地提高圖像檢索的性能。Fisher向量u計(jì)算方法見(jiàn)式(10)~(12)。
(10)
(11)
(12)
(13)
給定一個(gè)查詢圖像Iq與數(shù)據(jù)庫(kù)圖像Id,假設(shè)兩個(gè)圖像的視覺(jué)特征分別為uq與ud。假設(shè)rq與rd是兩個(gè)W維度的向量,分別表示圖像Iq與Id的文字信息。查詢圖像與數(shù)據(jù)庫(kù)圖像的相似性度量方程為
S(q,d)=(1-ρ)uqud+ρrqrd
(14)
式中:第1項(xiàng)對(duì)應(yīng)視覺(jué)相似性;第2項(xiàng)對(duì)應(yīng)文字相似性;ρ控制兩者之間的重要性,如果查詢是關(guān)鍵字,那么將ρ設(shè)為1,如果查詢是圖像,那么將ρ設(shè)為0。將數(shù)據(jù)庫(kù)所有圖像按照相似性評(píng)分排序,選擇最相關(guān)的圖像返回給用戶。
2.1.1實(shí)驗(yàn)數(shù)據(jù)集
為了全面地評(píng)估算法的性能,采用3個(gè)不同規(guī)模的benchmark數(shù)據(jù)集。3個(gè)數(shù)據(jù)集的基本信息為:LABELME數(shù)據(jù)集是一個(gè)小規(guī)模數(shù)據(jù)集,樣本數(shù)量為2 920,標(biāo)注詞匯量為490,標(biāo)注量均值為11;IAPR TC12數(shù)據(jù)集是一個(gè)中等數(shù)據(jù)集,樣本數(shù)量為 19 805,標(biāo)注詞匯量為291,標(biāo)注量均值為5.7;NUS-WIDE數(shù)據(jù)集是一個(gè)大規(guī)模數(shù)據(jù)集,樣本數(shù)量為 237 131,標(biāo)注詞匯量為1 000,標(biāo)注量均值為6.5。表1所示是3個(gè)數(shù)據(jù)集的基本信息。
表1 3個(gè)數(shù)據(jù)集的基本信息
2.1.2實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置
采用DoG(difference of gaussian)尋找圖像的顯著點(diǎn)。在計(jì)算每個(gè)圖像patch hue描述符的過(guò)程中,將hue直方圖的bin數(shù)量設(shè)為15,因此,HueSIFT描述符的維度為dimHS=128+15=143。Fisher向量的維度為dimFV=2×K×dimHS=18 304,K=64是高斯分量的數(shù)量。Fisher向量的維度過(guò)高,空間復(fù)雜度較高,因此采用PCA技術(shù)將描述符降為1 024維。所有數(shù)據(jù)集的視覺(jué)詞匯大小V設(shè)為2 000。
2.1.3主題學(xué)習(xí)實(shí)驗(yàn)
模型的參數(shù)分別設(shè)置為:α=0.2,β1=0.01,β2=0.1。采用對(duì)數(shù)似然評(píng)估兩個(gè)模型的學(xué)習(xí)能力,該指標(biāo)反映了主題模型的擬合效果。對(duì)數(shù)似然值越高,說(shuō)明模型的學(xué)習(xí)能力越強(qiáng)。在本文 1.2節(jié)中,通過(guò)視覺(jué)特征產(chǎn)生了最近的主題,兩個(gè)模型視覺(jué)詞匯的邊緣似然P(v|z)可用下式計(jì)算:
(15)
可看出主題數(shù)量T對(duì)學(xué)習(xí)性能具有高度的影響力,因此在訓(xùn)練階段需要估計(jì)最大化似然的理想T值。
在適量的預(yù)處理實(shí)驗(yàn)之后,分別選擇120、140、180作為IAPR TC12、LABELME、NUS-WIDE三個(gè)數(shù)據(jù)集的最優(yōu)T值。這3個(gè)值使3個(gè)數(shù)據(jù)集分別實(shí)現(xiàn)了最佳的對(duì)數(shù)似然值。
2.1.4圖像標(biāo)注與語(yǔ)義圖像檢索實(shí)驗(yàn)
采用平均精度與平均召回率評(píng)估圖像標(biāo)注的實(shí)驗(yàn)結(jié)果,每個(gè)測(cè)試圖像的精度與召回率基于相關(guān)標(biāo)注與正定值計(jì)算。然后,計(jì)算所有測(cè)試圖像的平均值,使用平均精度定量地評(píng)估各個(gè)檢索算法的檢索性能。首先,計(jì)算單個(gè)查詢的平均精度,即精度-召回率曲線的下方區(qū)域;然后,統(tǒng)計(jì)所有查詢的平均值作為檢索性能的最終結(jié)果。
為了綜合地評(píng)價(jià)本算法的性能,將本算法與其他同類(lèi)型的算法進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比算法分別為ROF[12]、NITCM[13]、PMFSVN[14]、ITARR[15]、ITRII[16]。
首先通過(guò)實(shí)驗(yàn)評(píng)估主題模型學(xué)習(xí)的性能,在離線階段采用Gibbs采樣對(duì)訓(xùn)練數(shù)據(jù)集采樣。觀察主題模型的收斂性,使用IAPR TC12數(shù)據(jù)集作為訓(xùn)練集,該數(shù)據(jù)集共有100個(gè)主題,算法共運(yùn)行100次迭代。圖4所示是收斂實(shí)驗(yàn)的曲線圖,可看出模型大約在60次時(shí)完成收斂。
表2所示是本模型對(duì)NUS-WIDE數(shù)據(jù)集提取的一部分主題,每個(gè)主題列出了排名最高的標(biāo)注。主題3對(duì)應(yīng)“pet”,主題96對(duì)應(yīng)“color”,主題57對(duì)應(yīng)“season”。從表2中可看出:使用主題模型能夠緩解圖像標(biāo)注的語(yǔ)義鴻溝,本模型有效地提高了標(biāo)注詞匯的語(yǔ)義相關(guān)性,并且刪除了噪聲詞匯。
圖4 收斂實(shí)驗(yàn)的曲線
主題3主題96主題57主題25主題88主題9DogYellowWinterArchitecturePeopleTree PetOrangeSnowBuildingMenGreen CatColorsIceTowerWomenNatureAnimalGoldColdWindowFriendBranchPuppyRedFrozenGlassAdultLeavesFriendBlueSkiingStructureBoyForest
圖像檢索實(shí)驗(yàn)中,將每個(gè)數(shù)據(jù)集包括訓(xùn)練與測(cè)試圖像作為數(shù)據(jù)庫(kù)圖像。為了模擬社交圖像檢索的實(shí)際情況,創(chuàng)建了一個(gè)查詢集合,包括關(guān)鍵詞查詢與圖像查詢兩種。
2.3.1關(guān)鍵詞查詢的圖像檢索實(shí)驗(yàn)
本文測(cè)試了單一關(guān)鍵詞與復(fù)合關(guān)鍵詞兩種查詢的檢索性能。對(duì)于單一的關(guān)鍵詞查詢,對(duì)IAPR TC12、NUS-WIDE兩個(gè)數(shù)據(jù)集分別構(gòu)建了490、291個(gè)查詢測(cè)試?yán)?。?duì)于復(fù)合關(guān)鍵詞查詢,對(duì)IAPR TC12、LABELME、NUS-WIDE三個(gè)數(shù)據(jù)集分別構(gòu)建了219、126、523個(gè)查詢測(cè)試?yán)?。?duì)部分?jǐn)?shù)據(jù)庫(kù)圖像進(jìn)行圖像標(biāo)注與標(biāo)簽補(bǔ)全處理。
圖5所示是單一關(guān)鍵詞查詢的圖像檢索結(jié)果。受益于本文主題模型中結(jié)合了詞匯特征與視覺(jué)特征,本算法對(duì)于3個(gè)數(shù)據(jù)集的結(jié)果均優(yōu)于其他5種圖像檢索算法。
圖6所示是多個(gè)關(guān)鍵詞查詢的圖像檢索結(jié)果,5個(gè)算法的性能均低于單一關(guān)鍵詞查詢的結(jié)果。但是受益于本文主題模型中結(jié)合了詞匯特征與視覺(jué)特征,本算法對(duì)于3個(gè)數(shù)據(jù)集的結(jié)果依然優(yōu)于其他5種圖像檢索算法。
圖5 單一關(guān)鍵詞查詢的圖像檢索結(jié)果
圖6 多個(gè)關(guān)鍵詞查詢的圖像檢索結(jié)果
2.3.2圖像查詢的圖像檢索實(shí)驗(yàn)
從每個(gè)benchmark數(shù)據(jù)集隨機(jī)地選擇一個(gè)圖像子集作為查詢圖像,其中從labelme數(shù)據(jù)集、IAPR TC12數(shù)據(jù)集、NUS-WIDE數(shù)據(jù)集分別選擇了100、200、500個(gè)查詢圖像。通過(guò)人工對(duì)每個(gè)查詢圖像進(jìn)行標(biāo)注。
對(duì)于已有的方法,程序檢索一個(gè)相關(guān)圖像的列表相似于圖像注釋的程序。尤其是給出一個(gè)圖像沒(méi)有標(biāo)簽,本文預(yù)測(cè)一定量的標(biāo)簽反映圖像的內(nèi)容。首先,測(cè)試式(14)的ρ參數(shù)對(duì)檢索性能的影響,通過(guò)3個(gè)數(shù)據(jù)集測(cè)試ρ在[0,1]區(qū)間的性能,結(jié)果如圖7所示。對(duì)于LABELME、IAPR TC12與NUS-WIDE三個(gè)數(shù)據(jù)集,ρ的最優(yōu)值分別為0.4、0.6、0.7。
圖8為6個(gè)檢索算法對(duì)3個(gè)數(shù)據(jù)集的檢索結(jié)果。圖8中,ROF與NITCM均表現(xiàn)出略低的性能,這兩種算法的視覺(jué)特征中并未考慮顏色特征與空間位置特征,因此檢索的準(zhǔn)確率較低。PMFSVN、ITARR、ITRII與本算法的性能極為接近,這3種算法均考慮了全面的視覺(jué)特征,但是文字標(biāo)注的噪聲部分未能實(shí)現(xiàn)較好的消除,影響了圖像檢索的準(zhǔn)確性。本算法使用了不同類(lèi)型的圖像表示,包括BoV詞袋、fisher向量。本算法對(duì)Fisher向量進(jìn)行了有效的改進(jìn),使得本算法優(yōu)于基于大邊界的圖像標(biāo)注方法(ITRII算法)。
圖7 ρ參數(shù)對(duì)于3個(gè)數(shù)據(jù)集平均檢索性能的影響
圖8 圖像查詢的實(shí)驗(yàn)結(jié)果
采用關(guān)鍵詞與圖像聯(lián)合查詢?cè)u(píng)估圖像檢索系統(tǒng)的性能,結(jié)果如圖9所示。3個(gè)數(shù)據(jù)集的關(guān)鍵詞數(shù)量范圍為[2,5],采用本文2.3.2小節(jié)隨機(jī)提取查詢圖像。從圖9可看出:關(guān)鍵詞與圖像聯(lián)合查詢的結(jié)果優(yōu)于單一關(guān)鍵詞或者單一圖像查詢。主要原因在于本算法對(duì)主題模型進(jìn)行了有效的改進(jìn),文字主題與圖像視覺(jué)主題的相關(guān)性較高,有效地?cái)U(kuò)大了不同圖像的差異。綜上所述,本文的主題模型在視覺(jué)特征與標(biāo)注之間實(shí)現(xiàn)了較好的語(yǔ)義相關(guān)性,提高了檢索算法的魯棒性。
圖9 圖像與關(guān)鍵詞聯(lián)合查詢的實(shí)驗(yàn)結(jié)果
目前的大多數(shù)社交圖像檢索系統(tǒng)僅支持單一的圖像搜索或者關(guān)鍵詞搜索,本文提出了一種語(yǔ)義與圖像概率融合的社交媒體圖像檢索算法,該算法支持關(guān)鍵詞搜索、圖像搜索或者兩者的結(jié)合。本算法是基于概率的模型,對(duì)于弱標(biāo)注的社交媒體圖像也具有較好的檢索效果,其中通過(guò)提取最近的圖像主題有效地減小了“語(yǔ)義鴻溝”,保證了標(biāo)簽預(yù)測(cè)的準(zhǔn)確率。此外,本文的主題模型能夠融合不同的先驗(yàn)視覺(jué)信息,有助于解決主題提取問(wèn)題。
未來(lái)將研究采用深度學(xué)習(xí)技術(shù)對(duì)智能圖像進(jìn)行標(biāo)注,提高檢索系統(tǒng)的魯棒性,并且計(jì)劃將圖像的時(shí)間信息加入主題模型中,實(shí)現(xiàn)對(duì)流數(shù)據(jù)與視頻數(shù)據(jù)的處理。