融合語(yǔ)義與圖像的大規(guī)模圖像集檢索算法

2019-08-17 07:39解姍姍神顯豪

重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)) 2019年7期

解姍姍,神顯豪

(1.閩南理工學(xué)院信息管理學(xué)院, 福建石獅 362700；2.桂林理工大學(xué) 信息科學(xué)與工程學(xué)院，廣西桂林 541004)

隨著移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展以及社交媒體的普及，社交媒體的用戶每天上傳數(shù)以億計(jì)的新圖片，導(dǎo)致從海量的圖像數(shù)據(jù)集中準(zhǔn)確搜索出目標(biāo)圖像成為了巨大的挑戰(zhàn)[1-2]。目前主流的圖像檢索技術(shù)主要分為基于文字檢索(text-based image retrieval,TBIR)[3]、基于圖像內(nèi)容檢索(content-based image retrieval,CBIR)[4]兩種方案。CBIR方案提取圖像的視覺(jué)特征，通過(guò)視覺(jué)特征匹配出相似的圖像。CBIR技術(shù)的檢索準(zhǔn)確率較高，但是“語(yǔ)義鴻溝”是CBIR技術(shù)一個(gè)難以解決的問(wèn)題[5]。TBIR技術(shù)基于圖像的標(biāo)注信息匹配相似的圖像，但一般需要人工完成圖像的標(biāo)注任務(wù)，而海量的社交圖像集難以通過(guò)人工實(shí)現(xiàn)對(duì)圖像的標(biāo)注[6]。兩種圖像檢索技術(shù)均具有顯著的優(yōu)勢(shì)，同時(shí)也具有明顯的缺陷。

為了提高海量圖像數(shù)據(jù)庫(kù)的檢索效果，研究人員考慮融合CBIR與TBIR兩種技術(shù)以實(shí)現(xiàn)互補(bǔ)的效果[7-8]。文獻(xiàn)[9]設(shè)計(jì)了一種基于文本和視覺(jué)內(nèi)容的圖像檢索算法，該算法采用稠密的尺度不變特征轉(zhuǎn)換構(gòu)造視覺(jué)單詞的方式描述圖像的內(nèi)容，依據(jù)基于概率潛在語(yǔ)義分析模型的圖像自動(dòng)標(biāo)注方法獲取的視覺(jué)語(yǔ)義對(duì)圖像進(jìn)行查詢。文獻(xiàn)[10]提出了一種新的混合圖像檢索技術(shù)，該算法主要分為2個(gè)階段：首先得到分類(lèi)完成的圖庫(kù)、概率分配參數(shù)表和基本詞庫(kù)，然后在該類(lèi)下搜索最相似圖片。該算法在檢索之前將圖片庫(kù)中所有圖片按其本身特征進(jìn)行自動(dòng)分類(lèi)，取代人工標(biāo)注圖像信息的過(guò)程。文獻(xiàn)[9-10]參考人工標(biāo)注或者從Web提取相關(guān)的文字信息，限制了檢索算法的性能。文獻(xiàn)[11]提出一種混合的圖像檢索算法，該算法采用語(yǔ)義標(biāo)注信息、Gabor小波特征以及顏色特征，有效地提高了圖像檢索算法的魯棒性，但是特征量較大，難以應(yīng)用于海量數(shù)據(jù)集。

大多數(shù)圖像檢索算法采用人工標(biāo)注或從Web提取相關(guān)的標(biāo)注信息，降低了檢索算法的準(zhǔn)確率。實(shí)際情況中社交媒體圖像的標(biāo)注信息大多不完整，并且存在噪聲，導(dǎo)致圖像檢索的精度不足。為了解決上述問(wèn)題，本文設(shè)計(jì)了一種混合的圖像檢索算法，該算法能夠自動(dòng)關(guān)聯(lián)圖像的視覺(jué)內(nèi)容與文字標(biāo)注，有效地提高了圖像檢索的效率。首先，將圖像建模為局部特征集，將特征量化為視覺(jué)詞匯集。然后，設(shè)計(jì)了基于概率的主題模型(probabilistic fusion topic model,PFTM)，根據(jù)共生的標(biāo)注信息與視覺(jué)特征提取圖像的語(yǔ)義主題。本文的主題模型中基于視覺(jué)特征生成的最近主題能夠有效地增強(qiáng)圖像與文字標(biāo)注之間的相關(guān)性，并構(gòu)建視覺(jué)特征中空間位置與顏色之間的關(guān)系。此外，主題模型能夠有效地補(bǔ)全缺失的文字標(biāo)注信息，同時(shí)刪除噪聲標(biāo)注。主題模型保證了圖像標(biāo)注的完整性，有助于提高檢索結(jié)果的準(zhǔn)確性。

1 基本結(jié)構(gòu)

本方法的基本架構(gòu)如圖1所示，主要由離線階段與線上階段兩部分組成。離線階段提取每個(gè)社交圖像的主題，補(bǔ)全缺失的文字標(biāo)注，刪除噪聲標(biāo)注。從訓(xùn)練圖像集學(xué)習(xí)PFTM模型的模型參數(shù)，通過(guò)搜索圖像視覺(jué)特征與文字標(biāo)注的共生模式，將主題建模為關(guān)于視覺(jué)特征與文字標(biāo)注的兩個(gè)分布。如果圖像的視覺(jué)特征(空間位置與顏色特征)較為接近，那么將圖像分為相同的主題，因此學(xué)習(xí)的模型參數(shù)僅反映了標(biāo)注與視覺(jué)特征之間的相關(guān)性。在線上階段，采用離線學(xué)習(xí)的PFTM模型來(lái)加速圖像搜索的過(guò)程。系統(tǒng)的查詢可以是圖像、關(guān)鍵詞或者兩者的組合。

圖1 本算法離線、線上階段的流程

1.1 特征提取與問(wèn)題模型

1.1.1特征提取

1.1.2問(wèn)題模型

1.2 特征相關(guān)的主題模型

PFTM模型是一種多實(shí)體數(shù)據(jù)的生成模型，社交圖像是視覺(jué)詞匯與文字詞匯的組合，屬于一種多實(shí)體數(shù)據(jù)。本文的主題模型表示為流程圖模型，如圖3所示。

圖3 主題模型的流程框圖

圖3顯示，給定一個(gè)包含D個(gè)圖像的集合，每個(gè)圖像Id由Nd個(gè)視覺(jué)詞匯與Md個(gè)文字標(biāo)注詞匯組成。使用最近的變量(zdi)來(lái)表征主題，主題z表示與每個(gè)視覺(jué)特征語(yǔ)義相關(guān)的主題。將圖像表示為T(mén)個(gè)主題的組合，每個(gè)主題建模為視覺(jué)詞匯與標(biāo)注詞匯的兩個(gè)分布，假設(shè)視覺(jué)詞匯與標(biāo)注詞匯的大小分別為v與w。文字主題是主題z的一部分，PFTM模型直接使用最近的視覺(jué)詞匯主題生成文字詞匯。根據(jù)圖4的模型，vdi與wdj是兩個(gè)顯變量，引入新的顯變量fdi表示第i個(gè)patch的特征。圖像語(yǔ)料庫(kù)的PFTM模型主要流程如算法1描述。

算法1 圖像語(yǔ)料庫(kù)的PFTM模型foreach 主題t: 計(jì)算視覺(jué)分布?1,t～Dir(β1); 計(jì)算文字分布?2,t～Dir(β2);foreach圖像Id: 計(jì)算主題傳播概率θd～Dir(α);foreach 主題t;計(jì)算局部的特征分布:{μtd,Λtd} ～ NW(μ0,κ,v,Q);foreach 視覺(jué)詞匯vdi: 計(jì)算主題zdi～Multi(θd); 計(jì)算視覺(jué)詞匯vdi～Multi(?1,zdi); 計(jì)算局部向量fdi～N(μdzdi,Α-1dzdi);foreach 標(biāo)注詞匯wdj 計(jì)算主題ydj～Unif(z1,…,zNd); 計(jì)算文字詞匯wdj～Multi(?2,ydj);

此處dir、multi、n與nw分別表示狄利克雷分布、多項(xiàng)式分布、正態(tài)分布以及正態(tài)-Wishart分布。優(yōu)先選擇多項(xiàng)式分布與正態(tài)-Wishart分布分別表示標(biāo)注分布與位置分布，原因在于這兩個(gè)分布的計(jì)算簡(jiǎn)單且效率高。本模型采用了視覺(jué)實(shí)體與文字標(biāo)注實(shí)體。視覺(jué)詞匯與文字詞匯是離散隨機(jī)變量，因此服從多項(xiàng)式分布；區(qū)域特征是實(shí)數(shù)向量形式，因此服從正態(tài)分布。

PFTM模型支持先驗(yàn)信息，由圖像視覺(jué)內(nèi)容的貝葉斯先驗(yàn)與實(shí)體之間的關(guān)系實(shí)現(xiàn)。在PFTM處理步驟中，圖像d的每個(gè)主題t表示為1個(gè)區(qū)域特征分布p(μtd,Λtd)，以及1個(gè)視覺(jué)詞匯的概率分布Φt。設(shè)置每個(gè)圖像的區(qū)域特征分布p(μtd,Λtd)具有獨(dú)立性，而不同圖像之間共享視覺(jué)詞匯分布信息Φ1,t。不同圖像的目標(biāo)形狀特征Φ1,t較為相似，目標(biāo)的位置分布與顏色分布則相差較大，所以將不同圖像的p(μtd,Λtd)設(shè)為獨(dú)立信息。圖像中視覺(jué)詞匯的關(guān)系編碼為參數(shù)μtd與Λtd，主題t的視覺(jué)詞匯接近分布p(μtd,Λtd)的期望值。文字主題y通過(guò)均勻分布與1個(gè)視覺(jué)主題z相關(guān)聯(lián)，然后根據(jù)主題分布Multi(Φ2)生成文字詞匯。通過(guò)該方法加強(qiáng)了視覺(jué)詞匯與文字詞匯之間的相關(guān)性。

1.3 主題模型的學(xué)習(xí)方法

通過(guò)有效的學(xué)習(xí)方法實(shí)現(xiàn)對(duì)PFTM模型的參數(shù)估計(jì)。假設(shè)Π={α,β1,β2,μ,κ,v,Q}是超參數(shù)(hyper parameters)集合，給定一個(gè)共有D個(gè)圖像的訓(xùn)練集B，模型參數(shù)包括視覺(jué)主題分布Φ1與文字主題分布Φ2，其估計(jì)方法為最大化式(1)的對(duì)數(shù)似然方程。

(1)

采用Monte Carlo EM算法對(duì)模型參數(shù)進(jìn)行估計(jì)，算法流程如算法2描述。

算法2 主題模型的參數(shù)估計(jì)算法輸入:圖像數(shù)據(jù)語(yǔ)料庫(kù){vd,fd,wd}Dd=1,由視覺(jué)詞袋、區(qū)域特征以及文字詞匯組成。輸出:估計(jì)的模型參數(shù)Φ1,Φ2。1.初始化參數(shù)集{Φ(0)1,Φ(0)2}2.foreach k=1,…,K do:3.給定Φ(k-1)1,每個(gè)圖像為Id,使用式(2)計(jì)算視覺(jué)主題 p(zd| vd,fd,yd,Π)后驗(yàn)分布的采樣。4.給定Φ(k-1)2,每個(gè)圖像為Id,使用式(3)計(jì)算文字主題 p(yd| wd,zd,Π)后驗(yàn)分布的采樣。5.使用式(5)(6)計(jì)算{Φ(k)1,Φ(k)2}6.endfor

算法2實(shí)現(xiàn)了模型參數(shù)的近似估計(jì)，然后通過(guò)檢查后驗(yàn)樣本估計(jì)出模型的參數(shù)。具體采用Gibbs采樣算法分別采樣視覺(jué)詞匯v與文字詞匯w的最近變量z與y，定義為式(2)(3)。

(2)

(3)

在采樣迭代之后，使用最近變量的后驗(yàn)樣本迭代地估計(jì)Φ1與Φ2兩個(gè)參數(shù)，直至達(dá)到收斂。主題-視覺(jué)詞匯的后驗(yàn)多項(xiàng)式分布計(jì)算見(jiàn)式(4)。

(4)

(5)

與之相似，文字主題分布的估計(jì)方法如式(6)所示。

(6)

1.4 訓(xùn)練數(shù)據(jù)集的標(biāo)注完整性檢查

式(2)(3)中對(duì)標(biāo)注完整性進(jìn)行了處理，補(bǔ)全缺失的標(biāo)注并刪除噪聲標(biāo)注。式(2)的第1項(xiàng)是視覺(jué)詞匯v分配到主題t的概率，第2、3項(xiàng)分別是主題t關(guān)于區(qū)域特征與視覺(jué)詞匯的概率。因此，增強(qiáng)了同一圖像中共生的視覺(jué)詞匯，通過(guò)將區(qū)域特征分配至同一個(gè)主題實(shí)現(xiàn)兩者之間的關(guān)聯(lián)。式(2)的最后一項(xiàng)是文字詞匯的分配概率。最終，與主題t頻繁共同出現(xiàn)的人工標(biāo)注優(yōu)先分配至該主題，根據(jù)各個(gè)圖像提取的主題可以有效地預(yù)測(cè)丟失的標(biāo)注。式(3)度量了文字詞匯分配至主題t的概率，其中第1項(xiàng)是文字詞匯w分配至主題t在全部數(shù)據(jù)集中的概率，第2項(xiàng)表示主題t在圖像d中的比例。人工標(biāo)注導(dǎo)致的噪聲詞匯極少出現(xiàn)在圖像數(shù)據(jù)庫(kù)中，因此將噪聲詞匯w分配至主題t的概率極低。如果主題t支配圖像d，此時(shí)文字詞匯分配至主題t的概率較高。綜上所述，因?yàn)樵肼曉~匯的比重遠(yuǎn)低于語(yǔ)義相關(guān)的詞匯，所以采用分配概率即可直接地解決標(biāo)注完整性的問(wèn)題。

1.5 未知圖像與標(biāo)注預(yù)測(cè)

未知圖像預(yù)測(cè)的目標(biāo)是推導(dǎo)未知圖像Id′的最近變量。未知圖像的預(yù)測(cè)過(guò)程與本文1.3小節(jié)的參數(shù)預(yù)測(cè)過(guò)程相似，修改式(2)(3)的第1項(xiàng)，單獨(dú)考慮每個(gè)未知圖像。未知圖像的預(yù)測(cè)方法如式(7)(8)所示。

(7)

(8)

基于feacorrlda模型以及估計(jì)的模型參數(shù)，提出了標(biāo)注相關(guān)性的估計(jì)算法，如算法3所示。

算法3 主題模型的標(biāo)注相關(guān)性輸入:未知圖像{vd′,fd′,wd′}Dd=1,由視覺(jué)詞袋、區(qū)域特征以及文字詞匯組成。算法1學(xué)習(xí)的參數(shù)Φ1,Φ2。輸出:標(biāo)注相關(guān)性概率P(w|vd′, fd′,Φ1,Φ2)1.使用式(7)計(jì)算視覺(jué)主題p(zd′|vd′, fd′,yd′,Π)后驗(yàn)分布的采樣。2.使用式(8)計(jì)算文字主題p(yd′|wd′,zd′,Π)后驗(yàn)分布的采樣。3.使用式(9)計(jì)算P(w|vd′, fd′,Φ1,Φ2)。

標(biāo)注w對(duì)圖像Id′的相關(guān)性計(jì)算為區(qū)域特征fd′、視覺(jué)詞匯vd′以及訓(xùn)練集B估計(jì)所估計(jì)參數(shù)的條件概率。具體計(jì)算見(jiàn)下式：

P(w|Id′,B)=P(w|vd′,fd,Φ1,Φ2)=

(9)

1.6 基于標(biāo)注與視覺(jué)特征的相似性度量

給定一個(gè)標(biāo)注，之前基于文字的方法僅使用標(biāo)注信息完成圖像的檢索任務(wù)。本文采用基于Fisher向量的視覺(jué)內(nèi)容信息，使用GMM將圖像的全部局部特征收集至一個(gè)全局向量中，該編碼技術(shù)顯示了較好的性能。

根據(jù)本文1.1小節(jié)的內(nèi)容，一個(gè)圖像由SFIT描述符與hue描述符兩種特征組成。文獻(xiàn)[10]顯示組合兩種特征能夠有效地提高圖像檢索的性能。Fisher向量u計(jì)算方法見(jiàn)式(10)～(12)。

(10)

(11)

(12)

(13)

給定一個(gè)查詢圖像Iq與數(shù)據(jù)庫(kù)圖像Id，假設(shè)兩個(gè)圖像的視覺(jué)特征分別為uq與ud。假設(shè)rq與rd是兩個(gè)W維度的向量，分別表示圖像Iq與Id的文字信息。查詢圖像與數(shù)據(jù)庫(kù)圖像的相似性度量方程為

S(q,d)=(1-ρ)uqud+ρrqrd

(14)

式中：第1項(xiàng)對(duì)應(yīng)視覺(jué)相似性；第2項(xiàng)對(duì)應(yīng)文字相似性；ρ控制兩者之間的重要性，如果查詢是關(guān)鍵字，那么將ρ設(shè)為1，如果查詢是圖像，那么將ρ設(shè)為0。將數(shù)據(jù)庫(kù)所有圖像按照相似性評(píng)分排序，選擇最相關(guān)的圖像返回給用戶。

2 仿真實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集與參數(shù)設(shè)置

2.1.1實(shí)驗(yàn)數(shù)據(jù)集

為了全面地評(píng)估算法的性能，采用3個(gè)不同規(guī)模的benchmark數(shù)據(jù)集。3個(gè)數(shù)據(jù)集的基本信息為：LABELME數(shù)據(jù)集是一個(gè)小規(guī)模數(shù)據(jù)集，樣本數(shù)量為2 920，標(biāo)注詞匯量為490，標(biāo)注量均值為11；IAPR TC12數(shù)據(jù)集是一個(gè)中等數(shù)據(jù)集，樣本數(shù)量為 19 805，標(biāo)注詞匯量為291，標(biāo)注量均值為5.7；NUS-WIDE數(shù)據(jù)集是一個(gè)大規(guī)模數(shù)據(jù)集，樣本數(shù)量為 237 131，標(biāo)注詞匯量為1 000，標(biāo)注量均值為6.5。表1所示是3個(gè)數(shù)據(jù)集的基本信息。

表1 3個(gè)數(shù)據(jù)集的基本信息

2.1.2實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

采用DoG(difference of gaussian)尋找圖像的顯著點(diǎn)。在計(jì)算每個(gè)圖像patch hue描述符的過(guò)程中，將hue直方圖的bin數(shù)量設(shè)為15，因此，HueSIFT描述符的維度為dimHS=128+15=143。Fisher向量的維度為dimFV=2×K×dimHS=18 304，K=64是高斯分量的數(shù)量。Fisher向量的維度過(guò)高，空間復(fù)雜度較高，因此采用PCA技術(shù)將描述符降為1 024維。所有數(shù)據(jù)集的視覺(jué)詞匯大小V設(shè)為2 000。

2.1.3主題學(xué)習(xí)實(shí)驗(yàn)

模型的參數(shù)分別設(shè)置為：α=0.2，β1=0.01，β2=0.1。采用對(duì)數(shù)似然評(píng)估兩個(gè)模型的學(xué)習(xí)能力，該指標(biāo)反映了主題模型的擬合效果。對(duì)數(shù)似然值越高，說(shuō)明模型的學(xué)習(xí)能力越強(qiáng)。在本文 1.2節(jié)中，通過(guò)視覺(jué)特征產(chǎn)生了最近的主題，兩個(gè)模型視覺(jué)詞匯的邊緣似然P(v|z)可用下式計(jì)算：

(15)

可看出主題數(shù)量T對(duì)學(xué)習(xí)性能具有高度的影響力，因此在訓(xùn)練階段需要估計(jì)最大化似然的理想T值。

在適量的預(yù)處理實(shí)驗(yàn)之后，分別選擇120、140、180作為IAPR TC12、LABELME、NUS-WIDE三個(gè)數(shù)據(jù)集的最優(yōu)T值。這3個(gè)值使3個(gè)數(shù)據(jù)集分別實(shí)現(xiàn)了最佳的對(duì)數(shù)似然值。

2.1.4圖像標(biāo)注與語(yǔ)義圖像檢索實(shí)驗(yàn)

采用平均精度與平均召回率評(píng)估圖像標(biāo)注的實(shí)驗(yàn)結(jié)果，每個(gè)測(cè)試圖像的精度與召回率基于相關(guān)標(biāo)注與正定值計(jì)算。然后，計(jì)算所有測(cè)試圖像的平均值，使用平均精度定量地評(píng)估各個(gè)檢索算法的檢索性能。首先，計(jì)算單個(gè)查詢的平均精度，即精度-召回率曲線的下方區(qū)域；然后，統(tǒng)計(jì)所有查詢的平均值作為檢索性能的最終結(jié)果。

為了綜合地評(píng)價(jià)本算法的性能，將本算法與其他同類(lèi)型的算法進(jìn)行對(duì)比實(shí)驗(yàn)，對(duì)比算法分別為ROF[12]、NITCM[13]、PMFSVN[14]、ITARR[15]、ITRII[16]。

2.2 主題學(xué)習(xí)實(shí)驗(yàn)

首先通過(guò)實(shí)驗(yàn)評(píng)估主題模型學(xué)習(xí)的性能，在離線階段采用Gibbs采樣對(duì)訓(xùn)練數(shù)據(jù)集采樣。觀察主題模型的收斂性，使用IAPR TC12數(shù)據(jù)集作為訓(xùn)練集，該數(shù)據(jù)集共有100個(gè)主題，算法共運(yùn)行100次迭代。圖4所示是收斂實(shí)驗(yàn)的曲線圖，可看出模型大約在60次時(shí)完成收斂。

表2所示是本模型對(duì)NUS-WIDE數(shù)據(jù)集提取的一部分主題，每個(gè)主題列出了排名最高的標(biāo)注。主題3對(duì)應(yīng)“pet”，主題96對(duì)應(yīng)“color”，主題57對(duì)應(yīng)“season”。從表2中可看出：使用主題模型能夠緩解圖像標(biāo)注的語(yǔ)義鴻溝，本模型有效地提高了標(biāo)注詞匯的語(yǔ)義相關(guān)性，并且刪除了噪聲詞匯。

圖4 收斂實(shí)驗(yàn)的曲線

主題3主題96主題57主題25主題88主題9DogYellowWinterArchitecturePeopleTree PetOrangeSnowBuildingMenGreen CatColorsIceTowerWomenNatureAnimalGoldColdWindowFriendBranchPuppyRedFrozenGlassAdultLeavesFriendBlueSkiingStructureBoyForest

2.3 圖像檢索實(shí)驗(yàn)

圖像檢索實(shí)驗(yàn)中，將每個(gè)數(shù)據(jù)集包括訓(xùn)練與測(cè)試圖像作為數(shù)據(jù)庫(kù)圖像。為了模擬社交圖像檢索的實(shí)際情況，創(chuàng)建了一個(gè)查詢集合，包括關(guān)鍵詞查詢與圖像查詢兩種。

2.3.1關(guān)鍵詞查詢的圖像檢索實(shí)驗(yàn)

本文測(cè)試了單一關(guān)鍵詞與復(fù)合關(guān)鍵詞兩種查詢的檢索性能。對(duì)于單一的關(guān)鍵詞查詢，對(duì)IAPR TC12、NUS-WIDE兩個(gè)數(shù)據(jù)集分別構(gòu)建了490、291個(gè)查詢測(cè)試?yán)?。?duì)于復(fù)合關(guān)鍵詞查詢，對(duì)IAPR TC12、LABELME、NUS-WIDE三個(gè)數(shù)據(jù)集分別構(gòu)建了219、126、523個(gè)查詢測(cè)試?yán)?。?duì)部分?jǐn)?shù)據(jù)庫(kù)圖像進(jìn)行圖像標(biāo)注與標(biāo)簽補(bǔ)全處理。

圖5所示是單一關(guān)鍵詞查詢的圖像檢索結(jié)果。受益于本文主題模型中結(jié)合了詞匯特征與視覺(jué)特征，本算法對(duì)于3個(gè)數(shù)據(jù)集的結(jié)果均優(yōu)于其他5種圖像檢索算法。

圖6所示是多個(gè)關(guān)鍵詞查詢的圖像檢索結(jié)果，5個(gè)算法的性能均低于單一關(guān)鍵詞查詢的結(jié)果。但是受益于本文主題模型中結(jié)合了詞匯特征與視覺(jué)特征，本算法對(duì)于3個(gè)數(shù)據(jù)集的結(jié)果依然優(yōu)于其他5種圖像檢索算法。

圖5 單一關(guān)鍵詞查詢的圖像檢索結(jié)果

圖6 多個(gè)關(guān)鍵詞查詢的圖像檢索結(jié)果

2.3.2圖像查詢的圖像檢索實(shí)驗(yàn)

從每個(gè)benchmark數(shù)據(jù)集隨機(jī)地選擇一個(gè)圖像子集作為查詢圖像，其中從labelme數(shù)據(jù)集、IAPR TC12數(shù)據(jù)集、NUS-WIDE數(shù)據(jù)集分別選擇了100、200、500個(gè)查詢圖像。通過(guò)人工對(duì)每個(gè)查詢圖像進(jìn)行標(biāo)注。

對(duì)于已有的方法，程序檢索一個(gè)相關(guān)圖像的列表相似于圖像注釋的程序。尤其是給出一個(gè)圖像沒(méi)有標(biāo)簽，本文預(yù)測(cè)一定量的標(biāo)簽反映圖像的內(nèi)容。首先，測(cè)試式(14)的ρ參數(shù)對(duì)檢索性能的影響，通過(guò)3個(gè)數(shù)據(jù)集測(cè)試ρ在[0,1]區(qū)間的性能，結(jié)果如圖7所示。對(duì)于LABELME、IAPR TC12與NUS-WIDE三個(gè)數(shù)據(jù)集，ρ的最優(yōu)值分別為0.4、0.6、0.7。

圖8為6個(gè)檢索算法對(duì)3個(gè)數(shù)據(jù)集的檢索結(jié)果。圖8中，ROF與NITCM均表現(xiàn)出略低的性能，這兩種算法的視覺(jué)特征中并未考慮顏色特征與空間位置特征，因此檢索的準(zhǔn)確率較低。PMFSVN、ITARR、ITRII與本算法的性能極為接近，這3種算法均考慮了全面的視覺(jué)特征，但是文字標(biāo)注的噪聲部分未能實(shí)現(xiàn)較好的消除，影響了圖像檢索的準(zhǔn)確性。本算法使用了不同類(lèi)型的圖像表示，包括BoV詞袋、fisher向量。本算法對(duì)Fisher向量進(jìn)行了有效的改進(jìn)，使得本算法優(yōu)于基于大邊界的圖像標(biāo)注方法(ITRII算法)。

圖7 ρ參數(shù)對(duì)于3個(gè)數(shù)據(jù)集平均檢索性能的影響

圖8 圖像查詢的實(shí)驗(yàn)結(jié)果

采用關(guān)鍵詞與圖像聯(lián)合查詢?cè)u(píng)估圖像檢索系統(tǒng)的性能，結(jié)果如圖9所示。3個(gè)數(shù)據(jù)集的關(guān)鍵詞數(shù)量范圍為[2,5]，采用本文2.3.2小節(jié)隨機(jī)提取查詢圖像。從圖9可看出：關(guān)鍵詞與圖像聯(lián)合查詢的結(jié)果優(yōu)于單一關(guān)鍵詞或者單一圖像查詢。主要原因在于本算法對(duì)主題模型進(jìn)行了有效的改進(jìn)，文字主題與圖像視覺(jué)主題的相關(guān)性較高，有效地?cái)U(kuò)大了不同圖像的差異。綜上所述，本文的主題模型在視覺(jué)特征與標(biāo)注之間實(shí)現(xiàn)了較好的語(yǔ)義相關(guān)性，提高了檢索算法的魯棒性。

圖9 圖像與關(guān)鍵詞聯(lián)合查詢的實(shí)驗(yàn)結(jié)果

3 結(jié)束語(yǔ)

目前的大多數(shù)社交圖像檢索系統(tǒng)僅支持單一的圖像搜索或者關(guān)鍵詞搜索，本文提出了一種語(yǔ)義與圖像概率融合的社交媒體圖像檢索算法，該算法支持關(guān)鍵詞搜索、圖像搜索或者兩者的結(jié)合。本算法是基于概率的模型，對(duì)于弱標(biāo)注的社交媒體圖像也具有較好的檢索效果，其中通過(guò)提取最近的圖像主題有效地減小了“語(yǔ)義鴻溝”，保證了標(biāo)簽預(yù)測(cè)的準(zhǔn)確率。此外，本文的主題模型能夠融合不同的先驗(yàn)視覺(jué)信息，有助于解決主題提取問(wèn)題。

未來(lái)將研究采用深度學(xué)習(xí)技術(shù)對(duì)智能圖像進(jìn)行標(biāo)注，提高檢索系統(tǒng)的魯棒性，并且計(jì)劃將圖像的時(shí)間信息加入主題模型中，實(shí)現(xiàn)對(duì)流數(shù)據(jù)與視頻數(shù)據(jù)的處理。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡