国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于跨模態(tài)語義增強的圖像檢索方法

2021-06-03 02:12琪,王睿,王
南陽理工學(xué)院學(xué)報 2021年2期
關(guān)鍵詞:特征描述關(guān)聯(lián)性檢索

王 琪,王 睿,王 力

(1.南陽理工學(xué)院信息工程學(xué)院 河南 南陽 473004; 2.樂凱華光印刷科技有限公司 河南 南陽 473004;3.南陽理工學(xué)院土木工程學(xué)院 河南 南陽 473004)

0 引言

隨著網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)信息增長迅速,且多樣化發(fā)展,如圖像、文本等,這類信息被稱為跨模態(tài)數(shù)據(jù)。這些跨模態(tài)數(shù)據(jù)并不是各自獨立存在的,他們之間存在很大的關(guān)聯(lián)性,例如,在同一個網(wǎng)頁上出現(xiàn)的文本和圖像往往有交叉信息,也即文本包含了圖像的語義解釋。且文本信息往往比底層視覺信息具有更高的語義判別特性,這為圖像檢索問題中長期存在且并未有效解決的“語義鴻溝”問題提供了一個新的解決方向。然而,現(xiàn)有的檢索方法中,通過文本或圖像檢索,往往是獨立運用了單一的文本或圖像信息,并沒有有效利用文本和圖像之間的關(guān)聯(lián)性。主要原因是文本和圖像表征存在于兩個異構(gòu)空間,不同的分布難以融合判斷,為解決有效利用文本中的深層有效信息的問題,典型相關(guān)分析法(CCA)是近年中的經(jīng)典算法,此算法通過最大化文本信息矩陣和圖像信息矩陣兩個模態(tài)之間的關(guān)聯(lián)性使其映射到一個同構(gòu)空間,從而計算相似度達到檢索目的。圍繞CCA方法提出了多種研究方法[1,2],N Rasiwasia等提出語義關(guān)聯(lián)匹配(SCM)方法[3],Gong Y等人提出了三視角CCA方法[4],利用實際標(biāo)簽達到CCA方法的語義增強。但由于CCA的線性映射無法很好地擬合現(xiàn)實數(shù)據(jù)的線性問題,核典型相關(guān)分析法(KCCA)被提出用于跨模態(tài)學(xué)習(xí),KCCA方法分別通過非線性映射到高維空間,在高維空間中進行CCA的同構(gòu)訓(xùn)練[5,6],但由于其數(shù)據(jù)維度的增加使得計算量隨數(shù)據(jù)的增加呈指數(shù)增加,因此訓(xùn)練速度較慢,計算代價較高。以上方法雖然能將圖像和文本信息有效關(guān)聯(lián)起來,但都忽略了文本信息較強的語義判別性。J Pereira等人提出潛語義加強算法,將圖像語義空間信息映射到文本語義空間,使得文本和圖像同分布,同時用文本特征增強圖像語義[7,8],雖然考慮了文本較強的判別力,但其圖像語義空間的構(gòu)建過程中,數(shù)據(jù)源僅來自底層視覺信息,并未有效利用文本信息的強語義特點,同時忽略了圖像底層視覺特征的語義模糊性,使得文本較強的語義判別性被弱化?;诖?,本文提出了一種跨模態(tài)語義增強協(xié)同約束模型(CSR),總體框架如圖1所示,主要步驟如下:

(1)獲取圖像和文本的底層特征向量。圖像數(shù)據(jù)通過SIFT(Scale Invariant Feature Transform)算法分析特征點及特征點向量矩陣,通過詞袋算法對特征矩陣進行映射得到圖像的SIFT特征。文本數(shù)據(jù)采用隱含狄利克雷分布(LDA,Latent Dirichlet Allocation)分析文本信息的LDA概率分布從而抽取文本特征向量。

(2)構(gòu)建語義增強協(xié)同約束空間。為了有效利用文本對語義的強判別性增強圖像語義信息,同時避免在語義映射空間中底層視覺特征的弱語義削弱文本的語義判別性,本文通過線性判別分析(LDA)協(xié)同約束文本和圖像CCA空間,實現(xiàn)CCA及線性判別LDA模型的聯(lián)合優(yōu)化,以此達到增強底層特征語義的目的。

(3)多分類邏輯回歸語義映射空間。首先,根據(jù)步驟(2)中獲得的聯(lián)合優(yōu)化后的視覺特征及文本特征信息建立softmax模型,計算圖像或文本屬于每個類別的后驗概率值,作為圖像和文本的高層語義描述子。由于此時的高層語義描述子基礎(chǔ)信息源來自步驟(2)中聯(lián)合優(yōu)化后的特征描述子,因而相較于直接由底層特征映射的高層信息更準(zhǔn)確。然后,用文本語義描述子正則化圖像語義描述子,使得圖像具有文本近似的分布。

圖1 總體框架

1 底層特征描述

通過SIFT算法獲得圖像的底層視覺描述。SIFT算法采用金字塔模型提取圖像特征點,計算特征點方向梯度信息生成特征點SIFT描述子,因而具有較強的魯棒性和尺度不變性,因而本文采用SIFT描述子獲得圖像的特征點及特征點的SIFT描述子形成[1024*n]維大小的SIFT特征矩陣,n為特征點數(shù)目。為形成圖像特征描述向量,采用BovW(bag of visual word)詞袋模型獲得1024維圖像特征描述子。

圖像對應(yīng)的文本信息利用隱含狄利克雷分布(LDA,Latent Dirichlet Allocation)獲取文本信息的100個語義中心的概率分布,從而得到100維的文本特征描述向量。

2 語義增強特征學(xué)習(xí)

文獻[7,8]方法雖然將圖像高層語義特征空間映射到文本特征空間,利用了文本信息的強語義判別性,但無論是圖像的語義信息還是文本的語義信息,都是單獨由圖像和文本的底層特征分別提取,忽略了文本和圖像之間的語義關(guān)聯(lián)性,同時低估了圖像底層特征的弱語義性,使得圖像和文本語義信息表示并不準(zhǔn)確,影響文本語義正則化圖像語義的效果。因而本文設(shè)計語義增強的協(xié)同約束空間,此空間聯(lián)合優(yōu)化CCA模型,和文本的LDA模型(Linear Discriminant Analysis, 以下簡稱LDA),通過CCA模型最大化文本和圖像的關(guān)聯(lián)性,可充分利用兩類信息的語義相關(guān)性,同時考慮到文本信息較之視覺底層信息有更強的語義內(nèi)容,因而在CCA模型迭代優(yōu)化的同時優(yōu)化文本LDA模型,使得文本語義最大化的同時視覺和文本信息的關(guān)聯(lián)性也最大。

2.1 文本語義增強表示

線性判別分析(LDA)的基本思想是通過LDA映射后的類內(nèi)數(shù)據(jù)具有較大的關(guān)聯(lián)性,同維的同時增強文本的語義信息。

(1)

(2)

其中,即主對角線元素和。W是d2*d3維的投影矩陣。使用拉格朗日乘子法優(yōu)化目標(biāo)等價為

minJ(W)=tr(WTSwW)-λtr(WTSbW)

(3)

W即為上式求解的特征向量,tr函數(shù)表示矩陣的跡。

2.2 CCA模型最大化關(guān)聯(lián)

通過CCA模型可使得文本信息和圖像信息的關(guān)聯(lián)最大化,同時將文本的強語義判別性遷移到視覺空間中增強視覺信息中語義表達的準(zhǔn)確性。CCA模型求解獲得兩組不同樣本的投影矩陣V、W,使樣本通過矩陣投影后的數(shù)據(jù)具有高關(guān)聯(lián)性,其目標(biāo)函數(shù)等價為

(4)

其中V=?v1,v2…vd3」為圖像樣本的投影矩陣,大小為d1*d3;W=?w1,w2…wd3」表示文本投影矩陣,大小為d2*d3。其中,假設(shè)W一定,則TW一定,則上述可表示為

(5)

J(V)=tr(GV-TW)=(GV-TW)T(GV-TW)

(6)

采用最小二乘法可得投影矩陣為

V=(GTG)-1GTTW

(7)

2.3 CSR協(xié)同約束模型

本文CSR方法融合LDA模型和CCA模型兩個獨立的特征空間進行協(xié)同優(yōu)化,尋求最優(yōu)解,使得LDA文本語義增強的同時通過CCA模型使文本和圖像兩種不同分布結(jié)構(gòu)的數(shù)據(jù)近似同分布,并且使語義信息更準(zhǔn)確。CSR方法的約束目標(biāo)函數(shù)為

(8)

(9)

代入V表達式,目標(biāo)函數(shù)轉(zhuǎn)化為

J(W)=tr(WTTT(G(GTG)-1GT-Id3)T(G(GTG)-1GT-Id3)TW)+tr(WTSwW-λWTSbW)

(10)

為方便求解特征值及特征向量,由式(11)和(12)得最優(yōu)化目標(biāo)為

maxJ(W)=maxtr(WT(λSb-Sw-TT(G(GTG)-1GT-Id3)T(G(GTG)-1GT-Id3)T))W)

(11)

X=λSb-Sw-TT(G(GTG)-1GT-Id3)T(G(GTG)-1GT-Id3)T

(12)

maxJ(W)=WTXW

(13)

3 語義正則化空間

3.1 圖像和文本的語義特征描述

多分類回歸Softmax模型提取圖像和文本的語義特征描述。Softmax模型分別計算文本和圖像每一個樣本歸屬于各類別的后驗概率,將文本和圖像底層特征映射到高層語義同構(gòu)空間。設(shè)圖像和文本對共有k個類別,則圖像和文本的語義描述向量分別為k維,向量各元素求和為1。Softmax模型損失函數(shù)

(14)

式中a為與樣本對應(yīng)的映射參數(shù),x為CSR語義增強特征,第二項為衰減項可使得損失函數(shù)凸優(yōu)化,求解損失函數(shù)最優(yōu)時的a值即可得到CSR特征與高層語義特征之間的映射關(guān)系,從而獲得樣本語義特征描述。

3.2 語義正則化

由于文本語義較圖像語義有較強的語義判別性,此處用文本語義表示正則化圖像語義表示,可使得圖像語義描述向量的語義信息更準(zhǔn)確,從而提高圖像檢索的準(zhǔn)確性。

設(shè)圖像語義特征矩陣為P,文本語義特征矩陣為Q,語義正則化即求得矩陣H,使得Q=PH,即圖像語義描述通過映射矩陣H獲得與文本語義描述近似的分布,由最小二乘法得H=(PTP)-1PTQ,獲得語義正則化后的圖像特征描述P′=PH。

4 實驗分析

將本文CSR算法在圖像檢索應(yīng)用中運用,在Wikipedia和PascalSentence兩個公開數(shù)據(jù)集上實驗,并與CCA(典型相關(guān)分析法)、SM(語義匹配算法)、SCM(語義關(guān)聯(lián)匹配算法)、RIS(語義正則化算法)4種算法進行對比分析,驗證本文CSR算法的有效性。Wikipedia數(shù)據(jù)集有10個類別成對的圖像和文本數(shù)據(jù),擁有2866對數(shù)據(jù),其中有2173對訓(xùn)練集和693對測試集。Pascal數(shù)據(jù)集共20個類別,1000對圖像和文本樣本,隨機選取80%為訓(xùn)練樣本,20%為測試樣本。提取1024維BovwSIFT視覺詞袋特征作為圖像底層視覺特征,100維的隱含狄利克雷分布LDA特征作為文本特征向量。采用mAP作為圖像檢索性能指標(biāo),即計算每類圖像平均查準(zhǔn)率的平均值。表1顯示了兩種數(shù)據(jù)集上5中方法獲得的圖像檢索mAP值,其中本文CSR方法相較于其他4中方法,在檢索性能上有明顯的提高。SM方法分別獨立提取兩個模態(tài)的語義特征,忽略了模態(tài)之間的關(guān)聯(lián)性;CCA方法雖最大化了模態(tài)之間的關(guān)聯(lián)性,但底層特征之間的關(guān)聯(lián)性并不準(zhǔn)確;SCM方法雖最大化兩模態(tài)之間的語義關(guān)聯(lián)性,但其語義特征仍然單獨獲取并未有效利用文本的強語義性;RIS方法使用文本語義特征正則化圖像特征,但其特征各自獨立且均由底層特征產(chǎn)生,因而文本特征并不準(zhǔn)確,且不能很好地修正圖像特征,且由于圖像特征的弱語義關(guān)聯(lián)性使得文本的強語義性被弱化;而本文CSR方法增強文本語義的同時將其遷移到兩模態(tài)的公共空間,使得圖像的視覺特征描述更具有語義判別性,從而提高語義正則化空間準(zhǔn)確性,提高圖像檢索的平均查準(zhǔn)率(mAP)。

表1 兩種數(shù)據(jù)集上mAP值對比

圖2 Wikipedia數(shù)據(jù)集中每類數(shù)據(jù)的平均查準(zhǔn)率

圖3 Pascal Sentence數(shù)據(jù)集中每類數(shù)據(jù)的平均查準(zhǔn)率

圖2、圖3分別表示CSR方法和4種方法在Wikipedia和Pascal Sentence數(shù)據(jù)集上每一類數(shù)據(jù)的mAP值,每列分類條形圖中從左到右依次為本文CSR方法、RIS、SCM、CCA、SM方法。圖中可見CSR方法的在絕大多數(shù)類別中的mAP值都優(yōu)于其他4種方法。圖4顯示以Pascal數(shù)據(jù)集中cat圖片為查詢圖片分別采用5種方法的檢索結(jié)果,左側(cè)為查詢圖像,右側(cè)5行圖像從上到下依次為本文CSR方法、RIS、SCM、CCA、SM方法檢索結(jié)果中前4幅圖像,其中檢索有誤的圖像加黑色邊框,顯示本文方法的準(zhǔn)確性高于其他4種方法。

圖4 cat為查詢圖像的5種方法檢索結(jié)果

5 結(jié)束語

本文提出的一種跨模態(tài)語義增強框架,充分利用文本信息的強語義性及文本和圖像信息的關(guān)聯(lián)性,提出協(xié)同約束模型提高圖像和文本特征的語義判別性,使得從協(xié)同空間映射到softmax語義空間的特征描述準(zhǔn)確,最后使用文本語義特征正則化圖像特征,最大化圖像信息的語義判別性,提高圖像檢索準(zhǔn)確率。在Wikipedia和Pascal Sentence數(shù)據(jù)集上用5種方法對比實驗,顯示本文方法相較其他方法提高了圖像檢索的準(zhǔn)確性。

猜你喜歡
特征描述關(guān)聯(lián)性檢索
船舶尾流圖像的數(shù)字化處理和特征描述技術(shù)
基于單元視角的關(guān)聯(lián)性閱讀教學(xué)策略淺探
學(xué)貫中西(4):AI的時序性推論技能
飲用油茶與糖尿病患病風(fēng)險的關(guān)聯(lián)性分析
ECG檢查T波動態(tài)變化與急性心肌梗死患者LVEF的關(guān)聯(lián)性分析
瑞典專利數(shù)據(jù)庫的檢索技巧
在IEEE 數(shù)據(jù)庫中檢索的一點經(jīng)驗
一種基于Python的音樂檢索方法的研究
小學(xué)科學(xué)優(yōu)質(zhì)微課程的特征描述
面向視覺導(dǎo)航的圖像特征評價方法研究
南昌市| 子洲县| 绥化市| 将乐县| 海淀区| 谢通门县| 连州市| 武平县| 伊吾县| 闽侯县| 广州市| 汽车| 辽源市| 保靖县| 镇雄县| 新巴尔虎左旗| 九寨沟县| 凭祥市| 安丘市| 烟台市| 驻马店市| 盐城市| 无极县| 特克斯县| 兴宁市| 集贤县| 隆德县| 开封县| 集安市| 龙陵县| 含山县| 南华县| 建宁县| 绥江县| 博野县| 宁安市| 莱州市| 濮阳县| 连云港市| 太和县| 林口县|