国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結合哈希網(wǎng)絡和敏感散列的圖像檢索推薦研究

2022-08-02 01:40:58潘華峰王春玲
計算機技術與發(fā)展 2022年7期
關鍵詞:漢明哈希檢索

潘華峰,王春玲,毋 濤

(西安工程大學 計算機科學學院,陜西 西安 710600)

0 引 言

對于已知的圖像檢索技術探索發(fā)展和研究[1-2],從發(fā)展初期至今為止,已經(jīng)被明確分成兩類:(1)基于文本的圖像檢索(text-based image retrieval,TBIR);(2)基于內容的圖像檢索(content-based image retrieval,CBIR)?;谖谋镜膱D像檢索[3]技術,首先需要人工進行大量標注,然后將標注部分與目標圖像進行對比分析,該檢索技術也被稱為“以字找圖”;基于內容的圖像檢索[4]技術,首先是需要提取數(shù)據(jù)集圖像中的色彩、紋理等[5]基本特性并按照這些特性信息進行分類,之后在圖像集合中找到相似圖像,該檢索技術也稱為“以圖找圖”。

該文主要進行的是基于圖像內容的檢索與推薦研究。圖像檢索[6-7]的含義是指首先提取被檢索目標圖像中的相關內容特征,之后將提取的特征與圖像數(shù)據(jù)集進行相似性度量,以此找到相似的圖像。在目前對圖像內容的研究中,針對圖像特征數(shù)據(jù)的“維度災難”,Gayathiri等[8]通過使用Hadoop MapReduce框架,并且引入了一種全新的局部敏感散列算法,以提高對數(shù)據(jù)樣本提取的熟練程度。Lai等[9]提出了深度神經(jīng)網(wǎng)絡散列的方法,主要內容是通過共享的網(wǎng)絡結構得到圖像的內容特征。文獻[10-11]主要講述了哈希網(wǎng)絡對于圖像檢索具有較好的效果。李涓楠等[12]之前將深度哈希網(wǎng)絡技術應用到肺結節(jié)圖像檢索中,檢索效果得到了明顯的提升。林宇等[13]將深度哈希網(wǎng)絡技術應用到船檢圖像的檢索中,也同樣取得了較好的檢索結果。

許多的應用案例都可以說明深度哈希網(wǎng)絡可以很好地應用到解決圖像檢索的問題當中,因此該文提出一種結合深度哈希網(wǎng)絡和局部敏感散列的方法,并以泳裝版型圖像的檢索推薦作為應用實例,完成中小型泳裝企業(yè)下單過程智能化的相關需求。

1 相關概念

1.1 深度哈希網(wǎng)絡

深度哈希網(wǎng)絡應用于相似圖像檢索推薦的具體過程[14]:針對一個數(shù)據(jù)集中訓練圖像的特征值,需要先通過哈希碼的特征學習子網(wǎng)絡方式進行檢索和學習,在此期間需要將特征學習得到的第一個特征結果進一步在深度哈希學習層上進行研究和學習,得到第二個結果,并且將得到的結果進行相互反饋。為了獲得最終合適的圖像哈希碼和檢索結果,在之前哈希碼的學習中利用某些哈希信息可以作為監(jiān)督信息傳遞的標記函數(shù)進行計算,并使用逆向傳遞的方式以及調改部分網(wǎng)絡參數(shù)來優(yōu)化損失函數(shù),使得圖像哈希碼得到一定的收斂。

為了檢索到相似圖像,第一步將目標圖像進行特征矢量和圖像哈希碼的提取,可以直接使用之前訓練圖像數(shù)據(jù)集所建立的網(wǎng)絡模型進行提??;第二步對比分析取得的哈希編碼值,把被檢索目標圖像數(shù)據(jù)提取到的哈希碼與哈希表中保存的編碼值進行一一比對;這一步需要應用某一具體的距離度量算法計算對比哈希碼之間的距離;最后檢索得到所需圖像,根據(jù)上一步驟中計算得到的距離大小,可以判斷圖像的相似度,從而得到所需要的圖像列表。

1.2 局部敏感散列

局部敏感散列[15]的定義:對于任意的p和q兩個點,h作為映射函數(shù),如果滿足如下兩個條件:(1)如果d(p,q)≤R,并且h(p)=h(q)的概率不小于P1;(2)如果d(p,q)≥cR,并且h(p)=h(q)的概率不大于P2,并且符合P1>P2,這樣的哈希函數(shù)結果稱為(R,cR,P1,P2)敏感的。

距離度量的作用是通過減小相同類別樣本的距離來增大相似度,反之,通過增大不同類別樣本之間的距離來減小相似度,從而完成樣本的分類,達到更好的聚類性能。

對于數(shù)據(jù)集中所有圖像完成圖像特征提取后,可以根據(jù)特征的不同將圖像分別放入到不同類別的圖像集合中,以便于之后目標圖像方便快捷的查找。圖像檢索過程:根據(jù)計算得到相關的距離度量結果,需要從被檢索圖像集合中找到與被檢索目標圖像接近甚至一樣的若干圖像,最后精確度量出與目標向量的距離(相似度)。在被檢索數(shù)據(jù)集圖像較多的情況下,逐一進行對比,需要消耗較長的時間,無法應用到實際問題當中。參考圖像索引[16-17]相關資料,可以通過構建出一個合適的索引來解決耗費時間的問題,達到縮短檢索時間的目的。通過對比各種索引方式,決定采用局部敏感散列技術的散列索引方式,以此實現(xiàn)相似圖像的高效檢索。

1.3 球哈希

不同于局部敏感哈希和密度敏感哈?;陔S機超平面,球哈希是基于超球面的哈希技術。

球哈希的哈希函數(shù)為:

(1)

其中,k表示數(shù)據(jù)空間的k個球,pk表示球心,rk表示球半徑,d表示特征點與球心之間的歐氏距離,點到球心的距離大于半徑,編碼為0,否則編碼為1。

在構建球哈希函數(shù)時需要遵守如下兩個準則:

(1)空間中每個點被哈希函數(shù)編碼為0或者1的概率是相等的。

(2)

(2)球哈希函數(shù)之間是相互獨立的。

Pr(hi(X)=1,hj(X)=0)=Pr(hi(X)=

(3)

2 算法描述

2.1 深度哈希網(wǎng)絡模型的建立

深度哈希網(wǎng)絡技術用于圖像檢索推薦的過程如圖1所示。

圖1 深度哈希網(wǎng)絡的圖像檢索流程

2.1.1 特征提取

哈希網(wǎng)絡可以將輸入的樣本圖像采用SIFT[18]等形式轉換為視覺描述符向量,實現(xiàn)投影和量化操作,這個過程中由于普通的哈希網(wǎng)絡對特向表達的可區(qū)分性較低,因此該文使用深度哈希網(wǎng)絡來提高提取后對于視覺描述符向量的表現(xiàn)力。

哈希網(wǎng)絡目標函數(shù)方程如下:

min∑kijDij‖YiK-YjK‖2=tr(YTLY)

(4)

subjectto:Y∈(-1,1)n×k

其中,Dij表示哈希網(wǎng)絡中的相似度矩陣;L表示在n個圖像提取點上相應的編碼矩陣;k表示矩陣點中的編碼位數(shù);Dd(i,j)=∑jY(i,j)則表示網(wǎng)絡對角陣。

使用k-means算法將圖像數(shù)據(jù)進行一定的分門別類。第一步需要從所有圖像數(shù)據(jù)中確定若干盡量分開的圖像數(shù)據(jù)作為初始化的聚類中心,將其他剩余圖像數(shù)據(jù)歸類到相對距離最小的中心點;第二步是將獲得的每一個小的聚類體作為一個新的團體,反復進行第一步,進行更細致的聚類劃分;最后一步就是通過多迭代優(yōu)化類心,以此達到誤差最小的效果,得到相似度矩陣。

2.1.2 哈希編碼

在該深度哈希網(wǎng)絡模型中,哈希編碼值采用的是球哈希編碼方法進行計算。其表達式為:

hi(x)=xwi+bi

(5)

其中,x對應某個對象在網(wǎng)絡中的數(shù)據(jù)特征表達;hi(x)對應第i個圖像的哈希函數(shù)。

之后圖像數(shù)據(jù)對應的k個哈希編碼就由這k個哈希函數(shù)進行生成,過程如圖2所示。

圖2 超平面分割數(shù)據(jù)編碼

2.1.3 特征度量

在超平面編碼的基礎上,建立由超平面分割編碼下的空間衍生出的球哈希編碼。首先需要假定一個由m個元素組成的數(shù)據(jù)集,要求建立的球哈希至少包含m/2個元素,并且球體交集部分包含m/4個元素,之后經(jīng)過重復迭代計算來獲取k個函數(shù)表達式,同時依據(jù)超平面球哈希編碼所具有的特有性質,以及為了提高圖像檢索的精確度,需要在漢明空間上優(yōu)化特征度量方法,因此采用的特征度量方法是球哈希在漢明空間內的計算公式:

(6)

其中,bi,bj作為圖像特征下的哈希編碼值,⊕的含義是異或運算,并作為圖像特征下的漢明距離度量,而|bi∧bj|表示bi和bj位同為1的數(shù)量。

通過以圖像數(shù)據(jù)庫中挑選的圖像數(shù)據(jù)作為樣張,在樣張中挑選k個數(shù)據(jù),并把這些圖像對象作為函數(shù)球心,經(jīng)過一定的相關運算可以得到k個對應的球哈希函數(shù)表達式,使用函數(shù)表達式計算圖像的編碼值,從而獲取其對應的漢明空間距離,并以此作為不同圖像間的相似度判斷依據(jù)。

2.2 局部敏感散列的建立

局部敏感哈希的基本思想[19]是將獲得的數(shù)據(jù)進行映射變換,完成局部敏感散列的建立,具體建立過程如下所述。局部敏感散列是以K和L為參數(shù)的隨機過程,其中K是散列映射后數(shù)據(jù)的大小,L表示散列表數(shù)量,經(jīng)過一個散列函數(shù)的相關映射,2048維度特征向量E轉換成K位的散列數(shù)據(jù)H,每一個散列函數(shù)的映射都是對2048維特征數(shù)據(jù)進行的加權處理,強化局部數(shù)據(jù)的地位,也是對特征向量的局部敏感散列,在提取局部數(shù)據(jù)的同時完成了降維。具備相同散列結果的圖像會被放入同一個“桶”,在所有的“桶”中,所有的圖像數(shù)據(jù)中任何一個圖像都會和其他圖像發(fā)生一次“碰撞”,同一“桶”中的所有圖像數(shù)據(jù)都具備一定的相似性,其中每個圖像都會經(jīng)過L次散列,分別放入不同的散列表對應表示的“桶”中,在單一某個“桶”內任意兩個圖像之間發(fā)生“碰撞”的次數(shù)越多,說明相似度越高。

LSH總體流程如圖3所示。

圖3 LSH總體流程

具體構建LSH索引的過程如下:

(1)選取滿足(R,cR,P1,P2)-敏感的深度哈希函數(shù);

空間中選擇某兩個點x、y,并且需要滿足如下關系:

if(dist(x,y)≤R)P(h(x)=h(y))≥P1

(7)

if(dist(x,y)≥R)P(h(x)=h(y))≤P2

(8)

(2)確定相關參數(shù),依據(jù)上一步查詢得到的準確率規(guī)定哈希表的數(shù)量L,對應每個表內函數(shù)表達式的數(shù)量K,以及其他和局部敏感哈希函數(shù)表達式相關的參數(shù);

(3)將所有經(jīng)過深度哈希函數(shù)運算的數(shù)據(jù)結果放入到相應的“桶”內,構成了一個或若干個對應的哈希表。

索引構建示意圖如圖4所示。

3 實 驗

3.1 實驗環(huán)境

使用python語言工具進行實驗。實驗硬件環(huán)境如下:Windows10系統(tǒng),搭載英特爾酷睿i5四核處理器,CPU主頻為2.50 GHz,運行內存為16 GB的筆記本電腦。

具體使用的軟件是基于Python3 & Qt5進行實際實驗研究,實驗過程中使用到的依賴有:imagehash,pyqt5,pillow。

3.2 實驗數(shù)據(jù)集

為了確保實驗過程的嚴謹性和科學性,以及完成對于泳裝版型推薦的實例研究,該文使用的泳裝圖像數(shù)據(jù)集均來自于實驗室合作的晉江某泳裝公司。實驗數(shù)據(jù)集詳見表1。

表1 數(shù)據(jù)集描述

3.3 評價指標

為了確保對采用的相似圖像檢索方法得到一個客觀的評價,主要從以下兩方面進行比較判別。

(1)檢索耗時。在相同數(shù)據(jù)集圖像的前提下,用不同檢索方法對同一被檢索目標圖像進行檢索,記錄不同檢索方法所消耗的時間,評判檢索的效率。消耗的時間越短,說明效率越高。

(2)查全率和查準率。查全率與查準率是信息檢索領域內的概念,二者是反映檢索效果的重要指標。根據(jù)查準率和查全率繪制PR曲線,可根據(jù)曲線判斷檢索結果的優(yōu)劣。對于圖像檢索查詢結果,進行查全率和查準率的計算,判斷圖像檢索模型的檢索性能。

計算公式如下:

(9)

(10)

3.4 實驗結果與分析

3.4.1 檢索效果

進行圖像搜索的時候可以任意選取某個目標檢測圖像,如圖5所示。

圖5 測試例圖

經(jīng)過實驗檢索得到圖6所示的相似度以及圖像對比結果。

在圖6中,左側是被檢索目標圖片,右側顯示的是從數(shù)據(jù)集中搜索獲得的若干最相近圖像,相似度從大到小進行排列。其中相似度為1的是被檢索目標圖像,其余羅列出來的幾個數(shù)據(jù)結果是被查詢到的最接近目標圖像的圖像相似度。

圖6 圖像相似度檢索結果

圖7展示的是相似度較高的幾張被查找到的圖像,直接將查找結果展示出來,給人們更直觀的感受,而不只是顯示相似度這個較為抽象的數(shù)據(jù)。以上結果說明該文采用的模型具有可行性和有效性。

圖7 相似圖像檢索結果

3.4.2 性能分析

為了更為客觀地認識和評判構建的檢索推薦模型所具備的先進性,進行了如下兩個方面的比較分析。

(1)利用該圖像檢索方法和其他圖像檢索方法進行相似圖像檢索耗時的對比,如表2所示。

表2 三種檢索方法耗時比較

相比較文中方法而言,文獻[20]使用的方法首先需要對圖像進行劃分區(qū)域和圖像特征加權處理,導致在特征提取方面會多消耗大量的時間,檢索消耗的時間較少,但是總消耗時間仍然是相對最多的;文獻[21]在特征提取過程中消耗的時間較少,但是在圖像檢索過程中,使用的算法時間復雜度較高,需要花費相對較多的時間。而文中使用深度哈希網(wǎng)絡進行特征提取,消耗的時間相對較少,采用局部敏感散列的方式進行相似圖像檢索,相對其他檢索方式具備相對明顯的優(yōu)勢,縮短了檢索時間,提高了檢索效率。

(2)將文中方法取得的查準率和查全率與其他方法進行了一定的對比分析。對查全率有不同要求的情況下,相應的查準率的對應變化如圖8所示。

圖8 三種檢索方法的查準查全性能對比

根據(jù)性能對比可以發(fā)現(xiàn),在對查全率有較高要求的情況下,3種檢索方法的查準率均出現(xiàn)了一定程度的下降,而該文所采用的檢索方法受到的影響是最小的。該文使用深度哈希網(wǎng)絡進行圖像特征提取、利用漢明距離度量特征,相對提高了對于圖像內容特征提取的精確度。

通過以上在檢索結果的對比和檢索時間的對比,可以明顯看出結合深度哈希網(wǎng)絡和局部敏感散列的相似圖像檢索推薦方法具備一定的優(yōu)勢,足以說明該檢索方法具有相對較高的性能,具備一定的先進性。

4 結束語

提出了一種結合深度哈希網(wǎng)絡和局部敏感散列的相似圖像推薦策略,在圖像檢索準確率和相關計算時間上有較為明顯的優(yōu)勢,實現(xiàn)了相似圖像的快速準確檢索。首先使用設計的深度哈希網(wǎng)絡模型對對象數(shù)據(jù)集進行圖像內容的特征提取,k-means算法實現(xiàn)劃分聚類,建立球哈希編碼計算得到漢明空間距離,之后利用局部敏感散列原理映射成二進制形式的字符,整個索引表包含著產生散列碰撞的相似圖片;當接收到目標檢測圖像,先進行圖像特性提取計算漢明距離,然后在散列索引表中尋找到最相似圖像集合,計算漢明空間距離得到精確查找結果,最后將所有的結果利用可視化界面進行展示。

在之后的研究中,會嘗試采用映射函數(shù)對深度哈希模型進行改進,使得泳裝版型圖像檢索的精度與速度得到更進一步的提升。

猜你喜歡
漢明哈希檢索
2019年第4-6期便捷檢索目錄
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
媳婦管錢
基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
中年研究
基于維度分解的哈希多維快速流分類算法
計算機工程(2015年8期)2015-07-03 12:20:04
漢明距離矩陣的研究
基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗證算法
計算機工程(2014年6期)2014-02-28 01:25:40
一種基于Bigram二級哈希的中文索引結構
國際標準檢索
万载县| 乌兰察布市| 吉安市| 栾城县| 长兴县| 额尔古纳市| 双柏县| 五峰| 浦江县| 宁波市| 沙雅县| 扶绥县| 涪陵区| 天台县| 西平县| 屏东县| 巴彦县| 莱芜市| 奎屯市| 北宁市| 鄂伦春自治旗| 胶南市| 鹤壁市| 卢氏县| 祁东县| 上虞市| 乌鲁木齐市| 张北县| 黄龙县| 璧山县| 洪洞县| 沙湾县| 会昌县| 雅江县| 南陵县| 东丽区| 清新县| 托里县| 台东市| 宝坻区| 孟村|