国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析大數(shù)據(jù)搜索引擎之圖片搜索技術

2019-03-04 11:05孟慶芳
電腦知識與技術 2019年34期
關鍵詞:相似度搜索引擎大數(shù)據(jù)

孟慶芳

摘要:隨著大數(shù)據(jù)技術的發(fā)展,搜索引擎的關注度越來越高,搜索引擎技術也逐漸發(fā)展成為大數(shù)據(jù)應用最前線的領域,也是最容易產(chǎn)生價值的大數(shù)據(jù)應用。圖片搜索是目前搜索引擎中搜索流量僅次于網(wǎng)頁搜索的多媒體搜索項目,為了快速精準的實現(xiàn)圖片搜索功能,論文從基于內(nèi)容的圖片搜索及基于文本的圖片搜索兩個方面進行分析、研究,解決了較高效精準地以圖搜圖的圖片搜索問題。

關鍵詞:大數(shù)據(jù);搜索引擎;圖片搜索;算法;相似度

中圖分類號:TP391

文獻標識碼:A

文章編號:1009- 3044(2019)34-0181-02

1 基于內(nèi)容的圖片搜索

一張圖片包含了亮度變化小的區(qū)域是低頻成分和亮度變化劇烈的高頻成分。低頻成分僅提供一個框.架,圖片的詳細細節(jié)信息部分主要是由通過高頻成分來體現(xiàn)的。換句話說高頻成分能夠描述圖片的詳細信息。而一張尺寸比較大的內(nèi)容顯示豐富的圖片有較高的頻率,小圖片都是低頻的,原因在于缺少圖像細節(jié)部分?;趦?nèi)容的圖片搜索主要思想是基于圖片本身擁有的信息進行搜索,在給定查詢圖片的情況下,進行圖片搜索,是“以圖搜圖”的應用搜索。通過圖片搜索獲得相似圖片,主要采用感知哈希算法實現(xiàn),該算法的核心思想是通過對每張圖片構建唯一指紋,圖片中指紋越相近則說明圖片間的相似度越高。

感知哈希算法是哈希算法的一類,簡稱.PHA,主要可以完成相似圖片的搜索任務。該算法可以分為低.頻的均值哈希感知算法和余弦哈希感知算法兩種。在進行圖片檢索的時候一般采用漢明距離來進行判斷兩幅圖像的相似程度,如果計算得到的漢明距離的數(shù)值小于5就表明兩幅圖像是相似的。

1.1 低頻的均值哈希感知算法

基于低頻的均值哈希算法:均值哈希算法面對的主要操作對象是圖片中的低頻信息,其工作過程如下:

①尺寸縮放。將所有圖片數(shù)據(jù)進行尺寸縮放,能夠最快速的去除高頻和細節(jié),使圖片縮放到64個像素大小,即8x8的尺寸。尺寸縮放的目的在于避免圖片中一些細節(jié)及圖片大小對圖片搜索的干擾,只保留結構的明暗。

②色彩簡化。將被縮放后的圖片數(shù)據(jù)簡化其色彩,所有像素點總共只有64級灰度,從而使得整個圖片中僅包含64種顏色。

③計算灰度平均值。對每幅圖片中的64個像素進行灰度平均值計算。

④灰度比較。把64個像素中每個像素的灰度與平均灰度.值依次比較,大于等于平均灰度值的像素設定為1,小于平均灰度值的像素設定為0。

⑤計算哈希指紋。在灰度進行比較結束以后,得到一個由0或1組成的64位的整數(shù)。這就是這張圖片的指紋。其中的整數(shù)被視為當前圖片的指紋。

通過上述過程獲得指紋之后,只需將用戶提交的圖片按照同樣的方式獲得哈希指紋之后,就可以對比不同的圖片,進行漢明距離計算,看看64位中有多少位是不一樣的。從而獲得圖片與圖片之間的相似度。通常情況下,如果漢明距離小于等于5則說明兩張圖片很相似,圖譜具有一定的相似度,若漢明距離大于10,則表明兩張圖片之間存在較大的差異。

采用感知哈希算法的過程比較簡單,而且最大的優(yōu)點是計算速比較度快。而且圖片顏色的改變,對比度及亮度的增加或者減少,對哈希值的影響并不太大。比較兩張圖片的相似性過程實質(zhì)上就是首先計算兩張圖片的哈希指紋,哈希指紋是由1或0構成的64位的數(shù).值,然后再計算漢明距離。根據(jù)計算出來的漢明距離的結果來判斷兩幅圖像的相似情況。但是對于一些模糊的圖譜,或者圖片中存在一些更改情況,則不能很好地識別出相似圖譜。在工程應用中,借鑒感知哈希算法,利用圖片的顏色分布情況及內(nèi)容特征進行圖片搜索。

1.2 余弦哈希感知算法

與低頻的均值哈希感知算法相比較更健壯的算法叫余弦哈希感知算法,離散余弦變換簡稱DCT,是一種圖像壓縮算法,使用離散余弦變換來獲取圖片中的低頻成分。它將圖像從像素域變換到頻率域。由于圖像中基本都存在很多冗余和相關性,所以圖像從像素域變換到頻率域之后,大部分系數(shù)都接近于0,只有很少的一部分頻率分量的系數(shù)不為0。

余弦哈希感知算法的工作過程如下:

(1)尺寸縮放:余弦哈希感知算法以小圖片開始,如果圖片大于8*8,32*32是比較理想的。這樣做的目的是能夠簡化DCT的計算。

(2)色彩簡化:將被縮放后的圖片數(shù)據(jù)簡化其色彩,所有像素點總共只有64級灰度,從而使得整個圖片中僅包含64種顏色,進一步簡化計算量。

(3)計算DCT:計算圖片的DCT變換,得到32*32的離散余弦變換系數(shù)矩陣。

(4)縮小DCT的范圍:從上述步驟中得到的32*32的離散余弦變換系數(shù)矩陣中,只需要將左上角的包含了圖像中的較低頻.率的8*8的矩陣部分保留下來。

(5)計算平均值:如同均值哈希一樣,計算DCT的均值。

(6)計算hash值:根據(jù)8*8的離散余弦變換矩陣,設置0或1的64位的hash值,遍歷像素矩陣,當矩陣的灰度值大于離散余弦變換均值的時候哈希值為1,小于DCT均值的設為0。

為了驗證該算法的性能,進行了一些簡單的測試,測試結果發(fā)現(xiàn)非等比例的圖像縮放會使得基于均值哈希算法的圖像檢索出現(xiàn)錯誤,而余弦哈希感知算法對尺度的變化的魯棒性強于均值哈希算法。

均值哈希算法:

string.HashV. (Mat SRC)

{Mat pic,dst;

string rst.. (64,,\0);

double dldex[64];

double mean= 0.0;

int p=0;

if( SRC.channels()= =3)

{cvtColor(SRC,SRC, CV_B GR2GRAY);

pic= Mat_< double>.(SRC);)

else

{ pic= Mat-< double>.(SRC);]

r esize. (pic, pic, Size(8,8));

dct. (pic,dst);

for (int m=0:m<8;++m)(

for (int n=0:n<8;++n)

{dldex [p]= dst at< double>(m, n);

mean+=dst at< double>(m,n)/64;

++p; })

for (int m =O;nK64;++m)

{ if (dldex[m]>=mean)

trstLrrD=,i,;)

Else

{rst[m]=0;))

return rst;}

余弦哈希感知算法:

stringDCTVal (Mat SRC)

{ string rst( 64,'\O');

Mat pic;

if(SRC channels()==3)

cvtColor (SRC,pic,CV_BGR2GRAY);

else

pic=SRC.clone();

resize.( pic,pic,Size(8,8));

uchar *pData;

for(int m=O;m

{ pData= pic.ptr..(m);

for(int n=O;n

( pData[n]=pData[ny4;,}}

int average= ruean (pic).val[0l;

Mat mask= (pic>=(uchar.) average);

int tag=0;

for( int m=0; m<Ⅱiask rows; m++)

{pData= mask.ptr< uchar> (m);

for (int n=O;n

{

if(.pData[nl==0)

rst[tag++]='0' ;

else

rst[tag++]=1';})

return.rst;}

2 基于文本的圖片搜索

基于文本的圖片搜索,是通過獲得圖片附近的文本.信息,這些文本信息和.網(wǎng)頁搜索的文本信息一樣,被建立倒排索引,然后通過對倒排索引的使用獲得對應圖片信息?;谖谋镜膱D片搜索的實質(zhì)與網(wǎng)頁搜索類似,它們都是對文件建立相關索引,網(wǎng)頁搜索對應的是文檔集合,圖片搜索對應的是圖片的集合。

而對于基于文本的圖片搜索,文本信息主要來自三個方面。

①網(wǎng)頁HTML中的標簽,在HTML標簽“img”中的詞性“alt”包含的信息,是對該圖譜的一種簡短描述。

②圖片周圍的信息。圖片一般嵌套在網(wǎng)頁中某個區(qū)域性位置,但是這個區(qū)域性位置一般用于講述該圖譜的相關信息,圖中下面一行文字是對該圖片信息的一個描述,一般它們位于同一個HTML的“DIV”標簽或者相鄰“DIV”標簽中。

③圖片本身的文字信息。為了更加準確地分析圖片所描述的信息,學術界一直試圖對圖片進行光學字符識別。

3 結論

綜上所述,大數(shù)據(jù)搜索引擎中的圖片搜索技術有了一定的發(fā)展,但有時搜索到的圖片與原圖片的相似度還有一定的差距,隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,圖片搜索引擎的功能一定會越來越完善強大,為用戶所提供的服務質(zhì)量也會越來越高,讓用戶越來越滿意。

參考文獻:

[1]唐俊易.百度官方發(fā)布圖片搜索收錄的基礎要求[J].計算機與網(wǎng)絡,2014(7).

[2]王錚,針對百度算法不斷升級網(wǎng)站優(yōu)化應采取的四點對策[J].計算機與網(wǎng)絡,2014(8)。

[3]徐靜.圖像搜索引擎的進步與應用現(xiàn)狀分析[J].電子商務,2011(5).

[4]謝同.基于文本的Web圖片搜索引擎的研究與實現(xiàn)[D].電子科技大學,2016.

[5]郭升挺,黃唏,柯俊敏,等.基于深度學習與拓展查詢的商標圖像檢索方法[J].網(wǎng)絡新媒體技術,2018(5).

[6]任夏荔,陳光喜,曹建收,等.基于深度學習特征的圖像檢索方法[J].計算機工程與設計,2018(6).

[7]孫奇平.基于深度學習的圖像檢索研究[J].景德鎮(zhèn)學院學報,2018(4).

[8]周力恒,金陽,康軼澤,等.圖像搜索在移動電商領域中的應用與實現(xiàn)[J].科技創(chuàng)新導報,2016(6).

[9]張軍陽,王慧麗,郭陽,等.深度學習相關研究綜述[J].計算機應用研究,2018(4).

【通聯(lián)編輯:唐一東】

猜你喜歡
相似度搜索引擎大數(shù)據(jù)
改進的協(xié)同過濾推薦算法
模糊Petri網(wǎng)在油田開發(fā)設計領域的應用研究
網(wǎng)絡搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡輿情管控中的應用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
安国市| 邵阳县| 都匀市| 怀集县| 安平县| 云浮市| 山西省| 丹江口市| 遂昌县| 长武县| 顺平县| 辛集市| 涡阳县| 西安市| 乳源| 油尖旺区| 禹城市| 望江县| 北宁市| 乐东| 淳化县| 崇阳县| 临泉县| 彩票| 沙田区| 武山县| 辉县市| 和平区| 沾益县| 乐陵市| 高雄市| 武夷山市| 绥滨县| 陆川县| 紫阳县| 尚义县| 瑞昌市| 即墨市| 全椒县| 宣恩县| 孟州市|