国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本的圖片搜索引擎的研究

2014-06-20 05:59:34李超
無線互聯(lián)科技 2014年2期
關(guān)鍵詞:系統(tǒng)評(píng)價(jià)搜索引擎

李超

摘 要:當(dāng)前圖片應(yīng)用及其搜索技術(shù)越來越成熟,圖片檢索系統(tǒng)也隨之得到了廣泛的應(yīng)用。文中基于上述背景首先對(duì)圖片信息的技術(shù)、文本圖片檢索系統(tǒng)進(jìn)行了探討,接著對(duì)文本的圖片搜索引擎系統(tǒng)的評(píng)價(jià)完成了簡(jiǎn)要概述,最后對(duì)組成系統(tǒng)架構(gòu)以及系統(tǒng)應(yīng)用測(cè)試進(jìn)行了闡述,這一研究對(duì)信息檢索技術(shù)具有一定的參考價(jià)值。

關(guān)鍵詞:圖片應(yīng)用;搜索技術(shù);文本圖片;搜索引擎;系統(tǒng)評(píng)價(jià)

目前的Internet應(yīng)用已經(jīng)取得了長(zhǎng)足的發(fā)展,隨著網(wǎng)絡(luò)帶寬和終端計(jì)算能力的不斷增強(qiáng),圖片被越來越多的應(yīng)用于內(nèi)容的表達(dá)和信息的承載。圖片的信息是指圖片的內(nèi)容所表征的意義,這種的信息承載方式與傳統(tǒng)的文本的信息是不一樣的。由于文本的直觀性和簡(jiǎn)單性,文本的信息即包含于本身;而圖片的信息可以通過圖片本身的內(nèi)容傳達(dá)出來,也可以通過相關(guān)文字的描述傳達(dá)出來,于是圖片便有了雙重的信息載體。本文基于這一方向,對(duì)文本的圖片搜索引擎完成了探討,這一研究對(duì)信息檢索技術(shù)具有一定的參考價(jià)值。

1 圖片信息的技術(shù)

獲取圖片信息的技術(shù)可根據(jù)其來源的載體類型劃分為基于內(nèi)容與基于文本這兩大類。前者是將單純的圖片內(nèi)容作為分析與查找對(duì)象,而后者則是對(duì)與圖片有關(guān)的文字信息進(jìn)行分析,其工作方式與以往的文本查找方式差不多。

由于互聯(lián)網(wǎng)具有邊緣化這一特點(diǎn),其信息組織相當(dāng)自由,許多圖片資料根據(jù)方式與風(fēng)格的差異被組織到各不相同的地方。可根據(jù)各種方式自由的對(duì)文字與圖片進(jìn)行安排。然而統(tǒng)計(jì)數(shù)據(jù)顯示,許多組織方式存在著一些共同點(diǎn),這些共同點(diǎn)也反應(yīng)了我們?cè)讷@取信息方面的習(xí)慣。從而無限制的信息提取框架就有可能實(shí)現(xiàn)了?;ヂ?lián)網(wǎng)上的圖片與文本通常都是以組合的形式出現(xiàn)的,其中,HTML網(wǎng)頁是我們見的最多的一種組織形式,因此,許多與圖片相關(guān)的信息于可利用HTML挖掘來獲取。

在網(wǎng)頁中,HTML網(wǎng)頁的應(yīng)用是最為廣泛的,對(duì)搜索引擎而言,它也是一個(gè)最重要的信息獲取途徑?;ヂ?lián)網(wǎng)上擁有大量的HTML網(wǎng)頁和多媒體資源。

在互聯(lián)網(wǎng)上,Web搜索引擎技術(shù)已得到了廣泛的引用,每日需抓取不計(jì)其數(shù)的HTML網(wǎng)頁,這是一個(gè)非常有價(jià)值的資源庫,然而,現(xiàn)在只有文本信息被用于Web搜索。若將資源庫中的價(jià)值充分挖掘出來,則可實(shí)現(xiàn)圖片、MP3以及Flash等多個(gè)搜索系統(tǒng)的建立。所以,我們就從通過對(duì)HTML網(wǎng)頁的充分利用來創(chuàng)建Web圖片搜索引擎開始。

2 文本圖片檢索系統(tǒng)探析

2.1 檢索系統(tǒng)應(yīng)用涉及領(lǐng)域

如今,圖片應(yīng)用及其搜索技術(shù)越來越成熟,圖片檢索系統(tǒng)也隨之得到了廣泛的應(yīng)用。Google圖片搜索等通用Web圖片搜索引擎是現(xiàn)在應(yīng)用最為的廣泛的,它的服務(wù)對(duì)象是所有通用領(lǐng)域的用戶。不僅如此,圖片檢索還被應(yīng)用于許多專業(yè)領(lǐng)域,常見的有:

醫(yī)藥領(lǐng)域。大部分的醫(yī)學(xué)及相關(guān)專業(yè)由于要進(jìn)行診斷和疾病檢查,故會(huì)涉及到可視信息資料,如:X光、掃描影像等。在相關(guān)信息的分析、傳輸以及存儲(chǔ)方面,圖片檢索技術(shù)發(fā)揮了重要作用,圖像處理是目前這個(gè)領(lǐng)域的研究重點(diǎn),如:在腫瘤生長(zhǎng)跟蹤方面采用了特征檢測(cè)。應(yīng)用于這個(gè)領(lǐng)域的系統(tǒng)中已有成功的案例。

圖形設(shè)計(jì)領(lǐng)域。重要現(xiàn)有的設(shè)計(jì),對(duì)于這個(gè)領(lǐng)域的從業(yè)者而言,可獲得許多素材與靈感,而圖片檢索系統(tǒng)可方便工作的開展,此外,還便于用戶找到有特殊要求的作品。

出版領(lǐng)域。圖片對(duì)于出版社、雜志社等單位十分重要,由于需求量較大,它們大多都有自己的圖片庫,傳統(tǒng)的存儲(chǔ)與查找所采取的歸類方式較多。這個(gè)領(lǐng)域的工作人員在查找和選擇圖片方面所需時(shí)間較長(zhǎng),而圖片檢索系統(tǒng)則可提高圖片查找和挑選的效率。

此外,圖片檢索還被應(yīng)用于建筑設(shè)計(jì)、天文地理以及犯罪取證等領(lǐng)域。

2.2 用戶檢索方式技術(shù)

與網(wǎng)頁檢索相比,圖片檢索在檢索方式上有較大區(qū)別。目前基本上只有關(guān)鍵字查詢這種網(wǎng)頁檢索系統(tǒng),因?yàn)樵诂F(xiàn)有的考慮范圍內(nèi)只有文字可以描述網(wǎng)頁內(nèi)容。而用于描述圖片的除了文字之外,還有圖片自身。所以,圖片的檢索方式一般比較多,站在用戶檢索的角度來看,主要有目錄式檢索、關(guān)鍵字查詢、實(shí)例式檢索以及屬性式檢索四類。

⑴目錄式檢索。yahoo網(wǎng)頁搜索的特點(diǎn)也體現(xiàn)在了其圖片搜索上,對(duì)圖片實(shí)行了分類,用戶根據(jù)分類結(jié)構(gòu)對(duì)查詢范圍進(jìn)行細(xì)化。這種檢索方式下的很多分類工作需要人工完成,所以,其代價(jià)也是很大的。

⑵關(guān)鍵字查詢。目前,關(guān)鍵字檢索方式適用于大型圖片搜索引擎。用戶輸入與所需圖片有關(guān)的文字,系統(tǒng)根據(jù)文字與圖片的匹配度對(duì)與查詢?cè)~相對(duì)應(yīng)的圖片進(jìn)行查找。具有較快的檢索速度是該檢索方式的最大優(yōu)勢(shì),且基于文本的索引技術(shù)已發(fā)展到成熟階段。人工標(biāo)引和自動(dòng)提取是匹配信息與文字的兩種方法。

人工標(biāo)引在信息檢索方面具有較高的準(zhǔn)確度。不足的是人工標(biāo)引的工作量較大,對(duì)于海量系統(tǒng)而言很難實(shí)現(xiàn);另外,該方法具有較強(qiáng)的主觀性,幾乎無法將完整的信息反映出來,且有時(shí)所反映的圖片信息有誤。

自動(dòng)提取方法的準(zhǔn)確度則沒有人工標(biāo)引方法高。因?yàn)樾畔⒕哂卸喾N組織形式,且具體組織形式的確定存在較大難度,對(duì)與圖片相匹配的信息很難確定。該方法下的信息提取所采取的是啟發(fā)式規(guī)則,信息獲取所采用的是使用較多的模式,同時(shí),信息的準(zhǔn)確性可通過無用信息過濾等技術(shù)來加強(qiáng)。

⑶實(shí)例式檢索?,F(xiàn)在基于內(nèi)容的圖片搜索引擎基本上都是實(shí)例式檢索。系統(tǒng)根據(jù)所提供的圖片或用戶所畫的基本形狀特征對(duì)類似的圖片進(jìn)行查找。較為容易找到類似圖片是該方式的優(yōu)勢(shì),而需要用戶提供圖片則是它的不足之處,因?yàn)檫@樣對(duì)系統(tǒng)不利。基于內(nèi)容的檢索系統(tǒng)所提供的分類信息一般具有較大的粒度,如:風(fēng)景、人物等。

⑷屬性式檢索。屬性式檢索方式常被用于規(guī)模較小的攝影等專業(yè)的圖片數(shù)據(jù)庫,用戶的檢索依據(jù)可以是圖片的某些外在特征,如:作者、拍攝日期等。這類數(shù)據(jù)庫的特點(diǎn)就是管理的統(tǒng)一性,信息通常很規(guī)范,可通過當(dāng)前的關(guān)系數(shù)據(jù)庫來創(chuàng)建索引與檢索,過程比較簡(jiǎn)單。

3 檢索系統(tǒng)評(píng)價(jià)

在檢索系統(tǒng)中,評(píng)價(jià)系統(tǒng)有兩個(gè)非常重要的指標(biāo),即查準(zhǔn)率與查全率。查準(zhǔn)率指的是查詢結(jié)果中有關(guān)文檔數(shù)與文檔總數(shù)之比;查全率指的是查找到的有關(guān)文檔數(shù)與所有文檔集合中有關(guān)文檔總數(shù)之比。若在特定的查詢中,D+、R、R+分別代表所有文檔集合中有關(guān)文檔數(shù)、查詢結(jié)果文檔集合以及結(jié)果文檔中有關(guān)文檔集合,那么,查準(zhǔn)率與查全率則有以下定義:

查準(zhǔn)率:

查全率:

查準(zhǔn)率與查全率在圖片檢索系統(tǒng)中是很難度量的,由于圖片和文本的有關(guān)評(píng)價(jià)帶有較強(qiáng)的主觀意識(shí),故幾乎無法得到比較具體的統(tǒng)計(jì)結(jié)果。

4 組成系統(tǒng)架構(gòu)

組成系統(tǒng)架構(gòu)的組件較多,一個(gè)系統(tǒng)的功能流量也因此得到了體現(xiàn)。第一步就是由用戶將圖像名稱與上下文輸入到系統(tǒng),這樣有關(guān)列表圖像就生成了。各部分細(xì)節(jié)見下圖1。

輸入界面前端應(yīng)用程序設(shè)計(jì):Eclipse編譯器為用戶提供了一個(gè)友好的界面,以便于用戶進(jìn)行搜索與選擇,可通過部分上下文對(duì)人格圖片進(jìn)行瀏覽,此外,還可查看一個(gè)或多個(gè)視圖模式的圖片。

耶拿框架:集成本體和用戶界面已采用了耶拿框架l。許多上下文已通過本體語言查詢建立。以上查詢會(huì)由耶拿向推理機(jī)傳遞。完成推理后, Jena會(huì)將結(jié)果被發(fā)送回輸出接口。

圖像庫和輸出接口:存儲(chǔ)庫中已保存了全部選定的圖片,檢索查詢結(jié)果輸出所對(duì)應(yīng)的圖像的名稱是一樣的。用戶在主屏幕對(duì)所要查找的上下文進(jìn)行輸入,圖像最后將在多個(gè)Windows操作系統(tǒng)中出現(xiàn)。

5 文本圖片系統(tǒng)應(yīng)用測(cè)試和結(jié)果

我們對(duì)測(cè)試中采用本體的效果進(jìn)行了評(píng)估。通過谷歌搜索引擎及測(cè)試關(guān)鍵字方法將個(gè)性各異的名字輸入到搜索框中,出現(xiàn)的結(jié)果很多,而大部分結(jié)果的關(guān)聯(lián)性并不大。我們?cè)谠撓到y(tǒng)中對(duì)同一查詢進(jìn)行了測(cè)試,結(jié)果顯示效果要好于前者。采用精度、措施以及回憶等不同的方法對(duì)結(jié)果的進(jìn)行比較,在不同的場(chǎng)景中,以語義為基礎(chǔ)的結(jié)果地位最高??偟膩碚f,在本文的實(shí)驗(yàn)中,與關(guān)鍵字搜索相比,語義文本搜索更加便于操作。

[參考文獻(xiàn)]

[1]徐靜.圖像搜索引擎的進(jìn)步與應(yīng)用現(xiàn)狀分析[J].電子商務(wù),2011,04:61-62.

[2]吳江.多媒體搜索引擎創(chuàng)新比較研究[J].圖書館學(xué)研究,2012,05:75-79+70.

[3]焦蕾,殷鋒社.圖像搜索引擎檢索模式分析與研究[J].電子設(shè)計(jì)工程,2012,05:132-134.

[4]王晟,趙壁芳.基于內(nèi)容的圖片搜索引擎研究[J].長(zhǎng)沙大學(xué)學(xué)報(bào),2012,02:40-42.

[5]張俊,石志寒,郭新鵬.基于用戶的批量圖像元搜索引擎設(shè)計(jì)[J].科學(xué)技術(shù)與工程,2013,21:6290-6293+6298.

[6]圖片搜索引擎巨無霸系列——一搜”5.5億圖片搜索“讀圖時(shí)代”[J].電腦愛好者,2004,20:73.

[7]王遷.搜索引擎提供“快照”服務(wù)的著作權(quán)侵權(quán)問題研究[J].東方法學(xué),2010,03:126-139.

猜你喜歡
系統(tǒng)評(píng)價(jià)搜索引擎
中藥注射劑治療冠心病的系統(tǒng)評(píng)價(jià)再評(píng)價(jià)
高壓氧治療血管性癡呆隨機(jī)對(duì)照試驗(yàn)的Meta分析
利卡汀聯(lián)合肝動(dòng)脈栓塞化療治療中晚期肝癌的效果及安全性的系統(tǒng)評(píng)價(jià)
細(xì)辛腦注射液治療慢性阻塞性肺疾病急性加重期療效的Meta分析
丹紅注射液治療特發(fā)性肺纖維化臨床療效及安全性的Meta分析
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
銀杏葉注射液治療急性腦梗死隨機(jī)對(duì)照試驗(yàn)的系統(tǒng)評(píng)價(jià)
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
济南市| 贡嘎县| 遵化市| 汾西县| 视频| 桑日县| 衡东县| 天镇县| 红原县| 庆安县| 马尔康县| 阿拉善左旗| 彭阳县| 博白县| 阿拉尔市| 丰县| 蓬莱市| 桃园县| 天祝| 屏东市| 商南县| 富宁县| 双柏县| 文山县| 武宣县| 绍兴市| 渭源县| 峡江县| 壶关县| 清水县| 衡山县| 和顺县| 波密县| 淳安县| 犍为县| 三河市| 马鞍山市| 新龙县| 麻江县| 长沙县| 封开县|