焦 蕾,殷鋒社
(陜西工業(yè)職業(yè)技術(shù)學(xué)院 陜西 咸陽 712000)
圖像搜索引擎檢索模式分析與研究
焦 蕾,殷鋒社
(陜西工業(yè)職業(yè)技術(shù)學(xué)院 陜西 咸陽 712000)
文中研究如何從HTML文檔中提取圖片相關(guān)信息,保證高效和準(zhǔn)確的實現(xiàn)圖片檢索。在對圖像搜索引擎檢索模式分析的基礎(chǔ)上,提出了若干關(guān)鍵技術(shù),設(shè)計并實現(xiàn)了一個基于文本的Web圖片搜索引擎,給出了系統(tǒng)的總體結(jié)構(gòu)圖,并對獲取網(wǎng)頁、提取信息、圖片抓取、建立索引和提供查詢進行了詳細的描述,分析了圖像搜索引擎的檢索模式。
圖片檢索;搜索引擎;關(guān)鍵技術(shù); 總體結(jié)構(gòu)圖
圖像搜索引擎的檢索模式[1]就是它的檢索方式,根據(jù)這些檢索方式來確定不同的檢索策略。圖像檢索模式的核心問題是降像特征的抽取和降像檢索。前面的降像搜索引擎的案例代表了兩種不同的檢索模式:基于文本的檢索模式和基于內(nèi)容的檢索模式,此外還有基于兩者結(jié)合的綜合特征的檢索模式。下面就對圖像搜索引擎檢索模式進行分析,并探討不同的應(yīng)用狀況。
圖像檢索自二十世紀(jì)70年代以來就成為信息檢索中一個非?;钴S的研究領(lǐng)域。基于文本的圖像檢索模式最先應(yīng)用于圖像檢索中。
原始圖像特征的數(shù)量可能很大,或者說是處于一個高維空間中,通過映射(或變換)的方法可以用低維空間來表示圖像,這即為圖像的特征抽取。要想快速和方便地檢索到圖像,就要對圖像數(shù)據(jù)庫中的圖像進行特征抽取,并建立相應(yīng)的索引,以方便用戶的檢索。
基于文本的圖像檢索[2]是對圖像的名稱、編號、內(nèi)容描述、圖像大小、圖像所在文件的大小、圖像來源、作者、建立圖像的時間、存儲地點等關(guān)鍵性的信息采用自動標(biāo)引或進行人工注釋,并進行圖像的特征抽取,建立圖像索引數(shù)據(jù)庫,然后按全文數(shù)據(jù)庫管理,采用全文數(shù)據(jù)庫檢索方法。
現(xiàn)在基于網(wǎng)絡(luò)的圖像搜索引擎大都采用這種基于文本的檢索模式。網(wǎng)絡(luò)上的圖像文件通常以GIF,JPG,PNG等作為擴展名的。提到的網(wǎng)絡(luò)圖像搜索引擎 (Google,Corbis)通過IMGSRC和HREF兩個HTML標(biāo)簽檢測是否存在可以顯示的圖像文件。因為凡是在超文本中可以直接顯示的圖像,通常都是用這兩種標(biāo)簽導(dǎo)向這個圖像文件的。IMGSRC表示“顯示下面的圖像文件”,而 HREF標(biāo)簽則表示“下面是一個鏈接”,搜索引擎通過檢查文件擴展名來確定鏈路所鏈接的是否是圖像文件。如果文件后綴是GIF,JPG或者PNG,那么它就是一個可顯示的圖像。但是依據(jù)文件擴展名和超文本標(biāo)識符檢到的圖像,不是圖像本身具體的內(nèi)容。如Google抽取圖像的題名、圖像大小、圖像內(nèi)容的描述語言、圖像所在文件的大小、圖像來源、作者、建立圖像的時間、存儲地點等信息,專門針對這些圖像信息建立索引。Corbis通過人工對圖像信息標(biāo)注。
基于文本的檢索模式采用的是全文數(shù)據(jù)庫的檢索方法。檢索方式[3]分為關(guān)鍵詞檢索和分類檢索。
關(guān)鍵詞檢索有簡單檢索和高級檢索兩種。
Google用關(guān)鍵詞檢索圖像,延續(xù)了文本檢索的方法??梢允褂貌紶栠壿嫏z索、限制檢索,可以通過關(guān)鍵詞的組配和高級檢索中提供對圖像大小、格式、顏色等的限制的檢索。
每個網(wǎng)頁都有一個標(biāo)題,標(biāo)題有時能概括該網(wǎng)頁的內(nèi)容,該網(wǎng)頁則又是有圖像的網(wǎng)頁,那么就可以利用標(biāo)題來檢索。
還有通過人工輔助將圖像按照圖像所在的文件名、路徑名、圖像內(nèi)容描述等加以標(biāo)注,然后搜索引擎通過讀取文件名、文件名使用的路徑,或者是跟在IMGSRC標(biāo)簽后的ALT標(biāo)簽,來逐步導(dǎo)向要搜索的圖像。或者是先由搜索器自動搜索網(wǎng)絡(luò)上的圖像,再由專業(yè)人員對搜索器自動搜索到的圖像進行人工鑒別和分類,利用用戶的相關(guān)反饋的方法將更新的信息不斷地加入到數(shù)據(jù)庫中。
基于文本的圖像搜索引擎的檢索模式分為兩部分[4]:首先搜索引擎對圖像語義特征的提取,放入語義庫中。圖像往往帶有標(biāo)題和文字說明,這些信息也可作為檢索圖像的線索,圖像的文字解說包括的內(nèi)容更豐富一些,可供檢索之用。在超文本文件中的IMG標(biāo)識中設(shè)立ALT選擇符的本來目的是用文字告知只顯示網(wǎng)頁文字內(nèi)容的用戶在某個位置原來應(yīng)該有什么圖像。但是正是這些標(biāo)識符為圖像檢索提供了途徑。其次用戶提交查詢關(guān)鍵詞,搜索引擎對關(guān)鍵詞進行語義特征提取。對用戶提交的關(guān)鍵詞和圖像中抽取的關(guān)鍵詞進行特征匹配,根據(jù)相關(guān)度排序,得到檢索結(jié)果,用戶的相關(guān)反饋將更新的信息不斷的加入到數(shù)據(jù)庫中?;谖谋镜膱D像搜索引擎的檢索就是將圖像檢索轉(zhuǎn)化成文本檢索。圖1表示出了基于文本檢索模式的基本框圖。
圖1 文本檢索模式的基本框圖Fig.1 Text retrieval model of the basic block diagram
但是,這種基于文本的檢索是借助傳統(tǒng)的文本信息檢索技術(shù)來實現(xiàn)多媒體檢索的,它存在著局限性:1)要對所有的圖像進行關(guān)鍵詞標(biāo)注,然后才能利用全文檢索技術(shù)對圖像進行搜索,隨著網(wǎng)絡(luò)圖像信息的增加,這種方法需要較多的人工參與;2)圖像中所包含的信息很豐富,不同的人對同一幅圖像的理解不同,文字描述僅是一種特定的抽象,也就是特定的描述針對特定的對象。目前這種文字的描述是靠人主觀觀察得到的,不同的人對同一幅圖像的特定描述是不同的,這就導(dǎo)致了對圖像標(biāo)注沒有一個統(tǒng)一的標(biāo)準(zhǔn),造成檢索結(jié)果不能夠符合用戶的需求。
基于圖像內(nèi)容的檢索[5]指的是查詢條件本身就是一個圖像,或者是對圖像內(nèi)容的描述,建立索引的方式是通過提取底層特征,然后通過計算機比較這些特征和查詢條件之間的距離,來決定兩個圖片的相似程度。前面提到的WEBSEEK和QBIC都是基于內(nèi)容檢索的圖像搜索引擎。
圖像是平面上像素的集合,表示像素的數(shù)據(jù)是最基本的圖像內(nèi)容,但不能用于檢索,因為像素數(shù)據(jù)太多,與人的視覺感知沒有直接的關(guān)系。圖像的視覺特征是在像素數(shù)據(jù)基礎(chǔ)上提取的,與人的視覺感知相關(guān),而是人的視覺感知進行高級抽象的基礎(chǔ)。
1)顏色特征
顏色是描繪圖像的一個最簡便的特征,具有與生俱來的旋轉(zhuǎn)不變性和尺度不變性。典型的顏色特征有顏色直方圖特征、顏色矩特征、顏色相干特征矢量等。
2)紋理特征
紋理特征表示視覺的基本結(jié)構(gòu),尤指復(fù)雜的精致的基本結(jié)構(gòu)或組成,或表面外貌和表面感覺、不平或粗糙的表面特征。紋理特征包括粗糙性、對比度、周期性、凸凹性等。典型的紋理特征包括紋理特征、小波紋理特征、共現(xiàn)自回歸紋理特征等。
3)形狀特征
形狀特征是某一對象的表面配置、輪廓或周線,對象的外形通過其輪廓和形狀與其周圍的對象相區(qū)別。形狀包括圖像對象邊界、邊界拐點、形狀的質(zhì)心和各階矩等。
這些低層特征通過各種方法抽取出來,形成一組特征向量,建立相關(guān)索引并存儲到數(shù)據(jù)庫中。目前對于圖像內(nèi)容索引采用多維索引算法,根據(jù)特征數(shù)據(jù)集在特征空間中的分布特性,將數(shù)據(jù)切分成子數(shù)據(jù)集,并對子數(shù)據(jù)集建立描述,把圖像特征的主要成分抽取出來,然后再建立索引,存入數(shù)據(jù)庫當(dāng)中。
基于內(nèi)容的圖像特征的抽取決定了基于圖像內(nèi)容的檢索方式,下面以基于物理層特征的圖像檢索方式來說明基于內(nèi)容的圖像檢索模式。
WEBSEEK先通過圖片瀏覽得到所想要的圖像的范圍,然后可以通過顏色來檢索,它的“col”檢索方式就是根據(jù)該圖顏色在檢出圖像列表中搜索相關(guān)圖像,“his”檢索方式則通過手動調(diào)整檢出圖像的顏色直方圖來進行另一新的檢索,“web”檢索就是要在整個Web SEEK目錄中根據(jù)該圖顏色再次檢索相近圖像。QBIC把顏色作為缺省的檢索手段。如在需要檢索大海時,指定圖像中的主要顏色藍色(對應(yīng)海水)的大致比例就可以此為根據(jù)查找與此顏色分布類似的圖像。
紋理檢索也是基于內(nèi)容檢索的一個主要方式。紋理檢索和紋理分類技術(shù)是密不可分的。針對不同系統(tǒng)的應(yīng)用要求在紋理檢索的實現(xiàn)中采用不同的紋理識別方法。前面的提到的QBIC提出3種紋理描述:粗糙度、對比度、方向性。
示例檢索和草圖檢索就是典型的形狀檢索。前面提到的俄羅斯國家藝術(shù)博物館搜索圖像就可以利用形狀檢索的方式。用戶可以向QBIC系統(tǒng)提供一幅草圖,就可以檢索到相關(guān)的圖像。如需要檢索海邊口落,就可以提供紅色太陽的形狀,藍色大海的形狀,然后就可以據(jù)此查找了。
用戶提交查詢,系統(tǒng)根據(jù)提交的查詢,在圖像數(shù)據(jù)庫中找到一些最相似的圖像返回給用戶。提交的查詢將轉(zhuǎn)化為一個由低層特征和高層特征結(jié)合的向量,然后分別與數(shù)據(jù)庫中圖像的向量計算相似度。相似度的計算分為兩步[6]:一是計算低層特征的相似度,二是計算高層語義特征的相似度,然后采用線性組合的方法得到最后的相似度。相似度高的圖像成為檢索的結(jié)果?;趦?nèi)容的檢索模式的基本框圖如圖2所示。
圖2 內(nèi)容的檢索模式的基本框圖Fig.2 Content retrieval model of the basic block diagram
基于內(nèi)容的檢索模式主要依據(jù)圖像的畫面內(nèi)容特征和主題對象特征(即圖像的實際內(nèi)容)來標(biāo)引和檢索。這種技術(shù)由圖像分析軟件自動抽取圖像的顏色、形狀、紋理等特征,建立索引庫,檢索時可依據(jù)用戶輸入的圖像某一特征(例如繪制的草圖、輪廓圖或調(diào)用的相似圖像)自動比較特征索引庫中的對應(yīng)特征信息,將最佳匹配結(jié)果和相關(guān)信息輸出,其過程不需要過多的人工干預(yù),具有較強的客觀性。
但是基于內(nèi)容的檢索也存在著不足:用戶通常使用高層語義概念來判斷圖像之間的相似性,雖然低層視覺特征具有直觀性,但是這些特征并不能真正代表圖像的語義特征,ifu}_圖像的低層視覺特征和高層語義特征概念不存在直接的聯(lián)系,所以基于內(nèi)容的圖像檢索結(jié)果也不能令用戶很滿意。所以,圖像檢索模式仍然是以基于文本的檢索為主,網(wǎng)上少數(shù)圖像數(shù)據(jù)庫檢索是基于內(nèi)容的檢索。
[1]熊回香.基于內(nèi)容的圖像檢索技術(shù)的發(fā)展方向[J].現(xiàn)代圖書情報技術(shù),2004(12):30-33.
XIONG Hui-xiang.Image retrieval technology based content development direction[J].New Technology of Liberary and Information Service,2004(12):30-33.
[2]何潔.圖像搜索引擎[J].化工之友,2003(10):34-38.
HE Jie.Image search engine[J].Friend of Chemical Industry,2003(10):34-38.
[3]HAI Zhu-ge.Retrive wages by understanding semantic links and clustering image fragments[J].The Journal of System and Software,2003(12):32-36.
[4]劉偉成,孫吉紅.基于內(nèi)容的圖像信息檢索綜述[J].情報科學(xué),2002(4):431-435.
LIU Wei-cheng,SUN Ji-hong.Summary on content based image retrieval[J].Information Science,2002(4):431-435.
[5]李國輝,湯大權(quán),武德峰.信息組織與檢索「M].北京:科學(xué)技術(shù)出版社,2003.
[6]土朝暉,龔聲蓉,唐國維.基于內(nèi)容的圖像檢索中的一種多維索引算法[J].計算機工程與應(yīng)用,2003(9):112-114.
TU Zhao-hui,GONG Sheng-rong,TANG Guo-wei.The content based image retrieval in a multidimensional indexing algorithm[J].Computer Engineering and Applications,2003(9):112-114.
Analysis and design of image search engine retrieval mode
JIAO Lei,YIN Feng-she
(Shanxi Polytechnic Institute,Xianyang712000,China)
Study on how to extract images from the HTML document related information,to ensure efficient and accurate image retrieval.The image search engine retrieval mode on the basis of the analysis, put forward some key technology, design and realization of a text based Web image search engine,gives the overall structure of the system,and access to information extraction, webpage, picture crawling, indexing and query provided a detailed description, analysis image search engine retrieval model.
image retrieval; search engine; key technology; system structure diagram
TP3-05
A
1674-6236(2012)05-0132-03
2012-01-08稿件編號:201201028
焦 蕾(1981—),女,陜西紫陽人,助教。研究方向:軟件設(shè)計。