国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于內(nèi)容的圖像檢索綜述

2013-12-29 00:00:00蔡琴
考試周刊 2013年8期

摘 要: 隨著多媒體技術(shù)的迅速發(fā)展,傳統(tǒng)的基于文本的信息檢索技術(shù)已經(jīng)不能滿足需求。因此,基于內(nèi)容的圖像檢索技術(shù)CBIR成為當今的一個研究熱點。本文首先介紹了國內(nèi)外基于內(nèi)容的圖像檢索的現(xiàn)狀研究,其次簡單介紹了基于內(nèi)容的圖像檢索系統(tǒng)構(gòu)成,在此基礎(chǔ)上論述了基于內(nèi)容的圖像檢索常用的關(guān)鍵技術(shù),主要從顏色、紋理、形狀、組合的多特征、語義等方面進行了詳細的敘述,同時指出了現(xiàn)有圖像檢索技術(shù)的優(yōu)缺點,最后對基于內(nèi)容的圖像檢索技術(shù)的未來發(fā)展作了更深一步的探討。

關(guān)鍵詞: CBIR 顏色 紋理 形狀 語義

隨著現(xiàn)代通信技術(shù)和多媒體技術(shù)的發(fā)展及Internet的廣泛普及,數(shù)字圖像的數(shù)量出現(xiàn)了急劇增長。如何從這些海量的圖像數(shù)據(jù)中快速有效地找出需要的信息,是一個非常有理論價值和實際意義的課題。實際上,圖像檢索已經(jīng)成為目前國內(nèi)外的一個研究熱點。從圖像檢索發(fā)展的歷程來看,主要經(jīng)歷了兩個階段:基于文本的圖像檢索和基于內(nèi)容的圖像檢索。傳統(tǒng)的基于文本的圖像檢索技術(shù)是通過關(guān)鍵字或自由文本進行描述,查詢操作是基于該圖像的文本描述進行精確匹配或概率匹配?;谖谋镜膱D像檢索方式簡單、易于理解,但檢索時要指明文本特征。由于人工注釋圖像的主觀性和不準確性等弊端,因此這種傳統(tǒng)的圖像檢索方法并不能滿足用戶的需求。相對于基于文本的圖像檢索技術(shù)來說,基于內(nèi)容的圖像檢索實現(xiàn)了自動化、智能化的圖像檢索和管理,主要利用了圖像中的一些可視化信息,如顏色、形狀、紋理等信息作為檢索的途徑,從而提高了檢索的效率和準確性,因此得到越來越多人的關(guān)注。

1.國內(nèi)外的研究現(xiàn)狀

迄今已有許多關(guān)于內(nèi)容的圖像檢索系統(tǒng)面世。國外經(jīng)典的檢索系統(tǒng)有IBM公司開發(fā)的OBIc、Virage公司的Virage圖像搜索引擎、麻省理工學院(MIT)多媒體實驗室開發(fā)的Photobook、哥倫比亞大學開發(fā)的VisualSEEK和詳ebSEEK,等等。相對于國外而言,國內(nèi)在基于內(nèi)容圖像檢索理論及應用的研究起步較晚,具有代表性的工作如下:清華大學計算機系結(jié)合國家863高科技研究發(fā)展項目“Web上基于內(nèi)容的圖像檢索研究”,于1997年研制了一個網(wǎng)絡版基于靜態(tài)圖像內(nèi)容的原型系統(tǒng)。國防科技大學多媒體開發(fā)中心設(shè)計開發(fā)了一個基于內(nèi)容的視頻新聞節(jié)目瀏覽檢索News Video CAR。浙江大學從1995年開始進行多媒體圖像檢索的研究,開發(fā)了基于圖像顏色的檢索系統(tǒng)Photo Navigator,并將基于顏色的CBIR技術(shù)較為成功地應用于敦煌壁畫數(shù)據(jù)庫的研究和開發(fā)。云南大學信息學院設(shè)計開發(fā)了基于內(nèi)容的商標圖像檢索系統(tǒng)等。

目前,基于內(nèi)容的圖像檢索技術(shù)的研究熱點[1]可分為四個方面:一是最初的圖像檢索研究主要集中于如何選擇合適的全局特征去描述圖像內(nèi)容和采用什么樣的相似性度量方法進行圖像匹配。代表性工作包括:IBM開發(fā)的QBIC、MIT多媒體實驗室開發(fā)的Photobook、哥倫比亞大學開發(fā)的VisualSEEK等。二是基于區(qū)域的圖像檢索方法,主要思想是通過圖像分割技術(shù)提取出感興趣區(qū)域的特征;代表性工作有:美國加州大學的Netra、伯克利大學開發(fā)的Blobworld、斯坦佛大學和賓州大學開發(fā)的SIMPLicity。盡管這些方法更加貼近于用戶查詢的思路,但由于圖像分割的準確性差,因而導致檢索準確率低。上述兩個研究熱點是以圖像為中心的方法,無須考慮用戶的需求。三是利用相關(guān)反饋技術(shù),根據(jù)用戶需求及時調(diào)整系統(tǒng)檢基于內(nèi)容的圈像檢索方法研究和實現(xiàn)索,充分利用特征和相似性度量方法,進而縮小低層特征和高層語義之間的差距。代表性工作有:美國伊利諾斯大學開發(fā)的多媒體分析和檢索系統(tǒng)MARS,Picunter等;四是研究如何從多種渠道獲取圖像語義信息,如何將圖像低層特征與圖像關(guān)鍵詞結(jié)合進行圖像自動標注以提高檢索準確率,如利用機器學習理論Bayesian,SVM,等等。

2.基于內(nèi)容的圖像檢索系統(tǒng)構(gòu)成

基于內(nèi)容的圖像檢索過程[2]為:①預先分析、提取和儲存各圖像視覺的底層特征;②系統(tǒng)根據(jù)用戶提交例圖采用某種方法提取該圖特征向量;③選取相似性比較方法,將該例圖的特征與特征庫中的特征進行比較匹配;④將與查詢特征相似的圖像,按相似度由大至小排列結(jié)果返回給用戶;⑤系統(tǒng)反饋的結(jié)果用戶可以篩選或者從候選結(jié)果中選擇一個示例,經(jīng)過特征調(diào)整后,形成一個新的查詢,直至得到滿意的結(jié)果。

3.基于內(nèi)容的圖像檢索常用的關(guān)鍵技術(shù)

基于內(nèi)容的圖像檢索技術(shù)[3]有很多種,顏色表達的是圖像的全局特征,是圖像的主要視覺性質(zhì),在人們對圖像的印象中,顏色占了很大的比重;紋理也是一種全局特征,它描述了圖像的表面性質(zhì),在檢索粗細和疏密等方面有較大差別的圖像時,利用紋理特征是一種有效的方法;形狀特征更接近于目標的語義特征,具有一定的語義信息,可以幫助用戶避開不相關(guān)的背景或不重要的目標,直接搜索與目標圖像相似的圖像。事實上,基于內(nèi)容的圖像檢索方法需要綜合顏色、紋理和形狀的特征才能獲得較好的效果。

3.1基于顏色特征的檢索

顏色是圖像檢索中最先被采用的特征,主要方法有:①顏色直方圖,②顏色一致性矢量,③顏色相關(guān)圖,④顏色矩,等等。

顏色是圖像的一種重要視覺特征,具有旋轉(zhuǎn)不變性、平移不變性等優(yōu)點,在基于內(nèi)容的圖像檢索(CBlR)中應用廣泛、性能顯著。對此,人們提出了多種顏色特征提取及表示方法。其中,Swain等人提出的顏色直方圖[4]在商用及實驗系統(tǒng)中都得到了廣泛應用。顏色直方圖的比較是最基本方法,但缺乏圖像的空間信息。而CCV方法不僅統(tǒng)計了整幅圖像中各顏色的像素值,還統(tǒng)計了圖像中各顏色最大區(qū)域的像素值,效果較好,但CCV并沒有強調(diào)各顏色最大區(qū)域的形狀及與背景的關(guān)系,于是Zachary等人又考慮了圖像的邊緣信息,提出了CCV—TEV(Threshold Edge Vector)算法[5]。顏色相關(guān)圖法強調(diào)同一顏色在圖像中的空間距離相關(guān)性,其檢索效果比上述幾個方法都要好,但計算量比較大。顏色矩算法主要是采用圖像中各顏色的均值和方差作比較,處理簡單,可用它作為圖像檢索的初檢,為下一步的細檢縮小搜索范圍。

Zadeh提出的模糊集合理論[4],通過隸屬函數(shù)的概念和方法描述來具有模糊性的過渡過程,將模糊集合理論及其衍生方法應用于CBlR具有較強的實用性。可以利用模糊C均值聚類算法(FuzzyC—Means AIgorithm,F(xiàn)CM),對圖像色彩在RGB空間中進行模糊聚類,通過計算每個像素對聚類中心(即代表性顏色)的隸屬度值來構(gòu)造模糊顏色直方圖,從而實現(xiàn)彩色圖像的分類檢索。

目前基于顏色特征的檢索已成為檢索的一個重要手段,并提出了許多改進方法。總體來說,主要分為兩類:全局顏色特征檢索和局部顏色特征檢索。按照全局顏色分布來索引圖像可以通過計算每種顏色的像素個數(shù)并構(gòu)造顏色灰度直方圖來實現(xiàn),這對檢索具有相似總體顏色內(nèi)容的圖像是一個很好的途徑。局部顏色信息是指局部相似的顏色區(qū)域,它考慮了顏色的分類與一些初級的幾何特征。比如smith等提出了顏色集合方法[6]來抽取空間局部顏色信息并提供顏色區(qū)域的有效索引。

3.2基于紋理特征的檢索

紋理是圖像的重要特征之一,通常定義為圖像的某種局部性質(zhì),或是對局部區(qū)域中像素之間關(guān)系的一種度量,其本質(zhì)是刻畫像素的鄰域灰度空間分布規(guī)律。紋理特征描述方法大致可以分為四類:統(tǒng)計法、結(jié)構(gòu)法、模型法、頻譜法。

Haley[7]等人使用Gabor小波模型提取了旋轉(zhuǎn)不變性的紋理特征,該方法具有較高的復雜性。Ojala[8]等人提出了一種具有尺度和旋轉(zhuǎn)不變性的LBP紋理分析方法,但該方法僅利用了紋理圖像的局部特征,沒有考慮到圖像的全局信息。Manthalkar[9]等人采用離散小波包分解的方法得到了一種具有旋轉(zhuǎn)和尺度不變的紋理特征,然而該方法在一定程度上丟失了紋理的方向信息。Pun[10]等人提出了Log-polar方法,具有旋轉(zhuǎn)和尺度不變的特性,但它將尺度變量轉(zhuǎn)化為平移變量進行處理,破壞了信號的頻率。Kourosh[11]提出了一種旋轉(zhuǎn)不變性的多尺度紋理分析方法(RIM),利用Radon變換和小波變換得到了一種新的具有旋轉(zhuǎn)不變的紋理特征,具有較強的抗噪能力,然而該方法不能同時具備平移和尺度不變性。

統(tǒng)計法分析紋理的主要思想是通過圖像中灰度級分布的隨機屬性來描述紋理特征。最簡單的統(tǒng)計法是借助于灰度直方圖的矩來描述紋理。但這種方法沒有利用像素相對位置的空間信息,為了利用這些信息,Haralick[12]等人提出了用共生矩陣來表示紋理特征。該方法研究了紋理的空間灰度級相關(guān)性,構(gòu)造出一個基于圖像像素間方向和距離的共生矩陣,并且從矩陣中提取出反差、能量、嫡、相關(guān)等統(tǒng)計量作為特征量表示紋理特征。Tamura[13]等人基于人類視覺的心理學研究后提出了一些不同的方法來描述紋理特征,給出了幾個不同的描述紋理特征的術(shù)語:粗糙度(coarseness),對比度(contrast),方句度(directionality),線性度(linelikeness),規(guī)則度(regularity),粗略度(roug hness)等。

結(jié)構(gòu)法分析紋理的基本思想是假定紋理模式由紋理基元以一定的有規(guī)律的形式重復排列組合而成,特征提取就變?yōu)榇_定這些基元并定量分析它們的排列規(guī)則。Carlucci[14]曾提出一個使用直線段、開放多邊形和封閉多邊形作為紋理基元的紋理模型,其排列規(guī)則由一種圖狀語法結(jié)構(gòu)定義。LuandFu給過一種樹形語法結(jié)構(gòu)表示紋理,他們將紋理按照9x9的窗口進行分割,每個分解單元的空間結(jié)構(gòu)表示為一棵樹。因為實際的紋理大都是無規(guī)則的,因此結(jié)構(gòu)法受到很大限制。

3.3基于形狀特征的檢索

形狀是刻畫物體的本質(zhì)特征之一,也是最難提取和描述的圖像特征之一[15]。在人的視覺感知、識別和理解能力中,形狀是一個重要的參數(shù)。形狀特征具有不受目標顏色、紋理、背景變化影響的特點,它的重要原則是對位移、旋轉(zhuǎn)、尺度變換的不變性。但不同于顏色和紋理等底層特征,形狀特征的表達必須以對圖像中物體或區(qū)域的劃分為基礎(chǔ),形狀特征的提取必須以圖像分割作為前提。在二維圖像空間中,形狀通常被認為是一條封閉的輪廓曲線所包圍的區(qū)域。要想進行形狀匹配,首先需要找到一種合適的描述方式。形狀特征通常有兩種表示方法:一種是基于邊界輪廓特征的表示方法,該特征的描述主要有:直線段描述、樣條擬合曲線、傅立葉描述、小波輪廓描述,等等,其中最典型的方法是傅立葉描述,另一種是基于區(qū)域特征的表示方法,如不變矩。前者只用到物體的外邊界,而后者則關(guān)系到整個形狀區(qū)域。無論提取哪一類形狀特征,都必須分割圖像。

3.4基于組合的多特征的檢索

圖像內(nèi)容具有各種視覺特征及視覺對象的空間關(guān)系等,而人在觀察圖像時也不只是觀察一個特征,而是會同時看到圖像的顏色、形狀等多個組合特征。正如前面所提到的,不同的特征有不同的矢量表示方法,即使是同一特征,如顏色特征也有直方圖特征、顏色矩、顏色集等多種特征表示方法。在用單一特征進行檢索時,可能出現(xiàn)非常相似的兩幅圖,但在語義上相差很大。而采用組合特征檢索法時可以在顏色、紋理、形狀等幾種查詢特征中選擇兩種或兩種以上的特征進行組合檢索?;诙嗵卣鹘M合檢索便于用戶更靈活、更有效地表達檢索要求,提高檢索的準確率。該檢索方法可分兩種情況進行:一種是異步組合檢索,另一種是同步組合檢索[16]。

3.5基于語義特征的檢索

基于語義的圖像檢索需要解決兩個方面的問題:一是必須提供高層語義的描述方式;二是必須有將低層圖像視覺特征射到高層語義的方法。圖像的視覺特征信息和用戶視覺數(shù)據(jù)理解的不一致性,使得視覺底層特征和高層語義之間存在語義鴻溝。針對這一問題,許多學者進行了研究,Amoid將圖像的知識作用域分為狹義域和廣義域兩類,Hermes[17]等人使用了相似性技術(shù)直接從戶外圖像中推導場景的自然語言描述,Zhuang[18]等人提出了模糊布爾模型、概率布爾模型。這些方法在不同的場合分別顯示了它們在語義表達方面的能力。

基于語義的圖像檢索方法,它允許用戶在檢索過程中用主觀感覺來描述圖像,這對于檢索者來說,可以提高檢索效率和準確性,但是“語義鴻溝”的存在,使得基于語義的圖像檢索仍面臨著很大挑戰(zhàn)。

4.基于內(nèi)容的圖像檢索技術(shù)的展望[19]

目前,許多研究關(guān)注的是圖像的特征提取及檢索匹配算法,雖然方法很多,但沒有一個統(tǒng)一的模型,需要易用的能對原始特征進行抽取的自動工具和獲取邏輯特征的半自動工具用于開發(fā)大型、實用的多媒體信息檢索系統(tǒng)。另外,還需要新的特征表示方法,如基于分形或小波的特征數(shù)學表示。目前使用的媒體,其格式和編碼沒有考慮到內(nèi)容,只是針對顏色、像素、樣值來編碼。因此,從這些數(shù)據(jù)中抽取內(nèi)容特征非常困難。在基于內(nèi)容的檢索中,由于檢索算法比較多,需要對各種算法的檢索結(jié)果進行評價,以比較其優(yōu)劣。檢索算法的評價方法能夠在相同的條件下找出最佳算法,使不同的檢索方法能更好地改進和提高,以使基于內(nèi)容的檢索方法朝更好的方向發(fā)展。

圖像檢索技術(shù)的研究是一個涉及多個領(lǐng)域的綜合性課題,是對計算機視覺技術(shù)、數(shù)據(jù)庫檢索和管理技術(shù)、用戶界面技術(shù)、數(shù)學建模技術(shù)、圖像分析處理技術(shù)、計算機網(wǎng)絡技術(shù)及人類心理學等各個方面成果的融合,只有這樣,才能建立一個高效、快速、實用的圖像檢索系統(tǒng)[19]。

本文是對基于內(nèi)容的圖像檢索中的關(guān)鍵技術(shù)進行了綜述,由此可見:基于內(nèi)容的圖像檢索技術(shù)是一種綜合的集成技術(shù),基于內(nèi)容的圖像檢索是涉及多個領(lǐng)域的綜合性交叉學科,隨著信息技術(shù)的不斷發(fā)展,基于內(nèi)容的圖像檢索具有廣泛的發(fā)展前景,但CBIR在某些方面仍需改進,顏色特征丟失了物體的空間信息,紋理特征不能充分地代表圖像,不同的視覺可能獲得不同的形狀特征等。而如何實現(xiàn)準確的特征提取將是今后研究的一個方向,在多特征綜合檢索中如何實現(xiàn)算法匹配結(jié)果的歸一化有待于進一步研究。此外,在檢索過程中如何充分利用用戶的信息反饋也將是一個重要的發(fā)展方向。

參考文獻:

[1]史婷婷.基于內(nèi)容的圖像檢索方法研究與實現(xiàn)[D].華南師范大學,2007,5:99-111.

[2]戴磊.基于內(nèi)容的圖像檢索關(guān)鍵技術(shù)的改進策略[J].徐州工程學院信電學院學報,2010,11:121-139.

[3]陳桂蘭,曲天偉,陳小丹.基于內(nèi)容的圖像檢索技術(shù)[J].黑龍江科技學院計算機與信息工程學院學報,2009,2:222-301.

[4]解洪勝,王連國,孫玉芳.模糊顏色直方圖在基于內(nèi)容的圖像檢索中的應用研究[J].計算機系統(tǒng)應用,2009,5:139-141.

[5]黃祥林,沈蘭蓀.基于內(nèi)容的圖像檢索技術(shù)研究[J].電子學報,2002,7:234-318.

[6]李心玲,李春杰.基于內(nèi)容的圖像檢索技術(shù)[D].渤海大學信息科學與工程學院,2004,11:314-327.

[7]Haley G M,Manjunath B S.Rotation-invariant Texture Classification Using a Complete Space-frequency Model[J].IEEE Transon Image Processing,1999,8(2):255-269.

[8] Ojala T,Pietikainen M.Multiresolution Gray-scale and Rotation Invariant Texture Classification with Local Binary Patterns[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.

[9]Manthalkar R,Biswas P K,Chatterji B N.Rotation and Scale Invariant Texture Features Using Discrete Wavelet Packet Transform[J].Pattern Recognition Letter,2003,24(14):2455-2642.

[10]Pun C M,Lee M C.Log-polar Wavelet Energy Signatures for Rotation and Scale Invariant Texture Classification[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2003,25(5):590-603.

[11] Kourosh J K,Hamid S Z.Rotation-invariant Multiresolution Texture Analysis Using Radon and Wavelet Transform[J].IEEE Trans on Image Process,2005,14(6):783-794.

[12]安志勇,王曉華,趙珊,周利華.一種圖像紋理特征檢索算法[J].西安電子科技大學學報(自然科學版),2007,6:409-410.

[13]孟繁杰.基于內(nèi)容的圖像檢索技術(shù)研究[D].西安電子科技大學,2004,1:103-110.

[14]周筱連.基于內(nèi)容的圖像檢索[J].安徽電子信息職業(yè)技術(shù)學院學報,2008,7:34-45.

[15]于海珠,司瑾.基于內(nèi)容的圖像檢索技術(shù)[J].空軍航空大學電腦知識與技術(shù),2010,10:2-5.

[16]姚弘.基于內(nèi)容的圖像檢索技術(shù)研究[J].南通職業(yè)大學電子工程系學報,2010,8:88-96.

[17]高勇英,章毓晉.基于目標語義特征的圖像檢索系統(tǒng)[J].電子與信息學報,2003,25(10):1341-1348.

[18]孟祥娜,秦玉平,王春立.基于內(nèi)容的圖像檢索技術(shù)綜述[J].渤海大學學報,2009,1:84-85.

[19]童振興.基于內(nèi)容的圖像檢索技術(shù)綜述與展望[J].計算機光盤軟件與應用,2010,6:82-88.

大庆市| 壶关县| 崇文区| 广西| 合山市| 嘉峪关市| 西丰县| 县级市| 佳木斯市| 马山县| 麻江县| 宽城| 博野县| 藁城市| 崇文区| 松桃| 乌苏市| 色达县| 竹溪县| 昌乐县| 广灵县| 丰都县| 慈溪市| 天全县| 土默特右旗| 顺平县| 临沭县| 吉隆县| 清水河县| 当雄县| 阳春市| 黄骅市| 鹰潭市| 儋州市| 绥阳县| 宁蒗| 阜平县| 乌海市| 天峻县| 怀仁县| 买车|