曾倩倩 張婷婷
摘要 多媒體信息已經(jīng)成為現(xiàn)代人們生活中不可或缺的一個部分,網(wǎng)絡技術的介入功能也在不斷地發(fā)展當中,網(wǎng)絡上發(fā)布的信息也由單一的文本逐漸發(fā)展為由圖像、視頻、音頻組成的綜合信息。而且,隨著自媒體時代的到來,各種移動終端的普及使得網(wǎng)絡信息的增長呈現(xiàn)出一種指數(shù)型的增長。因此,怎么能在浩如煙海的數(shù)據(jù)庫里達到一個快速、高效的檢索圖像已經(jīng)越來越被人們所關注,也是我們現(xiàn)在需要著重研究的一個課題。本文主要研究在圖像檢索中圖像的特征表示模型以及多信息融合的問題。
【關鍵詞】圖像檢索 特征表示模型 多信息融合
1 圖像檢索的發(fā)展過程
在傳統(tǒng)的圖像管理方式來說,一般是以文本系統(tǒng)為主的一種檢索。要是用戶想要查詢一副圖像的時候,需要一個一個文件進行瀏覽才能夠很好的找到所需要的圖像。但是隨著圖像文件數(shù)量的大幅度增加,傳統(tǒng)的查找方式顯得太低效,因為以文件儲存的方式對圖像的使用和操作相對簡單,這種以文件管理圖像的方式一直到現(xiàn)在依然在使用。
在上世紀七十年代的時候,數(shù)據(jù)庫的專家就已經(jīng)著手研究怎么才能對圖像數(shù)據(jù)以更好的方式更搞笑的方式管理,那個時候,主要方法是對一些圖像進行一些標注或者建立一些關鍵詞來進行更有效的檢索,然后再將圖像的儲存路徑和圖像上面標注的關鍵詞建立一種聯(lián)系。八十年代,隨著改革開放的進行,多媒體技術開始發(fā)展,在圖像的獲取、創(chuàng)作及其儲存技術都得到了相當大的發(fā)展,但是對于圖像信息的管理依然沒有更多的重視。到了九十年代,計算機視覺技術和www的發(fā)展開始壯大起來,網(wǎng)絡上的多媒體信息的產(chǎn)生、創(chuàng)作、儲存、傳輸以及訪問量都呈現(xiàn)一個指數(shù)上漲的趨勢,大部分都是圖像信息。因此,只是簡單的對圖像加入一些標注和關鍵詞已經(jīng)遠遠不夠了,為了突破傳統(tǒng)檢索的很多弊端,很多專家開始把研究方向改為在圖像中包含的信息作為圖像索引。也就是基于圖像內(nèi)容的圖像檢索方法。
因此,盡管基于內(nèi)容的圖像檢索在近年來獲得了相當大的發(fā)展,但是依然有著很多的關鍵性的問題遲遲得不到很好的解決,限制著圖像檢索的性能。
2 基于文本的圖像檢索的問題
在前面已經(jīng)提到,早期的時候,圖像檢索大多數(shù)都是以關鍵詞和自由文本的方式來進行檢索,在這樣的方式下,文本標注的質(zhì)量以及準確度直接影響著后續(xù)圖像的檢索的高效性。除此之外,因為圖像的涉及范圍比較廣泛,現(xiàn)有的技術根本達不到對圖像自動生成文本描述,因此大多數(shù)的TBIR系統(tǒng)依然采用的是人工標注,這樣的技術主要存在著以下的問題:
(1)工作量大。隨著自媒體時代的發(fā)展,每個人都是一個圖片的形成終端,因此網(wǎng)絡上圖片的數(shù)量較之以前增長迅速,用以前人工標注的方式對每隔圖片進行標注相應的文本幾乎成了一項不可能完成的工作,這樣的繁瑣以及耗時,無疑成為了現(xiàn)在的最主要的問題,但是沒有進行文本標注的圖片是不能被檢索出來,這就使得現(xiàn)有的技術形成了一個相當大的矛盾。
(2)不同的人對一幅圖像有著完全不同的理解,即使是同一個人,換一個工作環(huán)境或者心態(tài),也會造成對一幅圖像理解的差異,這就使得在文本標注上的個人主觀性,與工作人員所經(jīng)歷的事情以及當時環(huán)境有著很大的影響,不利于后續(xù)的圖像檢索的進行。
(3)圖像所包含的信息是全方位的,所包含的信息也是巨大的,然而文本標注畢竟有限,不能起到一個很好的標注作用,不能起到檢索的關鍵作用。
(4)因為圖片的復雜性以及世界性,也就伴隨著語言上的差異,世界各地的人用不同的語言上傳的圖像可能不能被其他語種的人很好的檢索,這就給索引的建立以及后續(xù)文本的標注和匹配造成了很大的障礙。
3 基于內(nèi)容圖像檢索的研究現(xiàn)狀
在圖像檢索技術發(fā)展了這么多年的基礎上,基于內(nèi)容的圖像檢索技術已經(jīng)去的了不小的進步,各種新方法層出不窮。有一些著名的學術期刊經(jīng)常會發(fā)表文章介紹圖像技術的發(fā)展,而且這些新技術在應用方面已經(jīng)去的了很有效的成果,也得到了社會上的廣泛關注和支持。很多大學現(xiàn)在都在開展關于這方面的研究,取得了很大的效果。
盡管如此,基于內(nèi)容圖像的檢索依然有較多的關鍵問題需要我們大力關注?,F(xiàn)不說其他各種特征提取的方法,單單從基于內(nèi)容的圖像檢索的發(fā)展方向上來說,本來我們是希望根據(jù)圖像的內(nèi)容來判定圖像之間的相似的程度來實現(xiàn)我們最開始想要的圖像檢索,這里面我們所說的內(nèi)容是指人們對圖像的普遍理解,而不只是圖像本身所包含的視覺特征,在實際情況中,傳統(tǒng)意義上的視覺特征并不能很好的表達圖像索要表達出來的東西。所以,這些年來,很多專家開始研究對高層的基于語義的圖像檢索技術。一幅圖像所包含的最高層語義應該是它表現(xiàn)出來的情感特征以及感性的信息,這就隨之發(fā)展出來了基于感性內(nèi)容的圖像檢索技術?,F(xiàn)在發(fā)展的方向就是多媒體的感性信息處理,這就又給人們對圖像信息的處理提出了一個新的挑戰(zhàn)領域。
3.1 基于內(nèi)容的圖像檢索的特點
3.1.1 從圖像的內(nèi)容中提取信息線索
基于圖像所包含內(nèi)容的檢索突破了以前基于關鍵詞以及標注檢索的局限性,現(xiàn)在的直接對圖像進行分析處理并且提取其特征的方式,讓我們在檢索圖像中更好的接近我們想要找到的圖像。
3.1.2 提取圖像特征的方法多種多樣
我們現(xiàn)在對圖像的特征提取可以是顏色、形狀、紋理、輪廓、空間結(jié)構(gòu)等各種特征,大大豐富了傳統(tǒng)方式下對圖像提取的準確度,讓人們可以能在有限的時間內(nèi)更高效的提取出圖像的特征,找到自己想要的圖像。
3.1.3 人機交互進行檢索
現(xiàn)在的圖像多種多樣,紛繁雜亂,使得人們對于大量的圖像不能進行一個很好的辨識,而如果計算機可以把這些特征都已經(jīng)分析完整,就可以讓人們在檢索圖像中更快更精確的餓著到自己想要的圖像,大大提高圖像的檢索效率。因此,在使用基于內(nèi)容的圖像檢索系統(tǒng)時,人與計算機是在互相配合的情況下進行檢索的,這就是人機交互作用的優(yōu)點所在。
3.1.4 基于內(nèi)容的圖像檢索僅僅是近似匹配
在我們檢索的過程當中,我們找到的圖像知識一種相似度交稿的近似匹配,我們還需要一步一步的逐步求精,不斷的縮小圖像的范圍,才能更好的找到自己想要找的圖像。
3.2 關于CBIR的研究發(fā)展的方向
3.2.1 特征提取
一副圖像的主要特征可以包括兩個方面,一方面是圖像的低層特征,另一方面是圖像的語義特征。底層特征主要包括的內(nèi)容是圖像的顏色、背景、形狀、輪廓、紋理以及空間結(jié)構(gòu)等基礎的特征,這些基本特征完全可以通過計算機自動進行或者是人機交互的方式完成。圖像的語義特征指的是對圖像內(nèi)容的抽象特征,是一種定性特征。語義特征的提取不能直視依靠計算機完成,因為計算進不能進行人的思維的闡述,所以,語義特征的提取一般是通過人工或者是人機交互的方式來完成。在CBIR進行檢索的時候,可以在不用的應用領域做出不同的特征或者特征組合進行檢索,比如,在衛(wèi)星系統(tǒng)當中,對于圖像的紋理特征提取是最為重要的,而在商標的配準系統(tǒng)中,商標的形狀以及顏色構(gòu)成特征是最為重要的。在圖去玩這些主要特征之后,圖像檢索的主要任務就變成衡量圖像之間的相似度,然后完成整個圖像的檢索。
3.2.2 有效檢索
怎么樣才能有效的完成一副圖像的檢索,首先解決的就是有效儲存的問題以及選取合適的相似度的問題。對于一些圖像的特征,他們之間有可能完全沒有任何的順序存在,也可能具有多重的相關特征,因此,在圖像的檢索問題上,需要選擇一種合適的數(shù)據(jù)結(jié)構(gòu)模型使得圖像檢索變得高效、精準。目前,我們在圖像檢索中常用的數(shù)據(jù)結(jié)構(gòu)模型有:k-d樹,R-樹及變種等等。在這種數(shù)據(jù)結(jié)構(gòu)模型中,每一種都有著自己的優(yōu)點及其缺點,因此我們在圖像檢索的過程中,需要首先考慮我們要提取的圖像的特征。與此同時,合理的相似度量的方法也是進行有效圖像檢索的關鍵所在,現(xiàn)在常用的相似度量方式主要有以下幾種:歐氏距離、城區(qū)距離、二次式距離、直方圖交等。不同的相似肚量方法也有著自己的優(yōu)缺點,有自己的使用范圍,所以在圖像檢索中的選擇也需要做出一定的選擇才能達到圖像檢索的有效性。
3.2.3 用戶接口
圖像檢索的最后是要交付于用戶的,所以在圖像的檢索系統(tǒng)中,用戶接口也是一個相當重要的一環(huán),他起到了一個把用戶和檢索系統(tǒng)連接起來的作用。用戶可以通過這個接口選一種合適自己檢索的查詢機制來檢索結(jié)果。
4 小結(jié)
本文結(jié)合了這么多年類的圖像檢索的發(fā)展經(jīng)驗,對圖像檢索現(xiàn)有的問題提出了一些自己的看法,關于圖像檢索的發(fā)展和現(xiàn)在的檢索所需要完善的地方做出了一些分析。但是由于本人的學識及其閱歷有限,不能夠分析的面面俱到,希望能夠以此文引起廣大學者以及有關專家的關注。
參考文獻
[1]張貝貝,基于內(nèi)容的圖像檢索若干關鍵問題研究[D].遼寧師范大學,2013.
[2]雷亮.互聯(lián)網(wǎng)環(huán)境下圖像檢索若干問題研究[D].重慶大學,2011.
[3]李勇,基于內(nèi)容的圖像檢索技術研究[D].吉林大學,2009.
[4]王禹,基于內(nèi)容的圖像檢索技術研究[D].中國人民解放軍信息工程大學,2003.
[5]唐昌華,一種基于內(nèi)容的圖像檢索方法的研究[D],東北師范大學,2007.