韓立華, 王曉芬, 王玉梅
(1.石家莊鐵道大學(xué) 繼續(xù)教育學(xué)院,河北 石家莊 050043;2.石家莊鐵道大學(xué) 建筑與藝術(shù)學(xué)院,河北 石家莊 050043;3.石家莊鐵道大學(xué) 圖書館,河北 石家莊 050043)
我國(guó)民間剪紙藝術(shù)是世界級(jí)非物質(zhì)文化遺產(chǎn)之一,為了更好地對(duì)其進(jìn)行數(shù)字化保護(hù)與傳承[1],構(gòu)建了基于Web的河北剪紙藝術(shù)多媒體交互體驗(yàn)平臺(tái),對(duì)散落民間的剪紙作品進(jìn)行搜集、分類整理、數(shù)字化、矢量化、建庫(kù)、檢索以及展示等,目前已完成10大類75小類約8 000余幅剪紙作品的數(shù)字化和入庫(kù)。面對(duì)日益龐大的剪紙數(shù)據(jù)庫(kù),為使用戶快速找到自己感興趣的作品,研究和開發(fā)高效率、人性化的剪紙圖像檢索系統(tǒng)勢(shì)在必行。
圖像檢索是指根據(jù)用戶提交的查詢請(qǐng)求,從圖像數(shù)據(jù)庫(kù)中提取與查詢相關(guān)的一幅圖像或圖像集合,目前圖像檢索技術(shù)主要有兩種[2]:基于文本的圖像檢索 TBIR(Text Based Image Retrieval)和基于內(nèi)容的圖像檢索CBIR(Content Based Image Retrieval)。
基于文本的圖像檢索研究開始于20世紀(jì)70年代末,它是在對(duì)圖像進(jìn)行文本標(biāo)注的基礎(chǔ)上,對(duì)圖像進(jìn)行基于關(guān)鍵字的檢索[3]。其基本步驟是先對(duì)圖像文件建立相應(yīng)的關(guān)鍵詞或描述字段,通過對(duì)圖像的名稱、編號(hào)、內(nèi)容描述、圖像大小、來源、作者、創(chuàng)建時(shí)間、存儲(chǔ)地點(diǎn)等關(guān)鍵性的信息采用自動(dòng)標(biāo)引或進(jìn)行人工注釋,進(jìn)行圖像的文本特征抽取,建立圖像索引數(shù)據(jù)庫(kù),然后按全文數(shù)據(jù)庫(kù)管理,采用全文數(shù)據(jù)庫(kù)檢索方法。該方法實(shí)質(zhì)是把圖像檢索轉(zhuǎn)換為對(duì)與該圖像對(duì)應(yīng)的文本檢索。
TBIR技術(shù)中最關(guān)鍵是索引數(shù)據(jù)庫(kù)的建立,建立索引數(shù)據(jù)庫(kù)首先需要提取圖像的有關(guān)信息,圖像的文件信息可以自動(dòng)識(shí)別與提取,如圖像格式、大小、創(chuàng)建時(shí)間等,但圖像內(nèi)容信息的提取不太容易,一般有兩種方法:人工輸入與基于上下文環(huán)境的自動(dòng)識(shí)別。人工輸入方式建立索引數(shù)據(jù)庫(kù)與早期文本的人工標(biāo)引和分類是相同的,它先由專業(yè)人員負(fù)責(zé)選擇圖像,然后對(duì)每幅選定的圖像內(nèi)容進(jìn)行描述,給出關(guān)鍵詞,逐個(gè)圖像進(jìn)行審核和標(biāo)引,它的查準(zhǔn)率是相當(dāng)高的,但它的查全率較受限制,其檢索范圍僅限于人工標(biāo)注完成的部分?;谏舷挛沫h(huán)境的自動(dòng)識(shí)別是根據(jù)圖像所處的上下文Web環(huán)境來判斷圖像主題內(nèi)容,目前對(duì)Web文檔的主題提取算法不少,如著名的PageRank算法、HITS算法[4]等,結(jié)合這一成熟技術(shù)可以簡(jiǎn)化圖像主題人工標(biāo)引的消耗,百度、谷歌的大部分圖像庫(kù)就用這種方式建立的。在本課題的研究中,部分典型代表性剪紙圖像采用了人工標(biāo)注的方式,其他圖像可采用這種自動(dòng)識(shí)別方式進(jìn)行全站范圍檢索。
建立TBIR索引數(shù)據(jù)庫(kù)后,圖像檢索系統(tǒng)的實(shí)現(xiàn)就變得較為簡(jiǎn)單,考慮任意多個(gè)條件的“與”和“非”隨意組合,通過SQL語(yǔ)句的多項(xiàng)連接,實(shí)現(xiàn)了如圖1所示的TBIR系統(tǒng)。
圖1 基于TBIR的剪紙藝術(shù)檢索平臺(tái)
TBIR的優(yōu)點(diǎn)主要有兩個(gè):一是技術(shù)相對(duì)成熟,易于實(shí)現(xiàn);二是查準(zhǔn)率比較高,能滿足大多數(shù)查詢需求。但同時(shí)基于文本的檢索存在著兩大困難,特別是當(dāng)圖像數(shù)量非常大時(shí)更為突出:其一,內(nèi)容豐富的圖像特征難以用文本描述全面表達(dá),如剪紙圖像中的紋樣形狀、多彩顏色、特殊紋理等,而且由于圖像內(nèi)容的豐富性加上用戶的興趣點(diǎn)和理解的不同,導(dǎo)致內(nèi)容描述的建立具有一定的主觀性,由此帶來內(nèi)容標(biāo)注上的歧義;其二,文本描述難以實(shí)現(xiàn)基于圖像視覺特征的相似性檢索,如查詢顏色相近或形狀類似的剪紙圖樣。此外,文本描述一般需要專業(yè)分析和手工輸入,效率較低,由于數(shù)據(jù)規(guī)模不斷膨脹,人工標(biāo)注的開銷越來越大,難以滿足大容量數(shù)據(jù)庫(kù)的要求。
基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR),是指利用圖像本身的特征(顏色、紋理、形狀等)作為索引,克服了上述基于人工標(biāo)注的檢索系統(tǒng)缺點(diǎn)。典型的CBIR系統(tǒng)包括QBIC、VisualSeek、WebSeek、ImgRetr以及百度識(shí)圖等,這些系統(tǒng)利用從圖像中提取的數(shù)字特征(也稱視覺特征)來比較圖像的相似性[5]。通過計(jì)算機(jī)自動(dòng)提取圖像庫(kù)和示例圖像的顏色、形狀、紋理、結(jié)構(gòu)、位置等特征信息進(jìn)行比對(duì),找出與用戶提交的圖像在某方面相類似的結(jié)果。在剪紙多媒體交互平臺(tái)中,例如查找一幅圖是否已經(jīng)加入數(shù)據(jù)庫(kù),查找相似顏色的圖像,查找具有某些典型紋理的圖像以及查找具有某些特定紋樣或形狀的剪紙圖像等需求都可以借助于CBIR來實(shí)現(xiàn)。
基于內(nèi)容的圖像檢索系統(tǒng)一般由輸入模塊、數(shù)據(jù)庫(kù)、查詢模塊和檢索模塊等組成,其結(jié)構(gòu)與各部分的功能如圖2所示。
圖2 CBIR系統(tǒng)架構(gòu)
CBIR的關(guān)鍵技術(shù)包括顏色、紋理及形狀等底層特征的提取,特征相似度測(cè)量等。
1.顏色特征提取
顏色特征由于其計(jì)算簡(jiǎn)單、較好的魯棒性以及對(duì)幾何變換的不變性成為機(jī)器可自動(dòng)提取的圖像內(nèi)容中最重要的特征[6]。用于檢索的圖像特征在顏色方面有直方圖法、累積直方圖法、分塊直方圖法、顏色聚類法、主色調(diào)法、顏色矩和顏色集等,本系統(tǒng)采用了基于顏色—空間信息的圖像分塊直方圖特征提取方法,該方法首先選用符合人類視覺特性的色彩空間模型HSV,并對(duì)HSV空間進(jìn)行非等間隔量化得到72種代表顏色,然后構(gòu)造一維特征矢量。按照量化級(jí),把3個(gè)顏色分量合成為一維特征矢量G=9 H+3S+V,G為72級(jí)的一維直方圖。然后對(duì)圖像空間按照矩形重疊分塊策略進(jìn)行劃分,在HSV顏色空間中,統(tǒng)計(jì)各個(gè)分塊區(qū)域內(nèi)的72維顏色直方圖,得到一個(gè)5×72的二維顏色—空間信息直方圖。最后計(jì)算出各分塊的權(quán)值wi,配合得到的5×72二維顏色—空間直方圖即可作為提取的特征進(jìn)行檢索。
2.紋理特征提取
紋理特征是一種不依賴于顏色或亮度的反映圖像中同質(zhì)現(xiàn)象的視覺特征,它是所有物體表面共有的內(nèi)在特征。紋理特征主要包括粗糙度、方向性、對(duì)比度以及規(guī)則性。在紋理特征檢索方面一般有統(tǒng)計(jì)分析法、頻譜分析法、結(jié)構(gòu)分析法等,本文主要采用Gabor小波分析的方法[7]來提取圖像的紋理特征。對(duì)一幅給定的P×Q大小的圖像I(x,y),其離散Gabor小波變換為:
式中,W 稱為級(jí)向中心頻率;ψ(x,y)是經(jīng)過復(fù)數(shù)正弦函數(shù)調(diào)制的Gaussian函數(shù)。對(duì)圖像從不同方向和尺度進(jìn)行Gabor變換后,得到一系列系數(shù):
由變化系數(shù)計(jì)算出的均值μmn和標(biāo)準(zhǔn)方差σmn可以作為圖像的紋理特征:
采用6個(gè)方向,5個(gè)尺度的Gabor濾波器,得到特征向量為
3.形狀特征提取
形狀是圖像的重要視覺特征之一。目前,基于形狀特征的檢索主要是圍繞著從形狀的輪廓特征和形狀的區(qū)域特征建立圖像索引,關(guān)于前者的描述主要有:直線段描述、樣條擬合曲線、傅立葉描述子以及高斯參數(shù)曲線等;對(duì)于后者主要有形狀的無(wú)關(guān)矩、區(qū)域的面積、形狀的縱橫比等。本課題采取基于不變矩的形狀特征提取方法[8],該方法通過Canny算子對(duì)圖像進(jìn)行邊緣提取,計(jì)算用二值圖像表示的物體R形狀的p+q階中心矩μpq及圖像的歸一化中心矩ηpq,將這些二階和三階中心矩進(jìn)行組合得到φ1~φ7個(gè)對(duì)平移、旋轉(zhuǎn)和尺度無(wú)關(guān)性的不變矩,并將其作為描述形狀的特征向量。
4.相似度測(cè)量
常用的相似度度量方法是向量空間模型,即將視覺特征看作是向量空間中的點(diǎn),通過計(jì)算兩個(gè)點(diǎn)之間的接近程度來衡量圖像特征間的相似度。本系統(tǒng)采用Minkowski距離及其加權(quán)變形的二次距離來計(jì)算特征之間的相似度,在一個(gè)d維的特征空間中,給定查詢q= (q1,q2,…,qd)T和圖像i的特 征xi= (xi1,xi2,…,xid)T,加權(quán)的Minkowski距離為:
二次距離為
其中 w = (w1,w2,…,wd)T為權(quán)值向量;M=[mij]為一實(shí)對(duì)稱矩陣。
根據(jù)以上關(guān)鍵技術(shù),分別采用顏色特征、紋理特征以及形狀特征對(duì)剪紙圖庫(kù)進(jìn)行基于圖像內(nèi)容的檢索,建立了如圖3所示的CBIR剪紙圖像檢索模型系統(tǒng)。以“顏色特征選擇”為例,當(dāng)用戶選取了一副本地圖片文件后,系統(tǒng)自動(dòng)提取其直方圖,判斷是一副紅色的剪紙圖像,則根據(jù)特征向量從特征庫(kù)中查找主色調(diào)為紅色的圖片,并給出結(jié)果。
圖3 基于CBIR的剪紙藝術(shù)檢索測(cè)試平臺(tái)
CBIR的優(yōu)點(diǎn)主要有四個(gè):一是直接從圖像內(nèi)容中提取特征線索,無(wú)需通過圖像的相關(guān)文本注釋;二是特征提取和索引建立可由計(jì)算機(jī)自動(dòng)實(shí)現(xiàn),大大提高了檢索效率;三是具有較強(qiáng)的交互性,即用戶能夠參與檢索過程,評(píng)估和改進(jìn)檢索結(jié)果;其四,具有一定的客觀性,其檢索結(jié)果能突破關(guān)鍵詞主觀性標(biāo)注的限制?;趫D像視覺特征的CBIR系統(tǒng)的主要缺點(diǎn)是算法復(fù)雜,實(shí)現(xiàn)成本高,難以建立從底層特征到高層語(yǔ)義的對(duì)應(yīng)關(guān)系。
TBIR與CBIR各有優(yōu)勢(shì)和不足,表1在描述方式、技術(shù)實(shí)現(xiàn)、查準(zhǔn)率、交互性等方面對(duì)比了兩種檢索技術(shù)。
表1 TBIR與CBIR的比較
TBIR發(fā)展較早,技術(shù)成熟,應(yīng)用廣泛,而且符合人們熟悉的檢索習(xí)慣,實(shí)現(xiàn)簡(jiǎn)單,因此仍然是現(xiàn)在大多數(shù)系統(tǒng)的主要檢索方式。但由于圖像在手工標(biāo)注時(shí)有太多主觀性,缺乏統(tǒng)一標(biāo)準(zhǔn),費(fèi)時(shí)費(fèi)力。與之相反,CBIR主要利用可視化特征來標(biāo)引圖像,具有一定的客觀性,而且可以利用相關(guān)反饋指導(dǎo)用戶逐步逼近真實(shí)檢索意愿,但是CBIR實(shí)現(xiàn)算法較為復(fù)雜,難以建立從底層圖像特征到高層語(yǔ)義的聯(lián)系。
從以上分析可知CBIR和TBIR各自有優(yōu)缺點(diǎn),如果能將二者結(jié)合起來取長(zhǎng)補(bǔ)短,把高層文字描述和低層圖像特征組合利用,圖像檢索系統(tǒng)的性能將更加優(yōu)化,功能亦更人性化。TBIR和CBIR的結(jié)合可以有兩種情形:
(1)簡(jiǎn)單組合。即檢索系統(tǒng)同時(shí)具備TBIR和CBIR的功能,例如用戶通過關(guān)鍵詞開始一個(gè)檢索,而返回結(jié)果后再選擇可以作為查詢樣圖的圖像進(jìn)行基于內(nèi)容特征的檢索,然后由用戶相關(guān)反饋篩選出符合意愿的結(jié)果;或者用戶先進(jìn)行圖像內(nèi)容的檢索,在檢索結(jié)果中可以利用關(guān)鍵詞再縮小范圍,逐步找出符合的圖像。這種簡(jiǎn)單組合方式是對(duì)檢索結(jié)果的篩選處理,雖然能彌補(bǔ)各自的不足,但仍然需要繁重的手工標(biāo)注工作為其先期基礎(chǔ)。
(2)自動(dòng)語(yǔ)義標(biāo)注。早期的CBIR系統(tǒng)由于僅注重依靠圖像低層特征進(jìn)行檢索,無(wú)法解決低層特征與高層語(yǔ)義之間的“語(yǔ)義鴻溝”問題,因此人們的研究重點(diǎn)轉(zhuǎn)向了基于自動(dòng)語(yǔ)義標(biāo)注的圖像檢索[10],它也是TBIR與CBIR的結(jié)合,只不過是從圖像特征描述上采用了更為智能的自動(dòng)標(biāo)注語(yǔ)義技術(shù),既避免了人工標(biāo)注的效率低下、主觀性強(qiáng)的缺陷,同時(shí)能通過對(duì)圖像視覺特征的分析來提取高層語(yǔ)義用于表示圖像的含義,一定程度上能夠解決“語(yǔ)義鴻溝”問題,是目前較為理想的圖像檢索技術(shù)。自動(dòng)語(yǔ)義標(biāo)注通過視覺特征提取、圖像分割、圖像識(shí)別、對(duì)象空間關(guān)系分析等步驟建立語(yǔ)義自動(dòng)標(biāo)注數(shù)據(jù)庫(kù)[11],結(jié)合人工輔助標(biāo)注,形成圖像的綜合語(yǔ)義描述,進(jìn)而可以實(shí)現(xiàn)基于文本和內(nèi)容的圖像檢索。語(yǔ)義提取的過程如圖4所示。
圖4 圖像自動(dòng)語(yǔ)義提取過程
TBIR圖像檢索技術(shù)已經(jīng)在各類大中小型管理系統(tǒng)中廣泛應(yīng)用,CBIR圖像檢索技術(shù)目前流行的算法比較多,但成熟的商業(yè)化應(yīng)用并不多見,許多算法還僅停留在實(shí)驗(yàn)和改進(jìn)階段?;趦烧吒髯缘膬?yōu)缺點(diǎn),將兩者結(jié)合的檢索技術(shù)是今后研究和應(yīng)用的主流方向。本文在傳統(tǒng)TBIR的技術(shù)基礎(chǔ)之上研究并引入了CBIR技術(shù),在剪紙藝術(shù)交互平臺(tái)中對(duì)兩者均進(jìn)行了實(shí)現(xiàn),達(dá)到了用戶基本應(yīng)用需求,但要想大幅度提高剪紙藝術(shù)圖像的檢索效率,滿足用戶檢索圖像的多樣化需求,必須在傳統(tǒng)基于文本的圖像檢索技術(shù)基礎(chǔ)上,加強(qiáng)對(duì)基于內(nèi)容的圖像檢索技術(shù)的研究,特別是應(yīng)在自動(dòng)語(yǔ)義標(biāo)注前提下尋求一種與人的感知更為符合的圖像語(yǔ)義特征描述模型。在此基礎(chǔ)上,研究更為有效的算法性能評(píng)價(jià)準(zhǔn)則和全面的圖像數(shù)據(jù)庫(kù)測(cè)試,從而將底層特征與高級(jí)語(yǔ)義更好的結(jié)合,實(shí)現(xiàn)圖像語(yǔ)義的自動(dòng)標(biāo)注,這將是本課題下一步重點(diǎn)研究的內(nèi)容。
[1]彭冬梅,劉肖健,孫守遷.信息視角:非物質(zhì)文化遺產(chǎn)保護(hù)的數(shù)字化理論[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2008,20(1):117-123.
[2]周明全,耿國(guó)華.基于內(nèi)容圖像檢索技術(shù)[M].清華大學(xué)出版社,2007.
[3]Lim J H,Jin J S.Image indexing and retrieval using visual keyword histograms[J].Proc.IEEE conference on ICME,2002(1):213-216.
[4]鄭莉霞.基于文本的 Web圖像檢索技術(shù)研究[D].西寧:廣西大學(xué),2007.
[5]劉穎,范九倫.基于內(nèi)容的圖像檢索技術(shù)綜述[J].西安郵電學(xué)院學(xué)報(bào),2012,17(2):1-7.
[6]郭士會(huì),楊明.基于顏色的圖像檢索方法的研究[J].西南大學(xué)學(xué)報(bào):自然科學(xué)版,2012,34(1):128-133.
[7]DUNN D,HIGGINS W E.Optimal Gabor Filters for Texture Segmentation[J].IEEE Transactions on Image Processing,1995,4(7):227-237.
[8]韓立華,王學(xué)軍,王曉芬.多特征融合及SVM相關(guān)反饋技術(shù)在教育資源圖像檢索中的應(yīng)用[J].河北科技大學(xué)學(xué)報(bào),2010,31(6):240-244.
[9]穆瑩,王學(xué)軍.基于提升小波變換的醫(yī)學(xué)圖像融合算法[J].石家莊鐵道大學(xué)學(xué)報(bào):自然科學(xué)版,2010(4):58-60,71.
[10]Tsai C,Hung C.Automatically annotating images with keywords:a review of image annotation systems[J].Recent Patents on Com-puter Science,2008(1):55-68..
[11]吳楠,宋方敏.一種基于圖像高層語(yǔ)義信息的圖像檢索方法[J].中國(guó)圖像圖形學(xué)報(bào),2006,12(11):1774-1780.
石家莊鐵道大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2013年4期