宋海玉,李雄飛,包翠竹,金 鑫,岳青宇
(1.大連民族學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧大連116605;2
.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林長(zhǎng)春 130012)
基于視覺內(nèi)容與語(yǔ)義相關(guān)的圖像標(biāo)注模型
宋海玉1,2,李雄飛2,包翠竹1,金 鑫1,岳青宇1
(1.大連民族學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧大連116605;2
.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林長(zhǎng)春 130012)
針對(duì)當(dāng)前標(biāo)注系統(tǒng)的不足,設(shè)計(jì)了一種高效的標(biāo)注模型,其標(biāo)注步驟包括標(biāo)注和標(biāo)注改善,標(biāo)注算法采用加權(quán)的正反例標(biāo)志向量法,標(biāo)注改善采用NGD方法。實(shí)驗(yàn)表明,標(biāo)注效率遠(yuǎn)優(yōu)于經(jīng)典的標(biāo)注模型,標(biāo)注質(zhì)量?jī)?yōu)于大多數(shù)標(biāo)注模型。
圖像標(biāo)注;標(biāo)注改善;歸一化Google距離
近年來(lái),隨著計(jì)算機(jī)技術(shù)、數(shù)碼技術(shù)、存儲(chǔ)技術(shù)的迅速發(fā)展,以及計(jì)算機(jī)網(wǎng)絡(luò)的普及,每天大量的圖像由數(shù)碼產(chǎn)品制作,并在網(wǎng)絡(luò)上存儲(chǔ)、傳播。如何有效地訪問(wèn)和管理這些數(shù)據(jù)成為一項(xiàng)亟需解決的課題。近年來(lái)涌現(xiàn)出了很多經(jīng)典的基于內(nèi)容的圖像檢索系統(tǒng)(CBIR),例如 IBM QBIC,MIT PhotoBook等。它們都是通過(guò)計(jì)算圖像的底層視覺信息(如顏色、紋理)確定相似圖像。盡管CBIR系統(tǒng)取得了很大進(jìn)展,但其檢索效果和方式依然不能令人滿意。其主要原因是計(jì)算機(jī)所使用的低層視覺特征與人所理解的高層語(yǔ)義之間存在著巨大的語(yǔ)義鴻溝[1]。人們更習(xí)慣于提交待檢索目標(biāo)對(duì)象的名稱或者相關(guān)的語(yǔ)義描述作為檢索線索,而不是提交一幅完整圖像。此外,CBIR僅僅解決了圖像檢索問(wèn)題,而作為無(wú)結(jié)構(gòu)化的圖像數(shù)據(jù),其存儲(chǔ)、管理等依然是一個(gè)有待于解決的問(wèn)題。自動(dòng)圖像標(biāo)注是上述問(wèn)題的可行解決方案。通過(guò)對(duì)圖像標(biāo)注文本詞匯,很容易采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)方式組織和管理圖像數(shù)據(jù)。自1999年提出圖像標(biāo)注以來(lái),自動(dòng)圖像標(biāo)注已經(jīng)逐漸成為圖像檢索、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等領(lǐng)域非常活躍的研究熱點(diǎn)。
當(dāng)前主流的圖像標(biāo)注方法主要有兩種:概率模型方法、分類方法。
第一種方法是學(xué)習(xí)圖像與關(guān)鍵詞之間相關(guān)的概率模型,使用概率模型方法完成圖像標(biāo)注。概率模型的最早的方法是Mori于1999年提出的共生模型[2],此后,Duygulu 和Kobus于ECCV2002上提出翻譯模型[3],Jeon于 ACM SIGIR2003提出著名的跨媒體相關(guān)模型(Cross-Media Relevance Model,CMRM)[4]。CMRM 是概率模型的代表性模型,它對(duì)后續(xù)的標(biāo)注模型產(chǎn)生了很大的影響。諸如著名的Continuous Relevance Model(CRM)和Multiple Bernoulli Relevance Model(MBRM)等都可以認(rèn)為是 CMRM 的后續(xù)模型[5-6]。
第二種方法把圖像標(biāo)注問(wèn)題視為圖像分類問(wèn)題,每個(gè)概念或文本標(biāo)注詞可視為分類系統(tǒng)中的類標(biāo)簽。對(duì)每一個(gè)類,在訓(xùn)練階段通過(guò)從有類別標(biāo)簽的訓(xùn)練圖像集中學(xué)習(xí)并獲得相應(yīng)模型后,在測(cè)試階段就可以為新圖像(測(cè)試圖像)生成類別標(biāo)簽,即完成測(cè)試圖像的標(biāo)注。代表性作品有Bayes,SVM,2D -HMM 等用于圖像標(biāo)注中[7]。
共生模型、翻譯模型的標(biāo)注效果較差(F1分別為2%和4%),CMRM以較低的代價(jià)取得了較好的效果(F1為9.47%)。CMRM的后續(xù)算法CRM、MBRM性能有了極大的提升(F1分別為17%,23%),但他們系統(tǒng)開銷極大,很難用于大規(guī)模數(shù)據(jù)處理。分類方法最大的優(yōu)點(diǎn)在于可以應(yīng)用現(xiàn)有的成熟的機(jī)器學(xué)習(xí)模型,但其缺點(diǎn)是訓(xùn)練代價(jià)大,而且,由于分類數(shù)非常有限,很難用于幾百、幾千個(gè)概念的多類分類。
Jin于2005年率先提出了標(biāo)注改善方法[8],他提出了利用語(yǔ)義網(wǎng)(WordNet)來(lái)計(jì)算標(biāo)注詞之間的語(yǔ)義關(guān)系,以去除噪音標(biāo)注詞的標(biāo)注改善算法。在圖像標(biāo)注改善中,包括Jin在內(nèi)的幾乎所有的基于語(yǔ)義網(wǎng)的標(biāo)注改善方法,在計(jì)算概念的語(yǔ)義相似度時(shí)候,都簡(jiǎn)化了語(yǔ)義知識(shí)。并且,以WordNet為代表的語(yǔ)義網(wǎng),僅僅給出概念之間是否相關(guān)的定性評(píng)判,不能給出概念的語(yǔ)義相似度的定量測(cè)量。圍繞如何定量表示語(yǔ)義相似度,研究人員給出了很多嘗試,但沒(méi)有一種完美的方法,而且往往容易與人的理解相矛盾。另外,WordNet還存在詞匯不可擴(kuò)展性,若WordNet中不包含候選標(biāo)注詞的話,則無(wú)法使用。
由于基于語(yǔ)義網(wǎng)的標(biāo)注改善算法關(guān)注的詞匯之間的語(yǔ)義相近程度,而不是詞匯相關(guān)性,標(biāo)注改善沒(méi)有取得預(yù)期效果。很多學(xué)者提出了利用訓(xùn)練集中圖像標(biāo)注詞的共存性計(jì)算詞匯相關(guān)性,標(biāo)注改善性能有一定提升。但受到訓(xùn)練集中圖像數(shù)量的限制,很多詞匯之間的關(guān)聯(lián)性無(wú)法通過(guò)訓(xùn)練集體現(xiàn)出來(lái)。
本文所提出的模型如圖1,該系統(tǒng)由兩部分組成。第一部分完成模型訓(xùn)練,即為圖像集中所有關(guān)鍵詞構(gòu)造標(biāo)志性特征向量。訓(xùn)練集中所有圖像均實(shí)現(xiàn)標(biāo)注詞的人工標(biāo)注。訓(xùn)練集中所有圖像柵格化為固定大小的圖塊(patch),根據(jù)特征選擇和表示算法提取每個(gè)圖塊的視覺特征。通過(guò)聚類算法使得相似的圖塊聚成一類,每一聚類稱為一個(gè)可視詞匯(visual word),并由該可視詞匯代表該聚類內(nèi)的所有圖塊的視覺特征。這樣就實(shí)現(xiàn)了圖塊特征從連續(xù)向量到離散向量的轉(zhuǎn)變。借鑒文本檢索模型中的bag-of-model,每幅圖像就可以視為一組可視詞匯的集合。統(tǒng)計(jì)圖像中可視詞匯的分布,并使用直方圖方式表示,每幅圖像可以表示為可視詞匯的直方圖(Histogram of Word,HOW)向量。由圖像的HOW向量可以構(gòu)造出每個(gè)標(biāo)注關(guān)鍵詞的HOW向量,即標(biāo)志向量。
第二部分標(biāo)注工作。對(duì)于一副無(wú)標(biāo)注詞匯的測(cè)試圖像,首先,生成其可視詞匯直方圖向量,方法同訓(xùn)練階段。然后,通過(guò)計(jì)算HOW向量得出測(cè)試圖像與關(guān)鍵詞的相似度。取相似度最大的前若干個(gè)詞匯,即為該測(cè)試圖像的標(biāo)注詞匯。
圖1 系統(tǒng)體系結(jié)構(gòu)
由于基于區(qū)域的特征表示質(zhì)量過(guò)于依賴于圖像分割質(zhì)量,而即使當(dāng)前最優(yōu)秀的圖像分割算法也無(wú)法取得令人滿意的分割效果[9]?;跂鸥窕男阅芡鶅?yōu)于基于區(qū)域的方法。而且,考慮到圖像分割的時(shí)間開銷較大,本文采用柵格化方法。提取柵格化圖塊的視覺特征,包括12維的顏色信息(RGB和Lab共6個(gè)通道的均值和方差)和128維的SIFT紋理信息,使用K-means算法分別對(duì)顏色和紋理聚類成500和1000類。每幅圖像最終可以表示為1500維的HOW向量。
針對(duì)傳統(tǒng)相關(guān)模型等存在的不足,我們提出了一種非常簡(jiǎn)單的標(biāo)注模型,它無(wú)需復(fù)雜的訓(xùn)練過(guò)程和參數(shù)學(xué)習(xí)。該方法根據(jù)每個(gè)概念(標(biāo)注詞)所對(duì)應(yīng)的正例圖像與反例圖像,為每個(gè)概念構(gòu)造視覺特征向量,通過(guò)圖像向量與概念向量的相似度來(lái)確定該概念U與圖像的相關(guān)性或隸屬度,稱為正反例標(biāo)志向量法[10],其基本思想是通過(guò)正例與反例圖像特征向量的差異來(lái)構(gòu)造代表該詞匯的視覺向量,即表示詞匯w的正例向量均值表示詞匯w的反例向量均值,該算法詳細(xì)步驟見參考文獻(xiàn)[10]。在該算法基礎(chǔ)之上,本文提出了加權(quán)的正反例標(biāo)志向量法,其詞匯視覺向量為
鑒于WordNet等方法標(biāo)注改善存在的不足,我們采用歸一化Google距離(NGD)方法作為詞匯相關(guān)性的定量度量。NGD把任何兩個(gè)詞匯的相關(guān)性問(wèn)題轉(zhuǎn)化兩個(gè)詞匯在Web頁(yè)面中共存的概率關(guān)系[11]。NGD計(jì)算方法為
其中,w1和w2分別代表兩個(gè)文本詞匯。f(w1)和f(w2)分別代表Google搜索引擎分別檢索出包含查詢?cè)~w1和w2詞匯的網(wǎng)頁(yè)個(gè)數(shù),而f(w1,w2)代表檢索出同時(shí)包含w1和w2兩個(gè)詞匯的網(wǎng)頁(yè)個(gè)數(shù)。M是Google搜索引擎所涵蓋的網(wǎng)頁(yè)的總個(gè)數(shù)。僅從NGD的定義可知,它側(cè)重的是詞匯在上下文的相關(guān)性,而基于WordNet的方法關(guān)注的是概念的語(yǔ)義。另外,標(biāo)注改善關(guān)注的應(yīng)該是詞匯之間的相容性,而不是同義詞。因此,NGD是一種更適合于標(biāo)注改善的詞匯相關(guān)性度量方法。通過(guò)調(diào)用Google提供的接口,可以計(jì)算出包含任何詞匯的網(wǎng)頁(yè)個(gè)數(shù)。
由于每個(gè)詞匯對(duì)應(yīng)網(wǎng)頁(yè)數(shù)量在一段時(shí)期內(nèi)相對(duì)穩(wěn)定,詞匯對(duì)應(yīng)網(wǎng)頁(yè)的數(shù)量及NGD(w1,w2)可以事先保存起來(lái),此后,周期性更新即可。在后續(xù)的標(biāo)注改善過(guò)程中,可以直接訪問(wèn)NGD(w1,w2)信息,而無(wú)需在每次標(biāo)注圖像時(shí)調(diào)用Google接口。
為了評(píng)價(jià)所提出的模型,我們與主流的標(biāo)注算法進(jìn)行對(duì)比。性能指標(biāo)包括查準(zhǔn)率、查全率、N+,以及算法復(fù)雜度和時(shí)間開銷等,為公平起見,所有模型實(shí)驗(yàn)都在相同的圖像數(shù)據(jù)集上完成。
Corel5K數(shù)據(jù)集已經(jīng)成為圖像檢索和標(biāo)注領(lǐng)域最常用的標(biāo)準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集包括5000幅圖像、371個(gè)標(biāo)注詞匯,平均每幅圖像包含詞匯個(gè)數(shù)為3.5個(gè)。與原始CMRM/CRM/MBRM算法數(shù)據(jù)劃分一樣,我們?nèi)?500幅圖像作訓(xùn)練集,500圖像作測(cè)試集,其中訓(xùn)練集與測(cè)試集中相交詞匯260個(gè)。在CMRM/CRM等基于區(qū)域方法中,采用N-cut圖像分割算法,且每幅圖像分割為1-10個(gè)區(qū)域。柵格化方法中,每幅圖像被等分為16*16像素的柵格。
采用查準(zhǔn)率(Precison)、查全率(Recall)、F1和N+作為標(biāo)注質(zhì)量評(píng)價(jià)指標(biāo)。N+為查全率不為0的詞匯個(gè)數(shù)。其他指標(biāo)定義為
其中,r代表算法正確標(biāo)注的詞匯個(gè)數(shù),n代表人工標(biāo)注的實(shí)際個(gè)數(shù),w代表算法錯(cuò)誤標(biāo)注出的詞匯個(gè)數(shù)。
實(shí)驗(yàn)平臺(tái)為HP筆記本,硬件配置為2.2GHz的Intel Duo CPU,3.0G內(nèi)存,操作系統(tǒng)為Windows XP,軟件環(huán)境為Matlab7.1以及NGD API包。與CMRM、MBRM等算法一樣,標(biāo)注算法為每幅圖像生成5個(gè)標(biāo)注詞匯。本文所實(shí)現(xiàn)系統(tǒng)的標(biāo)注效果與真實(shí)(手工)標(biāo)注結(jié)果的對(duì)比見表1。本文方法與經(jīng)典的標(biāo)注模型性能對(duì)比見表2。
表1 標(biāo)注結(jié)果對(duì)比
表2 算法性能對(duì)比表
表2中,視覺特征列中,C代表顏色,T代表紋理,S代表形狀。算法復(fù)雜度列中,|W|代表數(shù)據(jù)集中詞匯的個(gè)數(shù),|D|代表訓(xùn)練圖像個(gè)數(shù),N代表圖像分割后區(qū)域的個(gè)數(shù),M是圖像區(qū)域特征向量的維數(shù)。系統(tǒng)中數(shù)據(jù)集大時(shí)候,|D|會(huì)非常大,因此CRM和MBRM的時(shí)間開銷會(huì)非常大;而即便系統(tǒng)的圖像數(shù)據(jù)集再大,詞匯個(gè)數(shù)|W|也非常有限;只要特征選擇方法確定后,特征向量維數(shù)M是常量,與數(shù)據(jù)集大小無(wú)關(guān)。因此,越是訓(xùn)練集大的系統(tǒng),本文方法優(yōu)勢(shì)越明顯。本文所采用的加權(quán)正反例方法最優(yōu)參數(shù)α、β分別是0.98和0.79。
通過(guò)調(diào)用Google接口獲取網(wǎng)頁(yè)數(shù)量的時(shí)間開銷很大程度上取決于網(wǎng)絡(luò)狀況,且無(wú)需每次都調(diào)用Google接口,因此,表2中算法復(fù)雜度和平均耗時(shí)沒(méi)有包括NGD的時(shí)間開銷。
針對(duì)當(dāng)前圖像標(biāo)注模型存在的不足,本文設(shè)計(jì)了一種非常高效的標(biāo)注模型,通過(guò)NGD方法對(duì)圖像候選標(biāo)注詞進(jìn)行標(biāo)注改善,有效地保證了標(biāo)注系統(tǒng)的總體質(zhì)量。該系統(tǒng)既可以作為一個(gè)獨(dú)立標(biāo)注系統(tǒng)運(yùn)行,也可以作為復(fù)雜系統(tǒng)的相關(guān)模塊。
[1] RITENDRA DATTA,DHIRAJ JOSHI,JIA LI ,et al.Image Retrieval:Ideas,Influences,and Trends of the New Age[J].ACM Computing Surveys,2008,40,(2):1-60.
[2]MORI Y,TAKAHASHI H,OKA R.Image-to-word transformation based on dividing and vector quantizing images with words[C]∥ In MISRM'99 First International Workshop on Multimedia Intelligent Storage and Retrieval Management,1999.
[3]DUYGULU P,BARNARD K,DE FREITAS N,et al.Object recognition as machine translation:Learning a lexicon for a fixed image vocabulary[J].Proc.of Seventh European Conference on Computer Vision,2002:97 -112.
[4]JEON J,LAVRENKO V,MANMATHA R.Automatic Image Annotation and Retrieval using Cross-Media Relevance Models,Proc.of the 26th annual international ACM SIGIR conference on Research and development in information retrieval,2003:119 -126.
[5]LAVRENKO V ,MANMATHA R,JEON J.‘A model for learning the semantics of pictures’[C]∥Advances in Neural Information Processing Systems,2003.
[6]FENG S L,MANMATHA R,LAVRENKO V.‘Multiple Bernoulli Relevance Models for Image and Video Annotation’[C]∥IEEE Conf.Computer Vision and Pattern Recognition,2004.
[7]CHIH -FONG TSAI1,CHIHLI HUNG.Automatically Annotating Images with Keywords:A Review of Image Annotation Systems,Recent Patents on Computer Science,2008,1(1):55 -68.
[8]JIN Y,KHAN L,WANG L,et al.Image annotations by combining multiple evidence & wordNet[J].In Proceedings of ACM Multimedia,706-715,2005
[9]SHI J,MALIK J.Normalized cuts and image segmentation.IEEE Transactions on Pattern Analysis and Machine Intelligence,22(8):888–905,2000.
[10]SONG Haiyu,LI Xiongfei,BAO Cuizhu,et al.An Efficient and Effective Automatic Image Annotation using Positive and Negative Example Images,ICIC -EL,2011,5(8):2927-2932.
[11]CILIBRASI R,VITANYI P.The Google similarity distance.IEEE Transactions on Knowledge and Data Engineering 19(3),370–383,2007.
An Image Annotation and Refinement Model Based on Visual Content and Semantic Correlation
SONG Hai- yu1,2,LI Xiong - fei2,BAO Cui- zhu1,JIN Xin1,YUE Qing - yu1
(1.College of Computer Science and Engineering,Dalian Nationalities University,Dalian Liaoning 116605,China;
2.College of Computer and Technology,Jilin University,Changchun Jilin 130012,China)
The efficiency and qulaity of image annotation system determine the ability to manage images in the fields of computer vision and image retrieval.To overcome the drawback of current annotation system,an efficient annotation system is designed,including annotation and refinement stages by weighted positive and negative symbol vector method and NGD method respectively.The experiments demonstrate our proposed system perfomance,whose efficiency outperforms classicial image annotation models and qulity outperforms most current image annotation models.
image annotation;annotation refinement;normalized Google distance
TP391
A
1009-315X(2012)01-0067-05
2011-11-07;最后
2011-11-23
中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目(DC10040111);遼寧省教育科學(xué)“十二五”規(guī)劃立項(xiàng)課題“應(yīng)用型院校中本科生研究性學(xué)習(xí)模式的研究與實(shí)踐”(JG11DB062)。
宋海玉(1971-),男,河南安陽(yáng)人,副教授,主要從事圖像分析與理解、計(jì)算機(jī)視覺、信息檢索研究。
(責(zé)任編輯 劉敏)