李夢縈 宋海玉 王澤宇
摘要:隨著成像技術(shù)和存儲技術(shù)的發(fā)展,電子圖像數(shù)據(jù)呈現(xiàn)爆炸式增長。為了方便快捷地利用這些圖像資源,自動圖像標(biāo)注技術(shù)應(yīng)運(yùn)而生。場景理解的核心任務(wù)是通過根據(jù)給定一組固定的場景詞匯來對場景圖像數(shù)據(jù)集進(jìn)行自動標(biāo)注,是計(jì)算機(jī)視覺的主要研究方向之一。
關(guān)鍵詞:場景理解;圖像標(biāo)注;主題模型;實(shí)時(shí)監(jiān)視;成像技術(shù);存儲技術(shù) 文獻(xiàn)標(biāo)識碼:A
中圖分類號:TP391 文章編號:1009-2374(2016)02-0045-02 DOI:10.13535/j.cnki.11-4406/n.2016.02.022
1 概述
近年來,中國的大多數(shù)城市都安裝了城市攝像頭,但這些攝像頭只能記錄信息,由于人力資源的限制,大部分視頻都只有在取證時(shí)發(fā)揮作用,沒能物盡其用。視頻的本質(zhì)就是圖像的序列。視頻信息的監(jiān)視實(shí)質(zhì)上就是圖片內(nèi)容的監(jiān)視。本項(xiàng)目通過計(jì)算機(jī)對圖像進(jìn)行分析與解析,得到可以準(zhǔn)確描述和解釋相應(yīng)事件、場景的詞匯,進(jìn)而對圖像進(jìn)行標(biāo)注,即事件識別。
視頻相當(dāng)于人的眼睛捕捉到的畫面,而事件識別是在模擬人類大腦的圖像分析。圖像理解、事件理解、場景理解是圖像分析的三部曲,圖像標(biāo)注是基礎(chǔ),事件理解是目的,場景理解是關(guān)鍵。圖像標(biāo)注是針對“who”,即有誰;場景理解是針對“where”,即環(huán)境;對象理解則是“what”,即干什么。也就是說對象標(biāo)注是具體的、直觀的視覺信息,比如對象的紋理特征,但場景理解和事件理解是抽象的。所以用底層視覺特征來表示圖像特征的時(shí)候很難完成場景理解和事件理解,因此我們引入了基于主題特征的場景理解系統(tǒng)。
2 基于主題特征的場景理解系統(tǒng)
本文借鑒了在文本檢索領(lǐng)域中非常成熟的Bag of Words(BOW)思想,在文本檢索中一篇文章會被描述成很多語義詞匯的集合,只考慮詞匯的出現(xiàn)次數(shù),而不考慮出現(xiàn)位置,這樣的一篇文本文章就好比是一個(gè)裝滿了單詞的袋子,所以顧名思義為BOW。主題模型已經(jīng)被應(yīng)用于文本檢索多年,而且大大提高了文本檢索的準(zhǔn)確性。近幾年越來越多的計(jì)算機(jī)視覺研究者將主題模型引入圖像標(biāo)注檢索技術(shù)中。一般都是將每幅圖像看作一個(gè)文檔,圖像中對象對應(yīng)的詞就是文檔詞匯,這樣就自然而然地將文本主題模型應(yīng)用到圖像上。主題特征標(biāo)注模型的最大特征就是借助了主題詞匯這個(gè)中間鍵,縮短了高層語義與底層圖像特征之間存在的語義鴻溝,如圖1所示:
很多研究者已經(jīng)將文本PLSA主題模型成功應(yīng)用到了圖像的標(biāo)注檢索系統(tǒng)中,本文綜合前人的模型結(jié)構(gòu),對各種圖像主題模型進(jìn)行了實(shí)驗(yàn)分析,最終得到了一個(gè)較為理想的基于PLSA主題特征的場景理解系統(tǒng)。模型系統(tǒng)主要分為兩個(gè)過程,即訓(xùn)練模型過程和測試標(biāo)注圖像過程,主題模型的核心任務(wù)是找到圖像中隱藏的主題詞匯,并且通過主題詞匯這個(gè)橋梁找到待標(biāo)注圖像中的主題詞匯概率分布,最后通過語義詞匯在主題中的概率分布計(jì)算出測試圖像語義詞匯的概率分布。我們發(fā)現(xiàn)這與人類認(rèn)知圖像的過程非常相似,當(dāng)我們看到一幅圖像時(shí),可能先會確定這個(gè)圖像是哪種主題的圖像,比如山水畫,確定了山水畫之后我們接著會開始聯(lián)想山水中一般會含有什么對象景物,再結(jié)合圖像本身,人類便很容易理解一幅圖像。我們的訓(xùn)練過程其實(shí)就是人類的學(xué)習(xí)過程,目的在于讓計(jì)算機(jī)學(xué)會圖像中都有什么樣的主題特征,并且讓計(jì)算機(jī)記住每種主題包含的詞匯分布。
基于PLSA主題模型的圖像標(biāo)注系統(tǒng)的整體結(jié)構(gòu)是將圖像集分為訓(xùn)練集圖像(被手工標(biāo)注的圖像)和測試圖像(待系統(tǒng)標(biāo)注圖像)。將訓(xùn)練圖像通過Bag of Wrd處理得到訓(xùn)練圖像的視覺詞匯BOW特征,這樣訓(xùn)練圖像集就成了兩種詞匯的集合,即語義詞匯和視覺詞匯。接著對圖像集進(jìn)行兩次LDA建模:第一次得到P(w|z)和P(z|d)兩個(gè)關(guān)于主題詞匯的概率分布;第二次針對視覺詞匯建模,結(jié)合上次得到的P(z|d)可以得到P(v|z)——視覺詞匯在主題詞匯中的分布規(guī)律。測試圖像只有視覺詞匯BOW特征,結(jié)合訓(xùn)練得到的P(v|z)可以計(jì)算出P(z|d)——測試圖像中隱藏的主題詞匯,最后可以由P(z|d)和P(w|z)計(jì)算出測試圖像的P(w|d),即我們的標(biāo)注結(jié)果,語義詞匯的概率分布。
3 實(shí)驗(yàn)及結(jié)論
實(shí)驗(yàn)數(shù)據(jù)采用事件識別領(lǐng)域參考文獻(xiàn)[2]提供的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,本文所采用算法所完成的效果見圖2所示,取得了預(yù)期效果。
為了更加準(zhǔn)確、客觀地評價(jià)本文所采用的算法,我們在計(jì)算機(jī)視覺、圖像標(biāo)注于分類領(lǐng)域影響非常大的Corel5k數(shù)據(jù)集上完成了模型訓(xùn)練與測試,并與影響較大的同類算法比較性能,性能比較如表1所示。其中CMRM是圖像標(biāo)注領(lǐng)域影響最大的算法,SML是被PAMI等國際頂級期刊認(rèn)為最優(yōu)的標(biāo)注算法,PLSA_MIXED、PLSA_WORDS是主題模型用于計(jì)算機(jī)視覺領(lǐng)域的成果模型。
國內(nèi)外已經(jīng)有越來越多的研究人員將主題模型應(yīng)用在圖像標(biāo)注檢索領(lǐng)域,并且都取得了一定的研究成果,本文結(jié)合前人工作,將PLSA主題模型結(jié)果應(yīng)用在場景理解中,并以此為核心模塊完成了場景理解算法和事件識別應(yīng)用,實(shí)踐結(jié)果表明主題模型可以應(yīng)用于場景理解和事件識別中。
參考文獻(xiàn)
[1]俞偉峰.基于BoW-SIFT模型和層次網(wǎng)絡(luò)特征的三維檢索系統(tǒng)[D].北京理工大學(xué),2001.
[2]Li-Jia Li,Li Fei-Fei.What,where and who?Classifying events by scene and object recognition.CVPR,2009.
[3]J.Jeon,V.Lavrenko and R.Manmatha..Automatic Image Annotation and Retrieval using CrossMedia Relevance Models[A].In Proceedings of ACM SIGIR Confence Research and Development in Information Retrieval[C].2003.
[4]Gustavo Carneiro,Antoni B.Chan,Pedro J.Moreno,and Nuno Vasconcelos.Supervised Learning of Semantic Classes for Image Annotation and Retrieval
[J].IEEE Transactions On Pattern Analysis and Machine Intelligence,2007,29(3).
[5]Jonathon S.Hare,Sina Samangooei,Paul H.Lewis,Mark S.Nixon.Semantic Spaces Revisited Investigating the Performance of Auto-Annotation and Semantic Retrieval using Semantic Spaces[A].Proceedings of the 2008 international conference on Content-based image and video retrieval[C].2008.
(責(zé)任編輯:陳 潔)