華艷秋
摘 要:視覺概念檢測技術(shù)是一種對圖像進行檢測、管理及分類的有效方法,而檢測算法需要有高質(zhì)量的圖像集作為訓練集來測試算法的可行性及精確性。本文介紹了理想的圖像集應(yīng)具備的特性及常用的圖像集,為視覺概念檢測的研究提供有價值的參考。
關(guān)鍵詞:視覺概念圖像集檢測技術(shù)
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1672-3791(2012)07(b)-0027-01
近年來,隨著圖像檢索技術(shù)的快速發(fā)展,圖像視覺內(nèi)容信息作為一種直觀形象、完整復(fù)現(xiàn)場景的信息表達形式產(chǎn)生著越來越重要的影響,可以說機器視覺的應(yīng)用范圍幾乎涵蓋了國民經(jīng)濟的各個行業(yè),主要包括:工業(yè)、農(nóng)業(yè)、醫(yī)藥、軍事、航天、氣象、天文、公安等。
面對如此大規(guī)模的圖像視覺內(nèi)容信息量,如何實現(xiàn)合理有效地組織、表達及搜索,已成為現(xiàn)階段信息檢索領(lǐng)域研究的熱點問題。視覺概念檢測技術(shù)是一種對大量圖像進行自動檢測、管理及分類的有效方法,它通過合理的算法對獲取的圖像進行檢測、識別、分類,從而達到用機器代替人來做圖像測量和判斷的目的。若要使圖像檢測及分類準確性高,就需要使用高質(zhì)量的圖像集作為訓練集,來驗證算法的可行性及精確性。
1理想的圖像測試集應(yīng)具備的特性[1]
1.1 圖像集應(yīng)在圖像檢索領(lǐng)域具有代表性及整體性
過去,研究人員使用的圖像集常常是分散的,甚至可能自己的私人圖像收藏,這樣的測試集難免會具有片面性,理想情況是測試集包含許多不同的樣本點,能夠涵蓋圖像源的整個頻譜,圖像足夠多到能夠代表整個領(lǐng)域。
1.2 圖像集應(yīng)具備標準化的測試基準,以便執(zhí)行客觀的評價
在目前的文獻中,經(jīng)常發(fā)生不同的研究人員在同一個圖像集下執(zhí)行不同的性能測試,這就使得無法執(zhí)行比較基準。標準化的測試基準應(yīng)該至少包括典型的搜索概念、統(tǒng)一的圖像信息,以及統(tǒng)一的績效測量和報告的詳細指引。
1.3 圖像集應(yīng)該便于用戶訪問及使用,而不必擔心版權(quán)等問題
有些圖像集,如MPEG7測試集,被科學界使用已經(jīng)有一些年了,但是現(xiàn)在卻基本找不到,并且也不能隨意的發(fā)布了。對使用者來說,能夠容易的訪問并且在需要的時候可以再發(fā)表是必不可少的。
2MIR FLICKR圖像集[2]
在基于內(nèi)容的圖像檢索里,MIR Flickr提供的圖像集是一個被廣泛應(yīng)用,且評價較高的測試集。2008年,圖像集包含25000個圖像,到2010年,圖像集已經(jīng)擴展到了1百萬個圖像,這些圖像具有很高的品質(zhì),且在相應(yīng)領(lǐng)域上具有代表性和較高的關(guān)注度。如果僅是用于研究目的的話,用戶可以自由使用這些圖片而無需顧慮版權(quán)的問題。
Flickr還為用戶提供基于圖像標記的搜索和共享照片,以及兩種形式的圖像標簽:圖像的原始形式和由FLICKR清理了原始數(shù)據(jù)的處理形式,這個過程包括例如消除大寫,空間,和各種各樣的特殊字符等,每幅圖像的標簽的平均數(shù)為8.94。這些標簽有的是明確描述圖像的,能直接關(guān)系到圖像的視覺內(nèi)容,例如雪地、日落、建筑物、聚會等,有的標簽表述的是一些抽象的概念,例如愛情、旅行、陳舊、可愛等。
此外,圖像集還提供了圖像的EXIF(可交換圖像文件格式)元數(shù)據(jù),并將其轉(zhuǎn)換成易于訪問的文本文件。EXIF元數(shù)據(jù)代表的數(shù)碼相機在拍照時的屬性和設(shè)置,包括相機的品牌、相機的設(shè)置參數(shù)(曝光,光圈,焦距,ISO感光度等)和圖像的設(shè)置(方向,分辨率,日期等),Flickr從圖像中分離出來EXIF元數(shù)據(jù),而不再是嵌入在圖像文件的信息。最近的一些文獻已經(jīng)研究了這些用于圖像分類和檢索的元數(shù)據(jù)的有用性,如文獻[3],[4]中所示,通過考慮一個圖片中所帶有的元數(shù)據(jù)信息,可以使圖像檢測性能有明顯的改善。
利用圖像集對檢測算法進行訓練之后,使用者可以得出算法的準確性及可行性,達到對圖像進行分類及檢測的目的。
3結(jié)語
從目前的調(diào)查來看,在世界范圍內(nèi),雖然許多機構(gòu)提供了相對成熟的圖像集,但還沒有發(fā)現(xiàn)哪個是完全滿足理想圖像集的特性的,希望通過圖像提供者的無私幫助及組織機構(gòu)的不懈努力,能夠克服以前測試集的局限性,在圖像質(zhì)量、代表性、主題、標簽信息等方面有進一步的發(fā)展。
參考文獻
[1] The MIR Flickr Retrieval Evaluation.The MIRFLICKR Image Collection[EB/OL].http://press.liacs.nl/mirflickr,2011.
[2] M.J.Huiskes,M.S.Lew(2008).The MIR Flickr Retrieval Evaluation.ACM International Conference on Multimedia Information Retrieval(MIR''08),Vancouver,Canada.
[3] P.SINHA AND R.JAIN(2008).Classification and annotation of digital photos using optical context data.ACM International Conference on Content-Based Image and Video Retrieval(CIVR 08),Niagara Falls,Canada.309-318.
[4] J.YEN,P.WU,AND D.TRETTER(2007)Knowledge discovery for better photographs,Proc.SPIE6506,65060B.
[5] 馬玉真.計算機視覺檢測技術(shù)的發(fā)展及應(yīng)用研究[J].濟南大學學報,18(3):222-227.