雒建衛(wèi) 姜志國
(北京航空航天大學(xué) 宇航學(xué)院,北京100191)
目標(biāo)識別一直是計(jì)算機(jī)視覺研究的熱門領(lǐng)域.給定一幅圖像,目標(biāo)識別的任務(wù)是要給出這幅圖像中目標(biāo)所屬的類別.它的研究方向主要包括特征提取、目標(biāo)建模以及分類器設(shè)計(jì).傳統(tǒng)的目標(biāo)識別流程是給定輸入圖像,提取特征構(gòu)建圖像表示,代入分類器得到類別標(biāo)簽,如圖1所示.這里的圖像特征一般指的是低級特征,不具有語義信息,這導(dǎo)致傳統(tǒng)目標(biāo)識別方法僅可以用來判斷圖像中目標(biāo)的類別,但不能實(shí)現(xiàn)根據(jù)圖像產(chǎn)生文本描述[1]等高級視覺任務(wù).
圖1 傳統(tǒng)目標(biāo)識別流程圖Fig.1 Pipeline of traditional object recognition
屬性是圖像的語義描述,可以表示圖像中某些內(nèi)容的存在與否,它可以是物體的形狀、材質(zhì)、部件、類別及功能,也可以是場景的類別以及上下文信息等.比如,飛機(jī)的屬性既有機(jī)翼、輪子、發(fā)動機(jī)等部件,也有金屬等材質(zhì)屬性以及可以飛行等功能屬性.同時(shí)飛機(jī)標(biāo)簽也可以作為一種類別屬性.又如,馬場的屬性有天空、草地等類別屬性以及人在騎馬等語義屬性.
近年來,屬性被廣泛應(yīng)用于計(jì)算機(jī)視覺問題研究,如目標(biāo)識別[2-4]、零樣本學(xué)習(xí)[5-6]、多關(guān)鍵字圖像檢索[7]、人臉檢索[8]、視頻中的行為識別[9]及細(xì)粒圖像識別[10]等.以屬性用于目標(biāo)識別為例,針對人和貓兩類圖像,毛皮以及皮膚屬性可以有效地將它們區(qū)分.而針對貓和狗等擁有相同屬性的類別,可以使用類別屬性來區(qū)分它們.在零樣本學(xué)習(xí)中,由于不同類別可能共享相同的屬性,比如貓和狗都存在毛皮屬性,因此當(dāng)狗這個(gè)類別的訓(xùn)練樣本缺失時(shí),可以通過對貓這個(gè)樣本進(jìn)行訓(xùn)練得到某些屬性訓(xùn)練器,并用這些訓(xùn)練器來推斷一個(gè)未曾見過類別(狗)的樣本的類別.這里用到的先驗(yàn)是未曾見過的類別(狗)的屬性描述是已知的.
屬性作為中層特征用于目標(biāo)識別的基本流程如圖2所示.其中屬性分類器的訓(xùn)練是通過將具有某種共同屬性的目標(biāo)(跨類別)作為正樣本,其他目標(biāo)作為負(fù)樣本,通過訓(xùn)練器如支持向量機(jī)(SVM)訓(xùn)練得到該屬性的分類器.屬性特征就是圖像在一系列屬性分類器上得分的向量表示.傳統(tǒng)的基于屬性的分類器并沒有考慮到目標(biāo)所在背景,也就是上下文信息,而文獻(xiàn)[10-11]證明目標(biāo)通常與背景是相關(guān)聯(lián)的,利用上下文信息有助于剔除錯(cuò)誤分類目標(biāo),提高識別精度.
圖2 基于目標(biāo)屬性的目標(biāo)識別流程圖Fig.2 Pipeline of object recognition based on object attribute
鑒于目標(biāo)與背景在語義上存在相關(guān)性,本文提出基于背景屬性的目標(biāo)識別方法,并與傳統(tǒng)方法、基于目標(biāo)屬性的方法[2]以及其他背景特征與目標(biāo)特征相融合的方法進(jìn)行了對比.實(shí)驗(yàn)表明,背景屬性有助于提高目標(biāo)識別精度.要強(qiáng)調(diào)的是,本文的主要目的是檢驗(yàn)背景屬性對于目標(biāo)識別的作用,并沒有考慮背景屬性內(nèi)部和目標(biāo)自身屬性內(nèi)部的相關(guān)性.同時(shí),由于所用到的數(shù)據(jù)庫中,目標(biāo)所在的區(qū)域是已標(biāo)記的,也就是本文不考慮檢測步驟,但所提出的利用背景語義對目標(biāo)進(jìn)行識別方法可以移植到目標(biāo)檢測中去.
本文采用的數(shù)據(jù)庫是a-Pascal[2],它是從Pascal VOC2008數(shù)據(jù)庫整理得到的.該數(shù)據(jù)庫共有20種類的目標(biāo),包括:人、鳥、貓、奶牛、狗、馬、羊、飛機(jī)、自行車、船、公交車、汽車、摩托、火車、瓶子、椅子、餐桌、盆栽、沙發(fā)以及電視.除了人這個(gè)類別包含5 000個(gè)實(shí)例外,其他每類約有 150~1000個(gè)實(shí)例.Farhadi等[2]也為該數(shù)據(jù)庫標(biāo)注了64種屬性標(biāo)記,有的為形狀屬性,如二維盒子、三維盒子以及豎型圓柱等;有的為材質(zhì)屬性,如木質(zhì)的、金屬的、毛皮的、皮革的、羽毛的、透明的以及有光澤的等;大部分為部件屬性,如頭、耳朵、嘴、頭發(fā)、軀干、臉以及手等人所有的屬性,還有側(cè)視鏡、發(fā)動機(jī)以及輪子等汽車所有屬性.雖然同屬于一個(gè)類別的目標(biāo)應(yīng)該具有相同的屬性,但由于圖像中存在遮擋、光照以及視點(diǎn)變化,不同實(shí)例的屬性標(biāo)記通常存在差異,a-Pascal就是考慮到這些差異,對每幅圖分別進(jìn)行屬性標(biāo)記的.在實(shí)驗(yàn)中,將類別標(biāo)簽作為擴(kuò)展屬性,因此最后目標(biāo)屬性個(gè)數(shù)為84(以下若無特別聲明,屬性均包含類別標(biāo)簽).
為了利用背景信息輔助目標(biāo)識別,本文對a-Pascal數(shù)據(jù)集中圖像的背景屬性分10類進(jìn)行了標(biāo)注,分別為:室內(nèi)、墻壁、道路、室外、天空、沙土、草地、樹木、水以及沙灘.這10類背景屬性描述了目標(biāo)所在場景的信息,有助于對前景目標(biāo)的識別,比如當(dāng)背景有水時(shí),前景更有可能是船,沙發(fā)出現(xiàn)在室內(nèi)場景的概率要明顯高于室外.
針對前景目標(biāo)圖像,特征選取采用基于詞袋模型(BoW)[12]的特征.詞袋模型的基本思想是,將圖像中的每個(gè)局部特征量化到固定的聚類中心,最后將這些聚類中心的直方圖向量作為圖像的特征表示.本文采用的局部特征有顏色特征、梯度方向直方圖特征(HOG)[13]、邊緣特征以及紋理特征[14],其中顏色和紋理特征有助于判別紋理屬性,HOG特征有助于判別部件屬性,而邊緣特征則有助于判別形狀.它們分別被量化為128,1000,8以及256個(gè)聚類中心.
由于所標(biāo)記的目標(biāo)屬性中,大部分屬性都是局部語義特征,為了更好地描述這些局部屬性,目標(biāo)所在區(qū)域被劃分為3×2網(wǎng)格(如圖3所示),在每個(gè)格子里分別計(jì)算顏色特征、HOG、邊緣特征以及紋理特征的直方圖表示,最后將每個(gè)格子的特征直方圖和目標(biāo)整個(gè)區(qū)域的特征直方圖進(jìn)行串聯(lián),得到9751維的特征向量.以上所使用特征與文獻(xiàn)[2]相同.
圖3 目標(biāo)特征提取示意圖Fig.3 Schematic diagram of object feature extraction
本文采用Gist[15]特征表示背景圖像.Gist是一種全局特征描述子,它描述自然場景的5個(gè)方向特性:自然度、開放度、粗糙度、擴(kuò)展度以及崎嶇度.它通過Gabor濾波器提取圖像不同尺度上的不同頻率和不同方向的特征.通常進(jìn)行Gist特征提取時(shí),對圖像進(jìn)行分塊處理,并將每塊中提取的特征進(jìn)行串聯(lián)作為最后的特征表示.本文采用4個(gè)尺度,每個(gè)尺度8個(gè)方向的Gabor濾波器,同時(shí)圖像被歸一化為256×256大小,且被分為8×8的方格,在每個(gè)方格上提取特征,最后將64個(gè)方格的特征串聯(lián)作為最后的特征,總的特征維數(shù)是2048.
假設(shè)給定N幅圖像{I1,I2,…,IN}和N個(gè)目標(biāo){O1,O2,…,ON},且 Oi∈Ii表示目標(biāo) Oi在圖像Ii中.每個(gè)目標(biāo) Oi對應(yīng)一個(gè)類別標(biāo)簽 ci∈{1,2,…,C},C為類別個(gè)數(shù).與目標(biāo)和圖像相對應(yīng)的特征表示分別為 X={x1,x2,…,xN}和 Y={y1,y2,…,yN}.假設(shè)目標(biāo)共有m個(gè)屬性Ao={Ao1,Ao2,…,Aom},背景共有 p 個(gè)屬性為 Ab={Ab1,Ab2,…,Abp}.
為了驗(yàn)證背景屬性對于目標(biāo)識別的作用,提出基于背景屬性的目標(biāo)分類方法(以下簡稱屬性串聯(lián)分類法),如圖4所示.該方法分別對目標(biāo)圖像和背景圖像進(jìn)行訓(xùn)練,得到目標(biāo)屬性和背景屬性分類器,然后將目標(biāo)和背景在各自屬性分類器的得分進(jìn)行串聯(lián)組成屬性特征,最后代入基于屬性特征的類別分類器,輸出目標(biāo)類別.這種方法稍微復(fù)雜,需要對背景和目標(biāo)分別訓(xùn)練各自的屬性分類器,并將背景屬性特征看作目標(biāo)特征的一部分,與目標(biāo)的屬性特征串聯(lián)看作目標(biāo)最后的語義特征.
圖4 屬性串聯(lián)分類方法Fig.4 Object recognition based on concatenated attributes
為了驗(yàn)證算法有效性,將提出的屬性串聯(lián)分類法方法與以下5種方法進(jìn)行對比:
1)傳統(tǒng)方法,如圖1所示.該方法直接對圖像底層特征進(jìn)行分類.
2)基于目標(biāo)屬性的分類法(不包含類別標(biāo)簽),如圖2所示.該方法以目標(biāo)屬性作為中層特征,對該特征進(jìn)行分類.
3)基于目標(biāo)屬性的分類法(含類別標(biāo)簽).該方法將方法2進(jìn)行擴(kuò)展,將目標(biāo)的類別標(biāo)簽當(dāng)作擴(kuò)展屬性,用來增加屬性的判別性.
4)特征串聯(lián)直接分類法.如圖5所示,該方法直接將背景特征和目標(biāo)特征串聯(lián),并代入已訓(xùn)練目標(biāo)類別分類器,給出目標(biāo)的類別.這種方法比較簡單,將背景特征看作目標(biāo)特征的一部分,并直接在串聯(lián)特征基礎(chǔ)上訓(xùn)練目標(biāo)類別,因此并沒有考慮到背景的語義信息.
5)特征串聯(lián)屬性分類法.如圖6所示,該方法將背景特征和目標(biāo)特征進(jìn)行串聯(lián)作為新的目標(biāo)特征,并訓(xùn)練目標(biāo)屬性分類器,然后基于目標(biāo)屬性特征構(gòu)建最終目標(biāo)分類器.4.3 分類器
圖5 特征串聯(lián)直接分類方法Fig.5 Object recognition based on concatenated features
圖6 特征串聯(lián)屬性分類方法Fig.6 Object recognition based on attributes built on concatenated features
本文采用線性支持向量機(jī)(SVM)作為屬性分類器以及目標(biāo)分類器,采用liblinear[16]程序軟件包實(shí)現(xiàn).該包在大型數(shù)據(jù)庫以及高維特征上表現(xiàn)較好,且速度很快.優(yōu)化目標(biāo)函數(shù)為
其中,ci和fi分別為標(biāo)簽和特征;參數(shù)γ是平衡項(xiàng),通過實(shí)驗(yàn)選取最優(yōu).在訓(xùn)練屬性Aoj分類器時(shí),如果目標(biāo)Oi的屬性Aoji=1,則 ci=1,fi=xi,這是一個(gè)二分問題.背景屬性分類器訓(xùn)練方法與目標(biāo)屬性相同.在基于目標(biāo)屬性的識別方法中,訓(xùn)練目標(biāo)分類器時(shí)的輸入是目標(biāo)特征在所有屬性分類器上的得分向量.目標(biāo)Oi在屬性分類器Aoj上的得分為,其中為屬性分類器的分類面向量.
實(shí)驗(yàn)時(shí),樣本被均分為訓(xùn)練集(a-Pascal train)和測試集(a-Pascal test)[2],其中訓(xùn)練集包含有6340個(gè)目標(biāo),測試集包含6 355個(gè)目標(biāo).訓(xùn)練時(shí),針對每種屬性(目標(biāo))分類器,樣本按照屬性(類別)又隨機(jī)被均分為訓(xùn)練樣本和驗(yàn)證樣本.訓(xùn)練樣本用來訓(xùn)練模型,驗(yàn)證樣本用來驗(yàn)證模型參數(shù),取在驗(yàn)證樣本上識別率最高的參數(shù).測試集用來統(tǒng)計(jì)最后模型的目標(biāo)識別率.每種方法實(shí)驗(yàn)5次.
表1為所有算法的實(shí)驗(yàn)結(jié)果比較,可以看出基于背景屬性和目標(biāo)屬性串聯(lián)的目標(biāo)識別結(jié)果最好,特征串聯(lián)直接分類與它相當(dāng),特征串聯(lián)屬性分類法次之,這說明背景特征(屬性)有助于提高目標(biāo)識別的精度.
基于目標(biāo)屬性的識別方法中,包含類別屬性的方法要優(yōu)于不包含類別屬性的方法,這說明將類別標(biāo)簽引入屬性集,有助于提高目標(biāo)識別的精度.而不包含類別標(biāo)簽的基于屬性的識別方法與傳統(tǒng)方法相當(dāng),這說明基于屬性的方法的有效性.不僅如此,基于屬性的方法還可以用于計(jì)算機(jī)視覺的其他任務(wù),如目標(biāo)描述、異常屬性檢測以及缺失屬性檢測等[2].
表1 算法結(jié)果比較Table 1 Comparison of different algorithms
圖7為基于屬性串聯(lián)方法的目標(biāo)分類混淆矩陣.可見類別人的識別率可以達(dá)到90%,說明基于屬性的分類器的有效性,但其他類別大多數(shù)與人混淆,這是由于數(shù)據(jù)庫比較復(fù)雜,目標(biāo)類內(nèi)變化比較大,而且人這個(gè)類別的實(shí)例非常多,導(dǎo)致結(jié)果偏向于這一類.分類結(jié)果僅次于類別人的是類別汽車,識別率達(dá)到75%,其中有13%錯(cuò)分為類別人.與汽車混淆最多的是公交車和火車,這可能是因?yàn)檫@些交通工具的屬性非常相似,單純依靠屬性進(jìn)行分類的判別性比較差,但從另一個(gè)方面看,說明屬性分類器可以很好地描述目標(biāo)的特性,并可以用于轉(zhuǎn)移學(xué)習(xí)[3]等問題.值得注意的是自行車的分類效果比較差,并且與人混淆的最厲害,這可能是因?yàn)閿?shù)據(jù)庫中自行車經(jīng)常與人同時(shí)出現(xiàn),相互遮擋,導(dǎo)致自行車目標(biāo)中檢測出了人的屬性,不過這也說明了屬性對于描述目標(biāo)的能力.另外一些分類效果非常差的類別,比如沙發(fā)、餐桌等,則可能是因?yàn)檫@些目標(biāo)的類內(nèi)變化非常大,導(dǎo)致分類器性能下降,這也間接說明a-Pascal是非常具有挑戰(zhàn)性的數(shù)據(jù)庫,目標(biāo)的尺度、視點(diǎn)、光照、遮擋及類內(nèi)變化都非常大,對分類器的泛化能力要求高.
圖7 基于屬性串聯(lián)方法的分類混淆矩陣Fig.7 Confusion matrix of method based on concatenated attributes
傳統(tǒng)的目標(biāo)識別算法僅僅考慮圖像底層特征和目標(biāo)類別的關(guān)系,而缺少語義描述.基于屬性的目標(biāo)識別算法以目標(biāo)屬性作為圖像的中層特征,并構(gòu)建目標(biāo)類別與屬性特征的關(guān)系.
本文提出基于圖像上下文信息,即背景屬性的目標(biāo)識別方法,驗(yàn)證背景屬性對于前景目標(biāo)識別的作用.分別實(shí)現(xiàn)了6種方法:即屬性串聯(lián)分類方法、傳統(tǒng)SVM方法、基于目標(biāo)屬性的識別方法(不含類別標(biāo)簽)、基于目標(biāo)屬性的識別方法(含類別標(biāo)簽)、特征串聯(lián)直接分類方法以及特征串聯(lián)屬性分類法,并在a-Pascal數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).結(jié)果證明,假設(shè)屬性獨(dú)立的條件下,利用背景特征有助于提高前景目標(biāo)的識別率,屬性串聯(lián)分類法比傳統(tǒng)SVM方法提升了1.33%.
References)
[1] Farhadi A,Hejrati M,Sadeghi M,et al.Every picture tells a story:generating sentences from images[C]//Computer Vision-ECCV 2010.Heidelberg:Springer Verlag,2010,6314(4):15-29
[2] Farhadi A,Endres I,Hoiem D,et al.Describing objects by their attributes[C]//2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Computer Society,2009:1778-1785
[3] Yu F X,Cao L L,F(xiàn)eris R S,et al.Designing category-level attributes for discriminative visual recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington D C:IEEE Computer Society,2013:771-778
[4] Wang Y,Mori G.A discriminative latent model of object classes and attributes[C]//Lecture Notes in Computer Science.Heidelberg:Springer Verlag,2010(PART5):155-168
[5] Parikh D,Grauman K.Relative attributes[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE,2011:503-510
[6] Lampert C H,Nickisch H,Harmeling S.Learning to detect unseen object classes by between-class attribute transfer[C]//2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Computer Society,2009:951-958
[7] Siddiquie B,F(xiàn)eris R S,Davis L S.Image ranking and retrieval based on multi-attribute queries[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society,2011:801-808
[8] Kumar N,Berg A C,Belhumeur P N,et al.Attribute and simile classifiers for face verification[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE,2009:365-372
[9] Liu J G,Kuipers B,Savarese S.Recognizing human actions by attributes[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society,2011:3337-3344
[10] Duan K,Parikh D,Crandall D,et al.Discovering localized attributes for fine-grained recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington D C:IEEE Computer Society,2012:3474-3481
[11] Torralba A,Murphy K P,F(xiàn)reeman W T,et al.Context-based vision system for place and object recognition[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE,2003,1:273-280
[12] Li F F,Perona P.A Bayesian hierarchical model for learning natural scene categories[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society,2005,2:524-531
[13] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society,2005,1:886-893
[14] Varma M,Zisserman A.A statistical approach to texture classification from single images[J].International Journal of Computer Vision,2005,62(1/2):61-81
[15] Oliva A,Torralba A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-175
[16] Fan R E,Chang K W,Hsieh C J,et al.LIBLINEAR:a library for large linear classification[J].The Journal of Machine Learning Research,2008,9:1871-1874