江 婷,趙啟軍,陳 虎
(四川大學(xué) 計(jì)算機(jī)學(xué)院,四川 成都 610065)
基于多變量標(biāo)簽分布的連續(xù)型姿態(tài)估計(jì)方法
江 婷,趙啟軍,陳 虎
(四川大學(xué) 計(jì)算機(jī)學(xué)院,四川 成都 610065)
人臉的頭部姿態(tài)往往指示并傳達(dá)著豐富的信息,準(zhǔn)確估計(jì)頭部姿態(tài)角度在人臉識(shí)別、表情識(shí)別等領(lǐng)域有重要作用。針對(duì)獲得的人臉真實(shí)姿態(tài)角度往往存在一定的偏差且只包含有限個(gè)離散角度等問題,文中提出了一種基于多變量標(biāo)簽分布的連續(xù)型姿態(tài)估計(jì)方法。在訓(xùn)練階段,對(duì)不同姿態(tài)角度,通過訓(xùn)練獲得離散情況下的多變量標(biāo)簽分布;在測(cè)試階段,采用正交多項(xiàng)式擬合的思想,將離散的分布擬合成連續(xù)的分布,計(jì)算分布的最大值所對(duì)應(yīng)的標(biāo)簽作為最終的輸出結(jié)果。文中在Pointing’04公開庫上進(jìn)行了測(cè)試,利用文中方法,在正交多項(xiàng)式擬合后,估計(jì)出的人臉的姿態(tài)角不再局限于訓(xùn)練集中的一些角度,而是有更多連續(xù)的值,所得的估計(jì)姿態(tài)角更接近于真實(shí)角度。實(shí)驗(yàn)結(jié)果表明,文中方法能夠預(yù)測(cè)出更多的人臉姿態(tài)角度,并且預(yù)測(cè)更穩(wěn)定。
姿態(tài)估計(jì);多變量標(biāo)簽分布;正交多項(xiàng)式擬合;連續(xù)型姿態(tài)
在人際交流中,頭部姿態(tài)是非常重要的部分,靜態(tài)的頭部姿態(tài)的某個(gè)特定方向可指示對(duì)某人的注意,或者對(duì)話的對(duì)象,等等。頭部姿態(tài)的變化也可傳達(dá)豐富的信息,比如贊同、否定、理解、疑惑和驚喜等等。另外,頭部姿態(tài)是很多應(yīng)用領(lǐng)域的關(guān)鍵部分,如人臉識(shí)別、表情識(shí)別、視線估計(jì)等等。因此,頭部姿態(tài)估計(jì)已成為計(jì)算機(jī)視覺和模式識(shí)別的一個(gè)重要研究領(lǐng)域。近年來已經(jīng)有很多頭部姿態(tài)估計(jì)的方法被提出,例如非線性回歸方法[1-5]、子空間嵌入方法[6-9]、基于特殊特征的方法[10-13]和多變量標(biāo)簽分布方法[14]。
在計(jì)算機(jī)視覺領(lǐng)域,頭部姿態(tài)估計(jì)通常指的是使用圖像平面去預(yù)測(cè)頭部方向。通常做法是假設(shè)人的頭部是一個(gè)剛性物體,這樣頭部姿態(tài)只有三個(gè)自由度,包括水平偏轉(zhuǎn)角、俯仰角和旋轉(zhuǎn)角[15]。對(duì)于很多現(xiàn)存的數(shù)據(jù)集,只考慮了有限的離散角度,而且姿態(tài)角度標(biāo)定值往往存在一定的誤差。文獻(xiàn)[14]提出離散的多變量標(biāo)簽分布方法(Multivariate Label Distribution,MLD),將人臉姿態(tài)角度的臨近角度也作為姿態(tài)估計(jì)的標(biāo)簽,使得一個(gè)人臉姿態(tài)可以有不同權(quán)重的多個(gè)值,提高了算法對(duì)訓(xùn)練數(shù)據(jù)中姿態(tài)角度標(biāo)定誤差的魯棒性,也提高了姿態(tài)估計(jì)的正確率。但是現(xiàn)有人臉數(shù)據(jù)庫中的姿態(tài)角度往往是離散的值,若估計(jì)到的姿態(tài)角是真實(shí)值的臨近角度,也會(huì)偏差很大。換言之,現(xiàn)有的MLD方法對(duì)訓(xùn)練集中不包含的姿態(tài)角的圖片預(yù)測(cè)誤差往往會(huì)很大。
為解決上述問題,文中提出了基于MLD的連續(xù)值姿態(tài)估計(jì)方法。首先用MLD得到離散情況下的多變量標(biāo)簽分布,然后用正交多項(xiàng)式擬合的方法擬合成連續(xù)的分布。選用正交多項(xiàng)式作為擬合工具可以得到與一般多項(xiàng)式擬合相同的結(jié)果,而且有效避免了一般多項(xiàng)式擬合時(shí)法方程組的病態(tài)問題。改進(jìn)后的MLD估計(jì)得到的姿態(tài)角度比離散情況更接近真實(shí)值,而不受訓(xùn)練集角度間隔的影響。值得一提的是,提出的方法能非常方便地?cái)U(kuò)展到三個(gè)自由度或者縮減到單個(gè)自由度。
(1)
設(shè)在連續(xù)空間X=q中,標(biāo)簽集Υ={yjk;j=1,2,…,np,k=1,2,…,ny},那么目標(biāo)就是從G學(xué)習(xí)得到一個(gè)條件函數(shù)集p(y|x;θ)。其中x∈X,y∈Υ,θ為參數(shù)向量。該條件函數(shù)集由找到一個(gè)θ使生成的MLD接近于當(dāng)前xi的Pi來決定。由于p(y|x;θ)的形式與Geng等在文獻(xiàn)[16-17]中的工作類似,所以假設(shè)它為一個(gè)最大熵模型,即:
(2)
針對(duì)不同姿態(tài)角度,訓(xùn)練獲得離散情況下的多變量標(biāo)簽分布后,采用正交多項(xiàng)式擬合的思想,將離散的分布擬合成連續(xù)的分布,計(jì)算分布的最大值所對(duì)應(yīng)的標(biāo)簽作為最終姿態(tài)的估計(jì)值。
2.1 一元函數(shù)擬合
(3)
(4)
2.2 二元函數(shù)擬合
(5)
先對(duì)l進(jìn)行擬合后,可得到dk,ωk(l),k=0,1,…,L-1。再對(duì)m進(jìn)行擬合,得到σs,φs(m) ,m=0,1,…,M-1,參考式(4),則
(6)
將式(6)代入式(5)中即得擬合的二元函數(shù)。
當(dāng)從一組可供選擇的模型中選擇一個(gè)最佳模型時(shí),選擇赤池信息量準(zhǔn)則(AkaikeInformationCriterion,AIC)為最小的模型是可取的,所以采用AIC作為決定擬合多項(xiàng)式變量最高階次數(shù)的方法。
(7)
擬合后,在求得最優(yōu)解θ*后,給出一張圖片x',則先根據(jù)p(y|x';θ*),y∈Υ估計(jì)得到它的MLD,然后與MLD中最大描述度相對(duì)應(yīng)的姿態(tài)角即為x'的估計(jì)值。
為了解決現(xiàn)有的MLD方法對(duì)訓(xùn)練集中不包含的姿態(tài)角的圖片預(yù)測(cè)誤差很大的問題,提出了一種基于MLD的連續(xù)值姿態(tài)估計(jì)方法。首先在訓(xùn)練階段,對(duì)不
同姿態(tài)角度的圖片進(jìn)行訓(xùn)練,將每個(gè)訓(xùn)練圖片的臨近姿態(tài)角度的權(quán)重設(shè)為非零值,即該圖片就能有多個(gè)標(biāo)簽值,就可根據(jù)條件函數(shù)獲得離散情況下的多變量標(biāo)簽分布。
在測(cè)試階段,采用正交多項(xiàng)式擬合的思想,對(duì)于給定的測(cè)試圖片,通過將參數(shù)向量θ擬合成連續(xù)的函數(shù),獲得θ的最優(yōu)解,然后與MLD中最大描述度相對(duì)應(yīng)的姿態(tài)角即為該測(cè)試圖片的估計(jì)值。整體框圖如圖1所示。
圖1 基于MLD的連續(xù)型姿態(tài)估計(jì)方法的框圖
為驗(yàn)證改進(jìn)的MLD方法的估計(jì)效果,將該方法在Pointing’04人臉庫上進(jìn)行了測(cè)試。Pointing’04人臉庫包括9個(gè)離散的俯仰角{-90°,-60°,-30°,-15°,0°,15°,30°,60°,90°},以及13個(gè)離散的水平偏轉(zhuǎn)角度{-90°,-75°,-60°,-45°,-30°,-15°,0°,15°,30°,45°,60°,75°,90°}。人臉的姿態(tài)由一個(gè)水平偏轉(zhuǎn)角和一個(gè)俯仰角組成,特別地,當(dāng)俯仰角為-90°和90°時(shí),水平偏轉(zhuǎn)角始終是0°。所以,該數(shù)據(jù)庫中包括13×7+2=93個(gè)姿態(tài)角。該庫包含兩次采集15個(gè)人的人臉圖像,共93×15×2=2 790張。圖2給出了該庫中單個(gè)人的部分角度圖像,庫中每張圖片被歸一化為32×32大小的灰度圖,用方向梯度直方圖(HistogramofOrientedGradients,HOG)[18]提取特征,每個(gè)細(xì)胞單元為3×3個(gè)像素。
圖2 Pointing’04人臉庫中同一個(gè)人部分角度圖像
實(shí)驗(yàn)中,首先對(duì)Pointing’04人臉庫隨機(jī)選取14個(gè)人(93×14×2=2 604張)的圖片進(jìn)行訓(xùn)練,剩下1人(93×2=186張)圖片進(jìn)行測(cè)試。因?yàn)楫?dāng)俯仰角為-90°和90°時(shí),水平偏轉(zhuǎn)角始終是0°,所以測(cè)試時(shí)去除這兩個(gè)姿態(tài)角,則剩余91個(gè)姿態(tài)。多次實(shí)驗(yàn)證明,當(dāng)p=4,q=8時(shí),擬合得到的多項(xiàng)式最大地逼近了離散標(biāo)簽值。圖3給出了對(duì)于測(cè)試圖片,通過多項(xiàng)式擬合,階數(shù)分別為4和8時(shí),θ前后值的對(duì)比,空心圓圈曲線表示θ的初始值,實(shí)心點(diǎn)曲線表示擬合后的θ的值,橫軸表示91個(gè)姿態(tài)標(biāo)簽值,縱軸為θ的值。
圖3 θ擬合前后曲線對(duì)比
在正交多項(xiàng)式擬合后,估計(jì)出的人臉的姿態(tài)角不再局限于訓(xùn)練集中的一些角度,而是有更多連續(xù)的值,表1列出了部分真實(shí)值所對(duì)應(yīng)的兩種方法估計(jì)出來的結(jié)果。
表1 離散和連續(xù)MLD方法的估計(jì)結(jié)果對(duì)比
通過對(duì)比可以看出,連續(xù)的MLD方法估計(jì)出的值更接近真實(shí)值,而離散的方法使結(jié)果偏差為15°的倍數(shù)。
準(zhǔn)確估計(jì)人臉的姿態(tài)角度在人臉識(shí)別、表情識(shí)別等領(lǐng)域有重要作用。文中受文獻(xiàn)[14]的啟發(fā),針對(duì)受現(xiàn)有離散的人臉數(shù)據(jù)庫中的有限姿態(tài)角度的影響,MLD估計(jì)得到的姿態(tài)角也會(huì)偏差很大這個(gè)問題,提出了一種正交多項(xiàng)式擬合的方法,將標(biāo)簽擬合為連續(xù)值,使姿態(tài)估計(jì)地更接近真實(shí)值。實(shí)驗(yàn)結(jié)果表明,文中方法能夠預(yù)測(cè)出更多角度的人臉姿態(tài)角度并且估計(jì)的姿態(tài)更穩(wěn)定。
[1]StiefelhagenR.Estimatingheadposewithneuralnetworks-resultsonthePointing04ICPRworkshopevaluationdata[C]//Procofpointing2004workshop:visualobservationofdeicticgestures.Cambridge,UK:[s.n.],2004.
[2]GourierN,MaisonnasseJ,HallD,etal.Headposeestimationonlowresolutionimages[C]//ProcofCLEAR.[s.l.]:[s.n.],2006:270-280.
[3]VoitM,NickelK,StiefelhagenR.Neuralnetworkbasedheadposeestimationandmulti-viewfusion[C]//ProcofCLEAR.[s.l.]:[s.n.],2006:291-298.
[4]GuoG,FuY,DyerCR,etal.Headposeestimation:classificationorregression[C]//Procof19thinternationalconfonpatternrecognition.FL:[s.n.],2008.
[5]HajMA,Gonz`alezJ,DavisLS.Onpartialleastsquaresinheadposeestimation:howtosimultaneouslydealwithmisalignment[C]//ProcofIEEEconfoncomputervisionandpatternrecognition.[s.l.]:IEEE,2012:2602-2609.
[6]TuJ,FuY,HuY,etal.Evaluationofheadposeestimationforstudiodata[C]//Procof1stinternationalworkshoponclassificationofevents,activitiesandrelationships.Southampton,UK:[s.n.],2006:281-290.
[7]LiZ,FuY,YuanJ,etal.Querydrivenlocalizedlineardiscriminantmodelsforheadposeestimation[C]//ProcofIEEEinternationalconfonmultimediaandexpo.Beijing,China:IEEE,2007:1810-1813.
[8]FoytikJ,AsariVK.Atwo-layerframeworkforpiecewiselinearmanifold-basedheadposeestimation[J].InternationalJournalofComputerVision,2013,101(2):270-287.
[9]LuJiwen,TanYP.Ordinarypreservingmanifoldanalysisforhumanageandheadposeestimation[J].IEEETransonHuman-MachineSystems,2013,43(2):249-258.
[10]GurbuzS,OztopE,InoueN.Modelfreeheadposeestimationusingstereovision[J].PatternRecognition,2012,45(1):33-42.
[11]ZhuX,RamananD.Facedetection,poseestimation,andlandmarklocalizationinthewild[C]//ProcofIEEEconfoncomputervisionandpatternrecognition.[s.l.]:IEEE,2012:2879-2886.
[12] Fanelli G,Dantone M,Gall J,et al.Random forests for real time 3D face analysis[J].International Journal of Computer Vision,2013,101(3):437-458.
[13] Ma B,Chai X,Wang T.A novel feature descriptor based on biologically inspired feature for head pose estimation[J].Neurocomputing,2013,115:1-10.
[14] Geng X,Xia Y.Head pose estimation based on multivariate label distribution[C]//Proc of IEEE conf on computer vision and pattern recognition.Columbus,Ohio:IEEE,2014:1837-1842.
[15] Murphy-Chutorian E,Trivedi M M.Head pose estimation in computer vision:a survey[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2009,31(4):607-626.
[16] Geng X,Smith-Miles K,Zhou Z H.Facial age estimation by learning from label distributions[C]//Proc of 24th AAAI conf on artificial intelligence.Atlanta:[s.n.],2010:451-456.
[17] Geng X,Yin C,Zhou Z H.Facial age estimation by learning from label distributions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(10):2401-2412.
[18] Felzenszwalb P F,Girshick R B,McAllester D A,et al.Object detection with discriminatively trained part-based models[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.
A Continuous Head Pose Estimation Method Based on Multivariate Label Distribution
JIANG Ting,ZHAO Qi-jun,CHEN Hu
(School of Computer Science,Sichuan University,Chengdu 610065,China)
The human’s head pose are abundant of information.Accurate estimation of head pose plays an important role in face recognition,expression recognition and so on.To improve the precision of estimation and to alleviate the problem that poses are always fixed to some angles,a continuous method based on multivariate label distribution to estimate head poses was presented.In the training phase,get the discrete multivariate distribution from discrete poses and angles.In the testing phase,adopt orthogonal polynomial fitting to transform the discrete distribution into continuous distribution and compute the label corresponding to maximum in distribution as final output.The proposed method has been tested on the open Pointing’04 database.After orthogonal polynomial fitting,the estimated angles are no longer limited to angles in test set,but more continuous values.The estimated angle obtained by the method proposed is closer to the real angle.The result indicates that this method can estimate head pose in wider angle,the result is more stable.
head pose estimation;multivariate label distribution;orthogonal polynomial fitting;continuous head pose
2015-04-29
2015-08-04
時(shí)間:2016-01-04
國(guó)家自然科學(xué)基金資助項(xiàng)目(61202160,61202161);科技部重大儀器專項(xiàng)(2013YQ49087904)
江 婷(1991-),女,碩士研究生,研究方向?yàn)槟J阶R(shí)別、計(jì)算機(jī)視覺;趙啟軍,副教授,碩士生導(dǎo)師,研究方向?yàn)槟J阶R(shí)別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等;陳 虎,講師,碩士生導(dǎo)師,研究方向?yàn)槟J阶R(shí)別。
http://www.cnki.net/kcms/detail/61.1450.TP.20160104.1505.026.html
TP399.1
A
1673-629X(2016)01-0111-04
10.3969/j.issn.1673-629X.2016.01.023