邱麗梅, 吳 龍, 晉芳偉, 熊昌炯
(三明學(xué)院物理與機(jī)電工程學(xué)院,福建 三明 365004)
基于稀疏模型的人臉姿態(tài)估計(jì)
邱麗梅, 吳 龍, 晉芳偉, 熊昌炯
(三明學(xué)院物理與機(jī)電工程學(xué)院,福建 三明 365004)
針對現(xiàn)有的人臉姿態(tài)估計(jì)方法易受“自遮擋”影響,采用改進(jìn)的ASM算法提取人臉特征點(diǎn),并利用人臉形態(tài)的幾何統(tǒng)計(jì)知識來估計(jì)人臉特征點(diǎn)的深度值。以人臉主要特征點(diǎn)建立人臉稀疏模型,在利用相關(guān)人臉特征點(diǎn)近似估計(jì)人臉姿態(tài)后,通過最小二乘法精確估計(jì)三維人臉空間姿態(tài)。實(shí)驗(yàn)結(jié)果表明,對于“自遮擋”情況,該方法仍有較好的估計(jì)結(jié)果,與同類方法比較具有良好的姿態(tài)估計(jì)精度。
人臉姿態(tài)估計(jì);稀疏模型;特征點(diǎn);最小二乘
人臉姿態(tài)估計(jì)即從輸入的單幅圖像或圖像序列中確定人臉在三維空間中的姿態(tài)的過程。它在人臉識別、智能環(huán)境、普適計(jì)算、智能屋等新技術(shù)及計(jì)算機(jī)游戲、虛擬現(xiàn)實(shí)、智能人機(jī)界面、機(jī)器人應(yīng)用、人臉動(dòng)畫合成、意識估計(jì)判別、低比特率視頻編碼、智能視覺監(jiān)控和司機(jī)疲勞檢測系統(tǒng)等方面都有著廣泛的應(yīng)用?,F(xiàn)有的人臉姿態(tài)估計(jì)方法大體上可以分為兩類[1]:
基于人臉外觀的學(xué)習(xí)方法,即假設(shè)三維人臉姿態(tài)與人臉圖像的某些特性(圖像密度、顏色、圖像梯度值等)存在唯一的對應(yīng)關(guān)系,用大量已知三維人臉姿態(tài)的訓(xùn)練樣本,通過統(tǒng)計(jì)方法來建立這種關(guān)系[2]。
基于模型的方法,即利用某種幾何模型或結(jié)構(gòu)來表示人臉的結(jié)構(gòu)和形狀,建立模型和圖像之間的對應(yīng)關(guān)系,然后通過幾何或者其它方法實(shí)現(xiàn)人臉空間姿態(tài)估計(jì)。與上述方法相比,基于模型的方法具有實(shí)施簡單、精度高等優(yōu)點(diǎn),但是它對特征點(diǎn)提取的精度要求較高[3-5]。
在不考慮“自遮擋”情況時(shí),文獻(xiàn)[6]已得到了較精確的估計(jì)結(jié)果,針對“自遮擋”情況和文獻(xiàn)[7]中無法準(zhǔn)確獲得人臉特征點(diǎn)的深度值,本文提出了一種基于稀疏模型和最小二乘法的三維人臉姿態(tài)估計(jì)方法。實(shí)驗(yàn)結(jié)果表明,本文提出的方法不僅可以獲得穩(wěn)定和唯一的三維人臉空間姿態(tài),而且與同類方法比較具有良好的穩(wěn)定性和姿態(tài)估計(jì)精度,并能適應(yīng)一定的“自遮擋”情況。
通過改進(jìn)的活動(dòng)形狀模型(Active Shape Model,簡稱 ASM)方法提取人臉特征點(diǎn)[8-9],該算法不僅速度快、精度高,且能適應(yīng)一定的“自遮擋”情況(如,眼鏡及頭發(fā)小面積的局部遮擋等)和表情變化。準(zhǔn)確地提取到所需要的特征點(diǎn)(如兩眼、嘴和鼻子等),但對于單張照片在不知道人臉特征點(diǎn)深度及其它信息的前提下進(jìn)行姿態(tài)估計(jì),只采用基于幾何模型的方法是不可能實(shí)現(xiàn)的。對此,利用人臉形態(tài)的幾何統(tǒng)計(jì)知識來估計(jì)人臉特征點(diǎn)的深度值[10],從而豐富人臉預(yù)知信息,實(shí)現(xiàn)對單張照片中人臉的姿態(tài)估計(jì)。
已知人臉n個(gè)特征點(diǎn),則人臉結(jié)構(gòu)可用特征點(diǎn)進(jìn)行線性組合構(gòu)造一個(gè)稀疏形狀向量sL來表示,
式中,上標(biāo)‘L’表示向量sL是由特征點(diǎn)組合而成的。由人臉特征形態(tài)學(xué)可知,人臉屬于線性結(jié)構(gòu),因此,人臉特征點(diǎn)向量的估計(jì)值可由訓(xùn)練庫中所有人臉的稀疏形狀向量線性組合而成:
由輸入二維人臉圖像上的特征點(diǎn)信息,可以求出組合系數(shù)η:
通過優(yōu)化求解得出使)(ηE取最小值的0η。則根據(jù)式(3)所有特征點(diǎn)的坐標(biāo)組成的稀疏形狀向量的估計(jì)值為:
選用左右眼內(nèi)外角點(diǎn)和左右嘴角點(diǎn),鼻尖,下巴頂點(diǎn)等共 8個(gè)主要特征點(diǎn)來構(gòu)成人臉的模型。模型坐標(biāo)系的原點(diǎn)選在鼻尖處,這樣,人臉的稀疏模型實(shí)際由7個(gè)點(diǎn)的坐標(biāo)構(gòu)成,如下:
其中pi為模型點(diǎn)在自身坐標(biāo)系中的坐標(biāo),xe1、xe2分別表示外、內(nèi)眼角間距的一半,xm為嘴角間距的一半,yc為下巴定點(diǎn)到鼻尖的距離,z表示相應(yīng)的深度距離,不同的人臉的這3個(gè)值是不同的,其差異部分反映了模型與真實(shí)人臉的結(jié)構(gòu)的差異。
假設(shè)模型點(diǎn)pi(xi,yi,zi)對應(yīng)的像點(diǎn)為qi(μi,vi),R為姿態(tài)旋轉(zhuǎn)矩陣,t為平移矩陣,f為像機(jī)焦距。根據(jù)透視成像可得:
相應(yīng)的透視成像模型可以表示如下:
姿態(tài)估計(jì)問題可表述為:已知像機(jī)參數(shù)C,模型點(diǎn){pi,i=1,2,…,n}和其在像機(jī)C中的像點(diǎn){qi,i=1,2,…,n},求姿態(tài)參數(shù)(α,β,γ)。
人臉姿態(tài)有6個(gè)自由度的變化,即沿X、Y、Z軸的平移和繞X、Y、Z軸的旋轉(zhuǎn)。對沿X、Y的平移,在圖像上表現(xiàn)為人臉的位置變化,可以通過統(tǒng)一坐標(biāo)系實(shí)現(xiàn);對沿Z軸的平移,在圖像上表現(xiàn)為比例的變化,可以通過比例歸一化實(shí)現(xiàn)。所以本文重點(diǎn)在于研究人臉繞X、Y、Z三軸的旋轉(zhuǎn)問題,旋轉(zhuǎn)角分別為α、β 和γ。
首先,利用相關(guān)特征點(diǎn)進(jìn)行姿態(tài)近似估計(jì),得到人臉姿態(tài)近似值α0, β0, γ0。
然后,對式(10),求其最小二乘優(yōu)化解。通過線性化調(diào)整最小二乘[7],過程如下:在檢測圖像坐標(biāo)時(shí)總是存在誤差的,則,
其中,000,,γβα是近似值,γβαΔΔΔ,,是它們相應(yīng)的誤差。
假設(shè):
在此,不考慮平移量t,通過牛頓第一定律進(jìn)行線性化得:
其中,“0”上標(biāo)表示(α0,β0,γ0)所對應(yīng)的函數(shù)值,當(dāng)Fi1=Fi2=0,線性化方程可被表示成矩陣形式:
本次實(shí)驗(yàn)采用CMU PIE人臉數(shù)據(jù)庫,該數(shù)據(jù)庫包含了 68個(gè)人的人臉,均為彩色圖像,以PPM格式存儲,分辨率為640×486,人臉圖像大小不一,背景多樣,13種不同表情,43種不同光照,5種不同姿態(tài),共41368幅人臉圖像。
實(shí)驗(yàn)前,對圖像進(jìn)行了去噪和標(biāo)準(zhǔn)化處理,圖像大小統(tǒng)一處理為 64×64。對其中的β=0°,±22.5°,±45° 5個(gè)姿態(tài)共170幅人臉圖像進(jìn)行了測試,其中也包含了部分“自遮擋”(眼鏡和少量頭發(fā)遮擋)。實(shí)驗(yàn)基于Matlab6.5平臺,結(jié)果表示形式為(γβα,,),單位為度(°),隨機(jī)選取部分結(jié)果,如圖1所示:
圖1 部分估計(jì)結(jié)果
在一般應(yīng)用系統(tǒng)中,對繞Y軸旋轉(zhuǎn)的斜視圖像應(yīng)用較多,所以通過測試β來檢測算法的精確程度。下面列出β=0°、22.5°、45°時(shí)的絕對平均誤差表,如表1所示:
表1 β絕對平均誤差
實(shí)驗(yàn)結(jié)果顯示,雖然圖像的姿態(tài)角越小或不存在“自遮擋”時(shí),估計(jì)結(jié)果越精確,但β的總體絕對平均誤差為2.24°,仍然比較理想。
特征點(diǎn)定位往往是存在誤差的,特別是在“自遮擋”情況下,圖2顯示了當(dāng)特征點(diǎn)定位有誤差時(shí)姿態(tài)估計(jì)的性能:
圖2 當(dāng)特征點(diǎn)定位有誤差時(shí)姿態(tài)估計(jì)誤差的變化
曲線表明,雖然隨著特征點(diǎn)的定位誤差的增加,3個(gè)角度的誤差都有增大的趨勢,α和β的誤差增長比較明顯,但仍低于4°。
表 2給出了用本文方法與文獻(xiàn)[4]和文獻(xiàn)[7]方法測得的β估計(jì)結(jié)果比較。
表2 估計(jì)結(jié)果對比
可見,本文算法即使在“自遮擋”情況下,仍然具有較高的姿態(tài)估計(jì)精度。
對于本文提出的基于稀疏模型的人臉姿態(tài)估計(jì)方法,利用CMU PIE人臉數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn),結(jié)果表明:該算法不僅可以獲得穩(wěn)定和唯一的姿態(tài)解,而且在有“自遮擋”的情況下,得到的β絕對平均誤差仍保持在 2.24°左右,與同類方法比較具有較好的姿態(tài)估計(jì)精度。
如果資金允許,能利用相關(guān)設(shè)備直接采集人臉三維數(shù)據(jù),將使算法更能適應(yīng)“自遮擋”、光照變化和多表情、多姿態(tài)變化情況。
[1]Eric M C, Mohan M T. Head pose estimation in computer:A Survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(4):607-626.
[2]Li S Z, Lu Xiaogang, Hou Xinwen , et al. Learning multiview face subspaces and facial pose estimation using independent component analysis [J]. IEEE Transactions on Image Processing, 2005, 14(6):705-712.
[3]Shafi M, Chung P W H. Face pose estimation from eyes and mouth [J]. Advanced Mechatronics Systems,2010, 11(2):132-138.
[4]Mazumda D R, Dutta S, Mitra S. Automatic feature detection of a face and recovery of its pose [C]//Communicated to Journal of IETE, Washington, USA,2003:505-511.
[5]曾 慧,穆志純,袁 立.基于三維模型的人臉姿態(tài)估計(jì)方法[J]. 計(jì)算機(jī)工程, 2011, 37(9):1-3.
[6]邱麗梅, 李青虹. 基于多點(diǎn)模型和改進(jìn)BFGS的人臉姿態(tài)估計(jì)[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2011, 28(9):126-129.
[7]胡步發(fā), 邱麗梅. 基于多點(diǎn)模型的3D人臉姿態(tài)估計(jì)方法[J]. 中國圖象圖形學(xué)報(bào), 2008, 13(7):1353-1358.
[8]Wan K W, Lam K M , Chong K. An accurate active shape model for facial feature extraction [J]. Pattern Recognition Letters, 2005, 26(12):2409-2423.
[9]邱麗梅. 基于改進(jìn)的ASM人臉特征點(diǎn)定位[J]. 三明學(xué)院學(xué)報(bào), 2010, 27(2):124-127.
[10]王國胤, 龔 勛, 鄒建法, 等. 基于認(rèn)知機(jī)理的三維人臉建模及應(yīng)用研究[J]. 重慶郵電大學(xué)學(xué)報(bào),2009, 21(4):555-560.
Face Pose Estimation Based on Sparse Model
Qiu Limei, Wu Long, Jin Fangwei, Xiong Changjiong
( Department of Physics, Mechanical and Electric Engineering, Sanming University, Sanming Fujian 365004, China )
The method of face pose estimation is vulnerable to ‘self-occlusion’ at present. To solve this problem, an improved ASM algorithm is used to extract facial feature points, and the geometric statistical knowledge of the face shape is used to estimate the depth of the facial feature points. Then the sparse face model is established based on the main features of human face. After estimating the face pose approximately with relevant face feature points, 3D space face pose is estimated accurately via the algorithm of least-squares method. The experiment results show that the method has better estimated results for the case of ‘self-occlusion’, and has better estimation accuracy compared with the same kind of method.
face pose estimation; sparse model; feature points; least-squares
TP 391
A
2095-302X (2013)04-0094-04
2012-09-26;定稿日期:2013-01-28
福建省高校服務(wù)海西建設(shè)重點(diǎn)工程資助項(xiàng)目(HX200804);福建省質(zhì)量工程項(xiàng)目(ZL1002/RM(sj))
邱麗梅(1981-),女,福建三明人,講師,碩士,主要研究方向?yàn)槟J阶R別、機(jī)電一體化。E-mail:qiulimei1981@163.com