陳國(guó)軍,楊 靜,程 琰,尹 鵬
基于RGBD的實(shí)時(shí)頭部姿態(tài)估計(jì)
陳國(guó)軍,楊 靜,程 琰,尹 鵬
(中國(guó)石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580)
實(shí)時(shí)的頭部姿態(tài)估計(jì)在人機(jī)交互和人臉?lè)治鰬?yīng)用中起著至關(guān)重要的作用,但準(zhǔn)確的頭部姿態(tài)估計(jì)方法依然具有一定的挑戰(zhàn)性。為了提高頭部姿態(tài)估計(jì)的準(zhǔn)確性和魯棒性,將基于幾何的方法與基于學(xué)習(xí)的方法相結(jié)合進(jìn)行頭部姿態(tài)估計(jì)。在人臉檢測(cè)和人臉對(duì)齊的基礎(chǔ)上,提取彩色圖像幾何特征和深度圖像的局部區(qū)域深度特征,再結(jié)合深度塊的法線和曲率特征,構(gòu)成特征向量組;然后使用隨機(jī)森林的方法進(jìn)行訓(xùn)練;最后,所有決策樹進(jìn)行投票,對(duì)得到的頭部姿態(tài)高斯分布估計(jì)進(jìn)行閾值過(guò)濾,進(jìn)一步提高模型預(yù)測(cè)的準(zhǔn)確度。實(shí)驗(yàn)結(jié)果表明,該方法與現(xiàn)有的頭部姿態(tài)估計(jì)方法相比,具有更高的準(zhǔn)確度及魯棒性。
頭部姿態(tài)估計(jì);隨機(jī)森林;RGBD數(shù)據(jù);幾何特征;深度特征
頭部姿態(tài)估計(jì)簡(jiǎn)單的說(shuō),是通過(guò)圖像推斷出人的頭部轉(zhuǎn)動(dòng)角度。準(zhǔn)確的頭部姿態(tài)估計(jì)可用于視線方向估計(jì)[1],駕駛員后視鏡查看行為檢測(cè)[2],預(yù)測(cè)駕駛員疲勞狀態(tài)[3]或幫助殘疾人控制輪椅方向等等,因此精確、快速的頭部姿態(tài)估計(jì)已成為計(jì)算機(jī)視覺(jué)近年來(lái)的研究熱點(diǎn)。從數(shù)據(jù)源角度分析,頭部姿態(tài)估計(jì)的方法分為:基于二維彩色圖像、基于深度圖像和基于RGBD圖像3種。
基于二維彩色圖像的方法是最早應(yīng)用到頭部姿態(tài)估計(jì)的一種傳統(tǒng)方法。LI等[4]采用基于模板匹配的方法對(duì)序列圖像進(jìn)行頭部姿態(tài)估計(jì),該方法簡(jiǎn)單,但準(zhǔn)確度不高且計(jì)算量較大;郭知智等[5]使用基于幾何的方法將眼角點(diǎn)和鼻尖作為特征點(diǎn),利用自適應(yīng)線性回歸估計(jì)頭部姿態(tài),該方法對(duì)特殊點(diǎn)的依賴性較大;MA等[6]采用面部特征點(diǎn)的方法進(jìn)行頭部姿態(tài)估計(jì),其需要手動(dòng)提取面部區(qū)域,圖像處理的時(shí)間較長(zhǎng);閔秋莎等[7]同樣提出一種基于面部特征點(diǎn)定位的頭部姿態(tài)估計(jì)方法,但該方法只能估計(jì)出頭部的粗略方向。文獻(xiàn)[8]提出面部行為分析工具OpenFace,使用面部68個(gè)特征點(diǎn)的相對(duì)位置估計(jì)頭部姿態(tài),其在頭部轉(zhuǎn)動(dòng)較大的情況下特征點(diǎn)定位不夠準(zhǔn)確,頭部姿態(tài)估計(jì)效果較差。
由于二維彩色圖像受光照變化和部分遮擋的影響比較大,導(dǎo)致準(zhǔn)確度低;基于深度圖像的方法可以有效降低光照和遮擋的影響,提高了頭部姿態(tài)的魯棒性。文獻(xiàn)[9]首次利用深度信息的隨機(jī)回歸森林方法進(jìn)行頭部姿態(tài)估計(jì),且規(guī)定圖像中只能有頭部信息;劉袁緣等[10]引入樹結(jié)構(gòu)分層隨機(jī)森林(random forest,RF)的方法進(jìn)行頭部姿態(tài)估計(jì),提高了非約束環(huán)境下多類頭部姿態(tài)估計(jì)的準(zhǔn)確率和效率,但是結(jié)構(gòu)復(fù)雜、計(jì)算量大;文獻(xiàn)[11]提出一種基于特征點(diǎn)識(shí)別的計(jì)算框架,將頭部姿態(tài)問(wèn)題轉(zhuǎn)換為空間鼻尖特征點(diǎn)和朝向特征點(diǎn)的問(wèn)題,該方法對(duì)鼻子的遮擋變得極其敏感,穩(wěn)定性不夠。李成龍等[12]提出了一種基于卡爾曼濾波和隨機(jī)回歸森林的頭部姿態(tài)估計(jì)方法,其使用卡爾曼濾波和隨機(jī)回歸森林相結(jié)合的方法進(jìn)行頭部姿態(tài)估計(jì)。該方法降低了深度圖像的噪聲影響,與單獨(dú)的RF方法相比,其魯棒性和準(zhǔn)確性得到了提高。
由于深度圖像存在噪聲且解像度低,只使用深度信息進(jìn)行頭部姿態(tài)估計(jì)精確度較差,因此基于RGBD圖像的方法受到越來(lái)越多人的關(guān)注。LI等[13]使用彩色圖像檢測(cè)特征點(diǎn),并結(jié)合深度圖像獲得特征點(diǎn)的三維信息,使用Levenberg-Marquardt方法迭代優(yōu)化姿態(tài)參數(shù),最后使用卡爾曼濾波平滑參數(shù)。文獻(xiàn)[14]使用基于AAM模型計(jì)算當(dāng)前圖像的頭部姿態(tài),然后使用估計(jì)的頭部姿態(tài)值將圖片轉(zhuǎn)換為初始視圖,最后計(jì)算初始視圖和當(dāng)前的圖像特征點(diǎn)投影坐標(biāo)之間的距離,用于估計(jì)頭部姿態(tài)跟蹤的誤差值;文獻(xiàn)[15]利用3D點(diǎn)云的圖像集合,將當(dāng)前視圖轉(zhuǎn)換為基于外觀的集群;文獻(xiàn)[16]提出了CLM-Z模型,在CLM的基礎(chǔ)上增加了深度信息,進(jìn)一步提高了頭部姿態(tài)估計(jì)的準(zhǔn)確度。彩色圖像和深度圖像相結(jié)合的方法改進(jìn)了彩色圖像對(duì)光照、陰影較敏感的缺點(diǎn),通常具有很高的魯棒性和準(zhǔn)確性,但是由于一般要求使用的彩色圖像分辨率較高,導(dǎo)致算法的計(jì)算速率低,很難保證實(shí)時(shí)性。
為了保證算法的效率,滿足實(shí)時(shí)性的應(yīng)用需求,本文提出一種基于RGBD的頭部姿態(tài)估計(jì)方法,提取彩色圖像中關(guān)鍵點(diǎn)幾何位置特征、深度圖像的局部深度特征以及法線和曲率特征,并使用RF的方法進(jìn)行訓(xùn)練和預(yù)測(cè)。該方法有效地解決了復(fù)雜環(huán)境下的頭部姿態(tài)估計(jì)問(wèn)題,并且降低了現(xiàn)有方法對(duì)彩色圖像高分辨率的要求,擴(kuò)展了頭部姿態(tài)估計(jì)的應(yīng)用范圍,很好的避免了不同環(huán)境下光照變化、陰影等問(wèn)題。
本文的研究目的是使用低成本傳感器獲得的彩色圖像和低質(zhì)量深度圖像估計(jì)頭部姿態(tài)。首先對(duì)圖像進(jìn)行人臉檢測(cè),提取頭部位置的圖像;然后進(jìn)一步進(jìn)行人臉對(duì)齊,定位面部特征點(diǎn)。為保證人臉檢測(cè)算法的準(zhǔn)確性及魯棒性,本文采用了seetaFace進(jìn)行人臉檢測(cè)和對(duì)齊。
人臉檢測(cè)模塊基于一種經(jīng)典級(jí)聯(lián)結(jié)構(gòu)和多層神經(jīng)網(wǎng)絡(luò)相結(jié)合的人臉檢測(cè)方法[17]實(shí)現(xiàn),其所采用的漏斗型級(jí)聯(lián)結(jié)構(gòu)(funnel-structured cascade,F(xiàn)uSt)專門針對(duì)多姿態(tài)人臉檢測(cè)而設(shè)計(jì),其中引入了由粗到精的設(shè)計(jì)理念,兼顧了速度和精度的平衡。
人臉對(duì)齊模塊采用一種由粗到精的自編碼器網(wǎng)絡(luò)(coarse-to-fine auto-encoder networks,CFAN[18])來(lái)求解從人臉表觀到人臉形狀的復(fù)雜非線性映射過(guò)程。CFAN級(jí)聯(lián)了多級(jí)棧式自編碼器網(wǎng)絡(luò),其中的每一級(jí)均刻畫從人臉表觀到人臉形狀的部分非線性映射。
為降低光照和陰影對(duì)圖像的影響,采用了彩色圖像的幾何特征和深度圖像特征相結(jié)合的方法進(jìn)行頭部姿態(tài)估計(jì)。幾何特征和深度特征均是在人臉對(duì)齊定位特征點(diǎn)之后獲取。
當(dāng)頭部發(fā)生轉(zhuǎn)動(dòng)時(shí),由于頭部與圖像平面間的夾角發(fā)生改變,圖像平面上關(guān)鍵點(diǎn)間的相對(duì)距離也會(huì)發(fā)生變化。所以文獻(xiàn)[5-8]直接利用面部特征點(diǎn)的相對(duì)位置進(jìn)行頭部姿態(tài)估計(jì)。為了提高準(zhǔn)確率,在提取面部特征點(diǎn)相對(duì)位置的基礎(chǔ)上,進(jìn)一步提取特征點(diǎn)組成三角形的面積信息,豐富了圖形特征,并使用RF進(jìn)行訓(xùn)練。
在RGB圖像中定位人臉關(guān)鍵點(diǎn)以后(圖1),需為5個(gè)特征點(diǎn)編號(hào),1為左眼,2為右眼,3為鼻尖,4為左嘴角,5為右嘴角。按照一定順序,計(jì)算任意2點(diǎn)間的距離,以及任意不共線3點(diǎn)組成三角形的面積(當(dāng)3點(diǎn)共線時(shí),標(biāo)記三角形面積為0)。提取每張彩色圖片特征點(diǎn)之間的距離和三角形的面積作為輸入特征,訓(xùn)練模型。
圖1 人臉檢測(cè)和人臉對(duì)齊
除了彩色圖像幾何特征之外,還提取了深度圖像特征,即5個(gè)特征點(diǎn)附近的局部深度特征(圖2)。為了得到更加準(zhǔn)確的頭部姿態(tài)估計(jì),在局部深度特征的基礎(chǔ)上,進(jìn)一步將深度數(shù)據(jù)轉(zhuǎn)換成點(diǎn)云數(shù)據(jù),提取法線特征(圖3)以及曲率特征。
圖2 深度圖中提取對(duì)應(yīng)特征點(diǎn)的局部深度信息
圖3 點(diǎn)云法向量
表面法線是幾何體一個(gè)很重要的特征,可以描述面部局部區(qū)域的凹凸情況,有效區(qū)分鼻尖點(diǎn)、嘴角點(diǎn)、眼角點(diǎn)等特殊點(diǎn),常常被用于點(diǎn)云渲染、重建和注冊(cè)等計(jì)算機(jī)視覺(jué)應(yīng)用中。將深度圖像轉(zhuǎn)換為點(diǎn)云后,表面法線的問(wèn)題可以近似轉(zhuǎn)化為切面的問(wèn)題,進(jìn)而變成最小二乘法擬合平面的問(wèn)題。因此表面法線的計(jì)算問(wèn)題就變?yōu)榉治鼋忺c(diǎn)組成的協(xié)方差矩陣的特征矢量和特征值問(wèn)題,對(duì)于每一個(gè)點(diǎn)P,對(duì)應(yīng)的協(xié)方差矩陣,即
采用基于Voronoi區(qū)域面積的方法計(jì)算離散曲率,先生成Delaunay三角網(wǎng),再利用Voronoi圖計(jì)算局部塊的高斯曲率和平均曲率[19]。將高斯曲率和平均曲率的公式離散化,平均曲率向量為
其中,1()={|x與x之間有一條邊};為x所在的Voronoi區(qū)域的面積之和(圖4(b));α和β為邊xx對(duì)應(yīng)的2個(gè)角度(圖4(d))。當(dāng)x所在的某個(gè)三角形是鈍角三角形時(shí),需對(duì)作修正[20]。高斯曲率為
其中,為是x所在三角形的數(shù)目;角θ如圖(4(e))所示。
(a) 離散點(diǎn)(b) Delaunay三角網(wǎng)格 (c) Voronoi圖(d) 平均曲率
因此每組訓(xùn)練圖像的參數(shù)為={P=(X,L)},其中,X為一幅圖像得到的圖像特征,即X= (A,D,N,C),A為5個(gè)特征點(diǎn)組成的線段距離和任意3個(gè)點(diǎn)組成三角形的面積特征,D為特征點(diǎn)區(qū)域局部深度塊的深度特征;N為近鄰的法線特征;C為局部深度塊的高斯曲率和平均曲率特征;L為標(biāo)注真實(shí)值的標(biāo)簽數(shù)據(jù)。圖像特征提取完成以后,使用隨機(jī)回歸森林進(jìn)行訓(xùn)練和測(cè)試。
RF是一種由決策樹組成的著名機(jī)器學(xué)習(xí)算法。該方法已經(jīng)被應(yīng)用到解決計(jì)算機(jī)視覺(jué)的很多問(wèn)題,如分類、回歸和概率密度估計(jì)[21]。RF中的每棵決策樹均由整個(gè)數(shù)據(jù)集中選取的隨機(jī)樣本獨(dú)立生成。
隨機(jī)回歸森林算法隨著決策樹的數(shù)量變大,泛化誤差收斂于一個(gè)極限[22],同時(shí)具有快速學(xué)習(xí)等優(yōu)點(diǎn)。此外,其還適用于處理缺失的數(shù)據(jù)問(wèn)題,并容易實(shí)現(xiàn)并行處理,對(duì)于實(shí)時(shí)的性能提供了條件。
圖5 使用隨機(jī)回歸森林進(jìn)行頭部姿態(tài)估計(jì)的過(guò)程
RF算法由訓(xùn)練和測(cè)試2個(gè)步驟組成。訓(xùn)練步驟主要是構(gòu)建多樹型分類器,包括數(shù)據(jù)歸納、樹型結(jié)構(gòu)的構(gòu)造和參數(shù)的優(yōu)化。在測(cè)試步驟中,由樹生成的中間結(jié)果集成為最終的結(jié)果。為了提高準(zhǔn)確度,將所有決策樹的投票結(jié)果進(jìn)行閾值過(guò)濾,從而去除掉一些異常點(diǎn)。
用于訓(xùn)練和測(cè)試的數(shù)據(jù)來(lái)自于Biwi數(shù)據(jù)集[9],其中90% (大約13 500張圖片)用于訓(xùn)練,10% (大約1 500張圖片)用于測(cè)試準(zhǔn)確度和誤差值。
Biwi Kinect head pose database含有由微軟Kinect捕捉到的彩色圖像和低分辨率、存在噪聲的深度數(shù)據(jù),該數(shù)據(jù)集帶有真實(shí)頭部轉(zhuǎn)動(dòng)的標(biāo)簽,且在頭部轉(zhuǎn)動(dòng)角度和面部外觀方面有很大的差異,如眼鏡和帽子、面部表情和發(fā)型引起的部分遮擋。該數(shù)據(jù)庫(kù)有超過(guò)15 K張圖片,數(shù)據(jù)在距離傳感器1 m遠(yuǎn)的地方采集,人臉平均大小為90×110像素。所有采集對(duì)象均需轉(zhuǎn)動(dòng)其頭部,并試圖涵蓋所有可能的旋轉(zhuǎn)角和俯仰角,即左右轉(zhuǎn)動(dòng)角度為–75°~+75°,上下點(diǎn)頭角度為–60°~60°以及左右偏頭的角度為–20°~20°。
利用RF進(jìn)行分類是將頭部姿態(tài)估計(jì)問(wèn)題建模為一個(gè)回歸問(wèn)題,并將彩色圖像和深度圖像提取的特征使用決策樹映射到一組頭部姿態(tài)的標(biāo)簽中。經(jīng)驗(yàn)證,RF比文獻(xiàn)[23]中的單個(gè)分類器顯示了更好的性能,且不易出現(xiàn)過(guò)擬合現(xiàn)象。
RF從根節(jié)點(diǎn)遞歸地構(gòu)建決策樹的過(guò)程如下:
(1) 隨機(jī)選擇訓(xùn)練子集。在訓(xùn)練集中,利用不放回抽樣方法選擇一組訓(xùn)練當(dāng)前樹的訓(xùn)練子集S,并由第1節(jié)提取的圖像特征和帶注釋的頭部標(biāo)簽組成,參數(shù)化由1.2節(jié)的={P=(X,L)}表示。
(2) 隨機(jī)選擇特征集。假設(shè)總特征數(shù)為(即第1節(jié)提取的特征),則在每一輪生成決策樹的過(guò)程中,由個(gè)特征中隨機(jī)選取(<)個(gè)特征組成一個(gè)新的特征集,并使用新的特征集生成決策樹。
(3) 選取最優(yōu)特征。選擇不同特征順序,可產(chǎn)生不同決策樹,選擇信息增益率大的特征可使各子集下標(biāo)簽更純凈。度量分類后,提高數(shù)據(jù)集純度的方式為計(jì)算個(gè)特征的信息增益率,并選擇最優(yōu)特征,信息增益率越大,表明特征分類能力越強(qiáng)。信息增益率的計(jì)算方法為
其中,(,)為信息增益,使用劃分前幾何特征和深度特征熵的值與劃分后熵的差值來(lái)衡量當(dāng)前特征對(duì)于樣本集合劃分效果的好壞,計(jì)算式為
對(duì)于待劃分的數(shù)據(jù)集S,其劃分前的熵()是確定的,但是劃分之后數(shù)據(jù)子集的熵(|)是不確定的,(|)越小說(shuō)明使用此特征劃分得到的子集的不確定性越小(即純度越高),因此需選擇使得信息增益最大的特征來(lái)劃分當(dāng)前數(shù)據(jù)集。
待劃分?jǐn)?shù)據(jù)集劃分前的熵()為
其中,為待劃分的訓(xùn)練數(shù)據(jù)集;為子節(jié)點(diǎn)的數(shù)量;P為類別樣本數(shù)量占所有樣本的比例。
對(duì)待劃分?jǐn)?shù)據(jù)集,選擇特征作為決策樹判斷節(jié)點(diǎn)時(shí),在特征作用后的信息熵為(|),即
()為數(shù)據(jù)集以特征作為隨機(jī)變量熵的倒數(shù),表示分裂子節(jié)點(diǎn)數(shù)據(jù)量的信息增益,即
其中,為子節(jié)點(diǎn)的數(shù)量;n為被分到第個(gè)子節(jié)點(diǎn)的數(shù)據(jù)量;為父節(jié)點(diǎn)數(shù)據(jù)量。(,)被稱為是的“固定值”,用于描述屬性的純度。如果只含有少量的取值,其純度就比較高,否則的取值越多,純度就越低,(,)的值也就越大,所得到的信息增益率就越低。
(4) 根據(jù)二進(jìn)制測(cè)試的結(jié)果,每個(gè)分割節(jié)點(diǎn)將樣本集分成2個(gè)子集。如果樹的深度達(dá)到預(yù)定值或該節(jié)點(diǎn)的數(shù)據(jù)量到達(dá)一個(gè)指定的數(shù)值,則當(dāng)前結(jié)點(diǎn)為葉子結(jié)點(diǎn),不再進(jìn)行遞歸。否則轉(zhuǎn)到第(3)步。
給定一個(gè)新的彩色圖像和對(duì)應(yīng)深度圖像,通過(guò)人臉檢測(cè)和人臉對(duì)齊獲取圖像特征并作為輸入,使用訓(xùn)練生成的模型進(jìn)行頭部姿態(tài)角度預(yù)測(cè)。每棵樹中給定樣本,從根目錄開始由存儲(chǔ)在結(jié)點(diǎn)的二進(jìn)制測(cè)試進(jìn)行引導(dǎo)。在樹的每一個(gè)非葉節(jié)點(diǎn)上,由存儲(chǔ)的二進(jìn)制測(cè)試對(duì)輸入圖像進(jìn)行評(píng)估、判斷,并發(fā)送至左結(jié)點(diǎn)或右結(jié)點(diǎn),下個(gè)結(jié)點(diǎn)依次遞歸,直到葉子結(jié)點(diǎn)得到一個(gè)角度預(yù)測(cè)值。然后,對(duì)所有決策樹結(jié)果進(jìn)行整合得到最終的角度預(yù)測(cè)值。
為了測(cè)試非約束環(huán)境下的估計(jì)結(jié)果,本文在Biwi數(shù)據(jù)集上進(jìn)行測(cè)試。首先,對(duì)3種改進(jìn)方案進(jìn)行了評(píng)價(jià),并對(duì)其關(guān)鍵參數(shù)的影響進(jìn)行檢驗(yàn);此外,在不同環(huán)境下,將RF估計(jì)值與真實(shí)值進(jìn)行了對(duì)比;最后,在Biwi數(shù)據(jù)集上對(duì)RF的整體性能進(jìn)行了驗(yàn)證,并與其他方法進(jìn)行了比較。
所有的實(shí)驗(yàn)都是在Intel i7-6700 (3.4 GHz CPU)的PC平臺(tái)上完成的。實(shí)驗(yàn)使用的參數(shù)值為:葉節(jié)點(diǎn)的最小樣本數(shù)量為10,RF訓(xùn)練圖像數(shù)量為13 500,測(cè)試數(shù)量為1 500。
RF由決策樹組成,因此,不同數(shù)量的決策樹訓(xùn)練的模型準(zhǔn)確度不同。如圖6所示,在使用不同圖像特征進(jìn)行訓(xùn)練時(shí),當(dāng)決策樹數(shù)量由10增加到100,頭部姿態(tài)的準(zhǔn)確率曲線均在不斷提升,但50以后,誤差減小的幅度變小,準(zhǔn)確率提升也變得緩慢,該結(jié)果符合RF的規(guī)模達(dá)到一定程度時(shí),森林可解釋性減弱的特征[24]。并且,隨著決策樹的數(shù)量增大,RF的構(gòu)建時(shí)間也會(huì)隨之增加。為了平衡速度與精度,最終決策樹的數(shù)量定為50,在此基礎(chǔ)上進(jìn)行其他實(shí)驗(yàn)。
圖6 決策樹數(shù)量和平均準(zhǔn)確率的關(guān)系
圖7顯示了不同圖像特征對(duì)識(shí)別精度的影響。由圖7可知,在幾何特征的基礎(chǔ)上,增加面部的局部深度信息,在一定程度上可減小頭部姿態(tài)的平均角度誤差,同時(shí)增加法線和曲率等特征也可提高了姿態(tài)角的估計(jì)精度。
表1為使用不同閾值過(guò)濾各個(gè)決策樹的預(yù)測(cè)結(jié)果,即最終預(yù)測(cè)值與真實(shí)值的誤差的關(guān)系,決策樹數(shù)量為50,圖像特征為幾何特征和局部深度特征以及深度塊的曲率和法線特征。
圖7 決策樹數(shù)量與平均角度誤差的關(guān)系
表1 閾值大小與平均誤差的關(guān)系
由表1可以看出,設(shè)置閾值過(guò)濾決策樹提高了RF的精確度。從理論上講,閾值設(shè)置的越小,精確度越高,但是,當(dāng)一些決策樹預(yù)測(cè)結(jié)果整體偏高或偏低時(shí),小的閾值設(shè)置對(duì)于精確度的提高并不明顯,因此本文閾值選擇3。
為了驗(yàn)證方法有效性,圖8和圖9考慮了光照條件、相機(jī)位置、眼鏡遮擋的變化對(duì)實(shí)驗(yàn)結(jié)果的影響。
(a) 光照條件1(b) 光照條件2 (c) 眼鏡遮擋+角度1(d) 眼鏡遮擋+角度2
(a) 實(shí)際應(yīng)用1(b) 實(shí)際應(yīng)用2
圖8(a)與8(b)表示不同光照條件下的實(shí)驗(yàn)效果。圖8(c)與8(d)表示了不同角度與遮擋情況下的實(shí)驗(yàn)效果。圖9為實(shí)際應(yīng)用中的測(cè)試實(shí)例。通過(guò)實(shí)驗(yàn)表明,該方法在光照、不同角度和遮擋情況下表現(xiàn)較好,具有一定的魯棒性,且速度較快,可以進(jìn)行實(shí)時(shí)的頭部姿態(tài)估計(jì)。
圖10(a)~(d)分別表示眼睛、鼻子、嘴部特征點(diǎn)檢測(cè)不準(zhǔn)確時(shí),頭部姿態(tài)估計(jì)值與真實(shí)值的對(duì)比。從圖中可以看出,鼻尖位置偏移較其他特征點(diǎn)的偏移,對(duì)頭部姿態(tài)估計(jì)值的影響稍大,最大差值為3°左右,因此,對(duì)于個(gè)別特征點(diǎn)的少量偏移具有很好的魯棒性。
(a) 情況1(b) 情況2 (c) 情況3(d) 情況4
本文方法不單獨(dú)依賴于面部某一特征點(diǎn),因此,當(dāng)出現(xiàn)遮擋或者個(gè)別特征點(diǎn)檢測(cè)不準(zhǔn)確時(shí),對(duì)結(jié)果的影響小于依賴特定特征點(diǎn)的方法。
為了更好地說(shuō)明算法的精確度,圖11將本文方法與其他使用加權(quán)RF進(jìn)行頭部姿態(tài)估計(jì)的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,即線性加權(quán)法[25]和交叉加權(quán)方法[26]以及文獻(xiàn)[27]中的動(dòng)態(tài)加權(quán)法的實(shí)驗(yàn)結(jié)果。其顯示了不同的角度閾值與實(shí)驗(yàn)準(zhǔn)確率的關(guān)系。
圖11 與加權(quán)RF方法對(duì)比
表2為在相同數(shù)據(jù)集Biwi下,與文獻(xiàn)[28]、文獻(xiàn)[29]、文獻(xiàn)[16]、文獻(xiàn)[30]及文獻(xiàn)[8]方法在不同方向的誤差及平均誤差。文獻(xiàn)[16]及[28]-[29]均使用RGBD圖像特征,因此更適合作為對(duì)比方法。結(jié)果顯示,本文方法在數(shù)據(jù)集上展示了較優(yōu)的性能。
表2 各個(gè)方向的角度誤差及平均誤差
從圖11明顯看出,本文方法的準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于使用加權(quán)RF的方法。從表2可以看出,本文方法在不同角度的誤差值均小于其他方法。因此,其具有更高的準(zhǔn)確性。
當(dāng)最小人臉設(shè)置為80×80時(shí),各過(guò)程耗時(shí)見(jiàn)表3??倳r(shí)間在30 ms左右,因此可以達(dá)到實(shí)時(shí)的性能要求。
表3 頭部姿態(tài)估計(jì)耗時(shí)表
本文提出一種基于RGBD進(jìn)行實(shí)時(shí)頭部姿態(tài)估計(jì)的方法,提取了彩色圖像的幾何特征和深度圖像的深度特征以及法線和曲率特征,使用RF的方法進(jìn)行訓(xùn)練,并在模型預(yù)測(cè)時(shí)使用閾值過(guò)濾。實(shí)驗(yàn)結(jié)果表明,該方法與使用整個(gè)頭部的深度特征相比具有更高的準(zhǔn)確性,并且受光照和部分遮擋的影響較小,具有更高的魯棒性。
[1] ROSSI S, LEONE E, STAFFA M. Using random forests for the estimation of multiple users’ visual focus of attention from head pose [M]//AI*IA 2016 Advances in Artificial Intelligence. Heidelberg: Springer, 2016: 89-102.
[2] 黃波, 鐘銘恩, 吳平東, 等. 基于車載視覺(jué)的駕駛員后視鏡查看行為檢測(cè)[J]. 圖學(xué)學(xué)報(bào), 2018, 39(3): 477-484.
[3] WONGPHANNGAM J, PUMRIN S. Fatigue warning system for driver nodding off using depth image from Kinect [C]//2016 13th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON). New York: IEEE Press, 2016: 1-6.
[4] LI X H, CHEN H Y, CHEN Q L. A head pose detection algorithm based on template match [C]//2012 IEEE Fifth International Conference on Advanced Computational Intelligence (ICACI)). New York: IEEE Press, 2012: 673-677.
[5] 郭知智, 周前祥, 柳忠起. 基于自適應(yīng)線性回歸的頭部姿態(tài)計(jì)算[J]. 計(jì)算機(jī)應(yīng)用研究, 2016, 33(10): 3181-3184.
[6] MA B P, CHAI X J, WANG T J. A novel feature descriptor based on biologically inspired feature for head pose estimation [J]. Neurocomputing, 2013, 115: 1-10.
[7] 閔秋莎, 劉能, 陳雅婷, 等. 基于面部特征點(diǎn)定位的頭部姿態(tài)估計(jì)[J]. 計(jì)算機(jī)工程, 2018, 44(6): 263-269.
[8] BALTRUSAITIS T, ROBINSON P, MORENCY L P. OpenFace: An open source facial behavior analysis toolkit [C]//2016 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE Press, 2016: 1-10.
[9] FANELLI G, GALL J, VAN GOOL L. Real time head pose estimation with random regression forests [C]// 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2011:617-624.
[10] 劉袁緣, 陳靚影, 俞侃, 等. 基于樹結(jié)構(gòu)分層隨機(jī)森林在非約束環(huán)境下的頭部姿態(tài)估計(jì)[J]. 電子與信息學(xué)報(bào), 2015, 37(3): 543-551.
[11] 喬體洲, 戴樹嶺. 基于特征點(diǎn)識(shí)別的頭部姿態(tài)計(jì)算[J]. 北京航空航天大學(xué)學(xué)報(bào), 2014, 40(8): 1038-1043.
[12] 李成龍, 鐘凡, 馬昕, 等. 基于卡爾曼濾波和隨機(jī)回歸森林的實(shí)時(shí)頭部姿態(tài)估計(jì)[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2017, 29(12): 2309-2316.
[13] LI C L, ZHONG F, ZHANG Q, et al. Accurate and fast 3D head pose estimation with noisy RGBD images [J]. Multimedia Tools and Applications, 2018, 77(12): 14605-14624.
[14] STRUPCZEWSKI A, CZUPRY?SKI B, SKARBEK W, et al. Head pose tracking from RGBD sensor based on direct motion estimation [M]//Lecture Notes in Computer Science. Heidelberg: Springer, 2015: 202-212.
[15] KIM D, PARK J, KAK A C. Estimating head pose with an RGBD sensor: A comparison of appearance-based and pose-based local subspace methods [C]//2013 IEEE International Conference on Image Processing. New York: IEEE Press, 2013: 3637-3641.
[16] BALTRU?AITIS T P, ROBINSON P, MORENCY L P. 3D constrained local model for rigid and non-rigid facial tracking [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 2610-2617.
[17] WU S Z, KAN M N, HE Z L, et al. Funnel-structured cascade for multi-view face detection with alignment-awareness [J]. Neurocomputing, 2017, 221: 138-145.
[18] ZHANG J, SHAN S G, KAN M N, et al. Coarse-to-fine auto-encoder networks (CFAN) for real-time face alignment [M]//Computer Vision – ECCV 2014. Cham: Springer International Publishing, 2014: 1-16.
[19] MEYER M, DESBRUN M, SCHR?DER P, et al. Discrete differential-geometry operators for triangulated 2-manifolds [M]//Mathematics and Visualization. Heidelberg: Springer, 2003: 35-57.
[20] LEVIN D. Mesh-independent surface interpolation [M]// Geometric Modeling for Scientific Visualization. Heidelberg: Springer, 2004: 37-49.
[21] CRIMINISI A, SHOTTON J, KONUKOGLU E. Decision forests for classification, regression, density estimation, manifold learning and semi-supervised learning [J]. Microsoft Research Technical Technical Rreport, 2011, 114(46): 224-236.
[22] BREIMAN L. Random forests [J]. Machine Learning, 2001, 45(1): 5-32.
[23] FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis [J]. International Journal of Computer Vision, 2013, 101(3): 437-458.
[24] BREIMAN L. Random forests [J]. MachineLearning, 2001, 45(1): 5-32.
[25] OKADA R. Discriminative generalized hough transform for object dectection [C]//2009 IEEE 12th International Conference on Computer Vision. New York: IEEE Press, 2009: 2000-2005.
[26] GALL J, YAO A, RAZAVI N, et al. Hough forests for object detection, tracking, and action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(11): 2188-2202.
[27] SARAGIH J M, LUCEY S, COHN J F. Deformable model fitting by regularized landmark mean-shift [J]. International Journal of Computer Vision, 2011, 91(2): 200-215.
[28] REKIK A, BEN-HAMADOU A, MAHDI W. 3D face pose tracking using low quality depth cameras [C]//The 8th International Conference on Computer Vision Theory and Applications, VISAPP 2013. Heidelberg: Springer, 2013: 223-228.
[29] SAEED A, AL-HAMADI A. Boosted human head pose estimation using kinect camera [C]//2015 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2015: 1752-1756.
[30] ASTHANA A, ZAFEIRIOU S, CHENG S Y, et al. Incremental face alignment in the wild [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 1859-1866.
Real-Time Head Pose Estimation Based on RGBD
CHEN Guo-jun, YANG Jing, CHENG Yan, YIN Peng
(Computer and Communication Engineering, School of China University of Petroleum, Qingdao Shandong 266580, China)
Real-time head pose estimation plays a crucial role in the application of human-computer interaction and face analysis, but accurate head pose estimation methods still face certain challenges. In order to improve the accuracy and robustness of the head pose estimation, this paper combines the geometry-based method and the learning-based method for head pose estimate. On the basis of face detection and face alignment, the geometric feature of the color image and the local area depth feature of the depth image are extracted, combining with the normal and curvature feature of the depth block to form the feature vector group, and then the random forest method is used to do the training. Finally, all decision trees are involved in the vote, and the resulting Gaussian distribution of the head pose is filtered by thresholds to further improve the model’s accuracy. Experimental results show that the proposed method has higher accuracy and robustness than the existing head pose estimation methods.
head pose estimation; random forest; RGBD data; geometric feature; depth feature
TP 391
10.11996/JG.j.2095-302X.2019040681
A
2095-302X(2019)04-0681-08
2018-11-11;
定稿日期:2018-11-21
國(guó)家“863”計(jì)劃主題項(xiàng)目子課題(2015AA016403);虛擬現(xiàn)實(shí)技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室(北京航空航天大學(xué))開放基金(BUAA-VR-15KF-13)
陳國(guó)軍(1968-),男,江蘇如東人,副教授,博士,碩士生導(dǎo)師。主要研究方向?yàn)閳D形圖像處理、虛擬現(xiàn)實(shí)及科學(xué)可視化等。 E-mail:chengj@upc.edu.cn