賀飛翔,趙啟軍
(四川大學(xué) 視覺合成圖形圖像技術(shù)國防重點(diǎn)學(xué)科實(shí)驗(yàn)室,四川 成都 610065)
基于深度學(xué)習(xí)的頭部姿態(tài)估計(jì)
賀飛翔,趙啟軍
(四川大學(xué) 視覺合成圖形圖像技術(shù)國防重點(diǎn)學(xué)科實(shí)驗(yàn)室,四川 成都 610065)
頭部姿態(tài)估計(jì)在人工智能、模式識別及人機(jī)智能交互等領(lǐng)域應(yīng)用廣泛。好的頭部姿態(tài)估計(jì)算法應(yīng)對光照、噪聲、身份、遮擋等因素時(shí)魯棒性較好,但目前為止如何提高姿態(tài)估計(jì)的精確度與魯棒性依然是計(jì)算機(jī)視覺領(lǐng)域的一大挑戰(zhàn)。提出了一種基于深度學(xué)習(xí)進(jìn)行頭部姿態(tài)估計(jì)的方法。利用深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力,對輸入的人臉圖像進(jìn)行一系列的非線性操作,逐層提取圖像中抽象的特征,然后利用提取的特征進(jìn)行分類。此類特征在姿態(tài)上具有較大的差異性,同時(shí)對光照、身份、遮擋等因素魯棒。在CAS-PEAL數(shù)據(jù)集上對該方法進(jìn)行了評估實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法有效地提高了姿態(tài)估計(jì)的準(zhǔn)確性。
頭部姿態(tài)估計(jì);深度學(xué)習(xí);提取特征;分類
頭部姿態(tài)是研究人類行為和注意力的關(guān)鍵,在人際交往中,扮演著非常重要的角色。頭部姿態(tài)的改變也包含豐富的信息,例如同意、反對、理解、迷惑、驚喜等。此外,頭部姿態(tài)還是包括人臉識別、表情識別、視線估計(jì)在內(nèi)的許多智能系統(tǒng)在非約束條件下進(jìn)行身份識別與行為預(yù)測所需要的關(guān)鍵信息。因此,頭部姿態(tài)估計(jì)是計(jì)算機(jī)視覺與模式識別領(lǐng)域一個(gè)非常重要的應(yīng)用,其算法研究的意義非常大。
在計(jì)算機(jī)視覺領(lǐng)域,頭部姿態(tài)估計(jì)[1]是指計(jì)算機(jī)通過對輸入圖像或者視頻序列的分析、預(yù)測,確定人的頭部在三維空間(相對于攝像機(jī))中的位置及姿態(tài)參量。通常說來,假設(shè)頭部姿態(tài)估計(jì)是一個(gè)剛體變換,存在pitch,yaw,roll三個(gè)方向自由度,如圖1所示。由于受非約束壞境中的投影幾何形變、背影光照變化、前景遮擋問題和低分辨率等因素的影響,使得頭部姿態(tài)的多自由度估計(jì)一直是一個(gè)富有挑戰(zhàn)性的領(lǐng)域。
針對人臉頭部姿態(tài)估計(jì)的算法,主要分為基于模型的方法和基于人臉表觀的方法。其中,基于模型的方法[2-4]主要是利用若干臉部特征點(diǎn)構(gòu)成的模型,通過提取不同姿態(tài)下模型的差異預(yù)測頭部姿態(tài)。此類方法實(shí)現(xiàn)簡單、計(jì)算高效準(zhǔn)確、易于理解,但強(qiáng)烈依賴特征點(diǎn)定位的準(zhǔn)確程度,而準(zhǔn)確的特征點(diǎn)檢測在姿態(tài)變化較大時(shí)仍然是一個(gè)急待解決的挑戰(zhàn)?;诒碛^學(xué)習(xí)[5-10]的方法是通過大量的訓(xùn)練數(shù)據(jù)直接學(xué)習(xí)圖像與頭部姿態(tài)之間的映射關(guān)系。與基于模型匹配方法相比,其主要優(yōu)點(diǎn)是提取基于表觀的特征不依賴特征點(diǎn)的位置,具有較高的魯棒性與估計(jì)精確度。文中研究的方法屬于基于表觀學(xué)習(xí)的方法。
圖1 人臉頭部姿態(tài)三個(gè)旋轉(zhuǎn)方向
基于圖像表觀的學(xué)習(xí)方法解決姿態(tài)的問題通??梢钥醋魇欠诸悊栴}或者是回歸問題。此類算法的核心主要分為兩部分:第一部分是提取圖片中與頭部姿態(tài)變化緊密相關(guān)的特征,此類特征對人的身份、表情、光照等無關(guān)因素魯棒;第二部分是通過某種分類算法,對提取的特征進(jìn)行分類或回歸對姿態(tài)角度進(jìn)行估計(jì)。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)新的領(lǐng)域。從2006年開始,深度學(xué)習(xí)在語音識別、計(jì)算機(jī)視覺(包括人臉識別、特征點(diǎn)檢測、人臉檢測等)、自然語言處理以及信息檢索等領(lǐng)域性能優(yōu)異。深度學(xué)習(xí)可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,其特有的層次結(jié)構(gòu)能夠?qū)?shù)據(jù)局部特征進(jìn)行多層次抽象化的學(xué)習(xí)與表達(dá)。文中主要是利用深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力,學(xué)習(xí)輸入圖片中與對象的身份、光照、表情等因素?zé)o關(guān),且僅與姿態(tài)有關(guān)的特征,然后通過分類,用以解決頭部姿態(tài)估計(jì)的問題。
2.1 基于CNN的深度學(xué)習(xí)網(wǎng)絡(luò)
文中采用的深度網(wǎng)絡(luò)結(jié)構(gòu)模型主要包括2個(gè)卷積層(含2個(gè)采樣層),后接1個(gè)全連接層和soft-max輸出層。如圖2所示(圖中外面的大立方體的長、寬、高分別表示每一層特征圖的個(gè)數(shù)與特征圖的維度,里面的小立方體和正方形分別表示卷積過程中卷積核的尺寸與下采樣過程中采樣矩形框的尺寸,最后兩層是全連接中神經(jīng)元的個(gè)數(shù)),輸入圖片x0是尺度大小歸一化至32×32的灰度圖像。圖像輸入到網(wǎng)絡(luò)結(jié)構(gòu),逐層對輸入圖片進(jìn)行卷積與池化采樣,提取抽象的特征,通過soft-max對提取的抽象特征分類,網(wǎng)絡(luò)的最終輸出為輸入圖片的頭部姿態(tài)。當(dāng)輸入圖片的尺寸發(fā)生變化時(shí),網(wǎng)絡(luò)結(jié)構(gòu)中每一層特征譜的髙與寬都會(huì)發(fā)生相應(yīng)的變化。在提取圖像特征的過程中,特征逐漸抽象化,特征的維度逐漸下降,形成更加簡潔抽象且具有高度區(qū)分性的特征,從而能夠正確分類出輸入圖片中頭部姿態(tài)所屬類別。
在卷積階段,利用卷積核對特征圖進(jìn)行卷積操作,加強(qiáng)原信號信息,并且降低圖片噪音。在卷積神經(jīng)網(wǎng)絡(luò)中,每個(gè)卷積核能夠提取輸入特征圖中所有位置上的某一特定特征,每一個(gè)卷積濾波器共享相同的參數(shù),包括相同的權(quán)值矩陣與偏置項(xiàng),從而實(shí)現(xiàn)同一個(gè)輸入特征圖上的權(quán)值共享[11]。權(quán)值共享的優(yōu)點(diǎn)是在對圖片提取特征時(shí)不用考慮局部特征權(quán)重的差異(比如鼻子、眼睛、嘴巴),使要學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)數(shù)量大大降低。
圖2 深度網(wǎng)絡(luò)結(jié)構(gòu)詳圖
為了提取能夠預(yù)測輸入圖片中人臉頭部偏轉(zhuǎn)角度的多個(gè)特征,需要使用不同的卷積核進(jìn)行卷積操作。卷積運(yùn)算可表示如下:
(1)
其中,xi與yj分別表示第i個(gè)輸入特征圖與第j個(gè)輸出特征圖;wij是第i個(gè)輸入特征圖與第j個(gè)輸出特征圖之間的卷積核;*表示卷積;bj是第j個(gè)輸出圖的偏置項(xiàng)。
為了避免線性模型表達(dá)能力不夠,通常需要對卷積過后得到的特征圖進(jìn)行非線性化操作,防止過擬合。常用的非線性函數(shù)主要有sigmoid、tanh、ReLU等。文中對隱層神經(jīng)元使用不飽和非線性函數(shù)ReLU。
下采樣主要是實(shí)現(xiàn)特征的降維。由于圖像局部相關(guān)性原理,通過對圖像進(jìn)行下采樣,在保留圖像有用信息的同時(shí)降低了特征圖的維度。下采樣階段主要是對單個(gè)特征圖進(jìn)行操作,主要有平均池化下采樣與最大池化下采樣。平均池化下采樣是取鄰域中的平均值作為輸出,最大池化下采樣是取鄰域中的最大值作為輸出。文中采用的是最大池化下采樣,過程可表示為:
(2)
其中,yj表示下采樣過程中的第i個(gè)輸出譜,其中的每一個(gè)神經(jīng)元是從第i個(gè)輸入譜中s×s局部區(qū)域采樣得到的;m與n分別表示下采樣框移動(dòng)的步長。
SoftMax回歸是在邏輯回歸的基礎(chǔ)上擴(kuò)張而來的,主要是為了解決多分類問題,是有監(jiān)督的學(xué)習(xí)算法。網(wǎng)絡(luò)的最后一層是SoftMax函數(shù),與深度學(xué)習(xí)結(jié)合使用,用來區(qū)分輸入圖片的角度類別。
(3)
因此整個(gè)網(wǎng)絡(luò)的優(yōu)化目標(biāo)是最小化-logyt。
2.2 網(wǎng)絡(luò)的訓(xùn)練與測試
訓(xùn)練深度網(wǎng)絡(luò)模型的本質(zhì)就是獲得構(gòu)建網(wǎng)絡(luò)的所有參數(shù)(包括權(quán)重與偏置),其訓(xùn)練的復(fù)雜程度與參數(shù)的數(shù)量正相關(guān)。
訓(xùn)練網(wǎng)絡(luò)流程圖如圖3所示。
圖3 訓(xùn)練網(wǎng)絡(luò)流程圖
Step1:圖片預(yù)處理。用雙線性內(nèi)插法將測試樣本與訓(xùn)練樣本歸一化至尺寸為32×32的灰度圖像。
Step2:將訓(xùn)練樣本輸入網(wǎng)絡(luò)并前向傳播,計(jì)算網(wǎng)絡(luò)的輸出與給定的目標(biāo)標(biāo)簽之間的誤差,判斷是否有收斂。
Step3:若收斂,則訓(xùn)練結(jié)束;若不收斂,則誤差反向傳遞,逐層更新參數(shù),然后轉(zhuǎn)到Step2。
圖4 網(wǎng)絡(luò)結(jié)構(gòu)的抽象表示
整個(gè)網(wǎng)絡(luò)的誤差對每一層參數(shù)求導(dǎo)的公式為:
在網(wǎng)絡(luò)測試階段,將測試圖片通過訓(xùn)練好的網(wǎng)絡(luò),網(wǎng)絡(luò)的輸出即為測試圖片的角度類別標(biāo)簽。
3.1 實(shí)驗(yàn)數(shù)據(jù)庫
文中實(shí)驗(yàn)主要是在CAS-PEAL數(shù)據(jù)集上進(jìn)行。CAS-PEAL是進(jìn)行頭部姿態(tài)估計(jì)常用的一個(gè)數(shù)據(jù)集。在該數(shù)據(jù)集上,頭部姿態(tài)被劃分為7個(gè)yaw方向上的離散角度{-45°,-30°,-15°,0°,15°,30°,45°}和3個(gè)pitch方向的離散角度{-30°,0°,30°}。對于每一張圖片,使用一個(gè)人臉檢測器[12]定位圖片的人臉區(qū)域,截取人臉圖片并將其歸一化至32*32。CAS-PEAL中一些樣本圖片如圖5所示。
圖5 CAS-PEAL數(shù)據(jù)集中的樣本圖片
3.2 實(shí)驗(yàn)結(jié)果
在CAS-PEAL數(shù)據(jù)集中對象編號為401~600的子集上進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)子集上共有4 200(21*200)張圖片,使用人臉檢測器檢測到的人臉圖片共4 166張。使用三折交叉驗(yàn)證,將實(shí)驗(yàn)數(shù)據(jù)集分成三個(gè)數(shù)據(jù)子集,其中一個(gè)數(shù)據(jù)子集用來測試,剩下的兩個(gè)用來訓(xùn)練。通過這樣的方式,保證所有訓(xùn)練圖片與測試圖片不交叉。重復(fù)三次實(shí)驗(yàn)使每一個(gè)子集都參與測試,實(shí)驗(yàn)結(jié)果為三次測試結(jié)果的平均值。在該實(shí)驗(yàn)數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果如表1所示。其中,VoD與kVoD使用的是另一個(gè)人臉檢測器[13]。
表1 CAS-PEAL數(shù)據(jù)集上幾種方法的平均絕對誤差(MAE)比較
在CAS-PEAL數(shù)據(jù)集上,分別取編號為401~600、201~600、201~800、201~1 002的四個(gè)子集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)集中包含對象數(shù)量分別為200、400、600、800,檢出的人臉圖片數(shù)量分別為4 166,8 313,12 502,16 670。分別對四個(gè)實(shí)驗(yàn)數(shù)據(jù)集使用三折交叉驗(yàn)證。不同數(shù)據(jù)集下的分類準(zhǔn)確率與Yaw方向角度的平均絕對誤差分別如圖6和圖7所示。
實(shí)驗(yàn)結(jié)果表明,隨著實(shí)驗(yàn)數(shù)據(jù)集中對象數(shù)量的增加,數(shù)據(jù)集中包含的具有代表性的信息越多,在相同的網(wǎng)絡(luò)結(jié)構(gòu)下,測試圖片的分類準(zhǔn)確率逐漸增加,平均絕對誤差逐漸減小。當(dāng)樣本對象數(shù)量超過600后,實(shí)驗(yàn)結(jié)果有所下降。
圖6 不同規(guī)模數(shù)據(jù)集下的分類準(zhǔn)確率
圖7 不同規(guī)模下的平均絕對誤差
文中提出了基于深度學(xué)習(xí)的頭部姿態(tài)估計(jì)方法。通過深度網(wǎng)絡(luò)提取特征并對其進(jìn)行分類預(yù)測,在CAS-PEAL數(shù)據(jù)集上顯著降低了姿態(tài)估計(jì)的誤差,取得了較好的實(shí)驗(yàn)效果。但是該方法的泛化能力強(qiáng)弱依賴于訓(xùn)練數(shù)據(jù)的多樣性與網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度。由于訓(xùn)練圖片來自CAS-PEAL數(shù)據(jù)集,若測試圖片來自其他數(shù)據(jù)集,則測試效果不理想。
下一步的工作主要是融合多個(gè)數(shù)據(jù)集訓(xùn)練更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),在保證較低的姿態(tài)角度誤差的前提下,增大網(wǎng)絡(luò)結(jié)構(gòu)的泛化能力。
[1] Kuchinsky A,Pering C,Creech M L,et al.FotoFile:a consumer multimedia organization and retrieval system[C]//Proceedings of the SIGCHI conference on human factors in computing systems.New York:ACM,1999:496-503.
[2] Wang Jiangang,Eric S.EM enhancement of 3D head pose estimated by point at infinity[J].Image and Vision Computing,2007,25(12):1864-1874.
[3] Ebisawa Y.Head pose detection with one camera based on pupil and nostril detection technique[C]//Proceedings of the IEEE international conference on virtual environments,human-computer interfaces and measurement systems.[s.l.]:IEEE,2008:172-177.
[4] Kong S G,Mbouna R O.Head pose estimation from a 2d face image using 3D face morphing with depth parameters[J].IEEE Transactions on Image Processing,2015,24(6):1801-1808.
[5] Haj M A,Gonzalez J,Davis L S.On partial least squares in head pose estimation:how to simultaneously deal with misalignment[C]//Proceedings of IEEE conference on computer vision and pattern recognition.[s.l.]:IEEE,2012:2602-2609.
[6] Foytik J,Asari V K.A two-layer framework for piecewise linear manifold-based head pose estimation[J].International Journal of Computer Vision,2013,101(2):270-287.
[7] Lu J,Tan Y P.Ordinary preserving manifold analysis for human age and head pose estimation[J].IEEE Transactions on Human-Machine Systems,2013,43(2):249-258.
[8] Fanelli G, Dantone M, Gall J,et al.Random forests for real time 3D face analysis[J].International Journal of Computer Vision,2013,101(3):437-458.
[9] Ma B,Chai X,Wang T.A novel feature descriptor based on biologically inspired feature for head pose estimation[J].Neurocomputing,2013,115:1-10.
[10] Geng X,Xia Y.Head pose estimation based on multivariate label distribution[C]//IEEE conference on computer vision and pattern recognition.[s.l.]:IEEE,2014:1837-1842.
[11] Le Cun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[12] Sun Y,Wang X,Tang X.Deep convolutional network cascade for facial point detection[C]//IEEE conference on computer vision and pattern recognition.[s.l.]:IEEE,2013:3476-3483.
[13] Yan S,Shan S,Chen X,et al.Matrix-Structural Learning (MSL) of cascaded classifier from enormous training set[C]//IEEE conference on computer vision and pattern recognition.[s.l.]:IEEE,2007.
[14] Ma B,Huang R,Qin L.VoD:a novel image representation for head yaw estimation[J].Neurocomputing,2015,148:455-466.
Head Pose Estimation Based on Deep Learning
HE Fei-xiang,ZHAO Qi-jun
(National Key Laboratory of Fundamental Science on Synthetic Vision,Sichuan University, Chengdu 610065,China)
Head pose estimation has been widely used in the field of artificial intelligence,pattern recognition and intelligent human-computer interaction and so on.Good head pose estimation algorithm should deal with light,noise,identity,shelter and other factors robustly,but so far how to improve the accuracy and robustness of attitude estimation remains a major challenge in the field of computer vision.A method based on deep learning for pose estimation is presented.Deep learning with a strong learning ability,it can extract high-level image features of the input image by through a series of non-linear operation,then classifying the input image using the extracted feature.Such characteristics have greater differences in pose,while they are robust of light,identity,occlusion and other factors.The proposed head pose estimation is evaluated on the CAS-PEAL data set.Experimental results show that this method is effective to improve the accuracy of pose estimation.
head pose estimation;deep learning;extracting feature;classification
2016-01-29
2016-05-18
時(shí)間:2016-10-24
國家自然科學(xué)基金資助項(xiàng)目(61202160,61202161);科技部重大儀器專項(xiàng)(2013YQ49087904)
賀飛翔(1992-),男,碩士研究生,研究方向?yàn)樯锾卣髯R別;趙啟軍,副教授,碩士研究生導(dǎo)師,研究方向?yàn)樯锾卣髯R別。
http://www.cnki.net/kcms/detail/61.1450.TP.20161024.1117.076.html
TP301.6
A
1673-629X(2016)11-0001-04
10.3969/j.issn.1673-629X.2016.11.001