陳國軍,曹 岳,楊 靜,裴利強
基于形變模型的多角度三維人臉實時重建
陳國軍,曹 岳,楊 靜,裴利強
(中國石油大學(華東)計算機與通信工程學院,山東 青島 266580)
采用人臉特征點調整三維形變模型的方法應用于面部三維重建,但模型形變的計算往往會產生誤差,且耗時較長。因此運用人臉二維特征點對通用三維形變模型的擬合方法進行改進,提出了一種視頻流的多角度實時三維人臉重建方法。首先利用帶有三層卷積網絡的CLNF算法識別二維特征點,并跟蹤特征點位置;然后由五官特征點位置估計頭部姿態(tài),更新模型的表情系數(shù),其結果再作用于PCA形狀系數(shù),促使當前三維模型發(fā)生形變;最后采用ISOMAP算法提取網格紋理信息,進行紋理融合形成特定人臉模型。實驗結果表明,該方法在人臉重建過程中具有更好的實時性能,且精確度有所提高。
三維形變模型;特征點提??;表情系數(shù);PCA形狀系數(shù);紋理融合
隨著視覺感知和獲取技術的發(fā)展,近年來,人臉三維重建的精確度逐步提高,其流行方法包括激光掃描、結構化光掃描、RGBD相機[1]等。同時,3D人臉模型被廣泛應用于建模[2]、動畫[3]、游戲[4]、信息安全和3D打印[5]等領域。但是,當前的人臉三維模型往往需要通過昂貴的設備和相當高水平的專業(yè)知識來實現(xiàn)高質量的捕獲和重建[6],遠遠超出了一般終端用戶的能力,因此限制了該技術的潛在應用。
從二維圖像中重建人臉三維模型無需昂貴的設備和專業(yè)的操作,具有制作成本低、使用方便、利于推廣等優(yōu)點,一直是該領域的研究熱點?;趫D像的人臉建模最常用的2種方法為基于明暗恢復形狀的方法和基于形變模型的方法。HORN[7]早在20世紀70年代就提出了通過圖像明暗變化恢復物體外觀形狀的方法,類似于物體成像的逆過程,根據人臉照片的亮度變化恢復人臉模型的表面形狀。其優(yōu)點在于數(shù)據集的需求較小,通過少量人臉圖像恢復人臉的形狀模型,但該模型所需條件過于理想化,對拍攝角度、光照方向有要求,實時性較差,無法被廣泛應用。
BLANZ和VETTER[8]提出的三維形變模型(3D morphable model, 3DMM)法是目前較為成功的利用二維圖像進行人臉重構的方法。通過建立三維人臉的線性組合,結合二維圖像調節(jié)、擬合得到重構的三維人臉。其創(chuàng)造性地將一個具體的人臉模型分解為形狀和紋理2個部分,且具有高度自動化和真實感強的優(yōu)勢,在人臉三維重建領域廣受關注。文獻[9]通過在二維圖像和三維面部模型數(shù)據集上訓練卷積神經網絡,在不考慮細節(jié)和紋理特征的情況下,能夠實現(xiàn)任意姿態(tài)和表情的面部幾何重建。文獻[10]提出了一種高保真姿態(tài)和表情的方法,利用姿態(tài)變換造成二維和三維特征點的不對應關系,采用三維形變模型自動生成正面姿態(tài)和中性表情的自然人臉模型。文獻[11]通過大量的數(shù)據標記,提出了一種魯棒性的,由輸入照片直接返回3DMM形狀和紋理參數(shù)的回歸方法,克服了模型泛化問題,生成可用于人臉識別的三維人臉模型。文獻[12]發(fā)布了SFM (surrey face model)三維形變模型,并提出采用級聯(lián)回歸方法擬合3DMM參數(shù),實現(xiàn)了基于視頻重建三維人臉模型的算法4dface,這是面部建模領域的一大飛躍。
盡管對圖像和視頻的三維建模已有大量的研究,但是從視頻中實時重建帶有表情的精確三維人臉仍有很大的改進空間。本文提出一種從普通人像視頻中自動實時重建三維人臉模型的方法,支持側臉角度[–40°, 40°],俯仰角度[–20°, 20°]下的頭部姿態(tài),在該范圍內,相機從不同角度拍攝人臉,采用線性回歸的方法擬合不同角度和姿態(tài)的人臉二維特征點和三維形狀模型,重建過程中使用頭部姿態(tài)和表情系數(shù)調整模型細節(jié)狀態(tài),最后在300W人臉數(shù)據集上驗證了本文算法在重建擬合時間和模型準確度上均有所提高。
本文旨在實現(xiàn)實時重建出具有辨識度的三維人臉模型,過程中不需要嚴格的定義人物姿態(tài),也無需昂貴的深度獲取設備和專業(yè)人員的操作,以及后期的加工處理,是一種簡單、可廣泛推廣的快速人臉建模方法。基于二維圖像進行三維模型的重建往往對模型和人臉的初始狀態(tài)有很強的依賴,因此圖像特征和通用模型的選擇是后續(xù)重構計算的基礎。本文選擇三維形變模型作為通用形變模型,用于和二維特征點的擬合運算。同時,選取68個特征點描述人臉特征,并采用受約束的局部神經域模型(constrained local neural fields, CLNF)算法[13]獲取特征點信息。
三維人臉模型可以表示多個對象類的表面,每個人臉由一組頂點組成,由頂點在三維空間中的坐標共同描述人臉形狀;每個頂點均對應一個RGB像素值,表示人臉皮膚紋理。由此,面部模型可以表示為多點組成的網格{v|i=1,2,···,},為網格的頂點數(shù),則人臉的第個頂點v的坐標為w=(x,y,z)T,RGB顏色由(r,g,b)表示,一個3D人臉可以用一對形狀和紋理向量進行描述:(1,1,1,···,x,y,z)T,(1,1,1,···,r,g,b)T。
每個人臉都是獨一無二的,由特定的人臉形狀和皮膚紋理組成,通過由和的概率分布構成的統(tǒng)計三維人臉模型,可以捕捉到特定個體人臉的形變。本文使用主成分分析法(principal component analysis, PCA)表示和的空間分布,設和為PCA基矩陣,其中r為形狀變化;r為紋理變化,一個人臉實例可表示為
其中,0,0分別為平均人臉的形狀和紋理,假設系數(shù)和服從正態(tài)分布:()~(0,σ),()~(0,σ)。其中,σ,σ是最貼近真實人臉模型的形狀參數(shù)和紋理參數(shù)的變化系數(shù)。
由一個人臉模型的平均向量和基向量可擬合成一個特定人臉,不同的模型參數(shù)和對應不同的人臉,這種統(tǒng)計三維模型變形能力被稱為3DMM。
面部特征點的提取是圖像重建技術的基礎,可建立二維人臉與其對應三維模型之間的關系。本文采用目前較好的人臉特征點檢測器CLNF算法進行68個面部特征點檢測和跟蹤。該算法是基于約束局部模型(constrained local model, CLM)[14]的改進,引入了一種包含神經網絡層的局部神經域,可以捕獲像素值和輸出響應之間復雜的非線性關系,加強稀疏性,使結果更加準確。
CLNF特征點檢測器由2部分組成:①點分布模型 (point distribution model, PDM)用于捕捉形狀變化,包括34個非剛性和6個剛性形狀參數(shù)來描述人臉形狀;②局部貼片patch experts 用于捕捉特征點局部細節(jié)變化。其可以在不同姿態(tài)、不同光照、或低或高的分辨率下,準確跟蹤人臉,并在IBUG數(shù)據集上進行了測試,如圖1所示。
圖1 IBUG數(shù)據集上檢測人臉特征點
本文從視頻連續(xù)幀人臉圖像實時重建出帶有紋理細節(jié)的三維面部模型,彌補了單張圖片重建的自遮擋問題,由特征點跟蹤不同角度人臉變化,實時矯正形變模型,逐步優(yōu)化,而非一次性重建出最終結果,在細節(jié)和準確度方面均有較好的效果。
從視頻中提取一幀圖像,首先需利用Haar分類器檢測人臉區(qū)域,再利用CLNF算法在區(qū)域內識別人臉特征點的二維位置;然后初始化SFM統(tǒng)計模型(如果是第一幀人臉圖像,則初始化平均模型,否則采用上一幀的形變模型),采用黃金標準算法[15]由五官特征點二維位與其在三維模型中的對應坐標計算當前人臉姿態(tài)和仿射相機矩陣,通過2次線性回歸,求解表情系數(shù)和PCA形狀系數(shù),使三維模型發(fā)生形變。重建方法流程如圖2所示。
從視頻連續(xù)幀可以獲取不同角度的人臉圖像,每張人臉圖像均可跟蹤到68個特征點,并擬合一個形變的三維模型。本文將前一幀形變后的三維模型作為后一幀模型形變的基礎,使得最終生成的三維模型經歷了不同角度人臉姿態(tài)的擬合變形,使其更接近真實人臉形狀。同時,在姿態(tài)角度變化過程中,還可以全方位獲取人臉的紋理細節(jié)特征。
圖2 方法流程圖
建立稠密對齊的人臉模型,以便于采用統(tǒng)一的向量形式來表示人臉形狀,使得每個三維頂點在形變過程中保持相同的物理意義。
本文采用的稠密對齊模型是SFM形變模型,共有3 448個頂點,可生成6 736個密集對應的三角面片,包含一個PCA形狀模型,一個PCA顏色模型以及相關數(shù)據源,諸如2D紋理展開表示特征點語義對應屬性等。SFM模型的構建過程中,使用3dMDface2相機系統(tǒng)對169個不同種族、不同年齡的人臉進行掃描,覆蓋了多元文化的人臉特征信息,得到的PCA基矩陣包含63個形狀特征向量和132個顏色特征向量,保留了99%的原始數(shù)據變化。一個新生成的人臉形狀模型可表示為
其中,M=63為主成分數(shù),主成分集合V={v1,v2,···,vM},分別表示臉型長寬、大小、圓臉、方臉等不同面部形狀特征;α為主成分變化系數(shù)。圖3為隨機設置不同PCA形狀系數(shù)生成的人臉模型。
除此之外,鑒于表情是人臉的重要屬性之一,為了在重建過程中能夠保留原視頻中生動的表情信息,本文定義了一種表情模型(blendshapes)作為參考模型,可表示為
其中,Sα為形狀系數(shù)生成的模型;k=6為主元表情個數(shù),分別是生氣、厭惡、害怕、高興、悲傷及驚訝;γi為每種表情變化系數(shù);E為主要表情向量組。以平均人臉形狀為基礎模型,分別調整6個系數(shù),可生成具有不同表情的形狀模型,如圖4所示。
綜上,本文的面部模型由PAC的形狀模型和表情模型共同構成,二者均屬于線性模型,相互獨立,且有各自獨立的系數(shù)和成分;又相互作用,表情模型可以在形狀模型的基礎上形變,形狀模型也可以在表情模型的基礎上形變。
本文提出一種基于表情系數(shù)和PCA形狀系數(shù)的線性回歸擬合方法。單目視頻序列中跟蹤每一幀圖像的68個特征點,選取50個中心區(qū)域(眉毛、眼睛、鼻子、嘴)的特征點,采用齊次坐標x?3表示??梢员苊庥捎谌四樈嵌茸兓蠡蜃哉趽踉斐傻哪槻枯喞奶卣鼽c丟失或不準。根據SFM模型的2D-3D特征點對應關系元數(shù)據,得到特征點在該模型中的三維坐標X?4,也用齊次坐標表示,從而計算出表示當前頭部姿態(tài)的3×4仿射相機矩陣,包括3×3的旋轉參數(shù),平移參數(shù),,以及縮放比例。
給定相機矩陣和該組二維特征點,可通過最小化損失函數(shù)計算當前表情系數(shù),即
其中,為特征點的數(shù)量;y為第個特征點的齊次坐標;y為第個特征點對應的三維模型坐標通過估計的相機矩陣投影到二維坐標系中的坐標顯示,即
將求解的表情系數(shù)帶入式(2),通用模型發(fā)生第1次形變擬合,使模型與原始圖像具有相同的姿態(tài)和表情。
對于表示人臉輪廓的邊界區(qū)域特征點,可根據人臉姿態(tài)將剩余18個特征點劃分為2類。引入可見的一側二維輪廓點作為額外對應點,參與PCA形狀系數(shù)的擬合,建立代價方程,滿足人臉真實二維特征點和模型投影到二維圖像的特征點的距離最小,如式(3)的損失函數(shù),代替,不同的是三維模型投影到二維空間的特征點的計算,即
將所得的PCA形狀系數(shù)代入式(2),通用模型發(fā)生第2次形變,其符合視頻中人臉形狀的擬合變形。至此,算法完成了當前角度和姿態(tài)下的三維模型形狀的2次擬合,最終生成的模型將用于下一幀數(shù)據的迭代擬合,如圖5所示。
圖5 擬合過程
模型擬合完成之后,將該幀面部紋理映射到isomap[17],即每個像素均能在三維網格的全局映射中得到體現(xiàn)。isomap是一種將三維模型三角網格投影到二維空間的紋理映射圖,其能夠保持平面內兩點的幾何距離不變,如圖6(a)所示。
圖6 紋理映射與投影
對于映射圖中的每個像素點(,),可根據相機矩陣計算出當前人臉姿態(tài),求出該點在當前姿態(tài)下是否可見∈(01),若可見,將該點對應的RGB賦值到映射圖中的相應位置。在多角度三維人臉紋理映射過程中,基于isomap全局映射網格的緊密對應關系,記錄網格中每個點的可見度,初始狀態(tài)下為不可見=0,若當前角度下計算得=1,則將該點顏色值映射到網格,遍歷多角度二維圖像,逐步填充映射圖中不可見區(qū)域,最終生成完整的人臉紋理映射圖。
針對本文提出的基于形變模型的多角度重建方法,與當前流行的視頻重建算法進行精確度、時間和渲染效果3方面的對比實驗。數(shù)據集使用300W人臉數(shù)據集,平臺筆記本配置為Intel(R) Core(TM)i5-7200U處理器,2.50 GHz 主頻,8 GB內存,以及NVIDIA GeForce 930MX顯卡。
實驗1. 精確度對比
隨機提取300W數(shù)據集中的若干張圖片,首先標記出數(shù)據集標記的68個特征點位置如圖6(b)空心方塊;然后用本文方法對SFM三維形變模型進行擬合變形并將模型頂點投影到二維平面,如圖6密集實心點,而空心圓則是模型投影的特征點位置。
計算特征點的均方根誤差(root mean square error, RMSE)用于衡量模型擬合的精確度,實驗中,采集了數(shù)據集中不同角度的人臉圖像,并與4dface采用模型擬合算法進行對比,如圖7所示,結果顯示本文方法擬合精確度更高。
圖7 精確度對比圖
實驗2.時間對比
本文通過改善特征點提取方式,減少迭代次數(shù),優(yōu)化擬合算法,從而極大地提高了實時性能。4dface的視頻圖像人臉重建幀率大約在4~7 fps,本文重建的實時幀率約為20~25 fps。
表1 平均耗時對比(毫秒/幀)
表1對比了每一幀圖像在特征點提取和三維形變模型擬合過程中平均消耗的時間,證明本文算法在實時性能方面具有魯棒性。
實驗3.渲染效果
模型渲染效果的好壞是三維面部模型最直觀的表現(xiàn)。本文提出的紋理渲染是一種由粗到細,隨著視頻中人臉角度變化逐步填充自遮擋區(qū)域的紋理獲取方法,相比于4dface采用的紋理疊加取平均的方法,更能保障人臉細節(jié)特征不丟失不模糊,且基本還原了所有面部細節(jié),如痘痘、斑點及皺紋;放大局部圖像,發(fā)現(xiàn)眼部細節(jié)未隨著角度變化而模糊,如圖8所示。
圖8(a)展示了人臉的整體重建效果,依次是本文方法多角度重建、單張圖的重建及4dface方法的重建;圖8(b)放大眼部圖像,可以看出本文的方法與4dface相比,紋理更加清晰;圖8(c)放大鼻子圖像,顯示本文方法解決了單張圖像重建的自遮擋導致的局部“空洞”問題;圖8(d)為本文在表情重建方面的效果。
圖8 模型渲染效果圖
本文通過視頻流多角度人臉圖像,結合形變模型進行三維人臉模型的實時重建。多角度的人臉拍攝彌補了基于單張圖片進行三維重建的自遮擋導致局部信息缺失問題;三維形變模型的方法解決了基于二維圖像重建三維模型所存在的深度信息缺失問題。并且,本文的重建是全自動,無需手動干預的實時重建方法,自動特征點的定位算法的引入,提高了特征點定位的準確性和效率。本文提出的形變擬合方算法,與傳統(tǒng)擬合過程相比,極大降低了時間開銷,同時精確度也略有提高。最后在紋理融合階段,本文紋理提取方法能夠保留面部紋理細節(jié),使重建模型更具真實感。但紋理提取容易受到光照的影響,如果面部光照極不均勻,可能造成重建模型的皮膚紋理深淺不一致的情況,這將是后續(xù)研究的工作。
[1] KHOSHELHAM K, ELBERINK S O. Accuracy and resolution of kinect depth data for indoor mapping applications [J]. Sensors, 2012, 12(2): 1437-1454.
[2] 欒悉道, 應龍, 謝毓湘, 等. 三維建模技術研究進展[J]. 計算機科學, 2008, 35(2): 208-210, 229.
[3] HU L W, LI H, SAITO S, et al. Avatar digitization from a single image for real-time rendering [J]. ACM Transactions on Graphics, 2017, 36(6): 1-14.
[4] LIM C P, NONIS D, HEDBERG J. Gaming in a 3D multiuser virtual environment: Engaging students in science lessons [J]. British Journal of Educational Technology, 2006, 37(2): 211-231.
[5] 李小麗, 馬劍雄, 李萍, 等. 3D打印技術及應用趨勢[J]. 自動化儀表, 2014, 35(1): 1-5.
[6] LI T Y, BOLKART T, BLACK M J, et al. Learning a model of facial shape and expression from 4D scans [J]. ACM Transactions on Graphics, 2017, 36(6): 1-17.
[7] HORN B K P. Height and gradient from shading [J]. International Journal of Computer Vision, 1990, 5(1): 37-75.
[8] BLANZ V, VETTER T. Face recognition based on fitting a 3D morphable model [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(9): 1063-1074.
[9] JACKSON A S, BULAT A, ARGYRIOU V, et al. Large pose 3D face reconstruction from a single image via direct volumetric CNN regression [C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 1031-1039.
[10] ZHU X Y, LEI Z, YAN J J, et al. High-fidelity pose and expression normalization for face recognition in the wild [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 90-98.
[11] TRAN A T, HASSNER T, MASI I, et al. Regressing robust and discriminative 3D morphable models with a very deep neural network [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Computer Society, 2017: 1493-1502.
[12] HUBER P, HU G S, TENA R, et al. A multiresolution 3D morphable face model and fitting framework [EB/OL]. [2018-09-13]. http://epubs.surrey.ac.uk/809478/.
[13] BALTRUSAITIS T, ROBINSON P, MORENCY L P. Constrained local neural fields for robust facial landmark detection in the wild [C]//2013 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2013: 354-361.
[14] CRISTINACCE D, COOTES T. Automatic feature localisation with constrained local models [J]. Pattern Recognition, 2008, 41(10): 3054-3067.
[15] HARTLEY R, ZISSERMAN A. Multiple view geometry in computer vision [M]. Cambridge: Cambridge University Press, 2003: 102-107.
[16] LAWSON C L, HANSON R J. Solving least squares problems [J]. Society for Industrial and Applied Mathematics, 1995, 77(1): 673-682.
[17] TENENBAUM J B. A global geometric framework for nonlinear dimensionality reduction [J]. Science, 2000, 290(5500): 2319-2323.
Real-Time Reconstruction of Multi-Angle 3D Human Faces Based on Morphable Model
CHEN Guo-jun, CAO Yue, YANG Jing, PEI Li-qiang
(College of Computer and Communication Engineering, China University of Petroleum, Qingdao Shandong 266580, China)
The method that uses face landmarks to adjust the 3D morphable model is widely applied in 3D face reconstruction, but the calculation of morphable model is time-consuming and often produces errors. In this paper, we improve the fitting method of general 3D morphable model using 2D landmarks of face, and propose a real-time 3D face reconstruction method with multiple angles of video frames. First of all, we recognize the location of landmarks by the CLNF algorithm with three-layer convolutional neural networks and track the landmarks. Then, the head posture is estimated from five senses of face landmarks, and the blendshape coefficients of the model is updated, which can be used to calculate the PCA shape coefficients so as to promote the deformation of the current 3D model. Finally, we employ the ISOMAP algorithm to extract the texture information of the mesh, and proceed texture fusion to form a specific face model. Experimental results demonstrate that our method has better real-time performance and accuracy in 3D face reconstruction.
3D morphable model; landmarks extraction; blendshape coefficients; PCA shape coefficients; texture fusion
TP 391
10.11996/JG.j.2095-302X.2019040659
A
2095-302X(2019)04-0659-06
2018-11-13;
定稿日期:2018-11-21
國家“863”計劃主題項目子課題(2015AA016403);虛擬現(xiàn)實技術與系統(tǒng)國家重點實驗室(北京航空航天大學)開放基金(BUAA-VR-15KF-13)
陳國軍(1968-),男,江蘇如東人,副教授,博士,碩士生導師。主要研究方向為圖形圖像處理、計算機視覺等。E-mail:chengj@upc.edu.cn