張釋如,朱 萌,穆本麒
(西安科技大學 通信與信息工程學院,陜西 西安 710054)
三維人臉相比二維人臉包含了更豐富的人臉結構和表情信息,在許多應用中有著更精準、更魯棒的優(yōu)勢。近年來,三維人臉模型的應用場景不斷拓展,在人臉識別[1-3]、醫(yī)學整形[4]、人臉動畫影視制作[5]等方面均起著巨大作用。
三維人臉建模的研究至今已有近50年歷史,相關國內外研究者提出了許多建模方法。通常將其分為兩大類:掃描設備驅動的和圖像驅動的三維人臉建模方法。前者需借助三維掃描儀等采集數(shù)據(jù),其體積大、價格昂貴等缺陷限制了應用擴展。相反,后者使用普通相機或手機拍攝的照片就可實現(xiàn)建模,具有更廣闊的應用前景。
圖像驅動的三維人臉建模通常又可以分為直接和間接的方法,二者區(qū)別在于是否使用了通用人臉模型。前者直接從圖像獲取人臉三維信息來建模,建模效果嚴重依賴于提取特征點的密集程度,且對額頭、臉頰等弱紋理區(qū)域,由于特征點太少,常會導致重建模型出現(xiàn)空洞等。后者實現(xiàn)建模需借助通用人臉模型,根據(jù)從目標人臉圖像中提取的特征點計算深度來形變通用模型,使其逼近目標人臉。由于通用模型的完整性,這種間接式方法建立的模型不會因遮擋或提取的特征太少產(chǎn)生空洞,且這種通用模型在不同的面部表情間建立了潛在的轉換,可以實現(xiàn)跨姿態(tài)的人臉建模[6],是近年來三維視覺領域的研究熱點。
在此之前,研究者們[7-10]采用間接三維人臉建模方法,利用單張照片重建三維人臉的工作已取得了眾多成果,但單張照片本身所含信息有限,導致模型的側面輪廓類似通用人臉。鑒于對更高精度三維人臉模型的追求,近幾年眾多學者對多視角、多張照片及視頻序列等人臉建模展開研究。蔡麟等[11]提出了一種多階段優(yōu)化框架,通過將通用模型向7個視角的圖片擬合,實現(xiàn)了多視角高精度的人臉重建。Zeng等[12]針對現(xiàn)有通用人臉參考模型對多種族人群重建高精度人臉能力有限的問題,探索出一種基于不同參考模型,采用陰影先驗的、用于對一幅正面(0°)和兩幅側面(±90°)人臉圖像重建三維模型的方法。Shao等[13]針對單張照片三維人臉特征分析和身份識別常常失敗的問題,提出一種多域姿態(tài)歸一化網(wǎng)絡,實現(xiàn)了多視圖高精度的三維人臉識別。Song等[14]針對兩視圖視頻流,提出了一種輕量級的恢復人臉幾何形狀的方法。Hernandez等[15]提出了一種SFM的固定姿勢級聯(lián)回歸方法來重建無約束視頻中人臉的三維形狀。
單視圖建模因所含信息太少導致模型側面效果不佳,多視圖及視頻的人臉建模均以犧牲計算時間來提高建模精度,即使用圖片數(shù)目越多,建模精度越高,但計算成本也更高。因此,應以使用更少的圖片數(shù)目重建出更高精度的人臉模型為目標進行研究。本文采用間接建模方法對更少視圖的人臉建模展開研究,提出了一種基于三視圖像由粗到精的人臉建模方法。該方法將人臉建模分為粗糙和精細兩個階段。前一階段,針對輸入三視圖像中定位人臉特征點的匹配問題,提出一種基于改進LBP特征的稀疏匹配方法進行精準匹配,進而計算深度并形變模型,生成粗糙人臉模型。后一階段,以粗糙模型為初始人臉,將傳統(tǒng)單視圖雙線性模型擴展至三視圖像,并結合三視圖像中提取的特征及紋理先驗,重新定義模型的能量函數(shù)來實現(xiàn)模型匹配;最終為進一步精細化模型的非特征區(qū)域,采用了點形變和曲線形變相結合的方法,重建生成了精細三維人臉模型。
本文三視圖像人臉建模方法的實現(xiàn)流程見圖1。該方法將整個建模過程分為粗糙建模(虛線框內所示)和精細建模兩大階段。前一階段生成了包含特征形狀信息和表情信息的粗糙人臉模型,為后一階段模型的定義提供了初始形狀,從而促使精細階段生成既包含幾何形狀和表情,又包含紋理信息的精細三維人臉模型。
圖1 三視圖像人臉建模方法實現(xiàn)流程
粗糙人臉模型具有基本的人臉幾何形狀和表情信息,但沒有色彩紋理及更細節(jié)的形狀信息,其是本文后續(xù)精細建模的基礎。圖1流程顯示,粗糙建模需先定位輸入三視圖像上的人臉特征點并進行匹配,進而計算特征點的深度并映射到通用人臉模型上來生成粗糙人臉模型。
1.1.1 三視圖像人臉特征點的定位與匹配
1)人臉特征點定位
基于級聯(lián)回歸的人臉特征點定位方法憑借定位速度快、誤差小、對遮擋和一定偏角的人臉也能準確定位等優(yōu)勢,目前已成為人臉特征點定位的主要方法之一[16]。本文輸入三視圖像的左、右兩幅人臉具有一定偏角,因此采用了文獻[17]提出的基于級聯(lián)回歸的集成回歸樹算法(Ensemble of Regression Trees, ERT)。該算法通過級聯(lián)多個梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)來一級級地將每級對人臉特征點位置的估計進行回歸,不斷逼近真實位置。結合Dlib機器學習庫,本文采用ERT算法進行68個人臉特征點的定位,結果見圖2,可以看到對有一定偏角的側面人臉也能準確定位。
圖2 68個人臉特征點的定位
2)人臉特征點匹配與深度計算
在均勻光照下同步采集三視圖像照片,其成像像素受人為因素及光照的影響較小,但難免會受噪聲等的干擾。針對精準匹配定位人臉特征點的問題,提出了一種基于改進LBP特征的稀疏匹配方法。該方法以LBP算法為基礎,即以某像素點p為中心建立半徑為r的窗口,依次比較窗口內周圍像素點與中心像素點的灰度值,當周圍像素點灰度值小于中心點時,將該點記為0,否則記為1,這樣按序拼接后得到8×r位LBP特征二進制編碼。為使匹配算法具有一定抗噪能力,將原始LBP中的窗口中心像素灰度值用窗口內各像素灰度值的平均來代替,完成改進LBP特征編碼。以3×3窗口為例,加入干擾前后,計算LBP編碼見圖3,其中avg為窗口內所有像素灰度值的平均。
圖3 計算LBP特征編碼
從圖3中可以看到,改進LBP具有一定的抗噪能力。本文基于改進LBP實現(xiàn)人臉定位點稀疏匹配的具體步驟如下:
輸入三視圖像及其定位的特征點坐標
輸出左、右視圖的定位特征點分別與中間視圖特征點進行匹配后的坐標
步驟1外層循環(huán)遍歷中間視圖特征點的坐標,依次計算特征點處半徑為r的窗口內像素灰度值構成的8×r位改進LBP編碼;
步驟2內層循環(huán)遍歷左或右視圖特征點的坐標,在各自視圖上對應特征點處l×l的鄰域內,按步長為1再遍歷得到每個特征點對應的(l-2)2個候選匹配點的改進LBP編碼;
步驟3根據(jù)LBP編碼依次計算中間視圖特征點與其左右視圖的候選匹配點的相似度(采用二進制比特串的漢明距離),比較后得到最佳匹配點。
采用該方法匹配稀疏點時,選取參數(shù)r=1,l=8。以中間視圖定位特征點為基準,在左右視圖的定位點及其鄰域內尋找對應的匹配點。匹配結果見圖4,其中 68個定位點均精準匹配。根據(jù)匹配點的坐標,利用雙目視覺原理,由式(1)即構成立體圖對的左、右圖中特征點坐標的歐氏距離近似計算視差。利用小孔成像及相似三角形原理,由式(2)計算深度,由式(3)計算特征點在當前相機坐標系(將中間視圖的相機坐標系看作世界坐標系)的坐標。
圖4 稀疏特征點匹配結果
(1)
(2)
(3)
式中,(xil,yil)和(xir,yir)分別為立體圖對的左、右圖上第i個特征點的二維圖像坐標,di為其視差值,b為基線距離,f為焦距,(Xic,Yic,Zic)為該特征點在當前相機坐標系下的坐標,同時Zic為其深度。
根據(jù)相機與世界坐標間的剛性變換,由式(4)可準確恢復特征點的真實世界坐標。
(4)
式中,(Xiw,Yiw,Ziw)為第i個特征點的世界坐標,R和T分別為相機的旋轉矩陣和平移向量。
1.1.2 特征區(qū)域的模型形變
前面已得到人臉定位特征點的真實世界坐標,將其映射到三維通用人臉模型上即可實現(xiàn)模型形變。本文采用3DMM(3D Morphable Model)原理,則加性通用人臉模型由式(5)表示。
(5)
經(jīng)最小化通用模型上定位點坐標s3d和真實人臉坐標s3dt之間的距離來估計模型參數(shù),見式(6),進而實現(xiàn)模型形變,生成粗糙人臉模型。
(6)
圖5給出使用該方法生成的粗糙人臉模型??梢钥吹剑艹醪交謴湍樞洼喞捅砬樾畔?。
圖5 三視圖像的粗糙人臉模型
粗糙模型遠不夠表達人臉的真實形態(tài),因此還需對其精細化處理,使模型特征區(qū)域和非特征區(qū)域的幾何分布都更接近人臉的真實結構,并結合紋理信息,最終生成精細化彩色三維人臉模型。
1.2.1 三視圖像的雙線性模型精細化方法
根據(jù)圖1流程,模型精細化主要分為模型定義、計算先驗約束和模型匹配三個階段。
1)模型定義
以粗糙模型為初始人臉,采用基于3DMM的BFM(Basel Face Model)模型來構建多視圖人臉雙線性模型,見式(7)。
(7)
式中,記Mk(Wid,Wexp)=Vk是估計模型上的第k個頂點,Cri,j是模型原始核心張量簡化后的張量,Wid是形狀系數(shù)的m維向量,Wexp是表情系數(shù)的n維向量,本文設置m為50,n為25。
根據(jù)小孔成像和弱透視投影原理,利用式(8)將三維人臉模型的每個頂點投影到二維空間。
Pi(Vk)=si×Ri×Mk(Wid,Wexp)+Ti
(8)
式中,Mk(Wid,Wexp)見式(7),i={L,C,R}為左、中、右視角的相機,si為比例因子,Ri為旋轉矩陣,Ti為平移向量,Pi為該模型上某個頂點投影到i視角的二維圖像空間的點。
2)計算先驗約束
(1)特征約束
在粗糙建模階段定位的68個特征點涵蓋了臉部最重要的部位,因此將其用作特征先驗來估計精確的人臉模型輪廓。在初始人臉模型上按定位特征點的順序在相應頂點處標記一組點(圖6中綠色點集),用Mj(Wid,Wexp)表示,j為標記點的順序索引。該特征先驗即約束模型上標記點投影到二維空間的坐標和該標記點在三個視圖上定位特征點的坐標之間的距離,由式(9)表示。
圖6 模型標記點與三視圖像人臉定位特征點的對應
(9)
(2)紋理約束
僅由特征約束估計的人臉模型沒有色彩信息,因此本文引入了自適應紋理約束來增強模型的真實感。根據(jù)式(8)將模型上每個頂點投影到三視圖像的空間,投影點表示為Pi(Vk),i={L,C,R}。從模型的同一頂點向三個視圖投影,則對應的投影點就是立體匹配點,見圖7。
圖7 模型頂點與三視圖像人臉像素點的對應
設以投影像素點Pi(Vk)為中心的鄰域記為N,其半徑設為5,(u,v)為該像素點的坐標,(u′,v′)為其鄰域N內像素點的坐標,由式(10)~式(13)計算該像素點(u,v)處的紋理方差中心,則自適應紋理約束可由式(14)表示,用于懲罰匹配像素間的誤差,將三視圖像與三維模型間的匹配紋理差異降到最低,使模型整體的紋理與真實人臉更相似。
(10)
ψi(u,v,u′,v′)=D(u,v,u′,v′)H(u,v,u′,v′)
(11)
(12)
(13)
(14)
式中,Ci(u′,v′)為RGB顏色通道,ψi(u,v,u′,v′)為雙邊權重,D(u,v,u′,v′)和H(u,v,u′,v′)分別是距離權重和顏色權重,σD和σH分別是圖像坐標的標準差和圖像紋理空間的標準差。
(3)正則化約束
為防止形狀和表情系數(shù)過擬合,本文引入正則化約束。BFM庫包含近3000張人臉混合模型,第m個模型的形狀和表情系數(shù)由式(15)表示。
(15)
(16)
3)模型匹配
利用特征約束Ef、紋理約束Et和正則化約束Er構建多視圖的能量函數(shù)見式(17)。
E=λf×Ef+λt×Et+λr×Er
(17)
式中,權重λf、λt、λr表示各約束的相對重要性,之和為1,本文分別設置為0.4,0.3,0.3。為保證三個約束起到均衡作用,通常權重會選擇較接近的三個值,但針對有特定要求的建模,則對權重值的選取有特定要求。當要求重建模型五官及輪廓的精度足夠高時,對應λf選擇相對大的值;當需要重建模型的紋理更自然、且與真實人臉更相像時,λt選擇更大的值;當重建模型的精度總不穩(wěn)定時,說明存在過擬合現(xiàn)象,λr應選擇更大的值。
利用L-BFGS-B優(yōu)化方法[18]最小化該能量函數(shù),確定未知參數(shù)Wid、Wexp及三視角各自的相機標定參數(shù)(si,Ri,Ti),即可實現(xiàn)模型匹配。
1.2.2 非特征區(qū)域的點形變和曲線形變
前面雙線性模型算法的精細化建模,在人臉幾何形狀上僅是對特征區(qū)域的形變優(yōu)化,而非特征區(qū)域如五官的周圍鄰域,額頭、臉頰等距離五官較遠的區(qū)域等對描述真實人臉都起著至關重要的作用。因此,對于非特征區(qū)域,本文采用了點形變和曲線形變的方法[19-20],進一步對模型進行精細化;另外,為避免重建人臉表面出現(xiàn)過渡不自然的現(xiàn)象,采用了半核拉普拉斯平滑算子[21]來獲取更平緩的人臉,從而提高了重建模型與真人的相似度和精度。
本文精細人臉模型生成實驗主要對真實數(shù)據(jù)的三視圖像照片進行了測試,并做了兩組對比實驗:一是與單視圖雙線性建模方法[22]的結果及本文方法流程中采取不同先驗約束的建模結果對比,包括不采用約束、僅采用特征約束;二是與其他相關文獻建模方法的對比,包括隨機稀疏點形變的方法[10]、采用陰影先驗約束的方法[12]、固定姿勢級聯(lián)回歸的方法[15]。
該三視圖像照片由自行研制的同步相機采集,見圖8(a)。該相機采用多路圖像同步控制技術,單次采集僅需0.01 s,保證了拍攝嚴格同步。本文方法重建的精細化模型見圖8(b),可以直觀看到,模型整體較自然,且與真實人臉十分相像。
圖8 三視圖像真實照片的精細人臉模型
2.2.1 對比實驗一
首先對比了單視圖及本文方法流程中采取不同約束的建模結果,見圖9。其中,(b)是單視圖雙線性建模方法的結果,由于缺乏側面信息,側臉發(fā)生了錯誤形變;(c)是不采用任何約束的建模結果,其僅具有基本的空間結構,表情信息不全;(d)是僅采取特征約束的建模結果,含有表情,但未加入紋理使模型缺乏真實感;(e)是本文同時采用特征和紋理約束的建模結果,未出現(xiàn)模型畸變,且與真實人臉很相像。
圖9 單視圖及不同約束下建模結果的對比
表1給出了該組實驗的定量對比結果。可以看到,本文方法能有效改善單視圖建模信息不足及遮擋的問題;另外,當同時引入特征及紋理先驗約束時,重建模型的ME(Model Error,模型誤差)最小,驗證了本文構建的特征約束及紋理約束對提高模型重建精度是有效的。
表1 單視圖及不同約束下模型的定量對比
為了分析不同張數(shù)的照片對重建模型精度及計算成本的影響,在i5-8250(8G)的電腦上,統(tǒng)一采用分辨率為380×420的人臉照片,采用文獻[22]單張、本文3張和文獻[11]7張的建模方法進行人臉重建,建模時間及模型誤差見表2。隨著照片數(shù)目增加,模型誤差降低,即精度提高,但所需的建模時間也隨之增加。因此,在該鄰域研究中,如何找到照片數(shù)目、模型精度和計算時間的最佳平衡點,還是亟待解決的問題。
表2 不同張數(shù)的照片對建模精度及時間的影響
2.2.2 對比實驗二
實驗二對比了本文與其他文獻的建模方法,結果見圖10。其中,(b)是文獻[10]的重建模型,其出現(xiàn)了很多頂點鄰域畸變,人臉表面凹凸不平;(c)是文獻[12]僅采用陰影約束表示能量函數(shù)的重建模型,因為受光照影響較大,整體偏暗,且在鼻子區(qū)域過渡極不自然;(d)是文獻[15]的重建模型,由于該方法難以處理遮擋,導致模型在受遮擋的鼻翼和人臉側面等區(qū)域畸變較嚴重;(e)是本文方法的重建模型,直觀來看,該模型較自然,紋理與真實人臉極為相似,且三視圖像建模有效改善了遮擋問題,模型的鼻翼及側臉均處理較好。
圖10 不同建模方法的重建模型對比
表3定量對比了這幾種建模方法,可以看出本文重建模型的ME、特征區(qū)域的NME(Normalized Mean Error,歸一化平均誤差)和非特征區(qū)域的RMSE(Root Mean Square Error,均方根誤差)均更小,表明該方法在建模精度上更具優(yōu)勢,模型匹配更貼近真實人臉,能重建出更逼真、精細的三維人臉模型。
表3 不同建模方法模型的定量比較
本文提出一種基于三視圖像的三維人臉建模方法,該方法有效改善了單視圖建模信息量不足及無法避免遮擋的問題,同時生成了精細三維人臉彩色模型。實驗對比結果顯示,該方法重建的人臉模型具有更高的精度和更自然逼真的紋理。受限于人臉圖像的數(shù)目,重建模型沒有耳朵及頭發(fā)等信息,因此,下一步將擴展本文方法至更多視圖的三維人臉建模,對重建出完整的、更高精度的三維人臉模型進行研究。