董洪偉
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫214122)
自從Parke[1]的開創(chuàng)性工作以來,真實(shí)感的三維人臉建模和動(dòng)畫長期以來一直是計(jì)算機(jī)圖形學(xué)的熱點(diǎn)研究問題,從早期的簡單的粗糙的人臉模型到真實(shí)感和質(zhì)量越來越高的人臉模型,從藝術(shù)家設(shè)計(jì)的關(guān)鍵幀插值動(dòng)畫到基于運(yùn)動(dòng)捕獲和視頻的人臉動(dòng)畫,人們提出了多種多樣的人臉建模和表情動(dòng)畫的技術(shù)和方法。高度逼真的三維人臉模型及動(dòng)畫一直是研究人員追求的目標(biāo),如美國南加州大學(xué)(USC)ICT圖形實(shí)驗(yàn)室和Image Metrics合作的數(shù)字Emily工程[2]創(chuàng)造的數(shù)字Emily三維人臉動(dòng)畫達(dá)到了以假亂真的效果。技術(shù)的成熟使人臉建模和動(dòng)畫在影視娛樂等行業(yè)也得到了廣泛的應(yīng)用,例如越來越多以三維人為主角的電影和動(dòng)畫相繼出現(xiàn)。2009年底,3D立體電影 《阿凡達(dá)》創(chuàng)造了又一個(gè)票房神話,其中的三維虛擬化身的人臉表情給觀眾留下了深刻的影響。
我們試圖從歷史發(fā)展結(jié)合當(dāng)前的最新研究動(dòng)態(tài)對三維人臉建模和動(dòng)畫的技術(shù)及算法進(jìn)行一個(gè)綜述,以對現(xiàn)有的算法進(jìn)行較為深入的梳理,并為進(jìn)一步的研究提供線索。
三維人臉建模既屬于一般的三維物體重建,又具有自身的特點(diǎn),其建模過程同樣包括:三維信息獲取和三維建模。下面在對三維信息獲取技術(shù)介紹的基礎(chǔ)上對三維人臉重建的一些典型算法進(jìn)行綜述。
三維信息測量或捕獲技術(shù)從早期的接觸式測量到近年來得到快速發(fā)展的非接觸式的、光學(xué)的三維捕獲技術(shù)使三維物體重建過程更加快速和靈活。非接觸式三維捕獲技術(shù)主要有:雷達(dá)測距(time-of-ight)、激光掃描三角化、編碼結(jié)構(gòu)光、相移、立體攝影測量、從X恢復(fù)形狀(其中的X可以是輪廓、紋理、光度等)。這些三維測量或捕獲技術(shù)可以捕獲深度圖像或三維散亂數(shù)據(jù)點(diǎn)等三維信息,可用于重建包括靜態(tài)人臉的一般三維物體。
雷達(dá)測距技術(shù)通過測量一個(gè)光、聲、微波脈沖從發(fā)射到物體并經(jīng)物體發(fā)射最后回到接受裝置的傳播時(shí)間,得到物體上相應(yīng)點(diǎn)的深度信息,聲波雷達(dá)價(jià)格低,但精度和速度也低,微波雷達(dá)適合于遠(yuǎn)距離測量,具有較高精度,光學(xué)雷達(dá)可以獲得更高的精度,可同時(shí)獲取幾何和顏色信息,例如3DV系統(tǒng)公司的三維相機(jī)Z-Cam和微軟的Kinect都是通過發(fā)射一個(gè)紅外光墻獲取三維物體的深度圖像。
雷達(dá)測距技術(shù)獲取的三維信息精度不高,激光掃描三角化技術(shù)通過向物體發(fā)射一束激光條,根據(jù)相機(jī)得到的相應(yīng)圖像基于三角化原理得到激光條對應(yīng)的物體上點(diǎn)的三維坐標(biāo),可以獲得很高的精度。激光掃描系統(tǒng)是獲取高質(zhì)量三維信息的主要技術(shù)手段,但激光掃描系統(tǒng)通常具有價(jià)格貴、只能捕獲靜態(tài)物體以及侵入性等缺點(diǎn),例如由于激光對人眼具有傷害性,無法用激光掃描系統(tǒng)掃描人眼模型。
編碼結(jié)構(gòu)光、相位移、立體攝影測量等技術(shù)都同樣地基于立體視覺原理,通過同步的多個(gè)相機(jī)獲取的圖像及其像素對應(yīng)關(guān)系的建立,應(yīng)用三角原理可以獲得物體的稠密的高精度的三維點(diǎn)云。
從X恢復(fù)形狀(其中的X可以是輪廓、紋理、光度等)則利用各種圖像分析特別是計(jì)算機(jī)視覺技術(shù)從輪廓、紋理、陰影或光度等其他的一些線索重建三維信息。
按照人臉模型的表示方式不同,人臉建模技術(shù)可分為基于參數(shù)化曲面的人臉建模和設(shè)計(jì)、基于三維數(shù)據(jù)點(diǎn)插值的人臉重建、線性混合人臉、基于物理原理或生理仿真的人臉重建及動(dòng)畫等。
1.2.1 基于參數(shù)化曲面的人臉建模和設(shè)計(jì)
Parke認(rèn)為不同的人臉模型可以從同一個(gè)拓?fù)淠P妥兓鴣?,為此,他定義了一個(gè)參數(shù)化的通用人臉模型,通過修改這些保形參數(shù)并采用基于雙線性插值的方法,他創(chuàng)建了10個(gè)不同的人臉模型,然而參數(shù)調(diào)節(jié)是一個(gè)費(fèi)時(shí)費(fèi)力的痛苦過程,產(chǎn)生的人臉質(zhì)量也不高。
現(xiàn)代人臉建模軟件如FaceRobot等通常用一個(gè)參數(shù)化曲面如B樣條曲面表示人臉模型,通過參數(shù)化曲線曲面交互編輯進(jìn)行人臉模型的建模和設(shè)計(jì),可以創(chuàng)建較高質(zhì)量的人臉模型,這種建模方法可以從頭設(shè)計(jì)或通過編輯修改設(shè)計(jì)各種三維人臉模型,但需要技藝高超的設(shè)計(jì)師進(jìn)行較長時(shí)間的手工設(shè)計(jì),不適合人臉的自動(dòng)重建。
D.DeCarlo[3]提出基于人臉測量數(shù)據(jù)的約束優(yōu)化變分問題求解一個(gè)參數(shù)化B樣條人臉模型。對特定人群測量得到的測量數(shù)據(jù)(包括距離、約束等)的統(tǒng)計(jì)數(shù)據(jù)以及測量數(shù)據(jù)的約束關(guān)系圖,在對人臉進(jìn)行三維建模時(shí),首先由統(tǒng)計(jì)數(shù)據(jù)生成B樣條人臉模板,其控制網(wǎng)格的參數(shù)設(shè)為p,當(dāng)通過隨機(jī)生成或用戶指定方式指定初始的測量數(shù)據(jù)時(shí),根據(jù)約束關(guān)系圖得到其余的測量數(shù)據(jù),然后采用約束優(yōu)化技術(shù)求解一個(gè)滿足測量數(shù)據(jù)約束并保持與人臉模板的變形薄殼能量最小的B樣條人臉模型參數(shù)p'。
1.2.2 基于散亂數(shù)據(jù)插值或擬合的人臉重建
三維捕獲技術(shù)可以獲取物體的稠密三維點(diǎn)云,二十多年來,人們提出了許多基于三維散亂數(shù)據(jù)點(diǎn)插值或擬合的曲面重建算法,如徑向基插值、隱函數(shù)重建等,基于三維掃描點(diǎn)云可以重建高分辨率的三維人臉模型。
考慮到三維掃描系統(tǒng)需要專門設(shè)備,具有價(jià)格高、操作不靈活等缺點(diǎn),研究人員更熱衷于于如何從低成本的普通圖像或視頻中重建三維人臉。Pighin等[4]通過在不同角度拍攝的人臉圖像之間人工指定足夠多的對應(yīng)點(diǎn),基于立體視覺原理,應(yīng)用非線性優(yōu)化技術(shù)從這些對應(yīng)的二維圖像點(diǎn)恢復(fù)三維數(shù)據(jù)點(diǎn)以及相機(jī)的拍攝參數(shù),采用基于徑向基插值方法從這些稀疏的三維數(shù)據(jù)點(diǎn)中重建三維人臉模型,最后根據(jù)人臉圖像和相機(jī)參數(shù),應(yīng)用視點(diǎn)獨(dú)立或依賴的紋理映射技術(shù)生成真實(shí)感的三維人臉。其表示三維人臉模型變化的徑向基插值函數(shù)表示如下
式中:pi——基于立體視覺原理和束調(diào)整優(yōu)化技術(shù)求得的二維圖像點(diǎn)對應(yīng)的三維數(shù)據(jù)點(diǎn),M、t——仿形變換。通過求解滿足約束∑ci=0和的一組f(pi)=ui的線性方程組,可求得光滑變形域f(p)。
該方法不需要借助于專門的三維掃描儀等設(shè)備獲取稠密點(diǎn)云,僅僅從幾幅圖像就可以重建真實(shí)感三維人臉模型,具有建模成本低、靈活的優(yōu)點(diǎn),但需要在幾幅不同角度圖像上指定對應(yīng)點(diǎn),且重建的三維幾何模型的質(zhì)量不高。
近年來,隨著計(jì)算機(jī)視覺等研究的深入,基于圖像或單相機(jī)視頻的三維重建技術(shù)得到了進(jìn)一步發(fā)展,例如Higo等[5]采用一個(gè)帶有光源的手持相機(jī),從不同角度拍攝物體的幾幅圖片,通過圖切優(yōu)化方法求解一個(gè)包含圖像一致性約束、曲面法矢量約束和光滑性約束的能量優(yōu)化問題,將立體視覺和光度立體結(jié)合起來,有效地避免了單個(gè)技術(shù)的局限性,從單個(gè)相機(jī)的幾幅圖片就可以重建高質(zhì)量的三維物體模型。
1.2.3 線性混合人臉
“形狀混合”技術(shù)認(rèn)為所有人臉構(gòu)成了一個(gè)線性空間,通過對配準(zhǔn)的大量三維人臉模型及其紋理的主元分析法(PCA)降維技術(shù),任意一個(gè)人臉可以用有限個(gè)人臉基的線性組合逼近。這種方法要先建立一個(gè)具有類型多樣性的三維人臉數(shù)據(jù)庫,建立數(shù)據(jù)庫中特定的個(gè)性化人臉的典型方法可采用前述的從三維掃描數(shù)據(jù)點(diǎn)云或基于立體視覺原理獲取的三維數(shù)據(jù)點(diǎn)云重建人臉?;谌四様?shù)據(jù)庫,通過主元分析法方法對人臉數(shù)據(jù)庫中的人臉模型進(jìn)行統(tǒng)計(jì)分析,建立統(tǒng)計(jì)意義上的參數(shù)化通用人臉模型。
例如,Blanz和Vetter[6]通過建立配準(zhǔn)的西方人臉數(shù)據(jù)庫,提出了稱為“可形變模型”的參數(shù)化3D人臉模型。每個(gè)人臉網(wǎng)格的所有頂點(diǎn)坐標(biāo)及其紋理顏色可組合成如下的形狀向量和紋理向量
通過對數(shù)據(jù)庫中所有人臉的形狀向量空間和紋理向量空間進(jìn)行主元分析,可以將任何一個(gè)新人臉的形狀向量表示為平均形狀向量和形狀主元向量的線性組合,而新人臉的紋理向量表示為平均紋理向量和紋理主元向量的線性組合
Blanz和Vetter將該參數(shù)化人臉形變模型擬合到一幅正面圖像上,重建該圖像對應(yīng)的三維人臉模型及其紋理,生成了較高真實(shí)感的人臉。該技術(shù)已經(jīng)被廣泛地集成于各種人臉建模和動(dòng)畫軟件如Poser、FaceGen、Maya中,用于快速地低成本地生成三維人臉模型。Liu等[7]的參數(shù)化人臉模型也基于同樣的思路,只不過沒有通過主元分析獲取平均人臉和主元人臉,而是借助于藝術(shù)家設(shè)計(jì)了一個(gè)通用的人臉模型和一系列的變化模型,通過通用人臉模型和這些變化模型的線性組合表示一個(gè)參數(shù)化人臉,在本質(zhì)上是一樣的。
基于形狀混合的方法需要構(gòu)建足夠大的數(shù)據(jù)庫,不僅需要昂貴的設(shè)備或藝術(shù)家費(fèi)時(shí)的設(shè)計(jì),更需要進(jìn)行復(fù)雜的模型配準(zhǔn)、修補(bǔ)、對齊等數(shù)據(jù)處理工作,以便模型之間、模型和圖像之間建立起一致的對應(yīng)。對于不能被數(shù)據(jù)庫中人臉覆蓋的人臉幾何和紋理,用該方法建立的人臉模型質(zhì)量會(huì)很差,而人臉圖像不可避免地受到光照、噪聲等因素的影響,使得該方法具有一定的局限性,難以建立高精度幾何的人臉模型。
豐富的人臉表情可以充分表達(dá)人的內(nèi)心世界并打動(dòng)觀眾,而人的視覺對人臉表情的微妙變化也極其敏感,因此人臉表情動(dòng)畫是計(jì)算機(jī)圖形學(xué)的一個(gè)極其困難的挑戰(zhàn)性問題。三維人臉動(dòng)畫技術(shù)主要可分為基于形狀插值的、基于參數(shù)模型的、基于生理結(jié)構(gòu)或物理模型的、數(shù)據(jù)驅(qū)動(dòng)人臉動(dòng)畫。
關(guān)鍵幀插值技術(shù)是最簡單也最常見的動(dòng)畫技術(shù),通過對關(guān)鍵人臉表情的插值生成關(guān)鍵幀之間的人臉表情,具體的插值技術(shù)有簡單的線性插值、余弦插值、樣條插值、雙線性插值等。不同于基于曲面表示的人臉模型的幾何插值,Sera[8]采用了基于其物理表示人臉模型的彈簧肌肉力參數(shù)的線性插值生成兩個(gè)關(guān)鍵人臉表情之間的插值人臉表情。
關(guān)鍵幀插值技術(shù)雖簡單快速,但只是用于關(guān)鍵幀變化較小的情形,對于差異大的關(guān)鍵幀效果很不理想。
Parke最早采用一些參數(shù)描述表情的變化,通過參數(shù)的調(diào)整設(shè)計(jì)不同的人臉表情,但沒有有效的方法解決參數(shù)沖突,也容易產(chǎn)生不真實(shí)的人臉表情,參數(shù)表示依賴于人臉拓?fù)?,因此很難設(shè)計(jì)一個(gè)通用的參數(shù)模型,只有經(jīng)驗(yàn)豐富的動(dòng)畫師才能設(shè)計(jì)高質(zhì)量的人臉動(dòng)畫。
Blanz與Vette[6]的可形變?nèi)四樐P驮诰€性插值技術(shù)基礎(chǔ)上,通過對一組表示不同形狀、紋理以及人臉屬性(性別、眼影、鼻形、微笑、皺眉、微胖)的差分向量參數(shù)表示不同的人臉表情。這種通過插值權(quán)的變化驅(qū)動(dòng)人臉表情的方法具有效率高的優(yōu)點(diǎn),已經(jīng)作為一種經(jīng)典技術(shù)被廣泛的應(yīng)用于三維人臉動(dòng)畫中,數(shù)字Emily工程中也采用了這種形狀混合方法通過視頻特征的捕獲直接驅(qū)動(dòng)三維數(shù)字人臉Emily的表情變化,給人留下了深刻的印象。
基于物理原理或生理仿真的人臉建模技術(shù)主要有:偽肌肉模型、質(zhì)點(diǎn)彈簧肌肉模型、向量肌肉模型、層次彈簧模型。
偽肌肉模型并不真正定義人臉肌肉,而是采用一些肌肉仿真的技術(shù)描述人臉不同部位的肌肉運(yùn)動(dòng)效果,Ekman和Friese[9]提出臉部運(yùn)動(dòng)編碼系統(tǒng)(FACS),基于臉部組織器官的解剖學(xué)原理和肌肉的運(yùn)動(dòng)分析,定義了44個(gè)模擬肌肉運(yùn)動(dòng)的獨(dú)立運(yùn)動(dòng)單元,通過對每個(gè)基本單元賦予相應(yīng)的數(shù)值可產(chǎn)生相應(yīng)的臉部表情,F(xiàn)ACS的主要問題在于運(yùn)動(dòng)單元是局部的,而人臉表情變化是整體的,F(xiàn)ACS只描述了人臉的空間運(yùn)動(dòng),而不能表示時(shí)間的變化。盡管如此,這種用參數(shù)表示表情變化的方法具有數(shù)據(jù)量小、簡單的優(yōu)點(diǎn),因此,也被MPEG-4標(biāo)準(zhǔn)用于描述人臉表情。
Platt和Badler[10]最早采用質(zhì)點(diǎn)彈簧原理的彈性網(wǎng)格對人臉結(jié)構(gòu)和肌肉進(jìn)行建模,通過作用于肌肉弧的力驅(qū)動(dòng)人臉表情變化。Waters[11]提出一種更為成功的向量肌肉模型,一個(gè)向量肌肉刻畫了從起點(diǎn)沿方向作用衰減的一個(gè)錐形影響區(qū)域,并定義了用于刻畫括約肌的橢球體肌肉,這些向量肌肉用于表示不同類型的肌肉(線性肌、塊狀肌、刮約?。?,產(chǎn)生如拉伸、擠壓等不同的肌肉效果。
為了表示細(xì)節(jié)生理結(jié)構(gòu)和人臉動(dòng)態(tài)效果,Terzopoulo[12]提出三層變形網(wǎng)格人臉模型,分別對應(yīng)皮膚、脂肪組織、和骨骼相連的肌肉,彈性彈簧連接每個(gè)網(wǎng)格結(jié)點(diǎn)和每一層,肌肉力通過這三層彈性網(wǎng)格的傳播驅(qū)動(dòng)人臉表情變化。為改善構(gòu)造這種肌肉模型的艱巨的手工設(shè)計(jì)過程,Lee和Terzopoulo[13]進(jìn)一步將通用的三層網(wǎng)格模型擬合到從掃描獲取的深度和反射數(shù)據(jù),通過自動(dòng)插入收縮肌肉到動(dòng)態(tài)皮膚模型下的恰當(dāng)?shù)纳斫Y(jié)構(gòu)位置,用一個(gè)鉸鏈頜固定到估計(jì)的殼結(jié)構(gòu)上。算法同時(shí)也自動(dòng)合成功能性的眼、眼皮、牙齒、脖子并擬合到最終的模型上。
Kalra[14]結(jié)合有理自由變形技術(shù)和區(qū)域肌肉模型,通過肌肉的控制包圍盒的控制頂點(diǎn)的變化模仿肌肉的擴(kuò)張、收縮等效果。
Sifakis[15]提出基于有限元和肌肉仿真的人臉生理模型,每個(gè)骨骼表示為一個(gè)三角網(wǎng)格,用一個(gè)四面體網(wǎng)格和B樣條纖維域表示每塊肌肉,用一個(gè)四面體網(wǎng)格表示所有的軟組織。借助于這種表示法,提出了一個(gè)從捕獲的稀疏標(biāo)記點(diǎn)數(shù)據(jù)自動(dòng)確定面部肌肉活動(dòng)的算法。
盡管高度復(fù)雜的肌肉模型可以產(chǎn)生逼真度高的人臉表情變化,但構(gòu)造肌肉模型及其參數(shù)的設(shè)計(jì)是一個(gè)復(fù)雜艱巨的工程,而且復(fù)雜的肌肉模型計(jì)算量很大,而簡單的肌肉模型則很難產(chǎn)生視覺上令人滿意的表情,這些都限制了基于偽生理或物理人臉模型的普及和應(yīng)用。
目前最為成功的人臉動(dòng)畫技術(shù)是通過表演數(shù)據(jù)驅(qū)動(dòng)人臉動(dòng)畫,主要有基于標(biāo)記運(yùn)動(dòng)捕獲表情驅(qū)動(dòng)技術(shù)和非標(biāo)記圖像或視頻的表情驅(qū)動(dòng)技術(shù)。
2.4.1 基于標(biāo)記(Marker)的人臉表情動(dòng)畫技術(shù)
基于標(biāo)記(Marker)的人臉表情動(dòng)畫技術(shù)發(fā)展已經(jīng)相當(dāng)成熟,在影視制作中得到了廣泛應(yīng)用。通過在人臉上施加許多標(biāo)記(Marker)或安裝電磁傳感器,通過運(yùn)動(dòng)捕獲設(shè)備獲取標(biāo)記或電磁感應(yīng)器的三維運(yùn)動(dòng)坐標(biāo),應(yīng)用徑向基插值等變形技術(shù)驅(qū)動(dòng)人臉表情的變化。Bickel[16]根據(jù)人臉上的標(biāo)記的運(yùn)動(dòng)應(yīng)用薄殼能量優(yōu)化方法捕獲大尺度面部運(yùn)動(dòng),通過在人臉上涂印皺紋等細(xì)節(jié)并捕獲這些細(xì)節(jié)印痕以分析其高分辨率表情變化,并基于這些高分辨率表情變化例子的學(xué)習(xí)插值精細(xì)尺度的表情變化,可以獲得較高質(zhì)量的細(xì)節(jié)人臉動(dòng)畫。Ma[17]采用“分析后合成”的方法根據(jù)運(yùn)動(dòng)捕獲標(biāo)記合成高細(xì)節(jié)人臉動(dòng)畫,在分析階段,通過分析運(yùn)動(dòng)捕獲的標(biāo)記和細(xì)節(jié)人臉模型的關(guān)系得到用多項(xiàng)式位移圖表示的細(xì)節(jié)表情變化,在合成階段,通過標(biāo)記的運(yùn)動(dòng)捕獲數(shù)據(jù)驅(qū)動(dòng)多項(xiàng)式位移圖。采用這種方法,可以生成大尺度肌肉變形、中等和精細(xì)的褶皺、動(dòng)態(tài)皮膚孔隙等效果。
2.4.2 非標(biāo)記圖像或視頻驅(qū)動(dòng)的人臉動(dòng)畫
基于標(biāo)記的運(yùn)動(dòng)捕獲技術(shù)具有侵入性、設(shè)備昂貴、制作成本高等不利因素,基于圖像或視頻的人臉動(dòng)畫技術(shù)試圖從普通的圖像或視頻流重建人臉動(dòng)畫。
同步的多相機(jī)視頻流的高質(zhì)量人臉動(dòng)畫
Zhang等[18]提出基于同步的多個(gè)視頻流的“時(shí)空臉”動(dòng)畫技術(shù),根據(jù)多個(gè)立體相機(jī)捕獲的視頻流,提出基于光流的時(shí)空約束優(yōu)化技術(shù)重建高分辨率人臉模型及其表情動(dòng)畫,該方法可以用于建立高質(zhì)量的人臉表情動(dòng)畫數(shù)據(jù)庫,然而需要建立復(fù)雜的捕獲裝置。
Bradley[19]通 過 14 個(gè) Sony HDR-SR7 相 機(jī) 以 及 9 個(gè)LED發(fā)光板裝置(每個(gè)發(fā)光板由192個(gè)LED組成)構(gòu)建一個(gè)光照均勻的同步相機(jī)組捕獲環(huán)境,14個(gè)相機(jī)兩兩配對構(gòu)成7個(gè)雙目立體對,分別用于捕獲人臉的7個(gè)不同部位的精細(xì)信息,通過多視立體重建初始的人臉幾何,采用基于光流的運(yùn)動(dòng)重建方法跟蹤運(yùn)動(dòng)變化的幾何和紋理,獲得了很高質(zhì)量的人臉動(dòng)畫。
基于單相機(jī)視頻流的人臉動(dòng)畫:這類方法通過綜合應(yīng)用圖像特征分析、立體視覺、光流等圖像分析和計(jì)算機(jī)視覺等技術(shù),建立圖像之間的匹配關(guān)系或檢測特征信息,并應(yīng)用各種網(wǎng)格變形技術(shù)驅(qū)動(dòng)人臉模型的表情變化。
Liu等[7]提出一個(gè)基于普通攝像頭的視頻進(jìn)行人臉建模并通過用戶定義位移向量的大小進(jìn)行表情設(shè)計(jì):通過在視頻圖像中指定語義點(diǎn)和自動(dòng)檢測的角點(diǎn)對應(yīng)關(guān)系,應(yīng)用立體視覺技術(shù)得到三維離散點(diǎn),再用線性混合模型擬合這些三維散亂數(shù)據(jù)點(diǎn),得到三維人臉幾何模型,并建立模型的紋理圖。用戶通過交互編輯位移向量的大小進(jìn)行人臉表情設(shè)計(jì)。其方法簡單、快捷,但其人臉模型和設(shè)計(jì)的表情的質(zhì)量仍然比較粗糙。
沈侯嘗了一口,“不錯(cuò)!你們女生可真能折騰,我們男生就用開水泡一泡?!币?yàn)殄伜苄。淮沃粔蛑笠话?,顏曉晨開始給自己下面,沈侯一直等著。顏曉晨說:“你怎么不吃?方便面涼了就不好吃了!”
Chai[20]采用主元分析法對基于標(biāo)記的運(yùn)動(dòng)捕獲表情數(shù)據(jù)庫進(jìn)行PCA降維處理得到低維的線性表情模型,通過對任意一個(gè)人臉的單視頻流進(jìn)行特征點(diǎn)跟蹤和頭部運(yùn)動(dòng)分析,從中抽取出視頻中人臉的表情控制信號(hào),用從運(yùn)動(dòng)捕獲數(shù)據(jù)庫中抽取的同樣的表情控制信號(hào)對視頻表情控制信號(hào)進(jìn)行過濾,通過k近鄰搜索找到運(yùn)動(dòng)捕獲數(shù)據(jù)庫中的k個(gè)表情,并加權(quán)線性插值得到視頻控制信號(hào)對應(yīng)的捕獲人臉表情,再借助基于徑向基插值變形的表情傳輸技術(shù)驅(qū)動(dòng)虛擬化身(Avatar)人臉產(chǎn)生同樣的表情動(dòng)畫。
Weise[21]提出基于非剛性模型配準(zhǔn)方法的實(shí)時(shí)人臉動(dòng)畫傳輸驅(qū)動(dòng)技術(shù),先通過對一個(gè)中性高分辨率人臉模板及其表情動(dòng)畫的非剛性配準(zhǔn)擬合,建立演員的個(gè)性化人臉及其表情動(dòng)畫模型,以后通過該演員的現(xiàn)場表情表演實(shí)時(shí)驅(qū)動(dòng)各種不同人臉模型的動(dòng)畫。
文獻(xiàn)[20-21]都屬于數(shù)據(jù)驅(qū)動(dòng)的表情克隆技術(shù),通過將一個(gè)人臉模型的表情變化傳輸?shù)搅硪粋€(gè)不同的人臉上,使得表情變化得到重用。
人臉表情編輯:不同于數(shù)據(jù)驅(qū)動(dòng)的直接人臉動(dòng)畫技術(shù),Lau[22]從表情設(shè)計(jì)的角度,提出了基于表情數(shù)據(jù)庫和交互編輯約束的表情編輯技術(shù),系統(tǒng)從預(yù)先記錄的表情數(shù)據(jù)庫學(xué)習(xí)一個(gè)先驗(yàn)知識(shí)模型,將表情編輯問題表達(dá)成一個(gè)包括用戶交互設(shè)計(jì)約束(點(diǎn)約束和線畫約束)和先驗(yàn)知識(shí)的最大化后驗(yàn)概率(maximum a posteriori,MAP)框架
式中:p——待求的模型參數(shù),而c是用戶交互約束,pr(p)、pr(c/p)——模型參數(shù)p的先驗(yàn)統(tǒng)計(jì)概率、約束c關(guān)于模型p的條件概率,而pr(p/c)則是約束c下的模型參數(shù)p的后驗(yàn)概率,通過負(fù)對數(shù)法,最大化該后驗(yàn)概率歸可結(jié)為下述的能量最小問題
我們從歷史發(fā)展和研究現(xiàn)狀結(jié)合的角度對三維人臉建模和動(dòng)畫的典型技術(shù)的思想、局限性和優(yōu)缺點(diǎn)等進(jìn)行了較為系統(tǒng)的描述和比較,并分析了相關(guān)研究的內(nèi)在聯(lián)系。限于篇幅,對諸如嘴形變化、二維人臉動(dòng)畫、語音驅(qū)動(dòng)表情變化、人臉次表面繪制技術(shù)等非密切關(guān)聯(lián)的問題未做介紹,這方面的描述可參考文獻(xiàn)[2,23-25]。我們認(rèn)為未來的研究將集中于下述這些方面:
(1)高質(zhì)量細(xì)節(jié)人臉建模和動(dòng)畫技術(shù)。盡管現(xiàn)有技術(shù)可產(chǎn)生相對逼真的人臉模型及表情動(dòng)畫,但真實(shí)人臉具有極為豐富細(xì)致的幾何和紋理信息,如皺紋、毛孔、人眼及瞳孔等,并且這些豐富的信息隨著人的行為、心理、心情等而產(chǎn)生極為豐富細(xì)膩的表情變化,如人眼的細(xì)節(jié)變化可以充分反映人的內(nèi)心世界。近幾年來,對這些更困難問題的研究興趣已經(jīng)引起一些國外研究人員的注意,國內(nèi)的研究人員需要密切關(guān)注這方面的研究。
(2)低成本的三維人臉建模和動(dòng)畫,如何設(shè)計(jì)或結(jié)合低成本的感知設(shè)備和技術(shù)如立體相機(jī)、Kinect進(jìn)行三維人臉建模和動(dòng)畫,特別是實(shí)時(shí)性的人臉編輯和動(dòng)畫,具有很大的實(shí)用價(jià)值和市場前景。
(3)基于人臉肌肉和骨骼仿真的偽生理或偽物理人臉模型及其表情變化設(shè)計(jì)可能會(huì)重新引起圖形學(xué)研究人員的興趣。這些年來,基于物理仿真的人臉動(dòng)畫技術(shù)研究并未取得實(shí)質(zhì)的進(jìn)展,我們認(rèn)為,將數(shù)據(jù)捕獲和偽生理人臉模型結(jié)合起來進(jìn)行人臉表情設(shè)計(jì),可以給基于物理仿真的人臉動(dòng)畫技術(shù)研究開辟新的研究方向。
[1]Parke F I.Computer generated animation of faces[C].Computer Graphics Proceedings,Annual Conference Series, ACM SIGGRAPH,Boston,Massachusetts,United States,1972:451-457.
[2]Alexander O,Rogers M,Lambeth W,et al.The digital Emily project:Achieving aphotorealistic digital[J].IEEE Computer Graphics and Applications,2010,30(4):20-31.
[3]DeCarlo D,Metaxas D,Stone M.An anthropometric face model using variational techniques[C].Orlando,F(xiàn)L,USA:Computer Graphics Proceedings,Annual Conference Series.ACM SIGGRAPH,1998.
[4]Pighin F,Hecker J,Lischinski D,et al.Synthesizing realistic facial expressions from photographs[C].Orlando,F(xiàn)L,USA:Computer GraphicsProceedings,Annual Conference Series.ACM SIGGRAPH,1998:75-84.
[5]Higo T,Matsushita Y,Joshi N,et al.A hand-h(huán)eld photometric stereo camera for 3-D modeling[C].Kyoto:IEEE International Conference on Computer Vision,Institute of Electrical and Electronics Engineers,Inc,2009.
[6]Blanz V,Vetter T.A morphable model for the synthesis of 3D faces[C].Orlando,F(xiàn)L,USA:SIGGRAPH Proceedings,1999:71-78.
[7]LIU ZC,ZHANG ZY,Jacobs C,et al.Rapid modeling of animated faces from video[C].Mexico:Proceedings of The Third International Conference on Visual Computing,2000:58-67.
[8]Sera H,Morishma S,Terzopoulos D.Physics-based muscle model for moth shape control[C].Tsukuba,Japan:Proc 5th IEEE International Workshop on Robot and Human Communication,1996:207-212.
[9]Ekman P,F(xiàn)riesen W V.Facial action coding system[M].Palo Alto,CA:Consulting Psychologists Press,1978.
[10]Platt S,Badler N.Animating facial expression[J].Com-puter Graphics,1981,15(3):245-252.
[11]Waters K.A muscle model for animating three-dimensional facial expression[J].Computer Graphics,1987,21(4):17-24.
[12]Terzopoulos D,Waters K.Physically-based facial modeling,analysis,and animation[J].Journal of Visualization and Computer Animation,1990,1(4):73-80.
[13]Lee Y C,Terzopoulos D,Waters K.Realistic face modeling for animation[C].Los Angeles,California,USA:Computer Graphics Procee-dings, Annual Conference Series,ACM SIGGRAPH,1995:55-62.
[14]Kalra P,Mangili A,Thalmann N M,et al.Simulation of facial muscle actions based on rational free from deformations[J].Computer Graphics Forum,1992,2(3):59-69.
[15]Sifakis K,Neverov I,F(xiàn)edkiw R.Automatic determination of facial muscle activations from sparse motion capture marker data[C].Los Angeles,California, USA:Computer Graphics Proceedings,Annual Conference Series.ACM SIGGRAPH,2005:417-425.
[16]Bickel B,Lang M,Botsch M,et al.Pose-space animation and transfer of facial details[C].Dublin,Ireland:Proceedings of the ACM SIGGRAPH/Eurographics Symposium on Computer Animation,2008:57-66.
[17]Ma W C,Jones A,Chiang J Y.Facial performance synthesis using deformation driven polynomial displacement maps[J].ACM Transactions on Graphics(ACM SIGGRAPH Asia),2008,27(5):121:1-121:10.
[18]Zhang L,Snavely N,Curless B,et al.Spacetime faces:High resolution capture for modeling and animation[J].ACM Transactions on Graphics,2004,23(3):548-558.
[19]Bradley D,Heidrich W,Popa T,et al.High resolution passive facial performance capture[J].ACM Transactions on Graphics(Proceedings of SIGGRAPH),2010,29(4):1-10
[20]Chai JX,Xiao J,Hodgins J.Vision-based control of 3Dfacial animation[C].San Diego,California,USA:Proc of ACMSIGGRAPH/Euro graphics Symposium on Computer Animation,2003:193-206.
[21]Weise T,Li H,Gool L V,et al.FACE/OFF:Live facial puppetry[C].New Orleans,USA:Proceedings of the ACM SIGGRAPH/Eurographics Sympo-sium on Computer Animation,2009.
[22]Lau M,Chai JX,Xu YQ,et al.Face poser:Interactive facial expression modeling using model priors[C].San Diego,California, USA: ACM SIGGRAPH/Eurographics Symposium on Computer Animation,2007.
[23]Cao Y,Tien W C,F(xiàn)aloutsos P,et al.Expressive speechdriven facial animation[J].ACM Transactions on Graphics,2005,24(4):1283-1302.
[24]Golovinskiy A,Matusik W,Pfister H,et al.A statistical model for synthesis of detailed facial geometry[J].ACM Transactions on Graphics(Proc SIGGRAPH),2006,25(3):1025-1034.
[25]Banf M,Blanz V.Example-based rendering of eye movements[J].Computer Graphics Forum,2009,28(2):659-666.