舒 文, 傅鈺雯, 楊健晟
(1 貴州大學 電氣工程學院, 貴陽 550025; 2 貴州交通職業(yè)技術學院, 貴陽 550025)
三維人臉表情合成在近年來得到了越來越多的關注,影視領域、仿人機器人、虛擬現(xiàn)實、三維游戲、三維人臉識別等多個領域都對三維表情人臉合成提出了更高的要求。
三維表情人臉的合成通常分為三維人臉重建與表情合成兩個部分。 目前,三維人臉重建方法主要分為基于設備的三維人臉重建與基于圖像的三維人臉重建。 基于設備的三維人臉重建利用高精度的三維掃描儀對人臉掃描,得到高質量三維人臉數(shù)據。但該方法具有成本高、采集時間較長、對采集過程中采集對象的姿態(tài)要求高等特點,使基于設備的方法通常僅在實驗室中完成。 此外,基于設備的方法也由于采集的三維人臉數(shù)據僅為當前采集表情人臉的數(shù)據,在表情合成上難以完成多種不同表情的轉換。 而基于圖像的三維人臉重建由于其成本低、靈活度高等特點,得到了大量研究者的青睞。 由于重建模型本身點云數(shù)的不同從而引起了模型精細程度不同,也使基于模型方法的三維表情合成中,基于不同模型的方法重建效果區(qū)別較大。 目前,國內對于三維人臉表情的研究大部分通過FACS(Facial Action Coding System)表情編碼系統(tǒng)與簡單三維人臉模型的結合完成。 但由于部分模型自身點云過少所帶來的模型細節(jié)表現(xiàn)較差問題,也使最終三維人臉表情合成效果較差。 而更多細節(jié)表現(xiàn)良好的參數(shù)化模型中,對于三維表情合成的研究較少。一方面,利用FACS 系統(tǒng)對模型進行改變時,并不如部份模型那樣,能夠通過較少的地標點改變而達到效果;另一方面,合成更多的是通過人為調整參數(shù)的方式進行表情的改變。
徐雪絨在單張正面照片的基礎上,結合CANDIDE-3 與FACS,完成對人臉的重建與三維表情合成。 郭帥磊利用Kinect 體感設備,采集多張人臉彩色圖像與深度圖像,在此基礎上結合FACS完成人臉表情的合成,相較于CANDIDE-3 模型最終使表現(xiàn)得到了改良,但靈活度較低,成本較高。Garrido提出了一種基于圖像的人臉視頻再現(xiàn)方法,對不同的兩個面部表情視頻進行比較匹配,能夠在保留背景的前提下完成表情面部替換。 但該方法對數(shù)據集要求高、且僅完成面部替換,無法完成真正的三維表情合成。
在上述基礎上,本文提出一種基于表情特征點預測的三維人臉表情合成方法。 其方法在自然表情人臉的基礎上,對其它表情人臉特征點分布進行預測;利 用 預 測 特 征 點, 在3DMM (3D Morphable Model)的基礎上,結合FaceWarehouse 三維人臉數(shù)據庫發(fā)布的表情基,完成對表情人臉的三維重建,從而完成了三維人臉的表情合成。 文章通過基于表情特征點預測的三維人臉表情合成方法,完成了對快樂表情與悲傷表情下的重建。 重建方法僅需要一張正面自然表情人臉圖像,就能夠完成多表情下的人臉三維模型合成。
基于3DMM 的三維人臉重建方法對單幅圖像中人臉的特征點進行標注,之后利用所標注的特征點,結合參數(shù)化模型Basel Face Model (BFM)進行人臉的三維重建。 方法在整個重建過程中僅需要一張人臉圖像,這也使得基于3DMM 三維人臉重建方法靈活度非常高,其整體流程如圖1 所示。
圖1 三維人臉重建流程Fig.1 3D face reconstruction flow chart
在基于特征點的三維人臉重建中,首先要對圖像中的人臉區(qū)域進行提取,再對人臉區(qū)域進行特征提取,最后利用三維人臉重建技術,結合提取的特征點完成人臉的三維重建。
人臉檢測利用Adaboost 結合Haar 特征,在AFLW2000-3D 數(shù)據集的基礎上,加入部分手動標記的生活人臉照片完成對新的數(shù)據集進行處理。將所有的圖像處理為40*40 大小的灰度圖像,其處理方法如式(1)所示:
式中,(,) 為人臉區(qū)域中心點坐標,、分別為區(qū)域的寬和高。
經過處理后的部分樣本圖像如圖2 所示。
圖2 部分數(shù)據處理樣例圖Fig.2 Part of the data processing sample diagram
將預處理后得到的新數(shù)據集作為正樣本數(shù)據集,利用無人臉的生活照與風景照等作為負樣本,利用OpenCV 訓練框架進行訓練,最終模型人臉區(qū)域提取結果如圖3 所示。
圖3 人臉區(qū)域提取示意圖Fig.3 Schematic diagram of face region extraction
特征點提取在ERT(Ensemble of Regression Trees)算法與ASM(Active Shape Models)算法基礎上,分別進行了實驗。 選用300 W 人臉數(shù)據集作為訓練數(shù)據集,在AFLW2000 部分數(shù)據上進行測試,對ERT 下 的3 棵 GBDT (Gradient BoostingDecision Tree)樹情況與ASM 分別進行了實驗,得到結果如圖4 所示。
圖4 ASM 算法與ERT 算法對比圖Fig.4 ASM algorithm and ERT algorithm comparison chart
由實驗結果可見,ASM 算法相比ERT 算法而言,在特征點擬合上效果略差,在細節(jié)的擬合上ERT 更加的優(yōu)秀。 選擇在整個三維人臉重建上使用ERT 作為特征點提取方法。 后續(xù)對不同GBDT樹木下的ERT 算法進行試驗得到結果如圖5 所示。
圖5 ERT 不同樹木算法對比圖Fig.5 Comparison chart of ERT different tree algorithm
圖5 中按照順序分別是3 棵樹、5 棵樹、10 棵樹、20 棵樹下的特征點定位表現(xiàn)。 可以發(fā)現(xiàn),隨著樹的增加其擬合效果也越來越好。 但是,樹的增加帶來了時效性的降低,而且在實驗中10 棵樹之后收斂效果有限。 綜合考慮,最終采用10 棵樹下的迭代模型作為特征點定位模型。
3DMM 是應用廣泛的一種參數(shù)化模型重建方法,共利用三維人臉數(shù)據結合PCA(主成分分析法)建立了一個三維人臉的參數(shù)化模型。 參數(shù)化模型的搭建依賴于BFM 數(shù)據集,通過對數(shù)據集進行處理,模型得到了3*199 的特征向量矩陣。 其中,為BFM 數(shù)據集中每一張三維人臉的頂點數(shù)量,每一個頂點都有其對應的3 個三維坐標值與3 個RGB 紋理分量。 由于BFM 數(shù)據集缺少表情表達,利用FaceWarehouse 對3DMM 模型下的表情部分進行補足,得到帶表情下的三維人臉重建模型:其3DMM參數(shù)化模型最終為:
式中,S為改變后的模型;ˉ為歸一化處理后的平均人臉(均人臉是平均中性人臉加上平均表情人臉后的分布);是BFM 模型中經過處理后的特征矩陣;是相對應的特征值(通過改變則能夠得到不同的S分布);為表情向量矩陣;為其對應的特征值分布。
對應的3DMM 中的紋理模型為:
式中,T是改變后的紋理;ˉ是平均紋理;是經過處理過后的特征矩陣;是其相對應的特征值矩陣;改變就能夠得到不同的紋理。
對AFLW2000 數(shù)據集下的部分圖像進行三維人臉形狀重建,其效果如圖6 所示。
圖6 部分圖像三維人臉重建圖Fig.6 Partial image 3D face reconstruction
為了建立同一張人臉中當前表情至其他表情的模型,需要先確定當前人臉表情,在此基礎上建立自然表情人臉至高興表情人臉與悲傷表情人臉下的特征點預測模型。 其整體流程如圖7 所示。
圖7 整體流程圖Fig.7 Overall flow chart
如圖7 所示,文章在表情人臉的重建基礎上,加入了表情識別與表情特征點分布預測。 通過引進這兩個模塊,從而完成了三維表情人臉的預測。
在當前應用較為廣泛的算法中,基于卷積神經網絡CNN(Convolutional Neural Networks)的表情識別得到了很多的應用。 然而,淺層CNN 在實際應用中精度仍有提高的空間。 在CNN 的基礎上,牛津大學的視覺幾何組與Google DeepMind 公司的研究員共同提出了一種深度卷積神經網絡結構VGGNet(Very Deep Convolutional Networks)。 VGGNet 在很多圖像處理應用中,效果相比CNN 更為優(yōu)秀。 通過在fer2013 數(shù)據庫的基礎上加入了部分jaffe 數(shù)據庫與ck+數(shù)據庫數(shù)據作為訓練及測試數(shù)據,在不同的數(shù)據集中VGGNet 與CNN 的對比結果見表1。
表1 不同算法對比表Tab.1 Comparison table of different algorithms
可以看到,在不同的數(shù)據集中VGGNet 較CNN擁有更高的識別率。 其中,fer2013 中識別率相對較低的原因是fer2013 數(shù)據庫非常復雜,人眼對fer2013 的識別率也僅為65%左右。 綜合判斷下,VGGNet 模型在不同數(shù)據集中都有良好的識別效果。
由于最終目的是為了區(qū)分中性臉與表情臉,于是對表情臉識別率進行融合,最終對于表情識別中,中性臉與表情臉進行誤檢率與查準率的計算。 文中誤檢率是指表情臉被識別為中性臉的比例,而查準率是指中性臉被正確識別的比例。 在實驗中,誤檢率越低則越好,也意味著越少表情臉被誤判為中性臉,而查準率則越高越好。 其融合后的表現(xiàn)見表2。
表2 融合后不同數(shù)據集驗證表Tab.2 Verification table for different data sets after fusion
最終表情預測效果如圖8 所示。
圖8 表情預測效果示意圖Fig.8 Schematic diagram of expression prediction effect
特征點預測所采用的相關數(shù)據由ck+人臉數(shù)據庫中得到。 在ck+人臉數(shù)據庫中,共提供了包括中性臉在內的8 種表情,從其視頻序列的表情庫中,選取其中的中性臉與表情臉中的笑臉與悲傷臉,分類時利用ck+數(shù)據庫提供的表情標簽進行分類。
禪茶精品線路的設計:開發(fā)禪茶需要遵循以下原則:第一,堅持資源整合、優(yōu)勢共享的原則,借助廬山西海自身的資源優(yōu)勢,整合周邊的佛教資源和茶文化資源來進行線路的設計;第二,堅持旅游線路主體化,讓其成為以禪茶為主題的專題旅游線路。
在人臉表情特征點實際預測中,由于每一個人開心或悲傷時表情變化的程度難以量化(如從微笑到大笑都可屬于開心的表情),所以在數(shù)據分類時,所有表情分類時都選擇視頻序列中由中性臉變?yōu)橹付ū砬槟樦械淖罱K表情作為分類依據,從而最大程度上避免了由于表情程度不同帶來的預測誤差。
其中部分樣本如圖9 所示。
圖9 CK+數(shù)據庫部分樣本示意圖Fig.9 Schematic diagram of some samples of CK+database
人臉特征點提取中共完成了68 個特征點的提取,特征點分布于二維坐標系內,所以68 個特征點共產生了136 個輸入。 對數(shù)據集中的部分樣本特征點進行顯示,紅色為自然表情人臉特征點分布,黃色為對應的表情人臉特征點分布,其特征點分布圖像如圖10 所示。
圖10 CK+部分數(shù)據特征點分布圖Fig.10 Distribution map of CK+part of the data feature points
為了減小由于位置與角度帶來的誤差,文章對所有的人臉進行歸一化處理,其歸一化處理步驟如下:
(1)設兩外眼角距離為、內眼角,計算其平均距離。 計算方法如下:
計算其縮放比例為:
式中,為縮放比例,100 為可修改的參數(shù),表示將經過縮放變化到100 個像素的標準系下。 當像素標準系參數(shù)越小,縮放變換后的特征點分布越密集。
(2)通常認為正臉圖片中兩眼應當處于同一水平線,通過雙眼眼角的偏移角來計算特征點分布的旋轉角。特征點兩個內眼角坐標分別為(,)、(,),其內眼角距離為,兩點距離原點坐標分別為:
利用上式能夠解出旋轉后的新坐標,最終計算其旋轉角為:
(3)在經過縮放與旋轉后,將所有特征點平移至相同參考系之下,通過計算各個樣本特征點軸與軸的平均坐標值,以平均點坐標為原點建立新的坐標系。 歸一化縮放以及旋轉公式為:
在與軸平移公式為:
通過上述歸一化后,將所有人臉特征點分布進行對齊,其對齊的人臉表情特征分布如圖11 所示。
圖11 部分數(shù)據特征點歸一化圖Fig.11 Normalized map of part of data feature points
歸一化后對同一人的不同表情特征分布分析發(fā)現(xiàn):在實際表情變化中,特征點位置的變化僅出現(xiàn)在部分位置。 如圖11 中,(a)為開心人臉與中性人臉的特征點分布對比;(b)為悲傷人臉與中性表情人臉特征點分布對比。 兩種表情中在表情變化時變化區(qū)域有所不同,而圖12 中能夠明顯看出,在不同表情變化中,有很大一部分的特征點幾乎沒有變化,其中變化的只是一部分。 本文希望通過盡量少的特征點表示完整的人臉表情變化,于是對不同表情下的變化區(qū)域進行選取,選取方式為歐氏距離:
圖12 不同表情下變化區(qū)域選擇Fig.12 Selection of area under different expressions
通過實驗,人為選取歐式距離小于0.25 的點,得到在開心表情下變化的主要區(qū)域為嘴巴下頜,悲傷表情下變化的主要區(qū)域為嘴巴與眉毛。
針對不同表情選取出不同的變化區(qū)域與其對應的關鍵特征點后,利用神經網絡與加權K 值最近鄰算法,分別建立表情特征點預測模型。 最終效果如圖13 所示。
圖13 不同算法下表情預測效果對比Fig.13 Comparison of expression prediction effects under different algorithms
圖13 中,A、B 為加權K 值最近鄰算法預測效果,C、D 為神經網絡預測結果。 在真實感上能夠看出,加權K 值最近鄰算法預測效果要優(yōu)于神經網絡。 考慮是由于ck+數(shù)據集數(shù)據量不足導致。
結合表情特征點預測與三維人臉重建,對三維表情模型進行預測,得到3 種表情下的三維人臉表情合成效果,如圖14 所示。
圖14 中,是利用特征點預測的方法結合三維人臉重建技術,達到了在僅有一張自然表情人臉的情況下,完成人臉其他表情下的三維人臉形狀重建。
圖14 三維人臉表情合成效果圖Fig.14 3D facial expression synthesis rendering
在基于參數(shù)化模型的人臉重建中,由于參數(shù)化模型的紋理信息來自有限的人臉,在實際應用中與直接取得真實紋理相比,在真實感上仍然有著較大的欠缺。 然而,從二維圖像中直接取得紋理時,受到圖像人臉姿態(tài)影響較大,導致部分區(qū)域無法取得紋理時,會產生失真現(xiàn)象,如圖15 所示。
圖15 三維人臉真實紋理效果圖Fig.15 3D face real texture renderings
如圖15 所示,即便是正臉照片也存在部分遮擋帶來的失真現(xiàn)象。 若當前姿態(tài)與正臉存在較大角度偏差時,情況會更加嚴重。 針對此種情況,本文提出了一種在耳部區(qū)域進行紋理逐步變換的方法,對紋理進行更新。 具體步驟如下:
(1)得到模型中耳朵的區(qū)域。
(2)對區(qū)域中的所有點,按照深度信息由低至高進行排序,即與鼻尖的深度距離遠的點會排在靠后的位置。
(3)按照順序對紋理進行更新。 更新時,利用原始參數(shù)化模型中紋理模型來進行。 記原始參數(shù)化模型中的平均紋理為,真實紋理模型紋理為,則有:
對紋理進行更新后,效果如圖16 所示。
如圖16 所示,經過紋理更新后失真的情況已經得到了改善。
圖16 紋理更新圖Fig.16 Texture update map
最終,本文方法與文獻[22]中的Candide-3 模型結合FACS 系統(tǒng)算法進行對比,如圖17 所示。
圖17 表情合成算法對比圖Fig.17 Comparison chart of expression synthesis algorithms
本文方法與其它表情合成與三維表情人臉建模方法比較結果見表3。
表3 不同算法對比Tab.3 Comparison of different algorithms
本文提出了一種基于特征點預測的三維表情人臉合成方法,實驗表明,此方法相較于傳統(tǒng)的單幅表情圖像對應單個三維表情人臉方法更加的靈活;相較于人工調節(jié)表情參數(shù)的方法,實現(xiàn)了自動化合成;相較于candide-3 模型集合FACS 編碼系統(tǒng)的方法,重建效果更加良好。
由于表情特征點預測對數(shù)據集依賴較大,未來可能會建立一個標準較為統(tǒng)一且數(shù)據量更大的表情數(shù)據集,也希望利用模型完成在擁有一副正臉圖像的情況下,自動生成人臉對應的所有三維動畫。