摘要:詳細介紹開發(fā)一個人臉面部表情自動生成系統(tǒng)所用到的相關(guān)技術(shù),包括人臉三維建模、面部表情合成、系統(tǒng)用戶界面實現(xiàn)等技術(shù)。系統(tǒng)開發(fā)的目的是建立一個具有真實感和實用性的三維人臉面部表情自動生成系統(tǒng),其中,三維人臉建模技術(shù)包括3DMAX使用關(guān)鍵技術(shù)以及人臉特征提取技術(shù),基于人臉建模的表情生成技術(shù)主要介紹通過肌肉運動來描述表情的技術(shù),系統(tǒng)界面的設(shè)計采用MFC技術(shù)。對各技術(shù)全面而系統(tǒng)的介紹,將為人臉面部表情自動生成系統(tǒng)的開發(fā)與實現(xiàn)提供一個有效途徑,為系統(tǒng)的應(yīng)用者提供便利。
關(guān)鍵詞:面部表情;三維建模;表情合成
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2013)04-0858-03
Research and Development of the Facial Expression Automatically Generated System
ZHANG Li-li, LI Ling-hua
(College of Computer Science and Engineering, Dalian Nationalities University, Dalian 116600, China)
Abstract: The techniques used in developing a human facial expression generation system are introduced in detail, which include the techniques of 3D face modeling, facial expression synthesis, system user interface implement and etc.The system was developed to create a realistic and practical 3-D automatic facial expression generation system. Wherein, the technology of 3D face modeling includes the key techniques of using 3DMAX and the techniques of the feature extraction of facial. The technology of facial expression generation based on human face modeling is mainly introduced by the techniques used to describe the expression by the movements of the muscles.The design of the system interface used the MFC technology. It will provide a effective way for the development and implement of the facial expression automatic generation systems and facilities for the systems’ users by the comprehensive and systematic introduction of all the techniques used in the systems.
Key words: facial expression; 3-D modeling; expressions synthesis
本文主要工作是開發(fā)應(yīng)用程序用戶界面,輸出人臉視頻圖像,對人臉的表情信息進行特征提取分析,按照人的認識和思維方式加以歸類和理解,利用人類所具有的情感信息方面的先驗知識使計算機進行聯(lián)想、思考及推理,進而從人臉信息中分析理解人的情緒,實現(xiàn)六種基本人臉表情動作的自動生成,包括:快樂、驚奇、憤怒、恐懼、厭惡、悲傷等。該系統(tǒng)實現(xiàn)的關(guān)鍵在于建立一個人類的情緒模型,并把它們同人臉面部特征及表情的變化聯(lián)系起來。項目基于心理學(xué)家對人臉解剖結(jié)構(gòu)的深入分析所提出的人臉動作編碼系統(tǒng),其中包含46個基本人臉動作單元,結(jié)合各個獨立的動作單元能夠產(chǎn)生大量不同的臉部表情。
1 人臉三維建模
采用3DMAX三維建模工具建立人臉模型,在VC++條件下使用OpenGL編程完成了3DMAX模型的讀取與重現(xiàn),再用OpenGL對其進行控制。對于三維建模工具數(shù)據(jù)量較大的情況,采用細節(jié)層次(Level Of Details)算法進行簡化,刪除不必要的邊、線、面[1]。
1.1 3DMAX數(shù)據(jù)文件的存儲格式與讀取
3DMAX 默認的數(shù)據(jù)文件是*.max文件[2]。*.max文件結(jié)構(gòu)復(fù)雜,數(shù)據(jù)量龐大,不僅包括模型網(wǎng)格結(jié)構(gòu)的點和面的信息,還包括模型的顏色等,讀取比較困難。比較簡單直觀的文件存儲格式是*.ASC。
1.2 在OpenGL中讀取3DMAX模型
在OpenGL 中建立自己的數(shù)據(jù)結(jié)構(gòu)存儲數(shù)據(jù),從模型中讀取數(shù)據(jù)將其存儲到OpenGL的程序中,建立起OpenGL的顯示列表[3]。
1.3 關(guān)于簡化網(wǎng)格算法
通過1.2得到的模型數(shù)據(jù)量是非常大的,不適合用作標(biāo)準(zhǔn)模型。要將這一模型進行簡化,去除一些多余的點、邊、面,以簡化這一模型的網(wǎng)格數(shù)量。這里使用層次細節(jié)(Level Of Details,縮寫為LOD)簡化技術(shù)[4]。這一技術(shù)通過動態(tài)地確定閥值來選取不同精度的LOD模型,降低場景的復(fù)雜度,以求得更合適的圖像質(zhì)量。
1.4 人臉特征的提取
特征可被視為由數(shù)據(jù)、規(guī)則方法和關(guān)系三類屬性描述的面向幾何的物體,特征參數(shù)化的關(guān)鍵是特征及其相關(guān)尺寸的變量化描述[5-7]。在具體特征分類的基礎(chǔ)上,確定結(jié)構(gòu)特征的特征點,特征點的相互位置關(guān)系形成造型特征中的特征尺寸。修改特征尺寸的同時,對結(jié)構(gòu)特征的其它點的位置和局部幾何形狀也進行了改變。根據(jù)人體頭部的器官組成和外形特點,從建模的方便出發(fā),將頭特征分類為結(jié)構(gòu)特征和造型特征。結(jié)構(gòu)特征包含眼、鼻、嘴和耳;相應(yīng)的造型特征有頭高、頭圍、眼寬、眼高、兩眼距、鼻寬、鼻高、鼻長、嘴寬、上下嘴唇厚、耳長、耳寬、耳厚等,頭特征分類。我們在正面和側(cè)面圖像中定義了45個特征點來表征人臉的形狀。手工設(shè)置特征點,然后進行參數(shù)化,得到了標(biāo)準(zhǔn)化的人臉模型。
2 面部表情合成
采用MPEG-4的參數(shù)變化進行面部表情的合成,面部表情的分析與合成的研究主要集中于基本的情感,包括悲傷、憤怒、喜悅、恐懼、厭惡和驚奇。MPEG-4標(biāo)準(zhǔn)表示了一種關(guān)于面部表情建模和表達潛在的情緒的方法。利用在MPEG-4框架里以面部動畫為目的的面部動畫參數(shù)是與運動單元(AUS)密切相關(guān)的[8,9]。運動單元包括核心的面部動作編碼系統(tǒng)(FACS)[10-12]。
2.1 通過特定的FAPs描述基本表情
為了做到這一點,我們對面部肌肉運動進行翻譯——通過肌肉運動來描述表情——FAPs,并為每個基本表情創(chuàng)建一個FAPs詞匯[13]。為描述基本表情所需的FAPs還通過分析基本數(shù)據(jù)集進行實驗驗證。為了與真實的表情序列進行比較,我們定義了特定功能點對應(yīng)的面部表情形式的FAPs。選定的FAPs可以通過實時圖像或視頻序列自動檢測。派生模型也可以作為表情分析和表情綜合學(xué)科之間的橋梁。
在一般情況下,面部表情和情緒通過一套測量和轉(zhuǎn)換加以描述。測量和轉(zhuǎn)換可以考慮基于MPEG-4標(biāo)準(zhǔn)。在這種方式中,我們可以描述一個人的解剖面,基本上是通過FAPS以及動畫參數(shù),組獨特的標(biāo)記,消除指定的需要底層的幾何拓撲結(jié)構(gòu)[8]。這些符號則可以被映射到自動檢測的測量和對視頻序列的運動跡象,因而通過人工合成近似真實的表情。
基本的面部表情和潛在的情緒,通過FAPs描述有以下幾個目的:
1)提供合成序列的兼容性,創(chuàng)建與使用建議的方法,符合MPEG-4標(biāo)準(zhǔn);
2)基本的表情很少發(fā)生,大多數(shù)情況下,情緒通過特別FAPs直接相關(guān)的幾個離散五官的變化加以表示。此外,不同的FAPs可以被用在人機交互的多種語言環(huán)境中,即通過面部表情進行交互。
3)FAPs不符合具體型號或拓撲結(jié)構(gòu),合成表情可以由不同的動畫模型或字符加以描述。
基本表情建模時,應(yīng)解決兩個基本問題:
1)估計形成該表情的FAPs;
2)定義FAP的強度。
面部動作編碼系統(tǒng)(FACS)很大程度上影響表情分析的研究。利用面部解剖學(xué)的知識,F(xiàn)ACS是一個試圖區(qū)分視覺分辨的面部動作的系統(tǒng)。FACS使用運動單元(AU)為計量單位。AU能夠結(jié)合兩塊肌肉運動或反向的方式工作,也就是分成幾個肌肉的運動。
2.2 所涉及的FAPs在每個模型中表達的估計范圍的表情
這是通過分析實時圖像和視頻序列得以實現(xiàn)的。
情感分析和綜合系統(tǒng)中的一個重要問題是關(guān)于面部表情形成的FAPs變化范圍[8]。從合成的角度來看,關(guān)于FAP的范圍定義的研究已經(jīng)展開。然而,所提出的變化范圍是相當(dāng)松散的,不能用于分析。為了給關(guān)于FAP的的實時視頻序列一個特定的變化范圍,我們分析了2個著名的數(shù)據(jù)集——??寺o態(tài))的以及MediaLab(動態(tài))的數(shù)據(jù)集。這兩個數(shù)據(jù)集套設(shè)置了用于形成極端情況下的表情,而不是通常的情況。然而,它們可用于設(shè)置特定表情的FAPs。然而,為了實現(xiàn)這一目標(biāo),通過面部運動點的FAPs建模是必需的。實時圖像和視頻序列的FAP變化范圍的分析主要用于兩個目的:
1)核實并定義每個基本表情的詞匯;
2)為基本表情定義配置文件。
2.3 中級表情模型
這是通過結(jié)合加以實現(xiàn)的,在一個以規(guī)則為基礎(chǔ)的系統(tǒng)和一個激活參數(shù)與基本表情描述的FAPs框架。
在本節(jié)中我們提出一種創(chuàng)建中級表情配置的方法,用于描述相應(yīng)情緒的視覺部分。由計算機科學(xué)家和工程師進行的處理除了基本情緒外的其他情緒的研究滲透到了其他的學(xué)科。心理學(xué)家研究了更為廣泛的情緒集合,但對于計算機圖形學(xué)和機器視覺領(lǐng)域只有非常少結(jié)論可供借鑒。其中Whissel的一項研究[8]中提到,情緒好比是空間中具有一定規(guī)模的點,其中最接近的有兩個值:激活和程度。激活是與術(shù)語相關(guān)的興奮程度。如平靜為中指示的中間點,驚訝代表高度激活,害羞代表低度激活。程度是與術(shù)語相關(guān)的愉悅程度,例如羞怯的“動機”列代表負向,而高興代表正向。從實際的角度來看,似乎程度要表達的主題和估計得到的情感能夠一致是件很棘手的事。另一方面激活與面部肌肉的運動相關(guān),并可以基于面部特征很容易估計到。
為創(chuàng)建中級情緒配置我們要考慮兩種情況:
1)在自然界中,情緒與其中一個原型類似,例如,他們可能會有不同肌肉強度的動作;
2)不能被視為與任何原型的情緒。
在這兩種情況下,我們按照以下步驟進行:
1)利用激活參數(shù)或Plutchik的角度測量作為推理有關(guān)的幾個情緒的面部動作的強度的知識。這方面的知識與基本表情配置相結(jié)合,通過基于規(guī)則的系統(tǒng),創(chuàng)建中級情緒配置。
2)動畫繪制配置以檢測所要求的情緒與視覺的相似性是否合適。
3 程序用戶界面
采用MFC技術(shù)設(shè)計一個包含悲傷、憤怒、喜悅、恐懼、厭惡和驚奇六種表情的按鈕以及一個表情顯示框的界面。我們采用GUI的設(shè)計模式,把表情變化的代碼對應(yīng)轉(zhuǎn)換成C++形式,并嵌入在MFC中,在對應(yīng)的按鈕按下時候能產(chǎn)生相應(yīng)的消息響應(yīng)。
3.1 界面設(shè)計
首先建立一個MFC應(yīng)用程序的工程,利用插件畫出基本的界面圖形,包含悲傷、憤怒、喜悅、恐懼、厭惡和驚奇六種表情的按鈕以及一個表情顯示框并設(shè)置相應(yīng)的屬性[14-15]。
3.2 消息及消息映射
Windows應(yīng)用程序中的消息主要有三種類型。
1)窗口消息(Windows Message)。這類消息主要是指由WM_開頭的除WM_ COMMAND之外的消息,例如WM_CREATE(窗口對象創(chuàng)建時產(chǎn)生)、WM_DESTROY(窗口對象清除前發(fā)生)、WM_PAINT(窗口更新時產(chǎn)生繪制消息)等,一般由窗口類和視圖類對象來處理。
2)控件的通知消息(Control notifications)。當(dāng)控件的狀態(tài)發(fā)生改變(例如,用戶在控件中進行輸入)時,控件就會向其父窗口發(fā)送WM_COMMAND通知消息。應(yīng)用程序框架處理控件消息的方法和窗口消息相同,但按鈕的BN_CLICKED通知消息除外,它的處理方法與命令消息相同。
3)命令消息(Command message)。命令消息主要包括由用戶交互對象(菜單、工具條的按鈕、快捷鍵等)發(fā)送的WM_COMMAND通知消息。
命令消息的處理方式與其他兩種消息不同,它能夠被多種對象接收和處理,這些對象包括文檔類、文檔模板類、應(yīng)用程序本身以及窗口和視類等;而窗口消息和控件的通知消息是由窗口對象接收并處理的,這里的窗口對象是指從窗口類CWnd中派生的類的對象,它包括CFrameWnd、CMDIFrameWnd、CMDIChildWnd、CView、CDialog以及從這些派生類對象等。
4 結(jié)束語
人臉表情的研究是一項艱辛而漫長的工作,但正因為這個,該工作的過程中才充滿了歡樂。隨著相關(guān)技術(shù)的不斷發(fā)展和實際需求的日益增長,人臉研究相關(guān)技術(shù)越來越受到人們的關(guān)注和重視。對這一領(lǐng)域的深入研究不僅能創(chuàng)造出巨大的市場價值,還將有力地推動計算機視覺、模式識別、認知行為科學(xué)等相關(guān)學(xué)科的發(fā)展。
參考文獻:
[1] Gourret J P,Khamlichi J.A model forcompression and classification of face data structures[J].Computer& Graphics,1996,20(6):863-879.
[2] 李勤,魯宏偉.OpenGL在三維人臉造型中的應(yīng)用[J].武漢工業(yè)學(xué)院學(xué)報,2005,24(1):44-48.
[3] 徐成華,王蘊紅,譚鐵牛.三維人臉建模與應(yīng)用[J].中國圖像圖形學(xué)報,2004,9(8):893-903.
[4] 張宛方, 蘇鴻根. 3D模型L0D算法的研究及其OpenGL實現(xiàn)[J].計算機工程與設(shè)計, 2004, 25(10): 1790-1791, 1796.
[5] Fyffe G,Hawkins T,Watts C,et al.Comprehensive facial performance capture[J].Computer Graphics Forum,2011,30(2):425-434.
[6] Ghosh A,F(xiàn)yffe G,Tunwattanapong B,et al. Multiview face capture using polarized spherical gradient illumination[C]. Proceedings of ACM SIGGRAPH Asia,2011,30(6):1-10.
[7] Wilson C A,Alexander O,Tunwattanapong B,et al. Facial cartography:interactive scan correspondence[C].Proceedings of the 2011 ACM SIGGRAPH/Eurographics Symposium on Computer Animation,2011:205-214.
[8] Raouzaiou A, Tsapatsoulis N, Karpouzis K, et al. Parameterized facial expression synthesis based on MPEG-4 [J]. EURASIP Journal on Applied Signal Processing, 2002, 10: 1021-1038.
[9] Lucey P,Cohn J F,Kanade T,et al.The extended Cohn-Kanade dataset:CK+.A complete dataset for action unit and emotion-specified expression[C].IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshop,2010,94-101.
[10] Cohn J F,Ambadar Z,Ekman P.Observer-based measurement of facial expression with the Facial Action Coding System[C]//Coan JA, Allen JB.The handbook of emotion elicitation and assessment. New York:Oxford University Press, 2007:203-221.
[11] Krumhuber E G, Tamarit L,Roesch E B, et al. FACSGen 2.0 animation software: Generating three-dimensional FACS-valid facial expressions for emotion research [J]. Emotion, 2012, 12(2): 351-363.
[12] Amini R,Yasavur U,Lisetti C.HapFACS 1.0:Software/API for generating FACS-based facial expressions[C].Proceedings of the ACM 3rd International Symposium on Facial Analysis and Animation,2012.
[13] 孫延鵬,傅蓉,孫海倫.基于數(shù)據(jù)驅(qū)動的人臉動畫合成技術(shù)的研究與發(fā)展[J].計算機工程與科學(xué),2009,31(1):48-49,84.
[14] 王玉順,肖俊,莊越挺,等.基于運動傳播和Isomap分析的三維人臉動畫編輯與合成[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2008, 20(2):1590-1595.
[15] 杜志軍,王陽生.單張照片輸入的人臉動畫系統(tǒng)[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報,2010,22(7):1188-1193.