朱妹麗,羅江林,王青青
1. 吉林動畫學(xué)院科研與技術(shù)創(chuàng)新中心,吉林 長春 130000
2. 吉林動畫學(xué)院,吉林 長春 130000
3. 長春理工大學(xué) 光電信息學(xué)院,吉林 長春 130000
在三維角色動畫制作中,面部動畫最為關(guān)鍵,只有當(dāng)表情、口型、聲音三者一致時,角色動畫看起來才會更加真實自然。在歐美的動畫中,為了做到表情、口型、聲音的對應(yīng),傳統(tǒng)的方法先請配音演員錄音,然后讓動畫師捕捉配音演員說話時的表情神采與口型,并以此設(shè)定角色形象。隨著計算機圖形圖像技術(shù)的快速發(fā)展,可以通過建立標準口型發(fā)音系統(tǒng)的方法能來創(chuàng)作口型動畫。而在國內(nèi),則基本上采用關(guān)鍵幀制作法,只把臺詞中夸張的口型部分做出來,其他部分則含糊帶過,這使得國內(nèi)動畫中的角色口型與臺詞的契合度很低,角色面部動畫生。
目前,動作捕捉技術(shù)日臻成熟,通過 Marker (標記點) 實時捕捉嘴部肌肉的運動軌跡,能夠讓角色的口型與配音匹配得更加完美。但是,動作捕捉系統(tǒng)[1]的價格通常較為昂貴,并且后續(xù)數(shù)據(jù)的處理與計算繁雜。在本文中,為了能夠讓動畫制作人員快捷、輕松的制作出高品質(zhì)的口型動畫,本文提出了一種基于唇讀技術(shù)的交互式角色面部動畫制作方法的設(shè)計方案,借助唇讀技術(shù),實現(xiàn)與角色的實時交互,實現(xiàn)口型與配音的一致。
圖1 唇讀技術(shù)與其應(yīng)用Fig. 1 Application of lip-reading
唇讀 (lip-reading/speech-reading),是指通過觀察說話者的口型變化,“讀出”或“部分讀出”其所說的內(nèi)容[2]。唇動作為一種重要的視覺信息通道,可作為語音的理解源,有著人的情感狀況和所要表達的意義。隨著計算機技術(shù)、圖像處理技術(shù)、模式識別技術(shù)的發(fā)展,唇讀技術(shù)已成為學(xué)者研究的熱點問題,唇讀作為新的人體生物特征、新的人機接口、新的編碼方式、新的反恐手段,在人們生活中發(fā)揮著越來越重要的作用。
唇讀的思想在 1954 年由 Sumby 提出,而第一個唇語系統(tǒng)由美國伊利諾大學(xué)的 Petajan 在 1984 年建立。在此后的 80 年代與 90 年代,唇讀技術(shù)得到發(fā)展積累。2000 年,約翰霍普金斯大學(xué)舉辦了第一次代表唇讀技術(shù)最高水平的學(xué)術(shù)會議,唇讀技術(shù)在 21 世紀得到了飛速發(fā)展,不僅在理論研究方面成果顯著,據(jù) EI 數(shù)據(jù)庫統(tǒng)計,每年唇讀技術(shù)相關(guān)論文多達 300多篇。在實際應(yīng)用方面也取得了重要突破,唇語識別的軟硬件技術(shù)發(fā)展迅速,逐漸向著實用性階段推進。2002 年,日本電信通訊公司 (NTT) 旗下的 NTT DoCoMo 開始投入世界上第一款唇語手機的研發(fā)。2003 年,英特爾推出了一種能讓計算機讀唇語的軟件 (AVSR)。2013 年,微軟計劃發(fā)行的次世代 Kinect體感控制器能夠讀懂用戶的唇語。2016 年,在牛津大學(xué)人工智能實驗室、谷歌 DeepMind 團隊和加拿大高等研究院聯(lián)合發(fā)布的論文中,利用機器學(xué)習(xí)實現(xiàn)語句層面的自動唇讀技術(shù)。在 GRID 語料庫上,能夠取得 93.4% 的準確度[3]。
唇讀技術(shù)的研究內(nèi)容主要包括唇的檢測與定位、特征提取、識別理解。
(1) 唇部檢測與定位
唇部檢測與定位是唇讀系統(tǒng)中的首要任務(wù),檢測與定位效果直接影響后續(xù)環(huán)節(jié)。唇部檢測與定位主要有以下幾種方法:
1) 根據(jù)人臉的生理結(jié)構(gòu)[4]確定唇部位置
2) 根據(jù)灰度信息或者彩色空間變化及膚色模型確定唇部位置[5]
3) 利用運動目標檢測唇部[6]
雖然唇部區(qū)域檢測與定位技術(shù)已經(jīng)比較成熟,但仍存在值得研究的問題,比如,在實際環(huán)境下,光線變化影響問題、運動的說話人檢測問題、不同角度、不同頭部姿態(tài)的檢測問題、減少冗余信息及提高處理速度等問題。
(2) 唇動特征提取
唇動特征的選取是唇讀識別的關(guān)鍵環(huán)節(jié)。有效、魯棒的特征值直接影響唇讀識別的識別率。目前,唇動特征提取方法大都在傳統(tǒng)的視覺特征提取方法基礎(chǔ)上發(fā)展而來。主要的方法有基于紋理特征[7]、基于形狀特征[8]、混合方法[9,10]、基于運動分析[11]等。為了解決大詞匯量識別、抗噪音干擾、說話人無關(guān)等問題,3D 視覺特征、多姿態(tài)等將是唇部特征提取的研究重點。
(3) 唇語識別
唇讀識別模型多為借鑒語音識別模型,主要有模板匹配[12]、動態(tài)時間規(guī)劃 (DTW)[13]、隱馬爾可夫模型(HMM)[14]、神經(jīng)網(wǎng)絡(luò) (ANN)[15]、支持向量機 (SVM)[16]等。隨著機器學(xué)習(xí)技術(shù)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在唇讀技術(shù)中得到應(yīng)用,并能夠取得較好的識別效果。
角色面部動畫的特殊性,對制作者的專業(yè)能力與經(jīng)驗有著苛刻要求,需要制作者具備較強的專業(yè)能力與經(jīng)驗。為了能夠讓動畫師從重復(fù)的、煩雜的調(diào)試工作中解放出來,投入更多的精力到動畫作品本身的創(chuàng)意與設(shè)計上,簡單易操作的動畫制作工具成為動畫生產(chǎn)的必然需求。在本文中,以唇讀技術(shù)為基礎(chǔ),提出了一種基于唇讀技術(shù)的交互式角色面部動畫制作方法的設(shè)計方案。該方案通過動畫師與角色的實時交互,實現(xiàn)角色口型動畫的快速制作。動畫師通過攝像頭實時捕捉視覺信息,利用唇讀技術(shù)進行唇部定位、特征提取及識別,根據(jù)唇語識別解析出的音素結(jié)果,從標準口型庫中查找出對應(yīng)的口型,最后使用該口型控制角色模型的口型動畫。
基于唇讀技術(shù)的交互式角色面部動畫制作方法的設(shè)計方案如圖 2 所示。
圖2 方法流程設(shè)計Fig. 2 Method flow design
基于唇讀技術(shù)的交互式角色面部動畫制作方法如下:
(1) 數(shù)據(jù)采集
數(shù)據(jù)采集由普通攝像頭拾取視頻信息。在動畫師制作角色面部口型動畫時,面部朝向攝像頭,根據(jù)劇本,錄入要制作的配音口型。
(2) 數(shù)據(jù)處理
數(shù)據(jù)處理包括唇語識別、語音識別與語音合成三個部分。其中唇語識別是本方法實現(xiàn)的重點與難點。
1) 唇語識別
在實際的工作中,需要較為安靜的環(huán)境,因此采用唇讀技術(shù),能夠有效避免同事之間的相互打擾。通過攝像頭獲得圖像信息,通過唇部定位、特征提取、識別理解后,解讀出所說的內(nèi)容,然后根據(jù)內(nèi)容到口型素材庫中查找出發(fā)音所對應(yīng)的口型,以目標口型去控制角色口型的變化,進而達到角色口型與聲音相對應(yīng)的目的。當(dāng)前人臉檢測技術(shù)已經(jīng)相對發(fā)展成熟,因此,唇部定位可以借助人臉檢測技術(shù),通過人臉檢測技術(shù)標記出的面部關(guān)鍵點來確定唇部位置。例如ASM (Active Shape Model) 算法,能夠確定出面部的68 個關(guān)鍵特征點,如圖 3 所示。ASM 算法不但可以實時獲取有效的唇部運動參數(shù),而且還可以獲取其他面部關(guān)鍵點,以便控制角色面部的整體變化,使得表情、口型、聲音三者相一致。
為了準確描述唇部運動,唇動特征值應(yīng)當(dāng)包含唇的位置變化信息及動作變化信息,為此,唇動特征通常以視覺特征為基礎(chǔ),選取不同的唇動屬性作為特征值。唇動視頻序列如圖 4 所示。
每一個發(fā)音都有對應(yīng)的標準口型,而發(fā)音口型的設(shè)置是否標準直接影響口型動畫的真實感與流暢性。目前,國外針對英語發(fā)音,已經(jīng)建立了以國際音標的標準的口型發(fā)音系統(tǒng),而對于漢語而言,還缺少標準的中文口型動畫素材庫,因此,需要根據(jù)漢語拼音的發(fā)音特點,建立標準口型素材庫。此外,可以借助互聯(lián)網(wǎng)與大數(shù)據(jù)技術(shù),不斷擴充與完善素材庫中的口型,進而不斷提高唇語識別效率。
從特征描述符到機器學(xué)習(xí),再到深度學(xué)習(xí),計算機視覺發(fā)展迅速,特別是 2014 年,深度學(xué)習(xí)在很多學(xué)術(shù)領(lǐng)域中都取得了顯著成績,其中深度卷積神經(jīng)網(wǎng)絡(luò) (DCNN) 在識別技術(shù)中應(yīng)用最為廣泛,因此在唇語識別階段可以采用深度學(xué)習(xí)方法。卷積神經(jīng)網(wǎng)絡(luò)[17]的整體結(jié)構(gòu)包括歸一化、濾波器組、非線性計算、池化。經(jīng)典的 LeNet5 模型如圖 5 所示。
圖3 面部關(guān)鍵特征點Fig. 3 Facial critical feature points
圖4 唇動視頻序列Fig. 4 Lip movement sequence
圖5 卷積神經(jīng)網(wǎng)絡(luò)模型Fig. 5 Convolution neural network model
LeNet5 模型可以簡化為單個階段,第一階段濾波器組-擠壓-最大池化,第二階段波器組-擠壓-最大池化,階段三標準 2 層 MLP。
2) 語音識別
由于目前唇讀技術(shù)的識別率不能達到準確無誤,特別是對于連續(xù)語句,因此,當(dāng)唇語識別的結(jié)果不理想時,可以開啟語音識別功能,以提高識別的準確度。
3) 語音合成
當(dāng)前,語音識別技術(shù)與語音合成技術(shù)相對成熟,因此,在本方案的設(shè)計中,語音識別與語音合成可采用集成方式,而系統(tǒng)的實現(xiàn)則需要注意與動畫應(yīng)用軟件的連接問題,例如采用 MAYA 嵌入式語言開發(fā),系統(tǒng)能夠具備較高的獨立性與可塑性。
本文提出了一種基于唇讀技術(shù)的交互式角色面部動畫制作方法的設(shè)計方案,在該方案的設(shè)計中,借助唇讀技術(shù),實現(xiàn)與角色的實時交互,實現(xiàn)口型與配音的一致,此外,唇讀識別可通過互聯(lián)網(wǎng)與大數(shù)據(jù)不斷擴充與完善唇動數(shù)據(jù)與識別模型,以提高識別效率。在該設(shè)計方案中,唇讀技術(shù)是實現(xiàn)的重點與難點。下一步的研究方向為基于深度學(xué)習(xí)的識別算法實現(xiàn)。
[1] 美國魔神動捕技術(shù)手冊[M].美國魔神運動分析技術(shù)公司, 2009.
[2] 姚鴻勛, 高文, 王瑞, 等. 視覺語言唇讀綜述[J] . 電子學(xué)報, 20 01 , 2 9( 2) : 239 -246 .
[3] LipNet: End-to-End Sentence-level Lipreading[J]. Yannis M. Assael, Brendan Shillingford, Shimon Whiteson,Nando de Freitas. eprint arXiv:1611.01599.
[4] YaoWenjuan, LiangYaling, DuMinghui. A real-time lip localization and tacking for lipreading[C]Proceedings of the 3rd International Conference on Advanced Computer Theory and Engineering.Chengdu: IEEE,2010:363-366.
[5] Pera V, Sa F, Afonso P, et.al, Audio-visual speech recognition in a Portuguese language based application.Proceedings of IEEE International Conference on Industrial Technology, 2003, Vol.2, Pages: 688-692.
[6] Pao Ts L, Liao W Y, A motion feature approach for audio-visual recognition. Proceedings of 48th Midwest Symposium on Circuits and Systems, 2005, Vol.1,Pages:421-424.
[7] M. Leszczynski, W. Skarbek. Viseme recognition - a comparative study[C]. In AVSS-Advanced Video and Signal Based Surveillance, 2005:287-292.
[8] Xie L.Cai X L.Fu Z H.et a1.Lip temporal pattern analysis for automatic visual speech recognition[C].In:7th International Conference on Signal Processing. Beijing,China, 2004.1:703-706
[9] Matthews I, Cootes T F, Bangham J A, et.al, Extraction of visual features for lipreading. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002, Vol.24(2): 198-213.
[10] W. Wang, D. Cosker, Y. Hicks, S. Saneit, J. Chambers.Video assisted speech source separation[C]. Acoustics,Speech, and Signal Processing, 2005. Proceedings.(ICASSP '05). IEEE International Conference on,2005:425-428.
[11] Matthews I, Cootes T F, Bangham J A, et.al, Extraction of visual features for lipreading. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, Vol.24(2): 198-213.
[12] Tsuyoshi Miyazaki, Toyoshiro Nakashima,Naohiro Ishii.Mouth Shape Detection Based on Template Matching and Optical Flow for Machine Lip Reading[J]. International Journal of Software Innovation, 1(1), 14-25, January-March 2013 15.
[13] Yuhas B P, Goldstein M H, Sejnowski T J, Integration of acoustic and visual speech signals using neural nets. IEEE Communication Magazine, 1989, Vol.27(11): 65-71.
[14] E.D. Petajan,N.M. Brooke, B.J .Bisehoff and D.A.Bodoff. An Improved Automatic Lipreading System to Enhance Speech Rceognition[ J]. E.Soloway, D. Frye,and S.B. Sheppard, editors,Proc. Human Factors in Computing Systems ACM,1988,3(6):19-25
[15] Luettin N.A. Thaeker and S.W. Beet. Visual Speeeh Rceognition Using Active Shape Models and Hidden Markov Models[J]. IEEE International Conference on Acoustics,Speech,and Signal proeessing(ICASSP'96),1996,2(4):817-820.
[16] 何俊. 服務(wù)機器人語音唇讀人機交互技術(shù)研究[D].南昌:南昌大學(xué).
[17] Maimaitiaili Tuerxun,Dai Lirong.Deep neural network based uyghur large vocabulary continuous speech recognition[J].Journal of Data Acquisition and Processing,2015,30(2):365-371.