劉賢梅,劉 露,賈 迪,趙 婭,田 楓
(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,大慶 163318)
近年來(lái),三維數(shù)字虛擬人正逐漸走入大眾視野,如2021年登上春晚舞臺(tái)的虛擬偶像“洛天依”,央視推出的虛擬主持人“小C”等.雖然目前大多三維數(shù)字虛擬人模型精美、動(dòng)作逼真,但面部動(dòng)畫(huà)的合成嚴(yán)重依賴(lài)人為設(shè)定,使用動(dòng)作捕捉設(shè)備[1]、三維掃描設(shè)備[2]、單攝像頭設(shè)備[3]等硬件設(shè)備的表演驅(qū)動(dòng)方法,因設(shè)備價(jià)格昂貴、獲取和處理數(shù)據(jù)過(guò)程復(fù)雜、受面部遮擋、光照、姿態(tài)的影響較大等原因限制了應(yīng)用場(chǎng)景.由于語(yǔ)音獲取方便,受外界影響較小,因此有學(xué)者提出使用語(yǔ)音驅(qū)動(dòng)的方法合成三維人臉動(dòng)畫(huà),提高用戶(hù)的體驗(yàn)感及交互的友好性.
人對(duì)面部的細(xì)微變化敏感,面部運(yùn)動(dòng)與語(yǔ)音不一致,會(huì)使用戶(hù)產(chǎn)生違和感.語(yǔ)音驅(qū)動(dòng)三維人臉動(dòng)畫(huà)主要涉及語(yǔ)音到視覺(jué)的映射和三維人臉動(dòng)畫(huà)合成兩個(gè)關(guān)鍵技術(shù)問(wèn)題.語(yǔ)音到視覺(jué)的映射技術(shù)是從語(yǔ)音中預(yù)測(cè)視覺(jué)信息,通過(guò)尋找語(yǔ)音與視覺(jué)信息之間的復(fù)雜聯(lián)系,建立非線(xiàn)性映射模型,得到與語(yǔ)音保持同步的嘴部運(yùn)動(dòng)信息和面部表情信息.三維人臉動(dòng)畫(huà)合成通過(guò)視覺(jué)信息使靜態(tài)人臉模型發(fā)生形變,實(shí)現(xiàn)眼睛、眉毛、嘴唇及面部其他部位的運(yùn)動(dòng),完成聲畫(huà)同步的三維人臉動(dòng)畫(huà).語(yǔ)音驅(qū)動(dòng)三維人臉動(dòng)畫(huà)應(yīng)用領(lǐng)域廣泛,在服務(wù)行業(yè)實(shí)現(xiàn)虛擬客服、虛擬助手,提高用戶(hù)服務(wù)體驗(yàn); 在影視行業(yè)實(shí)現(xiàn)自動(dòng)化真實(shí)感虛擬角色動(dòng)畫(huà)制作,減少人工成本,提高生產(chǎn)效率; 在教育行業(yè)實(shí)現(xiàn)智慧教室,促進(jìn)學(xué)生個(gè)性化學(xué)習(xí); 在娛樂(lè)行業(yè)實(shí)現(xiàn)虛擬偶像、游戲制作,提高玩家趣味性.
本文將從語(yǔ)音-視覺(jué)映射、三維人臉動(dòng)畫(huà)合成,以及語(yǔ)音驅(qū)動(dòng)三維人臉動(dòng)畫(huà)效果的評(píng)價(jià)3 個(gè)方面對(duì)已有的研究進(jìn)行闡述,分析各種方法的優(yōu)缺點(diǎn),對(duì)三維人臉動(dòng)畫(huà)的未來(lái)發(fā)展方向做出展望.
音素是語(yǔ)音中的最小單位,一個(gè)發(fā)音動(dòng)作構(gòu)成一個(gè)音素,通常使用語(yǔ)音識(shí)別技術(shù)提取語(yǔ)音中的音素.視素(viseme)[4]起源于視覺(jué)(visual)和音素(phoneme)兩個(gè)單詞,表示音素對(duì)應(yīng)的面部動(dòng)作模型.
音-視素匹配分為傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法.傳統(tǒng)機(jī)器學(xué)習(xí)方法方面,Hofer[5]提出多階段隱馬爾科夫模型(multi-stream hidden Markov model,MHMM),通過(guò)隱馬爾科夫模型(hidden Markov model,HMM)根據(jù)語(yǔ)音特征流生成相應(yīng)的視素序列,并送入基于軌跡的HMM,生成平滑的唇部運(yùn)動(dòng)軌跡.深度學(xué)習(xí)方法方面,Zhou 等人[6]提出VisemeNet 模型,使用三級(jí)長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)完成音素組的提取、面部標(biāo)志幾何位置的預(yù)測(cè)、下顎與嘴部的權(quán)重預(yù)測(cè),實(shí)現(xiàn)語(yǔ)音可視化.
音-視素匹配依賴(lài)語(yǔ)音識(shí)別技術(shù),忽略了語(yǔ)音中語(yǔ)氣變化、語(yǔ)調(diào)頓挫等情感信息,在虛擬人語(yǔ)音交互時(shí)缺乏生動(dòng)的面部表情.
音-視覺(jué)參數(shù)映射通過(guò)建立語(yǔ)音特征和視覺(jué)參數(shù)序列的映射模型,完成語(yǔ)音可視化.
2.2.1 語(yǔ)音特征提取
語(yǔ)音特征提取主要分為手工提取方法和深度學(xué)習(xí)提取方法,手工提取方法主要提取語(yǔ)音低級(jí)描述符(low level descriptions,LLDs),采用全局統(tǒng)計(jì)的方式(如方差、極值、極值范圍等)表征語(yǔ)音特征.LLDs 分類(lèi)如表1 所示.
表1 LLDs 分類(lèi)
Englebienne 等人[7]使用梅爾倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)提取語(yǔ)音的語(yǔ)義和韻律信息.Xie 等人[8]在MFCC 中加入一階導(dǎo)數(shù)和二階導(dǎo)數(shù),描述語(yǔ)音的動(dòng)態(tài)信息.Bandela 等人[9]將Teager 能量算子和MFCC 融合形成新的特征,用于識(shí)別語(yǔ)音信號(hào)的情緒.目前常用的LLDs 提取的開(kāi)源工具為Eyben 等人[10,11]開(kāi)發(fā)的OpenSMILE 和OpenEAR,可批量自動(dòng)提取包括時(shí)長(zhǎng)、基頻、能量和MFCC 等常用的聲學(xué)特征.Ramanarayanan 等人[12]使用OpenSMILE 從音頻中提取短時(shí)特征,用于識(shí)別語(yǔ)音中的副語(yǔ)言信息.
由于手工定義的LLDs 不能完整描述語(yǔ)音信號(hào),因此近年來(lái)學(xué)者嘗試使用深度學(xué)習(xí)的方法從LLDs 中進(jìn)一步提取語(yǔ)音高級(jí)特征或者直接處理原始語(yǔ)音.常用的方法有深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等.Zhang 等人[13]設(shè)計(jì)一個(gè)從大量原始數(shù)據(jù)中學(xué)習(xí)幀級(jí)說(shuō)話(huà)者特征的DNN 模型,此模型在短的語(yǔ)音段中獲得良好的識(shí)別準(zhǔn)確率.Mustaqeem 等人[14]采用CNN 從語(yǔ)譜圖中提取語(yǔ)音特征,改善MFCC 對(duì)語(yǔ)音高頻信息識(shí)別準(zhǔn)確率不高的問(wèn)題.Wu 等人[15]采用兩個(gè)循環(huán)鏈接的膠囊網(wǎng)絡(luò)提取特征,增強(qiáng)語(yǔ)音的時(shí)空信息表達(dá)能力.Zhao 等人[16]采用局部特征學(xué)習(xí)塊,從MFCC 中提取局部特征,然后使用LSTM 進(jìn)一步提取語(yǔ)音全局的上下文特征.
2.2.2 視覺(jué)參數(shù)定義
Parke[17]將視覺(jué)參數(shù)分為形狀參數(shù)和表情參數(shù),形狀參數(shù)控制個(gè)性化人臉細(xì)節(jié),表情參數(shù)控制人臉表情.
形狀控制參數(shù)使用三維坐標(biāo)點(diǎn)(x,y,z)表示.倪虎[18]定義8 個(gè)三維特征點(diǎn)表示三維人臉嘴部運(yùn)動(dòng).文獻(xiàn)[19-21]使用三維人臉模型中的全部頂點(diǎn)坐標(biāo)表示面部及嘴部運(yùn)動(dòng).
Blendshape 權(quán)重是具有語(yǔ)義信息的表情參數(shù),可以直接控制嘴角、眉眼等部位運(yùn)動(dòng).Pham 等人[22,23]、Tian 等人[24]分別采用46 維和51 維blendshape 權(quán)重控制blendshape 三維人臉模型合成三維人臉表情.
視覺(jué)參數(shù)定義與后續(xù)三維人臉模型運(yùn)動(dòng)控制方法一一對(duì)應(yīng).使用三維坐標(biāo)點(diǎn)作為視覺(jué)參數(shù)時(shí),動(dòng)畫(huà)實(shí)現(xiàn)效果與定義的三維特征點(diǎn)數(shù)量相關(guān),數(shù)量越多,人臉運(yùn)動(dòng)精度越高,但計(jì)算量會(huì)增加,達(dá)到一定數(shù)量之后難以實(shí)現(xiàn)實(shí)時(shí)計(jì)算.使用blendshape 權(quán)重作為視覺(jué)參數(shù)時(shí),三維人臉模型運(yùn)動(dòng)控制方法簡(jiǎn)單、控制數(shù)據(jù)量較少,是目前常用的視覺(jué)參數(shù).
2.2.3 音-視覺(jué)映射模型建立
音視覺(jué)映射模型建立分為傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法.傳統(tǒng)機(jī)器學(xué)習(xí)方法主要采用HMM 和高斯混合模型(Gaussian mixture model,GMM).Brand[25]根據(jù)HMM 可以存儲(chǔ)上下文信息的能力從語(yǔ)音中獲得的信息來(lái)預(yù)測(cè)全臉動(dòng)畫(huà).Xie 等人[26]在文獻(xiàn)[25]的基礎(chǔ)上提出雙層HMM,訓(xùn)練多流HMM 模型建立對(duì)應(yīng)關(guān)系.之后Xie 等人[27]引入了耦合HMM 來(lái)解決由協(xié)同發(fā)音引起的視聽(tīng)活動(dòng)之間的異步性.HMM 在訓(xùn)練階段具有較大的計(jì)算量,沒(méi)有考慮輸入語(yǔ)音的個(gè)體差異,且難以對(duì)復(fù)雜的上下文依賴(lài)關(guān)系進(jìn)行建模,精確度不高.Deena 等人[28]采用GMM 實(shí)現(xiàn)語(yǔ)音參數(shù)與人臉動(dòng)畫(huà)的匹配,對(duì)表情動(dòng)作和語(yǔ)音參數(shù)分別建立數(shù)據(jù)模型,建立表情與語(yǔ)音的相互聯(lián)系,實(shí)現(xiàn)語(yǔ)音信息與表情細(xì)節(jié)的同步.Luo 等人[29]對(duì)傳統(tǒng)的GMM 方法進(jìn)行改進(jìn),提出基于雙高斯混合模型的音頻到視覺(jué)的轉(zhuǎn)換方法,解決了視覺(jué)參數(shù)誤差的積累.但是GMM 無(wú)法改變訓(xùn)練數(shù)據(jù)的內(nèi)在結(jié)構(gòu),對(duì)數(shù)據(jù)的依賴(lài)性較大,導(dǎo)致了跨數(shù)據(jù)庫(kù)的通用性不強(qiáng).
由于深度學(xué)習(xí)在建立非線(xiàn)性映射上效果較好,因此有學(xué)者使用該方法建立音-視覺(jué)映射模型,Karras 等人[19]將網(wǎng)絡(luò)劃分為頻率分析層、發(fā)音分析層、頂點(diǎn)輸出層,使用LPCC 語(yǔ)音特征點(diǎn)輸出視覺(jué)參數(shù).該方法忽略了語(yǔ)音情緒與表情關(guān)聯(lián)的時(shí)序性,難以合成真實(shí)的人臉表情.Cudeiro 等人[20]提出了Voca 網(wǎng)絡(luò),該網(wǎng)絡(luò)采用基于CNN 的編碼器-解碼器結(jié)構(gòu),編碼器將語(yǔ)音特征轉(zhuǎn)換為低維嵌入,使用解碼器得到三維頂點(diǎn)位移的高維空間.Richard 等人[21]提出MeshTalk 網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)判斷面部與音頻相關(guān)性的強(qiáng)弱,對(duì)人臉上下區(qū)域的視覺(jué)參數(shù)分別建模,合成帶眉眼運(yùn)動(dòng)的三維人臉動(dòng)畫(huà).Pham 等人[22]使用LSTM 通過(guò)分析語(yǔ)音頻譜圖、MFCC 和色譜圖預(yù)測(cè)三維人臉表情動(dòng)畫(huà)參數(shù),該方法一定程度上解決語(yǔ)音協(xié)同發(fā)音的現(xiàn)象,但因語(yǔ)音特征的限制,對(duì)快樂(lè)的情緒擬合較差.之后Pham 等人[23]首次將經(jīng)典的CRNN (convolutional recurrent neural network)模型結(jié)構(gòu)應(yīng)用于端到端音視覺(jué)映射模型的建立,并且該網(wǎng)絡(luò)模型無(wú)需加入額外表征情緒的語(yǔ)音特征,就可以推斷出眉、眼等表征情緒的視覺(jué)參數(shù).網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示,使用CNN 從語(yǔ)譜圖中完成語(yǔ)音頻域和時(shí)域信息的特征提取,其中,F-Conv1到F-Conv5 用于頻域特征提取,T-Conv1 到T-Conv3用于時(shí)域特征提取.由于語(yǔ)譜圖的橫縱坐標(biāo)的物理意義不同,兩個(gè)維度包含的信息也不同,因此使用一維卷積核分別遍歷語(yǔ)譜圖的橫軸和縱軸,提取不同維度的語(yǔ)音全局特征.該方法相比二維卷積可以有效地減少計(jì)算量,加速語(yǔ)音提取的過(guò)程.每個(gè)卷積層包括卷積、批處理歸一化和ReLU 激活3 個(gè)操作,使用卷積步長(zhǎng)為2 的方式進(jìn)行下采樣.然后使用不同的RNN 接入全連接層(fully connected layers,FC)分別建立語(yǔ)音與視覺(jué)參數(shù)的時(shí)序關(guān)聯(lián)性建模,提高視覺(jué)參數(shù)精度.
圖1 CRNN 網(wǎng)絡(luò)模型結(jié)構(gòu)
使用深度學(xué)習(xí)建立音-視覺(jué)映射模型需要三維視聽(tīng)數(shù)據(jù)集作為支撐.Fanelli 等人[30]提出B3D(AC)?2,該數(shù)據(jù)集共有14 名演員、1 109 條語(yǔ)音,包括消極、悲傷、憤怒、壓力、誘惑、恐懼、驚喜、興奮、自信、快樂(lè)、積極,共計(jì)11 種情緒.視覺(jué)參數(shù)采用三維坐標(biāo)點(diǎn)的形式,共計(jì)23 370 個(gè)頂點(diǎn).該數(shù)據(jù)集的視覺(jué)參數(shù)僅包含人臉結(jié)構(gòu),并不包含頭部等運(yùn)動(dòng)信息.Pham等人[23]提出一種視覺(jué)參數(shù)為blendshape 權(quán)重的三維視聽(tīng)數(shù)據(jù)集,該數(shù)據(jù)集包括24 名演員,每名演員有60 條語(yǔ)音,包括自然、平靜、快樂(lè)、悲傷、憤怒、恐懼、驚訝和厭惡,共8 種情緒,每種情緒有平緩、強(qiáng)烈兩種情況.Cudeiro 等人[20]提出VOCASET,包含12 個(gè)主題和480 條語(yǔ)音,視覺(jué)參數(shù)使用三維坐標(biāo)點(diǎn)形式,共計(jì)5 023 個(gè)頂點(diǎn),包含頭部旋轉(zhuǎn)等運(yùn)動(dòng)信息.該數(shù)據(jù)集僅有中立的可視化語(yǔ)音信息,不包含其他情緒.
由于三維人臉數(shù)據(jù)集的構(gòu)造需要借助三維運(yùn)動(dòng)捕捉等硬件設(shè)備,需要耗費(fèi)大量的人力物力,導(dǎo)致目前開(kāi)源數(shù)據(jù)集較少.
由于人臉生理結(jié)構(gòu)和幾何外觀(guān)的復(fù)雜多樣性,不同膚色、不同性別的人,其五官比例、面部特征具有極大的差異,因此建立逼真、自然的三維人臉模型具有較大的難度.目前建模方式主要有基于三維建模軟件的手工建模、基于硬件設(shè)備的捕捉建模和基于二維圖像的人臉建模.
基于三維建模軟件的手工建模主要使用3DS MAX,MAYA 等商業(yè)軟件.此方法建模效果精致、形狀可控度高,但對(duì)操作者的專(zhuān)業(yè)知識(shí)要求較高、建立過(guò)程耗時(shí)耗力,效果受人為因素影響較大.
基于硬件設(shè)備的捕捉建模主要是通過(guò)先進(jìn)的工業(yè)設(shè)備(如三維激光掃描儀、結(jié)構(gòu)光掃描儀),通過(guò)傳感器獲取人臉面部特征點(diǎn)信息與紋理特征等信息,然后將獲得的信息經(jīng)過(guò)計(jì)算機(jī)圖形學(xué)技術(shù)恢復(fù)三維人臉幾何模型.Peszor 等人[31]首先通過(guò)結(jié)構(gòu)光掃描儀獲得真實(shí)人臉模型,然后通過(guò)修正模型來(lái)建立合適的人臉幾何模型.Li 等人[32]采用多個(gè)攝像機(jī)捕獲高質(zhì)量的三維頭部掃描數(shù)據(jù).Ye 等人[33]使用結(jié)構(gòu)光掃描儀構(gòu)建了SIAT-3DFE 高精度三維人臉表情數(shù)據(jù)集.該類(lèi)方法雖然可以建立高精度人臉模型,但其設(shè)備價(jià)格昂貴、且獲取的數(shù)據(jù)量較大、數(shù)據(jù)處理較復(fù)雜.
基于二維圖像的人臉建模使用二維圖像結(jié)合視覺(jué)技術(shù)重構(gòu)面部的三維數(shù)據(jù).Jackson 等人[34]提出VRN(volumetric regression networks)端到端的神經(jīng)網(wǎng)絡(luò)從單幅圖像直接進(jìn)行三維面部重建.Chen 等人[35]使用基于條件生成對(duì)抗網(wǎng)絡(luò)的深度面部細(xì)節(jié)網(wǎng)絡(luò),直接從人臉圖像中重建細(xì)節(jié)豐富的三維人臉.Feng 等人[36]設(shè)計(jì)UV 位置圖的二維表示方法,記錄三維形狀在UV 空間中的表示,然后使用CNN 從圖像中回歸.該類(lèi)方法獲取數(shù)據(jù)方便、成本低、建模過(guò)程自動(dòng)化,但重建時(shí)可能會(huì)因三維人臉形狀過(guò)度泛化導(dǎo)致人臉個(gè)性化信息缺失.
在建立好三維人臉模型后,需要控制三維人臉模型運(yùn)動(dòng),使人臉模型發(fā)生形變,合成三維人臉動(dòng)畫(huà).依據(jù)三維人臉模型表示方法的不同,三維人臉模型運(yùn)動(dòng)控制方法分為參數(shù)模型運(yùn)動(dòng)控制方法和肌肉模型運(yùn)動(dòng)控制方法.
參數(shù)模型依據(jù)運(yùn)動(dòng)方式的不同,分為多邊形形變模型和blendshape 模型.多邊形形變模型將三維人臉模型用多邊形面片表示,通過(guò)控制面片上三維坐標(biāo)點(diǎn)來(lái)實(shí)現(xiàn)三維人臉模型運(yùn)動(dòng).Richard 等人[21]通過(guò)控制5 023 個(gè)頂點(diǎn)的多邊形形變模型,實(shí)現(xiàn)三維人臉模型運(yùn)動(dòng).多邊形形變模型雖然可以控制高精度的三維人臉模型運(yùn)動(dòng),但調(diào)整參數(shù)過(guò)程復(fù)雜.
Blendshape 模型將人臉表示為一組拓?fù)浣Y(jié)構(gòu)相同的表情基的線(xiàn)性組合,包括一個(gè)基準(zhǔn)三維人臉模型和一系列具有指定人臉動(dòng)作的表情基,通過(guò)調(diào)整不同的表情基權(quán)重,完成三維人臉模型的運(yùn)動(dòng)控制.Blendshape模型如式(1)所示:
其中,N是表情基個(gè)數(shù),ei是blendshape 權(quán)重,S是三維人臉模型形變后的狀態(tài),B0是基準(zhǔn)三維人臉模型,Bi是第i個(gè)人臉動(dòng)作的表情基.
Yu 等人[37]使用blendshape 模型對(duì)面部表情進(jìn)行重建與優(yōu)化,提高了表情的精準(zhǔn)度的同時(shí),維持了blendshape 方法的高效性.Alkawaz 等人[38]使用blendshape 模型設(shè)計(jì)一個(gè)面部表情動(dòng)畫(huà)系統(tǒng).Wang 等人[3]使用RGBD 相機(jī)和blendshape 模型實(shí)現(xiàn)了支持表情細(xì)節(jié)變化的實(shí)時(shí)面部跟蹤系統(tǒng).blendshape 模型的運(yùn)動(dòng)控制操作簡(jiǎn)單,但其實(shí)現(xiàn)效果依賴(lài)表情基精度和完備性.
手工建立blendshape 表情基的方法耗時(shí)耗力,并且建立的表情基不能重復(fù)使用,因此有學(xué)者使用表情遷移自動(dòng)化建立不同人臉模型的表情基.表情遷移是將已有角色模型(源模型)的人臉表情克隆到新模型(目標(biāo)模型)上.表情遷移分為標(biāo)記點(diǎn)遷移方法和深度學(xué)習(xí)遷移方法.標(biāo)記點(diǎn)遷移方法方面,Sumner 等人[39]使用手工標(biāo)記的頂點(diǎn)建立源模型到目標(biāo)模型的相對(duì)映射,通過(guò)線(xiàn)性?xún)?yōu)化函數(shù)和映射關(guān)系完成表情遷移.深度學(xué)習(xí)遷移方法方面,Gao 等人[40]提出了自動(dòng)形變兩個(gè)不成對(duì)形狀集(VAE-CycleGAN)方法,使用兩個(gè)卷積變分自編碼器將源模型表情和目標(biāo)模型映射到潛在空間,然后使用GAN 將潛在空間的信息映射到目標(biāo)模型上,最后采用相似性約束條件保證遷移表情一致性.Jiang 等人[41]使用三維頂點(diǎn)形變表示高維模型表情信息,并使用圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)實(shí)現(xiàn)表情遷移.由于人臉結(jié)構(gòu)空間維度高,并且人們對(duì)表情變化細(xì)節(jié)極其敏感,因此保證遷移后表情模型的個(gè)性細(xì)節(jié)特征是該方法的難點(diǎn).
肌肉模型是通過(guò)模擬肌肉底層的位移來(lái)控制三維人臉模型運(yùn)動(dòng),依據(jù)解剖學(xué)原理將面部肌肉分為線(xiàn)性肌、括約肌和塊狀肌等.Platt 等人[42]率先提出該模型,使用彈簧特性對(duì)人臉肌肉建模,通過(guò)肌肉的彈力控制人臉運(yùn)動(dòng).Zhang 等人[43]采用彈簧-質(zhì)點(diǎn)模型建立肌肉模型,模擬人臉皮膚的彈性效果.Yue 等人[44]建立下巴旋轉(zhuǎn)模型與口部肌肉模型,然后運(yùn)用GFFD (廣義自由變形)面模擬面部皮膚運(yùn)動(dòng),最后通過(guò)融合肌肉模型與皮膚變形實(shí)現(xiàn)面部表情的變化.基于肌肉模型的運(yùn)動(dòng)控制法通過(guò)對(duì)人臉結(jié)構(gòu)進(jìn)行物理仿真,可以真實(shí)的模擬人臉運(yùn)動(dòng),但由于人臉肌肉結(jié)構(gòu)復(fù)雜,使用該方法生成動(dòng)畫(huà)需要大量的人工交互輔助,因此不適用普通消費(fèi)級(jí)用戶(hù).
語(yǔ)音驅(qū)動(dòng)三維人臉動(dòng)畫(huà)效果評(píng)價(jià)包括主觀(guān)評(píng)價(jià)和客觀(guān)評(píng)價(jià)兩種方法.主觀(guān)評(píng)價(jià)通過(guò)給出不同分值的動(dòng)畫(huà)參考樣例,使用平均分(mean opinion score,MOS)[45]、診斷可接受性測(cè)量(diagnostic acceptability measure,DAM)[46]方法進(jìn)行評(píng)價(jià).評(píng)價(jià)內(nèi)容包括合成人臉動(dòng)畫(huà)整體的自然度、流暢度,以及語(yǔ)音與嘴部運(yùn)動(dòng)及面部神態(tài)的一致性.
客觀(guān)評(píng)價(jià)包括合成動(dòng)畫(huà)實(shí)時(shí)性評(píng)價(jià)、語(yǔ)音-視覺(jué)映射精度評(píng)價(jià)、動(dòng)畫(huà)流暢度評(píng)價(jià).在實(shí)時(shí)性方面,通過(guò)計(jì)算語(yǔ)音預(yù)處理、語(yǔ)音-視覺(jué)映射、三維人臉模型形變渲染的總時(shí)間判斷合成動(dòng)畫(huà)的實(shí)時(shí)性[23,24].在語(yǔ)音-視覺(jué)映射精度方面,通過(guò)計(jì)算真實(shí)值與動(dòng)畫(huà)面部關(guān)鍵點(diǎn)的差值判斷語(yǔ)音-視覺(jué)映射的精度,計(jì)算方法如歐氏距離[20,21]、均方根誤差[22,24]、關(guān)鍵點(diǎn)運(yùn)動(dòng)軌跡差值評(píng)估[18]等.在動(dòng)畫(huà)流暢度方面,通過(guò)計(jì)算當(dāng)前動(dòng)畫(huà)幀面部關(guān)鍵點(diǎn)位置與前后幀的位移判斷動(dòng)畫(huà)流暢度[23].
隨著人工智能與虛擬人的不斷結(jié)合,使用深度學(xué)習(xí)方法實(shí)現(xiàn)端到端的語(yǔ)音驅(qū)動(dòng)三維人臉動(dòng)畫(huà)成為研究的主流方向.綜合國(guó)內(nèi)外對(duì)該技術(shù)的研究現(xiàn)狀,在未來(lái)的發(fā)展中仍然有許多挑戰(zhàn),特別是在數(shù)據(jù)集、面部表情細(xì)節(jié)動(dòng)畫(huà)、頭部運(yùn)動(dòng)姿態(tài)等方面.
(1)由于深度學(xué)習(xí)需要大量數(shù)據(jù)作為支撐,數(shù)據(jù)集的全面性直接影響了語(yǔ)音-視覺(jué)映射模型的構(gòu)建效果,現(xiàn)有的公開(kāi)三維視聽(tīng)數(shù)據(jù)集較少,且沒(méi)有統(tǒng)一的構(gòu)建標(biāo)準(zhǔn),因此很難對(duì)不同的語(yǔ)音-視覺(jué)映射模型進(jìn)行統(tǒng)一的客觀(guān)評(píng)價(jià).
(2)人們會(huì)通過(guò)細(xì)微的表情變化揣摩說(shuō)話(huà)時(shí)人的情感,虛擬人的面部微表情可以增強(qiáng)角色的感染力,因此可以考慮從提高語(yǔ)音情緒細(xì)節(jié)特征的表達(dá)能力入手,模擬眼角、嘴角、眉毛等面部細(xì)節(jié)的變化.
(3)目前語(yǔ)音驅(qū)動(dòng)三維人臉動(dòng)畫(huà)的表情合成是基于離散情緒的,只能刻畫(huà)有限的幾種情緒類(lèi)型.但在現(xiàn)實(shí)生活中,人類(lèi)的情緒是復(fù)雜的,存在悲喜交加、驚喜交集等情況.因此可以使用語(yǔ)音情緒識(shí)別中的連續(xù)情感模型,分析可視化的復(fù)合語(yǔ)音情緒,實(shí)現(xiàn)人臉表情的豐富性.
(4)人們?cè)谡f(shuō)話(huà)時(shí)會(huì)產(chǎn)生不同頻率的頭部運(yùn)動(dòng),然而語(yǔ)音與頭部姿態(tài)關(guān)聯(lián)性較弱,因此可以考慮使用眼動(dòng)追蹤等相關(guān)技術(shù)實(shí)現(xiàn)頭部姿態(tài)估計(jì),增強(qiáng)語(yǔ)音動(dòng)畫(huà)的真實(shí)感.
(5)由于人臉的結(jié)構(gòu)復(fù)雜,在生成人臉動(dòng)畫(huà)時(shí)需要復(fù)雜的協(xié)同控制模擬真實(shí)的人臉運(yùn)動(dòng)和表情變化,使用基于三維頂點(diǎn)坐標(biāo)的形狀參數(shù)控制多邊形形變模型,雖然可以擬合表情細(xì)節(jié)運(yùn)動(dòng),但是難以達(dá)到實(shí)時(shí)的運(yùn)行效率.因此可以使用基于blendshape 權(quán)重的表情語(yǔ)義參數(shù)控制blendshape 模型,合成三維人臉動(dòng)畫(huà),通過(guò)優(yōu)化表情基中的面部皺紋等個(gè)性細(xì)節(jié)特征,實(shí)現(xiàn)高精度的三維人臉動(dòng)畫(huà).