国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Transformer的面部動畫生成

2023-12-06 11:33:54豆子聞李文書
軟件工程 2023年12期
關(guān)鍵詞:音素編碼器音頻

豆子聞, 李文書

(浙江理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 浙江 杭州 310018)

0 引言(Introduction)

在過去的幾年里,數(shù)字人類引起了廣泛關(guān)注,它們以高度逼真的方式模擬真實(shí)人類,現(xiàn)已被應(yīng)用于各個領(lǐng)域,比如游戲中的虛擬化身、電影中的角色等[1]。VR設(shè)備的普及,使數(shù)字人類被更廣泛地應(yīng)用于虛擬現(xiàn)實(shí)場景中,這些數(shù)字人通過附著于用戶各個關(guān)節(jié)的傳感器聯(lián)合驅(qū)動,能夠?qū)崟r模擬現(xiàn)實(shí)中真人的動作,但是對于面部的表情,只能通過面捕設(shè)備的攝像頭捕捉,其不僅操作不便,更會因?yàn)檎趽醯仍驅(qū)е聼o法跟蹤。

在過去的研究中,英偉達(dá)(NVIDIA)公司發(fā)布的唇音同步算法Audio2Face基于深度卷積神經(jīng)網(wǎng)絡(luò),主要集中在學(xué)習(xí)短音頻窗口的音素級特征,偶爾會導(dǎo)致嘴唇運(yùn)動不準(zhǔn)確[2]。TIAN等[3]采用兩個雙向長短時記憶網(wǎng)絡(luò)(Bidirectional LSTM),將音頻特征作為輸入提取高級語義信息,并輸出到注意力層學(xué)習(xí)注意力權(quán)重。這種結(jié)構(gòu)使網(wǎng)絡(luò)能夠記住以往的音頻特征,并可鑒別對當(dāng)前動畫幀產(chǎn)生影響的音頻特征,但是LSTM作為順序模型仍然存在瓶頸,在有效學(xué)習(xí)音頻數(shù)據(jù)中跨足夠長的時間間隔提取相關(guān)信息的能力不足。

Transformer在自然語言處理和計(jì)算機(jī)視覺任務(wù)中都取得了卓越的表現(xiàn)[4]。研究人員在音頻特征的提取方面,加入循環(huán)卷積和注意力機(jī)制,使得輸入不再局限于短時特征,并且顯著提高了特征精度。受線性偏差注意力的啟發(fā),研究人員在查詢鍵注意力評分中添加了時間偏差,并設(shè)計(jì)了周期性位置編碼策略,以提高模型對較長音頻序列的泛化能力。在本文研究中,主要關(guān)注三維模型上的面部動畫,而三維人臉的復(fù)現(xiàn)主要分為基于語言的方法和基于學(xué)習(xí)的方法[5]。

1 相關(guān)理論(Related theory)

1.1 唇音同步

基于語言學(xué)的方法通常在音素和視覺對應(yīng)物之間建立一套復(fù)雜的映射規(guī)則,即視覺語音音素(Visemes)。Visemes用于表示人類口型和面部表情的視覺表示,它們對應(yīng)于發(fā)音時嘴巴的不同形狀,在計(jì)算機(jī)圖形學(xué)、動畫和虛擬現(xiàn)實(shí)領(lǐng)域有著廣泛的應(yīng)用,尤其是在語音同步(Lip-Sync)動畫中。

也有一些方法考慮了音素和音素之間的多對多映射關(guān)系[6]。例如,基于心理語言學(xué)的考慮,在面部動作編碼系統(tǒng)的基礎(chǔ)上,將嘴巴運(yùn)動音素納入嘴唇和綁定后的下巴動畫,可以產(chǎn)生良好的聯(lián)合發(fā)音效果。唇音同步的理論基于對音頻的分解,從每段音素中提取梅爾頻譜,得到獨(dú)立的音素級特征。

1.2 Transformer

Transformer基于encoder-decoder進(jìn)行架構(gòu),使用了自注意力機(jī)制(Self-Attention)捕捉序列中任意兩個位置之間的依賴關(guān)系,解決了長期依賴問題。通過多頭注意力機(jī)制(Multi-Head Attention)同時關(guān)注不同位置和不同語義的信息[7]。整體由多個Encoder和Decoder層堆疊在一起,每一層都包含Self-Attention和Feed Forward Neural Network。每個Encoder和Decoder層都接收整個句子所有的詞作為輸入,然后為句子中的每個詞都做出一個輸出。Transformer的機(jī)制使得它相較于RNN和CNN每層計(jì)算復(fù)雜度更優(yōu),并且可直接計(jì)算點(diǎn)乘結(jié)果,不用考慮序列的順序,可以進(jìn)行并行處理。在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)領(lǐng)域都應(yīng)用廣泛。

1.3 Wav2Vec2.0

Wav2Vec2.0相比Wav2Vec,使用Transformer代替RNN,同時引用了一個乘積量化的操作,使得語音表示更加緊湊或離散[8];其通過對比學(xué)習(xí)進(jìn)行自監(jiān)督學(xué)習(xí),首先使用一個卷積神經(jīng)網(wǎng)絡(luò)將原始音頻信號編碼成一個連續(xù)的隱層表示,其次使用一個量化模塊將這個表示轉(zhuǎn)換成一個離散的潛在表示,最后使用一個Transformer網(wǎng)絡(luò)捕捉這個潛在表示的上下文信息。Wav2Vec2.0在訓(xùn)練過程中會隨機(jī)地掩蓋一些潛在表示,然后讓Transformer網(wǎng)絡(luò)預(yù)測被掩蓋的部分,這樣就可以學(xué)習(xí)到語音信號中有用的結(jié)構(gòu)和模式。

2 本文所提方法(The proposed method)

圖1 唇音同步模型流程圖Fig.1 Flow chart of labial synchronization model

2.1 音頻編碼器

在編碼器的設(shè)計(jì)方面,研究人員參考了最先進(jìn)的運(yùn)動合成模型,使用廣義語音模型Wav2Vec2.0編碼音頻輸入。編碼器以自監(jiān)督和半監(jiān)督的方式訓(xùn)練模型,通過使用對比損失預(yù)測當(dāng)前輸入語音的近期未來值,使模型能夠從大量未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)。

Wav2Vec2.0接受原始音頻信號作為輸入,然后在不用手動標(biāo)注的情況下學(xué)習(xí)音頻特征表示,對原始音頻的潛在表示進(jìn)行建模。Wav2Vec2.0的輸出序列是一組潛在向量,這些向量表示輸入音頻信號的時間結(jié)構(gòu)特征。每個潛在向量都對應(yīng)輸入音頻的一小段時間。在音頻特征提取階段,使用一維卷積處理具有時間順序的數(shù)據(jù),它可以捕捉局部特征并保留輸入數(shù)據(jù)的順序結(jié)構(gòu),并且在計(jì)算方面更加高效,適用于處理大規(guī)模數(shù)據(jù)。一維卷積層的參數(shù)如表1所示。

表1 一維卷積層參數(shù)

為了捕捉序列中的全局依賴關(guān)系,將多頭自注意力機(jī)制應(yīng)用于輸出序列,在Transformer編碼器層中,輸入序列首先經(jīng)過多頭自注意力子層,其次通過位置前饋網(wǎng)絡(luò)(Position-wise Feed-Forward Network,FFN)。該輸出將作為動作編碼器中Biased Cross-Modal MH Attention層的輸入。

經(jīng)過多頭自注意力機(jī)制處理后,將序列輸入后續(xù)的池化層和線性映射層,最終結(jié)果作為Postional Encoding層的輸入。

2.2 自回歸解碼器

(1)

其中,θv為Transformer的可學(xué)習(xí)參數(shù)。

與產(chǎn)生離散文本的傳統(tǒng)神經(jīng)機(jī)器翻譯(NMT)架構(gòu)相比,本文研究的輸出表示是一個連續(xù)的向量。NMT模型使用一個開始和結(jié)束的標(biāo)記指示序列的開始和結(jié)束。在推理過程中,NMT模型自回歸地生成標(biāo)記,直到結(jié)束。研究人員在輸入特征時進(jìn)行Linear操作,在開始處包含輸入信息。然而,由于序列長度T是由音頻輸入的長度給出的,所以不適用于結(jié)束標(biāo)記。通常將編碼時間添加到序列中的Viseme特征中,將時間信息注入序列中。將位置編碼的中間表示表述為

(2)

2.3 動作解碼器

3 實(shí)驗(yàn)與結(jié)果(Experiment and result)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

研究人員使用公開的3D數(shù)據(jù)集BIWI對本文中的面部動畫生成模型進(jìn)行訓(xùn)練和測試。該數(shù)據(jù)集提供了英語口語的音頻-3D掃描對。BIWI包含40個獨(dú)特的句子,該40個句子覆蓋了常用的發(fā)音口型,適用于所有說話者。

BIWI數(shù)據(jù)集是一個包含情感語音和相應(yīng)的密集動態(tài)三維人臉幾何的語料庫。14名受試者被要求閱讀40個英語句子,每個句子分別在中性或情緒化的語境中被錄下兩次。3D面部幾何圖形以25 fps的速度捕獲,每個圖形有23 379個頂點(diǎn)。每個片段平均時長為4.67 s。實(shí)驗(yàn)中使用了在情感語境中記錄句子的子集。具體來說,將數(shù)據(jù)分為6名受試者共說192句話的訓(xùn)練集(BIWI-Train),每名受試者說32句話,以及兩個測試集(BIWI-Test-A和BIWI-Test-B)。BIWI-Test-A包含6個可見的被試者共說的24句話(每人說4句話),BIWI-Test-B包含8個不可見的被試者共說的32句話(每人說4句話)。

3.2 訓(xùn)練細(xì)節(jié)

訓(xùn)練Transformer編碼器、解碼器和嵌入塊進(jìn)行跨模態(tài)映射。為了從大規(guī)模語料庫的語音表示學(xué)習(xí)中受益,使用預(yù)先訓(xùn)練好的Wav2vec2.0權(quán)重初始化Transformer編碼器。

在編碼器的第一階段,選擇AdamW作為優(yōu)化器,其參數(shù)如表2所示。

表2 AdamW參數(shù)設(shè)置

在第二階段,用Adam優(yōu)化器訓(xùn)練時間自回歸模型,訓(xùn)練時間為100個epoch,其他超參數(shù)不變。

3.3 評價結(jié)果

使用唇形同步度量評估嘴唇運(yùn)動的質(zhì)量。所有唇邊頂點(diǎn)的最大誤差定義為每一幀的唇型誤差。誤差是通過比較預(yù)測和捕獲的三維人臉幾何數(shù)據(jù)計(jì)算得來的。表3統(tǒng)計(jì)了使用MeshTalk[9]、FaceFormer[10]和本文方法得出的唇形頂點(diǎn)誤差比較結(jié)果。

表3 唇形頂點(diǎn)誤差率比較

3.4 相關(guān)方法之間的結(jié)果比較

人類的感知系統(tǒng)能夠理解細(xì)微的面部動作和捕捉唇形同步。因此,在語音驅(qū)動的面部動畫任務(wù)中,人類的感知仍然是一個最可靠的度量。本文進(jìn)行了一項(xiàng)用戶調(diào)查研究,并與MeshTalk、FaceFormer和Ground Truth(GT)進(jìn)行感知結(jié)果比較。采用A/B(兩種方法在各種數(shù)據(jù)上的比值)測試每個比較,即在逼真的面部動畫和口型方面與上述方法的比較。對于BIWI,分別從BIWI-test-B中隨機(jī)選取30個樣本,得到四種比較的結(jié)果。為了在說話風(fēng)格方面達(dá)到最大的變化,必須確保抽樣結(jié)果可以相應(yīng)地涵蓋所有的條件反射風(fēng)格。因此,本文基于BIWI-test-B創(chuàng)建了120對A和B,共30個樣本、4個對照。每組由至少3名不同的參賽者分別評判,最終共收集到372組評價結(jié)果。表4為模型在測試集BIWI-Test-B上的用戶學(xué)習(xí)結(jié)果的對比,分別比較了同步率和真實(shí)值,證明本文所提方法相比MeshTalk和FaceFormer有較顯著的提升。

表4 在BIWI-Test-B上的感知評價對比

3.5 結(jié)果可視化

為了驗(yàn)證算法的效果,以美國前總統(tǒng)奧巴馬的一次演講Obama Delivers Thanksgiving Greeting中的片段作為音頻輸入用于合成面部動畫幀,從音頻到面部動畫的生成結(jié)果如圖2所示。

4 結(jié)論(Conclusion)

通過使用一維卷積和自注意力機(jī)制,本文所提的方法更好地捕捉到了Wave2Vec2.0輸出的特征,幫助研究人員在面部動畫合成算法中合成高質(zhì)量的動畫。此外,研究人員展示了在離散空間中將語音驅(qū)動的面部動畫轉(zhuǎn)換為代碼查詢?nèi)蝿?wù)的優(yōu)勢,即顯著地提高了對抗跨模態(tài)模糊運(yùn)動的合成質(zhì)量。實(shí)驗(yàn)結(jié)果表明,該方法在實(shí)現(xiàn)準(zhǔn)確的唇形同步和生動的面部表情方面具有優(yōu)勢。

猜你喜歡
音素編碼器音頻
新目標(biāo)英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
依托繪本課程,培養(yǎng)學(xué)生英語音素意識
小學(xué)英語課堂中音素意識與自然拼讀整合訓(xùn)練的探索
必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
?不定冠詞a與an
基于FPGA的同步機(jī)軸角編碼器
音頻分析儀中低失真音頻信號的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
天气| 武宣县| 苏尼特右旗| 华宁县| 西峡县| 辽宁省| 云南省| 徐汇区| 玛多县| 商丘市| 班玛县| 菏泽市| 健康| 安远县| 珠海市| 阿拉尔市| 建始县| 宕昌县| 竹北市| 通榆县| 东台市| 颍上县| 开化县| 宜昌市| 宜章县| 丹江口市| 罗田县| 曲阜市| 海林市| 泽普县| 岳阳市| 双鸭山市| 汝州市| 宽城| 靖安县| 澄城县| 长垣县| 钦州市| 邮箱| 呼玛县| 宿迁市|