摘 要:虛擬說話人生成是人工智能領(lǐng)域的一個重要研究方向,旨在通過計算機生成具有逼真語音的虛擬說話人。然而,現(xiàn)有方法往往忽視情緒表達、生成的人臉圖像面部細節(jié)缺乏真實感,限制了虛擬說話人的表現(xiàn)能力和交互性。為解決這一問題,提出一種基于Transformer的生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)方法,用于生成具有不同情緒的虛擬說話人(GANLTB)。該方法基于GAN架構(gòu),生成器采用Transformer模型處理語音和圖像特征,結(jié)合情緒條件信息和潛在空間向量,生成帶有指定情緒的語音和圖像。判別器用于評估生成結(jié)果的真實性,并提供梯度信號指導(dǎo)生成器訓(xùn)練。通過引入雙三次插值法,進一步提升了虛擬說話人生成的圖像質(zhì)量,使得虛擬說話人的面部細節(jié)更加清晰可見,表情更加自然和生動。使用情感多樣性數(shù)據(jù)集(CREMA-D)驗證了該方法,通過主觀評估和客觀指標,評估了生成的語音和圖像的情緒表達能力和質(zhì)量。實驗結(jié)果表明,該方法能夠生成具有多樣化和逼真情緒表達的虛擬說話人。相比目前其他先進方法,所提方法在流暢度和逼真度等細節(jié)上都更加清晰,帶來了更好的真實感。
關(guān)鍵詞:虛擬說話人;生成對抗網(wǎng)絡(luò);Transformer;多情感表達;語音驅(qū)動
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)08-043-2546-08
doi: 10.19734/j.issn.1001-3695.2023.10.0559
Multi-emotion driven virtual speaker generation method integrating multiple emotions
Li Shuaishuaia,b, He Xiangzhena,b, Zhang Yuezhoua,b, Wang Jiaxina,b
(a.Key Laboratory of Linguistic & Cultural Computing Ministry of Education, b.Key Laboratory of Ethnic Language & Cultural Intelligent Information Processing, Northwest Minzu University, Lanzhou 730030, China)
Abstract:
Virtual speaker generation is an important research direction in the field of artificial intelligence, aiming to gene-rate virtual speakers with realistic voices through computers. However, existing methods often neglect emotional expression and the facial details of the generated face images lack realism, which limit the performance and interactivity of the virtual spea-kers. To address this issue, this paper proposed a Transformer-based generative adversarial network (GAN) method for generating virtual speakers with different emotions(GANLTB). This method was based on the GAN network architecture, where the generator used a Transformer model to process speech and image features, combined with emotional condition information and latent space vectors, generating voice and images with specified emotions. It used the discriminator to assess the authenticity of the generated results and provide gradient signals to guide the training of the generator. By introducing BiCubic interpolation, it further enhanced the image quality of the virtual speaker generation, making the facial details of the virtual speaker clearer and the expressions more natural and vivid. The method was validated using a diverse emotional dataset CREMA-D, through subjective evaluation and objective indicators to assess the emotional expression ability and quality of the generated speech and images. Experimental results show that the method can generate virtual speakers with diverse and realistic emotional expressions. Compared to other currently advanced methods, the proposed method is clearer in details such as fluency and realism, bringing a better sense of reality.
Key words:virtual speaker; GAN; Transformer; multi-emotion expression; voice-driven
0 引言
虛擬說話人生成技術(shù)是人工智能領(lǐng)域中備受關(guān)注的研究方向之一,其旨在通過深度學(xué)習(xí)模型生成具有逼真語音的虛擬角色,從而提升用戶交互體驗的真實感和自然度。然而,目前的虛擬說話人生成方法常常忽略情感的表達,這一點對于提高虛擬說話人的逼真度和交互性至關(guān)重要。情感表達的缺乏限制了虛擬說話人與用戶之間的情感溝通,這在一定程度上阻礙了用戶體驗的提升。特別是在教育、心理健康支持、客戶服務(wù)和人機交互等領(lǐng)域,情感表達的重要性不言而喻。
因此,研究如何生成融合多情感表達的虛擬說話人不僅是技術(shù)挑戰(zhàn),也是提升虛擬說話人應(yīng)用效果的關(guān)鍵。在未來的研究和應(yīng)用中,通過深度學(xué)習(xí)和人工智能技術(shù),使虛擬說話人能夠更準確和自然地表達各種情緒,將極大地提升其在各個應(yīng)用領(lǐng)域的實用性和交互性。
情緒是人類交流和表達的重要組成部分,它能夠賦予語言以情感色彩,使交流更加豐富和有意義。在虛擬說話人生成中引入情緒表達的能力將極大地提升其逼真度和交互體驗,使虛擬說話人更接近于真實的人類語音。因此,為了充分發(fā)揮虛擬說話人的潛力并提高其實用性,需要探索如何在生成過程中準確、自然地表達不同情緒。人的六種不同情緒如圖1所示。
近些年,隨著各種深度學(xué)習(xí)模型層出不窮,GAN的各種變體在圖像生成領(lǐng)域展現(xiàn)出強大的生成能力。DCGAN(deep convolutional GAN)[1]是GAN的一個重要變體,它使用深度卷積神經(jīng)網(wǎng)絡(luò)作為生成器和判別器,使得圖像生成更加穩(wěn)定和逼真。StyleGAN[2]通過引入潛在空間的樣式變化來控制圖像的生成風(fēng)格。它在圖像生成方面取得了顯著的進展,并被廣泛用于生成藝術(shù)和逼真的人臉圖像。Transformer最初是為了解決自然語言處理任務(wù)而設(shè)計的,并在該領(lǐng)域取得了巨大成功。近年來,研究人員開始將Transformer應(yīng)用于圖像生成領(lǐng)域,Image Transformer[3]將Transformer應(yīng)用于圖像生成并取得了良好效果。DINet[4]通過對嘴部動作進行編碼特征映射,實現(xiàn)了高分辨率人臉視頻配音。MCNet[5]設(shè)計了一個身份表征網(wǎng)絡(luò),生成的人臉說話視頻具有逼真的動態(tài)姿態(tài)和表情。
本文提出將GAN和Transformer模型進行結(jié)合來生成具有不同情緒的虛擬說話人。通過讓生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)相互競爭和協(xié)作來生成逼真的樣本。Transformer作為生成器的一部分,利用其強大的序列建模能力,通過自注意力機制來捕獲語音和圖像中的全局和局部特征,同時利用GAN的判別器提供梯度信號指導(dǎo)生成器的訓(xùn)練。為了解決圖像分辨率的問題,研究中采用了雙三次插值(BiCubic)[6]方法,有效地提高了生成圖像的清晰度和真實性。通過將BiCubic插值方法與GAN相結(jié)合,改進了虛擬說話人圖像的質(zhì)量,使其形象更加逼真。
1 相關(guān)工作
虛擬說話人生成是一個多學(xué)科交叉的研究領(lǐng)域,涉及到語音處理、圖像生成、情感識別等多個方面。宋一飛等人[7]針對當前虛擬說話人研究中的熱點問題,從數(shù)據(jù)集、關(guān)鍵技術(shù)、評估策略三個方面,對虛擬說話人視頻生成技術(shù)及研究現(xiàn)狀做一個較系統(tǒng)的梳理與總結(jié)。本章將介紹與本研究相關(guān)的一些工作,并加入提高圖像分辨率的相關(guān)內(nèi)容。
a)虛擬說話人生成方法:傳統(tǒng)的虛擬說話人生成方法主要基于統(tǒng)計模型和規(guī)則系統(tǒng)。其中,基于隱馬爾可夫模型(hidden Markov model, HMM)[8]的方法被廣泛應(yīng)用于語音合成領(lǐng)域,通過建模聲學(xué)和語言特征來生成語音。在圖像生成方面,一些方法使用基于規(guī)則的系統(tǒng)來生成具有特定情緒的圖像。然而,這些方法在情緒表達和圖像質(zhì)量方面存在一定的限制。
b)生成對抗網(wǎng)絡(luò)(GAN):GAN是一種強大的生成模型,通過讓生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)相互競爭和協(xié)作來生成逼真的樣本。Eskimez等人[9]提出了一種新的方法來渲染語音驅(qū)動的說話人臉生成中的視覺情感表達,設(shè)計了一個端到端的說話人臉生成系統(tǒng)。該系統(tǒng)以語音、單個面部圖像和分類情感標簽為輸入,生成與語音同步并表達條件情感的說話人臉視頻。年福東等人[10]提出基于關(guān)鍵點表示的語音驅(qū)動說話人臉視頻生成方法,通過連續(xù)的唇部關(guān)鍵點和頭部關(guān)鍵點序列及模板圖像最終生成面部人臉視頻。Christos等人[11]2022年提出Free-HeadGAN,實現(xiàn)一個標準的3D關(guān)鍵點估計器,它可以回歸3D姿勢和表情相關(guān)的變形,一個凝視估計網(wǎng)絡(luò)和一個建立在HeadGAN架構(gòu)上的生成器,實現(xiàn)了更高的照片真實感。在虛擬說話人臉生成領(lǐng)域,GAN被應(yīng)用于生成語音和圖像。通過訓(xùn)練生成器網(wǎng)絡(luò)來生成逼真的語音和圖像樣本,并通過判別器網(wǎng)絡(luò)對其進行評估和反饋,GAN方法在虛擬說話人臉生成方面取得了顯著的進展。
c)Transformer模型:Transformer[12]是一種基于注意力機制的神經(jīng)網(wǎng)絡(luò)模型,最初被應(yīng)用于自然語言處理領(lǐng)域,如機器翻譯和文本生成。Lee等人[13]提出將視覺Transformer(vision Transformers,ViT)架構(gòu)集成到生成對抗網(wǎng)絡(luò)中(ViTGAN),顯著提升了圖像和視頻生成的效果。在虛擬說話人臉生成中,Transformer模型可以用于處理語音和圖像特征,提高生成的語音和圖像的質(zhì)量和準確性。此外,Transformer模型還被應(yīng)用于圖像超分辨率重建任務(wù),通過學(xué)習(xí)低分辨率到高分辨率的映射關(guān)系,提高生成圖像的細節(jié)和分辨率。陳凱等人[14]提出的MCTN利用Transformer與CNN多分支并聯(lián)結(jié)構(gòu)和Deformer結(jié)構(gòu),在人臉關(guān)鍵點檢測方面性能大幅超越基于卷積網(wǎng)絡(luò)的關(guān)鍵點檢測算法。
d)情感識別和情感合成:情感識別和情感合成是虛擬說話人生成中的重要任務(wù)。情感識別旨在從語音和圖像中準確識別出表達的情感。一些研究利用深度學(xué)習(xí)方法構(gòu)建情感分類器,以識別和分析情感。Aggarwal等人[15]探索了不同的特征提取方法,以有效解決語音情感識別問題。
e)圖像分辨率提高方法:圖像的分辨率是虛擬說話人臉生成中一個重要的考慮因素。為了提高生成圖像的質(zhì)量和細節(jié)保持能力,研究者提出了多種方法來提高圖像分辨率。Wang等人[16]提出了GFP-GAN,它利用了封裝在預(yù)訓(xùn)練人臉GAN中豐富多樣的先驗,通過空間特征變換層,將生成式面部先驗(GFP)融合到人臉恢復(fù)過程中,此方法能夠很好地平衡真實感和保真度。陳貴強等人[17]提出一種半監(jiān)督算法Cycle-SRNet,通過重建模型恢復(fù)出具有真實效果的高分辨率人臉圖像,引入感知損失函數(shù)保持人臉結(jié)構(gòu)相似性,以更好地恢復(fù)面部特征。
本文在圖像生成領(lǐng)域結(jié)合Transformer-GAN方法和Bi-Cubic技術(shù),克服傳統(tǒng)方法中對圖像特征提取的局限性,獲得更加清晰和逼真的高分辨率圖像,從而提高虛擬說話人臉生成的質(zhì)量和表現(xiàn)能力。
2 研究方法
2.1 數(shù)據(jù)預(yù)處理
利用Dlib庫對視頻進行處理,提取了每幀中人臉的68個關(guān)鍵點坐標。通過逐幀的面部檢測和關(guān)鍵點預(yù)測,將視頻中的人臉關(guān)鍵點信息提取出來,為后續(xù)的人臉分析和應(yīng)用提供了基礎(chǔ)數(shù)據(jù)。這個過程可以用于人臉識別、表情識別等任務(wù),為對視頻中的人臉進行深入分析和理解提供了重要支持。對視頻每隔四幀截取一幀。人臉68個關(guān)鍵點提取結(jié)果如圖2所示。
在這項研究中,使用情緒作為輸入條件。其目的是使語言和情緒條件脫鉤。這使本文能夠在人臉視頻的生成過程中生成特定情緒。圖2顯示了該系統(tǒng)的概述,其采用了GAN框架,本文的生成器網(wǎng)絡(luò)架構(gòu)使用情緒條件輸入。此研究使用兩個鑒別器網(wǎng)絡(luò),其中一個區(qū)分視頻中表達的情緒,另一個區(qū)分真實視頻幀和生成的視頻幀?;究蚣苋鐖D3所示。
根據(jù)GAN的組成結(jié)構(gòu)可以知道,GAN的整個過程為:G產(chǎn)生一個自創(chuàng)的假數(shù)據(jù)和真數(shù)據(jù)放在一起讓D來區(qū)分,在這種不停的較量中,G就生成出接近真實的數(shù)據(jù)。所以GAN主要的應(yīng)用場景就是能夠?qū)W習(xí)出這樣模擬分布的數(shù)據(jù),并且可以用模擬分布代替原始數(shù)據(jù)。在GAN中,定義值V來衡量真實樣本和生成樣本之間的差異,如式(1)所示。
V(D,G)=Ex-Pdata(x)[log D(x)]+
Ex-Pz(z)[log(1-D(G(z))]](1)
其中:x為真實樣本;z為生成樣本;Pdata為真實樣本分布;Pz為生成樣本分布。判別器D要求該值盡可能大,而生成器G希望該值盡可能小。判別器D的目標是使得x與z非常容易區(qū)分,即D(X)趨近于1而D(G(z))趨近于0;生成器G的目標是使生成樣本盡可能像真實樣本,即D(G(z))趨近于1。因此GAN的目標便是:
minGmaxD V(D,G)(2)
判別器的輸出值盡可能大,生成器的輸出值盡可能小。判別器和生成器之間相互博弈,使得生成器的生成效果更好。
2.2 生成器模塊
生成器模塊包含以下子網(wǎng)絡(luò):語音編碼器、圖像編碼器、噪聲編碼器和情緒編碼器以及視頻解碼器。生成器模塊的整體組成部分如式(3)所示。
Gall=(Eaudio+Eimage+Enoise+Eemotion+Evideo)(3)
a)語音編碼器:此模塊實現(xiàn)基于Transformer模型的編碼。輸入的語音特征向量經(jīng)過一定維度映射后輸入到多個編碼層中進行特征抽取和表示學(xué)習(xí),編碼器中使用了多頭自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)隱藏層來提取語音特征的高級表示。堆疊多個編碼層,可以更加抽象地表示語音特征。頭數(shù)可控制特征表達的復(fù)雜度,編碼層數(shù)可控制模型深度和記憶能力。添加一個前饋神經(jīng)網(wǎng)絡(luò)隱藏層,最后通過殘差連接和層歸一化的方式輸出編碼層的結(jié)果。整個模型中使用了歸一化和dropout技術(shù)用于訓(xùn)練時的模型加速和泛化性能提升。
b)圖像編碼器:用于對圖像進行特征提取。該模塊由一個序列化的卷積層和多個編碼器層組成,編碼器層由多頭自注意力、多頭交叉注意力和前饋神經(jīng)網(wǎng)絡(luò)隱藏層組成,用于逐漸抽象提取圖像特征。在前向傳播過程中,該模型首先將輸入的圖像通過卷積層得到特征圖,然后依次送入多個編碼器層進行特征提取,并記錄每個編碼器層的輸出,最后將該模型的輸出特征圖和記錄的編碼器層輸出的特征圖進行拼接,并通過一層卷積輸出該模型的最終特征表示。其中,在編碼器層中使用的多頭自注意力、多頭交叉注意力和前饋神經(jīng)網(wǎng)絡(luò)隱藏層均為高性能的深度學(xué)習(xí)技術(shù),能夠有效地提高模型對圖像特征的提取能力和表達能力。
c)噪聲編碼器:用于生成噪聲張量。該模塊中使用一個LSTM模塊用于對生成的噪聲張量進行處理。在前向傳播過程中,輸入的是語音段的噪聲向量,通過normal分布將該向量中的每個元素隨機采樣出一個噪聲張量,使用LSTM層對生成的噪聲張量進行處理,并輸出經(jīng)過處理后的噪聲張量作為本模塊的最終輸出。整個過程中,該模型主要利用隨機采樣和LSTM技術(shù)來生成一定長度的噪聲序列,用于模擬真實語音中的噪聲成分,進而提高模型的抗干擾能力。
d)情緒編碼器:此模塊用于對情感條件進行處理。該模塊中主要有一個包含2個線性層和2個LeakyReLU激活函數(shù)的全連接神經(jīng)網(wǎng)絡(luò)。在前向傳播中,輸入的是一個6維的情感向量,經(jīng)過定義的全連接神經(jīng)網(wǎng)絡(luò),首先對這個情感向量進行線性變換,然后再經(jīng)過LeakyReLU非線性激活函數(shù)的處理,最后輸出的是一個512維的特征向量,作為本模塊的最終輸出,用作語音合成模型的情緒條件輸入。整個過程中,該模型主要利用全連接神經(jīng)網(wǎng)絡(luò)及激活函數(shù)來對情感向量進行特征提取和處理,將其轉(zhuǎn)換為一個描述情感的特征向量,進而實現(xiàn)語音合成的情感控制功能。情緒編碼器的組成部分包括六種情緒分類,其組成如式(4)所示。
E=(Eanger+Edisgust+Efear+Ehappiness+Eneutrality+Esadness)(4)
e)視頻解碼器:該解碼器模塊主要用于將給定的圖像、語音、噪聲、情感條件等信息解碼為一個連續(xù)的視頻序列。此模塊設(shè)定了一些參數(shù),包括卷積神經(jīng)網(wǎng)絡(luò)的過濾器個數(shù)、卷積層的數(shù)量及大小、一個全連接層。將輸入的圖像、語音、噪聲、情感條件通過該全連接層進行特征提取和處理,得到一個特征向量作為全網(wǎng)絡(luò)的輸入,并定義了一些卷積層、反卷積層、dropout層等操作,對輸入數(shù)據(jù)進行處理和特征提取。在正向傳播中,輸入的是圖像條件、噪聲、情感向量等信息,通過流程中的特征提取、dropout和上采樣方式,將輸入數(shù)據(jù)轉(zhuǎn)換為一個視頻序列,最后用tanh進行輸出,生成一段具有情感的、連續(xù)的視頻。其中的卷積操作采用了反卷積、LSTM等方法,能有效處理如時間序列數(shù)據(jù)等類型的信息,實現(xiàn)了該模型對輸入信息的有效解碼,同時通過dropout進行隨機化,降低過擬合問題的出現(xiàn)。
通過融合圖像條件、語音特征、噪聲特征和情感特征,建立一個解碼器模型,從而能夠生成高分辨率的合成圖像。模型的核心是多層卷積網(wǎng)絡(luò),其中包含特殊的conv2DLSTM層用于更好地處理特征圖。模型的訓(xùn)練過程中使用dropout層以減少過擬合。最后,輸出層將特征圖合并為一個高分辨率圖像輸出。
在圖像生成過程中,解碼器合成高分辨率圖像時采用雙三次插值法,雙三次插值法采用樣條函數(shù)進行插值計算,這種函數(shù)具有光滑且連續(xù)的特性,因此能夠更好地保留圖像的細節(jié)信息,減少失真和模糊現(xiàn)象,進而提升圖像分辨率。同時,它利用了更多的像素點進行插值計算,相比雙線性插值法,提供了更高的插值精度。雙三次插值法計算方法如圖4所示。
假設(shè)要對原圖像進行放大,放大倍數(shù)為s倍,需要生成一個新的圖像。對于新圖像中的每個像素點(i, j),需要找到其在原圖像中的對應(yīng)位置(i, j),然后利用周圍的像素點進行插值計算。假設(shè)原圖像的尺寸為W×H,放大后的圖像尺寸為(Wk×Hk)。對于新圖像中的像素點(x, y),其在原圖像中的對應(yīng)位置為(i, j),計算公式如下:
i=xk(5)
j=yk(6)
然后以(i, j)為中心,取周圍的16個像素點,構(gòu)成4×4的像素塊。在x軸方向進行三次樣條插值:首先對像素塊的每一列進行三次樣條插值,得到中間結(jié)果(i, j),其中插值大小為0到1之間的小數(shù)。然后在y軸方向進行三次樣條插值:對中間結(jié)果(i, j)在y軸方向進行三次樣條插值,得到最終的插值結(jié)果(x, y)。插值公式如下:
S(x)=1-2|x|2+|x|3 0≤|x|<1
4-8|x|+5|x|2-|x|31≤|x|<2
0|x|≥2 (7)
求出BiCubic函數(shù)中的參數(shù)x,從而獲得上面所說的16個像素所對應(yīng)的權(quán)重S(x)。該函數(shù)的波形如圖5所示。
對于插值的像素點(x,y),選擇附近的4×4個點進行加權(quán)求和。按如下公式進行計算:
f(x,y)=∑3i=0∑3j=0f(xi,yj)S(x-xi)S(y-yj)(8)
其中:(x,y)表示插值的像素點;(xi,yj)表示現(xiàn)有采樣位置;f(xi,yj)表示現(xiàn)有位置的像素值;S表示像素點到附近點的距離。
最終,生成器的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
2.3 判別器模塊
判別器模塊包含視頻幀判別器和情緒判別器兩個部分。
a)視頻幀判別器:此模塊用于實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的前向傳播和計算梯度懲罰。整個網(wǎng)絡(luò)由多個連續(xù)的卷積層組成,每個卷積層進一步提取特征信息,輸出層由線性和激活函數(shù)組成。優(yōu)化器在初始化方法中被設(shè)置為Adam,也可以使用RMSprop進行優(yōu)化,調(diào)度器用于定期更新學(xué)習(xí)率。前向傳播方法接受輸入并提取特征,特征向量最終通過輸出層進行分類。梯度懲罰方法通過隨機插值和反向傳播來實現(xiàn),以計算梯度懲罰的平均值和梯度懲罰平均值的算術(shù)平方。
b)情緒判別器:該模型用于圖像分類任務(wù),這個模型由多個前饋神經(jīng)層、一個全連接層和一個循環(huán)神經(jīng)層組成。使用給定的濾波器大小和卷積核大小定義了對輸入圖像進行卷積運算的5層卷積神經(jīng)層。在模型的前向傳遞過程中,模型會首先進行卷積運算來提取圖像的特征。隨后,這些特征通過全連接層進行降維以提高模型的計算效率,并輸入到長短時記憶(LSTM)層中,從而獲取一個整體上對輸入序列的理解。最后通過全連接層,基于輸入序列的最后一個時間步驟的隱藏狀態(tài),完成分類任務(wù),生成一個輸出向量。
此外,該神經(jīng)網(wǎng)絡(luò)還提供了一個用于計算梯度懲罰的函數(shù)。該函數(shù)可以用于在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)過程中,以一種有效的方式改善網(wǎng)絡(luò)輸出的性能表現(xiàn)。通過計算交錯真實和生成數(shù)據(jù)的插值點,并將其傳遞到神經(jīng)網(wǎng)絡(luò)中,該函數(shù)能夠?qū)δP吞荻鹊拇笮∵M行懲罰,從而加強了模型對輸入數(shù)據(jù)的魯棒性。判別器模塊網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
2.4 目標函數(shù)
在原始GAN中,生成器和判別器通過對抗學(xué)習(xí)進行訓(xùn)練,其中生成器的目標是使得生成樣本的判別器輸出盡量接近真實樣本的判別器輸出,試圖生成逼真的樣本來欺騙判別器,而判別器則通過輸出區(qū)分真實樣本和生成樣本。然而,傳統(tǒng)GAN的訓(xùn)練過程可能出現(xiàn)模型崩潰(mode collapse)和不穩(wěn)定等問題。Wasserstein GAN (WGAN)的提出者Arjovsky等人[18]把Wasserstein 距離作為衡量生成樣本與真實樣本之間差異的指標,這使得訓(xùn)練過程更加穩(wěn)定。WGAN-GP[19]則進一步改進了WGAN,引入了梯度懲罰機制來解決WGAN中的權(quán)重裁剪問題。GAN-GP的主要思想是通過判別器輸出與生成樣本之間的插值點計算梯度,并強制使這些梯度的范數(shù)接近于1,來對判別器進行懲罰。這個梯度懲罰項是添加到判別器的損失函數(shù)中,以促使判別器學(xué)習(xí)更穩(wěn)定的梯度。GAN-GP的梯度懲罰計算方法如式(9)所示。
L=E-Pp[D()]-Ex-Pr[D(x)]+
λE-P[(‖D()‖k-1)2](9)
其中:E~P對隨機插值點進行期望操作;ΔD()是判別器在隨機插值點的梯度;是樣本video和生成video的隨機插值。
除此以外還有其他多個目標函數(shù):用于改善口腔音頻同步的MRM損失、用于改善圖像質(zhì)量的感知損失、用于圖像質(zhì)量的幀GAN損失和用于情緒表達的情緒GAN損失。
a)口腔區(qū)域掩碼(MRM)損失[20]:MRM損失是口腔區(qū)域周圍生成的視頻和地面實況視頻之間的加權(quán)L1重建損失。它使用以口腔坐標的平均位置為中心的2D高斯作為權(quán)重。MRM的直覺是手動將網(wǎng)絡(luò)的注意力驅(qū)動到口腔區(qū)域,以提高口腔音頻同步。
LMRM1=Lmasked1+Lmasked1+αJFD(10)
其中:LMRM1表示有噪聲語音的掩碼重建損失;JFD表示鑒別器的成本;α表示權(quán)重。
b)感知損失:使用預(yù)先訓(xùn)練的VGG-19網(wǎng)絡(luò)[21],并從生成的視頻和地面實況視頻中計算以下層的中間特征:4、9、18、27和36。通過將生成視頻和真實視頻的尺寸進行調(diào)整,將其展平為二維張量。然后,通過VGG-19模型獲取生成視頻和真實視頻在預(yù)定義層級的特征表示。注意,為了避免梯度傳播到VGG-19模型,對真實視頻的特征表示斷開了梯度計算。隨后,對于每個特征層,計算生成視頻特征表示與真實視頻特征表示之間的均方誤差,以提高圖像質(zhì)量。
Lperceptual2=1CjHjWj‖φj(y)-φj()‖22(11)
其中: j表示網(wǎng)絡(luò)的第j層;CjHjWj第j層的特征圖的大小。最后,將所有特征層的均方誤差相加,得到最終的感知損失。感知損失的目的是衡量生成視頻和真實視頻在特征層級上的差異,以便促使生成視頻更接近真實視頻的特征表示。
總的來說,均方誤差(MSE)損失用于計算生成視頻和真實視頻在預(yù)定義特征層級上的特征表示之間的差異,從而衡量生成視頻的感知質(zhì)量。
c)幀判別器損失:為了進一步提高圖像質(zhì)量,特別是清晰度,本文使用了由幀判別器計算的幀GAN損失。幀判別器損失的計算過程中先將生成視頻序列和真實視頻序列調(diào)整為相同的尺寸,以確保它們具有相同的維度;然后把對應(yīng)位置的元素進行絕對值差運算,得到每個像素位置上的絕對值誤差;最后對所有像素位置上的絕對值誤差求平均,得到幀判別器損失。之所以使用平均絕對誤差損失,是因為它對異常敏感,當生成的輸出與真實數(shù)據(jù)之間存在較大的偏差時,平均絕對誤差損失更能體現(xiàn)出這種差異,促使生成器更好地逼近真實數(shù)據(jù)分布。本文使用Wasserstein GAN進行更穩(wěn)定的訓(xùn)練,而不是普通的GAN損失。
JFD=Ex-PR[fw(x)]-Ex-Pr[fw(x)](12)
其中: fw表示判別器網(wǎng)絡(luò)。
d)情緒判別器損失:為了確保生成視頻中的情緒表達,本文使用情緒鑒別器計算的情緒GAN損失,這是一種使用六個情緒類加一個“假”類的分類交叉熵損失。采用交叉熵損失函數(shù)計算此過程,對于每個樣本,首先將它的真實標簽進行one-hot編碼,然后計算模型對該樣本的預(yù)測概率向量。接下來,將預(yù)測概率向量和真實標簽的one-hot向量相乘,并將所有類別的乘積求和,最后取負號得到交叉熵損失。
交叉熵損失的作用是最小化模型的預(yù)測值與真實標簽之間的差距,使模型更好地擬合訓(xùn)練數(shù)據(jù)并泛化到未見過的數(shù)據(jù)。在情緒分類任務(wù)中,交叉熵損失幫助模型理解情緒類別之間的區(qū)別,并使得模型可以對輸入的樣本進行正確的情緒分類。在訓(xùn)練過程中,通過反向傳播算法來優(yōu)化模型參數(shù),使交叉熵損失逐漸減小,從而提高情緒分類器的性能。
JED(x,y)=-∑Ci=1xilog yi(13)
其中:xi表示真實標簽的第i個元素;yi表示模型預(yù)測x屬于第i個類別的概率。交叉熵損失的本質(zhì)是衡量兩個概率分布之間的距離。當兩個概率分布越接近時,交叉熵損失越小,表示模型預(yù)測結(jié)果越準確。
生成器步驟的完整目標函數(shù)如下:
JGEN=αLMRM1+βLperceptual2+γJFD+δJED(14)
其中:JGEN表示生成器損失;LMRM1表示口腔損失;Lperceptual表示感知損失;JFD表示幀判別器損失;JPD表示情緒判別器損失;α、β、γ、δ是每個損失函數(shù)各自的權(quán)重。
3 實驗與分析
3.1 數(shù)據(jù)集
為了驗證本文算法的有效性,在三個典型的數(shù)據(jù)集CREMA-D[22]、LRW-1000[23]、MEAD[24]上分別進行驗證,本文將視頻分辨率下采樣到125×125,采樣率處理為每秒25幀(FPS),將音頻下采樣到8 kHz。本文把數(shù)據(jù)集按照訓(xùn)練集(70%)、驗證集(15%)和測試集(15%)隨機劃分,以確保公平地比較。在測試過程中,輸入到生成器網(wǎng)絡(luò)的條件圖像都來自相同的真實視頻,其中條件圖像是視頻的第一幀。
3.2 實驗參數(shù)
為了實現(xiàn)高質(zhì)量的虛擬說話人臉生成,本文采用了一種基于感知損失的預(yù)訓(xùn)練策略,通過使用MRM(mean representation matching)損失進行12萬次迭代的初始化訓(xùn)練。這個初始化過程幫助網(wǎng)絡(luò)更好地捕捉情感表達和語音特征,為后續(xù)的全目標函數(shù)訓(xùn)練奠定基礎(chǔ)。實驗過程使用的詳細參數(shù)如表1所示。
3.3 對比實驗
本文使用生成視頻幀和真實視頻幀之間的峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)來評估生成視頻的圖像質(zhì)量。為了測量視聽同步,本文使用了從生成視頻幀和真實視頻幀中提取的地標之間的歸一化地標距離(NLMD)。對于PSNR和SSIM,值越高越好;對于NLMD,值越低越好。
實驗對比多個說話人臉視頻生成模型,包括Speech2Vid、Lip-Movement、ATVGnet、Audio2AU以及筆者自己的方法。把各個模型的表現(xiàn)進行評估和對比,得出Speech2Vid[25]模型在生成說話人臉視頻時,利用語音信息輔助生成視頻,從語音到視頻的轉(zhuǎn)換能力相對較弱,導(dǎo)致生成的說話人臉視頻在細節(jié)和逼真度方面表現(xiàn)一般。Lip-Movement[26]模型通過對嘴部運動的建模,實現(xiàn)了從嘴部動作到說話人臉視頻的生成。然而,由于只考慮了局部的嘴部信息,生成的視頻整體表現(xiàn)不夠完整和自然。ATVGnet[27]模型采用生成對抗網(wǎng)絡(luò)結(jié)構(gòu),通過對抗訓(xùn)練來提高視頻生成的質(zhì)量,其表現(xiàn)在人臉圖像生成方面相對較好,但在情感表達和細節(jié)還原方面存在一定的限制。Audio-2AU[28]使用循環(huán)神經(jīng)網(wǎng)絡(luò),從嘴部的角度對口型精度進行優(yōu)化,提出了一個Audio-to-AU模塊來預(yù)測語音中與語音相關(guān)的AU信息。不過在整體的面部動作協(xié)調(diào)性方面還有一定的完善空間。本文方法結(jié)合了Transformer和GAN,以及使用雙三次插值法提升圖像分辨率,能夠更好地捕捉語音和視頻之間的關(guān)系,并生成具有多樣性和逼真情感表達的人臉視頻,在整體逼真度和表現(xiàn)能力方面表現(xiàn)出一定優(yōu)勢。
本文方法在對比實驗中使用CREMA-D、LRW-1000、MEAD數(shù)據(jù)集,展現(xiàn)出了較好的說話人臉視頻生成能力,但仍有改進空間。不同模型在人臉圖像生成方面有各自的優(yōu)勢和局限性,未來可以繼續(xù)深入研究和改進,以進一步提升虛擬說話人臉視頻生成的質(zhì)量和真實感。不同數(shù)據(jù)集以及不同方法的實驗結(jié)果對比如表2所示。
為了驗證生成的視頻中的情緒表達,使用CREMA-D、MEAD數(shù)據(jù)集訓(xùn)練了一個基于視頻的情感識別網(wǎng)絡(luò),結(jié)果如表3所示。然后,本文對地面實況視頻和筆者生成的測試集視頻中的情緒進行了分類,結(jié)果如表3所示。基于真實視頻CREMAD數(shù)據(jù)集的六類情感分類準確率為68.34%,MEAD數(shù)據(jù)集的六類情感分類準確率為66.83%,表明基于視頻的情感分類器的有效性。
采用了雙三次插值法將原始方法生成的128×128像素的人臉圖像提升分辨率到256×256像素,如表4所示。相比較基線實驗,圖像的細節(jié)清晰度得到了顯著增強,面部特征更加清晰可辨,使得虛擬說話人的形象更加真實和生動。其次,圖像的紋理和質(zhì)感得到了有效還原,使得人臉圖像更具自然感。通過雙三次插值法,圖像的邊緣和輪廓線條得到了更好的保持,減少了圖像變形和鋸齒效應(yīng),提高了生成圖像的視覺質(zhì)量。
3.4 實驗視覺效果
1)長視頻的生成結(jié)果
當設(shè)置生成10 s左右的長視頻時,基線以及其他方法生成的視頻對輸入的語音、唇形動作就會變形,越來越不符合真實說話唇形動作。使用本文方法生成長視頻時,很明顯,本文視頻更加符合真實說話人的唇形動作,結(jié)果如圖8所示。
2)情緒分類結(jié)果
當設(shè)置生成人的不同情緒時,本文基線生成的視頻結(jié)果看起來并沒有很真實地表達出人類的六種明確的情緒:憤怒、厭惡、恐懼、幸福、中立和悲傷。使用本文方法由相同的條件圖像和語音生成六種不同的情緒時,本研究結(jié)果看起來更加符合人在不同狀態(tài)下表現(xiàn)出來的情緒,對比結(jié)果如圖9所示。
3)像素提升質(zhì)量
在實驗過程中,本文采用雙三次插值法用于提升生成的圖像分辨率。相對于簡單的放大算法,雙三次插值法可以更好地保留圖像細節(jié)和平滑性,從而在提高分辨率的同時減少圖像的銳化和失真。使得虛擬說話人在表情、
眼神、嘴唇等方面表現(xiàn)更加細膩和真實。使用雙三次插值法生成的圖像結(jié)果如圖10所示。
4)人工對生成視頻質(zhì)量評分
為了評價實驗生成的視頻真實性,挑選出50人從1分到5分對視頻質(zhì)量進行評分。評價者對所有視頻質(zhì)量的平均得分分別為4.65、3.68、3.84。結(jié)果表明,該實驗生成的視頻比基線視頻質(zhì)量略好,但是相比較真實視頻仍有很大差距。分析認為生成的視頻在分辨率和流暢度上還不足以媲美真實視頻,這也是接下來本文重要的研究方向。評分結(jié)果如圖11所示。
3.5 應(yīng)用分析
1)應(yīng)用場景分析
由于本文實驗數(shù)據(jù)使用的全為英語數(shù)據(jù)集,所以生成的虛擬說話人臉可模擬真實英語教師,提供更自然的語言學(xué)習(xí)體驗,如表5所示。在語言學(xué)習(xí)應(yīng)用中,它可以展示英語的發(fā)音和口型,使學(xué)習(xí)更加生動有趣。
2)應(yīng)用結(jié)果評價
為了驗證虛擬英語教師角色的應(yīng)用成果,本文組織了10名人員對虛擬英語教師的教學(xué)效果從好、較好、中、較差等四個評語等級進行投票,四項評語等級投票分布如表6所示。
3.6 消融實驗
為了測試本文所提出的融合多情感的語音驅(qū)動虛擬說話人生成方法(GANLTB)各個模塊的有效性,首先評估虛擬說話人效果基線,使用一個標準的GAN來生成虛擬說話人的語音和人臉圖像,這將作為實驗的控制條件。添加LSTM和Transformer模塊,分別用于提取語音和人臉圖像的特征,作用是捕捉更多的上下文信息,并提高虛擬說話人的語音和圖像一致性。最后應(yīng)用BiCubic插值技術(shù),通過提高人臉圖像的分辨率來進一步改善虛擬說話人的逼真度。由表7中的PSNR、SSIM以及NLMD指標可知GANLTB方法的語音合成流利性、語調(diào)和情感傳達,人臉圖像的逼真度,包括細節(jié)、表情和一致性,都要優(yōu)于基礎(chǔ)模型,生成的虛擬說話人臉的整體質(zhì)量也有顯著提升。
4 結(jié)束語
本文提出了一種新的基于GAN的網(wǎng)絡(luò)結(jié)構(gòu),使用Transformer模塊進行圖像生成,并能夠從任意一張圖像中準確和詳細地重建人臉,同時生成擁有六種不同情緒的視頻。本文方法生成的視頻可以控制不同情緒,且每種情緒相互獨立。同時,該方法生成的視頻質(zhì)量在視頻長度和真實度方面優(yōu)于其他方法。
盡管已經(jīng)取得了較優(yōu)的效果,但是在生成高分辨率視頻的過程中還有很大的改進空間。未來,筆者計劃進一步研究一些提高圖像分辨率的方法,能夠在生成高分辨率圖像中取得良好的效果,這是未來工作中的重點。最后,筆者希望在接下來的工作中能夠生成3D視頻,從而讓視頻更具真實效果,能夠真正參與到未來的3D影視作品中。
參考文獻:
[1]Radford A,Metz L,Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks [EB/OL]. (2016-01-07). https://arxiv.org/abs/1511.06434.
[2]Khwanmuang S,Phongthawee P,Sangkloy P,et al. StyleGAN salon: multi-view latent optimization for pose-invariant hairstyle transfer [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023: 8609-8618.
[3]Touvron H,Cord M,Sablayrolles A,et al. Going deeper with image transformers [C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021: 32-42.
[4]Zhang Zhimeng,Hu Zhipeng,Deng Wenjin,et al. DINet: deformation inpainting network for realistic face visually dubbing on high resolution video [EB/OL]. (2023-03-07). https://arxiv.org/abs/2303.03988.
[5]Hong F T,Xu Dan. Implicit identity representation conditioned memory compensation network for talking head video generation [C]// Proc ofIEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2023: 23062-23072.
[6]Keys R. Cubic convolution interpolation for digital image processing [J]. IEEE Trans on Acoustics,Speech,and Signal Proces-sing,1981,29(6): 1153-1160.
[7]宋一飛,張煒,陳智能,等. 數(shù)字說話人視頻生成綜述[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報,2023,35(10):1457-1468. (Song Yifei,Zhang Wei,Chen Zhineng,et al. A review of video generation for digital speakers [J]. Journal of Computer-Aided Design and Graphics,2023,35(10):1457-1468.)
[8]Rabiner L,Juang B. An introduction to hidden Markov models [J]. IEEE ASSP Magazine,1986,3(1): 4-16.
[9]Eskimez S E,Zhang You,Duan Zhiyao. Speech driven talking face generation from a single image and an emotion condition [J]. IEEE Trans on Multimedia,2021,24: 3480-3490.
[10]年福東,王文濤,王妍,等. 基于關(guān)鍵點表示的語音驅(qū)動說話人臉視頻生成 [J]. 模式識別與人工智能,2021,34(6):572-580. (Nian Fudong,Wang Wentao,Wang Yan,et al. Speech-driven talking face video generation based on keypoint representation [J]. Pattern Recognition and Artificial Intelligence,2021,34(6): 572-580.)
[11]Christos D M,Ververas E,Sharmanska V,et al. Free-HeadGAN: neural talking head synthesis with explicit gaze control [EB/OL]. (2022-08-03). https://arxiv.org/abs/2208.02210.
[12]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. 2017.
[13]Lee K,Chang Huiwen,Jiang Lu,et al. VitGAN: training GANs with vision transformers [EB/OL]. (2021). https://arxiv.org/abs/2107.04589.
[14]陳凱,林珊玲,林堅普,等. 基于Transformer人像關(guān)鍵點檢測網(wǎng)絡(luò)的研究 [J]. 計算機應(yīng)用研究,2023,40(6): 1870-1881. (Chen Kai,Lin Shanling,Lin Jianpu,et al. Research on Transformer-based portrait keypoint detection network [J]. Application Research of Computers,2023,40(6): 1870-1881.)
[15]Aggarwal A,Srivastava A,Agarwal A,et al. Two-way feature extraction for speech emotion recognition using deep learning [J]. Sensors,2022,22(6): 2378.
[16]Wang Xintao,Li Yu,Zhang Honglun,et al. Towards real-world blind face restoration with generative facial prior[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021:9164-9174.
[17]陳貴強,何軍,羅順茺. 基于改進CycleGAN的視頻監(jiān)控人臉超分辨率恢復(fù)算法 [J]. 計算機應(yīng)用研究,2021,38(10): 3172-3176. (Chen Guiqiang,He Jun,Luo Shunzhi. A super-resolution recovery algorithm for video surveillance faces based on improved CycleGAN [J]. Application Research of Computers,2021,38(10): 3172-3176.)
[18]Arjovsky M,Chintala S,Bottou L. Wasserstein GAN [EB/OL]. (2017-12-06). https://arxiv.org/abs/1701. 07875.
[19]Gulrajani I,Ahmed F,Arjovsky M,et al. Improved training of Wasserstein GANs [C]// Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2017: 5767-5777.
[20]Eskimez S E,Maddox R K,Xu Chenliang,et al. End-to-end generation of talking faces from noisy speech [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Pisca-taway,NJ:IEEE Press,2020: 1948-1952.
[21]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014). https://arxiv.org/abs/ 1409. 1556.
[22]Cao Houwei,Cooper D G,Keutmann M K,et al. CREMA-D: crowd-sourced emotional multimodal actors dataset [J]. IEEE Trans on Affective Computing,2014,5(4): 377-390.
[23]Yang Shuang,Zhang Yuanhang,F(xiàn)eng Dalu,et al. LRW-1000: a natu-rally-distributed large-scale benchmark for lip reading in the wild [C]// Proc of the 14th IEEE International Conference on Automatic Face & Gesture Recognition. Piscataway,NJ:IEEE Press,2019: 1-8.
[24]Wang Kaisiyuan,Wu Qianyi,Song Linsen,et al. MEAD: a large-scale audio-visual dataset for emotional talking-face generation [C]// Proc of European Conference on Computer Vision. 2020: 700-717.
[25]Chung J S,Jamaludin A,Zisserman A. You said that? [EB/OL]. (2017-07-18). https://arxiv.org/abs/1705.02966.
[26]Chen Lele,Li Zhiheng,Maddox R K,et al. Lip movements generation at a glance [C]// Proc of European Conference on Computer Vision. Cham: Springer International Publishing,2018: 520-535.
[27]Suwajanakorn S,Seitz S M,Kemelmacher-Shlizerman I. Synthesizing Obama: learning lip sync from audio [J]. ACM Trans on Graphi-cs,2017,36(4): 1-13.
[28]Chen Sen,Liu Zhilei,Liu Jiaxing,et al. Talking head generation with audio and speech related facial action units [EB/OL]. (2021-10-19). https://arxiv.org/abs/2110.09951.