国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于條件對(duì)抗自動(dòng)編碼器的跨年齡人臉合成

2022-06-16 05:25:12程志康孫琦景張旭東
計(jì)算機(jī)工程 2022年6期
關(guān)鍵詞:解碼器編碼器人臉

程志康,孫 銳,孫琦景,張旭東

(1.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥 230009;2.工業(yè)安全與應(yīng)急技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室,合肥 230009)

0 概述

跨年齡人臉合成技術(shù)旨在預(yù)測特定人臉圖像過去或者未來的變化,能大幅增強(qiáng)人臉識(shí)別系統(tǒng)的性能,并在動(dòng)漫娛樂、公共安全、尋找失蹤兒童等領(lǐng)域具有廣泛的應(yīng)用。但近年來上述領(lǐng)域的研究一直面臨著數(shù)據(jù)稀缺的巨大挑戰(zhàn),很多研究工作都需要同一個(gè)人不同年齡段的多幅人臉圖像,但這在實(shí)際生活中很難實(shí)現(xiàn),導(dǎo)致訓(xùn)練難以達(dá)到最優(yōu)效果。此外,由于生成網(wǎng)絡(luò)訓(xùn)練的不穩(wěn)定性,因此合成的跨年齡人臉圖像容易出現(xiàn)器官扭曲變形、人臉的特征結(jié)構(gòu)保持效果不佳等問題。

傳統(tǒng)的跨年齡人臉合成方法大致可分為基于物理模型的方法和基于原型的方法這2 種方法?;谖锢砟P偷姆椒ㄍㄟ^對(duì)面部肌肉、皺紋、皮膚、面部輪廓等生物學(xué)面部變化進(jìn)行復(fù)雜的建模來模擬衰老效果。LANITIS 等[1]和RAMANATHAN 等[2]將面部結(jié)構(gòu)建模為物理衰老模型進(jìn)行跨年齡人臉合成,RAMANATHAN 等[3]和BERG 等[4]探索了跨年齡人臉合成中衰老面孔的紋理變化,SUO 等[5]通過捕獲臉部肌肉的相關(guān)信息進(jìn)行跨年齡人臉合成。上述方法會(huì)產(chǎn)生粗略的老化效果,需要同一個(gè)人大量并且年齡跨度很大的照片,且對(duì)相關(guān)參數(shù)的復(fù)雜度較高。基于原型的方法[6-7]將面部圖像分為不同的年齡組,并學(xué)習(xí)各組之間的衰老模式,因此在一定程度上可以放寬對(duì)同一個(gè)人年齡跨度較大的配對(duì)樣本需求。該方法以每個(gè)年齡段的平均人臉為原型,將原型之間的差異視為衰老模式。WANG 等[8]設(shè)計(jì)了一個(gè)循環(huán)面孔老化(Recurrent Face Aging,RFA)模型,該模型捕獲了相鄰年齡組之間的中間演化狀態(tài),并采用2 層門控循環(huán)單元(Gate Recurrent Unit,GRU)來建模復(fù)雜的動(dòng)態(tài)外觀變化,能夠合成一些具有老化跡象的圖像,但較依賴于成對(duì)樣品的可用性,然而這些樣本難以收集且成本很高。另外,基于原型的方法以平均人臉作為原型,導(dǎo)致難以捕捉到每個(gè)人個(gè)性化的人臉特征,并且由于使用了平滑紋理,因此無法很好地捕捉高頻細(xì)節(jié)(皺紋、斑點(diǎn)等)。為更好地保持人臉的個(gè)性化特征,SHU 等[9]提出一種基于字典學(xué)習(xí)的人臉老化方法,將每個(gè)年齡組的年齡模式學(xué)習(xí)到相應(yīng)的子字典中。給定的人臉將會(huì)被分解為年齡模式和個(gè)人模式兩個(gè)部分,通過子字典將年齡模式轉(zhuǎn)換為目標(biāo)年齡模式,然后使用綜合目標(biāo)年齡模式和個(gè)人模式生成老化的面孔,但該方法會(huì)出現(xiàn)嚴(yán)重的重影偽影。

近年來,深度生成模型在圖像合成中展現(xiàn)了較好的性能,部分學(xué)者也開展了基于深度生成網(wǎng)絡(luò)的跨年齡人臉合成研究。DUONG 等[10]構(gòu)建一種基于時(shí)間深度限制的玻爾茲曼機(jī)器的年齡老化模型,能夠捕捉非線性老化的變化。DUONG 等[11]提出一種時(shí)間無量保存(Temporal Non-Volume Preserving,TNVP)老化方法,該方法具有易于處理的密度函數(shù),可以生成高質(zhì)量的按年齡劃分的人臉圖像,但由于在建模時(shí)沒有關(guān)于人臉個(gè)性的任何信息輸入,因此按照完整的衰老順序合成的人臉圖像在顏色、表情、身份上均有很大差異。值得注意的是,盡管上述方法均有一定效果,但需要成對(duì)的訓(xùn)練數(shù)據(jù)以確保合成高質(zhì)量人臉圖像。為了解決收集成對(duì)實(shí)驗(yàn)訓(xùn)練樣本的難題,ZHANG 等[12]提出一種新的跨年齡人臉合成算法。該算法結(jié)合了對(duì)抗性自動(dòng)編碼器[13]和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[14]的優(yōu)點(diǎn),在沒有配對(duì)的輸入輸出圖像整體框架中實(shí)現(xiàn)了跨年齡人臉合成。相對(duì)于只進(jìn)行人臉老化單方向的合成工作,該方法能同時(shí)實(shí)現(xiàn)跨年齡人臉圖像的老化和去齡化。在訓(xùn)練網(wǎng)絡(luò)時(shí),該方法只需要將帶有年齡標(biāo)簽的人臉圖像輸入到網(wǎng)絡(luò)模型中;在測試網(wǎng)絡(luò)時(shí),結(jié)合需要轉(zhuǎn)化的人臉圖像和目標(biāo)年齡標(biāo)簽就能得到指定年齡的人臉合成圖像。該方法不僅能產(chǎn)生具有年齡變化效果的合成人臉圖像,而且還保留了人臉的個(gè)性化信息。但基于傳統(tǒng)的條件對(duì)抗自動(dòng)編碼器跨年齡人臉合成模型所生成的圖像常出現(xiàn)器官扭曲變形以及人臉局部特征結(jié)構(gòu)保持效果不佳的問題。

本文通過設(shè)計(jì)一種多尺度特征損失網(wǎng)絡(luò),對(duì)輸出人臉圖像的局部特征結(jié)構(gòu)進(jìn)行約束,優(yōu)化生成的人臉圖像局部特征結(jié)構(gòu)。針對(duì)生成網(wǎng)絡(luò)模型會(huì)出現(xiàn)生成圖像器官扭曲變形的問題,對(duì)編碼器解碼器進(jìn)行改進(jìn),并將通道關(guān)注和空間關(guān)注模塊引入到解碼器結(jié)構(gòu)中,改善合成圖像的效果。

1 傳統(tǒng)的條件對(duì)抗自動(dòng)編碼器模型

對(duì)抗自動(dòng)編碼器可以看成是生成對(duì)抗網(wǎng)絡(luò)和變分自動(dòng)編碼器的一種結(jié)合體。GAN 包含生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D這2 個(gè)相互對(duì)抗的網(wǎng)絡(luò),采用博弈論的原理,通過2 個(gè)網(wǎng)絡(luò)之間不斷進(jìn)行對(duì)抗博弈,使生成網(wǎng)絡(luò)G能夠?qū)W習(xí)到真實(shí)數(shù)據(jù)的分布。生成網(wǎng)絡(luò)G主要從一個(gè)隨機(jī)的噪聲z(隨機(jī)數(shù))生成可以欺騙判別網(wǎng)絡(luò)D的假圖片,判別網(wǎng)絡(luò)D主要對(duì)生成網(wǎng)絡(luò)G生成的假圖片和真實(shí)圖片進(jìn)行判別,判別兩者是一張圖片的概率。生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D在不斷對(duì)抗博弈中能達(dá)到一種平衡狀態(tài),稱之為納什均衡[15]。理想情況是生成網(wǎng)絡(luò)能夠生成足夠真的圖片,判別網(wǎng)絡(luò)難以判定生成圖片的真實(shí)性。變分自動(dòng)編碼器保留了基本的編碼器解碼器結(jié)構(gòu),與傳統(tǒng)的自編碼器通過數(shù)值的方式描述潛在空間不同,它以概率的方式描述對(duì)潛在空間的觀察,在圖片重構(gòu)上具有較為廣泛的應(yīng)用。對(duì)抗自動(dòng)編碼器不僅可以像變分自動(dòng)編碼器一樣保留自動(dòng)編碼器網(wǎng)絡(luò),代替GAN 從隨機(jī)噪聲生成圖像,而且可以像GAN 中的對(duì)抗性網(wǎng)絡(luò)那樣代替KL 散度損失。

基于傳統(tǒng)的條件對(duì)抗自動(dòng)編碼器的跨年齡人臉合成模型的原理如圖1 所示。

圖1 傳統(tǒng)的條件對(duì)抗自動(dòng)編碼器模型網(wǎng)絡(luò)框架Fig.1 Network framework of traditional conditional adversarial autoencoder model

從如圖1 可以看出,編碼器解碼器作為主體結(jié)構(gòu)主要完成輸入人臉圖像的重構(gòu),2 個(gè)判別器能使模型在跨年齡人臉合成過程中生成更加逼真的圖像。在訓(xùn)練階段,一開始輸入的128×128×3 像素的人臉圖像會(huì)被編碼器映射到低維空間,在低維空間中可以得到一個(gè)具有人臉個(gè)性化特征的50 維度特征向量z。對(duì)于輸入的具有年齡標(biāo)簽的人臉圖像,在低維空間中將大小為1×1×n的年齡標(biāo)簽向量與具有個(gè)性化人臉特征的特征向量z進(jìn)行拼接。經(jīng)過拼接的具有年齡和人臉特征信息的特征向量通過解碼器重新恢復(fù)到高維空間中,同樣得到一個(gè)128×128×3 像素的人臉圖像。為了使跨年齡人臉合成的圖像更加逼真,在低維空間中具有人臉個(gè)性化特征的特征向量z上以及輸入輸出人臉圖像上分別施加判別器。施加在特征向量z上的判別器Dz可以施加先驗(yàn)分布,例如均勻分布,使在潛在低維空間中的z具有均勻的分布,能夠產(chǎn)生更加均勻的人臉圖像。施加在面部圖像上的鑒別器Dimg能夠保證生成器生成更加逼真的人臉圖像。在測試過程中只有編碼器和解碼器工作,將人臉圖像輸入網(wǎng)絡(luò)結(jié)構(gòu)中,只需要添加特定的年齡標(biāo)簽,就可以產(chǎn)生特定年齡的人臉合成圖像。

2 本文方法

2.1 網(wǎng)絡(luò)框架

本文方法的網(wǎng)絡(luò)框架如圖2 所示,主要包括1 個(gè)編碼器、1 個(gè)解碼器、2 個(gè)判別器Dz和Dimg以及1 個(gè)多尺度特征損失網(wǎng)絡(luò)。其中:編碼器解碼器構(gòu)成跨年齡人臉合成的基礎(chǔ)結(jié)構(gòu),能夠?qū)崿F(xiàn)人臉圖像的轉(zhuǎn)換工作;2 個(gè)判別器能夠約束生成的人臉圖像更加逼真,保證合成的效果;中間連接器將映射到低維空間中的人臉特征向量z與人臉年齡標(biāo)簽進(jìn)行連接;多尺度特征損失網(wǎng)絡(luò)從多個(gè)尺度約束輸入人臉圖像和輸出人臉圖像之間的局部特征結(jié)構(gòu),使生成的人臉圖像能夠保留局部特征結(jié)構(gòu)。

圖2 本文方法的網(wǎng)絡(luò)框架Fig.2 Network framework of method in this paper

2.2 區(qū)域關(guān)注編碼器-解碼器

在跨年齡人臉合成過程中,需要關(guān)注臉部區(qū)域,忽略背景信息。本文對(duì)編碼器解碼器結(jié)構(gòu)進(jìn)行改進(jìn),在解碼器中引入?yún)^(qū)域關(guān)注模塊,從而在通道和空間中取得更加重要的部分,使人臉生成的效果更好。區(qū)域關(guān)注模塊將輸入的信息進(jìn)行權(quán)重的標(biāo)定,賦予重要信息更大的權(quán)重,減少不重要信息的權(quán)重,從而對(duì)關(guān)鍵位置的信息進(jìn)行提取,比較符合人類視覺觀察事物的特性。如圖3 所示是本文所改進(jìn)的編碼器解碼器結(jié)構(gòu)。

圖3 區(qū)域關(guān)注的編碼器解碼器結(jié)構(gòu)Fig.3 Structure of encoder and decoder of region attention

在解碼器中的2 個(gè)反卷積層中引入?yún)^(qū)域關(guān)注模塊,分別進(jìn)行通道關(guān)注和空間區(qū)域關(guān)注,并令經(jīng)過反卷積層所得到的特定特征圖F∈RC×H×W分別經(jīng)過一個(gè)一維的通道關(guān)注圖Mc∈RC×1×1和一個(gè)二維空間關(guān)注圖Ms∈R1×H×W。通道關(guān)注通過利用通道間的關(guān)系生成通道注意圖,由于特征圖的每個(gè)通道均被視為特征檢測器[16],因此通道關(guān)注于一張輸入圖像是否有意義??臻g區(qū)域關(guān)注則是利用特征之間的空間關(guān)系生成空間區(qū)域關(guān)注圖,它更加關(guān)注于輸入圖片的重要信息部分。兩者相輔相成,能夠抑制不重要信息的干擾,對(duì)圖像合成效果具有提升作用??偟倪M(jìn)程可以表示為:

其中:?表示逐像素相乘;F是通過解碼器得到的人臉特征圖;Mc(F)表示特征圖F經(jīng)過通道關(guān)注得到的特征圖;F′是經(jīng)過通道關(guān)注模塊之后的中間特征圖;Ms(F′)表示特征圖F′經(jīng)過空間關(guān)注得到的特征圖;F″是中間特征圖經(jīng)過空間關(guān)注模塊之后得到的最終的人臉特征圖。在訓(xùn)練過程中,區(qū)域關(guān)注模塊會(huì)分別推斷出通道和空間2 個(gè)方向的特定權(quán)重,使人臉合成過程減少對(duì)不必要的背景等信息的關(guān)注,聚焦于人臉重要區(qū)域的合成工作。

2.3 多尺度特征損失網(wǎng)絡(luò)

為了在跨年齡人臉合成過程中保持人臉局部特征結(jié)構(gòu),只進(jìn)行年齡相關(guān)的變化,本文設(shè)計(jì)了一個(gè)多尺度特征損失函數(shù)網(wǎng)絡(luò),如圖4 所示。

圖4 多尺度特征損失網(wǎng)絡(luò)Fig.4 Multi-scale feature loss network

在跨年齡人臉合成訓(xùn)練過程中,每幅人臉圖像均會(huì)加入年齡標(biāo)簽進(jìn)行重構(gòu),在此過程中使合成的圖像和輸入的人臉圖像具有更相似的局部特征結(jié)構(gòu)尤其重要,為此需要對(duì)兩幅圖像進(jìn)行局部特征結(jié)構(gòu)的約束。但是通過簡單的L1損失函數(shù)或L2損失函數(shù)往往不能很好地約束人臉的個(gè)性化特征保持不變,因此本文設(shè)計(jì)了一個(gè)多尺度特征損失網(wǎng)絡(luò)對(duì)兩幅人臉圖像進(jìn)行多重的局部特征結(jié)構(gòu)約束,保證人臉個(gè)性化特征的保持效果更好,避免人臉圖像局部特征結(jié)構(gòu)變形等情況的發(fā)生。如圖4 所示,將輸入的圖像和經(jīng)過跨年齡合成主體網(wǎng)絡(luò)后的合成圖像一同送入多尺度特征損失網(wǎng)絡(luò),分別經(jīng)過3 層設(shè)計(jì)好的卷積神經(jīng)網(wǎng)絡(luò)。對(duì)于原始輸入的2 張圖像以及經(jīng)過每層卷積層后的特征圖分別進(jìn)行Charbonnier 損失函數(shù)約束,最終得到多尺度損失函數(shù)的表達(dá)式如式(3)所示:

其中:L取4;x和x′分別表示輸入的人臉圖像和合成的人臉圖像;Fi(x)表示獲取人臉圖像的特征圖;i表示第i個(gè)人臉特征圖;ε是一個(gè)很小的常量,目的是增強(qiáng)損失函數(shù)計(jì)算的穩(wěn)定性,一般取值為1×10-3。

本文網(wǎng)絡(luò)采用PReLu[17]作為激活函數(shù),該激活函數(shù)在ReLu 的基礎(chǔ)上進(jìn)行了改進(jìn),能夠避免人臉相關(guān)特征的丟失。ReLu 的表達(dá)式如式(4)所示:

ReLu 激活函數(shù)以0 作為閾值,與Sigmoid 和tanh 2 個(gè)激活函數(shù)相比,在梯度下降上有更快的收斂速度,并且在一定程度上能有效抑制梯度消失現(xiàn)象。PReLu 激活函數(shù)的表達(dá)式如式(5)所示:

ReLu 激活函數(shù)將負(fù)數(shù)強(qiáng)行置0 可能會(huì)導(dǎo)致相關(guān)特征的丟失,PReLu 激活函數(shù)相對(duì)于ReLu 激活函數(shù)多加了一個(gè)參數(shù)a,避免了這種情況的發(fā)生,其中,a是一個(gè)可以學(xué)習(xí)的值。

2.4 損失函數(shù)

傳統(tǒng)的條件對(duì)抗自動(dòng)編碼器的基本結(jié)構(gòu)包括編碼器、解碼器、鑒別器Dz、鑒別器Dimg,本文所提出的結(jié)構(gòu)在此基礎(chǔ)上增加了一個(gè)多尺度特征損失網(wǎng)絡(luò)。本文所提網(wǎng)絡(luò)結(jié)構(gòu)的損失函數(shù)在原來網(wǎng)絡(luò)的基礎(chǔ)上用多尺度特征損失網(wǎng)絡(luò)的損失函數(shù)代替了原來的L2損失函數(shù)。多尺度特征損失網(wǎng)絡(luò)能夠保證輸入人臉和合成人臉的人臉局部特征結(jié)構(gòu)的一致性,并且比基本的L2損失函數(shù)具有更好的效果,多尺度特征損失網(wǎng)絡(luò)得到的損失函數(shù)如式(3)所示。

鑒別器Dz對(duì)低維空間中的人臉特征z施加約束,均勻分布被施加在z上作為先驗(yàn)分布。用pdata(x)表示訓(xùn)練數(shù)據(jù)的分布,z的分布表示為q(z|x),假設(shè)p(z)是一個(gè)先驗(yàn)分布,z*~p(z)表示從p(z)隨機(jī)采樣。所以使鑒別器Dz認(rèn)為z來自先驗(yàn)分布增加的對(duì)抗性損失可以定義為:

鑒別器Dimg幫助合成的人臉更加逼真,同樣,帶有年齡標(biāo)簽l的解碼器施加一個(gè)對(duì)抗損失可以定義為:

其中:(x,l)表示年齡為l的人臉圖像x;G(E(x),l)表示經(jīng)過編碼器得到的向量和年齡標(biāo)簽向量l在拼接之后送到解碼器所得到的人臉圖像。

最終得到總的損失函數(shù)為:

其中:Lcb表示多尺度特征損失。

3 實(shí)驗(yàn)結(jié)果與分析

本節(jié)主要介紹本文方法的實(shí)現(xiàn)細(xì)節(jié)以及驗(yàn)證本文所提模型相較于傳統(tǒng)的條件對(duì)抗自動(dòng)編碼器(Conditional Adversarial AutoEncoder,CAAE)模型以及人臉轉(zhuǎn)換(Face Transformer,F(xiàn)T)模型[18]的效果。實(shí)驗(yàn)分別從定性和定量的角度驗(yàn)證本文所提模型的優(yōu)越性。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)使用UTKFace 人臉數(shù)據(jù)集,圖5 是部分?jǐn)?shù)據(jù)集中的人臉圖像。UTKFace 數(shù)據(jù)集的人臉圖像超20 000 張,均具有年齡和性別標(biāo)簽,年齡跨度為1~78 歲。本文剔除了UTKFace 數(shù)據(jù)集中的極度不清晰圖像,并通過上網(wǎng)搜集了部分清晰圖像作為補(bǔ)充。通過人臉的68 個(gè)特征點(diǎn)對(duì)收集到的人臉圖像進(jìn)行人臉檢測[19-20],使圖像滿足實(shí)驗(yàn)的要求。對(duì)于某些未知年齡的圖像,采用年齡分類器[21]進(jìn)行測量,給定每幅圖像相應(yīng)的年齡標(biāo)簽。此外,對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行年齡分類,使其擁有不同的年齡標(biāo)簽。由于人臉在低年齡段的變化較大,因此最終的分組規(guī)則是將人臉年齡分為10 類,分別是0~5 歲、6~10 歲、11~15 歲、16~20 歲、21~30 歲、31~40 歲、41~50 歲、51~60 歲、61~70 歲和70 歲以上。

圖5 UTKFace 數(shù)據(jù)集人臉圖像示例Fig.5 Face image example of UTKFace data set

3.2 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置

本文的實(shí)驗(yàn)環(huán)境:硬件平臺(tái)為PC:Intel Core i7-8700 CPU,型號(hào)為Nvidia GeForce GTX1070Ti 的顯卡,內(nèi)存為16 GB,使用的語言是python 語言。針對(duì)本文的數(shù)據(jù)集,損失函數(shù)的參數(shù)λ1取值為100。本文采用ADAM[22]學(xué)習(xí)策略來動(dòng)態(tài)調(diào)節(jié)學(xué)習(xí)率,其中α=0.000 2,β1=0.5。

3.3 定性分析

為更直觀地觀察本文方法生成的人臉圖像質(zhì)量,本文挑選出來自不同年齡段、不同性別的人臉測試圖像分別進(jìn)行跨年齡人臉合成。對(duì)每輸入一張測試人臉的圖像,都分別輸出0~5 歲、6~10 歲等10 個(gè)年齡段的合成人臉圖像。調(diào)用預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如圖6 所示。如圖6 所示,第1 行分別是輸入的特定年齡和性別的人臉圖像,第1、3、5、7、9 列的合成圖像是CAAE 方法生成的,而第2、4、6、8、10 列的合成圖像是基于本文方法生成的。對(duì)比可知,本文方法更好地保持了跨年齡人臉合成過程中人臉的局部特征結(jié)構(gòu),解決了合成過程中出現(xiàn)的人臉扭曲、眼睛等器官變形的問題。圖6 中方框標(biāo)注的幾幅對(duì)比圖在人臉局部特征結(jié)構(gòu)的保持效果上更加明顯,由這幾幅圖可知,尤其是眼部器官及周圍的區(qū)域,本文方法相較于CAAE 方法能更好地避免人臉器官變形情況的發(fā)生。

圖6 本文方法與CAAE 方法的結(jié)果對(duì)比Fig.6 Result comparison between the method in this paper and CAAE method

將本文方法與FT 方法進(jìn)行對(duì)比,結(jié)果如圖7所示。由圖7 可知,本文方法在跨年齡人臉合成過程中能夠較好地保持人臉的特征結(jié)構(gòu),避免了人臉器官的扭曲現(xiàn)象,尤其是圖中標(biāo)記方框的人臉圖像。如圖7(c)所示,F(xiàn)T 方法產(chǎn)生的人臉圖像眼睛部位產(chǎn)生了扭曲變形的情況,圖7(a)所示FT 方法產(chǎn)生的人臉圖像臉頰部位甚至出現(xiàn)了特征缺失的現(xiàn)象。

圖7 本文方法與FT 方法的結(jié)果對(duì)比Fig.7 Result comparison between the method in this paper and FT method

為證明本文所提區(qū)域關(guān)注模塊在跨年齡人臉合成中的有效性,選取5 組特定年齡和性別的人臉圖像作為輸入圖像,分別觀察人臉圖像的合成效果。調(diào)用預(yù)訓(xùn)練模型分別進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如圖8 所示。

圖8 區(qū)域關(guān)注模塊的消融實(shí)驗(yàn)結(jié)果Fig.8 Ablation experiment result of region attention module

在圖8 中,第1、3、5、7、9 列的合成圖像是網(wǎng)絡(luò)中沒有添加區(qū)域關(guān)注模塊所生成的,而第2、4、6、8、10列的合成圖像是網(wǎng)絡(luò)中添加了區(qū)域關(guān)注模塊所生成的。對(duì)比可知,基于區(qū)域關(guān)注的編碼器解碼器結(jié)構(gòu)所合成的人臉圖像更好地避免了人臉的扭曲現(xiàn)象和眼睛等器官的變形現(xiàn)象,圖8 中方框標(biāo)注的圖像更能體現(xiàn)這一點(diǎn),證明了區(qū)域關(guān)注模塊在跨年齡人臉合成任務(wù)中的有效性。

基于傳統(tǒng)的條件對(duì)抗自動(dòng)編碼器模型僅僅采用簡單的L2損失來約束合成的跨年齡人臉圖像,這往往并不能很好地保持合成人臉圖像的局部特征結(jié)構(gòu)。本文所設(shè)計(jì)的多尺度特征損失網(wǎng)絡(luò)從多個(gè)尺度約束輸入人臉圖像和輸出人臉圖像之間的局部特征結(jié)構(gòu),具有更好的人臉局部特征結(jié)構(gòu)保持效果。為證明本文所設(shè)計(jì)的多尺度特征損失網(wǎng)絡(luò)有效性,對(duì)添加多尺度特征損失網(wǎng)絡(luò)以及不添加多尺度特征損失網(wǎng)絡(luò)(僅僅使用簡單的L2損失函數(shù)約束)分別進(jìn)行實(shí)驗(yàn)。分別調(diào)用預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如圖9 所示。圖9 第1 行是輸入的特定性別和年齡的人臉圖像,第1、3、5、7、9列分別是未添加多尺度特征損失網(wǎng)絡(luò)所合成的人臉圖像,第2、4、6、8、10 列分別是添加了多尺度特征損失網(wǎng)絡(luò)所合成的人臉圖像。對(duì)比可知,添加了多尺度特征損失網(wǎng)絡(luò)所合成的人臉圖像更能夠保持人臉的局部特征結(jié)構(gòu)。由圖9 中標(biāo)方框的幾幅對(duì)比圖可知,本文所提出的多尺度損失網(wǎng)絡(luò)更好地保持了人臉圖像眼部的局部特征結(jié)構(gòu),驗(yàn)證了多尺度特征損失網(wǎng)絡(luò)的有效性。

圖9 多尺度特征損失網(wǎng)絡(luò)的消融實(shí)驗(yàn)結(jié)果Fig.9 Ablation experiment result of multi-scale feature loss network

3.4 定量分析

為了從定量指標(biāo)上進(jìn)一步驗(yàn)證本文方法相較于CAAE 方法、FT 方法的優(yōu)越性,分別采用志愿者評(píng)價(jià)、余弦相似度(Cosine Similarity,CS)、結(jié)構(gòu)相似度(Structural Similarity,SSIM)、年齡估計(jì)精度這4 個(gè)指標(biāo)進(jìn)行定量評(píng)估。

3.4.1 志愿者評(píng)價(jià)

為更好地評(píng)估本文方法所生成的跨年齡人臉圖像合成效果,邀請(qǐng)了100 名志愿者參與生成圖像質(zhì)量的相關(guān)評(píng)估。給定每個(gè)志愿者輸入的人臉圖像、用CAAE 方法生成的跨年齡人臉圖像、用FT 方法生成的跨年齡人臉圖像以及本文方法生成的跨年齡人臉圖像,讓志愿者根據(jù)給定的輸入圖像分別對(duì)2 種方法生成的每個(gè)年齡段圖像進(jìn)行人臉局部特征保持度評(píng)價(jià)指標(biāo)的打分,判別合成的人臉圖像產(chǎn)生的器官扭曲變形程度。將分值定在0~10 分之間,分?jǐn)?shù)越高代表人臉局部特征結(jié)構(gòu)保持得更好,能避免人臉器官扭曲變形等情況。對(duì)志愿者的打分求平均值,結(jié)果如表1 所示。由表1 可知,本文方法在志愿者評(píng)價(jià)指標(biāo)打分上要高于CAAE 方法以及FT 方法,驗(yàn)證了本文提出算法的有效性。

3.4.2 余弦相似度評(píng)價(jià)

余弦相似度是通過計(jì)算2 個(gè)向量A和B的夾角余弦值來評(píng)估它們的相似度,計(jì)算公式如式(9)所示:

其中:Ai和Bi表示向量A和B的各分量。零度角的余弦值是1,而其他任何角度的余弦值均不大于1,最小值是?1,兩幅圖像之間的余弦相似度指標(biāo)越接近于1,表示兩者之間的相似度越高。本文通過計(jì)算輸入的人臉圖像和生成圖像的余弦相似度指標(biāo),評(píng)估本文方法的生成圖像和輸入圖像人臉相似度。選取多張待測試的人臉圖像,分別計(jì)算輸入圖像和不同方法所合成的人臉圖像之間的余弦相似度,最后分別對(duì)余弦相似度求均值,結(jié)果如表2 所示。由表2可知,本文方法的余弦相似度指標(biāo)要高于CAAE 方法,驗(yàn)證了本文方法在跨年齡人臉合成過程中人臉局部特征結(jié)構(gòu)的保持效果更好,避免了人臉器官扭曲變形的問題。

表2 本文方法與CAAE 方法的余弦相似度對(duì)比Table 2 Comparison of cosine similarity between method in this paper and CAAE method

由于FT方法只有baby、child、teenage、adult、old 5個(gè)年齡段的人臉合成圖像,所以本文方法與FT 方法的余弦相似度對(duì)比只取這5 個(gè)年齡段的人臉圖像。對(duì)于選取的人臉圖像,分別計(jì)算輸入的人臉圖像和2 種方法生成的人臉圖像間的余弦相似度值,最后對(duì)50 個(gè)實(shí)驗(yàn)結(jié)果求平均值,實(shí)驗(yàn)結(jié)果如表3 所示。

表3 本文方法與FT 方法的余弦相似度對(duì)比Table 3 Comparison of cosine similarity between method in this paper and FT method

由表3 可知,本文方法相較于FT 方法的余弦相似度更高,能產(chǎn)生更好的人臉特征保持效果。

3.4.3 結(jié)構(gòu)相似度評(píng)價(jià)

為驗(yàn)證本文方法在人臉的局部特征結(jié)構(gòu)保持上的優(yōu)越性以及在避免人臉扭曲變形問題上的有效性,采取結(jié)構(gòu)相似度分別從結(jié)構(gòu)、亮度、對(duì)比度這3 個(gè)方面來度量圖像間的相似性。對(duì)于給定的2 個(gè)圖像x和y,2 個(gè)圖像間的SSIM 表達(dá)式如式(10)所示:

其中:μx是x的平均值;μy是y的平均值;σ2x表示x的方差;σ2y表示y的方差;σxy是x和y的協(xié)方差。C1=(k1L)2和C2=(k2L)2是用來維持穩(wěn)定的常數(shù);L是像素值的動(dòng)態(tài)范圍;k1=0.01;k2=0.03。SSIM 值越接近1,說明重建后的圖像與原圖結(jié)構(gòu)越相似,重建效果越好。

挑選多張人臉圖像,對(duì)合成的人臉圖像和輸入的人臉圖像進(jìn)行SSIM 指標(biāo)的測量,最后對(duì)所得到的50次結(jié)果求均值,SSIM 的值越大,表示2 幅圖像在局部特征結(jié)構(gòu)上的相似性越高。表4 所示為CAAE 方法和本文方法合成人臉圖像的SSIM 值對(duì)比結(jié)果。由表4 可知,本文方法相比于CAAE 方法具有更高的結(jié)構(gòu)相似度指標(biāo),驗(yàn)證了本文方法在人臉局部特征保持上的優(yōu)越性以及避免人臉扭曲變形等問題的有效性。

表4 本文方法與CAAE 方法的結(jié)構(gòu)相似度對(duì)比Table 4 Comparison of structural similarity between method in this paper and CAAE method

取多張人臉圖像,并分別測量輸入人臉圖像和不同方法合成的人臉圖像間的結(jié)構(gòu)相似度,最后對(duì)50 次測量結(jié)果取均值,實(shí)驗(yàn)結(jié)果如表5 所示。由表5 可知,與FT 方法相比,本文方法的結(jié)構(gòu)相似度更高,驗(yàn)證了其具有更好的人臉特征保持效果。

表5 本文方法與FT 方法的結(jié)構(gòu)相似度對(duì)比Table 5 Comparison of structural similarity between method in this paper and FT method

3.4.4 年齡估計(jì)精度評(píng)價(jià)

為驗(yàn)證本文方法在跨年齡生成效果上的優(yōu)勢,本文采用預(yù)訓(xùn)練的排序卷積神經(jīng)網(wǎng)絡(luò)對(duì)生成的圖像進(jìn)行年齡估計(jì)。以估計(jì)結(jié)果與目標(biāo)年齡標(biāo)簽之間的平均絕對(duì)值誤差(Mean Absolute Error,MAE)作為評(píng)價(jià)指標(biāo),MAE值越低,表示年齡跨越的準(zhǔn)確性越高。選取多張人臉圖像,分別對(duì)不同方法合成的人臉圖像進(jìn)行測試,并對(duì)50次測量結(jié)果取平均值。為了兼顧FT方法,分別測試了0~5歲、6~10歲、16~20歲、21~30歲、51~60歲共5個(gè)年齡分段,實(shí)驗(yàn)結(jié)果如表6所示。由表6可知,本文方法在年齡估計(jì)精度上優(yōu)于MAE和FT方法,驗(yàn)證了本文方法能夠生成與目標(biāo)年齡段年齡更接近的人臉圖像。

表6 不同方法的年齡估計(jì)精度對(duì)比Table 6 Comparison of age estimation accuracy of different methods

4 結(jié)束語

針對(duì)跨年齡人臉合成過程中出現(xiàn)的合成圖像局部特征結(jié)構(gòu)保持效果不佳、容易產(chǎn)生器官扭曲變形等問題,本文提出一種基于條件對(duì)抗自動(dòng)編碼器的跨年齡人臉合成方法。在傳統(tǒng)的條件對(duì)抗自動(dòng)編碼器模型的基礎(chǔ)上設(shè)計(jì)一種基于區(qū)域關(guān)注的編碼器解碼器結(jié)構(gòu),在解碼器結(jié)構(gòu)中引入通道關(guān)注和空間關(guān)注模塊,使模型在人臉合成過程中忽略背景信息,更加關(guān)注人臉變化區(qū)域,減少生成的人臉圖像器官扭曲變形等情況發(fā)生。此外,設(shè)計(jì)一種多尺度特征損失網(wǎng)絡(luò)對(duì)跨年齡人臉合成過程進(jìn)行約束,從多個(gè)尺度約束輸入人臉圖像和輸出人臉圖像之間的局部特征結(jié)構(gòu),使合成人臉局部特征結(jié)構(gòu)得到保持。實(shí)驗(yàn)結(jié)果表明,與CAAE 方法相比,本文方法不僅具有較好的人臉局部特征保持效果,而且更好地解決了合成過程中出現(xiàn)的器官扭曲變形等問題。

猜你喜歡
解碼器編碼器人臉
科學(xué)解碼器(一)
有特點(diǎn)的人臉
科學(xué)解碼器(二)
科學(xué)解碼器(三)
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
三國漫——人臉解鎖
基于FPGA的同步機(jī)軸角編碼器
基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
電子器件(2015年5期)2015-12-29 08:42:24
馬面部與人臉相似度驚人
碌曲县| 托里县| 灵璧县| 安吉县| 家居| 武冈市| 辽宁省| 中卫市| 全椒县| 陇川县| 西盟| 永安市| 安宁市| 西充县| 赤城县| 稷山县| 平陆县| 潞西市| 宜州市| 淄博市| 九台市| 乌苏市| 泸州市| 西峡县| 吕梁市| 昂仁县| 文登市| 鄂尔多斯市| 舒城县| 邯郸市| 社旗县| 奎屯市| 重庆市| 南和县| 东平县| 会同县| 手机| 化隆| 喀什市| 彭阳县| 阿勒泰市|