基于三者對抗生成網(wǎng)絡(luò)的人臉轉(zhuǎn)正方法

2022-04-29 20:25:58李壯

計算機應(yīng)用文摘 2022年9期

關(guān)鍵詞：分類器

摘要：針對大姿態(tài)人臉轉(zhuǎn)正的圖像生成效果較差問題，文章建立了一種基于生成器、判別器和分類器三者對抗的生成對抗網(wǎng)絡(luò)（GAN）人臉轉(zhuǎn)正方法。實驗中通過引入超參數(shù)6進行比例控制生成器和判別器的交替訓(xùn)練，避免模式崩潰并提高了訓(xùn)練效率。大姿態(tài)人臉轉(zhuǎn)正實驗表明，該方法在CFP數(shù)據(jù)集對側(cè)臉轉(zhuǎn)正效果的Rank識別準確率達到了68.7%，與 DR-GAN相比提高了4.4%，驗證了所提出的方法能夠有效生成正面人臉圖像且較好地保留人臉的身份特征。

關(guān)鍵詞：人臉轉(zhuǎn)正;生成對抗網(wǎng)絡(luò)﹔三者對抗;分類器;特征提取中圖法分類號：TP391文獻標識碼：A

Face correction method based on three-player adversarial generative network

Ll Zhuang

（College of Information Engineering，Shanghai Maritime University，Shanghai 201306，China）

Abstract： A generative adversarial network （GAN） face correction method based on a three-playeradversarial approach of generator，discriminator and classifier is established to address the problem ofpoor image generation for large pose face correction. The experiments are conducted by introducinghyper-parameters 6 for alternate training of the proportional control generator and discriminator toavoid pattern collapse and improve the training efficiency.For the face turning experiments with largepose，the method achieves 68.7% Rank recognition accuracy for the side-face turning effect in theCFP data-set，which is 4.4% better compared with DR-GAN. It is verified that the proposed methodcan effectively generate frontal face images and better preserve the identity features of faces.

Key words： face transformation，generative adversarial network ， triplet adversarial， classifier， featureextraction

1? 引言

人臉識別系統(tǒng)主要依賴正面人臉圖像判別人物身份，由于人臉本身具有非剛體性，在采集圖像時會受到一些外在因素（如光照、視角、表情等）制約，而容易引起系統(tǒng)誤判。比如，隨著人臉姿態(tài)的變化，面部特征會受到不同程度遮擋，視角差異導(dǎo)致人臉轉(zhuǎn)角越大越難以識別其身份。本文研究從大角度姿態(tài)的側(cè)臉圖像中恢復(fù)出正臉圖像，以便利用側(cè)面人臉圖像進行人物身份識別、人機交互等實際智能應(yīng)用。

傳統(tǒng)人臉轉(zhuǎn)正方法主要基于統(tǒng)計學(xué)和圖形學(xué)，一般通過2D/3D 局部紋理變形或者建模旋轉(zhuǎn)生成正面人臉，但生成圖像效果差且耗時長。深度學(xué)習(xí)方法能使網(wǎng)絡(luò)模型直接學(xué)習(xí)端到端的非線性映射，可以將側(cè)臉圖像轉(zhuǎn)換成正臉的姿態(tài)校正問題視為側(cè)臉到正臉的非線性映射。利用卷積神經(jīng)網(wǎng)絡(luò)、自編碼網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)等對側(cè)面人臉圖像的特征學(xué)習(xí)、提取更加細致，可使生成的正面圖像的真實性更高。Yin 等[ 1] 提出了一種針對大姿態(tài)人臉校正的 FF?GAN （ Face Frontalization Generative Adversarial Network）方法，將3D 形變模型結(jié)合到生成對抗網(wǎng)絡(luò)中以提供人臉形狀和外觀先驗知識。其對非受限數(shù)據(jù)集的人臉轉(zhuǎn)正適應(yīng)能力強，但人臉圖像生成效果需提高。Huang 等[2] 提出雙通道生成對抗網(wǎng)絡(luò) （ Two?Pathway GAN ，TP? GAN），利用兩個深度卷積網(wǎng)絡(luò)分別學(xué)習(xí)側(cè)臉圖像的全局結(jié)構(gòu)和局部紋理細節(jié)。通過融合兩條通路的全局信息與局部特征進行正臉視圖的合成，能夠更好地保留輪廓細節(jié)信息。雖然能獲得很真實的人臉轉(zhuǎn)正效果，但其需要在人臉照片中定位人臉五官位置。在訓(xùn)練和測試過程中，需要人工標注勞動力和大的計算機算力，人臉轉(zhuǎn)正時間較長。

為進一步提高側(cè)臉轉(zhuǎn)正生成圖像的質(zhì)量，本文建立了一種三者對抗生成網(wǎng)絡(luò)的人臉轉(zhuǎn)正方法。針對傳統(tǒng) GAN ，在生成器和判別器中引入自編碼結(jié)構(gòu)，并結(jié)合分類器形成三者對抗，進行人臉轉(zhuǎn)正。

2? 三者對抗的生成網(wǎng)絡(luò)模型

傳統(tǒng)生成對抗網(wǎng)絡(luò)中生成器通常是簡單卷積神經(jīng)網(wǎng)絡(luò)，而判別器為二分類器，對于側(cè)臉圖像的特征提取和判別能力低，影響圖像生成效果。本文在使用生成對抗網(wǎng)絡(luò)模型的基礎(chǔ)上結(jié)合自編碼技術(shù)構(gòu)建生成器與判別器，對于側(cè)臉信息的特征提取和正面人臉圖像的生成有著高效率和高質(zhì)量的作用。通過引入分類器，參與生成器與判別器的對抗訓(xùn)練，形成三者對抗，以提高特征信息保留能力。

該模型結(jié)構(gòu)如圖1 所示。整個網(wǎng)絡(luò)由三部分組成，分別是生成器 G、判別器 D 和分類器 C 。其中，生成器包含編碼器和解碼器。c 和 z 分別表示姿態(tài)信息和隨機噪聲，Ip 表示人臉生成圖像，Ir表示真實人臉輸入圖像。判別器 D 和分類器 C 的輸入皆為 Ip 和Ir，判別器 D 要使 Ip 和Ir盡可能接近，以提高生成圖像的質(zhì)量。分類器 C 為提前訓(xùn)練好的 Light ?CNN，協(xié)助判別器 D 與生成器對抗，以達到有效保留人臉身份特征的目的。首先針對每張人臉圖像標記身份信息 yd 和姿態(tài)信息yp，即輸入帶標簽的人臉圖像樣本Ir { yd ，yp };在包含編解碼結(jié)構(gòu)的生成器 G 中，編碼器將側(cè)臉圖像經(jīng)過卷積層后提取到人臉的綜合特征信息，當解碼器接收到特征信息和姿態(tài)信息后，結(jié)合隨機噪聲進行人臉的正面圖像還原;然后將生成圖像 Ip 和真實圖像Ir分別輸入到判別器 D 和分類器 C 中，依靠反饋并與生成器協(xié)同對抗訓(xùn)練;最后生成圖像逐步修正為輸出目標姿態(tài)圖像。

2.1? 生成器結(jié)構(gòu)

生成器 G 內(nèi)部結(jié)構(gòu)如圖2 所示，包括編碼器和解碼器兩部分。其中，編碼器由 Conv 1、Conv2、Conv3、 Conv4和 Conv5組成，采用小卷積核和深層次的網(wǎng)絡(luò)結(jié)構(gòu)，以減少網(wǎng)絡(luò)參數(shù)，并增加網(wǎng)絡(luò)非線性，更適用于側(cè)面人臉的特征提取。輸入為真實人臉圖像Ir，在 Conv 1 中用卷積核為 3× 3，步長為1 的 Conv 11 和 Conv 12來調(diào)節(jié)通道數(shù)，以線性組合不同通道上的像素點，再進行非線性化處理。在每個卷積層后分別應(yīng)用 BN（batch normalization ）層進行批量歸一化來防止過擬合，再經(jīng)由激活函數(shù)指數(shù)線性單元（ exponential linear unit，ELU）形成特征圖;然后依次通過卷積核為3×3，步長為2 的 Conv21、Conv22和 Conv23進行淺層特征提取;再經(jīng)由 Conv3、Conv4和 Conv5（與 Conv2結(jié)構(gòu)相同）進一步深層次提取特征。最后通過卷積核為6×6，步長為1 的平均池化層輸出1×1×320維更具有高層語義的特征向量f（ x ）。

解碼器的主要任務(wù)是生成人臉圖像，采用數(shù)據(jù)還原原理，內(nèi)部結(jié)構(gòu)為反卷積網(wǎng)絡(luò)。將編碼器學(xué)習(xí)的身份表示特征向量f（ x ），和姿態(tài)信息 c 和隨機噪聲 z 融合合成人臉圖像。解碼器包括5 個，分別為 FConv5、 FConv4、FConv3、FConv2和FConv 1。首先經(jīng)過由卷積核為3×3，步長為1 的 FConv52和 FConv51以及每個反卷積層后分別應(yīng)用 BN 層和 ELU 激活函數(shù)組成的 FConv5;再經(jīng)過4 組相同結(jié)構(gòu)反卷積網(wǎng)絡(luò) FConv4、 FConv3、FConv2和FConv 1的反卷積操作后，輸出生成的正面人臉圖像，即 Ip =G（Ir，c ，z ）。與前幾層不同的是，F(xiàn)Conv 11后采用 Tanh 激活函數(shù)，最終生成正面人臉圖像。生成器的主要目標是增強生成人臉圖像的真實性以混淆判別器。生成器損失函數(shù)參見式（1）：

式中，Ddyd （G（Ir，c ，z ））表示生成器努力將生成圖像分類到對應(yīng)的真實樣本所屬的類上，Dy（p）t （ G（ Ir，c ，z ））則表示生成器將生成樣本分類到正確的姿態(tài)上。與判別器的目標不同，生成器在訓(xùn)練中須形成對抗。

2.2? 判別器結(jié)構(gòu)

模型判別器是一個多任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)，分類為身份和姿勢。輸入圖像為生成圖像或真實圖像，其內(nèi)部采用與生成編碼器類似的網(wǎng)絡(luò)結(jié)構(gòu)，包含 Conv1、 Conv2、Conv3、Conv4和 Conv5五個卷積層和一個池化層。其中，Conv1由卷積核為3×3，步長為1 的 Conv11 和 Conv12組成，Conv2、Conv3、Conv4和 Conv5結(jié)構(gòu)相同。每層卷積引入 BN 層和 ELU 激活函數(shù)。經(jīng)平均池化層進入全連接層再用Softmax對輸入的人臉圖像進行身份和姿勢分類。

當給定一個面部圖像樣本Ir的標簽為是人臉圖像的身份類別，yp是人臉呈現(xiàn)的角度類別。此時，判別器輸出記為[ Dd ，Dp ]，其中 Dd ∈RNd+1 ，Dp∈RNp。判別器中 Nd+1為身份總數(shù)用來做身份分類，Np 為離散姿態(tài)總數(shù)用作姿勢的分類。給定一個真實的人臉圖像Ir，判別器目標是估計其身份和姿態(tài);當給定來自生成器 Ip =G（Ir，c ，z ）合成人臉圖像時，判別器試圖將 Ip 歸類為假時，使用公式（2）作為目標函數(shù)，通過在生成器 G 與判別器 D 的訓(xùn)練中，最大化 D 區(qū)分生成圖像和真實圖像能力。判別器區(qū)分真實圖像Ir和生成圖像 Ip 的角度和身份（生成圖像的身份被劃分為第 N+1類）。

式中，第一項是對真實樣本Ir進行身份分類和姿勢分類的交叉熵的相反數(shù)。第二項為將生成圖像分類到假樣本交叉熵的相反數(shù)。兩項之和并最大化它們的和，即最小化分類交叉熵。

2.3? 分類器及損失函數(shù)

為了保持人臉身份的一致性，很多研究采用在生成器中引入損失函數(shù)來實現(xiàn)。本文模型將分類器單獨作為一個結(jié)構(gòu)與生成器進行對抗，與判別器形成三者對抗。分類器 C 采用提前訓(xùn)練好的Light?CNN模型。與判別器功能類似，首先輸入圖像為真實圖像Ir和生成圖像 Ip 經(jīng)一個卷積核為5×5 ，步長為1 的 Conv1處理后，通過最大特征圖（ Max Feature Map ，MFM）稀疏處理，實現(xiàn)通道數(shù)減半;然后通過一個由 Conv21、 Conv22以及最大池化操作組成的 Conv2層處理，再經(jīng)由與 Conv2相同的 Conv3、Conv4和 Conv5處理;最后由全連接層和 MFM 操作后完成特征提取。

分類器和判別器的任務(wù)類似，即盡可能地區(qū)分生成圖像和真實圖像。經(jīng)分類器分別提取的特征記為fidp和fird。分類器的結(jié)果標簽定義為1 ～2N，其中真實人臉圖像對應(yīng)為前 N 個標簽，生成圖像對應(yīng)后 N 個標簽。交叉熵損失函數(shù)分別對應(yīng)為：

式中，Ir和 Ip 分別表示真實圖像和生成圖像，lird和lipd表示真實圖像標簽和生成圖像標簽，lird，i表示第i個對應(yīng)的真實正確標簽，i∈{ 1，2...2N }。Ci （ Ir ）和 Ci （Ip ）分別表示第i個真實的輸出標簽和生成的輸出標簽。

分類器損失為兩部分加權(quán)和，權(quán)重為α，同時是身份信息特征的保留損失，分類器的損失參見公式（5）：

2.4? 比例控制的訓(xùn)練超參數(shù)6

生成對抗網(wǎng)絡(luò)通常有訓(xùn)練過程復(fù)雜、訓(xùn)練初期判別器呈明顯優(yōu)勢易導(dǎo)致生成器與判別器不平衡、模式崩潰等[3]。為保持生成器和判別器訓(xùn)練的平衡，引入比例控制[4]即：

式中，E[L（G（ z ））]和 E[L（ x ）]分別為生成數(shù)據(jù)和真實數(shù)據(jù)逐像素誤差的期望值。當生成器與判別器兩者達到平衡時，判別器無法判別出真實樣本和生成樣本，此時兩者期望值應(yīng)盡可能相等。本文訓(xùn)練中為了使生成器和判別器形成更具包容性收斂條件，設(shè)置超參數(shù)δ且δ∈[0，1]，對生成器及判別器進行自定義的平衡訓(xùn)練，通過δ來調(diào)節(jié)生成效果，以提高網(wǎng)絡(luò)收斂的速度、訓(xùn)練效率和性能。經(jīng)過多次實驗本文對超參數(shù)δ設(shè)置為0.8。

3? 實驗結(jié)果與分析

3.1? 實驗環(huán)境與數(shù)據(jù)

本文實驗環(huán)境為 Windows 10操作系統(tǒng)，計算機配置為 NVIDIA GeForce RTX 2070顯卡。訓(xùn)練和測試采用Pytorch深度學(xué)習(xí)框架。

實驗采用專門用于大姿態(tài)人臉驗證的 CFP 數(shù)據(jù)集，涵蓋了姿態(tài)、表情、裝飾物和光照等變化。由500個人組成，每人有10張不同的正臉圖像和4 張有差異的側(cè)臉圖像[5]。實驗中訓(xùn)練數(shù)據(jù)包含側(cè)臉和正臉，將全部數(shù)據(jù)集輸入模型中，用于訓(xùn)練和生成正面人臉圖像。

3.2? 模型訓(xùn)練設(shè)置

為實現(xiàn)對偏轉(zhuǎn)人臉進行轉(zhuǎn)正且保留對應(yīng)人臉的身份特征，本文生成器和判別器模型采用交替訓(xùn)練方式，分類器采用預(yù)訓(xùn)練Light?CNN設(shè)置，用 Adam 算法優(yōu)化。模型中的基本參數(shù)設(shè)置如下：選擇β1 為 0.5， β2 為0.999的 Adam 優(yōu)化器，學(xué)習(xí)率為2×10-5，圖像分辨率為96×96時設(shè)置 batch size 為16。生成器輸入的隨機噪聲Nz為50維，取自（-1，1）的標準正態(tài)分布。數(shù)據(jù)集的姿勢標簽分正臉和大角度側(cè)臉，即設(shè)置姿態(tài)類型總數(shù) Np 為2 。數(shù)據(jù)集中共有500個人物身份樣本，即 Nd =500。比例控制中的超參數(shù)δ設(shè)置為0.8，訓(xùn)練的迭代次數(shù)設(shè)置為2000個 epoch。

3.3? 實驗結(jié)果及分析

當判別器正解率大于指定以上即0.9時，則認為判別器足夠強且訓(xùn)練有序。隨著迭代次數(shù)增加判別器判別生成圖像逐漸趨近于1 ，表明生成器和判別器有效的互相對抗訓(xùn)練。相反，訓(xùn)練時未進行比例控制則呈現(xiàn)因判別器過強，導(dǎo)致生成器崩塌且判別器一直判別生成圖像為假。實驗表明，控制生成器和判別器的訓(xùn)練比例可以使模型平穩(wěn)運行并靈活調(diào)度訓(xùn)練，從而提高訓(xùn)練效率。

人臉轉(zhuǎn)正可以作為人臉識別模型的一種預(yù)處理操作，因此可以使用人臉識別準確率作為評價指標來評估不同人臉轉(zhuǎn)正方法的身份特征保留能力。識別準確率越高，人臉圖像合成過程保留的人臉特征越多，轉(zhuǎn)正效果越好。本文模型加入分類器形成三者對抗，有助于訓(xùn)練時身份特征信息的保留。隨著迭代次數(shù)增加，與生成器對抗訓(xùn)練過程中，分類器對全局的身份特征信息保留起積極作用。通過反饋不斷修正生成圖像，提高生成圖像質(zhì)量。分類器中身份信息保留損失的收斂如圖3 所示。

為驗證模型有效性，實驗對比了現(xiàn)有的大姿態(tài)人臉轉(zhuǎn)正模型以及本模型的消融實驗驗證模型的優(yōu)勢和各個組成部分的貢獻。采用人臉識別模型Light?CNN作為分類器，并使用距離度量計算生成圖像和真實圖像之間的相似度。用分類器Light?CNN提取特征進而計算 Rank 識別率 R 作為衡量人臉轉(zhuǎn)正效果的指標。識別實驗采用同一數(shù)據(jù)集 CFP ，其中大多數(shù)側(cè)臉為大姿態(tài)，一般角度為± 75°～ ±90°。結(jié)果表明在這些極端角度上，本文方法獲得了更高的識別準確率，驗證了本文方法在人臉轉(zhuǎn)正任務(wù)上的有效性。

訓(xùn)練中，如果未對模型比例進行控制，生成器和判別器因訓(xùn)練不均衡易導(dǎo)致模型坍塌，加入超參數(shù)δ 可有效解決。在不加入分類器的情況下，本文模型生成器和判別器采用自編碼結(jié)構(gòu)達到了62.3%的準確率;FF?GAN 將人臉姿態(tài)范圍擴大到90°，由于其僅僅依賴人臉形狀和外觀先驗知識，因此側(cè)臉識別率僅為54.7%。TP?GAN 雖然在多姿態(tài)人臉轉(zhuǎn)正上取得了很好的效果，但對于大姿態(tài)人臉轉(zhuǎn)正的識別準確率仍顯不足。而本文方法采用了三者對抗的思想，較 DR? GAN[6～ 8]識別率提升了4.4個百分點。

通過定量對比實驗，驗證了本文方法對人臉轉(zhuǎn)正和身份識別的有效性。本文模型在 CFP 數(shù)據(jù)集上，在輸入同一身份的不同側(cè)臉的同時，該模型可較好地保留身份特征，生成正面人臉圖像。

4? 結(jié)語

本文建立了一種基于三者對抗生成網(wǎng)絡(luò)的人臉轉(zhuǎn)正方法。利用生成器的自編碼結(jié)構(gòu)完成特征提取和人臉圖像生成;接著在判別器和分類器的對抗訓(xùn)練下逐步提高圖像生成效果，并通過比例控制設(shè)置超參數(shù)δ 交替訓(xùn)練生成器和判別器，使網(wǎng)絡(luò)模型更加平穩(wěn);采用單獨的 Light? CNN 分類器進行三者對抗，以便進一步保留人物的身份特征并提高人臉圖像生成質(zhì)量，加速網(wǎng)絡(luò)收斂。在 CFP 數(shù)據(jù)集的實驗中表明，本文方法可以更好地解決大角度的側(cè)臉轉(zhuǎn)正識別問題，準確率達到了68.7%，并提高了正面人臉生成質(zhì)量。本文的論述和實驗驗證了模型方法的有效性。

參考文獻：

[1] Yin? X ，Yu? x ，Sohn? K ，et? al.Towards? Large?Pose? FaceFrontalization? in? the? Wild [ C ] ∥ The? IEEE? International Conference on Computer Vision （ ICCV），USA：IEEE ，2017：3990?3999.

[2] Huang? R ，Zhang? S ，Li? T ，et? al.Beyond? Face? Rotation：Global? and? Local? Perception? GAN? for? Photorealistic? and Identity Preserving Frontal ViewSynthesis [ C]∥ The IEEE International Conference on Computer Vision （ICCV），Italy： IEEE ，2017：2439?2448.

[3] 曹志義，牛少彰，張繼威.基于半監(jiān)督學(xué)習(xí)生成對抗網(wǎng)絡(luò)的人臉還原算法研究[ J].電子與信息學(xué)報，2018，40（2）：323?330.

[4] Cao K，Rong Y，Li C ，et al.Pose?Robust Face Recognition via Deep? Residual? Equivariant? Mapping [ C ]∥ The? IEEE Conference? on? Computer? Vision? and? Pattern? Recognition （CVPR），USA：IEEE ，2018：5187?5196.

[5]? Chi? Nhan? Duong ，Khoa? Luu，Kha? Gia? Quach ，et? al.DeeAppearance? Models： A? Deep? Boltzmann? Machine Approach? for? Face? Modeling [ J ] International? Journal? of Computer Vision，2018，18（1）：1?19.

[6] Luan T，Xi Y，Liu X .Disentangled Representation Learning GAN for Pose?Invariant Face Recognition[ C]∥2017 IEEE Conference? on? Computer? Vision? and? Pattern? Recognition （CVPR）.IEEE ，2017.

[7] Goodfellow I ，Pouget?Abadie J ，Mirza M ，et al.Generativeadversarial? nets [ C ] ∥ Proc.Adv.Neural? Inf.Process. Syst.2014：2672?2680.

[8] Alex Krizhevsky，Ilya Sutskever，Geoffrey E.Hinton.ImageNet Classification with Deep Convolutional Neural Networks[C]∥ Neural??? Information??? Processing??? Systems??? Conference （NIPS）.IEEE ，2012：432?439.

作者簡介：

李壯（1997—），碩士，研究方向：圖像處理、模式識別。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于三者對抗生成網(wǎng)絡(luò)的人臉轉(zhuǎn)正方法