吳曉燕 錢真坤
(四川文理學院智能制造學院 四川 達州 635000)
圖像風格遷移是指在保留原始圖像內(nèi)容的同時,改變其風格的過程。目前,存在很多將任意的藝術(shù)風格轉(zhuǎn)換為內(nèi)容圖像的風格轉(zhuǎn)換方法[1-2]。但是,將風格化的圖像轉(zhuǎn)換為真實感圖像,特別是從風格化人像中恢復真實感人臉照片的方法還不是很多。從風格化人像中恢復出潛在的真實人臉,有助于人臉分析和識別。由于風格化的效果會導致面部輪廓、邊緣和紋理信息的部分丟失,以及出現(xiàn)面部扭曲和錯位的現(xiàn)象,使得現(xiàn)有的面部標志探測器通常無法正確定位面部標志。因此,從藝術(shù)肖像中恢復高質(zhì)量的真實感圖像是一項具有挑戰(zhàn)性的難題[3]。
近年來,從草圖照片中恢復真實感圖像的難題受到了一些研究人員的關(guān)注。文獻[3]利用對抗網(wǎng)絡實現(xiàn)了從草圖圖像到真實感照片之間的轉(zhuǎn)換問題,可以在不手工設(shè)計損失函數(shù)的情況下獲得較為真實的結(jié)果。文獻[4]提出一種基于深度條件生成對抗網(wǎng)絡(Deep Conditional Generative Adversarial Network,DCGAN)的方法,通過引入約束條件來確定生成圖像的特定表示,實現(xiàn)了從帶有屬性標簽的草圖生成真實人臉圖像的目的。文獻[5]提出了一種基于多對抗網(wǎng)絡的草圖-照片合成綜合框架,采用對抗的方式通過多次迭代生成低分辨率到高分辨率的圖像。文獻[6]根據(jù)面部標志保留的信息,提出了一種基于性別保護生成性對抗網(wǎng)絡(Gender Preserving Generative Adversarial Network,GPGAN)的面部合成方法,該方法利用風格化肖像保留下的面部標志和性別特征信息進行對抗性損失,感知損失和性別保持損失引導,從而恢復真實感圖像。
文獻[7]提出了一種新的面部去極化神經(jīng)網(wǎng)絡(Face Destylization Neural Network,F(xiàn)DNN)來從風格化的面部恢復潛在的真實面部照片。這些方法雖然在一定程度上實現(xiàn)了恢復圖像真實感的目的,但是沒有利用有效的語義信息。因此,盡管采用了大規(guī)模數(shù)據(jù)集對網(wǎng)絡進行訓練,但是未能在風格化人臉(Stylized Portraits Face,SPF)和真實人臉(Realistic Face,RF)之間提供一致的映射,造成恢復的圖像出現(xiàn)視覺模糊和面部屬性不匹配的現(xiàn)象。
本文針對現(xiàn)有方法在人臉復原過程中出現(xiàn)失真和重要細節(jié)丟失的問題,提出了一種基于深度卷積生成式對抗網(wǎng)絡的人臉恢復方法,該方法由基于卷積生成網(wǎng)絡的人臉恢復網(wǎng)絡(Face Recovery Network,F(xiàn)RN)和識別網(wǎng)絡(Discriminative Network,DN)兩部分組成。在風格化肖像輸入后,F(xiàn)RN使用一個帶有嵌入式殘差塊跳躍連接的自動編碼器,結(jié)合從人像圖中獲得的視覺特征及面部屬性提供的語義信息來生成逼真的面部圖像;利用DN判別恢復的人臉圖像與真實人臉圖像之間的相似度,以及恢復圖像的人臉屬性與輸入圖像屬性的一致性。
生成式對抗網(wǎng)絡(Generative Adversarial Network,GAN)是由Goodfellow等[8]基于博弈論中的二人零和博弈思想提出的,具有強大的圖片生成能力,在超分辨率、圖像修復和合成等方面應用廣泛。
生成對抗網(wǎng)絡是一種通過對抗過程估計生成模型的網(wǎng)絡框架,該網(wǎng)絡的基本框架由一個生成網(wǎng)絡G和一個判別網(wǎng)絡D構(gòu)成,GAN的流程如圖1所示。
圖1 生成式對抗網(wǎng)絡的流程示意圖
生成網(wǎng)絡G利用真實數(shù)據(jù)樣本x訓練生成新的數(shù)據(jù)樣本G(z),判別網(wǎng)絡D是一個二分類器,判斷樣本是來自原始數(shù)據(jù)x還是由生成網(wǎng)絡產(chǎn)生G(z)。整個GAN過程網(wǎng)絡G與D同時運行,判別網(wǎng)絡的目的是盡量使D(G(z))接近0,而生成網(wǎng)絡的目的是盡量使它接近1,最終二者在博弈中達到平衡。目標函數(shù)表示為:
Ez,P(z)[log(1-D(G(z)))]
(1)
式中:z是潛在表征;x是真實樣本圖像;P表示概率分布;E表示期望。
深度卷積生成式對抗網(wǎng)絡[9]是一種將生成式對抗網(wǎng)絡GAN與卷積神經(jīng)網(wǎng)絡CNN結(jié)合起來的學習模式,其基本原理與GAN相似,只是將經(jīng)典GAN中的G和D換成兩個改進的卷積神經(jīng)網(wǎng)絡,基本框架如圖2所示。
圖2 深度卷積生成式對抗網(wǎng)絡的流程示意圖
深度卷積生成式對抗網(wǎng)絡的目標函數(shù)可以表示為:
Ez,P(z)[log(1-D(G(z),y))]
(2)
式中:x是真實樣本圖像,y是輸入樣本圖像,G(z)是生成圖像。
GAN是一種無監(jiān)督學習方法,通過對無標注數(shù)據(jù)集的學習獲得概率分布規(guī)律,但是這個過程十分緩慢,容易出現(xiàn)偏差。而深度卷積生成對抗網(wǎng)絡利用CNN的監(jiān)督學習可以為圖像訓練得到很好的特征表示,而且架構(gòu)十分穩(wěn)定可靠。
本文提出的網(wǎng)絡架構(gòu)由兩部分組成:人臉恢復網(wǎng)絡FRN和識別網(wǎng)絡DN。FRN包含一個嵌入式殘差塊跳躍連接的自動編碼器。FRN從輸入圖像中提取殘差特征映射,然后將相應的20維屬性向量與提取的殘差特征向量在自動編碼器瓶頸層處連接起來進行采樣。通過這種方式將視覺和語義信息融合一起,以獲得高質(zhì)量的視覺性能。DN的作用是引導面部恢復圖像和輸入屬性與真實圖像相似。網(wǎng)絡整個架構(gòu)如圖3所示。
圖3 人臉恢復網(wǎng)絡FRN和識別網(wǎng)絡DN示意圖
2.1.1 FRN
FRN模塊采用深度全卷積自動編碼器,將人臉從風格化圖像中恢復出來。編碼器的卷積層捕獲輸入肖像的特征圖,解碼器的卷積層利用這些特征圖采取上采樣來恢復面部細節(jié)。本文提出的FRN通過將低級視覺信息和高級語義信息(即面部屬性)結(jié)合起來用于面部恢復,可以減少SPF和RF圖像之間映射的模糊性。采用跳躍連接的方式對稱地連接頂部卷積層和反卷積層,從而獲得更高分辨率的肖像視覺細節(jié)和更好的恢復質(zhì)量。每個跳過連接包括三個剩余塊,在輔助FRN網(wǎng)絡刪除輸入肖像的樣式的同時,提高準確性。除此之外,針對輸入圖像存在平面內(nèi)旋轉(zhuǎn)、平移等肖像不對齊問題,F(xiàn)RN使用多個空間變換網(wǎng)絡(Spatial Transformer Network,STN)來補償輸入肖像的錯位。
本文使用像素l2范數(shù)損失函數(shù)Lpix和特征保留損失函數(shù)Lid來評價面部恢復圖像與真實人臉圖像之間的外觀相似性。損失函數(shù)Lpix可以加強恢復圖像與真實圖像之間基于強度的相似性。對于特性保留損失函數(shù)Lid,使用Facenet[10]從圖像中提取特征,然后通過比較兩幅圖像特征之間的歐幾里得距離來約束恢復圖像和真實圖像之間的特征相似性。
2.1.2 DN
為了保證FRN對人臉屬性信息進行編碼,本文采用條件識別網(wǎng)絡DN進行約束。識別網(wǎng)絡可以區(qū)分FRN恢復的人臉圖像屬性與所需屬性是否匹配以及檢測恢復圖像與真實圖像之間的相似度。
DN由卷積層和全連接層組成。首先,真實圖像和恢復圖像被輸入該網(wǎng)絡,屬性信息作為約束條件輸入到網(wǎng)絡的中間層。由于CNN的第一層過濾器提取的是低級特征,更高層過濾器提取的是具有語義信息的圖像模式,因此通過將特征圖與DN中第四個卷積層的屬性向量相連接,可以得到更好的經(jīng)驗結(jié)果。當提取的特征與輸入屬性不匹配時,識別網(wǎng)絡會在反向傳播過程中將錯誤傳遞給FRN網(wǎng)絡。因此,通過多次的迭代反饋,可以保證最終結(jié)果與真實人臉的面部表情、年齡和性別相匹配。
為了對提出的網(wǎng)絡進行端到端的訓練,構(gòu)造了SPF、RF和屬性向量三元組(Ip,Ir,a)作為訓練數(shù)據(jù)集,其中:Ir是對齊的真實圖像、Ip是合成的未對齊圖像。對于每個RF,合成三種不同的藝術(shù)風格的未對齊SPF圖像,以獲得SPF/RF訓練對。在訓練過程中,將SPF圖像Ip及對應的真實面部屬性向量a作為輸入值,以RF的真實圖像Ir作為目標量。
(3)
式中:GΘ(Ip,a)和Θ分別表示FRN的輸出值和參數(shù)量。將p(Ip,Ir,a)表示為訓練數(shù)據(jù)集內(nèi)SPF、RF及其相應屬性的聯(lián)合分布。
(4)
式中:Ψ(·)表示從FaceNet的ReLU3-2層提取的特征圖。
識別網(wǎng)絡DN設(shè)計的目標是檢測恢復圖像與真實圖像之間的相似度以及恢復圖像具備的面部屬性。
Ldis(Θ)=-E(Ir,a),P(Ir,a)[logDΦ(Ir,a)]-
(5)
因此,F(xiàn)NR的總損失函數(shù)LFNR是三個損失函數(shù)的加權(quán)和,通過最小化總損失函數(shù)可以得到參數(shù)Θ:
LFNR(Θ)=Lpix(Θ)+λLdis(Θ)+ηLid(Θ)
(6)
式中:λ決定外觀和屬性相似性之間的權(quán)衡,η決定圖像強度和特征相似性之間的權(quán)衡。
由于GΘ(·)和DΦ(·)是可微的,所以對Θ和Φ應用反向傳播技術(shù),并利用隨機梯度下降(Stochastic Gradient Descent,SGD)和均方根傳播(Root Mean Square Propagation,RMSprop)進行優(yōu)化。
為了驗證本文方法的有效性,從定性和定量兩個方面與其他先進的方法進行對比。利用給定的訓練數(shù)據(jù)集對這些方法進行重新訓練,以完成從風格化人像中恢復真實感面部的任務。
在編碼器中,采用內(nèi)核尺寸為4×4、步長為2的卷積層。在解碼器中,采用內(nèi)核尺寸4×4、步長為2的反卷積層。在訓練時,小批量尺寸設(shè)置為64,學習率為10-3、衰減率為10-2。在所有實驗中,λ和η分別設(shè)置為10-2和10-3,而且為了強調(diào)外觀相似性的重要性,λ值通過乘積因子κ=0.995逐漸降低。由于提出的網(wǎng)絡在測試時是前饋的,因此尺寸128×128的圖像風格化消除時間需要8 ms。
CelebA數(shù)據(jù)集[11]是香港中文大學的開放數(shù)據(jù),包含10 177個名人身份的202 599幅人臉圖像,每幅圖像具有40個屬性標簽。本文從數(shù)據(jù)集中隨機選擇110 000幅圖像進行訓練,2 000幅圖像進行測試,主要關(guān)注禿頭、劉海、大鼻子、黑發(fā)、金發(fā)、棕色頭發(fā)、眼鏡、白發(fā)、濃妝、男性、嘴巴張開、胡須、窄眼、無胡須、蒼白皮膚、微笑、直發(fā)、波浪狀頭發(fā)、口紅和年輕等20個屬性。為了保證數(shù)據(jù)的數(shù)量和多樣性,避免網(wǎng)絡模型低泛化能力的出現(xiàn),需要對數(shù)據(jù)進行預處理。
首先,裁剪出每幅圖像的中心部分,將其調(diào)整為像素大小128×128的真實人臉圖像Ir。然后,通過旋轉(zhuǎn)和平移增加RF圖像的數(shù)據(jù)量。對于訓練集中SPF圖像,不可能采取大量風格來合成。因此,本文提出一個風格距離度量:從預先訓練的VGG網(wǎng)絡的特征圖中計算出不同風格的革蘭氏矩陣,通過歐式距離的對數(shù)來評定不同風格圖像的革蘭氏矩陣與訓練RF圖像的平均革蘭氏矩陣之間的相似性。從中選擇糖果、星光和馬賽克風格三種最難恢復的風格來合成訓練圖像。最終,獲得330 000對SPF/RF圖像訓練集。本文使用2 000幅未對齊的RF圖像以10種不同風格合成20 000幅SP圖像作為測試數(shù)據(jù)集。訓練數(shù)據(jù)集和測試數(shù)據(jù)集是不相交的。
圖4給出了本文方法利用不同損失函數(shù)的人臉恢復可視化結(jié)果,其中:(a)是真實圖像,(b)是糖果風格化圖像,(c)-(f)分別是利用像素損失函數(shù)Lpix與特征保留損失函數(shù)Lid組合、像素損失函數(shù)Lpix與對抗性判別損失函數(shù)Ldis組合、總損失函數(shù)LFNR以及由面部屬性引導的總損失函數(shù)LFNR的人臉恢復可視化結(jié)果??梢钥闯?,每個損失函數(shù)在人臉恢復過程中都產(chǎn)生一定的貢獻,但是只有在面部屬性引導的總損失函數(shù)LFNR的約束下,提出的網(wǎng)絡模型才能生成具有清晰真實感且屬性匹配的人臉圖像。
(a) RF (b) SPF (c) Lpix+Lid
(d) Lpix+Ldis (e) LFRN (f) LFRN+面部屬性圖4 本文方法中不同損失函數(shù)的貢獻
圖5給出了不同算法的人臉恢復可視化結(jié)果,其中第一行是真實圖像,第二行從左到右的風格分別是草圖、星光、糖果和馬賽克。Shiri等[7]提出了一個表面解析法可以一定程度上增強面部細節(jié),但是由于存在著各種不同的風格,其不能產(chǎn)生真實的面部細節(jié),如圖5第三行所示,該方法恢復的圖像臉部顏色與真實圖像不一致,細節(jié)比較模糊。CycleGAN[12]是一種使用不成對數(shù)據(jù)集的圖像到圖像轉(zhuǎn)換方法,因此風格化圖像和真實圖像的低級特征不匹配,無法捕獲人臉的全局結(jié)構(gòu),恢復的結(jié)果存在失真的問題,如圖5第四行所示。Xing等[6]根據(jù)面部標志保留的信息,通過對抗性損失,感知損失和性別保持損失的引導下,GPGAN網(wǎng)絡可以恢復得到清晰的具有真實感的圖像,但是在不同風格圖像恢復的過程中也會出現(xiàn)一些不匹配的屬性,如頭發(fā)顏色等,如圖5第五行的一、三列所示。相比之下,本文方法的結(jié)果顯示了更高的保真度和更好的一致性,如圖5最后一行所示。本文方法可以生成高質(zhì)量的真實感圖像,而且這些圖像也與真實圖像的語義構(gòu)成相匹配。除此之外,該方法對不同風格化圖像恢復的結(jié)果彼此相似,表明了提出的網(wǎng)絡對于不同風格圖像恢復的健壯性。
(a) 草圖(b) 星光(c) 糖果 (f) 馬賽克圖5 不同算法的人臉恢復可視化結(jié)果
本文利用峰值信噪比(PSNR)和結(jié)構(gòu)相似性指數(shù)(SSIM)兩個評價指標進一步驗證算法的有效性。
PSNR表示濾波圖像的最大像素值與噪聲的比值,定義為:
(7)
式中:MSE表示均方誤差,fmax和fmin分別表示去噪圖像的最大和最小像素。PSNR越大,說明去噪圖像失真越小、去噪效果越好。
基于感知模型的歸一化度量SSIM定義為:
S(x,y)=f(l(x,y),c(x,y),s(x,y))
(8)
表1所示為不同算法對草圖、風格化圖像進行恢復測試時的指標結(jié)果。可以清楚地看到,與其他方法相比,本文方法在草圖、風格化圖像方面都取得了優(yōu)異的定量性能。該表還對比了單獨使用FRN以及FRN+標準DN時的定量結(jié)果。由于標準的DN可以保證FRN生成具有真實感的人臉圖像,所以在定性和定量的結(jié)果上有所提高,但是標準的DN不能利用面部屬性來引導FRN生成更匹配的圖像。本文使用的條件DN可以判斷FRN生成的屬性與輸入值的一致性,從而保證FRN在人臉恢復過程中嵌入屬性信息,模糊度顯著降低,網(wǎng)絡性能更好。
表1 不同算法對草圖、風格化圖像測試時的指標結(jié)果
針對現(xiàn)有方法在人臉復原過程中出現(xiàn)失真和重要細節(jié)丟失的問題,提出了一種基于深度卷積生成式對抗網(wǎng)絡的面部恢復方法。該方法使用面部屬性引導的人臉恢復網(wǎng)絡FRN以端到端的方式從未對齊的風格化肖像中恢復真實的圖像,然后利用判別網(wǎng)絡DN區(qū)分恢復圖像與真實圖像之間的相似度及相關(guān)屬性的一致性。對比實驗表明,本文方法從定量和定性角度上都明顯優(yōu)于其他方法。