国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于密集連接塊U-Net的語(yǔ)義人臉圖像修復(fù)

2020-12-31 02:24楊文霞
計(jì)算機(jī)應(yīng)用 2020年12期
關(guān)鍵詞:密集人臉語(yǔ)義

楊文霞,王 萌,張 亮

(1.武漢理工大學(xué)理學(xué)院,武漢 430070;2.廣西科技大學(xué)啟迪數(shù)字學(xué)院,廣西柳州 545006)

(?通信作者電子郵箱mwang007@gxust.edu.cn)

0 引言

圖像修復(fù)[1]是針對(duì)圖像的缺損部分,填入符合視覺(jué)常識(shí)及圖像語(yǔ)義的數(shù)據(jù),以生成具有真實(shí)感的圖像處理。圖像修復(fù)在目標(biāo)隱藏、圖像信息理解、場(chǎng)景補(bǔ)全等領(lǐng)域有廣泛的應(yīng)用。傳統(tǒng)的基于模型的修復(fù)方法,如基于偏微分方程的擴(kuò)散模型[2-3]和基于樣例的圖像修復(fù)[4],不能正確捕捉和修復(fù)圖像的語(yǔ)義。例如,對(duì)于被遮住鼻子和眼睛的人臉,上述方法無(wú)法理解和生成語(yǔ)義圖像目標(biāo)。

語(yǔ)義圖像修復(fù),不僅要保證修復(fù)圖像結(jié)構(gòu)和紋理的空間一致性,而且要求修復(fù)符合視覺(jué)常識(shí)。生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[5]依賴于大型數(shù)據(jù)集,將圖像修復(fù)看成圖像生成與推斷問(wèn)題,具有學(xué)習(xí)與推理圖像語(yǔ)義的能力。Pathak 等[6]首先將深度學(xué)習(xí)用于圖像修復(fù),使用編碼器-解碼器CE(Context Encode)結(jié)構(gòu)的深度網(wǎng)絡(luò),通過(guò)編碼器將待修復(fù)圖像特征映射到低維特征空間,解碼器端通過(guò)反卷積重建輸出信號(hào)。Yeh等[7]利用均勻分布的隨機(jī)變量z來(lái)訓(xùn)練深度卷積GAN(Deep Convolutional GAN,DCGAN),然后利用該訓(xùn)練好的網(wǎng)絡(luò),通過(guò)引入l2損失和先驗(yàn)損失生成修復(fù)圖像。Iizuka 等[8]提出了GLC(Globally and Locally Consistent image completion),使用擴(kuò)張卷積,通過(guò)引入一個(gè)局部和全局性判別器,來(lái)保留圖像的空間結(jié)構(gòu)。以上兩種方法需用泊松混合后處理方法[9]以保證修復(fù)區(qū)域邊界與周圍像素的連續(xù)性,而泊松混合算法使用迭代優(yōu)化進(jìn)行求解,訓(xùn)練時(shí)間較長(zhǎng)。Yu等[10]引入由粗到細(xì)的兩階段修復(fù)方法,首先得到缺損區(qū)的粗略估計(jì),然后引入注意力機(jī)制,來(lái)搜索數(shù)據(jù)集中和初步結(jié)果有高度相似性的圖像塊,對(duì)粗略結(jié)果精細(xì)化。袁琳君等[11]提出一個(gè)兩階段修復(fù)算法,利用姿態(tài)關(guān)鍵點(diǎn)實(shí)現(xiàn)人像精細(xì)姿態(tài)修復(fù)。上述方法主要針對(duì)圖像的固定中心模板修復(fù),對(duì)任意模板的修復(fù)效果較差。此外,還可利用預(yù)訓(xùn)練輔助網(wǎng)絡(luò)或輔助信息指導(dǎo)修復(fù)過(guò)程。Yu 等[12]引入門控卷積(Gated Convolution,GC),利用手繪待修復(fù)區(qū)間的草圖骨架信息來(lái)引導(dǎo)修復(fù),但修復(fù)結(jié)果依賴于邊界草圖效果。

Hong 等[13]提出了DF(Deep Fusion),通過(guò)引入特征融合網(wǎng)絡(luò)對(duì)U-Net[14]進(jìn)行改進(jìn)而進(jìn)行圖像修復(fù);洪漢玉等[15]利用U-Net 模型,檢測(cè)繩帶并進(jìn)行航拍圖像去繩帶修復(fù);陳俊周等[16]提出一個(gè)級(jí)聯(lián)對(duì)抗網(wǎng)絡(luò),使用密集連接塊(Dense Block,DB)[17]實(shí)現(xiàn)對(duì)人臉圖像的矩形區(qū)域修復(fù)。上述方法主要針對(duì)小目標(biāo)效果較好,但當(dāng)待修復(fù)區(qū)域變大時(shí),由于圖像待修復(fù)區(qū)域語(yǔ)義缺失,且深度卷積本身會(huì)損失圖像信息,修復(fù)效果不可避免存在視覺(jué)不合理及修復(fù)邊界不連貫現(xiàn)象。

針對(duì)上述問(wèn)題,考慮U-Net 網(wǎng)絡(luò)結(jié)構(gòu)在提取圖像語(yǔ)義方面的優(yōu)越性能,以及密集連接網(wǎng)絡(luò)在圖像特征再利用方面的優(yōu)勢(shì),本文提出了基于密集連接塊的U-Net 結(jié)構(gòu)的端到端人臉圖像修復(fù)模型,實(shí)現(xiàn)對(duì)任意形狀的語(yǔ)義修復(fù)。本文的主要工作如下:1)網(wǎng)絡(luò)結(jié)構(gòu)汲取了密集連接和U-Net 網(wǎng)絡(luò)的優(yōu)點(diǎn),將U-Net 中的普通卷積模塊用密集連接塊代替,使用跳連接來(lái)提取圖像缺損區(qū)域的語(yǔ)義,可有效促進(jìn)下采樣過(guò)程中的特征再利用;這些再利用可以有效彌補(bǔ)圖像缺損部分的特征損失,在增強(qiáng)特征傳播的同時(shí),緩解梯度消失的問(wèn)題。2)提出了一個(gè)聯(lián)合損失函數(shù),通過(guò)引入全局對(duì)抗損失、內(nèi)容損失和局部總變分損失訓(xùn)練生成器,通過(guò)Hinge 損失[12]訓(xùn)練判別器。其中總變分損失不是直接計(jì)算生成圖像全圖的總變分,而是計(jì)算待修復(fù)區(qū)域與其周圍環(huán)繞真實(shí)圖像的局部的總變分,使修復(fù)邊界具有自然的顏色過(guò)渡,且避免了全圖模糊。

1 模型網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

本章詳細(xì)介紹所提修復(fù)模型的網(wǎng)絡(luò)結(jié)構(gòu)與工作原理。網(wǎng)絡(luò)由一個(gè)生成器和一個(gè)判別器組成,如圖1 所示。給定一幅原圖Igt,以及一個(gè)0-1模板M,這里M和Igt的大小相同,

M的元素為1 的位置代表待修復(fù)區(qū)域。生成網(wǎng)絡(luò)G的輸入圖像為含缺損區(qū)域的待修復(fù)圖像Igt⊙(1-M),生成器生成的圖像為Igen,則修復(fù)后的輸出圖像為:

式中,⊙代表Hadamard 乘積。判別器D接收到合成的圖像后,試圖區(qū)分它是真還是假,并將結(jié)果進(jìn)行反饋以提高判別器精度。通過(guò)生成器和判別器的損失函數(shù)分別對(duì)生成器和判別器進(jìn)行訓(xùn)練,直到收斂。

1.1 生成器結(jié)構(gòu)

生成器網(wǎng)絡(luò)采用編碼器-解碼器(Encoder-Decoder)架構(gòu),編碼器(也稱下采樣)和解碼器(也稱上采樣)各由四個(gè)密集連接塊組成,由瓶頸層(bottleneck)相連。使用編碼器-解碼器結(jié)構(gòu)可以增加輸入圖像的平移、旋轉(zhuǎn)等基本變換的魯棒性[6],這對(duì)具有姿態(tài)變化的人像圖像的修復(fù)非常重要;同時(shí),該結(jié)構(gòu)可以減少過(guò)擬合的風(fēng)險(xiǎn),使用下采樣可以增加感受野,減少參數(shù)存儲(chǔ)計(jì)算量。

圖1 所提模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of proposed model

1.1.1 編碼器結(jié)構(gòu)

在編碼器側(cè),輸入圖像首先由64 個(gè)3×3 的卷積核生成初始卷積圖,然后進(jìn)入第一個(gè)密集連接塊。每一個(gè)密集連接塊由L個(gè)密集層組成。每個(gè)密集層由卷積層、Batch Normalization 層和線性整流函數(shù)(Rectified Linear Unit,ReLU)層組成,其中所有卷積層卷積核大小為3×3,輸出和輸入具有相同的特征圖尺寸,以便于和其他特征圖進(jìn)行拼接。每一個(gè)密集層產(chǎn)生k個(gè)特征圖,這k個(gè)特征圖通過(guò)和前面所有層的輸入拼接之后,輸入到下一層。后面層接受前面所有層的特征圖,并輸出k個(gè)特征圖,每個(gè)密集連接塊的最終輸出是前面所有的輸入和輸出特征圖之和,因此,k也叫增長(zhǎng)率。密集連接確保了層之間的信息傳遞,提高梯度流動(dòng)。為方便顯示,一個(gè)具有三個(gè)密集層,增長(zhǎng)率為3(L=3,k=3)密集連接塊的結(jié)構(gòu)如圖2所示。

圖2 三層密集連接塊示意圖(k=3)Fig.2 Schematic diagram of dense block of three layers(k=3)

編碼器在每一個(gè)密集連接塊后,引入一個(gè)下采樣過(guò)渡層(Transition Down layer,TD),該過(guò)渡層接受前面所有的特征圖,并將特征圖尺寸減半。下采樣過(guò)渡層由1×1卷積層及2×2池化層組成。通過(guò)四層密集連接塊形成的編碼器后,最終得到8×8×1 024 的低維瓶頸層(Bottleneck Layer,BL),然后進(jìn)行解碼。

1.1.2 解碼器結(jié)構(gòu)

本網(wǎng)絡(luò)生成器的數(shù)據(jù)流信息如表1所示。

表1 生成網(wǎng)絡(luò)的數(shù)據(jù)構(gòu)成Tab.1 Data composition of generative network

解碼器同樣由4 個(gè)上采樣塊密集連接塊和上采樣過(guò)渡層加上一個(gè)全卷積層組成。上采樣密集連接塊結(jié)構(gòu)與下采樣密集連接塊結(jié)構(gòu)類似。同樣,在不同上采樣密集連接塊之間,引入上采樣過(guò)渡層(Transition Up layer,TU),上采樣過(guò)渡層由1×1 卷積層及一個(gè)轉(zhuǎn)置卷積層組成,以接受前面所有特征圖,并增大一倍特征圖尺寸。

為更好地搜尋和提取圖像缺損區(qū)的語(yǔ)義信息,在上采樣和下采樣之間的相同分辨率的特征圖之間引入跳連接(Skip Connection),這些跳連接不僅向解碼器提供低維特征信息,也提供了從淺層向更深層提供更多梯度流信息,從而改進(jìn)訓(xùn)練速度,提高訓(xùn)練性能。

1.2 判別器結(jié)構(gòu)

判別器D的輸入是大小為256×256×3 的圖像Iout,判別器判別該輸入圖像是否為真實(shí)圖像。判別器使用步幅為2 的卷積層進(jìn)行維度縮減,經(jīng)過(guò)6 個(gè)下采樣塊后圖像維度變成4×4,鋪平后,經(jīng)過(guò)最后的全連接層,輸出判別器的結(jié)果。卷積層均采用3×3 大小的卷積核,激活函數(shù)均為L(zhǎng)eakyReLU。使用Dropout正則防止過(guò)擬合,Dropout概率為p=0.2。輸出層采用Tanh激活函數(shù)。

2 損失函數(shù)與隨機(jī)模板生成

2.1 損失函數(shù)

本文使用全局重建損失Lrec、對(duì)抗損失Ladv和局部總變分(Total Variation,TV)損失LlocalTV這三者的聯(lián)合損失對(duì)生成器進(jìn)行訓(xùn)練。使用l1損失作為重構(gòu)損失,用來(lái)衡量生成圖像Igen和真實(shí)圖像Igt的相似程度,即

該損失保證生成器產(chǎn)生預(yù)測(cè)目標(biāo)的粗輪廓,但如果僅用重構(gòu)損失,模型只生成模糊圖像,并沒(méi)有清晰的邊界和紋理信息。因此,加入對(duì)抗損失來(lái)判別生成的修復(fù)圖像是來(lái)自生成器,還是來(lái)自真實(shí)的圖像,通過(guò)訓(xùn)練使得使結(jié)果具有更多的邊緣和紋理結(jié)構(gòu)。對(duì)抗損失定義為:

其中,D表示判別器的輸出結(jié)果。但該對(duì)抗損失只判斷待修復(fù)區(qū)域內(nèi)圖像真?zhèn)?,反向傳播時(shí)很難對(duì)已知區(qū)域產(chǎn)生影響,因此造成修復(fù)區(qū)域的邊界位置像素不連續(xù)。為改善修復(fù)區(qū)域和已知區(qū)域邊界像素的視覺(jué)一致性,本文對(duì)生成器加入局部總變分損失(Local Total Variation)LlocalTV,其定義為:

最終生成器損失函數(shù)為:

實(shí)驗(yàn)中參考文獻(xiàn)[12]的建議,經(jīng)過(guò)對(duì)比實(shí)驗(yàn)后選擇λ1=0.1,λ2=1,λ3=0.05。對(duì)于判別器,使用hinge 損失作為目標(biāo)函數(shù)來(lái)判別輸入圖像的真?zhèn)?。hinge 損失對(duì)于判別器的輸出有截?cái)啵雨P(guān)注輸入圖像是否真實(shí)本身,而不是真實(shí)程度。在實(shí)際訓(xùn)練過(guò)程中,hinge 損失更加穩(wěn)定,收斂速度也更快。其定義為:

圖3 M、Ω及局部總變分計(jì)算區(qū)域Ω ∪MFig.3 M,Ω and area Ω ∪M to calculate local total variation

2.2 隨機(jī)待修復(fù)模板生成

在實(shí)際修復(fù)圖像時(shí),待修復(fù)區(qū)域大小和形狀都是未知的隨機(jī)模板,因此在訓(xùn)練過(guò)程中生成隨機(jī)待修復(fù)模板至關(guān)重要。隨機(jī)模板需與實(shí)際使用時(shí)類似,即針對(duì)訓(xùn)練集中的每一張圖像隨機(jī)生成不同的模板。本文在訓(xùn)練和測(cè)試過(guò)程中,隨機(jī)生成兩種不同形狀的隨機(jī)模板:第一類是位置和大小隨機(jī)的矩形模板;第二類是具有隨機(jī)條狀及圓形的組合模板。這兩類模板出現(xiàn)的概率各種為1/2。隨機(jī)條狀的像素寬度在[4,14]上均勻分布,圓形模板的半徑在[3,10]上均勻分布。隨機(jī)模板生成算法如下。

算法1 生成隨機(jī)形狀模板。

步驟1 初始化:設(shè)二維數(shù)組Mask=0,Mask大小和圖像大小一致,H和W分別是圖像高和寬。

步驟2 初始化模板面積占比Ratio=0。

步驟3 生成[0,1]上均勻分布的隨機(jī)數(shù)p。如果p> 0.5,生成位置和面積隨機(jī)的矩陣模板;否則,生成隨機(jī)方向和隨機(jī)寬度的條狀模板,生成隨機(jī)圓心和半徑的圓形模板。

步驟4 計(jì)算模板面積占比Ratio,如果Ratio小于30%,則轉(zhuǎn)步驟3;否則結(jié)束。

在模型訓(xùn)練和測(cè)試過(guò)程中,對(duì)每一張圖像施加不同隨機(jī)模板以得到待修復(fù)圖像。在應(yīng)用于實(shí)際圖像修復(fù)時(shí),隨機(jī)模板必須能通過(guò)交互操作指定。因此,開(kāi)發(fā)了一個(gè)圖形用戶界面程序,使用戶能用鼠標(biāo)以類似畫筆的形式生成自定義隨機(jī)模板,也可通過(guò)導(dǎo)入0-1 二進(jìn)制圖像文件作為隨機(jī)模板,以實(shí)現(xiàn)單張圖像的修復(fù)。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集與運(yùn)行環(huán)境

在人臉數(shù)據(jù)集CelebA-HQ[18]上測(cè)試了本文圖像修復(fù)模型。該數(shù)據(jù)集共30 000張圖像,選取26 000張為訓(xùn)練集,其余4 000 張為測(cè)試集,分辨率為256×256。模型使用TensorFlow v 1.9 和CUDA 10.0 訓(xùn)練,分別使用中心模板(占圖像面積的25%)和2.2 節(jié)中算法生成的隨機(jī)模板進(jìn)行訓(xùn)練。生成器生成和原圖大小相同的圖像,并按式(1)合成最終結(jié)果。訓(xùn)練時(shí)mini-batch 的尺寸為16,初始學(xué)習(xí)率為lr=2×10-3,在迭代過(guò)程中,使用逐漸降低,這里total_iter是總迭代次數(shù),iter是當(dāng)前迭代次數(shù)。在訓(xùn)練過(guò)程中通過(guò)tensorboard 查看損失函數(shù),觀察訓(xùn)練約40 個(gè)epoch可收斂至較穩(wěn)定狀態(tài)。

3.2 實(shí)驗(yàn)結(jié)果定量比較

如文獻(xiàn)[12]所述,圖像修復(fù)缺乏很好的定量衡量參數(shù),視覺(jué)和語(yǔ)義合理性是其最終目標(biāo)。在大多數(shù)實(shí)際應(yīng)用場(chǎng)合,如從人臉圖像上移去遮擋目標(biāo),和真實(shí)圖像(被遮擋的圖像)相比缺乏合理性,甚至有時(shí)沒(méi)有真實(shí)圖像做對(duì)比。但考慮到此數(shù)據(jù)集的大多數(shù)圖像均為無(wú)遮擋的正面人臉圖像,一些傳統(tǒng)的衡量圖像相似性的參數(shù)在此數(shù)據(jù)集上仍具有參考意義。因此,使用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)及結(jié)構(gòu)相似性指數(shù)(Structure SIMilarity index,SSIM)這兩個(gè)傳統(tǒng)參數(shù)來(lái)衡量測(cè)試集的平均修復(fù)效果,SSIM 的窗口尺寸為11。此外,對(duì)測(cè)試集的圖像在進(jìn)行修復(fù)時(shí),不同文獻(xiàn)的方法在測(cè)試時(shí)所生成的修復(fù)模板是隨機(jī)而各不相同的。因此,再引入Frechet Inception 距離(Frechet Inception Distance,F(xiàn)ID)[19]來(lái)衡量不同模型的生成圖像和真實(shí)圖像的特征距離。在同一數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),將本文方法與不需要輔助數(shù)據(jù)集的最新文獻(xiàn)方法進(jìn)行對(duì)比,對(duì)比模型分別是GLC[8]、DF[13],以及GC[12]。表2是不同方法的實(shí)驗(yàn)結(jié)果。由表2可以看出,本文模型的定量指標(biāo)優(yōu)于其他對(duì)比模型。相較性能第二的GC模型,本文模型中心模板修復(fù)的SSIM 和PSNR 分別提高了5.68% 和7.87%,F(xiàn)ID 降低了7.86%;本文模型隨機(jī)模板修復(fù)的SSIM 和PSNR分別提高了7.06%和4.80%,F(xiàn)ID降低了6.85%。

表2 實(shí)驗(yàn)結(jié)果定量對(duì)比Tab.2 Quantitative comparisons of experimental results

3.3 人臉圖像修復(fù)定性分析

本節(jié)按人臉修復(fù)的不同應(yīng)用場(chǎng)合與目的,展示本文模型和對(duì)比模型的實(shí)驗(yàn)結(jié)果。根據(jù)圖像修復(fù)的應(yīng)用場(chǎng)合,分成展示人臉生成與修復(fù)、人臉物體移除(反遮擋)及數(shù)據(jù)集外的普通人臉修復(fù)。實(shí)驗(yàn)結(jié)果表明,本文模型在各類應(yīng)用場(chǎng)合均具有良好的效果。

3.3.1 不同面積矩形區(qū)域修復(fù)結(jié)果

為測(cè)試模型對(duì)人臉圖像語(yǔ)義抓取和生成能力,圖4 分別展示了中心模板占面積分別為12.5%、25%及遮住整個(gè)臉部(大約40%)的人臉圖像的修復(fù)結(jié)果。實(shí)驗(yàn)結(jié)果表明,當(dāng)被遮擋面積較小時(shí),由于人臉語(yǔ)義特征較為集中,各類方法都能得到比較自然和具有真實(shí)感的人臉。隨著遮擋面積的增加,生成人臉和真實(shí)人臉差異變大,且結(jié)果開(kāi)始出現(xiàn)一些瑕疵。其中,GLC出現(xiàn)明顯的模糊和視覺(jué)不一致,且生成圖像和周圍真實(shí)圖像像素值之間存在較明顯差異;而DF 遮住整個(gè)人臉后,由于缺乏周邊的語(yǔ)義信息,人臉比例和表情看起來(lái)比較奇怪;GC和本文結(jié)果在被遮擋面積較大時(shí),仍然能生成真實(shí)感的人臉,但GC生成的牙齒和嘴唇之間有較明顯的銜接瑕疵。本文方法能生成真實(shí)的毛發(fā)和五官等重要語(yǔ)義信息,頭發(fā)和眉毛等細(xì)節(jié)清晰,模板邊界周圍和真實(shí)皮膚銜接光滑,皮膚顏色比GLC更自然。

圖4 不同模型針對(duì)不同面積的矩形模板修復(fù)結(jié)果Fig.4 Inpainting results of different models on rectangular masks with different areas

3.3.2 同一張圖像在不同隨機(jī)模板的修復(fù)

為測(cè)試本文模型修復(fù)的圖像與真實(shí)圖像之間的相似性,圖5 展示了同一張最常見(jiàn)的人臉圖像,使用四種不同形狀的隨機(jī)模板遮擋后的修復(fù)效果。最常見(jiàn)的人臉圖像,指正面無(wú)遮擋物(如沒(méi)戴眼鏡、墨鏡、眼罩,抽煙等),儀態(tài)正常(無(wú)托腮、捂嘴等動(dòng)作)的圖像。利用圖形用戶界面程序生成模板,使模板不僅包含皮膚等光滑單一語(yǔ)義目標(biāo),還特意遮擋住重要語(yǔ)義目標(biāo)及過(guò)渡帶,如眼睛、鼻子、眉毛、牙齒與嘴唇銜接處等位置。由圖5(c)的修復(fù)圖像可以看出,本文模型能有效抓取人臉語(yǔ)義特征,生成圖像與真實(shí)圖像相近。對(duì)比圖4 中第三行和第六行可見(jiàn),在生成整張面部時(shí),不需要考慮生成圖像和未遮蓋區(qū)域之間的銜接問(wèn)題,因此,雖然修復(fù)結(jié)果和真實(shí)圖像差異較大,但修復(fù)結(jié)果具有真實(shí)感,基本沒(méi)有瑕疵。在圖5(c)的修復(fù)結(jié)果的第三幅圖像(從左到右)中,由于被遮蓋區(qū)域需要考慮與周邊真實(shí)圖像的銜接,牙齒和嘴唇區(qū)反而會(huì)存在少量銜接不自然的瑕疵。

圖5 本文模型對(duì)不同形狀隨機(jī)模板的修復(fù)結(jié)果Fig.5 Inpainting results of proposed model on different random masks

3.3.3 目標(biāo)移去與修復(fù)

圖像修復(fù)的一個(gè)重要目的是為了去除圖像中不需要或被遮擋的物體,填入自然的語(yǔ)義信息,本節(jié)展示該應(yīng)用的效果。圖6 第一列和第二列展示去掉人臉上所不需要的眼鏡和眼罩。

圖6 中,第一行和第二行的結(jié)果表明,和對(duì)比模型相比,本文模型摘去眼鏡的效果良好,生成的人眼及鼻梁與周邊真實(shí)圖像之間過(guò)渡自然,不存在參考文獻(xiàn)中明顯的膚色過(guò)渡不均勻、局部模糊、目標(biāo)錯(cuò)位、膚色差異等現(xiàn)象。第三行是要修復(fù)單側(cè)戴眼鏡的眼睛。由于數(shù)據(jù)集中大部分都是不戴眼鏡的人臉,因此對(duì)于第三行的待修復(fù)圖像,包括本文模型在內(nèi)的所有模型,都沒(méi)能生成自然連續(xù)的鏡框圖像。GLC和DF基本沒(méi)有生成鏡框,和其他模型相比,本文模型生成了較為明顯的鏡框,但鏡框邊界較模糊,而且生成右眼和左眼明顯不對(duì)稱。

圖6 不同模型對(duì)人臉的特定目標(biāo)移去的修復(fù)對(duì)比Fig.6 Inpainting comparison of different models on specific facial target removing

3.3.4 數(shù)據(jù)集外人臉圖像修復(fù)結(jié)果

圖7 展示使用訓(xùn)練好的模型對(duì)數(shù)據(jù)集外的人臉圖像根據(jù)實(shí)際應(yīng)用需求有針對(duì)性地進(jìn)行修復(fù)的結(jié)果。

圖7 本文模型對(duì)數(shù)據(jù)集外人臉的修復(fù)結(jié)果Fig.7 Inpainting results of proposed model on faces out of dataset

圖7 中,第一行結(jié)果表明本文模型在移除人臉特定目標(biāo)時(shí)具有較好的性能,和早前對(duì)該圖像使用基于模型的方法[20]所得到的結(jié)果(因篇幅限制,本文中未重復(fù)給出相應(yīng)結(jié)果展示,可自行查看文獻(xiàn)[20]中結(jié)果)相比,在眼睛、嘴唇和眉毛等關(guān)鍵語(yǔ)義處的修復(fù)結(jié)果更加真實(shí)自然。由第二行可見(jiàn),本文模型傾向于生成相對(duì)光滑的皮膚,因此可以用于移除人臉表情紋和皺紋。由第三行可以看出,由于該訓(xùn)練集的數(shù)據(jù)絕大多數(shù)都是歐美西方人臉,在東方人臉被遮掉大部分人臉區(qū)域后,本文模型生成一張具有西方人特色的臉。實(shí)驗(yàn)顯示本文模型對(duì)于人臉圖像修復(fù)與生成具有較好的泛化能力,也許這一特性可以用在人臉風(fēng)格遷移等應(yīng)用中。

3.4 密集連接塊有效性分析

為測(cè)試模型中引入的密集連接塊對(duì)圖像語(yǔ)義提取的有效性,將其結(jié)果與利用原始U-Net 網(wǎng)絡(luò)的修復(fù)結(jié)果進(jìn)行對(duì)比,并給出兩個(gè)模型的訓(xùn)練損失函數(shù)值對(duì)比。在訓(xùn)練原始U-Net 網(wǎng)絡(luò)時(shí),所使用損失函數(shù)和超參數(shù)均和所提模型相同。圖8 為使用本文模型和原始U-Net 模型的生成器在訓(xùn)練過(guò)程中的損失函數(shù)值??梢?jiàn)由于密集連接塊和跳連接的引入,增加了梯度信息的傳遞,使前期訓(xùn)練過(guò)程更加穩(wěn)定,同時(shí)增加了圖像信息的再利用,獲得更低的損失函數(shù)。圖9 為圖像使用原始U-Net網(wǎng)絡(luò)進(jìn)行修復(fù)的結(jié)果,前兩張分別為圖4 中第一行和第四行輸入圖像的修復(fù)結(jié)果,第三張為圖7 第三張圖像的修復(fù)結(jié)果??梢?jiàn)由于待修復(fù)區(qū)域信息缺失,直接使用U-Net 只能得到圖像的部分語(yǔ)義,不能生成具有真實(shí)感的人臉圖像。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文模型的有效性。

圖8 本文模型與原始U-Net模型生成器訓(xùn)練損失函數(shù)對(duì)比Fig.8 Comparison of generator training loss functions of proposed model and original U-Net model

圖9 使用原始U-Net的修復(fù)結(jié)果Fig.9 Inpainting results of original U-Net

4 結(jié)語(yǔ)

本文提出了一個(gè)基于密集連接塊的U-Net 結(jié)構(gòu)的人臉圖像修復(fù)模型,該修復(fù)模型使用生成對(duì)抗網(wǎng)絡(luò)思想,采用聯(lián)合損失函數(shù)來(lái)訓(xùn)練生成器,使用密集連接塊和跳連接來(lái)確保語(yǔ)義信息的再利用與捕捉。但該模型也有其局限性,例如,對(duì)人臉的對(duì)稱結(jié)構(gòu)特征學(xué)習(xí)不足,對(duì)于有些圖像,生成的一只眼睛與人臉上原有的眼睛不夠?qū)ΨQ。此外,由于數(shù)據(jù)集內(nèi)大多數(shù)圖像是不戴眼鏡的,因此在修復(fù)戴眼鏡的單側(cè)眼睛時(shí),眼鏡框架存在較明顯的瑕疵。針對(duì)該模型的局限性可從以下方面進(jìn)行改進(jìn),即:在模型中增強(qiáng)抓取單幀圖像的對(duì)稱特征的能力,并采取一些均衡化數(shù)據(jù)處理方法或預(yù)標(biāo)注方法,解決眼鏡人臉樣本數(shù)不足的問(wèn)題。

猜你喜歡
密集人臉語(yǔ)義
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
耕地保護(hù)政策密集出臺(tái)
有特點(diǎn)的人臉
一起學(xué)畫人臉
密集恐懼癥
玻璃窗上的人臉
Seeing Red
“吃+NP”的語(yǔ)義生成機(jī)制研究
做個(gè)Patty萬(wàn)人迷
漢語(yǔ)依憑介詞的語(yǔ)義范疇