包仁達(dá),庾 涵,朱德發(fā),黃少飛,孫 瑤,劉 偲
1(中國(guó)科學(xué)院 信息工程研究所,北京 100093)
2(北京航空航天大學(xué) 計(jì)算機(jī)學(xué)院,北京 100191)
隨著社會(huì)經(jīng)濟(jì)和科技的飛速發(fā)展,社交網(wǎng)絡(luò)、視頻直播平臺(tái)和視頻播放平臺(tái)得以迅速發(fā)展,海量用戶不斷產(chǎn)出各種圖像數(shù)據(jù).圖像數(shù)據(jù)以其直觀、信息量豐富的特點(diǎn),在人們的日常生活中發(fā)揮著重要的作用.其中,人臉圖像因其與人的緊密相關(guān)性,受到格外重視.本文研究的問(wèn)題——自動(dòng)上妝算法,即自動(dòng)合成妝容,正是對(duì)人臉圖像進(jìn)行妝容編輯.自動(dòng)上妝在娛樂(lè)互動(dòng)、身份認(rèn)證等多個(gè)領(lǐng)域具有廣泛的應(yīng)用.在娛樂(lè)互動(dòng)領(lǐng)域,自動(dòng)上妝算法可以融入到眾多圖像編輯軟件、視頻直播軟件中,進(jìn)一步豐富軟件的功能、趣味性以及與用戶的互動(dòng)性.在身份認(rèn)證領(lǐng)域,如刷臉支付、身份證校驗(yàn)等,人臉識(shí)別技術(shù)必須與其他驗(yàn)證方式搭配使用才能滿足各類場(chǎng)景的安全性要求,也就是多因素驗(yàn)證.而自動(dòng)上妝算法,可以輔助人臉識(shí)別技術(shù),排除妝容因素對(duì)人臉識(shí)別產(chǎn)生的干擾.圖1所示為自動(dòng)上妝任務(wù)示意圖,任意輸入一張人臉圖片以及某種妝容類型,通過(guò)自動(dòng)上妝模型,就可以得到上妝后的效果圖.
Fig.1 Automatic make-up task圖1 自動(dòng)上妝任務(wù)示意圖
另一方面,隨著人工智能深度學(xué)習(xí)領(lǐng)域的飛速發(fā)展,深度學(xué)習(xí)技術(shù)已在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理等多個(gè)研究領(lǐng)域取得了巨大的成功.其中,生成對(duì)抗網(wǎng)絡(luò)更是在圖像處理領(lǐng)域取得了令人矚目的成績(jī).2014年,蒙特利爾大學(xué)GoodFellow等學(xué)者發(fā)表了論文《Generative Adversarial Nets》,首次提出了GANs(generative adversarial nets)這一概念,即生成對(duì)抗網(wǎng)絡(luò).近兩年,生成對(duì)抗網(wǎng)絡(luò)在大量不同的計(jì)算機(jī)視覺(jué)任務(wù)上取得了顯著的成績(jī),例如:圖像生成[1-7]、圖像轉(zhuǎn)換[8-12]、圖像編輯[13]、超分辨率[14]、人臉圖像合成[15-17]、表示學(xué)習(xí)[18-20]、圖像修補(bǔ)[21]、未來(lái)預(yù)測(cè)[22]以及其他如視頻生成[23]和3D數(shù)據(jù)場(chǎng)景分類[24]等等.
本文擬將GANs用于自動(dòng)上妝問(wèn)題的研究.與其他方法比較后可知:
(1) 生成對(duì)抗網(wǎng)絡(luò)最大的優(yōu)勢(shì)來(lái)自于判別器的引入,讓我們不用費(fèi)盡心思地為一些難以直接用數(shù)學(xué)公式衡量好壞的任務(wù)設(shè)計(jì)損失函數(shù).
(2) 在人臉圖片編輯方面,如在人臉妝容屬性編輯等實(shí)際應(yīng)用中,GANs可以通過(guò)模擬妝容特定屬性的分布,實(shí)現(xiàn)很好的合成效果.
(3) 端到端的圖像生成,只需設(shè)計(jì)一個(gè)整體的網(wǎng)絡(luò),不需要獨(dú)立考慮各個(gè)部件的設(shè)計(jì),模型結(jié)構(gòu)簡(jiǎn)潔、直觀.
(4) 完整地生成一張圖片,自適應(yīng)地為不同的人臉上妝,讓整個(gè)妝容的搭配更加自然.
然而,作為人臉編輯問(wèn)題,針對(duì)自動(dòng)上妝任務(wù)設(shè)計(jì)生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)存在以下難點(diǎn).
· 人臉妝容屬性的編輯需要保持人物主體身份信息不變,不會(huì)改變?nèi)宋锏哪樞?、性別等決定人物身份的因素,也不會(huì)改變頭發(fā)、配飾等無(wú)需編輯區(qū)域,只改變眼影、唇彩、腮紅等上妝區(qū)域.而生成網(wǎng)絡(luò)卻往往將整張圖像生成一遍,很難約束無(wú)需要改變區(qū)域的不變性.
· 一般的人臉編輯問(wèn)題如改變年齡、改變表情等任務(wù),只需要對(duì)人臉整體特征同時(shí)進(jìn)行編輯,然而上妝任務(wù)還有局部編輯的需求,如單獨(dú)針對(duì)眼影、嘴唇或臉頰中的某些部位進(jìn)行特定的局部編輯.這就對(duì)自動(dòng)上妝的方法提出了更高的要求.
· 可供訓(xùn)練的人臉妝容數(shù)據(jù)集少.訓(xùn)練網(wǎng)絡(luò)得到的上妝后圖片不夠真實(shí)自然,有時(shí)有明顯的人工痕跡.
針對(duì)以上幾個(gè)難點(diǎn),本文提出一種掩??刂频淖詣?dòng)上妝生成對(duì)抗網(wǎng)絡(luò)模型,該模型的主要貢獻(xiàn)包括:
· 提出掩??刂品椒?在編輯人臉妝容屬性時(shí),通過(guò)掩模約束不需要改變的區(qū)域不發(fā)生明顯的變化.例如,保持頭發(fā)、背景、配飾等非妝容區(qū)域不變,只改變眼影、唇彩、腮紅等上妝區(qū)域.同時(shí),網(wǎng)絡(luò)能夠保持臉型、性別等決定人物身份的信息不變,保持主體信息.
· 能夠獨(dú)立編輯人臉的眼影、嘴唇、臉頰中的某些局部區(qū)域,實(shí)現(xiàn)特定區(qū)域上妝,豐富了上妝功能.
· 能夠進(jìn)行多數(shù)據(jù)集聯(lián)合訓(xùn)練,除了化妝數(shù)據(jù)集外,還可以使用相關(guān)人臉數(shù)據(jù)集作為輔助,使模型泛化能力更強(qiáng),生成的上妝結(jié)果更加自然.
本文提出的掩模控制的自動(dòng)上妝生成對(duì)抗網(wǎng)絡(luò)模型包括3個(gè)子網(wǎng)絡(luò):(1) 生成網(wǎng)絡(luò);(2) 判別網(wǎng)絡(luò);(3) 掩模生成網(wǎng)絡(luò),模型的框架如圖2所示.
Fig.2 Framework of automatic makeup generative adversarial network using mask圖2 掩??刂频淖詣?dòng)上妝生成對(duì)抗網(wǎng)絡(luò)模型框架圖
其中,掩模選擇模塊具體如圖3所示.
Fig.3 Structrue of mask-choosen module圖3 掩模選擇模塊結(jié)構(gòu)
本文第1節(jié)介紹相關(guān)工作.第2節(jié)介紹實(shí)驗(yàn)用到的妝容數(shù)據(jù)集.第3節(jié)描述本文提出的掩模控制的自動(dòng)上妝生成對(duì)抗網(wǎng)絡(luò)模型.第4節(jié)展示提出的模型與現(xiàn)有主流的生成對(duì)抗網(wǎng)絡(luò)模型在妝容數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.第5節(jié)總結(jié)工作,并對(duì)未來(lái)值得關(guān)注的研究方向進(jìn)行初步探討.
基于傳統(tǒng)方法的自動(dòng)上妝算法:Guo等人[4]提出解決美妝遷移任務(wù)的方法.他們的方法類似于物理化妝,在保留臉部結(jié)構(gòu)的同時(shí)改變顏色和膚色細(xì)節(jié).更確切地說(shuō),他們首先將素顏人像和參考的帶妝人像分解為 3個(gè)層次:面部結(jié)構(gòu)層、皮膚細(xì)節(jié)層和顏色層.之后,他們將信息從圖像的每個(gè)圖層遷移到另一個(gè)圖像的相應(yīng)圖層.這一方法的主要優(yōu)點(diǎn)在于,其僅需要一個(gè)參考的帶妝人像圖像,較為方便和實(shí)用.而缺點(diǎn)是它需要將帶妝圖片的人臉形狀扭曲形變成素顏圖片的人臉形狀,并且需要分成多個(gè)區(qū)域分別進(jìn)行處理,處理速度慢,耗費(fèi)時(shí)間長(zhǎng),而且一次只能合成一種類型的妝容.除此之外,Scherbaum 等人[5]提出使用變形人臉模型來(lái)進(jìn)行面部化妝工作.但是,該方法的不足在于需要收集同一個(gè)人妝前妝后的成對(duì)的圖片,要求同一個(gè)人妝前妝后圖片的基本姿態(tài)不變,同時(shí),光照、角度等外在因素也不可有太大的改變,這種數(shù)據(jù)集的收集有很大難度.Tong等人[6]提出了一種“美容遷移”程序,將實(shí)例對(duì)中的妝容風(fēng)格逼真地轉(zhuǎn)移到另一個(gè)人的臉上.但是同樣地,該工作對(duì)化妝前后圖片對(duì)也有要求,限制了系統(tǒng)的實(shí)用性.Liu等人[7]提出了一個(gè)根據(jù)素顏圖片自動(dòng)推薦妝容圖片并在素顏圖片上進(jìn)行妝容合成的系統(tǒng),但這一工作的主要研究點(diǎn)在于妝容推薦.綜上,基于傳統(tǒng)方法的自動(dòng)上妝算法對(duì)妝前妝后圖片的要求比較嚴(yán)格,得到的妝容合成圖片的效果也不是很自然.
基于深度學(xué)習(xí)的圖像編輯算法:自動(dòng)上妝算法屬于圖像編輯算法的一種,可以與其他圖像編輯算法相互借鑒.與自動(dòng)上妝算法聯(lián)系最為緊密的兩種圖像編輯算法是圖像風(fēng)格遷移和圖像到圖像的轉(zhuǎn)換.圖像風(fēng)格遷移是2015年Gatys等人[25]提出的一個(gè)研究方向.圖像風(fēng)格遷移輸入內(nèi)容圖像和風(fēng)格圖像,輸出的圖像既需要保持內(nèi)容圖像的內(nèi)容,又需要具有風(fēng)格圖像的風(fēng)格.之后又出現(xiàn)了許多工作,如 Li等人[26]即著重于提升算法速度,而Fiser等人[27]著重于圖形學(xué)方法,實(shí)現(xiàn)了基于真實(shí)圖像的面部動(dòng)畫合成.Liao等人[28]的利用多層特征的約束,在多種遷移任務(wù)上都取得了較好的效果.圖像到圖像的轉(zhuǎn)換則是另一種視覺(jué)和圖形問(wèn)題,它的目標(biāo)是通過(guò)成對(duì)的圖像訓(xùn)練數(shù)據(jù)集來(lái)學(xué)習(xí)輸入圖像和輸出圖像之間的對(duì)應(yīng)關(guān)系,即從源域圖像轉(zhuǎn)換成輸出域圖像.圖像轉(zhuǎn)換的具體內(nèi)容包括從標(biāo)簽圖像得到場(chǎng)景圖像[29],從衛(wèi)星照片得到地圖,從黑白圖像得到彩色圖像,從草圖得到具體的圖片[30]等.這類工作需要建立起圖片域與圖片域之間的轉(zhuǎn)換公式,主要針對(duì)的是不同域之間的相互轉(zhuǎn)換,而非圖像風(fēng)格遷移中圖像個(gè)體之間的風(fēng)格轉(zhuǎn)換.由于生成對(duì)抗網(wǎng)絡(luò)提出了對(duì)抗性損失的想法,這種損失迫使生成的圖像原則上與真實(shí)圖像無(wú)法區(qū)分,所以生成對(duì)抗網(wǎng)絡(luò)在圖像生成任務(wù)中展現(xiàn)出了極為出色的能力.
基于深度學(xué)習(xí)的自動(dòng)上妝算法:近年來(lái),自動(dòng)上妝技術(shù)相關(guān)研究引起了更多的關(guān)注,然而與其他圖像編輯任務(wù)相比仍然相當(dāng)有限,但是隨著深度學(xué)習(xí)領(lǐng)域研究的不斷發(fā)展,除了傳統(tǒng)的自動(dòng)上妝算法,近幾年也出現(xiàn)了多種基于深度學(xué)習(xí)的自動(dòng)上妝算法.Li等人[31]引入對(duì)抗網(wǎng)絡(luò)生成素顏圖像用于妝容不變?nèi)四橋?yàn)證.Wang等人[32]提出了一種基于局部約束字典學(xué)習(xí)的妝容檢測(cè)和卸妝框架.Li等人[33]針對(duì)此問(wèn)題提出了另一種圖像分解的方法.妝容遷移也是另一個(gè)有吸引力的應(yīng)用,其與圖像風(fēng)格遷移相似,目標(biāo)是給定帶妝圖像作為參考,將帶妝圖像的妝容遷移到源圖像得到生成圖片.其中較有代表性的是 Liu等人[34]提出的一種根據(jù)素顏照片推薦合適妝容且將妝容遷移到人臉上的方法.該網(wǎng)絡(luò)的模型基于 VGG19,輸入素顏圖像和參考的帶妝圖像,輸出妝容合成后的結(jié)果.整體來(lái)說(shuō),該模型也屬于生成模型,但損失函數(shù)是人工設(shè)計(jì)的,與生成對(duì)抗網(wǎng)絡(luò)相比,該模型不能一次性輸出多種妝容合成的結(jié)果,生成過(guò)程也是迭代的而非一次性的,速度比較慢.此外,Chang等人[35]基于GANs和圖像分割,提出了循環(huán)約束的妝容風(fēng)格遷移方法,取得了較好的效果.
本文主要解決的問(wèn)題有別于妝容遷移任務(wù),更接近于多域的圖像到圖像的轉(zhuǎn)換.在妝容遷移任務(wù)中,圖像沒(méi)有定義妝容屬性類別,其特點(diǎn)在于圖片對(duì)圖片的轉(zhuǎn)換,可以將多種多樣豐富的妝容類別遷移到目標(biāo)圖像,但在遷移時(shí),算法必須要有指定的參考圖像.而本文主要的任務(wù)為多域的圖像轉(zhuǎn)換,即將人臉圖像按照指定的類別進(jìn)行編輯,使原本屬于某個(gè)域的圖像經(jīng)過(guò)編輯后擁有另一個(gè)域的妝容特征.其特點(diǎn)在于不需要參考圖像,僅需指定一個(gè)類別即可.如將某張素顏照片編輯為煙熏妝,此時(shí)并不需要某個(gè)煙熏妝的參考圖片,輸入煙熏妝類別對(duì)應(yīng)的屬性編碼,算法即可自動(dòng)為素顏照片編輯出相應(yīng)的煙熏妝效果.
現(xiàn)階段生成對(duì)抗網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)圖片有著較高的要求,如果想要生成質(zhì)量較好的數(shù)據(jù),則對(duì)訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量都有一定要求.對(duì)于本文中的自動(dòng)上妝任務(wù),我們利用了最近新提出的妝容數(shù)據(jù)集.該數(shù)據(jù)集基于妝容特點(diǎn)進(jìn)行了分類標(biāo)準(zhǔn)的劃定,使得每種妝容的特點(diǎn)突出,具有排他性.數(shù)據(jù)集中的圖片都進(jìn)行了妝容類別的標(biāo)注,使得數(shù)據(jù)集標(biāo)簽定義精確,類內(nèi)差距小,類間區(qū)別明顯.
圖4所示為亞洲妝容數(shù)據(jù)集示意圖,其中,圖4(a)所示日系妝容的特點(diǎn):底色白皙,眉形自然,眼影粉底等妝容很淡,唇色不重,運(yùn)用較淺的腮紅進(jìn)行修顏.圖 4(b)所示韓系妝容的特點(diǎn):大多為平眉,眉形較粗,眼妝很淡,較少使用濃重的腮紅修顏.圖4(c)所示亞洲素顏的特點(diǎn):基本未化妝,五官平面化.圖4(d)所示亞洲煙熏妝的特點(diǎn):眼線和眼影在眼窩處漫成一片,眼影面積較大,唇色明顯,以黑灰色為主色調(diào).圖 4(e)所示復(fù)古妝容的特點(diǎn):一字粗眉,腮紅、唇膏、眼影顏色相同或相近,都為粉色或橘色的淡色系.
Fig.4 Examples of Asia makeup dataset圖4 亞洲妝容數(shù)據(jù)集示意圖
本文實(shí)驗(yàn)中,亞洲妝容數(shù)據(jù)集分為訓(xùn)練集和驗(yàn)證集,其中,訓(xùn)練集一共5 374張,驗(yàn)證集一共361張,具體情況見(jiàn)表1.
Table 1 Details of Asia makeup dataset表1 亞洲數(shù)據(jù)集詳情
圖5所示為歐洲妝容數(shù)據(jù)集示意圖,其中,圖5(a)所示彩妝妝容的特點(diǎn):突出深邃而色彩飽和度高的眼影,啞光腮紅,唇彩多為紅色系等較為濃重的顏色.圖5(b)所示歐洲素顏的特點(diǎn):基本未化妝,五官立體化.圖5(c)所示歐洲煙熏妝的特點(diǎn):在亞洲煙熏妝的特點(diǎn)上,眼窩更加深邃,唇彩、眉毛等妝容更加立體和夸張.
Fig.5 Examples of Europe makeup dataset圖5 歐洲妝容數(shù)據(jù)集示意圖
本文實(shí)驗(yàn)中,歐洲妝容數(shù)據(jù)集分為訓(xùn)練集和驗(yàn)證集,其中,訓(xùn)練集一共3 815張,驗(yàn)證集一共422張,具體情況見(jiàn)表2.
Table 2 Details of Europe makeup dataset表2 歐洲數(shù)據(jù)集詳情
掩??刂频淖詣?dòng)上妝生成對(duì)抗網(wǎng)絡(luò)包括3個(gè)子網(wǎng)絡(luò):生成網(wǎng)絡(luò)G網(wǎng)絡(luò)、判別網(wǎng)絡(luò)D網(wǎng)絡(luò)和掩模生成網(wǎng)絡(luò)S網(wǎng)絡(luò),結(jié)構(gòu)如圖2所示.網(wǎng)絡(luò)的輸入包含兩部分,分別為待上妝人臉圖片和條件編碼.待上妝人臉圖片是256×256像素的三通道 RGB圖像.條件編碼包括妝容標(biāo)簽、上妝區(qū)域標(biāo)簽以及輔助數(shù)據(jù)集標(biāo)簽和掩碼條件標(biāo)簽,其中,后兩者用于多數(shù)據(jù)集聯(lián)合訓(xùn)練,將在第 3.6節(jié)中加以詳細(xì)介紹.妝容標(biāo)簽為 One-hot編碼,以亞洲數(shù)據(jù)集為例,即以五維向量表示復(fù)古妝、韓式妝容、日式妝容、素顏、煙熏妝 5種類別,如(1,0,0,0,0)即代表復(fù)古妝.上妝區(qū)域標(biāo)簽使用0/1向量的形式進(jìn)行編碼,0代表不上妝,1代表上妝,通過(guò)三維向量表示是否在眼影、嘴唇、臉頰這3個(gè)區(qū)域上妝,如(0,1,1)即代表在嘴唇和臉頰區(qū)域上妝,而眼影區(qū)域不上妝,通過(guò)改變上妝區(qū)域標(biāo)簽,即可控制不同區(qū)域是否上妝.
生成對(duì)抗網(wǎng)絡(luò):2014年,蒙特利爾大學(xué)GoodFellow等學(xué)者發(fā)表了論文《Generative Adversarial Nets》,并在此文中首次提出了 GANs,即生成對(duì)抗網(wǎng)絡(luò).典型的生成對(duì)抗網(wǎng)絡(luò)模型由兩個(gè)模塊組成:生成器和判別器.判別器學(xué)習(xí)區(qū)分真假樣本,生成器學(xué)習(xí)如何產(chǎn)生以假亂真的假樣本.通常情況下,訓(xùn)練一個(gè)深度學(xué)習(xí)模型都需要損失函數(shù)或者有效的評(píng)價(jià)模型好壞的評(píng)價(jià)指標(biāo).損失函數(shù)一般是人為設(shè)計(jì)的,其在反向傳播中更新模型參數(shù).而生成對(duì)抗網(wǎng)絡(luò)通過(guò)生成器與判別器之間的對(duì)抗學(xué)習(xí)來(lái)訓(xùn)練模型,從而合成與所期望圖像相似的圖像.如圖 6所示,輸入一個(gè)隨機(jī)向量z,經(jīng)過(guò)生成器G,得到一張圖片G(z),生成器的目的是讓G(z)看起來(lái)和真實(shí)圖片一樣,所以需要訓(xùn)練一個(gè)判別器D,給出真實(shí)圖片的樣本x作為參考,對(duì)于真實(shí)的圖片樣本,讓D(x)的結(jié)果盡量接近1,對(duì)于生成圖片G(z),讓D(G(z))的結(jié)果盡量接近 0.這里的判別器就充當(dāng)了評(píng)價(jià)圖片的角色,它能判別圖片的真?zhèn)?換句話說(shuō),就是判別圖片來(lái)自于真實(shí)圖片數(shù)據(jù)集還是生成器生成的假數(shù)據(jù).而生成器的任務(wù)就是盡可能地生成真假難辨的圖片來(lái)欺騙判別器,讓D(G(z))接近1.D和G的目標(biāo)是相反的,這就是生成對(duì)抗網(wǎng)絡(luò)被稱為“對(duì)抗”的原因.
Fig.6 Framework of GANs圖6 生成對(duì)抗網(wǎng)絡(luò)模型框架圖
條件生成對(duì)抗網(wǎng)絡(luò):典型的生成對(duì)抗網(wǎng)絡(luò)模型由生成器和判別器組成.判別器學(xué)習(xí)區(qū)分真假樣本,生成器學(xué)習(xí)如何產(chǎn)生以假亂真的假樣本.生成對(duì)抗網(wǎng)絡(luò)中生成器的輸入是隨機(jī)向量.在此基礎(chǔ)上,為解決 GANs生成圖片不可控的問(wèn)題,條件生成對(duì)抗網(wǎng)絡(luò) CGAN被提了出來(lái).通過(guò)向生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的輸入層加入額外的信息約束,CGAN能夠按照輸入的條件信息,控制網(wǎng)絡(luò)產(chǎn)生期望的圖像.近幾年的相關(guān)工作表明:帶有類別信息的判別器和生成器能夠根據(jù)類別信息生成樣本[11,36,37].最新的研究還包括根據(jù)給定的文字描述來(lái)生成特定的圖像[38,39].此外,條件生成對(duì)抗網(wǎng)絡(luò)的思想還被成功地應(yīng)用在域轉(zhuǎn)換[40,41]、超分辨率[14]等領(lǐng)域.
生成網(wǎng)絡(luò)G:生成網(wǎng)絡(luò)是基于條件生成網(wǎng)絡(luò)設(shè)計(jì)的.如圖2所示,條件生成網(wǎng)絡(luò)由下采樣卷積模塊、殘差卷積模塊以及上采樣卷積模塊構(gòu)成.網(wǎng)絡(luò)輸入為人臉圖像及目標(biāo)標(biāo)簽信息,輸出為上妝后的人臉圖片.將復(fù)古妝容的輸入圖片X與期望某個(gè)其他屬性,如圖中的煙熏妝容屬性(假設(shè)其對(duì)應(yīng)的編碼為Y)送入生成網(wǎng)絡(luò)G,G所生成的圖片G(X,Y)既包含X的主體信息,又與編碼Y對(duì)應(yīng)的煙熏妝容屬性相符.生成網(wǎng)絡(luò)G主要依靠判別網(wǎng)絡(luò)D及第3.3節(jié)中的區(qū)域不變約束加以監(jiān)督.此外,其主體信息的保持通過(guò)約束G(G(X,Y),YX)=X實(shí)現(xiàn),其中,YX為生成圖片本身的條件編碼,圖2所示為復(fù)古妝容.即:將復(fù)古妝容的輸入圖片X與目標(biāo)域?qū)傩跃幋aY(期望的煙熏妝容屬性)級(jí)聯(lián)送入生成網(wǎng)絡(luò)G,得到符合煙熏妝容屬性的生成圖片G(X,Y),再將生成圖片G(X,Y)與源域?qū)傩跃幋aYX(輸入圖片的復(fù)古妝容屬性)送入生成網(wǎng)絡(luò)G,得到重構(gòu)的輸入圖片,重構(gòu)的輸入圖片應(yīng)與輸入圖片保持循環(huán)一致性.這一約束也被稱為重構(gòu)約束Lrec,即最小化如下目標(biāo)函數(shù):
判別網(wǎng)絡(luò)D:本文中的判別網(wǎng)絡(luò)分為兩類,一類為全局判別網(wǎng)絡(luò)Dglobal,另一類為局部判別網(wǎng)絡(luò)Dlocal.全局判別網(wǎng)絡(luò)實(shí)際上是一個(gè)二分類模型,輸入為整張人臉圖像,輸出為圖片真假的分類結(jié)果,真實(shí)圖片對(duì)應(yīng)的標(biāo)注為“真”,生成器生成的圖片對(duì)應(yīng)的標(biāo)注為“假”.其主要訓(xùn)練目標(biāo)就是能夠正確地判斷圖片的真假,以向生成網(wǎng)絡(luò)提供對(duì)抗性的監(jiān)督,從全局特征層面幫助生成網(wǎng)絡(luò)輸出更加自然、真實(shí)的圖片.局部判別網(wǎng)絡(luò)則著重于局部特征,其輸入為臉頰、眼影、嘴唇等上妝區(qū)域的局部圖像,共有兩個(gè)訓(xùn)練目標(biāo),一是判斷局部圖像的真假,以生成更加真實(shí)的局部上妝結(jié)果,二是進(jìn)行屬性分類,即判斷輸入的局部圖片的妝容屬性類別,從而能夠監(jiān)督生成網(wǎng)絡(luò)生成圖片的屬性是否正確,控制生成網(wǎng)絡(luò)對(duì)局部區(qū)域上妝的類別.在判別網(wǎng)絡(luò)的實(shí)際訓(xùn)練過(guò)程中,當(dāng)輸入的是真實(shí)圖片時(shí),判別網(wǎng)絡(luò)既判斷圖片的真假,也判斷圖片的妝容屬性類別;當(dāng)判別網(wǎng)絡(luò)的輸入是生成圖片時(shí),判別網(wǎng)絡(luò)只判斷生成圖片的真假,而不判斷生成圖片的屬性類別.判別網(wǎng)絡(luò)的具體優(yōu)化目標(biāo)函數(shù)將在第 3.4節(jié)中加以詳細(xì)介紹.
人臉妝容編輯往往只需對(duì)圖像中局部區(qū)域進(jìn)行修改,同時(shí)希望無(wú)需編輯的區(qū)域在編輯前后保持不變.而生成網(wǎng)絡(luò)需要生成全局的圖像,如果不進(jìn)行約束,則無(wú)需編輯區(qū)域難以與原始輸入圖片保持一致性.例如,在上妝過(guò)程中,網(wǎng)絡(luò)需要保持人物主體身份信息不變,即不會(huì)因?yàn)樯蠆y改變?nèi)宋锏哪樞汀⑿詣e等決定人物身份的因素,也不會(huì)改變諸如頭發(fā)、背景等非上妝區(qū)域,只需編輯眼影、唇彩、腮紅等需要上妝的區(qū)域.為了解決以上問(wèn)題,本文基于妝容編輯任務(wù),定義了人臉圖像中的可變區(qū)域和不可變區(qū)域,也可稱其為上妝區(qū)域和非上妝區(qū)域.如眼影、嘴唇、臉頰等區(qū)域是可變區(qū)域,頭發(fā)、背景、牙齒、瞳孔等區(qū)域是不可變區(qū)域.在編輯過(guò)程中對(duì)不可變區(qū)域進(jìn)行編輯前后一致性的約束,即可使網(wǎng)絡(luò)集中編輯可變區(qū)域特征,保持其他區(qū)域信息不變.
可變區(qū)域和不可變區(qū)域由掩模區(qū)分,為得到人臉圖像的掩模,我們引入了掩模生成網(wǎng)絡(luò)和掩模選擇模塊.
掩模生成網(wǎng)絡(luò):掩模生成網(wǎng)絡(luò)實(shí)際上是一個(gè)人臉妝容部件語(yǔ)義分割網(wǎng)絡(luò),其對(duì)人臉圖像進(jìn)行分割得到妝容部件語(yǔ)義分割圖,分割圖包括:(1) 妝容不變區(qū)域,用于指示自動(dòng)上妝中無(wú)需編輯的區(qū)域(包括背景,頭發(fā),左右耳朵,脖子,左右眼睛,牙齒等);(2) 眼影區(qū)域(上妝中眼影的區(qū)域,眉毛之下,眼睛周圍一圈的皮膚),用于眼妝編輯;(3) 底妝區(qū)域(臉部除去眼睛區(qū)域、嘴唇區(qū)域、眼影區(qū)域之外的皮膚區(qū)域),用于底妝編輯,包括腮紅、粉底、磨皮等; (4) 嘴唇區(qū)域(包括上下嘴唇),用于唇妝編輯.實(shí)驗(yàn)中,將生成網(wǎng)絡(luò)G上采樣之前的特征輸入掩模生成網(wǎng)絡(luò),得到上述4種妝容部件語(yǔ)義分割結(jié)果,對(duì)應(yīng)4種掩模:(1) 妝容不變區(qū)域掩模;(2) 眼影區(qū)域掩模;(3) 底妝區(qū)域掩模;(4) 嘴唇區(qū)域掩模.
掩模選擇模塊:如圖3所示,掩模選擇模塊的功能是選擇掩模生成網(wǎng)絡(luò)的掩模結(jié)果.需要注意的是,掩模選擇模塊在第3.4節(jié)分部件妝容編輯中還會(huì)被用到.掩模選擇模塊根據(jù)輸入的上妝部件條件,從眼影區(qū)域掩模、底妝區(qū)域掩模、嘴唇區(qū)域掩模中進(jìn)行選擇,完成不同部件的上妝.值得注意的是,可以同時(shí)選擇 3種掩模、3種掩模中的兩種或者一種.而妝容不變區(qū)域掩模則與未被選擇的上妝部件掩模取并集,作為人臉上妝不變區(qū)域的監(jiān)督,約束生成網(wǎng)絡(luò)生成的圖像中非上妝區(qū)域與原圖相應(yīng)區(qū)域保持一致.具體來(lái)說(shuō),妝容不變區(qū)域掩模與輸入圖片和生成圖片分別進(jìn)行操作,得到輸入圖片中的不變區(qū)域和生成圖片中的不變區(qū)域,進(jìn)而計(jì)算區(qū)域不變損失.此外,訓(xùn)練集的樣本標(biāo)注是通過(guò)預(yù)先訓(xùn)練好的圖像語(yǔ)義分割模型,對(duì)訓(xùn)練集中所有人臉圖像預(yù)測(cè)人臉部件語(yǔ)義分割圖得到的.
用X表示原始輸入圖片,表示生成圖片,圖像X在特定屬性Y的條件下的可變區(qū)域由VXY表示,不可變區(qū)域由表示.約束生成圖片和原始輸入圖片X的不可變區(qū)域保持一致,即用掩模MXY的0、1來(lái)描述圖像X特定屬性Y的可變區(qū)域VXY、不可變區(qū)域,如下式:
因此,定義圖像X屬性Y的損失函數(shù)為
假設(shè)只對(duì)一個(gè)屬性進(jìn)行編輯,圖像掩模記為MX,用以下目標(biāo)函數(shù)優(yōu)化生成網(wǎng)絡(luò)G:
生成網(wǎng)絡(luò)往往只能生成整張圖像,無(wú)法單獨(dú)編輯圖像的局部區(qū)域,而人臉妝容編輯任務(wù)又存在著分區(qū)域上妝的需求.為此,我們提出了部件條件編碼、掩模方法以及局部/全局判別網(wǎng)絡(luò),共同實(shí)現(xiàn)分部件妝容編輯功能.
在第3.3節(jié)中提到的掩模生成網(wǎng)絡(luò)負(fù)責(zé)生成人臉部件分割圖,如圖3所示,掩模選擇模塊按照輸入網(wǎng)絡(luò)的部件條件信息,依據(jù)掩模結(jié)果從生成圖像中選擇需要上妝的部件對(duì)應(yīng)的分割圖,再將分割圖送入局部判別網(wǎng)絡(luò)Dlocal進(jìn)行圖像真假的判斷以及屬性分類,從而在圖像真實(shí)性和屬性正確性兩個(gè)角度上同時(shí)監(jiān)督生成網(wǎng)絡(luò)G的訓(xùn)練,希望生成網(wǎng)絡(luò)在部件條件信息和妝容條件信息的共同指導(dǎo)下,對(duì)每個(gè)需要上妝的部件進(jìn)行正確的妝容屬性編輯.
為了向生成網(wǎng)絡(luò)G提供有效監(jiān)督,局部判別網(wǎng)絡(luò)Dlocal需要同時(shí)進(jìn)行訓(xùn)練,其優(yōu)化目標(biāo)函數(shù)如下:
其中,N為上妝部件數(shù)量,表示第i個(gè)需要上妝部件對(duì)應(yīng)的局部圖像,梯度懲罰項(xiàng)的系數(shù)λ是超參,實(shí)驗(yàn)設(shè)為10.是連接線段上的隨機(jī)一點(diǎn),實(shí)驗(yàn)中,在此線段上均勻取值.
除局部判別網(wǎng)絡(luò)外,生成網(wǎng)絡(luò)輸出的整體人臉圖像會(huì)被送入全局判別網(wǎng)絡(luò)Dglobal,該網(wǎng)絡(luò)只需要判斷圖像的真假而不必進(jìn)行分類,目的是保證生成圖像的整體真實(shí)、自然.所以其優(yōu)化目標(biāo)函數(shù)為
Ladv_global的具體形式與局部判別網(wǎng)絡(luò)的對(duì)抗損失函數(shù)類似,唯一的區(qū)別是輸入為整張圖像而非局部圖像,這里不再贅述.綜上所述,判別網(wǎng)絡(luò)的優(yōu)化目標(biāo)函數(shù)為
網(wǎng)絡(luò)使用端到端的生成模式,輸入原始待上妝圖片和妝容條件、部件條件標(biāo)簽,即可在保持主體身份信息的同時(shí),在指定區(qū)域完成目標(biāo)妝容的編輯,同時(shí)盡可能地保持非上妝區(qū)域不變.
上妝前后的人臉身份信息保持功能由第3.2節(jié)中的重構(gòu)約束Lrec實(shí)現(xiàn).掩模生成網(wǎng)絡(luò)負(fù)責(zé)生成人臉部件分割結(jié)果.而掩模選擇模塊有兩個(gè)功能,一是在分部件妝容編輯過(guò)程中從人臉各個(gè)部件的分割結(jié)果中挑選需要編輯的部件,送入局部判別網(wǎng)絡(luò),局部判別網(wǎng)絡(luò)再進(jìn)行局部圖片真實(shí)性、屬性類別正確性的監(jiān)督;二是在約束非上妝區(qū)域不變時(shí),根據(jù)上妝部件條件信息,從人臉部件分割結(jié)果中選擇、合并生成非上妝區(qū)域的掩模,約束非上妝區(qū)域的一致性.此外,全局判別網(wǎng)絡(luò)負(fù)責(zé)監(jiān)督整體圖像生成得自然、真實(shí).
綜上所述,網(wǎng)絡(luò)總體的優(yōu)化目標(biāo)函數(shù)為
其中,λcls、λmask和λrec是權(quán)重超參,實(shí)驗(yàn)時(shí)分別設(shè)置為 1、10、10,Lrec是重構(gòu)約束,Ladv_Global和Ladv_Local為全局對(duì)抗損失和局部對(duì)抗損失函數(shù).表示在訓(xùn)練D網(wǎng)絡(luò)的過(guò)程中,D網(wǎng)絡(luò)讀入真實(shí)數(shù)據(jù)時(shí)分類的損失函數(shù),Lmask為不變區(qū)域一致性的約束.以上損失函數(shù)均在第 3節(jié)中進(jìn)行了解釋.而前文中未提到的實(shí)際上是在訓(xùn)練G網(wǎng)絡(luò)時(shí),將G網(wǎng)絡(luò)生成的圖片送入D網(wǎng)絡(luò)進(jìn)行分類的損失函數(shù),該損失函數(shù)利用D網(wǎng)絡(luò)的屬性分類器,監(jiān)督G網(wǎng)絡(luò)生成符合屬性要求的生成圖片.
算法的整體訓(xùn)練流程如下,將原始待上妝圖片和妝容條件、部件條件標(biāo)簽共同輸入生成網(wǎng)絡(luò)得到生成圖片,再將生成圖片和原始條件送回生成網(wǎng)絡(luò)得到重構(gòu)圖片,進(jìn)行重構(gòu)監(jiān)督.同時(shí),通過(guò)掩模生成和選擇模塊挑選出生成圖片和原始圖片各自的不可變區(qū)域,進(jìn)行區(qū)域不變的監(jiān)督.此外,還有全局判別網(wǎng)絡(luò)和局部判別網(wǎng)絡(luò)對(duì)圖片真實(shí)性、屬性編輯正確性進(jìn)行監(jiān)督.
搜集、標(biāo)注較大的特定數(shù)據(jù)集需要花費(fèi)大量的人力物力.而一些現(xiàn)有人臉數(shù)據(jù)集雖沒(méi)有標(biāo)注妝容屬性,但標(biāo)注了人臉相關(guān)屬性.如果能提出一種方法,在標(biāo)注一個(gè)較小的數(shù)據(jù)集的基礎(chǔ)上,利用現(xiàn)有的相關(guān)標(biāo)注的大數(shù)據(jù)集,如擁有20萬(wàn)張圖片的CelebA[43]數(shù)據(jù)集輔助訓(xùn)練,將極大地提升圖片生成的質(zhì)量.用大數(shù)據(jù)集上的數(shù)據(jù)訓(xùn)練,雖然標(biāo)注不一樣,例如 CelebA數(shù)據(jù)集包括 40個(gè)與人臉屬性相關(guān)的標(biāo)注,包括頭發(fā)顏色、性別、年齡等屬性標(biāo)注,但是網(wǎng)絡(luò)能在海量數(shù)據(jù)中學(xué)習(xí)到更魯棒的特征,從而在目標(biāo)數(shù)據(jù)集上有很好的表現(xiàn)能力,同時(shí)提高網(wǎng)絡(luò)泛化能力.
因此,我們提出自動(dòng)上妝任務(wù)與相關(guān)人臉屬性編輯任務(wù)聯(lián)合訓(xùn)練的方法.有妝容數(shù)據(jù)庫(kù)A和輔助人臉數(shù)據(jù)庫(kù)B(這里是CelebA數(shù)據(jù)集),在訓(xùn)練過(guò)程中,兩庫(kù)交替訓(xùn)練.每次迭代分兩批數(shù)據(jù)訓(xùn)練,第1批數(shù)據(jù)來(lái)自?shī)y容數(shù)據(jù)庫(kù)A,第2批數(shù)據(jù)來(lái)自輔助人臉數(shù)據(jù)庫(kù)A.設(shè)A庫(kù)的條件編碼為YA,B庫(kù)的條件編碼為YB,用掩碼向量Ymask表示數(shù)據(jù)來(lái)源于哪個(gè)數(shù)據(jù)庫(kù),Ymask的長(zhǎng)度為數(shù)據(jù)庫(kù)的個(gè)數(shù),在本實(shí)驗(yàn)中,[1,0]和[0,1]分別表示數(shù)據(jù)來(lái)自A庫(kù)和B庫(kù).綜上,設(shè)計(jì)條件編碼Y=[YA,0,Ymask]或Y=[YA,0,Ymask].對(duì)應(yīng)的D網(wǎng)絡(luò)的輸出增加一個(gè)數(shù)據(jù)庫(kù)B上的屬性分類器.當(dāng)訓(xùn)練A庫(kù)時(shí),D網(wǎng)絡(luò)忽略B庫(kù)上的屬性分類器,監(jiān)督圖像真假分類器和A庫(kù)上的屬性分類器;反之,當(dāng)訓(xùn)練B庫(kù)時(shí)網(wǎng)絡(luò)忽略A庫(kù)上的屬性分類器,監(jiān)督圖像真假分類器和B庫(kù)上的屬性分類器.
本節(jié)首先介紹最近提出的基于生成對(duì)抗網(wǎng)絡(luò)的圖像到圖像轉(zhuǎn)換模型CycleGAN和StarGAN,然后介紹自動(dòng)上妝任務(wù)的評(píng)價(jià)指標(biāo),最后將基于CycleGAN和StarGAN得到的自動(dòng)上妝結(jié)果作為基準(zhǔn)實(shí)驗(yàn),得到定性結(jié)果和定量結(jié)果,再與本文提出的掩??刂频淖詣?dòng)上妝生成對(duì)抗網(wǎng)絡(luò)模型得到的結(jié)果作這兩方面的分析與比較.
Zhu等人在2017年提出了CycleGAN網(wǎng)絡(luò)[9],CycleGAN不需要成對(duì)的圖片就能夠?qū)崿F(xiàn)圖片從源域X到目標(biāo)域Y的轉(zhuǎn)換.CycleGAN的目標(biāo)是學(xué)習(xí)一個(gè)映射G,使得生成器生成的圖片集G(X)的概率分布與目標(biāo)域的圖片集Y的概率分布一致.同時(shí),CycleGAN引入了一致性損失來(lái)加強(qiáng)約束,即通過(guò)建立一個(gè)反向映射F:Y→X以及引進(jìn)一個(gè)循環(huán)一致性損失F(G(X))≈X來(lái)保證圖像的主體信息在編輯過(guò)程中不發(fā)生較大變化.
不過(guò),CycleGAN 僅能夠?qū)崿F(xiàn)兩個(gè)域之間的圖像到圖像的轉(zhuǎn)換,若有多個(gè)類別(域)的數(shù)據(jù),則需要單獨(dú)對(duì)每一對(duì)圖像域轉(zhuǎn)換問(wèn)題建立不同的生成網(wǎng)絡(luò),導(dǎo)致了模型訓(xùn)練的低效率和不可擴(kuò)展性.而 StarGAN[44]可以只用一個(gè)模型實(shí)現(xiàn)多領(lǐng)域的轉(zhuǎn)換.StarGAN網(wǎng)絡(luò)是一個(gè)統(tǒng)一的模型框架,網(wǎng)絡(luò)可以在有多個(gè)域的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并且只需訓(xùn)練一個(gè)單獨(dú)的模型即可編輯多種屬性,將輸入圖片轉(zhuǎn)換到任意一種所期待的目標(biāo)圖片域.
G和D網(wǎng)絡(luò)交替優(yōu)化,G網(wǎng)絡(luò)每更新1次,D網(wǎng)絡(luò)更新5次,以獲取更好的監(jiān)督.網(wǎng)絡(luò)結(jié)構(gòu)遵循StarGAN的設(shè)計(jì),G網(wǎng)絡(luò)有兩個(gè)步長(zhǎng)為2的卷積層進(jìn)行下采樣,6個(gè)殘差模塊以及兩個(gè)反卷積層進(jìn)行上采樣.D網(wǎng)絡(luò)如第3.4節(jié)所述,使用了WGAN-gp優(yōu)化兩個(gè)數(shù)據(jù)分布的Wasserstein距離.訓(xùn)練的batch size設(shè)置為10,共訓(xùn)練200個(gè)epoch,學(xué)習(xí)率設(shè)置為 0.000 1.此外,掩模生成網(wǎng)絡(luò)為圖像分割網(wǎng)絡(luò),為了運(yùn)行時(shí)間及空間的需求,實(shí)驗(yàn)中刪減了模型的部分參數(shù).掩模生成網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果在下文中加以詳細(xì)分析.
掩模生成網(wǎng)絡(luò)在 Deeplab v2網(wǎng)絡(luò)[45]的基礎(chǔ)上刪減了部分參數(shù),以便于取得更小的內(nèi)存占用和更快的運(yùn)行時(shí)間.掩模的分割效果將直接影響后續(xù)的掩模選擇模塊以及最終的妝容的編輯質(zhì)量,為了驗(yàn)證掩模生成網(wǎng)絡(luò)的性能,本文利用mean IoU,對(duì)掩模生成網(wǎng)絡(luò)進(jìn)行了定量實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果見(jiàn)表3,掩模生成網(wǎng)絡(luò)妝容部件語(yǔ)義分割如圖7所示.
Tabel 3 Quantitative experiment results of mask generation network表3 掩模生成網(wǎng)絡(luò)定量實(shí)驗(yàn)結(jié)果
Fig.7 Face makeup part segmentation圖7 掩模生成網(wǎng)絡(luò)妝容部件語(yǔ)義分割示意圖
(1) CycleGAN、StarGAN以及本文所提方法在數(shù)據(jù)集上的上妝結(jié)果比較
實(shí)驗(yàn)使用了第2節(jié)介紹的數(shù)據(jù)庫(kù),分為5種或3種妝容屬性.同時(shí),本文使用了CycleGAN和StarGAN這兩種效果較好的 GANs圖像編輯方法作為基準(zhǔn)實(shí)驗(yàn),因?yàn)?CycleGAN只能做兩個(gè)域之間的轉(zhuǎn)換,所以在所有的屬性對(duì)之間均訓(xùn)練了模型,以實(shí)現(xiàn)多領(lǐng)域之間的圖像編輯效果.實(shí)驗(yàn)參數(shù)設(shè)置均是使用文章默認(rèn)的參數(shù).圖 8和圖9所示為我們的方法與兩種基準(zhǔn)實(shí)驗(yàn)的定性對(duì)比結(jié)果.
Fig.8 Automatic makeup result of CycleGAN and StarGAN and our model (Asia makeup dataset). The first column shows the input image,next five columns show the makeup results of different makeup style圖8 基于CycleGAN和StarGAN和本文模型的自動(dòng)上妝結(jié)果比較(亞洲妝容數(shù)據(jù)集).第1列是原始輸入圖片,后5列是5種不同妝容的上妝結(jié)果
CycleGAN沿用LSGAN[46]的思想,使用了最小二乘模型作為損失函數(shù),模型訓(xùn)練比較穩(wěn)定,生成圖片質(zhì)量較好.不過(guò),其只能做兩個(gè)域之間的圖像轉(zhuǎn)換,所以一次性只能做兩種類型妝容之間的轉(zhuǎn)換.StarGAN是較新的GAN模型,能夠?qū)崿F(xiàn)圖像多屬性之間的相互轉(zhuǎn)換,其利用了WGAN-gp、PatchGAN、循環(huán)保持身份信息、D網(wǎng)絡(luò)分類等特點(diǎn),生成的圖像質(zhì)量較好.但是,由于上述兩種方法均未進(jìn)行額外約束,其上妝細(xì)節(jié)和背景生成的效果不佳.我們提出的方法,即掩??刂频淖詣?dòng)上妝生成對(duì)抗網(wǎng)絡(luò),在編輯人臉妝容屬性時(shí),只對(duì)圖像中局部妝容區(qū)域作了修改,能夠約束無(wú)需改變的區(qū)域不變換,例如第3行中背景及頭發(fā)顏色特征保持得比較好.另外,本文提出的模型的效果圖更加自然,圖像中網(wǎng)格、噪聲等更少,圖像更加清晰.
Fig.9 Automatic makeup result of CycleGAN and StarGAN and our model (Europe makeup dataset). The first column shows the input image,next three columns show the makeup results of different makeup style圖9 基于CycleGAN和StarGAN和本文模型的自動(dòng)上妝結(jié)果比較(歐洲妝容數(shù)據(jù)集).第1列是原始輸入圖片,后3列是3種不同妝容的上妝結(jié)果
(2) 有無(wú)掩??刂频慕Y(jié)果比較
人臉妝容編輯中,簡(jiǎn)單來(lái)說(shuō),妝容屬性對(duì)應(yīng)的可變區(qū)域是人臉,除此之外均是不可變區(qū)域.如圖 10所示,第 1列是待編輯圖片,第 2列是在掩模監(jiān)督下使用原始圖片及原始標(biāo)簽重構(gòu)圖片得到的結(jié)果,第 3列是在沒(méi)有掩模監(jiān)督情況下直接重構(gòu)原始圖片得到的結(jié)果.
觀察重構(gòu)圖中不可變區(qū)域后發(fā)現(xiàn),如眼睛瞳孔、頭發(fā)、牙齒、飾物、背景等不可變區(qū)域在有掩模監(jiān)督訓(xùn)練下的質(zhì)量更加自然.例如第 2行紅圈處掩模法重構(gòu)圖像的頭發(fā)、背景等顏色保持得更加接近原始圖片.第 1行第3列中的右下角紅圈處,可以看見(jiàn)無(wú)掩模生成圖片的噪點(diǎn)、網(wǎng)格更多.又如第3行第3列額頭上的裝飾物,無(wú)掩模重構(gòu)法的額飾與原始圖片相比,顏色發(fā)生了改變,而這是我們并不希望的,與此相反,掩模重構(gòu)法的額飾卻并未改變顏色.此外,第1行第2列中的唇彩也比第1行第3列的唇彩更加自然,效果更好.因?yàn)槟P蛯?duì)圖像全局都要進(jìn)行編輯,難度較大,而引入圖像掩模的信息為網(wǎng)絡(luò)提供了編輯區(qū)域的位置信息,有助于編輯好重點(diǎn)變化的區(qū)域.綜上,掩模法不僅可以更好地保持非上妝區(qū)域的信息,對(duì)生成圖片質(zhì)量的提高也是很顯著的.
(3) 分部件上妝結(jié)果
如圖11所示,第1列是原圖,第1列是底妝區(qū)域上妝,可理解為粉底腮紅區(qū)域的上妝結(jié)果,這里用到的粉底腮紅屬于復(fù)古妝的類型,第2列是唇部上妝的結(jié)果,這里用到的唇部妝容屬于復(fù)古妝的類型,第3列是眼影區(qū)域的上妝,這里用到的眼影屬于亞洲煙熏妝的類型.
如圖12所示,第1列是原圖,第1列是底妝區(qū)域上妝,可理解為粉底腮紅區(qū)域的上妝結(jié)果,這里用到的粉底腮紅屬于彩妝的類型,第2列是唇部上妝的結(jié)果,這里用到的唇部妝容屬于歐洲煙熏妝的類型,第3列是眼影區(qū)域的上妝,這里用到的眼影屬于歐洲煙熏妝的類型.分部件上妝極大地方便了用戶,使得用戶可以根據(jù)心意靈活地選擇不同的上妝部位和對(duì)應(yīng)的上妝類型.
Fig.10 Comparison between reconstructed imgae of network using mask or not.The first column shows the input image,next columns show reconstructed imgaes圖10 有掩??刂频玫降闹貥?gòu)圖片與無(wú)掩??刂频玫降闹貥?gòu)圖片比較.第1列是輸入的原始圖片,后兩列是重構(gòu)圖片
Fig.11 Parts makeup result (I)圖11 分部件上妝效果示意圖(I)
Fig.12 Parts makeup result (II)圖12 分部件上妝效果示意圖(II)
(4) 多庫(kù)聯(lián)合訓(xùn)練和單庫(kù)訓(xùn)練的結(jié)果比較
如圖13所示,第1行是只用妝容數(shù)據(jù)庫(kù)的結(jié)果,第2行是妝容數(shù)據(jù)庫(kù)和CelebA數(shù)據(jù)庫(kù)聯(lián)合訓(xùn)練的模型的結(jié)果.第1列第1行的眉毛眼影處和第1列第2行的眉毛眼影處比較,第2列第1行的背景處和第2列第2行的背景處比較,第3列第1行的眼影頭發(fā)處和第3列第2行的眼影頭發(fā)處比較,可見(jiàn)多庫(kù)聯(lián)合訓(xùn)練生成的圖片更清晰、真實(shí),沒(méi)有網(wǎng)格噪聲點(diǎn),我們認(rèn)為這種擴(kuò)大數(shù)據(jù)量的方式對(duì)模型表現(xiàn)能力的提高是極有幫助的.
Fig.13 Comparison between results of proposed model training with multiple datasets and results of proposed model training with single datasets圖13 多庫(kù)聯(lián)合訓(xùn)練與單庫(kù)訓(xùn)練結(jié)果比較示意圖
本節(jié)討論在自動(dòng)上妝任務(wù)上評(píng)價(jià)指標(biāo)的選取.由于現(xiàn)在學(xué)術(shù)界也還未有特別好的方法評(píng)價(jià)生成圖片的質(zhì)量,目前經(jīng)常使用的一種方式是在亞馬遜勞務(wù)眾包平臺(tái) AMT上,讓人們對(duì)生成結(jié)果圖進(jìn)行評(píng)價(jià)并打分.即給定一些生成圖片,根據(jù)人類視覺(jué)感受,選擇人們認(rèn)為質(zhì)量最佳的圖片.但是這種人工打分的方法不是可復(fù)現(xiàn)的,所以,本文只將 AMT評(píng)分結(jié)果作為輔助.我們從當(dāng)前主流評(píng)價(jià)方法中選取一些合理的評(píng)價(jià)指標(biāo),并且結(jié)合最近在生成對(duì)抗網(wǎng)絡(luò)模型評(píng)價(jià)方面取得的進(jìn)展,最終選取了FID(Frechet inception distance)和SSIM作為評(píng)價(jià)指標(biāo),根據(jù)這些評(píng)價(jià)指標(biāo),最終得到了本文中的基準(zhǔn)實(shí)驗(yàn)和我們提出的方法的定量結(jié)果比較.
一個(gè)好的模型應(yīng)該生成這樣的樣本,即當(dāng)被分類器評(píng)估時(shí),類分布的熵要低.同時(shí),它應(yīng)該生成各種各樣的樣本,涵蓋所有的類.通過(guò)考慮真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的嵌入差異,可以計(jì)算 FID.假設(shè)編碼層遵循多變量高斯分布,則分布之間的距離被減小到相應(yīng)高斯之間的Frechet距離.FID是一個(gè)合理的指標(biāo),因?yàn)樗谀J教途幋a網(wǎng)絡(luò)選擇方面具有魯棒性,同時(shí)能夠較好地衡量真實(shí)數(shù)據(jù)和生成數(shù)據(jù)之間的差異,所以,本文將FID作為一個(gè)評(píng)價(jià)指標(biāo).FID利用分類網(wǎng)絡(luò)輸出的圖像類別特征分布,計(jì)算真實(shí)數(shù)據(jù)和生成數(shù)據(jù)之間的差異.實(shí)驗(yàn)中使用本文的化妝數(shù)據(jù)訓(xùn)練集上訓(xùn)練的Inception v3網(wǎng)絡(luò)進(jìn)行特征提取.這是由于本文數(shù)據(jù)均為人臉圖像,主要針對(duì)的是人臉化妝任務(wù)而非噪聲到圖像的通用 GANs任務(wù),當(dāng)人臉圖像作為輸入時(shí),通用的分類器得到的類別特征分布過(guò)于集中,難以精確地衡量不同人臉妝容之間的差異,所以本文使用了妝容分類器,網(wǎng)絡(luò)輸出類別為數(shù)據(jù)集對(duì)應(yīng)的妝容類別.而SSIM屬于圖像質(zhì)量評(píng)價(jià)全參考方法中比較經(jīng)典的方法,它分別從亮度、對(duì)比度、結(jié)構(gòu)這3個(gè)方面度量圖像相似性,給出了較為客觀的評(píng)價(jià).所以,最終我們挑選了FID和SSIM這兩種評(píng)價(jià)指標(biāo)作為本文中自動(dòng)上妝任務(wù)的評(píng)價(jià)指標(biāo).在實(shí)驗(yàn)中,FID主要衡量真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的分布相似性,并不需要每張生成圖像都有真實(shí)圖像作為參考.所以在計(jì)算FID時(shí),驗(yàn)證集作為真實(shí)數(shù)據(jù),其中的每張圖像都會(huì)生成全部妝容類別的生成圖像,以亞洲數(shù)據(jù)集的361張驗(yàn)證集為例,共得到了361×5張生成圖像.而SSIM直接衡量圖像之間的相似性,需要每張生成圖像都有對(duì)應(yīng)的真實(shí)圖像參考,所以每張驗(yàn)證集圖像僅生成與本身妝容類別對(duì)應(yīng)的生成圖像,即生成過(guò)程中保持妝容類別不變,完成“重構(gòu)生成”,以亞洲數(shù)據(jù)集為例,共生成了 361×1張生成圖像.定量實(shí)驗(yàn)結(jié)果見(jiàn)表 4和表5.
FID 的數(shù)值越低,說(shuō)明生成圖片質(zhì)量越好;SSIM 數(shù)值越高,說(shuō)明生成圖片質(zhì)量越好.從表中可以看到,與StarGAN和CycleGAN兩種當(dāng)前主流方法相比,本文方法在自動(dòng)上妝這個(gè)任務(wù)上能夠取得更好的結(jié)果.
Tabel 4 Comparison of quantitative experiment in Asian dataset表4 亞洲數(shù)據(jù)庫(kù)定量實(shí)驗(yàn)結(jié)果對(duì)比
Tabel 5 Comparison of quantitative experiment in European dataset表5 歐洲數(shù)據(jù)庫(kù)定量實(shí)驗(yàn)結(jié)果對(duì)比
本文選取了圖像風(fēng)格轉(zhuǎn)換領(lǐng)域中Liao等人[28]的代表性工作,以及妝容遷移領(lǐng)域中Liu等人[34]的代表性工作作為對(duì)比.這兩種方法均需要參考妝容圖片,而本文方法則不需要參考妝容圖片,所以在實(shí)驗(yàn)中,兩種相關(guān)工作均采用圖14所示的參考圖片,而本文提出的算法則是將妝容編輯目標(biāo)類別設(shè)置為煙熏妝.對(duì)比實(shí)驗(yàn)結(jié)果如圖14所示.
Fig.14 Comparison with other related works圖14 與其他相關(guān)工作的對(duì)比結(jié)果
從對(duì)比結(jié)果中可以看出,Liu等人[34]的方法較好地將參考圖片的眼影、唇彩等妝容遷移到輸入圖片,但存在妝容編輯較不自然的問(wèn)題.Liao等人[28]的方法較好地整體遷移了參考圖片的妝容,但背景等與上妝無(wú)關(guān)的區(qū)域也發(fā)生了較大的變化.而本文提出的方法則比較自然地將輸入圖片編輯為了目標(biāo)妝容煙熏妝的風(fēng)格.不過(guò),由于并不是依照參考圖片進(jìn)行的妝容遷移,難以編輯出參考圖片的特征風(fēng)格,如特殊的唇彩顏色等.
本文基于生成對(duì)抗網(wǎng)絡(luò),提出了掩??刂频淖詣?dòng)上妝方法.該方法在訓(xùn)練生成網(wǎng)絡(luò)的同時(shí)訓(xùn)練一個(gè)掩模生成網(wǎng)絡(luò),并通過(guò)掩模選擇模塊以及全局和局部的判別網(wǎng)絡(luò)實(shí)現(xiàn)了分部件上妝的功能,且能夠保持非上妝區(qū)域信息不變.本文使用SSIM和FID兩種主流的評(píng)價(jià)指標(biāo)對(duì)該方法進(jìn)行了定性和定量的對(duì)比實(shí)驗(yàn),并與兩種主流的圖像生成模型進(jìn)行了對(duì)比,充分證明了本文方法具有較好的上妝效果和圖像生成質(zhì)量.本文基于生成對(duì)抗網(wǎng)絡(luò)對(duì)自動(dòng)上妝進(jìn)行了深入研究,取得了一定的成果,但在以后的工作中還有改進(jìn)和優(yōu)化的方面.
· 嘗試對(duì)數(shù)據(jù)進(jìn)行擴(kuò)展,如光照、色彩對(duì)比度等,增強(qiáng)模型對(duì)人臉色彩生成的多樣性.
· 嘗試著重訓(xùn)練每個(gè)類別中有代表性的部分?jǐn)?shù)據(jù),盡可能地突出類別特點(diǎn),同時(shí)兼顧其他數(shù)據(jù),增強(qiáng)模型的泛化能力.