師永超 朱立軍
(沈陽化工大學計算機科學與技術(shù)學院 遼寧省沈陽市 110142)
近年來,深度學習[1]應用越來越廣,在圖像風格遷移上的應用也越來越多。圖像風格遷移是指將一幅圖片的風格或者輪廓遷移到另一幅圖像當中,還要確保原圖像結(jié)構(gòu)不變,最終實現(xiàn)內(nèi)容與風格的完美結(jié)合。最初的GAN 模型是生成的一些隨機點到輸出圖像,而條件生成對抗網(wǎng)絡(luò)對那些生成的點以及原圖像和風格或者輪廓圖像映射所生成的模型,最初的GAN 模型失敗的幾率很大,經(jīng)常訓練到一半就會崩潰。
在圖像的藝術(shù)風格遷移上,已經(jīng)有較多的研究,如2001年Hertzmann 等[2]提出了一種基于近似最近鄰搜索的方法對圖像的特征以及輪廓進行變換,2015年,Gatys 等[3]提出了一種采用神經(jīng)網(wǎng)絡(luò)的方法,自此深度學習開始提上了日程,但是效率方面還是有些欠缺,Johnson 等[4]提出采用之前的目標函數(shù),通過訓練神經(jīng)網(wǎng)絡(luò)只需將圖片傳入其中就可以得到自己想要的圖像,并且可以實現(xiàn)實時地進行風格遷移。
當前許多圖像風格遷移相關(guān)的工作,都是從損失函數(shù)的角度進行研究和改進,根據(jù)風格遷移任務的特點與難點,深度神經(jīng)網(wǎng)絡(luò)的圖像表示與圖像風格相關(guān)的特點。本文將從圖像生成器的結(jié)構(gòu)特點作出改變,通過把圖象風格遷移,對已存在的方法進行改進。Cyclegan 已經(jīng)實現(xiàn)不需要風格圖就可以進行風格遷移,所以希望可以有通用的模型將圖像展現(xiàn)出來。本文所提的方法使模型更加簡單同時生成的風格遷移效果更清晰更真實。
CycleGAN 可以實現(xiàn)在無監(jiān)督的情況下可以實現(xiàn)圖像與圖像風格的轉(zhuǎn)換,可以讓圖像不用配對只需傳入兩種圖像即可,結(jié)構(gòu)本身并未做出大的改變。
生成式對抗網(wǎng)絡(luò)GAN,在2014年Goodfellow 等人[5]開創(chuàng)性地提出了生成式對抗網(wǎng)絡(luò),就是有一個生成器一個判別器這兩個,通過生成器隨機生成一些噪聲向量,再通過判別器判別出圖像的真?zhèn)危瓦@樣不斷地進行比較知道分辨不出真假為止。Goodfellow 等人提出的生成式對抗網(wǎng)絡(luò)Gan 中對抗關(guān)系如式所示[6]:
其中:x 代表了圖像中的一些數(shù)字,z 為傳送給G 網(wǎng)絡(luò)的噪點,G(z)最終的圖形,Pdata(x)為輸出實際圖像的一些數(shù)據(jù),Pz(x)表示傳送到網(wǎng)絡(luò)G 的一些噪點的分布。
圖1:CycleGan 的學習方式
圖2:特征遷移示意圖
圖3:CycleGAN 網(wǎng)絡(luò)構(gòu)成
CycleGAN 在實現(xiàn)圖像到圖像的轉(zhuǎn)換中,主要是學習輸入圖像和輸出圖像之間的映射關(guān)系[7]。杜振龍等人[8]改進的模型在圖像遷移過程中大部分都需要訓練的樣本成對的出現(xiàn)就是一個原圖像和風格圖像,并且還需要一些標簽,但大部分情況很難實現(xiàn)。對于此,Zhu 等人[9]提出了CycleGAN 結(jié)構(gòu),可以實現(xiàn)任意兩個圖像之間的風格遷移,不需要一些標簽。該結(jié)構(gòu)擁有兩個G 與F 和Dx 與Dy,也就是生成式和判別式這兩個結(jié)構(gòu),具體如圖1所示。
在CycleGan 中,給定兩個數(shù)據(jù)X 和Y,對應關(guān)系G:X→Y 和F:Y→X,判別的模型分別是Dx 與Dy。映射關(guān)系G:X→Y 的目標函數(shù)定義如下所示:
圖4:生成器結(jié)構(gòu)
圖5:鑒別器結(jié)構(gòu)
圖6:CycleGAN 生成器結(jié)構(gòu)圖
圖7:結(jié)合深度特征遷移的生成器結(jié)構(gòu)圖
同理,映射關(guān)系 F:Y→X 的目標函數(shù)定義如下所示:
其損失函數(shù)定義如下所示:
Cycle GAN 的總目標函數(shù)定義如下所示:
本文設(shè)計的深度特征遷移模型包含三個部分:1、編碼器;2、解碼器;3、特征遷移模塊。在原圖像和風格圖像當中,編碼器部分與解碼器共享其中的一些,由兩個域各自特征遷移模塊學習域之間的特征表示遷移。如圖2所示。
圖8:圖像風格遷移圖像
圖9:梵高油畫風格遷移效果
圖10:梵高油畫風格遷移效果細節(jié)
CycleGAN 為了實現(xiàn)沒有標簽的原圖像與風格圖像更好的結(jié)合在一起,根據(jù)遷移的機制,從風格圖像的特征結(jié)合生成器模型進行一些改變。CycleGAN 網(wǎng)絡(luò)結(jié)構(gòu)如圖。由編碼器、轉(zhuǎn)換器和解碼器組成,如圖3所示。
表1:結(jié)果比較
圖11:頭發(fā)特征遷移
生成器結(jié)構(gòu)(圖4):
(1)編碼器:將圖像依次輸入到神經(jīng)網(wǎng)絡(luò)當中,提取到不同種類的風格。第一個卷積層的濾波器個數(shù)為64,輸入到編碼器時的尺寸為256×256,最終擁有256 個64×64 的特征向量
(2)轉(zhuǎn)換器:將圖像從一個領(lǐng)域中轉(zhuǎn)換到另一個領(lǐng)域中。
(3)解碼器:解碼器就是編碼器的逆過程。從特征向量中還原出低級特征的工作,等待圖像生成即可。如圖4所示。
(4)鑒別器:鑒別器將每一張圖片預測為原始的圖還是所生成的圖像。如圖5所示。
CycleGAN 的生成器結(jié)構(gòu)沿用了快速神經(jīng)風格遷移[5]中使用的殘差網(wǎng)絡(luò),有下采樣層以及上采樣層外帶一些殘差模塊。生成器結(jié)構(gòu)當中,采用兩個步長為2 的下采樣卷積層、9 個殘差模塊[11]、以及BN(Batch Normalization)層[8],卷積層和ReLU 層[12]結(jié)構(gòu)如圖6所示。
為了將深度特征遷移方法融合到CycleGAN 中,我們將生成器的下采樣卷積層與殘差模塊中的前三個作為編碼器,后三個殘差模塊與上采樣卷積層作為解碼器,中間三個殘差模塊作為特征遷移模塊。Gx 與Gy 可以共享編碼器與解碼器[1]。修改后的生成器結(jié)構(gòu)如圖7所示。
本文實驗中使用的操作系統(tǒng)為Ubuntu 14.04 位操作系統(tǒng),內(nèi)存16G,四核Inter CPU I7,顯卡為NVIDIA GTX 2070,使用Tensorflow-gpu1.5 版本深度學習框架進行實驗。本文所使用的基于改進CycleGAN 的圖像風格遷移算法在網(wǎng)絡(luò)訓練過程選用1500 張素描圖像作為圖像風格數(shù)據(jù),以及1000 張梵高油畫,在人臉頭發(fā)特征遷移以及梵高油畫特征分別進行遷移。訓練集中包含1500 張建筑風格的圖像,以及一些素描圖。模型采用隨機梯度優(yōu)化算法對參數(shù)進行優(yōu)化,最開始的學習率設(shè)置為1e-5,批次大小為1。效果對比如圖8所示。
圖像風格遷移只是對圖像的一些外觀就比如說是色彩,輪廓進行了改變,并且在從圖像的整體來看底層色彩也發(fā)生了不小的變化。Vangogh2photo 數(shù)據(jù)集擁有兩種圖形,一種是梵高的作品,還有一種是大自然的風景圖,但是兩者沒有一一對應關(guān)系。圖9是本章的方法在該數(shù)據(jù)集上的結(jié)果。從圖10可以看到更加細致一點的改變。因此本文所做的一種基于改進的CycleGAN 的方法不僅讓圖像從底層色彩發(fā)生了變化,并且在外觀的輪廓也擁有了梵高的一些特色,就目前來說,這種方法擁有一些通用性,也可以擴展到其他的應用上面。
如圖11所示,本文搜集了1000 張公開的頭發(fā)數(shù)據(jù)集,從實驗結(jié)果可以看到,通過改進的方法,生成的頭發(fā)特征效果不錯,頭發(fā)、臉龐等圖像的看上去更加真實,人物并沒有大的變化,從表情、神態(tài)、臉龐五官都有著不錯的效果,證明改進的深度特征遷移方法也可以通用一些其它的遷移圖。
生成對抗網(wǎng)絡(luò)生成圖像,其本質(zhì)還是一個圖像處理問題,當然可以用評價圖片質(zhì)量的標準來衡量生成圖片的質(zhì)量,常用的評價圖像質(zhì)量的方法有主觀評價和客觀評價兩種[12]。常見的客觀評價指標有均方差(mean squared error,MSE)、峰值信噪比(peak signal to noise ratio,PSNR)和架構(gòu)相似性指標(structual similarit,SSIM)[14],其數(shù)學表達式如下:
圖像的SSIM 值越接近 1.0,表示原圖像和目標圖像更接近。
本文對比 WGAN、CycleGAN 和本文設(shè)計的 CycleGAN 生成圖片的質(zhì)量,得到表1。
從表1可知在素描類型的風格遷移實驗結(jié)果中本文所提的改進型CycleGAN方法的SSIM和PSNR均高于其他方法。圖像質(zhì)量更優(yōu)。
從結(jié)果來看,本文提出的一種深度特征遷移改進的生成器,在圖像風格遷移過程中,和原始的WGAN、CycleGAN 相比,所生成的圖像的PSNR 值平均提高了4.81%,SSIM 值均提高了約7.74%,從頭發(fā)特征遷移以及梵高的油畫當中來看,本文所設(shè)計的模型具有一定的通用性,圖片生成的質(zhì)量也有所提升,實驗結(jié)果表明可以試用一些其他的模型,從而減小了工作所需要的時間,并且從訓練來看此模型較之前的相比,模型更加穩(wěn)定一些,圖像的真實性方面以及豐富性得到了一些提高,讓人觀測上去更加真實。本文只是對這幾種風格圖進行了實驗,如果有條件的話可以嘗試一些其他風格的效果展示。