楊慧炯,韓燕麗,郭蕓俊
(太原工業(yè)學(xué)院 計(jì)算機(jī)工程系, 太原 030008)
圖像風(fēng)格遷移是計(jì)算機(jī)視覺技術(shù)、計(jì)算機(jī)圖像非真實(shí)感渲染中的常見問題,一直受到學(xué)者們的廣泛關(guān)注。圖像風(fēng)格遷移的本質(zhì)為:在維持某個(gè)圖像內(nèi)容基本語義不變的前提下,將另外某個(gè)風(fēng)格圖像中提取的風(fēng)格表示應(yīng)用于該圖像,從而達(dá)到該圖像與風(fēng)格圖像風(fēng)格表示相吻合的目的。傳統(tǒng)的風(fēng)格遷移手段一般采用基于圖像全局或局部紋理進(jìn)行建模的方式,由于只提取了圖像的底層特征,而非高層抽象特征,在處理顏色和紋理較復(fù)雜的圖像時(shí),最終會(huì)導(dǎo)致合成效果較為粗糙,難以符合實(shí)際需求[1]。
近年來,深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的研究得到了廣泛關(guān)注。Zeiler等[2]通過反卷積法分析圖像中不同區(qū)域?qū)D像分類輸出的影響,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)特征進(jìn)行了深入探索。Mahendran等[3]通過基于梯度的方法優(yōu)化某個(gè)目標(biāo)函數(shù)實(shí)現(xiàn)淺層和深層網(wǎng)絡(luò)表達(dá)的圖像重構(gòu),以此了解特征信息在各層網(wǎng)絡(luò)的存儲(chǔ)機(jī)制,從而確立了深層網(wǎng)絡(luò)對(duì)圖像特征表達(dá)的作用。Krizhevsky等[4]通過訓(xùn)練一個(gè)面向數(shù)量為120萬的高分辨率圖像數(shù)據(jù)集ImageNet(圖像種類為1 000種)的深度卷積神經(jīng)網(wǎng)絡(luò),在圖像識(shí)別的Benchmark數(shù)據(jù)集上取得了較好的成績(jī)。
受深度卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模圖像分類上取得的優(yōu)異性能的啟發(fā),借助其強(qiáng)大的多層次圖像特征和語義表征能力,Gatys等[5]提出基于VGG的網(wǎng)絡(luò)模型,conv4_2的特征映射輸出可以作為圖像的內(nèi)容表示,通過VGG網(wǎng)絡(luò)每一層輸出的特征映射之間的內(nèi)積運(yùn)算所得到的Gram矩陣可以作為圖像的風(fēng)格表示?;谏鲜鲅芯?,Gatys等[6-7]率先提出了一種基于最優(yōu)算法的紋理圖像合成方法,該方法采用Mahendran和Vedaldi[3]提出的損失函數(shù)的計(jì)算方法來分別計(jì)算圖像的風(fēng)格損失和內(nèi)容損失,并將二者結(jié)合在一起進(jìn)行圖像的風(fēng)格遷移。
由于最優(yōu)化的圖像生成方法需要進(jìn)行反復(fù)的迭代運(yùn)算,從而導(dǎo)致在迭代過程中消耗大量的計(jì)算資源,很多深度學(xué)習(xí)網(wǎng)絡(luò)使用基于網(wǎng)絡(luò)計(jì)算的感知損失函數(shù)來構(gòu)建前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像合成[8-10]。Johnson和Ulyanov等[11-12]利用Gatys等定義的感知損失函數(shù),構(gòu)建了可以進(jìn)行快速風(fēng)格遷移的前饋神經(jīng)網(wǎng)絡(luò)。Ulyanov等[13]在前饋神經(jīng)網(wǎng)絡(luò)中通過實(shí)例正則化代替批處理正則化進(jìn)行訓(xùn)練和測(cè)試,顯著提高了快速樣式傳輸?shù)纳蓤D像的質(zhì)量。在后續(xù)的研究中,Luan等[14]在風(fēng)格遷移網(wǎng)絡(luò)中通過加入正則化項(xiàng)來避免輸出圖像中出現(xiàn)太多的畸變。Gatys等[15]通過YIQ色彩空間,將顏色信息和亮度信息單獨(dú)控制,分別實(shí)現(xiàn)了基于顏色直方圖匹配和基于亮度信息的深度神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移,可以在圖像藝術(shù)風(fēng)格遷移的同時(shí),保留原有內(nèi)容圖像的顏色特征。
上述方法在圖像風(fēng)格遷移,特別是圖像的藝術(shù)風(fēng)格化處理中取得了令人驚喜的效果,但是仍有以下兩個(gè)問題需待解決:
首先,由于算法中只對(duì)圖像的顏色特征進(jìn)行了處理而沒有對(duì)亮度特征加以考慮,從而造成風(fēng)格化后圖像的藝術(shù)層次變化不佳,特別是當(dāng)原始圖像中存在大面積色塊區(qū)域時(shí),往往造成風(fēng)格化后圖像在該區(qū)域的效果不佳。如圖1所示,對(duì)于藍(lán)天中的白云部分,采用梵高的《星空(The Starry Night)》風(fēng)格化后,與原風(fēng)格圖像在藝術(shù)效果表現(xiàn)上產(chǎn)生較大的變化。
其次,在藝術(shù)作品中,像筆觸的形狀、紋理等精細(xì)空間的特征結(jié)構(gòu),與作品中整體藝術(shù)風(fēng)格在特征表現(xiàn)上是不同的,但是現(xiàn)有的方法并沒有對(duì)這些不同尺度的特征做有效的區(qū)分,從而造成風(fēng)格化后的圖像雖然在整體藝術(shù)風(fēng)格上與原藝術(shù)作品有較好的相關(guān)性,但是在細(xì)節(jié)上往往還存在較大的差距。
本文對(duì)快速風(fēng)格遷移前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn),通過綜合考慮圖像的顏色信息和亮度信息構(gòu)建多尺度分層網(wǎng)絡(luò),可以在圖像整體藝術(shù)風(fēng)格和細(xì)節(jié)特征處理效果上得到有效提高。
圖1 由于顏色區(qū)域變化造成風(fēng)格化效果不佳
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移算法[6]的基本工作原理如下:
假設(shè)風(fēng)格圖像xS和待處理的內(nèi)容圖像xC,其對(duì)應(yīng)CNN網(wǎng)絡(luò)第l層的卷積特征分別表示為Fl(xS)和Fl(xC)。其中Fl(x)的每一列都是一個(gè)矢量特征映射,并且Fl∈RMl(x)×Nl(Nl為CNN網(wǎng)絡(luò)第l層的特征映射數(shù)量,即卷積通道數(shù)量;Ml(x)=Hl(x)×Wl(x)是每個(gè)特征映射的高度和寬度的乘積,Ml(x)由輸入圖像的分辨率大小決定)。
Ltotal=αLC+βLS
(1)
其中LC為內(nèi)容損失函數(shù),在CNN網(wǎng)絡(luò)第l層。LC表示為:
(2)
LS為風(fēng)格損失函數(shù),表示CNN網(wǎng)絡(luò)多層風(fēng)格損失函數(shù)的加權(quán)疊加,即:
(3)
(4)
其中Gl(x)為圖像x對(duì)應(yīng)CNN網(wǎng)絡(luò)第l層卷積特征的Gram矩陣。
(5)
基于文獻(xiàn)[6]中所論述方法,本文采用VGG-19網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,利用“conv4_2”輸出進(jìn)行內(nèi)容損失LC的計(jì)算,采用“conv1_1”“conv2_1”“conv3_1”及“conv4_1”的輸出進(jìn)行風(fēng)格損失的計(jì)算。
如圖2所示,基于亮度與色度信息的圖像風(fēng)格遷移網(wǎng)絡(luò)由3部分構(gòu)成,分別為風(fēng)格化子網(wǎng)Style-Subnet、紋理細(xì)化子網(wǎng)Refine-Subnet和損失網(wǎng)絡(luò)Loss-Network。其中風(fēng)格化子網(wǎng)Style-Subnet和紋理細(xì)化子網(wǎng)Refine-Subnet構(gòu)成1個(gè)多層前饋神經(jīng)網(wǎng)絡(luò)。輸入圖像xC首先通過風(fēng)格化子網(wǎng)Style-Subnet,以顏色和亮度信息為特征進(jìn)行風(fēng)格遷移,然后經(jīng)過紋理細(xì)化子網(wǎng)Refine-Subnet對(duì)精細(xì)的紋理進(jìn)行處理。2個(gè)子網(wǎng)的輸出和內(nèi)容圖像、風(fēng)格圖像共同構(gòu)造損失網(wǎng)絡(luò)Loss-Network,通過對(duì)整體損失Total Loss進(jìn)行優(yōu)化訓(xùn)練處理,完成整個(gè)遷移過程。
在一幅圖像的空間尺度上,顏色信息是其在特征感知方面的重要特征,它在很大程度上獨(dú)立于圖像的筆觸紋理變化等其他風(fēng)格特征。而從另外一個(gè)方面來看,由于人眼的視覺感知系統(tǒng)對(duì)亮度變化的敏感程度遠(yuǎn)遠(yuǎn)高于對(duì)顏色變化的敏感程度[16-19],因而亮度信息又可以作為圖像風(fēng)格的細(xì)節(jié)變化以及精細(xì)紋理特征的重要表述?;谏鲜鲈?,圖像的色彩和亮度信息都可以作為風(fēng)格遷移網(wǎng)絡(luò)的重要感知特征,成為圖像風(fēng)格化有意義的控制緯度。
圖2 風(fēng)格遷移網(wǎng)絡(luò)整體框架
3.1.1顏色直方圖匹配
(6)
其中:A為3×3矩陣;b為一個(gè)三維向量。假設(shè)μC和μS分別為內(nèi)容圖像和風(fēng)格圖像的顏色均值,ΣC和ΣS分別為內(nèi)容圖像和風(fēng)格圖像的協(xié)方差,則有:
(7)
(8)
b=μS-AμC
(9)
(10)
基于上述約束條件,將內(nèi)容圖像和風(fēng)格圖像顏色信息作為Color-Block的輸入進(jìn)行訓(xùn)練。
3.1.2亮度匹配
假設(shè)內(nèi)容圖像和風(fēng)格圖像的亮度通道分別為L(zhǎng)C和LS,Luminance-Block將內(nèi)容圖像的亮度LC進(jìn)行遷移,以實(shí)現(xiàn)和風(fēng)格圖像的亮度LS相匹配。假設(shè)μC和μS分別為內(nèi)容圖像和風(fēng)格圖像的亮度均值,σC和σS分別為二者的標(biāo)準(zhǔn)差,則圖像的亮度遷移可以通過式(11)進(jìn)行表示。
(11)
本文采用YUV色彩空間,分別將內(nèi)容圖像和風(fēng)格圖像的亮度分量Y作為式(11)中亮度通道LC和LS的值,對(duì)Luminance-Block網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)訓(xùn)練。
Color-Block和Luminance-Block輸出的feature map分別按照顏色通道分量和亮度通道分量沿著向量深度進(jìn)行連接,作為CNN-Block的卷積特征輸入進(jìn)一步進(jìn)行處理。
Color-Block、Luminance-Block和CNN-Block的網(wǎng)絡(luò)設(shè)計(jì)及訓(xùn)練策略基于文獻(xiàn)[11,16,20]中所述方法進(jìn)行。
按照如圖2所示網(wǎng)絡(luò)結(jié)構(gòu),其損失函數(shù)為
(12)
(13)
基于上述網(wǎng)絡(luò)結(jié)構(gòu)及學(xué)習(xí)策略,本文提出的圖像風(fēng)格遷移算法流程如下:
步驟1讀取風(fēng)格圖像和內(nèi)容圖像,并進(jìn)行歸一化處理。
步驟2進(jìn)行圖像色彩空間變換,內(nèi)容圖像和風(fēng)格圖像分別從RGB色彩空間轉(zhuǎn)換為YUV色彩空間。
步驟3將內(nèi)容圖像和風(fēng)格圖像的亮度分量Y和顏色分量UV分別作為風(fēng)格化子網(wǎng)Style-Subnet的Luminance-Block和Color-Block的輸入,Color-Block按照式(6)~(10)約束,Luminance-Block按照式(11)約束,采用文獻(xiàn)[11,16,20]的方法進(jìn)行訓(xùn)練。
步驟4將Luminance-Bloc和Color-Block輸出的feature map分別沿著顏色通道分量和亮度通道分量進(jìn)行拼接運(yùn)算,作為CNN-Block的卷積特征輸入,按照文獻(xiàn)[11,16,20]所述方法進(jìn)行訓(xùn)練。
步驟7將步驟6計(jì)算輸出的各子網(wǎng)遷移損失按照式(12)進(jìn)行加權(quán)運(yùn)算,計(jì)算網(wǎng)絡(luò)的整體遷移損失。
步驟8對(duì)步驟7的計(jì)算結(jié)果進(jìn)行評(píng)價(jià),并按照上述步驟進(jìn)行迭代訓(xùn)練,直到滿足訓(xùn)練要求。
實(shí)驗(yàn)中采用微軟的COCO數(shù)據(jù)集[21]進(jìn)行訓(xùn)練,該數(shù)據(jù)集中包含82 783張圖片。訓(xùn)練過程中batch_size參數(shù)設(shè)定為4,epoch參數(shù)設(shè)定為2,將圖像歸一化為256×256分辨率,采用Adam優(yōu)化器進(jìn)行迭代優(yōu)化。利用VGG-19網(wǎng)絡(luò)模型的“conv4_2”輸出進(jìn)行內(nèi)容損失LC的計(jì)算,采用“conv1_1”“conv2_1”“conv3_1”及“conv4_1”的輸出進(jìn)行風(fēng)格損失LS的計(jì)算,內(nèi)容損失權(quán)重參數(shù)content_weight設(shè)定為1,風(fēng)格損失權(quán)重參數(shù)style_weight則根據(jù)不同的風(fēng)格圖像進(jìn)行設(shè)定。由于紋理細(xì)化子網(wǎng)Refine_Subnet是在風(fēng)格化子網(wǎng)Style-Subnet進(jìn)行圖像整體藝術(shù)風(fēng)格遷移基礎(chǔ)上對(duì)紋理、筆觸等細(xì)節(jié)進(jìn)行處理,因而紋理細(xì)化子網(wǎng)Refine_Subnet的損失計(jì)算在整個(gè)網(wǎng)絡(luò)的損失計(jì)算中相對(duì)于風(fēng)格化子網(wǎng)Style-Subnet來說應(yīng)占有較小的比例,本文中,2個(gè)子網(wǎng)的損失權(quán)重比例設(shè)定為λ1∶λ2=1∶0.5。
基于上述網(wǎng)絡(luò)結(jié)構(gòu)及訓(xùn)練策略,實(shí)驗(yàn)中將本文所采用的方法與Johnson[11]和Ulyanov[13]的方法用相同的風(fēng)格損失權(quán)重進(jìn)行對(duì)比,結(jié)果如圖3所示。
圖3中,第1列為待處理的內(nèi)容圖像,第2列為風(fēng)格圖像,第3列到第5列分別為Jonhson、Ulyanov和本文所采用算法的實(shí)驗(yàn)效果。從圖中可以看出,相對(duì)于前兩種算法處理結(jié)果,本文所采用算法在色彩、紋理細(xì)節(jié)及整體藝術(shù)風(fēng)格上都具有較好的效果表現(xiàn),在藝術(shù)表現(xiàn)上和風(fēng)格圖像具有更強(qiáng)的相關(guān)性。
圖4和圖5分別為2張圖像風(fēng)格遷移效果的細(xì)節(jié)紋理局部放大。由圖4可以看出,采用梵高的《羅納河上的星夜(Starry Night Over the Rhone)》做風(fēng)格遷移,對(duì)于顏色變化不明顯的大面積色塊天空區(qū)域,Jonhson和 Ulyanov的處理效果均無法正確表現(xiàn)出原作品中天空的變化和筆觸的細(xì)節(jié)變化。而采用本文所提出的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行處理后,能較好地將原作品的藝術(shù)風(fēng)格效果還原出來。
圖5為采用埃米爾·諾爾德的《庭園(Blumengarten)》和畢加索的《坐著的裸女(Seated Female Nude)》做風(fēng)格遷移。從原始圖像的局部放大可以看出,相對(duì)于Jonhson和 Ulyanov的處理效果,本文采用的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練處理后,在筆觸的細(xì)節(jié)上能夠更好地對(duì)原作品的藝術(shù)風(fēng)格進(jìn)行展現(xiàn)。
圖3 實(shí)驗(yàn)結(jié)果對(duì)比
圖4 局部放大效果對(duì)比(一)
圖5 局部放大效果對(duì)比(二)
本文全部實(shí)驗(yàn)所采用的硬件環(huán)境為:Intel Core(TM) i7-4790 3.6GHZ八核處理器;DDR3 16G內(nèi)存;NVIDIA GTX 1070i顯卡。將本文所采用算法分別與Jonhson在文獻(xiàn)[11]中和Ulyanov在文獻(xiàn)[13]中所述算法進(jìn)行比較,分別對(duì)1 000張1 024×768分辨率的圖像進(jìn)行處理,平均處理速度和內(nèi)存使用情況如表1所示。從表1中可以看出:本文采用算法的平均處理速度為6.9 s,內(nèi)存使用為4 900 M。在相同的硬件環(huán)境下,處理速度和內(nèi)存使用相對(duì)于其他兩種風(fēng)格遷移網(wǎng)絡(luò)來說基本相當(dāng)。
表1 算法性能比較
在分析深度學(xué)習(xí)圖像風(fēng)格遷移算法在遷移效果方面存在主要問題的基礎(chǔ)上,通過將圖像的顏色信息和亮度信息分離,構(gòu)建多尺度分層網(wǎng)絡(luò),解決了由于大面積色塊帶來的風(fēng)格化效果不佳和紋理細(xì)節(jié)及筆觸風(fēng)格表現(xiàn)不足的問題,可以使圖像在整體藝術(shù)風(fēng)格和細(xì)節(jié)特征處理效果上得到有效提升。