蘭 天,辛月蘭,殷小芳,劉衛(wèi)銘,姜星宇
(青海師范大學(xué)物理與電子信息工程學(xué)院,青海 西寧 810001)
近年來,機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的發(fā)展取得了重大的突破,尤其是深度學(xué)習(xí)的發(fā)展使計算機(jī)具備了非常強(qiáng)大的感知能力,計算機(jī)可以感知物體、識別內(nèi)容,甚至理解人們說的話。生成式對抗網(wǎng)絡(luò)GAN(Generative Adversarial Network) 是Goodfellow[1]在2014年提出的一種生成模型。目前GAN在圖像處理領(lǐng)域和計算機(jī)視覺領(lǐng)域得到了廣泛的研究和應(yīng)用,例如圖像復(fù)原[2]、圖像識別[3]、超分辨率合成[4]和語義分割[5]等,并且相比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)取得了更優(yōu)異的效果。無監(jiān)督的圖像風(fēng)格遷移是一種圖像到圖像的轉(zhuǎn)換問題[6],在沒有配對示例的情況下將圖像從源域X轉(zhuǎn)換到目標(biāo)域Y的方法。圖像到圖像的轉(zhuǎn)換可以追溯到Hertzman[7]的圖像類比,他們在單個輸入輸出訓(xùn)練圖像對上采用了非參數(shù)紋理模型,在傳統(tǒng)的圖像風(fēng)格遷移模型中,一種算法同時只能進(jìn)行一種圖像風(fēng)格的遷移,因此它有著極大的限制。而Gatys等[8]首次使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像風(fēng)格的遷移,可以同時獲得多種圖像風(fēng)格,首先輸入原圖像,對深層卷積神經(jīng)網(wǎng)絡(luò)中的卷積層所獲得的圖像特征進(jìn)行圖像內(nèi)容的約束,然后通過不同階段的卷積特征學(xué)習(xí)得到圖像紋理,進(jìn)行紋理約束,從而優(yōu)化得到最終結(jié)果。Isola等[6]提出的“pix2pix”框架借助條件生成對抗網(wǎng)絡(luò)[9]來學(xué)習(xí)從輸入圖像到輸出圖像的映射,這是真正意義上利用GAN進(jìn)行圖像風(fēng)格遷移的方法,但需要成對匹配的數(shù)據(jù)。無論以上哪種方法都是在有監(jiān)督的條件(即具有先驗知識)下進(jìn)行的,這些模型都需要預(yù)先對源域和目標(biāo)域的數(shù)據(jù)進(jìn)行匹配,但如果想改變一幅圖像的風(fēng)格,例如校園夏天的圖像變成秋天的圖像,幾乎不可能找到和此圖像內(nèi)容完全一致的秋景讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),因此以上方法均不是理想的方法。
研究人員最近廣泛研究在沒有監(jiān)督的情況下進(jìn)行圖像轉(zhuǎn)換。這個問題看似是一個不合理的問題,因為它需要另外附加約束。然而無監(jiān)督的圖像風(fēng)格遷移目前有了幾種解決方案,Resales等[10]提出了一種包含先驗知識的貝葉斯框架,該框架基于馬爾可夫隨機(jī)場計算由多個源圖像和一個似然項而得到的風(fēng)格圖像。耦合生成對抗網(wǎng)絡(luò)[11]和跨場景模式網(wǎng)絡(luò)使用權(quán)重共享策略來實現(xiàn)跨域的通用表示。Liu等[12]將變分自動編碼器[13]與耦合生成對抗網(wǎng)絡(luò)結(jié)合在一起,利用GAN框架,將不同圖像域的圖像特征映射到同一空間中,其中2個生成器共享權(quán)重以學(xué)習(xí)跨域圖像的聯(lián)合分布。與上述方法不同的是,循環(huán)一致性網(wǎng)絡(luò)不依賴于輸入和輸出之間任何特定于任務(wù)的預(yù)定義的相似性函數(shù),也不假定輸入和輸出必須位于相同的低維空間中,因此循環(huán)一致性網(wǎng)絡(luò)是圖像到圖像轉(zhuǎn)換的通用解決方案。卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像處理中,并且在圖像處理任務(wù)中取得了最佳的性能。在各類經(jīng)典的神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)中,效果最好的結(jié)構(gòu)是DenseNet[14],在該結(jié)構(gòu)中,每一層均采用密集連接的方式將該層之前的每一層輸出引入到該層中,極大增強(qiáng)了網(wǎng)絡(luò)的建模能力。相比ResNet[15],DenseNet網(wǎng)絡(luò)的不同之處在于它提出了特征共享的思想,因此其參數(shù)量會大幅減少,并且避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)梯度消失的缺陷。因此,本文在生成器網(wǎng)絡(luò)部分引入DenseNet,組成了密集連接的殘差網(wǎng)絡(luò),網(wǎng)絡(luò)訓(xùn)練速度得到提升。同時,將attention機(jī)制引入網(wǎng)絡(luò),使生成器不再只關(guān)注局部特征,生成的圖像效果更佳。而在網(wǎng)絡(luò)結(jié)構(gòu)方面,在每一個卷積層都增加譜歸一化,這樣可以降低模型的結(jié)構(gòu)風(fēng)險。
循環(huán)一致性對抗網(wǎng)絡(luò)的核心結(jié)構(gòu)是2組生成式對抗網(wǎng)絡(luò),這2組生成式對抗網(wǎng)絡(luò)是合作關(guān)系。X與Y分別代表2組不同的圖像數(shù)據(jù)域,第1組生成對抗網(wǎng)絡(luò)是生成器G(從X到Y(jié)的生成)與判別器DY,用于判斷生成的圖像是否屬于域Y;第2組生成對抗網(wǎng)絡(luò)是生成器F(從Y到X的生成)與判別器DX,用于判斷圖像是否屬于域X。2個生成器的目標(biāo)是盡可能生成對方域的圖像來“騙過”對方的鑒別器。
生成式對抗網(wǎng)絡(luò)GAN由生成器G和判別器D組成,2個網(wǎng)絡(luò)并非合作關(guān)系,而是對抗與博弈的關(guān)系。在對抗與博弈的過程中,生成網(wǎng)絡(luò)G就好比贗品制作者,而判別網(wǎng)絡(luò)就好比一個鑒別師,贗品制作者仿制能力會越來越強(qiáng),鑒別師的鑒別能力也會越來越強(qiáng),二者通過不斷地對抗最終達(dá)到一個平衡。G和D的對抗損失函數(shù)如式(1)所示:
minGmaxDV(D,G)=Ex~Pdata(x)[logD(x)]+
Ez~Pz(x)[log(1-D(G(x)))]
(1)
其中,x為輸入的圖像數(shù)據(jù),Pdata(x)為輸入圖像的數(shù)據(jù)分布,Pz(x)為輸入到生成網(wǎng)絡(luò)的噪聲分布,E表示數(shù)學(xué)期望。
從理論上來看通過2組生成對抗網(wǎng)絡(luò)獨(dú)立的訓(xùn)練就能達(dá)成目標(biāo),但是這之間存在一個問題是生成器G可以不從域X中提取任何信息而直接從域Y生成數(shù)據(jù),獨(dú)立訓(xùn)練會失去各自的意義,因此需要引入循環(huán)一致性網(wǎng)絡(luò)。
Figure 1 Principle diagram of two groups of generative adversarial network圖1 2組生成式對抗網(wǎng)絡(luò)原理圖
圖1的2個過程可以用式(2)和式(3)表達(dá):
x→G(x)→F(G(x))≈x
(2)
y→F(y)→G(F(y))≈y
(3)
其中,式(2)表示前向循環(huán)一致性,式(3)表示反向循環(huán)一致性,前向循環(huán)一致性和反向循環(huán)一致性組成了一個完整的循環(huán)一致性網(wǎng)絡(luò)。
為了將生成圖像的數(shù)據(jù)分布與目標(biāo)域圖像數(shù)據(jù)的分布進(jìn)行匹配,需要引入對抗損失,而傳統(tǒng)的對抗損失通常會出現(xiàn)訓(xùn)練不穩(wěn)定的情況,生成圖像會出現(xiàn)模式崩潰的問題。因此,為了穩(wěn)定訓(xùn)練過程并生成更高質(zhì)量的圖像,本文采用最新的研究成果來穩(wěn)定訓(xùn)練過程,即采用如(4)式所示的Wasserstein GAN(衡量真實數(shù)據(jù)分布和生成數(shù)據(jù)分布之間距離)[16]的改進(jìn)模型WGAN-GP替換式(1):
LGAN=Ex[D(x)]-Ex[D(G(x))]-
(4)
為了防止學(xué)習(xí)到的映射G和F相互矛盾,需要引入循環(huán)一致性損失。循環(huán)一致性損失函數(shù)如式(5)所示:
Lcyc(G,F)=Ex~Pdata(x)[‖F(xiàn)(G(x))-x‖1]+
Ey~Pdata(y)[‖G(F(y))-y‖1]
(5)
式(5)使用L1范數(shù)計算損失,因此完整的損失函數(shù)如式(6)所示:
L=LGAN+Lcyc(G,F)
(6)
人類在看東西時首先會進(jìn)行定位,即最先關(guān)注到感興趣的區(qū)域,而這種該關(guān)注哪里就看哪里的機(jī)制就是注意力機(jī)制(attention)。注意力機(jī)制旨在捕獲長距離依賴關(guān)系,而捕獲這種依賴關(guān)系是深度神經(jīng)網(wǎng)絡(luò)的核心問題,對于序列數(shù)據(jù)(語音),周期性操作是長距離依賴關(guān)系建模的主要解決方案,而對于圖像數(shù)據(jù),長距離依賴關(guān)系是由卷積操作形成的大的感受野。使用非局部操作捕獲長距離依賴關(guān)系可以對遠(yuǎn)端圖像細(xì)節(jié)進(jìn)行協(xié)調(diào),從而輸出優(yōu)異的結(jié)果。最近的研究表明,注意力機(jī)制已經(jīng)成為必須捕獲全局依賴性的模型的組成部分,大多數(shù)基于GAN的圖像生成模型是使用卷積層構(gòu)建的,卷積在局部鄰域中處理信息,因此僅使用卷積層在建模圖像中的長距離依賴關(guān)系時計算效率低下。本文在生成器部分引入注意力機(jī)制,注意力機(jī)制通過關(guān)注同一序列中的所有位置來計算序列中某個位置的響應(yīng),首先將來自先前隱藏層的圖像特征轉(zhuǎn)換到2個特征空間以計算注意力,然后注意力層的輸出乘以比例參數(shù),最后加回到輸入的圖像數(shù)據(jù),這使網(wǎng)絡(luò)可以首先依靠鄰域中的線索,然后逐步學(xué)會為非鄰域特征分配更多的權(quán)重。該機(jī)制不僅可以更好地對結(jié)構(gòu)性強(qiáng)的圖像進(jìn)行建模,并且還可以保留更多圖像細(xì)節(jié)。注意力機(jī)制結(jié)構(gòu)如圖2所示。
Figure 2 Structure of attention mechanism圖2 注意力機(jī)制結(jié)構(gòu)
圖2中,Q,K,V分別表示來自隱藏層的3個特征向量空間,Q為查詢向量,K為鍵向量,二者執(zhí)行Softmax操作后與值向量V相乘得到注意力特征圖。
最近有關(guān)網(wǎng)絡(luò)參數(shù)調(diào)節(jié)與GAN相關(guān)的最新見解表明,生成器的條件幾乎決定了訓(xùn)練的成敗,因為GAN的訓(xùn)練總是不穩(wěn)定的,而歸一化技術(shù)有助于加速訓(xùn)練,提高準(zhǔn)確性,提高學(xué)習(xí)速率。Miyato等[17]通過將譜歸一化應(yīng)用于判別器網(wǎng)絡(luò)來穩(wěn)定GAN的訓(xùn)練,但這樣做會限制網(wǎng)絡(luò)每層的譜范數(shù),從而限制了鑒別器的Lipschitz條件(函數(shù)的導(dǎo)數(shù)始終小于某個固定的常數(shù)K)。與其他歸一化技術(shù)相比,譜歸一化不需要額外的超參數(shù)調(diào)整,并且計算成本也相對較小。因此,本文將譜歸一化應(yīng)用于生成器中,以防止參數(shù)幅度的提升并避免異常的梯度。從實驗中可以發(fā)現(xiàn),生成器和鑒別器的譜歸一化可以顯著降低訓(xùn)練的計算成本,也能使訓(xùn)練更穩(wěn)定。
Figure 3 Generator network圖3 生成器網(wǎng)絡(luò)
本文所采用的實驗平臺為Intel i5 8300H 2.3 GHz 4核處理器,圖形處理器NVIDA GTX1060(6 GB),內(nèi)存8 GB,深度學(xué)習(xí)框架采用基于GPU版本的PyTorch 0.4.1。數(shù)據(jù)集使用facades數(shù)據(jù)集以及由cycleGAN提供的monet2photo數(shù)據(jù)集和vangogh2photo數(shù)據(jù)集。其中,facades數(shù)據(jù)集包含226幅語義圖像和226幅真實圖像,這些圖像均作為訓(xùn)練集和測試集。monet2photo數(shù)據(jù)集包括2種風(fēng)格的圖像,訓(xùn)練集由莫奈油畫風(fēng)格圖像和相機(jī)拍攝的風(fēng)景風(fēng)格圖像組成,其中莫奈油畫風(fēng)格訓(xùn)練集由1 337幅256×256大小的圖像組成,風(fēng)景風(fēng)格訓(xùn)練集由3 671幅256×256大小的圖像組成,同樣測試集也由2種風(fēng)格的圖像組成,莫奈油畫風(fēng)格的測試集由271幅256×256大小的圖像組成,風(fēng)景風(fēng)格測試集由751幅256×256大小的圖像組成。vangogh2photo數(shù)據(jù)集包含梵高畫作風(fēng)格圖像和風(fēng)景風(fēng)格圖像,梵高畫作訓(xùn)練集由755幅256×256大小的圖像組成,風(fēng)景風(fēng)格訓(xùn)練集由6 287幅256×256大小的圖像組成,測試集由400幅256×256大小的梵高畫作風(fēng)格圖像和751幅256×256大小的風(fēng)景風(fēng)格圖像組成。
生成器網(wǎng)絡(luò)由編碼層、轉(zhuǎn)換層和解碼層構(gòu)成,傳統(tǒng)循環(huán)一致性網(wǎng)絡(luò)轉(zhuǎn)換層由6個ResNet模塊組成,本文改進(jìn)的網(wǎng)絡(luò)采用9個Dense Block模塊。在ResNet中,第k層的輸入Xk-1經(jīng)過函數(shù)Hk后得到的輸出Hk(Xk-1)再加上輸入就組成了下一層的輸入Xk,如式(7)所示:
xk=Hk(Xk-1)+xk-1
(7)
而DenseNet由Dense Block模塊組成,第k-1層的輸入與之前所有層的輸入按照通道組合在一起作為真正的輸入,經(jīng)過一個BN層、ReLU和卷積層后得到對應(yīng)的隱層輸出,該輸出即是下一層的輸入Xk,如式(8)所示:
xk=Hk([X0,X1,…,Xk-2,Xk-1])
(8)
盡管DenseNet采用密集連接的方式,但實際參數(shù)量比ResNet少得多。本文生成器網(wǎng)絡(luò)模型如圖3所示,其中,編碼層的作用是將輸入圖像的特征向量進(jìn)行編碼,轉(zhuǎn)換層的作用是將輸入的特征向量轉(zhuǎn)換為目標(biāo)域的特征向量,解碼層的作用是對目標(biāo)域的特征向量解碼,生成目標(biāo)域的圖像。在轉(zhuǎn)換層的開始和結(jié)束都增加一個注意力機(jī)制,除了解碼層第3個反卷積,其余每一個卷積層都增加譜歸一化。
判別器網(wǎng)絡(luò)采用Isola等[6]提出的PatchGAN判別模型,PatchGAN的思想是將圖像劃分為若干個70×70的圖像塊,然后對這些圖像塊是真實的還是生成的進(jìn)行分類,計算這些圖像塊分類的結(jié)果平均值,從而判斷圖像是真實的還是生成的。判別器網(wǎng)絡(luò)模型如圖4所示。
Figure 4 Discriminator network圖4 判別器網(wǎng)絡(luò)
訓(xùn)練時同時訓(xùn)練2個域的圖像,即莫奈油畫風(fēng)格圖像和風(fēng)景風(fēng)格圖像、梵高畫作風(fēng)格圖像和風(fēng)景風(fēng)格圖像、建筑物語義圖像和真實圖像,這些圖像并沒有進(jìn)行配對。傳統(tǒng)的循環(huán)一致性網(wǎng)絡(luò)訓(xùn)練時每一次迭代需要40 min,而本文改進(jìn)的網(wǎng)絡(luò)每次迭代減少到34 min左右。
為了體現(xiàn)模型的泛化能力,本文在facades和vangogh2photo數(shù)據(jù)集上分別進(jìn)行了莫奈油畫風(fēng)格轉(zhuǎn)風(fēng)景風(fēng)格和風(fēng)景風(fēng)格轉(zhuǎn)莫奈油畫風(fēng)格的實驗,并將實驗效果和DiscoGAN[18]、傳統(tǒng)的循環(huán)一致性網(wǎng)絡(luò)CycleGAN進(jìn)行了對比。
3.3.1 monet2photo數(shù)據(jù)集上實驗結(jié)果
莫奈油畫風(fēng)格轉(zhuǎn)風(fēng)景風(fēng)格的對比結(jié)果如圖5所示,第1列為輸入圖像,第2列為CycleGAN的結(jié)果,第3列為DiscoGAN的結(jié)果,第4列為本文方法的結(jié)果。
Figure 5 Contrast experiment of Monet style transferred to landscape photos圖5 莫奈風(fēng)格轉(zhuǎn)風(fēng)景風(fēng)格對比實驗
輸入為莫奈油畫風(fēng)格圖像,實驗?zāi)繕?biāo)是將莫奈油畫風(fēng)格圖像轉(zhuǎn)換為風(fēng)景風(fēng)格圖像,實驗結(jié)果越接近真實生活場景則效果越好。從圖5可以看出,傳統(tǒng)的CycleGAN在稻草堆轉(zhuǎn)換過程中保留了油畫當(dāng)中的紅色,DiscoGAN結(jié)果出現(xiàn)變形,而本文方法更接近真實生活中的土黃色并且形狀未發(fā)生改變;而第2行中CycleGAN和DiscoGAN生成的結(jié)果中海水出現(xiàn)了綠色;第3行本文方法生成的結(jié)果中無論天空顏色還是草地細(xì)節(jié)都優(yōu)于前2種方法。
風(fēng)景風(fēng)格轉(zhuǎn)莫奈油畫風(fēng)格的實驗結(jié)果如圖6所示,第1列為輸入圖像,第2列為CycleGAN生成的圖像,第3列為DiscoGAN結(jié)果,第4列為本文方法結(jié)果。
Figure 6 Contrast experiment of landscape photos transferred to Monet style圖6 風(fēng)景照轉(zhuǎn)莫奈畫風(fēng)對比實驗
輸入風(fēng)景風(fēng)格圖像,學(xué)習(xí)莫奈油畫風(fēng)格圖像,希望將風(fēng)景風(fēng)格圖像轉(zhuǎn)換為莫奈油畫風(fēng)格圖像。從圖6可以看出,傳統(tǒng)的CycleGAN生成的圖像更像是將風(fēng)景風(fēng)格換了顏色,第1行的綠樹也沒有生成很好的細(xì)節(jié);第2行背景顏色沒有得到很好的生成;第3行路邊小花沒有得到保留;而本文方法的結(jié)果更接近真實的油畫風(fēng)格,并且細(xì)節(jié)得到更多保留。因此,實驗結(jié)果表明,本文引入的attention機(jī)制有助于提升圖像的生成效果。
3.3.2 facades和vangogh2photo數(shù)據(jù)集上實驗結(jié)果
facades數(shù)據(jù)集上的實驗結(jié)果如圖7所示,輸入為語義圖,目標(biāo)是將語義圖還原為真實圖像,第1列為輸入,第2列為CycleGAN實驗結(jié)果,第3列為DiscoGAN實驗結(jié)果,第4列為本文方法實驗結(jié)果。
Figure 7 Experimental results on facades data set圖7 facades數(shù)據(jù)集上的實驗結(jié)果
從實驗結(jié)果可以看出,DiscoGAN實驗結(jié)果比CycleGAN實驗結(jié)果涂抹感更嚴(yán)重一些,而本文方法在細(xì)節(jié)恢復(fù)上更勝一籌,尤其是第2行最后一幅圖像樓下的護(hù)欄。
vangogh2photo數(shù)據(jù)集上的實驗結(jié)果如圖8所示,第1列為輸入,第2列為CycleGAN結(jié)果圖像,第3列為DisacoGAN結(jié)果圖像,第4列為本文方法實驗結(jié)果。輸入為梵高畫作風(fēng)格圖像,目的是將其轉(zhuǎn)換為風(fēng)景風(fēng)格圖像。
Figure 8 Contrast experiment of Van Gogh style transferred to landscape photos圖8 梵高畫作風(fēng)格圖像轉(zhuǎn)風(fēng)景風(fēng)格圖像對比實驗
從實驗結(jié)果來看,盡管CycleGAN和DiscoGAN取得了相似的結(jié)果,且 CycleGAN的實驗結(jié)果細(xì)節(jié)更豐富,例如第2行遠(yuǎn)處的房子,但是色彩還原上不盡人意。而本文方法無論是顏色上還是細(xì)節(jié)上都獲得了良好的效果。
3.3.3 消融實驗
為了驗證attention機(jī)制(AT)在生成效果上的有效性,本文進(jìn)行了消融對比實驗,實驗結(jié)果如圖9所示。經(jīng)過大量實驗表明,使用DenseNet網(wǎng)絡(luò)和譜歸一化技術(shù)僅起到加快網(wǎng)絡(luò)收斂速度和提高穩(wěn)定性的作用,對圖像生成效果并沒有本質(zhì)的提升;而attention機(jī)制善于捕獲全局細(xì)節(jié),對于顏色的捕獲也非常敏感,對于圖像生成效果起到至關(guān)重要的作用。例如第1行圖像立體結(jié)構(gòu)發(fā)生較大改變,引入attention機(jī)制有明顯的效果提升,而對風(fēng)景風(fēng)格圖像在顏色上的還原也起到良好的作用。
Figure 9 Ablation comparison test圖9 消融對比實驗
IS(Inception Score)分?jǐn)?shù)是衡量圖像質(zhì)量的常用指標(biāo),IS分?jǐn)?shù)通過計算目標(biāo)域的概率分布和生成圖像的概率分布之間的KL散度(概率分布之間的相似程度)來衡量生成圖像和目標(biāo)域圖像之間的差異。本文采用IS分?jǐn)?shù)進(jìn)行評估,IS分?jǐn)?shù)通過谷歌提供的Inception V3網(wǎng)絡(luò)計算得到,該網(wǎng)絡(luò)主要從圖像清晰度和圖像多樣性來衡量圖像生成的質(zhì)量,因此IS分?jǐn)?shù)越高則代表生成圖像的質(zhì)量越好。IS平均分?jǐn)?shù)對比如表1所示。
Table 1 IS comparison
FID(Fréchet Inception Distance)是更權(quán)威和更全面的一種評價指標(biāo),在評估所生成樣本的真實性和變化方面與人類主觀感受更加一致。FID分?jǐn)?shù)同樣通過谷歌提供的Inception V3網(wǎng)絡(luò)計算得到,衡量特征空間中生成圖像和實際圖像之間的距離。因此,F(xiàn)ID分?jǐn)?shù)越低,意味著生成數(shù)據(jù)分布與實際數(shù)據(jù)分布之間的距離越接近,圖像生成效果越好。FID平均分?jǐn)?shù)對比如表2所示。
Table 2 FID comparison
傳統(tǒng)的循環(huán)一致性網(wǎng)絡(luò)采用的ResNet在實驗過程中表現(xiàn)并不穩(wěn)定,有時會出現(xiàn)梯度消失的現(xiàn)象,導(dǎo)致生成器無法繼續(xù)學(xué)習(xí),而本文集成了DensNet網(wǎng)絡(luò),在減少參數(shù)量的同時也避免了梯度消失現(xiàn)象,訓(xùn)練過程更穩(wěn)定。通過對生成器引入注意力機(jī)制提高了圖像的生成效果,可以更好地進(jìn)行圖像風(fēng)格遷移。