向澤林 樓旭東 李旭偉
盲人臉修復(fù)任務(wù)是從低質(zhì)量的圖像(例如模糊、噪聲和壓縮圖像)中恢復(fù)高質(zhì)量的圖像.由于事先不知道低質(zhì)量圖像的退化類型和退化參數(shù),因此盲人臉修復(fù)是一個(gè)高度病態(tài)的問題,在修復(fù)過程中嚴(yán)重依賴各種先驗(yàn)指導(dǎo).然而,由于面部成分和面部標(biāo)志等面部先驗(yàn)通常是從低質(zhì)量圖像中提取或估計(jì)的,可能存在不準(zhǔn)確的情況,這直接影響最終的修復(fù)性能,因此難以有效利用這些先驗(yàn)知識.此外,目前的主流方法基本都是依賴ConvNets進(jìn)行特征提取,沒有很好地考慮長距離特征,導(dǎo)致最終結(jié)果缺乏連續(xù)一致性.本文提出了一種改進(jìn)的StyleGAN模型,命名為SwinStyleGAN,應(yīng)用在高級視覺任務(wù)上表現(xiàn)出色的Swin Transformer來提取長距離特征,并通過改進(jìn)后的類StyleGAN合成網(wǎng)絡(luò)逐步生成圖像.本文設(shè)計(jì)了一個(gè)空間注意力轉(zhuǎn)換模塊SAT來重新分配每個(gè)階段特征的像素權(quán)重,以進(jìn)一步約束生成器.大量實(shí)驗(yàn)表明,本文提出的方法具有更好的盲人臉修復(fù)性能.
盲人臉修復(fù); ConvNets; Swin Transformer; StyleGAN; 空間注意力轉(zhuǎn)換模塊
TP391A2023.032003
收稿日期: 2023-02-16
基金項(xiàng)目: 國家重點(diǎn)研發(fā)項(xiàng)目(2020YFC0832404)
作者簡介: 向澤林(1975-), 男, 四川資陽安岳人, 講師, 主要研究領(lǐng)域?yàn)閳D像處理、故障診斷.E-mail: xiangzelin@cisisu.edu.cn
通訊作者: 李旭偉.E-mail: lixuwei@scu.edu.cn
Blind face restoration based on Swin Transformer and? Style-Based Generator
XIANG Ze-Lin1, LOU Xu-Dong2, LI Xu-Wei2
(1.Chengdu Institute Sichuan International Studies University, Dujiangyan 611844, China;
2.College of Computer Science, Sichuan University, Chengdu 610065, China)
Blind face restoration is the process of restoring a high-quality image from a low-quality image (e.g., blurred, noisy, or compressed image). Since the degradation type and degradation parameters of the low-quality image are unknown, blind face restoration is a highly ill-posed problem that heavily relies on various facial prior such as facial components and facial landmarks during the restoration process. However, these facial priors are typically extracted or estimated from low-quality images, which may be inaccurate, directly affecting the final restoration performance. The current mainstream methods mostly use ConNets for feature extraction and do not consider long-distance features, resulting in a lack of continuous consistency in the final results.The authors propose an improved StyleGAN model named SwinStyleGAN, which uses Swin Transformer to extract long-distance features and gradually generates images through an improved StyleGAN synthesis network.Addtionally, the authors design a Spatial Attention Transformation (SAT) module to reassign pixel weights of each stage feature to further constrain the generator. Experiments show that the proposed SwinStyleGAN in this paper has better blind face restoration performance.
Blind face restoration; ConvNets; Swin Transformer; StyleGAN; Spatial attention transformation
1 引 言圖像修復(fù)是計(jì)算機(jī)視覺中一項(xiàng)至關(guān)重要且具有挑戰(zhàn)性的任務(wù),其主要目的是從低質(zhì)量退化圖像重建高質(zhì)量清晰圖像,如圖像修復(fù)[1,2]、圖像去模糊[3,4]、圖像重構(gòu)[5,6]、圖像去噪和圖像超分辨率(SR)[7,8]等任務(wù).
現(xiàn)有的圖像修復(fù)方法大多是基于卷積神經(jīng)網(wǎng)(ConvNets)[9-13]設(shè)計(jì)的.由于卷積的設(shè)計(jì)是局部連接的,在處理圖像信息時(shí)該方法無法捕捉到圖像的遠(yuǎn)距離依賴信息,有研究表明其實(shí)際感受也遠(yuǎn)小于理論感受,不利于充分利用上下文信息進(jìn)行特征捕獲.雖然可以不斷堆疊更深的卷積層,但會導(dǎo)致模型過于臃腫和計(jì)算量過大.我們隨機(jī)選擇了幾層特征并將他們可視化,如圖1所示.圖1中,第一行是ConvNets;第二行是Swin Transformer.注意力熱圖從左至右分別來自第1、2、4、6層編碼器.顯然,Transformer的attention范圍要比Convolution大很多.也有不少研究[5,14,15]在面部修復(fù)中利用了面部的先驗(yàn)知識,并驗(yàn)證了這些先驗(yàn)面部特征對于恢復(fù)精確面部細(xì)節(jié)的重要性.
然而,這些先驗(yàn)知識是從低質(zhì)量圖像中提取的,其準(zhǔn)確性受到原始輸入圖像質(zhì)量的限制.為解決卷積網(wǎng)絡(luò)無法捕捉到圖像的遠(yuǎn)距離依賴信息這一問題,本文有效地引入了Transformer[16-21]來替代常用的用于特征提取的卷積網(wǎng)絡(luò).Transformer依靠自注意力機(jī)制來捕獲上下文之間的全局交互,并在計(jì)算機(jī)視覺上顯示出較好的性能.對于無法充分利用面部先驗(yàn)知識等問題,我們使用改進(jìn)的StyleGAN[22,23]來生成具有先驗(yàn)信息的逼真圖像.改進(jìn)后的類StyleGAN生成器并沒有經(jīng)過預(yù)訓(xùn)練,但實(shí)驗(yàn)表明這并不影響最終結(jié)果的有效性.
本文提出一種SwinStyleGAN的盲人臉修復(fù)模型,可被視為一種編碼器-解碼器結(jié)構(gòu).其主要由三部分組成,Swin Transformer特征提取模塊、改進(jìn)后的類StyleGAN[22,23]生成模塊、判別器模塊.與卷積和ViT[21]相比,Swin Transformer[20]具有更強(qiáng)大的全局特征提取能力、參數(shù)和計(jì)算量大幅度減少等優(yōu)點(diǎn).大量研究[17,18,20,21]表明,無論是在圖像分類還是其他下游任務(wù)中,全局特征都優(yōu)于局部特征,文中實(shí)驗(yàn)也證實(shí)了這一點(diǎn).本文將Swin Transformer[20]的結(jié)構(gòu)引入到StyleGAN中以提高其穩(wěn)定性.在StyleGAN生成過程的每一步,都會將其輸出為RGB圖像,并通過金字塔重構(gòu)損失來進(jìn)一步規(guī)范生成過程,使修復(fù)的圖像效果更加逼真.此外,空間注意力轉(zhuǎn)換(Spatial Attention Transformatio, SAT)模塊可以進(jìn)一步約束StyleGAN.最后,我們設(shè)計(jì)了一個(gè)鑒別器來區(qū)分真實(shí)圖像和生成圖像,進(jìn)一步增強(qiáng)了生成模型的能力.
本文工作的主要貢獻(xiàn)有:(1) 引入Swin Transformer作為特征提取模塊,以提取圖像的全局特征,從而有效地提高圖像語義描述的性能;(2) 從Transformer中抽象出一個(gè)雙階段的跳過連接的一種通用架構(gòu),用來改進(jìn)StyleGAN的基于樣式的生成器模塊,以增強(qiáng)StyleGAN的生成能力,并使訓(xùn)練過程更加穩(wěn)定; (3) 與一般圖像恢復(fù)任務(wù)設(shè)計(jì)的重建損失不同,在生成過程中為每個(gè)分辨率設(shè)計(jì)了一個(gè)重建損失,稱為金字塔重構(gòu)損失.
2 相關(guān)工作
圖像修復(fù)主要包括超分辨率[7,8]、圖像修復(fù)[1,2]、重構(gòu)[5,6]和去模糊[3,4].盲人臉修復(fù)最常用的模型是基于ConvNets的.事實(shí)上,ConvNets在圖像特征提取方面的效果是相當(dāng)有效和顯著的.Yang等人[26]提出了可以逐漸填充面部細(xì)節(jié)的HiFaceGAN.Li等人[27]介紹了GRFNet,可以學(xué)習(xí)用于盲人臉修復(fù)的扭曲指導(dǎo).Chen等人[5] 提出了PSFRGAN,使用漸進(jìn)式語義感知樣式轉(zhuǎn)換和類似于StyleGAN[22,23]的漸進(jìn)式生成方法來修復(fù)盲人臉.Wang等人[6,25]提出了退化去除模塊和預(yù)訓(xùn)練的人臉生成器,用于盲人臉修復(fù).然而,基于CNN的方法主要關(guān)注小的判別區(qū)域,難以關(guān)注圖像的整體信息.此外,CNN中的下采樣操作(如池化和步幅卷積)會降低輸出特征圖的空間分辨率,導(dǎo)致CNN提取的特征缺失了一些信息.幸運(yùn)的是,最近興起的Transformer[16,20,21]可以彌補(bǔ)CNN的這些不足.Liang等人[24]提出了基于Swin Transformer[20]的圖像恢復(fù)任務(wù)SwinIR,并取得了非常好的結(jié)果.本文也使用Swin Transformer進(jìn)行特征提取,也取得了不錯的效果
3 實(shí)現(xiàn)方法
針對基于卷積網(wǎng)絡(luò)無法捕捉到圖像的遠(yuǎn)距離依賴信息和無法充分利用面部先驗(yàn)知識這兩個(gè)問題,本文提出了SwinStyleGAN模型.接下來將對SwinStyleGAN模型的網(wǎng)絡(luò)結(jié)構(gòu)和構(gòu)成進(jìn)行詳細(xì)描述.
3.1 SwinStyleGAN模型
SwinStyleGAN模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.輸入損壞的低分辨率圖像,經(jīng)過該模型處理后,可以輸出清晰的修復(fù)圖像,并盡可能接近基準(zhǔn)(Ground Truth)圖像的像素.SwinStyleGAN模型包含三個(gè)模塊:(1) Transformer特征提取模塊,由多個(gè)Swin Transformer塊組成;(2) 基于StyleGAN[22-23]改進(jìn)的人臉重建模塊;(3) 判別器模塊.這三個(gè)模塊之間按順序連接,此外,我們還增加了一個(gè)空間注意力轉(zhuǎn)換(Spatial Attention Transformation, SAT)模塊,其工作方式類似于U-Net[28],目的是將編碼器的特征引入到解碼器中,用以提升結(jié)果的保真度.
3.2 基于Transformer的特征提取模塊
編碼器-解碼器的對稱結(jié)構(gòu)在多個(gè)圖像處理任務(wù)中展示了其強(qiáng)大的功能.本文設(shè)計(jì)了一個(gè)類似U-Net的網(wǎng)絡(luò)結(jié)構(gòu),并使用Swin Transformer進(jìn)行特征提取.在encoder的每一階段,經(jīng)過兩個(gè)連續(xù)的Swin Transformer Block和patch merging層后,token的數(shù)量會減少,特征維度的數(shù)量會增加.特征提取方法定義如下式.
Fswin,F(xiàn)latent=SwinILQ? (1)
其中,Swin·是基于Swin Transformer的特征提取模塊;ILQ是SwinStyleGAN的低質(zhì)量輸入;Fswin,F(xiàn)latent是從該模塊中提取的特征,F(xiàn)latent是類StyleGAN生成器在歸一化和映射網(wǎng)絡(luò)之后的樣式輸入,并且Swin特征Fswin用于在空間注意力轉(zhuǎn)換模塊之后調(diào)制StyleGAN特征.
3.3 空間注意力轉(zhuǎn)換模塊
大量研究表明,網(wǎng)絡(luò)的淺層特征對于各種計(jì)算機(jī)視覺任務(wù)非常重要.本文保留了Swin Transformer提取的多階段特征,作為類StyleGAN生成器的輸入之一來控制生成.考慮到特征在不同階段和不同像素點(diǎn)的重要性是不同的,本文設(shè)計(jì)的空間注意力轉(zhuǎn)換模塊,可以使模型在訓(xùn)練過程中,自動判斷特征的重要性.如圖2所示,SAT是一個(gè)倒置的瓶頸結(jié)構(gòu),其隱藏層的維度比輸入維度寬4倍,雖然該結(jié)構(gòu)與MobileNetV2[29]類似,但本文進(jìn)行了多項(xiàng)改進(jìn).首先,在激活函數(shù)的選擇上,使用GELU[30]代替ConvNets中常用的ReLU[31].受限于顯存,本文實(shí)驗(yàn)的batch size較小,而batch size的大小對BatchNorm的效果有較大的影響.當(dāng)batch size較小時(shí),Batch Norm的效果可能會受到噪聲數(shù)據(jù)的影響,導(dǎo)致性能下降.Transformer中常用的LayerNorm(LN)[32]更簡單,從而能在不同的應(yīng)用場景下獲得更好的性能.在實(shí)驗(yàn)中,由于batch size比較小,所以選擇使用LN而不是BN.空間注意力轉(zhuǎn)換模塊的具體操作定義如下式.
B=SATFswin(2)
3.4 改進(jìn)的StyleGAN類生成器模塊
StyleGAN的生成能力極其強(qiáng)大,幾乎可以生成人眼無法分辨真假的圖像.一般來說,StyleGAN會從當(dāng)前分辨率開始穩(wěn)定地訓(xùn)練,然后逐漸過渡到下一個(gè)更高分辨率的階段.在初始階段,網(wǎng)絡(luò)主要專注于低分辨率圖像,在訓(xùn)練過程中逐漸將注意力轉(zhuǎn)移到更高分辨率的圖像上.
在使用原始StyleGAN結(jié)構(gòu)進(jìn)行訓(xùn)練時(shí),我們發(fā)現(xiàn)網(wǎng)絡(luò)非常不穩(wěn)定,恢復(fù)結(jié)果中的一些細(xì)節(jié)與原始圖像相差甚遠(yuǎn).文獻(xiàn)[33,34]的研究表明,Transformer的強(qiáng)大之處不僅在于Self-attention機(jī)制的使用,還在于其結(jié)構(gòu)框架(雙層殘差連接)的設(shè)計(jì).因此,我們將Transformer的結(jié)構(gòu)與StyleGAN的合成網(wǎng)絡(luò)相結(jié)合,嘗試使用殘差連接來改善訓(xùn)練不穩(wěn)定的問題,并使用相同的風(fēng)格特征多次調(diào)制該分辨率下的生成特征.雖然高斯隨機(jī)噪聲可以豐富生成圖像的多樣性,但該特征也會給圖像復(fù)原帶來一定程度的誤差,因此我們使用SAT模塊處理后的特征來代替高斯隨機(jī)噪聲,以降低其隨機(jī)性,具體結(jié)構(gòu)如圖3所示.模塊的整體生成過程如下式所示.
Iout=StyleGANMLPFlatent,B(3)
其中,StyleGAN·是生成模塊,主要由一系列上采樣和調(diào)制卷積組成,其輸入為SAT模塊處理的特征B和由多層感知器MLP·生成的樣式特征;Iout為修復(fù)后的圖像.
3.5 損失函數(shù)設(shè)計(jì)
除了最基本的重構(gòu)損失和GAN中引入的對抗損失外,我們還引入了感知損失和風(fēng)格損失.整體模型損失函數(shù)定義如下.
Ltotal=λpyrLpyr+λadvLadv+λperLper+λstyleLstyle(4)
損失函數(shù)的超參數(shù)設(shè)置如下:λper=3.0,λadv=0.1,λper=1.0,λstyle=50.0.式(4)中包括了金字塔重構(gòu)損失、對抗損失和風(fēng)格損失等4種損失.
(1) 金字塔重構(gòu)損失.為了使圖像在每個(gè)生成階段都接近所需的GT,我們將GT重塑為從8×8到512×512的多個(gè)分辨率大小,并將每個(gè)階段的特征卷積為三通道的RGB圖像,然后分別與相應(yīng)分辨率大小的GT圖像計(jì)算重建損失.稱其為金字塔重構(gòu)損失,采用L1計(jì)算,公式如下.
Lpyr=∑y︿i-yi1(5)
其中,y︿i和yi分別表示在第i階段通過特征卷積得到的RGB圖像和對應(yīng)分辨率大小的GT圖像.本文共設(shè)計(jì)了7層金字塔.
(2) 對抗損失.GAN[29]的對抗損失Ladv可以指導(dǎo)生成器生成更加自然的圖像,同時(shí)產(chǎn)生更加逼真的紋理,生成器定義如下式.
Ladv=Euclid Math TwoEA@y︿~Euclid Math TwoPA@gDy︿-Euclid Math TwoEA@y~Euclid Math TwoPA@rD(y)(6)
其中,D(·)表示鑒別器; y︿和y分別表示輸出圖像和真實(shí)圖像.
(3) 感知損失.為了捕獲更多上下文特征信息,引入了感知損失,用于度量特征空間中的距離.為了獲得特征圖,我們使用19層的預(yù)訓(xùn)練VGG[35]網(wǎng)絡(luò),并使用卷積后的前五個(gè)特征圖.感知損失定義如下.
Lper=φy︿-φy1(7)
其中,φ·是19層的預(yù)訓(xùn)練VGG網(wǎng)絡(luò),y︿和y分別代表輸出圖像和真實(shí)圖像.
(4) 風(fēng)格損失.Liu等人進(jìn)一步提出了風(fēng)格損失,類似于感知損失,使用Gram矩陣計(jì)算特征之間的相關(guān)性,可以有效地捕獲紋理信息.我們分別從輸出圖像和真實(shí)圖像中提取特征并計(jì)算特征相關(guān)性.計(jì)算公式如下.
Lstyle=Grimφy︿-Grimφy1(8)
其中,Grim·用于Gram矩陣特征提取.
4 實(shí)驗(yàn)與結(jié)果
4.1 數(shù)據(jù)集和實(shí)現(xiàn)細(xì)節(jié)
SwinStyleGAN的訓(xùn)練集為FFHQ數(shù)據(jù)集[36],該數(shù)據(jù)集包含70 000張分辨率為1024×1024的HQ人臉圖像.我們將所有圖像的分辨率大小調(diào)整為512×512.為了構(gòu)建LQ-HQ圖像對來訓(xùn)練我們的模型,使用以下退化模型從FFHQ中的HQ圖像合成退化人臉,合成方式如下.
ILQ=IHQk↓s+nδJPEG↑s (9)
上述過程已經(jīng)在多篇論文[5,27,37,38]中使用過.其中,IHQ是高質(zhì)量圖像,它與模糊內(nèi)核k卷積,然后進(jìn)行下采樣操作(比例因子為s).向圖像添加高斯噪聲nδ,再進(jìn)行質(zhì)量因子為q的JPEG壓縮操作.最后,將壓縮圖像調(diào)整為原始大小.對于每個(gè)HR圖像,我們分別從{1∶8}{0∶15}{6∶100}中隨機(jī)抽樣s,δ和q.
在整個(gè)訓(xùn)練期間,我們設(shè)置的Batch Size為4,采用Adam作為模型的優(yōu)化器[39],共進(jìn)行1 M次迭代,學(xué)習(xí)率設(shè)置為2e-5.使用PyTorch框架和單個(gè)RTX 3090 NVIDIA GPU訓(xùn)練我們提出的SwinStyleGAN.
4.2 方法比較和評估指標(biāo)
我們將SwinStyleGAN方法與幾種較先進(jìn)的盲人臉修復(fù)方法進(jìn)行了比較,分別是DeblurGANv2[3]、HiFaceGAN[26]、PSFRGAN[5]、PULSE[40]和GPEN[25].同時(shí),我們還將SwinStyleGAN方法與其它圖像超分辨率方法Bicubic、Super-FAN[41]、Real-ESRGAN[8]和GPEN[25]進(jìn)行了比較.我們對CelebA-Test和VGGFace-Test進(jìn)行與訓(xùn)練集相同的退化處理.在基于真實(shí)情況的評估方面,采用了廣泛使用的像素級指標(biāo):PSNR和SSIM,這兩個(gè)指標(biāo)都是基于對應(yīng)像素點(diǎn)之間的誤差,沒有考慮到人眼的視覺特性.因此,評價(jià)結(jié)果往往與人的主觀感受不一致.相比之下,基于學(xué)習(xí)的感知相似性度量更符合人類感知.因此,我們還采用了感知度量評價(jià)指標(biāo)LPIPS[42]和FID[43].
4.3 合成圖像與真實(shí)圖像的比較
除了對兩個(gè)合成數(shù)據(jù)集和兩個(gè)真實(shí)的低質(zhì)量數(shù)據(jù)集進(jìn)行盲人臉修復(fù)比較之外,還在CelebA-Test數(shù)據(jù)集上進(jìn)行了x4超分辨率比較,其對比結(jié)果驗(yàn)證了SwinStyleGAN的有效性.定性結(jié)果如圖4 ~圖8所示,從展示的復(fù)原結(jié)果來看,除了一些細(xì)節(jié)外,SwinStyleGAN的修復(fù)效果是令人滿意的,能夠生成更接近人眼主觀感受的修復(fù)圖像.雖然PULSE[40]方法具有較好的圖像修復(fù)效果,且符合人眼的主觀感知.但很明顯,其生成的圖像與輸入圖像之間存在巨大差異,即保真度低下,并丟失了一些原始特征.
每種方法的定量結(jié)果如表1~表3所示,表3中,粗體表示最佳性能.SwinStyleGAN實(shí)現(xiàn)了最低的LPIPS[42],表明本文提出的SwinStyleGAN模型在感知上更接近真實(shí)情況.此外,SwinStyleGAN在FID[43]上也取得了更好的結(jié)果,表明其輸出結(jié)果與真實(shí)人臉分布的距離更加接近.
4.4 消融實(shí)驗(yàn)
為了更好地理解SwinStyleGAN各個(gè)模塊的作用,我們做了幾組對比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表4所示,粗體表示最佳性能,可以發(fā)現(xiàn),移除任何一個(gè)模塊都將導(dǎo)致性能下降.(1) 用卷積代替Transformer.我們嘗試用卷積替換原來的Transformer作為模型的特征提取模塊.雖然整體效果令人滿意,但部分細(xì)節(jié)不是很完整,人臉的一些局部位置缺乏一定的連續(xù)性.FID和LPIPS指標(biāo)分別上升了1.31和0.0331.(2) 刪除空間注意轉(zhuǎn)換.為了驗(yàn)證SAT模塊的有效性,將其移除后進(jìn)行訓(xùn)練,并對結(jié)果進(jìn)行定量分析.去除SAT模塊后,F(xiàn)ID和LPIPS指標(biāo)分別上升了3.39和0.0689,說明SAT可以提升模型效果.(3) 去除金字塔重構(gòu)損失.金字塔恢復(fù)損失可以增強(qiáng)對現(xiàn)實(shí)世界中復(fù)雜退化的恢復(fù)能力.如果沒有這個(gè)模塊,后續(xù)調(diào)制的多分辨率空間特性可能仍然會下降,從而導(dǎo)致性能下降.此外,我們在訓(xùn)練中發(fā)現(xiàn),該模塊還可以使訓(xùn)練過程更加穩(wěn)定,起到一定的加速訓(xùn)練的效果.(4)使用原始的StyleGAN.我們同時(shí)使用原始StyleGA生成模塊和改進(jìn)后的StyleGAN生成模塊進(jìn)行訓(xùn)練,對比實(shí)驗(yàn)結(jié)果如表4所示.FID和LPIPS分別上升0.39和0.002 7,說明改進(jìn)后的StyleGAN是有效的.此外,在模型的訓(xùn)練過程中,我們發(fā)現(xiàn)經(jīng)過改進(jìn)后的StyleGAN在訓(xùn)練時(shí)變得更加穩(wěn)定,速度也有所提升.
5 結(jié) 論
本文提出了一種漸進(jìn)式人臉恢復(fù)網(wǎng)絡(luò)SwinStyleGAN模型,該模型使用Swin Transformer進(jìn)行特征提取,并使用修改后的StyleGAN對潛在代碼進(jìn)行從粗到細(xì)的重構(gòu).由于采用Swin Transformer替換了廣泛使用的CNN,解決了卷積無法整合長距離信息的問題.利用提取的全局特征上的空間注意力轉(zhuǎn)換(SAT)模塊來調(diào)制StyleGAN生成的特征,可以嚴(yán)格約束和控制StyleGAN的生成過程.同時(shí),為了解決StyleGAN訓(xùn)練的不穩(wěn)定性和生成結(jié)果與輸入不一致的問題,我們將Transformer的框架結(jié)構(gòu)引入到StyleGAN中,充分利用兩者的優(yōu)勢.大量實(shí)驗(yàn)表明,SwinStyleGAN無論是在盲人臉修復(fù)還是人臉超分辨率方面都具有很高的可靠性和魯棒性.在實(shí)際場景中具有較高的應(yīng)用價(jià)值.
參考文獻(xiàn):
[1] Qin J, Bai H, Zhao Y. Multi-scale attention network for image inpainting [J]. Comput Vis Image Und, 2021, 204: 103155.
[2] Xiao Z, Li D. Generative image inpainting by hybrid contextual attention network[C]//Proceedings of the MultiMedia Modeling: 27th International Conference on MMM. Prague:Springer International Publishing, 2021: 162.
[3] Kupyn O, Martyniuk T, Wu J, et al. Deblurgan-v2: Deblurring (orders-of-magnitude) faster and better[C]//Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2019.
[4] Kupyn O, Budzan V, Mykhailych M, et al. Deblurgan: Blind motion deblurring using conditional adversarial networks [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8183.
[5] Chen C, Li X, Yang L, et al. Progressive semantic-aware style transformation for blind face restoration[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Kuala Lumpur:IEEE, 2021: 11896.
[6] Wang X, Li Y, Zhang H, et al. Towards real-world blind face restoration with generative facial prior [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Kuala Lumpur: IEEE, 2021: 9168.
[7] Wang X, Yu K, Wu S, et al. Esrgan: Enhanced super-resolution generative adversarial networks[C]//Proceedings of the European Conference on Computer Vision (ECCV) Workshops. Munich: Springer, 2018.
[8] Wang X, Xie L, Dong C, et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 1905.
[9] Ma N, Zhang X, Zheng H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design [C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich: Springer, 2018: 116.
[10] Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. California: IEEE, 2018: 4510.
[11] Tan M, Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks[C]//International Conference on Machine Learning. California: PMLR, 2019: 6105.
[12] Tan M, Le Q. Efficientnetv2: smaller models and faster training[C]//International Conference on Machine Learning. Long Beach Convention Center, Long Beach: PMLR, 2021.
[13] Zhang X, Zhou X, Lin M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6848.
[14] Kim D, Kim M, Kwon G, et al. Progressive face super-resolution via attention to facial landmark[J]. IEEE Signal Proc Let, 2019, 26: 1859.
[15] Yu X, Fernando B, Ghanem B, et al. Face super-resolution guided by facial component heatmaps[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich: Springer, 2018: 217.
[16] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Adv Neur Inf Process Syst, 2017, 30: 5998.
[17] Wu H, Xiao B, Codella N, et al. Cvt: Introducing convolutions to vision transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Virtual Event: IEEE, 2021: 22.
[18] Wang W, Xie E, Li X, et al. Pyramid vision transformer: a versatile backbone for dense prediction without convolutions[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Virtual Event: IEEE, 2021: 568.
[19] Wang W, Xie E, Li X, et al. Pvt v2: Improved baselines with pyramid vision transformer[J]. Comp Visual Media, 2022, 8: 415.
[20] Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Canada: IEEE, 2021: 10012.
[21] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [J]. [EB/OL].[2022-05-10]. https://arxiv.org/abs/2010.11929.
[22] Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4401.
[23] Karras T, Laine S, Aittala M, et al. Analyzing and improving the image quality of stylegan [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington: IEEE, 2020: 8110.
[24] Liang J, Cao J, Sun G, et al. Swinir: Image restoration using swin transformer [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021.
[25] Yang T, Ren P, Xie X, et al. Gan prior embedded network for blind face restoration in the wild [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Kuala Lumpur: IEEE, 2021: 672.
[26] Yang L, Wang S, Ma S, et al. Hifacegan: Face renovation via collaborative suppression and replenishment [C]//Proceedings of the 28th ACM International Conference on Multimedia. New York:ACM, 2020: 1551.
[27] Li X, Liu M, Ye Y, et al. Learning warped guidance for blind face restoration [C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich: Springer, 2018.
[28] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention-MICCAI. Munich: Springer International Publishing, 2015.
[29] Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Seoul: IEEE, 2018: 4510.
[30] Hendrycks D, Gimpel K. Gaussian error linear units (gelus) [C] //Proceedings of the IEEE International Conference on Learning Representations (ICLR).[S.l.:s.n.], 2016.
[31] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks[C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Fort Lauderdale: [s.n.], 2011.
[32] Ba J L, Kiros J R, Hinton G E. Layer normalization [EB/OL].[2023-04-01]. https://arxiv.org/abs/1607.06450.
[33] Yu W, Luo M, Zhou P, et al. Metaformer is actually what you need for vision[C]//Proceedings of the IEEE/CVF Conference on Computer vision and Pattern Recognition. New Orleans: IEEE, 2022: 10819.
[34] Liu Z, Mao H, Wu C Y, et al. A convnet for the 2020s [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.:s.n.],2022: 11976.
[35] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]//Proceedings of the International Conference on Learning Representations (ICLR). [S.l.:s.n.], 2015.
[36] Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.:s.n.], 2019: 4401.
[37] Li X, Chen C, Zhou S, et al. Blind face restoration via deep multi-scale component dictionaries [C]//Proceedings of the 16th European Conference on Computer Vision-ECCV. Glasgow: Springer International Publishing, 2020: 399.
[38] Xu X, Sun D, Pan J, et al. Learning to super-resolve blurry face and text images [C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 251.
[39] Kingma D P, Ba J. Adam: a method for stochastic optimization [EB/OL].[2023-04-01]. https://arxiv.org/abs/1412.6980.
[40] Menon S, Damian A, Hu S, et al. Pulse: self-supervised photo upsampling via latent space exploration of generative models [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 2437.
[41] Bulat A, Tzimiropoulos G. Super-fan: integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with gans [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 109.
[42] Heusel M, Ramsauer H, Unterthiner T, et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium [J]. Adv Neur Inf Process Syst, 2017, 30: 6626.
[43] Zhang R, Isola P, Efros A A, et al. The unreasonable effectiveness of deep features as a perceptual metric [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 586.
引用本文格式:
中 文:? 向澤林, 樓旭東, 李旭偉. 基于Swin Transformer和Style-based Generator的盲人臉修復(fù) [J]. 四川大學(xué)學(xué)報(bào): 自然科學(xué)版, 2023, 60: 032003.
英 文: Xiang Z L, Lou X D, Li X W. Blind face restoration based on Swin Transformer and Style-Based Generator [J]. J Sichuan Univ: Nat Sci Ed, 2023, 60: 032003.