基于三階段生成網(wǎng)絡(luò)的圖像修復(fù)

2023-01-30 10:05邵新茹葉海良曹飛龍

模式識別與人工智能 2022年12期

邵新茹葉海良楊冰曹飛龍

圖像修復(fù)[1-2]是圖像處理中的一個(gè)重要領(lǐng)域，旨在使用視覺上合理的內(nèi)容填補(bǔ)圖像中的受損區(qū)域，生成高質(zhì)量的圖像.目前，圖像修復(fù)已成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一，并應(yīng)用于目標(biāo)移除[3]、圖像編輯[4]、目標(biāo)檢測[5]和老照片修復(fù)[6]等諸多領(lǐng)域.

傳統(tǒng)的圖像修復(fù)方法分為基于擴(kuò)散的方法[7]和基于塊的方法[8].基于擴(kuò)散的方法旨在將圖像受損區(qū)域邊緣的像素信息滲透傳播到受損區(qū)域.基于塊的方法是將圖像分為若干小塊，根據(jù)小塊之間相似度將最相關(guān)的小塊填補(bǔ)到受損區(qū)域的相應(yīng)位置.然而，這些傳統(tǒng)方法只是在圖像水平上機(jī)械地運(yùn)算，沒有學(xué)習(xí)能力，無法捕獲圖像更深層的語義特征.

隨著深度學(xué)習(xí)技術(shù)的發(fā)展，學(xué)者們提出大量的基于深度學(xué)習(xí)的圖像修復(fù)方法，并成為當(dāng)前的主流方法.Pathak等[9]將深度學(xué)習(xí)引入圖像修復(fù)任務(wù)，提出上下文編碼器，采用編碼-解碼的網(wǎng)絡(luò)結(jié)構(gòu)對圖像進(jìn)行語義修復(fù).隨后，憑借卷積神經(jīng)網(wǎng)絡(luò)(Convo-lutional Neural Network,CNN)[10]強(qiáng)大的表示能力和生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[11]強(qiáng)大的生成能力，研究者在上下文編碼器的基礎(chǔ)上改進(jìn)圖像修復(fù)方法.Iizuka等[12]利用空洞卷積[13]捕獲遠(yuǎn)距離的上下文信息，用于填充受損區(qū)域，并提出全局一致和局部一致的判別器，保證生成的圖像具有全局和局部的一致性.Wang等[14]使用三個(gè)不同大小的卷積核提取圖像三個(gè)尺度的特征，保證特征提取的全面性.Zeng等[15]提出PEN-Net(Pyramid-Context Encoder Network)，利用上下文注意力機(jī)制[16]，通過相似度學(xué)習(xí)的方式恢復(fù)多個(gè)尺度的特征.Liu等[17]針對圖像修復(fù)任務(wù)的特點(diǎn)，改進(jìn)原始卷積，提出部分卷積，確保提取像素點(diǎn)的有效性.

此外，兩階段網(wǎng)絡(luò)架構(gòu)也被用于圖像修復(fù)任務(wù).Yu等[16]設(shè)計(jì)兩階段修復(fù)網(wǎng)絡(luò)，第一階段先對受損圖像進(jìn)行粗修復(fù)，第二階段對粗修復(fù)的圖像進(jìn)行精細(xì)化.進(jìn)一步，Yu等又引入門控卷積[18]和Patch-GAN[19]的鑒別器改進(jìn)先前工作，獲得更優(yōu)性能.

然而，上述方法往往缺少先驗(yàn)的指導(dǎo)，導(dǎo)致生成的圖像可能出現(xiàn)不合理的內(nèi)容，如顏色偏差、邊緣不明確和紋理模糊等.

為此，一些研究者引入不同的先驗(yàn)以指導(dǎo)圖像修復(fù).一方面，為了獲取圖像全局的色彩結(jié)構(gòu)信息，Ren等[20]引入平滑圖像[21]作為先驗(yàn)，設(shè)計(jì)兩階段網(wǎng)絡(luò)，第一階段重建受損平滑圖像，獲得圖像的全局色彩結(jié)構(gòu)，以此作為先驗(yàn)指導(dǎo)第二階段受損圖像的修復(fù).Qiu等[22]也采用同樣的先驗(yàn)和網(wǎng)絡(luò)架構(gòu).

在上述方法中，第一階段獲取色彩結(jié)構(gòu)先驗(yàn)的過程都是建立在RGB色彩域.然而，RGB色彩域?qū)D像色彩的表征并不直觀，很難使用精確的數(shù)值表示色彩強(qiáng)度，并且R、G、B三個(gè)顏色分量之間高度相關(guān)，任意一個(gè)分量出現(xiàn)偏差，會(huì)對圖像色彩造成很大影響.因此，為了使獲取的先驗(yàn)具有較直觀的色彩強(qiáng)度表征，考慮在其它色彩域中進(jìn)行色彩生成具有一定的研究意義.

另一方面，為了使圖像獲得合理的邊緣特征，Nazeri等[23]提出邊緣指導(dǎo)[24]的兩階段網(wǎng)絡(luò)框架，第一階段先恢復(fù)受損的邊緣，并將恢復(fù)好的邊緣當(dāng)作先驗(yàn)指導(dǎo)第二階段圖像的修復(fù).Xu等[25]也提出E2I(Generative Inpainting from Edge to Image)這種類似方法.

然而，上述方法的邊緣學(xué)習(xí)框架存在如下問題.1)第一階段中直接使用網(wǎng)絡(luò)修復(fù)受損邊緣，效果通常不穩(wěn)定，很難獲得合理的邊緣，影響后續(xù)的圖像修復(fù)過程.2)第二階段中輸入圖像仍是受損的，僅依賴邊緣指導(dǎo)對圖像的受損區(qū)域進(jìn)行填充往往是困難的.因此，設(shè)計(jì)一種更有效的邊緣學(xué)習(xí)方法至關(guān)重要.

此外，圖像紋理細(xì)節(jié)的合成質(zhì)量往往也影響圖像修復(fù)的性能.近來，一些研究者[26-27]致力于設(shè)計(jì)不同的網(wǎng)絡(luò)模塊合成圖像紋理細(xì)節(jié)，旨在生成更清晰和逼真的圖像.

綜上所述，盡管上述對色彩、邊緣和紋理的生成方法取得較優(yōu)性能，但其存在的問題仍需進(jìn)一步改進(jìn).因此，本文設(shè)計(jì)基于三階段生成網(wǎng)絡(luò)的圖像修復(fù)，每個(gè)階段分別側(cè)重于對圖像的色彩、邊緣及紋理的合成，最終構(gòu)建兼具色彩、邊緣與紋理于一體的圖像修復(fù)框架.具體而言，第一階段為HSV色彩生成階段.將圖像由RGB色彩域轉(zhuǎn)至HSV色彩域，以平滑HSV圖像為輸入，設(shè)計(jì)色彩生成網(wǎng)絡(luò)，通過引入L1損失約束重建圖像的全局色彩，生成一個(gè)較合理的色彩先驗(yàn).相比傳統(tǒng)的RGB色彩域，本文的三階段生成網(wǎng)絡(luò)色彩生成的過程建立在HSV色彩域中.HSV色彩域不僅能從色調(diào)、飽和度和亮度三方面直觀表達(dá)色彩，而且對色彩的感知更敏感，這有利于進(jìn)一步挖掘圖像色彩信息[28-30].第二階段是邊緣優(yōu)化階段，重點(diǎn)對圖像的邊緣進(jìn)行細(xì)化.構(gòu)建邊緣優(yōu)化網(wǎng)絡(luò)，以邊緣損失為約束，實(shí)現(xiàn)對圖像邊緣的優(yōu)化，再通過邊緣提取算法[24]獲得邊緣.該方式的優(yōu)勢在于其獲取的邊緣更準(zhǔn)確，在邊緣約束條件下通過修復(fù)受損圖像并提取邊緣，緩解已有方法[23-25]直接使用網(wǎng)絡(luò)進(jìn)行邊緣生成的不穩(wěn)定問題，同時(shí)為后續(xù)的修復(fù)過程提供更全面完整的信息.第三階段是紋理合成階段，該階段旨在對圖像的紋理進(jìn)行細(xì)化.設(shè)計(jì)特征雙向融合解碼器，對圖像的高級特征與低級特征進(jìn)行自適應(yīng)融合，實(shí)現(xiàn)對圖像細(xì)節(jié)的增強(qiáng).同時(shí)，引入PatchGAN判別器[19]，使生成圖像的細(xì)節(jié)更逼真.上述三個(gè)階段順次連接，每個(gè)階段都將上一階段的輸出作為輸入，合成的內(nèi)容通過損失約束各有側(cè)重，保證最終生成的圖像具有較合理的色彩、清晰的邊緣及紋理細(xì)節(jié).

1 三階段生成網(wǎng)絡(luò)

1.1 網(wǎng)絡(luò)整體框架

本文提出三階段生成網(wǎng)絡(luò)，整體框架如圖1所示.

本文網(wǎng)絡(luò)分為HSV色彩生成階段、邊緣優(yōu)化階段和紋理合成階段，三個(gè)階段依次銜接，旨在通過三個(gè)階段的修復(fù)使生成圖像具有合理的色彩、邊緣和清晰的紋理.

HSV色彩生成階段側(cè)重于重建圖像受損的全局色彩，從而得到一個(gè)能代表圖像全局色彩信息的先驗(yàn).首先，構(gòu)造平滑HSV圖像(如圖2所示)，以此作為色彩生成的對象.構(gòu)造方法如下：先將圖像利用平滑結(jié)構(gòu)算法[21]計(jì)算平滑圖像，再將平滑圖像利用色彩轉(zhuǎn)換算法[30]由RGB色彩域轉(zhuǎn)至HSV色彩域.其中，平滑結(jié)構(gòu)算法可去除難以捕獲的高頻信息，從而降低重建全局色彩結(jié)構(gòu)的難度.

圖1 本文網(wǎng)絡(luò)整體框架圖Fig.1 Overall architecture of the proposed network

(a)原始圖像(a)Original images

與已有方法[20-22]不同的是，本文色彩生成階段通過色彩轉(zhuǎn)換算法[30]將色彩生成過程由RGB色彩域轉(zhuǎn)至HSV色彩域，這主要取決于HSV色彩空間的如下優(yōu)勢[30]：HSV色彩空間可從色調(diào)、飽和度和亮度三方面對圖像進(jìn)行表征，比RGB色彩空間具有更直觀的色彩描述，對色彩的感知更敏感，這對圖像色彩信息的捕獲是更有利的.真實(shí)圖像Igt可按照上述構(gòu)造方法計(jì)算平滑HSV圖像Cgt，獲得受損的平滑HSV圖像：

Cin=Cgt⊙(1-M),

其中，M表示二值掩碼,1表示受損區(qū)域，0表示未受損區(qū)域，⊙表示逐元素相乘.

其次，將Cin輸入色彩生成網(wǎng)絡(luò)(Color Genera- tion Network，CGNet)進(jìn)行色彩重建，可深度挖掘受損的平滑HSV圖像的色彩信息，并對其進(jìn)行合理修復(fù)，從而生成可信的色彩.生成的平滑HSV圖像為:

Cout=CGNet(Cin‖M)，

其中，‖表示按通道維度拼接，CGNet(·)表示色彩生成網(wǎng)絡(luò).隨后，將Cout中生成的像素與Cin中已知的像素合并，輸出圖像

Cme=Cout⊙M⊕Cin⊙(1-M),

其中⊕表示逐元素相加.

最后，平滑HSV圖像Cme由HSV色彩域轉(zhuǎn)回RGB色彩域，從而得到Ic.如圖1所示，Ic具有圖像全局的色彩結(jié)構(gòu)信息，這將被當(dāng)作先驗(yàn)指導(dǎo)后續(xù)修復(fù)過程.

邊緣優(yōu)化階段重點(diǎn)在于優(yōu)化圖像邊緣，并輸出合理邊緣.Nazeri等[23]先使用網(wǎng)絡(luò)修復(fù)受損邊緣，再以此為先驗(yàn)指導(dǎo)修復(fù)受損圖像.與文獻(xiàn)[23]不同，本文邊緣優(yōu)化階段是在色彩先驗(yàn)的指導(dǎo)下先對圖像而非邊緣進(jìn)行修復(fù)，并在邊緣損失函數(shù)[31]的約束下優(yōu)化圖像中的邊緣信息，進(jìn)而提取邊緣.在此階段，既能得到更合理的邊緣，又能獲取具有合理邊緣信息的圖像，相比文獻(xiàn)[23]的工作，這種方式能為后續(xù)的修復(fù)過程提供更準(zhǔn)確完整的信息.

具體地，將Ic當(dāng)作色彩先驗(yàn)連同受損圖像Iin一起輸入邊緣優(yōu)化網(wǎng)絡(luò)(Edge Optimization Network,EONet)，損毀圖像:

Iin=Igt⊙(1-M).

EONet可在邊緣損失[31]的約束下調(diào)整圖像的邊緣結(jié)構(gòu).生成圖像

Sout=EONet(Iin‖Ic‖M)，

其中EONet(·)表示邊緣優(yōu)化網(wǎng)絡(luò).隨后，合并Sout中生成的內(nèi)容與Iin中已知的內(nèi)容，得到輸出圖像：

Sme=Sout⊙M⊕Iin⊙(1-M).

因?yàn)樯氏闰?yàn)和邊緣約束的介入，此圖像具有合理的色彩和邊緣.

隨后，通過Canny邊緣提取算法[24]提取Sme的邊緣Eme.Sme和Eme緊接著傳入下一階段.

紋理合成階段重點(diǎn)增強(qiáng)圖像的紋理細(xì)節(jié)，生成更精細(xì)的圖像內(nèi)容.具體地，邊緣Eme連同圖像Sme一同輸入紋理合成網(wǎng)絡(luò)(Texture Synthesis Net- work,TSNet)，用于細(xì)化圖像的紋理，生成精細(xì)的圖像：

Iout=TSNet(Sme‖Eme‖M)，

其中TSNet(·)表示紋理合成網(wǎng)絡(luò).

在這一階段，邊緣Eme的加入可有效指導(dǎo)圖像紋理細(xì)節(jié)的合成.最后，合并Iout中生成的內(nèi)容與Iin中已知的內(nèi)容，得到最終輸出圖像：

Ifinal=Iout⊙M⊕Iin⊙(1-M).

上述三個(gè)階段合成的內(nèi)容各有側(cè)重點(diǎn)，采用串聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)的目的是在保留上一階段特性的同時(shí)，還可在下一階段合成新的特性，保證最終生成的圖像同時(shí)具有較合理的色彩、邊緣及清晰的紋理.

此外，判別器的引入通?？墒股蓤D像的細(xì)節(jié)更逼真清晰[3].如圖1所示，在網(wǎng)絡(luò)末尾，添加判別器，對生成器生成圖像的質(zhì)量進(jìn)行評判打分.由于PatchGAN[19]中的判別器被廣泛應(yīng)用于圖像修復(fù)任務(wù)，并獲得較優(yōu)性能，本文沿用這種判別器.生成器和判別器在相互對抗的過程中使生成器的生成能力和判別器的評判能力均得到提升，這也符合生成對抗網(wǎng)絡(luò)[11]的結(jié)構(gòu).

1.2 色彩生成網(wǎng)絡(luò)

色彩生成網(wǎng)絡(luò)(CGNet)框架如圖3所示，以受損平滑HSV圖像為輸入，可在HSV色彩空間中挖掘圖像色彩分布的同時(shí)，對受損區(qū)域進(jìn)行合理填充.CGNet包含編碼器、瓶頸層和解碼器三部分.編碼器包含3層卷積層，用于將受損圖像映射到高級特征空間.瓶頸層由4個(gè)多感受野殘差聚合模塊和1個(gè)通道-空間關(guān)注模塊組成，可恢復(fù)高級特征.解碼器包含3層卷積層，用于將恢復(fù)好的高級特征映射到圖像水平.

多感受野殘差聚合模塊結(jié)合空洞卷積[13]和ResNet[32]的優(yōu)勢，具有強(qiáng)大的特征聚合功能.此模塊以受損特征為輸入，可搜集特征中多個(gè)感受野的上下文信息，并將這些信息聚合到受損區(qū)域，從而實(shí)現(xiàn)特征恢復(fù).

圖3 色彩生成網(wǎng)絡(luò)框架圖Fig.3 Framework of color generation network

首先，一層卷積層將輸入特征X的通道數(shù)壓縮為原來的1/4，得到壓縮特征X0.X0傳入4層串聯(lián)的空洞卷積層中，每層空洞卷積都會(huì)搜集到具有不同感受野的特征，這些搜集的信息會(huì)作為填補(bǔ)受損區(qū)域的原材料.這一過程表示為

Xr+1=ReLU(DConv2r(Xr))，

(1)

其中，r=0，1，2，3,DConv2r(·)表示卷積核大小為3、空洞率為2r的空洞卷積層，ReLU(·)表示修正線性單元.這一步既擴(kuò)大網(wǎng)絡(luò)的感受野，又完成上下文信息的多樣化收集.

通過式(1)，可得到4個(gè)具有不同感受野的特征，即X1～X4.這些特征按通道維度拼接，并通過一層卷積層整合成一個(gè)綜合的上下文特征Xc.這時(shí)，Xc與輸入特征X的維度相同，使用一個(gè)殘差連接[32]使兩者相加，得到多感受野殘差聚合模塊的輸出：

X′=X⊕Xc.

堆疊多個(gè)多感受野殘差聚合模塊，上下文信息能反復(fù)聚合到受損區(qū)域，有利于填補(bǔ)具有較大受損區(qū)域的圖像.

其中，Conv5×5(·)表示卷積核大小為5的卷積層，Avgpoolc(·)表示按通道維度的平均池化.

多感受野殘差聚合模塊和通道-空間關(guān)注模塊的配合使用可聚合最相關(guān)的上下文信息到受損區(qū)域，從而有效修復(fù)平滑HSV圖像.

1.3 邊緣優(yōu)化網(wǎng)絡(luò)

邊緣優(yōu)化網(wǎng)絡(luò)(EONet)框架如圖4所示，以受損圖像和色彩先驗(yàn)為輸入，重點(diǎn)優(yōu)化圖像邊緣.由于存在色彩先驗(yàn)作為指導(dǎo)，大幅降低修復(fù)受損圖像的難度.同時(shí)，在邊緣損失函數(shù)[31]的約束下，網(wǎng)絡(luò)會(huì)朝著邊緣最優(yōu)的方向?qū)D像進(jìn)行恢復(fù).EONet的網(wǎng)絡(luò)結(jié)構(gòu)很簡潔，由編碼器、瓶頸層和解碼器組成.編碼器和解碼器都包含3層卷積層，瓶頸層包含4個(gè)文獻(xiàn)[32]的殘差模塊.

圖4 邊緣優(yōu)化網(wǎng)絡(luò)框架圖Fig.4 Framework of edge optimization network

1.4 紋理合成網(wǎng)絡(luò)

紋理合成網(wǎng)絡(luò)(TSNet)框架如圖5所示，網(wǎng)絡(luò)以邊緣優(yōu)化階段輸出的圖像和相應(yīng)的邊緣作為輸入，側(cè)重于增強(qiáng)圖像的紋理細(xì)節(jié).TSNet包含1個(gè)編碼器和1個(gè)特征雙向融合解碼器.編碼器包含4層卷積層，特征雙向融合解碼器包含5層卷積層和4個(gè)雙向門控融合模塊.

圖5 紋理合成網(wǎng)絡(luò)框架圖Fig.5 Framework of texture synthesis network

與傳統(tǒng)的跳躍連接[34]采用的直接拼接方式不同，雙向門控融合模塊可通過兩個(gè)門控機(jī)制自適應(yīng)地融合編碼器的淺層特征和解碼器的深層特征，權(quán)衡淺層特征和深層特征.這樣不僅可保留圖像的原始特征，也可挑選預(yù)測的新內(nèi)容.具體過程如下.

編碼器中的特征記為Yen,解碼器中的特征記為Yde，這兩個(gè)特征具有相同維度.雙向門控融合模塊以這兩個(gè)特征為輸入，通過兩個(gè)門控機(jī)制[18]學(xué)習(xí)兩個(gè)門控權(quán)重：

gen=δ(Conv1×1(Yen)),

gde=δ(Conv1×1(Yde)).

然后，兩個(gè)門控權(quán)重被用于實(shí)現(xiàn)Yen和Yde之間的交互融合，使Yen和Yde可相互獲取對自身合成有利的信息，即

Y′en=Yen⊕(Yde⊙gen),

Y′de=Yde⊕(Yen⊙gde).

接著，Y′en和Y′de按通道維度拼接,得到雙向門控融合模塊的最終輸出.

總之，TSNet以邊緣為指導(dǎo)，通過特征解碼方式，可使圖像紋理細(xì)節(jié)變得更清晰.

1.5 損失函數(shù)

大部分深度圖像修復(fù)方法都使用L1損失、感知損失[17]、風(fēng)格損失[17]、對抗損失，本文網(wǎng)絡(luò)沿用這些損失函數(shù).此外，也選擇邊緣損失作為本文的損失函數(shù).

HSV色彩生成階段損失函數(shù)如下.L1損失用于度量生成的平滑HSV圖像Cout與真實(shí)平滑HSV圖像Cgt之間的誤差，目標(biāo)是在HSV色彩空間中重建圖像的色彩,損失

Lcg=‖Cout-Cgt‖1，

其中‖·‖1表示L1距離.

邊緣優(yōu)化階段損失函數(shù)如下.采用L1損失和邊緣損失[31]加權(quán)和的形式度量生成圖像Sout和真實(shí)圖像Igt之間內(nèi)容和邊緣的誤差，實(shí)現(xiàn)對圖像邊緣結(jié)構(gòu)的優(yōu)化，損失

Leo=μ‖Sout-Igt‖1+

(1-μ)‖C(Sout)-C(Igt)‖1，

其中，C(·)表示Canny邊緣提取算法[24]，μ(0<μ<1)表示損失權(quán)重，控制邊緣約束的力度，本文中μ=0.8.

紋理合成階段損失函數(shù)如下.首先，L1損失用于保證生成圖像Iout和真實(shí)圖像Igt絕對距離相近，損失

Lrec=‖Iout-Igt‖1.

其次，感知損失[17]和風(fēng)格損失[17]是借助預(yù)訓(xùn)練的VGG-16[35]計(jì)算的.這2個(gè)損失函數(shù)可在高級特征的水平上衡量生成圖像Iout和真實(shí)圖像Igt的差距.

感知損失

其中，φl(·)表示VGG-16[35]的第l層池化層，Hl、Wl表示第l層輸出特征的高、寬，Cl表示第l層輸出特征的通道數(shù).

風(fēng)格損失

最后，對抗損失[11]的加入可使生成圖像具有逼真的細(xì)節(jié).對生成器來說，它旨在使生成圖像盡可能地逼近真實(shí)圖像，以至于判別器無法區(qū)分兩者.那么生成器的對抗損失為:

其中，D表示判別器，z表示服從生成圖像分布的樣本，log(·)表示對數(shù)函數(shù).

對判別器而言，希望區(qū)分生成圖像和真實(shí)圖像，判別器的對抗損失為:

其中x表示服從于真實(shí)圖像分布的樣本.

最終紋理合成階段的總損失函數(shù)為:

對于λper、λsty、λadv這些損失權(quán)重，許多工作都繼承文獻(xiàn)[23]的設(shè)置，本文也采用同樣的參數(shù)設(shè)定，即

λper=0.1，λsty=250,λadv=0.1.

綜上所述，本文網(wǎng)絡(luò)總的損失函數(shù)為：

Lsum=Lcg+Leo+Lts.

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)數(shù)據(jù)集

本文采用Paris StreetView[9]、CelebA-HQ[36]圖像數(shù)據(jù)集和二值掩碼數(shù)據(jù)集[17]進(jìn)行實(shí)驗(yàn)，其中，二值掩碼數(shù)據(jù)集用于損毀圖像.

Paris StreetView數(shù)據(jù)集包含15 000幅巴黎街景圖像，測試集包含100幅圖像，訓(xùn)練集包含14 900幅圖像.CelebA-HQ數(shù)據(jù)集包含30 000幅人臉圖像，2 000幅用于測試，28 000幅用于訓(xùn)練.

二值掩碼數(shù)據(jù)集包含12 000幅二值掩碼，并根據(jù)受損率分為6類，分別是1%～10%，10%～20%，20%～30%，30%～40%，40%～50%，50%～60%.

2.2 實(shí)驗(yàn)設(shè)置

CGNet、EONet和TSNet詳細(xì)的網(wǎng)絡(luò)設(shè)置如表1所示，Conv表示卷積層，TConv表示反卷積層.K表示卷積核尺寸，S/U表示滑動(dòng)步長或上采樣因子，P表示零填充數(shù).

表1 CGNet、EONet和TSNet的網(wǎng)絡(luò)設(shè)置Table 1 Network settings of CGNet,EONet and TSNet

本文所有的實(shí)驗(yàn)都在NVIDIA RTX 2080Ti GPU上進(jìn)行，并通過PyTorch框架實(shí)現(xiàn).在訓(xùn)練過程中，使用Adam(Adaptive Moment Estimation)優(yōu)化器[37]作為整個(gè)網(wǎng)絡(luò)的優(yōu)化器，內(nèi)置參數(shù)β1=0.5，β2=0.9.生成器的學(xué)習(xí)率為1×10-4，判別器的學(xué)習(xí)率為1×10-5.

與文獻(xiàn)[17]的操作相同，在模型收斂后學(xué)習(xí)率降低為原來的0.1進(jìn)行參數(shù)微調(diào).由于GPU內(nèi)存的限制，所有的圖像及對應(yīng)的二值掩碼都統(tǒng)一調(diào)整為256×256，批量大小設(shè)置為2.

同時(shí)，本文使用峰值信噪比(Peak Signal to Noise Ratio,PSNR)，結(jié)構(gòu)相似性(Structure Simila-rity,SSIM)，平均L1距離(MeanL1)和LPIPS(Learned Perceptual Image Patch Similarity)作為圖像修復(fù)性能的評價(jià)指標(biāo).PSNR、SSIM值越大修復(fù)效果越優(yōu)，MeanL1和LPIPS值越小修復(fù)效果越優(yōu).

2.3 實(shí)驗(yàn)結(jié)果對比

為了證實(shí)本文網(wǎng)絡(luò)具有優(yōu)越的修復(fù)性能，選擇如下8種深度學(xué)習(xí)圖像修復(fù)網(wǎng)絡(luò)進(jìn)行對比實(shí)驗(yàn)：PEN-Net[15]、GatedConv(Gated Convolution)[18]、E2I[25]、文獻(xiàn)[26]網(wǎng)絡(luò)、文獻(xiàn)[27]網(wǎng)絡(luò)、RFR(Recurrent Fea-ture Reasoning)[38]、文獻(xiàn)[39]網(wǎng)絡(luò)、SIFNet(Split-Inpaint-Fuse Network)[40].為了公平起見，所有實(shí)驗(yàn)均在相同的環(huán)境和設(shè)置下進(jìn)行.

各網(wǎng)絡(luò)在Paris StreetView、CelebA-HQ數(shù)據(jù)集上的定量對比結(jié)果如表2和表3所示，表中黑體數(shù)字表示最優(yōu)值.由表可見，本文網(wǎng)絡(luò)的定量指標(biāo)結(jié)果總體上優(yōu)于其它網(wǎng)絡(luò).

具體來說，Paris StreetView數(shù)據(jù)集上包含大量復(fù)雜的場景圖像，修復(fù)這種圖像極具挑戰(zhàn)性.本文網(wǎng)絡(luò)在4個(gè)指標(biāo)上均有明顯優(yōu)勢，這說明本文網(wǎng)絡(luò)對修復(fù)復(fù)雜場景的圖像具有優(yōu)越性.在CelebA-HQ數(shù)據(jù)集上，由于人臉圖像的語義結(jié)構(gòu)都是相似的，修復(fù)這種圖像相對容易，本文網(wǎng)絡(luò)依舊可獲得偏好的定量結(jié)果，這說明本文網(wǎng)絡(luò)對人臉圖像的修復(fù)也具有優(yōu)越性能.

表2 各網(wǎng)絡(luò)在Paris StreetView數(shù)據(jù)集上的定量對比結(jié)果Table 2 Quantitative result comparison of different networks on Paris StreetView dataset

表3 各網(wǎng)絡(luò)在CelebA-HQ數(shù)據(jù)集上的定量對比結(jié)果Table 3 Quantitative result comparison of different networks on CelebA-HQ dataset

各網(wǎng)絡(luò)在Paris StreetView、CelebA-HQ數(shù)據(jù)集上的可視化效果如圖6所示.

具體地，Paris Street- View數(shù)據(jù)集上對比網(wǎng)絡(luò)生成的場景圖像存在模糊區(qū)域、偽影及結(jié)構(gòu)扭曲等不良的視覺效果，而本文網(wǎng)絡(luò)生成的圖像具有合理的邊緣結(jié)構(gòu)和清晰的細(xì)節(jié)，如圖像中的窗戶框、管道和桿子.CelebA-HQ數(shù)據(jù)集上生成的人臉圖像會(huì)存在錯(cuò)誤的顏色和偽影，而本文網(wǎng)絡(luò)生成的人臉圖像具有較好的視覺效果.

進(jìn)一步，通過放大的眼睛之間的對比可觀察到，本文網(wǎng)絡(luò)色彩生成更準(zhǔn)確，如圖中男士的人臉圖像，本文網(wǎng)絡(luò)生成右眼與左眼顏色相同，都是藍(lán)色的，而其它網(wǎng)絡(luò)生成的眼睛是棕色的或黑色的，而且本文網(wǎng)絡(luò)生成的圖像細(xì)節(jié)更逼真.

(a)輸入圖像(a)Input images

2.4 消融實(shí)驗(yàn)結(jié)果

為了證實(shí)本文網(wǎng)絡(luò)的3個(gè)階段和提出模塊的有效性，在Paris StreetView數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn).

本文網(wǎng)絡(luò)包含HSV色彩生成階段、邊緣優(yōu)化階段和紋理合成階段，為了證實(shí)3個(gè)階段各自的有效性，設(shè)計(jì)如下3組消融實(shí)驗(yàn)：1)網(wǎng)絡(luò)1.移除本文網(wǎng)絡(luò)中的HSV色彩生成階段.2)網(wǎng)絡(luò)2.移除本文網(wǎng)絡(luò)中的邊緣優(yōu)化階段.3)網(wǎng)絡(luò)3.移除本文網(wǎng)絡(luò)中的紋理合成階段.本文還設(shè)計(jì)3個(gè)模塊，即多感受野殘差聚合模塊、通道-空間關(guān)注模塊和雙向門控融合模塊，為了證實(shí)它們各自的積極作用，也進(jìn)行3組消融實(shí)驗(yàn)：4)網(wǎng)絡(luò)4.將多感受野殘差聚合模塊替換為被大量工作廣泛使用的空洞殘差模塊[20,23,27]，該模塊只有一種空洞率r=2.5)網(wǎng)絡(luò)5.移除通道-空間關(guān)注模塊.6)網(wǎng)絡(luò)6.將雙向門控融合模塊替換為傳統(tǒng)的跳躍連接[34].

各網(wǎng)絡(luò)的消融實(shí)驗(yàn)結(jié)果如表4所示，表中黑體數(shù)字表示最優(yōu)值.由表可觀察到，網(wǎng)絡(luò)1～網(wǎng)絡(luò)3的結(jié)果都與本文網(wǎng)絡(luò)結(jié)果具有較大差距，這反映HSV色彩生成階段、邊緣優(yōu)化階段和紋理合成階段對提升修復(fù)性能的有效性.同時(shí)，除了SSIM指標(biāo)以外，網(wǎng)絡(luò)4～網(wǎng)絡(luò)6結(jié)果均差于本文網(wǎng)絡(luò)，這說明多感受野殘差聚合模塊、通道-空間關(guān)注模塊和雙向門控融合模塊的加入可提升網(wǎng)絡(luò)的修復(fù)性能.

表4 在Paris StreetView數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 4 Results of ablation experiments on Paris StreetView dataset

為了佐證上述結(jié)論，消融實(shí)驗(yàn)的視覺對比結(jié)果如圖7所示.一方面，對比網(wǎng)絡(luò)1～網(wǎng)絡(luò)3的圖像(見圖7(c)～(e))與本文網(wǎng)絡(luò)圖像(見圖7(i))可發(fā)現(xiàn),圖像(i)具有更合理的色彩和邊緣，細(xì)節(jié)更清晰，這定性說明三個(gè)階段中的每個(gè)階段都對提升圖像的視覺效果具有積極作用.

與此同時(shí)，為了清楚展示邊緣優(yōu)化階段對圖像邊緣生成的有效性，對比網(wǎng)絡(luò)2和本文網(wǎng)絡(luò)的圖像邊緣(見圖7(j)、(k))，邊緣優(yōu)化階段的加入使圖像具有更合理的邊緣信息.另一方面，對比網(wǎng)絡(luò)4～網(wǎng)絡(luò)6的圖像(見圖7(f)～(h))和本文網(wǎng)絡(luò)圖像(見圖7(i))，可發(fā)現(xiàn)圖像(i)具有更清晰的紋理細(xì)節(jié)，這證實(shí)多感受野殘差聚合模塊、通道-空間關(guān)注模塊和雙向門控融合模塊對提升圖像質(zhì)量具有一定作用.為了更加清楚地展示多感受野殘差聚合模塊和通道-空間關(guān)注模塊對色彩生成的有效性，可視化網(wǎng)絡(luò)4、網(wǎng)絡(luò)5和本文網(wǎng)絡(luò)生成的平滑HSV圖像(見圖7(l)～(n)).對比可得，圖像(n)生成的色彩圖像更全面合理，這表明多感受野殘差聚合模塊和通道-空間關(guān)注模塊可促進(jìn)生成更合理的圖像色彩.

(a)真實(shí)圖像 (b)輸入圖像 (c)網(wǎng)絡(luò)1圖像 (d)網(wǎng)絡(luò)2圖像(a)Real image (b)Input image (c)Image of network 1 (d)Image of network 2

2.5 色彩生成方法的有效性驗(yàn)證

本節(jié)進(jìn)行實(shí)驗(yàn),證實(shí)在HSV色彩生成階段中色彩生成方法的有效性和優(yōu)越性.本文的色彩生成方法與已有方法的最大區(qū)別是色彩生成過程并不是在RGB色彩域中進(jìn)行，而是在HSV色彩域中進(jìn)行.為了驗(yàn)證這一點(diǎn)的有效性，設(shè)計(jì)如下消融實(shí)驗(yàn).定義網(wǎng)絡(luò)A，即移除本文網(wǎng)絡(luò)第一階段中的色彩轉(zhuǎn)換方法，在RGB色彩域中進(jìn)行色彩生成[30].

本文網(wǎng)絡(luò)與網(wǎng)絡(luò)A的有效性實(shí)驗(yàn)結(jié)果如表5所示,表中黑體數(shù)字表示最優(yōu)值.由表可知，本文網(wǎng)絡(luò)的指標(biāo)值優(yōu)于網(wǎng)絡(luò)A.

與此同時(shí)，網(wǎng)絡(luò)A與本文網(wǎng)絡(luò)的視覺對比如圖8所示.由對比紅框中生成的內(nèi)容可知，網(wǎng)絡(luò)A生成色彩先驗(yàn)的全局色彩和結(jié)構(gòu)并不合理，顏色也有偏差，導(dǎo)致最終生成圖像的色彩和結(jié)構(gòu)不合理.而本文網(wǎng)絡(luò)生成色彩先驗(yàn)的結(jié)構(gòu)合理，顏色正確，最終生成圖像的視覺效果優(yōu)于網(wǎng)絡(luò)A.

表5 本文網(wǎng)絡(luò)與網(wǎng)絡(luò)A的指標(biāo)值對比Table 5 Index value comparison between the proposed network and network A

(a)真實(shí)圖像 (b)輸入圖像 (c)網(wǎng)絡(luò)A圖像 (d)本文網(wǎng)絡(luò)圖像 (e)網(wǎng)絡(luò)A圖像色彩 (f)本文網(wǎng)絡(luò)色彩(a)Real image (b)Input image (c)Image of network A (d)Image of the proposed network (e)Color of network A (f)Color of the proposed network圖8 色彩生成方法消融實(shí)驗(yàn)的視覺效果對比Fig.8 Visual effect comparison of ablation experiments of color generation methods

上述實(shí)驗(yàn)結(jié)果說明在HSV色彩域進(jìn)行色彩生成的效果優(yōu)于在RGB色彩域進(jìn)行色彩生成，這證實(shí)本文的色彩生成方法的有效性.

此外，為了驗(yàn)證本文網(wǎng)絡(luò)在色彩生成方面的優(yōu)越性，選擇如下相關(guān)網(wǎng)絡(luò)：GatedConv[18]、Structure-Flow(Image Inpainting via Structure-Aware Appea-rance Flow)[20]、文獻(xiàn)[27]網(wǎng)絡(luò).

對比各網(wǎng)絡(luò)的生成圖像結(jié)果，具體如圖9所示.由圖可見，對比網(wǎng)絡(luò)生成圖像的全局色彩并不合理，如門、墻壁都存在色彩偏差，圖像的色彩結(jié)構(gòu)也存在扭曲(如窗戶).

而本文網(wǎng)絡(luò)生成的圖像不僅全局色彩結(jié)構(gòu)正確，而且圖像的顏色自然，細(xì)節(jié)清晰，這表明本文網(wǎng)絡(luò)在色彩生成方面的優(yōu)勢.

(a)真實(shí)圖像 (b)輸入圖像 (c)GatedConv (d)文獻(xiàn)[27]網(wǎng)絡(luò) (e)StructureFlow (f)本文網(wǎng)絡(luò)(a)Real image (b)Input image (d)Network in [27] (f)The proposed network圖9 各網(wǎng)絡(luò)的生成圖像對比Fig.9 Comparison of generated images of different networks

2.6 邊緣學(xué)習(xí)方法的有效性驗(yàn)證

本節(jié)進(jìn)行實(shí)驗(yàn)和分析,驗(yàn)證本文的邊緣學(xué)習(xí)方法的有效性.本文的邊緣學(xué)習(xí)方法與已有邊緣學(xué)習(xí)方法的最大區(qū)別在于本文方法并非使用網(wǎng)絡(luò)直接對邊緣進(jìn)行學(xué)習(xí)，而是在對圖像進(jìn)行修復(fù)的過程中通過邊緣損失函數(shù)[31]的約束達(dá)到邊緣優(yōu)化的目的，進(jìn)而獲取圖像邊緣.

為了驗(yàn)證這種方式的優(yōu)越性，設(shè)計(jì)如下消融實(shí)驗(yàn).定義網(wǎng)絡(luò)B，即與文獻(xiàn)[23]相同，使用網(wǎng)絡(luò)直接對邊緣進(jìn)行學(xué)習(xí).

本文網(wǎng)絡(luò)與網(wǎng)絡(luò)B的有效性實(shí)驗(yàn)結(jié)果對比如表6所示.由表可見，本文網(wǎng)絡(luò)的指標(biāo)值遠(yuǎn)優(yōu)于網(wǎng)絡(luò)B.

表6 本文網(wǎng)絡(luò)與網(wǎng)絡(luò)B的指標(biāo)值對比Table 6 Index value comparison between the proposed network and network B

同時(shí)，網(wǎng)絡(luò)B和本文網(wǎng)絡(luò)的視覺對比如圖10所示.

(a)真實(shí)圖像 (b)輸入圖像 (c)網(wǎng)絡(luò)B圖像 (d)本文網(wǎng)絡(luò)圖像 (e)網(wǎng)絡(luò)B邊緣 (f)本文網(wǎng)絡(luò)邊緣(a)Real image (b)Input image (c)Image of network B (d)Image of the proposed network (e)Edge of network B (f)Edge of the proposed network圖10 邊緣學(xué)習(xí)方法消融實(shí)驗(yàn)的視覺效果對比Fig.10 Visual effect comparison of ablation experiments of edge learning methods

由圖10可看出，相比網(wǎng)絡(luò)B，本文網(wǎng)絡(luò)生成的邊緣更完整準(zhǔn)確.由此得出結(jié)論，本文的邊緣學(xué)習(xí)方法比已有的邊緣學(xué)習(xí)方法更有效.

此外，為了驗(yàn)證本文網(wǎng)絡(luò)生成邊緣的準(zhǔn)確性，選擇如下對比網(wǎng)絡(luò)：EdgeConnect(Structure Guided Image Inpainting Using Edge Prediction)[23]、E2I[25]、文獻(xiàn)[26]網(wǎng)絡(luò).下面重點(diǎn)對比生成圖像的邊緣，證實(shí)本文網(wǎng)絡(luò)在邊緣學(xué)習(xí)方面的優(yōu)勢.各網(wǎng)絡(luò)生成圖像對比如圖11所示.由圖可知，對比網(wǎng)絡(luò)生成的圖像并未獲得準(zhǔn)確的邊緣，如窗戶框處的生成效果.而本文網(wǎng)絡(luò)可生成更好的邊緣特征.這表明本文邊緣學(xué)習(xí)方法的優(yōu)勢.

(a)真實(shí)圖像 (b)輸入圖像 (c)EdgeConnect圖像 (d)E2I圖像 (e)文獻(xiàn)[26]網(wǎng)絡(luò)圖像(a)Real image (b)Input image (c)Image of EdgeConnect (d)Image of E2I (e)Image of network in [26]

2.7 超參數(shù)討論

本節(jié)討論邊緣優(yōu)化階段涉及的損失函數(shù)權(quán)重μ的取值.μ可控制邊緣約束的力度，μ值越大，邊緣約束力度越小，μ值越小，邊緣約束力度越大.為了探究μ值對網(wǎng)絡(luò)性能的影響，在Paris StreetView、CelebA-HQ數(shù)據(jù)集上利用受損率為30%～40%的二值掩碼進(jìn)行實(shí)驗(yàn).μ不同對PSNR和LPIPS指標(biāo)的影響如圖12所示.由圖可觀察到，在Paris Street-View數(shù)據(jù)集上，當(dāng)μ=0.8,0.9時(shí)，網(wǎng)絡(luò)獲得最優(yōu)性能.在CelebA-HQ數(shù)據(jù)集上，當(dāng)μ=0.7,0.8時(shí)，網(wǎng)絡(luò)獲得最優(yōu)性能.綜合上述兩點(diǎn)，本文網(wǎng)絡(luò)中當(dāng)μ=0.8時(shí)，可達(dá)到對圖像邊緣最適合的約束力度.

(a)PSNR (b)LPIPS圖12 μ值對網(wǎng)絡(luò)性能的影響Fig.12 Influence of μ on network performance

2.8 實(shí)際應(yīng)用示例

為了檢驗(yàn)本文網(wǎng)絡(luò)的泛化能力，泛化到其它實(shí)際應(yīng)用中，如具有不同類型掩碼的圖像修復(fù)、目標(biāo)移除[3]和人臉編輯[4].這些實(shí)際應(yīng)用的視覺效果如圖13所示，前2幅圖像是具有不同類型二值掩碼的圖像修復(fù)，后2幅圖像是目標(biāo)移除和人臉編輯.由圖可見，本文網(wǎng)絡(luò)依然可生成合理和高質(zhì)量的圖像內(nèi)容,這充分說明本文網(wǎng)絡(luò)具有較強(qiáng)的泛化能力.

(a)原始圖像(a)Original images

3 結(jié) 束語

本文構(gòu)造三階段生成網(wǎng)絡(luò),三個(gè)階段分別側(cè)重于圖像色彩、邊緣和紋理的合成.具體地，在HSV色彩生成階段，圖像的全局色彩能在HSV色彩空間中被合理重建，為整個(gè)圖像修復(fù)過程提供色彩指導(dǎo).在邊緣優(yōu)化階段，提出邊緣學(xué)習(xí)方法，可獲取更合理的邊緣，并為后續(xù)修復(fù)過程提供更準(zhǔn)確完整的信息.此外，提出特征雙向融合解碼器，嵌入紋理合成階段，達(dá)到細(xì)化圖像紋理細(xì)節(jié)的目的.大量的消融實(shí)驗(yàn)結(jié)果表明三階段生成網(wǎng)絡(luò)的有效性.同時(shí)，通過與其它網(wǎng)絡(luò)定量對比和可視化效果對比，本文網(wǎng)絡(luò)具有更好的圖像修復(fù)性能.注意到本文網(wǎng)絡(luò)采用串聯(lián)的網(wǎng)絡(luò)架構(gòu)，而有工作致力于設(shè)計(jì)并聯(lián)的網(wǎng)絡(luò)架構(gòu)以獲得性能提升[26].因此，今后將致力于設(shè)計(jì)合理的并聯(lián)網(wǎng)絡(luò)進(jìn)行圖像修復(fù).同時(shí)，也可把本文的思路擴(kuò)展到其它的計(jì)算機(jī)視覺任務(wù)中，如超分辨率重建[13]、圖像轉(zhuǎn)換[19]等.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于三階段生成網(wǎng)絡(luò)的圖像修復(fù)

1 三階段生成網(wǎng)絡(luò)

1.1 網(wǎng)絡(luò)整體框架

1.2 色彩生成網(wǎng)絡(luò)

1.3 邊緣優(yōu)化網(wǎng)絡(luò)

1.4 紋理合成網(wǎng)絡(luò)

1.5 損失函數(shù)

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)數(shù)據(jù)集

2.2 實(shí)驗(yàn)設(shè)置

2.3 實(shí)驗(yàn)結(jié)果對比

2.4 消融實(shí)驗(yàn)結(jié)果

2.5 色彩生成方法的有效性驗(yàn)證

2.6 邊緣學(xué)習(xí)方法的有效性驗(yàn)證

2.7 超參數(shù)討論

2.8 實(shí)際應(yīng)用示例

3 結(jié) 束 語

3 結(jié) 束語