溫 靜,丁友東,于 冰
基于上下文門卷積的盲圖像修復(fù)
溫 靜1,2,丁友東1,2,于 冰1,2
(1. 上海大學(xué)上海電影學(xué)院,上海 200072;2. 上海電影特效工程技術(shù)研究中心,上海 200072)
目前基于深度學(xué)習(xí)的圖像修復(fù)方法已經(jīng)取得較大地進(jìn)展,其方法均是基于輸入的掩模對圖像的退化區(qū)域進(jìn)行修復(fù)?;诖耍岢隽擞裳谀nA(yù)測網(wǎng)絡(luò)和圖像修復(fù)網(wǎng)絡(luò)組成的2階段盲圖像修復(fù)網(wǎng)絡(luò)。整個(gè)修復(fù)過程無需輸入掩模,掩模預(yù)測網(wǎng)絡(luò)可以根據(jù)輸入圖像自動(dòng)檢測圖像退化區(qū)域并生成掩模,圖像修復(fù)網(wǎng)絡(luò)根據(jù)預(yù)測掩模對輸入圖像的缺失部分進(jìn)行修復(fù)。為了更好地利用全局上下文信息,基于上下文門卷積設(shè)計(jì)了一個(gè)上下文門殘差塊(CGRB)模塊來提取特征信息。另外,還提出了空間注意力殘差塊(SARB)對遠(yuǎn)距離圖像像素的關(guān)系進(jìn)行建模,過濾了一些無關(guān)的細(xì)節(jié)信息。在CelebA-HQ,F(xiàn)FHQ和PairsStreet數(shù)據(jù)集上的大量實(shí)驗(yàn)結(jié)果表明,該改進(jìn)算法優(yōu)于其他對比方法,且能生成令人信服的圖像。
圖像修復(fù);盲圖像修復(fù);上下文門卷積;上下文門殘差塊;空間注意力殘差塊
圖像修復(fù)是在給定相應(yīng)掩模的情況下修復(fù)受損圖像缺失區(qū)域的技術(shù)。該任務(wù)引起了計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)的極大關(guān)注,并廣泛應(yīng)用于如老照片的復(fù)原、刪除不需要的對象、照片編輯等方面。盡管已有許多用于圖像修復(fù)的方法,但仍是一個(gè)具有挑戰(zhàn)性的問題,因通常需要輸入指示缺失區(qū)域的掩膜。本文針對無法獲得掩模且難以實(shí)現(xiàn)圖像修復(fù)的情況,提出了一種基于圖像語義信息的盲圖像修復(fù)方法。
傳統(tǒng)的圖像修復(fù)方法[1-10]缺乏對語義信息的獲取,生成的結(jié)果受到限制。近年來,深度學(xué)習(xí)在圖像修復(fù)中的應(yīng)用取得了顯著的進(jìn)展,可以有效地解決上述問題。這些方法利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提取圖像的特征信息,并與鑒別網(wǎng)絡(luò)聯(lián)合訓(xùn)練,生成視覺上與真實(shí)圖像無法區(qū)分的圖像?;谏疃葘W(xué)習(xí)的非盲圖像修復(fù)方法[11-23],需要輸入掩模來指示圖像受損區(qū)域。而有一些圖像的修復(fù)不需要輸入掩模,只需使用成對的受損圖像和真實(shí)圖像進(jìn)行訓(xùn)練,該方法被稱為盲圖像修復(fù)[24-26]。本文結(jié)合了非盲圖像和盲圖像2種修復(fù)方法的優(yōu)點(diǎn),提出了一種基于圖像語義的2階段網(wǎng)絡(luò),能夠自動(dòng)檢測圖像的受損區(qū)域,并生成視覺逼真的結(jié)果。
本文工作是在VCNet[27]的基礎(chǔ)上開展的,其包括掩模預(yù)測和圖像修復(fù)2個(gè)階段。首先將受損圖像輸入網(wǎng)絡(luò),根據(jù)圖像的語義預(yù)測圖像中的受損區(qū)域,并生成掩膜。在修復(fù)階段,將編碼器-解碼器和鑒別器一起訓(xùn)練,以鼓勵(lì)生成視覺上與原始圖像盡可能相似的圖像。但VCNet方法生成的掩膜存在一些邊界效應(yīng),如包含噪聲圖像且不能生成基于語義對稱的內(nèi)容如眼睛。本文方法解決了這些問題,并進(jìn)一步改善了視覺效果。
本文用上下文門卷積(context gated convolution,CGC)[28]代替殘差塊中的普通卷積,提出了上下文門殘差塊(context gated residual block,CGRB)來獲得更豐富的圖像特征,從而提高掩模預(yù)測的準(zhǔn)確率。此外,本文還在殘差塊中加入了一個(gè)空間注意力模塊,并從空間注意力殘差塊(spatial attention residual block,SARB)中提取人眼最感興趣的區(qū)域,使得整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)可以修復(fù)一些對稱內(nèi)容的細(xì)節(jié)信息。本文的體系結(jié)構(gòu)由掩膜預(yù)測和圖像修復(fù)2個(gè)網(wǎng)絡(luò)組成。掩膜預(yù)測網(wǎng)絡(luò)使用級聯(lián)的CGRB提取具有更大感受野的全局語義特征,與VCNet相比,本文還增加了孔洞損失來消除一些邊界效應(yīng)。圖像修復(fù)網(wǎng)絡(luò)通過殘差塊、空間注意力和跳躍連接來提取具有更多細(xì)節(jié)的多尺度特征。鑒別器和圖像修復(fù)網(wǎng)絡(luò)聯(lián)合訓(xùn)練用于確定生成圖像和真實(shí)圖像的真假。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于其他方法,能夠生成更逼真的修復(fù)效果。
圖像修復(fù)方法可分為傳統(tǒng)的修復(fù)方法和基于深度學(xué)習(xí)的修復(fù)方法。傳統(tǒng)的修復(fù)方法主要分為基于擴(kuò)散的方法和基于補(bǔ)丁的方法。根據(jù)是否需要輸入掩模到網(wǎng)絡(luò)模型中,基于深度學(xué)習(xí)的方法又可分為盲圖像修復(fù)和非盲圖像修復(fù)方法。
(1) 擴(kuò)散的方法。利用待修復(fù)區(qū)域的邊緣信息,確定擴(kuò)散方向后,將已知信息擴(kuò)散到邊緣。文獻(xiàn)[1]提出了基于偏微分方程的圖像修復(fù),首次將修復(fù)應(yīng)用于數(shù)字領(lǐng)域;文獻(xiàn)[2]提出了基于整體變分和基于曲率[3]的方法,將圖像修復(fù)轉(zhuǎn)變?yōu)橐粋€(gè)函數(shù)求解問題;文獻(xiàn)[4]利用圖像梯度和變分來實(shí)現(xiàn)圖像修復(fù);文獻(xiàn)[5]根據(jù)局部特征的直方圖建立其分布,并根據(jù)分布來修復(fù)圖像的缺失區(qū)域?;跀U(kuò)散的修復(fù)方法在破損區(qū)域較小時(shí)效果較好,若缺失區(qū)域較大或紋理復(fù)雜時(shí),該算法的結(jié)果是模糊的。此外,其不能對紋理進(jìn)行推理,使得修復(fù)后結(jié)構(gòu)和紋理不一致,內(nèi)容也不合理。
(2) 補(bǔ)丁的方法。其考慮了紋理一致的問題,首先將圖像劃分成一個(gè)集合,設(shè)計(jì)匹配原則,找到相似度最高的面片來填充缺失區(qū)域。文獻(xiàn)[6]將補(bǔ)丁的圖像修復(fù)方法用于紋理遷移,從源圖像中采樣得到紋理補(bǔ)丁,然后粘貼到目標(biāo)圖像;文獻(xiàn)[7]和文獻(xiàn)[8]分別利用馬爾科夫隨機(jī)場的相似性度量和雙向相似性度量,來測量給定樣本和合成圖像的相似性;文獻(xiàn)[9]提出了一種相似補(bǔ)丁搜索算法,可以快速找到圖像塊之間的近似最近領(lǐng)域匹配;文獻(xiàn)[10]將圖像梯度集成到塊表示,進(jìn)一步改善了圖像修復(fù)。基于補(bǔ)丁的修復(fù)方法在背景修復(fù)任務(wù)中表現(xiàn)出良好的性能,但當(dāng)缺失區(qū)域是前景且紋理和結(jié)構(gòu)復(fù)雜時(shí),很難找到合適的補(bǔ)丁來填充缺失區(qū)域。傳統(tǒng)的圖像修復(fù)方法一般使用圖像剩余部分的統(tǒng)計(jì)信息來填充缺失區(qū)域,但受限于可用的圖像統(tǒng)計(jì)信息,無法捕捉高級語義,修復(fù)效果不自然。
基于深度學(xué)習(xí)的修復(fù)方法通常利用CNN和生成對抗網(wǎng)絡(luò)從大規(guī)模數(shù)據(jù)集學(xué)習(xí)語義,并在圖像的缺失部分生成像素。根據(jù)網(wǎng)絡(luò)是否需要輸入掩模,將深度學(xué)習(xí)的圖像修復(fù)方法又分為非盲圖像修復(fù)和盲圖像修復(fù)。
1.2.1 非盲圖像修復(fù)方法
目前主流的圖像修復(fù)仍采用非盲圖像修復(fù)方法,在已知掩模的情況下,將圖像修復(fù)問題轉(zhuǎn)換為條件圖像生成問題。文獻(xiàn)[11]提出了上下文編碼器,首次將編碼器和對抗訓(xùn)練相結(jié)合,取得了較好的圖像修復(fù)效果;文獻(xiàn)[12]在上下文編碼器中加入全局和局部鑒別器來生成更具有細(xì)節(jié)的圖像;文獻(xiàn)[13]以U-net為基礎(chǔ),提出了一種能夠?qū)W習(xí)編碼器特征位移矢量的位移連接層;2018年,文獻(xiàn)[14]利用由3個(gè)并行編碼器和1個(gè)公共解碼器組成的網(wǎng)絡(luò)來捕獲不同層次的信息;文獻(xiàn)[15]利用部分卷積,即只對圖像中的有效像素進(jìn)行卷積,在網(wǎng)絡(luò)訓(xùn)練過程中不斷更新掩碼;文獻(xiàn)[16]提出了一種基于邊緣信息的圖像修復(fù)方法;文獻(xiàn)[17]設(shè)計(jì)了一個(gè)循環(huán)特征推理模塊和知識一致性關(guān)注模塊,以合成更高質(zhì)量的特征;文獻(xiàn)[18]將實(shí)例圖像采樣和修復(fù)的圖像從數(shù)據(jù)集映射到公共空間,然后學(xué)習(xí)其映射關(guān)系。
隨著基于深度學(xué)習(xí)的圖像修復(fù)研究越來越多,一些由粗到細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)慢慢出現(xiàn)。圖像修復(fù)分為2步,先得到一個(gè)粗略的修復(fù)結(jié)果,然后進(jìn)行細(xì)化。文獻(xiàn)[19]首先推斷缺失部分的內(nèi)容生成圖像,然后增強(qiáng)生成圖像的紋理;在文獻(xiàn)[20]的工作中,粗網(wǎng)絡(luò)是一個(gè)簡單的擴(kuò)張卷積網(wǎng)絡(luò),而細(xì)網(wǎng)絡(luò)又增加了一個(gè)具有上下文關(guān)注的分支;文獻(xiàn)[21]提出的由粗到細(xì)的網(wǎng)絡(luò)是基于U-Net結(jié)構(gòu),在精細(xì)修復(fù)網(wǎng)絡(luò)的編碼階段嵌入了連貫語義注意層;文獻(xiàn)[22]提出了門卷積,通過在所有層的空間位置為每個(gè)通道提供可學(xué)習(xí)的動(dòng)態(tài)特征選擇機(jī)制來擴(kuò)展部分卷積;文獻(xiàn)[23]利用上下文殘差聚合(contextual residual aggregation,CRA)機(jī)制,提取圖像的上下文特征和殘差信息,實(shí)現(xiàn)高分辨率圖像修復(fù)。
1.2.2 盲圖像修復(fù)方法
對于盲圖像修復(fù),其針對的是簡單的文本或網(wǎng)格損壞模式。文獻(xiàn)[24]介紹了一種基于殘差學(xué)習(xí)的編解碼結(jié)構(gòu)來解決圖像中的文字遮擋問題;文獻(xiàn)[25]使用成對的受損和真實(shí)圖像數(shù)據(jù)集訓(xùn)練全卷積網(wǎng)絡(luò),以修復(fù)圖像中的網(wǎng)格和文本;文獻(xiàn)[26]在全卷積網(wǎng)絡(luò)上實(shí)施像素級相似性約束,解決網(wǎng)格人臉的盲修復(fù)問題。與上述方法不同,文獻(xiàn)[27]在不知道損壞區(qū)域的情況下,實(shí)現(xiàn)了高質(zhì)量的圖像修復(fù)。并設(shè)計(jì)了一個(gè)聯(lián)合掩碼預(yù)測和圖像修復(fù)的模型,提出通過概率上下文歸一化來傳遞信息。
本文將退化圖像建模為原始圖像和噪聲圖像的組合
其中,為RGB輸入圖像;為二進(jìn)制掩碼;為原始圖像;為噪聲圖像;運(yùn)算符⊙為元素乘法。在掩模中,()=1表示像素是噪聲圖像的一部分,()=0表示像素是真實(shí)圖像的一部分?;谑?1),本文的目標(biāo)是從給定的輸入中重建預(yù)測掩模?和修復(fù)圖像。
以前的圖像修復(fù)工作使用任意矩形或不規(guī)則形狀的二進(jìn)制掩模。本文若使用矩形遮罩,模型可以根據(jù)遮罩的形狀輕松定位圖像的損壞區(qū)域。不規(guī)則形狀的掩模形狀是隨機(jī)的,模型更難使用形狀信息來推斷受損區(qū)域,因此適用于本文的模型。還有些修復(fù)方法在圖像的缺失區(qū)域通常用常數(shù)值填充。根據(jù)這一規(guī)則,網(wǎng)絡(luò)結(jié)構(gòu)可以很容易地區(qū)分受損區(qū)域與剩余區(qū)域。本文將真實(shí)圖像作為噪聲源,使噪聲圖像的局部塊和退化圖像中的原始圖像盡可能難以區(qū)分,從而提高掩模預(yù)測模塊的能力。如果將原始圖像和噪聲圖像按式(1)直接混合,會產(chǎn)生明顯的邊緣。為了解決該問題,在融合之前,采用高斯平滑對掩膜進(jìn)行處理,以模糊邊界。以上操作是為了讓噪聲圖像和真實(shí)圖像盡可能的不可分,只能從語義方面來區(qū)分。
本文結(jié)合了非盲修復(fù)和盲修復(fù)2種方法的優(yōu)點(diǎn),在不指定圖像的損壞區(qū)域時(shí),基于深度CNN訓(xùn)練實(shí)現(xiàn)圖像修復(fù)。如圖1所示,本文網(wǎng)絡(luò)結(jié)構(gòu)包括:掩模預(yù)測網(wǎng)絡(luò)和圖像修復(fù)網(wǎng)絡(luò)2部分。給定退化的輸入圖像,掩模預(yù)測網(wǎng)絡(luò)試圖基于語義信息生成掩模來定位圖像中的受損區(qū)域。之后,將輸入圖像和預(yù)測掩模均輸入到圖像修復(fù)網(wǎng)絡(luò)中,以產(chǎn)生盡可能真實(shí)且沒有噪聲的圖像。鑒別器網(wǎng)絡(luò)接收修復(fù)圖像或真實(shí)圖像作為輸入,并確定其輸入是真還是假。
圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)流程圖
掩模預(yù)測網(wǎng)絡(luò)被應(yīng)用于定位圖像中語義不一致的區(qū)域,以捕捉該區(qū)域的特征。為了有效地修復(fù)圖像,掩模預(yù)測網(wǎng)絡(luò)的結(jié)果必須精確。如果直接從圖像中提取特征,其可能是無效特征。為了克服上述限制,本文使用級聯(lián)CGRB來提取更詳細(xì)的特征,如圖2(a)所示。
在神經(jīng)網(wǎng)絡(luò)的特征提取和傳遞過程中會出現(xiàn)信息丟失,殘差塊通過跳躍連接實(shí)現(xiàn)恒等變換,可以起到信息補(bǔ)充的作用,從而解決反向傳播中的梯度消失和梯度爆炸問題。CGC基于全局上下文信息調(diào)整卷積核來提取更具代表性的判別特征,解決了傳統(tǒng)卷積缺乏對全局上下文信息建模的問題。本文在殘差塊中引入CGC,提出基于上下文信息和跳躍連接的CGRB。整個(gè)模塊可以輸出更有效的多尺度特征信息,提高掩模預(yù)測的精度。此外,受到膨脹因子的啟發(fā),為了獲取更廣泛的上下文信息,部分CGRB中的CGC使用膨脹因子,形成了膨脹的上下文門殘差塊(dilated CGRB),以增大整個(gè)模塊的感受野。
圖2 結(jié)構(gòu)圖((a)上下文門殘差塊;(b)空間注意力殘差塊)
圖3 上下文門卷積
在修復(fù)階段,將圖像修復(fù)網(wǎng)絡(luò)和鑒別網(wǎng)絡(luò)一起訓(xùn)練,可使生成的圖像更加逼真。本文提出的圖像修復(fù)網(wǎng)絡(luò)的思想類似于非盲圖像的修復(fù)方法,即根據(jù)輸入掩碼所指的圖像未受損區(qū)域來修復(fù)圖像的受損區(qū)域。圖像修復(fù)網(wǎng)絡(luò)使用提出的CGRB和SARB來提取更多的代表性特征,這些特征在更小的感受野內(nèi)具有更多的細(xì)節(jié)。全局鑒別器鑒別生成的修復(fù)圖像是真是假,局部鑒別器鑒別生成的圖像局部缺失區(qū)域的真假。全局和局部鑒別網(wǎng)絡(luò)均包含5個(gè)以5×5為核的卷積層和一個(gè)全連接層。
SARB如圖2(b)所示,是在CGRB中添加了空間注意力機(jī)制(spatial attention,SA)[29]。將SA添加到CGRB的末端,迫使特征更加集中在感興趣的區(qū)域,便可獲得更具代表性的特征。
如圖4所示,SA首先使用1×1卷積層來減少信道維度,以降低計(jì)算量;然后為了擴(kuò)大感受野,先用一個(gè)步長為2的卷積,再用最大池化層獲取上下文信息;之后的上采樣層用于恢復(fù)空間維度,1×1卷積層用于恢復(fù)信道維度;最后,通過sigmoid層生成關(guān)注度得分。另外,SA還使用跳躍連接將空間降維前的高分辨率特征直接添加到塊的末尾,以減少細(xì)節(jié)信息的損失。
圖4 空間注意力機(jī)制
圖像修復(fù)網(wǎng)絡(luò)交叉使用CGRB、膨脹的CGRB、傳統(tǒng)卷積和SARB,輸入第一階段預(yù)測的掩模和退化圖像,網(wǎng)絡(luò)會輸出一個(gè)修復(fù)圖像。修復(fù)圖像和真實(shí)圖像經(jīng)過鑒別器鑒別真假,從而提高修復(fù)效果的真實(shí)性。
由于破損圖像中破損的區(qū)域比未破損的區(qū)域小,因此BCE損失不適用于掩模預(yù)測網(wǎng)絡(luò)。自適應(yīng)損失L[27]可以平衡正負(fù)樣本,可用相似性度量生成的掩模和真實(shí)掩模像素之間的差異??锥磽p失為
其中,為輸入圖像;為真實(shí)掩模;為預(yù)測掩模。通過最小化真實(shí)缺失區(qū)域和預(yù)測缺失區(qū)域之間的差異來約束掩模的生成過程。為了更有效地提高預(yù)測精度,掩模預(yù)測網(wǎng)絡(luò)采用自適應(yīng)損失結(jié)合孔洞損失作為損失函數(shù),即
為了實(shí)現(xiàn)令人信服的修復(fù)效果,圖像修復(fù)網(wǎng)絡(luò)考慮了像素、語義和紋理的一致性。重建損失[27]考慮了像素之間的差異,即
語義損失[27]考慮了中間層高級語義的差異,即
其中,O19和R19分別為和經(jīng)過預(yù)訓(xùn)練的VGG19網(wǎng)絡(luò)提取的ReLU3_2層的特征。本文還使用ID-MRF損失[27]作為紋理損失函數(shù)L,WGAN-GP損失[30]作為對抗性損失函數(shù)L。ID-MRF損失通過最小化生成的圖像塊和真實(shí)的圖像塊的差異來增強(qiáng)生成的圖像細(xì)節(jié)。圖像修復(fù)網(wǎng)絡(luò)的目標(biāo)函數(shù)最終可表示為
全局鑒別器和局部鑒別器具有相同的損失函數(shù),可定義為
在掩膜預(yù)測網(wǎng)絡(luò)和圖像修復(fù)網(wǎng)絡(luò)各自收斂之后,需要將2個(gè)網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。本文將上述各項(xiàng)損失函數(shù)加權(quán)取和,得到聯(lián)合目標(biāo)函數(shù)為
本文模型在Pytorch v1.0,CUDNN v7.0和CUDA v9.0上實(shí)現(xiàn)的,運(yùn)行硬件為Intel Xeon E5-2620 v4 2.10 GHz CPU和NVIDIA Titan XP GPU。網(wǎng)絡(luò)結(jié)構(gòu)使用Adam算法[31]優(yōu)化,學(xué)習(xí)率設(shè)置為1e-4,損失項(xiàng)的系數(shù)依次為=1.4,=1-4,=1-3,=1-3,=2。
本文在CelebA-HQ[32],F(xiàn)FHQ[33]和PairsStreet[11]的3個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。CelebA-HQ由3萬張分辨率為1024×1024的高質(zhì)量人臉圖像組成,其中3 000張圖像屬于測試集,其余2.7萬張圖像屬于訓(xùn)練集。FFHQ由7萬張分辨率為1024×1024的高質(zhì)量人臉圖像組成,其中1萬張屬于測試集,其余6萬張屬于訓(xùn)練集。ParisStreet是一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集,包含來自巴黎的多個(gè)街道場景圖像,其中有14 900個(gè)訓(xùn)練圖像和100個(gè)測試圖像。對于CelebA-HQ和FFHQ,圖像被下采樣到256×256。對于ParisStreet,訓(xùn)練圖像是從原始圖像中隨機(jī)裁剪出來的。在FFHQ上訓(xùn)練時(shí),相應(yīng)的噪聲圖像取自CelebA的訓(xùn)練集。對于CelebA-HQ的訓(xùn)練,噪聲源是FFHQ。Place2是與PairsStreet相對應(yīng)的噪聲圖像的來源。本文使用自由形式的筆畫[22]作為掩模數(shù)據(jù)集,以保證噪聲圖像和真實(shí)圖像的不可分。
本文對VCNet[27],PC[15]和GC[22]方法進(jìn)行了比較,這些方法均被證明能取得不錯(cuò)的修復(fù)效果。需要說明的是,為了公平地進(jìn)行比較,本文為PC和GC配置了與本文相同的掩膜預(yù)測模型。表1~3以均值形式展示了本文與其他方法在不同數(shù)據(jù)集上的性能指標(biāo)。本文使用二進(jìn)制交叉熵(binary cross-entropy,BCE)損失(越低越好)來評估所有方法的掩模預(yù)測性能,使用峰值信噪比(peak signal- to-noise ratio,PSNR)[34]和結(jié)構(gòu)相似度(structural similarity image measurement,SSIM)[35](越高越好)來評估所有方法的圖像恢復(fù)性能。表中結(jié)果表明,本文方法在BCE損失、PSNR和SSIM方面均優(yōu)于其他方法。其次,本文還用模型參數(shù)數(shù)量(Params)和浮點(diǎn)運(yùn)算次數(shù)(floating-point operations per second,F(xiàn)LOPs)衡量整個(gè)模型的空間復(fù)雜度和時(shí)間復(fù)雜度。從表4可以看出,本文的參數(shù)數(shù)量和浮點(diǎn)運(yùn)算次數(shù)(越低越好)都優(yōu)于其他模型。
表1 ParisStreet測試集上結(jié)果對比
表2 Celeb-HQ測試集上結(jié)果對比
表3 FFHQ測試集上結(jié)果對比
表4 不同模型復(fù)雜度比較
圖5~7中為各種方法在PariStreet,Celeb-HQ和FFHQ測試集上對隨機(jī)掩膜破損圖像的預(yù)測掩膜和修復(fù)結(jié)果。PC方法通過提出的部分卷積,在修復(fù)的過程中同時(shí)更新掩膜,實(shí)現(xiàn)逐步修復(fù)。該方法預(yù)測的掩膜結(jié)果較差,受其影響無法重建合適的語義信息,及進(jìn)行有效地修復(fù)。GC方法提出了門卷積,通過所有層每個(gè)空間的位置,為每個(gè)通道提供可學(xué)習(xí)的動(dòng)態(tài)特征選擇機(jī)制來推廣部分卷積。該方法較之PC方法可以實(shí)現(xiàn)有效地修復(fù),但是孔周圍還存在明顯的邊緣響應(yīng)和顏色差異。VCNet方法通過提出的盲修復(fù)網(wǎng)絡(luò)可以實(shí)現(xiàn)良好的修復(fù)效果,但仍缺失一些細(xì)節(jié),存在視覺偽影。本文方法在VCNet方法的基礎(chǔ)上不僅能保留對象(眼睛、頭發(fā)、眉毛)的細(xì)節(jié)特征,而且能有效地去除偽影。
圖5 不同方法在ParisStreet測試集上的修復(fù)結(jié)果
圖6 不同方法在Celeb-HQ測試集上的修復(fù)結(jié)果
圖7 不同方法在FFHQ測試集上的修復(fù)結(jié)果
本文方法較之VCNet方法進(jìn)行了多方面的改進(jìn),為了討論不同因素對于不同模塊的影響,分別進(jìn)行了2組對比實(shí)驗(yàn)。首先在FFHQ數(shù)據(jù)集上對掩模預(yù)測網(wǎng)絡(luò)進(jìn)行比較實(shí)驗(yàn),M是指與VCNet方法擁有同樣結(jié)構(gòu)的掩模預(yù)測網(wǎng)絡(luò);M+CG是指在掩模預(yù)測網(wǎng)絡(luò)中加入CGC;M+LOSS是指在掩模預(yù)測網(wǎng)絡(luò)中加入孔洞損失;M+CG+LOSS是指在掩模預(yù)測網(wǎng)絡(luò)中加入CGC和孔洞損失即本文方法的掩模預(yù)測網(wǎng)絡(luò)。如圖8所示,CGC和孔洞損失可以有效地提高掩模預(yù)測精度,且去掉了一些邊緣響應(yīng)。表5的數(shù)據(jù)也說明本文的掩模預(yù)測網(wǎng)絡(luò)具有較好的性能。CGC基于全局信息提取更具代表特征,所以能提高網(wǎng)絡(luò)性能。損失函數(shù)通過最小化生成的掩模和真實(shí)掩模之間的差異,進(jìn)一步優(yōu)化了網(wǎng)絡(luò),所以本文將兩者結(jié)合以取得最優(yōu)結(jié)果。
圖8 不同模塊對掩模預(yù)測的影響
((a) M; (b) M+CG; (c) M+LOSS; (b) M+CG+LOSS; (e) GT)
除此之外,還在FFHQ數(shù)據(jù)集上對圖像修復(fù)網(wǎng)絡(luò)進(jìn)行了消融實(shí)驗(yàn)。I表示與VCNet方法擁有同樣結(jié)構(gòu)的圖像修復(fù)網(wǎng)絡(luò);I+CG是指在圖像修復(fù)網(wǎng)絡(luò)中加入CGC;I+CG+SA是指在圖像修復(fù)網(wǎng)絡(luò)中加入CGC和SA。從表6可以看出加入CGC和SA可以實(shí)現(xiàn)更高指標(biāo)的圖像修復(fù)效果。CGC具有對全局信息的建模能力,SA具有對遠(yuǎn)距離的像素建模能力。本文將兩者結(jié)合起來,可以得到更具代表性的特征,從而實(shí)現(xiàn)對圖像細(xì)節(jié)的修復(fù)。
NVIDIA Irregular Mask Dataset有6類不同孔和圖像比率的掩模:(0.01,0.1],(0.1,0.2],(0.2,0.3],(0.3,0.4],(0.4,0.5],(0.5,0.6]。每個(gè)類別有2 000個(gè)掩模。本文用該數(shù)據(jù)集在FFHQ上進(jìn)行了掩模的消融實(shí)驗(yàn),還加入了掩模比率為0的情況。從表7可以看出,隨著掩??椎谋嚷试龃?,圖像修復(fù)的性能會逐漸下降。這是因?yàn)?,掩模中孔的比率越大,圖像缺失的區(qū)域越多,缺失的細(xì)節(jié)信息也就越多。
表5 掩模預(yù)測網(wǎng)絡(luò)的消融實(shí)驗(yàn)
表6 圖像修復(fù)網(wǎng)絡(luò)的消融實(shí)驗(yàn)
表7 掩模的消融實(shí)驗(yàn)
本文提出了一種能自動(dòng)檢測和修復(fù)破損圖像語義不一致區(qū)域的盲圖像修復(fù)方法。首先輸入破損圖像,然后根據(jù)圖像特征信息生成預(yù)測的掩模,最后再通過對抗訓(xùn)練的方式得到修復(fù)結(jié)果。本文的網(wǎng)絡(luò)模型包括2個(gè)模塊:掩模預(yù)測模塊和圖像修復(fù)模塊。掩模預(yù)測網(wǎng)絡(luò)通過級聯(lián)的CGRB和孔洞損失,優(yōu)化了生成掩模的精度。圖像修復(fù)網(wǎng)絡(luò)通過CGRB和SARB以及與鑒別器的聯(lián)合訓(xùn)練,實(shí)現(xiàn)視覺可信的修復(fù)效果。大量實(shí)驗(yàn)證明,存在未知圖像破損區(qū)域時(shí),本文方法能夠生成保持圖像細(xì)節(jié)信息的圖像修復(fù)效果。與其他修復(fù)方法一樣,本文方法依然存在局限性。對于未對齊的人臉圖像即(非正臉圖像)難以重建人臉的五官特征。對于這個(gè)問題,可以收集一些側(cè)臉圖像構(gòu)成數(shù)據(jù)集,然后學(xué)習(xí)人臉的語義信息,進(jìn)一步提高修復(fù)效果。
[1] BERTALMIO M, SAPIRO G, CASELLES V, et al. Image inpainting[C]//The 27th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 2000: 417-424.
[2] CHAN T, SHEN J. Mathematical models for local deterministic inpainting[J]. Siam Journal on Applied Mathematics, 2002, 62(3): 1019-1043.
[3] CHAN T F, SHEN J H. Nontexture inpainting by curvature- driven diffusions[J]. Journal of Visual Communication and Image Representation, 2001, 12(4): 436-449.
[4] BALLESTER C, BERTALMIO M, CASELLES V, et al. Filling-in by joint interpolation of vector fields and gray levels[J]. IEEE Transactions on Image Processing, 2001, 10(8): 1200-1211.
[5] LEVIN A, ZOMET A, WEISS Y. Learning how to inpaint from global image statistics[C]//The 9th IEEE International Conference on Computer Vision. New York: IEEE Press, 2003: 305-312.
[6] EFROS A A, FREEMAN W T. Image quilting for texture synthesis and transfer[C]//The 28th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 2001: 341-346.
[7] KWATRA V, ESSA I, BOBICK A, et al. Texture optimization for example-based synthesis[J]. ACM Transactions on Graphics, 2005, 24(3): 795-802.
[8] SIMAKOV D, CASPI Y, SHECHTMAN E, et al. Summarizing visual data using bidirectional similarity[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2008: 1-8.
[9] BARNES C, SHECHTMAN E, FINKELSTEIN A, et al. PatchMatch: a randomized correspondence algorithm for structural image editing[J]. ACM Transactions on Graphics, 2009, 28(3): 1-11.
[10] DARABI S, SHECHTMAN E, BARNES C, et al. Image melding: combining inconsistent images using patch-based synthesis[J]. ACM Transactions on Graphics, 2012, 31(4): 1-10.
[11] PATHAK D, KR?HENBüHL P, DONAHUE J, et al. Context encoders: feature learning by inpainting[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 2536-2544.
[12] IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics, 2017, 36(4): 1-14.
[13] YAN Z Y, LI X M, LI M, et al. Shift-net: image inpainting via deep feature rearrangement[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2018: 3-19.
[14] WANG Y, TAO X, QI X, et al. Image inpainting via generative multi-column convolutional neural networks[C]//The 32nd International Conference on Neural Information Processing Systems. California: Neural Information Processing Systems, 2018: 331-340.
[15] LIU G L, REDA F A, SHIH K J, et al. Image inpainting for irregular holes using partial convolutions[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2018: 89-105.
[16] NAZERI K, NG E, JOSEPH T, et al. EdgeConnect: generative image inpainting with adversarial edge learning[EB/OL]. (2019-07-01) [2021-04-17]. https://arxiv.org/abs/1901.00212.
[17] LI J Y, WANG N, ZHANG L F, et al. Recurrent feature reasoning for image inpainting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 7757-7765.
[18] ZHAO L, MO Q H, LIN S H, et al. UCTGAN: diverse image inpainting based on unsupervised cross-space translation[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 5740-5749.
[19] YANG C, LU X, LIN Z, et al. High-resolution image inpainting using multi-scale neural patch synthesis[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 4076-4084.
[20] YU J H, LIN Z, YANG J M, et al. Generative image inpainting with contextual attention[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 5505-5514.
[21] LIU H Y, JIANG B, XIAO Y, et al. Coherent semantic attention for image inpainting[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 4169-4178.
[22] YU J H, LIN Z, YANG J M, et al. Free-form image inpainting with gated convolution[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 4470-4479.
[23] YI Z L, TANG Q, AZIZI S, et al. Contextual residual aggregation for ultra high-resolution image inpainting[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 7505-7514.
[24] LIU Y, PAN J S, SU Z X. Deep blind image inpainting[C]// Intelligence Science and Big Data Engineering. Cham: Springer International Publishing, 2019: 128-141.
[25] CAI N, SU Z H, LIN Z N, et al. Blind inpainting using the fully convolutional neural network[J]. The Visual Computer, 2017, 33(2): 249-261.
[26] ZHANG S, HE R, SUN Z N, et al. DeMeshNet: blind face inpainting for deep MeshFace verification[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(3): 637-647.
[27] WANG Y, CHEN Y C, TAO X, et al. VCNet: A robust approach to blind image inpainting[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 752-768.
[28] LIN X D, MA L, LIU W, et al. Context-gated convolution[C]// European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 701-718.
[29] LIU J, ZHANG W J, TANG Y T, et al. Residual feature aggregation network for image super-resolution[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 2356-2365.
[30] GULRAJANII I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein gans[C]//The 31st International Conference on Neural Information Processing Systems. New York: Curran Associates Inc, 2017: 5769-5779.
[31] HAN Z D. Dyna: a method of momentum for stochastic optimization[EB/OL]. (2018-04-24) [2021-04-17]. https://arxiv. org/abs/1805.04933.
[32] KARRAS T, LAINE S, AILA T M. A style-based generator architecture for generative adversarial networks[C]/2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 4401-4410.
[33] KARRAS T, AILA T M, LAINE S, et al. Progressive growing of GANs for improved quality, stability, and variation[EB/OL]. (2018-04-24) [2021-03-25]. https://arxiv.org/abs/1710.10196.
[34] HORé A, ZIOU D. Image quality metrics: PSNR vs. SSIM[C]// 2010 20th International Conference on Pattern Recognition. New York: IEEE Press, 2010: 2366-2369.
[35] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
Blind image inpainting based on context gated convolution
WEN Jing1,2, DING You-dong1,2, YU Bing1,2
(1. Shanghai Film Academy, Shanghai University, Shanghai 200072, China; 2. Shanghai Engineering Research Center of Motion Picture Special Effects, Shanghai 200072, China)
Image inpainting methods based on deep learning have achieved great progress. At present, most of the image inpainting methods use the input mask to reconstruct the degraded areas of the image. Based on this observation, a two-stage blind image inpainting network was proposed, comprising a mask prediction network and an image inpainting network. The input of a mask was not required in the whole inpainting process. The mask prediction network could automatically detect the degraded area of the image and generate a mask according to the input image, and the image inpainting network could restore the missing part of the input image based on the prediction mask. In order to make better use of global context information, a context-gated residual block (CGRB) module was designed based on context-gated convolution to extract feature information. In addition, the spatial attention residual block (SARB) was proposed to model the relationship between pixels in the long-distance image, filtering some irrelevant details. A large number of experimental results on the CelebA-HQ, FFHQ, and PairsStreet datasets show that the improved algorithm is superior to other comparison methods and can generate convincing images.
image inpainting; blind image inpainting; context-gated convolution; context-gated residual block; spatial attention residual block
23 June,2021;
TP 391
10.11996/JG.j.2095-302X.2022010070
A
2095-302X(2022)01-0070-09
2021-06-23;
2021-08-07
7 August,2021
國家自然科學(xué)基金項(xiàng)目(61303093,61402278)
National Natural Science Foundation of China (61303093, 61402278)
溫 靜(1996–),女,碩士研究生。主要研究方向?yàn)閿?shù)字圖像修復(fù)。E-mail:winjing@shu.edu.cn
WEN Jing (1996–), master student. Her main research interest covers digital image inpainting. E-mail:winjing@shu.edu.cn
丁友東(1967–),男,教授,博士。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)與圖像處理。E-mail:ydding@shu.edu.cn
DING You-dong (1967–), professor, Ph.D. His main research interests cover computer graphics and image processing. E-mail:ydding@shu.edu.cn