国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于推理注意力機(jī)制的二階段網(wǎng)絡(luò)圖像修復(fù)*

2022-12-07 03:29:26譚駿珊李雅芳秦姣華
電訊技術(shù) 2022年11期
關(guān)鍵詞:掩模鑒別器邊緣

譚駿珊,李雅芳,秦姣華

(中南林業(yè)科技大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,長(zhǎng)沙 410004)

0 引 言

圖像修復(fù)最根本的目的是實(shí)現(xiàn)對(duì)圖像中損壞區(qū)域的修復(fù),其核心挑戰(zhàn)在于利用缺失區(qū)域周?chē)南袼睾铣梢曈X(jué)逼真、語(yǔ)義合理的結(jié)構(gòu)。早期研究[1-2]通過(guò)解決紋理合成的問(wèn)題,在一幅圖像內(nèi)進(jìn)行塊匹配[3],尋找與缺失區(qū)域內(nèi)容相似的區(qū)域并進(jìn)行填充,這些方法通常使用輸入圖像[4]內(nèi)的數(shù)據(jù)信息,或使用來(lái)自大型圖像數(shù)據(jù)集[5]的數(shù)據(jù)信息,因此無(wú)法在缺失區(qū)域中恢復(fù)有意義的結(jié)構(gòu)或計(jì)算量過(guò)大[6],且無(wú)法適用于大面積區(qū)域缺失的圖像中[7],在此背景下深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和生成對(duì)抗網(wǎng)絡(luò)(Generation Adversarial Network,GAN)[8]得到了快速發(fā)展。最早出現(xiàn)的方法是上下文編碼器[9],但由于全連接層中的信息瓶頸,使得輸出圖像存在視覺(jué)偽影。為了解決這個(gè)問(wèn)題,Liu等人[10]提出部分卷積,使用自動(dòng)更新的二進(jìn)制掩模(即用選定的形狀對(duì)圖像進(jìn)行遮擋)來(lái)確定當(dāng)前像素是否有效。為獲得逼真的視覺(jué)效果,Yeh等人[11]采用反向傳播進(jìn)行1 500次迭代,但反向傳播使得計(jì)算的過(guò)程很緩慢。為節(jié)省計(jì)算時(shí)間并增強(qiáng)輔助信息的作用,Nazeri等人[12]提出一種新的學(xué)習(xí)模型,證明了邊緣信息在修復(fù)中具有重要的作用。

注意力機(jī)制的使用使得背景區(qū)域的特征得到了很好的使用。上下文注意力[13]可以通過(guò)細(xì)化網(wǎng)絡(luò)提高清晰度,但文本注意力使用固定大小的補(bǔ)丁,使得任意形狀的缺失區(qū)域得不到很好的處理。為了提高補(bǔ)丁交換時(shí)的精確度,Wang等人[14]設(shè)計(jì)了一個(gè)多尺度注意模塊,使用多種補(bǔ)丁對(duì)注意分?jǐn)?shù)分別進(jìn)行計(jì)算。這些方法往往都沒(méi)有考慮到像素之間的連續(xù)性,從而導(dǎo)致色彩的斷層或者線條的斷層。因此,Liu等人[15]設(shè)計(jì)了一個(gè)連貫的語(yǔ)義注意層來(lái)表示交換特征之間的相似性和相關(guān)性;Xie等人[16]設(shè)計(jì)了雙向注意力機(jī)制,進(jìn)一步提高修復(fù)的圖像質(zhì)量,并且該方法能夠適應(yīng)不規(guī)則的孔洞修復(fù);Li等人[17]提出遞歸特征推理模塊,考慮不同或者重復(fù)特征之間的關(guān)系,保證補(bǔ)丁交換過(guò)程中的一致性,使得結(jié)果更完美。

盡管上述方法在圖像修復(fù)方面取得了優(yōu)秀的性能,但仍然存在以下問(wèn)題:對(duì)于大面積缺失區(qū)域的圖像而言,很多圖像修復(fù)方法并不能保證修復(fù)結(jié)果在視覺(jué)上做到一致性和連續(xù)性,并且對(duì)于高度紋理化的區(qū)域也不能精確修復(fù)。因此,針對(duì)這些問(wèn)題,本文提出了一種基于推理注意力機(jī)制的二階段網(wǎng)絡(luò)圖像修復(fù)方法,首先由邊緣生成網(wǎng)絡(luò)對(duì)損壞圖像預(yù)測(cè)缺失區(qū)域邊緣并融合已有背景邊緣生成完整邊緣,之后將該邊緣信息和損壞的圖像同時(shí)輸入到第二階段的圖像補(bǔ)全網(wǎng)絡(luò)中進(jìn)行最終的修復(fù)任務(wù)。為了對(duì)大面積損壞區(qū)域的圖像生成更逼真的效果,在圖像補(bǔ)全階段引入推理注意力模塊,確保修復(fù)結(jié)果中產(chǎn)生較少的色彩斷層或者線條斷層,確保生成的修復(fù)圖像在邊緣、紋理結(jié)構(gòu)上達(dá)到高度逼真的視覺(jué)效果。

1 相關(guān)工作

1.1 生成對(duì)抗網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)一般由生成器和鑒別器組成,其中生成器學(xué)習(xí)訓(xùn)練集的特征,并在鑒別器的引導(dǎo)下生成與訓(xùn)練集相似的特征,而鑒別器則區(qū)分輸入的數(shù)據(jù)是真實(shí)的還是生成的數(shù)據(jù),并將結(jié)果反饋給生成器。

生成器和鑒別器交替訓(xùn)練,直到生成的數(shù)據(jù)在鑒別器中可以被認(rèn)定為真數(shù)據(jù)。GAN在訓(xùn)練時(shí)將訓(xùn)練集數(shù)據(jù)和生成的數(shù)據(jù)一起送入鑒別器中進(jìn)行訓(xùn)練,在計(jì)算損失時(shí)讓鑒別器對(duì)訓(xùn)練集數(shù)據(jù)的判別趨于真,對(duì)生成數(shù)據(jù)的判別趨于假,此過(guò)程中只更新鑒別器不更新生成器的參數(shù)。之后在生成器中加入噪聲進(jìn)行干擾,并將生成的數(shù)據(jù)標(biāo)記為真送入鑒別器中,在計(jì)算損失時(shí)讓鑒別器對(duì)生成數(shù)據(jù)的判別趨于真,此過(guò)程只更新生成器參數(shù)。

1.2 二階段網(wǎng)絡(luò)圖像修復(fù)模型

現(xiàn)階段的多數(shù)圖像修復(fù)網(wǎng)絡(luò)都是基于二階段網(wǎng)絡(luò),其網(wǎng)絡(luò)模型由生成對(duì)抗網(wǎng)絡(luò)組成。將損壞的圖像作為第一階段的輸入,經(jīng)過(guò)生成器首先得到粗略的生成,同時(shí)將生成的數(shù)據(jù)輸入到鑒別器中進(jìn)行判別,并將結(jié)果返回到生成器中,再將該粗略結(jié)果輸入到第二階段中以生成更精確的結(jié)果。粗網(wǎng)絡(luò)使用重建損失進(jìn)行訓(xùn)練,而細(xì)網(wǎng)絡(luò)則使用GAN損失對(duì)圖像進(jìn)行重建,如圖1所示。

圖1 二階段網(wǎng)絡(luò)結(jié)構(gòu)圖

針對(duì)不同的修復(fù)場(chǎng)景,也可以使用卷積神經(jīng)網(wǎng)絡(luò)或U-Net等網(wǎng)絡(luò)模型替換生成對(duì)抗網(wǎng)絡(luò)。

1.3 注意力機(jī)制

注意力機(jī)制與人的注意機(jī)制類(lèi)似,即在某一時(shí)刻主要關(guān)注某些數(shù)據(jù)而忽略其他數(shù)據(jù),合理分配關(guān)注度,減少計(jì)算量的同時(shí)也節(jié)約了成本。隨著深度學(xué)習(xí)領(lǐng)域的快速發(fā)展,注意力機(jī)制也得到了廣泛的應(yīng)用,在圖像處理、自然語(yǔ)言處理及語(yǔ)音識(shí)別方向都取得了不錯(cuò)的效果。

卷積神經(jīng)網(wǎng)絡(luò)逐層處理時(shí)具有局部卷積的圖像特征,而使得借用的較遠(yuǎn)空間位置的特征無(wú)效。為了克服這種局限性,Yu等人[13]提出使用上下文注意力機(jī)制。該注意力機(jī)制可以從已知的背景區(qū)域中借用或者復(fù)制特征信息的位置,以生成缺失的信息。但是這種從遠(yuǎn)處空間借用信息的方法會(huì)增加很多計(jì)算的成本,并且不能保證借用的特征是完全有效的,因此對(duì)于大面積區(qū)域缺失的圖像而言其效果并不是特別明顯。為了解決這個(gè)問(wèn)題,同時(shí)考慮不同或者重復(fù)特征之間的關(guān)系,本文引入了推理注意力機(jī)制,以解決像素之間的不連續(xù)產(chǎn)生的色彩斷層問(wèn)題,期望在大面積區(qū)域缺失的情況下得到更好的修復(fù)效果。

2 基于推理注意力機(jī)制的二階段網(wǎng)絡(luò)圖像修復(fù)模型

為了獲得更好的修復(fù)效果,本文提出的修復(fù)模型以端到端的方式進(jìn)行訓(xùn)練。該模型由兩階段組成:第一階段結(jié)合掩模信息和灰度圖生成完整的幻覺(jué)邊緣;第二階段使用該幻覺(jué)邊緣作為輔助信息對(duì)圖像進(jìn)行重建。每階段均由生成器和鑒別器組成。令G1、D1和G2、D2分別為兩階段的生成器和判別器。生成器的前端為編碼器結(jié)構(gòu),對(duì)圖像進(jìn)行兩次下采樣,經(jīng)過(guò)8個(gè)殘差塊后輸入到解碼器中進(jìn)行上采樣回到原始大小。為了生成更有效的信息,使用擴(kuò)張因子為2的擴(kuò)張卷積代替殘差塊中的規(guī)則卷積。而網(wǎng)絡(luò)鑒別器則使用70×70的PatchGAN體系結(jié)構(gòu)[18],該結(jié)構(gòu)確定大小為70×70的重疊圖像塊是否真實(shí)。

為了在最終的修復(fù)結(jié)果中不讓色彩斷層或線條斷層問(wèn)題而產(chǎn)生視覺(jué)上的偏差,在第二階段引入推理注意力機(jī)制,提高修復(fù)圖像的質(zhì)量。模型結(jié)構(gòu)圖如圖2所示。

圖2 基于推理注意力機(jī)制的圖像修復(fù)模型圖

2.1 二階段修復(fù)網(wǎng)絡(luò)

2.1.1 邊緣生成網(wǎng)絡(luò)

使用Igt表示未被損壞的真值圖像,其對(duì)應(yīng)的邊緣圖和灰度圖分別用Cgt和Igr表示。M作為圖像掩模,缺失區(qū)域標(biāo)記為1,否則標(biāo)記為0。

(1)

將Cgt和Cp作為鑒別器的輸入,以預(yù)測(cè)生成的邊緣是否真實(shí),并聯(lián)合特征匹配損失和對(duì)抗損失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

對(duì)抗損失定義為

Ladv,1=E[lnD1(Cgt,Igr)]+E{ln[1-D1(Cp,Igr)]}。

(2)

式中:E(·)表示求均方誤差;D1表示鑒別器的激活。

特征匹配損失定義為

(3)

因此,該階段的總體損失函數(shù)定義為

(4)

式中:λadv,1和λFM為正則化參數(shù)。

2.1.2 圖像補(bǔ)全網(wǎng)絡(luò)

在邊緣生成階段生成缺失區(qū)域的預(yù)測(cè)邊緣Cp后,將其與背景區(qū)域的邊緣如進(jìn)行融合生成完整的邊緣圖Cc,表示為

Cc=Cgt⊙(1-M)+Cp⊙M。

(5)

(6)

式中:G2表示生成器的激活。

在該階段中,聯(lián)合l1聯(lián)合相對(duì)損失、對(duì)抗損失、感知損失和風(fēng)格損失函數(shù)函數(shù)進(jìn)行訓(xùn)練。分析如下:

l1相對(duì)損失定義為

Ll1=λholeLhole+λvalidLvalid。

(7)

式中:Lhole和Lvalid分別計(jì)算了未損壞區(qū)域和損壞區(qū)域上的l1損失的差值;λhole和λvalid為正則化參數(shù)。

對(duì)抗損失的定義同公式(2)一致,但由于該對(duì)抗損失位于第二階段的圖像補(bǔ)全網(wǎng)絡(luò)中,因此表示方式如下:

Ladv,2=E[lnD2(Igt,Cc)]+E{ln[1-D2(Ip,Cc)]} 。

(8)

式中:D2表示鑒別器的激活。

感知損失通過(guò)定義預(yù)訓(xùn)練網(wǎng)絡(luò)的各激活圖之間的距離度量來(lái)懲罰與標(biāo)簽在感知上不相似的結(jié)果,因此感知損失定義為

(9)

式中:φi為預(yù)訓(xùn)練網(wǎng)絡(luò)第i層的激活圖,這些激活圖還用于計(jì)算風(fēng)格損失。因此風(fēng)格損失函數(shù)定義為

(10)

因此,第二階段整體的聯(lián)合損失函數(shù)表示為

LG2=λl1Ll1+λadv,2Ladv,2+λpLperc+λsLstyle。

(11)

式中:λl1、λadv,2、λp、λs均為正則化參數(shù)。

2.2 推理注意力機(jī)制

在填充圖像中的缺失區(qū)域的內(nèi)容時(shí),圖像的未知區(qū)域即損壞區(qū)域被已知區(qū)域的內(nèi)容包圍,在特征合成階段會(huì)產(chǎn)生限制,使得修復(fù)圖像的內(nèi)容由相連的像素圍成,而不是被相關(guān)的像素直接包圍,因此如何使用背景區(qū)域的有效信息就成了亟待解決的問(wèn)題。為了更合理地利用背景區(qū)域中的紋理信息,在很多情況下都會(huì)考慮使用注意力機(jī)制模塊進(jìn)行輔助。但現(xiàn)有的注意力模塊存在的一個(gè)問(wèn)題就是,在不同的遞歸過(guò)程中,重復(fù)特征在合并時(shí)會(huì)產(chǎn)生不可控制的差異。為了解決這個(gè)問(wèn)題,本方案在圖像補(bǔ)全階段中引入推理注意力模塊[17],注意力模塊如圖3所示。

圖3 推理注意力模塊

為了說(shuō)明推理注意力機(jī)制的工作方式,在第i次遞歸循環(huán)中進(jìn)行定義解釋。

首先,在第i次遞歸循環(huán)中使用歸一化內(nèi)積(余弦相似度)進(jìn)行相似度計(jì)算測(cè)量:

(12)

式中:cosi(A,B)表示在第i次迭代循環(huán)中前景位置A(x1,y1)和背景位置B(x2,y2)之間的相似性。

之后對(duì)相似性進(jìn)行平均,再沿著(x,y)的位置使用softmax生成注意力分?jǐn)?shù),并將該分?jǐn)?shù)記為score。為了計(jì)算最終的注意力分?jǐn)?shù),給定計(jì)算方式為:給定一對(duì)有效像素A(x1,y1)和B(x2,y2),在第i次迭代中的最終注意力分?jǐn)?shù)為當(dāng)前迭代注意力分?jǐn)?shù)與上一次迭代分?jǐn)?shù)的比例累積之和,整體表示為

scorei(A,B)=αscorei′(A,B)+(1-α)scorei-1(A,B)。

(13)

式中:scorei(A,B)表示在當(dāng)前第i次迭代中計(jì)算的最終注意力數(shù);scorei′(A,B)為當(dāng)前第i次迭代中計(jì)算的注意力數(shù);scorei-1(A,B)為上一輪第i次迭代中計(jì)算的注意力分?jǐn)?shù);α為正則化參數(shù)。

但如果給定像素表示為無(wú)效像素,即當(dāng)前score=0,那么不會(huì)對(duì)該像素進(jìn)行計(jì)算,即當(dāng)前迭代中的最終注意力分?jǐn)?shù)即為上一次迭代的注意力分?jǐn)?shù),表示為

scorei(A,B)=αscorei′(A,B) 。

(14)

最后利用生成的注意力分?jǐn)?shù)對(duì)特征進(jìn)行重建工作,對(duì)前景位置A(x1,y1)處計(jì)算的新特征表示為

Fi(A)=∑x′∈1,2,…,W,y′∈1,2,…,Hscorei(A,B)Fi(B)。

(15)

式中:Fi(A)表示重建的新特征;Fi(B)表示背景位置B(x2,y2)的特征;H和W分別表示圖像的高度和寬度。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

本文使用三個(gè)常用圖像修復(fù)公共數(shù)據(jù)集和兩種類(lèi)型的圖像掩模數(shù)據(jù)集對(duì)模型進(jìn)行驗(yàn)證。

CelebA數(shù)據(jù)集[19]:包含10 177個(gè)名人身份的202 599張圖片,在此數(shù)據(jù)集上對(duì)模型進(jìn)行訓(xùn)練可以完成面孔的編輯任務(wù)。

Places2數(shù)據(jù)集[20]:由MIT(Massachusetts Institute of Technology)發(fā)布的數(shù)據(jù)集,包含超過(guò)1 000萬(wàn)張圖片和400多個(gè)不同類(lèi)型的場(chǎng)景環(huán)境。

ParisStreetView數(shù)據(jù)集[21]:這個(gè)數(shù)據(jù)集主要集中在城市建筑,包含14 900張訓(xùn)練圖像和100張測(cè)試圖像。

兩種類(lèi)型的圖像掩模數(shù)據(jù)集:規(guī)則掩模和不規(guī)則掩模。規(guī)則掩模為固定大小的方形掩模,中心位于圖像的隨機(jī)位置。不規(guī)則掩模則使用劉等人[10]的工作。

本文提出的網(wǎng)絡(luò)基于公共的pytorch框架實(shí)現(xiàn),訓(xùn)練和測(cè)試系統(tǒng)均采用Intel(R) Core(TM) i7-3750H CPU @ 2.30 GHz,8.00 GB RAM和Nvidia GeForce GTX 1050 GPU。該網(wǎng)絡(luò)使用256×256圖像進(jìn)行訓(xùn)練,使用Adam優(yōu)化器[22]對(duì)模型進(jìn)行優(yōu)化。兩階段生成器以學(xué)習(xí)率為10-4進(jìn)行訓(xùn)練,當(dāng)損失趨向平穩(wěn)時(shí)將學(xué)習(xí)率降到10-5,直至生成器收斂,最后以學(xué)習(xí)率為10-6對(duì)生成器進(jìn)行微調(diào)。測(cè)試時(shí),只需要加載訓(xùn)練的模型對(duì)圖像進(jìn)行測(cè)試。

3.2 實(shí)驗(yàn)分析

圖像修復(fù)質(zhì)量好壞的評(píng)價(jià)標(biāo)準(zhǔn)是多方面的,為了充分評(píng)估圖像修復(fù)方法的效果,本小節(jié)將本文中的模型與其他幾種模型分別進(jìn)行了定性和定量的比較,同時(shí)根據(jù)掩模大小對(duì)修復(fù)的影響進(jìn)行了分析,從各實(shí)驗(yàn)結(jié)果對(duì)比來(lái)看,該方法在圖像修復(fù)上表現(xiàn)出了良好的效果。

3.2.1 定性比較

圖4~6分別是CA[13]、EC[12]、RFR[17]、DeepFill[23]以及本文提出的方法分別在Places2、CelebA和ParisStreetView數(shù)據(jù)集上的修復(fù)結(jié)果展示。在大多數(shù)情況下,本文提出的方法細(xì)節(jié)修復(fù)效果更好。例如,圖4中各方法在修復(fù)結(jié)果上均會(huì)產(chǎn)生不同程度的偽影結(jié)構(gòu),但相較于其他方案,本文方案修復(fù)的結(jié)果中其連續(xù)性更好。在圖5中的人臉修復(fù)效果中,可以看出方法CA[13]產(chǎn)生的結(jié)果其修復(fù)區(qū)域與周?chē)鷧^(qū)域的連續(xù)性較差,面部結(jié)構(gòu)不會(huì)出現(xiàn)在正確的位置;方法EC[12]和DeepFill[23]在修復(fù)結(jié)果中會(huì)產(chǎn)生不同程度的扭曲結(jié)果,而RFR[17]通常存在的問(wèn)題是過(guò)度平滑使得結(jié)果模糊。本文指出修復(fù)方法能夠良好地補(bǔ)充紋理信息和結(jié)構(gòu)信息,對(duì)于大部分大區(qū)域破損的圖像具有較好的修復(fù)效果。但是從結(jié)果中可以觀察到,部分修復(fù)結(jié)果還會(huì)存在偽影結(jié)構(gòu)。

圖4 不同方法在Places2數(shù)據(jù)集的修復(fù)效果展示

圖5 不同方法在CelebA數(shù)據(jù)集的修復(fù)效果展示

圖6 不同方法在Paris StreetView數(shù)據(jù)集的修復(fù)效果展示

3.2.2 定量比較

使用l1相對(duì)損失、結(jié)構(gòu)相似性(Structural Similarity,SSIM)指數(shù)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、弗雷謝特起始距離(Frechet Inception Distance,FID)進(jìn)行定量比較。表1~3分別列出了三個(gè)數(shù)據(jù)集在不規(guī)則掩模的不同比例下的各指標(biāo)對(duì)比結(jié)果,*表示指標(biāo)數(shù)值越低效果越好,+表示指標(biāo)數(shù)值越高效果越好。由表1~3的數(shù)據(jù)可知,本文提出的方法在Places2、CelebA和Paris StreetView數(shù)據(jù)集中均具有較好的優(yōu)勢(shì)。

對(duì)比表1的實(shí)驗(yàn)結(jié)果,在Places2數(shù)據(jù)集進(jìn)行測(cè)試,當(dāng)掩模大小為20%~30%時(shí)本文提出的方法中SSIM的值達(dá)到0.889,相較于方法EC來(lái)說(shuō)提高了3%左右,而對(duì)于指標(biāo)PSNR來(lái)說(shuō),本文提出的方法達(dá)到了25.56 dB,相較于方法EC來(lái)說(shuō)提升了1.3 dB左右。對(duì)于l1相對(duì)損失,在掩模大小為40%~50%時(shí),相較于方法EC[17]而言,本文方法降低了1%左右。

表1 不同方法在Places2數(shù)據(jù)集的修復(fù)性能比較

表2 不同方法在CelebA數(shù)據(jù)集的修復(fù)性能比較

表3 不同方法在Paris StreetView數(shù)據(jù)集的修復(fù)性能比較

同時(shí),本文也采用雙向強(qiáng)迫選擇(2 Alternative Forced Choice,2AFC)和最小可覺(jué)差(Just Noticeable Differences,JND)兩個(gè)評(píng)價(jià)指標(biāo)在Places2數(shù)據(jù)集上對(duì)模型進(jìn)行評(píng)估。2AFC指標(biāo)指每個(gè)樣本包含3張圖片或1張?jiān)瓐D和2張不同失真的圖片,在這之間判斷哪一張圖片和原圖更接近。JND指標(biāo)則要求從成對(duì)的真實(shí)和生成圖像中選擇改變最小的圖像。每類(lèi)掩模和測(cè)試圖像各選擇400張,每個(gè)圖像總共顯示15次,最終結(jié)果記錄在表4中。從表中信息可知,在掩模大小為20%~30%時(shí)本文方法的JND達(dá)到42.78%,相較于方法EC來(lái)說(shuō)指標(biāo)提高約為5%,而2AFC的結(jié)果達(dá)到82.65%,相較于方法EC來(lái)說(shuō)指標(biāo)提高約為4%。

表4 不同方法在Places2上的修復(fù)性能比較

3.2.3 破損區(qū)域大小對(duì)修復(fù)的影響

如圖7所示,本文在同一張圖片中逐漸增加破損區(qū)域的面積,以研究破損區(qū)域大小對(duì)修復(fù)效果的影響,對(duì)比的方法為CA[13]。第1~5行中,缺失區(qū)域占比范圍依次為[0,10%]、[10%,20%]、[20%,30%]、[30%,40%]、[40%,50%]。由結(jié)果可以看出,在方法CA[13]中,隨著有效區(qū)域面積的減少,該方法從有效區(qū)域中獲得的有用信息也逐漸減少,生成的圖像中包含的偽影信息更多,而本文中的模型性能效果更好,生成的視覺(jué)偽影更少。

圖7 破損區(qū)域大小對(duì)修復(fù)效果的影響

為了說(shuō)明推理注意力機(jī)制模塊對(duì)圖像修復(fù)的有效性,在Places2數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。以EC為基本的模型,分析了在網(wǎng)絡(luò)補(bǔ)全階段加入文本注意力機(jī)制和推理注意力機(jī)制時(shí)不同注意力機(jī)制加入對(duì)圖像修復(fù)性能的影響。表5給出了在網(wǎng)絡(luò)補(bǔ)全階段測(cè)試加入不同的注意力機(jī)制時(shí)各模型性能的比較,*表示指標(biāo)數(shù)值越低效果越好,+表示指標(biāo)數(shù)值越高效果越好。

表5 加入不同注意力機(jī)制的方法在Places2數(shù)據(jù)集上的修復(fù)性能比較

本文也將推理注意力模塊加入到邊緣生成網(wǎng)絡(luò)中,并將加入和未加入推理注意力模塊的生成邊緣以及兩種情況下的修復(fù)結(jié)果進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如圖8所示。該實(shí)驗(yàn)中的整體網(wǎng)絡(luò)模型為本文中引用的二階段圖像修復(fù)網(wǎng)絡(luò)模型。根據(jù)對(duì)比實(shí)驗(yàn)的結(jié)果可以發(fā)現(xiàn),加入推理注意力模塊的邊緣生成網(wǎng)絡(luò)在細(xì)節(jié)位置能夠生成更準(zhǔn)確的邊緣,并且去掉無(wú)用的邊緣信息。

圖8 推理注意力模塊對(duì)生成邊緣的影響

4 結(jié)束語(yǔ)

本文提出了一種基于推理注意力機(jī)制的二階段網(wǎng)絡(luò)圖像修復(fù)方法,首先由邊緣生成網(wǎng)絡(luò)對(duì)殘缺圖像生成完整的幻覺(jué)邊緣,再利用生成的邊緣信息輔助圖像的重建工作。為了解決像素的不連續(xù)性而產(chǎn)生的線條斷層或者色彩斷層問(wèn)題,在圖像補(bǔ)全階段引入推理注意力機(jī)制模塊,進(jìn)而控制合成特征的不一致性,保證在遞歸中信息交換的統(tǒng)一,約束孔中心并加強(qiáng)像素之間的相關(guān)性。分別在CelebA、Places2和Paris StreetView三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),由實(shí)驗(yàn)結(jié)果可以看出,在同一掩模尺寸的大小下,本文提出的方法具有較優(yōu)的修復(fù)性能;同時(shí)也可以看出,當(dāng)掩模尺寸逐漸增大時(shí)圖像的修復(fù)性能會(huì)隨之降低。這是因?yàn)楫?dāng)殘缺區(qū)域增大時(shí),背景區(qū)域可用的信息會(huì)隨之減少,從而對(duì)孔中心像素相關(guān)性的約束也會(huì)隨之降低。

通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在處理相鄰像素時(shí),當(dāng)缺失區(qū)域增大時(shí)容易得到不連續(xù)點(diǎn),并且會(huì)生成較多的冗余邊緣信息,從而產(chǎn)生修復(fù)結(jié)果視覺(jué)上的偏差,因此未來(lái)的工作時(shí)是改進(jìn)邊緣生成算法,為圖像修復(fù)任務(wù)提供更可靠的輔助信息。

猜你喜歡
掩模鑒別器邊緣
基于多鑒別器生成對(duì)抗網(wǎng)絡(luò)的時(shí)間序列生成模型
衛(wèi)星導(dǎo)航信號(hào)無(wú)模糊抗多徑碼相關(guān)參考波形設(shè)計(jì)技術(shù)*
基于直寫(xiě)技術(shù)的微納掩模制作技術(shù)研究進(jìn)展*
掩模圖像生成時(shí)閾值取值的合理性探討
一張圖看懂邊緣計(jì)算
掩模位置誤差對(duì)光刻投影物鏡畸變的影響
陣列天線DOA跟蹤環(huán)路鑒別器性能分析
Cr光柵掩模對(duì)金屬平板超透鏡成像質(zhì)量的影響
一種新的BOC調(diào)制無(wú)模糊跟蹤鑒別器設(shè)計(jì)
在邊緣尋找自我
雕塑(1999年2期)1999-06-28 05:01:42
喜德县| 肥乡县| 泗水县| 天门市| 个旧市| 太和县| 嘉义市| 哈尔滨市| 洛隆县| 武夷山市| 区。| 永泰县| 新丰县| 元江| 密云县| 河北区| 韩城市| 屏东县| 嘉义市| 拉萨市| 廉江市| 株洲县| 应城市| 河东区| 孟州市| 孝义市| 泸西县| 芦溪县| 乐东| 宁化县| 本溪| 西峡县| 泸西县| 喀什市| 嘉兴市| 叙永县| 军事| 黔东| 伽师县| 大邑县| 衢州市|