国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向圖像內(nèi)補與外推問題的迭代預(yù)測統(tǒng)一框架

2024-02-24 09:09:26郭冬升顧肇瑞鄭冰董軍宇鄭海永
中國圖象圖形學(xué)報 2024年2期
關(guān)鍵詞:掩膜編碼器像素

郭冬升,顧肇瑞,鄭冰,董軍宇,鄭海永*

1.中國海洋大學(xué)信息科學(xué)與工程學(xué)部,青島 266100;2.山東浪潮科學(xué)研究院有限公司,濟南 250101

0 引言

圖像內(nèi)補與外推問題源自數(shù)據(jù)采集時受到環(huán)境遮擋、設(shè)備視野限制等帶來的圖像信息不全面,以及傳播過程中圖像受損、人為涂抹、添加遮擋等造成的圖像內(nèi)容不完整。這些問題嚴(yán)重影響圖像理解及視覺效果,高質(zhì)量的內(nèi)補與外推將大大降低圖像的認(rèn)知難度,也有助于為圖像理解等后續(xù)視覺任務(wù)提供完整豐富的數(shù)據(jù)基礎(chǔ)。其中,圖像內(nèi)補(image inpainting)指利用圖像內(nèi)部缺失部分的鄰域信息和已知區(qū)域整體信息,根據(jù)視覺合理性原則對圖像中缺失區(qū)域進行補充;圖像外推(image outpainting)指依據(jù)圖像已知區(qū)域,對圖像邊界外的內(nèi)容進行延伸推理與繪制,擴大觀察者的感知視野。圖像內(nèi)補與外推方法廣泛應(yīng)用于計算機視覺任務(wù)中,如視野擴展(Zhang 等,2013;Wang 等,2014;Shan 等,2014)、紋理合成(Li 和Wand,2016;Xian 等,2018;Slossberg等,2019)、圖像編輯(Zhu等,2016;Barnes等,2009)、對象去除(Liu 等,2018;Liu 等,2022;Yu 等,2019)等。

近年來,圖像內(nèi)補(Xiong 等,2019;Sagong 等,2019;Yu 等,2019;Nazeri 等,2019;Ren 等,2019;王倩娜和陳燚,2022)與圖像外推(Wang 等,2019;Teterwak 等,2019;Guo 等,2020)方法大多直接將子圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural net?work,CNN)中,通過學(xué)習(xí)數(shù)據(jù)集知識合成整幅圖像。對圖像內(nèi)補來說,未知區(qū)域一般所占面積較小且位于圖像內(nèi)部,因圖像相鄰像素之間的強相關(guān)性,通過卷積未知區(qū)域周圍的像素可以完成內(nèi)補缺失像素的問題,這種思路及方法在圖像內(nèi)補任務(wù)上可以得到不錯的表現(xiàn)(Pathak 等,2016;Yeh 等,2017;Yu 等,2018;Liu 等,2018;Xie 等,2019;強振平 等,2019;Li等,2020)。然而,對于圖像外推問題,未知區(qū)域通常面積較大且位于已知區(qū)域外部,具有可用信息少、合成面積大的特點,使得圖像外推任務(wù)趨向于難度更大的圖像生成問題。因此,當(dāng)前圖像內(nèi)補與外推方法難以互相適用,圖像內(nèi)補方法較難完成繪制周邊大范圍未知區(qū)域的情況,而圖像外推方法也難以處理各種不同形態(tài)已知區(qū)域的情形(Wang 等,2019;Teterwak等,2019)。

事實上,圖像內(nèi)補與外推本質(zhì)上都可看做根據(jù)已知區(qū)域繪制未知區(qū)域的問題,從這個角度可以構(gòu)建解決兩個問題的統(tǒng)一框架,進而提升方法通用性。然而,兩個問題統(tǒng)一考慮進行處理將帶來已知區(qū)域形態(tài)更加復(fù)雜的困難,相對于獨立解決內(nèi)補或外推問題具有更大的挑戰(zhàn)性。具體來說,已知區(qū)域形態(tài)復(fù)雜導(dǎo)致語義、紋理等信息更難識別,并且根據(jù)已知區(qū)域合成真實合理的不同大小、不同形狀和不同位置的未知區(qū)域內(nèi)容更加困難。這兩個難點要求深度學(xué)習(xí)模型具備良好的表征已知區(qū)域特征、預(yù)測未知區(qū)域內(nèi)容以及合成重建整幅圖像的能力。表征已知區(qū)域特征即識別與提取已知區(qū)域有效信息;預(yù)測未知區(qū)域內(nèi)容即根據(jù)已知區(qū)域特征對未知區(qū)域部分進行預(yù)測;合成重建整幅圖像即將預(yù)測的未知區(qū)域特征映射到圖像空間以獲得目標(biāo)圖像,其中預(yù)測未知區(qū)域內(nèi)容是解決圖像內(nèi)補與外推問題的關(guān)鍵。這3種功能構(gòu)成當(dāng)前深度學(xué)習(xí)模型設(shè)計過程,例如兩階段圖像內(nèi)補方法(Xiong 等,2019;Ren 等,2019;Nazeri 等,2019;Li 等,2019;Dong 等,2020)中,首先通過表征和預(yù)測來生成一幅輔助圖像,如先生成一幅完整的模糊結(jié)果、邊緣圖像、結(jié)構(gòu)圖或語義圖等,再將此過渡圖像合成最終結(jié)果。可以說,多數(shù)基于深度學(xué)習(xí)的圖像內(nèi)補與外推方法都隱式地將表征、預(yù)測與合成3 部分功能涵蓋在網(wǎng)絡(luò)設(shè)計中。在此類網(wǎng)絡(luò)中,表征主要由卷積神經(jīng)網(wǎng)絡(luò)(CNN)編碼器實現(xiàn)且相對獨立,用于將已知區(qū)域映射到特征空間,預(yù)測及合成過程主要由后續(xù)網(wǎng)絡(luò)如CNN 解碼器實現(xiàn),這兩個過程往往不加區(qū)分??紤]到模型在同時解決預(yù)測及合成問題時所面臨的訓(xùn)練難度必然比單獨面對其中任意一個更大,因此將預(yù)測與合成進行功能分離并分而治之有望提升圖像內(nèi)補與外推性能。

由于CNN 在解決計算機視覺問題上表現(xiàn)突出,目前圖像內(nèi)補與外推方法通常構(gòu)建CNN 模型來解決。然而這種方式存在一定的局限性,主要源于CNN 的固有歸納偏置,即局部相關(guān)性和空間不變性,前者只能關(guān)注到卷積核視野內(nèi)的空間元素,后者導(dǎo)致不同空間位置的局部空間建模能力受限,無法有效地捕獲空間上長距離的關(guān)系。因此,對圖像內(nèi)補與外推的預(yù)測階段來說,CNN 歸納偏置對于大范圍未知區(qū)域建模能力較弱,特別是對于圖像外推問題,CNN 僅能利用已知區(qū)域邊緣處少量信息進行預(yù)測,卷積可利用的信息隨著外推距離增大而減少,難以有效完成高質(zhì)量外推。

相較于采用CNN 預(yù)測未知區(qū)域內(nèi)容,Trans?former(Vaswani 等,2017)因其強大的遠距離關(guān)系建模能力更具優(yōu)勢。Transformer首先應(yīng)用于自然語言處理(natural language processing,NLP)領(lǐng)域,近兩年作為一種新型網(wǎng)絡(luò)結(jié)構(gòu)進入計算機視覺領(lǐng)域。如今,Transformer 已被證實在許多計算機視覺問題上成為可替代CNN 的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),如圖像識別(Dosovitskiy 等,2021)、目標(biāo)檢測(Carion 等,2020;Zhu 等,2021)及低層圖像處理(Chen 等,2021;Guo等,2022)問題等。與CNN 不同的是,Transformer 不存在局部相關(guān)性與空間不變性歸納偏置,且具備強大捕捉遠距離上下文關(guān)系的能力。然而,Trans?former 在預(yù)測問題中大多采用基于自回歸的思路(Chen 等,2020),此類方法雖然可解決根據(jù)已知區(qū)域像素預(yù)測未知區(qū)域像素的問題,但在如圖像外推問題中存在大量像素缺失的情形下,逐個像素預(yù)測的方式必然占用大量時間與計算資源。相對于采用自回歸的方式,諸如自編碼器等可用于圖到圖合成的網(wǎng)絡(luò)結(jié)構(gòu)可能更適合高效解決圖像內(nèi)補與外推問題。因此,本文采用自編碼器架構(gòu)并引入Trans?former 并行預(yù)測的方式來嘗試統(tǒng)一解決內(nèi)補與外推問題。然而,面對大面積未知區(qū)域的情況,根據(jù)少量已知信息較難準(zhǔn)確地同時預(yù)測未知區(qū)域內(nèi)容。針對此情況,在并行預(yù)測過程中,本文提出掩膜自增策略分散大面積未知區(qū)域,將同時預(yù)測全部區(qū)域拆分為迭代遞進預(yù)測過程,使得每次預(yù)測區(qū)域面積相對變小,且可利用前次預(yù)測內(nèi)容作為本次預(yù)測依據(jù)。通過這種方式,降低了大面積未知區(qū)域預(yù)測難度,進而提高預(yù)測準(zhǔn)確性。

綜上,本文將圖像內(nèi)補與外推問題的解決過程顯式地分解為表征、預(yù)測和合成3 個階段,基于三階段根據(jù)分而治之思想提出CNN 表征合成聯(lián)合Trans?former 迭代預(yù)測的統(tǒng)一框架及模型。其中,表征階段采用CNN 編碼器實現(xiàn),基于Liu 等人(2018)提出的部分卷積法(partial convolution,PC),更好地處理已知區(qū)域邊緣信息;預(yù)測階段設(shè)計Transformer 編碼器,配合坐標(biāo)信息根據(jù)已知區(qū)域特征預(yù)測未知區(qū)域特征,并提出掩膜自增策略進行迭代預(yù)測;合成階段使用由殘差塊與上采樣交疊構(gòu)建的CNN 解碼器,將預(yù)測特征最終映射為完整圖像。

本文主要貢獻包括:1)分解圖像內(nèi)補與外推過程并分而治之,提出聯(lián)合CNN 與Transformer 的框架,統(tǒng)一解決內(nèi)補與外推問題;2)設(shè)計Transformer迭代預(yù)測未知區(qū)域內(nèi)容,提出掩膜自增策略,降低同時預(yù)測所有未知區(qū)域特征難度;3)在多種數(shù)據(jù)集上進行實驗驗證,實驗結(jié)果表明所提模型在內(nèi)補與外推問題上取得良好效果。

1 統(tǒng)一框架整體架構(gòu)

按照分而治之思想,圖像內(nèi)補與外推過程可分解為表征、預(yù)測和合成3 個階段。據(jù)此,本文構(gòu)建了圖像內(nèi)補與外推統(tǒng)一框架,表征與合成階段分別由CNN 編碼器與CNN 解碼器實現(xiàn),預(yù)測階段設(shè)計Transformer 編碼器完成,這樣構(gòu)建了Transformer 與CNN 自編碼器聯(lián)合的網(wǎng)絡(luò)架構(gòu)。統(tǒng)一框架整體架構(gòu)如圖1所示。

圖1 圖像內(nèi)補與外推統(tǒng)一框架整體架構(gòu)Fig.1 The architecture of our unified framework dealing with both image inpainting and image outpainting

表征和合成可分別看做圖像空間到特征空間以及特征空間到圖像空間的映射過程。其中,CNN 編碼器將輸入的已知區(qū)域圖像降維到特征空間,特征尺寸為輸入圖像的1/8 大小。為避免未知區(qū)域無效信息引入,表征階段采用部分卷積替換常規(guī)卷積來處理已知區(qū)域與未知區(qū)域邊界信息。另外,在每一層部分卷積后,采用像素歸一化方法(Li等,2019)平衡不同位置特征數(shù)值,使所有送入預(yù)測階段的特征具有相同數(shù)據(jù)分布,以便于更充分的模型訓(xùn)練。特征到圖像映射過程CNN 解碼器采用多個殘差塊與上采樣間隔構(gòu)成,通過正切函數(shù)轉(zhuǎn)換為像素數(shù)值輸出合成圖像,并在最后引入判別網(wǎng)絡(luò)提升模型性能。

預(yù)測階段是整個模型的核心,此階段采用Transformer 編碼器來設(shè)計實現(xiàn),主要功能為根據(jù)所有已知區(qū)域特征并行預(yù)測未知區(qū)域。由于Trans?former 設(shè)計適用于處理一維序列數(shù)據(jù),進出Trans?former 編碼器的一維數(shù)據(jù)需與二維特征需要進行轉(zhuǎn)換??紤]到Transformer 處理的維度不宜過大,在進入預(yù)測過程前將特征通過1×1 卷積由512 降維到256 維。預(yù)測時設(shè)計了掩膜自增策略迭代預(yù)測未知區(qū)域特征,降低并行預(yù)測難度。

2 特征迭代預(yù)測過程

利用Transformer強大的遠程上下文關(guān)系建模能力是解決未知區(qū)域特征預(yù)測問題的關(guān)鍵,下面闡述本文提出的Transformer并行特征預(yù)測方法與掩膜自增策略。

2.1 并行特征預(yù)測

采用Transformer 處理圖像內(nèi)補與外推問題時,需要將二維數(shù)據(jù)表示為一維序列數(shù)據(jù)進行輸入,每個序列元素稱為令牌(token)。針對圖像內(nèi)補與外推問題,可將涵蓋未知區(qū)域位置的原始輸入按照像素順序依次排列,以此便可轉(zhuǎn)換為一維序列數(shù)據(jù),此時在序列中每一個token由一個像素構(gòu)成,未知區(qū)域像素可填充特殊值加以標(biāo)注。然而,將圖像按照像素轉(zhuǎn)換為一維序列的方法將使得進入Transformer的序列長度過長,如分辨率為256 × 256 像素的圖像按照像素拉伸為一維序列之后的長度為65 536,由于Transformer 的計算復(fù)雜度是令牌數(shù)量的平方,其不僅需要大規(guī)模算力,同時也使得模型難以挖掘像素之間的相關(guān)性特征。因此,為避免轉(zhuǎn)換后一維序列過長,通常將原始圖像降維到特征空間或?qū)D像按照圖像塊拆分,兩者本質(zhì)上都是將圖像中某一區(qū)域轉(zhuǎn)換為一個令牌,不同的是,相對于直接將原始圖像拆分為多個等大的圖像塊,降維到特征空間的方法可以進一步提取圖像特征。在圖像內(nèi)補與外推問題中,模型通常需要首先解析已知區(qū)域內(nèi)包含的內(nèi)容,因此本文采用將圖像降維到特征空間的方式,之后通過Transformer進行未知區(qū)域特征預(yù)測。

圖2 為本文框架中Transformer 在圖像內(nèi)補與外推任務(wù)中進行特征預(yù)測的結(jié)構(gòu)圖。圖中,左側(cè)為輸入與輸出的二維特征,輸入特征未知區(qū)域位置使用空白表示(白色方塊),通過Transformer 預(yù)測特征后填補上空白位置得到輸出。在進入Transformer編碼器前,輸入的二維序列特征將按照從左到右、從上到下的順序展開,轉(zhuǎn)換為一維序列形式。序列中每個元素為一個令牌,與令牌相應(yīng)位置編碼相加后送入Transformer 編碼器進行運算。Transformer 編碼器采用N層自注意網(wǎng)絡(luò),通過額外的掩碼(mask,見圖2)對未知區(qū)域位置進行標(biāo)注,使自注意層僅使用已知區(qū)域特征預(yù)測未知區(qū)域,防止未知區(qū)域無效信息的引入。

圖2 基于Transformer的特征預(yù)測結(jié)構(gòu)Fig.2 Feature prediction based on Transformer

本文用I表示輸入的特征矩陣,用Ο表示輸出的特征矩陣,則此預(yù)測過程可以表示為

式中,ψ代表由二維數(shù)據(jù)轉(zhuǎn)換為一維數(shù)據(jù)的函數(shù);ψ'代表由一維數(shù)據(jù)轉(zhuǎn)換為二維數(shù)據(jù)的函數(shù);TRE(Transformer encoder)表示Transformer 編碼器;E表示位置坐標(biāo)向量,根據(jù)特征數(shù)量提前設(shè)定;M為下采樣到與I相同大小的二維掩膜矩陣,使用0標(biāo)注未知位置,使用1標(biāo)注已知位置。

通過這種方式可對所有未知區(qū)域特征同時進行預(yù)測,每個未知區(qū)域位置特征都由已知區(qū)域所有特征共同預(yù)測而來。隨著網(wǎng)絡(luò)層數(shù)的加深,已知區(qū)域與未知區(qū)域關(guān)系將被挖掘更深,有助于提升特征預(yù)測的準(zhǔn)確性。此過程中,位置編碼彌補了二維特征轉(zhuǎn)換為一維序列時受損的位置信息,幫助網(wǎng)絡(luò)提取特征中的二維空間關(guān)系,起到不可或缺的作用。

然而,此方案在面對大面積未知區(qū)域預(yù)測時較為困難,同時進行特征預(yù)測固然可降低算力與時間消耗,但僅使用少量已知區(qū)域特征預(yù)測大量未知區(qū)域特征會導(dǎo)致預(yù)測準(zhǔn)確性降低。因此,下面介紹掩膜自增策略,通過迭代預(yù)測的方式有效降低特征預(yù)測難度。

2.2 掩膜自增策略

為降低同時預(yù)測所有未知區(qū)域特征的難度,本文提出掩膜自增(mask growth,MG)的方式迭代預(yù)測特征。在預(yù)測過程中Transformer編碼器將被循環(huán)使用,根據(jù)預(yù)測掩膜指定的未知位置進行每一輪迭代預(yù)測。迭代過程中,掩膜將逐步打開未知區(qū)域預(yù)測位置并指定下一輪迭代預(yù)測位置。通過這種迭代預(yù)測的方式,每輪僅需預(yù)測一部分未知區(qū)域,可以避免同時預(yù)測大量未知區(qū)域特征難點。另外,迭代預(yù)測可以利用已預(yù)測的未知區(qū)域特征進行下一迭代的預(yù)測,有助于提升預(yù)測準(zhǔn)確性。

如圖3所示為相鄰兩輪迭代預(yù)測過程。在第1輪中,掩膜只開放部分預(yù)測位置,圖中掩膜部分白框為開放位置,紅色叉號框表示關(guān)閉的預(yù)測位置;第2 輪中,掩膜將上一輪中關(guān)閉位置打開相鄰位置繼續(xù)預(yù)測,直到所有未知位置預(yù)測完畢。

圖3 采用掩膜自增策略的迭代預(yù)測過程Fig.3 Iterative prediction process using mask growth strategy

在掩膜自增策略中,除了原有標(biāo)注已知區(qū)域與待預(yù)測區(qū)域位置掩膜M(掩膜中0 標(biāo)注未知區(qū)域,1標(biāo)注已知區(qū)域)外,引入預(yù)測掩膜Mp用于標(biāo)注預(yù)測位置(使用0 標(biāo)注不預(yù)測位置,1 標(biāo)注預(yù)測位置)。預(yù)測前,使用全1 卷積核對初始位置掩膜M1進行卷積,當(dāng)卷積結(jié)果大于0 時,將該位置標(biāo)注為1,標(biāo)注結(jié)果即為首輪預(yù)測掩膜。進入下一輪時,將前輪預(yù)測掩膜賦值給位置掩膜M2繼續(xù)預(yù)測操作,以此類推,直到預(yù)測掩膜所有位置均等于1 為止。此過程即

式中,m′表示卷積結(jié)果,其將由卷積核標(biāo)定的鄰近區(qū)域計算數(shù)值表示卷積核視野內(nèi)的掩膜矩陣。通過這種方式,可引入圖像鄰近區(qū)域強相關(guān)性先驗,從而利用圖像相鄰像素強相關(guān)的特性。在整個掩膜自增過程中,每輪掩膜自增均在已知區(qū)域臨邊區(qū)域進行擴張。實施中默認(rèn)采用大小為9 × 9的卷積核,觀察卷積位置四周臨近4 像素區(qū)域,若存在已知區(qū)域則該位置被標(biāo)注為待預(yù)測區(qū)域。

引入掩膜自增策略后,第1 輪特征預(yù)測過程表示為

式 中,M1為初始二維掩膜,為M1經(jīng)過全1 卷積標(biāo)注的預(yù)測掩膜。第2 輪時,位置掩膜Μ2由第1 輪的預(yù)測掩膜賦值,即Μ2=,重復(fù)式(3)即可輸出第2 輪預(yù)測結(jié)果O2,以此類推,直至預(yù)測完畢。

3 實現(xiàn)細節(jié)與損失函數(shù)

CNN 編碼器由3 個步長為2 的部分卷積層組成,每一卷積層之后均后接像素歸一化層,最后通過1 × 1 卷積降維到256 維度。預(yù)測過程中,Trans?former 編碼器默認(rèn)使用4 頭6 層的配置。CNN 解碼器由5個殘差塊和3個上采樣相間組成,最后接一層正切函數(shù)輸出到圖像空間。對抗損失使用判別網(wǎng)絡(luò)計算,具體采用多尺度判別網(wǎng)絡(luò)(Isola 等,2017)實現(xiàn)。CNN編碼器、Transformer編碼器、CNN解碼器和判別網(wǎng)絡(luò)均使用Adam 優(yōu)化器(Kingma 和Ba,2017)進行訓(xùn)練,所有網(wǎng)絡(luò)均采用學(xué)習(xí)率α=0.000 1 訓(xùn)練,優(yōu)化器參數(shù)設(shè)置為β1=0.0和β2=0.9。

整個網(wǎng)絡(luò)采用3 種損失函數(shù)作用到最終的內(nèi)補與外推輸出,包括對抗損失、重建損失和感知損失。

3.1 對抗損失

網(wǎng)絡(luò)訓(xùn)練時采用判別器D進行優(yōu)化,用于判斷整幅輸出圖像W與真實圖像G的差異,對抗損失函數(shù)為

式中,Ladv表示對抗損失函數(shù),EG與EW分別表示對輸出圖像W與真實圖像G求期望;F為該網(wǎng)絡(luò)表示函數(shù),在訓(xùn)練中被約束為最小化此損失;而D則在訓(xùn)練中被約束為最大化此損失,二者訓(xùn)練中形成對抗。

3.2 重建損失

重建損失通過最小化W與G的距離實現(xiàn),計算為

式中,LL1表示重建損失函數(shù)。

3.3 感知損失

網(wǎng)絡(luò)采用感知損失來懲罰輸出圖像與真實圖像間的感知差異,通過預(yù)訓(xùn)練分類網(wǎng)絡(luò)激活層距離差計算,具體為

式中,Lprec表示感知損失,Nu是網(wǎng)絡(luò)第u層的元素總數(shù),σu是第u層的激活圖。實施中使用預(yù)訓(xùn)練VGG-19(Visual Geometry Group)分類網(wǎng)絡(luò)獲取各層激活圖。

3.4 完整損失

整個網(wǎng)絡(luò)完整損失為以上各損失之和,具體為

式中,λadv、λL1及λperc用來平衡不同損失函數(shù)的權(quán)重,實驗中參考語義重構(gòu)網(wǎng)絡(luò)(semantic reconstruction network,SRN)(Wang 等,2019)及螺旋生成網(wǎng)絡(luò)(spi?ral generative network,SpiralNet)(Guo 等,2020)方法進行初始設(shè)置,然后在實驗中不斷調(diào)整,得到效果較佳的超參數(shù),最終設(shè)置為λadv=0.1,λL1=6,λperc=10。

4 實驗結(jié)果與分析

實驗首先將所提模型在圖像內(nèi)補與外推問題上分別與當(dāng)前最好方法進行比較,檢驗?zāi)P驮趦蓚€任務(wù)上的表現(xiàn)。之后在圖像外推問題上進行消融實驗,分析分解模型設(shè)計、掩膜自增策略和Transformer結(jié)構(gòu)參數(shù)等有效性。性能對比實驗涵蓋多個數(shù)據(jù)集與情形,消融實驗在多類別花類圖像數(shù)據(jù)集上進行比較分析,因為該數(shù)據(jù)集可以較好地觀察預(yù)測準(zhǔn)確性。

4.1 實驗配置

4.1.1 數(shù)據(jù)集

實驗使用對象類中人臉數(shù)據(jù)集CelebA-HQ(CelebFaces Attributes Dataset-High Quality)(Karras等,2018)與花類圖像數(shù)據(jù)集Flowers(Nilsback 和Zisserman,2008),以及場景類中多類別場景數(shù)據(jù)集Places2(Zhou 等,2018)與城市街 景Cityscapes(Cordts 等,2016)來開展實驗。其中,圖像內(nèi)補對比評測使用人臉數(shù)據(jù)集及多類別場景數(shù)據(jù)集;圖像外推對比評測采用以上4 種數(shù)據(jù)集,分別對四周外推、雙邊外推及單邊外推3 種情形進行評測。圖像內(nèi)補使用掩膜數(shù)據(jù)集(Liu 等,2018)進行測試,對每幅測試圖像使用隨機挑選的10 幅掩膜圖像進行遮蓋,作為已知區(qū)域輸入到不同對比方法計算平均指標(biāo)。數(shù)據(jù)集訓(xùn)練與測試樣本數(shù)量劃分見表1。在訓(xùn)練及測試過程中,圖像內(nèi)補與四周外推圖像均等比縮放至256 × 256 像素,雙邊及單邊外推圖像等比縮放至512 × 512像素。

表1 訓(xùn)練及測試數(shù)據(jù)集劃分Table 1 Training and testing dataset split

4.1.2 對比方法

實驗選取目前常用和先進的內(nèi)補與外推方法進行對比,分別為用于圖像內(nèi)補問題的部分卷積法(partial convolution,PC)(Liu 等,2018)、門卷積法(gated convolution,GC)(Yu等,2019)、特征均衡交互編解碼器法(mutual encoder decoder with feature equalizations,MEDFE)(Liu 等,2020)及基于圖像塊的非量化Transformer 法(patch-based un-quantised Trasformer,PUT)(Liu 等,2022);用于圖像外推問題的語義辨別網(wǎng)絡(luò)(Boundless)(Teterwak 等,2019)、語義重構(gòu)網(wǎng)絡(luò)(semantic reconstruction network,SRN)(Wang 等,2019)及螺旋生成網(wǎng)絡(luò)(sprinal generative network,SpiralNet)(Guo 等,2020)。外推方法中Boundless 僅適用于單邊外推情況,因此對比方法增加MEDFE(mutual encoder decoder with feature equal?izations)用于四周外推情況,其余方法不受限于外推類型。

4.1.3 評價指標(biāo)

參考前人工作(Yu 等,2019;Liu 等,2020),內(nèi)補對比實驗使用全面的評價指標(biāo)來對實驗結(jié)果進行測評,具體為峰值信噪比(peak signal to noise ratio,PSNR)、結(jié)構(gòu)相似度指標(biāo)(structure similarity index measure,SSIM)、Fréchet 感知距離(FID)、平均絕對誤差(mean absolute error,MAE)和均方誤差(mean square error,MSE)。外推對比實驗采用峰值信噪比(PSNR)、結(jié)構(gòu)相似度指標(biāo)(SSIM)、Fréchet 感知距離(Fréchet inception distance,F(xiàn)ID)以及圖像感知相似度指 標(biāo)(learned perceptual image patch similarity,LPIPS)(Zhang等,2018)作為評測指標(biāo)。其中,PSNR與SSIM 數(shù)值越大代表模型性能越好,其余指標(biāo)數(shù)值越小代表模型性能更優(yōu)。為了更直觀展示指標(biāo)差異,對SSIM、LPIPS、MAE 及MSE 指標(biāo)數(shù)值均放大100倍。

4.2 實驗結(jié)果

4.2.1 圖像內(nèi)補

圖像內(nèi)補實驗在人臉數(shù)據(jù)集CelebA-HQ 和場景數(shù)據(jù)集Places2 上開展,表2 與圖4 展示了所提方法與其他方法的對比結(jié)果。由表2 可以看出,本文方法在各個指標(biāo)上均超過其他方法,表明基于Trans?former的迭代預(yù)測模型具有更好性能。

表2 圖像內(nèi)補定量對比實驗結(jié)果Table 2 Quantitative comparison of image inpainting

圖4 圖像內(nèi)補定性對比實驗結(jié)果Fig.4 Qualitative comparison of image inpainting((a)input images;(b)PC;(c)GC;(d)MEDFE;(e)PUT;(f)ours;(g)ground truth)

如圖4所示為各方法的視覺對比結(jié)果示例,圖中前兩行為CelebA-HQ 人臉數(shù)據(jù)集示例結(jié)果,后兩行為Places2數(shù)據(jù)集示例結(jié)果,首列為輸入子圖像,圖中最后一列代表對應(yīng)的真實圖像(ground truth,GT)。從圖中人臉眼部位及大壩區(qū)域可以明顯看出本文方法合成結(jié)果更加真實,并且沒有明顯涂抹痕跡。

4.2.2 圖像外推

圖像外推實驗中四周外推情況使用人臉數(shù)據(jù)集CelebA-HQ 與花類圖像數(shù)據(jù)集Flowers 進行對比,兩邊外推情況使用城市街景Cityscapes 數(shù)據(jù)集進行評測,單邊外推情況使用場景數(shù)據(jù)集Places2 沙漠道路場景圖像評測。表3 展示了在不同數(shù)據(jù)集上不同指標(biāo)不同外推情況的定量評測結(jié)果。結(jié)果表明,所提方法相對于其他方法在指標(biāo)上基本均有所提升,證明方法具備更好性能。

表3 四周、雙邊及單邊外推定量對比實驗結(jié)果Table 3 Quantitative comparison of four-side,two-side and one-side image outpainting

圖5 為四周外推視覺對比結(jié)果,首列為輸入圖像,前兩行為CelebA-HQ 人臉數(shù)據(jù)集示例結(jié)果,后兩行為Flowers 數(shù)據(jù)集示例結(jié)果。從人臉圖像背景及花瓣區(qū)域可以明顯看出,其他方法出現(xiàn)明顯扭曲及雜亂內(nèi)容,相比較,本文方法結(jié)果更加真實合理,無雜亂情況。

圖5 圖像四周外推定性對比實驗結(jié)果Fig.5 Qualitative comparison of four-side image outpainting((a)input images;(b)SRN;(c)SpiralNet;(d)ours;(e)ground truth images)

圖6 為兩邊外推視覺對比結(jié)果示例,圖中紅框表示已知區(qū)域,紅框左右兩側(cè)為外推區(qū)域。從中可以看出,本文方法兩邊外推區(qū)域更加合理,建筑物、草地等真實性更高,較其他方法效果更好。

圖6 圖像兩邊外推定性對比實驗結(jié)果Fig.6 Qualitative comparison of two-side image outpainting((a)SRN;(b)SpiralNet;(c)ours;(d)ground truth)

圖7 展示了單邊外推視覺對比結(jié)果示例。由圖中可以看出,其他方法容易產(chǎn)生混亂、扭曲的內(nèi)容,SpiralNet 在單邊外推問題上存在塊效應(yīng),而本文方法單邊外推結(jié)果語義清晰、內(nèi)容真實,表現(xiàn)最佳。

圖7 圖像單邊外推定性對比實驗結(jié)果Fig.7 Qualitative comparison of one-side image outpainting((a)input images;(b)Boundless;(c)SRN;(d)SpiralNet;(e)ours;(f)gound truth)

4.3 框架結(jié)構(gòu)消融實驗分析

本節(jié)對分而治之思路進行消融實驗分析,本文三階段網(wǎng)絡(luò)分別對應(yīng)表征、預(yù)測與合成3 個過程,實驗中依次去除每個過程網(wǎng)絡(luò)以分析其作用,另外增加僅使用Transformer 預(yù)測階段網(wǎng)絡(luò)的實驗。具體為:

1)移除表征過程(without encoder,w/o EN),即移除CNN 編碼器,使用Transformer 與CNN 解碼器構(gòu)建網(wǎng)絡(luò),此時針對Transformer的輸入,采用直接將原輸入圖像拆分為8 × 8圖像小塊的方法,每一個小塊通過相同的線性變換由8 × 8 × 3 維轉(zhuǎn)換為256 維,通過這種方式無需調(diào)整網(wǎng)絡(luò)結(jié)構(gòu);

2)移除預(yù)測過程(without Transformer encoder,w/o TRE),即移除Transformer 編碼器,使用CNN 解碼器直接連接CNN 編碼器,這種情形下,預(yù)測過程將由CNN解碼器實現(xiàn);

3)移除合成過程(without decoder,w/o DE),即移除CNN 解碼器,在這種情形下,使用一層轉(zhuǎn)置卷積對Transformer輸出直接將特征映射為圖像;

4)移除表征與合成過程(without encoder and decoder,w/o EN &DE),即僅使用Transformer預(yù)測過程,沒有CNN 編碼器與解碼器進行表征與合成過程,在此情形下,使用拆分圖像塊經(jīng)過線性變換作為輸入,以及使用轉(zhuǎn)置卷積輸出到圖像空間;

5)保留3 個過程(with all processes,w/ all),即本文方法。

對比實驗指標(biāo)結(jié)果如表4 所示,從中可以看出,缺少任一部分網(wǎng)絡(luò),其性能都將大大降低。其中,對缺失CNN 編碼器的情況(w/o EN 與w/o EN &DE),PSNR 及SSIM 指標(biāo)下降明顯,預(yù)測準(zhǔn)確性降低,表明不使用CNN 編碼器而采用圖像小塊進入Trans?former編碼器的方式預(yù)測難度加大。在缺失CNN 解碼器的情況(w/o DE與w/o EN &DE)下,合成的圖像FID 與LPIPS 指標(biāo)明顯較差,說明輸出圖像不真實,表明在沒有CNN 解碼器的情況下,通過Transformer完成特征到圖像的映射具有相當(dāng)?shù)碾y度。最后,不使用Transformer進行特征預(yù)測的情況(w/o TRE)下,各項指標(biāo)均不理想,表明難以進行準(zhǔn)確合理預(yù)測。

表4 框架結(jié)構(gòu)消融實驗定量結(jié)果Table 4 Quantitative results of ablation study on framework structures

實驗視覺結(jié)果示例如圖 8 所示,其中第1 列紅框表示輸入的已知區(qū)域。由圖8 中可以看出,不使用CNN 編碼器的情況(w/o EN 與w/o EN &DE),合成的花瓣不準(zhǔn)確(可見第1行上側(cè)花瓣與第3行下側(cè)花瓣),表明CNN 編碼器的引入可以幫助Trans?former更好地進行預(yù)測。在不使用CNN 解碼器的情況(w/o DE 與w/o EN &DE)下,輸出圖像明顯模糊,表明CNN 解碼器可以起到良好的特征到圖像的映射作用。而沒有Transformer 進行預(yù)測過程的情況(w/o TRE)下,輸出圖像無法形成合理的花類圖像,即難以合理地合成真實圖像。在3 部分過程網(wǎng)絡(luò)都使用的情況(w/ all)下,合成結(jié)果最為真實合理。

圖8 框架結(jié)構(gòu)消融實驗定性結(jié)果Fig.8 Qualitative results of ablation study on framework structures((a)w/o EN;(b)w/o TRE;(c)w/o DE;(d)w/o EN &DE;(e)w/ all;(f)ground truth images)

4.4 掩膜自增策略有效性分析

掩膜自增(MG)策略可以迭代地進行特征預(yù)測,降低單次預(yù)測大面積未知區(qū)域的難度,并可利用前次預(yù)測未知區(qū)域輔助后續(xù)特征預(yù)測。在此有效性分析中,首先剝離掩膜自增策略而直接使用Trans?former 單次對未知區(qū)域特征并行預(yù)測;然后通過調(diào)整掩膜自增策略中使用全1 卷積核尺寸調(diào)整需迭代的次數(shù),分析不同迭代次數(shù)情況下的外推性能差異。具體如下:

1)無迭代:不使用掩膜自增策略,令Transformer單次并行預(yù)測完成未知區(qū)域特征預(yù)測;

2)2 輪:調(diào)整全1 卷積核為17 × 17,此時最多需要2輪迭代完成所有未知區(qū)域特征預(yù)測;

3)4 輪:調(diào)整全1 卷積核為9 × 9,此時最多需要4 輪迭代完成所有未知區(qū)域特征預(yù)測,該配置為默認(rèn)方案;

4)8 輪:調(diào)整全1 卷積核為5 × 5,此時最多需要8輪迭代完成所有未知區(qū)域特征預(yù)測。

指標(biāo)統(tǒng)計結(jié)果如表5 所示,從中可以看出,不使用掩膜自增迭代特征預(yù)測(無迭代)的情況下各項指標(biāo)均表現(xiàn)較差。在使用不同次數(shù)迭代預(yù)測中,適中的迭代次數(shù)(4 輪)可以有效提升各項指標(biāo),過多(8 輪)或過少(2 輪)的迭代次數(shù)均會導(dǎo)致指標(biāo)降低。這是由于Transformer并行特征預(yù)測能力與預(yù)測特征數(shù)量息息相關(guān),過高將降低預(yù)測準(zhǔn)確性,過低將可能使前輪次產(chǎn)生的預(yù)測錯誤在后幾輪中得以擴大。需要說明的是,本節(jié)實驗使用4頭8層的Transformer結(jié)構(gòu),在此配置下,4 次迭代的結(jié)果相較更好,如若更換其他配置則需根據(jù)Transformer 的能力進行適當(dāng)調(diào)整。

表5 掩膜自增策略有效性分析定量實驗結(jié)果Table 5 Quantitative results of the analysis on mask growth strategy

表6 不同頭數(shù)對Transformer性能影響定量實驗結(jié)果Table 6 Quantitative results of different head numbers on Transformer

實驗視覺結(jié)果示例如圖9所示,第1列紅框表示已知區(qū)域。由圖中可以看出,不采用掩膜自增迭代特征預(yù)測的情況下,預(yù)測結(jié)果容易產(chǎn)生過度與不合理的結(jié)果(見圖中第1 列第1 行中下方花朵過度延伸)。過大的迭代次數(shù)(8 輪)也可能產(chǎn)生預(yù)測結(jié)果不合理的情況,而適中的迭代次數(shù)(4 輪)則可以進行合理的圖像合成。

圖9 掩膜自增策略有效性分析定性實驗結(jié)果Fig.9 Qualitative results of the analysis on mask growth strategy((a)without MG;(b)2 iterations;(c)4 iterations;(d)8 iterations;(e)ground truth)

4.5 Transformer結(jié)構(gòu)參數(shù)分析

頭數(shù)(head)與層數(shù)(layer)是Transformer 基本的結(jié)構(gòu)參數(shù),在此實驗中使用不同頭數(shù)與層數(shù)進行比較分析,采用固定層數(shù)變換頭數(shù)與固定頭數(shù)變換層數(shù)兩種固定變量方式進行。實驗具體設(shè)置為固定8 層網(wǎng)絡(luò)結(jié)構(gòu)對1、2、4、8 頭數(shù)進行對比,以及固定4頭對2、4、6、8層數(shù)進行對比。

固定8 層Transformer 編碼器,采用不同頭數(shù)的定量對比實驗結(jié)果如表 6 所示,由表中數(shù)據(jù)可以看出,使用較大的頭數(shù)(如4 頭或8 頭)指標(biāo)較好,說明將特征分解到不同子空間對未知區(qū)域預(yù)測來說起正面作用,能夠更充分地學(xué)習(xí)特征間關(guān)系。比較4 頭與8 頭的指標(biāo)可以看出,過大的頭數(shù)導(dǎo)致性能略微降低,該現(xiàn)象可能由于頭數(shù)過大降低了特征的表征能力,從而導(dǎo)致特征預(yù)測難度增大,進而導(dǎo)致預(yù)測性能降低。

不同頭數(shù)對Transformer影響的實驗視覺結(jié)果示例如圖10 所示,其中第1 列圖中紅框表示輸入已知區(qū)域。圖中可以看出,頭數(shù)過少(1 或2 頭)或過多(8 頭)都容易產(chǎn)生合成結(jié)果不連續(xù)的情況(可見第1行已知區(qū)域左側(cè)邊界位置,花朵難以延伸出去),而適中的4 頭可以達到更好的視覺效果,說明頭數(shù)過少或過多都可能加大Transformer特征預(yù)測難度。

圖10 不同頭數(shù)對Transformer影響定性實驗結(jié)果Fig.10 Qualitative results of different head numbers on Transformer((a)1 head;(b)2 heads;(c)4 heads;(d)8 heads;(e)ground truth)

固定采用4 頭Transformer 編碼器,采用不同層數(shù)的定量對比實驗結(jié)果如表7 所示。表中可以明顯看出,各項指標(biāo)結(jié)果隨著層數(shù)的增加而提升,本文實驗的默認(rèn)配置選取8 層作為基礎(chǔ)配置,以平衡網(wǎng)絡(luò)復(fù)雜度與合成的效果。

表7 不同層數(shù)對Transformer性能影響定量實驗結(jié)果Table 7 Quantitative results of different layer numbers on Transformer

不同層數(shù)實驗視覺結(jié)果示例如圖11 所示,可以看出,隨著層數(shù)加深對花瓣的預(yù)測更加細致,如第1行紅色花朵與第2 行黃色花朵已知區(qū)域下側(cè)花瓣,更多的層數(shù)可對挖掘更深的自注意關(guān)系起到正向作用,幫助更好地預(yù)測特征??紤]到效率問題,本文實驗中最多采用8 層作為Transformer 層數(shù),可以預(yù)見更深層數(shù)的情況下預(yù)測效果會有進一步提升的空間。

圖11 不同層數(shù)對Transformer性能影響定性實驗結(jié)果Fig.11 Qualitative results of different layer numbers on Transformer((a)2 layers;(b)4 layers;(c)6 layers;(d)8 layers;(e)ground truth images)

5 結(jié)論

針對圖像內(nèi)補與外推問題統(tǒng)一處理帶來的已知區(qū)域復(fù)雜性問題,本文提出一種迭代預(yù)測統(tǒng)一框架予以解決。其中,本文將內(nèi)補與外推兩個問題的解決過程統(tǒng)一分解為3 個階段分而治之。針對已知區(qū)域表征、未知區(qū)域預(yù)測及圖像合成3 個問題,分別構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),使模型各部分各司其職、優(yōu)勢互補。其中,已知區(qū)域表征采用CNN 編碼器,引入部分卷積與像素歸一化降低未知區(qū)域無效信息引入;未知區(qū)域預(yù)測是本框架的核心,本文采用Transformer 編碼器并行特征預(yù)測實現(xiàn),并提出掩膜自增策略迭代特征預(yù)測方法,有效降低并行預(yù)測大面積未知區(qū)域特征難度;圖像合成采用CNN 解碼器實現(xiàn),其以多個卷積殘差塊與上采樣間隔組成,該殘差網(wǎng)絡(luò)結(jié)構(gòu)可降低模型優(yōu)化難度。

本文通過大量對比實驗驗證了三階段分而治之思路的有效性,在多種常用數(shù)據(jù)集及指標(biāo)上均明顯優(yōu)于其他方法,表明本文方法取得了先進性能。消融實驗中,本文方法驗證了三階段設(shè)計均對性能提升有所貢獻,顯示了迭代預(yù)測統(tǒng)一框架及方法在圖像內(nèi)補與外推問題上的應(yīng)用價值。此外,對迭代預(yù)測次數(shù)、Transformer網(wǎng)絡(luò)關(guān)鍵參數(shù)的分析實驗表明,適中的迭代次數(shù)、Transformer 頭數(shù)及較多的Trans?former 層數(shù)可進一步提升框架性能,此結(jié)論可為各類應(yīng)用場景提供參考。

本框架的核心是三階段的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計與基于Transformer 的迭代預(yù)測方法,該思路尚屬于初步探索階段,未來將在任務(wù)廣度、性能優(yōu)化等方面深入研究,擴展本文方法的適用范圍及模型性能。此外,本文實驗主要在圖像場景單一、數(shù)量較少的數(shù)據(jù)集上分別進行訓(xùn)練與測試,此方式雖然可以較好地對比評估不同方法性能,但在實際應(yīng)用中,無法直接應(yīng)用于復(fù)雜場景下的圖像內(nèi)容,因此,如何提高模型適用范圍,特別是如何借鑒基于大型數(shù)據(jù)集的自監(jiān)督學(xué)習(xí)技術(shù),使模型具備更強的圖像表征能力及多樣圖像特征預(yù)測能力,進一步提升模型魯棒性,具有非常高的實用價值。

猜你喜歡
掩膜編碼器像素
趙運哲作品
藝術(shù)家(2023年8期)2023-11-02 02:05:28
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
像素前線之“幻影”2000
一種結(jié)合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡(luò)方法
“像素”仙人掌
基于FPGA的同步機軸角編碼器
光纖激光掩膜微細電解復(fù)合加工裝置研發(fā)
基于PRBS檢測的8B/IOB編碼器設(shè)計
多層陰影掩膜結(jié)構(gòu)及其制造和使用方法
科技資訊(2016年21期)2016-05-30 18:49:07
高像素不是全部
CHIP新電腦(2016年3期)2016-03-10 14:22:03
塘沽区| 临洮县| 顺义区| 土默特右旗| 新干县| 定州市| 黑水县| 额敏县| 罗田县| 夏河县| 建始县| 罗平县| 吉隆县| 盘锦市| 永泰县| 新泰市| 金华市| 团风县| 南漳县| 灌云县| 黔南| 房山区| 青铜峡市| 桐乡市| 阿拉善左旗| 博罗县| 安吉县| 将乐县| 嵩明县| 临汾市| 太康县| 洛浦县| 宿松县| 岚皋县| 二连浩特市| 紫云| 高密市| 喀喇沁旗| 垫江县| 喜德县| 沐川县|