孫陽(yáng),丁建偉,張琪,鄧琪瑤
中國(guó)人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院,北京 100038
單圖像超分辨率(single image super-resolution,SISR)技術(shù)旨在將低分辨率(low resolution,LR)圖像重建為高分辨率(high resolution,HR)圖像。相較于LR 圖像來(lái)說(shuō),HR 圖像具有更豐富的細(xì)節(jié)信息和更友好的視覺(jué)感知,圖像質(zhì)量和可用性都更高。SISR技術(shù)是圖像復(fù)原領(lǐng)域的一個(gè)熱點(diǎn)研究問(wèn)題,通常應(yīng)用于刑偵、遙感和醫(yī)學(xué)診斷等領(lǐng)域。SISR 技術(shù)具有非常典型的不適定(ill-posed)特性,即一個(gè)LR 輸入對(duì)應(yīng)許多可能的HR 輸出,映射空間太大,映射對(duì)象不唯一,具有非常大的挑戰(zhàn)性。
常見(jiàn)的超分辨率技術(shù)主要分為以下3 類(lèi):基于插值的方法、基于重建的方法和基于學(xué)習(xí)的方法?;诓逯档姆椒ㄖ饕蕾囉趫D像先驗(yàn)信息和統(tǒng)計(jì)模型等進(jìn)行插值計(jì)算,具有簡(jiǎn)單易用和計(jì)算復(fù)雜度低的優(yōu)點(diǎn)。然而插值得到的圖像容易出現(xiàn)鋸齒狀的偽影,并且性能?chē)?yán)重依賴于原始圖像的質(zhì)量。基于重建的方法通過(guò)融合同一場(chǎng)景下的多個(gè)低分辨率圖像中的高頻信息生成高分辨率圖像。但是在實(shí)際場(chǎng)景中,難以收集足夠多的低分辨率圖像。此外,基于重建的方法對(duì)先驗(yàn)的依賴較強(qiáng),生成的結(jié)果容易出現(xiàn)偽影或失真問(wèn)題?;趯W(xué)習(xí)的方法對(duì)大量HR和LR圖像對(duì)的學(xué)習(xí)來(lái)構(gòu)建高低分辨率字典,并通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行圖像重建。在這個(gè)過(guò)程中,算法從大量數(shù)據(jù)對(duì)中學(xué)習(xí)圖像的特征和結(jié)構(gòu)信息,從而實(shí)現(xiàn)更加準(zhǔn)確的重建效果。相較于基于插值和基于重建的方法,基于學(xué)習(xí)的方法能夠獲得更多的高頻信息,從而得到更清晰的紋理細(xì)節(jié)和更豐富的信息特征,在準(zhǔn)確性和計(jì)算效率等方面具有很大的優(yōu)勢(shì),因此受到越來(lái)越多的關(guān)注。
Dong 等人(2014)提出的SRCNN(convolutional neural network for image super-resolution)采用經(jīng)典的端到端結(jié)構(gòu),通過(guò)簡(jiǎn)單的3 層卷積結(jié)構(gòu)在保證圖像質(zhì)量的同時(shí)又可以實(shí)現(xiàn)高分辨率圖像的快速重建,開(kāi)創(chuàng)了基于學(xué)習(xí)的超分辨率技術(shù)的先河。Shi 等人(2016)提出的ESPCN(efficient sub-pixel convolutional neural network)方法提高了基于學(xué)習(xí)的方法的計(jì)算效率,獲得了良好的重建效果。Kim 等人(2016)采用深度殘差網(wǎng)絡(luò)的思想,通過(guò)構(gòu)建具有20 層的深度網(wǎng)絡(luò)VDSR(accurate image superresolution using very deep convolutional network),獲得了比SRCNN 更好的重建圖像質(zhì)量,證明加深網(wǎng)絡(luò)深度有助于學(xué)習(xí)圖像特征。Zhang 等人(2017)提出了深度卷積神經(jīng)網(wǎng)絡(luò)DnCNN(denoising convolutional neural network),通過(guò)學(xué)習(xí)圖像殘差進(jìn)行去噪。Lim 等人(2017)通過(guò)舍棄SRResNet(super-resolution residual network)(Ledig 等,2017)中殘差塊的批歸一化(batch normalization,BN)層并優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),使圖像重建效果得到大幅提升。Zhang等人(2018a)首次將通道注意力(channel attention,CA)機(jī)制引入到SR任務(wù)中,提出的嵌套殘差結(jié)構(gòu)(residual in residual,RIR)成為目前SR 任務(wù)中殘差塊堆疊的標(biāo)準(zhǔn)范式,其所提出的RCAN(image super-resolution using very deep residual channel attention network)網(wǎng)絡(luò)通過(guò)通道注意力機(jī)制區(qū)分不同通道特征對(duì)重建圖像的貢獻(xiàn)程度,自適應(yīng)調(diào)整通道權(quán)重,圖像重建質(zhì)量獲得極大程度的提升。
基于Transformer 的方法在自注意力(selfattention,SA)的建模方面具有出色的能力,因此在處理輸入數(shù)據(jù)時(shí)可以更好地捕捉數(shù)據(jù)之間的關(guān)系,在自然語(yǔ)言處理領(lǐng)域大放異彩。Dosovitskiy 等人(2021)提出的ViT(vision Transformer)首次將廣泛應(yīng)用于自然語(yǔ)言處理(natural language processing,NLP)任務(wù)中的Transformer(Vaswani 等,2017)遷移至視覺(jué)任務(wù)中。其首先將輸入圖像經(jīng)過(guò)一個(gè)嵌入層轉(zhuǎn)換為一組一維向量,并通過(guò)多個(gè)自注意力層學(xué)習(xí)圖像中的信息。SwinIR(image restoration using Swin Transformer)(Liang等,2021)將Swin Transformer(Liu等,2021)引入到SR任務(wù)中,將重建圖像質(zhì)量提高到了新的高度。通過(guò)將輸入圖像分割為很多小塊,然后將每個(gè)小塊作為Swin Transformer 的輸入來(lái)處理圖像,通過(guò)跨窗口交流保持對(duì)像素之間長(zhǎng)距離關(guān)系的建模,顯著減少了模型的計(jì)算成本,同時(shí)這也是Transformer 首次應(yīng)用于SR 任務(wù)中。劉花成等人(2022)提出了一種用于模糊圖像超分辨重建的Transformer 融合網(wǎng)絡(luò)(Transformer fusion network,TFN),采用了雙分支策略,在對(duì)模糊圖像進(jìn)行重建的同時(shí)能有效去除部分模糊特性。邱德粉等人(2023)根據(jù)紅外圖像的特性并針對(duì)深度網(wǎng)絡(luò)中存在的特征冗余問(wèn)題和計(jì)算效率問(wèn)題,在超分辨率模塊使用通道拆分策略,提出了一種使用高分辨率可見(jiàn)光圖像引導(dǎo)紅外圖像進(jìn)行超分辨率的神經(jīng)網(wǎng)絡(luò)模型。王美華等人(2022)使用Transformer模型計(jì)算圖像深層語(yǔ)義信息,提出了TDATDN 單幅圖像去雨算法。UFormer(U-shaped Transformer for image restoration)(Wang 等,2022)應(yīng)用8 × 8 的局部窗口并引入U(xiǎn)-Net(Ronneberge 等,2015)架構(gòu)捕捉全局信息。ViT 將自注意力引入到視覺(jué)任務(wù)中,并在高級(jí)任務(wù)中表現(xiàn)優(yōu)異。但在應(yīng)用到圖像超分辨率這類(lèi)低級(jí)計(jì)算機(jī)視覺(jué)中,考慮到需要逐像素進(jìn)行操作,其復(fù)雜性與輸入特征圖的尺寸呈平方關(guān)系,尤其是對(duì)于像素更多、分辨率更高的圖像而言,需要的計(jì)算成本極高,這限制了Transformer 在低級(jí)計(jì)算機(jī)視覺(jué)任務(wù)中的使用。Mei 等人(2021)提出的NLSA(non-local sparse attention)通過(guò)將圖像劃分為不重疊的塊,獨(dú)立計(jì)算注意力,但這樣會(huì)引入偽影并降低恢復(fù)圖像的質(zhì)量。SwinIR雖然也通過(guò)劃分窗口進(jìn)行自注意力的計(jì)算,但是其通過(guò)移位機(jī)制與其他窗口建立聯(lián)系。然而SwinIR的計(jì)算量會(huì)隨著窗口大小的增加而急速增長(zhǎng),同時(shí)局部窗口會(huì)限制上下文的聚合范圍,不利于各像素之間長(zhǎng)距離依賴關(guān)系的建模。
針對(duì)目前Transformer 在SR 任務(wù)中存在的一系列問(wèn)題,本文提出一種全新的基于轉(zhuǎn)置自注意力的超分辨率神經(jīng)網(wǎng)絡(luò)(super-resolution network based on transposed self-attention,SRTSA),主要的貢獻(xiàn)點(diǎn)包括:1)提出了一個(gè)全局和局部信息提取模塊(global and local information extraction block,GLEIB),該模塊通過(guò)計(jì)算交叉協(xié)方差矩陣構(gòu)建各像素點(diǎn)之間的長(zhǎng)距離依賴關(guān)系對(duì)全局信息進(jìn)行建模,同時(shí)引入通道注意力結(jié)構(gòu)對(duì)局部信息進(jìn)行建模。通過(guò)不同層級(jí)提取圖像信息,提高模型的學(xué)習(xí)能力。2)在GLEIB 中構(gòu)建一個(gè)全新的雙門(mén)控深度卷積前饋網(wǎng)絡(luò)(double gated-dconv feed-forward network,DGDFN),控制信息在模型中的流動(dòng),提高模型對(duì)特征的建模能力及其魯棒性。3)提出的SRTSA 網(wǎng)絡(luò)通過(guò)對(duì)圖像的全局信息和局部信息進(jìn)行建模,使用門(mén)控網(wǎng)絡(luò)控制信息流動(dòng)以進(jìn)一步改善網(wǎng)絡(luò)的學(xué)習(xí)能力。在5 個(gè)基準(zhǔn)數(shù)據(jù)集上的測(cè)試結(jié)果驗(yàn)證了本文方法的先進(jìn)性和有效性,在SR任務(wù)中展現(xiàn)出極大的優(yōu)勢(shì)。
本文提出的SRTSA 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,主要由淺層特征提取模塊、深層特征提取、上采樣模塊、重建模塊4 部分組成。定義輸入圖像為ILR∈RH×W×C,輸出圖像ISR∈RH×W×C,H、W、C分別為圖像的高度、寬度、通道數(shù)。
圖1 SRTSA網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.1 Overall architecture of the SRTSA network
首先,使用一個(gè)3 × 3 卷積從輸入圖像ILR中提取淺層特征F0,具體為
式中,HSF(·)表示卷積核大小為3 × 3 的卷積層,其可以將圖像空間映射到更高的維度上。
然后,將F0送入深層特征提取模塊中,可得
式中,HDF(·)表示深層特征提取模塊,由M個(gè)全局和局部信息提取組(global and local information extraction groups,GLEIG)和1 個(gè)卷積層堆疊而成,GLEIG由N個(gè)GLEIB和1個(gè)卷積層構(gòu)成,M和N的詳細(xì)參數(shù)見(jiàn)2.1節(jié)。
深層特征FDF主要負(fù)責(zé)圖像的高頻部分的恢復(fù),淺層特征F0負(fù)責(zé)圖像低頻部分的重建,因此需要將F0與FDF通過(guò)跳躍連接聚合再送到上采樣模塊中,得到
式中,HUP(·)表示由Shi 等人(2016)提出的ESPCN 一文中的亞像素卷積。它通過(guò)像素平移按給定上采樣系數(shù)的比例采樣。
經(jīng)過(guò)上采樣模塊后將得到相應(yīng)尺寸的特征圖,最后,再將上采樣特征FUP送入重建模塊中,得到
式中,HREC(·)表示卷積核大小為3 × 3 的卷積層,用于將特征圖轉(zhuǎn)換為RGB 空間的SR 圖像。HSRTSA(·)表示整個(gè)SRTSA模型映射。
全局和局部信息提取模塊(GLEIB)結(jié)構(gòu)如圖2所示,該模塊主要由3部分構(gòu)成:
圖2 全局和局部信息提取模塊結(jié)構(gòu)Fig.2 Architecture of the global and local information extraction block(GLEIB)
1)全局信息建模模塊。主要通過(guò)轉(zhuǎn)置自注意力機(jī)制計(jì)算交叉協(xié)方差矩陣進(jìn)行圖像全局關(guān)系建模??紤]到如果只在通道維度建立長(zhǎng)距離關(guān)系相關(guān)的話會(huì)損失一些有用的空間紋理和結(jié)構(gòu)信息,這些信息對(duì)于重建高質(zhì)量圖像十分重要。因此在采用轉(zhuǎn)置自注意力機(jī)制前使用一種輕量高效的特征提取塊進(jìn)行簡(jiǎn)單關(guān)系建模保存部分空間結(jié)構(gòu)信息。
2)局部信息建模模塊。自然圖像通常包含全局和局部信息結(jié)構(gòu),在對(duì)全局信息進(jìn)行建模的同時(shí)也需要注意到圖像部分特性具有局部性,因此使用通道注意力塊補(bǔ)充局部信息,增強(qiáng)模型的學(xué)習(xí)能力。
3)雙門(mén)控深度卷積前饋網(wǎng)絡(luò)。DGDFN 通過(guò)在兩個(gè)并行路徑中采用門(mén)控機(jī)制抑制信息量較少的特征,并將篩選后的信息進(jìn)行融合,進(jìn)一步增強(qiáng)了模型對(duì)輸入特征的建模能力,提高模型的性能。
1.2.1 全局信息建模模塊
Transformer 中的計(jì)算資源主要消耗于自身的自注意力層中。對(duì)于一幅H×W像素的圖像來(lái)說(shuō),其需要計(jì)算任意兩個(gè)像素之間的相似度,計(jì)算復(fù)雜度為O(W2H2),將其應(yīng)用于SR 任務(wù)中顯然是十分困難的。SwinIR 采用的Swin Transformer 雖然通過(guò)劃分窗口減輕了計(jì)算成本,但是劃分窗口限制了聚合上下文的范圍,不能有效連續(xù)提取特征。為了緩解這個(gè)問(wèn)題,采用Zamir 等人(2022)提出的轉(zhuǎn)置自注意力機(jī)制隱式構(gòu)建全局注意力圖。
轉(zhuǎn)置自注意力機(jī)制的結(jié)構(gòu)如圖3 所示,輸入由NAFBlock 輸出的張量X∈RH×W×C經(jīng)過(guò)一個(gè)層歸一化(layer normalization,LN)之后生成張量Y∈RH×W×C。接著將Y輸入到卷積核大小為1 × 1的卷積中聚合跨通道信息,然后使用3 × 3大小的深度卷積生成Q,K,V,具體為
圖3 轉(zhuǎn)置自注意力機(jī)制結(jié)構(gòu)圖Fig.3 Architecture of transposed self-attention
式中,Wp(·)表示卷積核大小為1 × 1 的卷積,Wd(·)表示3 × 3的深度卷積。
接著通過(guò)Reshape 操作重塑Q和K,使其生成大小為RC×C的轉(zhuǎn)置注意力圖,而不是大小為RHW×HW的常規(guī)注意力圖。整個(gè)過(guò)程可以表示為
式中,WP(·)表示1 × 1大小的卷積,fAttention為轉(zhuǎn)置自注意力機(jī)制。
Li 等人(2023)提出經(jīng)過(guò)softmax 歸一化生成的自注意力會(huì)影響特征聚合。根據(jù)ReLU(rectified linear unit)激活函數(shù)自身的特點(diǎn),可以在保留對(duì)圖像重建呈積極效果的特征的同時(shí)去除負(fù)面特征,這樣極大地提升了網(wǎng)絡(luò)模型重建圖像的性能。因此本文搭建的轉(zhuǎn)置自注意力機(jī)制可以表示為
轉(zhuǎn)置自注意力機(jī)制通過(guò)在通道維度對(duì)全局注意力圖進(jìn)行隱式建模很好地解決了計(jì)算復(fù)雜度與特征圖空間維度呈二次方的關(guān)系,但是考慮到如果只在通道維度建立長(zhǎng)距離依賴關(guān)系的話會(huì)損失一些有用的空間紋理和結(jié)構(gòu)信息,這些信息對(duì)于重建高質(zhì)量圖像十分重要。因此在使用轉(zhuǎn)置自注意力機(jī)制前需要對(duì)特征進(jìn)行簡(jiǎn)單關(guān)系建模保存部分空間結(jié)構(gòu)信息。
Chen 等人(2022)通過(guò)揭示GELU(Gaussian error linear unit)、GLU(gated linear unit)和通道注意力之間的聯(lián)系,通過(guò)移除或替換非線性激活函數(shù)(例如sigmoid,ReLU,GELU),提出了一個(gè)適用于圖像復(fù)原領(lǐng)域的簡(jiǎn)單基線模型非線性無(wú)激活函數(shù)模塊(nonlinear activation free block,NAFBlock)。該模型通過(guò)將Transformer 內(nèi)較為成熟的模塊和機(jī)制應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)中,提升了卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。NAFBlock 的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示,其主要由兩個(gè)部分組成:移動(dòng)卷積(mobile convolution,MBConv)模塊和具有兩個(gè)全連接層的前饋網(wǎng)絡(luò)(feedforward network,F(xiàn)FN)。在MBConv 和FFN 之前都加入了層歸一化(layer norm,LN)用于標(biāo)準(zhǔn)化輸入數(shù)據(jù),提高模型的泛化性能。同時(shí)對(duì)兩個(gè)模塊使用了殘差連接,加速網(wǎng)絡(luò)訓(xùn)練和收斂。整個(gè)過(guò)程可以表示為
圖4 非線性無(wú)激活函數(shù)模塊結(jié)構(gòu)圖Fig.4 Architecture of nonlinear activation free block
NAFBlock 通過(guò)引入SimpleGate 單元來(lái)替代非線性激活函數(shù),給定輸入X∈RH×W×C,將特征沿通道維度分割成兩個(gè)特征X1和X2,X1、X2∈RH×W×C/2,然后使用線性門(mén)控來(lái)計(jì)算輸出,具體計(jì)算為
式中,⊙表示逐元素相乘。由于簡(jiǎn)化的SimpleGate引入了非線性,所以常用的激活函數(shù)就不需要再加入到網(wǎng)絡(luò)中。
需要注意的是,NAFBlock 分別在MBConv 和FFN 中采用正則化(dropout)技術(shù)隨機(jī)丟棄部分神經(jīng)元以達(dá)到減少模型過(guò)擬合、增強(qiáng)模型泛化性能的作用。但是GLEIB 將經(jīng)過(guò)NAFBlock 進(jìn)行簡(jiǎn)單關(guān)系建模后的特征送入轉(zhuǎn)置自注意力機(jī)制中進(jìn)行全局信息建模,為防止全局信息建模時(shí)特征信息不全,本文不使用NAFBlock 中的dropout 層以使得轉(zhuǎn)置自注意力機(jī)制對(duì)所有特征進(jìn)行全局關(guān)系建模,轉(zhuǎn)而將舍棄部分內(nèi)容增強(qiáng)模型泛化性能的任務(wù)交給轉(zhuǎn)置自注意力機(jī)制中的ReLU激活函數(shù)。
1.2.2 局部信息建模模塊
自然圖像包含全局信息和局部信息,通常使用自注意力機(jī)制對(duì)圖像的全局依賴關(guān)系進(jìn)行建模,但是只使用自注意力機(jī)制對(duì)圖像信息進(jìn)行建模會(huì)丟失圖像特有的局部相關(guān)性。圖像局部信息只涵蓋了幾個(gè)像素,典型局部特征表現(xiàn)為邊緣、局部色彩等,因此使用通道注意力塊(channel attention block,CAB)對(duì)圖像局部信息進(jìn)行補(bǔ)充。
CAB 的結(jié)構(gòu)如圖5 所示,由兩個(gè)標(biāo)準(zhǔn)的卷積層組成,兩者之間使用GELU 激活函數(shù),并且還包含一個(gè)通道注意力。CAB 通過(guò)壓縮和擴(kuò)展通道特征,以及通過(guò)通道注意力模塊的自適應(yīng)調(diào)整,實(shí)現(xiàn)了對(duì)輸入特征的處理和提取。這個(gè)過(guò)程有助于提取重要的特征信息,并為后續(xù)模型提供更有代表性的特征表示。整個(gè)過(guò)程可以表示為
圖5 通道注意力塊結(jié)構(gòu)圖Fig.5 Architecture of channel attention block
式中,σ(·)表示GELU 激活函數(shù),W(·)表示3 × 3 大小的卷積,CA(·)表示通道注意力機(jī)制。
1.2.3 雙門(mén)控深度卷積前饋網(wǎng)絡(luò)
在傳統(tǒng)Transformer 中,F(xiàn)FN 通常包含兩個(gè)線性變換層和一個(gè)非線性激活函數(shù)。第1 個(gè)線性變換層用于擴(kuò)展特征通道,第2 個(gè)用于將通道減回原始輸入維度。為了更好地捕捉輸入圖像的特征信息,本文在Restormer(Zamir 等,2022)的基礎(chǔ)上提出一個(gè)全新的雙門(mén)控深度卷積前饋網(wǎng)絡(luò)(DGDFN),其結(jié)構(gòu)如圖6所示。
圖6 雙門(mén)控深度卷積前饋網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Architecture of double gated-dconv feed-forward network
DGDFN 引入深度卷積對(duì)空間相鄰像素的信息進(jìn)行編碼,豐富局部信息。在每條路徑上都通過(guò)GELU 激活函數(shù)以實(shí)現(xiàn)雙門(mén)控機(jī)制。在兩個(gè)并行路徑中將通過(guò)門(mén)控機(jī)制處理后的特征進(jìn)行逐元素相乘操作,這樣可以過(guò)濾掉兩個(gè)路徑中相應(yīng)位置上特征向量中的較小值,從而減少信息量較少的特征的影響。之后逐元素求和操作將對(duì)應(yīng)位置的特征值相加,以合并兩個(gè)路徑中有用的信息,同時(shí)由于雙門(mén)控機(jī)制具有更強(qiáng)的非線性建模能力,因此可以學(xué)習(xí)更復(fù)雜的模式,提高模型的泛化性和建模能力。整個(gè)過(guò)程可以表示為
式中,σ(·)表示GELU激活函數(shù),即門(mén)控機(jī)制,Wp(·)表示卷積核大小為1 × 1 的卷積,Wd(·)表示3 × 3 大小的深度卷積,⊙表示逐元素相乘。
雖然L1損失函數(shù)、L2損失函數(shù)、感知損失以及對(duì)抗損失等多種損失函數(shù)的組合可以提高重建圖像的視覺(jué)效果,但為了驗(yàn)證SRTSA 網(wǎng)絡(luò)的有效性,本文采用了與上述相關(guān)工作相同的損失函數(shù)——L1損失函數(shù)進(jìn)行優(yōu)化。相較于其他損失函數(shù),L1損失函數(shù)提供了穩(wěn)定的梯度,并有助于模型快速收斂,使用L1損失函數(shù)進(jìn)行優(yōu)化是驗(yàn)證SR網(wǎng)絡(luò)性能的可靠方式。給定包含N個(gè)LR-HR 圖像對(duì)的訓(xùn)練集,通過(guò)最小化L1損失優(yōu)化SRTSA的模型參數(shù)
式中,θ表示SRTSA網(wǎng)絡(luò)模型的參數(shù)。
本文使用DIV2K 數(shù)據(jù)集(Agustsson 和Timofte,2017)的800幅訓(xùn)練圖像對(duì)SRTSA 網(wǎng)絡(luò)進(jìn)行訓(xùn)練,采用雙三次插值法(Bicubic)得到×2、×3、×4 共3 個(gè)比例因子的低分辨率圖像。為了增加訓(xùn)練圖像的數(shù)據(jù)多樣性,將這800 幅訓(xùn)練圖像水平翻轉(zhuǎn)或者隨機(jī)旋轉(zhuǎn)90°,180°,270°。在每次迭代中將16個(gè)48 × 48像素的低分辨率圖像送入網(wǎng)絡(luò)(batch size=16),使用Adam 優(yōu)化器進(jìn)行訓(xùn)練,其中,β1=0.9,β2=0.999,ε=1×10-8,初始學(xué)習(xí)率lr=5×10-4,總共迭代500 000次,迭代到200 000次時(shí)學(xué)習(xí)率減半。
使用具有不同特性的5 個(gè)標(biāo)準(zhǔn)測(cè)試集驗(yàn)證網(wǎng)絡(luò)的有效性:Set5(Bevilacqua 等,2012)、Set14(Zeyde等,2012)、BSD100(Berkeley segmentation dataset 100)(Martin 等,2002)、Urban100(Huang 等,2015)、Manga109(Matsui 等,2017),并在輸出圖像的YCbCr空間Y 通道上計(jì)算峰值信噪比(peak signal-to-noise ratio,PSNR)和結(jié)構(gòu)相似度(structural similarity,SSIM)指標(biāo)評(píng)價(jià)SR 結(jié)果。使用PyTorch 框架在兩張NVIDIA GeForce RTX 3090 顯卡上訓(xùn)練模型。在整個(gè)網(wǎng)絡(luò)中,為保持與SwinIR 模型進(jìn)行公平對(duì)比,設(shè)置GLEIG 數(shù)M=6,GLEIB 數(shù)為N=6,CAB 輸出縮放權(quán)重α=0.05,轉(zhuǎn)置自注意力特征通道設(shè)置為120,多頭數(shù)設(shè)置為6。
為了展示SRTSA 模型的先進(jìn)性,本文與Bicubic算法、SRCNN、VDSR、EDSR(enhanced deep residual network for single image super-resolution)、RCAN、SAN(second-order attention network for single image super-resolution)(Dai 等,2019)、HAN(single image super-resolution via a holistic attention network)(Niu等,2020)、NLSA、SwinIR 等模型在×2、×3、×4 共3 個(gè)比例因子上對(duì)PSNR指標(biāo)和SSIM指標(biāo)進(jìn)行對(duì)比。較高的PSNR 值表示重建效果更好,SSIM 越接近1 表示SR圖像與HR圖像在結(jié)構(gòu)上更為相似。
Chu 等人(2022)指出在圖像復(fù)原工作中由于計(jì)算資源限制,一般都將要修復(fù)的圖像裁剪成小塊(Patch)送入到模型中進(jìn)行訓(xùn)練。而在推理過(guò)程,一般則直接將需要修復(fù)的圖像送入到網(wǎng)絡(luò)中進(jìn)行復(fù)原。這種模式存在著訓(xùn)練與推理過(guò)程的不一致性,對(duì)利用全局信息的模型會(huì)產(chǎn)生負(fù)面影響。因此在測(cè)試過(guò)程中采用Chu等人(2022)提出的測(cè)試時(shí)間局部轉(zhuǎn)換器(test-time local converter,TLC)維持訓(xùn)練與推理過(guò)程的一致性。
按照2.1 節(jié)的實(shí)驗(yàn)設(shè)置對(duì)模型進(jìn)行完整訓(xùn)練,得到×2、×3、×4 共3 個(gè)不同比例因子的PSNR 和SSIM,分別展示在表1—表3 中??梢钥吹剑凇? 倍SR 任務(wù)中,SRTSA 較SwinIR 在Set5、Set14、BSD100和Urban100 上,PSNR 分別提升0.07 dB、0.01 dB、0.03 dB 和0.08 dB,SSIM 也有較大提升。在×3 倍SR 任務(wù)中,SRTSA 較SwinIR 在Set5、BSD100、Urban100 和Manga109 上,PSNR 分別提升0.02 dB、0.04 dB、0.15 dB 和0.02 dB,SSIM 在5 個(gè)測(cè)試集上都獲得最佳指標(biāo)。在×2 倍SR 任務(wù)中,SRTSA 較SwinIR在Set5、Set14、BSD100、Urban100和Manga109上,PSNR 分別提升0.03 dB、0.21 dB、0.05 dB、0.29 dB 和0.10 dB,SSIM 在除Manga109 以外的4個(gè)測(cè)試集上,分別提升0.000 4、0.001 6、0.000 9 和0.002 7,足以說(shuō)明SRTSA的優(yōu)勢(shì)十分明顯。
表1 各模型在不同數(shù)據(jù)集上的表現(xiàn)(×2)Table 1 Performance of each model on different datasets(scale×2)
表2 各模型在不同數(shù)據(jù)集上的表現(xiàn)(×3)Table 2 Performance of each model on different datasets(scale×3)
表3 各模型在不同數(shù)據(jù)集上的表現(xiàn)(×4)Table 3 Performance of each model on different datasets(scale×4)
SRTSA 網(wǎng)絡(luò)在BSD100 和Urban100 這兩個(gè)包含豐富的結(jié)構(gòu)和紋理信息且具有更高復(fù)雜度的測(cè)試集上的優(yōu)勢(shì)更為顯著。說(shuō)明SRTSA網(wǎng)絡(luò)可以在復(fù)雜場(chǎng)景中保持高水平的細(xì)節(jié)保留和紋理重建能力,具有較強(qiáng)的結(jié)構(gòu)感知能力和泛化性能,可以適應(yīng)不同類(lèi)型的圖像數(shù)據(jù)并提供高質(zhì)量的超分辨率重建圖像。
圖7 展示了Urban100 數(shù)據(jù)集044_img.png 圖像通過(guò)不同算法模型重建得到的圖像??梢钥吹剑珺icubic 算法所重建圖像十分模糊,VDSR、RDN(Zhang 等,2018b)等網(wǎng)絡(luò)只能重建出圖像較為模糊的輪廓且細(xì)節(jié)信息基本丟失,RCAN、SAN、SwinIR 可以重建出較為清晰的輪廓,但對(duì)于紋理結(jié)構(gòu)的重建并不完善,SRTSA網(wǎng)絡(luò)所重建的圖像不但輪廓清晰,結(jié)構(gòu)合理,并且對(duì)于細(xì)節(jié)紋理的恢復(fù)也最接近HR圖像。
圖7 Urban100數(shù)據(jù)集中044_img.png的測(cè)試結(jié)果(×4)Fig.7 Test results of 044_img.png in Urban100 dataset(scale×4)
圖8 展示了Urban100 數(shù)據(jù)集092_img.png 圖像經(jīng)過(guò)不同模型重建后的效果對(duì)比。Bicubic 插值法得到的結(jié)果呈現(xiàn)出非常模糊的特征,幾乎無(wú)法重建出圖像的細(xì)節(jié)?;谏疃葘W(xué)習(xí)的其他方法在重建過(guò)程中雖然保留了主要的輪廓信息,但在紋理結(jié)構(gòu)和細(xì)節(jié)方面卻存在明顯的扭曲和偽影。而使用SRTSA網(wǎng)絡(luò)進(jìn)行重建的圖像則具有紋理清晰、邊緣銳利以及細(xì)節(jié)豐富等優(yōu)點(diǎn),通過(guò)恢復(fù)更多的信息獲得更好的結(jié)果。
圖8 Urban100數(shù)據(jù)集中092_img.png的測(cè)試結(jié)果(×4)Fig.8 Test results of 092_img.png in Urban100 dataset(scale×4)
圖8 中,不同方法重建結(jié)果差異性較大是因?yàn)镾R 任務(wù)是一個(gè)典型的不適定問(wèn)題,LR 圖像無(wú)法唯一確定對(duì)應(yīng)的HR 圖像。VDSR、EDSR 等SR 模型受感受野較小、模型學(xué)習(xí)能力較弱等限制,無(wú)法充分考慮圖像的全局結(jié)構(gòu)恢復(fù)細(xì)節(jié)信息,在生成SR圖像時(shí)都出現(xiàn)了將豎狀條紋重建為斜狀條紋、交叉條紋或者出現(xiàn)偽影等錯(cuò)誤范式。相比之下,SRTSA 通過(guò)對(duì)全局信息進(jìn)行建模,獲得更多紋理結(jié)構(gòu)信息,極大地緩解了不適定問(wèn)題,重建得到的SR 圖像也與HR 圖像更為相似。
局部歸因圖(local attribution maps,LAM)是由Gu和Dong(2021)針對(duì)SR 領(lǐng)域具有不可解釋性而提出的歸因分析方法,通過(guò)局部歸因圖的形式將對(duì)輸出結(jié)果產(chǎn)生強(qiáng)烈影響的像素重點(diǎn)標(biāo)注出來(lái)。通過(guò)這種方式,可以很直觀地看到SR網(wǎng)絡(luò)的有效性。為了直觀地展示SRTSA 的優(yōu)勢(shì),本文將SRTSA 和SwinIR同時(shí)使用LAM工具進(jìn)行比較,比較結(jié)果如圖9所示。在LAM 中,作者提出擴(kuò)散指數(shù)(diffusion index,DI)衡量LAM的結(jié)果,表示形式為
圖9 不同模型的LAM結(jié)果Fig.9 LAM results for different models
式中,GI表示基尼系數(shù)(Gini index,GI)。GI是國(guó)際上通用衡量一個(gè)國(guó)家或者地區(qū)收入差距的指標(biāo)。在LAM 中,GI是衡量LAM 差距的指標(biāo),它可以反映LAM 所涉及的像素范圍。簡(jiǎn)單理解就是對(duì)于重建圖像的某一部分來(lái)說(shuō),如果重建該部分只涉及少數(shù)像素點(diǎn),則GI系數(shù)相對(duì)較高。因此DI和GI呈反比例關(guān)系,DI越大說(shuō)明重建某一部分網(wǎng)絡(luò)考慮到更多的像素點(diǎn)。
從圖9 可以直觀地看到,SRTSA 生成SR 圖像時(shí)考慮到的像素范圍遠(yuǎn)大于SwinIR 所考慮的像素范圍。實(shí)驗(yàn)結(jié)果和客觀指標(biāo)評(píng)價(jià)、主觀視覺(jué)感知高度一致,從可解釋性的角度證明了SRTSA的優(yōu)越性。
為了驗(yàn)證SRTSA 網(wǎng)絡(luò)各組成部分的有效性,本文對(duì)不同結(jié)構(gòu)進(jìn)行消融實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。1)實(shí)驗(yàn)中把只有轉(zhuǎn)置自注意力機(jī)制和門(mén)控前饋網(wǎng)絡(luò)(GDFN)的模型作為Baseline;2)在Baseline上引入NAFBlock以驗(yàn)證其對(duì)特征進(jìn)行的簡(jiǎn)單關(guān)系建模是否可以補(bǔ)充轉(zhuǎn)置自注意力機(jī)制損失的部分空間紋理和結(jié)構(gòu)信息;3)在Baseline 上引入CAB 驗(yàn)證補(bǔ)充局部信息是否可以增強(qiáng)圖像重建效果;4)同時(shí)引入NAFBlock 和CAB 驗(yàn)證對(duì)特征進(jìn)行簡(jiǎn)單關(guān)系建模是否與對(duì)特征進(jìn)行局部關(guān)系建模產(chǎn)生沖突;5)由于DGDFN 相對(duì)獨(dú)立,在實(shí)驗(yàn)4)的基礎(chǔ)上引入DGDFN 即可驗(yàn)證其是否可以提高模型的建模能力。在消融實(shí)驗(yàn)中設(shè)置batch size=8,其余均按照2.1節(jié)的設(shè)置重新訓(xùn)練網(wǎng)絡(luò)。
在Set5 測(cè)試集上的PSNR 如表4 所示。由表4中實(shí)驗(yàn)2)可知,在Baseline 模型的基礎(chǔ)上引入NAFBlock 模塊之后PSNR/SSIM 獲得了0.01 dB/0.000 3的提升,說(shuō)明對(duì)特征進(jìn)行簡(jiǎn)單關(guān)系建模可以保存部分空間結(jié)構(gòu)信息。實(shí)驗(yàn)3)結(jié)果表明,引入CAB 模塊后,PSNR 和SSIM 分別提升了0.02 dB 和0.000 3,說(shuō)明CAB 通過(guò)捕捉圖像特有的局部相關(guān)性從而增強(qiáng)了網(wǎng)絡(luò)的建模能力。在實(shí)驗(yàn)4)中,同時(shí)引入以上兩個(gè)模塊后,PSNR 和SSIM 分別提升了0.05 dB 和0.000 7。由實(shí)驗(yàn)5)可知,本文DGDFN 的PSNR 和SSIM 分別提升了0.03 dB 和0.000 9,說(shuō)明DGDFN可以提高模型的泛化性能和建模能力,同樣也說(shuō)明在Transformer 模型中,自注意力機(jī)制和前饋網(wǎng)絡(luò)均發(fā)揮著不可或缺的作用。它們共同構(gòu)成了模型的核心組件,并相互協(xié)作以實(shí)現(xiàn)高效的特征提取和建模。
表4 在 Set5(×4)測(cè)試上的消融實(shí)驗(yàn)Table 4 Ablation study on Set5(scale×4)
同時(shí),為了更直觀地展示各個(gè)模塊在SRTSA 模型中所做出的貢獻(xiàn),采用LAM 工具分析模型的感受野,過(guò)程性結(jié)果如圖10所示。
圖10 過(guò)程性結(jié)果展示Fig.10 Process results display
為了解決主流方法通過(guò)在窗口內(nèi)使用自注意力機(jī)制,會(huì)限制特征聚合范圍而導(dǎo)致圖像重建效果不佳的問(wèn)題,提出了基于轉(zhuǎn)置自注意力機(jī)制的超分辨率網(wǎng)絡(luò)(SRTSA)。通過(guò)轉(zhuǎn)置自注意力機(jī)制和通道注意力模塊分別對(duì)全局特征和局部特征進(jìn)行建模,同時(shí)提出一個(gè)全新的雙門(mén)控深度卷積前饋網(wǎng)絡(luò)(DGDFN)提高模型的泛化性能。大量實(shí)驗(yàn)結(jié)果表明,本文方法在客觀指標(biāo)、主觀視覺(jué)和模型可解釋性方面均優(yōu)于目前主流的單圖像超分辨率算法。然而,本文算法也存在較多不足:1)用于局部信息增強(qiáng)的通道注意力塊在大通道數(shù)時(shí)會(huì)使用較大參數(shù)量,使得模型推理速度變慢,后期將構(gòu)建一個(gè)全新的輕量級(jí)局部信息增強(qiáng)模塊對(duì)局部特征信息進(jìn)行補(bǔ)充。2)盡管本文方法通過(guò)引入轉(zhuǎn)置自注意力機(jī)制隱式構(gòu)建全局上下文關(guān)系節(jié)省了較多的參數(shù),但是全局信息建模網(wǎng)絡(luò)結(jié)構(gòu)較為冗余,使得網(wǎng)絡(luò)復(fù)雜度更高。在未來(lái)的工作中,將設(shè)計(jì)一個(gè)更為簡(jiǎn)潔的自注意力機(jī)制用于圖像全局信息的提取。