国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機(jī)制的雙向生成對抗壓縮網(wǎng)絡(luò)

2021-10-21 08:19:00陳旭彪
電視技術(shù) 2021年8期
關(guān)鍵詞:低分辨率分辨率注意力

陳旭彪

(福建捷聯(lián)電子有限公司,福建 福州 350300)

0 引 言

近幾年,基于深度學(xué)習(xí)的圖像超分辨率重建算法為了追逐重建圖像客觀質(zhì)量評價指標(biāo),研究者們設(shè)計出大量精妙的網(wǎng)絡(luò)結(jié)構(gòu)[1-5],但這些網(wǎng)絡(luò)結(jié)構(gòu)大體上都是增加卷積神經(jīng)網(wǎng)絡(luò)的深度或?qū)挾?,從最初網(wǎng)絡(luò)深度僅有3層的SRCNN,發(fā)展到首次引入殘差網(wǎng)絡(luò)達(dá)到20層深度的VDSR,再到80層的超深記憶性網(wǎng)MemNet[6]。盡管這些算法在一定程度上提升了圖像的重建質(zhì)量,卻大幅度增加了網(wǎng)絡(luò)模型消耗的內(nèi)存容量及網(wǎng)絡(luò)前向推理的計算量。另外一個問題是,如VDSR、SRResNet等算法,其網(wǎng)絡(luò)結(jié)構(gòu)采用了直接級聯(lián)的拓?fù)浣Y(jié)構(gòu),網(wǎng)絡(luò)中每層輸出的特征圖會被不加區(qū)分地輸入到下一層,無法判斷圖像特征的重要程度。

針對以上兩個問題,本文在雙向生成對抗壓縮網(wǎng)絡(luò)的基礎(chǔ)上,提出了一種輕量高效的基于注意力機(jī)制的雙向生成對抗壓縮網(wǎng)絡(luò)(ADSRGAN)。本文所提出的算法引入了深度可分離卷積層及混合注意力機(jī)制,在保證圖像超分辨率重建質(zhì)量的同時加快了網(wǎng)絡(luò)模型重建速度。

1 雙向生成對抗網(wǎng)絡(luò)弱監(jiān)督算法

本文的雙向生成對抗網(wǎng)絡(luò)旨在解決現(xiàn)實生活中模糊圖像超分辨率重建問題。該算法框架如圖1所示,包括兩個生成對抗網(wǎng)絡(luò),分別為重建網(wǎng)絡(luò)(Low-to-High)和下采樣網(wǎng)絡(luò)(High-to-Low)。

圖1 雙向?qū)股删W(wǎng)絡(luò)

1.1 下采樣網(wǎng)絡(luò)

圖像超分辨率重建面臨的最大問題是缺乏真實的數(shù)據(jù)集,即低分辨率的噪聲圖像和相應(yīng)的高分辨率圖像。生成用于訓(xùn)練的圖像對的困難主要來自兩方面,一方面是對低分辨率(LR)圖像進(jìn)行建模和仿真,另一方面是生成像素相對應(yīng)的低分辨圖像。為了解決這兩個問題,本文提出了下采樣網(wǎng)絡(luò)(H2L),低分辨率圖片產(chǎn)生的方式為:

式中:LR表示生成的低分辨率圖片,HR表示清晰的高分辨率圖片,θ1表示網(wǎng)絡(luò)要學(xué)習(xí)的參數(shù)。

下采樣網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)如圖2所示。高分辨率圖片首先經(jīng)過一個卷積層和ReLU激活函數(shù)層提取圖像低層特征,然后將提取的低層特征輸入到后面8個殘差塊中。每個殘差塊包含兩層卷積層和一層激活函數(shù)層,相比于SRGAN的殘差塊,本文設(shè)計的殘差塊遵循EDSR[7]去除了歸一化層以減少網(wǎng)絡(luò)參數(shù)量并加快網(wǎng)絡(luò)訓(xùn)練速度。每兩個殘差塊間的設(shè)計運(yùn)用ResNet中的跳躍連接(Short-Cut)方式,同時將低層特征與殘差塊輸出的高層特征進(jìn)行融合操作,促使網(wǎng)絡(luò)模擬生成更逼真的、帶噪聲的低分辨率圖片。最后,融合的特征圖經(jīng)過卷積層和亞像素卷積層生成低分辨率圖片。

圖2 下采樣網(wǎng)絡(luò)

下采樣網(wǎng)絡(luò)的損失函數(shù)由兩部分組成,分別為生成對抗網(wǎng)絡(luò)的對抗損失及結(jié)構(gòu)感知損失。下采樣網(wǎng)絡(luò)的生成器生成的低分辨率圖片需要騙過判別器,因此產(chǎn)生了對抗損失函數(shù)。為了保證雙向生成對抗網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,本文引入了WGAN的對抗損失函數(shù),其定義為:

式中:D表示下采樣網(wǎng)絡(luò)的判別器,G代表下采樣網(wǎng)絡(luò)的生成器,N代表了圖像的數(shù)量。

為了保護(hù)生成的圖像與原圖像之間的空間結(jié)構(gòu)信息不發(fā)生改變,本文引入了用于風(fēng)格遷移工作的結(jié)構(gòu)感知損失函數(shù),其定義為:

式中:N代表了圖像塊的數(shù)量,P表示VGG網(wǎng)絡(luò)的卷積層的特征圖,y是生成的低分辨率圖片,x是輸入的高分辨率圖片。在計算損失的時候,圖片會被裁剪到同一尺寸。

1.2 重建網(wǎng)絡(luò)

本文提出的重建網(wǎng)絡(luò)(L2H)實現(xiàn)了低分辨率圖像超分辨率,可以描述為:

式中:HR表示重建的超分辨率圖片,LR表示輸入的低分辨率圖片,θ2表示重建網(wǎng)絡(luò)要學(xué)習(xí)的參數(shù)。

重建網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)如圖3所示,和下采樣網(wǎng)絡(luò)架構(gòu)類似。低分辨率圖片首先經(jīng)過一個卷積層和ReLU激活函數(shù)層以提取圖像的低層特征。低層特征經(jīng)過20層殘差塊學(xué)習(xí)高分辨率圖片的高頻細(xì)節(jié)部分,最后將融合了低層和高層的特征圖輸入到亞像素卷積層進(jìn)行圖像超分辨重建。反卷積層利用亞像素卷積層替代經(jīng)典的轉(zhuǎn)置卷積,以避免重建圖像出現(xiàn)棋盤效應(yīng)和邊緣模糊。

圖3 重建網(wǎng)絡(luò)

重建網(wǎng)絡(luò)的損失函數(shù)由3部分組成,分別為生成網(wǎng)絡(luò)的對抗損失、結(jié)構(gòu)感知損失和L1像素?fù)p失組成。其中,對抗損失及結(jié)構(gòu)感知損失與下采樣一致。L1像素?fù)p失的定義為:

式中:N表示圖像塊數(shù)量,y表示重建的超分辨率圖像,x表示真實的標(biāo)簽高分辨率圖片。

2 深度可分離卷積和自注意力機(jī)制

2.1 深度可分離卷積

隨著人工智能產(chǎn)品落地需求的產(chǎn)生,訓(xùn)練輕量高效的卷積神經(jīng)網(wǎng)絡(luò)逐漸成為研究者關(guān)注的焦點(diǎn)。輕量級神經(jīng)網(wǎng)絡(luò)模型的設(shè)計一般通過減少網(wǎng)絡(luò)中參數(shù)數(shù)量、減少網(wǎng)絡(luò)模型前向推理計算量等方法實現(xiàn)。2017年,針對減少網(wǎng)絡(luò)模型計算量這一問題,Google公司的Sifre等人提出了輕量級小型化網(wǎng)絡(luò)MobileNetV1[8],其最重要的創(chuàng)新就是提出了使用深度可分離卷積代替標(biāo)準(zhǔn)卷積操作,該算法在保證圖像分類精度的同時大大減少了網(wǎng)絡(luò)的計算量,并實現(xiàn)了將基于MobileNet網(wǎng)絡(luò)的圖像分類應(yīng)用部署在移動平臺端。

深度可分離卷積層把普通卷積拆分為深度卷積(Depthwise Convolution)與逐點(diǎn)卷積(Pointwise Convolution)兩部分,它屬于因式分解卷積的一類。傳統(tǒng)卷積操作如圖4所示。若輸入圖片是5×5像素大小且通道數(shù)為3的彩色圖片,經(jīng)過卷積核大小為3×3的傳統(tǒng)卷積層(假設(shè)該層卷積層包含4個濾波器),最終將輸出5×5×4大小的特征圖。該普通卷積操作中包含的參數(shù)量為3×3×3×4,計算量為3×3×4×3×5×5。若傳統(tǒng)卷積層將特征圖為DH×DW×M作為輸入,經(jīng)傳統(tǒng)卷積操作后其輸出尺寸為DH×DW×N(假設(shè)卷積過程中添加了Same Padding,即輸入輸出寬高保持不變),其中DH表示輸入特征圖的高,DW表示的輸入特征圖的寬,M和N分別代表了輸入通道數(shù)和輸出通道數(shù)。最終可得出該傳統(tǒng)卷積的參數(shù)量為DK×DK×M×N,DK代表卷積操作中卷積核的尺寸,總計算量為DK×DK×M×N×DH×DW。

圖4 傳統(tǒng)卷積示意圖

深度卷積操作與傳統(tǒng)卷積操作最大差異之處在于前者的一個卷積核只負(fù)責(zé)一個通道。具體來說,深度卷積一個通道與一個卷積核做運(yùn)算,而傳統(tǒng)卷積的每個卷積核都需要同時與每個通道做運(yùn)算,深度卷積如圖5所示。與傳統(tǒng)卷積計算類似,深度卷積的參數(shù)量為DK×DK×M,計算量為DK×DK×M×DW×DH。從計算量及參數(shù)量對比可知,深度卷積操作比傳統(tǒng)卷積更為高效,但經(jīng)深度卷積操作后輸出的特征圖的數(shù)量與通道數(shù)的數(shù)量一致,且特征在卷積過程中無法組合不同通道的圖像特征,因此需要逐點(diǎn)卷積來融合不同通道間 的信息。

圖5 深度卷積示例圖

逐點(diǎn)卷積操作的原理與傳統(tǒng)卷積原理是相同的,但是其卷積核的尺寸是固定的1×1×M大小,M代表上一層輸出特征圖的通道數(shù)。逐點(diǎn)卷積的實質(zhì)是對上一步深度卷積產(chǎn)生的特征圖進(jìn)行深度上的加權(quán)融合,產(chǎn)生具有信息交融的特征圖,其原理如圖6所示。與傳統(tǒng)卷積類似,逐點(diǎn)卷積的參數(shù)量為1×1×M×N,計算量為M×N×DH×DW。

圖6 逐點(diǎn)卷積示例圖

綜上所述,深度可分離卷積可分解為提取特征和組合特征兩部分,相對于傳統(tǒng)卷積而言,其計算量和參數(shù)量的對比為:

式中:N表示輸出通道數(shù),其數(shù)值一般很大,DK表示卷積核的尺寸。因此,如果卷積神經(jīng)網(wǎng)絡(luò)使用3×3大小的卷積核,深度可分離卷積操作可將網(wǎng)絡(luò)的參數(shù)量及計算量減少到1/8至1/9,而相應(yīng)的代價是網(wǎng)絡(luò)的預(yù)測精度輕微下降。本文所提出的算法中,網(wǎng)絡(luò)結(jié)構(gòu)的卷積操作將利用深度可分離卷積操作代替。

2.2 自注意力機(jī)制

自注意力機(jī)制(Self-attention Mechanism)來源于人類感知神經(jīng)學(xué)科。自注意力機(jī)制是指在人類感知視覺中,由于大腦處理信息的能力具有一定瓶頸,人腦會選擇性地關(guān)注一部分重要的信息,忽略一些無關(guān)緊要的信息。自2014年Mnih等人將自注意力機(jī)制引入進(jìn)計算機(jī)視覺領(lǐng)域獲取目標(biāo)任務(wù)效果提升,自注意力機(jī)制開始受到科研人員的廣泛關(guān)注。2014年,Bahdanau[9]將自注意力機(jī)制與機(jī)器翻譯相結(jié)合。圖像超分辨率重建屬于低層計算機(jī)視覺領(lǐng)域,其核心任務(wù)是恢復(fù)圖像中的高頻細(xì)節(jié),而重建的高分辨率圖像與低分辨率圖像存在相似圖案,因此可引入自注意力機(jī)制,將更多的精力用于恢復(fù)丟失的高頻細(xì)節(jié),使重建圖像更符合人眼視覺效果。本文將引入自注意力機(jī)制,與雙向生成對抗網(wǎng)絡(luò) 相結(jié)合。

在圖像處理領(lǐng)域中,常用的注意力機(jī)制包括硬(Hard)注意力機(jī)制及軟(Soft)注意力機(jī)制。硬注意力機(jī)制(Hard Attention)通常只選擇對目標(biāo)任務(wù)最重要的某些特征,將其他未被選擇的特征忽略。硬注意力機(jī)制在一定程度上對減少網(wǎng)絡(luò)計算量有益,但更大的劣勢是原圖像中的部分信息將丟失。在圖像超分辨率重建中,低分辨率圖像中的所有像素對重建圖像都是有影響的。因此,硬注意力機(jī)制在圖像超分辨率重建任務(wù)中并不適用。軟注意力機(jī)制(Soft Attention)相對于硬注意機(jī)制而言,采用了根據(jù)圖像特征的重要性來分配權(quán)重的方式。軟注意力機(jī)制考慮到所有的圖像特征,符合圖像超分辨率重建任務(wù)的原始出發(fā)點(diǎn),因此本文將軟注意力機(jī)制與雙向?qū)股删W(wǎng)絡(luò)結(jié)合。

軟注意力機(jī)制在計算機(jī)視覺應(yīng)用領(lǐng)域中又分為通道注意力機(jī)制及位置注意力機(jī)制,本文使用的是通道注意力機(jī)制。在深度學(xué)習(xí)訓(xùn)練過程中,訓(xùn)練集中的輸入圖像通過若干層卷積神經(jīng)網(wǎng)絡(luò),最終將得到多張不同的特征圖(Feature Map)。通道注意力機(jī)制主要關(guān)注的是不同通道之間的關(guān)聯(lián)性。具體來說,通道注意力機(jī)制會賦予每張?zhí)卣鲌D不同的權(quán)重,其原理如圖7所示。輸入特征圖首先需改變特征維度,其次經(jīng)過全局平均池化層獲取單個通道C的初始權(quán)重。兩層全連接層分別對通道進(jìn)行下采樣和上采樣操作以提升網(wǎng)絡(luò)學(xué)習(xí)通道特征的能力,同時Sigmoid激活函數(shù)將通道權(quán)重歸一化得到通道注意力特征圖,最后將通道注意力特征圖與輸入特征圖加權(quán)相乘。

圖7 通道注意力機(jī)制

3 基于注意力機(jī)制的雙向生成對抗壓縮網(wǎng)絡(luò)(ADSRGAN)模型結(jié)構(gòu)

本文提出的基于注意力機(jī)制的雙向生成對抗壓縮網(wǎng)絡(luò)(ADSRGAN)在雙向?qū)股删W(wǎng)絡(luò)模型引入了深度可分離卷積層和混合注意力機(jī)制。

(1)利用深度可分離卷積層代替普通卷積層。將重建網(wǎng)絡(luò)及下采樣網(wǎng)絡(luò)中的普通卷積層替換成深度可分離殘差層,深度可分離殘差模塊如圖8 所示。

圖8 深度可分離殘差模塊

(2)引入混合注意力機(jī)制。為了不增加重建網(wǎng)絡(luò)的參數(shù)量,本文算法僅在下采樣網(wǎng)絡(luò)的殘差塊中引入通道注意力模塊,并在下采樣網(wǎng)絡(luò)的降采樣層引入位置自注意力模塊,促使生成的低分辨率圖片更貼近于現(xiàn)實生活。引入混合注意力的下采樣網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示。

圖9 引入混合注意力的下采樣網(wǎng)絡(luò)結(jié)構(gòu)

4 實驗結(jié)果及分析

為了驗證本文提出的基于注意力機(jī)制的雙向生成對抗壓縮網(wǎng)絡(luò)算法(ADSRGAN)的有效性,將本文算法的重建模型與其他基于卷積神經(jīng)網(wǎng)絡(luò)的單幅圖像超分辨率重建方法進(jìn)行比較。這些方法是專門為基于雙三次插值退化的超分辨率設(shè)計的,比如SRCNN、SRGAN、ESGANG等。

本文提出的ADSRGAN算法與其他算法在測試集Urban100上基于i7 8700 CPU的重建速度對比結(jié)果如表1所示。由表1可知,本文提出的算法重建效率比SRGAN提升近5倍。

表1 本文方法與其他重建算法時間對比

本文提出的ADSRGAN算法與其他算法在測試集Urban100、DIV2K及數(shù)據(jù)集RMSR上的峰值信噪比(Peak Signal to Noise Ratio,PSNR)對比結(jié)果如表2所示。所有算法在測試集Urban100、DIV2K上的測試過程為:首先對測試集中全部圖像運(yùn)用雙三次插值方法進(jìn)行4倍的下采樣,其次將下采樣得到的低分辨率圖像輸入進(jìn)不同的重建模型中得出重建結(jié)果。在Urban100、DIV2K數(shù)據(jù)集上,本文的ADSRGAN算法相對于ESRGAN算法,PSNR值分別提升了0.05 dB、0.06 dB,在真實生活數(shù)據(jù)集RMSR上,本文算法的PSNR值相比于其他算法平均提升了1.51 dB。由實驗數(shù)據(jù)定量分析可知,本文設(shè)計的壓縮算法比雙向生成對抗網(wǎng)絡(luò)算法精度略微下降一點(diǎn),仍優(yōu)于其他基于生成對抗網(wǎng)絡(luò)的超分辨率重建算法。

表2 不同重建算法在不同數(shù)據(jù)集上的PSNR結(jié)果對比(單位:dB)

本文提出的ADSRGAN算法與其他算法在測試集Urban、DIV2K及數(shù)據(jù)集RMSR上的結(jié)構(gòu)相似性(Structural Similarity,SSIM)對比結(jié)果如表3所示。在Urban100數(shù)據(jù)集上,ADSRGAN算法相對于ESRGAN算法平均SSIM值提升了0.009 5;在DIV2K測試集上,平均SSIM值提升了0.021;在RMSR測試集上,平均SSIM值提升了0.012。由實驗數(shù)據(jù)定量分析可知,本文設(shè)計的壓縮算法比雙向生成對抗網(wǎng)絡(luò)算法精度略微下降一點(diǎn),但仍優(yōu)于其他基于生成對抗網(wǎng)絡(luò)的超分辨率重建算法。

表3 本文方法與其他重建算法的SSIM

基于測試集Urban100、DIV2K上的圖片,分別對各種深度學(xué)習(xí)模型進(jìn)行超分辨率重建的結(jié)果對比如圖10和圖11所示。從重建圖像的對比結(jié)果可看出,雙三次插值算法的重建效果最模糊,SRGAN算法會產(chǎn)生偽影,ESRGAN算法在邊緣部分也會有一些較少的偽影部分出現(xiàn)。本文的ADSRGAN算法重建的圖像細(xì)節(jié)清晰,邊緣明顯,與原圖最為相近。

圖10 本文算法與其他算法在Urban100測試集上的對比

圖11 本文算法與其他方法在DIV2K測試集上的對比

圖12 為Real-World數(shù)據(jù)集中的禁止抽煙測試圖像,通過對比各模型超分辨率重建結(jié)果圖可以看出,本文提出的算法在人眼感知視覺的效果最好,邊界明顯、細(xì)節(jié)清晰,與原始高分辨率圖像最相近。

圖12 現(xiàn)實世界圖像的重建結(jié)果對比

綜上所述,本文提出的基于注意力機(jī)制的雙向?qū)股蓧嚎s網(wǎng)絡(luò)重建算法可處理現(xiàn)實世界模糊、低分辨率圖像并重建出視覺良好、細(xì)節(jié)豐富的高分辨率圖片,同時,本文設(shè)計的壓縮網(wǎng)絡(luò)在i7 8700 CPU上對Urban100測試集中的圖像放大4倍時,重建速度比SRGAN算法提升了約5倍。

5 結(jié) 語

本文介紹了注意力機(jī)制及深度可分離卷積的基本概念及主要特性。由于注意力機(jī)制在自然語言處理領(lǐng)域方向的成功應(yīng)用,本文基于注意力機(jī)制提出了混合注意力模塊與可減少參數(shù)的深度可分離卷積層相結(jié)合的雙向生成對抗壓縮網(wǎng)絡(luò)。在實驗部分,與SRGAN方法和ESRGAN方法進(jìn)行比較,實驗結(jié)果表明,本文提出的方法能夠有效地提高圖像重建質(zhì)量及重建速度。

猜你喜歡
低分辨率分辨率注意力
紅外熱成像中低分辨率行人小目標(biāo)檢測方法
基于偏移學(xué)習(xí)的低分辨率人體姿態(tài)估計
讓注意力“飛”回來
EM算法的參數(shù)分辨率
原生VS最大那些混淆視聽的“分辨率”概念
樹木的低分辨率三維模型資源創(chuàng)建實踐
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
基于深度特征學(xué)習(xí)的圖像超分辨率重建
一種改進(jìn)的基于邊緣加強(qiáng)超分辨率算法
A Beautiful Way Of Looking At Things
乐安县| 周口市| 永春县| 禹城市| 日照市| 原阳县| 锦州市| 黔南| 石屏县| 黄冈市| 米脂县| 图们市| 襄垣县| 惠州市| 庄浪县| 扎鲁特旗| 宕昌县| 吉安市| 河南省| 浮梁县| 通山县| 晋江市| 绥芬河市| 梅州市| 广水市| 新邵县| 宣城市| 清徐县| 贵南县| 灵山县| 泰顺县| 库车县| 华宁县| 黄山市| 泸西县| 运城市| 龙门县| 阿坝县| 丹东市| 宿迁市| 上犹县|