段立娟,武春麗,恩 擎,喬元華,張韻東,陳軍成
1(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)
2(可信計(jì)算北京市重點(diǎn)實(shí)驗(yàn)室,北京 100124)
3(信息安全等級(jí)保護(hù)關(guān)鍵技術(shù)國(guó)家工程實(shí)驗(yàn)室,北京 100124)
4(北京工業(yè)大學(xué) 應(yīng)用數(shù)理學(xué)院,北京 100124)
5(數(shù)字多媒體芯片技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(北京中星微電子有限公司),北京 100191)
在圖像處理領(lǐng)域,為了獲得更高分辨率的圖像,通常采用超分辨率方法來(lái)重建低分辨率圖像的細(xì)節(jié)信息.一般來(lái)講,超分辨技術(shù)(super-resolution,簡(jiǎn)稱 SR)是指從一副或者多幅低分辨圖像重建出高分辨圖像的數(shù)字圖像處理技術(shù).單幅圖像超分辨率(single image super-resolution,簡(jiǎn)稱SISR)的重點(diǎn)在于如何從一張低分辨率圖像重建出高分辨率圖像的局部細(xì)節(jié).該問(wèn)題已經(jīng)發(fā)展成為圖像處理領(lǐng)域一個(gè)重要的研究方向[1].因其可以恢復(fù)一些高頻細(xì)節(jié),該技術(shù)被廣泛應(yīng)用于需要大量細(xì)節(jié)信息的圖像處理領(lǐng)域,如醫(yī)學(xué)成像[2]、衛(wèi)星成像[3]、人臉認(rèn)證[4-8]以及公關(guān)安全監(jiān)控領(lǐng)域等等.
基于實(shí)例的 SR方法通過(guò)使用大型圖像數(shù)據(jù)集學(xué)習(xí)從低分辨率(low resolution,簡(jiǎn)稱 LR)圖像到高分辨率(high resolution,簡(jiǎn)稱HR)圖像的映射,已經(jīng)證明能夠達(dá)到較好的效果.許多機(jī)器學(xué)習(xí)算法,包括字典學(xué)習(xí)[9]、局部線性回歸[10]和隨機(jī)森林[11]等都被應(yīng)用到這個(gè)領(lǐng)域中.近些年來(lái),基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,簡(jiǎn)稱 CNN)的方法,憑其強(qiáng)大的學(xué)習(xí)能力被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù)之中,在目標(biāo)識(shí)別、分割、光流和超分辨率領(lǐng)域,均取得了卓越的進(jìn)步.盡管基于卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率方法較傳統(tǒng)方法取得了較大的突破,但仍存在許多問(wèn)題.大部分現(xiàn)有的 SISR方法[12-19]的訓(xùn)練過(guò)程是在圖像空間中依靠逐像素均方誤差的方式使網(wǎng)絡(luò)輸出盡可能地接近HR圖像,但這種方式趨向于產(chǎn)生模糊和過(guò)平滑的輸出,缺乏細(xì)節(jié)信息.而且,目前的工作只適合一些小且特定的縮放系數(shù)(如x2或者x4).因此,SISR問(wèn)題仍然有待進(jìn)一步的探究和發(fā)展.
小波變換已被證明是一種高效的特征提取算法,常被用來(lái)重現(xiàn)和存儲(chǔ)多分辨率圖像[20].如圖1所示,它可以表示一張圖像在不同水平上的上下文和紋理信息.空間小波系數(shù)本身是稀疏的,因此,它能夠使網(wǎng)絡(luò)學(xué)習(xí)更加容易.
Fig.1 The example of Haar wavelet transform圖1 Haar小波變換示例
DWSR[21]利用小波變換的方式將重建HR圖像轉(zhuǎn)變?yōu)橥茢郒R圖像一系列相關(guān)的小波系數(shù).該方法在與當(dāng)前最優(yōu)算法超深度超分辨率網(wǎng)絡(luò)(VDSR)效果相當(dāng)?shù)那闆r下,實(shí)現(xiàn)了更簡(jiǎn)單的運(yùn)算量和更快的速度.本文提出的方法在此方法的基礎(chǔ)上加以改進(jìn).在輸入方面,為減少計(jì)算量從而實(shí)現(xiàn)LR到HR的實(shí)時(shí)處理,本文直接將LR圖像作為網(wǎng)絡(luò)的輸入.在網(wǎng)絡(luò)架構(gòu)方面,本文設(shè)計(jì)的框架分為3部分.特征提取網(wǎng)絡(luò)、推理網(wǎng)絡(luò)和重建網(wǎng)絡(luò).為了更好地捕捉上下文之間的信息,以及更好地推斷出缺失的細(xì)節(jié),特征提取網(wǎng)絡(luò)采用殘差塊相連的方式[22],同時(shí)將每個(gè)殘差塊的輸出進(jìn)行跨連,作為推理網(wǎng)絡(luò)的輸入.此外,網(wǎng)絡(luò)最終輸出的小波系數(shù)個(gè)數(shù)(即網(wǎng)絡(luò)最終輸出的通道數(shù))不再是固定值,而會(huì)隨尺度而發(fā)生改變.在損失函數(shù)方面,本文不僅只考慮小波系數(shù)之間的殘差損失,同時(shí)考慮最終經(jīng)過(guò)小波逆變換后的SR圖像與HR圖像之間的殘差損失,進(jìn)行雙重約束,實(shí)現(xiàn)更優(yōu)的效果.
本文第1節(jié)對(duì)解決單幅圖像的超分辨率問(wèn)題的方法進(jìn)行概述和總結(jié),并簡(jiǎn)單概述本文方法的基本思想.第2節(jié)對(duì)已有的基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率方法進(jìn)行總結(jié).第 3節(jié)具體描述本文方法的框架和損失函數(shù)的設(shè)計(jì).第 4節(jié)展示本文方法與其他相關(guān)方法在不同數(shù)據(jù)集上的結(jié)果對(duì)比,總結(jié)本文方法的優(yōu)勢(shì)和不足.第 5節(jié)對(duì)本文進(jìn)行總結(jié),并對(duì)未來(lái)值得關(guān)注的研究方向進(jìn)行初步探討.
從觀察到的低分辨率圖像推測(cè)合成的高分辨率圖像是典型的病態(tài)逆問(wèn)題.現(xiàn)有的算法可以根據(jù)技術(shù)手段分為兩類:基于重建的方法和基于學(xué)習(xí)的方法[23].傳統(tǒng)學(xué)習(xí)模型的特征提取和表達(dá)能力有限,很大程度上限制了圖像超分辨率重建效果的大幅度提升.而近年來(lái)基于深度學(xué)習(xí)的方法因其具有從大規(guī)模數(shù)據(jù)中學(xué)習(xí)知識(shí)的強(qiáng)大能力被引入到解決SR的問(wèn)題中.
隨著基于深度卷積神經(jīng)網(wǎng)絡(luò)在高視覺(jué)水平任務(wù)上的迅速發(fā)展,大量基于CNN的方法也被應(yīng)用到計(jì)算機(jī)低視覺(jué)水平的任務(wù)中,如圖像超分辨率、圖像去噪等.SRCNN[12]是首個(gè)將卷積神經(jīng)網(wǎng)絡(luò)引入到圖像超分辨率重建領(lǐng)域的神經(jīng)網(wǎng)絡(luò)模型.其網(wǎng)絡(luò)結(jié)構(gòu)由 3個(gè)卷積層組成,分別代表圖像塊的特征提取、表示和重構(gòu).通過(guò)引入卷積神經(jīng)網(wǎng)絡(luò),該方法顯著提高了傳統(tǒng)方法的重構(gòu)進(jìn)度.雖然 SRCNN運(yùn)作良好,但仍存在缺乏語(yǔ)境信息、單一尺度放大以及收斂速度慢等問(wèn)題.為了解決這一問(wèn)題,有研究者提出具有深層次網(wǎng)絡(luò)的 VDSR[14](超深度超分辨率網(wǎng)絡(luò)).該方法基于用于圖像分類的VGG[24]網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),通過(guò)訓(xùn)練HR和LR圖像之間的殘差,并使用更高的學(xué)習(xí)速率來(lái)加速收斂.同時(shí),通過(guò)權(quán)重共享,實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)較少且重構(gòu)性能較好的圖像多尺度放大.此外,DRCN[15]在VDSR的基礎(chǔ)上增加遞歸連接,實(shí)現(xiàn)圖像層之間的信息反饋以及上下文信息關(guān)聯(lián),進(jìn)一步提升效果.同時(shí),將模型壓縮成5層,降低訓(xùn)練難度.
上述方法均利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)MR圖像(middle resolution image)到HR圖像的映射,其中,MR圖像是通過(guò)對(duì)LR圖像利用雙三次插值的方法進(jìn)行上采樣獲取的.為了實(shí)現(xiàn)從LR到HR的直接映射,FSRCNN[14]利用反卷積層替代 SRCNN模型中雙三次插值的操作.在移除上采樣的操作之后,該模型可以學(xué)習(xí)從低分率圖像到高分辨率圖像的直接映射,同時(shí)實(shí)現(xiàn)超過(guò) 40倍速度的提升.FSRCNN模型僅包括卷積層和反卷積層,其中卷積層對(duì)于不同的放大倍數(shù)共享卷積層的權(quán)重,因此,FSRCNN能夠利用一個(gè)單獨(dú)的模型處理不同的尺度.ESPCN[17]是在FSRCNN的基礎(chǔ)上設(shè)計(jì)sub-pixel卷積層實(shí)現(xiàn)上采樣的操作,該方法有效地減少了總計(jì)算復(fù)雜度,能夠合成一個(gè)沒(méi)有棋盤偽像的干凈圖像.LapSRN[19]是最近提出的單幅圖像超分辨率方法之一,該模型包括一個(gè)基于拉普拉斯金字塔的特征提取和圖像重建部分的級(jí)聯(lián)框架,并且使用Charbonnier損失函數(shù)代替L2范數(shù)損失函數(shù),取得了較好的超分辨率重構(gòu)效果.
上述基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨方法針對(duì)圖像的空間域進(jìn)行處理,目的是將像素值直接作為網(wǎng)絡(luò)輸出進(jìn)行重構(gòu),這通常會(huì)使結(jié)果趨向于模糊和過(guò)平滑.為了解決這一問(wèn)題,PLSR[25]將感知損失代替逐像素差損失,進(jìn)而優(yōu)化超分辨率網(wǎng)絡(luò),以保證獲取更多的語(yǔ)義信息.該策略雖然未能在 PSNR指標(biāo)上取得較好的效果,但在視覺(jué)上更加逼真,能夠帶來(lái)更多好的細(xì)節(jié)和邊緣.SRGAN[26]在PLSR的基礎(chǔ)上,將感知損失和GAN模型相結(jié)合,生成更真實(shí)和銳利的圖像.該方法利用GAN中的Generator網(wǎng)絡(luò)生成高分辨圖像,再由Discriminator網(wǎng)絡(luò)進(jìn)行判斷,最終得到滿足條件的高分辨率圖像.但是該方法提出的基于VGG分類網(wǎng)絡(luò)的感知損失不能夠精確地捕捉超分辨率任務(wù)中必要的細(xì)節(jié)信息.于是,SRPGAN[27]提出一種基于GAN模型中Discrimination網(wǎng)絡(luò)的感知損失,并且使用Charbonnier損失函數(shù).該方法重建的超分辨率圖像更加鋒利和逼真.
綜上所述,目前解決該問(wèn)題主要有 3種思路:第一,設(shè)計(jì)不同的網(wǎng)絡(luò)架構(gòu)去重建高分辨率圖像;第二,利用感知損失和 GAN生成模型生成更真實(shí)和銳利的圖像;第三,考慮在變換域的情況下處理該問(wèn)題.小波變換將提供的圖像內(nèi)容“過(guò)程”和“細(xì)節(jié)”分離的特性,與輸入 LR圖像恢復(fù)圖像細(xì)節(jié)的超分辨率問(wèn)題具有一定相似性.因此,本方法考慮變換到小波域進(jìn)行超分辨率重構(gòu).目前已有一些基于小波的方法解決超分辨率問(wèn)題.但其中大部分集中在多幅圖像的超分辨問(wèn)題,這些方法[28-31]利用多幀低分辨率圖像推斷出高分辨率圖像缺失的細(xì)節(jié).針對(duì)單幅圖像超分辨問(wèn)題,雖然也有一些小波域的插值方法被研究,但其訓(xùn)練有限和預(yù)測(cè)程序簡(jiǎn)單,不足以處理普通輸入圖像,其SR結(jié)果也遠(yuǎn)差于基于深度學(xué)習(xí)的超分辨率方法.
DWSR[21]是首個(gè)在小波域下利用深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)合低頻和高頻信息子帶之間的互補(bǔ)信息的方法.該方法把重建高分辨率圖像的問(wèn)題轉(zhuǎn)換為推理一系列小波變換系數(shù),這樣產(chǎn)生的圖像邊緣具有更少的偽像.該方法采用的網(wǎng)絡(luò)是由一系列相同大小的卷積層直接連接而成,缺乏層與層之間的信息融合,而且沒(méi)有考慮尺度與小波分解級(jí)數(shù)之間的對(duì)應(yīng)關(guān)系,所有尺度經(jīng)過(guò)最終網(wǎng)絡(luò)訓(xùn)練后的結(jié)果都是盡可能地接近HR圖像與MR圖像一級(jí)小波分解系數(shù)之間的殘差.為了更好地捕捉上下文之間的信息,并推斷出更多缺失的細(xì)節(jié),本方法在DWSR[21]的基礎(chǔ)上作了進(jìn)一步的改進(jìn),直接將 LR圖像作為網(wǎng)絡(luò)的輸入,并且設(shè)計(jì)更為合理的網(wǎng)絡(luò)結(jié)構(gòu).此外,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)輸出的小波系數(shù)個(gè)數(shù)不再是固定值,而是隨著尺度的變化而發(fā)生改變.
本文提出的基于小波域的深度殘差網(wǎng)絡(luò),將小波變換的思想與深度殘差網(wǎng)絡(luò)相結(jié)合,并結(jié)合圖像空間損失和小波系數(shù)損失,對(duì)網(wǎng)絡(luò)訓(xùn)練加強(qiáng)約束.該模型應(yīng)用于圖像超分辨率重構(gòu)問(wèn)題,能夠?qū)D像各個(gè)層次的特征分隔開(kāi)來(lái)進(jìn)行訓(xùn)練,捕捉更多缺失的細(xì)節(jié)信息.
圖1顯示二維小波變換的結(jié)果,可以直觀地看出,如果把變換后第1個(gè)小波圖像表示為L(zhǎng)R圖像,那么其他的小波圖像就是想要得到的缺失的細(xì)節(jié).因此,本文將小波變換引入到 SISR問(wèn)題當(dāng)中.本文方法的重點(diǎn)在于強(qiáng)調(diào)小波變換對(duì)于超分辨率重建問(wèn)題的有效性,因此,選擇最簡(jiǎn)單的哈爾小波即可滿足實(shí)現(xiàn)描述不同頻帶信息的要求,當(dāng)然也可以使用其他的小波.將 HR圖像利用哈爾小波變換為一系列尺寸相同的小波圖像作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo).如圖2所示,更高水平的變換就是循環(huán)地進(jìn)行低通濾波和高通濾波以及下采樣的操作.
Fig.2 The procedure of 1-level 2D DWT圖2 1級(jí)二維小波變換過(guò)程
本文提出的方法基于空域到小波域的變換來(lái)實(shí)現(xiàn)超分辨率圖像的重建.為了更加有效地提取特征并降低運(yùn)算的復(fù)雜度,本文直接將LR圖像作為網(wǎng)絡(luò)的輸入,最終映射到HR圖像的小波域下.從LR到最終重建HR的整個(gè)過(guò)程其實(shí)是多個(gè)網(wǎng)絡(luò),但是我們把這多個(gè)網(wǎng)絡(luò)當(dāng)作一個(gè)網(wǎng)絡(luò)進(jìn)行統(tǒng)一、有效的學(xué)習(xí).整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)屬于多階段,利用推理網(wǎng)絡(luò)輸出的一系列小波圖像屬于第1階段,第2階段是根據(jù)第1個(gè)階段的結(jié)果進(jìn)行小波逆變換,得到最終的超分辨率圖像(SR).最后將小波系數(shù)的損失和圖像空間像素的損失一起以梯度的形式反傳回整個(gè)網(wǎng)絡(luò)進(jìn)行更新.如圖3所示,本文提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括特征提取網(wǎng)絡(luò)、推理網(wǎng)絡(luò)和重建網(wǎng)絡(luò)3部分.其中,特征提取網(wǎng)絡(luò)從低分辨率圖像中提取特征,推理網(wǎng)絡(luò)則將提取的特征表示為一系列HR圖像與對(duì)應(yīng)MR圖像小波系數(shù)的差異,重建網(wǎng)絡(luò)利用小波逆變換重建 SR圖像.為了捕捉更多缺失的細(xì)節(jié),本文利用小波系數(shù)和圖像空間像素的兩種損失構(gòu)建一個(gè)魯棒的損失函數(shù)來(lái)計(jì)算SR與HR的相似度,從而優(yōu)化本文提出的神經(jīng)網(wǎng)絡(luò).在第3節(jié)中將會(huì)詳細(xì)闡述損失函數(shù).
Fig. 3 Overall framework. The two parts corresponding to the two-way arrow are used to calculate the loss during network training圖3 總體框架.其中雙向箭頭對(duì)應(yīng)的兩部分在網(wǎng)絡(luò)訓(xùn)練時(shí)進(jìn)行損失計(jì)算
3.2.1 特征提取網(wǎng)絡(luò)
特征提取網(wǎng)絡(luò)將 LR圖像作為輸入,通過(guò)神經(jīng)網(wǎng)絡(luò)前向傳播表示為一系列特征圖.特征提取網(wǎng)絡(luò)由多個(gè)殘差塊級(jí)聯(lián)構(gòu)成.其中,殘差塊由兩個(gè)具有相同核大小以及過(guò)濾器數(shù)目的卷積構(gòu)成,其輸出是由輸入和經(jīng)過(guò)連續(xù)兩個(gè)卷積之后的結(jié)果相加構(gòu)成.每個(gè)殘差塊作為一個(gè)單元,每個(gè)單元的輸出都被傳遞到下一個(gè)單元,并同時(shí)進(jìn)行跨連作為推理網(wǎng)絡(luò)的輸入.所有的卷積層共享相同的核大小:3×3.而為了保持特征圖的大小與輸入一致,將步長(zhǎng)(stride)和邊緣填充(pad)都設(shè)置為 1.同時(shí),為了獲取更多、更豐富的信息,卷積層過(guò)濾器的數(shù)目隨著網(wǎng)絡(luò)的深入不斷增長(zhǎng).
3.2.2 推理網(wǎng)絡(luò)
推理網(wǎng)絡(luò)將特征提取網(wǎng)絡(luò)的輸出作為輸入,但因其維度比較大,所以使用 1×1的卷積實(shí)現(xiàn)減少特征維度的目的.同時(shí),為了保證推理出的小波圖像與 LR圖像具有相同尺寸,對(duì)推理網(wǎng)絡(luò)中所有卷積層參數(shù)的設(shè)置與特征提取網(wǎng)絡(luò)保持一致,即卷積核大小設(shè)置為 3×3,步長(zhǎng)和邊緣填充設(shè)置為 1.因?yàn)樾〔ǚ纸庀禂?shù)的高度獨(dú)立性,所以無(wú)需考慮通道之間的關(guān)系.不同尺度網(wǎng)絡(luò)最終輸出通道的個(gè)數(shù)是縮放倍數(shù)的平方,每個(gè)通道表示一一對(duì)應(yīng)的小波圖像.如圖3所示,將網(wǎng)絡(luò)最終的輸出與MR圖像的小波分解系數(shù)相加,然后通過(guò)小波逆變換轉(zhuǎn)換到原始圖像空間.正如典型的殘差學(xué)習(xí)網(wǎng)絡(luò)一樣,本文提出的模型也致力于學(xué)習(xí)殘差輸出.因?yàn)椴煌叨鹊男〔ㄗ儞Q圖像尺寸是不同的,其對(duì)應(yīng)網(wǎng)絡(luò)最終輸出的通道數(shù)也是不同的,所以需要學(xué)習(xí)多個(gè)網(wǎng)絡(luò).但是,不同尺度圖像的訓(xùn)練只有最后一層卷積的參數(shù)設(shè)置有所不同,其他卷積層對(duì)于不同尺度共享權(quán)重,因此只對(duì)一個(gè)尺度的網(wǎng)絡(luò)從頭開(kāi)始訓(xùn)練,其他尺度在已訓(xùn)練好的模型上進(jìn)行微調(diào)即可.
3.2.3 重建網(wǎng)絡(luò)
重建網(wǎng)絡(luò)是將推理網(wǎng)絡(luò)的輸出與 LR經(jīng)上采樣和小波變換后的結(jié)果相加作為輸入,利用小波逆變換,將一系列小波圖像生成對(duì)應(yīng)的一張超分辨率圖像,得到最終的結(jié)果.依據(jù)中間結(jié)果(一系列的小波系數(shù))和最終SR圖像,本文提出一種靈活且約束能力更強(qiáng)的損失函數(shù)去優(yōu)化網(wǎng)絡(luò),它由小波系數(shù)損失和圖像空間像素?fù)p失兩部分組成,總的損失函數(shù)被定義為
其中,λ和1-λ分別代表小波系數(shù)損失和圖像空間損失的權(quán)重,具體細(xì)節(jié)會(huì)在第4節(jié)加以詳細(xì)說(shuō)明.
小波系數(shù)損失.本文設(shè)定輸入LR圖像為x,標(biāo)簽高分辨圖像為y,輸入LR經(jīng)雙三次插值上采樣后的MR圖像為yb,θ是待優(yōu)化的一系列網(wǎng)絡(luò)參數(shù).通用單幅圖像超分辨率網(wǎng)絡(luò)旨在學(xué)習(xí)給定低分辨率輸入x與高分辨率圖像y之間的映射關(guān)系.而本文方法提出的網(wǎng)絡(luò)結(jié)構(gòu)是學(xué)習(xí)低分辨率輸入x與高分辨率圖像y小波變換后系數(shù)之間的關(guān)系,網(wǎng)絡(luò)的輸出盡可能地與對(duì)應(yīng)高分辨率圖像小波分解后的系數(shù)接近.本文定義縮放系數(shù){r,r≥2}、小波變換的級(jí)數(shù)為m以及變換后小波系數(shù)的個(gè)數(shù)為WN,它們之間的映射關(guān)系為.
同時(shí),將圖像y和yb進(jìn)行小波分解后的系數(shù)分別表示為
兩者分解后系數(shù)的差異(即殘差)可計(jì)算為
式(2)的結(jié)果為神經(jīng)網(wǎng)絡(luò)致力于學(xué)習(xí)的目標(biāo),即fθ(x)~.在圖像空間里最常用的損失函數(shù)是對(duì) HR圖像和 SR圖像逐像素進(jìn)行均方誤差操作.本文同樣采用這種方式,不同之處是對(duì)圖像對(duì)應(yīng)的小波系數(shù)進(jìn)行這一操作.即:
其中,n為batchsize的大小,i代表批處理圖像中的第i張圖像,j為小波系數(shù)序列中的第j個(gè)系數(shù).
圖像空間損失.本文提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)到的是MR圖像與HR圖像小波變換后系數(shù)之間的差異,將輸出的結(jié)果經(jīng)過(guò)小波逆變換即可得到學(xué)習(xí)到的殘差圖像IΔSR,即:
在得到殘差圖像后,與原始輸入圖像經(jīng)過(guò)雙三次插值上采樣后的 MR圖像yb相加即可得到最終的超分辨圖像ISR:
考慮到之前圖像空間的損失計(jì)算,為獲取紋理與平滑之間的一個(gè)平衡,在小波系數(shù)損失的基礎(chǔ)上,添加原始圖像空間的損失,計(jì)算圖像空間的殘差損失.
其中,n和i的含義參考公式(3).
本文使用D2VIK數(shù)據(jù)集中的800張圖像作為訓(xùn)練集,其所有圖像至少有一個(gè)軸上存在2K像素(垂直或水平).本文采用 64的步長(zhǎng)將數(shù)據(jù)集切割成大小為 128×128的圖像塊,獲得大約 50萬(wàn)左右的切塊用于網(wǎng)絡(luò)訓(xùn)練.在批訓(xùn)練中,每次隨機(jī)選擇 256個(gè)高分辨圖像塊作為標(biāo)簽,利用雙三次內(nèi)核插值法進(jìn)行下采樣獲取低分辨率圖像塊,作為網(wǎng)絡(luò)的輸入.
對(duì)于測(cè)試集,本文對(duì) 5個(gè)公共基準(zhǔn)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn):SET5[32]、SET14[33]、BSD100[34]、URBAN100[35]和MANGA109[36].SET5、SET14和BSD100數(shù)據(jù)集中的圖像由自然場(chǎng)景組成,URBAN100數(shù)據(jù)集包含具有挑戰(zhàn)性的城市場(chǎng)景圖像以及不同頻段的細(xì)節(jié),MANGA109是日本漫畫的數(shù)據(jù)集.
在訓(xùn)練時(shí),本文將 HR圖像對(duì)應(yīng)的小波系數(shù)作為訓(xùn)練標(biāo)準(zhǔn),其中小波分解級(jí)數(shù)通過(guò)與縮放系數(shù)的映射關(guān)系來(lái)獲取.然后對(duì)每一次迭代后的結(jié)果利用公式(1)進(jìn)行損失計(jì)算.同時(shí)采用ADAM的優(yōu)化器(參數(shù)設(shè)置:β1=0.9,β2=0.999)更新權(quán)重和偏置.學(xué)習(xí)率lr初始化為2e-4,并將學(xué)習(xí)率衰減因子設(shè)置為0.005.網(wǎng)絡(luò)的輸入可以是單通道的灰度圖或3通道的彩色圖像,本文網(wǎng)絡(luò)的訓(xùn)練選擇后者.如表1所示,特征提取網(wǎng)絡(luò)由3個(gè)殘差塊組成,其中過(guò)濾器數(shù)目從64~256依次呈二倍增多.特征提取網(wǎng)絡(luò)融合的特征經(jīng)過(guò)1×1卷積實(shí)現(xiàn)降維,作為推理網(wǎng)絡(luò)的輸入.推理網(wǎng)絡(luò)同樣由3個(gè)殘差塊組成,與特征提取部分相反的是,過(guò)濾器數(shù)目從256~64依次呈2倍減少,最后再經(jīng)過(guò)一個(gè)卷積獲取指定的通道數(shù)3×r2(r是縮放倍數(shù)).
同時(shí),開(kāi)始時(shí)先利用單個(gè)的損失函數(shù)進(jìn)行訓(xùn)練,即(λ=0)和(λ=1),通過(guò)訓(xùn)練好的結(jié)果來(lái)設(shè)定權(quán)重,獲取最優(yōu)的參數(shù)選擇.最終,設(shè)定參數(shù)為λ=0.99.
Table 1 The specific settings of the network parameters proposed by this method表1 本文方法提出的網(wǎng)絡(luò)參數(shù)的具體設(shè)置
為證明所使用損失函數(shù)的優(yōu)越性,本文針對(duì)不同的損失函數(shù)做了一系列對(duì)比實(shí)驗(yàn).在表 2中展示了分別利用小波系數(shù)損失函數(shù)、圖像空間損失函數(shù)以及結(jié)合兩者的損失函數(shù)訓(xùn)練后的結(jié)果(縮放系數(shù)為x4,數(shù)據(jù)集Set 5和 Set 14).實(shí)驗(yàn)結(jié)果表明,無(wú)論是峰值信噪比還是結(jié)構(gòu)相似性,采用結(jié)合方式產(chǎn)生的效果都是最優(yōu)的,進(jìn)一步證明兩者結(jié)合這一策略是可行且有效的.
Table 2 Quality evaluation of different loss functions表2 不同損失函數(shù)的質(zhì)量評(píng)價(jià)
本文采用廣泛被用于評(píng)價(jià)圖像質(zhì)量的兩個(gè)指標(biāo)來(lái)判斷 SR結(jié)果的好壞:峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM).將本文提出的方法與相關(guān)優(yōu)異的方法進(jìn)行比較分析.對(duì)于縮放尺度,采用2x、4x和8x測(cè)試模型.
表3中總結(jié)了本文方法與其他方法在不同數(shù)據(jù)集(Set 5,Set 14,BSD100,Urban100,Manga109)以及不同尺度上(x2,x4和 x8)結(jié)果的(峰值信噪比和結(jié)構(gòu)相似性)比較.最好的3個(gè)結(jié)果分別以加粗、下劃線和陰影表示.可以直觀地看出,本文提出的方法在結(jié)果上并沒(méi)有超過(guò)EDSR[37].究其原因,在網(wǎng)絡(luò)結(jié)構(gòu)上,兩者都采用殘差塊作為網(wǎng)絡(luò)的基本組成單元.所不同的是,本文提出的方法僅使用了6個(gè)殘差塊,EDSR[37]使用了32個(gè).而之前的相關(guān)工作已經(jīng)可以證明,結(jié)構(gòu)很深的網(wǎng)絡(luò)使得能夠根據(jù)更多的像素即更大的區(qū)域來(lái)預(yù)測(cè)目標(biāo)像素信息,超分辨率重建的效果也更好.但在其他方面,本文提出的方法也具有一定的優(yōu)勢(shì),如訓(xùn)練速度和運(yùn)行速度更快、硬件要求低等.而與其他方法相比,本文方法對(duì)于縮放尺度x4和x8,實(shí)驗(yàn)結(jié)果最優(yōu).
Table 3 Quality evaluation of different algorithms表3 不同方法的質(zhì)量評(píng)價(jià)
圖4~圖9展示了從上述幾種數(shù)據(jù)集挑選的例子圖像在不同方法重建后視覺(jué)效果的比較情況.如圖4和圖7所示,本文方法生成的圖像線條不僅沒(méi)有扭曲,而且更加清晰和銳利,而其他結(jié)果中線條邊緣比較模糊,有的甚至還有重影的現(xiàn)象.圖 5所示本文方法產(chǎn)生的結(jié)果比較好地保留了字母的邊緣信息,視覺(jué)上看起來(lái)更加完整和規(guī)范.從圖 6中可以看出,本文的結(jié)果較好地保留了兩個(gè)橋洞之間的石縫,而其他方法顯示的結(jié)果并不能很好地體現(xiàn)這一細(xì)節(jié)信息.如圖8所示,本文的結(jié)果將斑馬身上的紋路更加清晰地恢復(fù)出來(lái),而其他的結(jié)果則較為模糊.在圖 9中,能夠明顯地看出來(lái),本文方法產(chǎn)生的結(jié)果將人行道上白色線條筆直且清晰地恢復(fù)出來(lái),邊緣的部分也更加銳利.而其他結(jié)果則比較模糊,線條邊緣呈鋸齒狀.
總的來(lái)說(shuō),由示例圖可以很明顯地看出,無(wú)論是縮放系數(shù)為 x4還是 x8,相較除EDSR[37]以外的其他方法,本文采用的方法能夠更好地保留細(xì)節(jié)信息,同時(shí)使邊緣部分更加銳利和清晰,擁有更好的重建效果.
Fig.4 Super-resolution results of “img_005.png (Urban 100)” with scale factor x4圖4 縮放因子為x4的圖像img_005.png(Urban100)的超分辨率結(jié)果
Fig.5 Super-resolution results of “ppt3.png (Set14)” with scale factor x4圖5 縮放因子為x4的圖像ppt3.png(Set14)的超分辨率結(jié)果
Fig.6 Super-resolution results of “img_034.png (BSD100)” with scale factor x4圖6 縮放因子為x4的圖像img_034.png(BSD100)的超分辨率結(jié)果
Fig.7 Super-resolution results of “Hamlet.png (Manga 109)” with scale factor x8圖7 縮放因子為x8的圖像Hamlet.png(Manga 109)的超分辨率結(jié)果
Fig.8 Super-resolution results of “zebra.png (Set14)” with scale factor x8圖8 縮放因子為x8的圖像zebra.png(Set14)的超分辨率結(jié)果
Fig.9 Super-resolution results of “img_93.png (Urban 100)” with scale factor x8圖9 縮放因子為x8的圖像img_93.png(Urban 100)的超分辨率結(jié)果
4.3.1 與SRGAN對(duì)比
對(duì)于利用對(duì)抗網(wǎng)絡(luò)生成的SR圖像,單從PSNR和SSIM指標(biāo)上來(lái)看,效果并不好.但從圖10所示的視覺(jué)效果上來(lái)看,重建后的 SR圖像更加逼真和銳利.但是如圖 11所示,對(duì)細(xì)節(jié)部分進(jìn)行放大操作后可以看出,SRGAN生成的圖像多了一些偽像,合成了很多奇怪的紋路.這一結(jié)果不利于后續(xù)高水平計(jì)算機(jī)視覺(jué)任務(wù)的進(jìn)行.
Fig.10 Super-resolution results of “00016.png (CelebA)” with scale factor x2圖10 縮放因子為x2的圖像00016.png(CelebA)的超分辨率結(jié)果
Fig.11 Result of zooming in the details of image generated by SRGAN圖11 對(duì)SRGAN生成圖像細(xì)節(jié)放大的結(jié)果
從結(jié)果可以看出,本文提出的網(wǎng)絡(luò)在縮放系數(shù)x4和x8的情況下,效果會(huì)有大幅度的提升.對(duì)于小的縮放倍數(shù) x2,效果也不錯(cuò).但是并沒(méi)有超越其他最優(yōu)的方法.通過(guò)分析小波變換的特性可以發(fā)現(xiàn),隨著縮放因子的增大,小波變換的水平也在提高,圖像的細(xì)節(jié)信息進(jìn)一步被細(xì)化,可以通過(guò)網(wǎng)絡(luò)更好地去推理圖像缺失的細(xì)節(jié),從而實(shí)現(xiàn)更好的效果.實(shí)驗(yàn)結(jié)果也進(jìn)一步說(shuō)明,利用小波分解的方式更適合于較大的縮放系數(shù).同時(shí),考慮到縮放倍數(shù)與最終輸出的小波系數(shù)個(gè)數(shù)的映射關(guān)系,本文的方法只能處理特定的 2n的縮放倍數(shù),無(wú)法處理一般方法中采用的x3的情況.
本文提出一種基于小波域的深度殘差網(wǎng)絡(luò)的圖像超分辨率算法.在網(wǎng)絡(luò)設(shè)計(jì)方面,不僅結(jié)構(gòu)簡(jiǎn)單,并且與其他神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比,能夠更加有效地捕捉圖像細(xì)節(jié)信息.同時(shí),使用跨連和殘差學(xué)習(xí)的方式來(lái)減少訓(xùn)練模型的難度.在損失函數(shù)方面,本文同時(shí)使用原始圖像空間域和小波域下產(chǎn)生的損失,加強(qiáng)網(wǎng)絡(luò)訓(xùn)練的約束.實(shí)驗(yàn)結(jié)果表明,本文提出的算法在視覺(jué)效果和峰值信噪比(PNSR)方面都取得了更好的效果.