黃 健,趙元元,郭 蘋,王 靜
西安科技大學(xué) 通信與信息工程學(xué)院,西安710600
圖像超分辨率重建即用特定算法將同一場(chǎng)景中的低分辨率(LR)圖像轉(zhuǎn)換成高分辨率(HR)圖像[1],該技術(shù)是圖像處理與計(jì)算機(jī)視覺(jué)的主要技術(shù)之一[2]。高分辨率圖像因其具有很高的像素密度,能夠獲得圖像更多的細(xì)節(jié)特征,而在實(shí)際場(chǎng)景中應(yīng)用廣泛。超分辨率重建技術(shù)可根據(jù)輸入圖像的數(shù)量分為單張LR圖像生成HR圖像技術(shù)和多張LR圖像生成HR圖像技術(shù)。本文著重介紹單幅圖像超分辨率重建技術(shù)(Single Image Super-Resolution,SISR),該類技術(shù)憑借其靈活性與簡(jiǎn)便性及高實(shí)用性,已經(jīng)被普遍應(yīng)用在圖像壓縮、醫(yī)學(xué)成像[3-5]、遙感成像[6]、公共安防[7]等領(lǐng)域,是目前圖像處理領(lǐng)域的研究熱點(diǎn)。
在過(guò)去的研究工作中,傳統(tǒng)的單幅圖像超分辨率算法已經(jīng)取得了很大的成功,但是有一定的局限性,因?yàn)殡S著放大倍數(shù)的增大,人為定義的先驗(yàn)信息與模型能提供的用來(lái)進(jìn)行高分辨率重建的信息逐漸變少,使得算法達(dá)不到重建圖像高頻信息的目的。傳統(tǒng)的SISR方法主要分為三大類[8]:基于插值的超分算法(最近鄰內(nèi)插、雙三次插值[9]等),這類算法雖簡(jiǎn)單但重建圖像有偽影和振鈴;基于建模的超分算法(最大后驗(yàn)估計(jì)法[10]、迭代反向投影算法[11]等),這類算法相較于插值法重建效果較好,但模型運(yùn)算效率低且受放大因子的影響較大;基于學(xué)習(xí)的超分算法(局部嵌入[12]、稀疏編碼[13]等),該類算法的重建質(zhì)量最好,是目前研究的主流方向。這些方法都是通過(guò)學(xué)習(xí)HR圖像與LR圖像樣本對(duì)的映射函數(shù),或者利用圖像的內(nèi)部相似性來(lái)重建HR圖像。近年來(lái),深度學(xué)習(xí)技術(shù)在其他領(lǐng)域得到了長(zhǎng)足發(fā)展,被應(yīng)用在各類人工智能任務(wù)中,且都取得了理想結(jié)果,隨之基于深度學(xué)習(xí)的超分辨率技術(shù)也得到了積極的探索與發(fā)展,目前已經(jīng)提出了各種各樣的基于深度學(xué)習(xí)的超分辨率算法,且在各種公開(kāi)數(shù)據(jù)集上取得了很好的重建效果。目前流行的網(wǎng)絡(luò)模型為卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN),在縮放因子較大時(shí)使用這兩個(gè)網(wǎng)絡(luò)模型都能夠很好地恢復(fù)出圖像的高頻細(xì)節(jié),使輸出的圖像更接近真實(shí)圖像。
基于深度學(xué)習(xí)的超分辨率重建技術(shù)的出現(xiàn),是圖像處理領(lǐng)域的一大創(chuàng)舉,解決了傳統(tǒng)算法中存在的諸多問(wèn)題。近幾年在該領(lǐng)域取得了較大的發(fā)展。根據(jù)網(wǎng)絡(luò)模型結(jié)構(gòu)的不同,可以分為以下兩大類:(1)基于CNN網(wǎng)絡(luò)模型的超分方法;(2)基于生成對(duì)抗網(wǎng)絡(luò)GAN網(wǎng)絡(luò)模型的超分方法。目前,基于CNN網(wǎng)絡(luò)模型的超分方法是單幅圖像超分辨率重建領(lǐng)域應(yīng)用最廣泛的模型。
隨著深度學(xué)習(xí)的發(fā)展,在其他領(lǐng)域表現(xiàn)突出的卷積神經(jīng)網(wǎng)絡(luò)CNN已經(jīng)被成功地應(yīng)用在圖像超分辨率重建領(lǐng)域,并取得了很好的重建結(jié)果。相比于其他的神經(jīng)網(wǎng)絡(luò)方法,CNN提供的端到端學(xué)習(xí)模型通過(guò)梯度下降法訓(xùn)練學(xué)習(xí)圖像特征,更適合圖像特征的學(xué)習(xí)與表達(dá)。本文又將基于CNN網(wǎng)絡(luò)模型的超分方法分為直連模型、殘差模型、密集模型以及注意力機(jī)制模型。
1.1.1 直連模型
第一個(gè)用于單幅圖像超分辨率重建的CNN網(wǎng)絡(luò)模型是由Dong團(tuán)隊(duì)在2014年提出的SRCNN(Super-Resoution Convolutional Neural Network)算法[14],是直連模型結(jié)構(gòu)。SRCNN的網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,如圖1所示,該網(wǎng)絡(luò)包含三個(gè)部分:特征提取、非線性映射和重建。
圖1 SRCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 SRCNN network structure
SRCNN先用雙三次插值將低分辨率圖像放大至目標(biāo)尺寸大?。ㄎㄒ活A(yù)處理),然后用9×9的卷積核進(jìn)行圖像塊提取與表示,用1×1的卷積核進(jìn)行非線性映射,最后用5×5的卷積核完成高分辨率圖像重建。網(wǎng)絡(luò)中通過(guò)使用大的卷積核來(lái)使淺層網(wǎng)絡(luò)(3層卷積網(wǎng)絡(luò))獲得較大的感受野,從而獲得了較好的SR重建效果。SRCNN相比于傳統(tǒng)的超分辨率算法,重建圖像的質(zhì)量有了很大的提升,但SRCNN的訓(xùn)練速度非常慢。Dong等人針對(duì)SRCNN訓(xùn)練慢的問(wèn)題提出了FSRCNN[15]。FSRCNN網(wǎng)絡(luò)包括特征提?。褐苯訉?duì)原始LR圖像操作;收縮:用小卷積核降維以減少參數(shù);非線性映射:感受野大;擴(kuò)張:利用小卷積核擴(kuò)維;反卷積層:實(shí)現(xiàn)上采樣。FSRCNN網(wǎng)絡(luò)在重建層用反卷積放大輸入圖像,可直接向網(wǎng)絡(luò)輸入LR圖像,降低網(wǎng)絡(luò)的計(jì)算量。同時(shí)FSRCNN使用更小的卷積核和更深的網(wǎng)絡(luò)層數(shù),提升訓(xùn)練速度,重建圖像的質(zhì)量更高。同時(shí)Shi等人也研究了如何將低分辨率圖像直接輸入網(wǎng)絡(luò),在2016年提出了亞像素卷積超分重建網(wǎng)絡(luò)ESPCN[16]對(duì)SRCNN的重建部分進(jìn)行了改進(jìn),通過(guò)亞像素卷積層來(lái)放大圖像,降低網(wǎng)絡(luò)的計(jì)算量,訓(xùn)練速度有了成倍的提升。以上算法網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,實(shí)現(xiàn)非常容易,但該網(wǎng)絡(luò)存在的致命缺點(diǎn)是網(wǎng)絡(luò)中使用大的卷積核以及輸入插值放大圖像,導(dǎo)致淺層網(wǎng)絡(luò)需要大量參數(shù)來(lái)計(jì)算,使網(wǎng)絡(luò)加深加寬時(shí)參數(shù)逐漸變多,網(wǎng)絡(luò)訓(xùn)練難度大,難以收斂,SR重建效果不佳。
1.1.2 殘差模型
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)會(huì)隨著深度加深而導(dǎo)致網(wǎng)絡(luò)性能退化,殘差網(wǎng)絡(luò)的提出解決了這個(gè)問(wèn)題,目前大部分研究人員都在使用殘差網(wǎng)絡(luò),它成功加深了ResNet[17]網(wǎng)絡(luò)的深度,成為現(xiàn)在模型中應(yīng)用最廣泛的技術(shù)。原始低分辨率圖像與重建的高分辨率圖像在很大程度上相似,即它們的低頻部分信息基本一致,殘差學(xué)習(xí)用稀疏矩陣學(xué)習(xí)來(lái)代替原始稠密矩陣學(xué)習(xí),使計(jì)算量大幅度降低。殘差網(wǎng)絡(luò)分為局部殘差和全局殘差,局部殘差主要用來(lái)解決隨著網(wǎng)絡(luò)的加深導(dǎo)致圖像退化的問(wèn)題,全局殘差通過(guò)學(xué)習(xí)輸入圖像與原始HR圖像的極大相關(guān)性來(lái)重建圖像。Kim等人提出的VDSR算法[18]首次將殘差網(wǎng)絡(luò)引入單圖像超分辨率方法中。該網(wǎng)絡(luò)在輸入輸出之間用殘差進(jìn)行連接使網(wǎng)絡(luò)的深度高達(dá)20層,僅學(xué)習(xí)LR圖像與HR圖像之間的高頻殘差部分,同時(shí)使用自適應(yīng)梯度裁剪來(lái)解決網(wǎng)絡(luò)加深時(shí)訓(xùn)練困難性能下降的問(wèn)題,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)所示。VDSR的實(shí)現(xiàn)證明網(wǎng)絡(luò)結(jié)構(gòu)越深重建效果越好。RED[19]是由卷積與反卷積構(gòu)成的編碼器和解碼器,卷積層用來(lái)進(jìn)行圖像的特征提取,反卷積層用來(lái)恢復(fù)圖像的內(nèi)容和細(xì)節(jié)。網(wǎng)絡(luò)中的卷積層與反卷積層的殘差跳接結(jié)構(gòu),使網(wǎng)絡(luò)的深度加深到30層并能恢復(fù)出更清晰的圖像。
更深的網(wǎng)絡(luò)存在過(guò)度擬合和模型過(guò)于復(fù)雜的問(wèn)題,為了緩解這一問(wèn)題,提出了遞歸學(xué)習(xí)。Kim團(tuán)隊(duì)在VDSR算法的基礎(chǔ)上通過(guò)使用全局殘差網(wǎng)絡(luò)、多目標(biāo)優(yōu)化函數(shù)以及遞歸學(xué)習(xí)策略等方法提出了DRCN算法[20],網(wǎng)絡(luò)結(jié)構(gòu)如圖2(c)所示。首次將遞歸神經(jīng)網(wǎng)絡(luò)引入到圖像超分辨率算法中并取得了很好的效果。Tai等人又在DRCN的基礎(chǔ)上提出了DRRN算法[21],其結(jié)構(gòu)如圖2(d)所示,該算法采用多路徑方式的全局殘差和局部殘差進(jìn)行學(xué)習(xí),同時(shí)在殘差單元中引入了遞歸循環(huán),加深網(wǎng)絡(luò)的同時(shí)沒(méi)有帶來(lái)更多的計(jì)算量,加快了收斂速度,取得了更好的效果。這種方法證明通過(guò)遞歸網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)的結(jié)合能夠使圖像層間的信息相互通信及上下文信息相互關(guān)聯(lián),對(duì)網(wǎng)絡(luò)層間連接的建設(shè)提供指導(dǎo)思想。EDSR(Enhanced Deep Residual Networks for SR)算法[22]提出使用全局殘差和局部殘差來(lái)學(xué)習(xí)圖像的更多高頻細(xì)節(jié),同時(shí)也可以降低網(wǎng)絡(luò)的訓(xùn)練難度。具體做法是移除殘差塊中的BN層(批歸一化層),增加了卷積層的特征個(gè)數(shù)(由64改為256),提升了網(wǎng)絡(luò)的重建效果,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2(b)所示。
圖2 VDSR、EDSR、DRCN、DRRN網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比Fig.2 VDSR,EDSR,DRCN,DRRN network structure comparison
分層特征融合可以充分利用網(wǎng)絡(luò)中不同層提取的圖像特征信息,有助于重建更準(zhǔn)確的高分辨率圖像。首次使用分層融合方法實(shí)現(xiàn)圖像重建的算法是基于拉普拉斯金字塔網(wǎng)絡(luò)的單幅圖像超分辨率LapSRN[23],它將低分辨率圖像分為高頻細(xì)節(jié)和低頻內(nèi)容兩部分,分別對(duì)這兩部分采取不同的方法處理后將圖像融合以得到高分辨率重建圖像。LapSRN提升了網(wǎng)絡(luò)訓(xùn)練速度和圖像質(zhì)量。
1.1.3 密集模型
網(wǎng)絡(luò)深度的增加使得梯度消失越來(lái)越明顯,受殘差連接的啟發(fā),密集連接的提出能夠緩解這類問(wèn)題。密集連接中的特有的跳躍連接方式可以使每一層的輸入都充分吸收該層前面所有層的輸出,充分利用不同卷積層提取到的細(xì)節(jié)特征信息,使輸出層得到更多的參考信息來(lái)重建SR圖像,基本結(jié)構(gòu)如圖3所示?;诿芗瘔K網(wǎng)絡(luò)的SISR網(wǎng)絡(luò)SRDenseNet首次將密集連接網(wǎng)絡(luò)應(yīng)用于圖像重建,重建的SR圖像質(zhì)量有了很大的提升。該網(wǎng)絡(luò)通過(guò)堆疊密集連接的卷積層組成的稠密塊,來(lái)融合LR圖像的不同特征信息,增大了網(wǎng)絡(luò)層中信息交流的能力,并且有效抑制了梯度爆炸和梯度消失的問(wèn)題[24]。He等人在SRDenseNet的基礎(chǔ)上提出了殘差密集網(wǎng)絡(luò)RDN[17],該方法在密集塊結(jié)構(gòu)的首尾增加殘差連接和卷積來(lái)進(jìn)行特征降維,構(gòu)建RDN的基本單元?dú)埐蠲芗瘔KRDB,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。RDB的作用是整合殘差塊和密集塊,RDN充分利用每一個(gè)RDB學(xué)習(xí)到的圖像分層特征,使模型具有更強(qiáng)的特征表達(dá)能力,重建圖像的質(zhì)量更好。
圖3 密集連接網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of dense connection network
圖4 RDN網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of RDN network
后來(lái)Haris等人在密集連接的基礎(chǔ)上又提出了深度反投影網(wǎng)絡(luò)D-DBPN[25],該網(wǎng)絡(luò)構(gòu)建了多個(gè)上下投影單元來(lái)進(jìn)行淺層特征到深層特征的映射,同時(shí)使用密集連接的方法使淺層網(wǎng)絡(luò)和投影網(wǎng)絡(luò)的輸出堆疊到迭代單元的輸入,使最終恢復(fù)圖像的效果優(yōu)于SRDenseNet。這類方法將稠密塊應(yīng)用到了網(wǎng)絡(luò)中,加強(qiáng)了圖像特征交流和圖像特征復(fù)用,極大豐富了重建模塊輸入圖像的信息以得到更加準(zhǔn)確的特征細(xì)節(jié)來(lái)重建更好的圖像。
1.1.4 注意力機(jī)制模型
上述的網(wǎng)絡(luò)模型在各個(gè)通道都是對(duì)圖像的特征映射同等處理,但是在人類的視覺(jué)環(huán)境中圖像在不同的區(qū)域和通道中有著不同的重要性,如果等價(jià)處理這些映射將會(huì)造成計(jì)算量資源大,限制了網(wǎng)絡(luò)的深度。
注意力機(jī)制被引入到圖像超分辨率重建中,并且取得了很好的效果。如RCAN[26](Super-Resolution Using Very Deep Residual Channel Attention Networks),該算法通過(guò)學(xué)習(xí)不同通道的重要性得到權(quán)重值,來(lái)自適應(yīng)地調(diào)整每個(gè)通道特征,強(qiáng)化有用通道的同時(shí)抑制無(wú)用通道,充分利用計(jì)算資源。通道注意力機(jī)制結(jié)構(gòu)如圖5所示,其中HGP用于運(yùn)算提取通道描述符,WD與WU為全連接層的參數(shù),f是非線性變換,相當(dāng)于對(duì)不同的通道特征重新加權(quán)分配。RACN還通過(guò)使用全局殘差和局部殘差結(jié)構(gòu)使網(wǎng)絡(luò)的深度高達(dá)400層,恢復(fù)圖像效果得到顯著提升,總體來(lái)說(shuō),RCAN在PSNR和SSIM值上都取得了最佳重建結(jié)果。
圖5 RCAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of RCAN network
現(xiàn)有的基于CNN網(wǎng)絡(luò)模型的超分算法不論是恢復(fù)圖像的準(zhǔn)確性還是訓(xùn)練速度都取得了重大突破,但還存在一些缺陷,如圖像缺乏高頻細(xì)節(jié),圖像邊緣模糊,尤其在較大的放大因子下,這種缺陷更加明顯。對(duì)抗網(wǎng)絡(luò)的引入將超分重建圖像的質(zhì)量推向了一個(gè)新的高度,使網(wǎng)絡(luò)能夠生成更加精細(xì)的紋理細(xì)節(jié),進(jìn)一步增強(qiáng)重建圖像的視覺(jué)效果。
Leding等人首次將GAN[27]應(yīng)用到圖像超分辨率重建領(lǐng)域中,在2017年提出了SRGAN(Photo-Realistic Single Image Super Resolution Using a Generative Adversarial Network)算法[28],SRGAN的生成器網(wǎng)絡(luò)結(jié)構(gòu)主要由多個(gè)結(jié)構(gòu)相同的殘差塊組成,包括兩個(gè)3×3卷積層和64個(gè)特征映射,然后是BN層[29]及PReLU激活函數(shù)[30],最后通過(guò)兩個(gè)亞像素卷積層用來(lái)實(shí)現(xiàn)圖像上采樣。SRGAN的鑒別器網(wǎng)絡(luò)同樣包括多個(gè)卷積層,特征通道由64逐漸變?yōu)?12,激活函數(shù)為L(zhǎng)ReLU,最后使用兩個(gè)全連接層和S型激活函數(shù)得到樣本的分類概率。SRGAN的訓(xùn)練原理是生成器生成的圖像盡可能騙過(guò)鑒別器,而鑒別器則盡可能區(qū)分生成器生成的圖像與真實(shí)高分辨率圖像,通過(guò)雙方的相互博弈,克服了1.1節(jié)所提網(wǎng)絡(luò)模型恢復(fù)圖像質(zhì)量差的缺點(diǎn),使恢復(fù)的圖像更加自然。
隨后,ESRGAN[31]通過(guò)移除SRGAN生成網(wǎng)絡(luò)中的BN層來(lái)降低重建圖像中產(chǎn)生的偽影,并且結(jié)合多級(jí)殘差網(wǎng)絡(luò)和密集連接提出密集殘差塊RRDB,如圖6所示,該結(jié)構(gòu)具有更深更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),因此具有更高的容量,更容易訓(xùn)練。在判別網(wǎng)絡(luò)中使用相對(duì)平均判別器,生成更穩(wěn)定、質(zhì)量更高的數(shù)據(jù)樣本,提升模型的訓(xùn)練穩(wěn)定性和圖像的重建質(zhì)量。
圖6 RRDB網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Structure of RRDB network
基于生成對(duì)抗網(wǎng)絡(luò)GAN網(wǎng)絡(luò)模型的超分方法相較于基于CNN網(wǎng)絡(luò)模型的超分方法能夠獲得更接近人眼真實(shí)感知的重建圖像,所以它更適合一些對(duì)感官要求比較高的圖像重建任務(wù)。但是對(duì)于需要高精度像素信息的任務(wù),明顯不適用?;谏蓪?duì)抗網(wǎng)絡(luò)GAN網(wǎng)絡(luò)模型的超分方法學(xué)習(xí)速度慢,網(wǎng)絡(luò)計(jì)算較復(fù)雜,對(duì)硬件要求高,所以訓(xùn)練難度很大。
1.1至1.2節(jié)分別詳細(xì)介紹了基于CNN網(wǎng)絡(luò)模型和基于GAN網(wǎng)絡(luò)模型的超分方法。整體而言,這兩類算法的重建質(zhì)量在不斷提高,模型的訓(xùn)練速度也有一定的提升。表1總結(jié)了不同網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)及適用場(chǎng)景,表2總結(jié)了不同算法的網(wǎng)絡(luò)結(jié)構(gòu)及優(yōu)缺點(diǎn)對(duì)比。由表1可以看出,隨著深度學(xué)習(xí)的發(fā)展,超分辨率重建算法的網(wǎng)絡(luò)越來(lái)越復(fù)雜,重建效果也越來(lái)越優(yōu),已經(jīng)達(dá)到了很高的水平,但是隨著網(wǎng)絡(luò)復(fù)雜度的提高也帶來(lái)了計(jì)算量的增大,因此模型訓(xùn)練難度也加大,難以滿足實(shí)時(shí)重建。由表2可以看出,研究人員在不斷嘗試引入新的網(wǎng)絡(luò)到超分辨率重建領(lǐng)域,加深網(wǎng)絡(luò)的深度,使重建圖像的質(zhì)量和網(wǎng)絡(luò)的訓(xùn)練速度越來(lái)越好?;谏疃葘W(xué)習(xí)的圖像超分辨率重建方法在發(fā)展的過(guò)程中,不斷解決之前算法的缺陷,向著滿足更高更多樣化需求的方向發(fā)展,基于生成對(duì)抗網(wǎng)絡(luò)GAN模型的超分方法的提出更是提升了重建圖像的真實(shí)感。但是同時(shí)也面臨著新的挑戰(zhàn),模型訓(xùn)練慢的問(wèn)題始終沒(méi)有得到根本性解決。未來(lái)該領(lǐng)域的發(fā)展,應(yīng)在提高重建質(zhì)量的同時(shí)提升訓(xùn)練速度,并能降低模型的規(guī)模以滿足實(shí)際應(yīng)用中對(duì)于模型規(guī)模限制的要求,使該類模型能在一些硬件平臺(tái)上得到大規(guī)模的部署和應(yīng)用。
表1 不同網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)及適用場(chǎng)景Table 1 Advantages and disadvantages of different network models and applicable scenarios
表2 不同算法的網(wǎng)絡(luò)結(jié)構(gòu)及優(yōu)缺點(diǎn)Table 2 Network structure and advantages and disadvantages of different algorithms
圖像超分辨率尺度放大其實(shí)質(zhì)是圖像上采樣,放大原圖像并提高圖像的分辨率。根據(jù)上采樣的方式和時(shí)機(jī),模型所重建的圖像效果大不相同。
目前,該領(lǐng)域常見(jiàn)的圖像上采樣方式主要有:基于插值的圖像SR上采樣、亞像素卷積圖像SR上采樣和反卷積圖像SR上采樣。
基于插值的圖像SR上采樣是利用合適的內(nèi)插算法在圖像原始像素點(diǎn)的中間插入新生成的像素點(diǎn)。使用插值法來(lái)放大圖像的算法主要有最鄰近插值法和雙三次插值法等。基于插值的圖像SR上采樣方法計(jì)算量小,原理簡(jiǎn)單,能夠高效率地放大低分辨率圖像的尺度,但是這種方法由于沒(méi)有考慮到離待測(cè)樣點(diǎn)遠(yuǎn)的其他像素點(diǎn)的影響,因而圖像像素?fù)p失較大,重建圖像有鋸齒和模糊現(xiàn)象。早期使用插值法來(lái)放大圖像的算法包括SRCNN、VDSR等。
亞像素卷積[16]圖像SR上采樣是一種高效、快速、無(wú)參的像素重新排列的上采樣方式,如圖7(a)所示,它的原理是輸入r2個(gè)通道的特征圖,通過(guò)特定的算法規(guī)則將所有的像素重新排列,最后生成一幅尺度放大的圖像。這種方式非常靈活,對(duì)于不同的重建倍數(shù),只需要改變低分辨率空間中的卷積通道數(shù),且上采樣速度很快,可以實(shí)時(shí)地實(shí)現(xiàn)上采樣。
反卷積(Decnvolution)[32]即卷積操作的逆運(yùn)算,是將卷積變換過(guò)程中某一步驟反向轉(zhuǎn)換,對(duì)圖像進(jìn)行補(bǔ)零擴(kuò)充操作再卷積,將小部分缺失像素信息最大化恢復(fù),從而放大圖像的尺寸,其原理如圖7(b)所示。該方法屬于基于學(xué)習(xí)的上采樣方法,能夠減少圖像鋸齒狀失真等現(xiàn)象。目前SISR重建領(lǐng)域最常用的方法就是反卷積圖像SR上采樣,如FSRCNN、EDSR等。
圖7 亞像素卷積和反卷積實(shí)現(xiàn)原理Fig.7 Principle of deconvolution and sub-pixel convolution
目前SISR重建領(lǐng)域上采樣時(shí)機(jī)包括預(yù)先上采樣、后上采樣、漸進(jìn)上采樣及迭代變動(dòng)上采樣。
預(yù)先上采樣考慮到直接學(xué)習(xí)LR圖像到HR圖像比較困難,因此先使用傳統(tǒng)的插值法將圖像上采樣到HR圖像,再通過(guò)神經(jīng)網(wǎng)絡(luò)精調(diào)。最早使用預(yù)先上采樣方法的是SRCNN算法,后來(lái)VDSR、DRCN及DRRN都使用該方法對(duì)圖像進(jìn)行上采樣。由于該方法將最困難的上采樣操作交給了傳統(tǒng)的方法,神經(jīng)網(wǎng)絡(luò)值需要對(duì)上采樣后的粗糙圖像進(jìn)行調(diào)整,因此減少了訓(xùn)練難度。但是在預(yù)處理階段進(jìn)行上采樣操作,增大了網(wǎng)絡(luò)的計(jì)算量,且網(wǎng)絡(luò)深度越深計(jì)算量越大,模型的效率和重建圖像的質(zhì)量都有待提高。
后上采樣解決了預(yù)先上采樣計(jì)算量大的問(wèn)題,將上采樣操作放在SISR模型的最后一個(gè)模塊,通過(guò)亞像素卷積或者反卷積重建來(lái)放大圖像的特征尺度。使用該方法的網(wǎng)絡(luò)模型有FSRCNN、ESPCN等。后上采樣方法雖然提高了計(jì)算效率但恢復(fù)出的圖像存在失真和重建質(zhì)量差的問(wèn)題。
為了解決后上采樣中的問(wèn)題,研究學(xué)者們提出了漸進(jìn)上采樣,在級(jí)聯(lián)的深度卷積神經(jīng)網(wǎng)絡(luò)模型下,每個(gè)階段都進(jìn)行一次上采樣,從而得到更高分辨率的圖像,最后再使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行精調(diào),實(shí)現(xiàn)較好的上采樣效果,使恢復(fù)的圖像質(zhì)量更優(yōu)。漸進(jìn)上采樣使用低倍上采樣(2倍)來(lái)解決大尺度(4倍、8倍)上采樣的問(wèn)題。使用該方法的網(wǎng)絡(luò)有LapSRN和EUSR,表3為ESUR算法[33]使用不同的上采樣方法重建圖像的效果,其中數(shù)字加粗表示最優(yōu),可以看出相比于直接上采樣,漸進(jìn)上采樣恢復(fù)圖像的效果更好。
表3 ESUR算法中采用不同上采樣方法重建效果對(duì)比Table 3 Comparison of reconstruction effects using different upsampling methods in ESUR network
迭代變動(dòng)上采樣方法是迭代地進(jìn)行上采樣之后再進(jìn)行反向傳播并且精調(diào),它是通過(guò)計(jì)算重建誤差來(lái)調(diào)整高分辨率圖像的。這種方法能夠?qū)W習(xí)到更多不同深度的圖像上采樣特性,通過(guò)圖像在不同層的特征來(lái)重建上采樣圖像,使得恢復(fù)的圖像擁有更多細(xì)節(jié)特征。迭代變動(dòng)上采樣方法被應(yīng)用在DBPN和SRFBN算法[34]中,都展現(xiàn)出良好的重建效果。DBPN網(wǎng)絡(luò)通過(guò)交替循環(huán)連接上采樣層和下采樣層,最后用所有中間重建圖像來(lái)重建最終的HR圖像,使得重建出的圖像效果更佳。SRFBN通過(guò)迭代具有密集跳躍連接的上下采樣反饋塊來(lái)學(xué)習(xí),使重建出的HR圖像更好。近年來(lái),迭代變動(dòng)上采樣方法也是研究學(xué)者們使用的主流方法之一。
目前在單幅圖像超分辨率重建領(lǐng)域常用的損失函數(shù)主要有像素?fù)p失函數(shù)和感知損失函數(shù)。
許多超分辨率重建網(wǎng)絡(luò)訓(xùn)練模型都是以均方誤差(MSE)[35]作為損失函數(shù)訓(xùn)練網(wǎng)絡(luò)的,如SRCNN、DRCN、FSRCNN等。MSE計(jì)算的是實(shí)際值與目標(biāo)值之間絕對(duì)值的平方和,其表達(dá)式如下:
其中,n為訓(xùn)練樣本的數(shù)量,θ為訓(xùn)練參數(shù),F(xiàn)(Xi,θ)網(wǎng)絡(luò)重建后的圖像,Yi為對(duì)應(yīng)的高分辨率圖像。MSE衡量了網(wǎng)絡(luò)重建出的高分辨率圖像與原始高分辨率圖像之間的差值,使得基于深度學(xué)習(xí)的圖像超分模型在性能方面有了很大的提高。但是MSE損失能夠?qū)Υ蟮膿p失進(jìn)行懲罰,在小的損失上卻無(wú)能為力,因此恢復(fù)出的圖像會(huì)模糊。與MSE類似的另一種損失函數(shù)為絕對(duì)值誤差MAE。它計(jì)算實(shí)際值與目標(biāo)值之間絕對(duì)差值的總和,LapSRN、ESRGAN等都使用MAE損失函數(shù)取得了較好的效果。其表達(dá)式如下:
為了提高模型的泛化能力,Lai等人提出了L1損失的變體,其表達(dá)式如下:
基于像素的損失函數(shù)沒(méi)有考慮到圖像的感知、紋理質(zhì)量,在視覺(jué)上難以令人滿意。在GAN被應(yīng)用于圖像超分辨率領(lǐng)域之后,基于感知的損失函數(shù)因其能恢復(fù)更豐富的高頻細(xì)節(jié)而被廣泛應(yīng)用。目前,基于感知的損失函數(shù)主要有內(nèi)容損失和對(duì)抗損失,其中內(nèi)容損失又分為特征重建損失和風(fēng)格重建損失。
Smonyan等人[36]首次通過(guò)預(yù)訓(xùn)練的VGG19網(wǎng)絡(luò)提取重建圖像與原始高分辨率圖像在特征空間中對(duì)應(yīng)的特征映射提出特征重建損失函數(shù),其表達(dá)式如下:
其中,GθG(X)為生成的高分辨率圖像,?j為VGG19網(wǎng)絡(luò)內(nèi)第j個(gè)卷積獲得的特征圖,W和H為特征圖的寬和高,X、Y為原始LR圖像和重建的HR圖像。實(shí)驗(yàn)表明,在網(wǎng)絡(luò)模型中使用特征重建損失函數(shù)能夠獲得比基于像素?fù)p失更好的視覺(jué)效果。Gatys等人[37]在特征重建損失函數(shù)的基于上又提出了風(fēng)格重建損失函數(shù),該函數(shù)首先在loss網(wǎng)絡(luò)的每一層中對(duì)原始LR圖像和重建的HR圖像計(jì)算Gram矩陣,計(jì)算公式如下:
隨后在對(duì)應(yīng)層中計(jì)算Gram矩陣的歐式距離差并相加得到風(fēng)格重建損失函數(shù),如式(6):
風(fēng)格重建損失使重建圖像與原始圖像在條紋、色澤上保持一致,重建出的高分辨率圖像質(zhì)量更優(yōu)。
SRGAN網(wǎng)絡(luò)首次提出對(duì)抗損失,其基本形式如下:
其中,DθD(GθG(X))為模型生成的HR圖像,GθG(X)是原始HR圖像的概率。網(wǎng)絡(luò)最終的優(yōu)化目標(biāo)為最小最大化問(wèn)題:
其中,Ptrain(IHR)為HR圖像分布,PG(ILR)為原始LR圖像分布。對(duì)抗網(wǎng)絡(luò)訓(xùn)練使得生成的圖像與原始高分辨率圖像高度相似,使判別器難以區(qū)分,最終獲得高度接近原始高分辨率的圖像。ESRGAN網(wǎng)絡(luò)中使用了相對(duì)平均判別器[38],讓判別器預(yù)測(cè)真實(shí)HR圖像比生成HR圖像更真實(shí)的概率。
其中,C(real)為鑒別器判別結(jié)果,E[C(fake)]為鑒別器網(wǎng)絡(luò)判別結(jié)果的平均值,σ為Sigmoid激活函數(shù),ESRGAN實(shí)驗(yàn)結(jié)果表明使用相對(duì)平均判別器恢復(fù)出的圖像具有更銳利的邊緣和更多的紋理細(xì)節(jié)。
3.1至3.2節(jié)分別詳細(xì)介紹了圖像超分辨率重建領(lǐng)域常用的兩種損失函數(shù)。其中像素?fù)p失始終反映的是圖像像素之間的誤差,而沒(méi)有考慮到像素與像素之間的內(nèi)在聯(lián)系,因此恢復(fù)的圖像邊緣模糊有振鈴現(xiàn)象,如FSRCNN、DRCN等算法恢復(fù)出的圖像邊緣模糊。內(nèi)容損失通過(guò)使用特征足夠相似來(lái)促進(jìn)生成圖像的質(zhì)量,而對(duì)抗損失可以使鑒別網(wǎng)絡(luò)可以提取真實(shí)圖像中的一些難以獲取的潛在特征將解決方案推向自然圖像流形,在感知質(zhì)量上有顯著的提高使重建圖像相對(duì)真實(shí),但圖像的PSNR[39-40]值下降了。隨著損失函數(shù)的發(fā)展,圖像超分辨率重建的質(zhì)量也越來(lái)越高,滿足更高更多樣化的需求。但是現(xiàn)有的損失函數(shù)仍然不能充分結(jié)合圖像中的語(yǔ)義、內(nèi)容等信息來(lái)重建圖像,未來(lái)該領(lǐng)域損失函數(shù)的發(fā)展,應(yīng)在提高PSNR值的同時(shí)恢復(fù)圖像中的更多紋理細(xì)節(jié),滿足人眼觀感。
本章對(duì)現(xiàn)有的單幅圖像超分辨率重建算法進(jìn)行性能對(duì)比。通過(guò)PSNR和SSIM評(píng)價(jià)指標(biāo)來(lái)度量超分算法的性能[41]。所對(duì)比的算法包括雙三次插值Bicubic和10個(gè)文中提到的基于深度學(xué)習(xí)的單幅圖像超分辨率重建算法。在公開(kāi)數(shù)據(jù)集DIV2K[42]上訓(xùn)練,網(wǎng)絡(luò)在Set5[43]、Set14[44]和BSD100[45]數(shù)據(jù)集下完成測(cè)試,基于像素?fù)p失函數(shù)的SR方法實(shí)驗(yàn)結(jié)果如表4。
表4 不同數(shù)據(jù)集下基于像素?fù)p失函數(shù)的SR算法的PSNR和SSIM值對(duì)比Table 4 Comparison of PSNR and SSIM values of SR algorithm based on pixel loss function under different data sets
對(duì)比實(shí)驗(yàn)數(shù)據(jù)可以明顯看出基于深度學(xué)習(xí)的算法相比傳統(tǒng)算法的PSNR值和SSIM值都有了很大的提升。作為圖像超分辨率重建領(lǐng)域的開(kāi)山鼻祖,SRCNN在插值方法的基礎(chǔ)上利用卷積網(wǎng)絡(luò)強(qiáng)大的特征學(xué)習(xí)能力,構(gòu)建了端到端的映射,使重建圖像的質(zhì)量遠(yuǎn)超雙三次插值Bicubic算法。隨著SRCNN的突破性進(jìn)展,研究學(xué)者們?cè)谠撍惴ǖ幕A(chǔ)上提出很多超分辨率算法,如FSRCNN在SRCNN的基礎(chǔ)上加快了訓(xùn)練速度且恢復(fù)出更好的圖像,VDSR、DRCN、DRRN、EDSR將殘差連接與稠密連接引入網(wǎng)絡(luò)來(lái)構(gòu)建更深更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),實(shí)驗(yàn)表明能夠獲得更好的恢復(fù)效果。LapSRN算法融合了網(wǎng)絡(luò)中不同層提取的特征信息,簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)提升了訓(xùn)練速度,恢復(fù)圖像的效果接近DRCN。目前最好的算法是RCAN,它在EDN的基礎(chǔ)上將注意力機(jī)制引入網(wǎng)絡(luò)通道中,同時(shí)構(gòu)建殘差結(jié)構(gòu)加深網(wǎng)絡(luò)深度,放大因子為2時(shí),與傳統(tǒng)Bicubic算法相比在Set5、Set14和BSD100數(shù)據(jù)集上的PSNR值分別提高4.67、3.99和2.9,SSIM值分別提高0.031 8、0.053 7和0.06;放大因子為3時(shí),PSNR值分別提高4.46、3.21和2.18,SSIM值分別提高0.062 3、0.075 2和0.073 7;放大因子為4時(shí),PSNR值分別提高4.31、2.98和1.89,SSIM值分別提0.909、0.088 3和0.078。通過(guò)觀察實(shí)驗(yàn)數(shù)據(jù)可以看出,算法的網(wǎng)絡(luò)越深,重建圖像的質(zhì)量越好。隨著放大因子的增大,算法的性能提升越來(lái)越弱,因此對(duì)于大的放大因子圖像超分辨率重建仍然具有很大的挑戰(zhàn)。
基于像素的損失函數(shù)存在的問(wèn)題是重建圖像邊緣平滑,缺乏高頻信息,人眼視覺(jué)感知效果并不是很好。感知損失函數(shù)能在一定程度上提升圖像的人眼視覺(jué)感知質(zhì)量。Set14數(shù)據(jù)集上放大因子為4時(shí)基于感知損失函數(shù)的網(wǎng)絡(luò)與基于像素?fù)p失函數(shù)的網(wǎng)絡(luò)重建圖像的結(jié)果比較為表5。L1、L2表示MSE損失函數(shù)和MAE損失函數(shù),LC、LGAN表示內(nèi)容損失函數(shù)和對(duì)抗損失函數(shù)。其可視化效果圖如圖8。由表5可以看出,基于感知的損失函數(shù)網(wǎng)絡(luò)(SRGAN、ESGAN)相比于基于像素的損失函數(shù)網(wǎng)絡(luò)(EDSR、SRCNN)重建圖像的PSNR值有所下降。但是對(duì)比圖8的可視化效果可以看出,基于感知的損失函數(shù)網(wǎng)絡(luò)恢復(fù)出的圖像紋理更豐富,邊緣更清晰,圖中胡須毛發(fā)相對(duì)比較清楚,更接近原始圖像,人眼的感知效果更好。ESRGAN結(jié)合感知損失和像素?fù)p失,均衡了視覺(jué)感知和像素精確值,使重建圖像在視覺(jué)上更符合真實(shí)圖像。
表5 不同類型損失函數(shù)算法Table 5 Different types of loss function algorithm
圖8 Set14數(shù)據(jù)集上不同網(wǎng)絡(luò)重建圖像效果可視化Fig.8 Visualization of effect of different network reconstruction images on Set14 dataset
本文在對(duì)單幅圖像超分辨率重建網(wǎng)絡(luò)廣泛研究的基礎(chǔ)上,系統(tǒng)總結(jié)了基于深度學(xué)習(xí)的圖像超分辨率重建算法的發(fā)展情況,從網(wǎng)絡(luò)模型結(jié)構(gòu)、尺度放大方法和損失函數(shù)三個(gè)方面來(lái)詳細(xì)介紹了圖像超分辨率算法,分析主流算法的網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)缺點(diǎn),并對(duì)其性能進(jìn)行對(duì)比。
總體來(lái)看,基于CNN的圖像超分辨率重建網(wǎng)絡(luò)結(jié)構(gòu)越來(lái)越復(fù)雜,近幾年許多研究學(xué)者在這些主流算法的基礎(chǔ)上不斷改進(jìn),重建圖像的像素精確值越來(lái)越高[46],但是人眼感知效果并不理想,且重建速度上普遍偏慢,難以滿足實(shí)際應(yīng)用的實(shí)時(shí)性需求,在應(yīng)用推廣上面臨困難。而基于GAN的圖像超分辨率重建網(wǎng)絡(luò)雖然在圖像的像素精確值上不如前者,但是重建出的圖像在人眼視覺(jué)感知上更有優(yōu)勢(shì),隨著近幾年的發(fā)展,其恢復(fù)出的圖像更逼真更自然,且重建圖像的像素精確值也在逐漸提高[47-48],在實(shí)際應(yīng)用上更有潛力。未來(lái)的研究方向?qū)⒏鼘W⒂谙袼刂?、視覺(jué)感知和速度的結(jié)合,借鑒CNN高像素精度和GAN高感知質(zhì)量的優(yōu)勢(shì),同時(shí)提高像素值與感知質(zhì)量,以滿足實(shí)際需求。
深度學(xué)習(xí)的快速發(fā)展,以及硬件設(shè)施的不斷完善,為圖像超分辨率領(lǐng)域提供了非常好的發(fā)展機(jī)遇。雖然現(xiàn)有的深度學(xué)習(xí)圖像超分辨率重建算法的性能已經(jīng)遠(yuǎn)遠(yuǎn)超越了傳統(tǒng)算法,但是還有很多改進(jìn)空間。如何實(shí)現(xiàn)任意放大倍數(shù)的超分重建,如何在放大比例較大時(shí)保證重建出的高分辨率圖像質(zhì)量,如何選擇重建圖像的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),如何更好地利用場(chǎng)景信息和圖像的語(yǔ)義、內(nèi)容信息,如何滿足視頻監(jiān)控、衛(wèi)星遙感成像、醫(yī)學(xué)圖像、刑偵分析和人臉識(shí)別等實(shí)際應(yīng)用領(lǐng)域的精確性和實(shí)用性的需求等,這將是接下來(lái)圖像超分辨率重建領(lǐng)域的重點(diǎn)研究方向。