国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的單幅圖像超分辨率重建算法綜述

2021-12-01 08:25:14李佳星趙勇先王京華
自動(dòng)化學(xué)報(bào) 2021年10期
關(guān)鍵詞:殘差分辨率損失

李佳星 趙勇先 王京華 ,4

單幅圖像超分辨率(Single image super-resolution,SISR)重建是根據(jù)一張低分辨率(Low resolution,LR)圖像恢復(fù)出高分辨率(High resolution,HR)圖像的過(guò)程,研究超分辨率的學(xué)者將圖像重建成×2、×3、×4、×8 這4 種尺度的較多,其中×2 代表將圖像的邊長(zhǎng)放大2 倍,即像素密度增加4 倍,×3、×4 和×8 與其同理.如何保證重建后圖像的質(zhì)量更接近Ground truth 圖像成為了研究熱點(diǎn),其目標(biāo)如下:

其中,x為L(zhǎng)R 圖像,y為對(duì)應(yīng)的Ground truth 圖像,Fsr(x)為運(yùn)用某種算法重建后的HR 圖像,λ為平衡參數(shù),Φ(y) 為正則化項(xiàng).

超分辨率重建在衛(wèi)星、遙感、天文學(xué)、安防、生物醫(yī)學(xué)等諸多領(lǐng)域以及恢復(fù)珍貴的歷史圖像資料上起到了非常重要的作用.目前在計(jì)算機(jī)視覺(jué)上單幅圖像超分辨率已經(jīng)成為一個(gè)專(zhuān)門(mén)的學(xué)術(shù)問(wèn)題,吸引了國(guó)內(nèi)外眾多學(xué)者的關(guān)注與研究.

在深度學(xué)習(xí)未興起前,經(jīng)典的單幅圖像超分辨率算法占據(jù)主導(dǎo)地位,Lanczos 重采樣[1]和雙三次插值[2]得到了廣泛的應(yīng)用,但采用插值方法有時(shí)會(huì)導(dǎo)致圖像邊緣和細(xì)節(jié)模糊,因此其他傳統(tǒng)算法也被相繼提出[3?5],有效地增強(qiáng)了圖像的質(zhì)量.經(jīng)典的超分辨率重建算法需要很多先驗(yàn)知識(shí),且要求研究者具有深厚的專(zhuān)業(yè)知識(shí)儲(chǔ)備.隨著深度學(xué)習(xí)的興起,由于該技術(shù)不需要過(guò)多的先驗(yàn)知識(shí),且重建后的圖像質(zhì)量?jī)?yōu)于傳統(tǒng)算法,因此得到了廣泛的關(guān)注.Dong等[6]首先將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到圖像超分辨率重建技術(shù)中,提出了超分辨率重建卷積神經(jīng)網(wǎng)絡(luò)(Superresolution convolutional neural network,SRCNN),圖1 為SRCNN 的模型框架圖,雖然只有三層神經(jīng)網(wǎng)絡(luò),但相比于經(jīng)典超分辨率算法,取得了顯著的效果.SRCNN 的出現(xiàn),吸引了國(guó)內(nèi)外學(xué)者將神經(jīng)網(wǎng)絡(luò)的各種變體應(yīng)用到圖像超分辨率研究中,包括卷積神經(jīng)網(wǎng)絡(luò)[7]、對(duì)抗神經(jīng)網(wǎng)絡(luò)[8]以及二者的結(jié)合[9]等.

圖1 SRCNN 網(wǎng)絡(luò)結(jié)構(gòu)[6]Fig.1 The SRCNN network structure[6]

本文從超分辨率圖像數(shù)據(jù)集、基于深度學(xué)習(xí)的單幅圖像超分辨率重建的研究進(jìn)展、圖像質(zhì)量評(píng)估準(zhǔn)則、實(shí)驗(yàn)結(jié)果與分析以及存在的問(wèn)題與挑戰(zhàn)出發(fā),對(duì)單幅圖像超分辨率重建進(jìn)行了全面綜述,系統(tǒng)的回顧了單幅圖像超分辨率重建技術(shù)的發(fā)展.

1 超分辨率圖像數(shù)據(jù)集

為了方便比較算法的優(yōu)異性,許多學(xué)者在提出超分辨率重建算法的同時(shí)會(huì)公布數(shù)據(jù)集,以供其他學(xué)者們使用.目前國(guó)際上已經(jīng)形成了專(zhuān)用于超分辨率圖像公共基準(zhǔn)數(shù)據(jù)集,如使用較為廣泛的Set5[10]、Set14[11]、Urban100[12]、General-100[13]、BSDS300[14]、BSDS500[15]、Manga109[16]、T91[17]等,這些圖像來(lái)源不同,有人物、動(dòng)物、風(fēng)景、建筑、生活上常見(jiàn)的景象以及虛擬合成的動(dòng)漫圖像等,且每個(gè)數(shù)據(jù)庫(kù)圖像的分辨率、質(zhì)量各不相同,各個(gè)數(shù)據(jù)集的圖片數(shù)量與格式也并不同,有JPG、PNG 與BMP 等圖像格式,表1 和表2 列出了幾種常用超分辨率圖像數(shù)據(jù)集的詳細(xì)信息.除了以上那些圖像數(shù)據(jù)集,DIV2K[18]、L20[19]、OutdoorScene[20]、PIRM[21]、ImageNet[22]、MSCOCO[23]、VOC2012[24]、CelebA[25]、LSUN[26]、WED[27]、Flickr2K[28]、City100[29]和SR-RAW[30]等數(shù)據(jù)集也被應(yīng)用在圖像超分辨率重建中,大大擴(kuò)充了數(shù)據(jù)集的數(shù)量與種類(lèi),有利于檢驗(yàn)各個(gè)模型的泛化能力.使用同樣的基準(zhǔn)數(shù)據(jù)集進(jìn)行測(cè)試,得到的測(cè)試結(jié)果會(huì)更具有公平性與說(shuō)服力,圖2 所示為超分辨率數(shù)據(jù)集的示例圖像.

圖2 超分辨率數(shù)據(jù)集示例Fig.2 Examples of super-resolution datasets

表1 常用超分辨率訓(xùn)練數(shù)據(jù)集Table 1 Widely used Super-resolution training datasets

表2 常用超分辨率測(cè)試數(shù)據(jù)集Table 2 Widely used Super-resolution testing datasets

2 基于深度學(xué)習(xí)的單幅圖像超分辨率重建的研究進(jìn)展

分辨率越高,圖像所包含的信息越多,將單幅低分辨率圖像恢復(fù)成高分辨率圖像是一個(gè)不適定問(wèn)題,得到了廣泛的關(guān)注.傳統(tǒng)的典型方法如基于空間域、頻域、非均勻插值、迭代反投影、凸集投影法以及基于統(tǒng)計(jì)學(xué)習(xí)與基于字典學(xué)習(xí)的方法等,都為這個(gè)領(lǐng)域做出了突破,但大多數(shù)算法都需要一些先驗(yàn)知識(shí).2016 年,SRCNN[6]的提出,很好地將神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)遷移到超分辨率重建領(lǐng)域.通過(guò)訓(xùn)練LRHR 圖像對(duì),得到一套神經(jīng)網(wǎng)絡(luò)模型,測(cè)試的結(jié)果優(yōu)于經(jīng)典算法,且無(wú)需過(guò)多的先驗(yàn)知識(shí).本部分從基于有監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)以及針對(duì)特定領(lǐng)域的圖像超分辨率重建這4 個(gè)模塊出發(fā),系統(tǒng)的闡述深度學(xué)習(xí)在超分辨率領(lǐng)域的發(fā)展進(jìn)程與重大突破.

2.1 基于有監(jiān)督學(xué)習(xí)的超分辨率重建

有監(jiān)督學(xué)習(xí)是指利用一組帶有標(biāo)簽的數(shù)據(jù),學(xué)習(xí)從輸入到輸出的映射,然后將這種映射關(guān)系應(yīng)用到未知數(shù)據(jù)上,達(dá)到分類(lèi)或回歸的目的.由于有監(jiān)督學(xué)習(xí)方法相對(duì)簡(jiǎn)單且優(yōu)于多數(shù)傳統(tǒng)算法,因此受到廣大學(xué)者們的青睞.對(duì)于超分辨率領(lǐng)域,大多數(shù)模型也都是基于有監(jiān)督學(xué)習(xí)的方法.本節(jié)從有監(jiān)督學(xué)習(xí)角度出發(fā),根據(jù)所使用的神經(jīng)網(wǎng)絡(luò)類(lèi)型可以分為基于卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和對(duì)抗神經(jīng)網(wǎng)絡(luò);根據(jù)所使用的機(jī)制可分為基于反饋機(jī)制和通道注意力機(jī)制;此外,還有基于損失函數(shù)類(lèi)型、上采樣層類(lèi)型的不同,針對(duì)多尺度超分辨率重建的方法共分為9 個(gè)方面,詳細(xì)闡述有監(jiān)督學(xué)習(xí)在超分辨率重建中的應(yīng)用發(fā)展.

2.1.1 基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率重建

由于卷積神經(jīng)網(wǎng)絡(luò)在圖像分類(lèi)、識(shí)別等領(lǐng)域有著出色的表現(xiàn),因此Dong 等[6]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)應(yīng)用到超分辨率重建中,對(duì)采集到的HR 圖像以一定的采樣因子下采樣,得到的圖像稱(chēng)為L(zhǎng)R 圖像.再利用雙三次插值的方法重建成與原來(lái)HR 圖像同等尺寸大小,將其作為輸入,經(jīng)過(guò)構(gòu)建的卷積層Conv1+激活函數(shù)Relu1—卷積層Conv2+激活函數(shù)Relu2—卷積層Conv3 框架的學(xué)習(xí),與相對(duì)應(yīng)的HR 圖像求損失函數(shù),使損失函數(shù)不斷減小,期間通過(guò)反向傳播調(diào)整各卷積層的權(quán)值,直至損失函數(shù)收斂,使重建后的SR 圖像質(zhì)量逼近于HR 圖像質(zhì)量,從而達(dá)到重建的目的.SRCNN 的提出,具有里程碑式的意義,但它也有一些不足,如太過(guò)依賴(lài)小圖像區(qū)域的上下文信息、訓(xùn)練時(shí)收斂較慢、網(wǎng)絡(luò)僅適用于單一采樣尺度,若換成另一尺度采樣,則需要重新訓(xùn)練模型.針對(duì)這幾種缺點(diǎn),同年Dong 等[13]又提出了快速超分辨率重建卷積神經(jīng)網(wǎng)絡(luò)(Fast super-resolution convolutional neural network,FSRCNN),如圖3 所示,FSRCNN 在SRCNN 基礎(chǔ)上做了一些改進(jìn),SRCNN 的網(wǎng)絡(luò)輸入是將LR 圖像進(jìn)行雙三次插值放大為Ground truth 圖像尺寸,這樣會(huì)增加需提取的圖像特征信息、網(wǎng)絡(luò)參數(shù)和算法時(shí)間復(fù)雜度,而FSRCNN 網(wǎng)絡(luò)的輸入不需要將LR 圖像放大,僅將LR 圖像作為輸入,網(wǎng)絡(luò)的最后一層采用反卷積上采樣層,此時(shí)再將圖像放大為Ground truth 圖像尺寸,大大減少時(shí)間的消耗;如圖4 所示,如果訓(xùn)練不同上采樣倍率的模型,只需將最后一層的上采樣層微調(diào);另一處改進(jìn)是網(wǎng)絡(luò)模型增加了網(wǎng)絡(luò)層數(shù)并使用了較小的卷積核,使網(wǎng)絡(luò)更深,學(xué)習(xí)到的特征更多.

圖3 FSRCNN 網(wǎng)絡(luò)結(jié)構(gòu)與SRCNN 網(wǎng)絡(luò)結(jié)構(gòu)的對(duì)比[13]Fig.3 Comparison of FSRCNN network structure and SRCNN network structure[13]

圖4 FSRCNN 網(wǎng)絡(luò)卷積層與反卷積層的具體結(jié)構(gòu)[13]Fig.4 The concrete structure of convolution layer and deconvolution layer of FSRCNN network[13]

Kim 等[7]提出了圖5 所示的超分辨率重建極深卷積神經(jīng)網(wǎng)絡(luò)(Very deep convolutional network for super-resolution,VDSR)模型,與SRCNN 相比,VDSR 增加了神經(jīng)網(wǎng)絡(luò)的層數(shù),可以提取更多的特征圖,使重建后的圖像細(xì)節(jié)更豐富,且隨著層數(shù)的加深,感受野也隨之變大,解決了SRCNN 依賴(lài)小圖像區(qū)域的上下文信息的問(wèn)題;該模型采用殘差學(xué)習(xí)的方法,對(duì)輸入的LR 圖像進(jìn)行雙三次插值得到的圖像添加到模型的最后一層上,使網(wǎng)絡(luò)僅僅學(xué)習(xí)HR 圖像與LR 圖像的差異部分,有效地解決了收斂困難的問(wèn)題;該模型的訓(xùn)練數(shù)據(jù)集并不單單使用一種采樣因子的LR 圖像作為輸入,而是包含了多種采樣因子的LR 圖像,這樣訓(xùn)練出來(lái)的網(wǎng)絡(luò)可以測(cè)試多種采樣因子的LR 圖像.Hu 等[32]對(duì)SRCNN 提出了兩點(diǎn)改進(jìn),首先采用隨機(jī)線(xiàn)性糾正單元(Rando-mized rectified linear unit,RReLU)去避免原有網(wǎng)絡(luò)學(xué)習(xí)中對(duì)圖像某些重要信息的過(guò)壓縮,然后用Nesterov 加速梯度(Nesterov's accelerated gradient,NAG)方法去提升網(wǎng)絡(luò)的收斂速度,并且避免了網(wǎng)絡(luò)在梯度更新的時(shí)候產(chǎn)生較大的震蕩.

圖5 VDSR 網(wǎng)絡(luò)結(jié)構(gòu)[7]Fig.5 The VDSR network structure[7]

以往模型都是先利用雙三次插值等方法將LR圖像上采樣到HR 空間,再在HR 空間上提取特征,從而重建成最后的HR 圖像,這種方法會(huì)增加計(jì)算復(fù)雜度.為此,Shi 等[33]提出了圖6 所示的高效子像素卷積神經(jīng)網(wǎng)絡(luò)(Efficient sub-pixel convolutional neural network,ESPCN)模型,該模型是第一個(gè)能夠在單獨(dú)的K2 GPU 上實(shí)時(shí)處理1080p 視頻的卷積神經(jīng)網(wǎng)絡(luò),其核心思想是使用亞像素卷積層來(lái)替代反卷積層實(shí)現(xiàn)上采樣操作,網(wǎng)絡(luò)的輸入是未放大尺寸的LR 圖像,提取特征也都是在低維空間下進(jìn)行,通過(guò)三個(gè)卷積層后,得到通道數(shù)為r2的特征圖(Feature map),其中r為上采樣的倍率,然后再將尺寸為H×W×r2的特征圖重新排列成rH×rW×1的高分辨率圖像.若需要獲得不同上采樣倍率的圖像,只需改變r(jià)的值.該模型的優(yōu)點(diǎn)是運(yùn)行時(shí)間比以往基于卷積神經(jīng)網(wǎng)絡(luò)的模型快一個(gè)數(shù)量級(jí),缺點(diǎn)是當(dāng)改變倍率時(shí),需要重新訓(xùn)練模型.

圖6 ESPCN 網(wǎng)絡(luò)結(jié)構(gòu)[33]Fig.6 The ESPCN network structure[33]

Mao 等[34]提出了圖7 所示的極深殘差編解碼網(wǎng)絡(luò)(Very deep residual encoder-decoder networks,RED-Net)模型,該網(wǎng)絡(luò)模型由卷積層和反卷積層組成,且卷積層與反卷積層呈對(duì)稱(chēng)分布,即編碼-解碼結(jié)構(gòu).卷積層起到提取特征與去噪的作用,反卷積層先接收去噪后的特征圖像,再將其重建成高分辨率圖像,這樣會(huì)使圖像更為清晰.REDNet 模型也采用了跳躍連接,但與ResNet[35]不同,該跳躍是從卷積層到對(duì)應(yīng)的反卷積層之間的跳躍連接.

圖7 RED-Net 結(jié)構(gòu)[34]Fig.7 The RED-Net structure[[34]

Tai 等[36]提出了圖8 所示的MemNet 網(wǎng)絡(luò),與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)如VDSR[7]、DRCN[37]不同,這是一個(gè)長(zhǎng)期記憶的模型.傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)基本上都是單向傳播,當(dāng)層數(shù)非常多的時(shí)候,越靠后的層接收到的信號(hào)越微弱,MemNet 網(wǎng)絡(luò)由特征提取網(wǎng)絡(luò)(Feature extraction net,FENet)、若干個(gè)記憶模塊(Memory block)與重建網(wǎng)絡(luò)(Reconstruction net,ReconNet)組成,其中FENet 由卷積層構(gòu)成;與常規(guī)神經(jīng)網(wǎng)絡(luò)不同,每個(gè)Memory block 都參與了最終輸出,即每個(gè)記憶模塊不僅與下一個(gè)記憶模塊連接,而且直接連接ReconNet 層;ReconNet 是個(gè)卷積核為1×1 的卷積層,負(fù)責(zé)將所有記憶模塊的存儲(chǔ)信息分別輸出,所有輸出分別賦予不同的權(quán)重,進(jìn)行相加得到最后的輸出結(jié)果.

圖8 MemNet 網(wǎng)絡(luò)結(jié)構(gòu)[36]Fig.8 The MemNet network structure[36]

與ResNet 網(wǎng)絡(luò)[35]直接將輸入與最后一層串聯(lián)起來(lái)不同,DenseNet[38]是將每一層與其他層都串聯(lián)起來(lái),這樣更能保留原始圖像的特征信息,即使傳遞到后面的層,圖像信息也不易丟失,并且很好地解決了梯度消失的問(wèn)題.考慮到DenseNet 的優(yōu)點(diǎn),Tong 等[39]提出圖9 所示的SRDenseNet 網(wǎng)絡(luò),該網(wǎng)絡(luò)由低水平特征提取層、8 個(gè)密集模塊(Dense block)、2 個(gè)反卷積上采樣層和1 個(gè)重構(gòu)層組成,其中每個(gè)密集模塊就是采用了DenseNet 的結(jié)構(gòu).

圖9 SRDenseNet 網(wǎng)絡(luò)結(jié)構(gòu)[38]Fig.9 The SRDenseNet network structure[38]

Zhang 等[40]將殘差模塊(Residual block)與密集模塊結(jié)合起來(lái),形成了殘差密集模塊(Residual dense block,RDB),即圖10 所示的RDN 網(wǎng)絡(luò)模型.該網(wǎng)絡(luò)模型主要由4 個(gè)模塊組成,分別為淺特征提取網(wǎng)絡(luò)(Shallow feature extraction net,SFENet)、殘差密集模塊、密集特征融合(Dense feature fusion,DFF) 和上采樣網(wǎng)絡(luò)(Up-sampling net,UPNet),其中SFENet 包含2 個(gè)卷積層,具有提取輸入圖像特征的作用;RDB 模塊去掉了DenseNet 每個(gè)模塊中的批正則化和池化層,上一個(gè)RDB模塊與下一個(gè)RDB 模塊中的1 到d層做了局部特征融合(Local feature fusion,LFF),每一層與每一模塊連接都很緊密,更好的保證了信息流的貫通;DFF 通過(guò)Concat 層將每個(gè)RDB 模塊得到的特征圖都串聯(lián)起來(lái);UPNet 實(shí)現(xiàn)將特征圖放大的操作.

圖10 RDN 網(wǎng)絡(luò)結(jié)構(gòu)[40]Fig.10 The RDN network structure[[40]

Yu 等[41]在2018 年提出了WDSR 模型,并取得了當(dāng)年NTIRE 競(jìng)賽[42]的冠軍.如圖11 所示,WDSR模型網(wǎng)絡(luò)由卷積模塊、殘差模塊和像素重組(Pixel shuffle)模塊三部分組成,其中卷積模塊、殘差模塊與常規(guī)神經(jīng)網(wǎng)絡(luò)相同,Pixel shuffle 采用了ESPCN 模型[33]提出的亞像素層來(lái)實(shí)現(xiàn)上采樣的操作.與2017 年NTIRE 競(jìng)賽[28]的冠軍EDSR 模型[43]相比,WDSR 模型一方面去除了很多冗余的卷積層,Yu 等認(rèn)為殘差模塊已經(jīng)涵蓋了這些卷積層的效果,去除了這些冗余層會(huì)使計(jì)算更快,并且效果也沒(méi)有下降;另一方面改進(jìn)了殘差模塊.Yu 等提出了2 個(gè)版本的WDSR,分別是圖12 所示的WDSR-A 與WDSR-B[41],2 個(gè)版本只在殘差模塊上有區(qū)別.與EDSR 模型的殘差模塊相比,EDSR 的Relu 激活函數(shù)是在兩個(gè)卷積運(yùn)算中間,而且卷積核的個(gè)數(shù)較少;而WDSR-A 是在不增加計(jì)算開(kāi)銷(xiāo)的前提下,增加Relu 激活函數(shù)前面的卷積核個(gè)數(shù)以增加特征圖的寬度,這樣效果會(huì)更好.WDSR-B 在WDSR-A的基礎(chǔ)上,將Relu 后的大卷積核拆分成兩個(gè)小卷積核,既減少了模型參數(shù),又可以在同樣計(jì)算開(kāi)銷(xiāo)的前提下獲得更多未使用激活函數(shù)前的特征圖.除此之外,WDSR 還采用了權(quán)重歸一化(Weight normalization)的策略,實(shí)驗(yàn)表明權(quán)重歸一化可以使用比以往模型高10 倍的學(xué)習(xí)率,而且能得到更高的測(cè)試準(zhǔn)確率.

圖12 三種殘差模塊的對(duì)比[41]Fig.12 Comparison of three residual blocks[41]

許多基于卷積神經(jīng)網(wǎng)絡(luò)的SISR 模型使用失真導(dǎo)向(Distortion-oriented)的損失函數(shù),此類(lèi)模型很難恢復(fù)真實(shí)圖像紋理和細(xì)節(jié),生成的圖像看起來(lái)較模糊,因此恢復(fù)真實(shí)紋理和細(xì)節(jié)在圖像超分辨領(lǐng)域仍然是一項(xiàng)挑戰(zhàn),目前這方面的工作有SRGAN[8]、EnhanceNet[44]和SFTGAN[20]等,但是在生成圖像時(shí)通常會(huì)產(chǎn)生偽影,整幅圖像看起來(lái)總有一些不自然.Soh 等[45]對(duì)此類(lèi)問(wèn)題提出了FRSR 模型和圖13所示的NatSR 模型,可生成真實(shí)紋理和自然細(xì)節(jié),獲得高視覺(jué)質(zhì)量.該模型添加了圖14 所示的自然流形鑒別器(Natural manifold discriminator,NMD)與基于不規(guī)則殘差學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).從圖像評(píng)價(jià)指標(biāo)上看,NatSR 算法并不是最好的,但在視覺(jué)效果上NatSR 表現(xiàn)更好.

圖13 NatSR 網(wǎng)絡(luò)結(jié)構(gòu)[45]Fig.13 The NatSR network structure[45]

圖14 NMD 結(jié)構(gòu)[45]Fig.14 The NMD structure[45]

2.1.2 基于遞歸神經(jīng)網(wǎng)絡(luò)的超分辨率重建

在超分辨率問(wèn)題中,為了使生成的圖像質(zhì)量高,多數(shù)卷積神經(jīng)網(wǎng)絡(luò)不使用池化層,但隨著網(wǎng)絡(luò)的加深,將會(huì)增加更多的參數(shù),容易使網(wǎng)絡(luò)過(guò)擬合;且模型過(guò)大,難以存儲(chǔ)和重現(xiàn).為了解決以上問(wèn)題,考慮到遞歸神經(jīng)網(wǎng)絡(luò)是多次遞歸其模型中的一層或幾層神經(jīng)網(wǎng)絡(luò),可有效減少網(wǎng)絡(luò)的參數(shù),因此Kim等[37]采用了遞歸神經(jīng)網(wǎng)絡(luò)作為其基本網(wǎng)絡(luò),提出了DRCN 模型,其使用的遞歸層都是監(jiān)督式的;并采用了跳躍連接結(jié)構(gòu),有效地解決了梯度消失/爆炸的問(wèn)題.Tai 等[46]提出的DRRN 延續(xù)了VDSR[7]認(rèn)為的網(wǎng)絡(luò)層數(shù)越多、超分辨率重建的效果越好的觀點(diǎn),將網(wǎng)絡(luò)層數(shù)增加到52 層,為了減少網(wǎng)絡(luò)參數(shù),也采取了遞歸操作與殘差學(xué)習(xí)的方式.在網(wǎng)絡(luò)結(jié)構(gòu)上與DRCN[37]有所不同,采用間隔層權(quán)重共享的操作,而不像DRCN[37]的Inference network 里每一層都是權(quán)重共享.與具有20 層深度的VDSR 模型相比,效果雖然有所提升,但提升幅度并不大;相比較于同期的LapSRN[47],網(wǎng)絡(luò)的效果有待優(yōu)化,同時(shí)每個(gè)遞歸單元只有2 個(gè)卷積層確實(shí)有些不足.Zhou等[48]將遞歸神經(jīng)網(wǎng)絡(luò)與殘差學(xué)習(xí)相結(jié)合,提出一種簡(jiǎn)潔緊湊型遞歸殘差網(wǎng)絡(luò)結(jié)構(gòu),在重建出同等質(zhì)量超分辨率圖像的前提下,模型參數(shù)數(shù)量及計(jì)算復(fù)雜度分別僅為VDSR 方法的1/10 和1/(2n2).

2.1.3 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的超分辨率重建

目前圖像超分辨率重建主要朝著兩個(gè)方向發(fā)展,一是網(wǎng)絡(luò)越來(lái)越深,但是隨著網(wǎng)絡(luò)層數(shù)的增加也會(huì)引起模型參數(shù)過(guò)多等問(wèn)題;二是殘差學(xué)習(xí),包括全局殘差學(xué)習(xí)、局部殘差學(xué)習(xí)以及二者相結(jié)合的形式,雖然DRRN、DRCN 將遞歸神經(jīng)網(wǎng)絡(luò)與殘差學(xué)習(xí)相結(jié)合,但仍會(huì)導(dǎo)致重建速度變慢.Han 等[49]引入了循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,提出基于雙循環(huán)網(wǎng)絡(luò)狀態(tài)的DSRN 模型.該模型通過(guò)延遲反饋機(jī)制,在兩個(gè)方向(LR 到HR 和HR 到LR)之間交換循環(huán)信號(hào),并將這兩種狀態(tài)預(yù)測(cè)的特征聯(lián)合起來(lái)進(jìn)行最終的預(yù)測(cè),取得了不錯(cuò)的效果.

2.1.4 基于對(duì)抗神經(jīng)網(wǎng)絡(luò)的超分辨率重建

基于卷積、遞歸和循環(huán)這三種神經(jīng)網(wǎng)絡(luò)都是以峰值信噪比作為導(dǎo)向的SISR 模型,其網(wǎng)絡(luò)生成的圖像雖然峰值信噪比很高,但感觀質(zhì)量較差.為生成符合人眼感觀的圖像,Ledig 等[8]提出了SRGAN模型,網(wǎng)絡(luò)主體采用對(duì)抗神經(jīng)網(wǎng)絡(luò)(Generative adversarial net,GAN)[50],損失函數(shù)采用感知損失與對(duì)抗損失之和.雖然峰值信噪比不是最高,但是SRGAN模型產(chǎn)生出的圖像更加自然清晰,更符合人眼的視覺(jué)效果.盡管SRGAN 取得了很好的視覺(jué)效果,但隨著網(wǎng)絡(luò)的加深,批歸一化層可能會(huì)使圖像出現(xiàn)偽影.Wang 等[51]對(duì)SRGAN 模型進(jìn)行了改進(jìn),提出了ESRGAN 模型.ESRGAN 在SRGAN[8]的基礎(chǔ)上去掉了批歸一化層,并引入殘差密集模塊(Residual-in-residual dense block)作為網(wǎng)絡(luò)的基本單元,且采用RaGAN[52]的思想,將判別器由原來(lái)預(yù)測(cè)圖像的絕對(duì)真實(shí)性改為了相對(duì)真實(shí)性,即判別器接收到生成器傳來(lái)的圖像時(shí),不再單單預(yù)測(cè)這幅圖像是否真實(shí)的概率,而是預(yù)測(cè)這幅圖像比虛假圖像更真實(shí)的概率.SRGAN[8]是使用激活后的特征求感知損失,而ESRGAN 是使用激活前的特征求感知損失.這樣做克服了兩個(gè)缺點(diǎn):1) 激活后的特征是稀疏的,而使用激活前的特征求感知損失,會(huì)得到更多的信息;2) 若使用激活后的特征作為輸入,則重建的圖像與真實(shí)圖像對(duì)比會(huì)出現(xiàn)亮度不一致的情況.Wang 等[20]提出了SFTGAN 模型,在模型中新添加了空間特征轉(zhuǎn)換層(Spatial feature transform,SFT),將有效的先驗(yàn)信息與神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行端到端的訓(xùn)練,SFT 層通過(guò)對(duì)模型中的每個(gè)中間特征進(jìn)行空間仿射變換來(lái)學(xué)習(xí)參數(shù)對(duì),從而自適應(yīng)地調(diào)節(jié)輸出.與SRGAN[8]和EnhanceNet[44]模型相比,重建后的圖像在視覺(jué)上顯得更加自然.

2.1.5 基于反饋機(jī)制的超分辨率重建

根據(jù)應(yīng)用的網(wǎng)絡(luò)類(lèi)型分類(lèi)可以分為基于卷積、遞歸、循環(huán)和對(duì)抗神經(jīng)網(wǎng)絡(luò),相關(guān)方法前文已經(jīng)介紹.有學(xué)者從另一個(gè)角度出發(fā),在神經(jīng)網(wǎng)絡(luò)中添加反饋機(jī)制和注意力機(jī)制,更有助于提升圖像質(zhì)量.對(duì)此,Haris 等[53]將傳統(tǒng)算法迭代反投影(Iterative back projection,IBP)與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了DBPN 模型.考慮到近年來(lái)提出的超分辨率模型中,沒(méi)有很好地解決LR 圖像與HR 圖像的相互依賴(lài)關(guān)系,Haris 等認(rèn)為超分辨率網(wǎng)絡(luò)模型缺乏反饋機(jī)制,不能像人類(lèi)視覺(jué)系統(tǒng)那樣利用反饋機(jī)制來(lái)指導(dǎo)任務(wù),為此提出一種上采樣和下采樣交替式進(jìn)行的網(wǎng)絡(luò),為每個(gè)階段的錯(cuò)誤映射提供反饋機(jī)制,思想上很像傳統(tǒng)的迭代反投影算法,因而取名為DBPN 網(wǎng)絡(luò),該模型成為了×8 尺度上的先進(jìn)算法.Li 等[54]提出了一種圖像超分辨率反饋網(wǎng)絡(luò)SRFBN,高階層的信息通過(guò)反饋連接自頂向下的提供反饋流.同時(shí),這種具有反饋連接的遞歸結(jié)構(gòu)具有較強(qiáng)的重建能力,且只需要較少的參數(shù).該模型還采用了一種基于課程的訓(xùn)練策略,將多張?jiān)絹?lái)越難重構(gòu)的HR 圖像作為連續(xù)迭代的目標(biāo)輸入網(wǎng)絡(luò).該方法使網(wǎng)絡(luò)能夠逐步地學(xué)習(xí)復(fù)雜的退化模型,而其他方法只能學(xué)習(xí)退化模型中的一種模式.

2.1.6 基于通道注意力機(jī)制的超分辨率重建

大多數(shù)基于神經(jīng)網(wǎng)絡(luò)的超分辨率(Super-resolution,SR)方法沒(méi)有充分利用原始LR 圖像的信息,從而得到的結(jié)果不太理想,且多數(shù)基于神經(jīng)網(wǎng)絡(luò)的模型主要專(zhuān)注于設(shè)計(jì)更深或是更寬的網(wǎng)絡(luò),以學(xué)習(xí)更具有判別力的高層特征,卻很少發(fā)掘?qū)娱g特征的內(nèi)在相關(guān)性,從而阻礙了網(wǎng)絡(luò)的特征提取能力.為此,Zhang 等[55]將通道注意力機(jī)制(Channel attention,CA)和殘差塊相結(jié)合,提出了RCAN 網(wǎng)絡(luò)模型,RCAN 延續(xù)了神經(jīng)網(wǎng)絡(luò)深度越深,效果越好的理念.該模型主要由4 個(gè)部分組成,分別是淺層特征提取模塊、殘差中的殘差(Residual in residual,RIR)深度特征提取模塊、上采樣模塊和重構(gòu)圖像模塊.其中除了RIR 模塊之外,其余模塊與大多數(shù)SR網(wǎng)絡(luò)相同,RIR 模塊由殘差組(Residual group,RG)與一個(gè)長(zhǎng)跳躍連接組成,每個(gè)RG 由殘差通道注意力模塊(Residual channel attention block,RCAB)與短跳躍連接組成,由于RIR 模塊的優(yōu)勢(shì),可使神經(jīng)網(wǎng)絡(luò)的深度超過(guò)400 層.此外,Zhang 等還指出低分辨率圖像存在大量低頻信息,這些信息可以通過(guò)長(zhǎng)跳躍連接直接傳到網(wǎng)絡(luò)的最后一層,使網(wǎng)絡(luò)重點(diǎn)學(xué)習(xí)高頻信息,并減輕了網(wǎng)絡(luò)的學(xué)習(xí)負(fù)擔(dān).

Dai 等[56]提出了一個(gè)二階注意力網(wǎng)絡(luò)SAN,該模型利用二階通道注意力機(jī)制SOCA 來(lái)進(jìn)行相關(guān)性學(xué)習(xí);同時(shí)利用非局部增強(qiáng)殘差組(Non-locally enhanced residual group,NLRG)來(lái)捕獲長(zhǎng)距離的空間內(nèi)容信息.Zhou 等[57]提出了基于特征融合注意網(wǎng)絡(luò)的單幅圖像超分辨率方法,網(wǎng)絡(luò)模型主要包括特征融合子網(wǎng)絡(luò)和特征注意子網(wǎng)絡(luò).特征融合子網(wǎng)絡(luò)可以更好地融合不同深度的特征信息,以及增加跨通道的學(xué)習(xí)能力;特征注意子網(wǎng)絡(luò)則著重關(guān)注高頻信息,以增強(qiáng)邊緣和紋理.

2.1.7 基于損失函數(shù)的改進(jìn)策略

除了在網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)外,所使用的損失函數(shù)不同,生成的圖像質(zhì)量也有所不同.常用的損失函數(shù)有像素?fù)p失、內(nèi)容損失、對(duì)抗損失、紋理?yè)p失、總變差損失以及上下文損失等.

1)像素?fù)p失(Pixel loss)

目前多數(shù)SR 模型均采用像素?fù)p失,像素?fù)p失一般分為L(zhǎng)1 損失和L2 損失,其表達(dá)式分別如下:

其中,C為圖像的通道數(shù),一般為3;H為圖像的高度;W為圖像的寬度;為生成的高分辨率圖像的每個(gè)像素點(diǎn);yi,j,k為Ground truth 圖像的每個(gè)像素點(diǎn).

雖然在峰值信噪比上取得了顯著的效果,但是在主觀視覺(jué)上發(fā)現(xiàn)只運(yùn)用像素?fù)p失生成的圖像缺乏高頻信息.為此,Johnson 等[58]用感知損失來(lái)代替像素?fù)p失,感知損失由內(nèi)容損失與Gatys 等[59]提出的風(fēng)格損失組成.

2)內(nèi)容損失(Content loss)

采用預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)提取生成圖像與Ground truth 圖像的高階特征,再逐層求平方差,將所有層加起來(lái),即為內(nèi)容損失.內(nèi)容損失表達(dá)式如下:

其中,Cl為特征圖通道數(shù);Hl為特征圖的高度;Wl為特征圖的寬度;為使用預(yù)訓(xùn)練模型提取生成的高分辨率圖像的第l層特征圖的每個(gè)像素點(diǎn);?(l)(yi,j,k) 為使用預(yù)訓(xùn)練模型提取Ground truth圖像的第l層特征圖的每個(gè)像素點(diǎn).

3)對(duì)抗損失(Adversarial loss)

在超分辨率領(lǐng)域,采用對(duì)抗性學(xué)習(xí)是很簡(jiǎn)單的,在這種情況下,只需要將SR 模型作為一個(gè)生成器,另外定義一個(gè)鑒別器來(lái)判斷輸入圖像是否生成.Ledig等[8]首先在SRGAN 模型中引入了基于交叉熵的對(duì)抗損失,具體表達(dá)式如下:

其中,Lgan_ce_g為SR 模型生成器的對(duì)抗損失;D(·)代表鑒別器;Lgan_ce_d是鑒別器的對(duì)抗損失.Wang等[60]和Yuan 等[61]在網(wǎng)絡(luò)中引入了基于最小平方差(Least mean error)的對(duì)抗損失[62],其表達(dá)式如下:

4)紋理?yè)p失(Texture loss)

Gatys 等[63?64]將紋理?yè)p失引入到超分辨率重建中,紋理?yè)p失利用Gram 矩陣G(l)∈RCl×Cl,Gram矩陣表達(dá)式如下:

5)總變差損失(Total variation loss)

6)上下文損失(Contextual loss)

為了生成逼真的圖像,很多模型采用對(duì)抗損失,但這種模型很難訓(xùn)練.Mechrez 等[66]采用上下文損失來(lái)取代對(duì)抗損失,與L1 損失和L2 損失相結(jié)合,得到了不錯(cuò)的結(jié)果.

鑒于每種損失函數(shù)都有其各自的側(cè)重點(diǎn),將多種損失函數(shù)聯(lián)合起來(lái)訓(xùn)練網(wǎng)絡(luò),得到的模型生成的圖像無(wú)論在客觀評(píng)價(jià)或主觀視覺(jué)上都會(huì)取得不錯(cuò)的效果.現(xiàn)在的多數(shù)模型都是采用多種損失函數(shù)聯(lián)合訓(xùn)練的方式,如Sajjadi 等[44]提出的EnhanceNet 模型,受到VGG 網(wǎng)絡(luò)[67]的啟發(fā),卷積核全部采用3×3的大小,目的是在保持定量參數(shù)的情況下可以構(gòu)建更深的網(wǎng)絡(luò).損失函數(shù)由感知損失、對(duì)抗損失和紋理?yè)p失組成,能夠產(chǎn)生逼真的紋理.

2.1.8 基于上采樣層的改進(jìn)方法

在網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)中,除了可以應(yīng)用不同的神經(jīng)網(wǎng)絡(luò)類(lèi)型以及結(jié)合多種損失函數(shù)進(jìn)行監(jiān)督外,還可以對(duì)其上采樣模塊進(jìn)行改進(jìn).將LR 圖像上采樣為HR 圖像,上采樣模塊是必不可少的.如圖15 所示,根據(jù)上采樣模塊所在位置的不同,分為預(yù)上采樣(Pre-upscaling)、后上采樣(Post-upscaling)、漸進(jìn)上采樣(Progressive upscaling)和迭代上下采樣(Iterative up-and-down sampling)這4 種框架.文獻(xiàn)[6,36,37,46,68]均采用預(yù)上采樣框架;文獻(xiàn)[8,38,43,49]均采用后上采樣框架;文獻(xiàn)[47,69]采用漸進(jìn)上采樣框架;文獻(xiàn)[53]采用迭代上采樣框架.根據(jù)上采樣層所使用的方法不同,又可分為插值上采樣、反卷積上采樣以及亞像素卷積這三種方法,其中插值上采樣可實(shí)現(xiàn)任意倍率的放大,但會(huì)帶來(lái)一定程度的平滑和模糊效果;反卷積上采樣只能實(shí)現(xiàn)整數(shù)倍率的超分辨率重建;亞像素卷積的優(yōu)點(diǎn)是擁有較大的感受野,但其同樣只能實(shí)現(xiàn)整數(shù)倍率的超分辨率重建.Kim 等[70]就當(dāng)前流行的上采樣方法進(jìn)行了改進(jìn),提出了EUSR 模型.該模型采用了增強(qiáng)上采樣模塊(Enhanced upscaling module,EUM)作為上采樣層,EUM 利用非線(xiàn)性操作和殘差學(xué)習(xí),在2018 年NTIRE 超分辨率挑戰(zhàn)[42]的結(jié)構(gòu)相似度[71]評(píng)價(jià)指標(biāo)上取得了第9 名的好成績(jī).

圖15 主流上采樣方法 ((a) 預(yù)上采樣SR 網(wǎng)絡(luò);(b) 后上采樣SR 網(wǎng)絡(luò);(c) 漸進(jìn)上采樣SR 網(wǎng)絡(luò);(d) 迭代上下采樣SR 網(wǎng)絡(luò))Fig.15 Mainstream upsampling methods ((a) Pre-upscaling SR network;(b) Post-upscaling SR network;(c) Progressive upscaling SR network;(d) Iterative up-and-down sampling network)

在ESPCNN[33]、EDSR[43]、RDN[40]與RCAN[55]等先進(jìn)方法中,通常是在網(wǎng)絡(luò)末端放大特征圖,但是以上方法需要對(duì)每一種縮放因子設(shè)計(jì)一個(gè)特定的上采樣模塊,并且上采樣模塊通常只適用于正整數(shù)的縮放因子,這些缺點(diǎn)限制了SISR 在現(xiàn)實(shí)中的應(yīng)用.Hu 等[72]提出了Meta-SR 模型,該模型引進(jìn)了Meta-Upscale 模塊來(lái)取代傳統(tǒng)的上采樣模塊.受元學(xué)習(xí)(Meta-learning)的啟發(fā),對(duì)于任意的縮放因子,Meta-Upscale 模塊都能夠動(dòng)態(tài)地預(yù)測(cè)上采樣濾波器的權(quán)重,使得單個(gè)模型便可以實(shí)現(xiàn)任意縮放因子(包含非整數(shù))情況下的超分辨率重建.

2.1.9 針對(duì)多尺度超分辨率重建

針對(duì)多數(shù)算法僅有一次上采樣的操作,而無(wú)法同時(shí)得到多種分辨率圖像,Lai 等[47]提出級(jí)聯(lián)金字塔結(jié)構(gòu)LapSRN.LapSRN 網(wǎng)絡(luò)有兩個(gè)分支,一個(gè)是特征提取分支,一個(gè)是圖像重構(gòu)分支.該模型是逐步學(xué)習(xí),輸出不同尺度的殘差,得到對(duì)應(yīng)尺度的重構(gòu)結(jié)果,而不是像其他模型只有一個(gè)輸出;與以往的L2 損失函數(shù)不同,該模型得到的每種分辨率都有一個(gè)對(duì)應(yīng)的損失函數(shù),總的損失函數(shù)即為多種分辨率的損失函數(shù)之和.

Lim 等[43]分別針對(duì)單一尺度超分辨率與多尺度超分辨率提出EDSR 網(wǎng)絡(luò)與MDSR 網(wǎng)絡(luò),這兩種模型框架主要采用He 等[35]提出的ResNet 網(wǎng)絡(luò),但與之不同的是,去掉了其中的批歸一化層.批歸一化層的主要作用是加快訓(xùn)練速度,改善數(shù)據(jù)變化大因而模型難收斂的問(wèn)題.由于框架本身學(xué)習(xí)的是殘差圖像,需要學(xué)習(xí)的特征減少,很大程度上提高了訓(xùn)練速度,因此批歸一化層在ResNet 網(wǎng)絡(luò)中并不是十分重要,且批歸一化層對(duì)每一批數(shù)據(jù)都要進(jìn)行歸一化處理,使得GPU 可用顯存減少,移除批歸一化層可起到節(jié)約顯存的功效.MDSR 網(wǎng)絡(luò)模型的設(shè)計(jì)具有權(quán)重共享的功能,既能達(dá)到訓(xùn)練多個(gè)分辨率的目的,又能使整套模型的計(jì)算量減少,節(jié)約存儲(chǔ)空間,Timofte 等憑借該模型贏得了2017 年NTIRE競(jìng) 賽[28]的冠軍.

2.2 基于弱監(jiān)督學(xué)習(xí)的超分辨率重建

在超分辨率重建領(lǐng)域大多數(shù)模型都是基于有監(jiān)督學(xué)習(xí)的方法,鮮少有學(xué)者提出弱監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)模型.由于收集相同場(chǎng)景的LR-HR 圖像對(duì)是困難的,因此有監(jiān)督學(xué)習(xí)并不適用于現(xiàn)實(shí)場(chǎng)景的應(yīng)用,弱監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)的研究變得極為重要.

Bulat 等[73]針對(duì)大多數(shù)模型是從HR 圖像下采樣得到對(duì)應(yīng)的LR 圖像,并不能真正代表真實(shí)場(chǎng)景的LR 圖像的情況,提出了新的退化模型.受CycleGAN[74]的啟發(fā),Bulat 等將整個(gè)網(wǎng)絡(luò)模型分為2 段,一段是用不成對(duì)的LR-HR 圖像訓(xùn)練得到由HR 圖像到LR 圖像的GAN 退化模型,取代多數(shù)模型采用的雙三次下采樣方法;另一段是用上一段網(wǎng)絡(luò)生成的LR 圖像作為輸入,再用成對(duì)的LR-HR圖像訓(xùn)練GAN 超分辨率網(wǎng)絡(luò).

受CycleGAN[74]與WESPE[9]的啟發(fā),Yuan 等[61]提出了一種弱監(jiān)督學(xué)習(xí)模型CinCGAN,如圖16 所示該模型由4 個(gè)生成器、2 個(gè)鑒別器以及2 個(gè)CycleGAN 組成,其中生成器與鑒別器的結(jié)構(gòu)如圖17所示,第一個(gè)CycleGAN 用于有噪聲的LR 圖像到真實(shí)的Clean LR 圖像的映射,第二個(gè)CycleGAN 的結(jié)構(gòu)與第一個(gè)相同,不同點(diǎn)在于第二個(gè)CycleGAN 是學(xué)習(xí)Clean LR 圖像到Clean HR 圖像的映 射,且LR 圖像與HR 圖像是不成對(duì)的.

圖16 CinCGAN 網(wǎng)絡(luò)結(jié)構(gòu)[61]Fig.16 The CinCGAN network structure[61]

圖17 CinCGAN 中生成器與鑒別器的結(jié)構(gòu)[61]Fig.17 The structure of generator and discriminator in CinCGAN[61]

2.3 基于無(wú)監(jiān)督學(xué)習(xí)的超分辨率重建

文獻(xiàn)[75?76]證明了單張圖像內(nèi)部塊之間的信息熵小于多張圖像塊之間的信息熵,這就意味著圖像內(nèi)部塊比多張圖像塊擁有著更強(qiáng)的預(yù)測(cè)能力.基于此,Shocher 等[77]認(rèn)為僅靠圖像的內(nèi)部塊遞歸循環(huán)[78]就足以重建高分辨率圖像,提出了圖18 所示的ZSSR 模型,這也是第一個(gè)無(wú)監(jiān)督學(xué)習(xí)的SR 方法.ZSSR 模型將待測(cè)試的低分辨率圖像下采樣后的圖像作為輸入,而目標(biāo)圖像則是待測(cè)試的低分辨率圖像;網(wǎng)絡(luò)采用輕量級(jí)全卷積結(jié)構(gòu),再將待測(cè)試的低分辨率圖像作為輸入得到高分辨率圖像.ZSSR模型由于不依賴(lài)外部圖像數(shù)據(jù)集,因此能處理如不用雙三次退化得到的低分辨率圖像以及有模糊、噪聲、偽影等非理想條件下的圖像,且不需要預(yù)訓(xùn)練,適用于任何尺度的上采樣.由于網(wǎng)絡(luò)模型簡(jiǎn)單以及不需要外部數(shù)據(jù)集,節(jié)約了計(jì)算資源,在非理想條件下可達(dá)到SR 先進(jìn)算法的水平.測(cè)試時(shí)采用雙三次下采樣得到的低分辨率圖像作為輸入的理想條件下,也可與有監(jiān)督學(xué)習(xí)的SR 方法競(jìng)爭(zhēng).但缺點(diǎn)是每張圖像在測(cè)試時(shí)都要單獨(dú)訓(xùn)練一個(gè)網(wǎng)絡(luò),使得測(cè)試時(shí)間比有監(jiān)督學(xué)習(xí)的SR 模型要長(zhǎng).

圖18 ZSSR 網(wǎng)絡(luò)結(jié)構(gòu)[77]Fig.18 The ZSSR network structure[77]

Lempitsky 等[68]發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)本身就有先驗(yàn)信息,僅僅是隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)的參數(shù),就能達(dá)到去噪、圖像修復(fù)等功能,不需要預(yù)訓(xùn)練大量圖像樣本,且網(wǎng)絡(luò)的輸入是隨機(jī)向量,將卷積神經(jīng)網(wǎng)絡(luò)看成一般的待優(yōu)化函數(shù),利用梯度下降法進(jìn)行梯度優(yōu)化,損失函數(shù)是網(wǎng)絡(luò)生成的圖像與高分辨率圖像的均方差,即可直接進(jìn)行圖像超分辨率重建.雖然這種方法的性能比有監(jiān)督學(xué)習(xí)方法的峰值信噪比低2 dB,但它高于僅使用雙三次上采樣的方法1 dB,充分展現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)性能的強(qiáng)大,實(shí)現(xiàn)了樣本的 無(wú)監(jiān)督學(xué)習(xí).

2.4 針對(duì)特定領(lǐng)域的超分辨率重建

2.4.1 針對(duì)盲超分辨率(Blind Super-resolution)圖像重建的方法

絕大多數(shù)圖像超分辨率算法都是假設(shè)圖像退化過(guò)程中的下采樣模糊核是預(yù)先定義或已知的,如雙三次下采樣.此類(lèi)算法在實(shí)際應(yīng)用時(shí),如果模糊核是復(fù)雜或未知時(shí),圖像超分辨效果會(huì)大大降低.當(dāng)模糊核不匹配時(shí),重建后的超分辨率圖像會(huì)過(guò)于模糊或產(chǎn)生類(lèi)似圖19 所示的振鈴效應(yīng);只有模糊核匹配時(shí),才會(huì)得到較好的圖像超分辨率效果,因此在真實(shí)場(chǎng)景中準(zhǔn)確估計(jì)出模糊核是必要的.

圖19 振鈴效應(yīng)Fig.19 Ringing effect

Zhang 等[79]認(rèn)為采用雙三次下采樣得到的低分辨率圖像不能夠代表現(xiàn)實(shí)生活中的低分辨率圖像,測(cè)試時(shí)向網(wǎng)絡(luò)里直接輸入真實(shí)的低分辨率圖像,得到的效果往往不是很好.因此Zhang 等考慮了噪聲和模糊這兩個(gè)因素,在退化過(guò)程中采用一種維度拉伸的策略,將這兩個(gè)關(guān)鍵因素作為網(wǎng)絡(luò)輸入,提出了SRMD 模型.

Gu 等[80]提出了SFTMD 模型與迭代核校正(Iterative kernel correction,IKC)的方法.為了正確估計(jì)出模糊核,Gu 等提出校正函數(shù),因?yàn)橐淮涡U赡懿怀浞只蛐U^(guò)度,Gu 等采用逐步校正模糊核的方式去盡可能地逼近真實(shí)核函數(shù).在模型的搭建上,考慮到SRMD[79]工作存在如下問(wèn)題:1)模糊核沒(méi)有包含圖像的全部信息;2)模糊核信息只在網(wǎng)絡(luò)的首層考慮到,網(wǎng)絡(luò)的深層部分并沒(méi)有使用到模糊核信息.為解決上述問(wèn)題,Gu 等在SRResNet[8]網(wǎng)絡(luò)中增加了空間特征變換層.

Zhang 等[81]提出一種即插即用圖像恢復(fù)的DPSR 模型,通過(guò)設(shè)計(jì)一個(gè)新的SISR 退化模型來(lái)代替盲超分辨率的模糊核估計(jì),該模型引入能量函數(shù)來(lái)優(yōu)化新的退化模型,采用變量分割的方法實(shí)現(xiàn)即插即用,具有較高的靈活性,并且采用合成的圖片和真實(shí)的圖片來(lái)對(duì)算法進(jìn)行評(píng)估,以實(shí)現(xiàn)對(duì)盲超分 辨率的處理.

2.4.2 面向?qū)嶋H場(chǎng)景的圖像超分辨率重建的方法

多數(shù)超分辨率重建模型都是先獲得高分辨率圖像,再通過(guò)雙三次、高斯或池化等下采樣操作得到對(duì)應(yīng)的低分辨率圖像,以此構(gòu)成圖像對(duì).該方法的優(yōu)勢(shì)是省時(shí)省力、數(shù)據(jù)易得,但在放大遠(yuǎn)處物體時(shí)卻喪失了原始數(shù)據(jù)的準(zhǔn)確細(xì)節(jié),直接從HR 圖像上通過(guò)算法獲得的LR 圖像終究不是真實(shí)情況下的輸入,所以在現(xiàn)實(shí)中的泛化能力有限.由于缺乏真實(shí)的訓(xùn)練數(shù)據(jù),現(xiàn)有的超分辨率方法在實(shí)際場(chǎng)景中表現(xiàn)不佳.為了解決此類(lèi)問(wèn)題,Xu 等[82]通過(guò)模擬圖20所示的數(shù)碼相機(jī)成像,構(gòu)建了圖21 所示的雙卷積神經(jīng)網(wǎng)絡(luò)來(lái)生成真實(shí)的訓(xùn)練數(shù)據(jù),其中Xraw為低分辨率Raw 格式的圖像,Xref為通過(guò)Dcraw[83]軟件生成的低分辨率彩色圖像,圖22 所示為圖像恢復(fù)(Image restoration)分支,將學(xué)習(xí)了空間顏色轉(zhuǎn)換后的圖像與Raw 格式的圖像進(jìn)行特征融合,以實(shí)現(xiàn)更有效的色彩校正.實(shí)驗(yàn)表明使用Raw 格式的圖像更能恢復(fù)精確的細(xì)節(jié)和清晰的輪廓,在實(shí)際場(chǎng)景中表現(xiàn)很好.

圖20 數(shù)碼相機(jī)成像原理[82]Fig.20 Principle of digital camera imaging[82]

圖21 雙卷積神經(jīng)網(wǎng)絡(luò)[82]Fig.21 A dual convolutional neural network[82]

圖22 圖像恢復(fù)分支[82]Fig.22 The image restoration branch[82]

同樣對(duì)于實(shí)際場(chǎng)景來(lái)說(shuō),計(jì)算消耗的問(wèn)題也不容小覷,且隨著網(wǎng)絡(luò)深度的增加,需要更多的訓(xùn)練技巧,否則訓(xùn)練過(guò)程中的數(shù)值就會(huì)變得不穩(wěn)定[43,84].He 等[85]針對(duì)此類(lèi)問(wèn)題將常微分方程(Ordinary differential equation,ODE)與神經(jīng)網(wǎng)絡(luò)相結(jié)合,衍生出LF-block 和RK-block 兩種網(wǎng)絡(luò)結(jié)構(gòu),相對(duì)應(yīng)于常微分方程中的Leapfrog 方法和Runge-Kutta 方法.

使用真實(shí)的傳感器數(shù)據(jù)進(jìn)行訓(xùn)練的主要障礙是缺少Ground truth 圖像,為此,Chen 等[29]提出了CameraSR 模型,提供了全新的獲得圖像對(duì)的思路,即R-V 退化模型,其中R 代表分辨率,V 代表視野域.視野域小,目標(biāo)物體具有更大的分辨率;視野域大,目標(biāo)物體的分辨率很低.受Ignatov 等[30]的啟發(fā),采用DSLR 拍攝含有目標(biāo)物體的HR 圖像,采用智能手機(jī)拍攝含有目標(biāo)物體的LR 圖像.通過(guò)SIFT關(guān)鍵點(diǎn)[86]匹配與RANSAC[87]估計(jì)單應(yīng)性,就可獲得一個(gè)LR-HR 圖像對(duì),這種獲得圖像對(duì)的方式是從真實(shí)場(chǎng)景中得到的,訓(xùn)練出的模型泛化能力更強(qiáng).Zhang 等[88]展示了如何通過(guò)光學(xué)變焦獲得Ground truth 圖像,并提供了一個(gè)真實(shí)的數(shù)據(jù)集SR-RAW.SR-RAW 是用變焦鏡頭拍攝的,長(zhǎng)焦距拍攝的圖像可作為短焦距拍攝的光學(xué)Ground truth 圖像.Zhang等還提出一種新的上下文雙邊損失(Contextual bilateral loss,CoBi)來(lái)處理輕微失調(diào)的圖像對(duì),CoBi考慮了局部上下文相似性,其訓(xùn)練后的網(wǎng)絡(luò)在圖像放 大倍數(shù)為4 倍和8 倍上實(shí)現(xiàn)了最先進(jìn)的性能.

2.4.3 針對(duì)人臉超分辨率重建的問(wèn)題

針對(duì)人臉超分辨率問(wèn)題,Chen 等[89]提出了FSRNet 和FSRGAN 模型,首先構(gòu)建一個(gè)粗糙的SR網(wǎng)絡(luò)生成粗糙的高分辨率圖像;之后將粗糙的高分辨率圖像送入2 個(gè)分支網(wǎng)絡(luò),其中一個(gè)是精細(xì)的SR 網(wǎng)絡(luò),用來(lái)提取圖像特征,另一個(gè)是先驗(yàn)信息估計(jì)網(wǎng)絡(luò),用來(lái)估計(jì)人臉特征點(diǎn)和分割信息;最后將2 個(gè)分支結(jié)果匯入一個(gè)細(xì)粒度解碼器進(jìn)行重構(gòu)信息,該模型在人臉超分辨率重建上取得了不錯(cuò)的結(jié)果.

Bulat 等[90]提出了Super-FAN 模型,該模型是第一個(gè)既提高面部分辨率又具有檢測(cè)面部特征功能的端到端系統(tǒng),其核心在于通過(guò)熱像圖回歸和優(yōu)化熱像損失函數(shù),利用集成子網(wǎng)絡(luò)進(jìn)行面部對(duì)齊,將結(jié)構(gòu)信息合并到基于GAN 的超分辨率算法中,該模型在現(xiàn)實(shí)世界中的低分辨率人臉圖像上也表現(xiàn)出了 良好的效果.

3 圖像質(zhì)量評(píng)估準(zhǔn)則(Image quality assessment,IQA)

為了方便評(píng)估超分辨率模型產(chǎn)生出的圖像質(zhì)量,有必要運(yùn)用圖像質(zhì)量評(píng)估準(zhǔn)則對(duì)圖像質(zhì)量作出準(zhǔn)確的評(píng)價(jià).圖像質(zhì)量評(píng)估準(zhǔn)則主要分為客觀評(píng)價(jià)方法、主觀評(píng)價(jià)方法以及其他評(píng)價(jià)準(zhǔn)則,客觀評(píng)價(jià)方法如峰值信噪比與結(jié)構(gòu)相似性[71]等,通過(guò)公式計(jì)算出數(shù)值比較生成圖像質(zhì)量的優(yōu)劣,該方法可以對(duì)圖像進(jìn)行定量分析,但缺點(diǎn)是峰值信噪比與結(jié)構(gòu)相似性很大的圖像有時(shí)也會(huì)出現(xiàn)紋理模糊,甚至出現(xiàn)偽影,因此單單依靠客觀評(píng)價(jià)方法不能完全判斷出圖像質(zhì)量的好壞.而主觀評(píng)價(jià)方法是在視覺(jué)上感知圖像質(zhì)量的好壞,該類(lèi)方法具有直觀性,更符合我們的需求,但缺點(diǎn)是使用此類(lèi)方法費(fèi)時(shí)、代價(jià)昂貴且不方便.將客觀評(píng)價(jià)方法與主觀評(píng)價(jià)方法相結(jié)合更能有效檢驗(yàn)算法的可靠性與準(zhǔn)確性.本節(jié)將主要介紹幾種最常用的IQA 方法,還會(huì)介紹幾種近年來(lái)使 用相對(duì)較多的評(píng)價(jià)指標(biāo).

3.1 客觀評(píng)價(jià)方法

1) 峰值信噪比(Peak signal-to-noise ratio,PSNR)

峰值信噪比是一個(gè)表示信號(hào)最大可能功率和影響表示精度的破壞性噪聲功率比值的工程術(shù)語(yǔ),常用作圖像壓縮等領(lǐng)域中圖像重建質(zhì)量的評(píng)價(jià)方法,其簡(jiǎn)單地通過(guò)均方差(Mean squared error,MSE)進(jìn)行定義,在超分辨率重建中,用于檢測(cè)重建后的圖像x與真實(shí)圖像y的相似度.PSNR 越大代表圖像質(zhì)量越好,一般PSNR 的范圍在20 到40 之間.

其中,N為圖像的像素個(gè)數(shù);y為真實(shí)圖像;x為模型重建后的圖像;L為圖像的最大像素值,一般為255.

2) 結(jié)構(gòu)相似性(Structural similarity index,SSIM)

結(jié)構(gòu)相似性是Wang 等[71]根據(jù)人類(lèi)視覺(jué)系統(tǒng)(Human visual system,HVS)提出的一種基于結(jié)構(gòu)信息退化的質(zhì)量評(píng)估框架,是全參考(Full-reference)質(zhì)量評(píng)估的一種.與PSNR 不同,SSIM 考慮了圖像的結(jié)構(gòu)信息、亮度與對(duì)比度,用圖像均值作為亮度的估計(jì)、標(biāo)準(zhǔn)差作為對(duì)比度的估計(jì)、協(xié)方差作為結(jié)構(gòu)相似程度的度量,反映了物體結(jié)構(gòu)的屬性.

給定兩個(gè)圖像x和y,兩張圖像的結(jié)構(gòu)相似性可按照以下方式求出:

其中,μx是x的平均值,μy是y的平均值,σx2是x的方差,σy2是y的方差,σxy是x和y的協(xié)方差,C1和C2是用來(lái)維持穩(wěn)定的常數(shù),l是像素值的動(dòng)態(tài)范圍,k1=0.01 ,k2=0.03.結(jié)構(gòu)相似性的范圍為0 到1,當(dāng)兩張圖像一模一樣時(shí),SSIM 的值等于1.

3) 信息保真度準(zhǔn)則(Information fidelity criterion,IFC)與視覺(jué)信息保真度(Visual information fidelity,VIF)

Sheikh 等[91-92]提出了信息保真度準(zhǔn)則與視覺(jué)信息保真度,通過(guò)計(jì)算待評(píng)圖像與參考圖像之間的信息來(lái) 衡量待評(píng)圖像的質(zhì)量?jī)?yōu)劣,其判斷方法與PSNR 相似.

3.2 主觀評(píng)價(jià)方法

為了更加準(zhǔn)確的評(píng)判圖像的質(zhì)量,除了以上4 種常見(jiàn)的客觀評(píng)價(jià)準(zhǔn)則,其他的評(píng)價(jià)準(zhǔn)則也相繼被應(yīng)用到超分辨率重建領(lǐng)域中.在國(guó)際標(biāo)準(zhǔn)中,平均主觀意見(jiàn)分(Mean opinion score,MOS)最開(kāi)始是用來(lái)評(píng)價(jià)經(jīng)過(guò)壓縮后的話(huà)音質(zhì)量的準(zhǔn)則,后來(lái)逐漸被應(yīng)用到評(píng)估圖像的質(zhì)量.如表3 所示,MOS 取值范圍是1~5 分,1 分表示圖像的質(zhì)量最差,5 分表示圖像的質(zhì)量最好.與PSNR 這種客觀評(píng)價(jià)方法不同,MOS 是一種主觀評(píng)價(jià)方法.

表3 MOS 評(píng)估準(zhǔn)則Table 3 The MOS assessment

3.3 其他評(píng)價(jià)準(zhǔn)則

此外還有NQM[93]、MS-SSIM[94]、VSNR[95]、FSIM[96]、文獻(xiàn)[97]、NIQE[98]和Ma′s score[99]等評(píng)價(jià)準(zhǔn)則被應(yīng)用到圖像質(zhì)量評(píng)估上,多種準(zhǔn)則的結(jié)合使用更能檢 驗(yàn)出圖像質(zhì)量的好壞.

4 實(shí)驗(yàn)結(jié)果對(duì)比與分析

4.1 圖像質(zhì)量評(píng)估準(zhǔn)則的對(duì)比

目前幾乎所有的超分辨率重建算法都采用PSNR與SSIM 來(lái)檢測(cè)模型產(chǎn)生的圖像質(zhì)量,表4 和表5分別為部分網(wǎng)絡(luò)模型在基準(zhǔn)數(shù)據(jù)集Set5、Set14 的平均PSNR 與SSIM 的對(duì)比,作為常用的兩種客觀評(píng)價(jià)方法,由于計(jì)算簡(jiǎn)單且物理意義明確,因此應(yīng)用最為廣泛,但并不能很好的代表感知視覺(jué)質(zhì)量.表6 為部分網(wǎng)絡(luò)模型在基準(zhǔn)數(shù)據(jù)集Set5、Set14 和BSDS100 的×4 尺度上的MOS 對(duì)比,相比于PSNR和SSIM,MOS 更能代表感知視覺(jué)質(zhì)量的好壞.可以看出,在基準(zhǔn)數(shù)據(jù)集Set5、Set14 上采樣因子為×4 時(shí),RCAN 在客觀評(píng)價(jià)指標(biāo)PSNR 和SSIM上表現(xiàn)最好;但在主觀評(píng)價(jià)指標(biāo)MOS 上SRGAN表現(xiàn)最好.

表4 部分網(wǎng)絡(luò)模型在基準(zhǔn)數(shù)據(jù)集Set5、Set14 的平均PSNR 對(duì)比Table 4 The average PSNR comparison of some network models on the Set5 and Set14 benchmark datasets

表5 部分網(wǎng)絡(luò)模型在基準(zhǔn)數(shù)據(jù)集Set5、Set14 的平均SSIM 對(duì)比Table 5 The comparison of average SSIM of partial network models on the Set5 and Set14 benchmark datasets

表6 部分網(wǎng)絡(luò)模型在基準(zhǔn)數(shù)據(jù)集Set5、Set14 和BSDS100 的×4 尺度上的MOS 對(duì)比Table 6 The MOS comparison of some network models at ×4 of the benchmark datasets Set5,Set14 and BSDS100

如圖23 所示,在主觀視覺(jué)與PSNR 方面上,分別運(yùn)用Bicubic、SRCNN、EDSR、RCAN、EnhanceNet、SRGAN 以及ESRGAN 模型在Set14 和BSDS100 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),可以看出RCAN 模型的PSNR 最大;但在主觀視覺(jué)上,ESRGAN 生成的圖像最清晰,無(wú)論從顏色、紋理分布更接近HR圖像,RCAN 較為模糊,這也說(shuō)明了傳統(tǒng)客觀評(píng)價(jià)標(biāo) 準(zhǔn)的局限性.

圖23 部分模型的主觀視覺(jué)與PSNR 的比較Fig.23 Comparison of subjective vision and PSNR of partial models

4.2 運(yùn)行時(shí)間的對(duì)比

除了圖像質(zhì)量評(píng)估外,運(yùn)行時(shí)間也是評(píng)價(jià)網(wǎng)絡(luò)模型性能優(yōu)劣的重要指標(biāo)之一.運(yùn)行時(shí)間指測(cè)試時(shí)重建一張高分辨率圖像的時(shí)間.如表7 所示,其中“ —”代表未發(fā)現(xiàn)此項(xiàng).

表7 部分網(wǎng)絡(luò)模型在各測(cè)試數(shù)據(jù)集上的運(yùn)行時(shí)間對(duì)比Table 7 The comparison of running time of partial network models on each testing datasets

5 思考與展望

雖然深度學(xué)習(xí)的出現(xiàn),使基于單幅圖像超分辨率重建算法性能得到準(zhǔn)確率與速度的提升,但目前仍然存在很多不足:

1)基于無(wú)監(jiān)督學(xué)習(xí)的單幅圖像超分辨率重建算法的研究問(wèn)題

文獻(xiàn)[68,77]雖然提出了基于無(wú)監(jiān)督學(xué)習(xí)的超分辨率重建的算法,但這方面可供參考的文獻(xiàn)仍然很少,且目前獲取HR-LR 圖像對(duì)的主流方法依然包含很多主觀因素,不能很好地代替現(xiàn)實(shí)數(shù)據(jù)集.若采用無(wú)監(jiān)督學(xué)習(xí)的方法,無(wú)需大量樣本進(jìn)行訓(xùn)練,也可節(jié)約獲取大量數(shù)據(jù)集的時(shí)間,直接使用現(xiàn)實(shí)圖像進(jìn)行訓(xùn)練與測(cè)試,不依靠外部數(shù)據(jù)集,更能提高模型的泛化能力,因此研究基于無(wú)監(jiān)督學(xué)習(xí)的單幅圖像超分辨率重建算法很有必要.

2)盲超分辨率解決的問(wèn)題

盲超分辨率是指從高分辨率圖像到低分辨率圖像下采樣的尺度未知,需要預(yù)先估計(jì)模糊核.在模糊核不匹配時(shí),模型得到的SR 圖像會(huì)過(guò)于模糊或產(chǎn)生振鈴效應(yīng),只有在模糊核匹配時(shí),才會(huì)有較好的圖像超分辨率效果[100],因此估計(jì)退化模糊核是一個(gè)關(guān)鍵步驟.文獻(xiàn)[79?81]提出了關(guān)于此方面的解決方法,但盲超分辨率問(wèn)題仍然有很大的上升空間,如何構(gòu)建深度學(xué)習(xí)模型來(lái)解決盲超分辨率依舊是未來(lái)值得關(guān)注的問(wèn)題.

3)使用一種模型可實(shí)現(xiàn)任意倍率縮放的超分辨率算法的問(wèn)題

文獻(xiàn)[72]提出的Meta-SR 網(wǎng)絡(luò)模型,僅使用一種模型就實(shí)現(xiàn)了任意倍率的縮放(不限于整數(shù)),使重建圖像的尺寸大小不再拘泥于輸入圖像的如×2、×3、×4、×8、×16 等整數(shù)倍率,還可實(shí)現(xiàn)×1.2、×1.5 等小數(shù)倍率的圖像重建,這是一個(gè)很有價(jià)值的創(chuàng)新,解決了多年來(lái)被人們忽視但卻很重要的問(wèn)題,未來(lái)在此方向還會(huì)有更多的學(xué)者進(jìn)行研究探索與創(chuàng)新.

4)應(yīng)用到現(xiàn)實(shí)場(chǎng)景中的問(wèn)題

雖然從深度學(xué)習(xí)出現(xiàn)之后,在單幅圖像超分辨率算法上得到了很大的進(jìn)步與改良.但許多算法模型應(yīng)用到現(xiàn)實(shí)場(chǎng)景中,往往得不到預(yù)期的效果,甚至有時(shí)比傳統(tǒng)算法得到的圖像質(zhì)量還要差.如何提升模型的泛化能力,將其早日應(yīng)用到實(shí)踐當(dāng)中是當(dāng)前最為重要的問(wèn)題.未來(lái)的發(fā)展趨勢(shì)將會(huì)是傳統(tǒng)算法與神經(jīng)網(wǎng)絡(luò)的結(jié)合,既能發(fā)揮傳統(tǒng)算法先驗(yàn)知識(shí)的重要性,又能實(shí)現(xiàn)端到端高層語(yǔ)義特征的學(xué)習(xí),更好的解決現(xiàn)實(shí)場(chǎng)景中圖像超分辨率重建的問(wèn)題.

6 結(jié)論

超分辨率重建在計(jì)算機(jī)視覺(jué)領(lǐng)域具有重要的研究意義和應(yīng)用價(jià)值,本文首先介紹單幅圖像超分辨率重建的常用公共圖像數(shù)據(jù)集;然后,重點(diǎn)闡述基于深度學(xué)習(xí)的單幅圖像超分辨率重建方向的創(chuàng)新與進(jìn)展;最后,討論了單幅圖像超分辨率重建方向上存在的困難和挑戰(zhàn),并對(duì)未來(lái)的發(fā)展趨勢(shì)進(jìn)行了思考與展望.總體而言,深度學(xué)習(xí)為解決單幅圖像超分辨率重建問(wèn)題上提供了新的技術(shù),取得了較為顯著的成果,但將其應(yīng)用到現(xiàn)實(shí)場(chǎng)景中仍存在很多問(wèn)題,如現(xiàn)實(shí)生活中得到的低分辨率圖像并不是從高分辨率圖像雙三次下采樣得到的,而許多基于深度學(xué)習(xí)的超分辨率模型訓(xùn)練時(shí)都是將雙三次下采樣得到的低分辨率圖像作為輸入,測(cè)試時(shí)若將現(xiàn)實(shí)生活中的低分辨率圖像作為輸入,重建的效果往往不是很好等等諸多問(wèn)題.說(shuō)明目前深度學(xué)習(xí)技術(shù)還不夠成熟,有很大的上升空間,但其前景可期,且圖像超分辨率重建技術(shù)具有很大的實(shí)用價(jià)值,因此基于深度學(xué)習(xí)的單幅圖像超分辨率重建依然是一個(gè)亟待研究 的重點(diǎn)方向.

致謝

感謝山東大學(xué)賁晛燁教授在論文修改過(guò)程中的建議.

猜你喜歡
殘差分辨率損失
基于雙向GRU與殘差擬合的車(chē)輛跟馳建模
少問(wèn)一句,損失千金
胖胖損失了多少元
基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
EM算法的參數(shù)分辨率
玉米抽穗前倒伏怎么辦?怎么減少損失?
原生VS最大那些混淆視聽(tīng)的“分辨率”概念
基于深度特征學(xué)習(xí)的圖像超分辨率重建
一種改進(jìn)的基于邊緣加強(qiáng)超分辨率算法
菏泽市| 邢台县| 色达县| 沾益县| 清原| 汉川市| 平武县| 巴塘县| 新泰市| 阳曲县| 理塘县| 申扎县| 大余县| 磴口县| 甘德县| 土默特左旗| 威信县| 彭阳县| 玉龙| 淳化县| 长顺县| 三原县| 浦北县| 上林县| 东兴市| 安溪县| 耿马| 吉首市| 滨海县| 蒲城县| 枞阳县| 城口县| 瑞金市| 新营市| 咸宁市| 高尔夫| 嘉祥县| 吐鲁番市| 永春县| 商河县| 克山县|