劉郭琦 劉進(jìn)鋒
摘要:圖像超分辨率重建技術(shù)一直是計(jì)算機(jī)視覺(jué)中一個(gè)十分受重視和關(guān)注的熱點(diǎn)問(wèn)題,在醫(yī)療、遙感、監(jiān)控等領(lǐng)域都有著十分重要的研究?jī)r(jià)值。近年來(lái),伴隨著深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,圖像超分辨率重建技術(shù)被廣泛開(kāi)始應(yīng)用于更多計(jì)算機(jī)視覺(jué)的相關(guān)領(lǐng)域。本文首先梳理了圖像超分辨率重建的發(fā)展與現(xiàn)狀,然后對(duì)比總結(jié)了基于傳統(tǒng)技術(shù)與基于深度學(xué)習(xí)技術(shù)的相同點(diǎn)與不同點(diǎn)。最后討論了目前圖像超分辨率重建技術(shù)所面臨的潛在問(wèn)題,并對(duì)未來(lái)的發(fā)展方向做出了全新的展望。
關(guān)鍵詞:深度學(xué)習(xí);熱點(diǎn)問(wèn)題;圖像超分辨率重建技術(shù);傳統(tǒng)技術(shù);計(jì)算機(jī)視覺(jué)
中圖分類號(hào):TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)15-0014-03
Abstract:Image super-resolution reconstruction technology has always been a hot issue that has received great attention and attention in computer vision. It has very important research value in medical, remote sensing, surveillance and other fields. In recent years, with the vigorous development of deep learning technology, image super-resolution reconstruction technology has been widely used in more computer vision related fields. This article first combs the development and current situation of image super-resolution reconstruction, and then compares and summarizes the similarities and differences between traditional technology and deep learning technology. Finally, the potential problems faced by the current image super-resolution reconstruction technology are discussed,and made a new outlook for the future development direction.
Key words: Deep Learning; Hot issue; Image super-resolution reconstruction technology; Traditional technology;Computer vision
0引言
圖像超分辨率重建技術(shù)是一種由低分辨率圖像經(jīng)過(guò)處理恢復(fù)為高分辨率圖像的過(guò)程,該重建技術(shù)已經(jīng)運(yùn)用在很多領(lǐng)域。例如在醫(yī)療領(lǐng)域、遙感領(lǐng)域、監(jiān)控領(lǐng)域和圖像壓縮領(lǐng)域等。超分辨率圖像重建技術(shù)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)問(wèn)題,它發(fā)揮的作用也越來(lái)越重要。
圖像超分辨率重建技術(shù)可分為基于傳統(tǒng)的和基于深度學(xué)習(xí)的兩種方法。基于傳統(tǒng)的方法主要包括迭代反投影法、凸集投影法和插值法等。該類算法操作便捷,重建速度較快,但是由于引入的先驗(yàn)知識(shí)十分有限,會(huì)在重建后丟失很多圖像細(xì)節(jié),導(dǎo)致效果不好?;诓逯档姆椒ㄖ饕p三次差值法和最近鄰插值法等,雖然原理十分簡(jiǎn)單,重建速度也很快,但是重建后的圖像相對(duì)較模糊,實(shí)用性也不高。
隨著深度學(xué)習(xí)的崛起,基于深度學(xué)習(xí)的圖像超分辨重建方法逐漸成了近些年來(lái)研究的熱點(diǎn)。它是通過(guò)各種學(xué)習(xí)模型將低分辨率圖像轉(zhuǎn)化為高分辨率圖像,使圖像變得更清晰,細(xì)節(jié)也得到了更多的恢復(fù),與傳統(tǒng)方法相比該類方法的重建效果較好,因此相關(guān)研究也越來(lái)越受到大家的關(guān)注。
本文首先介紹了圖像超分辨率重建技術(shù)的當(dāng)前研究現(xiàn)狀,然后詳細(xì)總結(jié)了基于傳統(tǒng)和基于深度學(xué)習(xí)的超分辨率的算法,并闡述了其不同算法各自的特點(diǎn),最后總結(jié)了圖像超分辨率算法的未來(lái)發(fā)展方向。
1基于傳統(tǒng)的方法
圖像超分辨率的概念最早出現(xiàn)在光學(xué)領(lǐng)域。在該領(lǐng)域中,超分辨率是指一種圖像復(fù)原衍射的數(shù)據(jù)過(guò)程。早在60年代中期J.L.Harris和J.w.Goodman就分別在1964年和1965年提出一種稱為Harris-Goodman頻譜外推的方法[1],但仿真效果并不理想。
首先傳統(tǒng)的圖像超分辨率方法主要分為基于重建的和基于插值的?;谥亟ǖ姆椒ㄖ饕譃轭l域法[2]和空域法。頻域法通常消除頻譜混疊從而提升圖像分辨率,但它可用到的先驗(yàn)知識(shí)十分有限。空域法主要是將多個(gè)低分辨率圖像的重疊信息進(jìn)行相互的補(bǔ)充,以此重建出一個(gè)具有高分辨率的圖像,采用的方法包括后驗(yàn)概率估計(jì)法[3]、迭代投影法[4]、凸集投影法[5]等??沼蚍ň哂泻軓?qiáng)的先驗(yàn)約束能力,但是由于場(chǎng)景單一,導(dǎo)致重建的圖像效果并不好,并且受先驗(yàn)影響很大,重建效果也不穩(wěn)定。
20世紀(jì)早期,研究者們主要采用的是基于插值的方法來(lái)解決單幅圖像超分辨率的問(wèn)題,例如最近鄰近值[6]、雙線性插值[7]和雙三次插值[8]。
基于插值的超分率圖像重建如圖1所示,通過(guò)輸入低分辨率圖像,經(jīng)過(guò)圖像預(yù)處理、上采樣、圖像重建和圖像配準(zhǔn)等步驟生成重建的高分辨率圖像。
最近鄰近插值是一種簡(jiǎn)單的插值方法,當(dāng)圖片需要放大時(shí),缺少的像素會(huì)直接通過(guò)最近原有的顏色生成,但這樣會(huì)產(chǎn)生十分明顯的鋸齒,圖像會(huì)比較模糊。
雙線性插值法是在兩個(gè)變量插值函數(shù)上進(jìn)行線性插值,然后再進(jìn)行相應(yīng)的擴(kuò)展,它的核心是在兩個(gè)方向上分別進(jìn)行線性插值。雙線性插值法的計(jì)算比最鄰近算法復(fù)雜,計(jì)算量也要偏大,但沒(méi)有不連續(xù)的點(diǎn),同時(shí)它具有低通濾波的性質(zhì),致使高頻分量受損從而使圖像產(chǎn)生了模糊。
雙三次插值的目的就是通過(guò)找到一種關(guān)系或系數(shù),通過(guò)像素找到影響因子,并根據(jù)影響因子來(lái)獲取目標(biāo)圖像對(duì)應(yīng)點(diǎn)的像素值,從而達(dá)到圖像縮放的目的。雙三次插值法是目前用得比較多的重建方法。
雙三次函數(shù)形式如下:
使用基于插值方法是在圖像沒(méi)有引入額外信息的情況下,在連續(xù)假設(shè)下重建,導(dǎo)致重建圖像的輪廓和邊緣比較模糊,細(xì)節(jié)和紋理不能得到很好的恢復(fù),所以重構(gòu)圖像都非常模糊?;诓逯档某直媛手亟ㄋ惴m然算法簡(jiǎn)單,運(yùn)行速度快,但是重建效果并不理想,穩(wěn)定性較差。
2基于深度學(xué)習(xí)的方法
超分辨率卷積神經(jīng)網(wǎng)絡(luò)(SRCNN)[9]是采用深度學(xué)習(xí)解決超分辨率問(wèn)題的基本方法。SRCNN有三層網(wǎng)絡(luò),第一層負(fù)責(zé)補(bǔ)丁提取和LR尺度上的特征表示,中間的一層用于逼近非線性映射函數(shù),第三層重構(gòu)超分辨率圖像。SRCNN通常被認(rèn)為是淺層結(jié)構(gòu),由于結(jié)構(gòu)過(guò)于簡(jiǎn)單,細(xì)節(jié)處理得不夠,同時(shí)非線性映射層中有太多參數(shù),所以訓(xùn)練速度相對(duì)較慢。
基于此,Kim等人提出了一個(gè)非常深的殘差網(wǎng)絡(luò)超深度卷積網(wǎng)絡(luò)(VDSR)[10]。VDSR具有20層網(wǎng)絡(luò)結(jié)構(gòu),每一層都包含小型過(guò)濾器。從輸入圖像到輸出,通過(guò)跳躍連接使卷積濾波器學(xué)習(xí)估計(jì)和真實(shí)圖像之間的殘差。梯度裁剪策略是以高學(xué)習(xí)率訓(xùn)練網(wǎng)絡(luò),因此盡管架構(gòu)龐大,但仍可加快收斂速度。增加網(wǎng)絡(luò)的深度也可以提高結(jié)果的準(zhǔn)確性。
隨后Kim等人又[11]提出了深度遞歸卷積(DRCN)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用了遞歸結(jié)構(gòu),方便增加網(wǎng)絡(luò)的長(zhǎng)度,同時(shí)減少參數(shù)的數(shù)量,通過(guò)遞歸結(jié)構(gòu)的循環(huán)使用,從相同的簡(jiǎn)單過(guò)濾器來(lái)提取圖像特征。來(lái)自遞歸塊的所有中間輸出和網(wǎng)絡(luò)的輸入都將被送到卷積層以生成輸出預(yù)測(cè)。通用遞歸網(wǎng)絡(luò)性能的限制之一是梯度爆炸或消失,這會(huì)導(dǎo)致不穩(wěn)定并降低網(wǎng)絡(luò)的學(xué)習(xí)能力。作者通過(guò)兩種策略解決了這個(gè)問(wèn)題:遞歸監(jiān)督和跳過(guò)連接。遞歸監(jiān)督意味著遞歸塊的所有中間輸出都參與輸出預(yù)測(cè),并且每個(gè)輸出預(yù)測(cè)均受均方損失監(jiān)督,輸出預(yù)測(cè)之間的差異會(huì)平滑參數(shù)的梯度。此外,網(wǎng)絡(luò)的輸入和遞歸塊的輸出之間的跳躍連接使網(wǎng)絡(luò)需要更少的遞歸層,從而減輕了梯度爆炸和消失的問(wèn)題。與DRCN類似,深度遞歸殘差網(wǎng)絡(luò)(DRRN)[12]應(yīng)用遞歸學(xué)習(xí)。但是與DRCN相反,DRRN中的遞歸單元是修改后的ResNet單元,它具有52層卷積層,它的遞歸學(xué)習(xí)用于控制模型參數(shù),同時(shí)加深深度。廣泛的基準(zhǔn)評(píng)估表明,DRRN明顯優(yōu)于SISR的最新技術(shù)水平,同時(shí)利用更少的參數(shù)。但網(wǎng)絡(luò)優(yōu)化結(jié)果一般,提升效果并不明顯。
增強(qiáng)型深度殘差網(wǎng)絡(luò)EDSR[14]主要使用了增強(qiáng)的ResNet[15],移除了批歸一化(BN)層[16],也就是去除了超分辨率殘差層中多余的模塊,使用了損失函數(shù)L1(loss)訓(xùn)練,從而擴(kuò)大了模型的尺寸來(lái)提升結(jié)果質(zhì)量。圖2介紹了ResNet模型與EDSR模型網(wǎng)絡(luò)結(jié)構(gòu)層的區(qū)別。
批歸一化層的計(jì)算量和一個(gè)卷積層幾乎持平,移除該層后訓(xùn)練時(shí)可以節(jié)約大概40%的空間。太多的殘差塊會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定,因此作者采取了常數(shù)縮放層的方法,即殘差塊在相加前,經(jīng)過(guò)卷積處理的一路乘以一個(gè)小數(shù)(比如作者用了0.1),這樣可以保證訓(xùn)練更加穩(wěn)定。EDSR模型通過(guò)合理的模型壓縮給網(wǎng)絡(luò)減輕了很大的負(fù)擔(dān),又很好地提高了學(xué)習(xí)速率,超分辨率圖像效果也很好。但是對(duì)細(xì)節(jié)豐富的圖像,其重建后的圖像較為平滑,細(xì)節(jié)依然不夠清晰,還有很大的提升空間。
2017年Lai等人提出了拉普拉斯金字塔網(wǎng)絡(luò)(LapSRN)[17],用于解決超分辨率問(wèn)題。其主要思想是逐步升級(jí)功能。它的網(wǎng)絡(luò)結(jié)構(gòu)有兩個(gè)分支:一個(gè)分支用于特征提取,另一個(gè)分支用于重構(gòu)。卷積層的輸出分為兩層:一層用于圖像重建分支中的殘差信息,另一層用于下一個(gè)上采樣操作的特征提取。圖像重建分支中的反卷積層使用雙線性核初始化,這對(duì)于強(qiáng)制特征提取分支來(lái)學(xué)習(xí)殘差特征至關(guān)重要。圖像重建分支負(fù)責(zé)學(xué)習(xí)低頻信息,而特征提取分支則細(xì)化細(xì)節(jié)并將高頻信息饋送到圖像重建分支。在金字塔的每一級(jí),模型以低分辨率特征圖作為輸入,預(yù)測(cè)高頻殘差,使用反卷積層向上采樣,網(wǎng)絡(luò)通過(guò)逐步重建,在一次前饋過(guò)程中產(chǎn)生多尺度進(jìn)行預(yù)測(cè),可以更好地利用計(jì)算資源。
在最新的研究中,Zhang等人提出了一個(gè)殘差密集網(wǎng)絡(luò)(RDN)[18]來(lái)解決超分辨率問(wèn)題。通過(guò)整合了密集模塊和殘差模塊,由此形成了殘差密集模塊。例如,在超深度卷積網(wǎng)絡(luò)(VDSR)中,長(zhǎng)跳連接將低頻信息傳送到輸出,網(wǎng)絡(luò)中的卷積層被迫學(xué)習(xí)高頻信息,因此,簡(jiǎn)化了學(xué)習(xí)任務(wù)。密集塊提高了網(wǎng)絡(luò)描述復(fù)雜功能的能力,而剩余稠密塊同時(shí)具有剩余塊和密集塊的優(yōu)點(diǎn),因此有望提供更好的性能。
目前,超分辨率重建技術(shù)的發(fā)展趨勢(shì)主要是從網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、學(xué)習(xí)策略、評(píng)價(jià)指標(biāo)、無(wú)監(jiān)督學(xué)習(xí)、實(shí)際場(chǎng)景等幾個(gè)方面展開(kāi)。網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)包括融合局部的信息和全局的信息,設(shè)計(jì)輕量化網(wǎng)絡(luò)結(jié)構(gòu),對(duì)升采樣的改進(jìn)等,學(xué)習(xí)策略主要是對(duì)精確表達(dá)圖像差異的損失函數(shù)的設(shè)計(jì)和尋找適合圖像歸一化的方法,評(píng)價(jià)指標(biāo)是指全面評(píng)價(jià)超分辨率圖像質(zhì)量的主觀統(tǒng)一指標(biāo),還有對(duì)于無(wú)監(jiān)督學(xué)習(xí)的超分辨圖像的研究和實(shí)際場(chǎng)景中的應(yīng)用等,因此在未來(lái),超分辨率圖像的重建技術(shù)還有很大的發(fā)展空間。
3結(jié)語(yǔ)
本文主要從傳統(tǒng)方法與深度學(xué)習(xí)方法這兩方面介紹了近20多年來(lái)主流的自然圖像超分辨率重建技術(shù)。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的方法重建的圖像效果更好,細(xì)節(jié)部分也更為完整。但它也存在缺點(diǎn),例如怎樣設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),如何更好地運(yùn)用在實(shí)際的問(wèn)題中,如何將更多的學(xué)習(xí)機(jī)制運(yùn)用在超分辨率重建技術(shù)中等,這些都是需要思考和研究的問(wèn)題。對(duì)未來(lái)的展望,基于深度學(xué)習(xí)的單圖像超分辨率技術(shù)展現(xiàn)了巨大潛力,在未來(lái)的很長(zhǎng)的一段時(shí)間內(nèi),超分辨重建技術(shù)都將是計(jì)算機(jī)視覺(jué)的研究熱點(diǎn)問(wèn)題,并伴隨著深度學(xué)習(xí)的發(fā)展,將廣泛應(yīng)用于各個(gè)領(lǐng)域。
參考文獻(xiàn):
[1] Qi S X,Ma J,Lin J,et al.Unsupervised ship detection based on saliency and S-HOG descriptor from optical satellite images[J].IEEE Geoscience and Remote Sensing Letters,2015,12(7):1451-1455.
[2]Tsai R. Multiframe? image? restoration? and? registration[J]. Advance Computer Visual and Image Processing, 1984(1): 317-339.
[3] Schultz R R,Stevenson R L.A Bayesian approach to image expansion for improved definition[J].IEEE Transactions on Image Processing,1994,3(3):233-242.
[4] Irani M,Peleg S.Super resolution from image sequences[C]//[1990] Proceedings.10th International Conference on Pattern Recognition.June 16-21,1990,Atlantic City,NJ,USA.IEEE,1990:115-120.
[5] Stark H,Oskoui P.High-resolution image recovery from image-plane arrays,using convex projections[J].Josa A,1989,6(11):1715-1726.
[6] Belgiu M,Dr?gu? L.Random forest in remote sensing:a review of applications and future directions[J].ISPRS Journal of Photogrammetry and Remote Sensing,2016,114:24-31.
[7] 馬鑫,汪西原,胡博.基于ENVI的CART自動(dòng)決策樹(shù)多源遙感影像分類——以北京市為例[J].寧夏工程技術(shù),2017,16(1):63-66.
[8] Deng J,Dong W,Socher R,et al.ImageNet:a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.June 20-25,2009,Miami,F(xiàn)L,USA.IEEE,2009:248-255.
[9] Dong C,Loy C C,He K M,et al.Learning a deep convolutional network for image super-resolution[M]//Computer Vision – ECCV 2014.Cham:Springer International Publishing,2014:184-199.
[10]J. Kim, J. Kwon Lee, K. Mu LeeAccurate image super-resolution using very deep convolutional networks Proceedings of the IEEE conference on computer vision and pattern recognition,2016:1646-1654
[11] Kim J,Lee J K,Lee K M.Deeply-recursive convolutional network for image super-resolution[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:1637-1645.
[12] Tai Y,Yang J,Liu X M.Image super-resolution via deep recursive residual network[J].2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:2790-2798.
[13] S. Ioffe, C. SzegedyBatch normalization: accelerating deep network training by reducing internal covariate shift -arXiv:1502.03167 (2015).
[14] Lim B,Son S,Kim H,et al.Enhanced deep residual networks for single image super-resolution[J].2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW),2017:1132-1140.
[15] Shahriari M,Bergevin R.Land-use scene classification:a comparative study on bag of visual word framework[J].Multimedia Tools and Applications,2017,76(21):23059-23075.
[16] Wu S L,Chen H D,Bai Y,et al.A remote sensing image classification method based on sparse representation[J].Multimedia Tools and Applications,2016,75(19):12137-12154.
[17]W.-S. Lai, J.-B. Huang, N. Ahuja, M.-H. YangDeep laplacian pyramid networks for fast and accurate super resolution IEEE conference on computer vision and pattern recognition, 2017 (2).
[18] Zhang Y L,Tian Y P,Kong Y,et al.Residual dense network for image super-resolution[J].2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018:2472-2481.
【通聯(lián)編輯:唐一東】