師奕峰,陳 楠,朱 芳,毛文彪,李發(fā)明,王添福,張濟(jì)清,姚立斌
面向真實(shí)場(chǎng)景的單幀紅外圖像超分辨率重建
師奕峰,陳 楠,朱 芳,毛文彪,李發(fā)明,王添福,張濟(jì)清,姚立斌
(昆明物理研究所,云南 昆明 650223)
現(xiàn)有的紅外圖像超分辨率重建方法主要依賴實(shí)驗(yàn)數(shù)據(jù)進(jìn)行設(shè)計(jì),但在面對(duì)真實(shí)環(huán)境中的復(fù)雜退化情況時(shí),它們往往無法穩(wěn)定地表現(xiàn)。針對(duì)這一挑戰(zhàn),本文提出了一種基于深度學(xué)習(xí)的新穎方法,專門針對(duì)真實(shí)場(chǎng)景下的紅外圖像超分辨率重建,構(gòu)建了一個(gè)模擬真實(shí)場(chǎng)景下紅外圖像退化的模型,并提出了一個(gè)融合通道注意力與密集連接的網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)旨在增強(qiáng)特征提取和圖像重建能力,從而有效地提升真實(shí)場(chǎng)景下低分辨率紅外圖像的空間分辨率。通過一系列消融實(shí)驗(yàn)和與現(xiàn)有超分辨率方法的對(duì)比實(shí)驗(yàn),本文方法展現(xiàn)了其在真實(shí)場(chǎng)景下紅外圖像處理中的有效性和優(yōu)越性。實(shí)驗(yàn)結(jié)果顯示,本文方法能夠生成更銳利的邊緣,并有效地消除噪聲和模糊,從而顯著提高圖像的視覺質(zhì)量。
紅外圖像;深度學(xué)習(xí);超分辨;真實(shí)場(chǎng)景;退化模型
紅外成像技術(shù)廣泛應(yīng)用于安防、電力、交通、醫(yī)療、科研等領(lǐng)域。紅外熱像儀是紅外熱像技術(shù)的核心產(chǎn)品,是紅外熱像技術(shù)的重要組成部分,高分辨率的紅外熱像儀能夠提供更加清晰的紅外圖像,從而更好地滿足用戶的需求。但與可見光成像技術(shù)相比,紅外成像技術(shù)的圖像分辨率較低,原因主要有以下幾點(diǎn):①紅外波段的波長相比于可見光波長較長,根據(jù)瑞利分辨率準(zhǔn)則,較長的波長會(huì)導(dǎo)致成像系統(tǒng)空間分辨率降低;②紅外探測(cè)器的像元尺寸通常較大,這是因?yàn)橹圃爝^程中需要權(quán)衡探測(cè)器靈敏度和空間分辨率,較大的像素尺寸會(huì)減少單位面積上的像素?cái)?shù)量,從而降低空間分辨率;③紅外探測(cè)器制造過程中可能會(huì)遇到更多技術(shù)挑戰(zhàn),如非均勻性、材料缺陷、銦柱互連的成功率等,這些問題可能導(dǎo)致成像系統(tǒng)在空間分辨率方面的性能下降。此外,在某些應(yīng)用中,紅外熱像儀為了在成本和體積上達(dá)到平衡,可能需要選擇具有較低空間分辨率的探測(cè)器。盡管紅外成像技術(shù)在空間分辨率方面存在上述挑戰(zhàn),但隨著科學(xué)技術(shù)的不斷發(fā)展,超分辨率重建技術(shù)也應(yīng)運(yùn)而生,該方法能夠在不增加探測(cè)器像元數(shù)量的前提下利用算法提升分辨率。
單幀圖像超分辨(single-frame image super-resolution, SISR)是指從一幅低分辨率(low resolution, LR)圖像中恢復(fù)出具有更高分辨率(high resolution, HR)的圖像。傳統(tǒng)的超分辨率方法主要包括插值方法、基于學(xué)習(xí)的方法和基于稀疏表示的方法等。然而,這些方法在面對(duì)復(fù)雜真實(shí)場(chǎng)景的紅外圖像時(shí),往往受到噪聲、模糊和退化等因素的影響,性能受限。因此,如何在真實(shí)場(chǎng)景中有效地提高紅外圖像的空間分辨率成為了一個(gè)亟待解決的問題。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)在圖像處理領(lǐng)域,尤其是可見光圖像超分辨率上,取得了令人矚目的成果[1-6]。這些基于深度學(xué)習(xí)的超分辨率方法能夠有效地從眾多的訓(xùn)練樣本中學(xué)習(xí)圖像的高階特征,從而顯著提升圖像的空間分辨率。盡管大部分現(xiàn)有方法主要針對(duì)可見光圖像,但也有一些研究嘗試將深度學(xué)習(xí)應(yīng)用于紅外圖像超分辨率[7-15]。然而,這些紅外超分方法在實(shí)際應(yīng)用中并未達(dá)到預(yù)期效果。這暗示在真實(shí)場(chǎng)景下,紅外圖像超分辨率重建的深度學(xué)習(xí)方法仍然存在較大的優(yōu)化空間。
本文針對(duì)真實(shí)場(chǎng)景下的紅外圖像超分辨率重建問題,提出了一種基于深度學(xué)習(xí)的方法。該研究的主要貢獻(xiàn)可以歸納為以下兩個(gè)方面:
1)構(gòu)建了紅外圖像退化模型,模擬真實(shí)場(chǎng)景下的紅外圖像退化。利用此模型生成了模擬真實(shí)場(chǎng)景的紅外圖像訓(xùn)練數(shù)據(jù)集,確保處理各種真實(shí)退化情況。
2)提出了一個(gè)融合了通道注意力[16]與密集連接[17]的網(wǎng)絡(luò)結(jié)構(gòu)。此結(jié)構(gòu)旨在增強(qiáng)特征提取及圖像重建能力,從而有效地對(duì)真實(shí)場(chǎng)景下的低分辨率圖像進(jìn)行超分辨率重建。
在深度學(xué)習(xí)領(lǐng)域,超分辨率重建常被建模為一個(gè)端到端的監(jiān)督學(xué)習(xí)任務(wù)。利用低分辨率(low resolution, LR)圖像和其對(duì)應(yīng)的高分辨率(high resolution, HR)圖像作為訓(xùn)練數(shù)據(jù),目標(biāo)是確定一個(gè)非線性映射,也被稱為模型,此模型旨在將LR圖像映射到HR圖像。訓(xùn)練中使用的損失函數(shù)用于度量模型輸出與實(shí)際HR圖像之間的偏差。此損失函數(shù)可以基于像素(例如均方誤差損失或L1損失)或基于感知(例如感知損失)。通過最小化損失函數(shù),可以逐步優(yōu)化模型,使其能夠?qū)R圖像重建為更高質(zhì)量的HR圖像。因此,超分辨率重建問題可以被建模為以下優(yōu)化問題:
式中:為損失函數(shù);為模型;為模型中的參數(shù);LR代表LR圖像;HR代表HR圖像。
目前,CNN在可見光圖像超分辨率重建領(lǐng)域展現(xiàn)出了很好的性能,各種深度學(xué)習(xí)方法的發(fā)展,如SRCNN(super-resolution convolutional neural network)[3]、ESPCN(efficient sub-pixel convolutional neural network)[4]、EDSR(enhanced deep super-resolution network)[5]、ESRGAN(enhanced super-resolution generative adversarial network)[6]等,為可見光圖像超分辨率問題提供了豐富的解決方案。SRCNN作為第一個(gè)成功應(yīng)用于超分辨率問題的CNN模型,其優(yōu)點(diǎn)在于采用三層網(wǎng)絡(luò)結(jié)構(gòu)來從LR圖像中學(xué)習(xí)復(fù)雜的非線性映射關(guān)系以重建HR圖像,但其網(wǎng)絡(luò)結(jié)構(gòu)較為簡單,可能無法獲取圖像的深層次特征。ESPCN進(jìn)一步優(yōu)化了性能和計(jì)算效率,它主要在LR空間中執(zhí)行計(jì)算,大大降低了運(yùn)算量,然后通過亞像素卷積層,將多通道LR特征圖直接排列得到HR圖像,避免了在HR空間上的昂貴計(jì)算,但它可能在處理某些復(fù)雜圖像時(shí)效果不理想。而EDSR和ESRGAN則利用了更深層次的網(wǎng)絡(luò)結(jié)構(gòu)和新的技術(shù)如殘差學(xué)習(xí)和GANs,以提取更精細(xì)的圖像特征并生成更清晰的高分辨率圖像,雖然這兩種方法能夠產(chǎn)生高質(zhì)量的結(jié)果,但由于網(wǎng)絡(luò)深度和復(fù)雜度較高,需要較大的計(jì)算資源和處理時(shí)間。
在紅外圖像超分辨率重建領(lǐng)域,許多研究團(tuán)隊(duì)提出了各種方法和技術(shù)。這些方法大致可歸為以下類:
1)提升計(jì)算效率的方法
Sun等人[7]提出了一種基于縮放機(jī)制的快速紅外圖像超分辨率方法,旨在克服現(xiàn)有方法在速度和精度上的性能限制。該方法引入了一種反卷積層和池化層相結(jié)合的縮放機(jī)制,大大減少了計(jì)算復(fù)雜度。Oz等人[10]的方法主要在LR域內(nèi)完成大部分計(jì)算,聚合網(wǎng)絡(luò)中每層的結(jié)果以實(shí)現(xiàn)更好的信息流。其所采用的深度可分離卷積,只需大約300k次乘積累加計(jì)算,進(jìn)一步降低計(jì)算復(fù)雜度。
2)提升模型特征提取和重建能力的方法
Suryanarayana等人[8]針對(duì)低密度焦平面陣列的紅外成像系統(tǒng),設(shè)計(jì)了一種基于多尺度顯著性檢測(cè)和深度小波殘差學(xué)習(xí)的超分辨率技術(shù)。該方法整合顯著性特征圖到LR圖像的高頻子帶中,然后通過深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的殘差進(jìn)行融合。Zou等人[11]提出了一種基于跳躍連接的卷積神經(jīng)網(wǎng)絡(luò)的紅外圖像超分辨率重建方法。該方法引入全局殘差學(xué)習(xí)和局部殘差學(xué)習(xí),降低了計(jì)算復(fù)雜性并加速了網(wǎng)絡(luò)收斂。李方彪等人[12]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的多幀紅外圖像超分辨率重建方法。其針對(duì)GAN(Generative Adversarial Network)在圖像重建后可能出現(xiàn)的過度平滑和缺乏高頻細(xì)節(jié)信息的問題,對(duì)LR圖像序列進(jìn)行運(yùn)動(dòng)補(bǔ)償,利用權(quán)值表示卷積層對(duì)補(bǔ)償后的圖像序列進(jìn)行權(quán)值轉(zhuǎn)換計(jì)算。胡蕾等人[14]設(shè)計(jì)了一種改進(jìn)的SRGAN算法來提高紅外圖像的分辨率。該改進(jìn)包括在生成網(wǎng)絡(luò)中使用密集殘差網(wǎng)絡(luò)獲取各網(wǎng)絡(luò)層提取的圖像特征以保留圖像的更多高頻信息。
3)結(jié)合其他先驗(yàn)知識(shí)進(jìn)行優(yōu)化的方法
Yao等人[9]提出了一種基于判別字典和深度殘差網(wǎng)絡(luò)的紅外圖像超分辨率方法。該方法結(jié)合了壓縮感知和深度學(xué)習(xí)的優(yōu)點(diǎn),引入了一種判別字典學(xué)習(xí)方法,通過這種方式從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)一個(gè)共享的子字典和一系列特定的子字典,以更精確地表達(dá)每個(gè)圖像的特征。魏子康等人[13]提出了一種改進(jìn)的深度復(fù)合殘差網(wǎng)絡(luò)模型。該模型改進(jìn)了原有的殘差塊,充分利用殘差塊內(nèi)部的所有卷積層特征信息,提高生成圖像的質(zhì)量。同時(shí),采用遷移學(xué)習(xí)的方法,在深度網(wǎng)絡(luò)結(jié)構(gòu)中增強(qiáng)圖像特征信息,使模型性能更穩(wěn)定。邱德粉等人[15]提出了一種新的神經(jīng)網(wǎng)絡(luò)模型,該模型使用HR可見光圖像引導(dǎo)紅外圖像進(jìn)行超分辨率重建。該方法通過基于引導(dǎo)Transformer的信息引導(dǎo)與融合方法,從HR可見光圖像中搜索相關(guān)紋理信息,并將這些相關(guān)紋理信息與LR紅外圖像的信息融合,生成合成特征。然后通過超分辨率重建子網(wǎng)絡(luò)對(duì)這個(gè)合成特征進(jìn)行處理,得到最終的超分辨率紅外圖像。
雖然這些方法在實(shí)驗(yàn)數(shù)據(jù)上展現(xiàn)了一定的性能,但它們?cè)谡鎸?shí)場(chǎng)景下的適應(yīng)性還有待進(jìn)一步探討??紤]到超分辨率技術(shù)面臨的挑戰(zhàn),這些方法在處理真實(shí)世界數(shù)據(jù)時(shí)可能會(huì)遇到如噪聲干擾、數(shù)據(jù)差異和模型過擬合等問題。未來研究的方向應(yīng)在提高這些方法在實(shí)際場(chǎng)景中的泛化能力。
在基于深度學(xué)習(xí)的圖像超分辨率重建中,為了彌補(bǔ)數(shù)據(jù)的不足和提高模型的泛化能力,研究人員通常會(huì)借助于退化模型合成LR圖像。退化模型描述了HR圖像在經(jīng)受各種影響,如模糊、噪聲和下采樣等因素后,退化為LR圖像的過程。式(2)是超分辨率重建研究中常用的經(jīng)典退化模型:
LR=(HR?)↓s+(2)
盡管上述經(jīng)典退化模型對(duì)于某些情況有一定的效果,它們可能在面對(duì)某些真實(shí)場(chǎng)景的復(fù)雜退化現(xiàn)象時(shí)表現(xiàn)不足,例如面對(duì)紅外圖像傳感器產(chǎn)生的噪聲和由于移動(dòng)引起的模糊。為了更有效地恢復(fù)紅外圖像的細(xì)節(jié),有必要采納或設(shè)計(jì)更為細(xì)致和貼近實(shí)際的退化模型。近些年,許多專注于可見光超分辨率的研究者也意識(shí)到這一點(diǎn),開始探索更為精細(xì)的退化模型以優(yōu)化圖像細(xì)節(jié)的恢復(fù)。
Zhang等人[18]提出了一個(gè)由隨機(jī)打亂的模糊、下采樣和噪聲退化組成的退化模型。該模型中,模糊核從各向同性和各向異性高斯模糊核中隨機(jī)選取,下采樣是通過從最近、雙線性和雙三次插值中隨機(jī)選擇的方式實(shí)現(xiàn),而噪聲則是通過添加不同噪聲等級(jí)的高斯噪聲、不同質(zhì)量因子的JPEG壓縮來模擬。
考慮到圖像可能會(huì)經(jīng)過多次編輯、傳輸處理,為了更好地模擬該類退化,Wang等人[19]提出了高階退化模型。該模型不同于傳統(tǒng)的一階退化模型僅進(jìn)行一次處理,而是進(jìn)行多次重復(fù)處理,以更好地模擬實(shí)際環(huán)境中的各種圖像退化。雖然這個(gè)改進(jìn)的高階退化過程并不能完全覆蓋真實(shí)世界中的所有退化情況,但它確實(shí)擴(kuò)大了超分辨率方法所能解決的退化邊界。
雖然上述兩個(gè)模型在模擬退化過程中考慮了全譜的退化類型,但卻忽略了許多在真實(shí)世界中常見的特殊情況。為了解決這個(gè)問題,Zhang等人[20]提出了統(tǒng)一門控退化模型,可以通過隨機(jī)門控制器生成廣泛的退化情況,包括經(jīng)典退化和復(fù)雜退化,以及許多其他特殊情況。
總體而言,這些模型都在模擬真實(shí)世界退化的準(zhǔn)確性和完備性方面做出了一定的進(jìn)步,為當(dāng)前的超分辨率研究提供了寶貴的參考。值得注意的是,盡管這些研究主要集中在可見光領(lǐng)域,但紅外圖像與可見光圖像在某些退化方面存在相似性。因此,結(jié)合并引入這些先進(jìn)的退化模型至紅外超分辨率領(lǐng)域或許能為真實(shí)場(chǎng)景下的紅外圖像超分辨率重建提供新的思路和方向。
為了準(zhǔn)確地模擬紅外圖像的退化,并克服經(jīng)典退化模型的局限性,本文提出了一種更加接近實(shí)際情況的退化模型,如圖1所示。本模型綜合了二階退化模型[19]與門控退化模型[20]的先進(jìn)研究成果,全面考慮了影響紅外成像質(zhì)量的各種因素。與常規(guī)模型相比,所提出的退化模型不僅涵蓋了如高斯模糊和高斯白噪聲這類常見退化因子,還創(chuàng)新地引入了散粒噪聲、盲元、運(yùn)動(dòng)模糊等更復(fù)雜的退化情況,從而更全面地再現(xiàn)了紅外圖像在實(shí)際應(yīng)用中的退化特性。
圖1 本文提出的紅外圖像退化模型
本文所提出的退化模型可描述為下式:
=(1)(2)…(m) (4)
式中:表示一階退化;2表示二階退化;D表示第個(gè)退化因子,且D?{b,r,n,j},b、r、n和j分別代表模糊、縮放、噪聲和JPEG壓縮;表示恒等變換;表示門控激活函數(shù),為服從二項(xiàng)分布(1, 0.5)的隨機(jī)變量(即,每個(gè)退化因子有一半的概率不進(jìn)行任何處理)。通過將退化操作應(yīng)用兩次,可以模擬各種可能的退化組合,從而獲得更為多樣化的LR圖像。接下來將介紹每個(gè)退化因子的細(xì)節(jié)。
1)模糊(b):模糊操作主要用于模擬成像過程中的光學(xué)模糊現(xiàn)象,如失焦、運(yùn)動(dòng)模糊等。本文采用的模糊核從高斯模糊核、廣義高斯模糊核和臺(tái)形模糊核中隨機(jī)選取,這些模糊核的概率密度函數(shù)分別為:
式中:是歸一化因子;是協(xié)方差矩陣;=[,]T是像素坐標(biāo);是形狀控制參數(shù)。協(xié)方差矩陣可以進(jìn)一步表示為:
式中:1和2是模糊核沿水平和垂直兩個(gè)方向的標(biāo)準(zhǔn)差;是旋轉(zhuǎn)角度。實(shí)驗(yàn)中,選取高斯模糊、廣義高斯模糊和臺(tái)形模糊的概率分別為0.7、0.15和0.15;模糊核的大小從{3,5,7,…, 21}中隨機(jī)選??;標(biāo)準(zhǔn)差1和2從均勻分布[0.2,3]中隨機(jī)采樣;旋轉(zhuǎn)角從均勻分布[0,p]中隨機(jī)采樣;對(duì)于廣義高斯模糊和臺(tái)形模糊,形狀參數(shù)分別從均勻分布[0.5,4]和[1,2]中隨機(jī)采樣。
2)縮放(r):在退化模型的構(gòu)建中,縮放操作是關(guān)鍵步驟。不同于其他方法僅進(jìn)行單次下采樣直接達(dá)到目標(biāo)尺寸,本文采用的二階退化模型允許圖像在第一次縮放時(shí)進(jìn)行隨機(jī)的下采樣或上采樣,隨后在第二次縮放時(shí)再調(diào)整至目標(biāo)尺寸。實(shí)驗(yàn)中,縮放過程通過插值方法實(shí)現(xiàn),插值算法將從線性插值、雙三次插值和面積插值中等概率選取;第一次縮放的縮放因子從均勻分布[0.2,2]中隨機(jī)采樣。
2.公共危機(jī)類型。公共危機(jī)事件有多種,分類方法也很多,其中最傳統(tǒng)的劃分可分為:一種是自然原因造成的,例如地震、臺(tái)風(fēng)、水災(zāi)、火山爆發(fā)、海嘯、雪災(zāi)、干旱、泥石流等自然災(zāi)害;另一種是社會(huì)原因造成的,比如戰(zhàn)爭(zhēng)、罷工、社會(huì)騷亂、恐怖襲擊、輿論危機(jī)等等。但是在現(xiàn)代社會(huì)里,要精確區(qū)分公共危機(jī)是純粹自然原因?qū)е碌?,還是社會(huì)原因?qū)е碌模矔?huì)比較模糊,比如說幾年前南方特大雪災(zāi),它不僅僅是一次自然災(zāi)害,它與電力設(shè)施建設(shè)、管理體制等是有關(guān)系的。也有兩種情形兼?zhèn)涞?,既有自然的因素,也有人為原因,如礦難、瘟疫等。
3)噪聲(n)
噪聲是紅外圖像成像過程中不可避免的影響因素。在真實(shí)場(chǎng)景下,圖像噪聲的分布可能遠(yuǎn)比高斯白噪聲更復(fù)雜,如散粒噪聲、盲元、熱噪聲等。因此,本文采用泊松分布、柯西分布和高斯分布進(jìn)行模擬,這些噪聲模型可分別描述為:
(LR=HR+p)~(HR) (10)
LR=HR+c,c~C(0,) (11)
LR=HR+n,n~(0,2) (12)
式中:p、c和n分別表示泊松噪聲、柯西噪聲和高斯噪聲;、和分別為其對(duì)應(yīng)的分布。實(shí)驗(yàn)中,選取不同類型噪聲的概率均為1/3;高斯噪聲的標(biāo)準(zhǔn)差從均勻分布[1,30]中隨機(jī)采樣;柯西噪聲的參數(shù)從均勻分布[0.1,1]中隨機(jī)采樣。
4)JPEG壓縮(j):JPEG壓縮是一種廣泛應(yīng)用于圖像存儲(chǔ)和傳輸?shù)挠袚p壓縮算法。在實(shí)際應(yīng)用中,由于存儲(chǔ)空間和傳輸帶寬的限制,紅外圖像往往需要進(jìn)行壓縮。然而,JPEG壓縮過程可能導(dǎo)致圖像細(xì)節(jié)丟失和壓縮偽影產(chǎn)生。為了模擬這種退化效果,本文在生成LR紅外圖像時(shí)引入了JPEG壓縮操作。實(shí)驗(yàn)中,壓縮質(zhì)量因子從{30,31,32,…, 95}中隨機(jī)選取,以模擬不同壓縮程度下的圖像質(zhì)量損失。
通過對(duì)上述退化因子隨機(jī)地處理或不處理,以及對(duì)其參數(shù)隨機(jī)地設(shè)置,可以實(shí)現(xiàn)一個(gè)全面而復(fù)雜的圖像退化模擬。通過這種方式,可以生成大量的LR-HR圖像對(duì),用于訓(xùn)練超分辨率網(wǎng)絡(luò),以提高其在處理真實(shí)世界LR圖像時(shí)的性能。
本文提出的超分辨率重建網(wǎng)絡(luò)采用了通道注意力[16]和密集連接[17]相結(jié)合的復(fù)合網(wǎng)絡(luò)結(jié)構(gòu),旨在充分提取和利用LR紅外圖像中的特征信息,以實(shí)現(xiàn)高質(zhì)量的超分辨率重建,如圖2所示。網(wǎng)絡(luò)結(jié)構(gòu)分為3個(gè)主要模塊:淺層特征提取、深層特征提取和重建。
1)淺層特征提?。涸撃K僅包含一個(gè)3×3卷積層,對(duì)輸入的LR紅外圖像進(jìn)行初步特征提取,能夠捕捉圖像中的基本紋理和邊緣信息,為后續(xù)的特征提取和重建過程提供基礎(chǔ)。本模塊可由下式表示:
0=SF(LR) (13)
式中:SF表示淺層特征提取模塊;LR?1××為LR紅外圖像;0?××為淺層特征提取得到的特征圖。
2)深層特征提?。涸跍\層特征提取的基礎(chǔ)上,網(wǎng)絡(luò)進(jìn)一步通過多個(gè)相同的RCADB(residual channel attention dense block)模塊(如圖2(b)所示)和一層卷積層進(jìn)行深層特征提取。每個(gè)RCADB模塊包含了3個(gè)相同的CADB(channel attention dense block)模塊(如圖2(c)所示),并引入了殘差連接,使網(wǎng)絡(luò)更好地學(xué)習(xí)高頻細(xì)節(jié)信息。CADB模塊整合了通道注意力機(jī)制、密集連接結(jié)構(gòu)和局部殘差連接,旨在獲取更為豐富的層次特征。通道注意力機(jī)制能自適應(yīng)地為不同通道的特征分配權(quán)重,從而強(qiáng)化關(guān)鍵信息并提升網(wǎng)絡(luò)的表達(dá)能力。而密集連接結(jié)構(gòu)則有益于梯度傳播和特征重用的增強(qiáng),使網(wǎng)絡(luò)能更為有效地捕捉圖像中的復(fù)雜信息。為進(jìn)一步提升特征提取效果,整個(gè)深層特征提取模塊還加入了全局殘差連接,使得淺層特征能夠直接與深層特征融合,從而增強(qiáng)整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)能力。通過深層特征提取,網(wǎng)絡(luò)得以捕捉LR紅外圖像中的高級(jí)語義信息,為后續(xù)的重建過程提供更為豐富的特征支持。本模塊可由下式表示:
D=0+Conv(n) (15)
圖2 紅外圖像超分辨率重建網(wǎng)絡(luò)結(jié)構(gòu)
Fig.2 Structure of infrared image super-resolution reconstruction network
3)重建:在完成淺層和深層特征提取后,網(wǎng)絡(luò)將這些特征信息進(jìn)行融合和上采樣,以生成SR紅外圖像。在重建過程中,網(wǎng)絡(luò)采用了上采樣接卷積層的結(jié)構(gòu),以逐步提高圖像分辨率。通過這一階段的操作,網(wǎng)絡(luò)最終實(shí)現(xiàn)對(duì)LR紅外圖像的高質(zhì)量超分辨率重建。本模塊可由式(16)表示:
SR=REC(D) (16)
式中:REC表示重建模塊;SR?1××為輸出的SR紅外圖像。
綜上所述,本文提出的通道注意力和密集連接相結(jié)合的復(fù)合網(wǎng)絡(luò)結(jié)構(gòu)充分利用了LR紅外圖像中的特征信息,實(shí)現(xiàn)了高質(zhì)量的SR圖像重建。
訓(xùn)練數(shù)據(jù)來自艾睿紅外開源數(shù)據(jù)平臺(tái),該平臺(tái)提供了大量紅外圖像,涵蓋了多種場(chǎng)景和目標(biāo)。為方便批處理,裁切為224×224大小,總共91776張圖像。
測(cè)試數(shù)據(jù)為南京理工大學(xué)開源的紅外圖像數(shù)據(jù)集(700張圖像)以及筆者使用熱像儀采集的紅外圖像數(shù)據(jù)(100張圖像)。這兩個(gè)測(cè)試數(shù)據(jù)集包含了不同的場(chǎng)景和環(huán)境條件,有助于評(píng)估網(wǎng)絡(luò)在真實(shí)場(chǎng)景下的泛化能力。
本節(jié)將詳細(xì)介紹第2.2節(jié)所提出的紅外圖像超分辨率重建網(wǎng)絡(luò)的參數(shù)。淺層特征提取模塊為一個(gè)3×3卷積層,該卷積層輸入通道為1,輸出通道為64。深層特征提取模塊中RCADB模塊數(shù)設(shè)置為3;該模塊最后的卷積層核大小為3×3,輸入輸出通道均為64。RCADB模塊中包含3個(gè)結(jié)構(gòu)相同的CADB模塊,CADB模塊中的密集連接和通道注意力結(jié)構(gòu)的參數(shù)如表1和表2所示。重建模塊的參數(shù)如表3所示,上采樣層采用的方法為最近鄰插值。
表1 CADB模塊中的密集連接結(jié)構(gòu)參數(shù)
表2 CADB模塊中的通道注意力結(jié)構(gòu)參數(shù)
表3 重建模塊參數(shù)
實(shí)驗(yàn)采用PyTorch框架實(shí)現(xiàn),并在NVIDIA V100 GPU上進(jìn)行訓(xùn)練。損失函數(shù)采用L1損失,優(yōu)化器為Adam,初始學(xué)習(xí)率設(shè)置為2×10-4,同時(shí)利用學(xué)習(xí)率衰減策略進(jìn)行調(diào)整。在模型訓(xùn)練過程中,批量大小設(shè)置為32,epoch設(shè)置為50。
如圖3所示,訓(xùn)練時(shí)首先將HR圖像輸入至退化模型處理得到LR圖像,然后利用LR-HR圖像對(duì)訓(xùn)練超分辨網(wǎng)絡(luò)。
圖3 訓(xùn)練流程示意圖
在超分辨率重建研究中,常用的評(píng)價(jià)指標(biāo)為PSNR(peak signal-to-noise ratio)和SSIM(structural similarity)。PSNR主要測(cè)量待評(píng)價(jià)圖像與參考圖像之間的像素差異的均方誤差,SSIM則是從亮度、對(duì)比度和結(jié)構(gòu)3方面進(jìn)行衡量。隨著新算法的不斷涌現(xiàn),圖像超分的性能不斷提升,而PSNR和SSIM與主觀感知質(zhì)量之間的一致性卻逐漸降低。這是因?yàn)?,這兩種指標(biāo)主要強(qiáng)調(diào)像素級(jí)的相似性,無法充分反映人眼的視覺感知。研究表明,在以人眼感知為導(dǎo)向的圖像處理領(lǐng)域,PSNR和SSIM這類指標(biāo)衡量的圖像失真程度與人們實(shí)際感知到的圖像質(zhì)量往往存在矛盾[22-24]。此外,PSNR和SSIM在評(píng)估過程中需要原始HR圖像作為參考,但在許多實(shí)際應(yīng)用場(chǎng)景中,獲取原始HR圖像并不可行,進(jìn)一步限制了這些指標(biāo)的應(yīng)用范圍。
基于上述考慮,本文采用了無參考圖像質(zhì)量評(píng)估指標(biāo),包括NIQE(natural image quality evaluator)[25]、BRISQUE(blind/referenceless image spatial quality evaluator)[26]和PI(perceptual index)[27],以更全面地評(píng)估超分辨率重建效果。NIQE通過對(duì)一系列高質(zhì)量自然圖像的統(tǒng)計(jì)特征進(jìn)行學(xué)習(xí),創(chuàng)建了一個(gè)特征庫。評(píng)估時(shí),它計(jì)算待評(píng)估圖像的特征,并與該特征庫進(jìn)行比較,從而計(jì)算出質(zhì)量分?jǐn)?shù)。BRISQUE采用類似的方法,但專注于圖像的空間質(zhì)量評(píng)估。PI則結(jié)合了多種視覺感知指標(biāo),提供了一個(gè)綜合性的圖像質(zhì)量評(píng)分。對(duì)于上述3種評(píng)價(jià)方法,越低的分?jǐn)?shù)代表著更高的感知質(zhì)量。
為驗(yàn)證退化模型的有效性,首先進(jìn)行了消融實(shí)驗(yàn)。該實(shí)驗(yàn)中引入了Ours-ND(no degradation)版本,這是一個(gè)未采用退化模型的變體。在Ours-ND中,通過簡單的下采樣直接從HR圖像生成LR圖像,旨在探究退化模型在紅外圖像超分辨率任務(wù)中的作用和影響。
表4和圖4所展示的消融實(shí)驗(yàn)結(jié)果共同表明,本文所提方法在2×和4×倍超分辨率下明顯優(yōu)于未采用退化模型的變體。尤其在圖4中對(duì)比展示的2×倍超分結(jié)果中,加入退化模型后,生成的圖像不僅更加均勻,還顯著消除了噪點(diǎn)。這些結(jié)果強(qiáng)調(diào)了復(fù)雜退化模型在提升紅外圖像超分辨率質(zhì)量中的關(guān)鍵作用,并展現(xiàn)了其在實(shí)際紅外圖像處理中的有效性和實(shí)用性。
表4 不同超分倍數(shù)下本文方法與無退化模型變體的無參考圖像質(zhì)量評(píng)價(jià)指標(biāo)比較
圖4 本文方法與無退化模型變體的2×超分結(jié)果對(duì)比
為全面驗(yàn)證所提方法在真實(shí)場(chǎng)景下紅外圖像超分辨率任務(wù)中的有效性,進(jìn)行了與多種先進(jìn)超分辨率方法的對(duì)比。包括專門針對(duì)紅外圖像的超分辨率方法,如Oz等人[10]提出的方法(Oz)和Zou等人[11]提出的方法(Zou),以及在可見光領(lǐng)域廣泛應(yīng)用的方法,例如SRCNN[3]、ESRGAN[6]和SwinIR[21]。
表5所示的對(duì)比實(shí)驗(yàn)結(jié)果突顯了本文方法在真實(shí)場(chǎng)景下不同超分倍數(shù)下的顯著優(yōu)勢(shì)。通過與現(xiàn)有先進(jìn)超分辨率方法比較,本文方法在無參考圖像質(zhì)量評(píng)價(jià)指標(biāo)BRISQUE、NIQE和PI上均展現(xiàn)出優(yōu)秀的性能。
表5 不同超分倍數(shù)下本文方法與其他超分辨率方法在無參考圖像質(zhì)量評(píng)價(jià)指標(biāo)上的比較
在主觀評(píng)價(jià)層面,圖5~圖8中各場(chǎng)景下的超分辨率圖像對(duì)比明顯,展示了本研究方法的優(yōu)勢(shì)。所生成的超分辨率圖像中的邊緣更為銳利,如圖5和圖7中窗戶邊框的清晰展現(xiàn),這對(duì)于增強(qiáng)紅外圖像的清晰度和細(xì)節(jié)表現(xiàn)至關(guān)重要。同時(shí),本研究所生成的圖像顯得更自然,紋理細(xì)節(jié)更加豐富,如圖6中瓦片的細(xì)膩紋理。此外,與其他方法相比,本研究的方法在消除圖像噪聲和減少模糊效應(yīng)方面表現(xiàn)更為卓越,例如圖8中整體圖像的平滑度以及噪點(diǎn)幾乎完全消除,同時(shí)保留了原始的紋理信息。這一效果得益于退化模型中對(duì)模糊和噪聲等因子的有效利用,使得所提出的網(wǎng)絡(luò)能夠有效地去除模糊并消除噪聲。這些優(yōu)勢(shì)不僅提升了圖像的整體視覺質(zhì)量,也在真實(shí)場(chǎng)景下的紅外圖像處理中展現(xiàn)了其實(shí)用性和高效性。
因此,綜合以上客觀和主觀評(píng)價(jià)結(jié)果,可以進(jìn)一步證明本文提出的方法在紅外圖像超分辨率領(lǐng)域的應(yīng)用潛力和實(shí)際效果。
圖5 不同方法在場(chǎng)景1下2×倍超分結(jié)果對(duì)比
圖6 不同方法在場(chǎng)景2下2×倍超分結(jié)果對(duì)比
圖7 不同方法在場(chǎng)景3下4×倍超分結(jié)果對(duì)比
圖8 不同方法在場(chǎng)景4下4×倍超分結(jié)果對(duì)比
本研究針對(duì)真實(shí)場(chǎng)景下的紅外圖像超分辨率重建問題,提出并驗(yàn)證了一種基于深度學(xué)習(xí)的方法。與傳統(tǒng)方法相比,本文的主要?jiǎng)?chuàng)新在于構(gòu)建了一個(gè)模擬真實(shí)場(chǎng)景退化的模型,并設(shè)計(jì)了一種結(jié)合通道注意力和密集連接的網(wǎng)絡(luò)結(jié)構(gòu)。通過一系列消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn),驗(yàn)證了所提方法在提升真實(shí)場(chǎng)景下低分辨率紅外圖像的空間分辨率方面的有效性,以及在實(shí)際應(yīng)用場(chǎng)景中的實(shí)用性和可靠性。尤其是在去噪和去模糊方面,本文方法展現(xiàn)了明顯的優(yōu)勢(shì)。
盡管本研究取得了一定的成果,但在真實(shí)場(chǎng)景下的超分辨率圖像重建仍面臨許多挑戰(zhàn)。未來的工作將集中于進(jìn)一步提升模型的泛化能力,減少對(duì)大量訓(xùn)練數(shù)據(jù)的依賴,并探索更有效的方法來處理極端的退化情況。此外,我們也將探討將本研究的方法應(yīng)用于其他類型的圖像處理任務(wù),例如圖像去噪、圖像增強(qiáng)等,以驗(yàn)證其在廣泛應(yīng)用場(chǎng)景中的有效性和靈活性。
[1] WANG Z, CHEN J, Hoi S C H. Deep learning for image super-resolution: A survey[J]., 2020, 43(10): 3365-3387.
[2] LI J, PEI Z, ZENG T. From beginner to master: A survey for deep learning-based single-image super-resolution[J]. arXiv preprint arXiv:2109.14335, 2021.
[3] DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks[J], 2015, 38(2): 295-307.
[4] SHI W, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//, 2016: 1874-1883.
[5] LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//, 2017: 136-144.
[6] WANG X, YU K, WU S, et al. Esrgan: Enhanced super-resolution generative adversarial networks[C]//(ECCV), 2018: 63-79.
[7] SUN C, LV J, LI J, et al. A rapid and accurate infrared image super-resolution method based on zoom mechanism[J]., 2018, 88: 228-238.
[8] Suryanarayana G, TU E, YANG J. Infrared super-resolution imaging using multi-scale saliency and deep wavelet residuals[J]., 2019, 97: 177-186.
[9] YAO T, LUO Y, HU J, et al. Infrared image super-resolution via discriminative dictionary and deep residual network[J]., 2020, 107: 103314.
[10] Oz N, Sochen N, Markovich O, et al. Rapid super resolution for infrared imagery[J]., 2020, 28(18): 27196-27209.
[11] ZOU Y, ZHANG L, LIU C, et al. Super-resolution reconstruction of infrared images based on a convolutional neural network with skip connections[J]., 2021, 146: 106717.
[12] 李方彪, 何昕, 魏仲慧, 等. 生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)的多幀紅外圖像超分辨率重建[J]. 紅外與激光工程, 2018, 47(2): 26-33.
LI F, HE X, WEI Z, et al. Multiframe infrared image super-resolution reconstruction using generative adversarial networks[J]., 2018, 47(2): 26-33.
[13] 魏子康, 劉云清. 改進(jìn)的RDN灰度圖像超分辨率重建方法[J]. 紅外與激光工程, 2020, 49(S1): 20200173.
WEI Z, LIU Y. Gray image super-resolution reconstruction based on improved RDN method[J].2020, 49(S1): 20200173.
[14] 胡蕾, 王足根, 陳田, 等. 一種改進(jìn)的SRGAN紅外圖像超分辨率重建算法[J]. 系統(tǒng)仿真學(xué)報(bào), 2021, 33(9): 2109-2118.
HU L, WANG Z, CHEN T, et al. An improved SRGAN infrared image super-resolution reconstruction algorithm[J]., 2021, 33(9): 2109-2118.
[15] 邱德粉, 江俊君, 胡星宇, 等. 高分辨率可見光圖像引導(dǎo)紅外圖像超分辨率的Transformer網(wǎng)絡(luò)[J]. 中國圖象圖形學(xué)報(bào), 2023, 28(1): 196-206.
QIU D, JIANG J, HU X, et al. Guided transformer for high-resolution visible image guided infrared image super-resolution[J]., 2023, 28(1): 196-206.
[16] ZHANG Y, LI K, LI K, et al. Image super-resolution using very deep residual channel attention networks[C]//(ECCV), 2018: 286-301.
[17] TONG T, LI G, LIU X, et al. Image super-resolution using dense skip connections[C]//, 2017: 4799-4807.
[18] ZHANG K, Liang J, Van Gool L, et al. Designing a practical degradation model for deep blind image super-resolution[C]//, 2021: 4791-4800.
[19] WANG X, XIE L, DONG C, et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data[C]//, 2021: 1905-1914.
[20] ZHANG W, SHI G, LIU Y, et al. A closer look at blind super-resolution: Degradation models, baselines, and performance upper bounds[C]//, 2022: 527-536.
[21] LIANG J, CAO J, SUN G, et al. Swinir: Image restoration using swin transformer[C]//, 2021: 1833-1844.
[22] Huynh-Thu Q, Ghanbari M. Scope of validity of PSNR in image/video quality assessment[J]., 2008, 44(13): 800-801.
[23] Hanhart P, Korshunov P, Ebrahimi T. Benchmarking of quality metrics on ultra-high definition video sequences[C]//18th(DSP), 2013: 1-8.
[24] Kundu D, Evans B L. Full-reference visual quality assessment for synthetic images: A subjective study[C]//(ICIP), 2015: 2374-2378.
[25] Mittal A, Soundararajan R, Bovik A C. Making a “completely blind” image quality analyzer[J]., 2012, 20(3): 209-212.
[26] Mittal A, Moorthy A K, Bovik A C. No-reference image quality assessment in the spatial domain[J]., 2012, 21(12): 4695-4708.
[27] Blau Y, Mechrez R, Timofte R, et al. The 2018 PIRM challenge on perceptual image super-resolution[C]//(), 2018: 334-355.
Single-frame Infrared Image Super-Resolution Reconstruction for Real Scenes
SHI Yifeng,CHEN Nan,ZHU Fang,MAO Wenbiao,LI Faming,WANG Tianfu,ZHANG Jiqing,YAO Libin
(Kunming Institute of Physics, Kunming 650223, China)
Current infrared image super-resolution reconstruction methods, which are primarily designed based on experimental data, often fail in complex degradation scenarios encountered in real-world environments. To address this challenge, this paper presents a novel deep learning-based approach tailored for the super-resolution reconstruction of infrared images in real scenarios. The significant contributions of this research include the development of a model that simulates infrared image degradation in real-life settings and a network structure that integrates channel attention with dense connections. This structure enhances feature extraction and image reconstruction capabilities, effectively increasing the spatial resolution of low-resolution infrared images in realistic scenarios. The effectiveness and superiority of the proposed approach for processing infrared images in real-world contexts are demonstrated through a series of ablation studies and comparative experiments with existing super-resolution methods. The experimental results indicate that this method produces sharper edges and effectively eliminates noise and blur, thereby significantly improving the visual quality of the images.
infrared image, deep learning, super-resolution, real scene, degradation model
TP391
A
1001-8891(2024)04-0427-10
2023-12-06;
2024-01-19.
師奕峰(1998-),男,碩士研究生,主要從事圖像處理方面的研究。
陳楠(1985-),男,博士,正高級(jí)工程師,博士生導(dǎo)師,主要從事混合信號(hào)集成電路設(shè)計(jì)方面的研究。E-mail:chennan_kip@163.com。
張濟(jì)清(1987-),男,博士,高級(jí)工程師,碩士生導(dǎo)師,主要從事混合信號(hào)集成電路設(shè)計(jì)方面的研究。E-mail:jiqingzhang@163.com。