唐曉天,馬 駿,李 峰,楊 雪,梁 亮
基于多尺度時域3D卷積的視頻超分辨率重建
唐曉天1,2,馬 駿2,李 峰1,楊 雪1,梁 亮3
(1. 錢學(xué)森空間技術(shù)實驗室,北京 100086;2.河南大學(xué)軟件學(xué)院,河南 開封 475004;3. 清華大學(xué)電子工程系,北京 100084)
視頻超分辨率是一項很有實用價值的工作。針對超高清產(chǎn)業(yè)中高分辨率資源較為匱乏的問題,為了有效利用視頻序列幀間豐富的時間相關(guān)性信息及空間信息,提出一種基于多尺度時域3D卷積的視頻超分辨率重建算法。該算法將輸入的低分辨率視頻序列幀分別通過不同時間尺度的3D卷積進行時空特征提取,3D卷積能夠同時對空間與時間建模,相較于2D卷積更加適用于視頻任務(wù)的處理,通過不同尺度時域下提取的2種時空特征自適應(yīng)運動補償后,由亞像素卷積層執(zhí)行分辨率的提升并與上采樣后的輸入幀相加后得到最終重建的高分辨率圖像。在標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,該算法無論在視覺效果上,還是峰值信噪比與結(jié)構(gòu)相似性等客觀質(zhì)量評價指標(biāo)上,均有顯著地提升,優(yōu)于FSRCNN和EDSR等算法。
視頻超分辨率;深度學(xué)習(xí);3D卷積;多尺度時域特征;亞像素卷積
圖像超分辨率(super-resolutio,SR)重建技術(shù)能夠?qū)⒌头直媛?low-resolution,LR)、細節(jié)模糊的低質(zhì)量圖像重建為高分辨率(high-resolution,HR)且具有更多細節(jié)信息的高質(zhì)量圖像。近年來隨著電子顯示技術(shù)的發(fā)展,分辨率能達到4 k甚至更高,而與之對應(yīng)的HR影像資源則較匱乏,這時就需要視頻SR技術(shù)來獲取更多的高質(zhì)量視頻資源。此外在攝像監(jiān)控、航空航天、醫(yī)療診斷等領(lǐng)域中,清晰度高、細節(jié)信息豐富的HR影像也能提供更多地幫助。相較于單幀圖像,視頻影像中的連續(xù)幀之間擁有單幀圖像所沒有的時間信息,如何更高效地利用序列幀之間的時間相關(guān)性信息成為視頻SR重建的重中之重。
傳統(tǒng)圖像SR重建技術(shù)包括基于插值、重構(gòu)及經(jīng)典學(xué)習(xí)的方法。插值方法中如經(jīng)典的最鄰近插值法、雙線性插值法和雙三次插值法,這些算法復(fù)雜度低、簡單易實現(xiàn),但也存在諸如重建圖像邊緣模糊、圖像細節(jié)信息丟失等問題。重構(gòu)方法是利用圖像亞像素精度對齊實現(xiàn)的,主要分為頻域法與空域法。如在頻域中建立LR圖像與HR圖像的線性關(guān)系來重建HR圖像,但其迭代次數(shù)過多,計算成本較大。
近年來深度學(xué)習(xí)異軍突起,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)為圖像SR重建等眾多的圖像處理任務(wù)帶來了新的突破。DONG等[1]提出的超分辨率重建卷積神經(jīng)網(wǎng)絡(luò)(super- resolutio CNN,SRCNN),利用卷積網(wǎng)絡(luò)完成從LR圖像到HR圖像的非線性映射。其在圖像重建的質(zhì)量與速度上均優(yōu)于傳統(tǒng)超分方法,但其感受野較小,且不能很好地利用圖像的信息;KIM等[2]提出更深層次的網(wǎng)絡(luò)(very deep convolutional networks,VDSR),其采用了更多的卷積層,增加了感受野,并采用殘差法訓(xùn)練使得收斂速度更快。SHI等[3]使用一種亞像素卷積并將通道重新排列,從而得到HR圖像,與以往將LR圖像插值后再輸入網(wǎng)絡(luò)不同的是,可以在LR圖像上直接經(jīng)過卷積計算得到HR圖像,在超分效率上得到了顯著提高;FSRCNN[4]對SRCNN改進后也可以直接將LR圖像通過Deconv超分重建。SRGAN[5]將生成對抗網(wǎng)絡(luò)應(yīng)用于圖像的超分重建,在4倍分辨率等較大放大因子重建上能夠生成更多的圖像細節(jié)。
視頻SR重建是輸入多個序列幀,利用幀間關(guān)聯(lián)的時間、空間信息來重建圖像。常見的視頻超分方法依托于運動估計與運動補償將序列幀對齊,以對齊后的序列幀作為輸入,在超分網(wǎng)絡(luò)中進行重建。VSRnet[6]是處理視頻超分重建的首個深度網(wǎng)絡(luò)。CABALLERO等[7]認為VESPCN是ESPCN的改進版,可將圖像的超分重建改進為視頻序列的超分且可進行實時處理。HARIS等[8]設(shè)計了一種循環(huán)編碼器-解碼器模塊處理視頻中連續(xù)幀的時間和空間信息,從而可以更大范圍地評估視頻。TIAN等[9]提出一種可在時間上變形的對齊網(wǎng)絡(luò)。LIU等[10]利用動態(tài)局部濾波器網(wǎng)絡(luò)來執(zhí)行隱式運動估計和補償。SOFVSR[11]網(wǎng)絡(luò)通過HR光流進行重建。多數(shù)運用光流補償模塊的視頻超分算法受限于光流估計的準(zhǔn)確性。此外還有一種利用3D CNN提取視頻序列幀間的時空特征完成重建的方法,在視頻處理中3D CNN相比于2D CNN擁有更多的優(yōu)勢[12]。LI等[13]提出一種快速時空殘差網(wǎng)絡(luò)(fast spatio-temporal resolution network,F(xiàn)STRN)結(jié)合特征提取與運動補償?shù)姆椒?;YING等[14]通過引入一種可變性的3D卷積(D3Dnet)合并多個時空維度進行超分重建。
受3D CNN能夠提取視頻序列幀時空特征的啟發(fā),本文提出一種利用視頻不同尺度時域下的時空特征自適應(yīng)運動補償并進行SRCNN。不同尺度時域下的時空特征可以更好地幫助學(xué)習(xí)幀間跨度大及復(fù)雜運動時的幀間時空信息,且多尺度時域的視頻幀擁有更為豐富的空間信息幫助重建,之后由多個殘差塊生成的深層特征以及亞像素卷積完成分辨率的提升。
本文算法的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。輸入視頻序列幀中的7幀數(shù)據(jù)(LR),每幀圖像大小為,其中和分別為輸入圖像的高和寬。Conv3D-3T表示以時間尺度為3對輸入圖像進行3D卷積,卷積核為3×3×3;Conv3D-5T表示以時間尺度為5對輸入圖像進行3D卷積,卷積核為5×3×3;輸入影像分別經(jīng)過Conv3D-3T和Conv3D-5T提取到不同尺度時域下的2種時空特征,并連接(Concat)2種特征進行特征融合,通過8個殘差塊(Resb)生成深層特征;之后饋送到亞像素卷積層(Sub-pixel-Conv)進行分辨率的提升并生成HR圖像(×),其中為上采樣因子;最后將生成的HR圖像與上采樣后的LR圖像殘差連接得到最終的超分辨率重建圖像SR;LR與HR圖像中的低頻信息相近,只是缺乏高頻部分的殘差,將亞像素卷積層的輸出結(jié)果與雙三次上采樣的結(jié)果相加,在訓(xùn)練時僅訓(xùn)練HR與LR的高頻殘差部分,那么就不需要在低頻部分花太多的時間。
圖1 視頻超分辨率重建網(wǎng)絡(luò)結(jié)構(gòu)
與單幀圖像相比,視頻序列幀擁有更為豐富的時間和空間信息,如何將其有效地利用在SR重建上是視頻超分中的重點問題。常見的方法是利用光流估計與運動補償將視頻序列幀對齊后利用2D CNN完成分辨率的提升,不過該方法受限于光流模塊的精度。另一種是直接利用3D CNN提取序列幀間的時空特征用以重建的方法,其同樣簡單有效。
常用的3D卷積時間尺度較小且固定不變,在遇到幀間跨度大的運動或復(fù)雜運動時不能很好地學(xué)習(xí)視頻幀間的時空信息。本文提出一種多尺度時域時空特征結(jié)合的方法,不僅采用時間尺度為3的小尺度3D卷積,并結(jié)合時間尺度為5的3D卷積,更大時間維度的卷積可以識別幀間跨度大的運動信息,且更多的幀圖像擁有更豐富的空間信息,2種步長的卷積形式如圖2所示。
Conv3D-3T與Conv3D-5T的輸入相同,均是7幀LR圖像,在Conv3D-3T中對輸入幀進行時間維度為3的3D卷積,卷積核大小為3×3×3;空間維與時間維的填充與步長均設(shè)置為1,經(jīng)過5次殘差后輸出。Conv3D-5T中對輸入幀進行時間維度為5的3D卷積,卷積核大小為5×3×3,時間維的填充設(shè)置為2,空間維的填充為1,步長均設(shè)置為1,經(jīng)過5次殘差后輸出。Conv3D-3T與Conv3D-5T的殘差塊結(jié)構(gòu)均為2次對應(yīng)的維度卷積和一個激活函數(shù)。成對輸入視頻序列,在不同尺度時域下的時空特征提取后將2種時空特征結(jié)合為
圖2 多尺度時域時空特征
((a) Conv3D-3T; (b) Conv3D-5T)
其中,為多尺度時域時空特征;為維度連接操作concat。得到多尺度時域時空特征后便可以進行重建與分辨率提升工作了。
亞像素卷積[3]可將多個通道的特征圖重新排列為1張?zhí)卣鲌D,對多通道特征的單一像素進行再組合,并實現(xiàn)了從LR圖像到HR圖像的重構(gòu),即
其中,和分別為圖像的高和寬;為上采樣因子。
將得到的多尺度時域時空特征在送入亞像素卷積層前,先通過8個殘差塊生成深層特征,殘差學(xué)習(xí)能有效緩解隨著網(wǎng)絡(luò)深度增加引發(fā)的梯度消失現(xiàn)象,并在提高網(wǎng)絡(luò)深度的同時還能保持很好的性能與效率。每個殘差塊由2個卷積層與一個LeakyRelu激活層組成,卷積核大小為3×3,步長與填充均設(shè)置為1。再通過亞像素卷積層對分辨率進行提升,亞像素卷積層的結(jié)構(gòu)如圖3所示。
圖3 亞像素卷積層
其中,1×1 conv可獲取像素的多個通道特征;PixelShuff[3]則將這些特征重新排列組合成一幅HR深度圖像,經(jīng)過激活層與3×3卷積進行輸出。之后將亞像素卷積層的輸出與上采樣后的初始LR圖像殘差得到最終的重建結(jié)果,即
其中,為超分辨率重建結(jié)果;()為亞像素卷積;F為多尺度時域時空特征的深層特征;⊕為矩陣求和操作;()為雙線性插值;為初始低分辨率圖像。
本文將通過重建的SR圖像與真實圖像HR間的差值最小化來訓(xùn)練網(wǎng)絡(luò),損失函數(shù)上選擇均方誤差(mean squared error,MSE)函數(shù),即
其中,L為均方誤差函數(shù);為樣本數(shù);為超分辨率重建結(jié)果;為真實圖像。通過反向傳播不斷對網(wǎng)絡(luò)進行訓(xùn)練。
訓(xùn)練網(wǎng)絡(luò)采用的訓(xùn)練集是CDVL[11]數(shù)據(jù)集,挑選了32組視頻進行訓(xùn)練,包含自然景色、城市建筑、車輛行人等場景。每組視頻中包含31幀圖像,圖像的分辨率為960×540。為了得到HR與LR對應(yīng)的訓(xùn)練數(shù)據(jù),將原始視頻序列幀作為HR真實圖像,下采樣后的視頻序列幀作為LR圖像。在進行網(wǎng)絡(luò)訓(xùn)練時會從LR圖像中隨機地裁切32×32大小的塊作為網(wǎng)絡(luò)輸入,并在HR圖像中裁切相對應(yīng)的塊。輸入圖像會從RGB轉(zhuǎn)換為YCbCr色彩空間,并提取出其中的亮度通道Y輸入網(wǎng)絡(luò)進行處理。訓(xùn)練批次大小batch-size設(shè)置為32,利用旋轉(zhuǎn)等操作進行數(shù)據(jù)擴充,以此來提高網(wǎng)絡(luò)的泛化能力。訓(xùn)練時的梯度優(yōu)化算法采用自適應(yīng)矩估計Adam優(yōu)化器[15],很適合應(yīng)用于大規(guī)模的數(shù)據(jù)及參數(shù)的場景,初始學(xué)習(xí)率設(shè)置為1×10-3,并且每迭代5 000次,學(xué)習(xí)率都會乘10-1;訓(xùn)練總迭代次數(shù)為2×104次,更多的迭代次數(shù)無法為網(wǎng)絡(luò)帶來有效地提升。
測試網(wǎng)絡(luò)時使用的是視頻超分中常用測試數(shù)據(jù)集Vid4[8],其包含4組視頻(calendar,city,foliage和walk),每組視頻中又包含31幀圖像。數(shù)據(jù)評測指標(biāo)使用SR重建中常用的峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity index,SSIM)。PSNR用來計算原始圖像與重建圖像間的像素誤差(單位為dB),數(shù)值越大則表明重建圖像失真越小,效果越好;SSIM用來計算原始圖像與重建圖像的相似度程度,數(shù)值越大則表示重建圖像與原始圖像差距越小,重建效果越好。
本文實驗所使用的深度學(xué)習(xí)框架為PyTorch;硬件環(huán)境為NVIDIA GTX 1650Ti,RAM 16 GB,Intel(R)Core(TM)i5-10200H。
為本文算法設(shè)計了2組對比實驗,第1組實驗針對多尺度時域時空特征的有效性進行驗證,設(shè)計了2D卷積特征與多尺度時域時空特征重建效果的對比實驗;第2組針對算法的先進性進行驗證,設(shè)計了與當(dāng)前先進圖像SR重建算法重建效果的對比實驗。
對本文算法的多尺度時域時空特征進行有效性驗證,設(shè)計了常規(guī)2D卷積特征重建網(wǎng)絡(luò)與多尺度時域時空特征重建網(wǎng)絡(luò)的對比實驗,見表1。
常規(guī)的2D卷積中卷積核大小設(shè)置為3×3,填充和步長均設(shè)置為1。多尺度3D卷積將不同尺度時域特征進行結(jié)合,網(wǎng)絡(luò)分別對輸入序列幀進行時間步長3和5的3D卷積,各個時域卷積的步長與填充見表1。
常規(guī)2D卷積特征與多尺度3D卷積特征重建的圖像在Vid4數(shù)據(jù)集上的評測結(jié)果見表2。主要就PSNR與SSIM進行了對比分析。從表中可以看出,利用常規(guī)2D卷積特征重建的結(jié)果無論在PSNR還是SSIM上都沒有使用多尺度3D卷積特征好,使用多尺度3D卷積特征較常規(guī)2D卷積在PSNR上提升了0.49 dB。
表1 不同卷積方式網(wǎng)絡(luò)結(jié)構(gòu)
表2 不同卷積方式在Vid4上重建結(jié)果定量分析(PSNR/SSIM)
對本文算法與圖像SR重建領(lǐng)域中較為先進的算法進行評測對比,以驗證本文算法的先進性。上采樣因子分別為2,3和4倍,選取的對比算法包括一個傳統(tǒng)算法雙三次插值(Bicubic)以及5個深度學(xué)習(xí)算法:LapSRN[16],F(xiàn)SRCNN[4],ESPCN[3],EDSR[17]和SRGAN[5]。LapSRN利用金字塔結(jié)構(gòu)通過不同scale的殘差與重構(gòu)獲得重建結(jié)果,F(xiàn)SRCNN是對SRCNN的改進,ESPCN中的亞像素卷積處理在當(dāng)前的很多超分重建算法均有引用,EDSR是NTIRE2017[18]超分辨率挑戰(zhàn)賽的第一名,有很好的超分重建效果,SRGAN使用對抗生成網(wǎng)絡(luò)進行HR的重建。
表3為本文算法與各對比算法在上采樣倍數(shù)為2,3和4倍時在Vid4數(shù)據(jù)集上的重建結(jié)果。從表中可以看出,無論是2倍還是3倍或4倍上采樣,本文算法的PSNR以及SSIM均高于其他算法。2倍上采樣較Bicubic算法PSNR值提升了2.82,SSIM提升了0.058,與重建效果較好的FSRCNN和EDSR算法相比在PSNR上也提升了1.97和1.28。當(dāng)選擇較高的上采樣倍數(shù)時,一部分算法無法取得較好的重建效果。如ESPCN在3倍和4倍重建時的PSNR及SSIM均低于Bicubic算法,本文算法在3倍上采樣時較Bicubic算法PSNR值提升了1.46,較EDSR算法提升了0.81;在4倍上采樣時較Bicubic算法PSNR值提升了1.03,較EDSR算法提升了0.63,由此看出在較高上采樣倍數(shù)時本文算法依然有效。經(jīng)過本文算法與其他5種算法比較,說明本文算法在重建效果上有顯著提升,證明了其先進性。
表4為在2倍上采樣時各算法模型的規(guī)模及在Vid4測試數(shù)據(jù)集上的運行時間,其為測試集中各視頻(31幀圖像)的平均運行時間。其中EDSR模型最大且運行時間最長,ESPCN模型運行時間最短,F(xiàn)SRCNN模型最小,本文模型大小及運行時間適中,在重建圖像質(zhì)量上最好。
表3 不同算法在Vid4數(shù)據(jù)集上的定量分析(PSNR/SSIM)
注:黑體數(shù)據(jù)為最優(yōu)數(shù)據(jù)
表4 不同算法模型規(guī)模與運行時間
圖4為2倍上采樣時各算法在Vid4數(shù)據(jù)集上的重建效果對比。在calendar與walk重建效果上,Bicubic,LapSRN,F(xiàn)SRCNN和ESPCN算法可以重建出真實圖像的大體輪廓,但整體重建效果模糊;EDSR算法雖清晰度有所提升,但依然存在一定的模糊;本文算法的重建結(jié)果無論是輪廓結(jié)構(gòu)還是清晰度均表現(xiàn)良好,與真實圖像的視覺效果十分接近。
圖5為4倍上采樣時各算法在Vid4數(shù)據(jù)集上的重建效果對比??梢钥闯鲚^高倍數(shù)的上采樣因子重建時Bicucic等算法重建結(jié)果模糊,細節(jié)信息有所丟失,本文算法較對比算法在視覺效果上擁有更多的細節(jié)信息,清晰度有了顯著提升。不過在4倍上采樣時對比真實圖像仍存在一定的失真,生成了較多的人工痕跡。在高上采樣因子重建上本文算法還有待提升,在最近的研究中注意力機制[19]以及改進的GAN[20-21]對圖像的恢復(fù)均有幫助,后續(xù)將繼續(xù)研究失真原因并改進。
圖4 上采樣2倍時各算法在Vid4上的重建結(jié)果對比
圖5 上采樣4倍時各算法在Vid4上的重建結(jié)果對比
本文提出了一種利用多尺度時域時空特征對視頻超分辨率重建的神經(jīng)網(wǎng)絡(luò),通過結(jié)合不同時間尺度下的時空特征能夠有效地提升視頻中重建圖像幀的質(zhì)量。通過與其他算法的對比實驗,本文算法在重建圖像的視覺效果上更佳,且在PSNR與SSIM等客觀評價指標(biāo)上也優(yōu)于對比算法。在較高上采樣因子重建時雖然優(yōu)于對比算法,但仍有失真現(xiàn)象,下一步將針對視頻高上采樣因子重建進行研究,探索利用視幀間關(guān)系生成清晰度高的高倍重建圖像。
[1] DONG C, LOY C C, HE K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.
[2] KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1646-1654.
[3] SHI W Z, CABALLERO J, HUSZáR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1874-1883.
[4] DONG C, LOY C C, TANG X O. Accelerating the super-resolution convolutional neural network[C]//2016 European Conference on Computer Vision. Heidelberg: Springer Press, 2016: 391-407.
[5] LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 105-114.
[6] KAPPELER A, YOO S, DAI Q Q, et al. Video super-resolution with convolutional neural networks[J]. IEEE Transactions on Computational Imaging, 2016, 2(2): 109-122.
[7] CABALLERO J, LEDIG C, AITKEN A, et al. Real-time video super-resolution with spatio-temporal networks and motion compensation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 2848-2857.
[8] HARIS M, SHAKHNAROVICH G, UKITA N. Recurrent back-projection network for video super-resolution[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3892-3901.
[9] TIAN Y P, ZHANG Y L, FU Y, et al. TDAN: temporally-deformable alignment network for video super-resolution[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2020: 3357-3366.
[10] LIU X H, KONG L S, ZHOU Y, et al. End-to-end trainable video super-resolution based on a new mechanism for implicit motion estimation and compensation[C]//2020 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2020: 2405-2414.
[11] WANG L G, GUO Y L, LIU L, et al. Deep video super-resolution using HR optical flow estimation[J]. IEEE Transactions on Image Processing, 2020, 29: 4323-4336.
[12] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// 2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 4489-4497.
[13] LI S, HE F X, DU B, et al. Fast spatio-temporal residual network for video super-resolution[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 10514-10523.
[14] YING X Y, WANG L G, WANG Y Q, et al. Deformable 3D convolution for video super-resolution[J]. IEEE Signal Processing Letters, 2020, 27: 1500-1504.
[15] KINGMA D P, BA J. Adam: a method for stochastic optimization [EB/OL]. (2017-01-30) [2021-06-23]. https:// arxiv.org/abs/1412.6980.
[16] AI W S, HUANG J B, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5835-5843.
[17] LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2017: 1132-1140.
[18] AGUSTSSON E, TIMOFTE R. NTIRE 2017 challenge on single image super-resolution: dataset and study[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2017: 1122-1131.
[19] 李彬, 王平, 趙思逸. 基于雙重注意力機制的圖像超分辨重建算法[J]. 圖學(xué)學(xué)報, 2021, 42(2): 206-215.
LI B, WANG P, ZHAO S Y. Image super-resolution reconstruction based on dual attention mechanism[J]. Journal of Graphics, 2021, 42(2): 206-215 (in Chinese).
[20] LEI S, SHI Z W, ZOU Z X. Coupled adversarial training for remote sensing image super-resolution[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(5): 3633-3643.
[21] LEI S, SHI Z W. Hybrid-scale self-similarity exploitation for remote sensing image super-resolution [EB/OL]. [2021-04-12].https://ieeexplore.ieee.org/document/9400474.
Video super-resolution reconstruction based on multi-scale time domain 3D convolution
TANG Xiao-tian1,2, MA Jun2, LI Feng1, YANG Xue1, LIANG Liang3
(1. Qian Xuesen Space Technology Laboratory, Beijing 100086, China; 2. College of Software, Henan University, Kaifeng Henan 475004, China; 3. Department of Electronic Engineering, Tsinghua University, Beijing 100084, China)
Video super-resolution was a work of great practical value. In view of the lack of high-resolution resources in the ultra-high-definition industry, to efficiently utilize the rich temporal correlation information and spatial information between video sequence frames, a video super-resolution reconstruction algorithm based on multi-scale time-domain 3D convolution was proposed. The algorithm extracted the spatiotemporal features of the input low-resolution video sequence frames through the 3D convolution of different time scales. 3D convolution can simultaneously model space and time, which is more suitable for processing video tasks than 2D convolution. After the adaptive motion compensation of two spatio-temporal features extracted in different scales and time domains, the sub-pixel convolutional layer performed resolution enhancement, which was added to the up-sampled input frame to obtain the final reconstructed high-resolution image. The experimental results on the standard data set show that the algorithm can significantly boost visual effects and objective quality evaluation indicators such as peak signal-to-noise ratio and structural similarity, outperforming algorithms such as FSRCNN and EDSR.
video super-resolution; deep learning; 3D convolution; multi-scale time domain features; sub-pixel convolution
23 June,2021;
TP 391
10.11996/JG.j.2095-302X.2022010053
A
2095-302X(2022)01-0053-07
2021-06-23;
2021-08-06
6 August,2021
科技部重點研發(fā)計劃項目(2020YFA0714100)
Key R&D Program of the Ministry of Science and Technology (2020YFA0714100)
唐曉天(1997–),男,碩士研究生。主要研究方向為視頻超分辨率重建。E-mail:631719950@qq.com
TANG Xiao-tian (1997–), master student. His main research interest covers video super-resolution reconstruction. E-mail:631719950@qq.com
李 峰(1975–),男,研究員,博士。主要研究方向為圖像重建、壓縮感知等。E-mail:lifeng@qxslab.cn
LI Feng (1975–), researcher, Ph.D. His main research interests cover image reconstruction, compressed sensing, etc. E-mail:lifeng@qxslab.cn