儲(chǔ)岳中, 喬雨楠
(安徽工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 馬鞍山 243000)
視頻超分辨率已經(jīng)成為非常流行和具有挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù),越來越多的基于深度學(xué)習(xí)的方法被用來解決超分辨率問題。一類直接的視頻超分辨率方法是使用3D卷積提取空間信息以保留視頻的空間特征。但是,一旦引入了3D卷積,則意味著新引入了一個(gè)維度,不僅會(huì)帶來更多的參數(shù),增加計(jì)算成本,而且還會(huì)限制網(wǎng)絡(luò)的深度并影響超分辨(Super-Resolution)SR性能。
此外,更多方法選擇逐幀處理視頻[1-2],然后根據(jù)圖像SR方法進(jìn)行超分辨任務(wù)。不過,這種方法很難保證視頻的連貫性,尤其是對(duì)于運(yùn)動(dòng)幅度大的視頻,局部特征和全局依賴無法很好地集成。可以選擇使用遞歸神經(jīng)網(wǎng)絡(luò)用于維持視頻的連貫性,但是在保留空間信息方面效果卻并不好。
眾所周知,典型的深度學(xué)習(xí)方法總是選擇殘差連接來傳達(dá)特征。當(dāng)特征沿著網(wǎng)絡(luò)的深度方向前饋時(shí),殘差連接可以減少特征的退化,從而可以將特征表達(dá)到網(wǎng)絡(luò)的任何位置。盡管殘差連接在特征傳遞方面很方便,但它并不能完全挖掘不同層之間的特征信息。因此,代替簡單的殘差跳躍連接,出現(xiàn)了一些復(fù)雜的殘差變體網(wǎng)絡(luò),例如DRRN[3]、RDN[4](殘差密集網(wǎng)絡(luò))等。這里,RDN(殘差密集網(wǎng)絡(luò))是這種變體網(wǎng)絡(luò)的代表,它不僅使用局部密集殘差學(xué)習(xí),而且還使用全局殘差學(xué)習(xí)來提取和自適應(yīng)融合來自所有觀察層的局部特征和全局特征。由于RDN充分利用了LR圖像中的多個(gè)層次結(jié)構(gòu)特征,因此可以提高圖像SR的性能。然而,使用殘差模塊會(huì)增加計(jì)算復(fù)雜度,并且也會(huì)阻礙特征融合和上采樣。與此同時(shí),卷積運(yùn)算可能會(huì)給全局學(xué)習(xí)帶來一些缺陷。此外,許多現(xiàn)有方法還會(huì)選擇使用光流和運(yùn)動(dòng)補(bǔ)償[5-6]來增加幀之間的一致性,這無疑將給整個(gè)模型的計(jì)算帶來負(fù)擔(dān)。隨著生成對(duì)抗網(wǎng)絡(luò)(GAN)[7]的出現(xiàn),用于超分辨率任務(wù)的基于GAN的神經(jīng)網(wǎng)絡(luò)越來越多。例如,Ledig等[8]提出用于圖像超分辨率的對(duì)抗網(wǎng)絡(luò)SRGAN。對(duì)于視頻超分辨任務(wù),出現(xiàn)了許多基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的視頻任務(wù)模型。最近,Li等[9]提出了一種快速時(shí)空域殘差網(wǎng)絡(luò)(FSTRN),該網(wǎng)絡(luò)將傳統(tǒng)的3D卷積和殘差塊組合在一起,它不僅可以提取時(shí)空域的特征,而且可以減輕計(jì)算負(fù)擔(dān)。Wang等[10]提出的EDVR[10]使用可變形卷積將幀從粗到細(xì)對(duì)齊以便在幀之間進(jìn)行特征提??;Xiang等[11]提出了一種基于可變形采樣的網(wǎng)絡(luò),設(shè)計(jì)了一種新的可變形卷積加ConvLSTM模型來增強(qiáng)時(shí)序?qū)R能力,并利用全局時(shí)序上下文信息來處理視頻中的大運(yùn)動(dòng)。
目前,注意力在許多模型中被廣泛使用。例如,在超分辨率下,Zhang等[12]提出將通道注意力與殘差相結(jié)合以提高網(wǎng)絡(luò)性能;Wang等[10]在EDVR中提出了時(shí)空注意力(TSA),目的在于幫助融合多個(gè)對(duì)齊的特征信息并且引導(dǎo)圖像重建。
注意力機(jī)制的優(yōu)勢(shì)在于可以快速提取數(shù)據(jù)的重要特征,注意力機(jī)制的改進(jìn)版本即自我注意力機(jī)制可以減少對(duì)外部信息的依賴性,并且更擅長捕獲遠(yuǎn)程依賴性以及數(shù)據(jù)或要素的內(nèi)部相關(guān)性。Wang等[13]提出了一種非局部操作神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以計(jì)算空間中任意位置之間的關(guān)系,并且可以作為一個(gè)組件插入任何現(xiàn)有結(jié)構(gòu)中。受此啟發(fā),Zhang等[14]提出了一種自我注意力生成對(duì)抗網(wǎng)絡(luò),更好地學(xué)習(xí)全局特征;Fu等[15]在場(chǎng)景分割任務(wù)中引入了雙重自注意力,目的是自適應(yīng)地整合局部特征和全局依賴性;Wang等[16]在立體圖像超分辨率的視差注意力中添加了殘差塊,以處理視差變化較大的不同立體圖像,同時(shí)提高SR性能。
光流指視頻圖像當(dāng)前幀中某一物體或?qū)ο笙袼攸c(diǎn)所在位置與下一幀中該物體或?qū)ο笙袼攸c(diǎn)所在位置的位移量。目前常被引用的光流方法包括FlowNet[17]、FlowNet2.0[18]。Alexey等提出FlowNet方法,一方面,將兩幀輸入圖像疊加在一起送到簡單光流網(wǎng)中,讓網(wǎng)絡(luò)自動(dòng)提取運(yùn)動(dòng)信息;另一方面,將這兩幀輸入圖像分別送入相同但是獨(dú)立的處理流網(wǎng)絡(luò),方便網(wǎng)絡(luò)找到對(duì)應(yīng)運(yùn)動(dòng)信息。之后利用擴(kuò)大部分同時(shí)保留較粗的高級(jí)信息和精細(xì)的局部特征,這樣提升了光流估計(jì)的準(zhǔn)確度和速率。在FlowNet2.0方法中,對(duì)FlowNet進(jìn)行了一些改進(jìn),增加了訓(xùn)練數(shù)據(jù),改進(jìn)了訓(xùn)練策略;利用堆疊的結(jié)構(gòu)提升效果;引入特定的子網(wǎng)解決空間位移量小的情況。Pan等[19]利用光流估計(jì)結(jié)合時(shí)間清晰度先驗(yàn)進(jìn)行視頻去模糊取得了不錯(cuò)的效果。
若將視頻視為一個(gè)序列,則循環(huán)結(jié)構(gòu)可以起到幀間融合的作用。在現(xiàn)有的許多工作中,都有對(duì)循環(huán)網(wǎng)絡(luò)或是變形的應(yīng)用。Sajjadi等[1]提出一種幀迭代方法,具體做法是評(píng)估當(dāng)前幀LR和前一幀LR之間的光流,然后使用雙線性插值方法獲得HR光流圖,之后進(jìn)行仿射變換和深度空間操作獲得SR;Haris等[2]提出一種使用編碼器-解碼器方法(Encoder-Decoder)的RBPN,通過反投影合并在單個(gè)圖像超分辨(SISR)和多個(gè)圖像超分辨(MISR)中提取細(xì)節(jié),擴(kuò)大RNN中的時(shí)間間隔,這樣網(wǎng)絡(luò)對(duì)具有更大時(shí)間跨度的幀也可以更好地利用。
使用3D卷積的方法一般不使用特征對(duì)齊,這樣做除了會(huì)引入更多的參數(shù)量,恢復(fù)的視頻也難以保持連貫一致性。使用圖像超分辨方法,恢復(fù)的視頻容易產(chǎn)生抖動(dòng),清晰度也不高。針對(duì)這些問題提出了一種含有多個(gè)注意力結(jié)合光流的視頻超分辨率網(wǎng)絡(luò)(Multi-attention combined with optical flow video super- resolution network,MAFnet)。一方面,對(duì)于視頻超分辨中空間信息容易丟失的問題,引入了通道注意力、空間注意力以及自注意力來保留空間信息實(shí)現(xiàn)全局學(xué)習(xí);另一方面,對(duì)于恢復(fù)的視頻容易出現(xiàn)抖動(dòng),無法保持時(shí)序上連續(xù)性的問題,提出雙階段特征對(duì)齊思路,分別對(duì)微小運(yùn)動(dòng)對(duì)象和幅度較大的運(yùn)動(dòng)對(duì)象進(jìn)行特征對(duì)齊。具體而言,在給定視頻序列的情況下,使用殘差密集塊進(jìn)行特征提取,然后利用通道和空間注意力將權(quán)重分配給不同通道的每個(gè)空間位置,有效地使用通道和空間信息,并利用一個(gè)自注意力結(jié)構(gòu)捕獲空間中長距離依賴關(guān)系實(shí)現(xiàn)全局學(xué)習(xí)。同時(shí),將給定的視頻序列分別經(jīng)過通道注意力和空間注意力,得到的特征輸出一起送入一個(gè)注意力光流估計(jì)分支,進(jìn)行第一階段的特征對(duì)齊;之后,得到特征先進(jìn)行上采樣然后再送入可變形卷積LSTM[11]中進(jìn)行第二階段的特征對(duì)齊;最后,進(jìn)行重建得到恢復(fù)的視頻幀。
本文提出了一個(gè)可以應(yīng)用于視頻超分辨率任務(wù)的新框架,該模型簡單明了,創(chuàng)新地將注意力機(jī)制和光流結(jié)合在一起,提出雙階段特征對(duì)齊思路,第一階段處理微小運(yùn)動(dòng)信息,第二階段處理幅度較大的運(yùn)動(dòng)信息。實(shí)驗(yàn)證明所提出方法的可行性,并與現(xiàn)有方法的比較證明了所提出方法在視頻SR中的有效性。
F=Hrdb(Hc1(Hc0(ILR)))
其中,Hrdb(·)表示殘差密集塊操作,Hc(·)表示卷積操作。
隨后,將提取的特征分別送入多注意力分支和注意力光流估計(jì)分支,可以得到兩個(gè)分支的輸出:
其中,Hse(·),Hsa(·)和Hca(·)以及Hf(·)分別表示自注意力模塊、空間注意力和通道注意力以及光流模塊的函數(shù)。
y1=Hc4(↑(Hc2(a)))
y2=Hc5(↑(Hc3(f)))
其中,↑表示上采樣。最后,將y1,y2送入DLSTM,再經(jīng)過一層卷積得到最后的輸出:
ISR=HMAFnet(ILR)
其中,θ表示網(wǎng)絡(luò)的參數(shù)集。
同時(shí),本文還選擇了Charbonnier Loss[21]來幫助模型更好地恢復(fù)邊緣信息,提升性能。計(jì)算公式為
圖1 多注意力光流網(wǎng)絡(luò)的結(jié)構(gòu)Fig.1 The structure of multi-attention optical flow network
受非局部操作網(wǎng)絡(luò)[13]的啟發(fā),本文提出了多注意力分支(MAB)。針對(duì)視頻超分辨中空間信息不易保留的問題,在增強(qiáng)通道依賴性的情況下,保留空間信息,并且自適應(yīng)地實(shí)現(xiàn)全局學(xué)習(xí)功能。
空間注意力結(jié)構(gòu)如圖2(b)所示。在多注意力分支中,空間注意力將通道注意力的輸出特征作為輸入特征先經(jīng)過1×1大小的卷積和激活函數(shù)LReLU,在空間注意力中之所以選擇LReLU而非ReLU,是考慮ReLU在訓(xùn)練過程中可能會(huì)導(dǎo)致神經(jīng)元死亡,無法進(jìn)一步更新參數(shù)梯度,使用LReLU能夠緩和該問題,更好地保留空間信息。經(jīng)過池化層,池化層是由平均池化和最大池化以及連接操作構(gòu)成,經(jīng)過池化層后接著經(jīng)過1×1的卷積和LReLU得到的特征記為特征1;之后,經(jīng)過重復(fù)的1×1卷積、LReLU、池化層結(jié)構(gòu),接著經(jīng)過3×3的卷積和LReLU并重復(fù)一次該結(jié)構(gòu),進(jìn)行插值運(yùn)算得到的特征記為特征2;將特征1和特征2相加后經(jīng)過1×1卷積、LReLU,并再進(jìn)行一次插值運(yùn)算,將特征依次送入3×3卷積、1×1卷積、LReLU,得到特征記為特征3;利用Sigmoid函數(shù)得到注意力特征圖,將注意力特征圖和輸入特征作矩陣乘法,將結(jié)果與特征3相加得到輸出特征。
自注意力結(jié)構(gòu)如圖2(c)所示。在多注意力分支中,自注意力結(jié)構(gòu)的輸入特征是空間注意力的輸出,該結(jié)構(gòu)中卷積核大小都為1×1,得到的特征圖作矩陣乘法并經(jīng)過softmax函數(shù)得到注意力圖與另一個(gè)特征圖再作矩陣乘法得到輸出。
(a) 通道注意力(b) 空間注意力(c) 自注意力圖2 不同注意力的結(jié)構(gòu)圖Fig.2 Structure charts of different attentions
傳統(tǒng)運(yùn)動(dòng)補(bǔ)償方法存在計(jì)算復(fù)雜、準(zhǔn)確度不高的問題。本文采用將注意力與光流相結(jié)合的方式處理小運(yùn)動(dòng)對(duì)象的信息,同時(shí)保留對(duì)象相關(guān)信息,達(dá)到第一階段的特征對(duì)齊。將第一部分特征提取得到的特征分別經(jīng)過通道注意力和空間注意力,將兩者的輸出送入光流估計(jì)網(wǎng)絡(luò)得到該分支的輸出。
給定任何兩個(gè)相鄰幀Ii,Ii+1,則光流計(jì)算公式可以表示為
fi→i+1=Nf(Ii,Ii+1)
其中,Nf表示光流估計(jì)網(wǎng)絡(luò)。
將可變形卷積[22]加入到傳統(tǒng)LSTM中。可變形卷積相較于傳統(tǒng)卷積可以對(duì)空間位置信息的位移進(jìn)行調(diào)整,而相較于空洞卷積[23],不易引入網(wǎng)格偽影。它不僅保留了LSTM原本的優(yōu)點(diǎn),而且增強(qiáng)了視頻幀在時(shí)序上對(duì)齊的能力,有效地利用上下文信息處理視頻中的大運(yùn)動(dòng)信息,保證了視頻的連續(xù)性。
Vimeo-90k[24]是一個(gè)被廣泛應(yīng)用的數(shù)據(jù)集,選擇settuplet子集作為本實(shí)驗(yàn)的訓(xùn)練和測(cè)試數(shù)據(jù)集,選擇PSNR和SSIM作為評(píng)估標(biāo)準(zhǔn)。在訓(xùn)練過程中,將每個(gè)視頻剪輯5個(gè)連續(xù)幀輸入模型,學(xué)習(xí)率設(shè)置為1E-4;同時(shí),像大多數(shù)圖像超分辨和視頻超分辨方法一樣,將超分辨上采樣系數(shù)設(shè)置為4;批處理大小是根據(jù)GPU內(nèi)存設(shè)置的,通常將其設(shè)置為64;然后使用PyTorch框架在一張RTX 2080Ti顯卡上進(jìn)行實(shí)驗(yàn)(表1)。
表1 在Vimeo-90k測(cè)試集上的PSNR和SSIM的比較
本文在定量和定性兩個(gè)方面將提出的方法與不同的超分辨方法進(jìn)行了比較,包括經(jīng)典和最新的圖像和視頻超分辨率方法。所有定量結(jié)果都可以在表1中找到,選擇PSNR和SSIM作為評(píng)估指標(biāo)。與現(xiàn)有的超分辨方法相比,所提出的多注意力結(jié)合光流方法有一定提升。此外,定性結(jié)果可以在圖3中看到,它們顯示了Ground Truth(GT)和超分辨放大倍率4倍的結(jié)果,可以通過細(xì)節(jié)圖觀察到所提出方法可以輕松恢復(fù)紋理細(xì)節(jié)。
VSRnetRCANTOFlow
DUFMAFnet(Ours)GT
VSRnetRCANTOFlow
DUFMAFnet(Ours)GT
VSRnetRCANTOFlow
DUFMAFnet(Ours)GT圖3 Vimeo-90k測(cè)試集上的可視化結(jié)果Fig.3 Visualization results on the Vimeo-90k test set
本文提出利用多個(gè)注意力結(jié)合光流的網(wǎng)絡(luò)結(jié)構(gòu)完成視頻超分辨任務(wù),并且利用使用了可變形卷積的LSTM網(wǎng)絡(luò),配合光流估計(jì)網(wǎng)絡(luò)實(shí)現(xiàn)雙階段特征對(duì)齊的思路,實(shí)驗(yàn)結(jié)果證明了網(wǎng)絡(luò)的可靠性和可行性。雖然所提出的模型在可視化效果上取得了令人滿意的效果,但是模型不夠輕量化,如何設(shè)計(jì)輕量模型,降低計(jì)算復(fù)雜度同時(shí)保證超分辨性能是接下來要研究和解決的方向。