国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖像復原中自注意力和卷積的動態(tài)關聯學習

2024-04-22 00:46:52江奎賈雪梅黃文心王文兵王正江俊君
中國圖象圖形學報 2024年4期
關鍵詞:圖像增強集上注意力

江奎,賈雪梅,黃文心,王文兵,王正,江俊君

1.哈爾濱工業(yè)大學計算機科學與技術學院,哈爾濱 150000;2.武漢大學計算機學院,武漢 430072;3.湖北大學計算機與信息工程學院,武漢 430062;4.杭州靈伴科技有限公司,杭州 310000

0 引言

復雜的成像條件,如雨霧、低光、水下散射等會對圖像質量產生不利影響,并顯著降低基于人工智能應用技術的性能,如圖像理解(Liao 等,2022;Wang 等,2022a)、目標檢測(Zhong 等,2021)和目標識別(Xie 等,2022)。因此,急需研究有效的圖像修復方案,消除成像過程中的降質擾動,提升圖像的可辨識度和可讀性,輸出高質量的修復結果。

近十年中,圖像修復(馬龍 等,2018;Chen 等,2021;Wang 等,2020a;Yang 等,2022)獲得了前所未有的發(fā)展。在深度神經網絡之前,基于模型的圖像修復方法(Garg和Nayar,2005)更多地依賴于圖像內容的統(tǒng)計分析,并在降質或者背景上引入人為設定的先驗知識(例如稀疏性和非局部均值濾波)。盡管如此,這些方法在復雜多變的降質環(huán)境中穩(wěn)定性較差(Bossu 等,2011;Chen 和Hsu,2013;Zhong 等,2022)。

與傳統(tǒng)基于模型的方法相比,卷積神經網絡(convolutional neural network,CNN)能夠從大規(guī)模的數據中學習到廣義統(tǒng)計知識,無疑是更好的選擇。為了進一步提高圖像修復的效果,現有網絡設計了各種復雜的結構和訓練方式(Jiang 等,2021b;楊紅菊 等,2022;Yu等,2019)。然而,由于局部感知和平移同變性的固有特征,CNN 至少有兩個缺點:1)感受野有限;2)滑動窗口在推理時的靜態(tài)權重無法應對內容的多樣性。具體來講,前者使網絡無法捕捉到長距離的像素依賴性,而后者則犧牲了對輸入內容的適應性。因此,它遠遠不能滿足表征全局降質分布的需求。以圖像去雨為例,基于CNN 的方法輸出結果會有明顯的雨水殘留(如Ren 等人(2019)方法 和DRDNet(detail-recovery image deraining network)(Deng 等,2020))或細節(jié)損失(如MPRNet(multi-stage progressive image restoration network)(Zamir 等,2021)和SWAL(selective wavelet attention learning)(Huang 等,2021)),如圖1 中的去雨結果所示。

圖1 各種去雨方法的結果比較Fig.1 Comparison of the results of various deraining methods

給定一個像素,自注意力(self-attention,SA)會通過其他位置的加權去獲得當前位置的全局響應。在各種自然語言和計算機視覺任務的深度網絡中都進行了相關的研究(Vaswani 等,2017;Wang 等,2018;Zhang 等,2019b)。得益于全局處理的優(yōu)勢,SA 在消除圖像擾動方面取得了比CNN 更加顯著的性能提升(Chen 等,2021;Liang 等,2021;Wang 等,2022b)。然而,由于SA 的計算是全局的,其計算復雜度隨空間分辨率呈二次方增長,因此無法應用于高分辨率圖像。SA 也可應用于圖像修復任務,如圖像去雨、去霧、超分等。Restormer(Zamir等,2022)提出了一種多頭轉置注意(multi-dconv head transposed attention,MDTA)模塊來建模全局關聯,并取得了令人印象深刻的圖像修復效果。盡管MDTA 是在特征維度上而不是在空間維度上應用SA,具有線性的復雜度,但Restormer(Zamir 等,2022)還是需要更多的計算資源才能獲得更好的恢復性能。因其具有563.96 Gflops 和 2 610 萬個參數,使用一個TITAN X GPU 對512×512 像素的圖像進行去雨需要0.568 s,這對于許多資源有限的實際應用來講,所需的算力或內存都是昂貴的。

除效率低之外,Restormer 至少還有兩個缺點。1)將圖像修復看做是基于擾動和背景圖像的簡單疊加,這是有爭議的。因為降質擾動層和背景層是交織重疊的,其中降質影響了圖像的內容,包括細節(jié)、顏色和對比度。2)構建一個完全基于Transformer的框架是次優(yōu)的。因為SA擅長聚合全局特征圖,但缺乏CNN 在學習局部上下文關系方面的能力。這自然引出了兩個問題:1)如何將降質擾動去除與背景修復聯系起來?2)如何將SA 和CNN 有效地結合起來實現高精度和高效率的圖像修復?

為了解決第1 個問題,本文從降質分布揭示退化位置和程度的觀測中得到啟示,降質分布反映了圖像退化的位置的強度。因此,提出以關聯學習的方式,利用預測的退化來優(yōu)化背景紋理重建,將擾動去除與背景重構相結合,分別設計了圖像雨紋移除網絡(image deraining network,IDN)和背景重構網絡(background recovery network,BRN)來完成圖像修復。關聯學習的關鍵部分是一種新的多輸入注意模塊(multi-input attention module,MAM)。它對輸入降質圖像中得到的退化分布進行量化表征,生成退化掩碼。得益于SA 的全局相關性計算,MAM 可以根據退化掩碼從降質輸入中提取背景信息,進而有助于網絡準確的恢復紋理。

處理第2 個問題的一個直觀想法是利用這兩種架構的優(yōu)勢構建一個統(tǒng)一的模型。Park 和Kim(2022)已經證明SA 和標準卷積網絡有著相反且互補的特性。具體來說,SA 傾向于聚合具有自注意力中重要的特征圖,但卷積使其多樣化,以專注于局部紋理。與Restormer 中設置的Transformer 不同,本文以并行的方式處理SA和CNN,并提出了一種交叉融合網絡。它包括一個殘差Transformer 分支(residual Transformer branch,RTB)和一個編碼器—解碼器(encoder-decoder branch,EDB)。前者通過多頭注意力和前饋網絡來編碼圖像的全局特征。相反,后者利用多尺度編碼器—解碼器來表示上下文知識。并且本文設計了一種輕量級交叉融合塊(hybrid fusion block,HFB)來聚合RTB 和EDB 的結果,最終用以處理對應的學習任務。通過這種方式,最終構建一種基于Transformer 的兩階段模型,即ELF(image deeraining meets association learning and Transformer)。在圖像去雨任務上,其平均性能優(yōu)于基于CNN 的SOTA(state-of-the-art)方法MPRNet(Zamir 等,2021)0.25 dB,并且節(jié)省了88.3% 和57.9%的計算成本和參數。

本文的主要貢獻如下:1)首次考慮到Transformer 和CNN 在圖像修復任務中的高效性和兼容性,并將SA 和CNN 的優(yōu)勢整合到一個基于關聯學習的網絡中,用于擾動消除和背景重構。這是一個針對圖像修復任務的局部—整體多層次結構的高效實現。2)設計了一種新的多輸入注意力模塊(MAM),將擾動去除和背景重構任務巧妙地關聯起來。它顯著減輕了網絡學習負擔,同時促進了背景紋理恢復。3)在圖像去雨、水下圖像增強、低光照增強和檢測任務上的綜合實驗論證了本文提出的ELF方法的有效性和效率。以圖像去雨任務為例,ELF平均比MPRNet(Zamir 等,2021)在峰值信噪比(PSNR)上高出0.25 dB,而后者的計算成本為前者的8.5倍,參數量為前者的2.4倍。

1 相關工作

圖像去雨的相關工作在架構創(chuàng)新和訓練方法方面都取得了重大進展。本節(jié)將簡要介紹一些典型的且與本文研究相關的圖像去雨、圖像恢復和視覺Transformer模型。

1.1 單圖像去雨

傳統(tǒng)的去雨方法(Kang 等,2012;Luo 等,2015)采用圖像處理技術和手工制作的先驗來解決去雨問題。然而,當預定義的模型不成立時,這些方法會產生較差的結果?;谏疃葘W習的去雨方法(Li 等,2017;Zhang 和Patel,2017;Jiang 等,2023)都表現出令人印象深刻的性能。早期基于深度學習的去雨方法(Fu 等,2017a;Zhang 等,2018a)應用卷積神經網絡(CNN)直接減少從輸入到輸出的映射范圍,以此產生無雨結果。為了更好地表示雨水分布,研究人員考慮了雨水特征,如雨密度(Zhang 等,2018b)、大小和遮蔽效應(Li等,2017,2019a),并使用遞歸神經網絡通過多個階段(Li 等,2018c)或非局部網絡(Wang 等,2020b)來利用長距離空間相關性更好地去除雨紋(Li 等,2018b)。在此基礎上,SA 利用其強大的全局相關學習消除了雨水退化,取得了優(yōu)秀的效果。雖然采用精簡表示和基于全局不重疊窗口的SA(Wang 等,2022b;Ji 等,2021)來提升全局SA 以減輕計算負擔,但這些模型仍然會迅速占用計算資源。除了效率低之外,這些方法(Zamir 等,2022;Ji 等,2021)僅將去雨任務視為雨水擾動的消除,忽略了退化帶來的背景細節(jié)缺失和對比度偏差。圖2 展示了在TEST1200 數據集上比較主流圖像去雨方法的效果與性能。

圖2 在TEST1200數據集上比較主流圖像去雨方法的效果與性能Fig.2 Comparison of mainstream deraining methods in terms of efficiency vs.performance on the TEST1200 dataset

1.2 圖像恢復

從低質量圖像中恢復高質量圖像的任務統(tǒng)稱為圖像恢復任務,如水下圖像增強、低光照圖像增強、圖像去霧等,具有與圖像去雨類似的降質因素。接下來,本小節(jié)簡要介紹一些典型的水下圖像增強和低光照圖像增強方法。

1.2.1 水下圖像增強

早期的水下圖像增強方法通過動態(tài)像素范圍拉伸(Iqbal 等,2010)、像素分布調整(Ghani 和Isa,2015)和圖像融合(Ancuti 等,2012)等方法來調節(jié)像素值以實現增強,但這些方法難以應對多樣的水下場景。隨著深度學習的發(fā)展,一些基于深度學習的水下圖像增強方法相繼提出。其中基于生成對抗網絡的方法成為主流,如UCycleGAN(underwater CycleGAN)(Li 等,2018a)采用弱監(jiān)督的方式將CycleGAN(Zhu 等,2017)的網絡結構應用到此任務中,Guo 等人(2020b)提出一個多尺度密集生成對抗網絡,都取得了不錯的效果。但這些方法都只是簡單應用基于生成對抗網絡的結構,并沒有考慮復雜的退化關系,生成的結果有明顯的雨水殘留,而且會引入對比度失真。

1.2.2 低光照圖像增強

早期的低光照圖像增強方法多基于像素灰度值統(tǒng)計分析,如直方圖均衡化(Cheng 和Shi,2004;Pisano 等,1998)等。但這些方法只利用了灰度分布,并沒有考慮空間信息,增強后的圖像可能會過曝光或欠曝光,與真實圖像不一致。相比之下,基于視網膜皮層理論(retinal cortex theory)的方法(Jobson等,1997)將輸入的低光照圖像分解為光照和反射率兩部分,通過增強光照部分來增強圖像。但這些方法通常缺乏足夠的適應性,難以獲得穩(wěn)定的光照分布,且易缺失細節(jié)紋理信息。通過學習低光圖像到正常光圖像的映射,基于深度學習的方法取得了綜合的最優(yōu)效果。例如,Zero-DCE(Guo 等,2020a)通過逐步推導構造出了一種輕量的像素級別的曲線估計網絡,來學習像素級高階曲線參數映射,同時提出無參考損失函數對輸出圖像的質量進行間接的評估。EnlightenGAN(Jiang等,2021d)提出了一種高效無監(jiān)督的生成對抗網絡,并對全局—局部鑒別器結構,自正規(guī)化感知損失融合和注意機制進行了測試,實現了很好的低光照圖像增強效果和通用性。LLFlow(Wang 等,2022c)提出以低光圖像/特征為條件,學習將正常曝光圖像的分布映射到高斯分布中。然后,通過在訓練中約束正常圖像的光流結構實現圖像增強。但是,單一映射的網絡結構使得它們在應對復雜輸入時可能產生偽影、色差等問題,且難以恢復精細的結構紋理。

1.3 視覺Transformer

基于Transformer的模型首先應用在自然語言任務中的序列處理(Vaswani 等,2017)。由于ViT(visual Transformer)(Dosovitskiy 等,2021)具有很強的長距離依存關系學習能力,因此將Transformer 引入了計算機視覺領域,并將大量基于Transformer 的方法應用于計算機視覺任務,例如圖像識別(Dosovitskiy 等,2021;Ijaz 等,2022),分割(Wang 等,2021),目標檢測(Carion 等,2020;Liu 等,2021)。對于給定的輸入內容(Khan 等,2021),視覺Transformer(Dosovitskiy 等,2021;Touvron 等,2021)將一幅圖像分解為一組局部窗口序列,并學習它們之間的相互關系。例如,TTSR(texture Transformer network for image super-resolution)(Yang 等,2020)提出了一種自注意力模塊,可以提供準確的紋理特征,用于將參考圖像中的紋理信息傳輸到高分辨率圖像進行重建。Chen 等人(2021)在ImageNet 數據集上提出了一個預訓練的圖像處理Transformer,并使用多頭網絡架構分別處理不同的任務。然而,SA 的直接應用未能充分利用Transformer 的潛力,這是由于自注意力巨大的計算負載和不同深度(尺度)層之間的低效通信造成的。此外,很少有工作考慮到Transformer與CNN 之間的內在互補特性去構建一個有效統(tǒng)一的模型。自然地,這種設計限制了局部鄰域內的上下文融合表達,這違背了使用自注意力而不是卷積的主要動機,因此不適合圖像恢復任務。相比之下,本文探索連接兩者的橋梁,并為圖像去噪任務構建了Transformer和CNN的交叉模型。

2 本文方法

本文的主要目標是利用CNN 和Transformer 構建高效、高精度的圖像修復模型。理論上,自注意力將特征映射值與正向的重要權重進行平均,以學習全局表示,而CNN 傾向于聚合局部相關信息。直觀上,將它們結合起來以充分利用局部和全局紋理是合理的。一些研究試圖將這兩種結構結合起來,形成一種用于淺層圖像恢復的交叉框架,但是未能充分發(fā)揮其作用。

以圖像去雨為例,與直接將Transformer 塊替換卷積的方法不同,本文考慮了這兩種結構的高效性和兼容性,并構建了一個稱為ELF的交叉框架,能夠充分協調它們在圖像修復任務上的優(yōu)勢。與現有的圖像修復方法相比,所提出的ELF 至少在兩個關鍵的方面與它們不同。

1)設計概念不同。與基于疊加模型的方法不同的是,ELF 將背景圖像IB的最優(yōu)近似值從雨天圖像IRain中預測出來,或從雨天圖像中殘差學習雨水信息IR并生成,ELF 將圖像去雨任務轉換為雨紋去除和背景重構的組合,并引入Transformer 將這兩部分與新設計的多輸入注意力模塊(MAM)聯系起來。

2)成分不同。由于低頻信號和高頻信號是SA和卷積(Park 和Kim,2022)中十分重要的信息,因此構建了一個用于特定特征表示和融合的雙分支框架。具體來說,ELF 的主干是一個雙分支交叉的融合網絡,包括了一個殘差Transformer分支(RTB)和一個編碼器—解碼器分支(EDB),分別學習全局結構(低頻成分)的表征和局部紋理(高頻成分)的表征。

圖3 概述了提出的ELF 的框架,該框架包含圖像去雨網絡(IDN)、多輸入注意力模塊(MAM)和背景重構網絡(BRN)。為提高效率,IDN 和BRN 共享相同的雙分支交叉融合網絡,詳見第2.2節(jié)。

圖3 本文提出的圖像修復方法ELF的網絡結構(以圖像去雨任務為例)Fig.3 The architecture of our proposed ELF image restoration method(taking image deraining as an example)

2.1 網絡流程及優(yōu)化

給定一幅雨天圖像IRain∈RH×W×3和一幅干凈版本的圖像IB∈RH×W×3,其中H和W表示映射特征的空間高度和寬度??梢杂^察到,雨圖樣本IRain,S∈RH×W×3經過雙線性插值重建的雨天圖像IRain,SR∈RH×W×3與原始雨天圖像有著相似的統(tǒng)計分布,如圖4 所示。受到啟發(fā),本文在樣本空間中去預測雨紋分布,以減輕學習和計算負擔。

圖4 真實樣本與合成樣本的“Y”通道直方圖擬合結果Fig.4 Fitting results of “Y” channel histogram for real and synthetic samples of true sample and synthetic sample((a)true sample;(b)synthetic sample)

以這種方式,首先對IRain和IB進行雙線性操作,生成相應的子樣本(IRain,S∈R和IB,S∈R)。如前所述,ELF 包含兩個子網絡(IDN 和BRN),通過關聯學習來完成圖像去雨。因此,IRain,S被輸入到IDN中,生成相應的雨水分布和去雨結果,具體為

式中,FBS(·)表示雙線性下采樣,以生成雨天圖像樣本IRain,S,?IDN(·)表示IDN中的雨水評估函數。

雨水分布展示了退化的位置和程度,將其轉化為退化自然是合理的,有助于準確地恢復背景。在將傳入BRN 進行背景重構之前,設計了一個多輸入注意力模塊(MAM),如圖3 所示,該模塊通過Transformer 層能夠充分利用來自雨天圖像IRain的背景信息進行互補,并將其合并為嵌入表征。MAM的流程表示為

式中,FSA(·)表示自注意力函數,包含了嵌入函數和點乘交互。FB(·)是生成初始表征的嵌入函數。FHBF(·)是指HFB 中的融合功能。之后,BRN 將fMAM作為背景的重構,即

式中,?BRN(·)表示BRN 的超分辨率重建函數,FUP(·)表示雙線性上采樣。

與單獨訓練雨紋消除和背景重構不同,本文引入了聯合約束來增強去雨模型與背景重構的兼容性,且能夠從訓練數據中自動進行學習。然后使用圖像損失(Charbonnier 損失函數(Hu 等,2022;Jiang等,2020b;Lai 等,2017))和結構相似性(structural similarity,SSIM)(Wang 等,2004)損失對網絡進行監(jiān)督學習,同時實現圖像和結構保真度的恢復。損失函數表示為

式中,α和λ用于平衡損失成分,分別設置為-0.15和1。懲罰系數ε設置為0.001。

2.2 交叉融合網絡

自注意力機制是Transformer 的核心部分,它擅長學習長距離的語義依存關系和捕捉圖像中的全局表示。與之相反,由于固有的局部連通性,CNN 更加擅長對局部關系進行建模。為此,本文結合Transformer 和CNN 的優(yōu)勢,將IDN 和BRN 的構建成深度雙分支交叉融合網絡。如圖3 所示,主干包括殘差Transformer 分支(RTB)和編碼器—解碼器分支(EDB)。RTB 以一些可學習的內容(特征通道)作為輸入,疊加多頭注意力和前饋網絡來編碼全局結構。然而,獲取長距離像素的相互關系是造成Transformer 計算量巨大的罪魁禍首,使其無法應用于高分辨率圖像,尤其是圖像重構任務。受El-Nouby 等人(2021)啟發(fā),除了在樣本空間上處理表征外,本文沒有學習全局的空間相似性,而是應用SA計算跨通道的互協方差,以生成隱式編碼全局上下文的注意力圖,它具有線性復雜度而不是二次復雜度。

EDB 旨在推理局部中豐富的紋理,受U-Net(Ronneberger 等,2015)的啟發(fā),還使用U 形框架構建了EDB。將前3個階段構成編碼器,其余3個階段作為解碼器。每個階段采用類似的架構,包括采樣層、殘差通道注意塊(residual channel attention block,RCAB)(Zhang 等,2018c)和交叉融合塊。使用雙線性采樣和1×1 卷積層來減少棋盤偽影和模型參數,而不是使用跨步或轉置卷積來重新縮放特征的空間分辨率。為了促進不同階段或尺度下的殘差特征融合,設計了HFB 以在空間和通道維度上聚合不同階段的多個輸入。HFB可以在重構過程中充分利用更多不同的功能。此外,為了進一步減少參數量,RTB 和EDB 設置了深度可分離卷積(depthwise separable convolutions,DSC)。對 于RTB,將DSC 集成到多頭注意力中,以在計算特征協方差之前強調局部上下文,從而生成全局注意圖。此外,將EDB 構造成非對稱U 形結構,其中編碼器設計了便攜式的DSC,但解碼器使用標準卷積。該方案可以節(jié)省整個網絡約8%的參數。實驗證明,在編碼器中使用DSC的編碼器優(yōu)于在解碼器使用。

2.3 多輸入注意力模塊

如圖3 所示,為將雨紋去除和背景重構聯系起來,本文構建了一個帶有Transformer 的多輸入注意力模塊MAM,充分利用背景信息進行互補增強。不同于將系列圖像塊作為Transformer 的輸入,MAM 將預測的雨水分布,子空間的去雨圖像和雨天圖像IRain作為輸入,首先學習嵌入表征去豐富局部語義內容,和fRain分別表示查詢(query,Q),鍵(key,K)和值(value,V)的映射關系。這里不對大小為RHW×HW的空間注意圖進行學習,而是重新定義Q和K的映射大小,并通過和fRain之間的點乘,生成交叉的協方差轉置注意力圖M∈RC×C。

如圖5,注意力圖引導網絡從IRain的嵌入表征fRain中挖掘背景紋理信息fBT。SA的處理流程為

圖5 MAM的可視化Fig.5 Visualization of MAM

式中,FK(·)、FQ(·)和FV(·)是進行映射的嵌入函數,?是點乘操作。之后在交叉混合模塊中,將提取的互補信息和的嵌入表征結合去豐富背景表征。

2.4 交叉融合模塊

考慮到殘差塊和編碼階段之間的特征冗余和知識差異,本文引入了一種新的交叉融合塊HFB,其中早期階段的低層次背景特征有助于鞏固后期階段的高層次特征。具體來說,將深度可分離的卷積和通道注意層納入HFB,以便在空間和通道維度上辨別性地聚合多尺度特征。與基于像素級疊加或卷積融合相比,提出的HFB更加靈活和有效。

3 實驗結果

為了驗證本文提出的ELF,在合成的和真實的雨天數據集上進行了廣泛的實驗,并將ELF 與幾種主流的圖像去雨方法進行比較。這些方法主要包含MPRNet(Zamir 等,2021)、SWAL(Huang 等,2021)、RCDNet(rain convolutional dictionary network)(Wang等,2020b)、DRDNet(detail-recovery image deraining network)(Deng 等,2020)、MSPFN(multi-scale progressive fusion network)(Jiang 等,2020a)、IADN(improved attention-guided deraining network)(Jiang等,2021a)、PreNet(progressive recurrent network)(Ren 等,2019)、UMRL(uncertainty guided multiscale residual learning)(Yasarla 和Patel,2019)、DIDMDN(density-aware multi-stream densely connected convolutional neural network)(Zhang 等,2018c)、RESCAN(recurrent se context aggregation net)(Li 等,2018c)和DDC(deep decomposition composition network)(Li 等,2019b)。使用5 種常用的評估指標進行評測,例如峰值信噪比(peak signal-tonoise ratio,PSNR)、結構相似性(SSIM)、特征相似性(feature similarity,FSIM)、自然度圖像質量評估器(naturalness image quality evaluator,NIQE)(Mittal等,2013)和基于空間熵的質量(spatial-spectral entropy-based quality,SSEQ)(Liu等,2014)。

3.1 實驗細節(jié)

3.1.1 數據收集

由于所有比較方法的訓練樣本存在差異,根據Jiang 等人(2020a)的方法,使用Fu 等人(2017b)、Zhang 等人(2020)方法中的13 700 個干凈的背景/雨天圖像對,用其公開發(fā)布的代碼訓練所有比較方法,并通過調整優(yōu)化參數以進行公平比較。在測試階段,選取了4 個合成基準Test100(Zhang 等,2020)、Test1200(Zhang 等,2018a)、R100H 和R100L(Yang等,2017)和3 個真實數據集RID(rain in driving)、RIS(rain in surveillance)(Li 等,2019a)和Real127(Zhang等,2018a)進行評估。

3.1.2 實驗設置

在本文的基線中,RTB 的Transformer 模塊數量設為10,根據經驗,對于EDB 中的每個階段,RCAB設置為1,濾波器數量為48。為了方便訓練,將訓練圖像裁剪為固定尺寸為256×256 像素的塊,以獲得訓練樣本。使用學習率為2E-4 的Adam 優(yōu)化器,每65 個訓練輪數的衰減率為0.8,直到600 輪。批量大小為12,在單個Titan Xp GPU 上訓練ELF 模型500 輪次。

3.2 消融研究

為了驗證網絡中各個組件對最終去雨性能的貢獻,本節(jié)進行了相應的消融研究,包括自注意力(SA)、深度可分離卷積(DSC)、超分辨率重構(super resolution,SR)、交叉融合模塊(HFB)和多輸入注意力模塊(MAM)。為簡單起見,將最終模型表示為ELF,并通過刪除上述所有組件來表示基線模型(用w/o 表示)。在Test1200 數據集上的去雨性能和推理效率方面的定量結果如表1 所示,實驗表明完整的去雨模型ELF 比其不完整的版本有著顯著的改進。與w/o MAM(從ELF 中刪除MAM 模塊)模型相比,ELF 實現了1.92 dB 的性能增幅,主要是因為MAM 中的關聯學習可以幫助網絡充分利用雨天輸入的背景信息和預先預測的雨水分布。此外,將圖像去雨任務分解為低維空間的雨紋去除和紋理重建在效率(推理時間和計算成本分別上升了19.8%和67.6%)和重構質量(參考ELF 和ELF*的結果,ELF*在原始分辨率空間上完成去雨和紋理重構)上具有相當大的優(yōu)勢。使用深度可分離卷積可以在參數大致相同的情況下增加通道深度,從而提高表示能力(參考ELF 和w/o DSC 模型的結果)。與用標準RCABs 替換RTB 中的Transformer 塊的w/o SA 模型相比,ELF在可接受的計算成本下提升了0.45 dB。

表1 在Test1200數據集上消融實驗Table 1 Ablation study on Test1200 dataset

本節(jié)進行了雙分支交叉融合框架的消融實驗,其中涉及一個殘差Transformer 分支(RTB)和一個U 型編碼器—解碼器分支(EDB)。基于ELF,依次去除這兩個分支,設計兩個對比模型(w/o RTB和w/o EDB),定量結果如表1 所示。去除RTB 可能會大大削弱對空間結構的表示能力,導致性能大幅下降(參考ELF和w/o RTB模型的結果,PSNR下降2.09 dB)。此外,EDB允許網絡聚合多尺度的紋理特征,這對于豐富局部紋理的表征至關重要。

3.3 與SOTA的比較

3.3.1 合成數據

表2 提供了在Test1200、Test100、100H 和R100L數據集的定量結果,以及推理時間、模型參數和計算成本。據觀察,大多數模型在小雨的情況下一致地獲得了優(yōu)異性能,而ELF 和MPRNet 在大雨條件下仍然表現良好,特別在PSNR 上顯示出更大的優(yōu)勢。ELF 模型在所有指標上都取得最優(yōu),平均超過了基于CNN 的SOTA(MPRNet)0.25 dB,且僅占其計算成本和參數的11.7%和42.1%。同時,輕量模型ELF-LW 仍然具有競爭力,在4 個數據集上的PSNR分數排名第3,平均比實時圖像去雨的方法PCNet(Jiang 等,2021c)高出1.08 dB,并具有更少的參數(節(jié)省13.6%)和計算成本(節(jié)省23.7%)。

表2 在4個數據集上PSNR、SSIM和FSIM 的比較結果Table 2 Comparison results of average PSNR,SSIM,and FSIM on four datasets

圖6提供了結果可視化,PreNet、MSPFN和RCDNet 等高精度的方法,可以有效消除雨水層,從而提高可見度。但由于大量的偽影和不自然的顏色外觀,尤其是在大雨條件下,它們未能在視覺上產生好的效果。DRDNet專注于細節(jié)的重構,但推理過程耗時長、內存大。MPRNet 往往會產生過度平滑的結果。ELF 除了重構出更干凈和更可靠的圖像紋理外,產生的結果也具有更好的對比度以及更少的顏色失真(參考“老虎”和“馬”的場景)。此外,可以推出重構質量的改善可能得益于提出的Transformer和CNN 的混合表示框架以及用于雨紋去除和背景重構的關聯學習方案。這些策略方法被集成到一個統(tǒng)一的框架中,使得網絡能夠充分利用各自的學習優(yōu)點進行圖像去雨,同時保證模型的推理效率。

圖6 7種圖像去雨方法的可視化結果對比Fig.6 Visualization comparison of the results of seven image deraining methods

3.3.2 真實場景數據

進一步在3 個真實場景的數據集Real127、RID和RIS 上進行實驗。表3 列出了NIQE 和SSEQ 的定量結果,其中NIQE 和SSEQ 分數越小,表示感知的質量越好,內容越清晰。ELF 同樣具有很強的競爭力,在RID 數據集上的平均分數值最低,NIQE 和SSEQ 的平均分數在Real127 和RIS 數據集上是最好的。圖7 直觀展示了8 種方法在5 個真實場景(包括雨霧效應、大雨和小雨)中去雨的結果??梢钥闯觯珽LF 產生的無雨圖像中內容更干凈、更可信,而其他的方法未能很好地去除雨痕。這些實驗表明了ELF模型不僅能夠很好地消除雨水擾動,同時還能保留紋理細節(jié)和圖像自然度。

表3 3個真實數據集上10種圖像去雨方法的NIQE/SSEQ 平均分數對比Table 3 Comparison of average NIQE/SSEQ scores with ten deraining methods on three real-world datasets

圖7 8種方法在5個真實場景中去雨的結果對比Fig.7 Visual comparison of derained images obtained by eight methods on five real-world scenarios

3.4 對下游視覺任務的影響

在雨天條件下消除雨紋的退化影響,同時保留可靠的紋理細節(jié)對于目標檢測來說至關重要。這就促使本文研究去雨對目標檢測算法中檢測精度的影響。為此,將ELF 和幾個有代表性的去雨方法直接應用在一些雨天圖像并生成對應的無雨圖像,然后使用公開的YOLOv3(Redmon 和Farhadi,2018)預訓練模型進行檢測。

表4 展示了不同方法在COCO350 和BDD350 數據集上聯合圖像去雨和目標檢測的結果比較。其中,COCO350 數據集的圖像尺寸為640×480 像素,BDD350 數據集的圖像尺寸為1 280×720 像素,目標檢測算法為YOLOv3(you only look once v3)閾值為0.6。從表4 可以看出,ELF 在COCO350 和BDD350 數據集(Jiang 等,2020a)上的PSNR 分數最高,與其他去雨方法相比,ELF 生成的無雨結果具有更好的目標檢測性能。

表4 不同方法在COCO350/BDD350數據集上聯合圖像去雨和目標檢測的結果比較Table 4 Comparison results of joint image deraining and object detection on COCO350/BDD350

圖8 為不同方法在BDD350 數據集上聯合圖像去雨和目標檢測的可視化比較。圖8 中兩個樣本的比較表明,ELF去雨圖像在圖像質量和檢測精度方面有著顯著的優(yōu)勢。去雨和下游檢測任務的顯著性能歸因于雨紋消除和細節(jié)重構任務之間的關聯學習。

圖8 不同方法在BDD350數據集上聯合圖像去雨和目標檢測的可視化比較Fig.8 Visual comparison of joint image deraining and object detection on BDD350 dataset

3.5 對其他圖像恢復任務的通用性

一些圖像恢復任務如水下圖像增強,低光照圖像增強等,具有和圖像去雨相似的退化干擾因素,因此,為進一步探索提出的ELF的通用性與穩(wěn)定性,本節(jié)在水下圖像增強和低光照圖像增強任務上開展了簡單的研究。

3.5.1 水下圖像增強

根據Li 等人(2021),使用2 050 對生成的水下圖像來訓練ELF。其中,800 對圖像選自UIEB(Li等,2020a)數據集,1 250 對圖像選自Li等人(2020a)提出的數據集S1000。分別在真實場景數據集R90(Li 等,2019b)和合成數據集S1000 上進行實驗,并與7個主流的水下圖像增強方法進行了對比。

表5列出了PSNR和均方誤差(mean squared error,MSE)的定量結果,PSNR 分數越大、MSE 分數越小表明圖像的質量越好??梢钥吹?,ELF 在R90和S1000數據集上都取得了最好的結果,且平均PSNR分數比Ucolor(Li等,2021)方法分別高出4.15 dB和3.94 dB。

表5 在S1000和R90數據集上7種水下圖像增強方法的PSNR 和 MSE平均分數比較Table 5 Comparison of average PSNR and MSE scores with seven underwater image enhancement methods on S1000 and R90 datasets

圖9 直觀地展示了得出的結果,可以看到,提出的方法在有效矯正水下圖像的對比度和光照失真的同時,可以恢復出了更真實的細節(jié)結構,而其他對比方法,要么沒有消除水下異常色調,要么恢復出的圖像模糊、缺少細節(jié)信息。這些實驗表明了ELF 模型在水下圖像增強任務上的有效性和優(yōu)勢。

圖9 5種方法在S1000和R90數據集上增強后的結果比較Fig.9 Visual comparison of enhanced images obtained by five methods on S1000 and R90

3.5.2 低光照圖像增強

在低光照圖像增強領域最常用的基準數據集之一LOL(Li 等,2019a)數據集上進行實驗,評估ELF在該任務上的性能。使用LOL 訓練集中485 對低光—正常光的圖像對訓練ELF,并在測試集上進行測試。除了PSNR 和SSIM 評估指標外,還使用了LPIPS(learned perceptual image patch similarity)(Li等,2020a)指標,越低的LPIPS 分數表示感知質量越好。

表6 給出了與9 個主流的低光照增強方法的定量對比結果,ELF 取得了最高的PSNR 分數,在SSIM和LPIPS 指標上也十分接近當下的最優(yōu)方法。其中,LLFolw 采用額外的條件編碼器提取光照不變的顏色圖作為先驗分布的均值,并利用基于低光照圖像/特征為條件的負對數似然損失,這有助于表征圖像結構和上下文內容,保證在圖像流形中具有和真值相近的顏色分布。因此,LLFolw 可以獲得更好的MAE 和LPIPS 分數。相比之下,本文提出的ELF 不需要任何顏色先驗,但因具有精細的關聯學習方案,和逐像素、結構一致性約束,這對本文方法獲得更高的PSNR得分貢獻更大。

表6 在LOL數據集上比較9種低光照圖像增強方法的PSNR、SSIM、LPIPS和MAETable 6 Comparison of average PSNR,SSIM,LPIPS and MAE scores with nine low light image enhancement methods on LOL datasets

為了進一步顯示ELF 的有效性,圖10 展示了直觀的視覺結果??梢钥吹?,部分方法恢復出的圖像存在較大的噪聲和偽影,如EnlightenGAN(Jiang 等,2021d)和KinD++(Zhang 等,2021);一些方法要么增強后的亮度不足,要么出現了過曝光的情況;相比之下,ELF 在合理增強圖像亮度的同時,受噪聲和色偏的影響較小,且恢復出了更接近原圖的結構信息。這些實驗表明了ELF模型在低光圖像增強任務上的魯棒性,也驗證了提出的退化消除和背景恢復關聯學習方案的有效性。

圖10 7種方法在LOL數據集上增強后的結果比較Fig.10 Visual comparison of enhanced images obtained by seven methods on LOL dataset

4 結論

基于降質分布揭示了圖像退化位置和程度的觀察,本文引入退化先驗來幫助精確的背景恢復,并據此提出了高效高質的部分—整體圖像擾動去除和背景修復方案,即ELF。為了在提高模型緊湊型的同時實現關聯學習,提出同時利用Transformer 和CNN的優(yōu)勢,構建一個精心設計的多輸入注意力模塊(MAM)來實現擾動去除和背景修復的關聯學習。在圖像去雨、水下圖像增強、低光圖像增強和聯合目標檢測任務上的大量實驗結果表明,本文提出的ELF模型遠優(yōu)于現有的主流圖像增強模型。

盡管本文方法在圖像去雨、水下圖像增強、低光圖像增強,以及聯合目標檢測任務上展示了令人印象深刻的效果,但因缺少對不同降質的特性和共性特征的特定表達,在應對具有多種復雜天氣條件的真實場景時可能失效。同時,該方法仍然需求大量的高質量成對訓練數據,極大地限制了在新場景和新任務上的推廣,并且和真實環(huán)境降質存在極大的域差異。為了解決上述問題,未來作者團隊擬引入視覺大模型作為特征、語義表達先驗,在隱式空間實現不同降質環(huán)境下場景本質信息的表征,消除場景和降質差異;進一步引入基于提示的文本語言大模型,實現實時可交互的場景內容修復、理解和分析。

猜你喜歡
圖像增強集上注意力
讓注意力“飛”回來
圖像增強技術在超跨聲葉柵紋影試驗中的應用
水下視覺SLAM圖像增強研究
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
虛擬內窺鏡圖像增強膝關節(jié)鏡手術導航系統(tǒng)
復扇形指標集上的分布混沌
基于圖像增強的無人機偵察圖像去霧方法
“揚眼”APP:讓注意力“變現”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
栾川县| 建始县| 三河市| 乌拉特后旗| 安达市| 中阳县| 玉溪市| 彭山县| 太原市| 汉川市| 平利县| 东港市| 寿宁县| 当阳市| 中宁县| 景宁| 明光市| 靖西县| 阿图什市| 闻喜县| 图木舒克市| 社会| 宜兰市| 格尔木市| 南丹县| 靖安县| 安新县| 申扎县| 信宜市| 广德县| 宣化县| 翁源县| 台中市| 连城县| 尉犁县| 吉水县| 江油市| 泾川县| 尼玛县| 威信县| 南漳县|