国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多路光流信息的微光視頻增強算法

2024-09-21 00:00:00劉書生王九杭童官軍
現(xiàn)代電子技術(shù) 2024年16期

摘" 要: 圖像和視頻是記錄真實場景信息的重要媒介,它們包含豐富而詳細的視覺內(nèi)容,可以開發(fā)各種智能系統(tǒng)來執(zhí)行各種任務(wù)。特別是對于低照度條件下的視頻,提升其清晰度和細節(jié)可以更好地表現(xiàn)和還原真實場景。針對在夜間低照度環(huán)境條件下對周圍環(huán)境感知的需求,提出一種基于多路光流信息時間一致性的微光視頻增強算法。通過引入預(yù)測的光流與真實的光流信息,構(gòu)建三分支孿生網(wǎng)絡(luò)對微光視頻進行增強;同時針對微光視頻存在的低信噪比以及模糊化問題,設(shè)計一種基于雙尺度注意力機制的微光視頻去噪模塊(CA?Swin模塊),以提升網(wǎng)絡(luò)的去噪性能。通過在DAVIS數(shù)據(jù)集上進行對比實驗和評估,得出所提網(wǎng)絡(luò)在增強微光視頻方面更高效,魯棒性顯著;且該策略還具有通用性,可以直接擴展到大規(guī)模數(shù)據(jù)集。

關(guān)鍵詞: 微光視頻增強; 光流信息; 時間一致性; 三分支孿生網(wǎng)絡(luò); 雙尺度注意力機制; 微光視頻去噪模塊; 視頻幀

中圖分類號: TN941.2?34; TP389.1" " " " " " " " " "文獻標(biāo)識碼: A" " " " " " " " " 文章編號: 1004?373X(2024)16?0013?10

Low?light video enhancement algorithm based on multi?channel optical flow information

LIU Shusheng1, WANG Jiuhang1, TONG Guanjun2

(1. University of Chinese Academy of Sciences, Beijing 100049, China; 2. Shanghai Institute of Microsystem and Information Technology, Shanghai 201800, China)

Abstract: Images and videos are important media for recording real scene information, which containing rich and detailed visual content, can develop various intelligent systems to perform various tasks. Especially for videos under low lighting conditions. Improving their clarity and details can better represent and restore real scenes. A low?light video enhancement algorithm based on temporal consistency of multi?channel optical flow information is proposed to meet the demand for perceiving the surrounding environment under low illumination conditions at night. The predicted optical flow and the real optical flow information are introduced to construct a three?branch twin network, so as to enhance the low?light video. In allusion to the low signal?to?noise ratio and blurring in low?light video, a low?light video denoising module (CA?Swin module) based on dual scale attention mechanism is designed to improve the denoising performance of the network. By the comparative experiment and evaluation on the DAVIS dataset, it is found that the proposed network is more efficient and has significant robustness in enhancing low?light video. This strategy also has universality and can be directly extended to large?scale datasets.

Keywords: low?light video enhancement; optical flow information; time consistency; three?branch twin network; dual scale attention mechanism; low?light video denoising module; video frame

0" 引" 言

在今天的數(shù)字時代,圖像和視頻作為記錄真實場景信息的重要媒介,已經(jīng)成為各個領(lǐng)域的研究焦點。它們不僅包含了豐富且詳細的視覺內(nèi)容,而且還具有潛力支持各種智能系統(tǒng)的發(fā)展,這些系統(tǒng)可以執(zhí)行多樣性的任務(wù),諸如從對象檢測、分類、分割到場景識別、場景理解和三維重建等[1]。但是在微光條件下,拍攝高質(zhì)量的圖像和視頻面臨著多重挑戰(zhàn)。首先,由于在微光環(huán)境下拍攝的視頻往往受到光線變化等環(huán)境條件不穩(wěn)定的影響[2],例如城市夜晚環(huán)境中受路燈和車燈等光源的影響,以及野外環(huán)境中受樹陰影響,現(xiàn)有的算法可能會導(dǎo)致視頻幀之間的亮度或?qū)Ρ榷妊杆僮兓瑥亩鹨曨l序列在時間上的不穩(wěn)定性,進而產(chǎn)生閃爍現(xiàn)象[3?4]。時間不穩(wěn)定性的視頻幀序列如圖1所示。

另一個挑戰(zhàn)則是低信噪比以及模糊化問題。在微光環(huán)境下進行成像,常常會因信號強度非常弱,導(dǎo)致視頻出現(xiàn)低信噪比、低對比度、成像模糊等問題[5],這對于夜間監(jiān)控、夜間拍攝、軍事偵察等應(yīng)用來說是不可接受的。因此,研究微光條件下的視頻增強算法對于各種微光環(huán)境下的應(yīng)用具有重大意義。

現(xiàn)有的微光增強技術(shù)主要分為基于圖像算法的逐幀處理與基于視頻算法的多幀處理兩種類型。

傳統(tǒng)的微光視頻增強技術(shù)主要是基于圖像處理的算法[6],通過逐幀處理視頻幀來實現(xiàn)增強效果。這些技術(shù)通常使用一系列濾波、增益調(diào)整、直方圖均衡化和局部對比度增強等算法[7?9]。也有一些是基于視頻的多幀處理算法,這些方法大多是通過引入相鄰幀之間的差異來計算運動向量,并將其應(yīng)用于視頻中來穩(wěn)定序列上的時間一致性。傳統(tǒng)算法雖然可以在一定程度上改善圖像與視頻的質(zhì)量,但是也存在著一些局限性。首先,這些方法往往需要對圖像和視頻進行多次處理,容易導(dǎo)致信息損失和細節(jié)的模糊化;其次,這些方法通常需要人工設(shè)計特征或參數(shù),具有一定的主觀性和復(fù)雜性,不夠靈活和智能化;此外,由于計算開銷較大,這些方法在實時應(yīng)用和大規(guī)模數(shù)據(jù)處理上存在一定的挑戰(zhàn);最后,這些方法往往缺乏學(xué)習(xí)能力和泛化能力,難以應(yīng)對復(fù)雜場景和需求的變化。

隨著深度學(xué)習(xí)的興起和發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的微光視頻增強算法展現(xiàn)了強大的建模能力、端到端學(xué)習(xí)能力、數(shù)據(jù)驅(qū)動、上下文信息利用和可遷移性等優(yōu)勢。通過深度學(xué)習(xí),網(wǎng)絡(luò)可以自動從大量的數(shù)據(jù)中學(xué)習(xí)到圖像和視頻的特征、規(guī)律,使得增強效果更加準確且魯棒性更強。同時,深度學(xué)習(xí)方法具有較強的泛化能力,能夠適應(yīng)各種復(fù)雜的場景和變化。

現(xiàn)有的深度學(xué)習(xí)算法大多是為增強微光圖像而設(shè)計的,并將其應(yīng)用到微光視頻處理中。雖然基于深度學(xué)習(xí)的微光圖像增強算法在單幅靜態(tài)圖像上的性能令人滿意,但當(dāng)處理微光視頻時,往往會遇到嚴重的時間不穩(wěn)定性問題。這是因為現(xiàn)有的數(shù)據(jù)驅(qū)動方法通常是從沒有時間信息的單幅圖像對中進行訓(xùn)練的[10]。在處理微光視頻時,時間維度的信息對于保持圖像的連續(xù)性和穩(wěn)定性至關(guān)重要,但是現(xiàn)有方法缺乏對時間維度的充分利用。近年來也有一些基于視頻的增強算法被提出,但這些算法大多使用3D卷積網(wǎng)絡(luò)來處理視頻序列,增加了計算的復(fù)雜度,并消耗了大量的計算資源和時間。

針對上述問題,本文提出了一種基于多路光流信息時間一致性的微光視頻增強算法,引入了預(yù)測的光流信息[11]和真實的光流信息[12],并將其構(gòu)建為雙路光流信息,用于輔助網(wǎng)絡(luò)訓(xùn)練以學(xué)習(xí)時間一致性。算法的核心思想是:利用光流信息進行幀間預(yù)測,將當(dāng)前幀與下一幀進行時間對齊,進而生成相鄰的視頻幀。算法整體構(gòu)建了三分支孿生網(wǎng)絡(luò),并在時間維度上構(gòu)建一致性損失函數(shù),以指導(dǎo)網(wǎng)絡(luò)訓(xùn)練在增強過程中更好地保持時序的連續(xù)性和穩(wěn)定性,增強了視頻的可視化感知效果,有效減少了微光視頻處理存在的閃爍問題。針對微光視頻存在的低信噪比以及模糊化問題,本文設(shè)計了一種基于雙尺度注意力機制的微光視頻去噪模塊,進一步提升了增強后視頻的可視化感知質(zhì)量。同時骨干網(wǎng)絡(luò)采用了基于2D架構(gòu)的設(shè)計,因無需采用3D模塊,減少了網(wǎng)絡(luò)的參數(shù)數(shù)量和計算負擔(dān),能夠快速地達到推理效果。

1" 基于多路光流信息的微光視頻增強算法

微光圖像增強與微光視頻增強是兩個緊密相關(guān)但在處理和應(yīng)用上略有不同的領(lǐng)域。它們共同的目標(biāo)是改善在光線不足情況下捕獲的視覺內(nèi)容,包括提高圖像與視頻的亮度、對比度和細節(jié)等?,F(xiàn)有的微光視頻增強算法大多是基于有監(jiān)督學(xué)習(xí),其核心思想如圖2所示。將微光圖像[X1]輸送進網(wǎng)絡(luò)[g?],網(wǎng)絡(luò)借助對應(yīng)光照良好的真實視頻幀[Y1]進行有監(jiān)督的學(xué)習(xí),網(wǎng)絡(luò)輸出的是增強后的圖像[gX1],通過與真實值之間進行[losse]損失計算,并通過梯度反向傳播更新參數(shù),旨在幫助網(wǎng)絡(luò)學(xué)習(xí)到圖像由暗到亮的規(guī)律。但是將其應(yīng)用到微光視頻處理中,往往會遇到嚴重的時間不穩(wěn)定性問題,從而產(chǎn)生一定程度的閃爍問題。

1.1" 網(wǎng)絡(luò)算法框架結(jié)構(gòu)

本文設(shè)計了一種基于多路光流信息時間一致性的微光視頻增強算法,通過引入預(yù)測的光流和真實的光流來利用時間信息,再通過構(gòu)建三分支孿生網(wǎng)絡(luò)來幫助網(wǎng)絡(luò)學(xué)習(xí)時間一致性,以解決微光視頻增強存在的閃爍問題。光流信息的生成示意圖如圖3所示。圖中,[Y1],[Y2],…,[Yn]表示連續(xù)的視頻幀?;诙嗦饭饬餍畔r間一致性的微光視頻增強算法網(wǎng)絡(luò)框架如圖4所示。

如圖4所示,該算法需要同時以單張微光視頻幀[X1]、預(yù)測的光流信息[Flowp]和真實的光流信息[Flowr]作為輸入,通過將單張視頻幀[X1]與不同的光流結(jié)合等效代替其相鄰幀輸入到其他支路。第一支路通過有監(jiān)督學(xué)習(xí)到的增強損失來使網(wǎng)絡(luò)學(xué)習(xí)到由暗到亮的規(guī)律,第二支路與第三支路通過等效相鄰幀的輸入分別構(gòu)建了一致性損失函數(shù)來幫助網(wǎng)絡(luò)學(xué)習(xí)時間一致性。這三個支路的網(wǎng)絡(luò)權(quán)重是共享的。

在網(wǎng)絡(luò)Backbone框架中,采用Swin Transformer與Channal Attention構(gòu)建的雙尺度注意力機模塊(CA?Swin模塊)對視頻幀特征進行提取,通過在采樣過程中捕捉不同層次的豐富特征,以解決視頻增強所存在的去噪問題。

算法中將當(dāng)前視頻幀[X1]與預(yù)測的光流信息[Flowp]進行Warping操作并結(jié)合起來,等效為其預(yù)測的相鄰視頻幀[X2]輸入到第二支路中。將當(dāng)前視頻幀[X1]與真實的光流信息[Flowr]結(jié)合等效為其真實的相鄰視頻幀[X3],輸入到第三支路中。

相鄰視頻幀的構(gòu)建圖如圖5所示。

1.2" 預(yù)測光流與真實光流

光流是由觀察者和場景之間的相對運動引起的視覺場景中物體、表面和邊緣的表觀運動模式,是空間運動物體在觀察成像平面上的像素運動的瞬時速度,是利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關(guān)性來找到上一幀跟當(dāng)前幀之間存在的對應(yīng)關(guān)系,從而計算出相鄰幀之間物體的運動信息的一種方法。

為了合理地利用時間信息,本文引入了預(yù)測光流與真實光流,將光流與當(dāng)前幀結(jié)合等效代替其相鄰幀輸送進同樣的網(wǎng)絡(luò)中。通過將構(gòu)建的相鄰兩幀視頻對輸入到網(wǎng)絡(luò)中,從而有效地幫助網(wǎng)絡(luò)學(xué)習(xí)相鄰兩幀視頻對之間的關(guān)聯(lián)性。

在兩種光流中,預(yù)測的光流是基于當(dāng)前視頻幀[Y1]進行預(yù)測的。通過給視頻幀[Y1]中的動態(tài)物體施加引導(dǎo)向量,從而獲得預(yù)測的光流,有助于提升視頻幀中動態(tài)物體的可視化效果,使得模型更具有泛化能力。

本文所獲得的預(yù)測光流的過程如圖6所示。

實驗中,從充分照明的真實場景來預(yù)測合理的光流。

1) 使用開源工具包Detectron2中的預(yù)訓(xùn)練實例分割模型。該模型在大規(guī)模數(shù)據(jù)集上進行了訓(xùn)練,能夠有效地檢測和分割圖像中的不同實例對象。本文將該預(yù)訓(xùn)練模型應(yīng)用于單幅視頻幀,實現(xiàn)對動態(tài)對象和背景的分離。具體來說,實例分割技術(shù)可以為每個對象生成一個二進制掩模,從而在圖像中準確地定位和分離動態(tài)對象。

2) 得到估計的物體掩模后,使用條件運動傳播(Conditional Motion Propagation, CMP)的無監(jiān)督模型很容易獲得光流預(yù)測。使用CMP模型對分割后的動態(tài)對象進行處理,獲得這些對象的光流預(yù)測。

此外,本文還通過使用OpenCV提供的開源函數(shù)獲得了相鄰視頻幀之間的真實光流信息,如圖7所示。

由于光流預(yù)測是一種描述相鄰幀之間像素運動方向和速度的方法,因此使用相鄰幀計算的真實光流,包含更多的背景信息,利用真實的光流可以更全面地描述視頻幀中由于相機的自我運動而產(chǎn)生的背景運動,從而更準確地捕捉到背景中的運動信息,進一步改善視頻增強的效果。

1.3" 網(wǎng)絡(luò)訓(xùn)練流程

第一支路的輸入是單張視頻幀[X1],網(wǎng)絡(luò)借助對應(yīng)光照良好的真實視頻幀[Y1]進行有監(jiān)督的學(xué)習(xí),其輸出是預(yù)測增強后的單張視頻幀[gX1],通過與真實值之間作損失計算并通過梯度反向傳播更新參數(shù),幫助網(wǎng)絡(luò)學(xué)習(xí)視頻幀由暗到亮的規(guī)律。公式(1)表達的含義為將訓(xùn)練數(shù)據(jù)集中的單張微光視頻幀[X1]輸入到網(wǎng)絡(luò)[g?],得到預(yù)測增強的結(jié)果[gX1]。

[gX1=BackboneNetX1] " "(1)

預(yù)測視頻幀[gX1]和真實視頻幀[Y1]之間使用緩慢變化的[Smooth L1]損失函數(shù)?;诖?,視頻幀增強的損失函數(shù)可表示為:

[losse=gX1-Y1SL1] " "(2)

第二支路采用預(yù)測的光流[Flowp]與單張視頻幀[X1]結(jié)合代替相鄰幀[X2]輸送進網(wǎng)絡(luò)中得到[gX2],具體公式為:

[X2=Warping(Flowp,X1)] " " (3)

[gX2=BackboneNetX2] " " (4)

式(3)中Warping是指通過光流場計算出的像素位移光流信息,可以對視頻幀進行幾何變換。通過將當(dāng)前視頻幀與對應(yīng)的光流進行Warping操作,可以等效代替為其相鄰幀。

一個理想的時間穩(wěn)定性模型應(yīng)該是具有前后變換一致性的,即模型能夠?qū)斎霐?shù)據(jù)進行變換,并以相同的變換方式應(yīng)用到輸出結(jié)果,使其變回原來的狀態(tài)?;跁r間一致性思想理論,本文使用相同的光流[Flowp]與輸出[gX1]結(jié)合得到Warping[Flowp,gX1],并與輸出[gX2]進行時間一致性損失計算。

[lossc1=WarpingFlowp,gX1-gX2SL1] (5)

通過將這樣的視頻幀對輸入到網(wǎng)絡(luò)中,并結(jié)合光流前后的輸出之間強制保持一致性,可以有效幫助網(wǎng)絡(luò)學(xué)習(xí)時間穩(wěn)定性。

第三支路采用真實的光流信息去自監(jiān)督學(xué)習(xí)第一支路與第二支路分支網(wǎng)絡(luò)的訓(xùn)練。模型采用真實的光流信息[Flowr]與單張視頻幀[X1]結(jié)合代替相鄰幀[X3]輸送進網(wǎng)絡(luò)中,經(jīng)過網(wǎng)絡(luò)得到輸出[gX3]。

[X3=WarpingFlowr,X1] " "(6)

[gX3=BackboneNetX3] " " (7)

最后將得到的輸出[gX3]與其他兩路的輸出分別進行一致性損失計算。

[lossc2=WarpingFlowr,gX1-gX3SL1+gX2-gX3SL1] (8)

網(wǎng)絡(luò)整體通過有監(jiān)督學(xué)習(xí)到的增強損失[losse]來幫助網(wǎng)絡(luò)學(xué)習(xí)到由暗到亮的規(guī)律,然后通過第二路預(yù)測的光流計算一致性損失[lossc1]以及第三路真實的光流計算一致性損失[lossc2]來幫助網(wǎng)絡(luò)學(xué)習(xí)視頻幀之間的時間一致性。最后通過整體損失losstotal將梯度反饋給特征提取與網(wǎng)絡(luò)重建過程中的各個參數(shù),并進行反向傳播,從而實現(xiàn)對參數(shù)的更新,進一步優(yōu)化網(wǎng)絡(luò)的增強效果。用于訓(xùn)練網(wǎng)絡(luò)的總損失losstotal是增強損失[losse]和兩個一致性損失的組合,具體公式如下:

[losstotal=losse+lossc1+lossc2·weight] (9)

式中weight是對模型時間一致性分支和通用性的影響參數(shù)。

訓(xùn)練一個時間穩(wěn)定性的視頻增強模型實際上是視覺質(zhì)量和時間穩(wěn)定性之間的折衷,最優(yōu)的結(jié)果在于它們之間的平衡。

1.4" 網(wǎng)絡(luò)Backbone框架

在圖像增強任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)目前仍然是主流。但卷積神經(jīng)網(wǎng)絡(luò)存在以下缺陷:首先,圖像和卷積核之間的交互是與內(nèi)容無關(guān)的;其次,在處理局部信息的時候,卷積對于長距離依賴建模是無效的;最后圖像中的視覺模糊很大程度上是由于網(wǎng)絡(luò)缺乏對全局特征向量的利用而導(dǎo)致。

為了解決上述問題以及克服微光視頻存在的低信噪比以及模糊化問題,本文設(shè)計了一種基于雙尺度注意力機制的微光視頻去噪模塊。采用注意力引導(dǎo)的U?Net[13]網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),在下采樣與上采樣過程中使用不同分辨率的特征圖進行殘差連接,同時下采樣放大8倍后用平均池化來獲取全局特征向量。然后把該特征向量經(jīng)過全連接之后與之前的特征concat進行上采樣,從而使網(wǎng)絡(luò)能夠同時提取全局和局部特征信息,提升了網(wǎng)絡(luò)的去噪性能。

本文模型的骨干網(wǎng)絡(luò)的整體架構(gòu)如圖8所示。

具體來說,視頻幀輸入后,首先經(jīng)過3×3卷積塊和ECA(Efficient Channel Attention)模塊[14],然后依次經(jīng)過7個CA?Swin模塊,以及下采樣和上采樣,最后通過3×3卷積塊恢復(fù)到與原始視頻幀大小相同的尺寸。同時,下采樣和上采樣層通過殘差卷積層一一連接。增強的視頻幀和原始視頻幀使用緩慢變化的Smooth L1損失函數(shù)進行訓(xùn)練??紤]到不同的圖像去噪方法具有互補的先驗建模能力,可以合并來提高性能,因此,所提出的雙尺度注意力機制的微光視頻去噪模塊將殘差卷積層的局部建模能力、SwinT模塊的非局部建模能力以及ECA模塊的通道注意力機制所覆蓋的跨信道交互能力結(jié)合起來,用以高效地實現(xiàn)圖像去噪。

如圖9所示,CA?Swin模塊由1×1卷積殘差、SwinT和ECA三種模塊組成。

圖9中,1×1卷積殘差模塊可以降低模型的計算復(fù)雜度,提高網(wǎng)絡(luò)的效率,并且可以增加網(wǎng)絡(luò)的非線性表示能力;同時其沒有池化操作,可以保留更多的特征信息,幫助模型更好地捕捉圖像中的細節(jié)特征,進而提高模型的性能。

SwinT模塊所具有的非局部建模特性可以增強模型捕捉全局上下文信息的能力[15]。SwinT模塊結(jié)合了卷積和Transformer的優(yōu)勢,可以利用patch之外的鄰近像素對邊界像素進行圖像增強,將圖像中的全局關(guān)系和局部語義信息聯(lián)系起來,從而提升模塊在圖像增強任務(wù)中的性能。

ECA模塊如圖10所示。ECA模塊的作用是通過引入通道注意力機制來增強卷積神經(jīng)網(wǎng)絡(luò)的表示能力。該模塊自適應(yīng)地重新校準特征圖中不同通道的重要性,可以有選擇地擴大信息渠道,同時抑制不太相關(guān)的渠道。

DAVIS數(shù)據(jù)集包含了不同分辨率的視頻幀數(shù)據(jù)集,通過使用通道注意力機制來幫助網(wǎng)絡(luò)訓(xùn)練適應(yīng)各種分辨率的圖像,有助于網(wǎng)絡(luò)專注于最具鑒別力和信息量的特征,從而提高各種分辨率下圖像的去噪性能。

2" 仿真與分析

2.1" 實驗數(shù)據(jù)集

由于微光視頻數(shù)據(jù)沒有公開的大規(guī)模數(shù)據(jù)集,因此本文選擇DAVIS數(shù)據(jù)集作為訓(xùn)練模型的實況數(shù)據(jù)。DAVIS數(shù)據(jù)集是一個用于視頻分割任務(wù)的大規(guī)模數(shù)據(jù)集,分為Full?resolution和480P兩部分。本文實驗使用Full?resolution部分所包含的視頻序列,包括2017年挑戰(zhàn)賽和2019年挑戰(zhàn)賽的訓(xùn)練集、測試集和驗證集。在排除光照不良的視頻幀后,一共得到85個視頻,總共包含5 691幀。將這些視頻隨機分為訓(xùn)練集和測試集,訓(xùn)練集中有75個視頻,測試集中有10個視頻。

本實驗通過合成真實的微光與清晰圖像對來模擬真實世界的微光數(shù)據(jù)集。實驗中使用伽馬校正和線性縮放來使這些明亮圖像變暗。

[x=β·α·yγ] " " "(10)

式中:[γ]表示以均勻分布[U2,3.5]采樣的伽馬校正;[α]和[β]表示線性縮放因子,并且分別從[U0.9, 1]和[U0.5,1]采樣。

噪聲是本文實驗要考慮的另一個因素。除了光流預(yù)測和微光視頻幀的生成,本文還使用高斯噪聲和泊松噪聲來模擬圖像噪聲[16?17],公式如下:

[n=Px,σp+Nσg] " nbsp; " (11)

式中,[σp]、[σg]分別表示泊松噪聲和高斯噪聲的參數(shù)。它們都是從[U0.01,0.04]中采樣的。

圖11所示為從正常光照視頻幀和合成的微光有噪視頻中提取的視頻幀。

2.2" 實驗環(huán)境

本文實驗使用的GPU為Nvidia RTX 3060,平臺操作系統(tǒng)為Ubuntu 20.04,深度學(xué)習(xí)框架為PyTorch,開發(fā)環(huán)境為Python 3.8、PyTorch 1.8.0和CUDA 11.3。

網(wǎng)絡(luò)模型使用Adam優(yōu)化器進行優(yōu)化訓(xùn)練,實驗中具體參數(shù)配置如表1所示。

2.3" 對比實驗

本文進行定量實驗來驗證所提方法的有效性。將將所提方法與三種增強方法——基于圖像的方法、基于視頻的方法和基于單視頻幀的時間一致性方法進行對比。從這些類別中選擇了8種方法,其中:LIME是傳統(tǒng)方法;MBLLEN、RetinexNet和SID是深度學(xué)習(xí)方法;兩種基于視頻的方法MBLLVEN和SMOID也是基于深度學(xué)習(xí)的方法;此外,將Eilertsen等人和Lai等人提出的處理方法納入定量評估中,分別命名為SFR與BLIND,以進一步補充實驗對比的結(jié)果。

實驗中使用兩個常用指標(biāo)來評估模型的效果,即峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)。此外,選擇平均絕對亮度差(MABD)來驗證模型的時間穩(wěn)定性,選擇基于無參考圖像的NIQE指標(biāo)來顯示恢復(fù)的圖像是否接近人眼感官。

表2、表3分別為無噪與有噪情況下的定量比較。從上到下分為三組:基于圖像的方法、基于視頻的方法和基于單視頻幀的時間一致性方法。表中:[↑]表示數(shù)值越大效果越好;[↓]表示數(shù)值越小效果越好;數(shù)值加粗表示效果最好。

如表2與表3數(shù)據(jù)所示,基于圖像的方法LIME、MBLLEN和RetinexNet在無噪與有噪聲設(shè)置下分別獲得了PSNR、SSIM以及MABD的比較結(jié)果??梢钥闯鯩BLLEN和RetinexNet在視頻幀增強方面的指標(biāo)PSNR和SSIM優(yōu)于LIME;而MBLLEN由于其曝光不足或曝光過度的增強,獲得較大的MABD值。

基于視頻的方法MBLLVEN和SMOID都具有更好的PSNR和SSIM,其中SMOID的MABD數(shù)值更小,表示此網(wǎng)絡(luò)學(xué)習(xí)到了良好的時間一致性。SFR、BLIND和本文方法都達到了與基于視頻的方法相當(dāng)?shù)慕Y(jié)果,但是相比較基于視頻的算法采用3D架構(gòu),本文所提網(wǎng)絡(luò)采用了基于2D架構(gòu)的設(shè)計,減少了網(wǎng)絡(luò)的參數(shù)數(shù)量和計算負擔(dān),快速地達到了推理效果。

2.4" 消融實驗

為了深入了解不同模塊對實驗結(jié)果的影響,本節(jié)進行了CA?Swin模塊的兩個關(guān)鍵部分的消融實驗,分別是SwinT模塊與ECA模塊,旨在確認每個模塊對網(wǎng)絡(luò)性能的具體增益效果。其中,引入NIQE指標(biāo)評估所恢復(fù)的圖像是否接近人眼的感知。

表4和表5分別列出了兩個核心模塊單獨作用以及最終組合的實驗結(jié)果。結(jié)果表明:SwinT強大的非局部建模能力使得增強后的視頻幀更適合人眼的感知;而ECA模塊高效的局部跨通道相互作用則顯示出強大的去噪能力。

訓(xùn)練一個時間穩(wěn)定的基于圖像的模型實際上是視覺質(zhì)量和時間穩(wěn)定性之間的折衷,最佳結(jié)果在于它們之間的平衡。為了顯示不同權(quán)重對模型一致性分支和通用性的影響,對權(quán)重參數(shù)weight進行了消融實驗研究,以探討所提方法的最佳權(quán)重。

如表6所示,隨著分支權(quán)重的增加,與具有較小權(quán)重的網(wǎng)絡(luò)相比,網(wǎng)絡(luò)在時間上變得更穩(wěn)定。然而,當(dāng)權(quán)重達到某個點時,增強質(zhì)量的優(yōu)點就會減少,并且指標(biāo)開始下降,這樣有利于改善更多的時間穩(wěn)定性。最終網(wǎng)絡(luò)可以在weight=10左右找到最佳的參數(shù)設(shè)置。

2.5" 實驗結(jié)果可視化

本節(jié)將實驗結(jié)果可視化地展示出來。定性的視覺可視化顯示,所提網(wǎng)絡(luò)算法有效提升了增強后微光視頻的質(zhì)量與可靠性。

圖12可視化顯示了所提算法與基線算法在噪聲情況下的對比結(jié)果。圖13可視化顯示了所提算法在合成數(shù)據(jù)下的多個測試幀結(jié)果。圖14可視化顯示了所提算法基于真實數(shù)據(jù)測試的若干幀實驗結(jié)果。

3" 結(jié)" 論

本文針對在夜間低照度環(huán)境的條件下對周圍環(huán)境感知的需求,以及當(dāng)前視頻增強算法存在一定程度的閃爍問題,提出一種基于多路光流信息時間一致性的微光視頻增強算法。該方法引入了預(yù)測的光流與真實的光流信息對微光視頻進行增強,MABD指標(biāo)提高了1倍,增強了視頻的可視化感知效果,有效解決了現(xiàn)有算法處理微光視頻時存在的閃爍問題。同時針對微光視頻存在的低信噪比以及模糊化問題,設(shè)計了一種基于雙尺度注意力機制的微光視頻去噪模塊,進一步提升了增強后視頻的可視化感知質(zhì)量。從定性的視覺可視化結(jié)果與定量的指標(biāo)提升等兩方面顯示出所提網(wǎng)絡(luò)算法有效提升了增強后微光視頻的質(zhì)量與可靠性。

注:本文通訊作者為童官軍。

參考文獻

[1] LI C, GUO C, HAN L, et al. Low?light image and video enhancement using deep learning: a survey [J]. IEEE transactions on pattern analysis and machine intelligence, 2021, 44(12): 9396?9416.

[2] WANG R, XU X, FU C W, et al. Seeing dynamic scene in the dark: a high?quality video dataset with mechatronic alignment [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, QC, Canada: IEEE, 2021: 9700?9709.

[3] ZHANG F, LI Y, YOU S, et al. Learning temporal consistency for low light video enhancement from single images [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, TN, USA: IEEE, 2021: 4967?4976.

[4] PENG B, ZHANG X, LEI J, et al. LVE?S2D: low?light video enhancement from static to dynamic [J]. IEEE transactions on circuits and systems for video technology, 2022, 32(12): 8342?8352.

[5] LV F, LU F, WU J, et al. MBLLEN: low?light image/video enhancement using CNNs [EB/OL]. [2023?07?14]. https://blog.csdn.net/zhouaho2010/article/details/125322072.

[6] 張強,陳泉如.基于視覺傳播的低照度圖像色彩增強處理方法[J].自動化與儀器儀表,2023(11):49?52.

[7] ZHAO Z, XIONG B, WANG L, et al. RetinexDIP: a unified deep framework for low?light image enhancement [J]. IEEE transactions on circuits and systems for video technology, 2021, 32(3): 1076?1088.

[8] WEI C, WANG W, YANG W, et al. Deep retinex decomposition for low?light enhancement [EB/OL]. [2023?08?17]. https://ui.adsabs.harvard.edu/abs/2018arXiv180804560W/abstract.

[9] LIU H, SUN X, HAN H, et al. Low?light video image enhancement based on multiscale retinex?like algorithm [C]// 2016 Chinese Control and Decision Conference. [S.l.]: IEEE, 2016: 3712?3715.

[10] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image?to?image translation using cycle?consistent adversarial networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 2223?2232.

[11] ZHAN X, PAN X, LIU Z, et al. Self?supervised learning via conditional motion propagation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019: 1881?1889.

[12] WANG X, ZOU S, JIANG Y, et al. Swin?FlowNet: flow field oriented optimization aided by a CNN and Swin?Transformer based model [J]. Journal of computational science, 2023, 72: 102121.

[13] RONNEBERGER O, FISCHER P, BROX T. U?net: Convolu?tional networks for biomedical image segmentation [C]// Medical Image Computing and Computer?Assisted Intervention?MICCAI. Munich, Germany: Springer, 2015: 234?241.

[14] ZHANG Z, WU Y, ZHANG J, et al. Efficient channel attention for deep convolutional neural networks [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Seattle, WA, USA: IEEE, 2021: 1178?1187.

[15] LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, QC, Canada: IEEE, 2021: 10012?10022.

[16] REMEZ T, LITANY O, GIRYES R, et al. Deep class?aware image denoising [C]// 2017 International Conference on Sampling Theory and Applications (SampTA). [S.l]: IEEE, 2017: 138?142.

[17] ZHANG K, LI Y, LIANG J, et al. Practical blind image denoising via Swin?Conv?UNet and data synthesis [J]. Machine intelligence research, 2023, 20(6): 822?836.

定襄县| 吉林省| 江油市| 民勤县| 汝阳县| 英山县| 临江市| 张北县| 肥城市| 吉木萨尔县| 凭祥市| 乌兰浩特市| 额敏县| 长子县| 鸡东县| 简阳市| 临汾市| 榆社县| 迁西县| 达拉特旗| 孟州市| 荆门市| 清丰县| 灌南县| 台湾省| 兰考县| 沂南县| 扎鲁特旗| 石狮市| 涿州市| 太仓市| 都匀市| 垦利县| 兴化市| 拉萨市| 新余市| 湟源县| 高阳县| 承德县| 内丘县| 腾冲县|