李宇嬌,周冬明,李 淼,楊 浩
(云南大學(xué) 信息學(xué)院,云南 昆明 650500)
在光照不足和背光環(huán)境下拍攝的圖片會(huì)出現(xiàn)局部或者全局低亮度、低對(duì)比度、噪聲影響嚴(yán)重的現(xiàn)象,這些問(wèn)題不僅影響圖片的視覺(jué)質(zhì)量,還不利于進(jìn)一步地進(jìn)行計(jì)算機(jī)視覺(jué)任務(wù),如物體識(shí)別、圖像識(shí)別等.因此,低照度增強(qiáng)[1-3]是圖像處理領(lǐng)域中一個(gè)十分熱門的研究方向.低照度圖像增強(qiáng)方法分為傳統(tǒng)算法和深度學(xué)習(xí)法.傳統(tǒng)算法主要包括基于Retinex 的方法[4-5]和基于直方圖的方法[6].Retinex理論[4]是1963 年美國(guó)物理學(xué)家Land等提出的一個(gè)關(guān)于人類視覺(jué)系統(tǒng)如何調(diào)節(jié)感知到物體的顏色和亮度的模型.該理論對(duì)相同物體在不同光線或光源底下顏色為什么是恒定的做出了解釋.之后有很多學(xué)者提出了基于Retinex 算法的不同變形,其中單尺度Retinex(Single Scale Retinex,SSR)[7]通過(guò)估算環(huán)境光照射分量計(jì)算物體的反射分量,而環(huán)境光照射分量可以通過(guò)高斯模糊和人眼中看到的圖像做卷積運(yùn)算求得;多尺度(Multi-Scale Retinex,MSR)[8]是由SSR 發(fā)展而來(lái),運(yùn)用了多個(gè)尺度的高斯模糊估算環(huán)境光照射分量,再對(duì)每個(gè)尺度求權(quán)重之和,提升了圖片的色感一致性;具有色彩恢復(fù)的多尺度Retinex(Multi-Scale Retinex with Color Restoration,MSRCR)[8]在MSR 的基礎(chǔ)上加入色彩恢復(fù)因子調(diào)整圖像增強(qiáng)處理后的顏色失真.這些方法對(duì)圖像處理的步驟基本相似,首先對(duì)原圖像取對(duì)數(shù),然后估計(jì)其亮度,得到亮度圖像,再計(jì)算出待增強(qiáng)圖像和亮度圖像的差獲取反射圖像,最終獲得一幅處理后的圖像.基于Retinex 的方法[4-5]通常假定圖像是無(wú)噪聲和無(wú)顏色失真的,因此缺乏處理顏色失真的能力.基于直方圖的方法[6]借助圖像處理技術(shù)更改原始圖像像素的灰度,對(duì)在圖像中像素個(gè)數(shù)多的灰度級(jí)進(jìn)行拓寬,對(duì)像素個(gè)數(shù)少的灰度級(jí)進(jìn)行縮減,使圖像對(duì)應(yīng)的直方圖變換為均勻分布的形式,從而增強(qiáng)圖像的整體對(duì)比度.該方法注重于提高圖像的對(duì)比度,但沒(méi)有增強(qiáng)圖像中黑暗區(qū)域的細(xì)節(jié),因此將此方法用于處理彩色圖像時(shí)往往存在色彩失真等問(wèn)題.
深度學(xué)習(xí)在圖像處理任務(wù),如去噪、去霧、超分辨率等計(jì)算機(jī)視覺(jué)問(wèn)題上取得了顯著效果,在低照度圖像增強(qiáng)方面也有越來(lái)越多的應(yīng)用.其中,LLNet[9]是第一篇使用深度學(xué)習(xí)解決圖像增強(qiáng)的論文,提出了一種堆疊稀疏去噪自編碼器識(shí)別弱光圖像中的信號(hào)特征,并在不過(guò)度放大圖像較亮部分的情況下自適應(yīng)地使圖像變亮,但實(shí)驗(yàn)結(jié)果表明圖像細(xì)節(jié)的清晰度和色彩復(fù)原度仍需改進(jìn).GLADNet[10]是一種基于CNN 的模型,它對(duì)圖像進(jìn)行下采樣到統(tǒng)一大小,通過(guò)編碼器獲得全局光源估計(jì),使用CNN 進(jìn)行細(xì)節(jié)重建,但圖像細(xì)節(jié)會(huì)在編解碼的過(guò)程中丟失.MSR-net[8]是另一種基于CNN的模型,它將多尺度Retinex 理論和CNN 模型組成一個(gè)端到端模型,但在測(cè)試階段當(dāng)圖像的噪聲增加時(shí),最終生成的圖像清晰度有所下降.SSIENet[11](Self-Supervised Image Enhancement Network)是 一種基于自監(jiān)督機(jī)制的方法,利用最大熵的Retinex模型可實(shí)現(xiàn)用極少量數(shù)據(jù)集極快地完成訓(xùn)練,但其測(cè)試結(jié)果并未達(dá)到最優(yōu).
針對(duì)以上問(wèn)題,本文提出了一種結(jié)合平滑擴(kuò)展卷積和注意力機(jī)制的低照度圖像增強(qiáng)網(wǎng)絡(luò).與傳統(tǒng)方法不同的是,該方法不需將圖像分解為光照分量和反射分量,而是通過(guò)引入擴(kuò)展卷積讓感受野指數(shù)級(jí)增加,再加入分離共享卷積平滑擴(kuò)展卷積所造成的網(wǎng)格偽影問(wèn)題;同時(shí)使用通道域注意力機(jī)制改善卷積網(wǎng)絡(luò)對(duì)全局特征提取不足的問(wèn)題,再將兩個(gè)支路提取的特征進(jìn)行通道拼接輸入到重構(gòu)網(wǎng)絡(luò)中,在該網(wǎng)絡(luò)中用深度殘差網(wǎng)絡(luò)對(duì)圖像進(jìn)行重構(gòu).實(shí)驗(yàn)結(jié)果表明,該方法對(duì)低照度圖像增強(qiáng)有很好效果,可較好地復(fù)原出圖像中更多的顏色細(xì)節(jié),并可高效穩(wěn)定地應(yīng)用于各種低照度圖像.
1.1 平滑擴(kuò)展卷積網(wǎng)絡(luò)擴(kuò)展卷積網(wǎng)絡(luò)廣泛應(yīng)用于各種任務(wù)中,包括語(yǔ)義分割、目標(biāo)檢測(cè)、機(jī)器翻譯等.之前傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)需對(duì)圖像不斷進(jìn)行下采樣降低圖像精度,直到圖像被表示為一個(gè)很小的特征圖,以此達(dá)到擴(kuò)大感受野和降低運(yùn)算量的目的.這種情況會(huì)損失圖像較多的細(xì)節(jié)信息、空間分辨率.因此Yu 等[12]提出擴(kuò)展卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)可在不損失圖像分辨率的條件下增大感受野,從而獲取到更多的空間信息.擴(kuò)展卷積可理解為在標(biāo)準(zhǔn)的卷積核中每?jī)蓚€(gè)相鄰的權(quán)重值之間都插入r?1 個(gè)0 值.當(dāng)設(shè)置不同擴(kuò)展率時(shí),感受野就會(huì)不一樣,即獲取了圖像的多尺度信息.圖1 顯示了在二維情況下,卷積核大小為3×3、空洞率為r=2 時(shí)的擴(kuò)展卷積有5×5 的感受野.從圖1 可以看出,空洞率為2 的二維擴(kuò)展卷積有5×5 感受野.然而,實(shí)際參與計(jì)算的像素只有25 個(gè)像素中的9 個(gè),這意味著實(shí)際的感受野仍然是3×3,但分布稀疏.
圖1 擴(kuò)展卷積核的感受野Fig.1 The receptive field of dilated convolution kernel
其數(shù)學(xué)模型[12]在一維情況時(shí)如下:
式中,x為一維輸入,在位置i處通過(guò)尺寸為s的卷積核f輸出的卷積結(jié)果為y,r為空洞率.當(dāng)r=1 時(shí),空洞卷積和標(biāo)準(zhǔn)卷積相同.級(jí)聯(lián)多個(gè)擴(kuò)展卷積時(shí),卷積核的感受野將會(huì)指數(shù)級(jí)增大.
然而,在最近的語(yǔ)義圖像分割研究[12]中發(fā)現(xiàn),空洞率大于1 的擴(kuò)展卷積都會(huì)產(chǎn)生所謂的網(wǎng)格效應(yīng).由其數(shù)學(xué)模型可推知,在得到的每一層卷積結(jié)果中,鄰近的像素是從相互獨(dú)立的子集中卷積得到的,相互之間缺少依賴,因此每一層的卷積結(jié)果之間均無(wú)相關(guān)性,造成了局部信息丟失.另外,由于擴(kuò)展卷積中卷積核的不連續(xù),導(dǎo)致圖像中的某些像素未參加運(yùn)算,影響了圖像信息的連續(xù)性.上述現(xiàn)象被統(tǒng)稱為網(wǎng)格偽影問(wèn)題[12].級(jí)聯(lián)兩層擴(kuò)展卷積,卷積核為3×3,空洞率為2 時(shí)網(wǎng)格偽影如圖2 所示.在圖2 中,用4 種不同顏色標(biāo)記第i層的4 個(gè)相鄰像素,在第i?1 層的實(shí)際感受野分別用相同的顏色標(biāo)記出來(lái).可以看出相鄰像素塊是由完全不同的輸入集計(jì)算得到,導(dǎo)致了局部信息的不一致性,影響了擴(kuò)展卷積的性能.
圖2 網(wǎng)格偽影產(chǎn)生的圖解Fig.2 The diagram of grid artifact generation
考慮到在擴(kuò)展卷積中,所有相鄰的像素都是由上一層中的獨(dú)立像素群卷積而來(lái),因此如果能夠在擴(kuò)展卷積進(jìn)行周期性卷積計(jì)算之前,將圖像的局部信息進(jìn)行合并,就可以減輕網(wǎng)格偽影問(wèn)題.所以在該方法中,我們引入了深度可分離的共享卷積層[13]來(lái)簡(jiǎn)單而有效的去除網(wǎng)格偽影帶來(lái)的影響,效果如圖3 所示.
圖3 網(wǎng)格偽影減弱的效果Fig.3 The effect of grid artifact weakening
深度可分離卷積[14]與標(biāo)準(zhǔn)卷積相比:標(biāo)準(zhǔn)卷積同時(shí)考慮了輸入圖像的空間信息和通道信息,它將所有的輸入信道各用不同的卷積核得到不同的輸出信道;深度可分離卷積先進(jìn)行逐通道卷積,即每一個(gè)通道用一個(gè)卷積核卷積之后得到對(duì)應(yīng)一個(gè)通道的輸出,再通過(guò)逐點(diǎn)卷積將各通道信息進(jìn)行融合.“共享”是指在使用深度可分離卷積的基礎(chǔ)上,共享同一個(gè)卷積核.可分離共享卷積只用一個(gè)卷積核掃描了輸入圖像的空間信息,并在所有信道共享使用該卷積核.
1.2 注意力模塊近年來(lái),注意力機(jī)制在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛的應(yīng)用,并且取得了不錯(cuò)的效果.注意力模塊中應(yīng)用較多的有Selective Kernel networks(SKnet)[13]、Squeeze-and-Excitation networks(SEnet)[15]、Convolutional Block Attention Module(CBAM)[16]等幾種輕量嵌入式模塊.SEnet[15]重點(diǎn)考慮圖像通道之間的關(guān)系,提出了一種“特征重校準(zhǔn)”策略的壓縮激勵(lì)算法,可學(xué)習(xí)到每個(gè)通道特征的權(quán)重值,權(quán)重值越大代表該通道與關(guān)鍵信息的相關(guān)度越高,增強(qiáng)有用特征,抑制不重要的特征.SKnet[13]可根據(jù)輸入信息的不同自適應(yīng)調(diào)節(jié)卷積核的大小.CBAM[16]是一種為卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的注意力模塊,同時(shí)考慮了圖像通道和空間維度兩個(gè)因素,即不僅給不同特征通道賦予不同的重要性,還考慮到同一個(gè)特征通道中不同位置的重要程度不同.通過(guò)實(shí)驗(yàn)對(duì)比,我們發(fā)現(xiàn)在該方法中使用CBAM 能得到更佳的結(jié)果.
1.3 殘差網(wǎng)絡(luò)研究[17]表明,隨著神經(jīng)網(wǎng)絡(luò)的層數(shù)增多,網(wǎng)絡(luò)會(huì)發(fā)生退化現(xiàn)象,即網(wǎng)絡(luò)的損失函數(shù)不再下降或不減反增,這是因?yàn)樵谝粚右粚泳W(wǎng)絡(luò)中將特征向前傳遞時(shí),每一層所獲得的特征將會(huì)逐層減少,而殘差網(wǎng)絡(luò)因加入了直接映射,所以可以較好地解決這個(gè)問(wèn)題.殘差網(wǎng)絡(luò)是由一些殘差塊組成的,每一個(gè)殘差塊表示如圖4 所示.
圖4 殘差塊模型結(jié)構(gòu)Fig.4 The model structure of the res-block
殘差塊將單元的輸入x直接與單元輸出f(x)加在一起,然后通過(guò)激活函數(shù).一般的殘差塊有兩到三層卷積,這樣可以較好地保留圖像特征,緩解網(wǎng)絡(luò)退化問(wèn)題.
本文基于平滑擴(kuò)展卷積網(wǎng)絡(luò)與注意力機(jī)制構(gòu)成特征提取部分,結(jié)合多層殘差塊構(gòu)成圖像重構(gòu)模塊.
2.1 模型結(jié)構(gòu)本文網(wǎng)絡(luò)結(jié)構(gòu)主要由特征提取和圖像重構(gòu)兩部分組成.特征提取模塊采用了兩路分支的端到端神經(jīng)網(wǎng)絡(luò),圖像重構(gòu)模塊利用多層跳躍連接的殘差塊構(gòu)成.具體步驟如下:
步驟 1將低照度圖像送入預(yù)提取特征層Pre_block,再將其結(jié)果分別送入上、下特征提取支路,得到特征F1、F2
步驟 2將兩路分支結(jié)果通過(guò)拼接操作,即通過(guò)將通道數(shù)堆疊進(jìn)行特征融合得到總特征F′.
步驟 3融合后的圖像特征F′送入由殘差塊構(gòu)成的重構(gòu)網(wǎng)絡(luò)中,得到最終的重構(gòu)圖像.
如圖5 所示,L_input 代表低照度圖像,特征提取網(wǎng)絡(luò)主要由預(yù)提取特征層和兩路主特征提取網(wǎng)絡(luò)構(gòu)成.預(yù)提取特征模塊由4 個(gè)卷積層構(gòu)成,每個(gè)卷積層使用大小為3×3 的卷積核,上支路首先通過(guò)深度可分離卷積層(Deep Separable_block)將圖像局部信息進(jìn)行合并,以減少引入擴(kuò)展卷積層造成的網(wǎng)格偽影問(wèn)題,隨后通過(guò)3 層擴(kuò)展率分別為1、3、5 的擴(kuò)展卷積層,共同構(gòu)成平滑擴(kuò)展卷積模塊.最后利用SEnet 通道注意力機(jī)制,為3 路擴(kuò)展卷積層賦予不同的權(quán)重值,到此提取到圖像特征F1;下支路通過(guò)4 組CBAM 和卷積層的組合得到圖像特征F2,該支路可進(jìn)一步加強(qiáng)對(duì)圖像全局特征的提取.在特征提取網(wǎng)絡(luò)的最后,通過(guò)拼接操作對(duì)F1、F2兩特征進(jìn)行融合,再將其送入重構(gòu)網(wǎng)絡(luò)中.
圖5 本文提出的模型框架圖Fig.5 The model frame diagram presented in this paper
重構(gòu)網(wǎng)絡(luò)主要由一系列卷積層組成的U-net構(gòu)成,它將兩路分支的輸出作為輸入,以獲得增強(qiáng)圖像.在該網(wǎng)絡(luò)中我們使用卷積核數(shù)為16、16 和3的卷積層分別提取它們的特征.特別的,在最后一層卷積之后我們選擇sigmoid 為激活函數(shù).
得到H_output 增強(qiáng)圖像之后,用由多個(gè)像素級(jí)損失和視覺(jué)損失組成復(fù)合損失函數(shù)計(jì)算出與參考圖像Reference 的損失值,以此讓該網(wǎng)絡(luò)不斷進(jìn)行優(yōu)化學(xué)習(xí).
2.2 損失函數(shù)為了更好地實(shí)現(xiàn)低照度圖像增強(qiáng),本文的損失函數(shù)結(jié)合了多種傳統(tǒng)損失函數(shù).該復(fù)合損失函數(shù)包含3 部分.
在第1 部分中,為了使增強(qiáng)后的圖像與輸入的低照度圖像保持一致性,在損失函數(shù)中使用梯度損失.且因最終生成的增強(qiáng)圖像是RGB 彩色圖像,所以需先將圖像轉(zhuǎn)換為灰度圖像,數(shù)學(xué)模型如下:
式中,L1表 示復(fù)合損失函數(shù)中的第1 部分,?表示梯度算子,上標(biāo)x和y分別表示按照?qǐng)D像的水平和垂直方向所求的梯度損失,Lo表示重構(gòu)模型生成的增強(qiáng)后的圖像,Lh表示參考圖像.
在第2 部分中,使用最小相對(duì)誤差(MSE)和結(jié)構(gòu)相似損失(SSIM)[18]使增強(qiáng)后的圖像保留更多的細(xì)節(jié),從而得到更好的視覺(jué)效果.MSE 是l2 正則化,使用線性變換的方法對(duì)兩幅圖像進(jìn)行比較,未考慮兩幅圖像之間的相關(guān)性,因此加入SSIM 損失函數(shù).SSIM 是一個(gè)結(jié)構(gòu)損失函數(shù),綜合考慮了圖像的亮度、對(duì)比度及結(jié)構(gòu),其計(jì)算公式如下:
式中,S(x,y)為 SSIM 損失函數(shù);μ、σ、σxy分 別表示x與y之間的均值、標(biāo)準(zhǔn)差和相關(guān)度;c1=(k1L)2,c2=(k2L)2,是用于避免當(dāng)分母為0 時(shí)的不穩(wěn)定情況的常數(shù),其中L是像素值,k1=0.01,k2=0.03.結(jié)構(gòu)相似損失函數(shù)的取值范圍為?1 到1.當(dāng)兩張圖像一模一樣時(shí),SSIM 的值S(x,y)等于1.因此第2 部分損失函數(shù)的數(shù)學(xué)模型如下:
式中,k表示圖像通道.
在第3 部分中,為了使增強(qiáng)后的圖像效果與人眼感知的圖像質(zhì)量更加匹配,引入Vgg 感知損失[19],與MSE 有同樣的計(jì)算模式,區(qū)別是將計(jì)算空間從圖像空間變?yōu)樘卣骺臻g.計(jì)算公式如下:Cj×Hj×Wj,φ 表示Vgg 損失網(wǎng)絡(luò),φj(o)表示該損
式中,j表示網(wǎng)絡(luò)的第j層,第j層特征圖的大小為失網(wǎng)絡(luò)的輸入為增強(qiáng)后的圖像時(shí)第j層的輸出,φj(h)表示該損失網(wǎng)絡(luò)的輸入為參考圖像時(shí)第j層的輸出.
因此,復(fù)合損失函數(shù)為:
3.1 模型訓(xùn)練及數(shù)據(jù)集該方法基于Tensorflow 1.15 開源框架在Nvidia gtx2080ti GPU、Intel core i7-9700kf 3.6 GHz CPU 和32 GB RAM 上 進(jìn)行訓(xùn)練.由于現(xiàn)實(shí)生活中低光照?qǐng)D像很難成對(duì)獲取,因此使用了經(jīng)典的LOL 和SCIE 兩個(gè)數(shù)據(jù)集作為訓(xùn)練集.LOL 數(shù)據(jù)集[20]用RetinexNet 方法構(gòu)建,其中訓(xùn)練集中包含485 對(duì)圖像,測(cè)試集中包含15 張低照度圖像.SCIE 數(shù)據(jù)集[21]采用MEF 和HDR 技術(shù)生成,包含229 對(duì)高質(zhì)量的低照度圖像對(duì).實(shí)驗(yàn)選擇了LOL 中的480 對(duì)圖像和SCIE 中曝光度最低的20對(duì)圖像,并將它們裁剪為256×256 的統(tǒng)一大小組成混合訓(xùn)練集.用學(xué)習(xí)率為1×10?4的Adam 優(yōu)化器進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程中批大小為2,訓(xùn)練次數(shù)為350 次.損失函數(shù)參數(shù)設(shè)置為α=0.1,β=0.2,γ=μ=1.
3.2 評(píng)價(jià)指標(biāo)及對(duì)比分析
3.2.1 定性分析 將該方法與傳統(tǒng)的低照度增強(qiáng)方法和深度學(xué)習(xí)法進(jìn)行了對(duì)比分析.作為對(duì)比的傳統(tǒng)方法有Dong[22]、LIME[23],BIMEF[24]、NPE[25]、RetinexNet[26],KinD[20],深度學(xué)習(xí)法有GLADNet[10]、SSIENet[11],MBLLEN[27].
從圖6、7 中可以看出:與參考圖像相比,SSIENet 和Dong 相似,對(duì)淺色部分過(guò)度曝光,細(xì)節(jié)處噪點(diǎn)明顯,邊緣輪廓被加重;BIMEF 對(duì)低照度圖像的亮度提升不足,增強(qiáng)效果很差;NPE 和LIME一定程度上緩解了BIMEF 亮度不足的問(wèn)題,增強(qiáng)后的圖像效果較BIMEF 的結(jié)果稍好,但色彩深度保持得不夠充分,處理后圖像色調(diào)整體偏橙;MBLLEN 增強(qiáng)后的圖像放大后細(xì)節(jié)清晰度很差,圖像放大后物體輪廓均十分模糊,例如圖7 中“控制臺(tái)”桌面上的貼紙?jiān)诜糯蠛笠巡荒芊直嫫漭喞籏inD 增強(qiáng)后的圖像與前幾種方法相比曝光度有所加重,導(dǎo)致原圖像中亮色區(qū)域部分色彩失真,還原度不高;RetinexNet 處理后的圖像中物體邊緣過(guò)于突出,物體與背景分割明顯,部分區(qū)域出現(xiàn)了偽影;GLADNet 對(duì)彩色部分,如紅色、綠色、藍(lán)色等的色彩保持較差,細(xì)節(jié)丟失,且放大圖像中的噪點(diǎn)嚴(yán)重,例如圖6 中,擴(kuò)大的“衣柜”圖像中色彩鮮艷的區(qū)域均噪點(diǎn)明顯;本文方法效果與LIME 類似,但是處理后色彩協(xié)調(diào)性以及物體輪廓還原度的效果更佳.
圖6 基于圖片“衣柜”與其他主流低照度增強(qiáng)方法進(jìn)行視覺(jué)對(duì)比Fig.6 Visual comparison with state-of-the-art image enhancement methods in “wardrobe”
圖7 基于圖片“控制臺(tái)”與其他主流低照度增強(qiáng)方法進(jìn)行視覺(jué)對(duì)比Fig.7 Visual comparison with state-of-the-art image enhancement methods in “console”
3.2.2 定量分析 除了同主流方法進(jìn)行了主觀視覺(jué)上的效果對(duì)比,我們還采用了6 種客觀的評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比.分別是信噪比(SNR)、峰值信噪比(PSNR)、結(jié)構(gòu)性檢驗(yàn)標(biāo)準(zhǔn)(SSIM[18])、視覺(jué)信息保真度(VIF[28])、信息保真度(IFC[29])和噪聲質(zhì)量評(píng)估(NQM).SNR 代表圖像中信號(hào)與噪聲的比例,PSNR 是通過(guò)計(jì)算待測(cè)評(píng)圖像與參考圖像之間像素誤差的總和判斷圖像質(zhì)量,值越大,說(shuō)明待測(cè)評(píng)圖像與參考圖像之間的失真度較小,圖像質(zhì)量較好.以上幾個(gè)指標(biāo)都是對(duì)圖像像素值誤差進(jìn)行統(tǒng)計(jì)得到的,并沒(méi)有考慮人眼的視覺(jué)觀看效果.研究發(fā)現(xiàn),很多高PSNR 或SSIM 圖像沒(méi)有很好的細(xì)節(jié)紋理,這些圖片并不一定符合人眼的視覺(jué)習(xí)慣,所以我們還加入了以下幾種評(píng)價(jià)指標(biāo).
SSIM 指數(shù)由3 個(gè)對(duì)比模塊組成,分別是亮度、對(duì)比度、結(jié)構(gòu),其中亮度對(duì)比函數(shù)為:
對(duì)比度相似性定義為:
結(jié)構(gòu)相似性定義為:
以上3 個(gè)對(duì)比函數(shù)共同構(gòu)成SSIM 函數(shù):
式中,α、β、γ>0,用以調(diào)整3 個(gè)模塊的重要性,通常α=β=γ=1,c3=c2/2,則
SSIM 函數(shù)的取值范圍為[0,1],值越大說(shuō)明待評(píng)估圖像和參考圖像越相似,失真度越小.
實(shí)驗(yàn)表明,VIF 指標(biāo)與前幾類指標(biāo)相比,與人類的主管視覺(jué)體驗(yàn)有高度一致性,其值越大,說(shuō)明圖像質(zhì)量越好.IFC 指標(biāo)先利用大量的自然圖像統(tǒng)計(jì)得到多尺度的高斯混合模型,再用它檢測(cè)人眼較為敏感的高頻信息的波形特征,以此衡量圖像的信息損失程度.NQM 是噪聲質(zhì)量評(píng)估指標(biāo),可準(zhǔn)確評(píng)估出圖像中噪聲影響的多少.以上幾個(gè)指標(biāo)的數(shù)值越高代表圖像質(zhì)量越好.由于篇幅有限,我們挑選3 張LOL 數(shù)據(jù)庫(kù)中的測(cè)試圖,用10 種方法進(jìn)行客觀定量對(duì)比,結(jié)果如表1~3 所示.最好的結(jié)果用加粗黑體字標(biāo)出.從表中數(shù)據(jù)可看出,本文方法的大部分指標(biāo)都優(yōu)于其他方法,只有在表1、2 中的VIF 指標(biāo)低于最好值,以及表1 中的NQM 低于最優(yōu).為了進(jìn)一步分析,將LOL 數(shù)據(jù)集中的測(cè)試圖像均作為對(duì)比對(duì)象,并計(jì)算出平均性能指標(biāo),如表3所示,可以看出,基于深度學(xué)習(xí)的方法在PSNR 和SSIM 上都有很出色的結(jié)果.本文方法的PSNR、SSIM 指標(biāo)相較其它方法均有提升,SNR 指標(biāo)的值位列第二,與第一相差很小.
表1 不同方法對(duì)“衣柜”圖像增強(qiáng)結(jié)果的定量評(píng)價(jià)Tab.1 Quantitative assessment comparison of different methods for the enhancement results of “wardrobe”
表2 不同方法對(duì)“控制臺(tái)”圖像增強(qiáng)結(jié)果的定量評(píng)價(jià)Tab.2 Quantitative assessment comparison of different methods for the enhancement results of “console”
表3 不同方法對(duì)LOL 數(shù)據(jù)集增強(qiáng)結(jié)果的平均定量評(píng)價(jià)Tab.3 Average quantitative assessment comparison of different methods for the LOL-dataset
3.3 擴(kuò)展實(shí)驗(yàn)由于篇幅限有限,我們?nèi)我馓暨x了兩張低曝光度圖像用不同方法增強(qiáng)后列出,分別為“建筑”“走廊”,除了做視覺(jué)對(duì)比,還用PSNR 和SSIM 兩個(gè)客觀指標(biāo)進(jìn)行評(píng)價(jià),實(shí)驗(yàn)結(jié)果如圖8 所示,客觀指標(biāo)如表4 所示.
由圖8 可看出:KinD 依然是亮度最高的,但是細(xì)節(jié)顏色突變明顯,在列舉的兩幅圖像中均出現(xiàn)偽影,如“建筑”中的灰色拱門部分以及“走廊”的白色墻壁部分;BIMEF 的結(jié)果對(duì)比度很低,增強(qiáng)效果不佳;MBLLEN 的對(duì)比度相較于BIMEF 稍好,但是對(duì)淺色部分色彩保持不充分,在某些區(qū)域,例如走廊盡頭處曝光度太弱,還原度低;NPE 在原圖像對(duì)比度很低時(shí),增強(qiáng)后的圖像與參考圖像相比,色彩深度更深;本文方法與GLADNet 很相似,但與之相比,本文方法在細(xì)節(jié)處層次更加真實(shí),例如“走廊”中燈管的顏色更加接近參考圖像中的淡藍(lán)色而非GLADNet 中的白色,且在顏色較深的區(qū)域色彩還原度也更勝一籌.
圖8 基于3 張圖像與其他主流低照度增強(qiáng)方法進(jìn)行視覺(jué)對(duì)比Fig.8 Visual comparison with state-of-the-art image enhancement methods in three different images
除了主觀視覺(jué)上的對(duì)比,也可由表4 中的平均PSNR、SSIM 指標(biāo)可知,對(duì)于這兩幅圖,本文方法的PSNR 分別高出排名第二的方法0.4 和1.23,說(shuō)明提出的方法在幾種對(duì)比方法中有良好的優(yōu)勢(shì),魯棒性強(qiáng),且效果較為穩(wěn)定.
表4 不同方法對(duì)SCIE 數(shù)據(jù)集增強(qiáng)效果的定量評(píng)價(jià)Tab.4 Quantitative assessment comparison of different methods for the enhancement results of SCIE datasets
3.4 消融實(shí)驗(yàn)
3.4.1 參數(shù)選擇 為了讓提出的方法達(dá)到最好的增強(qiáng)效果,我們首先對(duì)比了不同參數(shù)對(duì)實(shí)驗(yàn)效果的影響,以此找到最優(yōu)參數(shù);接著,改變了損失函數(shù)中基于Vgg 的感知損失函數(shù)的占比,分別將λ設(shè)置為0、0.5、1、1.5,選擇在LOL 數(shù)據(jù)集上作對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5 所示.從表5 可以看出,當(dāng)λ=1 時(shí),客觀指標(biāo)PSNR、SSIM、SNR 均達(dá)到最佳,因此將損失函數(shù)中Vgg 的占比設(shè)定為1.
表5 不同參數(shù)對(duì)LOL 數(shù)據(jù)集增強(qiáng)效果的平均定量評(píng)價(jià)Tab.5 Quantitative evaluation of enhancement effect of LOL dataset by different parameters
3.4.2 結(jié)構(gòu)消融 對(duì)所提出的模型進(jìn)行了消融對(duì)比實(shí)驗(yàn),首先我們對(duì)深度可分離共享卷積模塊(Deep Separable_block)進(jìn)行消融實(shí)驗(yàn),將其結(jié)果標(biāo)注為ABLATION-1.通過(guò)圖9 可看出,在去掉深度可分離共享卷積模塊后,特征提取能力顯著下降,增強(qiáng)后的圖像對(duì)比度低,色彩飽和度不足.由表6可更直觀地看出,去掉該模塊后,圖像的PSNR、SNR 指標(biāo)均下降,且部分圖像降幅明顯.說(shuō)明該模塊可較好地減弱擴(kuò)展卷積的網(wǎng)格偽影問(wèn)題,證明了本文提出方法的有效性.
表6 去掉平滑擴(kuò)展卷積模塊的消融實(shí)驗(yàn)定量對(duì)比Tab.6 Quantitative comparison of ablation experiments with removing smooth dilated convolutionalmodules
圖9 去掉平滑擴(kuò)展卷積模塊的消融實(shí)驗(yàn)視覺(jué)對(duì)比Fig.9 Visual comparison of ablation experiments with removing smooth dilated convolutional modules
接著對(duì)注意力機(jī)制CBAM 模塊進(jìn)行消融實(shí)驗(yàn),依次將其換為注意力機(jī)制SEnet 模塊、注意力機(jī)制SKnet 模塊.在圖10 中,分別將其增強(qiáng)結(jié)果命名為ABLATION-2、ABLATION-3.由圖10 可以看出,單看兩組消融實(shí)驗(yàn)的增強(qiáng)結(jié)果,其結(jié)果還是較為理想的,亮度、對(duì)比度與原低照度圖像相比均有較大提升,但本文方法的色彩飽和度更好,在細(xì)節(jié)輪廓和圖像清晰度上有一定優(yōu)勢(shì).在表7 中,客觀指標(biāo)方面,除了“POOL”圖像的PSNR 的值29.97 略低于ABLATION-3 的30.60,“DOLL”圖像的SSIM 的值0.71 略低于ABLATION-3 的0.73 外,其余指標(biāo)均本文方法更優(yōu).這兩幅圖像的值未達(dá)到最優(yōu),是因?yàn)檫@兩幅圖像的真實(shí)圖像偏暗,導(dǎo)致PSNR 和SSIM 的值偏小.但從總體來(lái)看,注意力模塊選用CBAM 的實(shí)驗(yàn)整體效果要更優(yōu).
表7 更換注意力模塊的消融實(shí)驗(yàn)定量對(duì)比Tab.7 Quantitative comparison of ablation experiments with replacement of attention module
圖10 更換注意力模塊的消融實(shí)驗(yàn)視覺(jué)對(duì)比Fig.10 Visual comparison of ablation experiments with replacement attention modules
綜上所述,采用本文提出的模型結(jié)構(gòu)和損失函數(shù)對(duì)低照度圖像有較好地增強(qiáng)效果,優(yōu)于其它方法,且具備較強(qiáng)的魯棒性.
本文提出了一種端到端低照度圖像增強(qiáng)網(wǎng)絡(luò),結(jié)合雙路分支網(wǎng)絡(luò)提取特征和多層殘差塊構(gòu)成重構(gòu)部分去訓(xùn)練模型.利用平滑擴(kuò)展卷積和注意力模塊這兩路分支提取圖像的局部特征和全局特征,并運(yùn)用了復(fù)合損失函數(shù).大量實(shí)驗(yàn)證明提出的方法可以很好地提取特征、重構(gòu)圖像,最終生成效果優(yōu)異的增強(qiáng)圖像,在主觀視覺(jué)和客觀評(píng)價(jià)指標(biāo)中都優(yōu)于對(duì)比的幾種算法.為了使本文所提出的方法應(yīng)用更加廣泛有效,考慮在未來(lái)的研究中進(jìn)一步優(yōu)化損失函數(shù),擴(kuò)大數(shù)據(jù)集.