張華成 ,劉朝倩 ,韋 屹 ,李 喆 ,潘 劍
(1.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004;2.廣西中煙工業(yè)有限責(zé)任公司,廣西 南寧 530001)
人們使用拍照設(shè)備拍照的時(shí)候,由于場景亮度和設(shè)備等原因,得到的圖像會(huì)有過暗或過亮的區(qū)域。這些區(qū)域的圖像細(xì)節(jié)信息模糊,降低了圖像的實(shí)用性。因此,有必要對(duì)這樣的圖像進(jìn)行操作,使細(xì)節(jié)變得明顯,提高圖像質(zhì)量。
早期弱光圖像增強(qiáng)的很多做法都是在圖像的統(tǒng)計(jì)學(xué)特征上進(jìn)行操作,但只是增強(qiáng)整體圖像的亮度,無法對(duì)圖像局部區(qū)域的亮度進(jìn)行調(diào)整。文獻(xiàn)[1]提出一種弱光圖像增強(qiáng)方法,但容易增強(qiáng)過度。文獻(xiàn)[2]增強(qiáng)的圖像比較暗,出現(xiàn)顏色失真現(xiàn)象。之后的圖像增強(qiáng)方法多數(shù)基于深度學(xué)習(xí),文獻(xiàn)[3]利用高質(zhì)量參考圖像集來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),得到一個(gè)單圖像對(duì)比度增強(qiáng)器。文獻(xiàn)[4]的圖像增強(qiáng)結(jié)果比較暗,視覺效果較差。文獻(xiàn)[5]提出一種循環(huán)的GAN(CycleGAN),雖然能增強(qiáng)圖像,但是效果比較模糊。為了使夜間車載圖像更清晰,文獻(xiàn)[6]基于平移檢索定位問題,提出一個(gè)圖像轉(zhuǎn)換模型。文獻(xiàn)[7]提出一種無監(jiān)督的GAN(EnlightenGAN),即使沒有弱/正常亮度圖像對(duì)也能訓(xùn)練模型。這些弱光圖像增強(qiáng)的方法,有的整體或局部過度增強(qiáng);有的增強(qiáng)暗區(qū)失敗,且顏色失真,視覺效果差。為克服以上缺陷,提出一種基于生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)和特征自我保留的圖像增強(qiáng)方法SFPGAN。該方法引入特征自我保留損失(Self-Feature Preserving Loss,SFPL),從顏色、亮度及特征3個(gè)方向?qū)D像進(jìn)行判別,能夠保留原始圖像的特征,擁有更多的細(xì)節(jié),在增強(qiáng)暗區(qū)的同時(shí)也能抑制亮區(qū)的過度曝光。SFPGAN具有4個(gè)特點(diǎn):使用含有正常亮度和過度曝光的圖像集訓(xùn)練模型;模型的魯棒性強(qiáng);模型能夠避免整體和局部過度曝光;模型能夠適應(yīng)真實(shí)的弱光圖像。
基于文獻(xiàn)[6]的觀點(diǎn),為了全方位地鑒別生成圖像的真實(shí)性,從顏色、亮度及紋理方面判別圖像,即判別器包含模糊RGB判別器DRGB、灰度判別器DGray及梯度判別器DGrad3部分。第1部分使用一個(gè)大小為5×5和方差為3δ的高斯卷積核計(jì)算模糊RGB圖像,第2部分計(jì)算灰度圖,第3部分計(jì)算橫向和縱向梯度圖。最后將計(jì)算結(jié)果輸入相應(yīng)的判別器獲得輸出值,求輸出值的平均值作為最終的損失值。模型結(jié)構(gòu)如圖1所示。
在圖1中,(a)是循環(huán)GAN的模型,其中X和Y是圖像集,G和F是生成器,Dx和Dy是判別器,均包含DRGB、DGray及DGrad這3個(gè)判別器;(b)使用預(yù)先訓(xùn)練好的模型保留原有的特征;(c)是正、反向循環(huán)一致性。
圖1 SFPGAN模型結(jié)構(gòu)
DGrad模擬了提取尺度不變特征變換描述符的過程。它使用1×1、步長為2的卷積層提取特征圖,并將特征圖與兩個(gè)濾波器卷積獲得x、y方向的梯度。與文獻(xiàn)[6]一樣,使用該判別器創(chuàng)建原始圖像中不存在的相關(guān)匹配的特征。受到文獻(xiàn)[7]的啟發(fā),為了保留原始特征,引入SFPL。
CycleGAN的任務(wù)是從圖像集X和Y中學(xué)習(xí)G:X→Y和F:Y→X,生成損失將生成圖像的分布與目標(biāo)的分布相匹配,有:
式中,G是生成器,D是判別器,x和y分別是X和Y中的樣本。由于SFPGAN從3個(gè)方向進(jìn)行評(píng)判,因此定義不一樣的對(duì)抗損失:
式中,D=[DRGB,DGray,DGrad],x是輸入圖像,n是D的長度,xf是生成的圖像。
如圖1(c)所示,對(duì)于X的每一張圖像x,模型應(yīng)該能夠?qū)轉(zhuǎn)換回原始圖像,即
x→G(x)→F(G(x))≈x;類 似 地,有 y→F(y)→G(F(y))≈y。使用循環(huán)一致性損失保證轉(zhuǎn)換的平衡性:
從3個(gè)方向判別生成的圖像,可能會(huì)出現(xiàn)特征冗余的現(xiàn)象。為了保留原圖像的內(nèi)容和特征,引入 SFPL[7]:
式中φj表示在預(yù)訓(xùn)練好的VGG模型中提取的特征映射。這里使用VGG16中第5層最大池化層后的第1層卷積層卷積得到的特征。Wj和Hj是特征維度大小。根據(jù)CycleGAN和SFPL,SFPGAN的整體損失函數(shù)為:
式中λ控制著生成器G和F的相對(duì)平衡性,參照文獻(xiàn)[5],λ=10。λSFPL控制著SFPL對(duì)Loss的影響程度,λSFPL=1。
為了使模型具有良好的魯棒性,選擇文獻(xiàn)[3]中含有一定量正常亮度和過度曝光的Part2圖像集作為訓(xùn)練集,一共有1 779張圖像。選擇LIME[1]、NPE[4]、MEF[8]、DICM[9]和 VV 使用的測試集,一共200張圖像。
生成器的網(wǎng)絡(luò)結(jié)構(gòu)和判別器的網(wǎng)絡(luò)結(jié)構(gòu)成分類似,主要由Conv2d(C)和InstanceNorm2d(I)組成。其中生成器的激活函數(shù)為ReLU(R),判別器的激活函數(shù)為LeakyReLU(L)。令c7s1-k表示一個(gè)步長為1的7×7的C-I-R,dk表示一個(gè)步長為2的3×3的C-I-R,Rk表示一個(gè)含有兩個(gè)3×3卷積層的殘差塊,uk表示一個(gè)步長為1/2的3×3的C-I-R。因此,生成器的網(wǎng)絡(luò)結(jié)構(gòu)為c7s1-64,d128,d256,9*R256,u128,u64,c7s1-3。令 Ck表示一個(gè)步長為2的C-I-L。DRGB的網(wǎng)絡(luò)結(jié)構(gòu)為C64-C128-C256-C512。DGray結(jié)構(gòu)與DRGB一樣,而DGrad少了512的這層。k表示過濾器的大小。
為了驗(yàn)證SFPGAN的有效性,進(jìn)行4次消融實(shí)驗(yàn)。分別為CycleGAN、只使用3個(gè)判別器、只使用SFPL和SFPGAN,一共4個(gè)實(shí)驗(yàn),簡稱實(shí)驗(yàn)一、實(shí)驗(yàn)二、實(shí)驗(yàn)三及實(shí)驗(yàn)四。結(jié)果如圖2所示。圖2中,第1列為輸入圖像,第2列到第5列分別是實(shí)驗(yàn)一、實(shí)驗(yàn)二、實(shí)驗(yàn)三及實(shí)驗(yàn)四的結(jié)果。在第1行,實(shí)驗(yàn)一使珊瑚的顏色變淡,而實(shí)驗(yàn)二~實(shí)驗(yàn)四能夠保留圖像原始顏色。在第2行,在燈塔周邊區(qū)域,實(shí)驗(yàn)一、實(shí)驗(yàn)二及實(shí)驗(yàn)三的結(jié)果都存在噪聲,且實(shí)驗(yàn)二結(jié)果存在光暈。在第3行,實(shí)驗(yàn)一結(jié)果比較模糊,實(shí)驗(yàn)一和實(shí)驗(yàn)三結(jié)果顏色失真;而實(shí)驗(yàn)二過度增強(qiáng)人群,且電視機(jī)上有噪聲。在第4行,實(shí)驗(yàn)二和實(shí)驗(yàn)三在石塔中出現(xiàn)噪聲,實(shí)驗(yàn)二在有陽光的部分出現(xiàn)過度增強(qiáng)的現(xiàn)象。相比之下,SFPGAN更能夠保留圖像顏色和特征,在增強(qiáng)暗區(qū)的同時(shí)也能抑制亮區(qū)的過度曝光,擁有更好的視覺效果,實(shí)驗(yàn)結(jié)果驗(yàn)證了SFPGAN的有效性。
圖2 SFPGAN消融實(shí)驗(yàn)的視覺比較
從主觀評(píng)價(jià)、圖像的視覺質(zhì)量、無參考的圖像質(zhì)量以及在現(xiàn)實(shí)世界中的適應(yīng)情況4個(gè)方面對(duì)結(jié)果進(jìn)行論證。
2.4.1 圖像的視覺質(zhì)量比較
將SFPGAN與其他方法在視覺質(zhì)量方面進(jìn)行對(duì)比,結(jié)果如圖3所示。第1列是弱光圖像,第2列到第7列分別是CycleGAN、EnlightenGAN、LIME、NPE和SRIE[2]及SFPGAN對(duì)本文訓(xùn)練集進(jìn)行訓(xùn)練的結(jié)果。在第1行結(jié)果,EnlightenGAN和LIME雖然很好地增強(qiáng)了暗區(qū)域,但過度增強(qiáng)了部分區(qū)域;NPE出現(xiàn)了噪聲,SRIE效果較暗。在第2行結(jié)果,CycleGAN使得暗區(qū)的細(xì)節(jié)更明顯,但顏色會(huì)失真,EnlightenGAN、LIME、NPE及SRIE也出現(xiàn)了這個(gè)問題。在第3行結(jié)果,EnlightenGAN和LIME都過度增強(qiáng),NPE和SRIE避免了整體過度增強(qiáng),而CycleGAN結(jié)果比較暗。在最后一行,EnlightenGAN、LIME、NPE及SRIE都過度增強(qiáng)。由圖3結(jié)果可以看出,SFPGAN不僅可以增強(qiáng)暗區(qū)域,還能保留顏色和紋理,避免整體或局部過度增強(qiáng),具有更好的視覺效果。
2.4.2 主觀評(píng)價(jià)
將SFPGAN與其他方法(CycleGAN除外)在主觀評(píng)價(jià)方面作比較。從測試集中隨機(jī)選擇23張圖像。對(duì)于每一張圖像,首先通過5種方法增強(qiáng),其次要求9個(gè)測試者以成對(duì)的方式獨(dú)立對(duì)比這5張圖像結(jié)果,評(píng)估哪張效果更好。測試者需要考慮圖像是否有噪聲,圖像是否有曝光過度或曝光不足的區(qū)域以及圖像是否存在顏色或紋理失真現(xiàn)象。參照文獻(xiàn)[7]的例程估計(jì)主觀得分對(duì)這5種方法進(jìn)行排名。最后,在該圖像上為每種方法分1~5共5個(gè)等級(jí),等級(jí)越低,質(zhì)量越好。重復(fù)以上操作23次。
圖3 與其他算法的效果比較(放大區(qū)域說明視覺差異)
采用以下方法表示評(píng)價(jià)結(jié)果。以SFPGAN為例,SFPGAN的評(píng)價(jià)結(jié)果為:1等級(jí)的圖像有8張,2等級(jí)的圖像有9張,3等級(jí)的圖像有6張,則結(jié)果表示為SFPGAN:1:8,2:9,3:6。將等級(jí)與相應(yīng)的圖像數(shù)量相乘得到等級(jí)權(quán)重,所有的等級(jí)權(quán)重相加,用得到的等級(jí)權(quán)重總和除以總的圖像數(shù)量得到平均排名。以此方法計(jì)算所有方法的評(píng)價(jià)結(jié)果和平均排名如表1所示。SFPGAN的平均排名為1.91,雖然結(jié)果比EnlightenGAN差,但是相對(duì)于其他方法,還有一定的優(yōu)越性。由于NPE和LIME存在增強(qiáng)過度或不足及顏色失真等問題,因此結(jié)果較差。
表1 5種方法的評(píng)價(jià)結(jié)果和平均排名
2.4.3 無參考的圖像質(zhì)量對(duì)比
使用無參考的測試集,選擇自然圖像質(zhì)量評(píng)價(jià)器(Natural Image Quality Evaluator,NIQE)[10]從自然度、局部亮度及特征等方面評(píng)價(jià)增強(qiáng)圖像的質(zhì)量。分別使用這6種方法增強(qiáng)測試集得到增強(qiáng)圖像,分別使用NIQE計(jì)算每一種方法200張結(jié)果圖像的平均分?jǐn)?shù),得到的結(jié)果如表2所示。NIQE的值越小表示質(zhì)量越好,字體加粗的值表示最好結(jié)果。從表2可以看出,SFPGAN的NIQE得分不論是在各個(gè)測試集上還是在總的測試集上都是最低的,進(jìn)一步證明其在產(chǎn)生高質(zhì)量圖像方面更有優(yōu)勢。
2.4.4 適應(yīng)現(xiàn)實(shí)世界的弱光圖像
域自適應(yīng)是實(shí)現(xiàn)現(xiàn)實(shí)世界可泛化圖像增強(qiáng)的一個(gè)必不可少的因素。為了驗(yàn)證SFPGAN增強(qiáng)實(shí)際弱光圖像的有效性,使用來自真實(shí)駕駛數(shù)據(jù)集[11]的弱光圖像進(jìn)行驗(yàn)證,以顯示其在實(shí)際場景中應(yīng)用的優(yōu)勢。從文獻(xiàn)[11]數(shù)據(jù)集中隨機(jī)選擇像素強(qiáng)度平均值小于45的860張弱光圖像和其他值的100張圖像作為訓(xùn)練集,再隨機(jī)選擇50張弱光圖像作為測試集,這些圖像均具有偽影和ISO噪聲。將SFPGAN與LIME、AHE及SN等方法進(jìn)行結(jié)果比較,其中SN是SFPGAN的一個(gè)域適應(yīng)版本,比較結(jié)果如圖4所示。從左到右分別為原始圖像、LIME、AHE、SFPGAN及SN的結(jié)果。從圖4可以看出,LIME出現(xiàn)很多噪聲和偽影,而AHE不能夠充分增強(qiáng)圖像的亮度,SFPGAN出現(xiàn)較多的噪聲而且還會(huì)出現(xiàn)偽影。相比之下,SN的質(zhì)量更高、噪聲更少、清晰度更高。由于在文獻(xiàn)[11]數(shù)據(jù)集中選擇的是成對(duì)的訓(xùn)練集,因此SFPGAN能夠適應(yīng)SN,這可以極大地促進(jìn)其在現(xiàn)實(shí)中的推廣應(yīng)用。
表2 NIQE在總數(shù)據(jù)集和子集上的得分
圖4 4種方法在文獻(xiàn)[11]數(shù)據(jù)集上的視覺比較結(jié)果
基于部分傳統(tǒng)方法和基于深度學(xué)習(xí)的圖像增強(qiáng)方法出現(xiàn)的整體和局部過度增強(qiáng)、顏色失真及暗區(qū)域增強(qiáng)不明顯等問題,本文提出一種基于GAN和SFPL的圖像增強(qiáng)方法SFPGAN。SFPGAN在增強(qiáng)暗區(qū)域的同時(shí)也能抑制亮區(qū)域的過度曝光,保留更多的顏色和特征。在各種弱光數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法在圖像質(zhì)量增強(qiáng)方面優(yōu)于當(dāng)前其他多種方法。