張威
(中國石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東青島 266580)
可見光(微光)與紅外彩色融合技術(shù)通過生成一幅彩色融合圖像幫助觀察者更快更準(zhǔn)確地發(fā)現(xiàn)熱目標(biāo)、理解場(chǎng)景內(nèi)容,在交通、遙感、安防等領(lǐng)域發(fā)揮著重要作用[1]。如何有效地對(duì)彩色融合圖像質(zhì)量進(jìn)行客觀評(píng)價(jià),一直是人們研究的焦點(diǎn)和難點(diǎn)。
傳統(tǒng)的無參考圖像質(zhì)量評(píng)價(jià)方法分為兩部分。首先設(shè)計(jì)學(xué)習(xí)器用于提取質(zhì)量感知特征[2-6],然后通過映射函數(shù)將感知特征映射到質(zhì)量分?jǐn)?shù)進(jìn)行評(píng)價(jià)。
近年來,有很多成熟的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法被用于圖像質(zhì)量評(píng)價(jià)(Image Quality Assessment,IQA)[7-10]。文獻(xiàn)[11]提出了一種高度無監(jiān)督的IQA 方法,它不需要訓(xùn)練樣本,也不依賴于人眼的主觀評(píng)價(jià)評(píng)分。文獻(xiàn)[12]提出了一種基于多個(gè)最小可覺察誤差(Just Noticeable Distortion,JND)模型的無參考圖像質(zhì)量評(píng)價(jià)方法,將多種JND 模型應(yīng)用于提取多尺度圖像的特征和深度圖,最后合并這些特征并映射到客觀分?jǐn)?shù)。文獻(xiàn)[13]利用張量分解生成多個(gè)特征圖提出了一種新的無參考質(zhì)量評(píng)估方法。文獻(xiàn)[14]通過門控卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)相鄰塊圖像之間的顏色相關(guān)性,利用圖像的語義信息提高了神經(jīng)網(wǎng)絡(luò)的識(shí)別能力,建立了更有效的圖像顏色協(xié)調(diào)性評(píng)價(jià)模型。
基于以上研究,提出了一種生成式雙波段彩色融合圖像質(zhì)量評(píng)價(jià)方法。該方法通過對(duì)抗生成網(wǎng)絡(luò)(Generative Adversarial Net,GAN)預(yù)測(cè)彩色融合圖像的主要內(nèi)容,在目標(biāo)函數(shù)中引入了結(jié)構(gòu)差異度約束。根據(jù)約束函數(shù)向預(yù)測(cè)內(nèi)容中加入不同程度的無序信息,生成一個(gè)偽彩色融合圖像數(shù)據(jù)集。之后建立一個(gè)基于孿生網(wǎng)絡(luò)的質(zhì)量評(píng)估器,在偽彩色融合圖像數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,在真彩色融合圖像數(shù)據(jù)集中進(jìn)行微調(diào),對(duì)彩色融合圖像質(zhì)量進(jìn)行評(píng)估。
如圖1 所示,對(duì)抗生成網(wǎng)絡(luò)一般由兩個(gè)子網(wǎng)絡(luò)組成,分別為一個(gè)生成器G和一個(gè)判別器D。其中生成器用來生成樣本,判別器用來區(qū)分真實(shí)樣本和生成樣本。G和D的訓(xùn)練過程是最小化一個(gè)目標(biāo)函數(shù):
圖1 生成對(duì)抗網(wǎng)絡(luò)模型結(jié)構(gòu)
其中,Pdata為真實(shí)樣本的分布,Pz為輸入噪聲的分布。
通過區(qū)分真實(shí)樣本和生成樣本不斷地對(duì)判別器進(jìn)行優(yōu)化,而生成器通過不斷地最小化ln(1-D(G(z))被優(yōu)化。通過這種對(duì)抗性的訓(xùn)練,最終生成器可以生成更接近真實(shí)樣本的生成樣本,判別器無法區(qū)分真實(shí)樣本和生成樣本。
如圖2 所示,生成式雙波段彩色融合圖像質(zhì)量評(píng)價(jià)模型主要分成兩個(gè)模塊:基于GAN 的生成模塊和基于孿生網(wǎng)絡(luò)的質(zhì)量評(píng)估模塊。生成模塊通過GAN 推測(cè)彩色融合圖像的主要內(nèi)容,生成大量的偽彩色融合圖像;質(zhì)量評(píng)估模塊通過孿生網(wǎng)絡(luò)在偽彩色融合圖像數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,在真彩色融合圖像數(shù)據(jù)集中進(jìn)行微調(diào),之后對(duì)彩色融合圖像質(zhì)量進(jìn)行評(píng)價(jià)。
圖2 生成式雙波段彩色融合圖像質(zhì)量評(píng)價(jià)模型結(jié)構(gòu)
生成模塊由生成器G和判別器D構(gòu)成,以紅外圖像Id1和可見光圖像Id2作為輸入,預(yù)測(cè)其主要內(nèi)容Ig,即Ig=G(Id1,Id2)。判別器的主要目的是區(qū)分預(yù)測(cè)主要內(nèi)容Ig和真實(shí)主要內(nèi)容Ir。通過G和D之間的對(duì)抗訓(xùn)練,預(yù)測(cè)主要內(nèi)容Ig越來越接近真實(shí)主要內(nèi)容Ir。
通過采用WGAN-GP[15]的框架,將判別器D的目標(biāo)函數(shù)定義為:
其中,Ladv為對(duì)抗損失,LGP為梯度懲罰項(xiàng)。
Ladv定義如下:
其中,Pr為真實(shí)主要內(nèi)容的分布,Pg為預(yù)測(cè)主要內(nèi)容的分布。
LGP的定義如下:
其中,Px表示在Pr和Pg之間沿直線均勻采樣的抽樣分布,‖‖?xD(x)2表示D的輸出相對(duì)于輸入的梯度范數(shù),λ表示懲罰系數(shù)。
在對(duì)抗損失Ladv的約束下,不斷對(duì)生成器進(jìn)行優(yōu)化。除對(duì)抗損失外,為了使生成器G更準(zhǔn)確地預(yù)測(cè)圖像的真實(shí)內(nèi)容,將像素?fù)p失Lpix和內(nèi)容損失Lcon添加到生成器的損失函數(shù)中,其中,Lpix計(jì)算像素空間上預(yù)測(cè)主要內(nèi)容Ig和真實(shí)主要內(nèi)容Ir之間的差異,計(jì)算公式為:
其中,MSE 表示兩個(gè)輸入之間的均方誤差。
內(nèi)容損失定義預(yù)測(cè)主要內(nèi)容Ig和真實(shí)主要內(nèi)容Ir在特征空間上的差異,計(jì)算公式為:
其中,?k表示第k個(gè)卷積層的特征映射。
為了使得生成出的偽融合圖像和真實(shí)融合圖像更加一致,在生成器G的目標(biāo)函數(shù)中提出了一個(gè)結(jié)構(gòu)差異約束條件。使用輸入圖像與預(yù)測(cè)主要內(nèi)容Ig之間的預(yù)測(cè)誤差I(lǐng)u表示無序信息,計(jì)算公式如下:
主要內(nèi)容Ig包含輸入圖像的主要結(jié)構(gòu)信息,因此主要內(nèi)容Ig和預(yù)測(cè)誤差I(lǐng)u之間的結(jié)構(gòu)相似性應(yīng)盡可能小。利用經(jīng)典的SSIM 計(jì)算結(jié)構(gòu)相似度,定義為:
其中,x和y分別代表兩幅要比較的圖像,μx和μy分別為平均值,σx和σy為標(biāo)準(zhǔn)差,C1和C2為常數(shù)。將主要內(nèi)容Ig和預(yù)測(cè)誤差I(lǐng)u之間的結(jié)構(gòu)相似性定義為:
將Ig和Iu轉(zhuǎn)化為灰度圖像計(jì)算Is。為了保持主要內(nèi)容的結(jié)構(gòu)完整性,通過最小化下式來定義結(jié)構(gòu)差異約束:
其中,W和H分別表示Ig的寬度和高度。
最后將生成器的目標(biāo)函數(shù)表示為:
其中,μ為損失權(quán)重,用于平衡各類損失。
由于無法獲得紅外圖像和可見光圖像的真實(shí)主要內(nèi)容,使用彩色融合圖像進(jìn)行替代。在完成生成器的訓(xùn)練之后,獲得生成器目標(biāo)函數(shù)的最小值Gmin*,為了向生成的偽彩色融合圖像中加入不同程度的無序信息,設(shè)置不同的生成器目標(biāo)函數(shù)值使得生成模塊的訓(xùn)練提前停止,以此向偽彩色融合圖像中加入不同程度的無序信息,計(jì)算公式為:
在生成偽彩色融合圖像數(shù)據(jù)集后,采用孿生網(wǎng)絡(luò)對(duì)圖像質(zhì)量進(jìn)行評(píng)價(jià)。首先基于孿生網(wǎng)絡(luò)的質(zhì)量評(píng)估模塊在偽融合圖像數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,之后在真彩色融合圖像數(shù)據(jù)集中進(jìn)行微調(diào)。
基于孿生網(wǎng)絡(luò)的質(zhì)量評(píng)估模塊結(jié)構(gòu)如圖3所示。
圖3 基于CNN的質(zhì)量評(píng)估模塊結(jié)構(gòu)
將兩幅待比較的彩色融合圖像分別輸入至網(wǎng)絡(luò)1 和網(wǎng)絡(luò)2,網(wǎng)絡(luò)1 和網(wǎng)絡(luò)2 為參數(shù)共享的孿生網(wǎng)絡(luò),網(wǎng)絡(luò)的配置為卷積-64、卷積-64、池化、卷積-128、卷積-128、池化、卷積-256、卷積-256、池化,其中卷積-m表示卷積核為3×3、步長(zhǎng)為1 和輸出通道為m的卷積層,孿生網(wǎng)絡(luò)中的所有池化層大小均為2×2,步長(zhǎng)2。兩幅融合圖像經(jīng)過孿生網(wǎng)絡(luò)之后進(jìn)行合并,過程表述為:
其中,T表示孿生網(wǎng)絡(luò)提取出的特征向量,subnetworki代表網(wǎng)絡(luò)i的運(yùn)算過程,concat 代表向量的合并。
實(shí)驗(yàn)數(shù)據(jù)集來源于文獻(xiàn)[16],數(shù)據(jù)集共分為三類典型場(chǎng)景,51 組圖像,每組圖像包含八幅彩色融合圖像,分別由八種不同的融合算法融合同一場(chǎng)景下的可見光圖像和紅外圖像生成,每幅圖像大小均為320×240 像素。主觀評(píng)價(jià)實(shí)驗(yàn)采用7 分制的評(píng)分標(biāo)準(zhǔn),對(duì)應(yīng)非常不滿意到非常滿意七個(gè)等級(jí)。圖4-6 分別給出每類典型場(chǎng)景的一組融合圖像,每組包含一幅可見光圖像和一幅紅外圖像以及八幅融合圖像。
圖4 城鎮(zhèn)建筑物場(chǎng)景圖像中的一組源圖像及八幅融合圖像
圖5 海天場(chǎng)景圖像中的一組源圖像及八幅融合圖像
圖6 綠色植物場(chǎng)景圖像中的一組源圖像及八幅融合圖像
將數(shù)據(jù)集隨機(jī)分為兩個(gè)子集,80%用于訓(xùn)練,20%用于測(cè)試。在訓(xùn)練階段,采用訓(xùn)練集對(duì)生成模塊進(jìn)行訓(xùn)練,將無序信息添加程度值設(shè)置為I,λi取[1,3]之間的I個(gè)均值,生成一個(gè)偽彩色融合圖像數(shù)據(jù)集,其標(biāo)簽是兩幅圖像比較的結(jié)果。將質(zhì)量評(píng)估模塊在偽彩色融合圖像數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,在真彩色融合圖像數(shù)據(jù)集中進(jìn)行微調(diào)。在測(cè)試階段,將兩幅待比較的彩色融合圖像輸入到質(zhì)量評(píng)估模塊,輸出彩色融合圖像的評(píng)價(jià)結(jié)果。
采用準(zhǔn)確率、Pearson 相關(guān)系數(shù)和Spearman 相關(guān)系數(shù)三個(gè)評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。其中使用準(zhǔn)確率可以直接判斷模型在偽彩色融合數(shù)據(jù)集和真彩色融合圖像數(shù)據(jù)集中的表現(xiàn)情況;通過評(píng)價(jià)結(jié)果對(duì)融合圖像進(jìn)行排序后使用Pearson 相關(guān)系數(shù)和Spearman 相關(guān)系數(shù)在真彩色融合圖像數(shù)據(jù)集中衡量模型的性能。
文中提出了一種生成式雙波段彩色融合圖像質(zhì)量評(píng)價(jià)模型,從兩方面對(duì)該模型進(jìn)行有效性分析:1)分析模型本身的參數(shù)及網(wǎng)絡(luò)結(jié)構(gòu)對(duì)評(píng)價(jià)結(jié)果的影響;2)通過對(duì)比其他具有代表性模型的評(píng)價(jià)結(jié)果驗(yàn)證模型的有效性。
設(shè)置不同無序信息程度值I,模型的評(píng)價(jià)結(jié)果如表1 所示,其中,準(zhǔn)確率A為質(zhì)量評(píng)估模塊在偽彩色融合圖像數(shù)據(jù)集中評(píng)價(jià)的準(zhǔn)確率,準(zhǔn)確率B、Pearson相關(guān)系數(shù)和Spearman 相關(guān)系數(shù)為在真彩色融合圖像數(shù)據(jù)集中的評(píng)價(jià)結(jié)果。隨著I值不斷減小,質(zhì)量評(píng)估模塊在偽彩色融合圖像數(shù)據(jù)集中的表現(xiàn)越來越好,生成的偽彩色融合圖像之間的差距也隨之增大,但是會(huì)產(chǎn)生一定的過擬合情況,使得在真彩色融合圖像數(shù)據(jù)集中的表現(xiàn)先提高然后再降低,Pearson 相關(guān)系數(shù)和Spearman 相關(guān)系數(shù)從另一個(gè)方面論證了這個(gè)結(jié)論。實(shí)驗(yàn)結(jié)果表明,當(dāng)I值設(shè)置為10 時(shí)可以獲得較好的評(píng)價(jià)結(jié)果。
表1 添加不同程度無序信息的評(píng)價(jià)結(jié)果
使用一些現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為質(zhì)量評(píng)估模塊檢驗(yàn)對(duì)模型評(píng)價(jià)結(jié)果的影響,分別采用Vgg16、Vgg19、Resnet50 和Resnet101 作為質(zhì)量評(píng)估模塊中的子網(wǎng)絡(luò)進(jìn)行訓(xùn)練,評(píng)價(jià)結(jié)果都是在真彩色融合圖像數(shù)據(jù)集中得出,如表2 所示,Resnet 相較于Vgg 取得了更好的實(shí)驗(yàn)結(jié)果,殘差結(jié)構(gòu)可以使網(wǎng)絡(luò)在提取圖像特征時(shí)丟失更少的信息,文中設(shè)計(jì)的質(zhì)量評(píng)估模塊的結(jié)果略微優(yōu)于Vgg。
表2 不同類型質(zhì)量評(píng)估器的對(duì)比結(jié)果
之后對(duì)比兩種基于局部圖像的圖像質(zhì)量評(píng)價(jià)方法,其中文獻(xiàn)[17]首次提出了此類圖像質(zhì)量評(píng)價(jià)方法(模型A),文獻(xiàn)[18]提出采用全參考的方式對(duì)局部圖像的質(zhì)量分?jǐn)?shù)進(jìn)行定義(模型B),但是由于缺少參考圖像,采用文獻(xiàn)[16]中的方法對(duì)局部圖像的質(zhì)量分?jǐn)?shù)進(jìn)行定義。文中模型(模型C)與這兩種方法的對(duì)比結(jié)果如表3 所示,模型A 中局部圖像直接繼承原始圖像的質(zhì)量分?jǐn)?shù)的做法會(huì)引入大量的錯(cuò)誤信息,所以模型A 的評(píng)價(jià)結(jié)果最差;由于真彩色融合圖像數(shù)量過少,模型B 的評(píng)價(jià)結(jié)果也沒有達(dá)到預(yù)期,而生成式雙波段彩色融合圖像質(zhì)量評(píng)價(jià)模型取得了更好的評(píng)價(jià)結(jié)果,證明了該模型在雙波段彩色融合圖像質(zhì)量評(píng)價(jià)方面的有效性。
表3 與基于局部圖像方法的評(píng)價(jià)結(jié)果對(duì)比
另一類常用的圖像質(zhì)量評(píng)價(jià)方法是在ImageNet上進(jìn)行預(yù)訓(xùn)練,由于ImageNet 與彩色融合圖像數(shù)據(jù)庫差別過大,使用文獻(xiàn)[14]中基于門控卷積神經(jīng)網(wǎng)絡(luò)的圖像質(zhì)量評(píng)價(jià)模型(模型D)在AVA 數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,之后在融合圖像數(shù)據(jù)集中進(jìn)行微調(diào)。此外還對(duì)比了文獻(xiàn)[16]中基于記憶色的雙波段彩色融合圖像質(zhì)量評(píng)價(jià)方法(模型E)。對(duì)比結(jié)果如表4 所示,由于AVA 數(shù)據(jù)集與彩色融合圖像數(shù)據(jù)集相差較大,且融合圖像數(shù)據(jù)量較少,模型D 的評(píng)價(jià)結(jié)果較差,而生成式彩色融合圖像質(zhì)量評(píng)價(jià)方法取得了與人眼主觀評(píng)價(jià)較為一致的結(jié)果。
表4 與其他方法的評(píng)價(jià)結(jié)果對(duì)比
文中提出了一種生成式雙波段彩色融合圖像質(zhì)量評(píng)價(jià)方法,該方法分為基于GAN 的生成模塊和基于孿生網(wǎng)絡(luò)的質(zhì)量評(píng)估模塊。通過生成模塊預(yù)測(cè)彩色融合圖像的主要內(nèi)容,在目標(biāo)函數(shù)中引入了結(jié)構(gòu)差異度約束函數(shù),向偽彩色融合圖像中加入不同程度的無序信息,生成了一個(gè)偽彩色融合圖像數(shù)據(jù)集,解決了彩色融合圖像數(shù)據(jù)量不足和參考圖像缺失的問題。之后建立一個(gè)基于孿生網(wǎng)絡(luò)的質(zhì)量評(píng)估器,質(zhì)量評(píng)估器在偽彩色融合圖像數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,在真彩色融合圖像數(shù)據(jù)集中進(jìn)行微調(diào),對(duì)彩色融合圖像質(zhì)量進(jìn)行評(píng)估。一系列的實(shí)驗(yàn)證明了該方法的有效性和優(yōu)越性。