孫 銳,單曉全*,孫琦景,韓春軍,張旭東
1 合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009;
2 工業(yè)安全與應(yīng)急技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230009;
3 安徽省蚌埠市公安局科技信息科,安徽 蚌埠 233040
近紅外(Near-infrared,NIR)圖像傳感器由于可以很好地克服自然光的影響,能在各種光照條件不佳以及夜間場(chǎng)景下工作而受到廣泛應(yīng)用[1-2]。在刑偵安防領(lǐng)域,近紅外人臉圖像通常不能直接用于人臉檢索與識(shí)別[3-5],因?yàn)榻t外傳感器獲取的單通道圖像缺失了原始圖像的自然色彩,對(duì)人眼視覺很不友好。與真實(shí)的可見光(visible,VIS)人臉圖像相比,近紅外人臉圖像的人臉識(shí)別性能也較差。因此將近紅外人臉圖像轉(zhuǎn)化為可見光人臉圖像,還原人臉圖像的色彩信息,有助于進(jìn)一步提高人臉圖像的主觀視覺效果和跨模態(tài)識(shí)別性能,為構(gòu)建全天候的視頻監(jiān)控系統(tǒng)提供技術(shù)支撐。
近年來,近紅外-可見光圖像轉(zhuǎn)換與近紅外圖像的彩色化[6-11]引起了人們的廣泛關(guān)注與研究。Limmer等人[8]基于深度學(xué)習(xí)的方法提出了一種利用深度多尺度卷積神經(jīng)網(wǎng)絡(luò)對(duì)近紅外圖像進(jìn)行著色的方法,然而該方法往往不能還原清晰的細(xì)節(jié)。生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network,GAN)[12]出現(xiàn)后在灰度圖像的彩色化中得到了廣泛的應(yīng)用,因?yàn)樗梢援a(chǎn)生豐富且較清晰的細(xì)節(jié)。Liu 等人結(jié)合了變分自編碼器和GAN,構(gòu)建了基于共享潛在空間假設(shè)和循環(huán)損失的無監(jiān)督圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò)UNIT[13],隨后將其拓展至多模態(tài),提出了MUNIT[14]。Isola 等人提出的Pix2pix GAN[15]使用UNet[16]作為生成器,并提出了PatchGAN 結(jié)構(gòu)作為判別器,可以在生成的彩色圖像中保留更多細(xì)節(jié),較大程度提升了生成圖像的質(zhì)量。Wang 等人在Pix2pix GAN 的基礎(chǔ)上提出了升級(jí)算法Pix2pix HD[17],該算法采用多級(jí)生成的方式,先生成低分辨率的圖像再將其輸入到另一個(gè)網(wǎng)絡(luò)中生成更高分辨率、更高質(zhì)量的圖像。然而Pix2pix GAN 與Pix2pix HD 算法都是針對(duì)已配對(duì)的數(shù)據(jù)集設(shè)計(jì)的,人臉的近紅外-可見光圖像對(duì)的采集非常困難,因?yàn)橄袼丶?jí)匹配的近紅外-可見光人臉數(shù)據(jù)集比未配對(duì)的數(shù)據(jù)集成本更高。所以,非配對(duì)的圖像轉(zhuǎn)換模型更適合于近紅外-可見光人臉圖像轉(zhuǎn)換任務(wù)。
Zhu 等人提出的CycleGAN[18],是一種流行的非配對(duì)圖像到圖像的轉(zhuǎn)換模型。CycleGAN 通過引入循環(huán)一致性損失,可以同步實(shí)現(xiàn)圖像到圖像的雙向轉(zhuǎn)換。與UINT、MUNIT 等模型相比,CycleGAN 魯棒性更好,更易于訓(xùn)練。Wang 等人基于CycleGAN 結(jié)構(gòu)提出了FFE-CycleGAN[19],采用通用的面部特征提取器來代替CycleGAN 原始生成器中的編碼器,在保持可見光域和近紅外域的共同面部特征的同時(shí),學(xué)習(xí)近紅外域的特征。Dou 等人[20]提出了一種具有不同大小生成器的非對(duì)稱CycleGAN 方法。近紅外域到可見光域的轉(zhuǎn)換使用復(fù)雜網(wǎng)絡(luò),可見光域到近紅外域的轉(zhuǎn)換使用簡單網(wǎng)絡(luò),與CycleGAN 相比更加適用于非對(duì)稱轉(zhuǎn)換任務(wù)。Kancharagunta 等人提出了一種循環(huán)合成生成對(duì)抗網(wǎng)絡(luò)CSGAN[21],該算法在一個(gè)域合成圖像和另一個(gè)域循環(huán)圖像之間使用了一種新的目標(biāo)函數(shù)循環(huán)合成損失。隨后Kancharagunta 等人又提出了一種新的循環(huán)判別生成對(duì)抗網(wǎng)絡(luò)CDGAN[22],通過結(jié)合用于循環(huán)圖像的附加判別器網(wǎng)絡(luò)來生成高質(zhì)量和更逼真的圖像。Taesung 等人提出了一種基于對(duì)比學(xué)習(xí)的圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò)CUT[23],該方法創(chuàng)新性地將對(duì)比學(xué)習(xí)的思想應(yīng)用到圖像轉(zhuǎn)換領(lǐng)域,并引入了多層對(duì)比損失,實(shí)現(xiàn)了一種輕量級(jí)的圖像轉(zhuǎn)換模型?;贑UT網(wǎng)絡(luò),Han 等人提出的DCLGAN[24]使用兩套對(duì)比學(xué)習(xí)的設(shè)置實(shí)現(xiàn)了圖像到圖像的雙向轉(zhuǎn)換。
然而,近紅外人臉圖像不同于其它的近紅外圖像,如圖1 所示,若人臉輪廓以及面部膚色等細(xì)節(jié)在著色的過程中被扭曲將會(huì)很大程度地影響生成人臉圖像的視覺效果與圖像質(zhì)量。因此,有必要根據(jù)人臉圖像的特點(diǎn)設(shè)計(jì)算法來強(qiáng)化近紅外人臉圖像在著色過程中細(xì)節(jié)信息的保留。
圖1 部分算法由近紅外生成的可見光圖像(首行)與真實(shí)可見光圖像(末行)對(duì)比Fig.1 Comparison of the VIS image (the first row) generated by some algorithms from NIR domain with the real visible image (the last row)
針對(duì)近紅外人臉圖像在著色過程中存在的挑戰(zhàn),本文提出了雙重對(duì)比學(xué)習(xí)框架下的近紅外-可見光人臉圖像轉(zhuǎn)換方法。該方法以雙重對(duì)比學(xué)習(xí)網(wǎng)絡(luò)為基礎(chǔ),采用雙重對(duì)比學(xué)習(xí)的方式從圖像局部細(xì)節(jié)出發(fā)增強(qiáng)生成圖像的質(zhì)量并且能夠?qū)崿F(xiàn)圖像到圖像的雙向轉(zhuǎn)換。同時(shí),由于StyleGAN2[25]網(wǎng)絡(luò)相較ResNets[26]能夠提取人臉圖像更深層次的特征,本文構(gòu)建了基于StyleGAN2 結(jié)構(gòu)的生成器網(wǎng)絡(luò)并將其嵌入到雙重對(duì)比學(xué)習(xí)網(wǎng)絡(luò)中替換原始的ResNets 生成器,進(jìn)一步提升生成人臉圖像的質(zhì)量。此外,本文設(shè)計(jì)了新的面部邊緣增強(qiáng)損失,確保面部邊緣信息在圖像轉(zhuǎn)換的過程中不被扭曲,提高生成人臉圖像的視覺效果。主要貢獻(xiàn)如下:
1) 本文提出了一種基于StyleGAN2 網(wǎng)絡(luò)的雙重對(duì)比學(xué)習(xí)框架,構(gòu)建了基于StyleGAN2 結(jié)構(gòu)的生成器網(wǎng)絡(luò)并將其嵌入到雙重對(duì)比學(xué)習(xí)網(wǎng)絡(luò)中,利用雙向的對(duì)比學(xué)習(xí)挖掘人臉圖像的精細(xì)化表征。
2) 針對(duì)近紅外域圖像中人像外部輪廓模糊、邊緣缺失的特點(diǎn),本文設(shè)計(jì)了一種面部邊緣增強(qiáng)損失,利用從源域圖像中提取的面部邊緣信息進(jìn)一步強(qiáng)化生成的人臉圖像中的面部細(xì)節(jié)。該損失與傳統(tǒng)的邊緣損失相比誤差更小,更加貼合近紅外-可見光人臉圖像的轉(zhuǎn)換任務(wù)。
3) 實(shí)驗(yàn)表明本文方法在NIR-VIS Sx1 和NIR-VIS Sx2 兩個(gè)數(shù)據(jù)集上的生成效果明顯優(yōu)于近期的主流方法。本文方法生成的可見光人臉圖像更加貼近真實(shí)圖像,能夠更好地還原人臉圖像的面部邊緣細(xì)節(jié)和膚色信息。
對(duì)比學(xué)習(xí)作為一種常用的自監(jiān)督學(xué)習(xí)方法,其指導(dǎo)原則是:通過自動(dòng)構(gòu)造相似實(shí)例和不相似實(shí)例,學(xué)習(xí)一個(gè)表示學(xué)習(xí)模型,通過這個(gè)模型,使得相似的實(shí)例在投影空間中比較接近,而不相似的實(shí)例在投影空間中距離較遠(yuǎn)。應(yīng)用在圖像轉(zhuǎn)換領(lǐng)域的對(duì)比學(xué)習(xí)核心思想是通過構(gòu)造正負(fù)樣本使輸入和輸出圖像的對(duì)應(yīng)圖像塊之間的互信息最大化[23]。如圖2 所示,生成的人臉圖像中黃色圖像塊應(yīng)與輸入圖像中綠色圖像塊之間互信息最大,與輸入圖像中其他藍(lán)色圖像塊之間的互信息較小。在GAN 做圖像轉(zhuǎn)換時(shí)應(yīng)用對(duì)比學(xué)習(xí)可以很好地增強(qiáng)生成圖像局部質(zhì)量,進(jìn)而提升生成圖像整體的質(zhì)量。雙重對(duì)比學(xué)習(xí)網(wǎng)絡(luò)即使用兩套對(duì)比學(xué)習(xí)網(wǎng)絡(luò),能夠?qū)崿F(xiàn)圖像到圖像的雙向轉(zhuǎn)換。
然而,僅使用雙重對(duì)比學(xué)習(xí)網(wǎng)絡(luò)在近紅外-可見光人臉圖像轉(zhuǎn)換任務(wù)中并不能生成令人滿意的人臉圖像。因?yàn)镾tyleGAN2 網(wǎng)絡(luò)通過將圖像的潛在特征在潛在空間進(jìn)行解糾纏變換,能夠提取人臉圖像更深層次的特征,所以本文構(gòu)建了基于StyleGAN2 結(jié)構(gòu)的生成器網(wǎng)絡(luò)并將其嵌入到雙重對(duì)比學(xué)習(xí)框架下。最終本文方法的網(wǎng)絡(luò)框架圖如圖2 所示。
如圖2 所示,其中近紅外域人臉圖像記作X域,可見光域人臉圖像記作Y域,G、F分別為X→Y、Y→X這兩個(gè)方向的生成器,Dx、Dy分別為X域和Y域的判別器,最終的目標(biāo)是不斷學(xué)習(xí)優(yōu)化G和F這兩個(gè)方向的映射。生成器前半部分被定義為編碼器,后半部分為譯碼器。即G由Genc與Gdec組 成,F(xiàn)由Fenc與Fdec組 成,它們被依次應(yīng)用于生成目標(biāo)域圖像y?=G(x)=Gdec(Genc(x))、x?=F(y)=Fdec(Fenc(y))。
圖2 本文網(wǎng)絡(luò)框架圖。為簡化網(wǎng)絡(luò)結(jié)構(gòu),同一性損失在圖中未標(biāo)示,詳見2.4.4 節(jié)Fig.2 The structure diagram of the proposed method.To simplify the network structure,the identity loss is not indicated in the figure,see Section 2.4.4 for details
對(duì)于每個(gè)方向的映射,在原圖中隨機(jī)選擇若干圖像塊,用編碼器提取圖像塊的特征,再通過一個(gè)兩層MLP 網(wǎng)絡(luò)把提取的特征投影到共享的嵌入空間,在此基礎(chǔ)上計(jì)算圖像塊多層對(duì)比損失,利用對(duì)比學(xué)習(xí)的思想使生成圖像對(duì)應(yīng)位置的圖像塊特征更加貼近原圖。此外,在原圖與生成的目標(biāo)域人臉圖像中同時(shí)裁剪出面部區(qū)域,并對(duì)此區(qū)域使用Sobel 算子[27]提取邊緣并計(jì)算面部邊緣增強(qiáng)損失,進(jìn)一步強(qiáng)化生成的人臉圖像中的面部細(xì)節(jié)。
在各式生成對(duì)抗網(wǎng)絡(luò)中,StyleGAN[28]網(wǎng)絡(luò)由于顯著地提升了生成圖像的分辨率和質(zhì)量,并且在多個(gè)不同數(shù)據(jù)集上的生成效果都很穩(wěn)定,一經(jīng)提出就引起了廣泛關(guān)注。然而StyleGAN 生成圖像中存在類似水滴的斑狀偽影,在生成器網(wǎng)絡(luò)的中間特征圖中此類偽影更加明顯。升級(jí)后的StyleGAN2 網(wǎng)絡(luò)通過權(quán)重解調(diào)、延遲正則化與路徑長度正則化等方法重點(diǎn)解決了初代網(wǎng)絡(luò)中存在的偽影問題,進(jìn)一步提高了圖像的生成質(zhì)量。同時(shí),StyleGAN2 網(wǎng)絡(luò)也成為了人臉生成領(lǐng)域較為先進(jìn)的模型。相比雙重對(duì)比學(xué)習(xí)網(wǎng)絡(luò)中原始的ResNets 生成器,StyleGAN2 網(wǎng)絡(luò)通過將圖像的潛在特征在潛在空間進(jìn)行解糾纏變換,能夠提取圖像更深層次的特征。此外,在網(wǎng)絡(luò)結(jié)構(gòu)上StyleGAN2 吸收了ResNets 網(wǎng)絡(luò)的部分優(yōu)點(diǎn),探索了殘差連接設(shè)計(jì)和其它與ResNets 類似的殘差概念。因此在人臉圖像生成任務(wù)中,使用基于StyleGAN2 的生成器網(wǎng)絡(luò)的生成效果要優(yōu)于ResNets 網(wǎng)絡(luò)。
本文的生成器由編碼器和譯碼器構(gòu)成,結(jié)構(gòu)如圖3 所示。原始的StyleGAN2 網(wǎng)絡(luò)實(shí)現(xiàn)的是從向量到圖像的轉(zhuǎn)換過程,即通過將潛在向量或隨機(jī)噪聲輸入到生成模型中可以輸出高質(zhì)量的生成圖像。在此基礎(chǔ)上,本文構(gòu)建的生成器則完成了從輸入圖像到潛在向量再到輸出圖像的完整轉(zhuǎn)換過程,通過編碼器部分的多個(gè)樣式塊(Style block)將2 56×256大小的輸入人臉圖像轉(zhuǎn)換為512 維潛在向量z∈Z,譯碼器來自于StyleGAN2 網(wǎng)絡(luò)的生成模型,負(fù)責(zé)將潛在向量z歸一化后通過8 個(gè)全連接層映射為潛在向量w∈W進(jìn)行特征解糾纏,最終潛在向量w再經(jīng)多個(gè)樣式塊生成256×256大小的目標(biāo)域人臉圖像。圖3 中綠色樣式塊包括調(diào)制、3 ×3卷積、解調(diào)與實(shí)例歸一化等操作,StyleGAN2 網(wǎng)絡(luò)利用樣式塊進(jìn)行權(quán)重解調(diào)以簡化模型設(shè)計(jì)。
圖3 本文生成器結(jié)構(gòu)圖Fig.3 The structure diagram of generator in the proposed method
本文方法中判別器Dx、Dy均 為 7 0×70 PatchGAN結(jié)構(gòu)。該網(wǎng)絡(luò)包含五個(gè)卷積層,其中第一層由卷積-激活函數(shù)(LeakyReLU)構(gòu)成,中間三層均由卷積-實(shí)例歸一化-激活函數(shù)構(gòu)成,最后一層只由一個(gè)卷積構(gòu)成。該判別器每次從原圖中選取7 0×70大小的圖像補(bǔ)丁判別真假,最終輸出一個(gè)3 0×30大小的矩陣,輸出矩陣的均值將作為對(duì)圖像的評(píng)價(jià)。
一般的GAN 判別器是針對(duì)整張圖像輸出一個(gè)真或假的矢量作為評(píng)價(jià),而PatchGAN 通過逐次疊加的卷積層最終輸出一個(gè)矩陣,其中每個(gè)元素實(shí)際代表原圖中7 0×70大小的圖像補(bǔ)丁。這樣的補(bǔ)丁級(jí)判別器架構(gòu)比全圖像判別器的參數(shù)更少,并且對(duì)輸入圖像尺寸的適應(yīng)性更強(qiáng)。
本文方法共結(jié)合了四種損失,包括面部邊緣增強(qiáng)損失、圖像塊多層對(duì)比損失、對(duì)抗性損失和同一性損失,具體細(xì)節(jié)如下文所述。
2.4.1 面部邊緣增強(qiáng)損失
圖像轉(zhuǎn)換領(lǐng)域傳統(tǒng)的邊緣損失[20]是直接對(duì)生成的目標(biāo)域圖像和源域圖像提取邊緣,計(jì)算兩張圖像邊緣之間的損失。然而,這種直接提取圖像邊緣的方法在近紅外人臉圖像中并不可取。以圖4 所示CASIA NIR-VIS 2.0 數(shù)據(jù)庫[29]為例,其近紅外圖像中人像的頭發(fā)與背景幾乎融為一體,頭發(fā)的外圍輪廓很難分辨,在此情況下若使用傳統(tǒng)的邊緣損失直接對(duì)近紅外圖像提取邊緣,則與可見光圖像提取的邊緣相比會(huì)產(chǎn)生極大的誤差。于是本文提出了針對(duì)近紅外人臉圖像特點(diǎn)的面部邊緣增強(qiáng) (facial edge enhancement,F(xiàn)EE) 損失,對(duì)近紅外域和生成的可見光域人臉圖像僅裁剪出面部區(qū)域,在面部區(qū)域上提取邊緣并計(jì)算損失。如圖4 所示,裁剪后的面部區(qū)域在近紅外與可見光條件下均可以提取到較為完整的邊緣信息,以此指導(dǎo)人臉圖像的生成,保證在人臉圖像轉(zhuǎn)換的過程中面部邊緣不被扭曲。
圖4 在近紅外和可見光條件下分別對(duì)人臉圖像裁剪出面部區(qū)域并提取邊緣Fig.4 Crop out facial regions and extract edges from face images in NIR and VIS conditions respectively
最終,本文的面部邊緣增強(qiáng)損失定義為源域圖像與生成的目標(biāo)域圖像分別提取面部邊緣得到的邊緣圖像之間的L1 距離。其表達(dá)式如下所示:
2.4.2 圖像塊多層對(duì)比損失
如圖2 所示,在生成的人臉圖像中隨機(jī)選取的黃色圖像塊稱為查詢樣本,那么在輸入圖像中相同位置的綠色圖像塊即為相應(yīng)的正樣本,輸入圖像中除正樣本位置外隨機(jī)位置選取的藍(lán)色圖像塊即為相應(yīng)的負(fù)樣本。先將查詢樣本、正樣本和N個(gè)負(fù)樣本映射為K維向量,分別記作v、v+∈RK和v-∈RN*K。對(duì)K維向量進(jìn)行L2 正則化后轉(zhuǎn)換為一個(gè)(N+1)路分類問題,此時(shí)排除負(fù)樣本選出正樣本的概率在數(shù)學(xué)上可以表示為交叉熵?fù)p失,表達(dá)式如式(2)所示:
同理,Y→X方向的圖像塊多層對(duì)比損失可以表示為:
2.4.3 對(duì)抗性損失
對(duì)抗性損失[12]的目的是使生成器生成的圖像在視覺上與目標(biāo)域圖像更加相似。對(duì)于從近紅外域到可見光域的映射G:X→Y,其對(duì)抗性損失為
其中:生成器G試圖生成更加逼真的可見光域人臉圖像G(x),而判別器Dy則試圖區(qū)分生成的可見光域人臉圖像G(x)與真實(shí)的可見光域人臉圖像。
同理,對(duì)于從可見光域到近紅外域的映射F:Y→X,其對(duì)抗性損失為
2.4.4 同一性損失
生成器G負(fù)責(zé)從近紅外域到可見光域圖像的映射,然而若將可見光域圖像輸入到生成器G中,理想中的生成器對(duì)此時(shí)的輸入應(yīng)該不做任何的更改而輸出。同理,理想中的生成器F對(duì)輸入的近紅外域圖像也應(yīng)該不做任何的更改而輸出。這種情況下真實(shí)的輸出圖像與輸入圖像之間的L1 損失被定義為同一性損失(identity loss)[18]。通過同一性損失可以糾正生成器的色偏,更好地還原目標(biāo)域圖像的色彩信息。其表達(dá)式如下:
2.4.5 總損失函數(shù)
本文通過圖像塊多層對(duì)比損失引入對(duì)比學(xué)習(xí)的思想,使生成圖像的整體質(zhì)量得到了很好的增強(qiáng);通過面部邊緣增強(qiáng)損失保證人臉圖像在轉(zhuǎn)換的過程中面部邊緣不被扭曲,強(qiáng)化面部細(xì)節(jié)的保留;通過對(duì)抗性損失和同一性損失來進(jìn)一步優(yōu)化生成器和判別器,使生成的圖像更加貼近目標(biāo)域真實(shí)圖像。總損失函數(shù)表達(dá)式如下:
根據(jù)經(jīng)驗(yàn)和多次實(shí)驗(yàn),本文中各權(quán)重參數(shù)分別設(shè)置為 λFEE= 1,λPMC= 2,λGAN=1,λIDT=1。
本文在NIR-VIS Sx1 和NIR-VIS Sx2 兩個(gè)數(shù)據(jù)集上分別建立了訓(xùn)練集和測(cè)試集。這兩個(gè)數(shù)據(jù)集分別來自CASIA NIR-VIS 2.0 數(shù)據(jù)庫[29]的S1 和S2 部分。S1 部分包含了來自202 位受試者的3002 張近紅外圖像和2095 張可見光圖像,本文從中選擇了1000 對(duì)近紅外-可見光圖像對(duì)組成了NIR-VIS Sx1 數(shù)據(jù)集。S2部分包含了來自308 位受試者的5455 張近紅外圖像和1891 張可見光圖像,本文從中選擇了1236 對(duì)近紅外-可見光圖像對(duì)組成了NIR-VIS Sx2 數(shù)據(jù)集。兩個(gè)數(shù)據(jù)集雖然同屬亞洲人臉,但本質(zhì)上有著較大的區(qū)別。NIR-VIS Sx1 數(shù)據(jù)集中近紅外域人臉圖像較為清晰,可見光域人臉圖像均為純白色背景。而NIR-VIS Sx2數(shù)據(jù)集中近紅外域人臉圖像相對(duì)較模糊,可見光域人臉圖像因光照不足導(dǎo)致膚色普遍偏暗,并且少部分人像背景為雜亂的室外建筑。
本文在每個(gè)數(shù)據(jù)集中選擇75%的圖像對(duì)作為訓(xùn)練集,其余圖像對(duì)作為每個(gè)數(shù)據(jù)集中相應(yīng)的測(cè)試集。在實(shí)驗(yàn)前,根據(jù)眼睛、嘴巴和鼻子等面部器官坐標(biāo)對(duì)每個(gè)數(shù)據(jù)集中的近紅外和可見光人臉圖像進(jìn)行預(yù)對(duì)齊處理,隨后以人臉位置為中心統(tǒng)一將圖像裁剪并縮放到2 56×256大小。
實(shí)驗(yàn)環(huán)境:PC 平臺(tái)為Ubuntu 18.04.5 LTS 系統(tǒng),Intel Core i7-8700 CPU,Nvidia GeForce GTX 1070Ti GPU,8 GB 顯存,使用的軟件為PyCharm 2021.1,CUDA 10.1,cuDNN 8.0.5。本文方法使用 β1= 0.5、β2=0.999 的Adam 優(yōu)化策略,學(xué)習(xí)率為0.0001,訓(xùn)練周期為400 輪并且學(xué)習(xí)率在訓(xùn)練總周期一半后線性衰減,批量訓(xùn)練樣本數(shù)為1。
本文選取了CycleGAN[18]、CSGAN[21]、CDGAN[22]、UNIT[13]、Pix2pixHD[17]五種圖像轉(zhuǎn)換網(wǎng)絡(luò)與本文方法作比較,分別在預(yù)處理的NIR-VIS Sx1 和NIR-VIS Sx2 數(shù)據(jù)集上進(jìn)行了多重驗(yàn)證實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖5所示。
從圖5 中可以看出,原始CycleGAN 方法的性能較弱,生成的人臉圖像不夠清晰,且人臉膚色還原度較差。CSGAN 方法在NIR-VIS Sx1 數(shù)據(jù)集上生成的人臉圖像較為清晰,但在NIR-VIS Sx2 數(shù)據(jù)集上生成的人臉膚色信息失真嚴(yán)重。CDGAN 方法在NIR-VIS Sx1 數(shù)據(jù)集上生成效果優(yōu)于CycleGAN 但人像外部輪廓不夠清晰,在NIR-VIS Sx2 數(shù)據(jù)集上表現(xiàn)較差,生成的人臉較為模糊且背景十分雜亂。UNIT 方法相較CycleGAN 在人臉膚色重建方面性能有所提升,在兩個(gè)數(shù)據(jù)集上生成的人臉均和真實(shí)可見光人臉較為貼近,但生成的人臉圖像中頭發(fā)等細(xì)節(jié)仍不夠清晰。Pix2pixHD 作為Pix2pix GAN 的升級(jí)算法,確實(shí)擁有較為出色的性能。在NIR-VIS Sx1 數(shù)據(jù)集上,Pix2pixHD 生成的人臉圖像有著清晰的面部細(xì)節(jié)和更加真實(shí)自然的人臉膚色。然而在NIR-VIS Sx2 數(shù)據(jù)集上Pix2pixHD 生成的效果不盡理想,例如在圖5 第Ⅵ行中對(duì)于人像額頭上的劉海未能很好地還原,在第Ⅶ行中忽略了人臉皺紋細(xì)節(jié)導(dǎo)致與真實(shí)可見光圖像相差較大。本文方法在NIR-VIS Sx1 和NIR-VIS Sx2 兩個(gè)數(shù)據(jù)集上都表現(xiàn)出了穩(wěn)定且更加優(yōu)異的性能,尤其在圖5 第Ⅲ、Ⅵ和Ⅶ行生成的可見光人臉圖像不僅保留了更完整的面部細(xì)節(jié),還重建了更加真實(shí)的膚色信息。
為了進(jìn)一步衡量各種圖像轉(zhuǎn)換網(wǎng)絡(luò)生成的人臉圖像質(zhì)量,本文引入了結(jié)構(gòu)相似性(structural similarity,SSIM[30])與峰值信噪比(peak signal to noise ratio,PSNR[31])兩項(xiàng)指標(biāo)。SSIM 用于衡量兩幅圖像相似度,取值在0~1 之間,數(shù)值越大表示相似度越高。同樣地,PSNR 數(shù)值越大表示兩張圖片均方誤差越小、圖片越接近,單位是dB。在NIR-VIS Sx1 和NIR-VIS Sx2數(shù)據(jù)集上,CycleGAN、CSGAN、CDGAN、UNIT、Pix2pixHD 與本文方法所生成的人臉圖像的平均結(jié)構(gòu)相似性與平均峰值信噪比分別如表1 和表2 所示。
圖5 在兩個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果。從左到右依次為:輸入NIR 人臉圖像、CycleGAN、CSGAN、CDGAN、UNIT、Pix2pixHD、本文方法、真實(shí)VIS 人臉圖像。其中Ⅰ~Ⅲ行來自NIR-VIS Sx1 數(shù)據(jù)集,Ⅳ~Ⅶ行來自NIR-VIS Sx2 數(shù)據(jù)集Fig.5 The comparison experimental results on two datasets.From left to right:input NIR face image,CycleGAN,CSGAN,CDGAN,UNIT,Pix2pixHD,the proposed method,and real VIS face image.Where rows Ⅰ~Ⅲ are from NIR-VIS Sx1 dataset,and rows Ⅳ~Ⅶ are from NIR-VIS Sx2 dataset
表1 NIR-VIS Sx1 數(shù)據(jù)集上各圖像轉(zhuǎn)換網(wǎng)絡(luò)性能比較Table 1 Performance comparison of image translation networks on the NIR-VIS Sx1 dataset
在NIR-VIS Sx1 數(shù)據(jù)集上,原始CycleGAN 方法生成圖像的兩項(xiàng)指標(biāo)均為最低分、性能較差,本文方法取得了最高的SSIM 分?jǐn)?shù),同時(shí) Pix2pixHD 方法生成結(jié)果的兩項(xiàng)指標(biāo)與本文方法均較為接近。在NIRVIS Sx2 數(shù)據(jù)集上,CDGAN 方法生成圖像的兩項(xiàng)指標(biāo)比CycleGAN 方法更低、表現(xiàn)更差,本文方法生成圖像的質(zhì)量顯著優(yōu)于其他方法,SSIM 與PSNR 兩項(xiàng)指標(biāo)均獲得了最高分并遠(yuǎn)超其他方法。
由于SSIM,PSNR 這兩項(xiàng)評(píng)價(jià)指標(biāo)都是對(duì)圖像逐像素計(jì)算的,當(dāng)輸入圖像與目標(biāo)域圖像并非像素級(jí)對(duì)齊的情況下,使用Fréchet Inception Distance (FID)[32]指標(biāo)更為有效。FID 是計(jì)算生成圖像分布和真實(shí)圖像分布之間距離的一種度量。FID 分?jǐn)?shù)越低意味著生成圖像分布與真實(shí)圖片分布之間越接近,圖像質(zhì)量越好;反之,分?jǐn)?shù)越高則意味著生成圖像質(zhì)量越差。本文同樣計(jì)算了各圖像轉(zhuǎn)換網(wǎng)絡(luò)分別在NIR-VIS Sx1 和NIRVIS Sx2 數(shù)據(jù)集上生成圖像的FID 分?jǐn)?shù),結(jié)果如表3所示。本文方法在兩個(gè)數(shù)據(jù)集上均獲得了最低的FID分?jǐn)?shù)、生成的圖像質(zhì)量最好。CycleGAN 方法在NIRVIS Sx1 數(shù)據(jù)集上FID 分?jǐn)?shù)最高、表現(xiàn)最差。CDGAN方法在NIR-VIS Sx2 數(shù)據(jù)集上生成的人臉最為模糊且圖像背景雜亂,因而FID 分?jǐn)?shù)最高。
表2 NIR-VIS Sx2 數(shù)據(jù)集上各圖像轉(zhuǎn)換網(wǎng)絡(luò)性能比較Table 2 Performance comparison of image translation networks on the NIR-VIS Sx2 dataset
同時(shí),在表3 中本文還計(jì)算了各圖像轉(zhuǎn)換網(wǎng)絡(luò)在測(cè)試階段平均處理單張圖像所用時(shí)間。CSGAN 與UNIT 方法平均處理單張圖像用時(shí)和本文方法相近,而Pix2pixHD 與CDGAN 方法平均處理單張圖像用時(shí)均未超過0.1 s,速度上明顯優(yōu)于本文方法,所以模型的輕量化也將成為本文方法進(jìn)一步優(yōu)化的方向。
本文分別在NIR-VIS Sx1 和NIR-VIS Sx2 數(shù)據(jù)集上做了多項(xiàng)消融實(shí)驗(yàn),進(jìn)一步驗(yàn)證本文添加的基于StyleGAN2 結(jié)構(gòu)的生成器與各項(xiàng)損失函數(shù)的有效性。實(shí)驗(yàn)結(jié)果如圖6 所示,其中“Baseline”為Han 等人提出的原始DCLGAN[24]方法。
從圖6 中可以看出,使用ResNets 生成器的原始基線方法在近紅外-可見光人臉圖像轉(zhuǎn)換任務(wù)中表現(xiàn)極差,生成的可見光圖像幾乎為同一人臉作微調(diào)的結(jié)果,無法還原真實(shí)的人臉細(xì)節(jié)。本文方法在去除基于StyleGAN2 結(jié)構(gòu)生成器后生成圖像的面部細(xì)節(jié)相比原始基線方法更加清晰,但生成的圖像與真實(shí)圖像仍然相差較大。去除對(duì)抗性損失的方法已經(jīng)不能有效區(qū)分近紅外域與可見光域的圖像,無法正常地訓(xùn)練網(wǎng)絡(luò)模型,所以生成的圖像與輸入圖像相近。去除同一性損失的方法生成的圖像整體上質(zhì)量較好,但不能很好地糾正生成器的色偏,導(dǎo)致生成的人臉膚色不夠真實(shí)。去除圖像塊多層對(duì)比損失的方法在生成的圖像面部出現(xiàn)了冗余的細(xì)節(jié),且膚色有一定的偏差。去除面部邊緣增強(qiáng)損失的方法生成的人臉圖像整體上與真實(shí)圖像較為接近,但在眉毛、眼眶和鼻子底部等邊緣細(xì)節(jié)上重建得不夠清晰。于是本文方法在基于StyleGAN2結(jié)構(gòu)生成器的基礎(chǔ)上進(jìn)一步綜合各項(xiàng)損失函數(shù),能夠在生成的人臉圖像中保持清晰的面部細(xì)節(jié),有效提升了人臉圖像的視覺質(zhì)量。
本文同樣計(jì)算了在NIR-VIS Sx1 數(shù)據(jù)集上各項(xiàng)消融實(shí)驗(yàn)生成圖像的平均結(jié)構(gòu)相似性與平均峰值信噪比指標(biāo),實(shí)驗(yàn)結(jié)果如表4 所示。原始基線方法的性能較差,本文方法在去除基于StyleGAN2 結(jié)構(gòu)的生成器后相較基線方法性能提升較為有限。去除對(duì)抗性損失的方法性能最差,SSIM 與PSNR 指標(biāo)均為最低。最后,本文方法明顯優(yōu)于其它消融方法,達(dá)到了最高的SSIM 與PSNR 指標(biāo)。
表3 各圖像轉(zhuǎn)換網(wǎng)絡(luò)在不同數(shù)據(jù)集上FID 性能與平均單張測(cè)試耗時(shí)比較Table 3 Comparison of FID performance and average single test time of each image translation network on different datasets
圖6 在兩個(gè)數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果。從左到右依次為:輸入NIR 人臉圖像,基線方法,分別去除StyleGAN2、LGAN 、LIDT 、LPMC、 L FEE 的本文方法,本文方法,真實(shí)VIS 人臉圖像。其中Ⅰ~Ⅱ行來自NIR-VIS Sx1 數(shù)據(jù)集,Ⅲ~Ⅳ行來自NIR-VIS Sx2 數(shù)據(jù)集Fig.6 Results of the ablation experiments on two datasets.From left to right:input NIR face image,Baseline method,the proposed method without StyleGAN2、L GAN 、L IDT 、L PMC、LFEErespectively,the proposed method and real VIS face image.Where rows Ⅰ~Ⅱ are from NIR-VIS Sx1 dataset and rows Ⅲ~Ⅳ are from NIR-VIS Sx2 dataset
表4 NIR-VIS Sx1 數(shù)據(jù)集上各消融方法性能比較Table 4 Performance comparison of ablation methods on the NIR-VIS Sx1 dataset
本文設(shè)計(jì)的面部邊緣增強(qiáng)損失,利用從源域圖像中提取的面部邊緣信息進(jìn)一步強(qiáng)化生成人臉圖像中的面部細(xì)節(jié)。所以,選擇合適的邊緣提取方法確保在可見光和近紅外條件下都能提取到準(zhǔn)確完整的面部邊緣十分重要。本文選擇了Roberts 算子、Prewitt 算子、Sobel 算子、Laplacian 算子和Canny 算子分別對(duì)可見光和近紅外人臉圖像提取面部邊緣,結(jié)果如圖7 所示。使用Roberts 算子和Laplacian 算子得到的圖像邊緣較為微弱,使用Canny 算子得到的二值圖像輪廓過于粗獷、人臉細(xì)節(jié)損失較多,所以這三種算子均不適用于本文的面部邊緣提取任務(wù)。使用Prewitt 算子得到的邊緣圖像整體較為接近Sobel 算子得到的邊緣圖像,但Sobel 算子能夠提取到更加完整的邊緣細(xì)節(jié),如第一行圖像中的鼻翼邊緣與第二行圖像中的嘴唇邊緣。
圖7 分別使用各邊緣提取方法得到的邊緣圖像對(duì)比。從左到右依次為:真實(shí)人臉圖像、Roberts 算子、Prewitt 算子、Sobel 算子、Laplacian 算子、Canny 算子Fig.7 Comparison of edge images obtained by using each edge extraction method separately.From left to right:real face image,Roberts operator,Prewitt operator,Sobel operator,Laplacian operator,Canny operator
為了進(jìn)一步比較使用Prewitt 算子和Sobel 算子對(duì)本文方法生成效果的影響,本文分別使用這兩種算子應(yīng)用到面部邊緣增強(qiáng)損失中,在NIR-VIS Sx1 數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)并計(jì)算生成圖像的平均結(jié)構(gòu)相似性與平均峰值信噪比,實(shí)驗(yàn)結(jié)果如表5 所示。使用Sobel算子的方法在SSIM 和PSNR 性能上均優(yōu)于使用Prewitt 算子的方法,所以本文最終選定Sobel 算子作為面部邊緣損失中的邊緣提取方法。
表5 NIR-VIS Sx1 數(shù)據(jù)集上分別應(yīng)用Prewitt 算子與Sobel 算子的性能比較Table 5 Performance comparison of applying the Prewitt operator and Sobel operator respectively on the NIR-VIS Sx1 dataset
圖8 NIR-VIS Sx1 數(shù)據(jù)集上不同 λFEE取值對(duì)本文方法性能的影響Fig.8 The effect of different values of λFEE on the performance of our method on the NIR-VIS Sx1 dataset
本文在確定各項(xiàng)損失函數(shù)權(quán)重參數(shù)時(shí),參考了基線模型DCLGAN[24]中關(guān)于 λPMC、λGAN和 λIDT這三項(xiàng)權(quán)重的設(shè)置,于是本文重點(diǎn)評(píng)估了 λFEE的不同取值對(duì)本文方法性能的影響。如圖8 所示,橫軸為面部邊緣增強(qiáng)損失的權(quán)重參數(shù) λFEE,縱軸為在NIR-VIS Sx1 數(shù)據(jù)集上本文方法生成圖像的FID 分?jǐn)?shù)。從圖8 中可以看出,λFEE取值的變化確實(shí)會(huì)影響本文方法的性能,當(dāng) λFEE=1 時(shí),生成圖像的FID 分?jǐn)?shù)最低、圖像質(zhì)量最好,故本文中設(shè)置 λFEE=1。
本文提出了一種新的雙重對(duì)比學(xué)習(xí)框架下的近紅外-可見光人臉圖像轉(zhuǎn)換方法。該方法構(gòu)建了基于StyleGAN2 結(jié)構(gòu)的生成器網(wǎng)絡(luò)并將其嵌入到雙重對(duì)比學(xué)習(xí)框架下,使用基于StyleGAN2 結(jié)構(gòu)的生成器網(wǎng)絡(luò)提取人臉圖像更深層次的特征,同時(shí)利用雙向的對(duì)比學(xué)習(xí)挖掘人臉圖像的精細(xì)化表征。此外,由于近紅外域圖像中人像外部輪廓模糊、邊緣缺失,本文提出了施加在源域圖像與生成的目標(biāo)域圖像之間的面部邊緣增強(qiáng)損失,確保面部邊緣信息在圖像轉(zhuǎn)換的過程中不被扭曲,進(jìn)一步提高生成人臉圖像的視覺質(zhì)量。最后,在NIR-VIS Sx1 和NIR-VIS Sx2 兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性和優(yōu)越性。與近期主流的方法相比,本文方法生成的人臉圖像不僅保留了更完整的面部細(xì)節(jié),還重建了更加真實(shí)的膚色信息。