莊文華,唐曉剛,張斌權(quán),原光明
(航天工程大學(xué)航天信息學(xué)院,北京 101416)
當(dāng)今世界,安防行業(yè)的視頻監(jiān)控系統(tǒng)已經(jīng)成為目標(biāo)檢測領(lǐng)域的重要應(yīng)用場景,視頻監(jiān)控系統(tǒng)能夠守護能源、工業(yè)、金融、城市和交通的安全,也能守護社區(qū)和家庭生活的安全[1]。對于安防監(jiān)控而言,要想達到全天候監(jiān)測目的,最大的難題是在夜間時段對環(huán)境中目標(biāo)的監(jiān)測。因此,對夜間監(jiān)控視頻或圖像中重要的目標(biāo)進行準(zhǔn)確定位和監(jiān)測已經(jīng)成為建設(shè)平安城市亟待解決的重要課題[2],探索有效的面向夜間場景的目標(biāo)檢測方法具有很重要的現(xiàn)實意義。
紅外圖像是通過探測目標(biāo)與背景間的熱輻射差異的方式來采集的,圖像內(nèi)容取決于目標(biāo)和場景的溫度分布,不受光照的影響,但細節(jié)信息較差;可見光圖像對比度和分辨率極高,但在夜間低照度條件下可視性差。因此在夜間弱光或無光條件下進行目標(biāo)檢測,可以充分利用紅外圖像和可見光圖像的優(yōu)點來增強監(jiān)測系統(tǒng)的夜間監(jiān)測能力,進而提高目標(biāo)檢測的準(zhǔn)確率[3]。
隨著計算機技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的紅外與可見光圖像的圖像增強成為了研究熱點[4]。Liu等[5]于2018 年提出了一種基于CNN(Convolutional Neural Networks)的圖像融合[6]方法,利用CNN 獲得了圖像中像素活動信息的權(quán)值圖,并采用圖像金字塔的多尺度融合方法進行融合增強;Li等[7]利用在ImageNet[8]中預(yù)訓(xùn)練的固定VGG19網(wǎng)絡(luò)來提取多層特征之后再進行圖像融合增強;Prabhakar 等[9]通過引入Encoder 和Decoder[10]的 結(jié) 構(gòu) 來 進 行 圖 像 增 強;Ma等[11]第一次將GAN[12]引入圖像融合增強中,無需定義融合規(guī)則,從源圖像自動生成融合圖像。
上述研究均需要2 幅完全匹配的圖像才能進行圖像融合的工作,然而在實際應(yīng)用中,很難獲得完全匹配的可見光和紅外圖像。針對上述問題,本文提出一種基于循環(huán)一致性的無監(jiān)督可見光圖像生成方法In2vis-CycleGAN。作為一種無監(jiān)督算法,本算法無需一一匹配的紅外可見光圖像數(shù)據(jù)集,通過訓(xùn)練構(gòu)造出強光下的可見光圖像和全天候下的紅外圖像的圖像映射,進而在夜間就可以從一幅紅外圖像生成對應(yīng)的可視性好的可見光圖像,達到對夜間低照度條件下的圖像增強,從而提高夜間目標(biāo)的檢測準(zhǔn)確率和抗干擾能力。
在沒有配對數(shù)據(jù)的情況下,CycleGAN[13]通過引入循環(huán)一致性來建立源域和目標(biāo)域的圖像映射。如圖1(a)所示,生成器G和F分別進行域X和域Y的圖像轉(zhuǎn)換,判別器DY和DX用于判斷輸入圖像來自真實圖像還是生成圖像。為了杜絕模型把所有域X的圖像都轉(zhuǎn)換為域Y中的同一幅圖像,生成器G和F還應(yīng)滿足循環(huán)一致性:如圖1(b)所示,將輸入圖像輸入G得到生成圖像G(x)以后,再將生成的圖像G(x)送入F獲得重構(gòu)圖像F(G(x)),同時約束圖像重構(gòu)圖像無限接近輸入圖像,即循環(huán)一致性。
圖1 映射函數(shù)和循環(huán)一致性損失
本文的網(wǎng)絡(luò)架構(gòu)如圖2 所示,生成器G和F分別輸入紅外圖像IR 和可見光圖像VIS,DX和DY用于判斷輸入圖像是真實圖像還是生成圖像。為了網(wǎng)絡(luò)架構(gòu)的循環(huán)一致性,避免所有的紅外圖像IR 都被映射到同一張可見光圖像VIS 上或者所有的可見光圖像VIS 都被映射到同一張紅外圖像IR 上,還存在IR→GVIS→REIR和VIS→GIR→REVIS的2組重構(gòu)圖像的線路,GVIS 和GIR 分別為生成器G生成的可見光圖像和生成器F生成的紅外圖像,REIR 和REVIS 分別為網(wǎng)絡(luò)重構(gòu)的紅外圖像和重構(gòu)的可見光圖像,約束重構(gòu)圖像與輸入的源圖像盡可能相似。
圖2 本文網(wǎng)絡(luò)架構(gòu)
計算機視覺的注意力機制[14]借鑒了人類的視覺注意力機制,本質(zhì)上是一種資源分配機制。因此計算機視覺中的注意力機制的作用為判斷輸入圖像的哪一部分需要重點關(guān)注,并把有限的算力資源分配給這一部分[15]。
如圖3 所示,CBAM(Convolutional Block Attention Module)[16]是一種輕量級的通用注意力模塊,包括通道注意力模塊和空間注意力模塊,可以無縫地集成到CNN 中進行端到端訓(xùn)練,提升神經(jīng)網(wǎng)絡(luò)提取有效特征的能力。
圖3 CBAM網(wǎng)絡(luò)結(jié)構(gòu)[16]
本文通過在生成器中Transformer 模塊Resnet[17]添加CBAM 注意力模塊,如圖4 所示,構(gòu)造出CBAMResnet模塊來提高網(wǎng)絡(luò)的特征提取能力,其中通道注意力模塊[18]可以獲取特征層對關(guān)鍵信息的重要程度和關(guān)聯(lián)程度,空間注意力模塊[19]能夠使模型獲取特征層的關(guān)鍵位置信息,進而促使模型加強在不同階段對輸入圖像重點目標(biāo)的關(guān)注程度,從而顯著提高生成圖像的質(zhì)量。
圖4 CBAM-Resnet網(wǎng)絡(luò)結(jié)構(gòu)
當(dāng)使用神經(jīng)網(wǎng)絡(luò)生成圖像時,網(wǎng)絡(luò)模型會從低分辨率描述粗略的圖像開始一步步填寫細節(jié)來提高分辨率,通常使用轉(zhuǎn)置卷積[20]來執(zhí)行此操作,但是轉(zhuǎn)置卷積具有不均勻的重疊,如圖5 所示,會導(dǎo)致生成的圖像產(chǎn)生如圖6 所示的“棋盤偽影”[21]。而神經(jīng)網(wǎng)絡(luò)在生成圖像時通常會使用多層反卷積,它們通常會復(fù)合,從而在生成圖像的各種尺度上產(chǎn)生偽影,使圖像的質(zhì)量嚴重受損。因此為了保證生成圖像的高質(zhì)量,不在生成圖像產(chǎn)生“棋盤偽影”,本文的生成器編碼器網(wǎng)絡(luò)架構(gòu)不再使用CycleGAN 的原始反卷積層,上采樣方式改為最近鄰插值圖像縮放然后加一層卷積層的方式來替代。
圖5 反卷積的重疊
圖6 “棋盤偽影”
本文改進的生成器由Encoder、Transformer 和Decoder 這3 部分組成,網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示,各層網(wǎng)絡(luò)具體配置如表1 所示,其中Encoder 由3 層卷積層組成,負責(zé)下采樣提取輸入圖像的有效特征圖;Transformer 由9 層構(gòu)造的CBAM-Resnet 組成,負責(zé)學(xué)習(xí)下采樣獲得的有效特征圖并傳遞到Decoder 中;Decoder上采樣方式改為最近鄰插值[22]圖像擴大一倍然后加一層卷積層的方式。
圖7 生成器網(wǎng)絡(luò)結(jié)構(gòu)
表1 生成器網(wǎng)絡(luò)配置
原始CycleGAN 使用交叉熵函數(shù)來衡量生成器和對抗器的損失,但是由于GAN 網(wǎng)絡(luò)對網(wǎng)絡(luò)超參數(shù)的選擇更加敏感,交叉熵函數(shù)容易導(dǎo)致網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定,無法生成有效圖像[23]。因此本文借鑒LSGAN[24]的方法,使用最小二乘函數(shù)作為對抗損失函數(shù)。最小二乘函數(shù)可以通過優(yōu)化決策邊界來提高GAN 網(wǎng)絡(luò)的泛化能力,提高網(wǎng)絡(luò)的穩(wěn)定性和收斂速度,進而提升生成圖片的質(zhì)量。最小二乘函數(shù)下的對抗損失如下:
本文選擇的數(shù)據(jù)集選自天津大學(xué)機器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒炇彝瞥龅拇笮蜔o人機航拍數(shù)據(jù)集Drone-Vehicle[25],如圖8所示。其是使用配備雙攝像頭(可見光攝像頭和熱紅外攝像頭)的無人機在不同場景、不同天氣和照明條件下收集的,包括15532 對由無人機拍攝的從白天到黑夜全天候紅外-可見光圖像序列,對象包括汽車、公共汽車、卡車、面包車等類型的車輛,場景包括城市道路、居住區(qū)、停車場、高速公路等各種場景,圖像分辨率均為840×712,是第一個也是最大的基于無人機的全天候紅外-可見光跨模態(tài)數(shù)據(jù)集。
圖8 DroneVehicle紅外可見光圖像
本文為建立紅外圖像與高照度可見光圖像的圖像映射,訓(xùn)練從夜間紅外圖像生成高照度可見光圖像,從DroneVehicle 中選出了2251 幅紅外圖像和1710 幅高照度可見光圖像,總共3961 幅圖像,作為In2vis-CycleGAN 的訓(xùn)練集,其中為排除不同照度下紅外圖像的差異干擾,紅外圖像分別取強光下的紅外圖像1510 幅,弱光及無光條件下的紅外圖像741 幅。并在輸入網(wǎng)絡(luò)前對圖像進行預(yù)處理,均切片轉(zhuǎn)換為356×356大小的圖像,如圖9所示。
圖9 切片后的數(shù)據(jù)集
本文的實驗環(huán)境和部分實驗參數(shù)如表2所示。
表2 本文實驗環(huán)境
經(jīng)過200 輪的訓(xùn)練后,本文對無光及弱光條件下的圖像進行測試,生成效果如圖10所示。
圖10 源圖像及生成圖像
對改進算法做消融實驗,對比效果如圖11 所示。其中第一行為輸入的紅外圖像,第二行為真實的可見光圖像,第三行為本文改進的In2vis-CycleGAN 生成的可見光圖像,第四行、第五行和第六行分別為消融實驗效果圖,-A 表示本文的改進算法去除了CBAM注意力機制,-B 和-C 分別表示去除了改進上采樣和最小二乘損失函數(shù),第七行為原始CycleGAN 的生成效果圖。從圖11 中可以看出原始CycleGAN 生成圖像含有許多偽影,目標(biāo)車輛色彩模糊輪廓帶有明顯的噪聲干擾,色彩層次很不明顯;去除了注意力機制的-A 生成圖像目標(biāo)和背景區(qū)域顏色生成不理想,如道路帶有明顯噪聲;去除了改進上采樣的-B 生成圖像帶有明顯偽影,圖像中含有各種干擾噪聲模塊;去除了最小二乘損失函數(shù)的-C 生成圖像目標(biāo)車輛輪廓帶有明顯噪聲;而本文改進的算法In2vis-CycleGAN生成圖像目標(biāo)車輛顏色理想,沒有虛影偽影模塊,生成圖像達到預(yù)期效果。
圖11 In2vis-CycleGAN 生成結(jié)果及消融實驗對比
本文使用信息熵EN(Information Entropy)、空間頻 率SF(Spatial Frequency)、峰 值 信 噪 比PSNR(Peak-to-peak Signal-to-noise Ratio)、結(jié)構(gòu)相似性SSIM(Structural Similarity)、交叉熵CE(Cross Entropy)和自然圖像質(zhì)量評估指標(biāo)NIQE[26](Natural Image Quality Evaluator)這6 項指標(biāo)來衡量圖像生成的質(zhì)量。其中EN反映了生成圖像包含平均信息量的多少,SF 反應(yīng)圖像的清晰度,PSNR 表示受到的噪聲影響和失真程度,SSIM 表示生成圖像與源圖像結(jié)構(gòu)的相似度,CE用來度量2幅圖像之間的差異,NIQE用來評價圖像的生成質(zhì)量。除CE和NIQE為反向指標(biāo)外,其余4項指標(biāo)均為正向指標(biāo)。
如表3 所示,實驗分別計算了各算法的信息熵EN、空間頻率SF、峰值信噪比PSNR、結(jié)構(gòu)相似性SSIM、交叉熵CE 和自然圖像質(zhì)量評估指標(biāo)NIQE 這6項指標(biāo),從而進行了定量對比評價。由表3 可知,本文改進算法的EN 值、SF 值、PSNR 值和SSIM 值均為最高,同時CE 值和NIQE 值最低,表示改進后的算法生成圖像細節(jié)突出,圖像最清晰,受到噪聲影響和失真程度最低,與真實圖像最相似,質(zhì)量更高,驗證了算法的有效性。
表3 圖像生成評價指標(biāo)對比
為驗證生成的可見光圖像是否能應(yīng)用于提高夜間圖像目標(biāo)檢測準(zhǔn)確率,本文使用改進的Rotate-YOLOv5 旋轉(zhuǎn)框算法[27]對紅外圖像、可見光圖像和生成的可見光圖像3 類圖像分別進行訓(xùn)練和測試,在每一類圖像中訓(xùn)練集含3500 幅圖像,測試集含1000 幅圖像,其中強光圖像和弱光圖像各占一半,目標(biāo)類別為4 類,分別為轎車(car)、卡車(truck)、公交車(bus)和貨車(van)。
表4 為紅外圖像、可見光圖像和生成可見光圖像在弱光、無光和強光條件下的Rotate-YOLOv5檢測效果圖。由圖中可以看出紅外圖像由于自身圖像缺點,會出現(xiàn)漏檢、錯檢的問題,如表4 所示:在無光條件下漏檢了2 輛卡車,在弱光條件下錯誤檢測到了轎車,在強光條件下把貨車和卡車錯檢成了轎車,把公交車錯檢成了卡車;夜間的可見光圖像由于光照不足,可視性差,無法有效檢測到目標(biāo);而生成的可見光圖像可以有效檢測到目標(biāo)且準(zhǔn)確率高。表5 為Rotate-YOLOv5 對3 類圖像500 幅弱光及無光圖像測試集的各類別mAP[28]的檢測值。由表5可知:紅外圖像對卡車和貨車2 類目標(biāo)檢測率不高,而可見光圖像受制于光照不足各類別mAP 均不高,而生成的可見光圖像各類別的mAP 值均有了顯著提高,較紅外圖像和真實可見光圖像分別提高了11.7 個百分點和30.2 個百分點,驗證了算法的有效性。
表4 Rotate-YOLOv5檢測效果圖
表5 Rotate-YOLOv5檢測各類別mAP值
本文為解決夜間無光及弱光條件下難以準(zhǔn)確檢測場景目標(biāo)的問題,提出了一種基于循環(huán)一致性的可見光圖像增強算法In2vis-CycleGAN,通過訓(xùn)練建立了紅外圖像與亮度高的可見光圖像的圖像映射,有效提高了對夜間目標(biāo)的檢測準(zhǔn)確率和抗干擾能力,實現(xiàn)了夜間有效的圖像增強。通過在生成器轉(zhuǎn)化器模塊引入CBAM 注意力模塊提高了生成器提取特征的能力,通過把生成器解碼器的反卷積方式改為最近鄰插值加卷積層的上采樣方式提高了生成圖像的質(zhì)量,最后把對抗損失函數(shù)由交叉熵函數(shù)換為了最小二乘函數(shù)提高了網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。為驗證算法的有效性本文通過圖像生成指標(biāo)和目標(biāo)檢測指標(biāo)對生成圖像進行了定量分析,在圖像生成指標(biāo)測試中EN、SF、PSNR 和SSIM 均有顯著提高,反向指標(biāo)CE 和NIQE 均有顯著減少;在目標(biāo)檢測指標(biāo)中,在弱光及無光條件下對生成可見光圖像測試得到的mAP 較紅外圖像和真實可見光圖像分別提高了11.7 個百分點和30.2 個百分點,驗證了本算法的有效性。