王均利,李佳悅,李秉天,溫琪,王滿利
(1.陜西彬長礦業(yè)集團有限公司,陜西 咸陽 712000;2.河南理工大學 物理與電子信息學院,河南 焦作 454000;3.陜西彬長小莊礦業(yè)有限公司,陜西 咸陽 713500)
在智能化礦山建設(shè)中[1],采用計算機視覺技術(shù)對井下巷道入口、工作面等區(qū)域進行人臉檢測,可實時檢測礦工的狀態(tài)和位置,及時發(fā)現(xiàn)并處理異常情況,對于提高煤礦安全具有重要意義。
隨著深度學習的發(fā)展,人臉檢測可使用通用目標檢測算法完成,如RCNN(Regions with Convolutional Neural Network features)[2],F(xiàn)aster RCNN[3],YOLO(You Only Look Once)[4],SSD(Single Shot Detector)[5]等,也可通過專門為人臉檢測任務(wù)設(shè)計的算法完成,如DSFD(Dual Shot Face Detector)[6],
PyramidBox[7],MTCNN(Multi-Task Convolutional Neural Network)[8],RetinaFace[9]等。RCNN 是一種簡單可放縮的目標檢測算法,使用區(qū)域的方法進行識別,解決了卷積神經(jīng)網(wǎng)絡(luò)提取候選區(qū)域特征定位不準確的問題。Faster RCNN 算法使用VGG-16 作為骨干網(wǎng)絡(luò),摒棄了傳統(tǒng)的滑動窗口和選擇性搜索方法,直接使用區(qū)域候選網(wǎng)絡(luò)生成檢測框,大大提高了檢測精度和效率。YOLO 算法最突出的優(yōu)勢是速度快,可用于實時系統(tǒng),直接通過主干網(wǎng)絡(luò)同時檢測出圖像中物體的位置和類別信息。SSD 從多個角度對目標檢測做出創(chuàng)新,結(jié)合Faster RCNN 和YOLO 各自的優(yōu)點,使得目標檢測速度和精度有了很大提升。DSFD 在繼承SSD 檢測框架的基礎(chǔ)上,引入了一種特征增強模塊來轉(zhuǎn)換原始特征圖,通過使用一些更小的錨點在底層引入輔助檢測來有效簡化特征。PyramidBox 通過低層級金字塔來更好地融合環(huán)境特征和面部特征,實現(xiàn)了較小、模糊和部分遮擋情況下的人臉檢測。MTCNN 采用多任務(wù)級聯(lián)人臉檢測和人臉對齊框架,使得其能夠在小型設(shè)備上運行。RetinaFace 是一種魯棒性較強的單階段人臉檢測框架,通過聯(lián)合外監(jiān)督和自監(jiān)督的多任務(wù)學習,可對各種尺度條件下的人臉做到像素級別的定位,并且通過采用輕量級骨干網(wǎng)絡(luò),可對視頻圖像進行實時檢測,達到很好的檢測效果。
上述算法在通用人臉檢測數(shù)據(jù)集[10-11]上都達到了較高的檢測水平,但煤礦井下光線昏暗、人工光源干擾等復(fù)雜環(huán)境導(dǎo)致監(jiān)控視頻圖像存在對比度低、光照不均勻、人臉特征模糊等問題,上述算法應(yīng)用在煤礦井下圖像時會對人臉敏感度變?nèi)?,出現(xiàn)較多的誤檢、漏檢現(xiàn)象,無法滿足煤礦井下人臉檢測要求。因此,本文將GAN(Generative Adversarial Network,生成對抗網(wǎng)絡(luò))與RetinaFace 人臉檢測框架結(jié)合,提出了一種煤礦井下低光照人臉檢測方法。該方法通過基于GAN 的增強模塊提高輸入圖像的對比度和亮度,強化人臉區(qū)域,最大限度地保留圖像中的人臉特征,再通過RetinaFace 檢測模塊對增強后的圖像進行人臉檢測,有效提高了煤礦井下人臉圖像的檢測精度。
常用的低光照圖像增強方法包括基于直方圖的方法[12]、基于Retinex 的方法[13]、基于頻域變換和圖像融合的方法[14]和基于深度學習的方法[15-17]等。基于直方圖的方法可有效提高圖像對比度,但易造成色彩保真度損失并產(chǎn)生噪聲,導(dǎo)致圖像失真?;赗etinex 的方法增強效果好,但可能會導(dǎo)致在某些邊界清晰的區(qū)域出現(xiàn)光暈或?qū)е抡麄€圖像太亮?;陬l域變換和圖像融合的方法需要同一場景的2 幅或多幅不同圖像,很難在短時間內(nèi)實現(xiàn)圖像增強?;谏疃葘W習的方法可解決圖像存在的光照不均勻、局部曝光、視覺自然度低等問題,主要分為有監(jiān)督學習和無監(jiān)督學習,其中有監(jiān)督學習需要大量同一場景下不同光照的圖像作為數(shù)據(jù)集進行網(wǎng)絡(luò)訓練,而煤礦井下環(huán)境特殊,無法采集大量成對圖像,因此本文使用無監(jiān)督學習對煤礦井下圖像進行增強。
增強模塊由基于無監(jiān)督學習的GAN[18]構(gòu)成,其通過生成器對輸入圖像進行注意力自調(diào)整,使用雙判別器來引導(dǎo)全局和局部信息,并利用自特征保留損失函數(shù)來指導(dǎo)訓練過程并保持低光照圖像的紋理結(jié)構(gòu)。
1.1.1 生成器
GAN 采用自調(diào)整注意力引導(dǎo)的U-Net[19]作為生成器,結(jié)構(gòu)如圖1 所示。將輸入RGB 圖像的光照通道歸一化為[0,1],使用光照通道的反通道圖作為注意力引導(dǎo)圖,這樣能在光線空間變換中盡可能地增強光線較暗區(qū)域,避免出現(xiàn)曝光或?qū)Ρ榷仍鰪姴蛔愕默F(xiàn)象。將注意力引導(dǎo)圖輸入U-Net 中,注意力引導(dǎo)圖經(jīng)過5 次卷積和4 次最大池化操作后,裁剪注意力引導(dǎo)圖的大小以適應(yīng)每個特征圖層。在上采樣階段,用1 個雙線性上采樣層和卷積層代替標準的反卷積層,以減輕特征圖的偽影。U-Net 通過提取不同深度的多層次特征,保留了豐富的紋理信息,并利用多尺度上下文信息合成高質(zhì)量的增強結(jié)果。
圖1 GAN 結(jié)構(gòu)Fig.1 Structure of generative adversarial network
1.1.2 判別器
為自適應(yīng)地增強局部區(qū)域的同時提高全局光照亮度,本文采用一種全局-局部雙判別器,結(jié)構(gòu)如圖2所示。該判別器使用PatchGAN[20]進行真假鑒別,局部判別器從輸出和真實的正常光照圖像中隨機裁剪局部小塊,并學習區(qū)分它們是真實的還是虛假的,保證了圖像全局和局部亮度、對比度提升的自然度,能有效避免圖像出現(xiàn)局部曝光。
圖2 雙判別器結(jié)構(gòu)Fig.2 Double discriminator structure
全局判別器利用相對判別器結(jié)構(gòu)[21]估計真實數(shù)據(jù)比虛假數(shù)據(jù)更真實的概率,并指導(dǎo)生成器生成接近真實圖像的偽圖像。相對判別器的標準函數(shù)為
式中:D(xr,xf)為判別器判別真實數(shù)據(jù)相對于虛假數(shù)據(jù)更為真實的概率,xr和xf分別為真實數(shù)據(jù)和虛假數(shù)據(jù);σ(·)為sigmoid 激活函數(shù);C(·)為判別器網(wǎng)絡(luò);為對訓練虛假數(shù)據(jù)樣本的期望;為對訓練真實數(shù)據(jù)樣本的期望;D(xf,xr)為判別器判別虛假數(shù)據(jù)相對于真實數(shù)據(jù)更為真實的概率。
生成器的目標是要使判別器認為虛假數(shù)據(jù)xf是真,因此D(xf,xr)越大越好,D(xr,xf)越小越好;而判別器要分辨出虛假數(shù)據(jù)xf為假,因此D(xr,xf)越大越好,D(xf,xr)越小越好。對于全局的判別器和生成器,迭代過程中的損失函數(shù)可表示為
對于局部的判別器和生成器,迭代過程中的損失函數(shù)可表示為
為限制感知相似性,提出自特征保留損失函數(shù)來限制輸入低光照圖像與其增強后正常圖像之間在VGG 網(wǎng)絡(luò)中的特征距離,使其能更好地保留圖像的內(nèi)容特征。自特征保留損失函數(shù)為
式中:W,H分別為提取的特征圖的最大網(wǎng)絡(luò)塊數(shù)和卷積層數(shù);?X,Y為輸入圖像在VGG 網(wǎng)絡(luò)中第X(X=1,2,···,W)個網(wǎng)絡(luò)塊的第Y(Y=1,2,···,H)個卷積層得到的特征圖;G為生成器輸出的增強圖像。
增強模塊的損失函數(shù)為
檢測模塊采用RetinaFace 人臉檢測框架來檢測圖像中的人臉。RetinaFace 結(jié)構(gòu)如圖3 所示。首先通過主干網(wǎng)絡(luò)ResNet50 對圖像進行特征提取,接著采用特征金字塔結(jié)構(gòu)和單階段檢測模式進行人臉檢測,在基本不增加計算量的同時,提高對小尺度人臉檢測的能力。然后使用類別標注、預(yù)測框標注和特征點標注從特征中獲取預(yù)測結(jié)果,并對預(yù)測結(jié)果進行解碼。最后通過非極大值抑制技術(shù)去除重復(fù)檢測值,得出最終結(jié)果。
圖3 RetinaFace 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 RetinaFace network structure
對于任何訓練錨i,RetinaFace 多任務(wù)聯(lián)合損失函數(shù)定義為
網(wǎng)絡(luò)訓練采用公開低光照人臉數(shù)據(jù)集DARK FACE[22]和自建煤礦井下人臉數(shù)據(jù)集。其中自建煤礦井下人臉數(shù)據(jù)集主要由3 個部分組成:①來自煤礦井下監(jiān)控視頻和拍攝的人臉圖像,對視頻進行拆幀處理,獲取每一幀圖像,然后篩選掉大量相似圖像和不合格圖像。② 使用國內(nèi)外公開煤礦井下數(shù)據(jù)集,篩選其中含有人臉或人臉個數(shù)較多的圖像進行數(shù)據(jù)集擴充。③利用公開的正常光照人臉數(shù)據(jù)集,使用CycleGAN 進行圖像風格遷移,獲得偽煤礦井下人臉圖像進行數(shù)據(jù)集擴充。
實驗基于PyTorch 深度學習框架,在NVIDIA GeForce RTX 3 090 GPU 下進行訓練。為使網(wǎng)絡(luò)更快適應(yīng)訓練,設(shè)置初始學習率為0.01,使用隨機梯度下降算法優(yōu)化更新梯度,訓練輪數(shù)為150,批量大小為8。損失變化曲線如圖4 所示,可看出訓練輪數(shù)在大約130 時損失變化趨于平穩(wěn)。
圖4 損失變化曲線Fig.4 Loss change curve
為驗證本文方法在低光照環(huán)境下的有效性,選取DSFD,PyramidBox,SSD,F(xiàn)aster RCNN 和RetinaFace在公開低光照人臉數(shù)據(jù)集DARK FACE 上進行平均精度測試,結(jié)果如圖5 所示??煽闯鯠SFD,PyramidBox,SSD,F(xiàn)aster RCNN 的人臉檢測精度較低,而RetineaFace 的檢測精度相對較高,但也只達到30.9%,而本文方法由于在RetinaFace 的基礎(chǔ)上加入了增強模塊,對低光照圖像進行增強預(yù)處理,強化了人臉特征,可較為準確地提取到圖像中的人臉信息,檢測精度達49%,比原始RetinaFace 提高了58.6%。
圖5 不同方法平均精度對比Fig.5 Comparison of average precision of different methods
在自建煤礦井下人臉數(shù)據(jù)集上對本文方法進行測試,結(jié)果如圖6 所示??煽闯霰疚姆椒捎行z測出礦井低光照環(huán)境下的人臉,并且可視化效果好,提高了圖像對比度的同時,清晰地恢復(fù)了圖像中的人臉特征。
圖6 本文方法人臉檢測結(jié)果Fig.6 Face detection results of the proposed method
為進一步證明本文方法針對煤礦井下圖像的實用性和有效性,采用自建煤礦井下人臉數(shù)據(jù)集對RetinaFace 和本文方法進行主觀和客觀評價。
不同方法下煤礦井下人臉圖像(編號為T125,T196,T218,T421,T563)的檢測結(jié)果如圖7 所示??煽闯鲇捎诿旱V井下光照不均勻?qū)е虏杉降膱D像出現(xiàn)曝光、局部區(qū)域信息丟失等現(xiàn)象,使得RetinaFace出現(xiàn)漏檢,在圖像T563 中甚至出現(xiàn)誤檢,將安全帽檢測為人臉;而本文方法在圖像T125,T196,T218,T421 中正確檢測人臉數(shù)均有提升,在圖像T563 中也能精確檢測人臉,這是由于本文方法引入了增強模塊對RetinaFace 進行改進,充分恢復(fù)了圖像中人臉的特征細節(jié),避免了煤礦井下光照問題引起的誤檢,提高了檢測精度。
圖7 不同方法下人臉檢測效果對比Fig.7 Comparison of face detection effects under different methods
對RetinaFace 和本文方法在自建煤礦井下人臉數(shù)據(jù)集上進行客觀評價,結(jié)果見表1??煽闯霰疚姆椒ㄔ跍蚀_率、召回率、平均精度上均優(yōu)于RetinaFace,分別提升了0.65%,8.92%,8.26%。
表1 不同方法下客觀評價結(jié)果Table 1 Objective evaluation results of different methods%
1)采用無監(jiān)督學習的GAN 進行人臉圖像增強,提高煤礦井下人臉圖像對比度,避免圖像中人工光源區(qū)域過度增強,使圖像中的人臉特征得到恢復(fù),圖像視覺效果更真實。
2)使用RetinaFace 人臉檢測框架對增強后的圖像進行人臉檢測,采用特征金字塔結(jié)構(gòu)和單階段檢測模式對強化后的人臉特征進行檢測,提高了模型對圖像中人臉檢測的敏感度。
3)實驗結(jié)果表明,該方法能較為準確地對煤礦井下圖像進行人臉檢測,并提取到圖像中人臉的細節(jié)信息,有效克服了煤礦井下低光照、光照不均勻?qū)е碌穆z、誤檢,有效提升了煤礦井下人臉檢測精度。