張格菲 李春宇 劉金坤 屈音璇
(中國人民公安大學(xué)偵查學(xué)院,北京 100038)
近年來,隨著暴力恐怖事件的增多,安全問題越來越引起人們的關(guān)注。爆炸案是最嚴(yán)重的暴力犯罪,社會危害大,關(guān)注度高。爆炸帶給人們的不僅僅是經(jīng)濟(jì)損失、生命威脅,同時(shí)也危及到國家和社會的穩(wěn)定性[2]。為防范恐怖爆炸犯罪,需要對機(jī)場、港口、海關(guān)、車站等重點(diǎn)場所進(jìn)行全天候安全檢查和監(jiān)控,嚴(yán)防爆炸物、易燃物品帶入車輛或混入重點(diǎn)場所。傳統(tǒng)上,違禁物品主要包括槍支、金屬刀具和爆炸物。但是,隨著科學(xué)技術(shù)的發(fā)展,陶瓷刀具、塑料炸藥、化學(xué)制劑等新型違禁物品不斷涌現(xiàn),給違禁物品的檢測帶來新挑戰(zhàn)。
檢測待測目標(biāo)的傳統(tǒng)方法[3-7]是采用特征分類器來完成圖像中的目標(biāo)檢測。但是,這種傳統(tǒng)的物品檢測方式存在一定的缺陷,即泛化能力較差。目標(biāo)檢測算法的性能往往受圖像背景的復(fù)雜程度影響。圖像背景越簡單,目標(biāo)檢測的效率也就越高,檢測性能越好。相反,一旦圖像背景變得復(fù)雜,目標(biāo)檢測的效率以及性能都會隨之下降。為了解決上述缺陷,有學(xué)者在深度學(xué)習(xí)技術(shù)的基礎(chǔ)上研發(fā)出了卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)[8]。卷積神經(jīng)網(wǎng)絡(luò)不但能夠完成特征提取,并且具有較好的魯棒性以及較強(qiáng)的表達(dá)特征性能,不管是簡單環(huán)境還是復(fù)雜環(huán)境,都能精準(zhǔn)定位到檢測目標(biāo)。隨著檢測技術(shù)的不斷發(fā)展[9],R-CNN(Region-CNN)算法成功將深度學(xué)習(xí)應(yīng)用到目標(biāo)檢測領(lǐng)域中,并帶動了卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展[10],卷積神經(jīng)網(wǎng)絡(luò)通過不斷的深化和研發(fā),相繼發(fā)展出Fast R-CNN[11]技術(shù),以及其優(yōu)化算法Faster R-CNN[12]技術(shù)。Faster R-CNN設(shè)計(jì)出RPN(Region Proposal Networks)區(qū)域生成網(wǎng)絡(luò),替代了R-CNN中的選擇性搜索方法用于實(shí)現(xiàn)端到端的模型訓(xùn)練。借鑒Faster R-CNN的技術(shù)思想,進(jìn)一步推導(dǎo)出YOLO(You Only Look Once)[13]、SSD(Single Shot MultiBox Detector)[14]、R-FCN(Region-based Fully Convolutional Networks)[15]等一系列目標(biāo)檢測方法[16]。YOLO創(chuàng)造性的提出了one-stage,也就是將物體分類和物體定位在一個(gè)步驟中完成,完全能夠滿足實(shí)時(shí)性要求。SSD提取不同尺度的特征圖來做檢測,采用不同尺度和長寬比的先驗(yàn)框,在準(zhǔn)確度和速度上都有極大的的提升。相比傳統(tǒng)金屬安檢門,毫米波人體安檢系統(tǒng)在使用中不會對人體造成傷害,且毫米波成像不受衣物影響,能夠獲取人體形狀特征以及藏匿于服飾下的危險(xiǎn)物品,因而毫米波人體安檢系統(tǒng)逐漸得到廣泛運(yùn)用。有鑒于此,基于深度學(xué)習(xí)和YOLO系列的研究成果,本文要解決的關(guān)鍵問題是如何保證攜帶不同刀具的毫米波圖像能夠正確識別和檢測,降低復(fù)雜環(huán)境下的誤檢和漏檢率,提高檢測和識別的準(zhǔn)確性。本文采用YOLOv5目標(biāo)檢測算法對可攜帶刀具的毫米波圖像進(jìn)行檢測,并改進(jìn)了YOLOv5算法,以提高YOLOv5的檢測精度。
毫米波收發(fā)機(jī)在掃描平面上上下掃描,掃描的頻率范圍從28GHz到33GHz,覆蓋介于兩者之間的64個(gè)頻率點(diǎn)。將收發(fā)器在某一時(shí)刻的位置記錄為(a,b,Z),此時(shí)的頻率為ω,光速常數(shù)為c,波數(shù)為k=ω/c,目標(biāo)物體在位置(x,y,Z)處的反射系數(shù)記為f(x,y,Z),通過將整個(gè)目標(biāo)視場的像素點(diǎn)積分,獲得電磁場數(shù)據(jù)為
(1)
推導(dǎo)反射系數(shù)f(x,y,Z),以重建物體的圖像
(2)
傳統(tǒng)的目標(biāo)檢測算法主要是針對光學(xué)圖像數(shù)據(jù)庫,應(yīng)用基于圖像特征的圖像分割方法,這種方法誤檢率高,易受到人體姿態(tài)的干擾。而毫米波成像技術(shù)在新興的安檢應(yīng)用中,雖然在標(biāo)準(zhǔn)數(shù)據(jù)庫的建立與目標(biāo)檢測算法的應(yīng)用尚處在起步階段,但在安全性、隱蔽性和實(shí)時(shí)性等方面表現(xiàn)突出,尤其在人體安全檢查領(lǐng)域有著良好的應(yīng)用前景。因此研究符合此應(yīng)用場景的目標(biāo)檢測算法并提升相應(yīng)的檢測速度與檢測準(zhǔn)確率具有重要的應(yīng)用意義和很高的應(yīng)用價(jià)值。
YOLOv5網(wǎng)絡(luò)模型具有深度、寬度兩個(gè)結(jié)構(gòu)參數(shù),參數(shù)值不同構(gòu)造出不同的網(wǎng)絡(luò)結(jié)構(gòu)。YOLOv5包括四種不同的網(wǎng)絡(luò)結(jié)構(gòu):YOLOv5s,YOLOv5m,YOLOv5l,YOLOv5x。這四種網(wǎng)絡(luò)結(jié)構(gòu)的深度參數(shù)值、寬度參數(shù)值,見表1。
表1 YOLOv5深度和寬度參數(shù)對比
與深度最淺的YOLOv5s結(jié)構(gòu)相比,YOLOv5x結(jié)構(gòu)的Neck數(shù)量最多,是YOLOv5s結(jié)構(gòu)的4倍。YOLOv5s結(jié)構(gòu)的寬度最窄,YOLOv5x結(jié)構(gòu)的卷積核數(shù)量最多,通道層數(shù)是YOLOv5s結(jié)構(gòu)的2.5倍。在相同數(shù)據(jù)集的情況下,YOLOv5s結(jié)構(gòu)的訓(xùn)練和推理性能最好,體積最小,而YOLOv5x結(jié)構(gòu)的平均準(zhǔn)確率最好[18]。
YOLO主要網(wǎng)絡(luò)結(jié)構(gòu)性能對比見表2。本文使用的YOLOv5x網(wǎng)絡(luò)結(jié)構(gòu)模型如圖1所示。
表2 YOLO主要網(wǎng)絡(luò)結(jié)構(gòu)對比
圖1 YOLOv5x網(wǎng)絡(luò)結(jié)構(gòu)模型框圖
BackBone結(jié)構(gòu)是YOLOv5技術(shù)的網(wǎng)絡(luò)核心,其目的是在圖像輸入的過程中提取信息以進(jìn)行利用和處理。在網(wǎng)絡(luò)結(jié)構(gòu)模型當(dāng)中,梯度信息往往存在許多重復(fù)性的問題,可以結(jié)合CSPNet技術(shù)來解決,使得梯度變化和特征圖融入在一起,將模型的參數(shù)量和模型FLOPS值都控制在較低的范圍之內(nèi),從而提高推理的精確度和效率,也可以達(dá)到縮小模型體積的目的。
PANet是在Mask R-CNN網(wǎng)絡(luò)框架和FPN網(wǎng)絡(luò)框架基礎(chǔ)上發(fā)展而來的,對信息的傳播功能進(jìn)行了優(yōu)化和改善。該網(wǎng)絡(luò)在提取特征的過程中增強(qiáng)了自底向上的路徑,提高了底層特征的傳播。對于第三個(gè)網(wǎng)絡(luò)路徑,上一個(gè)網(wǎng)絡(luò)階段的數(shù)據(jù)信息特征映射就是這一個(gè)階段的輸入端,按照3×3卷積的方式來操作,每一個(gè)階段輸出的特征映射值會直接和同一個(gè)階段的路徑信息進(jìn)行連接,有效增強(qiáng)了高層與低層信息的聯(lián)合利用。區(qū)域和特征之間那些受到損傷的信息路徑,在自適應(yīng)特征池的作用下,也能夠得到迅速的恢復(fù)[19],并在各特征層對各候選區(qū)域進(jìn)行聚合,避免隨機(jī)分配。
在深度學(xué)習(xí)網(wǎng)絡(luò)中有一個(gè)非常重要的環(huán)節(jié)就是選擇正確的激活函數(shù)。在YOLOv5中,中間/隱藏層使用Leaky ReLU[20]激活函數(shù),最后一個(gè)檢測層使用sigmoid型激活函數(shù)。本文使用GIOU_Loss損失函數(shù)進(jìn)行bounding box結(jié)構(gòu)的損失計(jì)算,表達(dá)式為
(3)
GIOU_Loss損失函數(shù)與IOU一樣,具有非負(fù)性、尺度不變性等特性,相比IOU_Loss,GIOU_Loss在任意情況下都可以進(jìn)行訓(xùn)練。GIOU_Loss損失函數(shù)有效的處理了IOU_Loss中bounding box不重疊情況,具有更快的收斂速度,穩(wěn)定性更強(qiáng),極大地提升了衡量尺度相交的能力,并利用基于二叉交叉熵和logits函數(shù)的損失函數(shù)計(jì)算目標(biāo)分?jǐn)?shù)的類概率和損失[21]。
由于刀具具有易獲取、便攜性等特點(diǎn),是危害人員密集場所安全的主要因素,本實(shí)驗(yàn)以可攜帶刀具作為檢測對象,采用航天科工集團(tuán)203所研制的毫米波人體三維圖像集作為實(shí)驗(yàn)數(shù)據(jù)集,包含1081幅攜帶陶瓷刀和金屬刀的人體毫米波圖像,目標(biāo)種類和位置信息都屬于數(shù)據(jù)集中的標(biāo)注信息。為了確保訓(xùn)練數(shù)據(jù)和測試集盡可能多的通用性,按照1∶10的比例劃分了測試集和訓(xùn)練集。
對于收集得到的圖像數(shù)據(jù),采用數(shù)據(jù)增強(qiáng)的方法來保證不同圖像可以被充分訓(xùn)練。本研究主要使用Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨定幀計(jì)算、自適應(yīng)圖像縮放等方法。
Mosaic數(shù)據(jù)增強(qiáng)的實(shí)現(xiàn)思路是:一次讀取4張圖片,對4張圖片進(jìn)行翻轉(zhuǎn)、色域變換以及縮放等操作,并依次擺放在左上、左下、右上、右下4個(gè)方向,然后按照4個(gè)方向的位置拼接在一起,且圖片中保留標(biāo)注框,至此完成圖片和標(biāo)注框架的組合。Mosaic數(shù)據(jù)增強(qiáng)豐富了檢測數(shù)據(jù)集,增強(qiáng)了算法的魯棒性,提高了檢測小目標(biāo)的能力[18]。
在YOLO算法中,為不同數(shù)據(jù)集設(shè)置初始長度和錨寬復(fù)選框。在網(wǎng)絡(luò)訓(xùn)練中,網(wǎng)絡(luò)基于初始錨定幀輸出預(yù)測幀后與實(shí)際幀的groundtruth進(jìn)行比較,在計(jì)算兩者之間的差距后對網(wǎng)絡(luò)參數(shù)進(jìn)行反向更新迭代。在常見的目標(biāo)檢測算法中,不同圖片具有不同的長度和寬度。因此,常見的方法是將原始圖像統(tǒng)一縮放到標(biāo)準(zhǔn)大小,并將其發(fā)送到檢測網(wǎng)絡(luò),即自適應(yīng)圖像縮放法。
本研究通過減小圖像兩端的黑色邊緣高度優(yōu)化原始圖像處理方法,減少了推理中的計(jì)算量,提高了目標(biāo)檢測的速度。通過這個(gè)簡單的改進(jìn),推理速度提高了37%,效果非常顯著。
在標(biāo)記數(shù)據(jù)時(shí),使用labelimg工具進(jìn)行選擇框并標(biāo)記,分為陶瓷刀和金屬刀兩種工具,標(biāo)注的示例如圖2所示。
圖2 可攜帶刀具標(biāo)注圖
毫米波圖像目標(biāo)識別任務(wù)模型訓(xùn)練的實(shí)驗(yàn)環(huán)境為:RTX4000顯卡,CUDA10.1 GPU驅(qū)動,Pytorch深度學(xué)習(xí)框架。訓(xùn)練時(shí)設(shè)置參數(shù):輪數(shù)(batch-size)16,初始學(xué)習(xí)率0.01,動量0.937,訓(xùn)練總迭代次數(shù)500次。
為了讓數(shù)據(jù)集中包垂直方向的目標(biāo)數(shù)據(jù),Mosaic數(shù)據(jù)增強(qiáng)部分增加了垂直旋轉(zhuǎn)90°的增強(qiáng)。該增強(qiáng)效果明顯,可以有效豐富訓(xùn)練數(shù)據(jù)的分布,使擬合更加科學(xué)合理,同時(shí)優(yōu)化了檢測模型的泛化功能。另外,通過適當(dāng)添加圖像數(shù)據(jù)噪聲,使模型的魯棒性和整體性能更優(yōu)。
從實(shí)驗(yàn)結(jié)果可以看出,采用YOLOv5算法模型進(jìn)行訓(xùn)練,訓(xùn)練效果較好,如圖3所示。YOLOv5在目標(biāo)檢測上的準(zhǔn)確率較高,可以準(zhǔn)確地檢測和識別相關(guān)刀具,但仍需進(jìn)一步訓(xùn)練以提高準(zhǔn)確率。
圖3 金屬刀和陶瓷刀檢測結(jié)果圖
本文重點(diǎn)介紹如何使用YOLOv5網(wǎng)絡(luò)模型實(shí)現(xiàn)不同刀具的毫米波圖像檢測,介紹YOLOv5算法、數(shù)據(jù)集處理和網(wǎng)絡(luò)參數(shù)優(yōu)化,并提出了相應(yīng)的分析改進(jìn)思路。通過實(shí)驗(yàn)結(jié)果證明,YOLOv5能夠保證對相應(yīng)目標(biāo)的檢測,檢測速度較快,檢測準(zhǔn)確率較高。結(jié)果表明,該模型的檢測精度很高,但仍有一些不完善之處。在訓(xùn)練過程中,要注意迭代次數(shù),否則結(jié)果會過擬合,圖片無法正常識別。后續(xù)將進(jìn)一步優(yōu)化補(bǔ)充毫米波圖像集,增加環(huán)境與檢測物品的多樣性,并研究提升檢測性能的策略。