劉凱天,磨少清
低照度交通場景行人檢測算法研究
劉凱天,磨少清
(天津職業(yè)技術(shù)師范大學(xué) 汽車與交通學(xué)院,天津 300222)
無人駕駛汽車車載相機(jī)在低照度交通場景下由于光照不足、環(huán)境復(fù)雜導(dǎo)致采集的行人圖像質(zhì)量差,后續(xù)檢測算法難以保障足夠的檢測精度。因此,針對低照度交通場景下行人檢測效果不好的問題,文章提出一種基于改進(jìn)YOLOv4-Tiny的行人檢測算法。首先,對骨干網(wǎng)絡(luò)增加了8倍下采樣特征圖輸出,并自下而上的融合深層語義信息和淺層細(xì)節(jié)信息,以增強(qiáng)對小目標(biāo)的檢測能力,同時在不同特征圖融合之前引入注意力機(jī)制模塊,使網(wǎng)絡(luò)更加關(guān)注重點(diǎn)特征信息。其次,使用SPP-Net提高網(wǎng)絡(luò)的感受野和魯棒性。利用K-means聚類算法對行人目標(biāo)生成新的先驗(yàn)框,用Soft-NMS方法替換掉傳統(tǒng)的非極大值抑制方法。改進(jìn)后的網(wǎng)絡(luò)模型記為YOLO-IPD,實(shí)驗(yàn)表明文章提出的YOLO-IPD模型在自建數(shù)據(jù)集上效果良好。
行人檢測;低照度;YOLOv4-Tiny;注意力機(jī)制;深度學(xué)習(xí)
近年來,由于深度學(xué)習(xí)技術(shù)取得了突破性進(jìn)展,計算機(jī)視覺及工業(yè)自動化技術(shù)也得到了顯著提升。尤其在智能汽車領(lǐng)域,無人駕駛更是得到廣泛的關(guān)注,在無人駕駛的系統(tǒng)中,行人檢測模塊是極重要的,它是無人駕駛技術(shù)安全性能的基礎(chǔ)。行人檢測的方法之一是對車載相機(jī)采集到的圖像進(jìn)行識別檢測,然而現(xiàn)實(shí)生活中低照度交通場景下,無人駕駛汽車車載相機(jī)采集到的行人圖像質(zhì)量差,存在圖像對比度低、噪聲多、圖像細(xì)節(jié)輪廓可見度低等問題。且由于車載相機(jī)安裝位置的限制,導(dǎo)致行人目標(biāo)存在偏小、密集遮擋、外形輪廓復(fù)雜多變等檢測難點(diǎn),若直接使用通用的目標(biāo)檢測網(wǎng)絡(luò)難以保障無人駕駛汽車在低照度復(fù)雜多樣交通場景下的行人檢測精度要求。
目標(biāo)檢測算法,主要分為傳統(tǒng)的檢測算法和基于卷積神經(jīng)網(wǎng)絡(luò)的檢測算法。傳統(tǒng)的檢測算法如梯度直方圖或支持向量機(jī),主要采用滑動窗口檢測目標(biāo),時間長且人工設(shè)計的特征魯棒性差?;诰矸e神經(jīng)網(wǎng)絡(luò)的算法實(shí)時性和準(zhǔn)確性高,且由于通過對大量樣本特征的學(xué)習(xí)來完成目標(biāo)檢測,故在面對復(fù)雜圖像識別時有著較好的魯棒性[1]。因此,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法成為當(dāng)前機(jī)器視覺領(lǐng)域的主流方法。
基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法包括以 R-CNN[2]與 Faster R-CNN[3-5]等為代表的兩階段目標(biāo)檢測算法和以YOLO[6-7]和SSD等為代表的由端到端的一階段目標(biāo)檢測算法。兩階算法使用區(qū)域候選網(wǎng)絡(luò)來提取候選目標(biāo)信息,區(qū)域建議模塊對計算機(jī)內(nèi)存消耗很大;而一階段算法是學(xué)習(xí)從輸入圖像直接到目標(biāo)位置和類別的輸出,沒有區(qū)域候選環(huán)節(jié),目標(biāo)檢測被視為回歸問題,檢測速度較快。
本文采用YOLO系列的YOLOv4-Tiny模型作為低照度交通場景下行人檢測的原始網(wǎng)絡(luò),對YOLOv4-Tiny模型進(jìn)行改進(jìn)以提高在低照度交通場景下行人檢測的性能。對YOLOv4-Tiny網(wǎng)絡(luò)模型的改進(jìn)主要包括:1)增加了8倍下采樣特征圖輸出,并融合深層語義信息和淺層細(xì)節(jié)信息,同時在不同特征圖融合之前引入注意力機(jī)制模塊,使網(wǎng)絡(luò)更加關(guān)注重點(diǎn)特征信息,從而增強(qiáng)對小目標(biāo)的檢測能力。其次,使用SPP-Net提高網(wǎng)絡(luò)的感受野和魯棒性。2)利用K-means聚類算法生成適合自制數(shù)據(jù)集行人目標(biāo)的先驗(yàn)框,用Soft-NMS方法替換掉傳統(tǒng)的非極大值抑制方法,以緩解因行人目標(biāo)密集遮擋而漏檢的問題。改進(jìn)后的模型記為YOLO-IPD,該模型較原模型提高了檢測精度。
YOLOv4-Tiny是YOLOv4的精簡版,屬于輕量化后的模型,只有600萬的參數(shù)相當(dāng)于原來網(wǎng)絡(luò)的十分之一,檢測速度更快。由卷積層(Conv)、批量歸一化層(BN)、激活函數(shù)(LeakyReLU)組成基本的特征提取單元(BaseModule),使用CSPDarket53-Tiny作為主干特征提取網(wǎng)絡(luò),CSPDarket53-Tiny由CSPnet堆疊組成,CSPnet由BM單元進(jìn)行殘差嵌套組合再經(jīng)過最大池化層構(gòu)成。殘差結(jié)構(gòu)能夠緩解隨著網(wǎng)絡(luò)層數(shù)的增加而網(wǎng)絡(luò)性能退化的問題。YOLOv4-Tiny僅使用了兩個特征層進(jìn)行分類與回歸,合并特征層時使用了特征金字塔網(wǎng)絡(luò)(FPN),如圖1所示。
圖1 YOLOv4-Tiny結(jié)構(gòu)圖
輸入網(wǎng)絡(luò)的圖像,先經(jīng)過兩層BM單元進(jìn)行初步的特征提取,然后再經(jīng)過三層CSPnet模塊進(jìn)行32倍下采樣輸出13×13的特征圖,之后再經(jīng)過BM單元、卷積層、線性激活輸入給第一個YOLO檢測頭。從第三個CSPnet中引出16倍下采樣特征圖,與經(jīng)過2倍上采樣的特征圖進(jìn)行拼接,融合淺層信息與深層信息,經(jīng)過卷積與激活輸入給第二個YOLO檢測頭。檢測頭1和檢測頭2分別處理13×13和26×26大小的特征圖對不同尺度的目標(biāo)進(jìn)行檢測。
無人駕駛汽車車載相機(jī)收集到的低照度的圖像,行人的紋理細(xì)節(jié)信息不明顯,行人圖像多為小目標(biāo),且行人目標(biāo)多具有密集、遮擋的特點(diǎn)。原始的YOLOv4-Tiny網(wǎng)絡(luò)模型,對特征的提取不夠精細(xì),對小目標(biāo)的檢測能力一般,因此,添加一個檢測頭以提升網(wǎng)絡(luò)對小目標(biāo)的檢測能力,使用特征金字塔算法融合深淺特征層獲得更加豐富的信息,加入SPP-Net模塊增加提取的多尺度特征信息量,引入注意力機(jī)制使模型更加關(guān)注重點(diǎn)信息,使用Soft-NMS緩解密集情況下預(yù)測框被誤刪的問題,從而實(shí)現(xiàn)對原始模型的改進(jìn)。
SPP-Net能夠?qū)碜圆煌舜笮〕鼗蟮奶卣鲌D串聯(lián)在一起作為輸出,最大池化核為k={1×1, 5×5, 9×9, 13×13},比單純的使用單個尺寸核大小的最大池化的方式,更有效地增加網(wǎng)絡(luò)的感受野,提升魯棒性和提取多尺度特征,如圖2所示。
圖2 SPP-Net模塊結(jié)構(gòu)
CBAM(Convolutional Block Attention Mod- ule)是卷積注意力機(jī)制模塊,是結(jié)合了通道(channel)和空間(spatial)兩個方向的注意力機(jī)制模塊。輸入的特征圖先經(jīng)過CAM再經(jīng)過SAM,這樣不僅能夠減少參數(shù)節(jié)約算力,還能即插即用到網(wǎng)絡(luò)的架構(gòu)中,如圖3所示。
圖3 CBAM模塊結(jié)構(gòu)
YOLOv4-Tiny只有兩個檢測頭,分別對13×13,26×26兩種大小的特征圖進(jìn)行檢測,然而自制數(shù)據(jù)集中的行人目標(biāo)大多是小目標(biāo),容易造成漏檢問題。32倍下采樣和16倍下采樣特征圖包含高級的語義信息,然而缺乏行人目標(biāo)的細(xì)節(jié)紋理信息,加之在低照度交通場景下采集到的圖像多為昏暗圖像,本身紋理細(xì)節(jié)信息少,這些都導(dǎo)致原始網(wǎng)絡(luò)對行人目標(biāo)的檢測精度低。因此,添加一個檢測頭,對輸出的52×52大小的特征圖進(jìn)行檢測,并自下而上的將三種大小不同的特征圖進(jìn)行融合,從而實(shí)現(xiàn)淺層紋理細(xì)節(jié)信息與深層抽象語義信息融合以提升對行人目標(biāo)的檢測精度,如圖4所示。
圖4 YOLO-IPD網(wǎng)絡(luò)
在主干特征提取網(wǎng)絡(luò)與頭部網(wǎng)絡(luò)之間加入SPP-Net以增加網(wǎng)絡(luò)的感受野,26×26和52×52的特征圖檢測頭都融合深層信息和淺層信息,在融合之前深層信息和淺層信息都經(jīng)過了CBAM注意力模塊的重點(diǎn)選擇,使模型更關(guān)注重點(diǎn)信息。
傳統(tǒng)的K-means聚類算法采用歐氏距離或曼哈頓距離來計算數(shù)據(jù)對象間的距離,算法的詳細(xì)流程如下:
1)首先確定聚類中心點(diǎn)的個數(shù),即值;
2)從數(shù)據(jù)集中隨機(jī)選擇個聚類中心進(jìn)行初始化;
3)計算數(shù)據(jù)集中其他點(diǎn)與每個聚類中心點(diǎn)之間的距離(如歐氏距離),將各個點(diǎn)劃分到距離其較近的聚類中心所在類;
4)更新每個類的聚類中心;
5)重復(fù)步驟3)和步驟4),直到新計算出來的聚類中心和原來的聚類中心之間的距離小于一個設(shè)置的閾值,則可以認(rèn)為聚類已經(jīng)達(dá)到期望的結(jié)果。
文中將K-means算法中歐氏測距法進(jìn)行改進(jìn),根據(jù)交并比(Intersection over Union, IoU)計算先驗(yàn)框之間的距離,計算公式為
(,)=1-(,) (1)
式中,為真實(shí)框與先驗(yàn)框之間的距離;為任意一個真實(shí)框;為先驗(yàn)框;IoU為真實(shí)框與先驗(yàn)框的交集和并集的比值。
原始算法采用傳統(tǒng)的NMS方法,來確定最后的預(yù)測框。
式中,為得分最高的預(yù)測框;b為第個預(yù)測框;t為人為設(shè)置的IoU閾值;S為第個預(yù)測框的得分。
傳統(tǒng)的NMS方法會確定得分最大的預(yù)測框,計算其他預(yù)測框與得分最大的預(yù)測框的交并比,且當(dāng)交并比大于設(shè)置的閾值時會將該預(yù)測框直接刪除。但行人目標(biāo)存在重疊、集群、遮擋的現(xiàn)象,傳統(tǒng)NMS極易粗暴地將相鄰目標(biāo)的預(yù)測框剔除掉,所以引入Soft-NMS替換掉傳統(tǒng)NMS。
式中,為高斯系數(shù),一般取值為0.5。與式(2)相比,Soft-NMS將IoU大于閾值的部分進(jìn)行改進(jìn),使用了高斯加權(quán),相對于原NMS直接置0的操作,Soft-NMS對IoU值大的預(yù)測框得分進(jìn)行懲罰,重疊面積越大懲罰系數(shù)越高,對應(yīng)的得分S越小,這樣有利于對重疊目標(biāo)的檢測,減少漏檢情形。對于Soft-NMS的高斯系數(shù)實(shí)驗(yàn)證明:設(shè)置為0.35對自制數(shù)據(jù)集效果最好。
本文實(shí)驗(yàn)在Windows10操作系統(tǒng)下,基于Pytorch深度學(xué)習(xí)框架,配有Intel(R) Xeon(R) CPU E5-2603v4,搭載NVIDIA Quadro P2000的工作站上運(yùn)行。
從BDD100K數(shù)據(jù)集中,篩選出5 400張圖片數(shù)據(jù),這些圖片包含行人目標(biāo),同時包括了夜間、傍晚、清晨、雨天、霧天、多云等各種低照度復(fù)雜交通場景。包含行人目標(biāo)22 157個,在行人識別數(shù)據(jù)CityPersons中,將小目標(biāo)定義為了高度小于75像素的目標(biāo),按此標(biāo)準(zhǔn)自建數(shù)據(jù)集小目標(biāo)占比70.19%,且存在大量遮擋狀況。4 374張數(shù)據(jù)劃入訓(xùn)練集,486張數(shù)據(jù)劃入驗(yàn)證集,540張數(shù)據(jù)劃入測試集。
實(shí)驗(yàn)過程中,訓(xùn)練的輪數(shù)設(shè)置為350輪;動量(momentum)設(shè)置為0.9;權(quán)重衰減(decay)設(shè)置為0.000 5;批量大小(batch size)設(shè)為16;學(xué)習(xí)率(learning rate)最大設(shè)置為0.01,最小設(shè)置為0.000 1;優(yōu)化器選用SGD(Stochastic Gradient Descent)。
目標(biāo)檢測網(wǎng)絡(luò)有多種評價指標(biāo),本文采用以平均精度(Average Precision, AP)值作為評價指標(biāo),AP值是以召回率(R)、檢測精度(P)構(gòu)成的PR曲線下方的面積。
表1是進(jìn)行的消融實(shí)驗(yàn)的結(jié)果,使用改進(jìn)后的K-means聚類算法,模型的AP提高0.92%,同時使用了改進(jìn)K-means聚類算法和Soft-NMS,模型的AP提高0.51%,最終改進(jìn)后的網(wǎng)絡(luò)模型YOLO- IPD比YOLOv4-Tiny的AP提高2.16%。
表1 消融實(shí)驗(yàn)對比
表2是在同樣的實(shí)驗(yàn)條件下,驗(yàn)證不同的高斯系數(shù)值對模型精度的影響,可以看到在不同的高斯系數(shù)值下,模型AP值最大變化0.17%,最小變化0.01%。由表2可知本文算法在高斯系數(shù)取值0.35時在自制數(shù)據(jù)集上表現(xiàn)最優(yōu)。
表2 高斯系數(shù)對算法性能的影響
為驗(yàn)證了YOLOv4-Tiny和YOLO-IPD的檢測效果,選取了部分場景進(jìn)行定性分析,在自制數(shù)據(jù)集上的檢測結(jié)果可視化如圖5所示。
圖5是在傍晚十字街口的檢測結(jié)果對比,可以看出YOLOv4-Tiny在低照度交通場景下,由于距離遠(yuǎn)、行人目標(biāo)小、與周圍的背景差異小且有相互遮擋因而沒有檢測到,而YOLO-IPD能夠識別出遠(yuǎn)處的行人。同時可以看出由于引入了Soft- NMS,對于右側(cè)的人群,YOLO-IPD也能很好的檢測出來,并沒有漏檢。
(a) 原圖
(b)YOLOv4-Tiny
(c)YOLO-IPD
圖 6 是在不同照度下的檢測結(jié)果,可以看出照度相對較好的條件下YOLOv4-Tiny和YOLO-IPD檢測效果相近,但隨著照度的降低,YOLOv4-Tiny出現(xiàn)了漏檢問題,但YOLO-IPD依舊可以保持很好的檢測效果。
(a) YOLOv4-Tiny不同照度下檢測結(jié)果
圖7以熱力圖的方式對比了YOLOv4-Tiny和YOLO-IPD對重點(diǎn)信息的關(guān)注程度。
(a) YOLOv4-Tiny熱力圖
(b) YOLO-IPD熱力圖
圖7 不同低照度熱力圖對比
可以看到Y(jié)OLO-IPD因?yàn)橐肓薈BAM注意力機(jī)制更加關(guān)注重點(diǎn)信息,對行人的檢測效果更好。
針對低照度交通場景下行人檢測存在目標(biāo)小、集群遮擋以及檢測精度低的問題,基于輕量化的YOLOv4-Tiny網(wǎng)絡(luò)模型,改進(jìn)K-means聚類方法重新生成先驗(yàn)框以及引入Soft-NMS非極大值抑制,并在網(wǎng)絡(luò)結(jié)構(gòu)上添加一個檢測頭以提升對小目標(biāo)的檢測效果,引入注意力機(jī)制關(guān)注重點(diǎn)信息,而且自下而上的融合特征信息,提出了YOLO-IPD網(wǎng)絡(luò)。YOLO-IPD網(wǎng)絡(luò)在自制數(shù)據(jù)集上訓(xùn)練測試,與YOLOv4-Tiny相比AP提高了2.16%,在很低的照度環(huán)境下依舊有良好的檢測性能。但在行人目標(biāo)的定位上還有許多不足,離實(shí)際應(yīng)用所需要的精度還有一定的距離。
[1] 楊偉,杜學(xué)峰,張勇,等.基于深度學(xué)習(xí)的車輛目標(biāo)檢測算法綜述[J].汽車實(shí)用技術(shù),2022,47(2):24-26.
[2] UIJLINGS J R R, DE SANDE K E A V, GEVERS T, et al.Selective Search for Object Recognition[J].Inte- rnational Journal of Computer Vision,2013(104):154- 171.
[3] GIRSHICK R.Fast R-CNN[C]//Proc of the IEEE Inte- rnational Conference on Computer Vision.Piscataway: IEEE,2015:1440-1448.
[4] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca- taway:IEEE,2014:580-587.
[5] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Tow- ards Realtime Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,39(6):1137-1149.
[6] REDMON J,FARHADI A.YOLOv3:An Incremental Improvement[J].ArXiv E-prints,2018:02767.
[7] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[J]. 2020:10934.
Research on Pedestrian Detection Algorithms in Low Illumination Traffic Scenes
LIU Kaitian, MO Shaoqing
( School of Automobile and Transportation, Tianjin University of Technology and Education, Tianjin 300222, China )
The quality of pedestrian images collected by autonomous vehicle mounted cameras in low illumination traffic scenes is poor due to insufficient lighting and complex environments, and subsequent detection algorithms are difficult to ensure sufficient detection accuracy. Therefore, in response to the problem of poor pedestrian detection performance in low illumination traffic scenes, this paper proposes a pedestrian detection algorithm based on improved YOLOv4-Tiny. First of all, the output of 8 times down sampling feature map is increased for the backbone network, and the deep semantic information and shallow semantic information are fused from bottom to top to enhance the detection ability for small targets. At the same time, the attention mechanism module is introduced before the fusion of different feature maps, making the network pay more attention to key feature information. Secondly, SPP-Net is used to improve the Receptive field and robustness of the network. Using K-means clustering algorithm to generate a new prior box for pedestrian targets, replacing traditional non maximum suppression methods with Soft-NMS method. The improved network model is labeled YOLO-IPD, and experiments have shown that the YOLO-IPD model proposed in the article performs well on a self built dataset.
Pedestrian detection; Low illumination; YOLOv4-Tiny; Attention mechanism; Deep learning
TP391
A
1671-7988(2023)22-43-06
10.16638/j.cnki.1671-7988.2023.022.009
劉凱天(1999-),男,碩士研究生,研究方向?yàn)槟繕?biāo)檢測,E-mail:1771623181@qq.com。
國家重點(diǎn)研發(fā)計劃課題(2016YFB0101104);天津市重點(diǎn)研發(fā)計劃科技支撐重點(diǎn)項(xiàng)目(18YFJLCG00130)。