袁旻頡 羅榮芳 陳靜 蘇成悅
DOI:10.19850/j.cnki.2096-4706.2024.01.025
收稿日期:2023-10-18
摘? 要:針對(duì)行人及車輛的多目標(biāo)檢測(cè)和跟蹤中檢測(cè)精度不足及跟蹤目標(biāo)丟失和身份切換問題,文章提出一種改進(jìn)YOLOv5與改進(jìn)Deep SORT相結(jié)合的多目標(biāo)檢測(cè)跟蹤算法。檢測(cè)階段使用Varifocal Loss替換二元交叉熵?fù)p失函數(shù)結(jié)合CA注意力機(jī)制和DIoU_NMS算法。跟蹤階段將Deep SORT的REID模塊特征提取網(wǎng)絡(luò)替換為EfficientNetV2-S。在COCO數(shù)據(jù)集檢測(cè)上,map@0.5達(dá)到78%,比原始模型提升4.5%,在MOT16數(shù)據(jù)集跟蹤上,MOTA達(dá)到58.1,比原始模型提升5.7,IDswitch減少了516次相當(dāng)于減少了55.1%,測(cè)試結(jié)果表明該算法有較好的實(shí)際應(yīng)用價(jià)值。
關(guān)鍵詞:深度學(xué)習(xí);目標(biāo)檢測(cè);目標(biāo)跟蹤;計(jì)算機(jī)視覺
中圖分類號(hào):TP391.4? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):2096-4706(2024)01-0121-05
Research on Pedestrian and Vehicle Detection and Tracking Based on Deep Learning
YUAN Minjie1, LUO Rongfang1, CHEN Jing1, SU Chengyue1,2
(1.School of Physics and Optoelectronic Engineering, Guangdong University of Technoology, Guangzhou? 510006, China; 2.School of Advanced Manufacturing, Guangdong University of Technoology, Jieyang? 515548, China)
Abstract: This paper proposes a multi-objective detection and tracking algorithm combining improved YOLOv5 and improved Deep SORT to address the issues of insufficient detection accuracy, lost tracking targets, and identity switching in pedestrian and vehicle's multi-target detection and tracking. Replacing binary cross entropy loss function with Varifocal Loss in the detection phase, combined with CA attention mechanism and DIoU_NMS algorithm. During the tracking phase, replace the feature extraction network of the REID module of Deep SORT with EfficientNetV2-S. In COCO dataset detection, map@0.5 reaches 78%, an improvement of 4.5% compared to the original model. On the MOT16 dataset tracking, the MOTA reaches 58.1, an improvement of 5.7 compared to the original model. The IDswitch is reduced by 516 times, which is equivalent to a reduction of 55.1%. The test results show that the algorithm has good practical application value.
Keywords: Deep Learning; object detection; object tracking; computer vision
0? 引? 言
傳統(tǒng)交通系統(tǒng)需大量人力提取監(jiān)控信息,效率低,實(shí)時(shí)性差,資源耗費(fèi)大,需加入人工智能技術(shù)加以改善。目標(biāo)檢測(cè)和跟蹤技術(shù)近年不斷取得突破,成為交通系統(tǒng)應(yīng)用的熱點(diǎn)。Girshick等人于2014年發(fā)布的RCNN[1]是最早的基于卷積神經(jīng)網(wǎng)絡(luò)的兩階段目標(biāo)檢測(cè)模型,隨后REN的Faster RCNN[2]等改進(jìn)算法被提出。2016年REDMON等人提出YOLO[3]模型,這類基于卷積神經(jīng)網(wǎng)絡(luò)的單階段目標(biāo)檢測(cè)模型效果極佳。隨后YOLOX [4],YOLOv6 [5],YOLOv7 [6]等目標(biāo)檢測(cè)算法相繼被提出,文獻(xiàn)[7]基于多尺度注意力網(wǎng)絡(luò)識(shí)別行人,文獻(xiàn)[8]提出一種改進(jìn)YOLOX的車輛檢測(cè)方法。2016年Bewley提出了基于深度學(xué)習(xí)的跟蹤算法SORT [9],2017年Bewley發(fā)布了它的改進(jìn)版本Deep SORT [10]。文獻(xiàn)[11]運(yùn)用孿生網(wǎng)絡(luò)進(jìn)行目標(biāo)跟蹤,文獻(xiàn)[12]提出一種自適應(yīng)特征融合的目標(biāo)跟蹤算法,文獻(xiàn)[13]是一種使用YOLOv5和DeepSORT的行人跟蹤算法。文獻(xiàn)[14]優(yōu)化DeepSort對(duì)車輛實(shí)現(xiàn)跟蹤。
復(fù)雜場(chǎng)景下會(huì)出現(xiàn)目標(biāo)重復(fù)檢測(cè)、遮擋、丟失、特征難以表達(dá)導(dǎo)致檢測(cè)跟蹤失敗等問題。本文提出將損失函數(shù)替換為Varifocal Loss [15],結(jié)合CA注意力機(jī)制[16]和DIoU_NMS的改進(jìn)YOLOv5模型,使用EfficientNetV2 [17]作為REID模塊的特征提取網(wǎng)絡(luò)的改進(jìn)DeepSORT模型,將改進(jìn)的YOLOv5與改進(jìn)的DeepSORT結(jié)合的一種接縫檢測(cè)和嵌入(joint detecting and embedding, JDE)跟蹤算法[18],能有效提升檢測(cè)精度和跟蹤效果。
1? 材料和方法
1.1? 數(shù)據(jù)集處理
將COCO數(shù)據(jù)集2017版的人和車輛標(biāo)簽數(shù)據(jù)提取出來進(jìn)行翻轉(zhuǎn)、裁剪、尺度變換數(shù)據(jù)增強(qiáng)用于訓(xùn)練檢測(cè)模型。共67 847張訓(xùn)練集圖片和2 869張測(cè)試集圖片,訓(xùn)練集中行人類標(biāo)簽實(shí)例數(shù)共262 465個(gè),車輛類標(biāo)簽實(shí)例數(shù)共43 867個(gè),測(cè)試集中行人類標(biāo)簽實(shí)例數(shù)共11 004個(gè),車輛類標(biāo)簽實(shí)例數(shù)共1 932個(gè)。跟蹤階段reid模塊的重識(shí)別模型訓(xùn)練使用Market-1501數(shù)據(jù)集,該數(shù)據(jù)集包含751類行人。MOT16數(shù)據(jù)集[19]的2,4,5,9,10,11,13號(hào)視頻為跟蹤數(shù)據(jù)集,將數(shù)據(jù)集中分別代表行人、駕駛員、車輛以及靜止的人的1,2,3,7號(hào)標(biāo)簽提取出來,其他標(biāo)簽信息刪除。
1.2? 檢測(cè)模型改進(jìn)
1.2.1? Varifocal Loss
本文將Vari focal Loss替換YOLOv5的分類損失和置信度損失使用的二元交叉熵?fù)p失。Vari Focal Loss[15]是一種密集目標(biāo)檢測(cè)器,作用是預(yù)測(cè)IACS(IoU-Aware Classification Score),相比二元交叉熵?fù)p失能更好地解決密集目標(biāo)檢測(cè)器訓(xùn)練中前景和背景不平衡的問題,Vari Focal Loss提出一種變焦思路對(duì)正負(fù)樣本進(jìn)行不對(duì)稱處理,其定義如公式為:
(1)
其中p為預(yù)測(cè)的IACS,q為IoU得分。對(duì)前景點(diǎn)即正樣本q為預(yù)測(cè)包圍框和它的ground truth(真實(shí)包圍框)之間的IoU,對(duì)背景點(diǎn)即負(fù)樣本q為0,γ因子能縮放損失。正樣本比負(fù)樣本少應(yīng)保留它們的學(xué)習(xí)信息,因此Vari Focal Loss僅減少了負(fù)例(q=0)的損失貢獻(xiàn)。
1.2.2? 注意力機(jī)制改進(jìn)
本文分別選用ECA[20]、CA[16]注意力機(jī)制替換YOLOv5骨干網(wǎng)絡(luò)中的C3層,實(shí)驗(yàn)對(duì)比各自效果,最終選擇效果最優(yōu)的CA注意力機(jī)制。
Coordinate Attention(CA)將橫縱向的位置信息都進(jìn)行編碼使網(wǎng)絡(luò)關(guān)注到大范圍位置信息的同時(shí)計(jì)算量不大。流程如圖1所示。
改進(jìn)的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。分為輸入端、骨干網(wǎng)絡(luò)(Backbone)、Neck網(wǎng)絡(luò)和輸出端。輸入端對(duì)輸入圖像進(jìn)行歸一化、統(tǒng)一尺寸、數(shù)據(jù)增強(qiáng)等操作;骨干網(wǎng)絡(luò)為基準(zhǔn)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)特征提??;Neck網(wǎng)絡(luò)進(jìn)一步提升特征的表達(dá)能力,輸出端即head端以分類回歸實(shí)現(xiàn)預(yù)測(cè)檢測(cè)。其中C3-CA即本文將CA注意力機(jī)制替換YOLOv5的C3層。
1.2.3? DIoU_NMS
原始YOLOv5采用NMS算法,預(yù)測(cè)階段會(huì)預(yù)測(cè)出多個(gè)預(yù)測(cè)框,需將重復(fù)預(yù)測(cè)及置信度低的框去除,NMS將置信度最高的預(yù)測(cè)框與其他框進(jìn)行IoU比對(duì),移除超過預(yù)定閾值的框,除該置信度最高的框外,再將其余的框重復(fù)操作,直到所有框滿足閾值。因?yàn)閷?shí)際場(chǎng)景中會(huì)出現(xiàn)大量重疊目標(biāo),導(dǎo)致IoU超過閾值而被NMS去除,本文采用DIoU[21]替換掉NMS中的IoU,DIoU更符合目標(biāo)框回歸機(jī)制,能一并考慮目標(biāo)與anchor間距和重疊率及尺度,其定義如式(2):
(2)
其中b,bgt分別為預(yù)測(cè)框與真實(shí)框的中心點(diǎn),ρ為計(jì)算兩點(diǎn)間的歐式距離,c為同時(shí)包含預(yù)測(cè)框與真實(shí)框的最小閉包區(qū)域的對(duì)角線距離。
1.3? 跟蹤模型改進(jìn)
DeepSORT模型采用勻速線性的卡爾曼濾波器預(yù)測(cè)目標(biāo)下一幀的運(yùn)動(dòng)狀態(tài),對(duì)預(yù)測(cè)的位置信息與檢測(cè)結(jié)果進(jìn)行級(jí)聯(lián)匹配和IoU匹配,更新卡爾曼濾波預(yù)測(cè)的信息,再重復(fù)上述步驟。主要流程如圖3所示。
其中級(jí)聯(lián)匹配利用了馬氏距離和reid外觀特征重識(shí)別,本文將reid外觀特征重識(shí)別模塊的特征提取網(wǎng)絡(luò)替換為EfficientNetV2-S。
EfficientNetV2比Resnet訓(xùn)練速度更快,采用Fused-MBConv網(wǎng)絡(luò)模塊和漸進(jìn)式學(xué)習(xí)策略,EfficientNetV2-S網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
1.4? 評(píng)估指標(biāo)
1.4.1? 檢測(cè)評(píng)估指標(biāo)
本文檢測(cè)評(píng)估指標(biāo)采用mAP@0.5(mean Average Precision at IoU=0.5),其定義為將IoU設(shè)為0.5時(shí)計(jì)算每類所有圖片的平均精度AP(Average Percision)即AP50,再將所有類別求平均。
1.4.2? 跟蹤評(píng)估指標(biāo)
本文跟蹤評(píng)估指標(biāo)采用:跟蹤準(zhǔn)確度(MOTA)、跟蹤精度(MOTP)和目標(biāo)ID變換次數(shù)(IDs),MOTA和MOTP的定義分別為式(3)與式(4)[19]。
(3)
(4)
其中t為當(dāng)前幀為第t幀;mt,nt,st,gt,ct分別為第t幀時(shí)的漏檢目標(biāo)數(shù)、誤檢目標(biāo)數(shù)、ID切換數(shù),出現(xiàn)的總目標(biāo)數(shù)和成功匹配目標(biāo)數(shù); 為第t幀時(shí)目標(biāo)i的預(yù)測(cè)位置與真實(shí)位置的間距。
2? 實(shí)驗(yàn)及結(jié)果分析
2.1? 環(huán)境和參數(shù)
表2為實(shí)驗(yàn)的硬件環(huán)境和使用的深度學(xué)習(xí)框架。
檢測(cè)階段Vari focal Loss損失函數(shù)使用的參數(shù)是α,γ分別設(shè)為0.5和1;batch_size設(shè)16,epochs為100,以YOLOv5 m為預(yù)訓(xùn)練模型,采用LambdaLR學(xué)習(xí)率調(diào)度器,初始學(xué)習(xí)率取0.01,循環(huán)學(xué)習(xí)率取0.2,warmup_epoch取3。
跟蹤階段reid模塊訓(xùn)練重識(shí)別模型epoch為300,采用warm up+CosineAnnealingLR的學(xué)習(xí)率衰減法,warmup_epoch取5,初始學(xué)習(xí)率取0.1,循環(huán)學(xué)習(xí)率取0.1,跟蹤測(cè)試取NMS的IoU閾值為0.5,MAX_AGE取70。
2.2? 檢測(cè)結(jié)果對(duì)比
依次在YOLOv5上加入四種注意力機(jī)制消融實(shí)驗(yàn)與使用Varifocal Loss和DIoU_NMS的YOLOv5實(shí)驗(yàn),同時(shí)與Faster R-CNN進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。
結(jié)果表示在本文處理的COCO數(shù)據(jù)集下結(jié)合CA注意力機(jī)制Varifocal Loss和DIoU_NMS的YOLOv5相比于原始YOLOv5在行人目標(biāo)上AP50提升了3.3%,在車輛目標(biāo)上AP50提升了5.7%,mAP@0.5提升了4.5%,驗(yàn)證了改進(jìn)對(duì)檢測(cè)效果有明顯提升。
2.3? 跟蹤結(jié)果對(duì)比
分別將YOLOv5與DeepSORT,YOLOv5與改進(jìn)DeepSORT,改進(jìn)YOLOv5與DeepSORT,改進(jìn)YOLOv5與改進(jìn)DeepSORT結(jié)合對(duì)比,在MOT16數(shù)據(jù)集進(jìn)行跟蹤測(cè)試對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。
結(jié)果顯示本文對(duì)YOLOv5和DeepSORT的改進(jìn)策略對(duì)跟蹤結(jié)果都有提升,MOTA提升了5.7,MOTP提升了0.6,IDswitch即IDs減少了516次相當(dāng)于減少了55.1%的ID變化率。驗(yàn)證了改進(jìn)對(duì)跟蹤效果有提升。
將跟蹤結(jié)果可視化,如圖4分別為YOLOv5結(jié)合DeepSORT以及改進(jìn)YOLOv5結(jié)合改進(jìn)DeepSORT的效果截圖,可見本文算法ID為70號(hào)、49號(hào)、35號(hào)的小目標(biāo)被成功跟蹤,被49號(hào)目標(biāo)遮擋的目標(biāo)和被建筑物遮擋的13號(hào)、81號(hào)目標(biāo)也被成功跟蹤。
3? 結(jié)? 論
本文針對(duì)城市中行人和車輛目標(biāo),將YOLOv5結(jié)合DeepSORT的多目標(biāo)檢測(cè)跟蹤算法進(jìn)行改進(jìn),將YOLOv5分類損失和置信度損失的損失函數(shù)替換為Varifocal Loss,提升了訓(xùn)練的擬合度,結(jié)合CA注意力機(jī)制提升檢測(cè)模型的特征提取能力,使用DIoU_NMS更好地篩選預(yù)測(cè)框。將DeepSORT的reid模塊中的特征提取網(wǎng)絡(luò)替換為EfficientNetV2-S,通過重新訓(xùn)練目標(biāo)重識(shí)別模型,提升了DeepSORT的重識(shí)別能力。由實(shí)驗(yàn)結(jié)果可知,改進(jìn)算法在COCO數(shù)據(jù)集的檢測(cè)效果以及在MOT-16上的跟蹤效果有所提升,在遮擋場(chǎng)景及多目標(biāo)場(chǎng)景下目標(biāo)ID變換次數(shù)和目標(biāo)丟失數(shù)顯著減少。在目標(biāo)檢測(cè)算法上加入跟蹤技術(shù)有較好的實(shí)際應(yīng)用價(jià)值。
參考文獻(xiàn):
[1] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [C]//2014 IEEE conference on computer vision and pattern recognition.Columbus:IEEE,2014:580-587.
[2] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[3] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once: Unified, Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:779-788.
[4] GE Z,LIU S T,WANG F,et al. Yolox: Exceeding Yolo Series in 2021 [J/OL].arXiv:2107.08430 [cs.CV].[2023-09-27].https://arxiv.org/abs/2107.08430.
[5] LI C Y,LI L L,JIANG H L,et al. YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications [J/OL].arXiv:2209.02976 [cs.CV].[2023-09-28].https://arxiv.org/abs/2209.02976.
[6] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouver:IEEE,2023:7464-7475.
[7] 武鑫森.基于深度學(xué)習(xí)的行人屬性識(shí)別及應(yīng)用 [J].現(xiàn)代信息科技,2023,7(17):61-65+70.
[8] 徐慧智,蔣時(shí)森,王秀青,等.基于深度學(xué)習(xí)的車載圖像車輛目標(biāo)檢測(cè)和測(cè)距 [J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2023:1-13.
[9] BEWLEY A,GE Z Y,OTT L,et al. Simple online and realtime tracking [C]//2016 IEEE international conference on image processing (ICIP).Phoenix:IEEE,2016:3464-3468.
[10] WOJKE N,BEWLEY A,PAULUS D. Simple online and realtime tracking with a deep association metric [C]//2017 IEEE international conference on image processing (ICIP).Beijing:IEEE,2017:3645-3649.
[11] 苗宗成,高世嚴(yán),賀澤民,等.基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法 [J].液晶與顯示,2023,38(2):256-266.
[12] 朱冰,劉琦,余瑞星.復(fù)雜場(chǎng)景下自適應(yīng)特征融合的圖像運(yùn)動(dòng)目標(biāo)跟蹤算法研究[J].航空兵器,2023,30(2):125-130.
[13] 張夢(mèng)華.基于Yolov5和DeepSort的視頻行人識(shí)別與跟蹤探究 [J].現(xiàn)代信息科技,2022,6(1):89-92.
[14] 金立生,華強(qiáng),郭柏蒼,等.基于優(yōu)化DeepSort的前方車輛多目標(biāo)跟蹤 [J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2021,55(6):1056-1064.
[15] ZHANG H Y,WANG Y,DAYOUB F,et al. VarifocalNet:An IoU-aware Dense Object Detector [C]//2021 IEEE/CVF conference on computer vision and pattern recognition.Nashville:IEEE,2021:8510-8519.
[16] HOU Q B,ZHOU D Q,F(xiàn)ENG J S. Coordinate Attention for Efficient Mobile Network Design [C]//2021 IEEE/CVF conference on computer vision and pattern recognition. 2021:Nashville:IEEE,2021:13708-13717.
[17] TAN M X,LE Q V. EfficientNetV2:Smaller Models and Faster Training [J/OL].arXiv:2104.00298 [cs.CV].[2023-09-28]. https://arxiv.org/abs/2104.00298.
[18] WANG Z D,ZHENG L,LIU Y X,et al. Towards real-time multi-object tracking[J/OL].arXiv:1909.12605[cs.CV].[2023-09-28].https://arxiv.org/abs/1909.12605v2.
[19] MILAN A,LEAL-TAIX? L,REID I,et al. MOT16:A benchmark for multi-object tracking [J/OL].arXiv:1603.00831 [cs.CV].[2023-09-28].https://arxiv.org/abs/1603.00831v2.
[20] WANG Q L,WU B G,ZHU P F,et al. ECA-Net:Efficient channel attention for deep convolutional neural networks [J/OL].arXiv:1910.03151 [cs.CV].[2023-09-28].https://arxiv.org/abs/1910.03151v1.
[21] ZHENG Z H,WANG P,LIU W,et al. Distance-IoU loss:Faster and better learning for bounding box regression[J/OL].arXiv:1911.08287 [cs.CV].[2023-09-28].https://arxiv.org/abs/1911.08287v1.
作者簡(jiǎn)介:袁旻頡(1999—),男,漢族,廣東東莞人,工程師,碩士,主要研究方向:計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、圖像處理;羅榮芳(1965—),男,漢族,江西吉水人,副教授,博士,主要研究方向:信息處理、人工智能技術(shù)、生物特征識(shí)別技術(shù)等;陳靜(1980—),女,漢族,廣東廣州人,副教授,博士,主要研究方向:機(jī)器學(xué)習(xí)、圖像處理等;蘇成悅(1961—),男,漢族,湖南長(zhǎng)沙人,教授,博士,主要研究方向:應(yīng)用物理。