賀愉婷車進(jìn)*吳金蔓
基于YOLOv5和重識(shí)別的行人多目標(biāo)跟蹤方法
賀愉婷1,2,車進(jìn)1,2*,吳金蔓1,2
(1.寧夏大學(xué) 物理與電子電氣工程學(xué)院,寧夏 銀川 750021;2.寧夏沙漠信息智能感知重點(diǎn)實(shí)驗(yàn)室,寧夏 銀川 750021)
針對(duì)目前遵循基于檢測(cè)的多目標(biāo)跟蹤范式存在的不足,本文以DeepSort為基礎(chǔ)算法展開研究,以解決跟蹤過程中因遮擋導(dǎo)致的目標(biāo)ID頻繁切換的問題。首先改進(jìn)外觀模型,將原始的寬殘差網(wǎng)絡(luò)更換為ResNeXt網(wǎng)絡(luò),在主干網(wǎng)絡(luò)上引入卷積注意力機(jī)制,構(gòu)造新的行人重識(shí)別網(wǎng)絡(luò),使模型更關(guān)注目標(biāo)關(guān)鍵信息,提取更有效的特征;然后采用YOLOv5作為檢測(cè)算法,加入檢測(cè)層使得模型適應(yīng)不同尺寸的目標(biāo),并在主干網(wǎng)絡(luò)加入坐標(biāo)注意力機(jī)制,進(jìn)一步提升檢測(cè)模型精度。在MOT16數(shù)據(jù)集上進(jìn)行多目標(biāo)跟蹤實(shí)驗(yàn),多目標(biāo)跟蹤準(zhǔn)確率達(dá)到66.2%,多目標(biāo)跟蹤精確率達(dá)到80.8%,并滿足實(shí)時(shí)跟蹤的要求。
多目標(biāo)跟蹤;行人重識(shí)別;YOLOv5;注意力機(jī)制;深度學(xué)習(xí)
多目標(biāo)跟蹤(Multiple Target Tracking,MTT)主要任務(wù)是在給定視頻中同時(shí)對(duì)多個(gè)特定目標(biāo)進(jìn)行定位,同時(shí)保持目標(biāo)的ID穩(wěn)定,最后跟蹤記錄他們的軌跡[1]。本文主要關(guān)注對(duì)多行人跟蹤的研究。目前主流的行人跟蹤算法大多是基于檢測(cè)的跟蹤范式(Tracking-by-Detection,TBD),即在檢測(cè)結(jié)果的基礎(chǔ)上進(jìn)行目標(biāo)跟蹤。它先通過目標(biāo)檢測(cè)算法檢測(cè)出視頻幀中目標(biāo)對(duì)象可能出現(xiàn)的區(qū)域,然后通過關(guān)聯(lián)模型將屬于同一運(yùn)動(dòng)目標(biāo)的檢測(cè)框關(guān)聯(lián)到一起,得到目標(biāo)的關(guān)聯(lián)軌跡,完成目標(biāo)對(duì)象的跟蹤。這就導(dǎo)致了基于檢測(cè)的跟蹤范式的跟蹤效果很大程度上取決于行人特征的質(zhì)量,因此,如何獲取有效的行人特征是本文研究的重點(diǎn)。
行人重識(shí)別(Person re-identification,ReID)被認(rèn)為是圖像檢索的子問題[2],可以依據(jù)行人的外觀特征實(shí)現(xiàn)跨攝像頭無重疊視域下的目標(biāo)行人的檢索。行人重識(shí)別中的特征提取和度量學(xué)習(xí)可以為目標(biāo)跟蹤提供強(qiáng)有力的支撐?,F(xiàn)在許多研究將行人重識(shí)別技術(shù)與檢測(cè)/跟蹤技術(shù)相結(jié)合,并廣泛應(yīng)用于智能安防系統(tǒng)。
基于TBD范式,Bewley等人[3]提出SORT算法,重點(diǎn)關(guān)注幀間的預(yù)測(cè)和關(guān)聯(lián),結(jié)合卡爾曼濾波(Kalman Filter)和匈牙利算法(Hungarian Algorithm),提出一種簡(jiǎn)單有效的在線跟蹤框架。Wojke等人[4]提出DeepSORT算法??紤]到SORT算法并未過多關(guān)注長(zhǎng)時(shí)間跟蹤過程中由于遮擋導(dǎo)致的目標(biāo)ID頻繁切換問題,于是在SORT算法的基礎(chǔ)上引入行人重識(shí)別技術(shù)作為外觀模型。通過在重識(shí)別模型的學(xué)習(xí)增強(qiáng)網(wǎng)絡(luò)對(duì)不同目標(biāo)對(duì)象的鑒別能力。同時(shí)提出級(jí)聯(lián)匹配策略提高目標(biāo)匹配準(zhǔn)確度。Chen等人[5]提出MOTDT算法。針對(duì)不可靠檢測(cè)結(jié)果對(duì)跟蹤造成的誤導(dǎo),考慮檢測(cè)任務(wù)和跟蹤任務(wù)的可互補(bǔ)性,設(shè)計(jì)了一種新的多目標(biāo)跟蹤框架,并提出一種分層數(shù)據(jù)關(guān)聯(lián)策略,充分利用重識(shí)別特征和空間信息提升跟蹤性能。Wang等人[6]提出JDE算法。從實(shí)時(shí)性方面考慮,融合一階段檢測(cè)與行人重識(shí)別,同時(shí)輸出檢測(cè)和ReID信息,加快推理速度。Zhang等人[7]提出FairMOT算法。探究了目標(biāo)檢測(cè)和行人重識(shí)別任務(wù)的集成問題,采用Anchor-free范式的目標(biāo)檢測(cè)算法CenterNet[8]作為檢測(cè)分支,在此基礎(chǔ)上增加一個(gè)平行分支輸出ReID特征區(qū)分不同目標(biāo),將目標(biāo)檢測(cè)和重識(shí)別很好地統(tǒng)一起來。
綜上所述,行人重識(shí)別技術(shù)提取出的有效特征為目標(biāo)跟蹤任務(wù)提供了強(qiáng)有力的支撐,且與目標(biāo)檢測(cè)算法的有效結(jié)合使目標(biāo)跟蹤的速度也有了很大提升,滿足實(shí)時(shí)性的要求。因此本文提出一種基于YOLOv5與重識(shí)別的行人多目標(biāo)跟蹤方法,同時(shí)對(duì)檢測(cè)算法與特征提取網(wǎng)絡(luò)部分進(jìn)行改進(jìn)。
為了使多目標(biāo)跟蹤算法具有更有鑒別力的目標(biāo)特征,本文采用ResNeXt50網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)。ResNeXt網(wǎng)絡(luò)[9]的提出是由于傳統(tǒng)的提高模型準(zhǔn)確率方法都是選擇加深網(wǎng)絡(luò),這樣會(huì)導(dǎo)致模型越來越復(fù)雜,超參數(shù)的數(shù)量隨之增加,加大計(jì)算成本。因此Xie等人[10]設(shè)計(jì)用一種平行堆疊相同拓?fù)浣Y(jié)構(gòu)的blocks替換了ResNet[10]中的block,并且對(duì)ResNet進(jìn)行了基數(shù)擴(kuò)充。實(shí)驗(yàn)表明:在相同的模型大小和計(jì)算復(fù)雜度的條件下ResNeXt網(wǎng)絡(luò)相比較原殘差網(wǎng)絡(luò)有更高的精度。因此為了獲得更優(yōu)的外觀模型,本文采用ResNeXt50作為新的特征提取網(wǎng)絡(luò)。
本文在行人再識(shí)別算法的公開數(shù)據(jù)集Market1501上進(jìn)行實(shí)驗(yàn)。為了防止模型過擬合,基于Pytorch深度框架搭建了生成式對(duì)抗網(wǎng)絡(luò)[11](Generative adversarial network,GAN)模型,參見文獻(xiàn)[12]中的相同的參數(shù)訓(xùn)練網(wǎng)絡(luò)。使用GAN網(wǎng)絡(luò)對(duì)Market1501數(shù)據(jù)集的訓(xùn)練集進(jìn)行了擴(kuò)充,由原來的12 936張圖片擴(kuò)充至77 616張圖片,使用新的訓(xùn)練集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。如圖1所示,原始圖像經(jīng)過GAN網(wǎng)絡(luò)之后生成了其他5個(gè)相機(jī)風(fēng)格的偽圖像。
圖1 生成圖示例
將GAN網(wǎng)絡(luò)擴(kuò)增后的Market1501數(shù)據(jù)集送入ResNeXt50中進(jìn)行特征提取,實(shí)驗(yàn)結(jié)果如表1所示。
表1特征提取實(shí)驗(yàn)
Tab.1 Feature extraction network experiments (Top-1)
在多目標(biāo)跟蹤過程中,往往會(huì)面臨遮擋問題,這種遮擋可能來自不同行人之間的遮擋,也可能來自固定物體的遮擋。遮擋極大可能導(dǎo)致目標(biāo)在跟蹤過程中前一幀的目標(biāo)ID與后一幀的目標(biāo)ID發(fā)生切換,這樣網(wǎng)絡(luò)就會(huì)認(rèn)為這時(shí)出現(xiàn)了新的目標(biāo),導(dǎo)致跟蹤中斷,影響跟蹤精度。因此考慮采用添加卷積注意力機(jī)制[13](Convolutional Block Attention Module,CBAM)的方法增加目標(biāo)對(duì)象的表現(xiàn)力,關(guān)注圖中重要特征并抑制無用特征。該注意力機(jī)制是一個(gè)輕量級(jí)的通用模塊,它將注意力過程分為兩個(gè)獨(dú)立的部分:通道注意力模塊和空間注意力模塊(圖2(a),(b))。通道注意力關(guān)注什么樣的特征是有意義的,采用了全局平均池化和最大池化兩種方式來分別利用不同的信息。之后再引入空間注意力模塊來關(guān)注哪里的特征是有意義的,使得到的特征圖更顯著。
圖2 CBAM注意力機(jī)制
231通道注意力機(jī)制
通道注意力模塊對(duì)每個(gè)輸入通道的權(quán)重進(jìn)行重新標(biāo)定,使得包含目標(biāo)對(duì)象的關(guān)鍵區(qū)域特征通道對(duì)最終卷積特征有更大的貢獻(xiàn)[14]。核心思想就是增大有效通道權(quán)重,減少無效通道權(quán)重。具體實(shí)現(xiàn)如式(1)所示:
232空間注意力機(jī)制
通道注意力機(jī)制告訴網(wǎng)絡(luò)需要注意的部分,空間注意力機(jī)制給出關(guān)鍵特征的位置。具體實(shí)現(xiàn)如公式(2)所示:
本文設(shè)計(jì)的行人重識(shí)別特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。首先是對(duì)輸入的圖像集進(jìn)行預(yù)處理,使用GAN網(wǎng)絡(luò)進(jìn)行擴(kuò)增。然后將處理好的圖像送入主干網(wǎng)絡(luò)ResNeXt中進(jìn)行特征提取,同時(shí)在不同位置加入注意力機(jī)制,得到有鑒別力的特征,對(duì)行人進(jìn)行分類識(shí)別。
圖3 特征提取網(wǎng)絡(luò)結(jié)構(gòu)
圖4 CBAM模塊嵌入到ResNeXt
本文采用GAN技術(shù)擴(kuò)充大型行人重識(shí)別公開數(shù)據(jù)集Market1501,重構(gòu)新的數(shù)據(jù)集,以ResNeXt50為主干網(wǎng)絡(luò)。分析對(duì)比之后,將注意力模塊添加在ResNeXt50網(wǎng)絡(luò)的第一個(gè)卷積層以及Layer1的殘差塊之后(圖4),并使用交叉熵?fù)p失訓(xùn)練網(wǎng)絡(luò),損失函數(shù)如式(3)所示:
式(3)中,為行人ID分類數(shù),為標(biāo)簽的預(yù)測(cè)概率,為輸入真實(shí)分布。離線訓(xùn)練深度特征提取網(wǎng)絡(luò),將輸入圖像的尺寸統(tǒng)一為128×64,在新的Market1501數(shù)據(jù)集上訓(xùn)練40個(gè)epoch,最終得到128維的特征向量作為外觀特征。改進(jìn)后模型的可視化結(jié)果如圖5所示,可以看到前一幀中的ID為149的目標(biāo)對(duì)象,由于ID為18的行人遮擋,導(dǎo)致在后幀出現(xiàn)ID切換的問題,由原來的149切換為184。本文改進(jìn)算法之后,導(dǎo)入新的模型權(quán)重,重新得到跟蹤結(jié)果。從圖5可以看出,在相同幀處,ID切換問題得以解決。ID為172的行人被ID為17的行人遮擋后仍能保持ID,直觀反映了改進(jìn)網(wǎng)絡(luò)的有效性。
本文采用基于檢測(cè)的多目標(biāo)跟蹤范式,因此檢測(cè)作為第一步十分關(guān)鍵。目標(biāo)檢測(cè)旨在判斷給定的視頻幀中除背景信息以外的目標(biāo)的尺寸和位置。本文研究的目標(biāo)對(duì)象是行人,因此需要檢測(cè)出行人的位置并用矩形框進(jìn)行標(biāo)注。2020年,Glenn Jocher發(fā)布了YOLOv5算法,該目標(biāo)檢測(cè)模型運(yùn)行準(zhǔn)確度較高,且運(yùn)行速度快。YOLOv5基于PyTorch實(shí)現(xiàn),可以有效地應(yīng)用于嵌入式設(shè)備和移動(dòng)端。根據(jù)模型的深度以及卷積核的個(gè)數(shù),模型共有4個(gè)版本:YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,模型體積越大,相應(yīng)的檢測(cè)精度越高,但是復(fù)雜的模型也導(dǎo)致檢測(cè)速度變慢。
針對(duì)當(dāng)前行人檢測(cè)方法精度和實(shí)時(shí)性不能同時(shí)兼顧的問題,本文采用以YOLOv5s[15]模型為基礎(chǔ)的目標(biāo)檢測(cè)算法。YOLOv5s模型主要由4部分組成。輸入端首先對(duì)原始圖像進(jìn)行預(yù)處理,預(yù)處理操作包括Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)圖像縮放、自適應(yīng)錨框計(jì)算等。Backbone部分由Focus結(jié)構(gòu)、CBL結(jié)構(gòu)、CSP結(jié)構(gòu)等模塊組成,從圖像中提取不同細(xì)粒度特征的卷積神經(jīng)網(wǎng)絡(luò)。Neck網(wǎng)絡(luò)部分主要由特征金字塔(Feature Pyramid Networks,F(xiàn)PN)和路徑聚合網(wǎng)絡(luò)(Path Aggregation Networks,PAN)組成,F(xiàn)PN在網(wǎng)絡(luò)中自上而下傳遞語義信息,PAN自下而上傳遞位置信息。Neck部分借鑒了CSP結(jié)構(gòu),加強(qiáng)了特征融合能力。Head部分對(duì)處理后的圖像特征進(jìn)行3個(gè)尺寸上的預(yù)測(cè),生成邊界框并預(yù)測(cè)目標(biāo)的類別[16]。
由于在實(shí)際場(chǎng)景中人們處于攝像機(jī)網(wǎng)絡(luò)中的不同位置,因此映射到不同幀圖像中的行人尺寸不斷發(fā)生變化。由遠(yuǎn)及近,行人的尺寸在整幅圖中比例不一,尤其是包含很多行人目標(biāo)的密集圖像。在一幀圖像中,距離當(dāng)前攝像頭較遠(yuǎn)的行人在整個(gè)圖像中可能僅占幾個(gè)像素的大小,在檢測(cè)過程中提取的特征信息較少、噪聲多,極大地影響了檢測(cè)結(jié)果。原始的YOLOv5s模型有3個(gè)檢測(cè)層,分別在8,16,32倍下采樣處對(duì)3個(gè)尺度的特征圖進(jìn)行預(yù)測(cè)。輸入圖像的尺寸為640×640,因此經(jīng)過3種下采樣后的特征圖尺寸分別為80×80,40×40,20×20,對(duì)應(yīng)檢測(cè)8×8,16×16,32×32以上的目標(biāo)。但是該模型對(duì)遠(yuǎn)距離行人目標(biāo)的檢測(cè)仍然會(huì)出現(xiàn)檢測(cè)不到的情況,因此,針對(duì)這一現(xiàn)象,本文考慮再添加一個(gè)檢測(cè)層以增加模型對(duì)尺度的包容性。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。在原來的Neck網(wǎng)絡(luò)中兩次上采樣之后再增加一個(gè)上采樣操作,得到大小為160×160的特征圖并將其與主干網(wǎng)絡(luò)的第二層特征圖進(jìn)行融合(圖7),進(jìn)而獲取更大的特征圖來進(jìn)行小目標(biāo)檢測(cè);然后在檢測(cè)層將小目標(biāo)檢測(cè)層添加進(jìn)去,最終使用4層檢測(cè)層執(zhí)行檢測(cè)任務(wù)。在MOT16數(shù)據(jù)集上對(duì)改進(jìn)算法進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果如表2所示。
圖6 改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)
圖7 特征圖可視化
表2YOLOv5s消融實(shí)驗(yàn)
Tab.2 Ablation of YOLOv5s
由表2可知,本文在YOLOv5s基礎(chǔ)算法中添加上采樣操作,構(gòu)成小目標(biāo)檢測(cè)層。改進(jìn)模型的各項(xiàng)指標(biāo)相較于YOLOv5s均有明顯提高。
在CV領(lǐng)域,注意力機(jī)制被廣泛應(yīng)用于圖像分類、目標(biāo)檢測(cè)、分割任務(wù)[17]等。注意力機(jī)制本質(zhì)上是找出需要重點(diǎn)關(guān)注的候選區(qū)域,并通過一系列權(quán)重參數(shù)對(duì)圖中焦點(diǎn)區(qū)域的信息進(jìn)行增強(qiáng),以提取目標(biāo)更多的細(xì)節(jié)信息,同時(shí)抑制一些無用信息。文獻(xiàn)[18]中提出的SENet通道域注意力機(jī)制通過對(duì)圖像特征通道域的相關(guān)性進(jìn)行建模,優(yōu)化特定類別的特征信息,但是SENet只考慮通道間信息的編碼,而忽略了位置信息的重要性。文獻(xiàn)[19]中提出的ECANet對(duì)SENet模塊進(jìn)行了一些改進(jìn),提出了一種不降維的局部跨信道交互策略和自適應(yīng)選擇一維卷積核大小的方法,從而實(shí)現(xiàn)了性能上的優(yōu)化,但是ECANet也并未將位置信息考慮在內(nèi)。2021年最新提出的坐標(biāo)注意力機(jī)制[20](Coordinate Attention,CA)將位置信息嵌入到通道注意力中,它不僅捕獲跨通道的關(guān)鍵信息,還捕獲方向感知和位置信息,這使得模型能夠更為精確地定位和識(shí)別目標(biāo)對(duì)象。因此,本文考慮采用CA注意力機(jī)制,其結(jié)構(gòu)如圖8所示。
坐標(biāo)注意力機(jī)制首先對(duì)輸入沿水平方向和垂直方向?qū)νǖ肋M(jìn)行編碼,沿兩個(gè)方向聚合特征獲得一對(duì)具有方向感知能力的特征圖。將兩個(gè)方向感知特征圖拼接在一起,再送入卷積核為1×1的卷積模塊進(jìn)行降維操作,然后經(jīng)過批量歸一化處理送入Sigmoid激活函數(shù)得到中間特征圖。接著沿空間維度將中間特征圖分成沿水平方向和垂直方向的獨(dú)立的張量。最后利用另外兩個(gè)1×1卷積變換函數(shù)對(duì)兩個(gè)張量進(jìn)行處理得到通道數(shù)相同的輸出,分別展開并用作注意力權(quán)重。
圖8 CA模塊
本文將CA模塊集成到改進(jìn)后的YOLOv5s網(wǎng)絡(luò)中,經(jīng)過實(shí)驗(yàn)驗(yàn)證,考慮將CA模塊添加在Neck網(wǎng)絡(luò)中卷積層之間,添加注意力機(jī)制賦予目標(biāo)信息更大的權(quán)重,使得網(wǎng)絡(luò)對(duì)目標(biāo)信息更加關(guān)注,對(duì)檢測(cè)結(jié)果有一定的修正作用。
本文隨機(jī)選取在MOT16訓(xùn)練集中的圖像驗(yàn)證改進(jìn)模型的效果,原始模型與改進(jìn)模型的檢測(cè)效果對(duì)比如圖9所示。
圖9 可視化結(jié)果對(duì)比
不難看出,原始的網(wǎng)絡(luò)檢測(cè)有很多漏檢的情況(為了更加直觀,我們使用綠色框進(jìn)行了標(biāo)注),發(fā)現(xiàn)主要有兩個(gè)問題:遮擋和遠(yuǎn)距離導(dǎo)致的目標(biāo)比例小的問題。因此,本文對(duì)原始網(wǎng)絡(luò)進(jìn)行改進(jìn),從圖9可以看出,改進(jìn)后的模型檢測(cè)效果更好,尤其是檢測(cè)到了原來未檢測(cè)出的遠(yuǎn)距離行人目標(biāo),驗(yàn)證了改進(jìn)算法的正確性,為后續(xù)多目標(biāo)跟蹤任務(wù)奠定了基礎(chǔ)。
本文采用的多目標(biāo)跟蹤算法是基于檢測(cè)的跟蹤范式,且為了滿足實(shí)時(shí)性的要求,對(duì)目標(biāo)行人進(jìn)行在線跟蹤。多目標(biāo)跟蹤任務(wù)基本是由目標(biāo)檢測(cè)、運(yùn)動(dòng)預(yù)測(cè)、外觀模型、數(shù)據(jù)關(guān)聯(lián)模塊組成。上文已經(jīng)獲得了精確的目標(biāo)檢測(cè)框以及外觀模型,然后利用卡爾曼濾波和匈牙利算法完成關(guān)聯(lián)和匹配。本文整體網(wǎng)絡(luò)架構(gòu)如圖10所示。
圖10 整體網(wǎng)絡(luò)構(gòu)架
具體工作流程如下。第一步:輸入的視頻序列首先經(jīng)過YOLOv5s檢測(cè)出前景對(duì)象,得到行人的位置響應(yīng),并通過檢測(cè)響應(yīng)裁剪出當(dāng)前幀圖像中目標(biāo)對(duì)象位置所在的圖像塊。為了使得檢測(cè)結(jié)果更加精確,本文在此處加入檢測(cè)層以滿足多尺度檢測(cè)任務(wù),同時(shí)加入CA注意力機(jī)制使得模型更加優(yōu)化。第二步:將裁剪出來的包含目標(biāo)的圖像塊送入線下訓(xùn)練好的行人重識(shí)別模型來提取深度外觀特征信息,本文在此處也做出改進(jìn),將主干網(wǎng)絡(luò)更換為ResNeXt50,以采用相對(duì)少的參數(shù)達(dá)到較好的效果。另外,考慮到實(shí)際情況中的遮擋問題給特征提取帶來的困難,添加注意力機(jī)制CBAM,再用GAN網(wǎng)絡(luò)擴(kuò)增后的行人重識(shí)別公開數(shù)據(jù)集Market1501訓(xùn)練模型,生成的權(quán)重文件作為新的外觀模型。第三步:將上一步提取到的ReID特征與經(jīng)過卡爾曼預(yù)測(cè)的確定軌跡上的ReID信息進(jìn)行級(jí)聯(lián)匹配建立數(shù)據(jù)關(guān)聯(lián),得到3種結(jié)果:匹配成功、未匹配的軌跡、未匹配的檢測(cè)。針對(duì)未匹配的檢測(cè)、未匹配的軌跡以及卡爾曼預(yù)測(cè)的不確定軌跡再采用匈牙利算法進(jìn)行二次匹配,同樣得到前面提到的3種結(jié)果。第四步:通過級(jí)聯(lián)匹配和匈牙利匹配,對(duì)于匹配成功的軌跡,將其送入卡爾曼濾波中更新軌跡信息。對(duì)于未匹配的檢測(cè),將其初始化作為新的軌跡,并且該軌跡必須滿足連續(xù)3幀都能匹配到目標(biāo)對(duì)象才能被定為確定軌跡。對(duì)于未匹配的軌跡,若其是確定軌跡且連續(xù)失配幀數(shù)少于max_age,則將其加入跟蹤序列中;若連續(xù)失配幀數(shù)大于max_age,則刪除軌跡。若未匹配且是未確定軌跡,則直接刪除軌跡。第五步:將得到的所有跟蹤送入卡爾曼濾波進(jìn)行預(yù)測(cè),得到確定軌跡和不確定軌跡,重復(fù)上述步驟。
本文提取大型目標(biāo)檢測(cè)公開數(shù)據(jù)集COCO中的行人類數(shù)據(jù)子集作為訓(xùn)練集,用MOT16的訓(xùn)練集[21]作為驗(yàn)證集驗(yàn)證算法性能。實(shí)驗(yàn)環(huán)境基于Ubuntu 16.04操作系統(tǒng),Nvidia GeForce RTX 2080Ti顯卡,運(yùn)行內(nèi)存為64G,采用Pytorch1.6.0深度學(xué)習(xí)框架,在Python3.7的服務(wù)器下實(shí)現(xiàn)。選擇多目標(biāo)跟蹤公開數(shù)據(jù)MOT16測(cè)試集測(cè)試本文算法,并將測(cè)試結(jié)果提交MOT Challenge官網(wǎng)進(jìn)行評(píng)估,與其他先進(jìn)算法進(jìn)行對(duì)比,并分析模型性能。
為了使模型的評(píng)價(jià)更加客觀準(zhǔn)確,并與其他算法進(jìn)行合理比較,本文采用多目標(biāo)跟蹤領(lǐng)域通用的評(píng)估指標(biāo)進(jìn)行評(píng)估:多目標(biāo)跟蹤準(zhǔn)確度(Multi-object Tracking Accuracy,MOTA)、多目標(biāo)跟蹤精度(Multi-object Tracking Precision,MOTP)、多目標(biāo)跟蹤器ID維持能力(Identification F1 Score,IDF1)、行人ID切換次數(shù)(ID Switch,IDs)、大多數(shù)跟蹤目標(biāo)百分比(Mostly Tracked,MT)、大多數(shù)丟失目標(biāo)百分比(Mostly Lost,ML)。部分評(píng)價(jià)指標(biāo)的公式如公式(4)和(5)所示:
對(duì)于多目標(biāo)跟蹤,本文選擇MOT16數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),與幾種先進(jìn)多目標(biāo)跟蹤算法結(jié)果進(jìn)行對(duì)比。受文獻(xiàn)[22]啟發(fā),本文考慮在計(jì)算速率時(shí)加入檢測(cè)器需要的時(shí)間,結(jié)果如表3所示。
表3本文算法與其他先進(jìn)算法在MOT16數(shù)據(jù)集上的對(duì)比結(jié)果
Tab.3 Comparative results on this grade algorithm and other advanced algorithm on MOT16 data set
綜合分析指標(biāo)可知,本文算法與部分先進(jìn)算法相比有相對(duì)優(yōu)勢(shì),但是與JDE算法相比,在實(shí)時(shí)性方面優(yōu)勢(shì)并不突出。JDE算法屬于一階段跟蹤算法,實(shí)時(shí)性相對(duì)較高,但I(xiàn)D切換相對(duì)頻繁,這是在大量密集行人場(chǎng)景下,由于目標(biāo)相互遮擋導(dǎo)致的。而本文著重考慮遮擋情況下跟蹤效果差的問題,同時(shí)考慮到數(shù)據(jù)集中行人密集且動(dòng)態(tài)變化,增強(qiáng)了對(duì)小目標(biāo)對(duì)象的檢測(cè)能力,因此改進(jìn)算法在MOTA、MOTP等指標(biāo)上都有所提升。MOTA相較于JDE算法提升了1.8%,MOTP相較于SORT算法提升了1.2%,IDF1相較于DeepSort算法提升了3.6%,MT提升了2.5%,ID切換頻次下降。綜上,可以驗(yàn)證本文算法的良好性能,且在實(shí)際跟蹤場(chǎng)景中具有一定的優(yōu)勢(shì)。多目標(biāo)跟蹤效果如圖11所示。
本文針對(duì)行人多目標(biāo)跟蹤過程中因?yàn)檎趽鯇?dǎo)致的行人ID頻繁切換,跟蹤效果差的問題,提出一種改進(jìn)算法。該算法選用TBD跟蹤范式,設(shè)計(jì)新的特征提取網(wǎng)絡(luò),并且通過引入卷積注意力機(jī)制,提升了模型對(duì)目標(biāo)對(duì)象的表征能力。同時(shí)改進(jìn)了YOLOv5目標(biāo)檢測(cè)算法,考慮加入小目標(biāo)檢測(cè)層和坐標(biāo)注意力機(jī)制使得檢測(cè)更加準(zhǔn)確,進(jìn)而提升了跟蹤的精度和準(zhǔn)確度。實(shí)驗(yàn)表明,本文算法有效緩解了遮擋導(dǎo)致的行人ID頻繁切換的問題,相較于DeepSort算法,ID切換減少了21,MOTA提升了4.8%,并且跟蹤速度也達(dá)到了實(shí)時(shí)性的要求。
[1] LUO W H, XING J L, MILAN A,. Multiple object tracking: a literature review[J]., 2021, 293: 103448.
[2] 羅浩,姜偉,范星,等?基于深度學(xué)習(xí)的行人重識(shí)別研究進(jìn)展[J].自動(dòng)化學(xué)報(bào),2019,45(11):2032-2049.
LUO H, JIANG W, FAN X,. A survey on deep learning based person re-identification[J]., 2019, 45(11): 2032-2049. (in Chinese)
[3] BEWLEY A, GE Z Y, OTT L,. Simple online and realtime tracking[C]//2016(). Phoenix, AZ, USA: IEEE, 2016: 3464-3468.
[4] WOJKE N, BEWLEY A, PAULUS D. Simple online and realtime tracking with a deep association metric[C]//2017(). Beijing, China: IEEE, 2017: 3645-3649.
[5] CHEN L, AI H Z, ZHUANG Z J,. Real-time multiple people tracking with deeply learned candidate selection and person re-identification[C]//2018(). San Diego, CA, USA: IEEE, 2018: 1-6.
[6] WANG Z D, ZHENG L, LIU Y X,. Towards real-time multi-object tracking[M]//VEDALDI A, BISCHOF H, BROX T,2020, Cham: Springer, 2020.
[7] ZHANG Y F, WANG C Y, WANG X G,. FairMOT: on the fairness of detection and re-identification in multiple object tracking[J]., 2021, 129(11): 3069-3087.
[8] DUAN K W, SONG B, XIE L X,. CenterNet: keypoint triplets for object detection[C]//2019/(). Seoul, Korea (South): IEEE, 2019: 6568-6577.
[9] XIE S N, GIRSHICK R, DOLLáR P,. Aggregated residual transformations for deep neural networks[C]//2017(). Honolulu, HI, USA: IEEE, 2017: 5987-5995.
[10] HE K M, ZHANG X Y, REN S Q,. Deep residual learning for image recognition[C]//2016(). Las Vegas, NV, USA: IEEE, 2016: 770-778.
[11] ZHENG Z D, LIANG Z, YI Y. Unlabeled samples generated by GAN improve the person re-identification baseline[C]//2017(). Venice, Italy: IEEE, 2017: 3774-3782.
[12] ZHONG Z, ZHENG L, ZHENG Z D,. Camera style adaptation for person re-identification[C]//2018/. Salt Lake City, UT, USA: IEEE, 2018: 5157-5166.
[13] WOO S, PARK J, LEE J Y,. CBAM: convolutional block attention module[C]//15. Munich. Germany: Springer, 2018: 3-19.
[14] 李天宇,李棟,陳明舉,等.一種高精度的卷積神經(jīng)網(wǎng)絡(luò)安全帽檢測(cè)方法[J].液晶與顯示,2021,36(7):1018-1026.
LI T Y, LI D, CHEN M J,. High precision detection method of safety helmet based on convolution neural network[J]., 2021, 36(7): 1018-1026. (in Chinese)
[15] 趙睿,劉輝,劉沛霖,等.基于改進(jìn)YOLOv5s的安全帽檢測(cè)算法[J/OL].北京航空航天大學(xué)學(xué)報(bào):1-16[2022-01-12].https://kns.cnki.net/kcms/detail/detail.aspx?FileName=BJHK20211120004&DbName=CAPJ2021.
ZHAO R, LIU H, LIU P L,. Research on safety helmet detection algorithm based on improved YOLOv5s [J/OL].: 1-16[2022-01-12]. https://kns.cnki.net/kcms/detail/detail.aspx?FileName=BJHK20211120004&DbName=CAPJ2021.(in Chinese)
[16] 李永上,馬榮貴,張美月.改進(jìn)YOLOv5s+DeepSORT的監(jiān)控視頻車流量統(tǒng)計(jì)[J].計(jì)算機(jī)工程與應(yīng)用,2020,58(5):271-2791.
LI Y S, MA R G, ZHANG M Y. Traffic monitoring video vehicle volume statistics method based on improved YOLOv5s+DeepSORT[J]., 2020, 58(5): 271-279. (in Chinese)
[17] GUO M H, XU T X, LIU J J,. Attention mechanisms in computer vision: a survey[EB/OL]. (2021-11-15)[2022-01-12]. https://arxiv.org/abs/2111.07624.
[18] HU J, SHEN L,ALBANIE S,. Squeeze-and-excitation networks[J]., 2020, 42(8): 2011-2023.
[19] WANG Q L, BANG G W, ZHU P F,. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//2020/(). Seattle, WA, USA: IEEE, 2020: 11531-11539.
[20] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//2021/(). Nashville, TN, USA: IEEE, 2021: 13708-13717.
[21] MILAN A, LEAL-TAIXE L, REID I,. MOT16: a benchmark for multi-object tracking[EB/OL]. (2016-03-02)[2022-01-12]. https://arxiv.org/abs/1603.00831v2.
[22] 鄒北驥,李伯洲,劉姝.基于中心點(diǎn)檢測(cè)和重識(shí)別的多行人跟蹤算法[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2021,46(9):1345-1353.
ZOU B J, LI B Z, LIU S. A multi-pedestrian tracking algorithm based on center point detection and person re-identification[J]., 2021, 46(9): 1345-1353. (in Chinese)
[23] YU F W, LI W B, LI Q Q,. POI: multiple object tracking with high performance detection and appearance feature[M]//HUA G, JéGOU H.2016, Cham: Springer, 2016.
[24] PANG B, LI Y Z, ZHANG Y F,. TubeTK: adopting tubes to track multi-object in a one-step training model[C]//2020(). Seattle, WA, USA: IEEE, 2020: 6307-6317.
Pedestrian multi-target tracking method based on YOLOv5 and person re-identification
HE Yu-ting1,2,CHE Jin1,2*,WU Jin-man1,2
(1,,750021,;2,750021,)
Aiming at the shortcomings of current detection-based multi-target tracking paradigm, a research is conducted based on the algorithm of DeepSort to address the issue of frequent switching of targeted ID resulting from occlusion in tracking process. Firstly,focus should be placed on improving appearance model. Efforts should be made in replacing broadband and residual networks with ResNeXt networks, which introduces the mechanism for convolution attention into the backbone network and establish a new person re-identification network. In doing so, the model can pay more attention to critical information of targets and obtain effective features. Then, YOLOv5 serves as a detection algorithm. Adding detection layer enables the model to respond to targets of different sizes. Moreover, the mechanism for coordinate attention is introduced into the backbone networks. These efforts can further improve the accuracy of detection model. The multi-target tracking experiment is carried out on data sets of MOT16, the multi-target tracking accuracy rate is up to 66.2%, and the multi-target tracking precision ratio is up to 80.8%. All these can meet the needs of real-time tracking.
multi-target tracking; person re-identification; YOLOv5 network; attention mechanism; deep learning
TP391
A
10.37188/CJLCD.2022-0025
1007-2780(2022)07-0880-11
2022-01-24;
2022-02-11.
國(guó)家自然科學(xué)基金(No.61861037)
Supported by National Natural Science Foundation of China(No.61861037)
,E-mail:koalache@126.com
賀愉婷(1988—),女,陜西榆林人,碩士研究生,2020年于西安郵電大學(xué)獲得學(xué)士學(xué)位,主要從事基于深度學(xué)習(xí)的行人再識(shí)別及跟蹤研究。E-mail:2356854359@qq.com
車進(jìn)(1973—),男,寧夏銀川人,博士,教授,2014年于天津大學(xué)獲得博士學(xué)位,主要從事圖像處理、智能視頻方面的研究。E-mail:koalache@126.com