張 馨,董承梁,汪曉臣,田 源
(1.中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計算技術(shù)研究所,北京 100081;2.北京京港地鐵有限公司 運(yùn)營工程部,北京 100068)
北京、上海等城市地鐵日客流量均突破千萬人次,大規(guī)模的客流沖擊給城市軌道交通(簡稱:城軌)運(yùn)營帶來諸多安全風(fēng)險。實(shí)時準(zhǔn)確地檢測車廂客流能為及時調(diào)整行車調(diào)度計劃、引導(dǎo)站廳內(nèi)客流等提供數(shù)據(jù)支撐。
傳統(tǒng)的列車車廂客流密度檢測多采用物理傳感器檢測方式,包括壓力傳感器、紅外檢測裝置、熱敏傳感器等[1]。其中,壓力傳感器將經(jīng)過的乘客重力轉(zhuǎn)換為電信號來統(tǒng)計客流,由于乘客重量不一,這種檢測方式準(zhǔn)確性較差;紅外和熱敏檢測裝置分別通過紅外熱成像和熱輻射轉(zhuǎn)化原理檢測客流密度,但在客流密度較大、乘客相互重疊的情況下,兩種設(shè)備的檢測精度均受到影響。近年來,隨著各類圖像數(shù)據(jù)庫的建立和圖形處理器(GPU,Graphics Processing Unit)的快速發(fā)展,深度學(xué)習(xí)技術(shù)得到了廣泛的研究和應(yīng)用,基于深度學(xué)習(xí)的方法也被應(yīng)用于客流密度檢測中[2]。例如,基于城軌列車車載閉路電視監(jiān)控(CCTV,Closed-Circuit Television)系統(tǒng)實(shí)現(xiàn)對車廂的實(shí)時監(jiān)控,再通過深度學(xué)習(xí)模型對列車車廂客流進(jìn)行精準(zhǔn)檢測。
Sun等人[3]提出了一種基于YOLOv3(You Only Look Once v3)增強(qiáng)模型的人流密度估計方法,分別用頭部集和身體集訓(xùn)練得到兩個模型,在推理時將這兩個模型的輸出結(jié)果進(jìn)行融合,但該方法增加了計算成本、延長了推理時間;S.Ren等人[4]提出了Faster RCNN模型,能夠通過訓(xùn)練好的模型實(shí)時檢測圖像中目標(biāo)框的數(shù)量,進(jìn)行人群計數(shù),但在高度遮擋場景中,該方法準(zhǔn)確度較差;Liu等人[5]在Faster RCNN的基礎(chǔ)上進(jìn)行改進(jìn),提出了一種檢測和回歸相結(jié)合的人群計數(shù)模型DecideNet,該方法準(zhǔn)確度有所提升,但依然存在兩階段檢測模型計算量大、內(nèi)存需求高,難以應(yīng)用于嵌入式設(shè)備的問題。
目前,在各種深度學(xué)習(xí)目標(biāo)檢測模型中,YOLOv5因其模型輕量、容易部署、推理速度快而廣泛用于各類實(shí)時性要求較強(qiáng)的應(yīng)用中[1]。其中,YOLOv5s更適用于客流密度檢測這一準(zhǔn)確性和實(shí)時性的要求均較高的應(yīng)用。針對城軌列車車廂場景中存在的人群密集、乘客間相互遮擋等問題,本文提出了一種基于改進(jìn)YOLOv5s模型的列車車廂客流密度檢測方法,有效提高了檢測精度和效率。
YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)分為輸入(Input)、主干(BackBone)、瓶頸(Neck)及輸出(Prediction)4部分:輸入端采用了Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框及自適應(yīng)圖片縮放3種方法,用于增強(qiáng)模型對小目標(biāo)的檢測效果并提高推理速度;BackBone網(wǎng)絡(luò)中采用了Focus和跨階段局部網(wǎng)絡(luò)(CSPNet,Cross Stage Partial Network)結(jié)構(gòu);Neck網(wǎng)絡(luò)中采用了特征金字塔網(wǎng)絡(luò)(FPN,F(xiàn)eature Pyramid Network)+路徑聚合網(wǎng)絡(luò)(PAN,Path Aggregation Network)結(jié)構(gòu);在輸出部分,采用了復(fù)雜交并比(CIoU,Complete Intersection over Union)作為邊界框的(Bounding box)損失函數(shù)及非極大值抑制(NMS,Non-Maximum Suppression)方法。根據(jù)網(wǎng)絡(luò)深度和寬度的不同,YOLOv5分 為YOLOv5s、YOLOv5m、YOLOv5l、YOLOV5x 共4種,其中,YOLOv5s的網(wǎng)絡(luò)寬度和深度最小,參數(shù)量僅有7.2 M、因此速度最快,更適用于本文的客流密度檢測應(yīng)用。YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示,輸入圖像為經(jīng)數(shù)據(jù)增強(qiáng)及自適應(yīng)縮放等操作后得到的608×608×3的圖像,定義BackBone中Focus結(jié)構(gòu)使用32個卷積核,設(shè)計了兩種CSPNet架構(gòu)CSP1_X和CSP2_X,分別應(yīng)用于BackBone和Neck中。
圖1 YOLOv5s網(wǎng)絡(luò)架構(gòu)
圖2 模型建立流程
在Neck網(wǎng)絡(luò)中,YOLOv5s采用的是FPN+PAN結(jié)構(gòu),如圖3所示,自頂向下傳遞深層的強(qiáng)語義特征,再通過自底向上的路徑增強(qiáng)方式,將淺層的強(qiáng)定位特征傳上去,縮短了信息路徑。但FPN+PAN結(jié)構(gòu)中,存在只有一條輸入邊的節(jié)點(diǎn)未進(jìn)行特征融合的情況,因此,在特征融合網(wǎng)絡(luò)中相較于其他的節(jié)點(diǎn)其貢獻(xiàn)較小。為降低計算成本且融合更多特征,文獻(xiàn)[6]提出了一種加權(quán)的雙向特征金字塔網(wǎng)絡(luò)(BiFPN ),去掉兩個只有一條輸入邊的節(jié)點(diǎn),并添加了一條連接原始輸入節(jié)點(diǎn)及其同水平輸出節(jié)點(diǎn)的額外的邊,如圖4所示。
圖3 FPN+PAN結(jié)構(gòu)示意
圖4 BiFPN結(jié)構(gòu)示意
為更有效地融合不同層級的特征,提高檢測精度,本文使用BiFPN結(jié)構(gòu)代替YOLOv5s原本的FPN+PAN結(jié)構(gòu)實(shí)現(xiàn)特征融合功能,改進(jìn)后的YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 改進(jìn)后的YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)
在計算候選框損失函數(shù)的回歸損失部分時,YOLOv5s采用了CIoU,以重疊面積、中心點(diǎn)距離及長寬比3項(xiàng)因素作為評估標(biāo)準(zhǔn),對候選框進(jìn)行全面評估。但在城軌列車車廂場景中,客流量大時人群密集大、乘客間遮擋情況嚴(yán)重,各目標(biāo)間距離較近且重合度較高,僅依靠CIoU計算回歸損失可能會導(dǎo)致不準(zhǔn)確的定位。
本文受文獻(xiàn)[7]啟發(fā),定義了一種損失函數(shù)計算方式,來解決檢測目標(biāo)相互遮擋的問題,忽略預(yù)測框與其他非最佳匹配的真實(shí)框之間的關(guān)系,只期望在距離和面積兩方面預(yù)測框和對應(yīng)真實(shí)框盡可能地重合,本文定義的損失函數(shù)計算公式為
其中,LDis為預(yù)測框與其最匹配的真實(shí)框間的距離損失;LGIoU為預(yù)測框與其最匹配的真實(shí)框間的重疊面積損失。
距離損失LDis的計算公式為
“‘活力老人’是目前日間托管機(jī)構(gòu)的主要群體,但對家庭、社會來說,更需要解決的可能是對失能、半失能老人的照護(hù),但在這些業(yè)務(wù)的開展上,社區(qū)養(yǎng)老中心每走一步,都像摸著石頭過河,困難很多?!睆堈衩勒f。
式中,各預(yù)測框與其最匹配的真實(shí)框間距離L的計算采用歐式距離;P為預(yù)測框;P+為所有預(yù)測框P的集合;|P+|為集合P+中預(yù)測框的數(shù)量;GP為與P最匹配的真實(shí)框,即在所有真實(shí)框的集合G+中,與P的IoU值最大的真實(shí)框,。
重疊面積損失LGIoU采用GIoU作為評估標(biāo)準(zhǔn),其計算公式為
式中,C為預(yù)測框P與真實(shí)框GP最小的矩形封閉對象;IoU為預(yù)測框P與真實(shí)框GP的交并比值,。
YOLOv5s在消除冗余框時,采用了NMS方法,但在車廂客流密度檢測這類密集目標(biāo)檢測的應(yīng)用中,正確的預(yù)測框很可能因與得分最高的預(yù)測框重疊面積較大而被錯誤地刪除,且檢測效果受閾值大小影響,不恰當(dāng)?shù)拈撝翟O(shè)置可能會導(dǎo)致檢測效果較差。針對NMS存在的上述問題,文獻(xiàn)[8]提出了一種Soft-NMS方法,不直接刪除預(yù)測框,而是根據(jù)與得分最高預(yù)測框的IoU值調(diào)整原本的得分。
然而,當(dāng)預(yù)測框與最高得分預(yù)測框相距較遠(yuǎn)且IoU值較低時,盲目降低預(yù)測框的得分值并不合理;當(dāng)相距較近且IoU值較高時,Soft-NMS不能直接令與最高得分預(yù)測框完全重疊的預(yù)測框得分降為零,可能導(dǎo)致重疊框剔除不完全的情況。針對上述問題,本文提出了一種結(jié)合NMS和Soft-NMS的冗余框消除方法D-NMS,根據(jù)距離,選擇其中一種方法重新計算預(yù)測框得分,具體流程如圖6所示。
圖6 D-NMS算法流程
其中,當(dāng)前預(yù)測框bi與最高得分預(yù)測框M的距離dis(M,bi)=d/c,d、c的定義如圖7所示,圖7中灰色框與黑色框分別表示當(dāng)前預(yù)測框與得分最高的預(yù)測框,d為兩框中心點(diǎn)距離,c為兩框最小外接矩形對角線長度;f(IoU(M,bi))為Soft-NMS采用的高斯懲罰函數(shù),其計算公式為
圖7 預(yù)測框間距離示意
本文采用CVC05-PartOcclusion行人檢測數(shù)據(jù)集與自制地鐵車廂乘客數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),來驗(yàn)證本文改進(jìn)的YOLOv5s方法的有效性。
CVC05-PartOcclusion行人檢測數(shù)據(jù)集來自CVC行人檢測數(shù)據(jù)庫,是一個部分被遮擋的行人數(shù)據(jù)集。按7∶3劃分訓(xùn)練集和測試集,訓(xùn)練集共包含415張圖像,測試集包含178張圖像。
自制數(shù)據(jù)集為采集的地鐵車廂圖像,對圖像中乘客頭部進(jìn)行標(biāo)注后得到包含不同客流密度情況的圖像,共185張。按7∶3的比例劃分訓(xùn)練集和測試集,訓(xùn)練集包含130張圖像,測試集包含55張圖像。
為滿足YOLOv5s模型檢測格式,數(shù)據(jù)集中每條標(biāo)注數(shù)據(jù)的內(nèi)容應(yīng)依次為標(biāo)注物類別數(shù)字代號、標(biāo)注框中心點(diǎn)橫坐標(biāo)、標(biāo)注框中心點(diǎn)縱坐標(biāo)、標(biāo)注框?qū)挾?、?biāo)注框高度,且標(biāo)注框中心點(diǎn)坐標(biāo)值、標(biāo)注框?qū)挾戎导案叨戎稻鶠榻?jīng)歸一化處理后的值。因此,需對數(shù)據(jù)集的標(biāo)注數(shù)據(jù)進(jìn)行歸一化處理。
CVC05-PartOcclusion行人檢測數(shù)據(jù)集的官方標(biāo)注數(shù)據(jù)格式為標(biāo)注物類別名稱、標(biāo)注框左上角橫坐標(biāo)、標(biāo)注框左上角縱坐標(biāo)、標(biāo)注框?qū)挾?、?biāo)注框高度,其中,標(biāo)注框左上角坐標(biāo)值、寬度值及高度值均以像素為單位。需對標(biāo)注數(shù)據(jù)進(jìn)行如下處理:(1)將標(biāo)注物類別名稱替換為對應(yīng)的數(shù)字代號;(2)根據(jù)標(biāo)注框左上角坐標(biāo)及標(biāo)注框?qū)捀哂嬎銟?biāo)注框中心點(diǎn)的坐標(biāo)值,并用中心點(diǎn)坐標(biāo)替換左上角坐標(biāo);(3)將坐標(biāo)值及寬高值進(jìn)行歸一化處理。
自制數(shù)據(jù)集采用LabelImg標(biāo)注工具,選擇YOLO標(biāo)簽格式進(jìn)行標(biāo)注,得到符合YOLOv5s模型檢測格式要求的標(biāo)注數(shù)據(jù)。
本文共采用F1-Score、AP50及AP50:5:95共3個評價指標(biāo)來評估算法的性能。
(1) F1-Score
F1-Score為精準(zhǔn)率P和召回率R的調(diào)和平均,綜合考慮了這兩個指標(biāo),F(xiàn)1-Score值越大,模型質(zhì)量越高。其計算公式為。
(2) AP50
平均精度(AP,Average Precision)值通過計算PR曲線,即將召回率R設(shè)置為橫軸,精準(zhǔn)率P設(shè)置為縱軸所構(gòu)成的曲線的面積得到,AP值越大,模型越能同時保持較高的準(zhǔn)確率和召回率。AP50為IoU閾值設(shè)置為50%時的平均檢測精度,是針對單一類別的精度。AP50值越大,模型質(zhì)量越高。
(3) AP5:5:95
AP50:5:95為IoU閾值取值從50%到95%,步長為5%時,所有AP的均值。該指標(biāo)能夠綜合衡量不同IoU閾值下模型的性能,AP50:5:95值越大,模型質(zhì)量越高。
分別應(yīng)用原YOLOv5s模型與改進(jìn)后的YOLOv5s模型在CVC05-PartOcclusion行人檢測數(shù)據(jù)集及自制地鐵車廂乘客數(shù)據(jù)集上進(jìn)行訓(xùn)練。實(shí)驗(yàn)運(yùn)行環(huán)境為:CPU為Intel i7-1065G7,GPU為NVIDIA GeForce MX350,內(nèi)存為10 G,操作系統(tǒng)為Windows10,開發(fā)語言為Python,使用了Pytorch深度學(xué)習(xí)框架,具有支持動態(tài)修改的優(yōu)勢。
應(yīng)用經(jīng)訓(xùn)練得到的兩種模型對測試樣本進(jìn)行測試,得到的檢測結(jié)果對比如圖8、圖9所示,其中,圖8(a)和圖9(a)為應(yīng)用原YOLOv5s模型的檢測結(jié) 果;圖8(b)和 圖9(b)為 應(yīng) 用 改 進(jìn) 的YOLOv5s模型的檢測結(jié)果;圖8(c)和圖9(c)為檢測前圖像;圖8(d)和圖9(d)為改進(jìn)后模型檢測時識別到的原模型未識別到的檢測目標(biāo)。
圖8 CVC05-PartOcclusion行人檢測數(shù)據(jù)集測試結(jié)果對比
圖9 自制地鐵車廂乘客數(shù)據(jù)集測試結(jié)果對比
綜上,應(yīng)用改進(jìn)后的YOLOv5s模型進(jìn)行檢測的結(jié)果能識別出部分原YOLOv5s模型無法識別出的被遮擋的目標(biāo),檢測結(jié)果更為準(zhǔn)確,更適用于城軌列車車廂這類人群密集、遮擋嚴(yán)重的環(huán)境。
為驗(yàn)證本文提出的改進(jìn)后的YOLOv5模型與原YOLOv5模型相比性能有無提高,依據(jù)F1-Score、AP50、AP50:5:95這3項(xiàng)評價指標(biāo)對比兩種模型的檢測性能,結(jié)果如表1和表2所示。
表1 改進(jìn)模型與原模型在CVC05數(shù)據(jù)集上的檢測性能對比
表2 改進(jìn)模型與原模型在自制數(shù)據(jù)集上的檢測性能對比
由表1、表2可知,在CVC05數(shù)據(jù)集上,改進(jìn)后的模型較原模型F1-Score指標(biāo)提高了0.5%,AP50指標(biāo)提高了2.8%,AP50:5:95指標(biāo)提高了4.7%;在自制數(shù)據(jù)集上,改進(jìn)后的模型較原模型F1-Score指標(biāo)提高了0.5%,AP50指標(biāo)提高了0.9%,AP50:5:95指標(biāo)提高了6.3%。因此本文提出的改進(jìn)模型能有效提高檢測精度,性能更好。
本文提出了一種基于深度學(xué)習(xí)的車廂客流密度檢測方法,采用了改進(jìn)的YOLOv5s模型對車載CCTV系統(tǒng)監(jiān)控進(jìn)行實(shí)時檢測,在列車車廂人群密集、遮擋嚴(yán)重的情況下,能更準(zhǔn)確地識別車廂中的乘客目標(biāo)。本文對特征融合網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,以融合更多特征;重新定義了損失函數(shù),以在遮擋情景中更可靠地評估檢測結(jié)果;為避免客流密度較大時將真實(shí)目標(biāo)框誤刪除,對消除冗余框的NMS方法進(jìn)行了改進(jìn)。最后,在CVC05數(shù)據(jù)集及自制數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文改進(jìn)的YOLOv5s
模型能有效解決遮擋問題,檢測精度較改進(jìn)前明顯提高,證明了本文方法的有效性,可應(yīng)用于城軌列車車廂客流檢測技術(shù)領(lǐng)域。