劉曉雷 張維忠 張宏峰
(1.青島大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,山東 青島 266071;2.青島大學(xué)威海創(chuàng)新研究院,山東 威海 264200;3.青島點(diǎn)之云智能科技有限公司,山東 青島 266071)
精確的公交客流量數(shù)據(jù)對(duì)智能交通具有重要意義,可以更好地了解每個(gè)時(shí)間段、每路公交車及每個(gè)車站的人流量,幫助公交調(diào)度人員更及時(shí)準(zhǔn)確地調(diào)度,幫助公交線網(wǎng)規(guī)劃人員更科學(xué)合理的線網(wǎng)規(guī)劃,使公共資源得到更充分的利用,提高用戶乘車體驗(yàn),為城市綜合交通體系規(guī)劃與評(píng)價(jià)提供基礎(chǔ)數(shù)據(jù)。近年來(lái),許多學(xué)者對(duì)該領(lǐng)域進(jìn)行深入研究,但實(shí)際應(yīng)用中存在一定局限性。A.J.KOTZ等人[1]使用光電開(kāi)關(guān)獲取公效客流信息,但無(wú)法判斷兩人并排上車的情況:丁高峰[2]利用壓力傳感器統(tǒng)計(jì)公交車客流量,但壓力傳感器容易損壞,且維護(hù)成本高。以上2種方法在擁擠情況下表現(xiàn)較差,現(xiàn)已基本被淘汰。張國(guó)林等人[3-5]通過(guò)乘客攜帶電子設(shè)備的無(wú)線通信技術(shù)、藍(lán)牙或媒體存取控制(media access control address,MAC)地址等信息,定位乘客大致位置,獲取上下車人數(shù),但這些技術(shù)目前也存在著諸多挑戰(zhàn),如有些乘客不攜帶或攜帶多個(gè)電子設(shè)備,易受公交車外電子設(shè)備的干擾,許多設(shè)備提供虛假的動(dòng)態(tài)MAC地址等。陳天宇等人[6-7]用深度圖像去噪算法研究,但結(jié)構(gòu)光相機(jī)和飛行時(shí)間相機(jī)成本較高,雙目相機(jī)圖像易受紋理影響,無(wú)法保證穩(wěn)定性;Y.W.HSU 等人[8-9]使用彩色圖像,利用傳統(tǒng)的數(shù)字圖像處理方法,但由于場(chǎng)景復(fù)雜,該方法通常不能獲得較高的準(zhǔn)確率。近年來(lái),深度學(xué)習(xí)發(fā)展較快,目標(biāo)檢測(cè)模型準(zhǔn)確率不斷提高,同時(shí)也提出了許多部署在移動(dòng)端的網(wǎng)絡(luò),為采用彩色圖像獲取較高準(zhǔn)確率的客流數(shù)據(jù)提供可能。彩色圖像成本低,且不需要昂貴的深度相機(jī),甚至可以使用公交車已有的監(jiān)控視頻,光照不敏感,通過(guò)訓(xùn)練可以實(shí)現(xiàn)在強(qiáng)光或光線不足的情況下正確統(tǒng)計(jì)客流量等優(yōu)點(diǎn)。N.WOJKE等人[10-11]提出Tracking-by-detection的多目標(biāo)跟蹤方法;WANG Z 等人[12-15]提出基于檢測(cè)和跟蹤聯(lián)合的多目標(biāo)跟蹤方法;SUN P等人[16-17]提出基于注意力機(jī)制的多目標(biāo)跟蹤方法,這些方法可得到較高精確率但實(shí)時(shí)性較差,基本無(wú)法在移動(dòng)端運(yùn)行?;诖?本文使用青島公交車內(nèi)的視頻監(jiān)控,以實(shí)時(shí)多目標(biāo)跟蹤算法SORT 為基礎(chǔ),結(jié)合目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOX,并根據(jù)檢測(cè)公交客流的場(chǎng)景進(jìn)行改進(jìn),實(shí)驗(yàn)表明,改進(jìn)的YOLOX-SORT 滿足實(shí)際應(yīng)用的需求。
本文從4個(gè)方面對(duì)YOLOX-SORT 算法進(jìn)行改進(jìn)。第一種改進(jìn)方法是調(diào)整SORT 算法的結(jié)構(gòu),使SORT 算法的預(yù)測(cè)結(jié)果可被目標(biāo)檢測(cè)網(wǎng)絡(luò)使用;第二種改進(jìn)方法是將YOLOX[18]中Focus結(jié)構(gòu)更換為普通的卷積層,使算法更容易部署在移動(dòng)端;第三種改進(jìn)方法是將Sigmoid-BCELoss損失函數(shù)更換為Focal Loss損失函數(shù)[19],緩解正負(fù)樣本不均勻,同時(shí)有利于學(xué)習(xí)復(fù)雜樣本;第四種改進(jìn)方法是針對(duì)公交客流的場(chǎng)景調(diào)整了數(shù)據(jù)增強(qiáng)策略。
在一次運(yùn)動(dòng)模型目標(biāo)預(yù)測(cè)方面,基于SORT 算法具有較好的準(zhǔn)確性,本文將SORT 算法的預(yù)測(cè)信息與當(dāng)前圖像送入目標(biāo)檢測(cè)網(wǎng)絡(luò),提高目標(biāo)檢測(cè)網(wǎng)絡(luò)的精確率。改進(jìn)的SORT 算法流程圖如圖1所示。
圖1 改進(jìn)的SORT算法流程圖
在視頻流中,卡爾曼濾波器利用第k-1幀圖像的相關(guān)參數(shù)預(yù)測(cè)第k(k≠1)幀圖像中目標(biāo)的位置信息,將預(yù)測(cè)結(jié)果生成目標(biāo)位置掩膜(蒙版),與第k幀圖像按不同權(quán)重疊加,將疊加后的圖像送入YOLOX 進(jìn)行目標(biāo)檢測(cè),Kuhn-Munkres算法將卡爾曼濾波器的預(yù)測(cè)結(jié)果與YOLOX 的檢測(cè)結(jié)果進(jìn)行匹配,并根據(jù)情況為YOLOX檢測(cè)結(jié)果中的目標(biāo)框分配ID,最后利用Kuhn-Munkres算法匹配后的結(jié)果更新卡爾曼濾波器的相關(guān)參數(shù),為預(yù)測(cè)第k+1幀中目標(biāo)位置做準(zhǔn)備,同時(shí)利用目標(biāo)軌跡判斷乘客上下車行為。預(yù)測(cè)信息與當(dāng)前幀融合過(guò)程如圖2所示。圖2a為卡爾曼濾波器根據(jù)k-1幀中目標(biāo)的信息,預(yù)測(cè)目標(biāo)在第k幀中的位置,以紅色半透明區(qū)域(蒙版)體現(xiàn)目標(biāo)的位置和大小;圖2b為第k幀圖像;圖2c為圖2a和圖2b按3∶7權(quán)重疊加結(jié)果。
圖2 預(yù)測(cè)信息與當(dāng)前幀融合過(guò)程
圖像在進(jìn)入YOLOX主干網(wǎng)絡(luò)之前會(huì)經(jīng)過(guò)Focus結(jié)構(gòu),Focus結(jié)構(gòu)如圖3所示。將圖片的行和列進(jìn)行間隔像素采樣,形成新圖片,在不損失信息量的情況下,將通道擴(kuò)充4倍,相當(dāng)于下采樣功能。由于Focus非常規(guī)運(yùn)算的結(jié)構(gòu)不利于網(wǎng)絡(luò)在移動(dòng)端部署,因此將Focus結(jié)構(gòu)替換為卷積核大小為2,步距為2的普通卷積層。
圖3 Focus結(jié)構(gòu)
自建數(shù)據(jù)集中,59%的圖像中目標(biāo)數(shù)未超過(guò)3人,導(dǎo)致計(jì)算目標(biāo)損失時(shí)出現(xiàn)正負(fù)樣本之比小于1/4的情況,為緩解正負(fù)樣本和難易樣本不均衡問(wèn)題,本文將原來(lái)的Sigmoid-BCELoss更換為Focal Loss,更換后準(zhǔn)確率上升了0.9%。實(shí)驗(yàn)參數(shù)r為1.5,α為0.25時(shí),效果最優(yōu)。Focal Loss的計(jì)算公式為
式中,y′為預(yù)測(cè)值,取值為0~1;α和r為超參數(shù),r與均衡正負(fù)樣本相關(guān),α與加強(qiáng)對(duì)難樣本的學(xué)習(xí)相關(guān)。
使用卡爾曼濾波器預(yù)測(cè)的結(jié)果作為蒙版,如圖2a所示,將蒙版疊加在原圖作為訓(xùn)練的數(shù)據(jù)集如圖2c所示,由于公交車內(nèi)攝像機(jī)安裝高度有限,不會(huì)出現(xiàn)目標(biāo)過(guò)大或者過(guò)小的情況,因此修改Mosaic數(shù)據(jù)增強(qiáng)過(guò)程中原圖的隨機(jī)縮放比例。同時(shí),為提高目標(biāo)被遮擋情況下的準(zhǔn)確率,在Mosaic數(shù)據(jù)增強(qiáng)過(guò)程中對(duì)原圖進(jìn)行隨機(jī)裁剪再拼接,最終將訓(xùn)練圖像尺寸調(diào)整為416×416。通過(guò)隨機(jī)增強(qiáng)和降低亮度來(lái)模擬強(qiáng)光和光線不足的情況,解決在特定場(chǎng)景下數(shù)據(jù)集缺乏問(wèn)題,提高網(wǎng)絡(luò)的魯棒性。數(shù)據(jù)增強(qiáng)后效果如圖4所示,圖4a為模擬現(xiàn)實(shí)中陽(yáng)光較強(qiáng)的場(chǎng)景,如夏季正午,圖4b為模擬現(xiàn)實(shí)中光照不足的場(chǎng)景,如傍晚或夜間。
圖4 數(shù)據(jù)增強(qiáng)后效果
本文網(wǎng)絡(luò)訓(xùn)練硬件環(huán)境為Intel Xeon Gold 5118、64 GB內(nèi)存、Tesla V100-PCIE 顯存16 GB;軟件環(huán)境為在Ubuntu 18.04.3 LTS操作系統(tǒng)下,使用Py Torch深度學(xué)習(xí)框架;程序運(yùn)行的硬件環(huán)境為雙Cortex-A72大核、四Cortex-A53小核處理器、ARM Mali-T860 MP4四核圖形處理器(graphics processing unit,GPU)、神經(jīng)網(wǎng)絡(luò)處理器(neural-network processing unit,NPU)算力3TPOS、LPDDR3 6 GB 內(nèi)存(NPU 2 GB +CPU 4 GB)。
自建數(shù)據(jù)集來(lái)自青島公交公司監(jiān)控視頻,公交車監(jiān)控圖像如圖5所示。視頻包括夏季和冬季、客流高峰期與低谷期、一天中的多個(gè)時(shí)段,與實(shí)際情況相符。視頻選取3 237人次上下車,其中2 580人次作為訓(xùn)練集,657人次作為驗(yàn)證集,圖中均為俯視視角,目的是減少遮擋帶來(lái)的ID 交換問(wèn)題,同時(shí),選取人頭作為識(shí)別目標(biāo),進(jìn)一步緩解遮擋問(wèn)題。
圖5 公交車監(jiān)控圖像
使用余弦退火衰減策略動(dòng)態(tài)調(diào)整學(xué)習(xí)率,設(shè)置最小學(xué)習(xí)率為0.05,將訓(xùn)練好的PTH 格式的模型轉(zhuǎn)化為開(kāi)放神經(jīng)網(wǎng)絡(luò)交換(open neural network exchange,ONNX)格式,再使用RKNN Toolkit,將ONNX 格式的模型轉(zhuǎn)化成可以在NPU 上加速的RKNN 格式的模型,最后在移動(dòng)端使用RKNN 庫(kù)中的相關(guān)接口,加載和使用RKNN 格式的模型,最終實(shí)現(xiàn)利用NPU 加速推理的過(guò)程。
本文對(duì)YOLOX-SORT 進(jìn)行了3 種改進(jìn)(下文將經(jīng)過(guò)3 次改進(jìn)的 YOLOX-SORT 稱為“改進(jìn)的YOLOX-SORT”),最終在自建數(shù)據(jù)集上實(shí)驗(yàn)驗(yàn)證,改進(jìn)的YOLOX-SORT 比原YOLOX-SORT 精確率提高了4.8%,召回率提高5.5%。不同方法的精確率與召回率實(shí)驗(yàn)結(jié)果如表1所示,其中方法1是在YOLOXSORT 的基礎(chǔ)上,使用調(diào)整后的Mosaic數(shù)據(jù)增強(qiáng);方法2在方法1的基礎(chǔ)上將Sigmoid-BCELoss替換為Focal Loss;方法3在方法2的基礎(chǔ)上改進(jìn)SORT 算法。
表1 不同方法的精確率與召回率實(shí)驗(yàn)結(jié)果
在150輪的訓(xùn)練過(guò)程中,精確率與召回率變化過(guò)程如圖6所示。由圖6可以看出,精確率大約都在75輪時(shí)收斂,召回率大約都在70輪時(shí)收斂。
圖6 精確率與召回率變化過(guò)程
原YOLOX-SORT 算法與改進(jìn)的YOLOX-SORT 算法的多目標(biāo)跟蹤[20](multiple object tracking,MOT)指標(biāo)對(duì)比如表2所示,當(dāng)目標(biāo)正確匹配軌跡次數(shù)大于軌跡長(zhǎng)度的80%時(shí),認(rèn)為該軌跡被正確檢測(cè);當(dāng)目標(biāo)正確匹配軌跡次數(shù)小于軌跡長(zhǎng)度的20%時(shí),認(rèn)為該軌跡被錯(cuò)誤檢測(cè)。其中MT(mostly tracked)指檢測(cè)正確的軌跡數(shù)量占總軌跡數(shù)量的比值,值越高越好;ML(mostly lost)指檢測(cè)錯(cuò)誤的軌跡數(shù)量占總軌跡數(shù)量的比值,值越小越好;FP(false positive)指真實(shí)情況中不存在目標(biāo),跟蹤算法誤檢出目標(biāo)存在;FN(false negative)指真實(shí)情況中存在目標(biāo),跟蹤算法漏檢;IDsw(ID switch)指目標(biāo)ID切換次數(shù);多目標(biāo)跟蹤準(zhǔn)確率(multiple object tracking accuracy,MOTA),即AMOT,可以較好地反映跟蹤準(zhǔn)確度。其計(jì)算公式為
表2 原YOLOX-SORT算法與改進(jìn)的YOLOX-SORT算法的MOT指標(biāo)對(duì)比
式中,GT(ground truth)為真實(shí)目標(biāo)框數(shù)量;t表示視頻流中的第t幀。
本文對(duì)比了不同方法在移動(dòng)端部署YOLOX-SORT 算法的檢測(cè)幀率,實(shí)驗(yàn)1將算法直接部署在移動(dòng)端,利用CPU 進(jìn)行推理,檢測(cè)幀率為4幀/s;實(shí)驗(yàn)2將算法轉(zhuǎn)化為ONNX格式,利用NPU 進(jìn)行加速推理,檢測(cè)幀率為19幀/s;實(shí)驗(yàn)3在實(shí)驗(yàn)2的基礎(chǔ)上將Focus替換為普通卷積層,檢測(cè)幀率為20 幀/s。實(shí)驗(yàn)表明,使用NPU 進(jìn)行加速推理可使推理速度提升近5倍,將Focus替換為普通卷積層也能將推理速度提升1幀/s。
算法檢測(cè)效果如圖7所示。圖中黃色半透明區(qū)域?yàn)樽R(shí)別區(qū),當(dāng)目標(biāo)軌跡從下至上穿過(guò)識(shí)別區(qū),則認(rèn)為乘客發(fā)生下車行為,反之則認(rèn)為是上車行為。劃定識(shí)別區(qū)域時(shí)應(yīng)選擇乘客發(fā)生遮擋次數(shù)少的區(qū)域以減少遮擋引起的ID 交換,靠近車門(mén)以避免擁擠時(shí)乘客在識(shí)別區(qū)長(zhǎng)期停留導(dǎo)致的錯(cuò)誤計(jì)數(shù)。紅色半透明區(qū)域?yàn)榭柭鼮V波器預(yù)測(cè)結(jié)果,藍(lán)色框?yàn)楦倪M(jìn)的YOLOXSORT 算法檢測(cè)結(jié)果。
圖7 算法檢測(cè)效果
改進(jìn)的YOLOS-SORT 算法與其他客流檢測(cè)算法比較如表3所示。精確率P和召回率R分別為
表3 改進(jìn)的YOLOX-SORT算法與其他客流檢測(cè)算法比較
其中,TP為被正確檢測(cè)的正例,即真實(shí)情況中乘客發(fā)生上車或下車行為,檢測(cè)值也對(duì)應(yīng)為上車或下車行為;TN為被正確檢測(cè)的反例,即真實(shí)情況中乘客沒(méi)有發(fā)生上車或下車行為,檢測(cè)值也對(duì)應(yīng)為沒(méi)有上車或下車行為;FP為被錯(cuò)誤檢測(cè)的正例,即真實(shí)情況中乘客發(fā)生上車或下車行為,但被檢測(cè)為沒(méi)有發(fā)生上車或下車行為;FN為被錯(cuò)誤檢測(cè)的反例,即真實(shí)情況中沒(méi)有乘客發(fā)生上車或下車行為,但被檢測(cè)為乘客發(fā)生上車或下車行為。
由表3可以看出,改進(jìn)的YOLOX-SORT 的各項(xiàng)指標(biāo)均優(yōu)于原YOLOX-SORT,在精確率、召回率與YOLOX-DEEPSORT、Center Track相差不大的情況下檢測(cè)幀率高于YOLOX-DEEPSORT 和Center Track約2倍。
本文從公交客流統(tǒng)計(jì)的實(shí)際問(wèn)題出發(fā),分析了目前各種獲取公交客流數(shù)據(jù)技術(shù)的優(yōu)缺點(diǎn),提出一種利用彩色圖像進(jìn)行實(shí)時(shí)客流檢測(cè)方法。該方法將卡爾曼濾波器預(yù)測(cè)信息作為目標(biāo)檢測(cè)的依據(jù)之一,在特定情況下實(shí)現(xiàn)了不增加運(yùn)算量的情況下提高目標(biāo)檢測(cè)的精確度。實(shí)驗(yàn)結(jié)果表明,該方法精確度和速度較為均衡,均能滿足實(shí)際需要,此外,該系統(tǒng)也可應(yīng)用于商圈、景區(qū)等,也可推廣至其他多目標(biāo)在線跟蹤、計(jì)數(shù)領(lǐng)域,如車流量檢測(cè)。下一步的研究重點(diǎn)前門(mén)上車乘客與后門(mén)下車乘客重識(shí)別問(wèn)題,以獲取每位乘客何時(shí)何地上下車及乘車時(shí)間、距離等乘車信息,提供更加豐富的客流數(shù)據(jù)。