国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向多目標跟蹤的密集行人群軌跡提取和運動語義感知

2021-12-31 03:52游峰梁健中曹水金肖智豪吳鎮(zhèn)江王?,|
關(guān)鍵詞:源點協(xié)方差行人

游峰,梁健中,曹水金,肖智豪,吳鎮(zhèn)江,王?,|

(1.華南理工大學,土木與交通學院,廣州 510641;2.華南理工大學,亞熱帶建筑科學國家重點實驗室,廣州 510640;3.廣東交通職業(yè)技術(shù)學院,運輸與經(jīng)濟管理學院,廣州 510650)

0 引言

隨著我國汽車保有量的增長,我國城市道路車流量逐年攀升。同時,慢行交通、TOD 等交通設(shè)計理念在城市規(guī)劃中不斷得到認可,城市的步行空間和功能也日益豐富和完善,促進了步行交通的發(fā)展。然而,行人作為交通參與者中的弱勢群體,面臨著嚴峻的安全問題。世界衛(wèi)生組織統(tǒng)計數(shù)據(jù)顯示,行人占道路交通事故總死亡人數(shù)的23%[1],我國每年約有10萬人在車禍中喪生,其中,約25%是行人。研究表明,行人受傷害嚴重程度隨車輛撞擊速度增加而明顯增加[2],若車輛時速在35 km以下,行人的存活機會為90%;時速在65 km 時,存活機會將低于50%。為此,使車輛盡早感知行人存在,并避免或緩解人-車沖突風險傷害,是保護行人的有效措施。行人運動建模和軌跡預(yù)測,在其中起到關(guān)鍵作用。提取和挖掘視頻監(jiān)控中行人群軌跡數(shù)據(jù)和特征,是行人行為預(yù)測分析的必要工作。

1 研究現(xiàn)狀

行人目標運動軌跡研究是行人運動建模分析的一種典型形式,多建立于時空維度上。孫亞圣等[3]融合引入注意力機制的LSTM(Long Short Term Memory)和社會對抗網(wǎng)絡(luò)(Social Generative Adverserial Network,SGAN),提出適用于密集交互場景下的行人軌跡預(yù)測模型。李琳輝等[4]引入一種行人間交互社會關(guān)系定義的注意力機制,提高LSTM 在行人軌跡預(yù)測中的速度。BHUJEL 等[5]在LSTM 網(wǎng)絡(luò)中融合語義分割網(wǎng)絡(luò)提供的物理注意力機制,采取Encoder-Decoder的結(jié)構(gòu),獲得更高的軌跡預(yù)測精度。這類軌跡建模研究方法主要是在ETH[6]、UCY[7]等開源數(shù)據(jù)集上進行軌跡預(yù)測建模,對人群密集、交互頻繁的場景下能保持較好的預(yù)測精度,重點是在基準數(shù)據(jù)集上,探索和驗證更優(yōu)的軌跡預(yù)測算法模型,未考慮新的軌跡數(shù)據(jù)來源。另一方面,目標檢測和跟蹤是獲取運動軌跡的必要前序工作。ZHAO 等[8]用Faster-RCNN(Faster Regions with CNN features)的RPN(Region Proposal Network)結(jié)構(gòu)生成不同的行人目標框尺度先驗,使行人檢測推理實時性顯著提高。LI等[9]提出整合GhostNet 和SENet 網(wǎng)絡(luò)結(jié)構(gòu)特點的YOLOv5-GS行人檢測、重識別多任務(wù)聯(lián)合模型,根據(jù)目標的數(shù)量自適應(yīng)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),目標識別率達到93.6%。WOJKE 等[10]將外觀特征和運動信息進行深度關(guān)聯(lián),提出了Deepsort 多目標跟蹤算法,使遮擋導(dǎo)致的跟蹤失敗率降低45%?;谏疃葘W習網(wǎng)絡(luò)的行人檢測和跟蹤模型表現(xiàn)出良好的性能,但大部分行人檢測跟蹤算法的相關(guān)研究,更關(guān)注算法結(jié)構(gòu)優(yōu)化,提高行人目標檢測跟蹤精度,而由此得到的多目標跟蹤結(jié)果蘊含的特征信息有待進一步挖掘。

綜上所述,一方面,現(xiàn)有的目標檢測跟蹤、軌跡預(yù)測建模研究相對獨立,所研究的軌跡在時間、空間范圍內(nèi)跨度較為有限,城市平面道路交叉口的長時間、高密度行人群過街場景下,其運動特征提取和挖掘等相關(guān)應(yīng)用工作仍待完善,“目標跟蹤-軌跡提取-數(shù)據(jù)驅(qū)動建?!钡榷喹h(huán)節(jié)融合仍是值得探索的問題,海量的道路交叉口交通視頻監(jiān)控數(shù)據(jù)亟待充分利用。另一方面,密集人群視頻場景中的運動語義等信息的應(yīng)用仍值得進一步研究和分析。因此,本文的工作是嘗試在上述研究領(lǐng)域間建立聯(lián)系,通過多目標跟蹤算法,獲取視頻監(jiān)控中密集行人群的軌跡簇,解析和挖掘潛在的軌跡源點和消失點等語義信息,為后續(xù)行人群運動行為規(guī)律和軌跡預(yù)測建模提供更充足的先驗信息。

2 行人多目標運動特征提取

本文的研究工作主要包含3個部分:(1)在高密度行人群場景下應(yīng)用多目標跟蹤算法框架。用密集人群數(shù)據(jù)集CrowdHuman 對多目標跟蹤FairMOT[11]框架的目標檢測主干分支DLA-34[12]進行二次訓練,提高密集人群場景的行人目標識別和跟蹤性能。(2)基于多目標跟蹤的行人運動軌跡特征提取。用第1部分訓練好的多目標跟蹤算法,捕獲連續(xù)視頻幀中行人的運動特征,構(gòu)建特征描述子,生成目標運動軌跡;結(jié)合軌跡數(shù)據(jù)的時空分布特點,設(shè)計基于協(xié)方差矩陣值的異常軌跡檢測方法,清洗原始運動軌跡簇,提高軌跡特征的魯棒性。(3)基于軌跡簇的運動語義挖掘。利用K-means 聚類方法,對清洗后的軌跡簇進行聚類,以S 系數(shù)(Silhouette Coefficient)和DB 指數(shù)(Davies Bouldin Index)為評估指標,解析出視頻場景中的軌跡簇源點和消失點等運動語義特征信息。

經(jīng)過上述各步驟后,將視頻監(jiān)控序列中的行人目標軌跡提取、提純,提取出場景語義信息,創(chuàng)建路側(cè)監(jiān)控視角下的密集行人群軌跡庫,為后續(xù)數(shù)據(jù)驅(qū)動的行人行為分析預(yù)測建模提供數(shù)據(jù)支持。本文主要研究內(nèi)容如圖1所示。

圖1 主要研究內(nèi)容Fig.1 Research content flow chart

2.1 FairMOT多目標跟蹤框架

FairMOT 為Zhang 等[11]在2020年9月提出的,是目前行人多目標跟蹤領(lǐng)域性能突出的模型,它整合了目標檢測和行人跟蹤兩大分支,目標檢測分支是采用可變形卷積Deformable Convolution 的CenterNet[13],以中心點熱力圖的形式實現(xiàn)目標定位,簡化了極大值抑制(Non Maximum Suppression,NMS)流程,減少背景的干擾。目標檢測特征提取主干網(wǎng)絡(luò)為DLA-34,融合多尺度、多通道、多模組的特征,提高目標檢測定位精度,保障目標跟蹤分支算法的性能。FairMOT 算法的基本流程如圖2所示。

圖2 FairMOT多目標跟蹤框架的兩大分支和邏輯結(jié)構(gòu)Fig.2 Two main streamlines of FairMOT multi-object tracking framework

FairMOT 采用的損失函數(shù)值包括4 個部分:hm_loss(Lhm)、wh_loss(Lwh)、offset_loss(Loffset)和id_loss(Lidentity)的加權(quán)和??偟膿p失函數(shù)Ltotal是目標檢測分支和目標重識別分支兩者損失的加權(quán)和,即

式中:w1和w2分別為目標檢測分支損失和目標識別分支損失的權(quán)重,兩者均為在模型訓練過程中可動態(tài)變化的參數(shù);λ1、λ2、λ3為常量,反映了目標檢測分支中熱力圖損失hm_loss(Lhm)、目標中心點預(yù)測損失offset_loss(Loffset)和目標邊界框回歸寬高比損失wh_loss(Lwh)的加權(quán)系數(shù)。各個損失值含義如表1所示。

表1 多目標跟蹤網(wǎng)絡(luò)損失函數(shù)Table 1 Loss functions of multi-object tracking algorithm

2.2 運動軌跡時序特征描述子

利用FairMOT 框架檢測跟蹤視頻中的行人目標,逐幀輸出各目標運動軌跡時序特征描述子,反映視頻序列中各個目標的可觀測物理屬性,是包含了行人目標身份唯一標識,目標的位置,以及目標所存在的幀數(shù)等信息的7維特征向量,即

式中各分量意義如表2所示。

表2 行人多目標跟蹤算法的輸出結(jié)果Table 2 Results of multi-object pedestrian tracking

對于行人目標,從視頻中出現(xiàn)直至消失時間內(nèi)的所有特征描述子,構(gòu)成該目標運動軌跡特征向量。為簡潔地描述目標在不同時刻的位置屬性,將目標邊界框坐標轉(zhuǎn)化為質(zhì)心點坐標,即

式中:(xc,yc)為像素坐標系下的目標質(zhì)心位置。

得到目標質(zhì)心點位置的表征后,進一步求解目標的運動方向和位移特征描述子,通過逐幀質(zhì)心差分實現(xiàn),即

最終,目標運動軌跡時序特征描述子為

整合目標身份標識相同的所有特征描述子,得到描述運動軌跡特征的向量組。每一個向量組在坐標平面內(nèi)可形成一條軌跡,各目標的軌跡構(gòu)成一個軌跡簇。

式中:Fi為視頻中第i個目標的所有特征描述子V所組成的運動軌跡特征向量組;FTraj為從視頻序列中提取的軌跡簇,包含N個目標的運動軌跡特征向量組。

3 運動軌跡清洗和語義特征提取

3.1 基于協(xié)方差矩陣參數(shù)值的軌跡數(shù)據(jù)清洗

提取行人目標運動軌跡,獲取各個目標在時空維度的變化信息,是數(shù)據(jù)驅(qū)動軌跡建模必要的基礎(chǔ)。因而,數(shù)據(jù)質(zhì)量是關(guān)鍵,有必要識別出軌跡中的噪聲,加以修正或剔除,實現(xiàn)對提取原始軌跡信息的清洗。

通過分析FairMOT 多目標跟蹤算法提取的行人原始軌跡簇,結(jié)合行人過街的完整過程,本文定義一種“準靜態(tài)軌跡”,這類軌跡源于目標跟蹤算法對監(jiān)控視野內(nèi)存在的目標無差別地展開跟蹤,從而捕捉到行人駐足等待紅綠燈或者在路緣帶上逗留等原地駐足或小幅度徘徊行為的軌跡,在圖像中,這類軌跡分布在以某特定點為圓心的小半徑圓域范圍內(nèi)。相對于行人過街的正常軌跡,準靜態(tài)軌跡無明確方向性,缺乏對行人過街軌跡移動的整體趨勢和OD 等語義信息描述,若不予剔除,將對后續(xù)行人過街行為的空間起點、終點等OD語義特征的提取和分析引入噪聲干擾。

協(xié)方差(covariance)可衡量隨機變量觀測值之間的變化程度,本文將其用以判定一個軌跡樣本是否屬于準靜態(tài)軌跡。對于行人目標j,選取特征描述子xc、yc分量,構(gòu)成目標j的運動軌跡,每個軌跡點表示為一個坐標對(xt,yt),t=1,2,3,…,n,n是目標j在視頻中出現(xiàn)的總幀數(shù)。所有軌跡點的x分量和y分量構(gòu)成兩個向量X、Y,X=(x1,x2,x3,…,xn)和Y=(y1,y2,y3,…,yn),計算X、Y的協(xié)方差矩陣Σ,即

式中:Varregularized(X)和Varregularized(Y)是為了消除軌跡長度的影響,對X和Y向量的原始方差進行規(guī)范化的結(jié)果,即

理論上,若某個軌跡為準靜態(tài)軌跡時,該軌跡X向量的方差Varregularized(X) ,Y向量的方差Varregularized(Y)以及X、Y的協(xié)方差Cov(X,Y)等指標值將明顯小于正常軌跡情況下對應(yīng)的指標值。

為了從原始軌跡簇中針對性地篩除準靜態(tài)軌跡,根據(jù)協(xié)方差矩陣中元素值的分布特點,本文提出一種時空坐標協(xié)方差濾波算法STCCF(Spatial-Time Coordinate Covariance Filtering)。C0、C1分別表示原始軌跡簇、準靜態(tài)軌跡簇所構(gòu)成的集合,濾波流程如下:

(1)初始化判別閾值Gx,Gy,Gco(協(xié)方差、方差閾值)。

(2)遍歷C0中的各樣本Ti,計算Ti的協(xié)方差矩陣元素值 Varregularized(TiX)、 Varregularized(TiY)、Cov(TiX,TiY);若(Varregularized(TiX)<Gx?Varregularized(TiY)<Gy)?(Cov(TiX,TiY)<Gco),則C0=C0Ti,C1=C1?Ti。

(3)遍歷結(jié)束,輸出C0。

其中,對各軌跡樣本分別計算如式(12)所示的協(xié)方差矩陣,繪制協(xié)方差矩陣中Varregularized(X) 、Varregularized(Y)、Cov(X,Y)等參數(shù)的散點圖,根據(jù)散點圖中的數(shù)據(jù)分布規(guī)律特征,能將準靜態(tài)和非準靜態(tài)軌跡對應(yīng)的參數(shù)數(shù)據(jù)點分離的數(shù)值即為對應(yīng)的判別閾值Gx,Gy,Gco。

基于上述分析,計算原始軌跡簇中X和Y坐標的協(xié)方差矩陣。對比計算結(jié)果發(fā)現(xiàn),若軌跡為準靜態(tài)軌跡時,軌跡點高度集中分布,X、Y序列之間的相關(guān)性弱,軌跡的X向量方差Varregularized(X),Y向量方差Varregularized(Y) 以及X、Y的協(xié)方差Cov(X,Y)等指標值均顯著低于正常軌跡對應(yīng)的指標值。由此,通過閾值判斷,剔除準靜態(tài)軌跡,得到清洗后的軌跡簇,用于后續(xù)軌跡數(shù)據(jù)分析和特征提取工作。兩類軌跡典型形態(tài)如圖3所示。

圖3 準靜態(tài)與非準靜態(tài)軌跡形態(tài)對比Fig.3 Comparison between quasi-stationary and normal trajectory samples

圖3(a)、(b)為視頻中位于人行橫道兩側(cè)的準靜態(tài)軌跡樣本,圖3(c)、(d)為正常軌跡樣本,兩類軌跡在空間形態(tài)上有明顯區(qū)別(圖中所有坐標系均為同一個像素坐標系)。值得注意的是,若捕獲的行人軌跡同時包含準靜態(tài)階段和正常過街階段,該軌跡整體的協(xié)方差矩陣參數(shù)值亦顯著區(qū)別于單純的準靜態(tài)軌跡,因此,本文STCCF算法將選擇性地濾除單純的準靜態(tài)軌跡。

3.2 基于K-means聚類的軌跡語義特征解析

對于監(jiān)控場景,行人目標軌跡反映其運動的狀態(tài),大量目標個體軌跡構(gòu)成的軌跡簇,隱含了該場景中目標的“源點”“消失點”等具有統(tǒng)計性描述意義的語義特征信息,對應(yīng)行人過街行為的空間起點、終點,表征行人群過街行為發(fā)生的源頭和行人過街的去向。本文將行人進入監(jiān)控視野和離開監(jiān)控視野分別定義為事件A和事件B,基于概率統(tǒng)計原理,設(shè)事件A、事件B發(fā)生頻率最大的位置為“源點”及“消失點”。在特定場景下,源點和消失點是相對固定的,如圖4(a)所示,在人行橫道上,正常情況下行人產(chǎn)生過街行為的起點、終點位置多分布在人行道的兩端,若某時刻某個行人軌跡的“源點”“消失點”出現(xiàn)較大的變動,如圖4(b)所示,可認為目標存在異常過街行為。本節(jié)采用K-means算法,從大量軌跡簇中解析出“源點”“消失點”等語義信息,后續(xù)可進一步用于數(shù)據(jù)驅(qū)動的行人軌跡建模分析或行人異常軌跡檢測。

圖4 多目標運動語義信息Fig.4 Illustration of multi-object motion semantic information

對于每一個目標i,從前述定義的特征描述子中的Si提取前3 幀和末3 幀的質(zhì)心坐標xci,yci,i=1,2,3,n,n-1,n-2,取均值作為該目標運動軌跡的源點oi和消失點di。設(shè)集合O和D為源點集和軌跡集,分別包含多目標跟蹤算法捕獲的原始軌跡(包括準靜態(tài)軌跡)的所有源點和消失點。

K-means 算法是無監(jiān)督機器學習算法,將一系列數(shù)據(jù)點劃分為若干類。包含以下步驟:

Step 1 給定一包含了z個樣本的數(shù)據(jù)向量X(x1,x2,…,xj),xj∈Rn(j=1,2,3,…,z),期望將樣本聚類成K個類。

Step 2 隨機選取K個聚類中心,分別是{μ1,μ2,…,μK} ,μ(j)∈Rn(j=1,2,3,…,K)。

Step 3 針對每個樣本xi,遍歷計算它與第j個聚類中心的距離,j=1,2,3,…,K,與之距離最小的那一類視為該樣本所屬的類 ,

Step 4 遍歷所有樣本,計算它們所屬的類,并通過更新聚類中心為

式中:1{·} 為二值判別式,條件為真時該判別式(19)取值為1;否則,取值為0。

Step 5 重復(fù)循環(huán)Step 3 和Step 4,直至式計算的聚類中心收斂,并輸出收斂時的聚類中心。

本文算法提取語義特征的關(guān)鍵是確定場景中行人目標源點和消失點的最佳數(shù)量和位置,為實現(xiàn)該目的,引入輪廓系數(shù)S(Silhouette Coefficient)和DB指數(shù)(Davies Bouldin Index)兩種指標。定義聚類后的每一個類ζ(ζ=1,2,3,…,K)的輪廓系數(shù)Pζ為

式中:d(i,j)為第i個樣本和第j個樣本的距離;|· |為某個類中的樣本數(shù)量;a為遍歷屬于類Cm的任意一個樣本點i,計算它與類內(nèi)其他所有樣本點距離的均值,a衡量了屬于同一聚類簇內(nèi)樣本數(shù)據(jù)的相似度;b為遍歷屬于類Cm的任意一個樣本點i,計算每一個樣本點與距離最近的一個聚類中心Ck所對應(yīng)的那一類中所有樣本點的距離,并取所有距離的均值,b衡量了屬于不同類樣本數(shù)據(jù)彼此間的差異度。在b值計算過程中,類與類之間距離的衡量依據(jù)是類中心點之間的歐氏距離,即

式中:Ωi、Ωj為類i、類j的中心點;Di,j為類i和類j的歐氏距離。

對全體數(shù)據(jù)的聚類結(jié)果,S 系數(shù)(Silhouette Coefficient)定義為

設(shè)一個含N個數(shù)據(jù)點的集合,聚類算法將其劃分為K個類,DB指數(shù)定義為

式中:Ωζ為第ζ個類的中心點;為第ζ個類中所有樣本到該類中心的距離的平均值。

4 實驗設(shè)計與結(jié)果分析

為驗證多目標跟蹤FairMOT 框架及K-means聚類行人軌跡提取方法的有效性,本文實驗介紹行人多目標跟蹤和運動軌跡提取的視頻監(jiān)控數(shù)據(jù),針對多目標跟蹤FairMOT框架進行二次訓練,提取視頻中的行人運動軌跡;應(yīng)用本文所述的協(xié)方差濾波算法,剔除準靜態(tài)軌跡,實現(xiàn)數(shù)據(jù)清洗;依據(jù)S指數(shù)和DB 指數(shù)判定基于K-means 的最佳聚類數(shù)量,提取行人運動軌跡簇中的語義特征。

4.1 視頻監(jiān)控數(shù)據(jù)概述

為獲取足量行人目標軌跡樣本,視頻監(jiān)控視角選取市區(qū)中心行人流量較大的平面道路交叉口。實驗中的視頻監(jiān)控序列取自網(wǎng)絡(luò)上公開的實時監(jiān)控數(shù)據(jù),位于日本東京都新宿區(qū)西新宿1 丁目(139.70°E,35.70°N)的一個高位監(jiān)控視角,全天候捕獲1 個標準4 路交叉口十字路口的實時路況,視頻監(jiān)控設(shè)備位于東出口處。該位置的地圖、衛(wèi)星俯視圖和實景監(jiān)控視角如圖5所示。

圖5 實驗中選取的監(jiān)控視角地理位置和實景圖Fig.5 Demonstration of location of road side surveillance scenario

4.2 模型訓練基本配置

訓練FairMOT目標檢測分支網(wǎng)絡(luò)用到的設(shè)備:操作系統(tǒng)windows10,CPU 為Intel Core i5 6500,內(nèi)存為DDR4 16 G,GPU 為Nvidia RTX2060S(8 G),訓練環(huán)境為pytorch1.2.0,torchvision0.4.0。

4.3 FairMOT二次訓練

城市路側(cè)監(jiān)控視角下,密集小目標行人群場景較常見,為提高FairMOT對密集行人小目標的檢測和跟蹤能力,使算法提取到更完整、更充足的軌跡數(shù)據(jù),本文選取曠視科技的開源數(shù)據(jù)集CrowdHuman 對目標檢測分支CenterNet 部分的網(wǎng)絡(luò)進行訓練。該數(shù)據(jù)集拍攝的視角包括水平拍攝和高位拍攝,場景涵蓋都市區(qū)步行街、游行、聚會等高密度人群的場景,平均每張圖片包含22.64 個人類個體。CrowdHuman 與目前用于行人檢測的開源數(shù)據(jù)集相比,在單張圖片包含的人類個體數(shù)、人類個體動作姿態(tài)的多樣性等指標上明顯更優(yōu)。

目標檢測分支采用Centernet網(wǎng)絡(luò),其主干網(wǎng)絡(luò)選取在COCO數(shù)據(jù)集上預(yù)訓練的DLA-34模型。選取CrowdHuman開源數(shù)據(jù)集中的15000張圖片作為訓練集,4370 張作為測試集,對DLA-34 網(wǎng)絡(luò)結(jié)構(gòu)進行二次訓練,設(shè)置訓練輪數(shù)為30 輪,batchsize 為2,采用學習率遞減的策略,初始學習率為10-4,每迭代滿20 個epoch 時學習率衰減為原來的10%。優(yōu)化器為Adam,其余的訓練超參數(shù)設(shè)置參考CenterNet開源模型[13]中的建議值,如表3所示。

表3 多目標跟蹤網(wǎng)絡(luò)訓練參數(shù)設(shè)置Table 3 Hyperparameters for training multi-object tracking network

訓練時的損失函數(shù)、目標檢測的平均精度(mAP)和召回率(Recall)隨訓練輪數(shù)的變化曲線分別如圖6~圖8所示。從總的訓練損失看,雖然訓練5輪之后網(wǎng)絡(luò)總的損失函數(shù)已基本收斂,但第20輪時調(diào)整模型學習率后,總損失仍有小幅度下降。

圖6 FairMOT目標檢測分支訓練輪數(shù)-損失值變化曲線Fig. 6 Curve of loss function value versus training epoch of object detection branch in FairMOT

圖7 FairMOT目標檢測平均精度變化曲線Fig.7 Curve of FairMOT object detection branch mAP versus training epoch

圖8 FairMOT 目標檢測平均召回率變化曲線Fig.8 Curve of FairMOT object detection recall versus training epoch

hm_loss、id_loss、offset_loss 和wh_loss 這4 個損失值隨訓練輪數(shù)變化曲線如圖9所示??v軸為各項損失值,橫軸為訓練輪數(shù)。在輪數(shù)為20時,模型訓練學習率從10-4調(diào)整為10-5,因而,曲線出現(xiàn)不同程度的抖動,隨著訓練的推進,各損失值再次呈現(xiàn)下降趨勢,且在20輪之后的訓練中,各項損失值曲線趨于平緩,可認為模型訓練逐漸逼近收斂態(tài)。

圖9 訓練過程中損失函數(shù)各項損失值時變曲線Fig.9 Time-varying curve of each loss function component during training

考慮到從20 輪開始,訓練的各項損失函數(shù)值變化逐漸趨緩,為確定最佳的網(wǎng)絡(luò)訓練權(quán)重,綜合對比分析訓練20 輪之后模型的平均精度和召回率,如圖7和圖8所示,第30輪時平均精度mAP最高,達0.5772,召回率達0.6794,僅次于27 輪的0.6797。因此,選取第30 輪訓練所得的權(quán)重載入FairMOT目標檢測分支,二次訓練后的FairMOT將對整個視頻監(jiān)控場景(包括:靠近攝像頭一側(cè)的人行道,距離攝像頭較遠的人行道)內(nèi)的行人個體實施目標跟蹤和軌跡捕獲,輸出目標出現(xiàn)在監(jiān)控視野時段內(nèi)的運動軌跡時序特征描述子。

實驗中,城市平面交叉口人行道高密度、小目標行人場景下,模型跟蹤性能達7.2 frame·s-1。CrowdHuman數(shù)據(jù)集二次訓練前、訓練后模型的檢測性能對比如圖10所示。小矩形方框包圍的區(qū)域表示算法檢測和跟蹤的行人目標。

圖10 CrowdHuman數(shù)據(jù)集訓練前、后模型對高密度、小尺寸行人群目標檢測效果對比Fig.10 Trained and untrained model performance comparison in dense crowd and small pedestrian target scenario

圖10(a)、(c)對比結(jié)果顯示,經(jīng)二次訓練后的模型,在距離攝像頭較遠、目標密度較大、目標尺寸較小的條件下,仍可檢測出視野中的行人目標;圖10(b)、(d)對比表明,本文引入的二次訓練提高了模型在距離攝像頭較近的接近垂直視角下的密集行人群檢測能力,使模型從視頻中提取到的目標軌跡魯棒性更強。

利用FairMOT 算法提取視頻幀中人行道上的行人目標運動軌跡,共提取2689 條行人軌跡。實驗發(fā)現(xiàn),距離攝像頭較近一側(cè)人行橫道上的目標運動特征更加明顯,該區(qū)域軌跡長度比其他方位人行橫道區(qū)域中的目標軌跡更長,包含更豐富的時序運動特征,更利于數(shù)據(jù)驅(qū)動的軌跡建模分析。因此,本文設(shè)置了場景中的感興趣區(qū)域AOI(Area of Interests),如圖11所示。

圖11 視頻監(jiān)控場景中AOI以及完整場景下的軌跡跟蹤結(jié)果Fig.11 AOI in surveillance scenario and whole trajectory tracking results

圖11(a)中感興趣區(qū)域范圍內(nèi)的行人目標運動軌跡,作為后續(xù)數(shù)據(jù)驅(qū)動的軌跡預(yù)測建模的樣本;提取整個視頻視角內(nèi)行人軌跡語義特征時,選用整個監(jiān)控視頻區(qū)域內(nèi)提取到的2689條行人目標運動軌跡。

4.4 軌跡簇協(xié)方差濾波

實驗中使用滑動平均濾波法[14]對軌跡坐標序列進行平滑,消除軌跡的毛刺。對原始FairMOT算法輸出的2689 條軌跡進行協(xié)方差濾波處理,經(jīng)實驗反復(fù)嘗試,最終閾值的設(shè)置如表4所示。

表4 軌跡坐標協(xié)方差濾波法參數(shù)設(shè)置Table 4 Parameters setting in trajectory coordinate covariance filtering algorithm

在上述閾值參數(shù)設(shè)定下,算法篩選出179條判斷為準靜態(tài)軌跡的樣本,經(jīng)統(tǒng)計分析,有219 條準靜態(tài)軌跡,算法檢出率為81.73%。造成漏檢的主要原因是:由于閾值設(shè)置是綜合考慮了各個軌跡的數(shù)據(jù)取值范圍等分布規(guī)律后設(shè)定的固定閾值,靠近攝像頭區(qū)域的目標成像相對較大,準靜態(tài)軌跡在圖像中占據(jù)更大的像素范圍,相應(yīng)的坐標協(xié)方差參數(shù)超過閾值的可能性也相應(yīng)增加,導(dǎo)致在統(tǒng)一的閾值設(shè)定下,算法將部分位于近景處的準靜態(tài)樣本識別為正常軌跡(圖12(a)中的虛線箭頭),距離較遠的則被成功識別(圖12(b)中實線箭頭)。后續(xù)將考慮引入場景語義分割掩膜,精細化地將場景分塊,對處于近景處和遠景處的軌跡采用不同的固定閾值,以進一步提高準靜態(tài)軌跡的檢出率。

圖12 近景處和遠景處準靜態(tài)軌跡示意圖Fig.12 Demonstration of near view quasi-stationary trajectory and far view quasi-stationary trajectory

為驗證本文將協(xié)方差矩陣參數(shù)作為準靜態(tài)軌跡判據(jù)的可行性,針對成功識別出的準靜態(tài)軌跡和正常軌跡兩類軌跡,分別提取并統(tǒng)計其中若干樣本的坐標協(xié)方差數(shù)值分布特征。如圖13所示。兩類軌跡的協(xié)方差矩陣參數(shù)具有不同的數(shù)值分布特征,證明了本文所提出的協(xié)方差濾波方法的有效性。

圖13 準靜態(tài)軌跡與正常軌跡的坐標協(xié)方差參數(shù)值特征對比Fig.13 Comparison of coordinate covariance values between quasi-stationary trajectories and normal trajectories

4.5 K-means聚類軌跡簇語義信息提取

將提取得到的軌跡簇作為K-means 算法的輸入,待聚類的樣本數(shù)據(jù)分別是前述的源點集O和消失點集D,實驗中設(shè)置不同的聚類數(shù)k,k∈[2,15] ,為了簡潔,源點聚類的部分結(jié)果如圖14所示,圖中標記位置為算法解析出的聚類中心。

圖14 不同聚類數(shù)下的軌跡源點-消失點聚類結(jié)果Fig.14 Source-Vnishing point results with different clustering number

k∈[2,15] 對應(yīng)的S 系數(shù)和DB 指數(shù)曲線圖如圖15所示。

圖15(a)為源點聚類的S 系數(shù)和DB 指數(shù)隨聚類數(shù)的變化曲線,圖15(b)為消失點聚類結(jié)果的S系數(shù)和DB指數(shù)隨聚類數(shù)變化的曲線。輪廓系數(shù)S取值范圍為[-1,1],聚類結(jié)果中同類別樣本距離越近,不同類別樣本距離越遠,聚類效果越好,S越接近于1;通過計算類中各點與類中心的距離平方和來度量類內(nèi)的緊密度,通過計算各類中心點與觀測數(shù)據(jù)中心點距離平方和來度量觀測數(shù)據(jù)的分離度,DB指數(shù)計算不同聚類簇之間的相似度,DB指數(shù)越小,類間相似度越小,聚類效果越好。

圖15 不同聚類數(shù)對應(yīng)的S指數(shù)和DB指數(shù)曲線Fig.15 Coefficient and DB index-cluster numbers curves

對于源點聚類,聚類數(shù)k=5 時,S 系數(shù)達到峰值0.577,DB 指數(shù)達到最小值0.57;對于消失點聚類,聚類數(shù)k=6 時,S系數(shù)達到峰值0.607,DB指數(shù)達到最小值0.522,因此,認為實驗選取的視頻監(jiān)控中行人源點有5 處,消失點有6 處。分別將源點和消失點聚類中心坐標提取出來,繪制在視頻監(jiān)控圖像上,得到對應(yīng)實景圖中的行人源點和消失點如圖16所示,圖中圓形和三角形標記區(qū)域為K-means算法輸出的聚類中心位置。

圖16 聚類算法輸出視頻監(jiān)控中的行人源點和消失點Fig.16 Source and vanishing points generated by clustering algorithm

該監(jiān)控場景下行人源點和消失點在西北角處有差異,其余5個位點處源點及消失點幾乎成對出現(xiàn)。通過人工觀察分析,產(chǎn)生差異的原因如圖17所示(為簡潔,僅繪制出導(dǎo)致差異的行人流線)。圖17中,虛箭線表示沿該方向過街的人流量少,實箭線意義相反。圖中編號②和③兩股行人流流量懸殊,故A處存在由編號②的行人流構(gòu)成的消失點,而無相應(yīng)的源點;而B處既存在由編號①的行人流構(gòu)成的消失點,也存在由編號②的行人流構(gòu)成的源點。

圖17 行人流的方向性導(dǎo)致的源點-消失點匹配不平衡現(xiàn)象Fig.17 Illustration of unbalanced source-vanish points caused by directional pedestrian flows

通過基于多目標跟蹤的軌跡數(shù)據(jù)聚類過程,挖掘大量的軌跡數(shù)據(jù)點和軌跡數(shù)據(jù)本身所包含的空間分布規(guī)律,提取出場景中人行道上行人源點和消失點,理解并解析出整個軌跡數(shù)據(jù)簇所包含的一種內(nèi)在場景語義信息。本文算法和重點旨在自動地從城市平面交叉口人行道視頻監(jiān)控場景下,提取密集小目標行人群過街行為的軌跡,并感知行人流過街起點和終點,便于后續(xù)重點關(guān)注的源點-消失點區(qū)間范圍內(nèi)的軌跡,排除其余的無關(guān)片段,按照軌跡經(jīng)過不同的源點-消失點進一步劃分不同OD的軌跡集,針對性地分析各子集內(nèi)的軌跡特性,以及在軌跡預(yù)測建模時,引入OD 先驗信息等,提高行人過街行為分析的精度和細粒度。

本文的方法對不同交叉口監(jiān)控視角均具有適用性,主要聚焦于密集小目標場景下的跟蹤、跟蹤結(jié)果數(shù)據(jù)語義特征信息的挖掘,減少人為的軌跡區(qū)域劃定,軌跡起點、終點標定等主觀干擾,所提取的語義信息立足于場景中行人個體的真實行為軌跡數(shù)據(jù),在后續(xù)行人過街行為預(yù)測建模、異常過街行為檢測等工作中提供先驗判據(jù)。

5 結(jié)論

針對現(xiàn)有密集行人群相互遮擋、目標成像小、特征不突出,運動識別和軌跡提取較困難,場景中的運動語義信息分析不足等問題,本文借助密集人群數(shù)據(jù)集CrowdHuman訓練后的FairMOT框架,從視頻中提取密集行人群運動軌跡簇,提出協(xié)方差濾波算法STCCF 清洗原始軌跡簇,依據(jù)S 系數(shù)和DB指數(shù)確定最佳K-means聚類簇數(shù),實現(xiàn)運動軌跡的語義感知。

實現(xiàn)城市平面4 路交叉監(jiān)控場景下密集過街行人群的識別和跟蹤,算法速度達7.2 frame·s-1,提取出2689 個行人目標的軌跡,存儲為二維空間坐標的形式,算法檢出和篩除179 條準靜態(tài)軌跡,減少了軌跡集的數(shù)據(jù)噪聲。本文從統(tǒng)計學概率角度,定義運動語義,利用K-means 算法,通過S 系數(shù)和DB 指數(shù)確定最佳的聚類數(shù),對大量的行人目標軌跡簇的起點和終點進行聚類分析,并解析出該交叉路口場景中的5 處行人源點和6 處行人消失點,與人工判別的結(jié)果吻合,在未知視頻場景中目標運動的起點、終點的條件下,自動剖析軌跡數(shù)據(jù)隱含的特征,合理地估計行人過街聚集和消散的區(qū)域。

本文利用多目標跟蹤算法,從路側(cè)交通監(jiān)控視頻中,提取出密集行人群過街的軌跡數(shù)據(jù),考慮行人實際過街行為過程的細節(jié),剔除準靜態(tài)軌跡等異常數(shù)據(jù),解析場景內(nèi)行人流源點、消失點等運動語義,從場景中提取可供行人過街行為建模的原始軌跡數(shù)據(jù)集,驗證了目標跟蹤-軌跡提取-數(shù)據(jù)驅(qū)動建模的技術(shù)路線的可行性。

猜你喜歡
源點協(xié)方差行人
毒舌出沒,行人避讓
路不為尋找者而設(shè)
用于檢驗散斑協(xié)方差矩陣估計性能的白化度評價方法
隱喻的語篇銜接模式
我是行人
城市空間中紀念性雕塑的發(fā)展探析
多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時Bayes估計及優(yōu)良性
曝光闖紅燈行人值得借鑒
二維隨機變量邊緣分布函數(shù)的教學探索
不確定系統(tǒng)改進的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報器