李明華,劉正熙
(四川大學(xué)計算機學(xué)院,成都 610065)
多目標跟蹤系統(tǒng)的目的是在監(jiān)控場景中能估計出多個運動目標的連續(xù)平滑的軌跡,它在視頻監(jiān)控,事件檢測以及行為識別中都有重要的應(yīng)用。因此,研究多目標跟蹤技術(shù)是計算機視覺領(lǐng)域的重要課題之一。
由于目標檢測技術(shù)[1-3]的快速發(fā)展,tracking-by-detection成為了一種廣泛使用的多目標跟蹤框架。在tracking-by-detection框架中,目標檢測器通過線下訓(xùn)練,可以在視頻的每一幀提供出跟蹤目標的包圍框,然后通過數(shù)據(jù)關(guān)聯(lián)技術(shù)把這些包圍框分別匹配已存在的跟蹤目標,從而產(chǎn)生連續(xù)的運動軌跡。按照數(shù)據(jù)關(guān)聯(lián)算法的不同,多目標跟蹤技術(shù)分為在線的[4-7]和離線的[8-11]。然而,在一些復(fù)雜的場景,由于跟蹤目標的相互遮擋和背景的遮擋,這些先進的目標檢測技術(shù)仍然解決不了目標丟失的問題。
因此,許多學(xué)者提出離線的多目標跟蹤方法用于解決這些由于長時間的遮擋而造成的目標丟失問題。連接概率數(shù)據(jù)關(guān)聯(lián)算法(JPDA)[8-9]在視頻的每一幀中基于當(dāng)前幀提供的目標包圍框和已存在的跟蹤目標的連接概率相似度進行數(shù)據(jù)關(guān)聯(lián)。多假設(shè)跟蹤算法(MHT)[10-11]為每一個跟蹤目標所有可能的軌跡假設(shè)建立一棵關(guān)系樹,計算跟蹤軌跡的概率并選擇最大概率的軌跡組合。這些離線的多目標跟蹤算法不僅要使用當(dāng)前幀的信息,而且要考慮未來一段時間窗口內(nèi)視頻幀的信息,所以這些離線方法都有一定的時間延遲,不適用于實時的視頻監(jiān)控系統(tǒng)。
SORT跟蹤算法提出了一個簡單的在線trackingby-detection跟蹤框架,該框架使用線性卡爾曼濾波作為運動模型預(yù)測目標的運動,使用匈牙利算法匹配相鄰幀之間的目標。使用這樣一種簡單的在線跟蹤框架卻能夠在公開的多目標跟蹤數(shù)據(jù)集上獲得卓越的性能效果,并且這個框架的幀率能達到260Hz,速度上超越了絕大部分在線跟蹤方法。該框架的缺點是只使用了目標的運動特征,而沒有使用目標的外觀特征,并且沒有考慮到目標之間的遮擋問題。
本文提出了一種改進版的tracking-by-detection框架。該框架采用了基于深度學(xué)習(xí)的外觀特征,并且采用了分層的數(shù)據(jù)關(guān)聯(lián)方法。該方法根據(jù)卷積特征的相似度把數(shù)據(jù)關(guān)聯(lián)分成兩個步驟。第一層關(guān)聯(lián)只考慮高相似度的目標匹配對,因為高相似度的兩個待匹配的候選對象屬于同一個目標的概率非常大。第二層關(guān)聯(lián)處理剩余的低相似度的目標匹配對,相似度低說明目標可能發(fā)生形變或者被其他跟蹤對象遮擋。
本文提出的多目標跟蹤框架采用Faster R-CNN檢測器[3]檢測出候選目標,使用卡爾曼濾波迭代地預(yù)測目標的運動狀態(tài),接著使用卷積神經(jīng)網(wǎng)絡(luò)提取出目標的深度外觀特征,根據(jù)目標的外觀相似度和運動相似度使用匈牙利算法匹配候選目標和目標軌跡。本節(jié)著重介紹特征提取和分層數(shù)據(jù)關(guān)聯(lián)。
特征提取用于數(shù)據(jù)關(guān)聯(lián)的相似度計算。本文融合了強特征和弱特征來進行數(shù)據(jù)關(guān)聯(lián)。強特征是用卷積神經(jīng)網(wǎng)絡(luò)提取的深度外觀特征,而弱特征則使用了目標的運動特征。每種特征都有其優(yōu)點以及作用。當(dāng)目標連續(xù)可見并且沒有顯著的外觀變化時,深度外觀特征能夠較好地區(qū)分兩個候選對象是不是同一個目標。而當(dāng)目標的外觀發(fā)生改變或者遇到遮擋問題時,運動特征和形狀特征結(jié)合了跟蹤目標上下文的時空信息輔助數(shù)據(jù)關(guān)聯(lián)。
本文提出了一種深度外觀描述子用于描述跟蹤目標的外觀,該描述子采用類似于AlexNet[12]的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)微調(diào)而成。首先我們用ImageNet數(shù)據(jù)集的預(yù)訓(xùn)練模型初始化卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值,然后使用行人重識別數(shù)據(jù)集[13]離線微調(diào)該神經(jīng)網(wǎng)絡(luò),該數(shù)據(jù)集包含32000個標注的行人標簽。我們的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型包含5層卷積結(jié)構(gòu)和3層全連接層,在全連接層后面接上一個Softmax層用于目標的分類。在特征提取階段我們僅提取第5個卷積層輸出的4096維特征,我們用 feati來表示第i個目標的特征,深度外觀特征相似度定義為:
運動特征的使用基于這么一個假設(shè),即當(dāng)視頻的幀率足夠高時,現(xiàn)實場景中的目標在連續(xù)幀中的運動軌跡是連續(xù)平滑的。運動特征充分利用了運動目標的時空上下文信息,我們使用速度和方向來表述跟蹤目標的運動屬性。由于余弦相似度只能描述運動目標的方向一致性,本文考慮使用調(diào)整余弦相似度來描述運動目標的方向一致性和速度一致性。運動特征相似度表示如下:
數(shù)據(jù)關(guān)聯(lián)是tracking-by-detection多目標跟蹤框架的核心內(nèi)容,大部分跟蹤算法把數(shù)據(jù)關(guān)聯(lián)問題看成一個全局最優(yōu)匹配問題。但是這種方法有一個缺點,就是當(dāng)目標發(fā)生外觀變化或者目標被遮擋時,會導(dǎo)致目標錯誤匹配的情況。本文提出了一種分層的數(shù)據(jù)關(guān)聯(lián)策略,假設(shè)這樣一個場景:當(dāng)目標在連續(xù)的視頻幀中出現(xiàn),并且外觀沒有發(fā)生比較大的變化,且沒有被其他物體遮擋時,相鄰幀中屬于同一個目標的候選對象外觀相似度值會非常大,這時我們僅使用目標的深度外觀相似度用于數(shù)據(jù)關(guān)聯(lián)能取得非常好的效果。當(dāng)目標遇到遮擋情況或者自身的外觀發(fā)生了嚴重變化時,相鄰幀中的同一個目標的外觀相似度可能會變得很小,這時我們就要引入運動特征來輔助判斷相鄰幀目標的相似性。
考慮第t幀的數(shù)據(jù)關(guān)聯(lián)問題,當(dāng)前幀t通過目標檢測器得到一系列的目標檢測框Dt,另外已知第t-1幀的目標軌跡Tt-1,我們采用匈牙利算法[14]分別把這些檢測出的候選對象安排到不同的目標軌跡中,就得到了當(dāng)前幀t的目標軌跡Tt,匈牙利算法所使用的代價矩陣定義如下:
為了減少目標遮擋和目標形變的帶來的數(shù)據(jù)關(guān)聯(lián)錯誤問題,我們把數(shù)據(jù)關(guān)聯(lián)分成兩層進行,不同層的數(shù)據(jù)關(guān)聯(lián)采用不同的相似度函數(shù)。在第一層關(guān)聯(lián)我們只考慮外觀相似度高于閾值Ta的匹配項,外觀相似度高說明目標沒有發(fā)生較大的形變或者被其他物體遮擋,因此,第一層關(guān)聯(lián)的相似度函數(shù)的外觀影響因子ω1設(shè)為1,運動影響因子ω2設(shè)為0。第二層數(shù)據(jù)關(guān)聯(lián)的匹配對的外觀相似度較低,說明目標發(fā)生了外觀變化或者遭遇遮擋。此時單純依靠外觀特征不能做出正確的匹配決策,而需要引入運動特征來輔助判斷,經(jīng)實驗驗證把外觀影響因子ω1設(shè)為0.4運動影響因子ω2設(shè)為0.6能達到較好的效果。本文整體框架的工作流程如下所示:
輸入:當(dāng)前幀的檢測框:Dt={d1,d2,...,dn},上一幀的目標跟蹤軌跡:Tt-1={tr1,tr2,...,trm}
1:使用神經(jīng)網(wǎng)絡(luò)提取檢測框的卷積特征
2:使用卡爾曼濾波預(yù)測跟蹤目標的運動狀態(tài)
3:根據(jù)目標的卷積特征和運動特征計算相似度矩陣At=Affinity(Dt,Tt-1)
4:根據(jù)外觀相似度閾值Ta把相似度矩陣分為高相似度矩陣和低相似度矩陣
表1 該跟蹤程序在MOT16數(shù)據(jù)集上的性能估計
8:根據(jù)時間閾值Tt保留或者刪除匹配失敗的目標跟蹤軌跡
輸出:根據(jù)6,7,8步得到當(dāng)前幀的目標跟蹤軌跡Tt={tr1,tr2,...,trk}。
該多目標跟蹤系統(tǒng)在MOT16[15]公開的數(shù)據(jù)集上進行實驗估計,該數(shù)據(jù)集包含靜止的和運動的相機鏡頭下的監(jiān)控場景,適用于多目標跟蹤的分析。實驗結(jié)果如表1所示,評價指標解釋如下:MOTA(↑)估計多目標跟蹤的精確度,MT(↑)表示跟蹤軌跡和真實軌跡至少有80%重疊的概率,ML(↓)表示跟蹤軌跡和真實軌跡最多有20%重疊的概率,F(xiàn)P(↓)表示誤報的次數(shù),F(xiàn)N(↓)表示漏檢的次數(shù),IDS(↓)表示目標ID轉(zhuǎn)變的次數(shù),F(xiàn)rag(↓)表示軌跡斷裂的次數(shù)。(↑)說明該項指標越大越好,(↓)說明該項指標越小越好。
圖1 MOT16公開數(shù)據(jù)集的MOT16-06測試視頻圖像序列
其中JPDA_m是連接概率數(shù)據(jù)關(guān)聯(lián)跟蹤方法,MHT_DAM是多假設(shè)跟蹤方法,SORTwHPD16是sort跟蹤方法,從表1中可以看出本文提出的多目標跟蹤系統(tǒng)在MOT16數(shù)據(jù)集上的表現(xiàn)效果要遠遠高于上述跟蹤方法。
該程序運行的效果如圖1所示,分別展示了跟蹤程序在視頻序列第55幀,第75幀以及第95幀的運行結(jié)果。
本文提出了一種分層的數(shù)據(jù)關(guān)聯(lián)方法用于多目標跟蹤框架,并結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)的深度外觀特征和跟蹤目標本身的運動信息,在MOT16多目標跟蹤公開數(shù)據(jù)集上取得了較好的結(jié)果,該程序的實現(xiàn)使用C++語言編寫,并依賴于OpenCV視覺庫和Caffe深度學(xué)習(xí)框架,該算法可用于解決實際監(jiān)控場景中的目標跟蹤問題,具有一定的實際意義。
參考文獻:
[1]N.Dalal and B.Triggs.Histograms of Oriented Gradients for Human Detection.In Proc.CVPR,2005.
[2]P.F.Felzenszwalb,R.B.Girshick,D.McAllester,and D.Ra-manan.Object Detection with Discriminatively Trained Part Based Models.PAMI,32(9):1627-1645,2010.
[3]Ren,S.,He,K.,Girshick,R.B.,Sun,J.:Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks.In:NIPS(2015).
[4]J.Zhang,L.Lo Presti,S.Sclaroff.Online Multi-Person Tracking by Tracker Hierarchy.In Proceeding of the IEEE Conference on Advanced Video and Signal Based Surveillance(AVSS),2012.
[5]Z.Wu,J.Zhang,and M.Betke.Online Motion Agreement Tracking.In Proc.BMVC,2013.
[6]A.Bewley,G.Zongyuan,F.Ramos,and B.Upcroft.Simple online and Realtime Tracking.in ICIP,2016:3464-3468.
[7]F.Yu,W.Li,Q.Li,Y.Liu,X.Shi,J.Yan.POI:Multiple Object Tracking with High Performance Detection and Appearance Feature.In BMTT,SenseTime Group Limited,2016.
[8]T.E.Fortmann,Y.Bar-Shalom,and M.Scheffe.Sonar Tracking of Multiple Targets Using Joint Probabilistic Data Association.IEEE J.Ocean.Eng.,vol.8,no.3,pp.173-184,1983.
[9]S.H.Rezatofighi,A.Milan,Z.Zhang,Qi.Shi,An.Dick,I.Reid.Joint Probabilistic Data Association Revisited.in ICCV,2015:3047-3055.
[10]D.B.Reid.An Algorithm for Tracking Multiple Targets.IEEE Trans.Autom.Control,vol.24,no.6,pp.843-854,1979.
[11]C.Kim,F.Li,A.Ciptadi,J.M.Rehg.Multiple Hypothesis Tracking Revisited.inICCV,2015:4696-4704.
[12]B.Alexe,T.Deselaers,V.Ferrari.Measuring the Objectness of Image Windows.IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),2012.
[13]L.Zheng,L.Shen,L.Tian,S.Wang,J.Wang,Q.Tian.Scalable Person Re-identification:A Benchmark.In CVPR,2015.
[14]J.Munkres.Algorithms for the Assignment and Transportation Problems.J.of the Society of Industrial and Applied Mathematics,5(1):32-38,March 1957.
[15]A.Milan,L.Leal-Taixé,I.Reid,S.Roth,K.Schindler.MOT16:A benchmark for Multi-Object Tracking.CoRR,2016.