劉忠耿 練智超 馮長(zhǎng)駒
摘要 多目標(biāo)跟蹤算法在目標(biāo)發(fā)生遮擋、目標(biāo)快速運(yùn)動(dòng)時(shí)容易跟蹤失敗,而且無法從失敗中恢復(fù)跟蹤.針對(duì)該問題,首先利用目標(biāo)的外觀信息、運(yùn)動(dòng)信息和形狀信息多種信息融合的目標(biāo)特征表示,準(zhǔn)確地計(jì)算目標(biāo)間的相似性,使同一目標(biāo)之間相似性距離盡量小,不同目標(biāo)間的相似性距離盡量大;其次,基于判別能力強(qiáng)大的相關(guān)濾波器和卡爾曼預(yù)估器結(jié)合的單目標(biāo)跟蹤器可以在目標(biāo)遮擋、快速運(yùn)動(dòng)中準(zhǔn)確地跟蹤目標(biāo).實(shí)驗(yàn)結(jié)果表明,多目標(biāo)跟蹤算法能夠?qū)崟r(shí)準(zhǔn)確地跟蹤被遮擋的目標(biāo)和快速運(yùn)動(dòng)的目標(biāo).
關(guān)鍵詞 多目標(biāo)追蹤;多信息融合;相關(guān)濾波器;卡爾曼濾波器
中圖分類號(hào) TP391.41
文獻(xiàn)標(biāo)志碼 A
0 引言
多目標(biāo)追蹤在計(jì)算機(jī)視覺領(lǐng)域有著重要的應(yīng)用,例如視頻監(jiān)控、運(yùn)動(dòng)分析、機(jī)器人導(dǎo)航以及自動(dòng)駕駛等.多目標(biāo)追蹤的任務(wù)可以分解為2個(gè)部分,每個(gè)部分處理各自獨(dú)立的問題.第1部分是目標(biāo)檢測(cè),在每一幀中獨(dú)立地進(jìn)行檢測(cè)目標(biāo)數(shù)目和目標(biāo)位置;第2部分是依賴目標(biāo)外觀信息和運(yùn)動(dòng)信息匹配檢測(cè)和跟蹤.文獻(xiàn)[1-2]等說明目標(biāo)檢測(cè)在多目標(biāo)追蹤算法中起著重要的作用.傳統(tǒng)的目標(biāo)檢測(cè)算法[3-4]使用滑動(dòng)窗口在不同尺度的輸入圖像中選定某一個(gè)候選區(qū)域,然后提取haar-like、hog等特征,使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法訓(xùn)練分類器,比如Adaboost、SVM等,最后對(duì)候選區(qū)域進(jìn)行分類,區(qū)分目標(biāo)和背景.傳統(tǒng)方法使用滑動(dòng)窗口采樣,樣本數(shù)目巨大,為了平衡檢測(cè)速率,一般采用計(jì)算簡(jiǎn)單的圖像特征,這些特征的表現(xiàn)能力非常有限,比如模板匹配特征(hog特征)在目標(biāo)發(fā)生形變時(shí),將無法檢測(cè)到目標(biāo).近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度卷積網(wǎng)絡(luò)進(jìn)行分類時(shí)能夠?qū)W習(xí)到描述能力強(qiáng)大的特征.文獻(xiàn)[5]中,RCNN通過selective search算法從輸入圖像中提取可能存在目標(biāo)的候選區(qū)域,提取候選區(qū)域的深度卷積特征,最后將特征送入分類器進(jìn)行分類,區(qū)分目標(biāo)和背景.之后,眾多文獻(xiàn)[6-8]對(duì)其進(jìn)行改進(jìn):文獻(xiàn)[6,8]提出了ROI pooling層來解決重復(fù)的卷積計(jì)算問題,文獻(xiàn)[7]引入候選區(qū)域生成網(wǎng)絡(luò)(region proposal network)替代selective search算法實(shí)現(xiàn)了端到端的深度學(xué)習(xí)訓(xùn)練算法.文獻(xiàn)[5-8]均是采用對(duì)候選區(qū)域分類的方法解決目標(biāo)檢測(cè)問題,速度較慢.最近,文獻(xiàn)[9-10]通過深度學(xué)習(xí)端到端的回歸方法檢測(cè)目標(biāo).YOLO[9]和YOLO9000[10]速度快、效果好,因此,本文采用YOLO9000作為目標(biāo)檢測(cè)算法.
多目標(biāo)追蹤算法主要基于通過檢測(cè)實(shí)現(xiàn)跟蹤,然后將每一幀的檢測(cè)目標(biāo)位置連接匹配成各個(gè)目標(biāo)的軌跡.2015年之前,很多工作[11-13]關(guān)注于設(shè)計(jì)一個(gè)健壯的、完美的、全局最優(yōu)的算法來求解數(shù)據(jù)匹配問題.Pirsiavash等[11]將匹配檢測(cè)到目標(biāo)軌跡集合的任務(wù)視為一個(gè)圖模型,并用K最短路徑優(yōu)化算法求解.Leal-Taixé等[12]將數(shù)據(jù)匹配問題視為一個(gè)圖模型,圖的節(jié)點(diǎn)為目標(biāo)檢測(cè)的位置,圖的邊為兩兩檢測(cè)的相似性度量,采用線性規(guī)劃來快速求解優(yōu)化問題.Dicle等[13]發(fā)現(xiàn)相似目標(biāo)外觀信息容易混淆,他們提出了一種更加關(guān)注目標(biāo)運(yùn)動(dòng)信息的模型,匹配檢測(cè)的相似性僅僅使用簡(jiǎn)單的距離度量.文獻(xiàn)[14-18]研究發(fā)現(xiàn),借助強(qiáng)大的目標(biāo)特征表示可以很大地提高目標(biāo)跟蹤的性能,因此,近年來,多目標(biāo)跟蹤算法更加關(guān)注于設(shè)計(jì)一個(gè)強(qiáng)有力的相似性度量方法,它們大部分基于一些強(qiáng)大表示能力的特征.Fagot-Bouquet等[14]使用目標(biāo)的外觀稀疏表示;Kim等[15]采用了一種在線的自適應(yīng)的更新機(jī)制來保證模型的魯棒性;Kieritz等[16]采用了積分通道特征.深度學(xué)習(xí)方法同樣對(duì)目標(biāo)追蹤有著重要的影響:Sadeghian等[17]使用遞歸神經(jīng)網(wǎng)絡(luò)來編碼目標(biāo)的外觀信息、運(yùn)動(dòng)信息以及相互作用信息;Tang等[18]采用深度度量學(xué)習(xí),學(xué)習(xí)到一種相似性度量計(jì)算方法.
本文提出一種新的多目標(biāo)追蹤算法,如圖1所示,該算法由先進(jìn)的目標(biāo)檢測(cè)模塊和強(qiáng)大的特征表示模塊組成.在目標(biāo)檢測(cè)模塊,使用YOLO9000深度網(wǎng)絡(luò)在人臉和車輛等數(shù)據(jù)集上重新訓(xùn)練,得到了一種專門檢測(cè)人臉和車輛的深度網(wǎng)絡(luò).在特征表示模型,結(jié)合了目標(biāo)的運(yùn)動(dòng)信息、形狀信息以及外觀信息,然后計(jì)算特征表示的歐氏距離來度量目標(biāo)間的相似性.實(shí)驗(yàn)證明,本文算法效果顯著,而且在使用GPU的條件下(NVIDIA TITAN X),速度可以達(dá)到實(shí)時(shí)性要求.
本文首先介紹目標(biāo)檢測(cè)算法;隨后,描述如何結(jié)合目標(biāo)的運(yùn)動(dòng)信息、形狀信息以及外觀信息;最后為實(shí)驗(yàn)結(jié)果總結(jié).
1 目標(biāo)檢測(cè)
基于深度學(xué)習(xí)方法的一個(gè)特點(diǎn)就是實(shí)現(xiàn)端到端的檢測(cè).相對(duì)于其他目標(biāo)檢測(cè)與識(shí)別方法[5]將目標(biāo)識(shí)別任務(wù)分類目標(biāo)區(qū)域預(yù)測(cè)和類別預(yù)測(cè)等多個(gè)流程,YOLO[9]將目標(biāo)區(qū)域預(yù)測(cè)和目標(biāo)類別預(yù)測(cè)整合于單個(gè)神經(jīng)網(wǎng)絡(luò)模型中,實(shí)現(xiàn)在準(zhǔn)確率較高的情況下快速目標(biāo)檢測(cè)與識(shí)別的目的,更加適合現(xiàn)場(chǎng)應(yīng)用環(huán)境.后續(xù)研究中進(jìn)一步優(yōu)化YOLO網(wǎng)絡(luò)結(jié)構(gòu),提高了YOLO準(zhǔn)確率[10].
傳統(tǒng)目標(biāo)檢測(cè)方法[3-4]一般采用滑動(dòng)窗口法提取目標(biāo)候選區(qū)域,然后采用分類器分類.最近RCNN[5]采用候選區(qū)域生成算法產(chǎn)生候選區(qū)域,輸入深度卷積網(wǎng)絡(luò)提取特征,最后采用分類器進(jìn)行分類.這種方法流程復(fù)雜,速度慢且訓(xùn)練困難.YOLO采用一整個(gè)卷積神經(jīng)網(wǎng)絡(luò)來回歸預(yù)測(cè)目標(biāo)的位置已經(jīng)目標(biāo)的類別.YOLO算法流程如下:首先將輸入圖像劃分為S×S個(gè)網(wǎng)格.如果某個(gè)目標(biāo)的中心落入該網(wǎng)格中,則該網(wǎng)格就負(fù)責(zé)檢測(cè)該目標(biāo).每個(gè)網(wǎng)格預(yù)測(cè)存在某個(gè)類別的物體的概率以及目標(biāo)的B個(gè)包圍框.每個(gè)包圍框預(yù)測(cè)物體的位置坐標(biāo)參數(shù)以及目標(biāo)的置信度.YOLO9000針對(duì)YOLO召回率低、定位不準(zhǔn)確等缺點(diǎn)進(jìn)行改進(jìn),而且將網(wǎng)絡(luò)進(jìn)一步精簡(jiǎn),使檢測(cè)速度進(jìn)一步提升.在本文實(shí)驗(yàn)中,在人臉數(shù)據(jù)集FDDB[19]和車輛數(shù)據(jù)集KITTI[20]上重新訓(xùn)練YOLO網(wǎng)絡(luò)得到人臉檢測(cè)模型和車輛檢測(cè)模型,為多目標(biāo)跟蹤算法提供檢測(cè)服務(wù).
2 多種信息融合的在線多目標(biāo)追蹤算法
強(qiáng)健的目標(biāo)之間的相似性可以提高多目標(biāo)跟蹤算法的性能.為此,本文結(jié)合了目標(biāo)外觀信息、運(yùn)動(dòng)信息和形狀信息.其中外觀信息相似性采用深度卷積特征的歐氏距離作為度量,運(yùn)動(dòng)信息和形狀信息由卡爾曼預(yù)估器和相關(guān)濾波器結(jié)合的單目標(biāo)跟蹤算法獲得.
2.1 外觀信息
計(jì)算外觀相似性應(yīng)該滿足:同一目標(biāo)之間的外觀應(yīng)該盡量相似,不同目標(biāo)之間的外觀應(yīng)該盡量不同.近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域得到迅速發(fā)展,在圖像分類、目標(biāo)檢測(cè)和目標(biāo)識(shí)別等領(lǐng)域表現(xiàn)出色.不同于傳統(tǒng)的手動(dòng)設(shè)計(jì)的圖像特征,深度卷積特征具有強(qiáng)大的表示能力.借助深度網(wǎng)絡(luò)的強(qiáng)大遷移能力,本文在圖像分類任務(wù)ImageNet上預(yù)訓(xùn)練GoogleNet,然后提取pool5 層的深度卷積特征應(yīng)用到目標(biāo)跟蹤問題上.為了計(jì)算目標(biāo)之間的外觀相似性,首先歸一化特征向量,最后使用歐式距離來度量.
2.2 運(yùn)動(dòng)信息和形狀信息
同類目標(biāo)之間的外觀信息判別能力弱,不容易區(qū)分同類目標(biāo),為此,本文進(jìn)一步結(jié)合了目標(biāo)的運(yùn)動(dòng)信息和形狀信息.利用Kalman預(yù)估器和相關(guān)濾波器結(jié)合的單目標(biāo)跟蹤算法獲得目標(biāo)的運(yùn)動(dòng)信息和形狀信息.
近年來,基于相關(guān)濾波的跟蹤方法因?yàn)樗俣瓤臁⑿Ч梦吮姸嘌芯空叩哪抗?相關(guān)濾波器為了訓(xùn)練一個(gè)最優(yōu)的濾波器,算法采用嶺回歸機(jī)器學(xué)習(xí)方法,在特征空間中回歸到目標(biāo)的二維高斯分布.然后在后續(xù)跟蹤序列中尋找相關(guān)輸出中的響應(yīng)峰值來定位目標(biāo)的位置.相關(guān)濾波器在運(yùn)算中巧妙應(yīng)用快速傅立葉變換獲得了大幅度速度提升.利用循環(huán)矩陣來模擬采樣,可以做到密集采樣,增加了模型的判別能力.目前基于相關(guān)濾波的拓展方法也有很多,包括核化相關(guān)濾波器[21]以及加尺度估計(jì)的相關(guān)濾波[22]等.卡爾曼預(yù)估器是一個(gè)在誤差協(xié)方差最小準(zhǔn)則下的最優(yōu)估計(jì)方法,計(jì)算量小、實(shí)時(shí)性高,能利用實(shí)際的運(yùn)動(dòng)參數(shù)不斷修正未來運(yùn)動(dòng)狀態(tài)的估計(jì)值,提高估計(jì)精度,兼顧實(shí)時(shí)性和穩(wěn)健性[23].場(chǎng)景中的目標(biāo)在每一幀圖像中的位置構(gòu)成了目標(biāo)運(yùn)動(dòng)的軌跡,引入卡爾曼預(yù)估器的目的就是根據(jù)當(dāng)前幀中目標(biāo)位置點(diǎn)的信息預(yù)測(cè)下一幀中目標(biāo)的可能位置.由于相關(guān)濾波器跟蹤算法在發(fā)生目標(biāo)遮擋、快速運(yùn)動(dòng)時(shí)容易跟蹤失敗,因此采用了一種檢測(cè)相關(guān)濾波器跟蹤失敗的方法[24],計(jì)算相關(guān)輸出相應(yīng)的峰值和APCE,當(dāng)相關(guān)濾波器跟蹤失敗時(shí),使用卡爾曼預(yù)估器跟蹤,框架如圖2所示.
3 實(shí)驗(yàn)結(jié)果
本文實(shí)驗(yàn)程序在NVIDIA TITAN X環(huán)境下,針對(duì)目標(biāo)遮擋、快速運(yùn)動(dòng)以及目標(biāo)交匯進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)證明,本文的多目標(biāo)跟蹤算法具有很強(qiáng)的魯棒性.在NVIDIA TITAN X下,速度可以達(dá)到25 fps以上.如圖3所示,本文的多目標(biāo)跟蹤算法可以在目標(biāo)遮擋、快速運(yùn)動(dòng)等追蹤困難場(chǎng)景下魯棒地跟蹤目標(biāo).如圖3a所示,目標(biāo)ID3和6在發(fā)生交匯的時(shí)候,得益于多種信息融合的目標(biāo)特征表示以及卡爾曼預(yù)估器和相關(guān)濾波器結(jié)合的單目標(biāo)跟蹤算法,使多目標(biāo)跟蹤算法可以很好地跟蹤各個(gè)目標(biāo).如圖4所示,本文算法同樣可以很好地跟蹤密集的小目標(biāo).在目標(biāo)發(fā)生形變及遮擋時(shí),算法依然能夠準(zhǔn)確地跟蹤目標(biāo).本文算法可以為后續(xù)目標(biāo)行為分析、目標(biāo)檢索等問題提供有效的技術(shù)支持.
4 結(jié)論
本文針對(duì)目標(biāo)幀間位移過大時(shí)導(dǎo)致目標(biāo)在相關(guān)濾波器搜索區(qū)域消失的問題,利用卡爾曼預(yù)估器預(yù)測(cè)目標(biāo)下一幀中的目標(biāo)位置,以此位置為中心設(shè)置候選搜索區(qū)域可以很好地解決目標(biāo)快速運(yùn)動(dòng)跟蹤丟失的問題.針對(duì)目標(biāo)被遮擋時(shí),本文設(shè)計(jì)了多種信息融合的目標(biāo)特征表示,準(zhǔn)確地計(jì)算目標(biāo)之間的相似性,而且目標(biāo)完全遮擋時(shí),可以利用卡爾曼預(yù)估器估計(jì)目標(biāo)的后續(xù)位置,因此算法對(duì)目標(biāo)遮擋問題魯棒性較好.另外,實(shí)驗(yàn)證明,本文算法在各種場(chǎng)景下均能達(dá)到實(shí)時(shí)跟蹤.
參考文獻(xiàn)
References
[1] Milan A,Leal-Taixe L,Reid I,et al.MOT16:A benchmark for multi-object tracking[J].arXiv e-print,2016,arXiv:1603.00831
[2] Leal-Taixé L,Milan A,Reid I,et al.MOTChallenge 2015:Towards a benchmark for multi-target tracking[J].arXiv e-print,2015,arXiv:1504.01942
[3] Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2003:511-518
[4] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005:886-893
[5] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE International Conference on Computer Vision and Pattern Recognition,2014:580-587
[6] Girshick R.Fast R-CNN[C]∥IEEE International Conference on Computer Vision,2015:1440-1448
[7] Ren S P,He K M,Girshick R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,39(6):1137-1149
[8] He K M,Zhang X Y,Ren S Q,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916
[9] Redmon J,Divvala S K,Girshick R,et al.You only look once:Unified,real-time object detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788
[10] Redmon J,F(xiàn)arhadi A.YOLO9000:Better,faster,stronger[J].arXiv e-print,2016,arXiv:1612.08242
[11] Pirsiavash H,Ramanan D,F(xiàn)owlkes C C,et al.Globally-optimal greedy algorithms for tracking a variable number of objects[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:1201-1208
[12] Leal-Taixé L,Pons-Moll G,Rosenhahn B,et al.Everybody needs somebody:Modeling social and grouping behavior on a linear programming multiple people tracker[C]∥IEEE International Conference on Computer Vision,2011:120-127
[13] Dicle C,Camps O I,Sznaier M,et al.The way they move:Tracking multiple targets with similar appearance[C]∥IEEE International Conference on Computer Vision,2014:2304-2311
[14] Fagot-Bouquet L,Audigier R,Dhome Y,et al.Improving multi-frame data association with sparse representations for robust near-online multi-object tracking[C]∥European Conference on Computer Vision,2016:774-790
[15] Kim C,Li F X,Ciptadi A,et al.Multiple hypothesis tracking revisited[C]∥IEEE International Conference on Computer Vision,2015:4696-4704
[16] Kieritz H,Becker S,Hubner W,et al.Online multi-person tracking using integral channel features[C]∥IEEE International Conference on Advanced Video and Signal Based Surveillance,2016:122-130
[17] Sadeghian A,Alahi A,Savarese S.Tracking the untrackable:Learning to track multiple cues with long-term dependencies[J].arXiv e-print,2017,arXiv:1701.01909
[18] Tang S Y,Andres B,Andriluka M,et al.Multi-person tracking by multicut and deep matching[C]∥European Conference on Computer Vision,2016:100-111
[19] Jain V,Learned-Miller E.FDDB:A benchmark for face detection in unconstrained settings[R].Technical Report UM-CS-2010-009,University of Massachusetts,2010
[20] Urtasun R,Lenz P,Geiger A.Are we ready for autonomous driving? The KITTI vision benchmark suite[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:3354-3361
[21] Henriques J F,Caseiro R,Martins P,et al.High-speed tracking with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596
[22] Danelljan M,Hager G,Khan F S,et al.Accurate scale estimation for robust visual tracking[C]∥British Machine Vision Conference,2014,DOI:10.5244/C.28.65
[23] Liu R M,Li X L,Han L,et al.Track infrared point targets based on projection coefficient templates and non-linear correlation combined with Kalman prediction[J].Infrared Physics & Technology,2013,57(2):68-75
[24] Wang M M,Liu Y,Huang Z Y.Large margin object tracking with circulant feature maps[J].arXiv e-print,2017,arXiv:1703.05020