程 旭 張毅鋒 劉 袁 崔錦實(shí) 周 琳
(1東南大學(xué)信息科學(xué)與工程學(xué)院, 南京 210096)(2南京船舶雷達(dá)研究所, 南京 210003)(3北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100871)
基于深度特征的目標(biāo)跟蹤算法
程 旭1,2,3張毅鋒1,3劉 袁1,3崔錦實(shí)3周 琳1
(1東南大學(xué)信息科學(xué)與工程學(xué)院, 南京 210096)(2南京船舶雷達(dá)研究所, 南京 210003)(3北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100871)
針對(duì)跟蹤過程中運(yùn)動(dòng)目標(biāo)的魯棒性問題,提出了一種基于深度特征的跟蹤算法.首先,利用仿射變換對(duì)每一幀圖像進(jìn)行歸一化處理.然后,利用深度去噪自編碼器提取歸一化圖像的特征.由于提取的特征維數(shù)巨大,為了提高計(jì)算效率,提出了一種高效的基于稀疏表示的降維方法,通過投影矩陣將高維特征投影到低維空間,進(jìn)而結(jié)合粒子濾波方法完成目標(biāo)跟蹤.最后,將初始幀的目標(biāo)信息融入到目標(biāo)表觀更新過程中,降低了跟蹤過程中目標(biāo)發(fā)生漂移的風(fēng)險(xiǎn).實(shí)驗(yàn)結(jié)果表明,所提出的視覺跟蹤算法在6段視頻序列上獲得了較高的準(zhǔn)確度,能夠在遮擋、光照變化、尺度變化和目標(biāo)快速運(yùn)動(dòng)的條件下穩(wěn)定地跟蹤目標(biāo).
視覺跟蹤;深度學(xué)習(xí);稀疏表示;模板更新
傳統(tǒng)的目標(biāo)跟蹤算法大致可分為基于生成式模型的跟蹤方法和基于判別式模型的跟蹤方法兩大類.前者將目標(biāo)的第1幀信息作為模板,在跟蹤過程中,將與目標(biāo)模板匹配度最高的候選狀態(tài)作為跟蹤結(jié)果;這類方法包括增量視覺跟蹤算法[1]、Fragment法[2]、視覺跟蹤分解法[3]等;其缺點(diǎn)在于不能充分利用目標(biāo)的背景信息.后者將跟蹤作為二元分類問題,利用背景信息把目標(biāo)從背景中分離出來;這類方法包括多示例學(xué)習(xí)法(MIL)[4-5]、跟蹤學(xué)習(xí)檢測(cè)算法(TLD)[6]、多任務(wù)跟蹤法(MTT)[7]等,其跟蹤性能優(yōu)于前者.最近,Mei等[8-9]將稀疏編碼理論引入到目標(biāo)跟蹤領(lǐng)域;Zhong等[10-11]在稀疏表示的框架下采用生成式模型和判別式模型相結(jié)合的方法來提升跟蹤性能.上述跟蹤算法大多采用人工設(shè)計(jì)的特征 (如直方圖、HOG描述子等).然而,實(shí)驗(yàn)證明人工設(shè)計(jì)的特征不適合于所有目標(biāo).深度學(xué)習(xí)的發(fā)展為自動(dòng)學(xué)習(xí)特征提供了可能.文獻(xiàn)[12]利用輔助數(shù)據(jù)來離線訓(xùn)練深度網(wǎng)絡(luò),然后將離線訓(xùn)練的模型遷移到在線目標(biāo)跟蹤過程;文獻(xiàn)[13]使用深度去噪自編碼器(SDAE)[14]從大量輔助圖像中學(xué)習(xí)通用的特征知識(shí);文獻(xiàn)[15]利用2層卷積神經(jīng)網(wǎng)絡(luò)(CNN)來應(yīng)對(duì)復(fù)雜的目標(biāo)表觀變化.
本文提出了一種基于深度特征的視覺跟蹤算法(DFT).首先,從大量圖像中訓(xùn)練深度去噪自編碼器,并利用其提取圖像中的目標(biāo)信息;然后,采用一種基于稀疏表示的降維方法,從大量的特征維數(shù)中選擇出少量高效的特征維數(shù);最后,將初始幀的目標(biāo)信息融入到目標(biāo)表觀更新過程中,以降低目標(biāo)發(fā)生漂移的風(fēng)險(xiǎn).實(shí)驗(yàn)結(jié)果驗(yàn)證了DFT算法的高效性.
1.1 特征提取
SDAE是指從幾百萬張圖像中集中學(xué)習(xí)、重構(gòu)原始圖像,通過優(yōu)化重構(gòu)誤差來提高深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)噪聲的魯棒性[15].它在無監(jiān)督學(xué)習(xí)的框架下利用貪婪算法來訓(xùn)練多個(gè)自編碼器.通過學(xué)習(xí),將底層特征抽象為高層特征.SDAE由編碼器和解編碼器構(gòu)成,是一種非線性多層網(wǎng)絡(luò)結(jié)構(gòu),每層中包含有大量的網(wǎng)絡(luò)節(jié)點(diǎn)及其相應(yīng)的參數(shù).本文利用離線訓(xùn)練的SDAE來提取視頻中的目標(biāo)特征,以實(shí)現(xiàn)在線跟蹤.圖1為DFT算法的實(shí)現(xiàn)流程圖.
1.2 特征選擇
深度學(xué)習(xí)的特征維數(shù)巨大,能夠高效表示目標(biāo)的特征維數(shù)卻是少量稀疏的,這些稀疏的特征維數(shù)與目標(biāo)有很大的相關(guān)性.利用SDAE對(duì)圖像進(jìn)行特征提取時(shí),會(huì)產(chǎn)生包含有大量噪聲或者與目標(biāo)不相關(guān)的背景信息.網(wǎng)絡(luò)底層的特征具有判別性,能夠較好地刻畫出目標(biāo)類內(nèi)的變化,高層的特征更具有語(yǔ)義的概念.基于以上考慮, 本文提出了一種高效的基于稀疏表示的降維方法, 利用其對(duì)SDAE提取的高維特征進(jìn)行降維.
圖1 DFT算法流程圖
首先,利用一段視頻序列的前10幀來構(gòu)造字典.將前10幀的跟蹤結(jié)果作為目標(biāo)的正樣本,在目標(biāo)周圍的背景區(qū)域隨機(jī)采樣n個(gè)樣本作為背景模板.將每個(gè)采樣圖像變換成大小為32×32像素的圖像,并將其拉直成列向量,通過SDAE后輸出字典.構(gòu)造的字典中包含目標(biāo)模板和背景模板.字典中正負(fù)模板的構(gòu)造過程如圖2所示.
圖2 字典中正負(fù)模板的構(gòu)造過程
由于SDAE提取的圖像特征是冗余的,本文采取稀疏表示的策略從海量信息中選擇出有效的特征.特征選擇的表達(dá)式為
(1)
式中,A∈RK×(m+n)為構(gòu)造的字典,其中m和n分別為正、負(fù)模板個(gè)數(shù),此處m=10,K為特征維數(shù);s為稀疏系數(shù)向量;λ1為權(quán)重因子;p∈R(m+n)×1為A中每個(gè)原子的屬性,+1表示原子中正模板屬性,-1表示原子中負(fù)模板屬性.
根據(jù)式(1)得到稀疏系數(shù)向量s,將s中的非零元素作為特征選擇的依據(jù).投影矩陣S中第i行第i列的元素Sii為
(2)
式中,si為稀疏系數(shù)向量s中的第i個(gè)元素.
利用式(2)將字典A和候選采樣x投影到一個(gè)判別式空間上,實(shí)現(xiàn)對(duì)目標(biāo)特征的選擇.降維后的字典A′和候選狀態(tài)x′可表示為
A′=SA,x′=Sx
(3)
利用式(3)便可從K維特征中選擇出高效的判別特征.
1.3 目標(biāo)跟蹤
本文在粒子濾波框架下完成視覺跟蹤的目標(biāo)運(yùn)動(dòng)狀態(tài)估計(jì).通過一系列的目標(biāo)觀測(cè)值O1:t={o1,o2,…,ot}來對(duì)當(dāng)前的目標(biāo)狀態(tài)做出估計(jì),其目標(biāo)狀態(tài)xt的后驗(yàn)概率表達(dá)式為
(4)
(5)
1.4 模板更新
本文提出了一種高效的目標(biāo)模板更新策略來提高跟蹤的魯棒性.更新包括整個(gè)網(wǎng)絡(luò)參數(shù)的更新和原始特征的更新.每運(yùn)行10幀圖像更新一次字典和目標(biāo)模板.模板更新模型為
2.1 實(shí)驗(yàn)設(shè)置
本文算法在Matlab 2010b上實(shí)現(xiàn),計(jì)算機(jī)配置為Intel Core 2 Duo 2.93 GHz,內(nèi)存為2.96 GB.實(shí)驗(yàn)所選用的數(shù)據(jù)庫(kù)中包含了挑戰(zhàn)性的場(chǎng)景,如目標(biāo)遮擋、光照變化、尺度變化以及目標(biāo)快速運(yùn)動(dòng).選取了7種基于淺層特征的主流跟蹤算法,即IVT算法[1]、FragT算法[2]、VTD算法[3]、WMIL算法[5]、TLD算法[6]、APGL1算法[9]和SCM算法[10],并將本文算法與這7種算法進(jìn)行了比較.
將一幅圖像仿射投影為32×32像素的圖像,并進(jìn)行歸一化處理.然后,把圖像拉直成1 024維向量,每一維對(duì)應(yīng)于圖像中的一個(gè)像素,并將其作為編碼器中第1層的1 024個(gè)網(wǎng)絡(luò)單元.在網(wǎng)絡(luò)的隱藏層中,每個(gè)編碼器的網(wǎng)絡(luò)單元都為輸入層網(wǎng)絡(luò)單元的一半,直到隱藏層網(wǎng)絡(luò)單元數(shù)減為256.最后,在網(wǎng)絡(luò)中添加了超完備濾波層,從而更好地提取圖像的結(jié)構(gòu)信息.
2.2 定量分析
表1 跟蹤成功率
2.3 定性分析
圖3給出了目標(biāo)發(fā)生遮擋時(shí)不同算法的跟蹤結(jié)果.圖中,q為視頻序列的幀數(shù).由圖可知,在Faceocc1序列中,目標(biāo)于靜態(tài)背景下運(yùn)動(dòng),大多數(shù)算法都能夠成功地跟蹤目標(biāo).在Faceocc2序列中,大多數(shù)算法都產(chǎn)生了不同程度的漂移,部分算法甚至丟失了目標(biāo).在Caviar序列中,TLD算法在遇到遮擋、相似目標(biāo)干擾時(shí)會(huì)逐漸丟失目標(biāo),WMIL算法由于訓(xùn)練器中混入了背景噪聲而導(dǎo)致跟蹤失?。疚乃惴▌t能夠正確地跟蹤3段序列的目標(biāo).
圖3 目標(biāo)發(fā)生遮擋時(shí)不同算法的跟蹤結(jié)果
圖4給出了光照和尺度變化下不同算法的跟蹤結(jié)果.由圖可知,在Singer1序列中,光照強(qiáng)度劇烈地變亮且目標(biāo)尺度也發(fā)生了變化,WMIL算法、FragT算法和TLD算法跟蹤失敗;本文算法、VTD算法和SCM算法則能夠適應(yīng)尺度的變化而成功跟蹤目標(biāo).在DavidIndoor序列中,本文算法、SCM算法、TLD算法和IVT算法能夠成功跟蹤目標(biāo),但都出現(xiàn)了不同程度的漂移.在Car4序列中,除WMIL算法和FragT算法外,其他算法都能夠跟蹤目標(biāo),但都伴隨有不同程度的跟蹤誤差.
圖4 光照和尺度變化下不同算法的跟蹤結(jié)果
2.4 計(jì)算復(fù)雜度
SDAE為非線性的網(wǎng)絡(luò)結(jié)構(gòu),每層中包含大量的節(jié)點(diǎn)和參數(shù),使其在網(wǎng)絡(luò)訓(xùn)練、參數(shù)更新以及在線特征提取方面耗時(shí)較大.為了提高運(yùn)行速度,可在訓(xùn)練和跟蹤過程中采用并行計(jì)算和圖形處理單元加速技術(shù).本文算法中采用了并行計(jì)算,運(yùn)行速度得到了較大的提升.在6段視頻上比較了IVT算法、WMIL算法、FragT算法、APGL1算法、MTT算法、TLD算法、SCM算法和本文算法的時(shí)間復(fù)雜度.結(jié)果顯示,本文算法平均每秒鐘能處理8幀視頻圖像,IVT算法的運(yùn)算速度最快,平均每秒鐘運(yùn)行24幀圖像.
本文提出了一種基于深度學(xué)習(xí)的跟蹤算法,利用深度學(xué)習(xí)實(shí)現(xiàn)對(duì)目標(biāo)表觀的高效表示,將離線階段訓(xùn)練得到的信息融入到在線跟蹤過程中.采用稀疏策略對(duì)高維特征進(jìn)行降維,進(jìn)一步提高了計(jì)算效率,并通過定期更新深度網(wǎng)絡(luò)參數(shù)和目標(biāo)的表觀模型來及時(shí)捕獲目標(biāo)表觀的變化,提高了對(duì)目標(biāo)表觀變化的適應(yīng)性.最后,在粒子濾波算法框架下完成對(duì)目標(biāo)的定位.遮擋、光照變化、尺度變化和目標(biāo)快速運(yùn)動(dòng)條件下的目標(biāo)跟蹤實(shí)驗(yàn)結(jié)果證實(shí)了本文算法的高效性.但該算法也存在不足:在復(fù)雜場(chǎng)景下目標(biāo)運(yùn)動(dòng)發(fā)生漂移時(shí),該算法不能夠及時(shí)糾正目標(biāo)的漂移,導(dǎo)致跟蹤失敗;SDAE是利用大量圖像數(shù)據(jù)離線訓(xùn)練得到的,在跟蹤過程中,不合適的知識(shí)遷移將降低目標(biāo)跟蹤的精度,甚至使目標(biāo)丟失.這些問題都有待于進(jìn)一步的研究.
References)
[1]Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J].InternationalJournalofComputerVision, 2008, 77(1): 125-141. DOI:10.1007/s11263-007-0075-7.
[2]Adam A, Rivlin E, Shimshoni I. Robust fragments-based tracking using the integral histogram [C]//2006IEEEConferenceonComputerVisionandPatternRecognition. New York, USA, 2006: 798-805.
[3]Kwon J, Lee K M. Visual tracking decomposition [C]//2010IEEEConferenceonComputerVisionandPatternRecognition. San Francisco, CA, USA, 2010: 1269-1276.
[4]Babenko B, Yang M H, Belongie S. Visual tracking with online multiple instance learning [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2011, 33(8): 1619-1632. DOI:10.1109/TPAMI.2010.226.
[5]Zhang K, Song H. Real-time visual tracking via online weighted multiple instance learning[J].PatternRecognition, 2013, 46(1): 397-411. DOI:10.1016/j.patcog.2012.07.013.
[6]Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2012, 34(7): 1409-1422. DOI:10.1109/TPAMI.2011.239.
[7]Zhang T, Ghanem B, Liu S, et al. Robust visual tracking via structured multi-task sparse learning [J].InternationalJournalofComputerVision, 2013, 101(2): 367-383. DOI:10.1007/s11263-012-0582-z.
[8]Mei X, Ling H. Robust visual tracking and vehicle classification via sparse representation [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2011, 33(11): 2259-2272. DOI:10.1109/TPAMI.2011.66.
[9]Bao C, Wu Y, Ling H, et al. Real time robust L1 tracker using accelerated proximal gradient approach [C]//2012IEEEConferenceonComputerVisionandPatternRecognition. Providence, Rhode Island, USA, 2012: 1830-1837.
[10]Zhong W, Lu H, Yang M H. Robust object tracking via sparse collaborative appearance model [J].IEEETransactionsonImageProcessing, 2014, 23(5): 2356-2368. DOI:10.1109/TIP.2014.2313227.
[11]Cheng X, Li N, Zhou T, et al. Object tracking via collaborative multi-task learning and appearance model updating [J].AppliedSoftComputing, 2015, 31: 81-90. DOI:10.1016/j.asoc.2015.03.002.
[12]Li H, Li Y, Porikli F. Robust online visual tracking with a single convolutional neural network [C]//2014AsianConferenceonComputerVision. Singapore, 2014: 194-209. DOI:10.1007/978-3-319-16814-2_13.
[13]Wang N, Yeung D Y. Learning a deep compact image representation for visual tracking [C]//2013AdvancesinNeuralInformationProcessingSystems. Lake Tahoe, CA,USA, 2013: 809-817.
[14]Wang N, Li S, Gupta A, et al. Transferring rich feature hierarchies for robust visual tracking [EB/OL]. (2015-04-23)[2016-02-19]. https://arxiv.org/abs/1501.04587.
[15]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J].Science, 2006, 313(5786): 504-507. DOI:10.1126/science.1127647.
Object tracking algorithm based on deep feature
Cheng Xu1,2,3Zhang Yifeng1,3Liu Yuan1,3Cui Jinshi3Zhou Lin1
(1School of Information Science and Engineering, Southeast University, Nanjing 210096, China) (2Nanjing Marine Radar Institute, Nanjing 210003, China) (3Key Laboratory of Machine Perception of Ministry of Education, Peking University, Beijing 100871, China)
To solve the robustness problem of the motion object in the tracking process, a tracking algorithm based on deep feature is proposed. First, each frame in the video is normalized by affine transformation. Then, the object feature is extracted from the normalized image by the stacked denoising autoencoder. Because of the large dimensions of deep feature, to improve the computational efficiency, an effective dimension reduction method based on sparse representation is presented. The high dimensional features are projected into the low dimensional space by the projection matrix. The object tracking is achieved by combing the particle filter algorithm. Finally, the object information of the first frame is integrated into the updating process of the object appearance to reduce the risk of object drift during the tracking process. The experimental results show that the proposed tracking algorithm exhibits a high degree of accuracy in six video sequences, and it can stably track the object under the circumstance of occlusion, illumination change, scale variation and fast motion.
visual tracking; deep learning; sparse representation; template updating
第47卷第1期2017年1月 東南大學(xué)學(xué)報(bào)(自然科學(xué)版)JOURNALOFSOUTHEASTUNIVERSITY(NaturalScienceEdition) Vol.47No.1Jan.2017DOI:10.3969/j.issn.1001-0505.2017.01.001
2016-06-27. 作者簡(jiǎn)介:程旭(1983—),男,博士; 張毅鋒(聯(lián)系人),男,博士,副教授, yfz@seu.edu.cn.
國(guó)家自然科學(xué)基金資助項(xiàng)目(61571106)、江蘇省自然科學(xué)基金資助項(xiàng)目(BK20151102)、北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室開放課題資助項(xiàng)目(K-2016-03).
程旭,張毅鋒,劉袁,等.基于深度特征的目標(biāo)跟蹤算法[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,47(1):1-5.
10.3969/j.issn.1001-0505.2017.01.001.
TP391
A
1001-0505(2017)01-0001-05