程 旭 周 琳 張毅鋒,3
(1東南大學(xué)信息科學(xué)與工程學(xué)院, 南京 210096)(2中船重工鵬力(南京)智能裝備系統(tǒng)有限公司, 南京 210003)(3南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 南京 210023)
跟蹤算法通??煞譃樯墒礁櫵惴ê团袆e式跟蹤算法兩大類[1].生成式模型是在當(dāng)前時(shí)刻搜索與目標(biāo)表觀特征最為相似的圖像區(qū)域作為目標(biāo)跟蹤的結(jié)果,包括增量視覺跟蹤(IVT)[2]、視覺跟蹤分解[3]等;其缺點(diǎn)是沒有利用目標(biāo)周圍的背景信息,易發(fā)生目標(biāo)漂移.隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,基于判別式模型的學(xué)習(xí)跟蹤算法已成為近年來研究的熱點(diǎn).該類算法將目標(biāo)跟蹤闡述為二元分類問題,在跟蹤決策時(shí)利用目標(biāo)周圍的背景信息,將目標(biāo)從背景中分離出來,常見算法包括集成跟蹤算法[4]、多示例跟蹤算法[5]、跟蹤學(xué)習(xí)檢測(cè)算法[6]、MEEM算法[7]、SCM算法[8]等.
Wang等[9]最早將深度學(xué)習(xí)算法引入到目標(biāo)跟蹤領(lǐng)域.隨著卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,文獻(xiàn)[10]將卷積神經(jīng)網(wǎng)絡(luò)輸出50×50像素的特征圖像來表示每個(gè)像素處于目標(biāo)之內(nèi)的概率.Nam等[11]提出了MDNet網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)輸出K個(gè)全連接層,對(duì)應(yīng)K個(gè)訓(xùn)練的序列,通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)性能強(qiáng)的分類器,將目標(biāo)和背景分開,缺點(diǎn)是速度慢.Tao等[12]提出了一種通過相似性學(xué)習(xí)方式進(jìn)行目標(biāo)跟蹤的孿生網(wǎng)絡(luò),將訓(xùn)練好的網(wǎng)絡(luò)直接應(yīng)用于跟蹤過程,無需更新.Zhang等[13]提出了一種不需要預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型框架,與傳統(tǒng)的基于深度學(xué)習(xí)的算法相比,該算法無需大量的數(shù)據(jù)預(yù)訓(xùn)練模型,設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單.
本文采用對(duì)抗式生成網(wǎng)絡(luò)的結(jié)構(gòu)來跟蹤目標(biāo),從外界干擾的圖像中重構(gòu)高清晰的目標(biāo)表觀.通過該算法重構(gòu)的目標(biāo)圖像能夠保留原目標(biāo)的結(jié)構(gòu)信息,提高目標(biāo)跟蹤的效率.
生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial nets,GAN)是一個(gè)“二元極小極大博弈”問題[14],其特點(diǎn)是2位博弈方分別由生成式網(wǎng)絡(luò)和判別式網(wǎng)絡(luò)充當(dāng).生成式網(wǎng)絡(luò)用來捕獲樣本數(shù)據(jù)的分布,生成與原始數(shù)據(jù)相似的圖像,看起來自然真實(shí),試圖欺騙判別器;判別式網(wǎng)絡(luò)用于估計(jì)一個(gè)樣本來自于訓(xùn)練數(shù)據(jù)而非生成數(shù)據(jù)的概率,判別式網(wǎng)絡(luò)試圖努力不被生成式網(wǎng)絡(luò)欺騙,從而形成競(jìng)爭(zhēng)與對(duì)抗.GAN網(wǎng)絡(luò)模型結(jié)構(gòu)見圖1.
圖1 生成式對(duì)抗網(wǎng)絡(luò)原始模型結(jié)構(gòu)
本文利用生成式對(duì)抗網(wǎng)絡(luò)從模糊的圖像中恢復(fù)出清晰的表觀圖像.在復(fù)雜的環(huán)境下,遮擋、光照變化和目標(biāo)快速運(yùn)動(dòng)等外界因素通常會(huì)導(dǎo)致目標(biāo)特征難以提取或者提取的目標(biāo)特征不準(zhǔn)確,造成跟蹤目標(biāo)失敗.針對(duì)上述問題,采用生成式對(duì)抗網(wǎng)絡(luò)從輸入的問題視頻幀目標(biāo)Iin中重構(gòu)清晰的目標(biāo)表觀If,得到高分辨率的目標(biāo)表觀,再與目標(biāo)模板匹配,找到精確的位置.
隨著GAN理論的不斷發(fā)展,學(xué)者們開始考慮根據(jù)各種實(shí)際問題來定義輸入分布和期望分布.例如,輸入分布為一幅低分辨率圖像,輸出分布為高分辨率的目標(biāo)圖像,希望系統(tǒng)能夠?qū)W習(xí)到低分辨率圖像和高分辨率圖像之間的映射,輸出滿足一個(gè)預(yù)期的期望分布.GAN的本質(zhì)就是學(xué)習(xí)輸入和輸出兩者之間的映射.
在實(shí)際情況中,目標(biāo)遮擋、尺度變化、運(yùn)動(dòng)模糊以及外界環(huán)境光照變化等因素直接影響著跟蹤性能.結(jié)合深度學(xué)習(xí)前沿對(duì)抗生成網(wǎng)絡(luò)(GAN)理論,本文提出了一種對(duì)抗生成網(wǎng)絡(luò)結(jié)構(gòu),生成式網(wǎng)絡(luò)G由編碼器和解碼器2個(gè)部分構(gòu)成.跟蹤時(shí),編碼器作為目標(biāo)的特征提取器;編碼器對(duì)所有可能的外界情況(遮擋、光照變化和運(yùn)動(dòng)模糊)采用相同的網(wǎng)絡(luò)結(jié)構(gòu),并且共享網(wǎng)絡(luò)的參數(shù)值GE(θ),而編碼器針對(duì)遮擋、光照變化和運(yùn)動(dòng)模糊3種不同的場(chǎng)景干擾,分別采用遮擋解碼器、光照變化解碼器和運(yùn)動(dòng)模糊解碼器完成對(duì)目標(biāo)圖像的重構(gòu).為了應(yīng)對(duì)目標(biāo)遮擋等情況造成的信息缺失問題,本文從不同角度定義了損失函數(shù),通過對(duì)損失函數(shù)求梯度來逐級(jí)更新生成式網(wǎng)絡(luò)G的參數(shù).將生成式網(wǎng)絡(luò)得到的圖像和真實(shí)圖像作為判別式網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集.
圖2為本文提出的基于多損失的生成式對(duì)抗目標(biāo)跟蹤算法框圖.
圖2 基于多損失的生成式對(duì)抗目標(biāo)跟蹤算法框圖
本文設(shè)計(jì)的網(wǎng)絡(luò)在跟蹤過程中能夠應(yīng)對(duì)目標(biāo)遮擋、光照變化、運(yùn)動(dòng)模糊等挑戰(zhàn).當(dāng)目標(biāo)發(fā)生遮擋時(shí),利用訓(xùn)練得到的生成式網(wǎng)絡(luò)G能夠從一幅遮擋的輸入圖像中重構(gòu)出清晰的目標(biāo).在ImageNet數(shù)據(jù)集上訓(xùn)練生成式網(wǎng)絡(luò)G的參數(shù)θg,損失函數(shù)值最小時(shí)生成式網(wǎng)絡(luò)G的參數(shù)為
(1)
式中,N為需要訓(xùn)練圖像的數(shù)目;Loss()為損失函數(shù);In,occ為第n幅遮擋的圖像;In為原始未遮擋的圖像.式(1)表示第n幅遮擋的圖像In,occ經(jīng)過生成式網(wǎng)絡(luò)G重構(gòu)后與原始未遮擋圖像的相似程度.判別式網(wǎng)絡(luò)的參數(shù)θd也可用類似方法得到.訓(xùn)練得到的生成式網(wǎng)絡(luò)G能夠生成與沒有遮擋時(shí)一致的圖像,使得判別式網(wǎng)絡(luò)D難以判別是真實(shí)圖像還是生成器生成的圖像.
生成式網(wǎng)絡(luò)G由編碼器和解碼器2個(gè)部分組成(見圖2).在編碼器部分,遭受外界環(huán)境干擾的目標(biāo)(遮擋目標(biāo)和低分辨率目標(biāo))都會(huì)進(jìn)入具有相同參數(shù)設(shè)置的編碼器進(jìn)行處理,本文使用3個(gè)卷積層來降低輸入圖像幀的分辨率,每次卷積后特征數(shù)量都會(huì)翻倍增加.遮擋解碼器用于重構(gòu)遮擋的目標(biāo);光照變化解碼器用于重構(gòu)遭受光照表觀發(fā)生變化的目標(biāo);運(yùn)動(dòng)模糊解碼器用于重構(gòu)低分辨率的目標(biāo).網(wǎng)絡(luò)中每一層輸出作為下一層的輸入.干擾方式不同,解碼器的結(jié)構(gòu)也不盡相同.對(duì)于目標(biāo)遮擋,使用與編碼器相對(duì)稱的3個(gè)轉(zhuǎn)置卷積層重構(gòu)出目標(biāo);對(duì)于低分辨率的目標(biāo),則使用4個(gè)轉(zhuǎn)置卷積層來提高圖像幀的分辨率.將泄漏線性整流作為編碼器階段的激活函數(shù),整流函數(shù)作為解碼器的激活函數(shù).判別式網(wǎng)絡(luò)D的結(jié)構(gòu)與生成式網(wǎng)絡(luò)G中的編碼器結(jié)構(gòu)類似.網(wǎng)絡(luò)結(jié)構(gòu)中具體參數(shù)見表1~表4.
表1 GAN編碼器的結(jié)構(gòu) 像素
表2 GAN遮擋的解碼器結(jié)構(gòu) 像素
表3 GAN光照變化的解碼器結(jié)構(gòu) 像素
表4 GAN運(yùn)動(dòng)模糊的解碼器結(jié)構(gòu) 像素
在跟蹤過程中,只采用生成式網(wǎng)絡(luò)G中的編碼器作為目標(biāo)特征提取器,進(jìn)而完成對(duì)目標(biāo)的跟蹤.當(dāng)目標(biāo)遭受外界干擾導(dǎo)致其特征難以提取時(shí),采用生成式網(wǎng)絡(luò)G中的解碼器重構(gòu)清晰目標(biāo).整個(gè)過程不需要更新目標(biāo)模板.
訓(xùn)練網(wǎng)絡(luò)參數(shù)時(shí),將真實(shí)數(shù)據(jù)作為正樣本,生成式網(wǎng)絡(luò)G中得到的數(shù)據(jù)作為負(fù)樣本,交替訓(xùn)練生成式網(wǎng)絡(luò)和判別式網(wǎng)絡(luò)的參數(shù).
本文針對(duì)不同的挑戰(zhàn)場(chǎng)景提出了相應(yīng)的損失函數(shù),即遮擋損失LOCC、光照變化損失LIC和運(yùn)動(dòng)模糊損失LMB.
通常情況下,使用Softmax作為損失函數(shù),定義為
(2)
式中,xi為第i個(gè)屬于標(biāo)記yi的深度特征;α為權(quán)重;bi為第i個(gè)特征的偏置項(xiàng).
本文考慮了內(nèi)容損失,即生成式網(wǎng)絡(luò)G輸出的圖像和真實(shí)訓(xùn)練圖像間的歐氏距離損失,從而確保在輸入對(duì)抗網(wǎng)絡(luò)前2幅圖像的特征相似.內(nèi)容損失的數(shù)學(xué)表達(dá)式定義為
(3)
為了提高目標(biāo)特征的判別能力,定義類內(nèi)損失函數(shù)Lc為
(4)
式中,ci為中心向量,通過相應(yīng)類別的特征平均值計(jì)算得到.
為了保留目標(biāo)的表觀信息,使用身份保留損失函數(shù)保持模型表觀的相似性.基于解碼器的最后2個(gè)隱層定義身份保留損失為
(5)
式中,F(xiàn)i,j()為身份保留映射函數(shù).
最后,為了與原始數(shù)據(jù)的負(fù)對(duì)數(shù)似然分布相似,定義對(duì)抗損失為
(6)
式中,G(Iocc)表示遮擋的目標(biāo)圖像經(jīng)過生成式網(wǎng)絡(luò)G后的輸出.
遮擋損失LOCC為
LOCC=λ1Ls+λ2Lpixel+λ4Lip+λ5Lgen
(7)
光照變化損失LIC為
LIC=λ2Lpixel+λ3Lc+λ4Lip+λ5Lgen
(8)
運(yùn)動(dòng)模糊損失LMB為
LMB=λ2Lpixel+λ4Lip+λ5Lgen
(9)
式中,λ1,λ2,λ3,λ4,λ5分別為Softmax損失項(xiàng)、內(nèi)容損失項(xiàng)、類內(nèi)損失、身份保留損失項(xiàng)和對(duì)抗損失的懲罰值.
(10)
式中,θG,E,i為編碼器第i個(gè)隱層更新前的參數(shù);γ為遮擋損失函數(shù)對(duì)編碼器第i個(gè)隱層的學(xué)習(xí)率;μ1為光照變化損失函數(shù)對(duì)編碼器第i個(gè)隱層的學(xué)習(xí)率;μ2為運(yùn)動(dòng)模糊函數(shù)對(duì)編碼器第i個(gè)隱層的學(xué)習(xí)率.
(11)
式中,θG,occ,i為目標(biāo)遮擋解碼器第i個(gè)隱層更新前的參數(shù);γ1為目標(biāo)遮擋解碼器第i個(gè)隱層參數(shù)更新的學(xué)習(xí)率.
(12)
式中,θG,ic,i為光照變化解碼器第i個(gè)隱層更新前的參數(shù);γ2為光照變化解碼器第i個(gè)隱層參數(shù)更新的學(xué)習(xí)率.
(13)
式中,θG,mb,i為運(yùn)動(dòng)模糊解碼器第i個(gè)隱層更新前的參數(shù);γ3為運(yùn)動(dòng)模糊解碼器第i個(gè)隱層參數(shù)更新的學(xué)習(xí)率.
(14)
式中,θD,i為判別式網(wǎng)絡(luò)第i個(gè)隱層更新前的參數(shù);η為判別式網(wǎng)絡(luò)第i個(gè)隱層參數(shù)更新的學(xué)習(xí)率.
(15)
式中,xi表示第i個(gè)候選目標(biāo)狀態(tài);f+()表示特征提取器;N表示候選目標(biāo)狀態(tài)數(shù).
實(shí)驗(yàn)所選用的測(cè)試數(shù)據(jù)庫OTB100[15]中包含了豐富的挑戰(zhàn)性場(chǎng)景,如目標(biāo)遮擋、光照和尺度的變化、運(yùn)動(dòng)模糊等.將本文提出的跟蹤算法與當(dāng)前跟蹤領(lǐng)域主流跟蹤算法(IVT算法[2]、MIL算法[5]、TLD算法[6]、SCM算法[8]、DLT算法[9]、CNT算法[13])進(jìn)行了跟蹤性能比較,每一種算法的參數(shù)設(shè)置均使用相應(yīng)文獻(xiàn)中的默認(rèn)值.
圖3給出了目標(biāo)在遮擋視頻中的跟蹤結(jié)果.Faceocc1序列中,視頻背景是靜態(tài)的,因此所有跟蹤算法都能夠成功地跟蹤目標(biāo).Faceocc2序列中,在目標(biāo)遭遇變化時(shí),CNT算法、SCM算法、DLT算法都產(chǎn)生不同程度的漂移,IVT算法、MIL算法、TLD算法甚至丟失了目標(biāo).本文算法重構(gòu)出的圖像能夠正確地跟蹤目標(biāo),避免了漂移現(xiàn)象的發(fā)生.
(a) Faceocc1序列 (b) Faceocc2序列
圖4給出了目標(biāo)在光照變化時(shí)的跟蹤結(jié)果.Singer1序列中,光照強(qiáng)度劇烈變化使得MIL算法、IVT算法和TLD算法跟蹤失敗,其余算法能夠適應(yīng)尺度的變化從而成功跟蹤目標(biāo),且本文算法的跟蹤性能更佳.在Car4序列中,除IVT算法、MIL算法和DLT算法外,其余算法都能夠跟蹤目標(biāo),但均存在跟蹤誤差.Car11序列中,目標(biāo)車輛在低照度情況下行駛,且運(yùn)動(dòng)中伴隨著光流變化及相機(jī)抖動(dòng)引起的輕微模糊,TLD算法、SCM算法、MIL算法、DLT算法從跟蹤開始不久就產(chǎn)生漂移.
圖5給出了目標(biāo)快速運(yùn)動(dòng)產(chǎn)生圖像模糊時(shí)的跟蹤結(jié)果.在Deer序列中,目標(biāo)的快速運(yùn)動(dòng)導(dǎo)致圖像的分辨率下降.第36幀時(shí),目標(biāo)的大幅運(yùn)動(dòng)使得IVT算法、MIL算法、DLT算法、TLD算法、SCM算法丟失了跟蹤目標(biāo),但本文算法能夠快速捕獲和學(xué)習(xí)目標(biāo)表觀的變化,成功地跟蹤目標(biāo).
(a) Singer1序列 (b) Car4序列
(c) Car11序列
圖5 目標(biāo)快速運(yùn)動(dòng)產(chǎn)生圖像模糊時(shí)的跟蹤結(jié)果
表5 部分典型視頻序列跟蹤結(jié)果的跟蹤成功率
為了進(jìn)一步驗(yàn)證本文采用的損失函數(shù)對(duì)網(wǎng)絡(luò)訓(xùn)練性能的影響,在測(cè)試數(shù)據(jù)庫(OTB100)中對(duì)目標(biāo)遮擋、光照變化和運(yùn)動(dòng)模糊3類數(shù)據(jù)集上進(jìn)行驗(yàn)證.在每一種挑戰(zhàn)場(chǎng)景的損失函數(shù)中僅保留其中一項(xiàng)損失,結(jié)果見表6.由表可知,本文采用的損失函數(shù)對(duì)訓(xùn)練出的網(wǎng)絡(luò)具有良好的魯棒性.
表6 損失函數(shù)對(duì)生成結(jié)果的跟蹤成功率
在相同實(shí)驗(yàn)平臺(tái)上,對(duì)包括本文算法在內(nèi)的7種跟蹤算法的運(yùn)行速度進(jìn)行了分析,結(jié)果見表7.由表可知,本文算法雖未實(shí)現(xiàn)實(shí)時(shí)跟蹤,但其處理速度達(dá)到4幀/s,相比目前主流的跟蹤算法仍然處于中上水平.此外,本文算法的實(shí)現(xiàn)代碼沒有經(jīng)過優(yōu)化和并行處理,約1/2的運(yùn)行時(shí)間耗費(fèi)在生成式對(duì)抗網(wǎng)絡(luò)對(duì)問題圖像的重構(gòu)階段,因而其計(jì)算效率仍有進(jìn)一步提升的空間.
表7 不同跟蹤算法的運(yùn)行速度
1) 提出了一種對(duì)抗生成網(wǎng)絡(luò)結(jié)構(gòu),能夠從遭受外界干擾(遮擋、光照變化和運(yùn)動(dòng)模糊)的圖像中重構(gòu)出清晰的目標(biāo)表觀,重構(gòu)目標(biāo)保留了身份特征,便于對(duì)其進(jìn)行特征提取.
2) 為了應(yīng)對(duì)目標(biāo)遮擋等情況造成的信息缺失問題,本文從不同角度定義了損失函數(shù).將從對(duì)抗訓(xùn)練得到的先驗(yàn)知識(shí)與目標(biāo)先驗(yàn)知識(shí)相結(jié)合,精確恢復(fù)了缺失信息.
3) 選用OTB100測(cè)試數(shù)據(jù)庫對(duì)本文算法進(jìn)行了驗(yàn)證.實(shí)驗(yàn)結(jié)果表明,在大量遮擋、光照變化和運(yùn)動(dòng)模糊情況下,本文算法取得了較好的跟蹤性能.
參考文獻(xiàn)(References)
[1] Li X, Hu W, Shen C, et al. A survey of appearance models in visual object tracking [J].ACMTransactionsonIntelligentSystemsandTechnology, 2013,4(4): 478-488.DOI:10.1145/2508037.2508039.
[2] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J].InternationalJournalofComputerVision, 2008,77(1): 125-141.DOI:10.1007/s11263-007-0075-7.
[3] Kwon J, Lee K M. Visual tracking decomposition [C]//2010IEEEConferenceonComputerVisionandPatternRecognition. San Francisco, CA, USA, 2010: 1269-1276.DOI:10.1109/cvpr.2010.5539821.
[4] Avidan S. Ensemble tracking [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2007,29(2): 261-271.DOI:10.1109/TPAMI.2007.35.
[5] Babenko B, Yang M H, Belongie S. Visual tracking with online multiple instance learning [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2011,33(8): 1619-1632.DOI:10.1109/TPAMI.2010.226.
[6] Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2012,34(7): 1409-1422. DOI:10.1109/TPAMI.2011.239.
[7] Zhang J, Ma S,Sclaroff S. MEEM: Robust tracking via multiple experts using entropy minimization [C]//2014ProceedingsofEuropeanConferenceonComputerVision. Zurich, Switzerland, 2014: 188-203.DOI:10.1007/978-3-319-10599-4_13.
[8] Zhong W, Lu H, Yang M H. Robust object tracking via sparse collaborative appearance model [J].IEEETransactionsonImageProcessing, 2014,23(5): 2356-2368.DOI:10.1109/TIP.2014.2313227.
[9] Wang N,Yeung D Y. Learning a deep compact image representation for visual tracking [C]//2013AdvancesinNeuralInformationProcessingSystems. Lake Tahoe, CA,USA, 2013: 809-817.
[10] Wang N, Li S, Gupta A, et al. Transferring rich feature hierarchies for robust visual tracking [EB/OL]. (2015-04-23) [2016-02-19]. https://arxiv.org/abs/1501.04587.
[11] Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking [C]//2016IEEEConferenceonComputerVisionandPatternRecognition. Las Vegas, CA,USA, 2016: 4293-4302. DOI:10.1109/cvpr.2016.465.
[12] Tao R, Gavves E, Smeulders A W M. Siamese instance search for tracking [C]//2016IEEEConferenceonComputerVisionandPatternRecognition. Las Vegas, CA,USA, 2016: 1420-1429. DOI:10.1109/cvpr.2016.158.
[13] Zhang K, Liu Q, Wu Y, et al. Robust visual tracking via convolutional networks without training [J].IEEETransactionsonImageProcessing, 2016,25(4): 1779-1792. DOI: 10.1109/TIP.2016.2531283.