汪鴻翔 柳培忠 駱炎民 洪 銘 顧培婷
?
單目標(biāo)跟蹤算法綜述*
汪鴻翔1柳培忠1駱炎民2洪 銘1顧培婷1
1.華僑大學(xué)工學(xué)院 2.華僑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院
目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基本問題,具有廣泛的研究與應(yīng)用價(jià)值。該文根據(jù)算法理論的不同,將目標(biāo)跟蹤算法分成目標(biāo)表觀建模和跟蹤策略兩部分,又將目標(biāo)表觀建模分成生成式跟蹤和判別式跟蹤分別進(jìn)行介紹;從基于均值漂移和濾波理論兩方面介紹跟蹤策略;并重點(diǎn)介紹了基于深度學(xué)習(xí)的相關(guān)算法,總結(jié)了深度學(xué)習(xí)算法的優(yōu)缺點(diǎn)。
目標(biāo)跟蹤 表觀建模 跟蹤策略 深度學(xué)習(xí)
計(jì)算機(jī)視覺(Computer Vision,CV)是專門研究如何讓計(jì)算機(jī)像人那樣能夠“看”的學(xué)科,是指利用攝像機(jī)和電腦代替人眼的作用,使機(jī)器能夠做到類似人腦那樣對(duì)目標(biāo)實(shí)現(xiàn)提取、識(shí)別、跟蹤等功能。
目標(biāo)跟蹤是通過分析視頻圖片序列,對(duì)檢測(cè)出的各個(gè)候選目標(biāo)區(qū)域?qū)嵤┢ヅ洌ㄎ怀鲞@些目標(biāo)在視頻序列中的坐標(biāo)。簡(jiǎn)單來說,就是在序列圖像中為目標(biāo)進(jìn)行定位。目標(biāo)跟蹤算法研究是計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn),在虛擬現(xiàn)實(shí)、人機(jī)交互、智能監(jiān)控、增強(qiáng)現(xiàn)實(shí)、機(jī)器感知等場(chǎng)景中有著重要的研究與應(yīng)用價(jià)值。
隨著科學(xué)技術(shù)的不斷進(jìn)步,目標(biāo)跟蹤算法也在不停發(fā)展進(jìn)步,尤其隨著深度學(xué)習(xí)(deep learning)的發(fā)展,越來越來多的算法從深度學(xué)習(xí)的角度進(jìn)行目標(biāo)跟蹤算法的研究,利用深度學(xué)習(xí)原理提取出的特征具有更好的目標(biāo)表達(dá)效果。目前關(guān)于深度學(xué)習(xí)的目標(biāo)跟蹤算法綜述性文章還很少,本文在介紹傳統(tǒng)目標(biāo)跟蹤算法的基礎(chǔ)上,更多引入深度學(xué)習(xí)的內(nèi)容,并總結(jié)了深度學(xué)習(xí)算法的相關(guān)優(yōu)缺點(diǎn)。
目標(biāo)跟蹤算法的分類有很多種,根據(jù)不同的標(biāo)準(zhǔn),算法的分類也不同,表1是比較常見的一些分類方法。
表1 目標(biāo)跟蹤算法分類
本文重點(diǎn)介紹單場(chǎng)景下的單目標(biāo)跟蹤問題。單場(chǎng)景下的目標(biāo)跟蹤問題主要研究對(duì)單個(gè)目標(biāo)的連續(xù)跟蹤,即在單攝像機(jī)拍攝的視頻序列中只跟蹤某一個(gè)具體目標(biāo)[1]。這方面的研究圍繞以下兩個(gè)基本問題展開:第一,目標(biāo)表觀建模,也有人稱之為目標(biāo)匹配問題。它根據(jù)目標(biāo)的表觀特征數(shù)據(jù)來建立相應(yīng)的表觀模型,是算法最重要的模塊。表觀模型建立的好壞直接影響到跟蹤的準(zhǔn)確性和魯棒性效果,常被采用的特征有輪廓、顏色、紋理、特征點(diǎn)、特征子圖等。采用單一特征的跟蹤常面臨跟蹤準(zhǔn)確性差等問題,故而多采用融合多種特征的表觀模型。第二,跟蹤策略。在目標(biāo)跟蹤過程中,要是為了尋找最佳位置而直接匹配對(duì)場(chǎng)景中的所有內(nèi)容,這無疑會(huì)增加大量冗余信息,從而導(dǎo)致運(yùn)算量大、速度慢等缺點(diǎn)[2]。而采用一定的運(yùn)動(dòng)模型來估計(jì)未來時(shí)刻目標(biāo)可能的位置,通過先驗(yàn)知識(shí)來縮小搜索范圍,無疑會(huì)取得有效的效果,代表性方法有隱馬爾科夫模型[3]、卡爾曼濾波[4]、均值漂移算法[5]、粒子濾波[6]等。
近幾年提出的多數(shù)跟蹤算法都是基于tracking-by- detection框架,它們將跟蹤看作檢測(cè)問題,根據(jù)對(duì)目標(biāo)表觀的建模方式,可分為兩類:判別式跟蹤和生成式跟蹤[7]。
2.1 基于生成模型的目標(biāo)跟蹤算法
在目標(biāo)跟蹤中,生成式跟蹤算法不考慮背景信息直接為目標(biāo)進(jìn)行建模的算法,通過學(xué)習(xí)建立一個(gè)模型來表示目標(biāo),然后使用此模型直接與目標(biāo)類別進(jìn)行匹配,以達(dá)到跟蹤目的。Ross等人提出基于增量學(xué)習(xí)的跟蹤方法,用于跟蹤剛性物體或類剛體,但其采用的自適應(yīng)全局表觀模型無法應(yīng)對(duì)姿態(tài)變化和遮擋[8]。Comaniciu等人將跟蹤建模轉(zhuǎn)化為相似函數(shù)最大化問題,并用顏色核函數(shù)加權(quán)直方圖描述目標(biāo),從而實(shí)現(xiàn)高效跟蹤,但直方圖信息表達(dá)有限,不能表達(dá)其他類似空間等信息,制約了算法的性能[9]。Kwon等人將運(yùn)動(dòng)模型分割成多個(gè)小模塊,提出視覺跟蹤分解(VTD)算法,得到的這些小模塊可以更好地捕獲目標(biāo)變化[10]。薛模根等人指出,目標(biāo)可以用目標(biāo)模板和瑣碎模板綜合表示,并基于稀疏理論提出了L1跟蹤算法,但該算法運(yùn)算復(fù)雜度較高,且無法處理嚴(yán)重遮擋等[11]。
本文根據(jù)模型組成不同,將生成模型分為基于直方圖的生成模型、基于核的生成模型、混合生成模型、基于子空間的生成模型。
2.1.1 基于直方圖的生成模型
目標(biāo)跟蹤中,常將目標(biāo)對(duì)一些特征表達(dá)轉(zhuǎn)換成統(tǒng)計(jì)特征(如直方圖的形式)來建立相應(yīng)的跟蹤模型。付永會(huì)等人利用彩色圖像的顏色直方圖信息,利用顏色直方圖水平和垂直投影信息建立模板,然后在跟蹤過程中不斷自適應(yīng)地在線調(diào)整跟蹤目標(biāo)模板,從而達(dá)到跟蹤目的[12]。Frag跟蹤系統(tǒng)通過使用局部塊的直方圖表示對(duì)物體的外觀進(jìn)行建模,以解決部分遮擋問題[13]。Dalal提出一種用來進(jìn)行物體檢測(cè)的特征描述子梯度方向直方圖 (HOG)特征。劉華軍等提出基于HOG特征提取方式,并結(jié)合在線多實(shí)例學(xué)習(xí)的方法,對(duì)目標(biāo)平移旋轉(zhuǎn)變化、遮擋與半遮擋、遠(yuǎn)離場(chǎng)景等情況進(jìn)行跟蹤實(shí)驗(yàn),取得很好的效果[14]。
2.1.2 混合高斯模型
由于高斯混合模型能夠平滑地逼近任意形狀的概率密度分布,近年來常被用于語音識(shí)別、圖像處理等方面。簡(jiǎn)單地說,高斯混合模型就是使用多個(gè)不同參數(shù)的高斯分布進(jìn)行加權(quán)組合來為觀測(cè)樣本建模[15]。
王金洋等人提出使用多種高斯分布的混合高斯模型來近似目標(biāo)外形的函數(shù),對(duì)每個(gè)像素點(diǎn)進(jìn)行混合高斯建模,通過自適應(yīng)高斯混合模型的分布來評(píng)估判斷哪些像素點(diǎn)為背景,建立在線混合模型以判斷像素點(diǎn)是否為背景模型的一部分[16]。黃蘇雨等人提出一種改進(jìn)的高斯混合模型,使用K個(gè)高斯模型來表示圖像中各個(gè)像素點(diǎn)的特征,獲得新的一幀圖像后立即用來更新混合高斯模型[17]。然而,僅使用高斯混合模型來判斷前景與背景準(zhǔn)確度還達(dá)不到要求,混合模型經(jīng)常使用啟發(fā)式準(zhǔn)則或者結(jié)合其他的特征來選擇正確分量以增強(qiáng)跟蹤效果。
2.1.3 基于核的生成模型
核密度估計(jì)是一種非參數(shù)檢驗(yàn)方法,在概率論中用來估計(jì)未知的密度函數(shù)。在單變量核密度估計(jì)的基礎(chǔ)上,可以建立風(fēng)險(xiǎn)價(jià)值的預(yù)測(cè)模型,通過對(duì)核密度估計(jì)變異系數(shù)的加權(quán)處理,可以建立不同風(fēng)險(xiǎn)價(jià)值的預(yù)測(cè)模型[18]。一般都是從顏色驅(qū)動(dòng)、集成外形、尺度相關(guān)、非對(duì)稱、全局模式搜索、連續(xù)核學(xué)習(xí)的生成模型等方面進(jìn)行構(gòu)造核密度或構(gòu)造估計(jì)模型。文獻(xiàn)[19]對(duì)目標(biāo)的局部標(biāo)準(zhǔn)差特征結(jié)合亮度進(jìn)行核密度估計(jì),通過均值偏移算法對(duì)圖像中的細(xì)小目標(biāo)進(jìn)行跟蹤。為了避免直方圖的缺點(diǎn),賈靜平等人提出采用多變量的核密度估計(jì)來描述目標(biāo)的特征分布,引入空間尺度理論在連續(xù)的空間內(nèi)準(zhǔn)確表達(dá)目標(biāo)的連續(xù)形變,有效解決目標(biāo)定位的尺度變化問題[20]。
2.1.4 基于子空間的生成模型
大多數(shù)基于子空間表面模型的目標(biāo)跟蹤算法是在跟蹤之前通過訓(xùn)練不同光照和姿勢(shì)下目標(biāo)的觀測(cè)圖像,得到一組特征基,并用這組特征基表示不同時(shí)刻目標(biāo)表面變化,一旦訓(xùn)練完成,特征基就保持不變,不能在線更新[21]。孫銳等人利用學(xué)習(xí)到的PCA正交子空間去除傳統(tǒng)的目標(biāo)模板聚集的冗余性對(duì)目標(biāo)外觀進(jìn)行表示,配合改進(jìn)基于最小均方誤差的觀測(cè)模型,提出一種基于主成分分析(PCA)子空間學(xué)習(xí)的跟蹤算法,建立了一個(gè)效果更準(zhǔn)確的觀測(cè)似然函數(shù),外加一種考慮遮擋的模板更新機(jī)制,取得了不錯(cuò)的跟蹤效果[22]。陸文等人提出魯棒的子空間學(xué)習(xí)算法進(jìn)行特征空間的增量學(xué)習(xí),并結(jié)合其他增量學(xué)習(xí)算法,使用粒子濾波進(jìn)行跟蹤決策,避免了單獨(dú)設(shè)計(jì)模塊來處理目標(biāo)受到的遮擋情況,使得跟蹤效果更加魯棒[21]。
2.2 基于判別模型的目標(biāo)跟蹤算法
在目標(biāo)跟蹤中,判別型方法將跟蹤問題建模為一個(gè)二元分類問題,用以找到區(qū)分目標(biāo)物體和背景的決策邊界,最大化地將目標(biāo)區(qū)域與非目標(biāo)區(qū)域分別開來。隨著近些年目標(biāo)特征表達(dá)和分類器訓(xùn)練理論的發(fā)展,許多優(yōu)秀的判別式跟蹤方法不斷涌現(xiàn)[23]。文獻(xiàn)[24]將跟蹤問題轉(zhuǎn)化為一個(gè)二分類問題,判斷每個(gè)像素是否屬于目標(biāo),但單像素的表達(dá)能力有限,制約了算法相應(yīng)場(chǎng)景下的性能。為解決跟蹤中訓(xùn)練樣本的準(zhǔn)確性不足問題,文獻(xiàn)[25]引入多示例學(xué)習(xí)機(jī)制,有效抑制了跟蹤過程中遇到的漂移問題。文獻(xiàn)[26]提出了壓縮跟蹤(CT),用一個(gè)稀疏的測(cè)量矩陣提取特征,以建立一個(gè)稀疏、健壯的目標(biāo)表觀模型,取得了快速、有效、魯棒的跟蹤效果。文獻(xiàn)[27]提出了一種抗漂移的long-time跟蹤算法,算法提取目標(biāo)SIFT特征,并進(jìn)行弱排列,建立了魯棒的目標(biāo)/背景分類器,使得跟蹤效果更加魯棒。
判別模型主要有以下幾個(gè)研究方向:
2.2.1 基于boosting和SVM的判別模型
基于boosting和SVM的判別模型一直被廣泛應(yīng)用于目標(biāo)跟蹤領(lǐng)域,這是由于其強(qiáng)大的判別學(xué)習(xí)能力能夠有效解決最大化類間分離問題。按照算法使用不同的學(xué)習(xí)策略,可被分為自學(xué)習(xí)和混合學(xué)習(xí)兩類,自學(xué)習(xí)模型使用單獨(dú)的信息來源對(duì)目標(biāo)或非目標(biāo)進(jìn)行分類判決,而混合學(xué)習(xí)模型則采用多來源的判決信息進(jìn)行目標(biāo)分類判決[28]。文獻(xiàn)[29]針對(duì)在線Boosting目標(biāo)跟蹤算法在面對(duì)遮擋場(chǎng)景下跟蹤時(shí)經(jīng)常發(fā)生的漂移問題,采用跟蹤得到的置信度高的目標(biāo)作為正樣本來在線訓(xùn)練分類器,提出一種結(jié)合分塊的在線Boosting目標(biāo)跟蹤算法,大大提高了算法在自然場(chǎng)景的跟蹤效果。文獻(xiàn)[30]提出一種基于單個(gè)SVM和加權(quán)Mean Shift結(jié)合的目標(biāo)跟蹤算法。使用基于顏色特征的SVM分類器對(duì)像素點(diǎn)進(jìn)行分類,再結(jié)合對(duì)前景目標(biāo)和背景特征賦以不同權(quán)值的Mean Shift算法,突出前景特征,降低背景噪聲對(duì)目標(biāo)模板的干擾,實(shí)現(xiàn)了復(fù)雜場(chǎng)景下的目標(biāo)跟蹤。
2.2.2 基于隨機(jī)學(xué)習(xí)的判別模型
與boosting和SVM相比較,隨機(jī)學(xué)習(xí)方法可以構(gòu)建一個(gè)復(fù)雜的分類器。隨機(jī)學(xué)習(xí)能夠?qū)崿F(xiàn)并行運(yùn)算,可以同時(shí)執(zhí)行特征選取和隨機(jī)輸入輸出,這就意味著隨機(jī)學(xué)習(xí)可以使用GPU和多核來加快算法運(yùn)行速度,節(jié)省算法運(yùn)行時(shí)間。文獻(xiàn)[31]提出一種基于隨機(jī)局部均值Hash特征的在線學(xué)習(xí)跟蹤算法,文章利用已知位置的目標(biāo)來構(gòu)建初始化的分類器池,利用泊松概率分布建立目標(biāo)在線更新模型,跟蹤過程中利用跟蹤結(jié)果實(shí)時(shí)更新訓(xùn)練分類器的正負(fù)樣本,使得算法在復(fù)雜環(huán)境下取得不錯(cuò)的跟蹤效果。受隨機(jī)學(xué)習(xí)的啟發(fā),在線隨機(jī)森林、隨機(jī)樸素貝葉斯分類器等多種隨機(jī)模型被提出來,并應(yīng)用到視覺跟蹤中,取得不錯(cuò)的效果。
2.2.3 基于稀疏表示的判別模型
近幾年來,稀疏表示取得了很大的發(fā)展,大量研究利用稀疏表示提取目標(biāo)特征來實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤,并取得了不錯(cuò)的效果。文獻(xiàn)[32]利用粒子濾波方法中目標(biāo)周圍的采樣粒子具有相似性和依賴性的關(guān)系,提出了一個(gè)由多個(gè)粒子共同構(gòu)建的協(xié)同稀疏模型。文獻(xiàn)[33]構(gòu)造了一個(gè)結(jié)構(gòu)化的多任務(wù)稀疏學(xué)習(xí)模型,使得跟蹤模型更加健壯,提升了跟蹤過程的魯棒性。文獻(xiàn)[34]采用部分匹配進(jìn)行稀疏表示的方法,構(gòu)造了一個(gè)一致性的低秩稀疏模型,利用粒子采樣中粒子之間的固有關(guān)系提高了跟蹤過程的魯棒性,較好解決了跟蹤過程中遇到的部分遮擋問題[35]。
2.2.4 基于深度學(xué)習(xí)的判別模型
近幾年來,深度學(xué)習(xí)算法迅速成為研究熱點(diǎn),并在計(jì)算機(jī)視覺領(lǐng)域取得了良好的應(yīng)用效果。2006年,加拿大多倫多大學(xué)教授Geoffrey Hinton和他的學(xué)生Ruslan Salakhutdinov在《科學(xué)》雜志上發(fā)表了一篇文章,開啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮。該文有兩個(gè)主要觀點(diǎn):(1)多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;(2)深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過“逐層初始化”(layer-wise pre-training)來有效克服,逐層初始化是通過無監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的[36]。
深度學(xué)習(xí)的概念起源于人工神經(jīng)網(wǎng)絡(luò),主要通過神經(jīng)網(wǎng)絡(luò)的原理來模仿人腦,通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[37]。深度學(xué)習(xí)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)之間的相同點(diǎn)在于,深度學(xué)習(xí)采用了神經(jīng)網(wǎng)絡(luò)相似的分層結(jié)構(gòu),系統(tǒng)由包括輸入層、隱層(多層)、輸出層組成的多層網(wǎng)絡(luò),每一層可以看作是一個(gè)邏輯回歸(Logistic Regression)模型,這是一種很接近人類大腦的分層結(jié)構(gòu)。
圖1 深度學(xué)習(xí)網(wǎng)絡(luò)
其中卷積神經(jīng)網(wǎng)絡(luò)(CNN)由卷積層和全連接層構(gòu)成,通過共享權(quán)重和池化層(pooling layer)來降低參數(shù)的數(shù)目和提升效果,具有良好地學(xué)習(xí)圖像深層視覺特征的能力。卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),每層由多個(gè)二維平面組成,而每個(gè)平面由多個(gè)獨(dú)立神經(jīng)元組成。卷積神經(jīng)網(wǎng)絡(luò)的概念如圖2所示:輸入圖像通過和三個(gè)可訓(xùn)練的濾波器和可加偏置進(jìn)行卷積,濾波過程如圖1,卷積后在C1層產(chǎn)生三個(gè)特征映射圖,對(duì)特征映射圖中每組的四個(gè)像素再進(jìn)行求和,加權(quán)值,加偏置,通過一個(gè)Sigmoid函數(shù)得到三個(gè)S2層的特征映射圖,這些映射圖再進(jìn)行濾波得到C3層,這個(gè)層級(jí)結(jié)構(gòu)再和S2一樣產(chǎn)生S4[38]。最終,這些像素值被光柵化,并連接成一個(gè)向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),得到輸出。
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
一種典型的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法包括:對(duì)輸入圖像進(jìn)行分塊操作,提取歸一化圖像塊,再用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像塊進(jìn)行卷積操作,提取特征,最后用線性分類器對(duì)卷積后的區(qū)域塊進(jìn)行分類。Fan等人同樣利用大量的輔助圖像訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),并將模型應(yīng)用于行人跟蹤中,取得了較好的效果[39]。Zhou等人使用多個(gè)神經(jīng)網(wǎng)絡(luò)的聚合體進(jìn)行目標(biāo)跟蹤[40]。然而,這些方法由于缺少大量的跟蹤過程中的實(shí)際數(shù)據(jù),所以效果提升的程度有限。為此,Li等人設(shè)計(jì)了層次較淺的卷積神經(jīng)網(wǎng)絡(luò),設(shè)定了一個(gè)特殊的損失函數(shù),并以在線的方式對(duì)跟蹤過程中產(chǎn)生的樣本進(jìn)行訓(xùn)練。另外還有一些方法試圖解決上述兩個(gè)問題[41]。Hong等人利用卷積神經(jīng)網(wǎng)絡(luò)提取特征,并使用在線更新的SVM對(duì)跟蹤過程中的樣本進(jìn)行分類,將正樣本的特征進(jìn)行反向傳播,從而得到正樣本對(duì)應(yīng)的顯著圖,并以此顯著圖進(jìn)行判別式跟蹤[42]。Wang等人利用離線訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型提取層次特征,并用以進(jìn)行在線跟蹤[43]。Zhang等人使用目標(biāo)區(qū)域中隨機(jī)提取的歸一化圖像塊作為卷積神經(jīng)網(wǎng)絡(luò)的濾波器,實(shí)現(xiàn)了不用訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的快速特征提取[44]。Kuen等人提出了一種通過強(qiáng)短時(shí)限制和棧式卷積自編碼器學(xué)習(xí)到目標(biāo)表示的不變性[45]。
當(dāng)前,深度學(xué)習(xí)的研究目前才剛剛起步,仍有大量工作需要去完成。學(xué)界的關(guān)注點(diǎn)還是從機(jī)器學(xué)習(xí)的領(lǐng)域借鑒一些可以在深度學(xué)習(xí)使用的方法,特別是在降維領(lǐng)域。目前一個(gè)重點(diǎn)工作就是稀疏編碼,通過壓縮感知理論對(duì)高維數(shù)據(jù)進(jìn)行降維,使得以非常少的元素的向量就可以精確代表原來的高維信號(hào)。另一項(xiàng)工作就是半監(jiān)督流行學(xué)習(xí),通過測(cè)量判斷訓(xùn)練樣本的相似性,低維空間可以通過這種相似性從高維數(shù)據(jù)投影得到。
深度學(xué)習(xí)還有很多核心的問題需要解決,比如對(duì)于一個(gè)特定的框架,對(duì)于多少維的輸入它可以表現(xiàn)得較優(yōu);如何對(duì)于一個(gè)給定的深度學(xué)習(xí)架構(gòu),需要融合多少種感知信息;如何去增強(qiáng)一個(gè)給定的深度學(xué)習(xí)架構(gòu),以增強(qiáng)算法的魯棒性和數(shù)據(jù)的不變性。
跟蹤策略的目的是希望所建立的運(yùn)動(dòng)模型能夠給出在下一幀圖像中目標(biāo)的可能狀態(tài),為目標(biāo)的狀態(tài)估計(jì)提供先驗(yàn)知識(shí),用來在當(dāng)前幀圖像中找到最優(yōu)的目標(biāo)位置。
下面主要從基于均值漂移和基于濾波理論分別介紹。
3.1 基于均值漂移的目標(biāo)跟蹤算法
基于均值漂移(mean shift)的目標(biāo)跟蹤算法的思想在于采用目標(biāo)的顏色直方圖作為搜索特征,然后通過不斷迭代均值漂移算法更新搜索目標(biāo)當(dāng)前的狀態(tài)。算法在運(yùn)算速率與實(shí)時(shí)性上均取得不錯(cuò)的效果,但是容易受到顏色、光照、尺度變換等原因的干擾,導(dǎo)致準(zhǔn)確度下降。針對(duì)這一缺點(diǎn),文獻(xiàn)[46]提出了連續(xù)自適應(yīng)的mean shift算法——Cam Shift,Cam Shift算法專門對(duì)視頻圖像序列進(jìn)行操作,并對(duì)序列中的每一幀圖像都使用mean shift來迭代選擇最佳結(jié)果,從而保證其可以自適應(yīng)地不斷調(diào)整窗口大小進(jìn)行跟蹤。文獻(xiàn)[47]對(duì)目標(biāo)模型進(jìn)行加權(quán)處理,在跟蹤過程中降低了背景噪聲對(duì)目標(biāo)模板的干擾,對(duì)跟蹤框進(jìn)行分塊處理,并分別調(diào)用mean shift進(jìn)行跟蹤,最后加權(quán)判斷目標(biāo)的最終位置。
3.2 基于濾波理論的目標(biāo)跟蹤算法
基于濾波理論的目標(biāo)跟蹤算法的主要思想是利用離散的權(quán)值粒子集合對(duì)目標(biāo)當(dāng)前分布狀態(tài)的可能進(jìn)行估計(jì)描述,其優(yōu)勢(shì)在于能夠有效融合不同種類的特征信息,如輪廓、顏色、紋理、特征點(diǎn)、特征子圖等,具有很好的穩(wěn)定性[48]。常見的算法有卡爾曼濾波、擴(kuò)展的卡爾曼濾波及粒子濾波方法等。王煒等人[49]將目標(biāo)劃分為多個(gè)區(qū)域,通過卡爾曼濾波預(yù)測(cè)各個(gè)跟蹤區(qū)域的位置,結(jié)合灰度直方圖匹配與空間上下文關(guān)系計(jì)算出觀測(cè)中心,最后再用卡爾曼濾波得出最終的位置,在背景相似于目標(biāo)遮擋等場(chǎng)景取得不錯(cuò)的跟蹤效果??柭鼮V波算法多用于線性的、高斯系統(tǒng),而粒子濾波器特別適用于非線性、非高斯系統(tǒng)。Wang等人[50]使用大量的輔助圖像離線訓(xùn)練了一個(gè)棧式去噪自編碼器,對(duì)目標(biāo)候選進(jìn)行特征提取,并將這樣的特征應(yīng)用于粒子濾波的框架中,同時(shí),在跟蹤過程中更新自編碼器,使得跟蹤效果更加魯棒。
本文對(duì)當(dāng)前的目標(biāo)跟蹤算法研究成果進(jìn)行了綜述,分別從目標(biāo)表觀建模和跟蹤策略對(duì)當(dāng)前流行的算法進(jìn)行分類,重點(diǎn)綜述了目前最流行的基于深度學(xué)習(xí)的目標(biāo)跟蹤算法,并總結(jié)了基于深度學(xué)習(xí)算法的相關(guān)優(yōu)缺點(diǎn)。目前關(guān)于跟蹤算法的研究已經(jīng)持續(xù)了很多年,也提出了各種各樣的跟蹤方法,但是還沒有形成一個(gè)普適的統(tǒng)一理論框架或體系,而且目標(biāo)跟蹤在實(shí)際情況中遇到很多難點(diǎn),光照、遮擋、尺度、視角、相似物體與背景噪聲等問題依然沒有得到很好的解決。本文僅僅研究了單場(chǎng)景下單目標(biāo)跟蹤,而單場(chǎng)景下的多目標(biāo)跟蹤問題、多場(chǎng)景下的單目標(biāo)跟蹤問題、多場(chǎng)景下的多目標(biāo)跟蹤問題都是目前研究的熱點(diǎn)和難點(diǎn)。
[1] 黃凱奇,陳曉棠,康運(yùn)鋒,等.智能視頻監(jiān)控技術(shù)綜述[J].計(jì)算機(jī)學(xué)報(bào),2015(6):1093-1118.
[2] 逄博.基于粒子濾波的復(fù)雜背景下的目標(biāo)跟蹤方法研究[D].蘭州: 蘭州理工大學(xué), 2012.
[3] Rabiner L. Atutprial on hidden Markov models and selected applications in seeech recognition[J]. Proceedings of the IEEE,1989,77(2):257-286.
[4] Bar-Shalon Y, Fortmann TE. Tracking and Data Association[M]. New York: Academic Press,1998.
[5] Comaniciu D, Ramesh V, Meer P. Real-time tracking of non-rigid objects using mean-shift[C]//Proceedings of the IEEE Conference Computer Vision and Patter Recogition, 2000:142-149.
[6] Isard M, Blake A. Condensation-conditional density propaga-tion for visual tracking[J]. International Journal of Computer Vision,1998,29(1):5-28.
[7] WU Yi, LIM Jongwoo, YANG M H. Online object tracking: A benchmark[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013:1354 - 1362.
[8] ROSS D, LIM J, LIN R, et al. Incremental learning forrobust visual tracking[J]. International Journal of Compute Vision, 2008, 77(1): 125 - 141.
[9] COMANICIU D, RAMESH V, MEER P. Kernel-based object tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(2): 564-577.
[10] KWON J, LEE K M. Visual tracking decomposition[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1269 - 1276.
[11] 薛模根, 朱虹, 袁廣林. 基于在線判別式字典學(xué)習(xí)的魯棒視覺跟蹤[J].電子與信息學(xué)報(bào) , 2015, 37(7): 1654 - 1659.
[12] 付永會(huì),張風(fēng)超,張憲民.一種改進(jìn)的基于顏色直方圖的實(shí)時(shí)目標(biāo)跟蹤算法 [J]. 數(shù)據(jù)采集與處理, 2001, 16(3):309-314.
[13] 余旺盛,田孝華,侯志強(qiáng),查宇飛.基于局部分塊學(xué)習(xí)的在線視覺跟蹤 [J]. 電子學(xué)報(bào), 2015(1):74-78.
[14] 劉華軍,王玉坤.基于HOG及在線多實(shí)例學(xué)習(xí)的目標(biāo)跟蹤算法 [J]. 現(xiàn)代電子技術(shù), 2013, 36(9):116-120.
[15] 王杰雄,齊向陽.基于高斯混合模型的NSCT變換遙感圖像融合[J]. 科學(xué)技術(shù)與工程, 2009, 9(14):4057-4062.
[16] 王金洋,余紅英,樊永生.基于混合高斯模型的運(yùn)動(dòng)目標(biāo)跟蹤算法 [J]. 中國科技信息, 2015(2):77-77.
[17] 黃蘇雨,熊建強(qiáng),陳紅,胡平芳.改進(jìn)混合高斯模型的運(yùn)動(dòng)目標(biāo)檢測(cè)與跟蹤算法 [J]. 計(jì)算機(jī)測(cè)量與控制, 2015, 23(3):861-863.
[18] 申剛,袁偉.MATLAB統(tǒng)計(jì)工具箱在教學(xué)成績(jī)分析中的應(yīng)用[C]//亞太信息網(wǎng)絡(luò)與數(shù)字內(nèi)容安全會(huì)議, 2011.
[19] A Yilmaz,K Shafique,M Shah. Target tracking in airborne forward looking infrared imagery [J]. Image & Vision Computing, 2003, 21(7):623-635.
[20] 賈靜平,張飛舟,柴艷妹.基于核密度估計(jì)尺度空間的目標(biāo)跟蹤算法 [J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009(4):595-598.
[21] 陸文,蔡敬菊.基于魯棒子空間學(xué)習(xí)的粒子濾波跟蹤算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2011, 28(9):3579-3584.
[22] 孫銳,黃靜茹,丁文秀.一種基于子空間學(xué)習(xí)的實(shí)時(shí)目標(biāo)跟蹤算法 [J]. 光電工程, 2015(2):52-58.
[23] 陳思,蘇松志,李紹滋.基于在線半監(jiān)督 boosting 的協(xié)同訓(xùn)練目標(biāo)跟蹤算法 [J].電子與信息學(xué)報(bào),2014, 36(4): 888-895.
[24] AVIDAN S. Ensemble tracking[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2005: 494-501.
[25] BABENKO B, BELONGIE S, and YANG M H. Visualtracking with online multiple instance learning[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2009: 1003-1010.
[26] ZHANG KH, ZHANG L, YANG M H. Fastcompressive tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(10): 2002 - 2015.
[27] FEDERICO P, BIMBO A D. Object tracking byoversampling local features[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(12):2538 - 2551.
[28] 沈忱.視頻監(jiān)控中的預(yù)處理、目標(biāo)檢測(cè)和跟蹤方法研究 [D]. 南京: 南京郵電大學(xué), 2014.
[29] 沈丁成.基于在線Boosting算法的目標(biāo)跟蹤研究 [D]. 天津: 天津理工大學(xué), 2012.
[30] 徐俊格. 基于SVM的目標(biāo)跟蹤算法研究[D]. 南寧: 廣西民族大學(xué), 2011.
[31] 吳盈,劉哲,陳懇,吉培培.基于隨機(jī)局部均值Hash特征的在線學(xué)習(xí)目標(biāo)跟蹤 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2016(4).
[32] Zhang T, Ghanem B, Liu S, et al. Robust visual tracking via multi-tasksparse learning[C]//Proceedings of the 2012 IEEE Conference onComputer Vision and Pattern Recognition, 2012:2042-2049.
[33] Zhang T, Ghanem B, Liu S, et al. Robust visual tracking via structured multi-task sparse learning[J].International Journal of Computer Vision,2013, 101 (2): 367-383.
[34] Zhang T, Liu S, Ahuja N, et al. Robust visual tracking via consistent low-rank sparse learning[J]. International Journal of Computer Vision, 2014, 111 (2): 171-190.
[35] 高君宇,楊小汕,張?zhí)熘? 等. 基于深度學(xué)習(xí)的魯棒性視覺跟蹤方法 [J].計(jì)算機(jī)學(xué)報(bào),2016, 39(7): 1419-1434.
[36] 余凱,賈磊,陳雨強(qiáng),徐偉.深度學(xué)習(xí)的昨天、今天和明天 [J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(9):1799-1804.
[37] 高常鑫,桑農(nóng).基于深度學(xué)習(xí)的高分辨率遙感影像目標(biāo)檢測(cè) [J]. 測(cè)繪通報(bào), 2014(S1):108-111.
[38] 張恒亨.基于傳統(tǒng)方法和深度學(xué)習(xí)的圖像精細(xì)分類研究 [D]. 合肥: 合肥工業(yè)大學(xué), 2014.
[39] Fan J, Xu W, Wu Y, et al. Human tracking using convolutional neural networks[J]. IEEE Transactions on Neural Networks, 2010, 21 (10): 1610-1623.
[40] Zhou X, Xie L, Zhang P, et al. An ensemble of deep neural networks for object tracking[J]. IEEE International Conference on Image Processing, 2014: 843-847.
[41] Li H, Li Y, Porikli F. DeepTrack: Learning Discriminative Feature Representations Online for Robust Visual Tracking[J]. IEEE Transactions on Image Processing, 2015, 25(4).
[42] Hong S, You T, Kwak S, et al. Online Tracking by Learning iscriminative Saliency Map with Convolutional Neural Network[EB/OL]. http://arxiv. org/pdf/1502.06796.pdf
[43] Wang N, Li S, Gupta A, et al. Transferring Rich Feature Hierarchies for Robust Visual Tracking[EB/OL]. http://arxiv.org/pdf/1501.04587.pdf
[44] Zhang K, Liu Q, Wu Y, et al. Robust Tracking via Convolutional Networks without Learning[EB/OL]. http://arxiv. org/pdf/1501.04505.pdf
[45] Kuen J, Lim KM, Lee CP. Self-taught learning of a deep invariant representation for visual tracking via temporal slowness principle[J]. Pattern Recognition, 2015, 48(10): 2964-2982.
[46] 薛桐.基于CamShift的運(yùn)動(dòng)目標(biāo)跟蹤算法研究 [D]. 沈陽: 沈陽理工大學(xué), 2015
[47] 王田,劉偉寧,韓廣良,杜超,劉戀.基于改進(jìn)Mean Shift的目標(biāo)跟蹤算法 [J]. 液晶與顯示, 2012, 27(3):396-400.
[48] 鐘華民.基于特征描述和色彩模型的目標(biāo)跟蹤算法研究[D]. 上海: 上海交通大學(xué), 2014.
[49] 王煒,郭毓,俞信.基于卡爾曼濾波的多區(qū)域關(guān)聯(lián)運(yùn)動(dòng)目標(biāo)跟蹤 [J]. 計(jì)算機(jī)應(yīng)用, 2012, 32(11):3174-3177.
[50] Wang N, Yeung D-Y. Learning a deep compact image representation forvisual tracking[J]. Advances in Neural Information Processing Systems, 2013: 809-817.
華僑大學(xué)研究生科研創(chuàng)新能力培育計(jì)劃資助項(xiàng)目。