国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的目標跟蹤算法綜述

2020-03-19 10:45:34陳云芳
計算機工程與應(yīng)用 2020年6期
關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)濾波卷積

陳云芳,吳 懿,張 偉

南京郵電大學(xué) 計算機學(xué)院,南京210023

1 引言

目標跟蹤是計算機視覺領(lǐng)域的重要組成部分。目標追蹤廣泛應(yīng)用于視頻監(jiān)控、自動駕駛和人機交互等系統(tǒng)中[1]。盡管在該領(lǐng)域已經(jīng)取得了巨大的成就,但由于跟蹤場景種類繁多,環(huán)境復(fù)雜多變,以及由物體運動產(chǎn)生的形變、遮擋、模糊、快速移動等情況[2],到目前仍沒有合適的方法可以覆蓋跟蹤的所有場景,所以目標跟蹤仍被認為是一個非常有挑戰(zhàn)的任務(wù)。目標跟蹤一般由三個部分組成,分別是特征提取,建立外觀模型和運動模型以及模型更新[3]。對于單目標跟蹤問題,先驗知識是第一幀給定的矩形框。這個框在實際應(yīng)用中大多是目標檢測算法的結(jié)果,目標跟蹤算法的任務(wù)是通過一系列視覺方法得到目標的特征,并且在接下來的幀中成功定位到該目標。在給定邊界框的情況下,最佳跟蹤器需要克服快速運動、嚴重遮擋、目標變形、背景干擾、尺度變化、旋轉(zhuǎn)等挑戰(zhàn),并且最好兼顧高精度和實時性。為了解決這些實際問題,在過去的幾年里,許多跟蹤算法被提出。

目前的目標跟蹤算法主要分為生成模型方法和判別模型方法[4],生成模型方法是在當前幀中對目標區(qū)域進行建模,在下一幀中尋找與模型最相似的區(qū)域,該區(qū)域就是預(yù)測位置。判別模型方法是近年來的主流方法[5],把跟蹤問題轉(zhuǎn)化為一個關(guān)于前景和背景的二分類問題,使用圖像特征和機器學(xué)習(xí)的組合來進行跟蹤。在當前幀中以目標區(qū)域為正樣本,以背景區(qū)域為負樣本,使用機器學(xué)習(xí)方法訓(xùn)練分類器,在下一幀中用訓(xùn)練好的分類器找最優(yōu)區(qū)域。與生成類方法最大的區(qū)別是,判別類方法采用機器學(xué)習(xí),訓(xùn)練中用到了背景信息,這樣分類器就能專注區(qū)分前景和背景,所以判別類方法普遍都比生成類好。

本文將目標跟蹤算法分為傳統(tǒng)的跟蹤算法和基于孿生網(wǎng)絡(luò)的跟蹤算法。傳統(tǒng)的跟蹤算法可以被分為三類,分別是生成模型方法、傳統(tǒng)的相關(guān)濾波算法和結(jié)合深度特征的相關(guān)濾波算法,目前基于相關(guān)濾波和深度學(xué)習(xí)的方法屬于判別模型方法這一類別。傳統(tǒng)的相關(guān)濾波方法的優(yōu)勢是速度快,可以在CPU 上實時運行,但精度一般。結(jié)合深度特征的相關(guān)濾波方法使用強大的深度卷積網(wǎng)絡(luò)提取出更好的特征,精度得到了很大提高,但速度下降,大多算法在GPU 上也難以達到實時。基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤算法使用特殊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),Chopra 等在文獻[6]中提出了這個結(jié)構(gòu),其特點是接收兩張圖片作為輸入。這種特殊的網(wǎng)絡(luò)結(jié)構(gòu)將目標跟蹤問題轉(zhuǎn)化為相似性學(xué)習(xí)問題,很好地平衡了速度和精度,既可以在GPU 上實時運行,又在精度上追趕并超過結(jié)合深度特征的相關(guān)濾波類方法。孿生網(wǎng)絡(luò)結(jié)構(gòu)不僅應(yīng)用在跟蹤問題中,沈雁也將其應(yīng)用到了交通標志的分類任務(wù)中,取得了超過99%的準確率[7]。

2019年,基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤算法的精度首次超越了相關(guān)濾波類算法,并且保持了實時性。這意味著孿生網(wǎng)絡(luò)將是目標跟蹤領(lǐng)域的重要研究方向。因此本文將詳細介紹孿生網(wǎng)絡(luò)的結(jié)構(gòu)和改進,并根據(jù)現(xiàn)有的不足討論該研究方向的發(fā)展趨勢。

2 傳統(tǒng)的目標跟蹤算法

2.1 基于生成模型的方法

生成類方法是在當前幀中對目標區(qū)域建模,下一幀尋找與模型最相似的區(qū)域,該區(qū)域就是預(yù)測位置,此類方法經(jīng)常使用卡爾曼濾波[8]、粒子濾波[9]、均值漂移[10]等算法。

卡爾曼濾波的特點是對目標的運動模型進行建模從而估計目標在下一幀的位置,不對目標特征進行建模。楊鵬生等人[11]提出了一種基于改進擴展卡爾曼濾波的目標跟蹤算法,通過構(gòu)建時間差和信號到達方向的觀測方程,利用幾何和代數(shù)關(guān)系化簡得到偽線性模型對目標運動軌跡進行跟蹤,取得了優(yōu)于傳統(tǒng)卡爾曼濾波算法的效果。

粒子濾波基于粒子分布統(tǒng)計,尋找一組在狀態(tài)空間中傳播的隨機樣本來近似的表示概率密度函數(shù),用樣本均值代替積分運算,進而獲得系統(tǒng)狀態(tài)的最小方差估計。劉芳等人[12]針對復(fù)雜背景變化和目標尺度變化等跟蹤中常見的問題,提出了一種基于深度特征和模板更新的自適應(yīng)粒子濾波目標跟蹤方法,解決由目標模板更新精度低導(dǎo)致跟蹤算法魯棒性差的問題。

均值漂移方法基于概率密度分布,沿著概率梯度上升的方向,迭代收斂到概率密度分布的局部峰值上。Tomas 等提出的生成模型方法ASMS 算法[13]在經(jīng)典的均值漂移框架下進行了尺度估計的理論推導(dǎo),并引入了正則項來解決兩個問題:由背景混亂引起的尺度擴張和自相似物體的尺度內(nèi)爆。還有一類經(jīng)典算法是基于特征點的光流跟蹤算法,對目標物體提取特征點,在下一幀計算特征的光流匹配點,進行統(tǒng)計從而得到目標位置。王忠民等人[14]針對物體快速移動以及均值漂移算法誤差累積造成的目標漂移問題,提出了一種融合目標檢測算法YOLO[15]與均值漂移的目標跟蹤算法,進行有效的跟蹤。

生成式模型通常尋找與目標模板最相似的候選作為跟蹤結(jié)果,這一過程可以視為模板匹配。而判別式模型通過訓(xùn)練一個分類器去區(qū)分目標與背景,選擇置信度最高的候選樣本作為預(yù)測結(jié)果。由于使用各種機器學(xué)習(xí)方法所以判別類方法普遍都比生成類好。

2.2 相關(guān)濾波方法

2010 年后,基于相關(guān)濾波的算法開始流行,其特點是算法運算速度快。傳統(tǒng)相關(guān)濾波器的算法利用循環(huán)相互的特性,在傅里葉域中進行運算,此類算法有效更新過濾器的權(quán)重從而實現(xiàn)在線跟蹤。初期的相關(guān)濾波算法使用淺層特征主要由灰度特征、紋理特征、顏色特征等組成。Bolme 等提出的MOSSE[16]使用單幀初始化時產(chǎn)生穩(wěn)定的相關(guān)濾波器。對于光照、縮放、姿勢和非剛性變形的變化時,基于MOSSE 濾波器的跟蹤器具有魯棒性,同時以669幀的速度運行。Henriques等提出的CSK[17]算法使用了一種基于循環(huán)矩陣的核跟蹤方法,并且從數(shù)學(xué)上完美解決了密集采樣的問題,利用傅里葉變換快速實現(xiàn)了檢測的過程。算法通過使用高斯核計算相鄰兩幀之間的相關(guān)性,取響應(yīng)最大的點為預(yù)測的目標中心。Henriques 等人在CSK 算法的基礎(chǔ)上提出了KCF/DCF 算法[18],這是CSK 算法的多通道特征改進版本。CSK 中使用的是灰度特征,KCF 使用HOG 特征和高斯核函數(shù),DCF 使用HOG 特征和線性核函數(shù)。表1是OTB50[19]上的實驗結(jié)果,測試數(shù)據(jù)集是作者所建立的一個跟蹤數(shù)據(jù)集,其中包含50 個完全標注好的序列。并且每個跟蹤器通過分析超過660 000個邊界框輸出進行廣泛評估。可以看到KCF/DCF 算法在平均速度和平均精度上的優(yōu)勢。

在此之后,Danelljan 等提出的CN[20]算法是CSK 算法的多通道顏色特征改進算法,而該團隊的DSST[21]方法只用了HOG 特征并且專門訓(xùn)練類似MOSSE 的相關(guān)濾波器檢測尺度變化,開創(chuàng)了平移濾波和尺度濾波相結(jié)合的方法。關(guān)于顏色特征,吳曉光等人[22]在基于空時上下文和核函數(shù)循環(huán)結(jié)構(gòu)的目標跟蹤器的基礎(chǔ)上,介紹基于顏色特征的跟蹤器,并針對其在目標被遮擋、尺度變化和光照發(fā)生變化時易發(fā)生跟蹤漂移的問題,提出自適應(yīng)學(xué)習(xí)速率和自適應(yīng)高斯核尺度因子兩種方法,分別對訓(xùn)練模型的更新和標記進行改進,減少目標模型累積錯誤,提高跟蹤過程準確性。

表1 KCF/DCF和其他算法的比較

Li 等提出的SAMF[23]方法基于KCF,該算法將單一的特征擴展為多個特征并利用尺度池的方法實現(xiàn)目標的自適應(yīng)跟蹤。成悅等人[24]為解決單一特征魯棒性差,模型和尺度更新機制不健全的問題,提出了一種將自適應(yīng)加權(quán)特征融合方法與置信度模型及尺度更新機制相結(jié)合的相關(guān)濾波目標跟蹤算法。同時提出一種新的尺度更新策略,使跟蹤更精確的同時降低時間代價。胡昭華等人[25]針對傳統(tǒng)核跟蹤算法單一特征的局限性、目標模板和特征外觀模板更新的不足,提出了一種多通道特征和擇優(yōu)并行更新的核相關(guān)濾波跟蹤算法,采用多支路的擇優(yōu)并行更新彌補了單一支路更新的不足。

2.3 結(jié)合深度特征的相關(guān)濾波方法

近年來結(jié)合深度特征的相關(guān)濾波方法利用深度特征替代傳統(tǒng)的手工設(shè)計特征,從而提高模型的準確度。相關(guān)濾波算法與深度學(xué)習(xí)結(jié)合,大幅度提升了算法的表現(xiàn)。深度學(xué)習(xí)的優(yōu)勢之一就是卷積輸出得到的特征表達優(yōu)于HOG或CN等淺層特征,但同時也帶來了計算量的增加。

吳剛等人[26]針對相關(guān)濾波算法中難以解決的目標快速移動導(dǎo)致的邊界問題,引入了交替方向乘子方法,提出了DCNN 深度特征與交替方向乘子結(jié)合的相關(guān)濾波跟蹤器。

戴鳳等人[27]對現(xiàn)有的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和實驗結(jié)果進行分析,和基于堆疊自編碼器和遞歸網(wǎng)絡(luò)的方法相比,基于卷積神經(jīng)網(wǎng)絡(luò)的跟蹤模型具有更好的效果和發(fā)展前景。

Danelljan 等在C-COT[28]方法中指出基本的DCF 公式僅僅關(guān)注單分辨率的特征映射,但是此算法在傳統(tǒng)DCF 框架上介紹了一個用于訓(xùn)練連續(xù)卷積濾波器的新公式。作者使用隱式插值模型提出了連續(xù)空間域中的學(xué)習(xí)問題,通過學(xué)習(xí)一組卷積濾波器來產(chǎn)生目標的連續(xù)域置信度圖。接著該團隊又提出了ECO 算法[29],該方法基于C-COT框架,但解決了速度太慢的問題。從2010年的MOSSE 開始,很多基于相關(guān)濾波的跟蹤算法為了得到更好的效果,使用了越來越高的特征維度,這也導(dǎo)致了速度越來越慢。作者分析了速度降低的三個最重要的要素并提出了解決方法。

(1)采用因式分解的卷積操作來解決模型大小的問題。

(2)采用生成樣本空間模型來解決訓(xùn)練集大小的問題。

(3)簡單地規(guī)定每隔一定幀更新一次來解決模型更新的問題。

從結(jié)果上來看,不僅取得了極高的精度,而且解決了速度的問題。使用HOG 特征和CN 特征的版本速度高于60 幀/s,但使用CNN 特征、HOG 特征和CN 特征的速度僅有8 幀/s。

大多結(jié)合深度特征的相關(guān)濾波方法進行大量卷積計算,并且在跟蹤過程中更新權(quán)重來調(diào)整網(wǎng)絡(luò),這導(dǎo)致算法的速度變慢。盡管很多研究人員提出了優(yōu)化的方法,但仍無法達到實時,這也有違相關(guān)濾波的初衷。

在大數(shù)據(jù)背景下,傳統(tǒng)的算法沒有充分地利用數(shù)據(jù)來構(gòu)建模型。隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的算法變得越來越重要,基于深度學(xué)習(xí)的跟蹤器可以利用強大的深層特性,并且離線訓(xùn)練,跟蹤過程不更新模型??紤]到深度神經(jīng)網(wǎng)絡(luò)的優(yōu)越性,研究人員開始考慮不使用相關(guān)濾波器,研究僅依賴深度網(wǎng)絡(luò)的跟蹤方法,基于深度網(wǎng)絡(luò)的目標跟蹤本質(zhì)上仍然是判別式模型。盡管早期的基于深度學(xué)習(xí)的跟蹤算法MDNet[30]、TCNN[31]取得了一些效果,但是在速度和精度上無法做到平衡。孿生網(wǎng)絡(luò)作為一種特殊的神經(jīng)網(wǎng)絡(luò),將目標跟蹤問題轉(zhuǎn)化為相似性學(xué)習(xí)問題。隨著更深的網(wǎng)絡(luò)結(jié)構(gòu)和超級巨大的數(shù)據(jù)的應(yīng)用,如今的基于孿生網(wǎng)絡(luò)的跟蹤器在保證實時的條件下,性能已經(jīng)不弱于基于相關(guān)濾波的跟蹤器。

3 基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的目標跟蹤方法

首先介紹孿生網(wǎng)絡(luò)的結(jié)構(gòu)和應(yīng)用,接著介紹研究者對孿生網(wǎng)絡(luò)的重要改進,最后介紹該領(lǐng)域的發(fā)展趨勢。

3.1 孿生網(wǎng)絡(luò)的結(jié)構(gòu)和應(yīng)用

孿生網(wǎng)絡(luò)結(jié)構(gòu)是一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu),由兩個或更多子網(wǎng)絡(luò)構(gòu)成,其特點是同時接收兩個圖片作為輸入并且兩個神經(jīng)網(wǎng)絡(luò)權(quán)值共享,如圖1。孿生網(wǎng)絡(luò)結(jié)構(gòu)的主要思想是找到一個可以將輸入的圖片映射到目標空間的函數(shù),使得目標空間中的簡單距離近似于輸入空間的“語義”距離。更準確的說該結(jié)構(gòu)試圖找到一組參數(shù),使得相似度度量在屬于同一類別是小的,在屬于不同類別時是大的。該網(wǎng)絡(luò)過去主要用于度量學(xué)習(xí),用來計算圖像、聲音、文本等信息的相似性。尤其是在人臉驗證領(lǐng)域[32-34]上的應(yīng)用。孿生網(wǎng)絡(luò)結(jié)構(gòu)還有一個特點就是可以自然地增加訓(xùn)練數(shù)據(jù)量,因為每次輸入一對圖像。這樣就可以充分利用有限的數(shù)據(jù)集來訓(xùn)練網(wǎng)絡(luò),這一點在目標跟蹤領(lǐng)域非常重要,因為和目標檢測相比,跟蹤領(lǐng)域的訓(xùn)練數(shù)據(jù)集較少。

圖1 孿生網(wǎng)絡(luò)結(jié)構(gòu)

隨著SINT[35]和SiamFC[36]的出現(xiàn),孿生網(wǎng)絡(luò)結(jié)構(gòu)跟蹤器成為了解決單目標跟蹤問題的一個重要方法?;趯\生網(wǎng)絡(luò)的算法特點是通過孿生網(wǎng)絡(luò)學(xué)習(xí)一個匹配函數(shù),在得到第一幀的邊界框后,后續(xù)的所有幀都在采樣后和第一幀中的目標進行相似度計算。由于網(wǎng)絡(luò)模型不更新,目標即使被遮擋也不會影響后續(xù)的找回,這樣可以極大提高跟蹤算法的魯棒性。

Tao 等提出的SINT 方法第一個提出了基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的目標跟蹤算法,該算法在圖像中生成多個候選目標,經(jīng)過網(wǎng)絡(luò)后與示例圖像作比較,然后選擇距離最小的候選目標。即開創(chuàng)性地將目標跟蹤問題轉(zhuǎn)化為匹配問題,并通過神經(jīng)網(wǎng)絡(luò)來實現(xiàn),但每次處理大量的候選框是非常耗時的操作。

同年Bertinetto 等提出的SiamFC 方法更具有實用性。該方法訓(xùn)練一個深度網(wǎng)絡(luò)以在初始離線階段解決更一般的相似性學(xué)習(xí)問題,然后在跟蹤期間簡單進行在線評估。該算法訓(xùn)練一個全卷積孿生網(wǎng)絡(luò),以在更大的搜索圖像中定位候選圖像。新的孿生結(jié)構(gòu)對搜索圖像進行了完全卷積:使用雙線性層實現(xiàn)密集和高效的滑動窗口評估。該雙線性層實際上計算其兩個輸入的互相關(guān),將示例圖像與候選圖像進行比較,并且如果兩個圖像描繪相同的對象則返回高分,否則返回低分。為了在搜索圖像中找到對象的位置,可以窮盡地測試所有可能的位置,并選擇與對象的外觀具有最大相似性的候選圖像。

網(wǎng)絡(luò)結(jié)構(gòu)如圖2,由模板分支和檢測分支組成。模板分支負責接收目標作為輸入(用z 表示),目標通常是第一幀給定的邊界框。檢測分支接收在當前幀作為輸入(用x表示)。卷積神經(jīng)網(wǎng)絡(luò)中的兩個分支共享參數(shù)。SiamFC 使用深度卷積網(wǎng)絡(luò)作為函數(shù),使用孿生架構(gòu)的深層網(wǎng)絡(luò)進行相似性學(xué)習(xí)。孿生網(wǎng)絡(luò)對兩個輸入應(yīng)用相同的變換,然后根據(jù)f(z,x)=g(φ(z),φ(x))計 算相關(guān)性,其中函數(shù)g 可以被認為是卷積操作,其中卷積核是φ(x)。

圖2 SiamFC的網(wǎng)絡(luò)結(jié)構(gòu)

以SiamFC為代表的早期的孿生網(wǎng)絡(luò)在速度上遠超實時,但在精度上不如結(jié)合深度特征的相關(guān)濾波方法。表2 展示了VOT2016[37]的部分結(jié)果,將SianFC-R 和SianFC-A 和競賽前三名進行比較,其中SiamFC-R 使用ResNet[38]作為骨干網(wǎng)絡(luò),而SianFC-A 使用AlexNet[39]作為骨干網(wǎng)絡(luò)。具體評價的指標包括平均期望重疊率、準確度、魯棒性和消除硬件影響的速度。實驗的參數(shù)設(shè)置采用VOT評價工具的默認參數(shù),保證公平。

表2 SiamFC和同年先進算法的對比

3.2 孿生網(wǎng)絡(luò)方法的改進

初期的孿生網(wǎng)絡(luò)在速度上遠超實時,但精度上不如結(jié)合深度特征的相關(guān)方法,隨著研究者對孿生網(wǎng)絡(luò)的不斷改進,來自其他領(lǐng)域的功能模塊被應(yīng)用在孿生網(wǎng)絡(luò)結(jié)構(gòu)中,改進的基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤器使用更好的方法取代了傳統(tǒng)的多尺度檢測,并且使用了更深的網(wǎng)絡(luò)結(jié)構(gòu),在精度和速度上追趕結(jié)合深度特征的相關(guān)濾波跟蹤器。本節(jié)將介紹孿生網(wǎng)絡(luò)的改進,將其分為功能模塊的引入和骨干網(wǎng)絡(luò)的優(yōu)化兩種改進方法。

3.2.1 不同功能模塊的引入

SiamFC 之后,有很多研究者對其進行了改進。其中Li等提出的SiamRPN[40]進行了非常大的改進。SiamFC中一個非常大的弱點是沒有尺度估計。SiamFC 輸入三個尺度的圖,經(jīng)過網(wǎng)絡(luò)對比后選出響應(yīng)最大的作為目標的位置。手工設(shè)計的尺度長寬比例固定,這一點非常不合理。SiamRPN 是在SiamFC 的算法上,借鑒了Faster R-CNN[41]中的區(qū)域推薦網(wǎng)絡(luò),這樣可以用邊界框回歸來替代多尺度檢測,從而得到最大響應(yīng)的邊界框。該框架采用大規(guī)模圖像進行端對端訓(xùn)練,跟蹤可以被認為是局部的一階段檢測任務(wù)。算法框架如圖3。

該框架由用于特征提取的孿生網(wǎng)絡(luò)和用于生成建議的區(qū)域建議子網(wǎng)絡(luò)組成,其中區(qū)域建議子網(wǎng)絡(luò)包含分類分支和回歸分支,分別負責區(qū)分前景后景和邊界框回歸。孿生子網(wǎng)絡(luò)和SiamFC 中的網(wǎng)絡(luò)結(jié)構(gòu)相同,采用無填充的全卷積網(wǎng)絡(luò)。

在RPN 的分類分支中,模板圖像和檢測圖像的特征圖首先通過一個卷積層,該卷積層主要是對模板圖像的特征圖進行通道上的升維,令其維度變?yōu)闄z測圖像的特征圖維度的2k 倍,其中k 為RPN中設(shè)定的錨框數(shù)。此后,將模板圖像的特征圖在通道上按序等分為2k 份,作為2k 個卷積核,在檢測圖像的特征圖完成卷積操作,得到一個維度為2k 的分數(shù)圖。該分數(shù)圖同樣在通道上按序等分為k 份,得到k 個維度為2 的分數(shù)圖,兩個維度分別對應(yīng)錨框中前景(目標)和后景(背景)的分類分數(shù),是關(guān)于目標的置信度。

在RPN 的回歸分支中,模板圖像和檢測圖像的特征圖,都將首先通過一個卷積層,該卷積層主要是對模板圖像的特征圖進行通道上的升維,令其維度變?yōu)闄z測圖像的特征圖維度的4k 倍,其中k 仍為RPN中設(shè)定的錨框數(shù)。此后,將模板圖像的特征圖在通道上按序等分為4k 份,作為4k 個卷積核,在檢測圖像的特征圖完成卷積操作,得到一個維度為4k 的分數(shù)圖。分數(shù)圖同樣在通道上按序等分為k 份,得到k 個維度為4 的分數(shù)圖,四個維度分別對應(yīng)錨框的目標的坐標及尺寸。

在VOT2018 競賽[42]中,SiamRPN 取得第三名,前三名的具體數(shù)據(jù)如表3 所示,具體評價的指標包括平均期望重疊率、準確度、魯棒性,實驗的參數(shù)設(shè)置采用VOT評價工具的默認參數(shù)。這意味著基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤算法在精度上取得了極大的進步,并且仍保持遠超實時性,速度達到160 幀/s。

Wang 等提出可以同時實現(xiàn)視頻目標跟蹤和視頻目標分割這兩個任務(wù),并能達到實時的效果[43]。文章提出的模型叫SiamMask,該模型通過在用于目標跟蹤的全卷積孿生網(wǎng)絡(luò)上增加MASK分支來實現(xiàn)目標的分割,同時增強網(wǎng)絡(luò)的損失,優(yōu)化網(wǎng)絡(luò)。一旦網(wǎng)絡(luò)訓(xùn)練好之后,SiamMask 僅依賴于初始的一個邊界框就可以實現(xiàn)類別無關(guān)的目標實時跟蹤及分割,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

3.2.2 骨干網(wǎng)絡(luò)的優(yōu)化

Zhang 等提出的SiamDW[44]認為隨著深度學(xué)習(xí)的發(fā)展,網(wǎng)絡(luò)層數(shù)越來越深,從而提取到更好的特征。但跟蹤算法仍使用經(jīng)典的AlexNet,這是非常不合理的。論文中的實驗對比了多個骨干網(wǎng)絡(luò),但隨著網(wǎng)絡(luò)層數(shù)的增加,跟蹤效果劇烈的變差,如圖5中的藍色線。

作者分析了神經(jīng)網(wǎng)絡(luò)的多個因素,例如步長、填充和感受野。

圖3 SiamRPN的網(wǎng)絡(luò)結(jié)構(gòu)

圖4 SiamMASK的網(wǎng)絡(luò)結(jié)構(gòu)

圖5 成功圖曲線下面積與網(wǎng)絡(luò)深度和寬度的關(guān)系

大部分的計算機視覺任務(wù)的步長經(jīng)常設(shè)置為16 或者32。但對于跟蹤人物而言,由于幀間的位移較小,步長通常取值較小,例如4 或者8。通常神經(jīng)網(wǎng)絡(luò)都是使用填充來確保隨著層數(shù)的增加,特征圖不會變得太小,并且正常采集邊緣的信息。但從SiamFC 開始,零填充被引入到網(wǎng)絡(luò)中。在沒有填充的時候,目標移動一定的距離,特征圖上原來的相應(yīng)點會對應(yīng)移動一定距離,這個距離和步長有關(guān)。此時特征圖上響應(yīng)值不變。有填充時,如果目標移動后的位置對應(yīng)的感受野超出了圖片的邊界,就會導(dǎo)致響應(yīng)值的改變,填充的引入導(dǎo)致了學(xué)習(xí)中的位置偏見。孿生網(wǎng)絡(luò)中的感受野的設(shè)置非常重要。感受野過大,重疊就會很大,模板圖像中的相鄰的兩個候選圖像的特征會很接近,將減小定位準確度。感受野過小會降低單個特征的判別力,而神經(jīng)元感受野的大量增加導(dǎo)致特征識別率和定位準確率的下降。作者強調(diào)網(wǎng)絡(luò)的步長、感受野大小要在整體上同時分析??上攵?,這些因素之間并不獨立,一個改變,其他的也會隨之改變。作者提出了新的殘差模塊來消除填充的負面影響,這使得更深的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以應(yīng)用到目標跟蹤中。

基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤算法將跟蹤描述為目標模板和搜索區(qū)域之間的卷積特征互相關(guān)操作。然而,與最先進的算法相比,孿生網(wǎng)絡(luò)跟蹤器的精度仍然存在差距,而且它們無法利用深度網(wǎng)絡(luò)(如ResNet-50 或更深)的特性。Li等[45]在SiamRPN的基礎(chǔ)上提出了SiamRPN++,解答了為什么深層網(wǎng)絡(luò)ResNet 不能應(yīng)用在孿生網(wǎng)絡(luò)架構(gòu)中,其結(jié)構(gòu)如圖6所示。

孿生網(wǎng)絡(luò)無法使用更深的網(wǎng)絡(luò)結(jié)構(gòu)的核心原因是缺乏平移不變性。作者認為原始的采樣策略存在問題,該策略使得圖像的中心一直有較大的權(quán)重,因此作者通過一種簡單有效的空間感知采樣策略,在中心進行移位,即偏移中心16~64 個像素范圍內(nèi)進行均勻采樣,成功地訓(xùn)練了一個性能顯著提高的采用ResNet 作為骨干網(wǎng)絡(luò)的孿生網(wǎng)絡(luò)跟蹤器。此外,該方法提出了一種新的模型架構(gòu)來執(zhí)行逐層聚合和深度聚合,這不僅進一步提高了精度,而且減小了模型的尺寸。

視覺跟蹤需要從低到高、從小到大、從細到粗分辨率的豐富表示。即使在卷積網(wǎng)絡(luò)中有深度的特征,單獨的層也是不夠的:將這些表示進行組合和聚合可以提高識別和定位的能力。在ResNet 這類深度網(wǎng)絡(luò)中,全面卷積層獲取的特征主要集中在低層信息,如顏色、形狀等,對于定位是必不可少的,而缺乏語義信息;后面層的特性具有豐富的語義信息,在一些挑戰(zhàn)場景中,如運動模糊、巨大變形時,這些信息可能是有益的。這種豐富的層次信息可以幫助跟蹤。逐層聚合操作將Conv3、Conv4和Conv5輸出的特征獨立地輸入到區(qū)域推薦網(wǎng)絡(luò)中,由于三個區(qū)域推薦模塊的輸出尺寸具有相同的空間分辨率,因此可以直接對區(qū)域推薦網(wǎng)絡(luò)輸出進行加權(quán)求和?;ハ嚓P(guān)計算模塊是一個用來整合兩個分支信息的核心操作。作者提出了一個輕量級的互相關(guān)層,稱為深度互相關(guān),來實現(xiàn)更有效的信息關(guān)聯(lián),它具有更少的參數(shù)。

圖6 SiamRPN++的網(wǎng)絡(luò)結(jié)構(gòu)

表4 最新跟蹤算法關(guān)于平均重疊、魯棒性和準確性方面的對比

SiamRPN++保持了實時性,速度是35 幀/s,采用MobileNet[46]作為骨干網(wǎng)絡(luò)速度高于70 幀/s。表4 展示了在VOT2018 基準上,SiamRPN++在預(yù)期平均重疊(EAO),魯棒性(故障率)和準確性方面與最新技術(shù)的比較,其中實驗是在VOT2018 基準上完成的,參數(shù)遵循基準的默認設(shè)置。作者認為SiamRPN++的性能已經(jīng)超過了相關(guān)濾波的方法,這是深度學(xué)習(xí)在跟蹤領(lǐng)域的重大突破。

3.3 孿生網(wǎng)絡(luò)方法的新趨勢

根據(jù)近幾年VOT 競賽的結(jié)果[37,42,47]中可以看出,基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤算法越來越多,表5 對現(xiàn)有主要的孿生網(wǎng)絡(luò)結(jié)構(gòu)算法進行總結(jié)。盡管孿生網(wǎng)絡(luò)結(jié)構(gòu)取得了廣泛的應(yīng)用,但該結(jié)構(gòu)仍然存在嚴重的局限性。首先,孿生跟蹤器在訓(xùn)練時只利用目標的外觀信息,忽略了背景的外觀信息,而背景信息對于在相似的物體中找到目標是至關(guān)重要的。其次,對于離線訓(xùn)練集中沒有包含的物體,學(xué)習(xí)的相似度度量不一定可靠,導(dǎo)致泛化能力差。第三,現(xiàn)有的孿生網(wǎng)絡(luò)跟蹤方法沒有提供模型更新策略,無法獲得圖像上下文信息。

近年來一些研究人員針對現(xiàn)有孿生網(wǎng)絡(luò)結(jié)構(gòu)方法進行了改進,雖然方法不同,但主要的目標都是利用上下文信息或者是背景信息在線更新模板或者增強目標表示,使得跟蹤過程更加魯棒。

Gao等在文獻[48]中認為現(xiàn)有的孿生網(wǎng)絡(luò)方法大多沒有充分利用不同情景下的時空目標外觀建模。首先,許多孿生網(wǎng)絡(luò)跟蹤器使用第一幀的初始目標模板來匹配候選圖像。然而由于視覺跟蹤是一個具有變化場景的動態(tài)過程,目標對象在連續(xù)幀之間存在著很強的時空關(guān)系,可以利用來自不同幀和位置的特征進行目標外觀建模。其次目標對象的周圍環(huán)境對跟蹤性能有很大的影響。然而,現(xiàn)有的孿生網(wǎng)絡(luò)跟蹤方法大多忽略了搜索圖像的上下文信息來指導(dǎo)目標外觀模型的適應(yīng)。由于缺乏在線適應(yīng)性,很難很好地捕捉到搜索圖像中的目標對象、背景的變化,這可能導(dǎo)致跟蹤失敗。在當前上下文的幫助下,學(xué)習(xí)一個新的模型作為適應(yīng)變化。時空信息可以提供多種特征來增強目標表示,而上下文信息對目標定位的在線適應(yīng)非常重要。圖卷積網(wǎng)絡(luò)可以在統(tǒng)一的框架下,實現(xiàn)目標的時空外觀建模和上下文感知的自適應(yīng)學(xué)習(xí),從而達到魯棒性目標定位的目的。

Goutam 等人在文獻[49]中認為現(xiàn)在流行的孿生網(wǎng)絡(luò)僅僅預(yù)測目標特征模板,而在推理過程中忽略了背景外觀信息,因此預(yù)測模型對目標和背景只具有有限的分辨性。目標跟蹤算法需要在推理階段在線學(xué)習(xí)魯棒的外觀模型,解決方法是將目標模型的在線學(xué)習(xí)嵌入到跟蹤結(jié)構(gòu)中進行端對端訓(xùn)練。

Peixia 等人在文獻[50]中認為在現(xiàn)有的孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,模板具有初始目標特征并且跟蹤器的性能完全依賴于孿生網(wǎng)絡(luò)的匹配能力,然而這種方式無法捕獲目標的時間變化或背景雜波。因此提出了一種新穎的梯度引導(dǎo)網(wǎng)絡(luò),利用梯度中的判別信息并通過前饋和后向操作更新孿生網(wǎng)絡(luò)中的模板。具體而言,該算法可以利用來自梯度的信息來更新當前幀中的模板。另外提出了一種模板泛化訓(xùn)練方法,以更好地利用梯度信息,避免過度擬合。

Janghoon等人在文獻[51]中提出了一種基于孿生網(wǎng)絡(luò)和元學(xué)習(xí)器的新型在線視覺跟蹤框架,通過添加目標感知特征空間,為匹配網(wǎng)絡(luò)提供了目標的新外觀信息。常規(guī)的基于深度卷積特征的判別式視覺跟蹤算法需要對分類器或相關(guān)過濾器進行連續(xù)的重新訓(xùn)練,這需要解決復(fù)雜的優(yōu)化任務(wù)以適應(yīng)目標對象的新外觀,而使用元學(xué)習(xí)器可以克服這一缺點。

目前針對孿生網(wǎng)絡(luò)結(jié)構(gòu)的缺點,主流的改進方法是在線更新機制。通過在線更新機制可以獲得圖像上下文的信息,但這種機制是一把雙刃劍。如果使用這樣機制,優(yōu)點是隨時適應(yīng)目標的變化和背景信息的變化,缺點是模型更新會累計誤差,遮擋或失敗時會學(xué)到背景,丟失后再也找不回來。如果不使用這種機制,優(yōu)點是速度更快,跟蹤目標永遠不會被污染,長期特性非常優(yōu)秀,缺點是對特征的要求非常高,必須是表達能力足夠強足夠魯棒的特征。目前研究人員針對孿生網(wǎng)絡(luò)的缺點進行了針對性的研究,通過引入不同的模塊來解決現(xiàn)有的問題,取得了較好的效果。表6 對近年使用在線更新機制的跟蹤算法的設(shè)計原理和性能表現(xiàn)進行了總結(jié),可以看到現(xiàn)有的使用在線更新機制的目標跟蹤方法兼顧了準確性和實時性。

總的來說,基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的目標跟蹤算法的未來發(fā)展需要與在線更新機制結(jié)合在一起,但要兼顧速度的問題。跟蹤過程中更新模板,計算量的增加會顯著拖慢跟蹤速度。雖然目前提出了一些方法,但整體效果還有待提升。在這種情況下,如何能夠讓跟蹤網(wǎng)絡(luò)適應(yīng)跟蹤目標的外觀變化,同時又能盡量減少計算量是一個重要的研究方向。

表5 現(xiàn)有的孿生網(wǎng)絡(luò)結(jié)構(gòu)算法的對比

表6 使用在線更新機制的算法對比

4 總結(jié)

本文介紹了目標跟蹤領(lǐng)域的發(fā)展,將其分為傳統(tǒng)的跟蹤算法以及基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤算法,其中詳細介紹了基于孿生網(wǎng)絡(luò)結(jié)構(gòu)跟蹤算法的發(fā)展。與相關(guān)濾波方法相比,深度學(xué)習(xí)以其強大的特征提取能力配合大量的數(shù)據(jù),使得跟蹤的效果越來越好,孿生網(wǎng)絡(luò)結(jié)構(gòu)作為一個特殊的網(wǎng)絡(luò)結(jié)構(gòu),將跟蹤問題轉(zhuǎn)化為相似度學(xué)習(xí)問題,很好地適應(yīng)了跟蹤這一任務(wù)。孿生網(wǎng)絡(luò)將是未來目標跟蹤的重要發(fā)展方向之一,使用神經(jīng)網(wǎng)絡(luò)進行端對端學(xué)習(xí)的方法可以充分利用大數(shù)據(jù)來實現(xiàn)更準確的跟蹤。本文將幫助讀者建立對單目標跟蹤的整體認識,并找到這個快速發(fā)展的研究領(lǐng)域的未來方向。

猜你喜歡
網(wǎng)絡(luò)結(jié)構(gòu)濾波卷積
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標跟蹤算法
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對算法研究進展
RTS平滑濾波在事后姿態(tài)確定中的應(yīng)用
基于線性正則變換的 LMS 自適應(yīng)濾波
遙測遙控(2015年2期)2015-04-23 08:15:18
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
阿巴嘎旗| 甘南县| 广西| 吉林省| 仁布县| 略阳县| 菏泽市| 榆树市| 兴文县| 寿阳县| 遵义市| 吕梁市| 绍兴县| 忻城县| 扶风县| 贡山| 赤峰市| 沛县| 龙游县| 涡阳县| 新乡县| 尉氏县| 高淳县| 扎鲁特旗| 任丘市| 墨江| 万源市| 安吉县| 武安市| 雷波县| 勃利县| 文山县| 太仓市| 和政县| 大同县| 沁阳市| 双牌县| 什邡市| 娄底市| 烟台市| 永康市|