馮明輝
(福建中煙工業(yè)有限責任公司 廈門 362000)
視覺跟蹤是計算機視覺領(lǐng)域的一個熱門研究問題,有著廣泛的應用,例如智能視頻監(jiān)控[1],自動駕駛[2],醫(yī)療診斷[3],虛擬現(xiàn)實[4]。視覺跟蹤的主要任務是估計后續(xù)幀中目標的未知狀態(tài),只有第一幀中目標的初始狀態(tài)(例如,通常是位置或比例)可用。目前,主流的跟蹤算法一般分為兩類,一類是基于相關(guān)濾波框架的跟蹤算法,另一類是基于深度卷積神經(jīng)網(wǎng)絡的跟蹤算法。這兩種方法各有優(yōu)缺點。
基于相關(guān)濾波器的方法[11~22,27~31]已于2010年引入視覺跟蹤社區(qū),并取得了令人印象深刻的跟蹤性能。由于計算量低,基于CF 的跟蹤器可以通過快速傅立葉變換(FFT)將時域中復雜的卷積計算轉(zhuǎn)換成頻域中簡單的元素乘法運算。這種方法通常使用手工制作的特征(如 HOG[5],Corlor Names[6])來處理跟蹤過程中各種目標和背景外觀的變化。
特征級融合方法[6~8]已經(jīng)被廣泛應用,并且已經(jīng)做出了相當大的努力來提高跟蹤性能,但是仍然有很大的改進空間。方法[7]有效地結(jié)合了多種手工制作的特征,如HOG 和顏色名稱,其中HOG 特征對光照變化敏感,顏色名稱對變形和運動模糊具有魯棒性。HCFTstar[8~10]有效地結(jié)合了多層深層層次卷積特征,在跟蹤過程中,目標對象經(jīng)常會遇到各種復雜的外觀場景挑戰(zhàn)。不正確的更新方法很容易導致跟蹤漂移,并會對后續(xù)幀的跟蹤性能產(chǎn)生負面影響。目前,大多數(shù)跟蹤算法[12,19~20,27]逐幀更新他們的模型,這些方法沒有考慮跟蹤是否準確。
近年來,相關(guān)濾波器在視覺跟蹤算法中非常成功,因為它可以通過使用快速傅立葉變換來提高計算效率,并且可以有效緩解樣本模糊問題。MOSSE追蹤器[11]首次將相關(guān)濾波器理論引入視覺跟蹤,通過基于灰度圖像學習最小誤差平方和濾波器。隨后提出了大量基于相關(guān)濾波器的跟蹤算法。已經(jīng)做出了相當大的努力來改進跟蹤性能,改進包括核化相關(guān)濾波器[12~13]、模型優(yōu)化方法[14]。
為了增強跟蹤的魯棒性并實現(xiàn)最先進的跟蹤性能,基于深度學習的方法已經(jīng)廣泛應用于視覺跟蹤領(lǐng)域,并且精度已經(jīng)取得了顯著的進步。例如,Danelljan 等[32]采用了基于區(qū)別性相關(guān)濾波器框架的深層卷積特征,而不是傳統(tǒng)手工制作的特征。馬等[33]利用不同層次卷積特征的性能特征進行視覺跟蹤,通過推斷每一層的最大置信度來實現(xiàn)從粗到細的翻譯估計。宋等[34]提出了一種魯棒的卷積殘差學習跟蹤方法,該方法將特征提取、響應圖生成和模型更新集成到一層卷積神經(jīng)網(wǎng)絡。李等[35]在暹羅網(wǎng)絡框架上引入了RPN(地區(qū)提案網(wǎng)絡),通過離線的端到端訓練網(wǎng)絡實現(xiàn)實時和最先進的跟蹤性能。
大多數(shù)跟蹤算法通常使用余弦窗口來減輕邊界效應,這限制了搜索窗口的區(qū)域并抑制了目標周圍的上下文信息。CACF框架的主要目標是獲得一個最佳濾波器w,用于所有由帶有滑動窗口的循環(huán)移位產(chǎn)生的訓練樣本D0,并且傅立葉域中循環(huán)矩陣的性質(zhì)可以用于最小化以下回歸公式:
其中數(shù)據(jù)矩陣D0表示矢量化圖像塊d0的所有循環(huán)移位,w 是學習的相關(guān)濾波器。回歸目標y是2D 高斯的矢量化圖像,λ1表示正則化權(quán)重參數(shù)。
上下文感知框架想要訓練一個對目標圖像塊具有高響應,對上下文圖像塊接近零響應的濾波器,通過將上下文塊作為正則項添加到標準公式中來實現(xiàn)(參見式(1))。
這里,λ1,λ2是正則化權(quán)重因子,參數(shù)λ2用于控制上下文補丁回歸為零。
在視覺跟蹤過程中,目標物體經(jīng)常容易遇到尺度變化。在本文的工作中,為了有效地處理尺度變化,本文引入了一種精確的尺度估計方法,基于檢測跟蹤框架上的區(qū)分相關(guān)濾波器。這是通過在比例金字塔上訓練一個比例鑒別相關(guān)濾波器,然后根據(jù)最佳置信度框架估計比例來實現(xiàn)的。以目標為中心用于比例估計的圖像塊大小為
其中P 和R 分別表示當前幀中的寬度和高度,ɑ 表示比例因子,S 表示比例濾波器的大小。目標是獲得最佳尺度相關(guān)濾波器h。這是通過最小化以下目標函數(shù)來實現(xiàn)的:
其中g(shù) 表示期望的相關(guān)輸出,l 表示特征的維數(shù),λ是規(guī)則系數(shù)。上述頻域解決方案由以下公式給出:
其中G 和F 代表復雜的共軛。為了獲得準確的結(jié)果,式(8)中H1的分母分別更新如下:
3.3.1 自適應特征融合方法
本文從目標對象中提取了一些特征,如手工制作的特征,如(HOG、顏色直方圖),分層卷積特征,如(VGGNet中的conv5-4和conv4-4層)。首先,本文線性加權(quán)每個層次卷積特征:
Response_deep1 和 response_deep2 分 別 是對應于conv5-4 和conv4-4的響應值。
其中fuse_r1 和fuse_r2 分別是深度特征和手工特征的權(quán)重。由于深度特征具有比手工特征更高的辨別性能,因此深度特征的權(quán)重更高,手工特征的權(quán)重相對更低。
3.3.2 自適應模型更新方法
當目標遇到復雜的外觀變化時,如遮擋、光照變化和視線之外。這些長期積累的信息將直接影響后續(xù)序列的跟蹤質(zhì)量,然后影響整個跟蹤模型并導致跟蹤漂移。為此本文提出了一種有效的模型更新機制。PSR定義如下:
其中G(x)是計算的響應圖。Gmax(x)是響應圖G(x)的峰值。s1是峰值周圍的峰值旁瓣區(qū)域,這是本文中響應圖面積的15%,μs1和σs1是旁瓣面積的平均值和標準偏差。
圖1 顯示了PSR 平均值的跟蹤結(jié)果,本文知道目標對象經(jīng)歷了顯著的外觀變化,峰值越尖銳,模型噪聲越少,滿足更新條件,其中平均PSR 值大于響應峰值,應該考慮模型更新。
圖1 PSR平均值分布
本文算法與14 種最先進的追蹤器進行比較,包括使用手工制作的特征(即LMCF[14]、SRDCF[27]、START _ CA[26]、START[7]和 ECO-HC[31]以及使用深度特征(即 UCT[37]、CREST[34]、DeepSRDCF[32]、DeepLMCF[14]流行的跟蹤基準數(shù)據(jù)集[20~21]。該數(shù)據(jù)集由50 個視頻和100 個帶有11 種不同屬性的視頻全注釋視頻序列組成,以便于分別進行跟蹤分析和評估。本文使用[20]中提供的三個指標評估OTB-50 和 OTB-100 上的 13 個跟蹤器,并使用距離精度(DP)和重疊成功率(OS)報告跟蹤結(jié)果。距離精度(DP),顯示其估計中心位置在地面真相給定閾值距離內(nèi)的幀的百分比;重疊成功圖。圖2 說明了所提出的算法在OTB-50 基準數(shù)據(jù)集上的距離精度(DP)、重疊成功圖(OS)方面比13 種最先進的方法表現(xiàn)得好得多。所提出的跟蹤器性能良好,DP 為82.7%,OS為59.5%,其中平均DP 為82.7,超過了最近的最新跟蹤器,結(jié)果證明了利用所提出的方法從強大的超特征中訓練更多的辨別性跟蹤器的重要性。圖3 說明了所提出的算法在OTB-100 基準數(shù)據(jù)集上的距離精度(DP)、重疊成功圖(OS)方面比13 種最先進的方法表現(xiàn)得好得多。所提出的跟蹤器性能良好,DP 為86.6%,OS 為64.2%,其中平均DP為86.6。這些跟蹤結(jié)果進一步證明了所提出方法的有效性。
圖2 本文算法與其他算法比較1
在本節(jié)中,本文使用OTB-2015 數(shù)據(jù)集上的11個帶注釋的不同屬性,進一步評估了建議跟蹤器的跟蹤性能:光照變化(IV)、比例變化(SV)、遮擋(OCC)、變形(DEF)、運動模糊(MB)、快速運動(FM)、面內(nèi)旋轉(zhuǎn)(IPR)、面外旋轉(zhuǎn)(OPR)、視野外旋轉(zhuǎn)(OV)、背景雜波(BC)、低分辨率(LR)。由于頁面有限,本文只報告7 個屬性結(jié)果的重疊成功圖,借助于自適應模型更新方法,該算法對快速運動、運動模糊、視野外、平面內(nèi)旋轉(zhuǎn)和旋轉(zhuǎn)外的場景表現(xiàn)出更強的魯棒性,并且超特征融合對目標外觀變化保持了強大的辨別能力。
圖3 本文算法與其他算法比較2
本文提出了一種有效的自適應超特征融合方法,用于魯棒視覺跟蹤。本文在響應級別線性融合了多個強大的特征,如HOG、顏色直方圖和層次卷積特征。本文框架通過提出的自適應融合方法充分利用了不同特征的優(yōu)勢,實現(xiàn)了精確的平移估計。引入輸出約束傳遞方法來控制響應圖遵循高斯分布,以處理目標外觀變化。為了減輕噪聲更新引起的模型漂移,提出了一種有效的自適應模型更新方法,以確??煽康母?。