萬 欣,張春輝,張 琳,周 凡
WAN Xin1,ZHANG Chunhui2,3,ZHANG Lin1,ZHOU Fan1
1.上海海事大學(xué) 信息工程學(xué)院,上海 201306
2.中國科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100049
3.中國科學(xué)院信息工程研究所 信息安全國家重點實驗室,北京 100093
1.College of Information Engineering,Shanghai Maritime University,Shanghai 201306,China
2.School of Cyber Security,University of ChineseAcademy of Sciences,Beijing 100049,China
3.State Key Laboratory of Information Security,Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China
視覺跟蹤是計算機(jī)視覺研究領(lǐng)域的一個前沿方向,其在智能監(jiān)控、機(jī)器人視覺、人機(jī)交互、虛擬現(xiàn)實等眾多富有挑戰(zhàn)性的場景中都起到了關(guān)鍵性的作用。自從Bolme等人[1]提出MOSSE算法以來,相關(guān)濾波器(Correlation Filter,CF)已被廣泛認(rèn)可為解決視覺跟蹤問題的一種穩(wěn)健且有效的方法。目前基于CF的跟蹤器在OTB-50[2]、OTB-100[3]、UAV123[4]、TC-128[5]、ALOV300++[6]、VOT2015[7]等當(dāng)前主流基準(zhǔn)測試中排名都非??壳埃瑫r保持較高的計算效率。
現(xiàn)在對CF跟蹤器的改進(jìn)主要包括納入kernels[8]和HOG[9]特征,添加color name特征或color直方圖[10],集成稀疏跟蹤器[11],采用自適應(yīng)尺度[12],緩解邊界效應(yīng)[13]以及與深度CNN特征[14]整合。目前的研究重點是解決CF跟蹤器固有的缺陷,即擴(kuò)大其適用范圍。Liu等人[15]提出基于部分的跟蹤技術(shù)以降低對部分遮擋的敏感度,并更好地保留對象結(jié)構(gòu)。Ma等人[16]提出通過關(guān)聯(lián)時間上下文和訓(xùn)練在線隨機(jī)蕨叢分類器進(jìn)行重新檢測,實現(xiàn)對外觀變化場景長期的穩(wěn)健跟蹤。Zhu等人[17]提出了一種協(xié)同CF跟蹤器,它結(jié)合了一個多尺度的核化CF來處理在線CUR濾波器的尺度變化,以解決目標(biāo)漂移的問題。該方法通過結(jié)合外部分類器來輔助CF或利用其高計算速度來同時運行多個CF跟蹤器以提高性能。Sui等人[18]提出了一種新的峰值強(qiáng)度指標(biāo)來度量學(xué)習(xí)到的相關(guān)濾波器的判別能力,可以有效地增強(qiáng)相關(guān)響應(yīng)的峰值,使得濾波器具有更強(qiáng)的辨別能力。Dinh等人[19]在相關(guān)研究中嘗試了使用上下文進(jìn)行跟蹤,使用順序隨機(jī)森林、非線性模板外觀模型和局部特征來檢測無關(guān)上下文和跟蹤目標(biāo)。此外,Xiao等人[20]在最近的工作中,通過場景上下文信息的多層次聚類檢測相似物體和干擾物體,然后經(jīng)過在線學(xué)習(xí)獲得全局動態(tài)約束,實現(xiàn)無關(guān)區(qū)域與感興趣目標(biāo)的區(qū)分。然而,這些跟蹤器普遍存在的缺陷是沒有很好的泛化能力。
最近的研究發(fā)現(xiàn),通過修改用于訓(xùn)練的常規(guī)CF模型,可以直接克服其中一些固有的局限性。例如,通過將CF跟蹤器中的嶺回歸作為目標(biāo)響應(yīng)的一部分,Bibi等人[21]的工作顯著降低了跟蹤目標(biāo)漂移帶來的影響,同時保持較高的計算效率。Mueller等人[22]提出了(Context-Aware,CA)框架,該框架可以與許多經(jīng)典的CF跟蹤器進(jìn)行集成。但是CA框架所存在的最大缺陷是未對上下文環(huán)境信息進(jìn)行細(xì)化處理,即CA框架同等地對待目標(biāo)對象鄰域內(nèi)的整個上下文區(qū)域,認(rèn)為整個上下文區(qū)域?qū)Ω櫟呢暙I(xiàn)相同,削弱了全局上下文在目標(biāo)檢測中的重要作用。在現(xiàn)實情景中,上下文環(huán)境普遍包含十分復(fù)雜的信息,有目的性地對不同的區(qū)域進(jìn)行細(xì)化,將有利于提高算法的健壯性。為了充分發(fā)揮全局上下文的作用,本文運用動態(tài)分區(qū)的思想,根據(jù)上下文中不同區(qū)域與追蹤目標(biāo)運動相似度大小,對不同區(qū)域賦予不同的權(quán)值,提出基于加權(quán)全局上下文感知(Weighted Global Context-Aware,WGCA)框架的相關(guān)濾波視覺跟蹤算法。通過利用加權(quán)全局上下文信息,WGCA框架與經(jīng)典的跟蹤器SAMF[23]相結(jié)合的SAMFWGCA算法,可以獲得比大多數(shù)主流的跟蹤器更好的跟蹤結(jié)果(見圖1)??梢园l(fā)現(xiàn),它的跟蹤效果甚至優(yōu)于新近提出的HCFT[24]跟蹤器,實際上HCFT算法的分層卷積特征中已經(jīng)隱含了上下文環(huán)境的信息。
圖1 SAMFWGCA與其他跟蹤器效果截圖
本文的主要創(chuàng)新和貢獻(xiàn)點如下:
(1)提出了基于加權(quán)全局上下文感知的視覺跟蹤框架,可以被廣泛地應(yīng)用于目前主流的CF視覺跟蹤器。
(2)通過求閉式解可以使集成的CF跟蹤器保持較高的運算效率,同時顯著提高它們的性能。
(3)在主流數(shù)據(jù)集上的測試結(jié)果表明提出的加權(quán)全局上下文感知框架是有效的。同時,也對所提出的WGCA框架做了魯棒性方面的評估,進(jìn)一步驗證了該框架出色的性能。
傳統(tǒng)CF跟蹤器[25]的核心是使用判別學(xué)習(xí)。目標(biāo)是學(xué)習(xí)連續(xù)幀中的感興趣區(qū)域以推斷目標(biāo)的位置,即濾波器響應(yīng)最大的位置[26],并得到判別相關(guān)濾波器w。CF跟蹤器被廣泛使用和成功的關(guān)鍵因素是其采用的抽樣方法[27]。基于相關(guān)濾波的CF跟蹤器本質(zhì)上是采用密集采樣策略,由于計算能力的限制,通常的做法是在目標(biāo)周圍隨機(jī)挑選有限數(shù)量的負(fù)樣本。采樣策略的復(fù)雜性和負(fù)樣本的數(shù)量可能會對跟蹤性能產(chǎn)生重大影響。CF跟蹤器可以在目標(biāo)周圍進(jìn)行密集采樣,并且只需付出較低的計算成本,這是通過將目標(biāo)在搜索窗口內(nèi)的所有可能的變換建模為循環(huán)移位,并將它們連接以形成數(shù)據(jù)矩陣A0來實現(xiàn)的。該矩陣的循環(huán)結(jié)構(gòu)有助于求解傅里葉域中的以下嶺回歸問題:
式中,矢量w表示相關(guān)濾波器;方陣A0包含矢量化圖像塊a0的所有循環(huán)移位。記上述回歸目標(biāo)為y,其為二維高斯矢量化圖像。
如果X是循環(huán)矩陣,對其進(jìn)行下面的變換將可以快速求解方程(1):
其中,向量X的共軛為X?;用表示X的傅里葉變換FHX,F(xiàn)是DFT矩陣。
由于式(1)的目標(biāo)函數(shù)為凸函數(shù),且具有唯一的全局最小值,通過使其梯度值等于0可以得到濾波器的閉式解:又因為A0是循環(huán)矩陣,所以可以在傅里葉域中按照式(2)進(jìn)行對角化和矩陣求逆有效地求出原始域中的解為:
最大響應(yīng)的位置是搜索窗口內(nèi)的目標(biāo)所在位置,因此原始域中的檢測公式由下式給出:
其中,濾波器w為搜索窗口,即圖像塊z的卷積;Z為圖像塊的循環(huán)矩陣。
式(1)也可以使用對偶域變量α在對偶域中求解。通過變換,對偶域中的閉式解可表示為α=類似于原始域,它可以在傅里葉域中被有效地求解,對偶域內(nèi)的解為:
該解可以通過雙積函數(shù)來表示,并且可以在對偶域中使用核技巧進(jìn)行計算。通過把對偶域變量α表示為原始變量,可以直接用于目標(biāo)檢測。由此,可以得到以下對偶域中的檢測公式:
根據(jù)運動相似度把全局上下文分為4類,包括目標(biāo)區(qū)域、支撐區(qū)域、無關(guān)區(qū)域及干擾區(qū)域[28]。目標(biāo)區(qū)域是跟蹤對象所在的區(qū)域;支撐區(qū)域是與跟蹤對象的運動方向基本一致或相同的那些區(qū)域;無關(guān)區(qū)域是指始終靜止不動的背景區(qū)域;干擾區(qū)域是指與跟蹤對象的運動方向偏差很大甚至截然相反,以及出現(xiàn)遮擋的那些區(qū)域。
圖2給出了一個完整的全局上下文區(qū)域劃分的示意圖。其中圖像的顏色深度值代表所在區(qū)域與其他區(qū)域相似度的大小,深度值相同的區(qū)域為同一區(qū)域,并且兩個區(qū)域的顏色深度值相差越大,說明它們的運動方向差異越大。中間高亮的區(qū)域代表跟蹤目標(biāo)。圖中的字母表示根據(jù)不同區(qū)域運動相似度劃分得到的分區(qū)結(jié)果。從圖中可以得出E區(qū)域為目標(biāo)區(qū)域,A和C區(qū)域為支撐區(qū)域,B、F及G區(qū)域是無關(guān)區(qū)域,D和H區(qū)域為干擾區(qū)域。仔細(xì)觀察各個區(qū)域邊界可以發(fā)現(xiàn),這4類區(qū)域的形狀并不是固定的,相互之間也沒有顯著的空間界限。同時,由于上下文區(qū)域的動態(tài)性,各區(qū)域的劃分在跟蹤過程中是隨時間動態(tài)變化的,即存在所謂的時間上下文[29]的概念。在視頻中相連的幀序列,跟蹤目標(biāo)自身所在區(qū)域也可能劃分到不同區(qū)域中,例如當(dāng)目標(biāo)快速移動時,上一幀的目標(biāo)區(qū)域會變成支撐區(qū)域,曾經(jīng)的無關(guān)區(qū)域也可能變?yōu)橹螀^(qū)域,特定情況下甚至轉(zhuǎn)變成目標(biāo)區(qū)域;當(dāng)視頻的某一幀發(fā)生遮擋時,原來的目標(biāo)區(qū)域中的被遮擋部分就變成了干擾區(qū)域。
圖2 全局上下文區(qū)域劃分圖
跟蹤對象的周圍環(huán)境可能會對跟蹤性能產(chǎn)生很大影響[30]。例如,如果背景混亂,那么背景對于跟蹤成功與否將產(chǎn)生十分重要的影響。Mueller等人[22]在最新的工作中提出了在學(xué)習(xí)階段向過濾器添加上下文信息的CF跟蹤框架CA。
基于CA框架的跟蹤器在每一幀中,根據(jù)hard negative mining[31]采樣策略對感興趣的對象a0∈?n和其周圍的k個上下文片段ai∈?n進(jìn)行采樣。它們所對應(yīng)的循環(huán)矩陣分別為A0∈?n×n和Ai∈?n×n。這些上下文區(qū)域可被視為hard negative樣本。它們包含各種干擾因素和不同形式的全局背景。本文要解決的問題是求一個相關(guān)濾波器w∈?n,該濾波器對目標(biāo)區(qū)域有較高的反饋,對上下文區(qū)域反饋極低。通過將上下文區(qū)域作為正則項添加到式(1)中的嶺回歸問題獲得新的回歸目標(biāo)。最終,將標(biāo)準(zhǔn)公式(式(1))中的目標(biāo)區(qū)域回歸為y(式(7)),而無關(guān)上下文區(qū)域則由參數(shù)λ2控制回歸為0。
在CA框架中,要學(xué)習(xí)的全局上下文模型為式(7)中給出的數(shù)據(jù)矩陣A0。本文針對CA框架對上下文信息利用不充分的問題,綜合考慮目標(biāo)周圍上下文環(huán)境中不同區(qū)域?qū)Ω櫮繕?biāo)的貢獻(xiàn)權(quán)值,提出WGCA框架。因此,上述數(shù)據(jù)矩陣被重新定義為:
其中,B為加權(quán)全局上下文感知模型的數(shù)據(jù)矩陣;W為上下文對應(yīng)的權(quán)值矩陣,下文將會詳細(xì)介紹權(quán)值矩陣的計算方法。
本文提出的基于WGCA框架的視覺跟蹤算法的整體運算步驟如下:
步驟1初始化全部所需的參數(shù)。
步驟2計算填充后的目標(biāo)邊界框的大?。挥酶咚购瘮?shù)表示與邊界框大小成正比的回歸目標(biāo);用漢寧窗法計算余弦窗值;創(chuàng)建視頻界面。
步驟3從第1幀圖像到第T幀圖像,執(zhí)行改進(jìn)的相關(guān)濾波算法。
步驟3.1獲取第1幀圖像的目標(biāo)邊界框,在新的目標(biāo)估計位置進(jìn)行訓(xùn)練。選取目標(biāo)區(qū)域周圍的k個上下文環(huán)境,計算相應(yīng)的權(quán)值矩陣(具體見3.3.3小節(jié))。計算出第1幀圖像在傅里葉域內(nèi)的閉式解,作為濾波器模型的初始化。
步驟3.2從第2幀圖像開始,從上一幀目標(biāo)的位置獲得目標(biāo)邊界框,并變換到傅里葉域。把相關(guān)濾波器反饋最大的區(qū)域作為目標(biāo)的估計位置。獲取目標(biāo)邊界框,在新的目標(biāo)估計位置進(jìn)行訓(xùn)練。選取目標(biāo)區(qū)域周圍的k個上下文環(huán)境,計算相應(yīng)的權(quán)值矩陣(具體見3.3.3小節(jié))。計算在傅里葉域內(nèi)的閉式解。采用線性插值的方法更新濾波跟蹤器。
步驟3.3保存上述兩個步驟的目標(biāo)邊界框的位置坐標(biāo)和運算時長;同時可視化濾波跟蹤視頻界面。
步驟4輸出濾波跟蹤器的中心位置誤差、幀率、邊界框重疊率;繪制成功率圖、精度圖等。
3.3.1 上下文權(quán)值矩陣
根據(jù)上下文環(huán)境中不同區(qū)域的物體的運動方向與目標(biāo)中心的運動方向之間的相似度,來決定哪些區(qū)域?qū)Ω櫮繕?biāo)的定位起到更加關(guān)鍵的作用。那些與目標(biāo)運動相似度比較高的支撐區(qū)域的作用通常比較大,應(yīng)該賦予相對較高的權(quán)重,而那些無關(guān)區(qū)域和干擾區(qū)域,幾乎不提供有用的跟蹤信息,則賦予相對較小的權(quán)值,最終形成一個與上下文環(huán)境作用大小一致的權(quán)值矩陣。為了獲取上下文環(huán)境中所有像素的運動信息,根據(jù)光流跟蹤算法的結(jié)果來推算視頻上一幀和下一幀對應(yīng)點的位移,進(jìn)而計算出運動軌跡。按Lucas-Kanade[32]稀疏光流算法獲得離散點的權(quán)重,最后通過插值獲得整個上下文環(huán)境的權(quán)值矩陣。
3.3.2 跟蹤特征點的選擇
特征點的選擇對光流跟蹤來說是十分重要的。根據(jù)對相關(guān)文獻(xiàn)的分析,通常被選用的特征點有Harris角點[33]、Goodfeaturestotrack特征點[34]、SIFT特征點[35]、SURF特征點[36]和隨機(jī)像素特征點[37]等。根據(jù)對上述特征點的總體性能進(jìn)行分析,發(fā)現(xiàn)Harris角點在處理時間上具有明顯的優(yōu)勢,并且可以獲得足夠數(shù)量的特征點,它的跟蹤性能十分優(yōu)異,跟蹤穩(wěn)定性也能被確保。因此,進(jìn)行Lucas-Kanade稀疏光流跟蹤時使用Harris角點作為特征點。
3.3.3 權(quán)值矩陣計算步驟
利用光流跟蹤獲得第t幀圖像全局上下文環(huán)境的權(quán)值矩陣Wt的計算步驟如下:
輸入:視頻的第t-1幀和第t幀,尺度參數(shù)γ。
輸出:全局上下文權(quán)值矩陣Wt。
步驟1讀入視頻序列,在第t-1幀提取一定數(shù)量的Harris角點,即
步驟2根據(jù)Lucas-Kanade算法,得出第t幀中對應(yīng)的目標(biāo)跟蹤結(jié)果,即
步驟2.1刪除跟蹤產(chǎn)生的跟蹤錯誤點。
步驟3計算第t幀跟蹤目標(biāo)中心位置與全部Harris角點之間運動的相似度。
步驟3.1計算得到該幀跟蹤目標(biāo)中心位置和所有Harris角點的位移向量
步驟3.2把上面的位移向量改寫為極坐標(biāo),即是位移向量的極坐標(biāo)形式,和代表位移向量的長度和角度。dx和dy為位移向量在x軸、y軸方向的分量。arctan為反正切函數(shù),θ∈(-π,+π)。
步驟4計算目標(biāo)中心位置與Harris角點之間的距離。該距離定義為目標(biāo)中心位移向量與Harris角點位移向量之間的差,即:
3.3.4 相關(guān)濾波器特性分析
從3.3.3小節(jié)權(quán)值矩陣計算步驟可知,本文提出的基于WGCA框架的相關(guān)濾波器有以下特性:因為支撐區(qū)域、目標(biāo)區(qū)域內(nèi)的像素與跟蹤目標(biāo)中心坐標(biāo)的距離相對較小,所以支撐區(qū)域和目標(biāo)區(qū)域內(nèi)的像素能夠得到相對較高的權(quán)重(見圖3),即濾波器對支撐區(qū)域、目標(biāo)區(qū)域?qū)⒂休^高的反饋。反之,處于干擾區(qū)域、無關(guān)區(qū)域內(nèi)的像素,其最終的權(quán)重就小得多,即濾波器對干擾區(qū)域和無關(guān)上下文區(qū)域的響應(yīng)較小。圖3(b)是WGCA跟蹤算法執(zhí)行過程中在圖3(a)所在幀中計算得到的上下文權(quán)值矩陣?;叶仍綔\表示權(quán)值越高,相應(yīng)地濾波器對此區(qū)域的反饋越大??梢娔切┡c目標(biāo)運動相似度高的支撐區(qū)域、目標(biāo)區(qū)域都有較高的權(quán)值,即得到了較大的反饋。
圖3 加權(quán)全局上下文環(huán)境及對應(yīng)的權(quán)值矩陣
3.4.1 原始域中的解
式(7)中的原始目標(biāo)函數(shù)fp可以通過在目標(biāo)區(qū)域上疊加加權(quán)全局上下文信息,得到新的數(shù)據(jù)矩陣B∈?(k+1)n×n,新的回歸目標(biāo)∈?(k+1)n。
其中:
由于fp(w,B)是凸函數(shù),可以通過令其梯度為0來使其最小化,從而得到:
類似于式(1)中的CF跟蹤器,按照式(2)在傅里葉域中做變換得到以下閉式解[38]:
它與式(4)所定義的標(biāo)準(zhǔn)公式本質(zhì)上是一致的。
3.4.2 對偶域中的解
可以看出式(9)表示的原始域中的解與標(biāo)準(zhǔn)嶺回歸問題的解的形式完全相同。因此,CF跟蹤器在對偶域中的解可由下式給出:
使用循環(huán)矩陣的恒等式得到:
其中,向量djl,j,l∈{1,2,…,k},由下式給出:
上式可以使用核技巧,因為圖像塊之間的所有相互作用都是同時發(fā)生的。從而線性相關(guān)性可以簡單地由傳統(tǒng)核化CF跟蹤器的核相關(guān)性來代替。
所有的圖像塊矩陣都是對角的,因此系統(tǒng)分解為尺寸為?(k+1)×(k+1)的n個小系統(tǒng)。這顯著降低了復(fù)雜性,且可以實現(xiàn)并行計算。不再是通過求解?(k+1)n×(k+1)n維的高維系統(tǒng)來計算α?,而是對α的每個像素p∈{1,2,…,n}求解一個單獨的系統(tǒng),結(jié)果如下式所示:
由此式(6)中對偶域的檢測公式可以根據(jù)上面的公式改寫為rd(α,B,Z)=ZBTα。它與標(biāo)準(zhǔn)公式相似,但除了目標(biāo)之外,B還包含加權(quán)全局上下文信息。又因為α∈?(k+1)n由對偶變量{a0,a1,…,ak}組合而成,按照式(2)進(jìn)行對角化變換,傅里葉域中的檢測公式可以重寫為:
3.5.1 原始域中的解
因為多通道特征通??梢员葐瓮ǖ捞卣鳎ɡ缁叶葟?qiáng)度)提供更豐富的目標(biāo)表示,所以將式(7)推廣到多通道特征并學(xué)習(xí)所有特征維度m的聯(lián)合濾波器是很重要的??梢圆捎门c單通道特征(式(12))類似的方式重寫多通道原始目標(biāo)函數(shù)但有以下不同:現(xiàn)在包括作為行的目標(biāo)和上下文區(qū)域以及作為列的相應(yīng)特征。用不同特征尺度的濾波器被堆疊成∈?nm。
最小化式(18)與單通道情況類似可得:使用循環(huán)矩陣的恒等式得到:
對于每個特征維度i,l∈{1,2,…,m}的跟蹤目標(biāo)和上下文圖像區(qū)域分別用a0j和aij表示。那么塊被定義為:
但是這個系統(tǒng)不像單通道情形(式(15))那樣能夠有效地求逆。然而所有塊都可以表示為對角矩陣,因此系統(tǒng)可以分解成n個尺度為?m×m的較小系統(tǒng),通過并行計算可以顯著降低計算復(fù)雜度。類似于式(15),對于濾波器的每個像素p∈{1,2,…,n}可求解一個單獨的系統(tǒng)。
多通道特征原始域內(nèi)的檢測公式與式(4)中的標(biāo)準(zhǔn)公式幾乎相同,區(qū)別在于圖像塊z和學(xué)習(xí)的濾波器w是m維的。
3.5.2 對偶域中的解
與單通道特征的情況類似,多通道原始域中的解(式(19))與標(biāo)準(zhǔn)嶺回歸問題的解具有完全相同的形式,在對偶域中可以得到以下解:
再次,由循環(huán)矩陣(方程(2))的恒等式可得:
可以發(fā)現(xiàn),上述線性系統(tǒng)與單通道特征的對偶域內(nèi)的解(第3.4.2小節(jié))的情況相似,只是現(xiàn)在要沿特征維度m進(jìn)行一次求和。該解還能夠使用核技巧、線性系統(tǒng)按照與單通道情況(式(16))相同的方式進(jìn)行求解。
多通道特征對偶域內(nèi)的檢測公式和單通道特征對偶域內(nèi)的情況類似,其差別在于和?(k+1)n×nm現(xiàn)在具有多個特征維度列:對角化后進(jìn)行重新改寫,傅里葉域中的檢測公式最終簡化為:
本文推導(dǎo)了濾波器在單通道特征、多通道特征和原始域、對偶域所有可能情形的閉式求解方法。在原始域單通道特征的情況下,該解僅包含基于元素的操作,并且實現(xiàn)是低代價的。在對偶域單通道特征情況下,需要對n個尺度為(k+1)×(k+1)的小系統(tǒng)進(jìn)行求逆。它們中的每一個都可以改寫為外積的形式,并且可以使用Sherman-Morrison[39]公式進(jìn)行反演運算,從而可以非常有效地求解。
由于多通道情形的解包含原始域和對偶域的總和,不能將其改寫為外積的形式。如果要求解的系統(tǒng)較小,則可以精確地求解。求解的復(fù)雜性取決于在原始域情況下選擇的特征維數(shù)m或在對偶域情況下上下文區(qū)域的數(shù)量k??傮w來說,求解n個小系統(tǒng)的復(fù)雜性較低,并且是系統(tǒng)密集的。如果m或k足夠小,那么直接求解這些系統(tǒng)會非常高效。如果求解的系統(tǒng)較大(原始域為nm×nm維,對偶域為(k+1)n×(k+1)n維),它們通常十分稀疏。當(dāng)m或k非常大時,則可以使用共軛梯度下降(CGD)[40]方法。對于原始域多通道特征,假設(shè)這m個特征是獨立的,當(dāng)使用HOG特征時,可以使用式(14)獨立高效地計算每個特征維度的濾波器。對于對偶域多通道特征情形,目標(biāo)區(qū)域和k個上下文區(qū)域通常也是相互獨立的,則問題可以轉(zhuǎn)化為類似于式(1)中多通道特征的正則嶺回歸問題,進(jìn)而有效地求解。
通過以上分析可知,本文提出的WGCA框架CF跟蹤算法可以采用求閉式解的方法,并且給出了各種特征在原始域和對偶域進(jìn)行組合的解。因此在實際應(yīng)用需求中,可以廣泛應(yīng)用于不同類型的主流CF視覺跟蹤器,從而提高它們的目標(biāo)跟蹤性能。
首先,將WGCA框架與4種經(jīng)典的CF跟蹤器進(jìn)行集成;然后,將它們與對應(yīng)的基準(zhǔn)版本跟蹤器、目標(biāo)自適應(yīng)跟蹤器以及CA跟蹤器進(jìn)行比較。此外還加入了一種加權(quán)時空上下文算法(Weighted Spatio-Temporal Context,WSTC)[28]進(jìn)行對比分析。為了進(jìn)行評估,在目前主流的跟蹤數(shù)據(jù)集OTB-100上進(jìn)行測試。
為了驗證本文提出的WGCA框架的性能,選擇了4種經(jīng)典的CF跟蹤器作為基準(zhǔn),表1總結(jié)了這幾種CF跟蹤器。本文將提出的WGCA框架應(yīng)用于上述4個基準(zhǔn)跟蹤器,將它們稱為MOSSEWGCA、DCFWGCA、SAMFWGCA和STAPLEWGCA。此外,將它們的目標(biāo)自適應(yīng)跟蹤器稱為MOSSEAT[41]、DCFAT[42]和SAMFAT[43]。把對應(yīng)的基于CA框架的目標(biāo)跟蹤算法稱為 MOSSECA、DCFCA、SAMFCA和STAPLECA。
表1 基準(zhǔn)CF跟蹤器
4.2.1 評估指標(biāo)
按照OTB-100中所定義的,首先使用以下兩種測評方法對跟蹤器進(jìn)行性能評估:精度(Precision)和成功率(Success Rate)。
中心位置誤差(Center Location Error,CLE)[2]是一種普遍使用的跟蹤精度評估指標(biāo),指的是跟蹤對象中心位置和基準(zhǔn)的平均歐氏距離。在一些文獻(xiàn)中提出采用精度圖(Precision Plot)[4,44]來衡量跟蹤算法的總體性能。精度圖曲線表示給定閾值后,估計坐標(biāo)和基準(zhǔn)坐標(biāo)的歐氏距離在閾值內(nèi)的視頻幀數(shù)的比例。通常閾值取20像素時,定義跟蹤器的精度[45]。
邊界框重疊率(Bounding Box Overlap)[2]是一種成功率度量的指標(biāo)。若記跟蹤器的邊界框為rt,基準(zhǔn)邊界框為ra,那么邊界框重疊率S通常被刻畫為S=其中?、?表征兩個子區(qū)域像素的并集、交集,|?|指像素點的統(tǒng)計數(shù)目。為度量追蹤器總體性能,需要統(tǒng)計重疊S不小于指定閾值t0時的成功幀的數(shù)目。成功率圖(Success Plot)上,跟蹤成功視頻幀所占比率取值0至1。新近比較主流的一個指標(biāo)是曲線下方面積(Area under Curve,AUC)[3],本文也將根據(jù)AUC曲線對追蹤器進(jìn)行性能度量及排序。
上面兩種度量方法都是根據(jù)基準(zhǔn)目標(biāo)的坐標(biāo)對第一幀進(jìn)行初始化,之后進(jìn)行視覺跟蹤得到精度和成功率。它們被統(tǒng)稱作一次性評估(One-Pass Evaluation,OPE)[46]。它們存在兩個主要不足:首先,特定跟蹤器也許對第一幀的初始位置比較敏感,在不同位置或者不同幀對算法進(jìn)行初始化可能對跟蹤效果產(chǎn)生巨大的影響;其次,一些跟蹤器丟失目標(biāo)之后不設(shè)置重新初始化的機(jī)制。因此,又提出了以下多種測評方法:時間魯棒性評估(Temporal Robustness Evaluation,TRE)[47]、空間魯棒性評估(Spatial Robustness Evaluation,SRE)[48]、一次性重評估(One-Pass Evaluation with Restart,OPER)[49]、空間魯棒性重評估(Spatial Robustness Evaluation with Restart,SRER)[50]。
接下來,本文將對WGCA跟蹤器從時間魯棒性和空間魯棒性兩個指標(biāo)進(jìn)行評估。時間魯棒性評估(TRE)從不同的幀作為起始進(jìn)行跟蹤,初始化采用的邊界框即為對應(yīng)幀人工標(biāo)注的邊界框,最后對這些結(jié)果取平均值,得到TRE分?jǐn)?shù)。空間魯棒性評估(SRE)把人工標(biāo)注框進(jìn)行多尺度擴(kuò)大與縮小和略微地平移來產(chǎn)生新的邊界框。平移的距離通常取跟蹤對象大小的10%,尺度變化的大小取人工標(biāo)注框的70%至110%,依次增長10%,最終SRE分?jǐn)?shù)被定義為它們的平均值。
4.2.2 參數(shù)設(shè)置
所有的基準(zhǔn)跟蹤器、自適應(yīng)目標(biāo)跟蹤器和CA跟蹤器均使用原作者提供的標(biāo)準(zhǔn)參數(shù)運行。為了公平比較,使用相同的參數(shù)運行WGCA跟蹤器。將正則化因子λ2設(shè)置為{2,25,0.4,0.5},并對 MOSSEWGCA、DCFWGCA、SAMFWGCA和STAPLEWGCA分別使用學(xué)習(xí)率為{0.025,0.015,0.005,0.015}的更新規(guī)則。將上下文區(qū)域k的數(shù)量設(shè)置為9,并在目標(biāo)周圍均勻采樣。為了增加全局上下文的魯棒性,對所有WGCA跟蹤器進(jìn)行了填充。
本文的實驗代碼在CA框架開源的Matlab代碼上進(jìn)行改寫而成[22],主要增加了基于光流跟蹤算法的全局上下文權(quán)值矩陣計算模塊。實驗中所有的跟蹤器都使用Matlab9.2進(jìn)行編程實現(xiàn)并且在同一臺PC(Intel?CoreTMi7-7820HQ CPU 2.90 GHz,16.0 GB RAM)上運行。
4.3.1 整體評估
圖4顯示了OTB-100上所有基準(zhǔn)跟蹤器及其自適應(yīng)目標(biāo)的上下文感知和加權(quán)全局上下文感知算法對應(yīng)的結(jié)果。WGCA框架改善了所有基準(zhǔn)跟蹤器的性能,隨著使用更復(fù)雜的特征,性能反而會降低。對于復(fù)雜的CF跟蹤器(SAMF)和基本的CF跟蹤器(MOSSE),WGCA框架較CA框架精度相對改進(jìn)為從{18.2%,3.6%}到{25.5%,11.0%},成功率的相對改進(jìn)為從{13.1%,6.3%}到{28.5%,19.0%}。此外,WGCA框架不僅超越基準(zhǔn),而且超過相應(yīng)的AT追蹤器(不適用于STAPLE[20])和CA跟蹤器。與自適應(yīng)目標(biāo)框架相比,這種性能增益的計算成本要低得多。WGCA框架跟蹤器的運行速度約為基準(zhǔn)的60%,但比AT版本的速度快1.3~2.0倍,與CA框架算法的運行速度相當(dāng)。
圖4 跟蹤器在OTB-100上的平均總體性能
表2展示了16個視覺跟蹤算法跟蹤的中心位置誤差(CLE)和幀率(FPS),這些算法分別是MOSSE、DCF、SAMF、STAPLE、MOSSECA、DCFCA、SAMFCA、STAPLECA、MOSSEAT、DCFAT、SAMFAT、WSTC、MOSSEWGCA、DCFWGCA、SAMFWGCA、STAPLEWGCA。從表中可以發(fā)現(xiàn),本文WGCA跟蹤器在OTB-100測試集的4個視頻Jumping、Human7、Car1和Skiing上均取得了最佳的跟蹤結(jié)果。同時,雖然基于CA框架的跟蹤器也有較高的準(zhǔn)確率,但是對于以上4個視頻集成WGCA框架的跟蹤器在犧牲較小效率的前提下,較CA框架跟蹤器的CLE分別降低了40.7%、35.0%、45.7%、46.9%。
4.3.2 運算效率評估
只從跟蹤幀率方面分析,上述改進(jìn)跟蹤器的目標(biāo)檢測速率都較基準(zhǔn)跟蹤器有不同程度的降低,但是這并未考慮它們在跟蹤精度方面帶來的效果提升。因此,下面考慮通過幀率誤差比C來評估跟蹤算法的運算效率。幀率誤差比C定義為C=FPS/CLE,其中FPS為視覺跟蹤器的平均幀速率,CLE表示中心位置誤差。幀率誤差比C綜合考慮了跟蹤器的運算速度指標(biāo)FPS和跟蹤精度指標(biāo)CLE對跟蹤算法性能的影響,是一個較好的視覺跟蹤算法運算效率評估指標(biāo)。
圖5給出了4個基準(zhǔn)跟蹤器,基于CA框架的目標(biāo)跟蹤器以及本文WGCA跟蹤器的幀率誤差比。從圖中可以看出,WGCA算法對4個基準(zhǔn)跟蹤器的運算效率提升均是最大的。但是隨著基準(zhǔn)跟蹤器復(fù)雜性的增加,運算效率提升的增益降低,出現(xiàn)這種情況因為后兩個跟蹤器采用了多尺度[22-23],WGCA框架對它們運算效率提升相對有限。基于CA框架的跟蹤器相對于基準(zhǔn)跟蹤器運算效率也有所提升,然而本文WGCA框架采用了求閉式解的方法,并且在實施Lucas-Kanade稀疏光流跟蹤時使用Harris角點作為特征點進(jìn)行快速計算,整體在運算效率方面更加具有優(yōu)勢。
圖5 跟蹤器運算效率比較圖
4.3.3 按屬性評估
本文提出的WGCA框架在大多數(shù)情況下提高了基準(zhǔn)跟蹤器的性能,并在某些情景下比其他情景獲得了更大的改進(jìn)。在快速運動(圖6(a))、運動模糊(圖6(b))、遮擋(圖6(c))和比例變化(圖6(d))的情況下,跟蹤器的性能得到了顯著的改進(jìn)。其中,快速運動指目標(biāo)的運動速度大于閾值;運動模糊指目標(biāo)區(qū)域由于目標(biāo)或相機(jī)的運動而模糊;遮擋指目標(biāo)部分或完全遮擋;比例變化指第一幀和當(dāng)前幀邊界框之比大于1。特別地,如果對象外觀急劇變化(例如比例變化、遮擋)或者背景與目標(biāo)相似(例如背景模糊)的情景,WGCA框架非常有效。此外,它在具有快速運動的視頻中也顯著提高了跟蹤器的性能。這主要是由于添加加權(quán)全局上下文充分利用了被搜索區(qū)域的信息。同樣值得注意的是,在大多數(shù)情況下,本文方法優(yōu)于自適應(yīng)目標(biāo)框架[22],該框架是專為提高快速運動場景跟蹤器的性能而設(shè)計的。
4.3.4 魯棒性評估
為了驗證本文提出的WGCA框架的魯棒性,采用時間魯棒性評估(TRE)和空間魯棒性評估(SRE)兩個評價標(biāo)準(zhǔn)進(jìn)行度量。實驗中將具有最佳性能的加權(quán)全局上下文感知CF視覺跟蹤器(SAMFWGCA和STAPLEWGCA)及其基準(zhǔn)(SAMF[23]和STAPLE[20])與新近提出的跟蹤器SOWP[51]、HCFT[52]和 MEEM[53]進(jìn)行了比較。此外,還選擇了不符合WGCA框架的目前主流CF跟蹤器DSST[54]、MUSTER[55]、SRDCF[13]進(jìn)行對比分析。DSST 與 SAMF非常相似,MUSTER采用長短期內(nèi)存策略,SRDCF在最近的跟蹤基準(zhǔn)測試中[13]排名第一,但不適用于WGCA框架。最后,與TLD[56]和經(jīng)典上下文跟蹤器CXT[19]進(jìn)行比較。如圖7所示,本文提出的STAPLEWGCA跟蹤器依然是這些視覺跟蹤算法中魯棒性最優(yōu)的。
表2 中心位置誤差(CLE)和幀率(FPS)
圖6 跟蹤器在OTB-100中4個屬性的平均性能
圖7 跟蹤器在OTB-100上的魯棒性評估
為了可視化本文提出的WGCA框架在跟蹤性能方面的效果,在圖8和圖9中展示了4個基準(zhǔn)算法MOSSE、DCF、SAMF、STAPLE與其對應(yīng)的加權(quán)全局上下文感知跟蹤算法 MOSSEWGCA、DCFWGCA、SAMFWGCA、STAPLEWGCA對來自O(shè)TB-100中的多個示例視頻進(jìn)行跟蹤比較的例子。大體上,這些視頻主要包括兩個場景:快速運動(Fast Motion)以及遮擋(Occlusion)。
從上述包含快速運動和遮擋兩個主要場景視頻的跟蹤效果圖上可以直觀地發(fā)現(xiàn),本文提出的WGCA框架能夠追蹤到目標(biāo),并且沒有出現(xiàn)明顯的偏移或目標(biāo)丟失的現(xiàn)象。同時,基于WGCA框架的CF跟蹤器明顯地提高了相應(yīng)基準(zhǔn)跟蹤器的視覺跟蹤精度。
圖8 OTB-100中包含F(xiàn)ast Motion的部分視頻跟蹤效果圖
圖8主要包含快速運動場景。第1行給出了視頻Car2的跟蹤效果圖,從#228幀、#368幀、#549幀、#793幀、#901幀可以明顯看出基準(zhǔn)跟蹤器出現(xiàn)了不同程度的偏移現(xiàn)象;第2行視頻Crossing的#5幀、#35幀、#78幀、#110幀、#120幀基準(zhǔn)跟蹤器依然出現(xiàn)了偏移;第3行視頻Surfer的#9幀、#72幀、#113幀、#177幀、#236幀基準(zhǔn)跟蹤器由于人的快速移動出現(xiàn)了目標(biāo)丟失的現(xiàn)象,由于WGCA框架可以利用人體上下文信息,其依然可以實現(xiàn)對目標(biāo)對象的魯棒跟蹤;第4行視頻Couple的#69幀由于車輛的出現(xiàn),基準(zhǔn)跟蹤器出現(xiàn)了偏移現(xiàn)象,#113幀由于人快速移動以及背景的改變,基準(zhǔn)跟蹤器出現(xiàn)了偏移和目標(biāo)丟失的現(xiàn)象。
圖9主要包含遮擋場景。第1行給出了視頻David3的部分跟蹤結(jié)果,#86幀、#190幀、#240幀中人在被路標(biāo)指示桿或樹遮擋的情況下,基準(zhǔn)跟蹤器出現(xiàn)了偏移甚至跟丟目標(biāo)的現(xiàn)象;第2行視頻Jump包含遮擋、快速移動、比例變化、背景模糊、復(fù)雜背景、目標(biāo)旋轉(zhuǎn)等多種因素,從#10幀、#42幀、#51幀、#72幀、#88幀可以看出,即使基準(zhǔn)跟蹤器把目標(biāo)跟丟,WGCA跟蹤算法依然能夠準(zhǔn)確地跟蹤到目標(biāo)對象;第3行視頻Skating1含有遮擋、背景復(fù)雜等場景,從#6幀、#154幀、#158幀、#167幀、#308幀可以發(fā)現(xiàn),基準(zhǔn)跟蹤器跟蹤結(jié)果出現(xiàn)較大偏差,但基于WGCA框架的算法的跟蹤效果并沒有受到影響;第4行視頻Walking2包含遮擋、比例變化、低分辨率等因素,受此影響在#190幀、#204幀、#223幀、#371幀圖像上基準(zhǔn)跟蹤器出現(xiàn)了丟目標(biāo)的現(xiàn)象,WGCA框架的跟蹤器由于充分利用了上下文信息,跟蹤效果依然非常好。
根據(jù)濾波器的單通道、多通道特征和原始域、對偶域的不同組合,運算系統(tǒng)的復(fù)雜性以及求解的最佳方法會有所不同。但是,仔細(xì)選擇矩陣求逆方法對于保持計算效率非常重要(參見3.5節(jié))。
此外,本文提出的WGCA框架還可以揭示目標(biāo)跟蹤過程中何時可能發(fā)生潛在的跟蹤故障。通常,數(shù)據(jù)項的能量可以用于表示幀與幀之間差異大小的指標(biāo)。直觀地說,這種能量從一幀到另一幀的劇烈變化可能表明跟蹤器出現(xiàn)漂移的情況,但是在實際中這可能不是產(chǎn)生這種變化的唯一原因。例如,由于光照變化、變形、遮擋等,該能量也可能在幾幀內(nèi)突然波動。因此,單獨的數(shù)據(jù)項不是目標(biāo)漂移的可靠度量。另一方面,式(7)給出的上下文項的能量也可以用來表征數(shù)據(jù)項的影響。在許多情況下,目標(biāo)的外觀變化不會影響上下文(例如比例變化、變形、遮擋等),因此幾個幀內(nèi)的兩個指標(biāo)(數(shù)據(jù)項和上下文項)的突然變化是跟蹤失敗或漂移的更可靠度量指標(biāo)。在視覺跟蹤過程中綜合考慮上述兩個指標(biāo)的作用可能有助于相關(guān)濾波跟蹤器從跟蹤故障中恢復(fù)過來。
本文提出了一個基于相關(guān)濾波器的視覺跟蹤通用框架WGCA,該框架以較低的計算代價將全局上下文整合到濾波器訓(xùn)練階段。主要思想為根據(jù)上下文中不同區(qū)域與追蹤目標(biāo)運動相似度大小,把上下文分成4類:目標(biāo)區(qū)域、支撐區(qū)域、無關(guān)區(qū)域及干擾區(qū)域。采用光流法計算得到全局上下文權(quán)值矩陣,整合到CA框架的數(shù)據(jù)矩陣中,從而得到本文最終的WGCA框架。該框架可以輕松地與大多數(shù)CF跟蹤器進(jìn)行集成,可以充分發(fā)揮支撐區(qū)域的作用,同時降低干擾區(qū)域的影響,實現(xiàn)了魯棒視覺跟蹤的目標(biāo)。大量實驗表明,WGCA框架改善了所有測試的CF跟蹤器的跟蹤性能,并且擁有較高的計算效率。同時,通過實驗進(jìn)行評估,得出了WGCA框架最有效的幾個場景:全部或部分遮擋,比例變化,背景模糊,快速運動。下一步研究將從以下兩方面進(jìn)行:融合目標(biāo)自適應(yīng)框架;采用深度學(xué)習(xí)的方式對上下文環(huán)境進(jìn)行特征提取,以得到對全局上下文更加精確的權(quán)值矩陣表示。