王洪雁,邱賀磊,裴騰達
(大連大學(xué) 信息工程學(xué)院,遼寧 大連 116622)
目標(biāo)跟蹤是計算機視覺領(lǐng)域的研究方向之一,其在視頻監(jiān)控、自動駕駛、人機交互等方面具有廣泛應(yīng)用。近年來,視覺跟蹤方法取得顯著進步,許多高效、魯棒的跟蹤算法被提出[1-3]。然而,許多具有挑戰(zhàn)性的問題仍未得到有效解決,如光照變化、尺度變化、遮擋及背景雜波等,從而導(dǎo)致跟蹤算法的性能顯著下降。
為改善復(fù)雜場景下視覺跟蹤性能,WANG等[4]提出用于模板更新的非負(fù)字典學(xué)習(xí)方法,將最近所得跟蹤結(jié)果融合以產(chǎn)生魯棒性較好的模板,進而利用該模板實現(xiàn)目標(biāo)精確跟蹤。然而,當(dāng)存在復(fù)雜的背景雜波時,該算法難以有效地區(qū)分目標(biāo)與相似背景。針對此問題,XIE等[5]對目標(biāo)及鄰近背景的外觀信息編碼,利用樣本訓(xùn)練判別模型提高字典的判別能力,改善跟蹤性能。然而,由于目標(biāo)及鄰近背景位置選取的樣本存在共同特征,從而導(dǎo)致字典的判別能力顯著降低。針對此問題,WEN等[6]同時利用類內(nèi)信息和類間相關(guān)性學(xué)習(xí)類內(nèi)和共享字典,則類內(nèi)字典具有較強的獨立性,使得所構(gòu)建字典具有較強的判別能力。然而,該算法未考慮遮擋或噪聲等干擾,使其易受異常值影響而導(dǎo)致跟蹤漂移。基于此問題,SUI等[7]構(gòu)造子空間表示目標(biāo)及鄰近背景,并提出一種判別準(zhǔn)則以提高字典的判別能力。此外,該方法使用稀疏誤差項補償損壞樣本以提高算法對遮擋或噪聲等的魯棒性。然而,該方法使用有偏的l1范數(shù)懲罰誤差矩陣,其可能過度懲罰較大變量而導(dǎo)致優(yōu)化問題獲得次優(yōu)解[8-10],進而影響目標(biāo)跟蹤精度。針對此問題,文獻[10]利用近乎無偏的極大極小凹加函數(shù)懲罰誤差矩陣,以克服l1范數(shù)對誤差矩陣不平衡懲罰。然而,該非凸約束方法并未被有效應(yīng)用于視覺跟蹤領(lǐng)域。
針對上述問題,筆者提出一種目標(biāo)跟蹤方法。該方法考慮了目標(biāo)的時空局部相關(guān)性。時間局部相關(guān)表明目標(biāo)之間在時域上具有顯著局部相關(guān)性;空間局部相關(guān)表明背景與目標(biāo)的空間距離越近,目標(biāo)與背景的相關(guān)性越強?;诖?,根據(jù)最近若干幀的跟蹤結(jié)果選取目標(biāo)樣本,并在目標(biāo)位置周圍采樣確定背景樣本。針對目標(biāo)及背景字典中具有共同特征的原子,在判別字典學(xué)習(xí)模型中施加字典不一致約束項,使目標(biāo)及背景字典更具獨立性,從而提高字典的判別能力。針對遮擋或噪聲等問題,在所提算法中加入可捕獲異常值的誤差項以有效減少異常值影響,從而提高算法的魯棒性。另外,使用極大極小凹加范數(shù)懲罰稀疏編碼矩陣和誤差矩陣,以避免對一些較大變量過度懲罰而導(dǎo)致次優(yōu)解,提高目標(biāo)跟蹤精度。針對所構(gòu)建的非凸判別字典優(yōu)化問題,使用基于優(yōu)化最小化(Majorization-Minimization, MM)的不精確增廣拉格朗日乘子(Inexact Augmented Lagrange Multiplier, IALM)方法求解該問題,以獲得較好的收斂性。基于所得最優(yōu)判別字典計算候選目標(biāo)的重構(gòu)誤差以構(gòu)建目標(biāo)觀測模型,并基于貝葉斯推理框架以實現(xiàn)目標(biāo)的精確跟蹤。
首先描述所提判別字典學(xué)習(xí)模型,而后介紹所得非凸判別字典優(yōu)化問題的求解方法,并分析算法的收斂性及計算復(fù)雜度,最后給出初始化方法及字典更新方法。
給定訓(xùn)練樣本集Xi∈Rd×qi,i=1,2,其中d表示各訓(xùn)練樣本的特征維度,qi為第i類訓(xùn)練樣本集的數(shù)量。根據(jù)訓(xùn)練樣本集學(xué)習(xí)得到字典Di∈Rd×ki,其中ki表示第i類字典的原子數(shù)量。Ci∈Rki×qi,為第i類訓(xùn)練樣本集Xi在字典Di上的編碼系數(shù)矩陣。基于稀疏表示理論,應(yīng)有Xi≈DiCi,則基本字典學(xué)習(xí)模型為
(1)
由于訓(xùn)練樣本中難免存在遮擋或噪聲等問題,導(dǎo)致當(dāng)前訓(xùn)練樣本中存在異常值,進而降低字典學(xué)習(xí)算法的魯棒性。針對此問題,在字典學(xué)習(xí)模型中加入誤差項以捕捉這些異常值,即
(2)
其中,Pi為誤差矩陣,β為正則化參數(shù)。易知,式中的l0范數(shù)優(yōu)化問題為NP-hard問題,通常使用l1范數(shù)松弛處理[4-5,7]。然而l1范數(shù)為有偏估計量,其可能會對較大變量過度懲罰。針對此問題,采用非凸極大極小凹加函數(shù)代替l0范數(shù)以獲得近乎無偏估計[8-10]。首先給出極大極小凹加函數(shù)定義。
設(shè)向量a=(a1,a2,…,ap)T∈Rp,當(dāng)υ>0,γ>1時,MCP懲罰函數(shù)表示為
(3)
其中,(u)+=max{u,0}。設(shè)A為矩陣,將矢量極大極小凹加函數(shù)擴展到矩陣形式[8-9],表示為
(4)
為便于表述,令Jγ(A)=J1,γ(A),Mγ(A)=M1,γ(A),則當(dāng)γ→時,Jγ(A)→|A|,其為對應(yīng)l1范數(shù)的軟閾值算子;當(dāng)γ→1時,其為對應(yīng)l0范數(shù)的硬閾值算子[10]。設(shè)γ∈(1,)。
利用極大極小凹加函數(shù)代替式(2)中l(wèi)0范數(shù),則字典學(xué)習(xí)模型可表示為
(5)
綜上所述,判別字典學(xué)習(xí)模型可構(gòu)建為
(6)
其中,i=1,2,j=1,2,j≠i,λ為正則化參數(shù)。
由于模型(6)中極大極小凹加函數(shù)非凸,因而所提字典學(xué)習(xí)模型為非凸優(yōu)化問題,不能直接采用凸優(yōu)化方法求解。受ZHANG等[8]所提求解方法啟發(fā),基于MM-IALM方法求解所得非凸判別字典優(yōu)化問題。該方法包含內(nèi)環(huán)和外環(huán)。每次迭代中,外環(huán)用局部線性近似來逼近原非凸問題以將其轉(zhuǎn)化為加權(quán)凸優(yōu)化問題;內(nèi)環(huán)則采用不精確增廣拉格朗日乘子法求解該問題以將其最小化,多次迭代求解可逼近原目標(biāo)函數(shù)最優(yōu)解。
Dτ,W(H)=sign(Hmn)(|Hmn|-τWmn)+,
(7)
其可看成問題(8)的閉環(huán)解
(8)
給定Aold,則問題(8)中Qγ(A|Aold)即為Mγ(A)的局部線性近似,可表示為
(9)
基于以上所述算法,給出所提非凸判別字典優(yōu)化問題的求解方法,如下所述。
外環(huán)為減少計算量,采用一步局部線性近似方法,即只運行外環(huán)一次[8-9],而非等待收斂或達到最大迭代次數(shù)。實驗表明,采用多步局部線性近似方法(即等待外環(huán)收斂)只比一步局部線性近似有微小提升,但運算量較大。
基于式(9),利用代理函數(shù)Qγ(Ci|Coldi)及Qγ(Pi|Poldi)分別替代Mγ(Ci)和Mγ(Pi),得式(6)的上界函數(shù):
(10)
內(nèi)環(huán)使用不精確增廣拉格朗日乘子方法求解問題,注意到問題中第一個約束項關(guān)于Di和Ci乘積耦合。為利用形如式(7)的閉環(huán)解求解變量Ci,需引入輔助優(yōu)化變量Bi=Ci,則式(10)等價為
(11)
利用拉格朗日乘子法將約束優(yōu)化問題轉(zhuǎn)化為無約束優(yōu)化問題,則目標(biāo)函數(shù)可寫為
(12)
其中,Vi為拉格朗日乘子;μi>0,為懲罰參數(shù)。問題的求解可分為若干個子問題:
(13)
已知式(7)為問題(8)的解,則可得式(13)中關(guān)于變量Bi和Pi的子問題的解。已知式(13)中關(guān)于變量Ci和Di的子問題為凸問題,根據(jù)矩陣微分知識,可得關(guān)于變量Bi和Pi的子問題的解。式(13)的解分別表示如下:
(14)
其中,I∈Rki×ki,為單位矩陣。WBi和WPi的初始化方法詳見表1。
根據(jù)式(14),在第q+1次迭代中,依次更新各變量,然后更新Vi和μ1:
(15)
重復(fù)上述過程,直至滿足收斂條件(收斂條件見算法1)。關(guān)于問題(6)的整體求解算法如算法1所示。
算法1MM-IALM方法解決問題(6)。
(4) 重復(fù)以下4步,直至收斂:
④q=q+1;
(5) 輸出:Di。
收斂性和計算復(fù)雜度是評價優(yōu)化算法優(yōu)劣的兩個標(biāo)準(zhǔn),本小節(jié)分別從這兩個方面分析所提優(yōu)化算法。
1.3.1 收斂性分析
所提字典學(xué)習(xí)模型非凸,因此難以給出全局收斂的嚴(yán)格數(shù)學(xué)證明,但其存在局部收斂性[8-9]。如上所述,MM-IALM優(yōu)化方法在外環(huán)使用一步局部線性近似方法逼近原非凸問題,即只運行外環(huán)一次,則該優(yōu)化方法的收斂性主要取決于內(nèi)環(huán)。基于式(9),目標(biāo)函數(shù)在每次迭代中滿足如下引理。
(16)
由式(16)可知目標(biāo)函數(shù)f(Di,Ci,Pi)單調(diào)非遞增,則MM-IALM優(yōu)化算法具有局部收斂性。此外,ZHANG[8]和LI[9]的研究表明,該非凸問題的局部最優(yōu)解通常優(yōu)于凸松弛所得問題的全局最優(yōu)解。
1.3.2 計算復(fù)雜度分析
1.4.1 初始化
1.4.2 字典更新
為確保所提方法能適應(yīng)目標(biāo)外觀變化,筆者在線更新字典Di。由于第1幀中手動選擇目標(biāo),因此首幀目標(biāo)始終真實。在整個字典學(xué)習(xí)過程中始終保留首幀獲取的訓(xùn)練樣本集X1以緩解漂移問題。為獲得更具魯棒性和判別性的字典,算法從連續(xù)T幀中收集目標(biāo)及背景樣本,并設(shè)置樣本池Xtrain和臨時樣本池Xtemp。Xtemp={Xt-T+1,Xt-T+2,…,Xt},表示從前T幀收集的所有訓(xùn)練樣本,Xt表示根據(jù)第t幀跟蹤結(jié)果收集的訓(xùn)練樣本,從而得到一個樣本池Xtrain={X1,Xtemp}。使用樣本池Xtrain即可學(xué)得新字典Di以用于跟蹤下一幀中的目標(biāo)。獲得最優(yōu)判別字典后需清空Xtemp,以收集新的訓(xùn)練樣本。
在樣本收集過程中,當(dāng)樣本積累到Xtemp中時,跟蹤結(jié)果可能包含遮擋或噪聲等干擾。若跟蹤器確定的目標(biāo)最優(yōu)位置的評估值(評估方法見3.1小節(jié))大于重構(gòu)誤差閾值θ,則跟蹤結(jié)果不可靠,跳過此幀以避免引入噪聲;否則將該幀所得樣本積累到Xtemp中。需要注意的是,當(dāng)某一幀被跳過時,若臨時樣本池未收集完畢,則不更新字典。此外,需要說明的是,重構(gòu)誤差閾值θ的選擇問題本身就比較復(fù)雜。針對此問題,國內(nèi)外研究人員做了大量研究。筆者根據(jù)試驗確定θ取值,關(guān)于其最優(yōu)取值問題將在后續(xù)研究中予以關(guān)注。
所提跟蹤模型基于貝葉斯框架[7]。基于上節(jié)所得字典來描述貝葉斯框架中的觀察模型,以實現(xiàn)精確的目標(biāo)跟蹤。
對于當(dāng)前候選目標(biāo)集Y,需解決如下優(yōu)化問題:
(17)
其中,Ci表示利用字典Di候選目標(biāo)集Y所得稀疏編碼矩陣,Pi表示對應(yīng)的誤差項,β1為正則化參數(shù)。
P∝exp(-σεD1/(εD2+δ)) ,
(18)
其中,σ為常數(shù),δ為避免分母為零的約束因子。根據(jù)式(18)可估計各候選目標(biāo)的后驗概率。根據(jù)貝葉斯推理框架可得目標(biāo)狀態(tài)的最優(yōu)估計,從而實現(xiàn)目標(biāo)的精確追蹤。
實驗硬件環(huán)境:處理器為Intel Core(TM) i7-8550U,主頻為1.8 GHz,內(nèi)存為7.88 GB;軟件仿真環(huán)境為MATLAB R2017b。為驗證所提算法的性能,筆者在WU等[11]提出的目標(biāo)跟蹤基準(zhǔn)中選取8組測試序列和4種主流跟蹤算法進行對比實驗。
表1 測試序列及其主要挑戰(zhàn)
說明:√表示對應(yīng)測試序列存在相應(yīng)的挑戰(zhàn)因素。
圖1為5種跟蹤方法在8個測試序列上的部分跟蹤結(jié)果。相應(yīng)地,其平均中心位置誤差和平均跟蹤重疊率如表2所示。其中,用加粗字體標(biāo)識最大平均跟蹤重疊率和最小平均中心位置誤差,用下劃線標(biāo)識次小值。下面由圖1和表1、表2分析所提算法在光照變化、尺度變化、遮擋及背景雜波等挑戰(zhàn)下的準(zhǔn)確性。
圖1 不同算法的部分跟蹤結(jié)果
(1)光照變化。由表1知,測試序列包括Car1,Car2,Singer1,F(xiàn)aceocc2和Car4。當(dāng)測試序列發(fā)生頻繁光照變化時,所提算法仍能穩(wěn)定跟蹤目標(biāo),說明所提算法在光照變化下具有較好的魯棒性,而4種對比算法則丟失了目標(biāo)或發(fā)生嚴(yán)重漂移。圖1(e)和圖1(h)中,由于TLD算法加入重定位組件,在丟失目標(biāo)一段時間后重新定位目標(biāo),但仍未能精確定位目標(biāo)。
(2)尺度變化。由表1知,測試序列包括Car1,Dudek,Walking2,Car2,Singer1和Car4。由圖1相關(guān)測試序列知,當(dāng)測試序列發(fā)生尺度變化時,所提算法能適應(yīng)尺度變化,具有較好的魯棒性。然而4種對比算法均丟失了目標(biāo)或發(fā)生漂移。其中,CT算法缺少尺度更新機制,目標(biāo)外觀模型隨著目標(biāo)尺度變化產(chǎn)生冗余或錯誤,最終導(dǎo)致跟蹤失敗。由于筆者提出的算法采用非凸極大極小凹加函數(shù)懲罰稀疏矩陣和誤差矩陣,以獲得目標(biāo)的無偏估計,因而可獲得較好的跟蹤精度。
(3)遮擋。由表1知,測試序列包括Faceocc1,Dudek,Walking2,Singer1和Faceocc2。由圖1相關(guān)測試序列可知,當(dāng)目標(biāo)發(fā)生遮擋時,4種對比算法均發(fā)生不同程度漂移或跟蹤目標(biāo)框與真實目標(biāo)大小不符。特別是在圖1(d)中,當(dāng)目標(biāo)被另一人遮擋時,4種對比算法均丟失目標(biāo)。然而,筆者所提算法仍能穩(wěn)定跟蹤目標(biāo),具有較高的跟蹤精度和魯棒性,其可歸因于所提算法為解決目標(biāo)遮擋和噪聲等問題而加入了誤差項。
(4)背景雜波。由表1可知,測試序列包括Car1,Dudek和Car2。由圖1相關(guān)測試序列知,當(dāng)目標(biāo)處于背景雜波且伴隨光照或尺度變化的情況下,4種對比算法均發(fā)生不同程度漂移或丟失目標(biāo)。在圖1(a)和圖1(e)中,目標(biāo)駛?cè)腙幱皡^(qū)域后外觀發(fā)生較大變化,且和周圍背景有較大的相似性,對比算法受到相似目標(biāo)影響而發(fā)生漂移甚至丟失目標(biāo)。然而,所提算法能穩(wěn)定鎖定目標(biāo),具有較高的跟蹤精度和魯棒性,其原因在于所提算法不僅針對目標(biāo)學(xué)習(xí)字典,還考慮目標(biāo)周圍的背景信息,利用所得判別字典可有效減輕相似背景干擾。
表2 不同跟蹤方法的平均跟蹤重疊率及平均中心位置誤差
由表2可知,所提算法在測試序列Car1,F(xiàn)aceocc1,Dudek,Walking2,Singer1均有較好的表現(xiàn),其在所有測試序列上的平均跟蹤重疊率及平均中心位置誤差分別為0.78和5.98。
在目標(biāo)跟蹤問題中,算法運行速度是最重要的性能指標(biāo)之一。對比5種算法的運行速度,分析所提算法的實時性。表3示出不同跟蹤方法在各個測試序列下的平均運行速度(幀/秒)。由表3可知,相較于基于稀疏表示的對比算法,筆者提出的算法及其他對比算法運行速度較高,實時性較好。然而,需要注意的是,雖然其他對比算法比筆者提出的算法運行速度快,但跟蹤性能欠佳。
在通常條件下,基于稀疏表示的跟蹤算法的計算量與候選粒子數(shù)量成正比。基于此,通過合理選擇粒子數(shù)量,并用復(fù)雜度較低的一步局部線性近似方法,可在顯著降低算法復(fù)雜度的情況下取得較好的跟蹤性能。
表3 不同跟蹤方法在各個測試序列下的平均運行速度 幀/秒
綜上所述,與現(xiàn)有的主流跟蹤器相比,所提算法具有較好的魯棒性、精度和時效性。其主要原因歸結(jié)為:
(1) 所提算法考慮了目標(biāo)的時空局部相關(guān)性,因此不易受背景信息干擾,具有較高的魯棒性。
(2) 所提算法采用極大極小凹加函數(shù)懲罰稀疏和誤差矩陣以獲得近乎無偏估計,從而獲得了更高的跟蹤精度。
(3) 所提字典學(xué)習(xí)模型中字典不一致約束項使目標(biāo)及背景字典更獨立,從而提高了字典的判別能力。
(4) 針對遮擋或噪聲等問題,所提算法在字典學(xué)習(xí)模型中加入誤差項以進一步提高算法的魯棒性和精度。
針對復(fù)雜環(huán)境下目標(biāo)跟蹤性能顯著下降的問題,提出一種視覺跟蹤方法。該方法首先根據(jù)最近若干幀跟蹤結(jié)果獲取目標(biāo)樣本,并在跟蹤結(jié)果鄰近區(qū)域獲取背景樣本。而后,在字典學(xué)習(xí)模型中施加不一致約束項使得目標(biāo)及背景字典更為獨立以提高字典的判別能力。同時,針對遮擋或噪聲等問題干擾,所提方法利用誤差項捕獲異常值以改善算法的魯棒性。此外,該模型使用極大極小凹加函數(shù)懲罰稀疏編碼矩陣和誤差矩陣,以避免l1范數(shù)對一些較大變量過度懲罰,從而提高目標(biāo)跟蹤精度。為求解所得非凸判別字典的優(yōu)化問題,提出基于MM-IALM的求解方法以獲得具有較好收斂性的高效求解。最后,根據(jù)所獲得的最優(yōu)判別字典構(gòu)建目標(biāo)觀測模型,并基于貝葉斯推理框架實現(xiàn)目標(biāo)精確跟蹤。仿真結(jié)果表明,與現(xiàn)有的主流算法相比,所提方法在光照變化、尺度變化、遮擋及背景雜波等環(huán)境下具有較高的跟蹤精度及魯棒性。