邵 潔
(上海電力學院計算機與信息工程學院,上海 200090)
運動目標分析是計算機視覺研究領域中的一個富有挑戰(zhàn)性的課題.它涵蓋了移動目標物體的檢測、跟蹤,以及跟蹤物體的行為識別等多個方面的內(nèi)容.一個魯棒的視頻跟蹤算法需要克服噪音的影響,圖像中的目標間互遮擋或物體對人的遮擋,圖像視角變化,復雜的背景和光照變化等.
跟蹤算法能夠?qū)崿F(xiàn)對一段時間內(nèi)目標空間狀態(tài)的估計.早期研究中,基礎跟蹤算法通常采用卡爾曼濾波實現(xiàn).然而由于卡爾曼濾波只能提供狀態(tài)變化服從線性高斯分布的目標最優(yōu)值估計,不符合現(xiàn)實中的目標運動變化狀態(tài),使得其后產(chǎn)生的基于非線性模型的粒子濾波方法逐漸成為更廣泛使用的次最優(yōu)狀態(tài)估計方法.在基礎跟蹤算法選定的情況下,如何利用特征找到與已有跟蹤目標或模板最匹配的觀測目標是目標跟蹤的關鍵.
本文嘗試通過尋找模板子空間中目標的稀疏最優(yōu)估計實現(xiàn)目標跟蹤.這一設想來自于文獻[1],首先在第一幀初始化目標模板,然后在跟蹤過程中,通過貝葉斯框架下的粒子濾波得到多個候選目標位置,再將候選位置的目標模塊表示成目標模板的稀疏線性加權和.因此,處于最正確候選位置的目標模塊應當最能有效地由目標模板表示.事實上,通過將這種表示轉(zhuǎn)化為一個L1正則化最小二乘問題求解時,可以得到一個候選模塊關于目標模板的稀疏權值向量.而與目標模板加權和差值最小的候選模塊是當前幀的最優(yōu)跟蹤結(jié)果.其算法流程如圖1所示.
圖1 基于稀疏表示的目標跟蹤算法基本流程
粒子濾波是一種利用貝葉斯序列重要性采樣技術來估計狀態(tài)變量的后驗概率密度分布的算法.它包含預測和更新兩個基本步驟.假設xt表示描述t時刻物體特征的狀態(tài)變量,則在已知所有1 到 t-1 時刻的觀測結(jié)果 z1∶t-1={z1,z2,…,zt-1}的條件下,xt的條件預測分布為 p(xt/z1∶t-1):
而在t時刻,當已知觀測值zt,則基于貝葉斯規(guī)則可以得到狀態(tài)向量的后驗概率密度為:
式中:p(zt/xt)——觀測似然概率密度.
以100個采樣粒子為例,在地鐵視頻中針對人群中某一目標得到以采樣粒子為中心的候選跟蹤模塊分布,則相應的粒子權重更新為:
圖2 粒子樣本分布示例
在本文的跟蹤算法中,采用圖像的仿射變換以實現(xiàn)對連續(xù)兩幀目標,運動建模.狀態(tài)變量xt=(Λ,px,py,vx,vy)包括仿射參數(shù)向量 Λ,目標位置(px,py)和平均速度(vx,vy).仿射參數(shù) Λ 來自于對已知狀態(tài)xt的計算.首先從圖像中獲取感興趣區(qū)域zt,并將其歸一化為目標模板大小.本文假設狀態(tài)轉(zhuǎn)換概率 p(xt/xt-1)服從高斯分布,且仿射向量中各參數(shù)獨立,則觀測模型p(zt/xt)的大小反映了觀測值與目標模板的相似程度.在跟蹤過程中,p(zt/xt)由目標模板和觀測值的L1最小化誤差得到.
在跟蹤過程中,本文將不同光照背景和視角下目標的全局特征投影到一個低維子空間中來實現(xiàn)狀態(tài)估計.若已知目標模板序列T={t1,t2,…,tn}∈Rd×n(d >> n),包含 n 個 ti∈Rd的向量矩陣,則跟蹤結(jié)果全局特征y∈Rd可以表示為:
式中:a——目標參數(shù)向量,a={a1,a2,…,an}T∈
在許多視頻目標跟蹤場景中,目標物體常常面臨噪音或局部遮擋的問題,尤其遮擋會影響圖像的任何位置或任意大小,會產(chǎn)生不可預測的檢測錯誤.因此,考慮噪音和遮擋問題的影響,式(4)可以寫成:
式中:ε——非零錯誤向量,表示y中被遮擋或破壞的像素.
事實上,由于ε的不確定性,a有無數(shù)種不同的解.然而,一個可信的目標跟蹤模塊應當在其對應向量a中只存在有限個數(shù)的非零值,也就是說,目標跟蹤模塊僅可能與有限個目標模板有較高的相似性.因此,將式(5)轉(zhuǎn)化為一個L1正則化最小二乘問題,即:
式中:‖·‖2,‖·‖1——L1和L2范數(shù)計算.
L1正則化最小二乘問題可通過Lasso問題求解法得到解決,本文直接采用 INRIA提供的SPAMS稀疏分解工具箱加以實現(xiàn).
在計算機視覺中使用模板跟蹤方法始于1981年[2].首先在第一幀中提取目標模板,在隨后每幀中感興趣的區(qū)域找到最為匹配的目標位置.一個固定的目標模板不足以應對視頻中可能產(chǎn)生的變化,而如果模板隨視頻更新過快易導致丟失原始目標狀態(tài)而僅保留包含更多不確定性的跟蹤信息.
本文采用的基于稀疏表示的目標跟蹤法與傳統(tǒng)的模板匹配法有類似之處.雖然在初始時間內(nèi),目標外表會保持不變,但隨著時間的延續(xù),模板與目標的當前外表會出現(xiàn)差異,這與目標行為和面對攝像機的角度有關.因此,我們采用目標模板T的動態(tài)更新來解決這一問題.
L1最小化的一個重要特點是模板的范數(shù)越大,最小化得到的差值越小,這是由式(6)中‖a‖1項的存在產(chǎn)生的.模板‖ti‖2的值越大,‖Ta-y項中相對應的系數(shù)ai越小.利用這一特性,可以引入一個與每個模板相關聯(lián)的權重向量ωi=‖ti‖2.權重越大,表示模板與當前目標的相關性越大.第一幀中,人為選定模板并對其進行歸一化.對選定模板模塊上下左右略微移動一定像素值可以得到多個不同的模板,提取特征后可以得到模板矩陣.
初始條件下,每個模板的權值ωi相同,都等于1.每一幀結(jié)束后對權值進行更新后就可得到:
若當前目標與最優(yōu)模板的相似度大于某一閾值,則調(diào)整每個模板的范數(shù)‖ti‖2=ωi,并對其進行歸一化;若兩者相似度小于某閾值的話,則將相似度最低的模板更新為當前目標特征,其權重值初始化為所有權重的平均值.
在Matlab環(huán)境下,采用大量的視頻對其進行了有效性測試.
實驗環(huán)境:雙核2.66 GHz CPU,3 GB內(nèi)存,幀圖像為768×576像素,視頻跟蹤算法運算速度為每秒4幀.
測試視頻包括室內(nèi)外大量不同人流密度的場景,且場景中包含光線變化和不同程度的遮擋.實驗以第一幀為參考幀,即所取的模板均取自第一幀的目標模塊.每一個目標分配20個不同模板.這些模板的獲取同樣來自于第一幀的目標模塊,僅在原始位置的不同方向微移后選取.在所有情況下,初始位置和目標的選取均由人工實現(xiàn),粒子數(shù)量固定為400.
采用本文的跟蹤方法實現(xiàn)的跟蹤效果如圖3所示.每一行從左往右排列5幀同一場景的跟蹤效果圖片,圖片的左上角顯示的數(shù)字表示當前幀數(shù).每張圖片均標注了從起始幀到當前幀被跟蹤目標的運動軌跡,顯示了跟蹤方法在各種場景中捕獲運動變化的持續(xù)時間的有效性和穩(wěn)定性.第1行的圖片序列顯示了在擁擠的機場候機室中,跟蹤一位身著深色上衣的旅客的過程.這位旅客從一排椅子的右側(cè)繞行至左側(cè),并穿過了一群向相反方向行走的人.這種單一目標的無規(guī)律運動變化是無法由運動流模型[3,4]模擬得到的.第2行圖片序列顯示了對廣場上人群的俯視拍攝.雖然被跟蹤行人身著的灰色上衣近似于地面顏色,但仍能被正確跟蹤,顯示出本算法對于相似顏色條件下的跟蹤仍可保持較高的精確性.第3行圖片序列來自于2009年的PETS測試圖庫,顯示了一群人在校園中從西向東行走的場景.由于鏡頭較遠,因此人在圖片中所占比例較小,很難捕獲人物的具體細節(jié)特征,同時地面上斑駁的樹影顯示出場景的光照條件比較復雜.第4行圖片序列展示了地鐵樓梯上的異常擁擠場景,人流由上至下緩慢行走,畫面中大多為黑色和白色,人與人之間特征差別較小.
在所有這些具有挑戰(zhàn)性的場景中,本文提出的方法均能穩(wěn)定地跟蹤到目標.
圖3 算法跟蹤效果示意
本文提供了一種稀疏表示算法在實際場景中目標跟蹤的實現(xiàn)方法.可將跟蹤過程看作一個稀疏估計問題,并采用L1正則化最小二乘法對其求解.為了適應目標的變化,還引入了動態(tài)模板更新算法.
經(jīng)過對多例實際場景視頻的跟蹤實驗,均獲得良好的跟蹤效果,尤其是具有良好背景分割效果的視頻,可以得到準確的跟蹤結(jié)果.實驗表明,該算法具有良好的魯棒性.但該算法的計算時間花銷過大.相信隨著計算機的發(fā)展、程序的優(yōu)化,這一問題將會得到解決.
[1]MEI X,LING H.Robust visual tracking and vehicle classification via sparse representation [J].PAMI,2011,33(11):2 259-2 272.
[2]LUCAS B,KANADE T.An iterative image registration technique with an application to stereo vision[C]//ICJAI,1981:674-679.
[3]RODROGIEZ M,ALI S,KANADE T.Tracking in unstructured crowded scenes,computer vision[C]//2009 IEEE 12th International Conference on Kyoto, Japan, Sep., 2009:1 389-1 396.
[4]ALI S,MUBARAK Shah.Floor fields for tracking in high density crowd scenes[C]//ECCV’08 Proceedings of the 10th European Conference on Computer Vision,Marseille,F(xiàn)rance,2008:1-14.