魯玉龍,李成龍,湯 進(jìn),2,羅 斌,2*
(1.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601;2.安徽省工業(yè)圖像處理與分析重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230039)
由于視覺跟蹤在運(yùn)動(dòng)分析、行為識(shí)別、監(jiān)控以及人機(jī)交互等場(chǎng)景下的廣泛應(yīng)用,使得其成為一個(gè)非常熱門的研究課題[1-3].近些年來,人們提出了很多基于不同機(jī)器學(xué)習(xí)技術(shù)的目標(biāo)跟蹤方法,如相關(guān)性濾波[1-2]、支持向量機(jī)[3-4]、稀疏表示[5-7]等.然而,這些方法都是針對(duì)可見光視頻的,在復(fù)雜的視頻場(chǎng)景下,特別是低照度(甚至是零照度)等,容易導(dǎo)致這些跟蹤算法的性能較差.為了提高跟蹤算法在復(fù)雜場(chǎng)景下的穩(wěn)定性,一些學(xué)者使用多種傳感器,如熱紅外和深度傳感器來獲取不同模態(tài)的視頻數(shù)據(jù)[8-9],以此彌補(bǔ)可見光源在某些條件下的不足.論文針對(duì)可見光和熱紅外的多模態(tài)數(shù)據(jù),研究如何有效利用它們進(jìn)行持續(xù)穩(wěn)健的自適應(yīng)跟蹤.
研究者們提出了很多融合可見光和熱紅外的跟蹤方法[8-13].Chen等[8]提出使用概率圖模型來處理熱紅外與可見光的融合問題,進(jìn)而在跟蹤過程中充分利用了熱紅外與可見光的統(tǒng)計(jì)結(jié)構(gòu)數(shù)據(jù).該方法具有較好的穩(wěn)定性,但是具有較高的計(jì)算復(fù)雜度.程詠梅等[9]提出以熱紅外和可見光通道的Bhattacharyya系數(shù)為權(quán)值、基于加權(quán)Mean-Shift的可見光/熱紅外雙通道的目標(biāo)跟蹤算法,實(shí)現(xiàn)光照突變時(shí)的穩(wěn)定持續(xù)跟蹤.該方法具有較快的處理速度,但是對(duì)噪聲比較敏感.Wu等[10]直接將灰度圖像和熱紅外圖像的特征拼接在一起,使用稀疏表示模型計(jì)算候選樣本的似然值,在粒子濾波框架下實(shí)現(xiàn)目標(biāo)的跟蹤.Liu等[11]使用聯(lián)合稀疏表示模型對(duì)兩個(gè)模態(tài)進(jìn)行表達(dá),通過稀疏表示系數(shù)構(gòu)造目標(biāo)的似然函數(shù).這類方法能夠通過稀疏表示模型有效地融合兩種模態(tài),但如果某個(gè)模態(tài)的噪聲過大,會(huì)影響最終的跟蹤結(jié)果,并且實(shí)時(shí)性較差.
論文提出了一種自適應(yīng)利用多模態(tài)信息的跟蹤方法,并有以下3點(diǎn)主要貢獻(xiàn):(1)提出了一種實(shí)時(shí)的多模態(tài)跟蹤算法,能夠自適應(yīng)地利用熱紅外和可見光信息實(shí)現(xiàn)目標(biāo)的持續(xù)穩(wěn)健跟蹤;(2)設(shè)計(jì)一種有效的模型更新方法,能夠使得模型適應(yīng)目標(biāo)外觀的變化,且避免噪聲的影響;(3)為了有效地評(píng)價(jià)多模態(tài)跟蹤方法,論文拍攝6組多模態(tài)視頻,涵蓋了多種挑戰(zhàn)因素,如低照度、背景雜亂和熱交叉等.在此數(shù)據(jù)集上,與可見光跟蹤方法和多模態(tài)跟蹤方法進(jìn)行了實(shí)驗(yàn)對(duì)比.實(shí)驗(yàn)結(jié)果表明,該算法能夠有效地實(shí)現(xiàn)目標(biāo)的持續(xù)穩(wěn)健跟蹤,并且具有實(shí)時(shí)的處理速度.
簡要介紹核化相關(guān)性濾波器(kernelized correlation filters,簡稱KCF[1])目標(biāo)跟蹤算法的相關(guān)知識(shí).
設(shè)有大小X×H維的訓(xùn)練圖像塊x,且跟蹤目標(biāo)位于x的中心.為了充分利用循環(huán)矩陣的特性,對(duì)x進(jìn)行循環(huán)移位并適當(dāng)調(diào)整像素位置,將得到的所有圖像塊x循環(huán)移位的結(jié)果xw,h,(w,h)∈{0,1,…,W-1}×{0,1,…,H-1}作為KCF分類器的訓(xùn)練樣本.同時(shí)由于其回歸的目標(biāo)函數(shù)y符合高斯分布,即位于中心的樣本目標(biāo)函數(shù)值為1,而其他循環(huán)移位樣本的函數(shù)值將平滑地減小到0,即y(w,h)是樣本xw,h的標(biāo)簽值.訓(xùn)練分類器的目標(biāo)是找到一個(gè)函數(shù)f(x)=ωTz, 這個(gè)函數(shù)能夠使樣本xw,h和其回歸目標(biāo)y(w,h)的方差達(dá)到最小,即
(1)
其中:φ表示通過核κ將樣本xw,h映射到希爾伯特空間,而x和x′的內(nèi)積可以表示為〈φ(x),φ(x′)〉=κ(x,x′),參數(shù)λ為正則化項(xiàng).
通過φ核化操作,將原本的線性問題x映射到非線性特征空間φ(x)后,式(1)中的解ω可以表示為ω=∑w,hα(w,h)φ(xw,h),其中
(2)
其中:F和F-1分別表示傅里葉變換和逆傅里葉變換,kx=κ(xw,h,x).
(z)=F-1(F(kz)⊙F(α)),
(3)
基于可靠相關(guān)度的多模態(tài)目標(biāo)跟蹤模型的總體框架如圖1所示.
圖1 論文方法的框架圖
設(shè)有視頻模態(tài)m∈{V,I},Tm(1)是初始幀目標(biāo)真值,Tm(i-1)是第i-1幀的目標(biāo)跟蹤結(jié)果,則此模態(tài)第i幀經(jīng)公式(3)得到的置信圖為
(xm(i))=F-1(F(kxm(i))⊙F(α)),
(xm(i))),
(4)
由公式(4)可知,熱紅外與可見光雙模態(tài)視頻數(shù)據(jù)經(jīng)KCF算法后,得到兩個(gè)模態(tài)的獨(dú)立目標(biāo)響應(yīng)值.使用最大峰值主副比值(peak-to-sidelobe ratio,簡稱PSR),作為兩個(gè)模態(tài)最終跟蹤結(jié)果的選取準(zhǔn)則,即
(5)
(6)
選取準(zhǔn)則示例如圖2所示.圖2顯示了兩個(gè)模態(tài)第i幀跟蹤結(jié)果及相應(yīng)的PSR值,此選取準(zhǔn)則確保了兩個(gè)模態(tài)第i幀的最終跟蹤結(jié)果是跟蹤置信圖PSR值最大的模態(tài)值,從而保證了跟蹤過程中始終選取跟蹤結(jié)果最優(yōu)的模態(tài)作為最終的跟蹤結(jié)果.
圖2 選取準(zhǔn)則示例
由公式(4)可知,不同模態(tài)的KCF跟蹤參數(shù)是獨(dú)立的,僅取決于各個(gè)模態(tài)自身的狀態(tài),這在單模態(tài)場(chǎng)景復(fù)雜時(shí),會(huì)導(dǎo)致該模態(tài)跟蹤結(jié)果偏差大.為了避免這種情況,筆者使用一個(gè)聯(lián)合模型更新方式,來使各個(gè)模態(tài)的跟蹤狀態(tài)處于穩(wěn)定狀態(tài).
設(shè)TV(i) ,TI(i)分別表示可見光與熱紅外視頻第i幀的跟蹤結(jié)果,T(i)是兩個(gè)模態(tài)最終的跟蹤結(jié)果,PSR最大值為PSRmax=max(PSRI,PSRV),相應(yīng)的跟蹤模態(tài)為Tmax,PSR最小值為PSRmin=min(PSRI,PSRV),相應(yīng)的跟蹤模態(tài)為Tmin, 則有模型更新公式
(7)
即每個(gè)模態(tài)按最優(yōu)的跟蹤結(jié)果進(jìn)行更新,較為可靠的模態(tài)一定更新,保持模型的適應(yīng)性,而較欠可靠的模態(tài)設(shè)置一個(gè)閾值ε決定是否要更新.在實(shí)驗(yàn)中ε=0.5*PSRmax時(shí),跟蹤性能較好.較差模態(tài)的更新方式,在信息可靠的情況下,保持模型的有效性;在噪聲很大的情況下,可以避免對(duì)模型的干擾.
由于當(dāng)前公開的多模態(tài)數(shù)據(jù)集,如OSU、ACI等,場(chǎng)景單一、視頻序列較少,為了評(píng)估論文提出的跟蹤算法的性能,筆者構(gòu)建了一個(gè)包括低照度、背景雜亂等條件的多模態(tài)視頻數(shù)據(jù)集,這些視頻包含了低照度條件下的單人行進(jìn)、兩人交叉遮擋、單個(gè)剛體自行車行進(jìn)等挑戰(zhàn)性因素,如圖3所示.所有的測(cè)試視頻均包括可見光視頻和熱紅外視頻,分別由普通CCD攝像機(jī)(型號(hào)為Sony TD-2073)和在線式熱紅外熱像儀(型號(hào)為巨哥電子MAG32)所采集.為了清晰,只展示了標(biāo)有真值的第一幀視頻幀,圖3(a)~(c)為熱紅外視頻出現(xiàn)熱交叉現(xiàn)象,即目標(biāo)與背景的溫度相似,此時(shí),熱紅外信息不太可靠;圖3(d)~(f)為可見光受限的情形,即光線照度較低.
圖3 論文拍攝的6組視頻
實(shí)驗(yàn)中,為了對(duì)比在單個(gè)模態(tài)下的跟蹤性能,論文使用了兩個(gè)快速的視覺跟蹤算法作為對(duì)比,分別是KCF[1]和Spatio-Temporal Context (STC)[2].而針對(duì)多模態(tài)跟蹤算法,論文選取了L1-PF[8]多模態(tài)跟蹤算法作為對(duì)比.為了公平比較,論文的算法參數(shù)在實(shí)驗(yàn)中都是固定的,其中正則化項(xiàng)系數(shù)λ=10-4,高斯核帶寬σ=0.2,線性插值因子設(shè)為0.02,采用的HOG特征描述符為4個(gè)像素大小.而針對(duì)其他兩個(gè)跟蹤算法,直接使用其提供的原始代碼,并且其算法的參數(shù)也設(shè)置為算法提供的默認(rèn)值.
實(shí)驗(yàn)在相同的硬件條件下完成,即在MATLAB 2010a下運(yùn)行實(shí)驗(yàn)代碼,主機(jī)配置為Intel Xeon? 2.66 G主頻處理器,內(nèi)存12 G.論文方法與KCF,STC和L1-PF方法下的6組視頻的跟蹤結(jié)果精度比較如表1所示,其中黑體表示最優(yōu)的結(jié)果,V表示跟蹤方法以可見光視頻作為輸入,T表示跟蹤方法以熱紅外視頻作為輸入.從表中可以看出,論文方法達(dá)到了實(shí)時(shí)的處理速度,具有較高的實(shí)用性.
表1 中心位置差(CLE)和平均幀率(FPS)
從表1中可以看出,論文方法能夠有效地選取可靠的模態(tài)進(jìn)行目標(biāo)的穩(wěn)健持續(xù)跟蹤.特別地,有低照度條件下,可見光視頻不能提供有效的目標(biāo)信息,以可見光作為輸入的KCF和STC具有較差的跟蹤精度.在熱紅外視頻中,如果出現(xiàn)相似溫度的物體或背景,會(huì)使得熱紅外信息具有歧義性,這時(shí)以熱紅外作為輸入的KCF和STC則具有較差的跟蹤精度;而作為對(duì)比的多模態(tài)跟蹤算法L1-PF在兩個(gè)模態(tài)視頻較好時(shí)跟蹤結(jié)果相對(duì)準(zhǔn)確,但當(dāng)熱紅外或者可見光有明顯的光照變化時(shí),其跟蹤結(jié)果有較大的波動(dòng).論文方法根據(jù)定義的可靠相關(guān)度能夠自適應(yīng)地選取不同的模態(tài)信息進(jìn)行目標(biāo)的跟蹤,進(jìn)而達(dá)到穩(wěn)健持續(xù)跟蹤的目的.
圖4展示了一些跟蹤結(jié)果圖.
圖4 實(shí)驗(yàn)結(jié)果
從圖4可以看出,圖(a)~(c)是熱紅外視頻不可靠的情況,此時(shí)對(duì)比算法在熱紅外視頻上跟蹤結(jié)果較差;圖(d)~(f)則是可見光不可靠的情況,此時(shí)KCF和STC在可見光視頻上跟蹤結(jié)果較差.算法L1-PF在6組數(shù)據(jù)集上,當(dāng)某個(gè)模態(tài)視頻數(shù)據(jù)發(fā)生明顯的光照變化時(shí),其跟蹤結(jié)果就會(huì)產(chǎn)生明顯的波動(dòng).論文方法對(duì)于這些情況,均能有效地進(jìn)行跟蹤.
論文提出了一種自適應(yīng)利用多模態(tài)信息有效地實(shí)現(xiàn)目標(biāo)的持續(xù)穩(wěn)健跟蹤方法,以解決低照度下的可見光跟蹤方法的不穩(wěn)定問題.在論文構(gòu)造的多模態(tài)數(shù)據(jù)集上驗(yàn)證了論文方法的有效性,并且達(dá)到實(shí)時(shí)的處理速度.在未來的工作中,將會(huì)研究更為魯棒的多模態(tài)融合方法,實(shí)現(xiàn)目標(biāo)在更有挑戰(zhàn)的視頻數(shù)據(jù)上的穩(wěn)健持續(xù)跟蹤.