楊春偉,王仕成,廖守億,劉華平
?
基于協(xié)方差描述子稀疏表示的前視紅外建筑物目標(biāo)跟蹤鎖定
楊春偉1,2,王仕成1,廖守億1,劉華平2
(1. 第二炮兵工程大學(xué) 精確制導(dǎo)仿真技術(shù)實(shí)驗(yàn)室,陜西 西安 710025;2. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084)
作為前視紅外成像末制導(dǎo)的關(guān)鍵部分,紅外目標(biāo)跟蹤是一個(gè)極具挑戰(zhàn)性的課題。本文針對(duì)前視紅外建筑物目標(biāo),提出了一種基于協(xié)方差描述子稀疏表示的紅外目標(biāo)跟蹤框架。首先,提取紅外建筑物目標(biāo)的協(xié)方差描述子特征;其次,由于協(xié)方差描述子屬于黎曼空間,采用log-Euclidean變換將其轉(zhuǎn)換到歐式空間;最后,在粒子濾波的理論框架基礎(chǔ)上,采用目標(biāo)在字典中的稀疏表示作為觀測(cè)模型,對(duì)紅外建筑物目標(biāo)進(jìn)行表示,通過貝葉斯?fàn)顟B(tài)推理框架進(jìn)行目標(biāo)跟蹤。對(duì)前視紅外建筑物目標(biāo)的跟蹤實(shí)驗(yàn)表明,該方法在跟蹤準(zhǔn)確度及魯棒性方面體現(xiàn)出了優(yōu)良的特性。
紅外建筑物;目標(biāo)跟蹤鎖定;稀疏表示;協(xié)方差描述子;仿射變換
復(fù)雜背景下的地面紅外目標(biāo)跟蹤鎖定能夠?yàn)榧t外成像末制導(dǎo)提供重要的技術(shù)支撐。與可見光圖像相比,紅外圖像信噪比低,易受背景雜波的干擾。同時(shí),在前視紅外成像制導(dǎo)系統(tǒng)中,由于成像系統(tǒng)的自我運(yùn)動(dòng)以及天氣等原因,使得前視紅外目標(biāo)的跟蹤鎖定成為一個(gè)極具挑戰(zhàn)性的問題[1-2]。
與模板匹配法、光流法以及卡爾曼濾波等經(jīng)典的紅外目標(biāo)跟蹤方法相比,粒子濾波算法在處理非線性和非高斯情況下的動(dòng)態(tài)系統(tǒng)狀態(tài)估計(jì)問題取得了很好的效果。粒子濾波以蒙特卡羅隨機(jī)模擬理論為基礎(chǔ),它將系統(tǒng)狀態(tài)的后驗(yàn)分布采用一組隨機(jī)樣本的加權(quán)來表示,新的狀態(tài)分布則通過這些隨機(jī)樣本的貝葉斯迭代進(jìn)化生成。
最近幾年,稀疏表示在模式識(shí)別以及計(jì)算機(jī)視覺領(lǐng)域受到了越來越多的關(guān)注。文獻(xiàn)[3-4]將稀疏表示引入目標(biāo)跟蹤領(lǐng)域,跟蹤問題被看作粒子濾波理論框架下的稀疏近似問題,遮擋、噪聲等問題通過平凡模板來解決,而待跟蹤目標(biāo)通過模板空間的稀疏表示來近似,并通過非負(fù)約束減少誤匹配結(jié)果,最終的跟蹤結(jié)果通過投影誤差來確定。文獻(xiàn)[5]在上述成果基礎(chǔ)上,指出將平凡系數(shù)的L1約束改為L(zhǎng)2約束,能夠更好地表征平凡系數(shù)的能量,從而可以更加有效地處理遮擋,背景噪聲等問題,同時(shí)采用APG(accelerated proximal gradient)算法提高了文獻(xiàn)[3-4]中跟蹤算法的實(shí)時(shí)性。文獻(xiàn)[6]將該理論框架引入紅外目標(biāo)跟蹤領(lǐng)域,取得了良好的跟蹤效果。
另一方面,文獻(xiàn)[7]第一次將協(xié)方差描述子引入目標(biāo)跟蹤領(lǐng)域,文獻(xiàn)[8-9]將協(xié)方差描述子與稀疏表示相結(jié)合,在粒子濾波理論框架下設(shè)計(jì)了跟蹤算法。但文獻(xiàn)[8-9]中的算法采用L1約束處理平凡系數(shù)。
基于以上成果,本文將協(xié)方差描述子引入前視紅外建筑物目標(biāo)跟蹤鎖定領(lǐng)域,提出了基于協(xié)方差描述子稀疏表示的前視紅外建筑物目標(biāo)跟蹤鎖定算法。該方法與上述算法主要有兩點(diǎn)不同:
1)采用協(xié)方差描述子作為目標(biāo)特征,與基于灰度特征的目標(biāo)跟蹤算法[3-5]相比,無需對(duì)系數(shù)進(jìn)行非負(fù)約束。
2)與文獻(xiàn)[8-9]相比,該方法受文獻(xiàn)[5]啟發(fā),對(duì)平凡系數(shù)引入L2約束。
圖1所示為基于協(xié)方差描述子稀疏表示的前視紅外建筑物目標(biāo)跟蹤鎖定算法流程,算法總體上采用稀疏表示與粒子濾波結(jié)合的思想,主要分為以下幾步:第一,根據(jù)前一幀的檢測(cè)結(jié)果或者通過人工標(biāo)注確定待跟蹤目標(biāo),并根據(jù)待跟蹤目標(biāo)位置采用小幅擾動(dòng)的方式建立字典;第二,基于仿射變換,根據(jù)狀態(tài)轉(zhuǎn)移概率密度采樣,得到當(dāng)前幀的粒子集;第三,基于第一步建立的字典,對(duì)粒子集進(jìn)行稀疏表示,并計(jì)算每個(gè)粒子的權(quán)值;第四,根據(jù)粒子權(quán)值,確定跟蹤結(jié)果并鎖定,并進(jìn)行字典更新與粒子重采樣。
對(duì)于紅外圖像塊的每個(gè)像元,我們首先計(jì)算式(1)所示的維(此處=5)特征向量:
式中:,,(,)分別為像元坐標(biāo)以及坐標(biāo)為(,)處的像元的灰度值,后二者為水平和垂直方向的一階梯度值。
令為紅外圖像塊的像元個(gè)數(shù),為特征集{},=1, 2, …,的均值,那么紅外圖像塊可以通過式(2)所示的×協(xié)方差描述子來表示:
該協(xié)方差描述子融合了圖像像元的位置,灰度值以及一階梯度值之間的相關(guān)關(guān)系,具有以下優(yōu)點(diǎn)[10]:首先,協(xié)方差描述子可以融合不同特征,其對(duì)角線元素表征了特征之間的變化,非對(duì)角元素表征了特征之間的相關(guān)性;第二,協(xié)方差計(jì)算減輕了噪聲對(duì)于單個(gè)樣本的影響;第三,協(xié)方差描述子具有一定的尺度旋轉(zhuǎn)不變性。
為了能夠快速計(jì)算目標(biāo)的協(xié)方差描述子,我們可以采用積分圖像的方法[11]。具體地,式(2)可表示為:
Fig.1 FLIR building tracking flowchart
展開后可得:
從式(4)可以看出,為了計(jì)算目標(biāo)的協(xié)方差描述子,需要計(jì)算每一維特征之和以及任意兩維特征的乘積之和。因此針對(duì)每維特征()以及任意兩維特征乘積()(),建立+2幅積分圖像。
令為積分圖像的××的張量(,分別為紅外圖像塊的長(zhǎng)寬值):
為二階積分圖像的×××張量:
令:
此處,,y為對(duì)稱矩陣,式(7)的計(jì)算量為+(+2)/2,因此積分圖像的計(jì)算復(fù)雜度為(2)。這樣,紅外圖像塊的協(xié)方差特征可通過下式計(jì)算:
式中:¢,¢為目標(biāo)的右下角坐標(biāo)值。這樣,建立積分圖像之后,協(xié)方差描述子的計(jì)算復(fù)雜度為(2)。
協(xié)方差描述子包含于對(duì)稱正定矩陣形成的流形中,其統(tǒng)計(jì)特性可以通過黎曼幾何近似計(jì)算[12]。
對(duì)于對(duì)稱正定矩陣,矩陣的指數(shù)以及對(duì)數(shù)運(yùn)算為基本操作[13]。給定×協(xié)方差描述子,通過奇異值分解(=)得到正交矩陣以及對(duì)角矩陣=Diag(1,2, …,),其中{}=1, 2,…,k為的特征值。那么,的指數(shù)以及對(duì)數(shù)運(yùn)算分別定義為:
式中:為×單位矩陣
這樣,協(xié)方差描述子可通過log-Euclidean映射轉(zhuǎn)換為列向量,即:
式中:unfold(×)將矩陣轉(zhuǎn)化為向量。
粒子濾波是一種估計(jì)動(dòng)態(tài)系統(tǒng)狀態(tài)變量后驗(yàn)概率分布的貝葉斯序貫重要性采樣技術(shù),它提供了非線性非高斯情況下用于狀態(tài)變量后驗(yàn)概率密度函數(shù)估計(jì)以及繁殖的框架。粒子濾波包含兩個(gè)基本步驟:預(yù)測(cè)和更新。
令x為紅外建筑物目標(biāo)在第幀的仿射運(yùn)動(dòng)參數(shù),令幀之前的觀測(cè)值為1:t-1={1,2,…,y-1},那么x的預(yù)測(cè)分布(x|1:t-1)可通過下式遞歸計(jì)算:
在第幀,基于觀測(cè)值y,狀態(tài)向量根據(jù)下式的貝葉斯準(zhǔn)則進(jìn)行更新:
其中,(y|x)表示觀測(cè)似然度函數(shù)。
但是很多情況下,式(12)(13)無法得到解析解,因此只能通過近似方法求解。而粒子濾波則是一類行之有效的逼近方法,其主要思想是利用個(gè)隨機(jī)產(chǎn)生的粒子{}=1,…, N(對(duì)應(yīng)的權(quán)值為)加權(quán)和對(duì)后驗(yàn)概率密度進(jìn)行表示。候選粒子通過重要性分布(x|1:t-1,1:t)獲得,粒子的權(quán)重根據(jù)下式更新:
為了避免粒子退化,粒子根據(jù)重要性權(quán)重重采樣生成一系列相同權(quán)重的粒子。
在跟蹤過程中,我們采用仿射變換描述相鄰幀之間紅外建筑物目標(biāo)的運(yùn)動(dòng)。狀態(tài)變量x由6個(gè)仿射變換參數(shù)決定,即:x=(1,2,3,4,1,2),其中(1,2,3,4)為形變參數(shù),(1,2)為位移參數(shù)。通過仿射變換,目標(biāo)以及粒子可以進(jìn)行一定的大小形狀變換。狀態(tài)轉(zhuǎn)移分布(x|x-1)采用高斯分布模型,觀測(cè)似然度函數(shù)(y|x)反映了粒子與目標(biāo)模板之間的相似度,可以通過下面的稀疏表示重建誤差來表示。
假設(shè)跟蹤過程中,紅外建筑物目標(biāo)位于低維子空間。給定目標(biāo)模板集=[1,2, …,v]?R×,包含個(gè)目標(biāo)模板v∈R(=×為目標(biāo)模板的協(xié)方差描述子在歐式空間的映射特征向量),那么跟蹤結(jié)果可近似表示為目標(biāo)模板集的線性組合,即:
≈=11+22+…a v(15)
式中:=[1,2, …,a]為稀疏系數(shù)向量。
由于實(shí)際跟蹤過程中會(huì)不可避免地出現(xiàn)噪聲、遮擋等情況,我們通過建立平凡模板=[1,2, …,i]∈R×并轉(zhuǎn)化為列向量來解決這個(gè)問題,因此式(9)可轉(zhuǎn)換為:
式中:平凡模板ii∈Rm僅有一個(gè)非零值;aI=[e1, e2,…, en]為平凡系數(shù)向量。a=[aT, aI]T為系數(shù)矩陣,D=[V, I]為字典,具體構(gòu)造過程如圖2所示,首先目標(biāo)模板通過對(duì)初始確定的待跟蹤目標(biāo)框的中心位置加入隨機(jī)擾動(dòng)得到,然后提取每個(gè)目標(biāo)模板的協(xié)方差描述子,通過log-Euclidean映射將其映射到歐式空間形成特征向量最終得到目標(biāo)模板集,將目標(biāo)模板集與平凡模板集進(jìn)行級(jí)聯(lián)得到最終的字典。
在當(dāng)前幀,紅外目標(biāo)在字典中的稀疏表示可以通過求解下式所示的L1范數(shù)最小化得到[6]:
然而,文獻(xiàn)[5]指出,若候選區(qū)域?yàn)檎_的跟蹤結(jié)果,那么當(dāng)前幀的目標(biāo)可以通過目標(biāo)模板的稀疏線性組合很好地近似,這樣,對(duì)應(yīng)的平凡系數(shù)的能量(L2范數(shù))會(huì)很小。相反,當(dāng)候選區(qū)域收到背景噪聲污染或被遮擋時(shí),當(dāng)前幀的目標(biāo)若通過目標(biāo)模板的稀疏線性組合表示,將會(huì)產(chǎn)生很大的誤差,而這大部分誤差將由平凡模板來彌補(bǔ),導(dǎo)致平凡系數(shù)能量很大。因此,式(17)可轉(zhuǎn)換為如下的最小化模型:
式中:和為正則化參數(shù),分別控制稀疏系數(shù)和平凡系數(shù)的稀疏度。
式(18)可通過APG方法來求解[14-15]。采用樣本與稀疏表示之間的殘差作為相似性度量即目標(biāo)的觀測(cè)概率模型為:
式中:為控制參數(shù);為樣本與稀疏表示之間的殘差。
對(duì)于模板更新,分為兩部分來進(jìn)行處理,即固定模板和其他模板。由于固定模板是通過人工標(biāo)注或檢測(cè)過程得到的結(jié)果,因此對(duì)目標(biāo)具有很好的代表性,該模板自始至終都不變;而其他模板是通過對(duì)固定模板中心小范圍擾動(dòng)幾個(gè)像素產(chǎn)生的,因此需要進(jìn)行更新,具體策略如下:計(jì)算當(dāng)前幀的目標(biāo)跟蹤結(jié)果與其他模板之間的角度,當(dāng)大于某一閾值,則將當(dāng)前跟蹤結(jié)果替換其他模板中最不重要的模板,具體步驟見文獻(xiàn)[3]。
為了更好地測(cè)試本文提出算法(Cov_L1_L2)的優(yōu)越性,選擇兩種算法作為基準(zhǔn)算法進(jìn)行對(duì)比試驗(yàn):基于分塊協(xié)方差的L1稀疏跟蹤(Block_L1)算法[7],基于log-euclidean黎曼空間稀疏表示(Cov_L1)的跟蹤算法[8]。Block_L1算法對(duì)目標(biāo)分塊后提取每塊的協(xié)方差描述子并轉(zhuǎn)換到歐式空間進(jìn)行串聯(lián)實(shí)現(xiàn)目標(biāo)的建模,而Cov_L1算法直接提取目標(biāo)的協(xié)方差描述子后轉(zhuǎn)換到歐式空間對(duì)目標(biāo)進(jìn)行建模,二者皆采用L1稀疏對(duì)殘差進(jìn)行建模。以上算法采用的都是粒子濾波跟蹤的框架,且采用統(tǒng)一的目標(biāo)運(yùn)動(dòng)模型。因此,本文算法與基準(zhǔn)算法的區(qū)別有兩點(diǎn):一是特征提取方式的差異;二是對(duì)平凡系數(shù)處理的差異。測(cè)試紅外視頻采用圖3所示的機(jī)載掛飛數(shù)據(jù),分為白晝和夜間兩個(gè)場(chǎng)景,每個(gè)場(chǎng)景各包含200幀紅外視頻序列,跟蹤目標(biāo)為在不同場(chǎng)景下的兩棟建筑物(圖中矩形框標(biāo)注)。
圖3 前視紅外建筑物圖像視頻序列示例(白晝和夜間)
圖4、圖5所示分別為本文算法與對(duì)比算法在白晝和夜間兩個(gè)場(chǎng)景下的紅外建筑物跟蹤結(jié)果。從整體上看,本文提出的跟蹤算法取得了良好的跟蹤效果,明顯優(yōu)于基準(zhǔn)算法。圖4(a)中,在第5幀,紅外視頻圖像出現(xiàn)了一定的抖動(dòng),兩種基準(zhǔn)算法的跟蹤結(jié)果出現(xiàn)了漂移,而本文提出的算法跟蹤一直比較穩(wěn)健,隨后Block_L1和cov_L1跟蹤算法已無法跟蹤目標(biāo),而cov_L1_L2雖然出現(xiàn)了一定的漂移,但是很快又重新捕獲到了紅外建筑物目標(biāo);至于圖4(b),兩種基準(zhǔn)算法自第5幀便出現(xiàn)了較大的偏移。從圖5所示夜間場(chǎng)景下的紅外建筑物跟蹤結(jié)果同樣可以看出,本文提出的cov_L1_L2跟蹤算法與兩種基準(zhǔn)算法相比,針對(duì)紅外目標(biāo)出現(xiàn)的抖動(dòng)現(xiàn)象,具有更加優(yōu)良的魯棒特性。
圖4 白晝場(chǎng)景下兩棟建筑物的跟蹤結(jié)果
圖5 夜間場(chǎng)景下兩棟建筑物的跟蹤結(jié)果
Fig.5 Tracking results of two buildings at night
為了定量評(píng)估上述算法在不同場(chǎng)景下的跟蹤效果,我們采用中心誤差與重疊度[16]兩個(gè)指標(biāo)作為評(píng)估依據(jù)。計(jì)算機(jī)配置為3.0GHz的Intel Core i5 CPU,4G RAM,測(cè)試環(huán)境為MATLAB 2010b。中心誤差指的是實(shí)際跟蹤目標(biāo)的中心位置與目標(biāo)真實(shí)中心位置之間的歐氏距離,而平均中心誤差則用來評(píng)估算法的整體跟蹤效果。對(duì)于重疊度,令實(shí)際跟蹤目標(biāo)邊界框?yàn)閠,真實(shí)目標(biāo)的邊界框?yàn)閍。那么重疊度定義為=|t∩a|/|t∪a|,其中∩與∪分別為t和a的交集與并集區(qū)域。
圖6、圖7所示分別為兩個(gè)建筑物目標(biāo)在白晝和夜間兩種場(chǎng)景下的跟蹤中心誤差曲線和跟蹤目標(biāo)重疊度曲線,表1所示為對(duì)應(yīng)的平均跟蹤誤差(Average tracking error,ATE)以及幀頻(Frame fre- quency)。由于基準(zhǔn)算法在跟蹤過程中出現(xiàn)了大量的失幀現(xiàn)象,從而導(dǎo)致平均跟蹤誤差以及重疊度都很差。從以上指標(biāo)不難看出,本文所提的算法在前是紅外建筑物目標(biāo)的跟蹤過程中盡管出現(xiàn)偶爾的失幀,但是能夠很快地重新捕捉到目標(biāo),從準(zhǔn)確度和魯棒性上都要明顯優(yōu)于基準(zhǔn)算法。但是由于本文算法引入L2約束,導(dǎo)致實(shí)時(shí)性有所降低。
本文針對(duì)前視紅外建筑物目標(biāo)跟蹤鎖定問題,采用目標(biāo)的協(xié)方差描述子作為特征,基于稀疏編碼理論和粒子濾波框架,提出了一種基于協(xié)方差描述子稀疏表示的前視紅外建筑物目標(biāo)跟蹤鎖定算法。采用機(jī)載掛飛數(shù)據(jù)對(duì)算法進(jìn)行測(cè)試,取得了良好的跟蹤效果。但從實(shí)驗(yàn)結(jié)果看出,雖然該算法在準(zhǔn)確性和魯棒性上優(yōu)于基準(zhǔn)算法,但是在大擾動(dòng)的情況下仍然出現(xiàn)了偶爾的失幀現(xiàn)象,后續(xù)工作將針對(duì)這一現(xiàn)象尋求更好的解決辦法。
圖6 不同場(chǎng)景下的前是紅外建筑物目標(biāo)跟蹤中心誤差
圖7 不同場(chǎng)景下的前視紅外建筑物目標(biāo)跟蹤重疊度
表1 算法平均跟蹤誤差
[1] HUANG Qiao, YANG Jie. A multistage target tracker in IR image sequences[J]., 2014, 68: 122-128.
[2] 張學(xué)峰.復(fù)雜地物背景下紅外弱小目標(biāo)跟蹤算法[J].紅外技術(shù), 2015, 37(8):659-663.
ZHANG Xue-feng.Tracking of dim infrared target in complex background[J].,2015,37(8):659-663.
[3] XUE Mei, LING Haibin. Robust visual tracking using L1 minimization[C]//12, 2009: 1436-1443.
[4] XUE Mei, LING Haibin. Robust visual tracking and vehicle classification via sparse representation[J]//, 2011, 333(11): 2259-2272.
[5] BAO Chenglong, WU Yi, LING Haibin, et al. Real time robust L1 tracker using accelerated proximal gradient approach[C]//, 2012: 1830-1837.
[6] 唐崢遠(yuǎn), 趙佳佳, 楊杰, 等. 基于稀疏表示模型的紅外目標(biāo)跟蹤算法[J]. 紅外與激光工程, 2012, 41(5): 1389-1395.
TANG Zhengyuan, ZHAO Jiajia, YANG Jie, et al. Infrared target tracking algorithm based on sparserepresentation model[J]., 2012, 41(5): 1389-1395.
[7] PORIKLI Fatih, TUZEL Oncel, MEER Peter. Covariance tracking using model update based on lie algebra[C]//, 2006, 1: 728-735.
[8] ZHANG Xiaoqin, LI Wei, HU Weiming, et al. Block covariance based L1 tracker with a subtle template dictionary[J]., 2013, 46: 175-1761.
[9] WU Yi, LING Haibin, Blasch Erik, et al. Visual tracking based on log-Euclidean Riemannian sparse representation[C]//, 2011: 738-747.
[10] ZHANG Xiaoqin, LI Wei, HU Weiming, et al. Block covariance based L1 tracker with a subtle template dictionary[J]., 2013, 46: 1750-1761.
[11] TUZEL Oncel,PORIKLI Faith, MEER Peter. Region covariance: a fast descriptor for detection and classification[C]//, 2006: 589-600.
[12] LIN Tong, ZHA Hongbin. Riemannian manifold learning[J]., 2008, 30(5): 796-809.
[13] HU Weiming, LI Xi, LUO Wenhan, et al. Single and multiple object tracking using log-Euclidean Riemannian subspace and block -division appearance model[J]., 2012, 34(12): 2420-2440.
[14] LIN Zhouchen, Arvind Ganesh, John Wright, et al. Fast convex optimization algorithms for exact recovery of a corrupted low-rank matrix[C]//, 2009: 1-18.
[15] GAO Chengqiang, MENG Deyu, YANG Yi, et al. Infrared patch-image model for small target detection in a single image[J]., 2013, 22(12): 4996-5009.
[16] WU Yi, LIM Jongwoo, YANG Ming-Hsuan. Online object tracking: a benchmark[C]//, 2013: 625-632013.
Forward-looking-infrared Building Object Tracking Based on Sparse Representation of Covariance Descriptor
YANG Chunwei1,2,WANG Shicheng1,LIAO Shouyi1,LIU Huaping2
(1.,¢710025,; 2.,,100084,)
As the key component of forward-looking-infrared(FLIR) image terminal guidance, infrared object tracking is a challenging task. In this paper, a FLIR building object tracking framework based on sparse representation of covariance descriptor(Cov) is proposed. First, the Cov of FLIR building is extracted and then transformed to Euclidean space due to the reason that Cov lies in Riemannian space. Then, based on particle filter theory, the observation model of object is represented through sparse representation of template dictionary, and object tracking is continued by using a Bayesian state inference framework. Experiments on FLIR building object show that the proposed method obtains effectiveness in tracking accuracy and robustness.
infrared building,object tracking,sparse representation,covariance descriptor,affine transformation
TP391
A
1001-8891(2016)05-0389-07
2015-12-28;
2016-01-04.
楊春偉(1986-),男,山東高密人,博士研究生,研究方向?yàn)椤凹t外目標(biāo)的檢測(cè)與識(shí)別”。E-mail:yangchunwei081129@163.com。