劉承平,袁 飛
(1.中國電子科學(xué)研究院,北京 100041;2.中國科學(xué)院自動(dòng)化研究所,北京 100190)
飛行器穩(wěn)像及運(yùn)動(dòng)目標(biāo)跟蹤技術(shù)是空基或天基視頻監(jiān)控系統(tǒng)的一項(xiàng)關(guān)鍵技術(shù)。它們在可視預(yù)警、無人駕駛飛機(jī)、機(jī)器人導(dǎo)航、光電成像制導(dǎo)及目標(biāo)跟蹤等軍用和民用領(lǐng)域有著廣泛的應(yīng)用,也發(fā)揮著重要的作用。
由于飛行平臺(tái)可能存在振動(dòng)、旋轉(zhuǎn)和姿態(tài)變化,成像裝置輸出的圖像可能會(huì)產(chǎn)生嚴(yán)重的平移、旋轉(zhuǎn)和伸縮變化。例如,安裝在旋轉(zhuǎn)彈體的光電成像導(dǎo)引頭,彈體在經(jīng)過解旋后,其飛行末段的彈體旋轉(zhuǎn)速度仍可能達(dá)到5 ~20 轉(zhuǎn)/秒。在未采用穩(wěn)像措施下,光電成像導(dǎo)引頭輸出的圖像一般都會(huì)出現(xiàn)嚴(yán)重的像旋和圖像模糊,致使其無法正常工作。數(shù)字穩(wěn)像技術(shù)能夠估計(jì)、補(bǔ)償圖像序列幀間的運(yùn)動(dòng),從而消除成像傳感器平臺(tái)(如飛行平臺(tái))的運(yùn)動(dòng)帶來的影響。不同于光學(xué)穩(wěn)像技術(shù),數(shù)字穩(wěn)像技術(shù)不依賴于陀螺、定位傳感器和光學(xué)儀器等專用硬件,適合于那些對體積、重量和功耗要求極其苛刻的飛行平臺(tái)使用,因此得到了廣泛的應(yīng)用[1~4]。
盡管許多文獻(xiàn)致力于解決數(shù)字穩(wěn)像問題,真實(shí)場景中抖動(dòng)圖像序列的穩(wěn)像問題仍然是一個(gè)極具挑戰(zhàn)性的難題。這些難題主要體現(xiàn)在如下幾個(gè)方面。(1)真實(shí)場景中運(yùn)動(dòng)的復(fù)雜性:不僅包括平移運(yùn)動(dòng),還包括縮放,旋轉(zhuǎn),斜切等運(yùn)動(dòng);(2)大的旋轉(zhuǎn)運(yùn)動(dòng):相對于大的平移運(yùn)動(dòng)來說,大的旋轉(zhuǎn)運(yùn)動(dòng)更加難以解決;(3)前景目標(biāo)的影響;(4)背景的復(fù)雜性,背景往往是不斷發(fā)生變化的;(5)系統(tǒng)的實(shí)時(shí)性要求。
針對幀間的平移運(yùn)動(dòng)及包括適當(dāng)旋轉(zhuǎn)(<15°)在內(nèi)的稍復(fù)雜的運(yùn)動(dòng),一些學(xué)者提出了一些有效的數(shù)字穩(wěn)像算法[3,5~8]。文獻(xiàn)[5]提出了一種基于特征的快速視頻穩(wěn)像算法。該算法通過跟蹤少量的特征集合估計(jì)出幀間攝像機(jī)的運(yùn)動(dòng)。但是該算法僅能估計(jì)出幀間的平移運(yùn)動(dòng)和小范圍的旋轉(zhuǎn)運(yùn)動(dòng)(<10°)。一些學(xué)者提出在頻域中估計(jì)幀間的運(yùn)動(dòng)參數(shù)[6,7]。這些算法利用空域中的像移對應(yīng)于頻域中的相位移動(dòng)這一屬性估計(jì)出幀間的平移運(yùn)動(dòng)。文獻(xiàn)[8]對基于頻域的方法進(jìn)行了改進(jìn),其通過引入極坐標(biāo)來解決旋轉(zhuǎn)運(yùn)動(dòng)和縮放運(yùn)動(dòng)?;陬l域的方法僅僅能夠估計(jì)出幀間全局的旋轉(zhuǎn)、縮放和平移運(yùn)動(dòng),當(dāng)場景由多個(gè)獨(dú)立運(yùn)動(dòng)的目標(biāo)組成時(shí),算法往往不能輸出精確的運(yùn)動(dòng)參數(shù)。
本文的目標(biāo)在于穩(wěn)定幀間存在任意角度的旋轉(zhuǎn)運(yùn)動(dòng),較大的縮放運(yùn)動(dòng)和平移運(yùn)動(dòng)的圖像序列。為了對任意角度的旋轉(zhuǎn),較大的縮放和平移運(yùn)動(dòng)進(jìn)行估計(jì),提出了一種基于log-polar 變換的數(shù)字穩(wěn)像算法。算法由運(yùn)動(dòng)估計(jì)單元和運(yùn)動(dòng)修正單元兩部分組成。在運(yùn)動(dòng)估計(jì)階段,提出了一種多分辨率log-polar 變換技術(shù)估計(jì)出任意角度的旋轉(zhuǎn),較大的縮放和平移運(yùn)動(dòng)。運(yùn)動(dòng)修正單元由運(yùn)動(dòng)補(bǔ)償模塊和圖像合成模塊構(gòu)成,用來補(bǔ)償當(dāng)前幀圖像的運(yùn)動(dòng),以生成穩(wěn)定的圖像序列。
在解決了飛行平臺(tái)成像裝置的穩(wěn)像問題之后,構(gòu)建了一個(gè)基于飛行平臺(tái)的運(yùn)動(dòng)目標(biāo)跟蹤系統(tǒng)。在此系統(tǒng)中,采用了基于ICA 的運(yùn)動(dòng)目標(biāo)跟蹤算法[9]對圖像序列中指定的運(yùn)動(dòng)目標(biāo)進(jìn)行跟蹤。與經(jīng)典的Lucas-Kanade 跟蹤算法[10]相比,ICA 跟蹤算法轉(zhuǎn)換了模板圖像與輸入圖像的關(guān)系,運(yùn)行預(yù)先計(jì)算雅可比矩陣和海森矩陣,在保證跟蹤精度的同時(shí),極大地提高了計(jì)算效率。
圖1 本文的算法流程圖
以下章節(jié)安排如下:第1 部分詳細(xì)介紹基于log-polar 變換的數(shù)字穩(wěn)像算法;第2 部分介紹基于ICA 的運(yùn)動(dòng)目標(biāo)跟蹤技術(shù);最后,在第3 部分對提出的方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
假設(shè)I(x,y)是笛卡爾坐標(biāo)系下的圖像,I*(r,θ)是對數(shù)極坐標(biāo)系下變換后的圖像,(x0,y0)是變換中心。對數(shù)極坐標(biāo)變換可表示為
對數(shù)極坐標(biāo)變換的優(yōu)點(diǎn)在于其能將笛卡爾坐標(biāo)系下圖像的旋轉(zhuǎn)和縮放變化變換為對數(shù)極坐標(biāo)系下θ 軸和r 軸的平移運(yùn)動(dòng)。因此,原始圖像I(x,y)中的旋轉(zhuǎn)對應(yīng)于I*(r,θ)中θ 軸上的平移,圖像I(x,y)中的縮放對應(yīng)于I*(r,θ)中r 軸上的平移。假設(shè)是I1和I2兩幅原始圖像,和分別是I1和I2對應(yīng)的經(jīng)過log-polar 變換后的圖像。如果I2是I1經(jīng)過旋轉(zhuǎn)和縮放后的變換圖像,那么,將是在θ 軸和r 軸方向上的平移圖像。一個(gè)典型的示例如圖2 所示。圖2(a)是原圖像,圖2(b)是原圖像在笛卡爾坐標(biāo)系下變換后的圖像,其中,縮放倍數(shù)為2,旋轉(zhuǎn)角度為90°。它們經(jīng)過log-polar 變換后的圖像分別為圖2(c)和圖2(d)。通過比較圖2(c)和圖2(d),可以看出:圖2(d)是圖2(c)在水平軸方向上移動(dòng)了128列(整幅圖像為512 列),對應(yīng)了圖2(a)的90°旋轉(zhuǎn);圖2(d)是圖2(c)在垂直軸方向上移動(dòng)了32列,對應(yīng)于圖2(a)的2 倍的放大。
圖2 Log-polar 變換示例
利用log-polar 變換,成功地在試驗(yàn)圖像上估計(jì)出任意大小的旋轉(zhuǎn)運(yùn)動(dòng)和0.5 ~4 倍的縮放變化。但是,使用log-polar 變換技術(shù)進(jìn)行運(yùn)動(dòng)估計(jì)需要知道兩幅圖像對應(yīng)變換原點(diǎn)的位置。在上述示例中,假設(shè)兩幅圖像的原點(diǎn)位于它們的幾何中心。實(shí)際中,它們的原點(diǎn)可能會(huì)產(chǎn)生偏移,而且這種偏移量是未知的。
為了估計(jì)出兩幅圖像的對應(yīng)變換原點(diǎn),我們提出了一種由粗到細(xì)的多分辨率的搜索策略:首先,在第一幅圖像的幾何中心處取一個(gè)具有一定大小圓周模版,并進(jìn)行對數(shù)極坐標(biāo)變換;然后,對第二幅圖像搜索區(qū)域的每一個(gè)位置,以它們?yōu)閳A心選取同樣大小的圓周區(qū)域,進(jìn)行l(wèi)og-polar 變換,并且將其與參考模板圖像變換后的圖像進(jìn)行交叉相關(guān)運(yùn)算,此時(shí)可以得到一個(gè)最優(yōu)相關(guān)值和對應(yīng)的旋轉(zhuǎn)、縮放參數(shù);最后,比較搜索區(qū)域中所有位置最優(yōu)相關(guān)值的大小,把最大值點(diǎn)處的旋轉(zhuǎn)和縮放參數(shù),以及此點(diǎn)相對于圖像中心的平移量作為最優(yōu)的旋轉(zhuǎn),縮放和平移參數(shù)。
試驗(yàn)中,在3.06 GHz Pentium 4 PC 機(jī)上對2 幅640 ×480 的圖像進(jìn)行運(yùn)動(dòng)估計(jì),采用3 級(jí)金字塔逐級(jí)進(jìn)行運(yùn)動(dòng)估計(jì),圓周半徑為40 個(gè)像素,搜索區(qū)域?yàn)?60 ×120 個(gè)像素,用了3 s 的時(shí)間。這樣的速度限制了此算法的實(shí)際應(yīng)用。上述算法之所以計(jì)算量大,是由于搜索區(qū)域的每一個(gè)像素都要進(jìn)行l(wèi)og-polar變換和交叉相關(guān)匹配運(yùn)算。盡管采用了由粗到細(xì)的3 級(jí)金字塔技術(shù)簡化了運(yùn)算,但是在最低級(jí)的金字塔圖像上仍然有許多像素點(diǎn)需要進(jìn)行變換和匹配。
如果能首先大致確定輸入圖像中對應(yīng)原點(diǎn)的位置,計(jì)算量將會(huì)大大減少。根據(jù)這個(gè)思想,提出了一種基于旋轉(zhuǎn)不變特征的快速搜索算法。這種快速搜索算法能大致確定輸入圖像中對應(yīng)原點(diǎn)的位置,使得搜索窗口的滑行窗口限定在有限區(qū)域內(nèi),而原點(diǎn)不可能存在的區(qū)域則不進(jìn)行計(jì)算,因而大大提高了搜索效率。
基于旋轉(zhuǎn)不變特征的快速搜索算法包括如下兩個(gè)模塊:特征生成模塊和圓周塊匹配模塊。
1.3.1 特征生成
為了保證足夠的匹配精度及相對低的匹配復(fù)雜度,根據(jù)試驗(yàn)結(jié)果選取了4 種有效的特征。這4 種特征從模板圖像的兩個(gè)特征圖像中提取:亮度圖像I 和梯度圖像G。為了保證所提取特征的旋轉(zhuǎn)不變性,梯度算子應(yīng)該具有旋轉(zhuǎn)不變性。因此,采用高斯拉普拉斯算子(LoG)生產(chǎn)梯度圖像,因?yàn)楦咚估绽顾阕樱?1]具有旋轉(zhuǎn)不變性,并且高斯濾波器[12]具有圓周對稱性。實(shí)際中,只有強(qiáng)的邊緣對于塊匹配才是值得信賴的,引入了如下階梯函數(shù)以去除梯度圖像G 中的弱邊緣
式中,T 是一個(gè)閾值,經(jīng)驗(yàn)地設(shè)置為20。
4 種特征g1,g2,g3,g4可由下式從圓周塊區(qū)域中提取
1.3.2 圓周塊匹配
圓周塊匹配是一種二維的運(yùn)動(dòng)搜索過程,其目的在于在輸入圖像中尋找模板圓周塊的最佳匹配位置。假設(shè)圓周塊A 是模板圖像中指定的模板圓周塊,A′是輸入圖像中與圓周塊A 具有相同中心坐標(biāo)的圓周塊,C′是搜索區(qū)域中的參考?jí)K。使用特征向量的一維正則化差分向量作為匹配準(zhǔn)則,可以求出最佳匹配塊A′
模板圖像與輸入圖像對應(yīng)原點(diǎn)的偏移量可由A和A′的運(yùn)動(dòng)偏移向量(dxA-dxA′,dyA-dyA′)確定。
在解決了高速旋轉(zhuǎn)的飛行平臺(tái)的穩(wěn)像之后,提出了一種基于ICA[9]的運(yùn)動(dòng)目標(biāo)跟蹤算法。該方法通過對所選擇目標(biāo)與輸入圖像的對準(zhǔn)實(shí)現(xiàn)對目標(biāo)的跟蹤。其基本思想是:建立描述指定目標(biāo)區(qū)域形變和運(yùn)動(dòng)的參數(shù)運(yùn)動(dòng)模型,然后把目標(biāo)跟蹤問題轉(zhuǎn)化為求取上述運(yùn)動(dòng)模型的參數(shù)最優(yōu)化估計(jì)問題。傳統(tǒng)的基于對準(zhǔn)的跟蹤算法,比如Lucas-Kanade 算法[10],在每次迭代中都要計(jì)算雅克比矩陣和海森矩陣,效率低下,難以達(dá)到實(shí)時(shí)性的要求。ICA 算法是對Lucas-Kanade(L-K)算法的改進(jìn),其轉(zhuǎn)換輸入圖像與模板的關(guān)系,允許預(yù)先計(jì)算耗時(shí)的雅克比矩陣和海森矩陣,具有非常高的計(jì)算效率。同時(shí),ICA 算法是一種基于梯度下降的最優(yōu)化算法,具有較高的參數(shù)估計(jì)精度。本章利用了ICA 算法在計(jì)算方面的簡潔性和精度高的特點(diǎn),使用其對目標(biāo)進(jìn)行精確地跟蹤。
Lucas-Kanade(L-K)算法的目標(biāo)在于最小化模板圖像T(x)與輸入圖像I(x)的平方誤差和
式中,x=(x,y)T表示像素坐標(biāo)的列向量;W(x;p)是運(yùn)動(dòng)模型的參數(shù)集合,其將模板圖像T(x)的像素x 的坐標(biāo)映射到輸入圖像I(x)的子像素位置,p =(p1,p2,…,pn)T。對于2D 平面上運(yùn)動(dòng)的近似平面圖像塊,W(x;p)可以表示為
ICA 算法轉(zhuǎn)換了模板圖像T(x)與輸入圖像I(x),即最小化
對于非線性表達(dá)式(6),可由以下更新迭代求出運(yùn)動(dòng)參數(shù)
式中,W(x;Δp)-1是W(x;Δp)的逆運(yùn)算。當(dāng)||Δp||≤ε 時(shí),迭代停止(其中,ε 是迭代停止閾值)。詳細(xì)推導(dǎo)可參考文獻(xiàn)[9]。
通過計(jì)算移動(dòng)目標(biāo)在圖像序列中相鄰幀間的運(yùn)動(dòng)模型參數(shù)Wt(x;p),可以估計(jì)出運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng),從而實(shí)現(xiàn)對指定運(yùn)動(dòng)目標(biāo)跟蹤。
在某飛行器光電成像器輸出的真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
首先,采用如下指標(biāo)對文中提出的穩(wěn)像算法進(jìn)行了實(shí)驗(yàn):準(zhǔn)確度(Fidelity)、位移范圍(Displacement Range)和性能(Performance)。
準(zhǔn)確度是指衡量穩(wěn)像算法補(bǔ)償攝像機(jī)運(yùn)動(dòng)好壞的一個(gè)評(píng)價(jià)標(biāo)準(zhǔn),比如,運(yùn)動(dòng)模型對攝像機(jī)運(yùn)動(dòng)的估計(jì)精度。準(zhǔn)確度常常使用峰值信噪比(PSNR)作為品質(zhì)因子,其定義如下
式中,MSE 是兩幅圖像像素值的均方誤差值,它反應(yīng)了兩幅圖的差異大小。PSNR 越高,兩幅圖像的內(nèi)容差異越小,當(dāng)它們完全重合時(shí),PSNR 達(dá)到最大。
真實(shí)圖像序列穩(wěn)像結(jié)果的PSNR 值比較如圖3所示。圖3 中位于頂端的曲線代表穩(wěn)像后的圖像與參考圖像之間的PSNR 值,下端的折線代表輸入圖像與參考圖像之間的PSNR 值。從圖3 中可以看出,文章提出的穩(wěn)像算法顯著地提高了輸入圖像與參考圖像之間的PSNR 值。
圖3 真實(shí)場景圖像序列的穩(wěn)像結(jié)果的PSNR 比較
位移范圍指穩(wěn)像系統(tǒng)能夠?qū)崿F(xiàn)的運(yùn)動(dòng)估計(jì)的最小分辨率和最大穩(wěn)像范圍。最小分辨率是指穩(wěn)像算法中運(yùn)動(dòng)估計(jì)算法的精度。最大穩(wěn)像范圍是評(píng)價(jià)穩(wěn)像系統(tǒng)性能的另一個(gè)重要指標(biāo)。通常來說,對選取的運(yùn)動(dòng)估計(jì)算法,在保持穩(wěn)像精度的情況下,可估計(jì)的圖像的最大偏移量越大,系統(tǒng)可矯正的圖像的偏移量也越大。
表1 LPT 穩(wěn)像算法的位移范圍
性能是指穩(wěn)像系統(tǒng)能夠補(bǔ)償?shù)淖畲笪灰扑俣?,通常定義為幀率與最大幀間平移量的乘積。幀率是穩(wěn)像系統(tǒng)的一個(gè)重要評(píng)價(jià)指標(biāo),但是僅僅使用幀率衡量穩(wěn)像系統(tǒng)的性能是不合適的。因?yàn)榭梢酝ㄟ^犧牲系統(tǒng)的魯棒性和精度及運(yùn)動(dòng)估計(jì)的范圍來提高系統(tǒng)的幀率。在實(shí)驗(yàn)中,使用旋轉(zhuǎn)速度作為性能指標(biāo)。在3.06 GHz Pentium 4 的PC 機(jī)上進(jìn)行了實(shí)驗(yàn),當(dāng)搜索窗口大小為160 ×120 時(shí),LPT 穩(wěn)像算法的幀率為4.5 幀/秒。因此,LPT 穩(wěn)像算法的最大旋轉(zhuǎn)速度為:4.5 ×360 =1620。
下面,對文中提出的基于飛行器平臺(tái)的運(yùn)動(dòng)目標(biāo)跟蹤系統(tǒng)的綜合性能進(jìn)行測試。該系統(tǒng)首先對飛行器光電成像器輸出的幀間存在較大旋轉(zhuǎn)的抖動(dòng)圖像序列進(jìn)行穩(wěn)像,然后在穩(wěn)定的圖像序列中對場景中的指定目標(biāo)進(jìn)行跟蹤?;谡鎸?shí)圖像序列的試驗(yàn)結(jié)果如圖4 所示。
圖4 真實(shí)場景圖像序列的穩(wěn)像和跟蹤示例
試驗(yàn)結(jié)果表明,該系統(tǒng)能夠?qū)崿F(xiàn)對抖動(dòng)圖像序列的穩(wěn)像和對指定目標(biāo)的跟蹤。而在未采取穩(wěn)像措施之前,是不可能對圖中的指定車輛進(jìn)行跟蹤的。
首先提出的基于log-polar 變換的數(shù)字穩(wěn)像算法,具有以下優(yōu)點(diǎn):(1)能夠?qū)Υ嬖谌我獯笮〉男D(zhuǎn),較大的縮放(0.5 ~2 倍)和平移運(yùn)動(dòng)(±80 個(gè)像素)的圖像序列進(jìn)行穩(wěn)像,并且可以推廣解決更復(fù)雜的運(yùn)動(dòng)情形下的穩(wěn)像,如仿射運(yùn)動(dòng),透視投影運(yùn)動(dòng)等;(2)穩(wěn)像精度高;(3)算法適應(yīng)性強(qiáng),不依賴典型的特征,不需要任何先驗(yàn)知識(shí)。
還提出了一種基于ICA 的運(yùn)動(dòng)目標(biāo)跟蹤算法,并將上述穩(wěn)像算法融合在一起,組成了一個(gè)基于飛行器平臺(tái)的運(yùn)動(dòng)目標(biāo)跟蹤系統(tǒng)?;谡鎸?shí)的圖像序列的試驗(yàn)結(jié)果表明,該系統(tǒng)能夠?qū)崿F(xiàn)對抖動(dòng)圖像序列的穩(wěn)像和對指定目標(biāo)的跟蹤。
[1] BURT P,ANANDAN P. Image Stabilization by Registration to a Reference Mosaic[C]//DARPA Image Understanding Workshop,In Proc:Monterey,CA,1994:425-434.
[2]MORIMOTO C,DEMENTHON D,DAVIS L,et al.Detection of Independently Moving Objects in Passive Video[C]//Of Intelligent Vehicles Workshop,In Proc:Detroit,MI,1995:270-275.
[3]劉棟,趙躍進(jìn),尹德森,等. 基于特征點(diǎn)跟蹤的數(shù)字穩(wěn)像算法[J]. 光學(xué)技術(shù),2008:281-284.
[4]仲訓(xùn)昱,朱齊丹,張智.數(shù)字穩(wěn)像中的快速和魯棒運(yùn)動(dòng)估計(jì)研究[J]. 電子學(xué)報(bào),2010:251-256.
[5]MOHAMMED A ALHARBI,et al. Fast Video Stabilization Algorithms[D].AIR FORCE INSTITUTE OF TECHNOLOGY,AFIT/GCS/ENG/06-02.
[6]KIM S,SU W. Subpixel Accuracy Image Registration by Spectrum Cancellation[C]//IEEE International Conference on Acoustics,in Proc:Speech and Signal Processing,1993:153.
[7]STONE H,ORCHARD M,CHANG E,et al. A Fast Direct Fourier-Based Algorithm for Subpixel Registration of Images[J]. IEEE Transactions on Geoscience and Remote Sensing 39,2001:2235-2243.
[8] MARCEL B,BRIOT M,MURRIETA R. Estimation of Translation and Rotation by Fourier Transform[C]//Traitement du Signal,1997,14:135-149.
[9] SIMON BAKER,IAIN MATTHEWS. Lucas-Kanade 20 Years on:A Unifying Framework[J]. International Journal of Computer Vision,2004,56(3):221-255.
[10]LUCAS B,KANADE T. An Iterative Image Registration Technique with an Application to Stereo Vision[J]. The International Joint Conference on Artificial Intelligence,1981:674-679.
[11] MORIMOTO C,CHELLAPPA R. Fast Electronic Digital Image Stabilization[C]//IEEE Proc.of International Conference on Pattern Recognition,1996,3:284-288.
[12] SONKA M,HLAVAC V,BOYLE R. Image Processing,Analysis,and Machine Vision[M]. ISBN:049508252X,Plenum Press:Chapman/Hall,1993:81-88.