丁雄飛,陳 筍,張 宇,張春燕
安徽大學(xué)數(shù)學(xué)科學(xué)學(xué)院,安徽合肥,230601
在視頻拼接的過程中,首先要對選取的視頻幀進(jìn)行匹配。目前,圖像匹配方式主要有兩種:以灰度為基礎(chǔ)的匹配和以特征為基礎(chǔ)的匹配。灰度匹配是基于像素的,特征匹配則是基于區(qū)域的。后者主要是通過提取圖像的顯著特征(如邊緣和角點)進(jìn)行匹配。這些方法中的共同之處是尋找具有不變性的特征點,使用大量周圍圖像數(shù)據(jù)的顯著特征,形成不變的特征描述符,實現(xiàn)匹配。
圖像匹配的發(fā)展可以追溯到Moravec[1]在1981年提出的對立體匹配的檢測,在其之后,Harris和Stephens[2]在1988年對Moravec算子進(jìn)行了改進(jìn),使其在對小圖像和其附近邊緣的變化更具適用性。隨后,Harris[3]在1992年有效地顯示了它的運動跟蹤和三維結(jié)構(gòu)。而Schmid和Mohr[4]在1997年開創(chuàng)性表明,不變的局部特征匹配可以擴(kuò)展到一般的圖像識別問題,他們還使用了Harris角點選擇“興趣點”,但不是匹配一個相關(guān)的窗口,而是使用了圖像中具有旋轉(zhuǎn)不變描述符的局部區(qū)域,使其在任意方向都有相匹配的功能,在兩個圖像之間可以進(jìn)行切換。最終,D.G.Lowe[5]在1999年提出SIFT算法,當(dāng)時主要用于對象識別。2004年,D.G.Lowe[6]對該算子做了全面的總結(jié)及更深入的發(fā)展和完善。隨后,Y.Ke[7]將SIFT算法中的描述子部分用PCA代替直方圖的方式進(jìn)行改進(jìn)。本文主要基于優(yōu)化的SIFT算法進(jìn)行視頻幀的匹配,以求能夠更準(zhǔn)確地計算偏移量,最終達(dá)到更好地進(jìn)行視頻拼接的目的。
SIFT是Scale-invariant feature transform的縮寫,中文翻譯是尺度不變特征轉(zhuǎn)換,對圖像縮放、旋轉(zhuǎn)以及仿射變換保持不變性。本算法主要可以概括為3個步驟。
尺度空間[8]的建立主要是為了模擬圖像的多尺度特征,而一幅圖像的尺度空間可以由該圖像和高斯卷積而得到。高斯卷積核則是實現(xiàn)尺度變換的唯一線性核[9]。然后再對相鄰尺度的兩個高斯圖像相減得到DOG金字塔。在得到DOG尺金字塔之后,接下來對DOG空間中的局部最大值和最小值進(jìn)行檢測,將DOG尺度空間中每一個取樣點與它同一尺度的8個相鄰點以及上下相鄰尺度空間所對應(yīng)的9*2個點共26個點做比較,以確保在尺度空間和二維圖像空間都檢測到關(guān)鍵點。
在檢測到關(guān)鍵點之后,將要為每個關(guān)鍵點指定方向。
(1)
(2)
式(1)、式(2)為關(guān)鍵點(x,y)的模和方向公式[10]。L為每個關(guān)鍵點各自所在的尺度。在視頻幀匹配過程中,在以關(guān)鍵點為中心的鄰域窗口內(nèi)取樣,并用梯度方向直方圖統(tǒng)計鄰域像素的梯度方向,以直方圖的峰值作為關(guān)鍵點鄰域像素的梯度主方向,以大約達(dá)到主峰值80%能量的峰值作為輔方向,實驗證明,關(guān)鍵點具有多方向可以增強魯棒性。為保證旋轉(zhuǎn)不變性,將坐標(biāo)軸旋轉(zhuǎn)到關(guān)鍵點方向,再以關(guān)鍵點為中心,取8*8的窗口,形成2*2個種子數(shù),每個種子數(shù)對應(yīng)一個2*2像素小塊,在每個小塊中分別計算8個方向的梯度直方圖,最終獲得64維的關(guān)鍵點描述子。
圖1
據(jù)此,首先建立直角坐標(biāo)系,如圖1所示,將待匹配的左圖記為img1,右圖記為img2。
本文的實驗環(huán)境如下:操作系統(tǒng)為Window XP,平臺VS2005+OPNECV2.3.1。所采集的視頻幀大小為480*480,均受到不同程度的旋轉(zhuǎn)、縮放、視角變化、亮度和噪聲等因素的影響。用優(yōu)化的SIFT算法和原SIFT算法分別對所采集的視頻幀進(jìn)行匹配實驗,將得到的匹配點對數(shù)和最后得出的偏移量進(jìn)行對比。
圖2 圖3
表1
匹配點對偏移量時間SIFT172(142,-412)13.1s優(yōu)化后的SIFT63(168,-464)10.8s
由圖2和圖3的匹配線對進(jìn)行直觀進(jìn)行比較,再將優(yōu)化前后所得到的數(shù)據(jù)對比,見表1,可以很明顯地看出,優(yōu)化后的SIFT算法對那些錯誤的匹配點對進(jìn)行了很好的消除。再根據(jù)上面計算出來的偏移量進(jìn)行拼接,為便于進(jìn)行對比,將拼接后的圖像顯示如圖4(基于傳統(tǒng)SIFT算法的拼接圖)和圖5(基于優(yōu)化的SIFT算法的拼接圖)。
圖4圖5
從拼接后的圖片可以看出,優(yōu)化的SIFT算法消除了重復(fù)區(qū)域拼接的模糊性,在拼接的效果方面優(yōu)于以前。在實際應(yīng)用中,優(yōu)化的SIFT算法提高了視頻拼接時所需偏移量計算的準(zhǔn)確性。這對于視頻拼接所要求的實時性和高效性具有非常重要的意義。
實驗結(jié)果表明,優(yōu)化的SIFT算法在視頻拼接中能實現(xiàn)準(zhǔn)確計算偏移量,對于真正的生產(chǎn)和應(yīng)用具有很重要的意義。但是存在以下問題:(1)在時間方面應(yīng)該可以進(jìn)一步提高;(2)對于無匹配點或者只有一對匹配點的情況無法進(jìn)行處理。
參考文獻(xiàn):
[1]Moravec H.Rover visual obstacle avoidance[C].International Joint Conference on Artificial Intelligence.Vancouver,Canada,1981:785-790
[2]Harris C,Stephens M.A combined corner and edge detector[C].Alvey vision conference,1988:147-151
[2]Harris S,Dawson-Hughes B.Seasonal mood changes in 250 normal women[J].Psychiatry research,1993,49(1):77-87
[3]Harris M,Freeman T,Hughes J.Retinal speed gradients and the perception of surface slant[J].Vision research,1992,32(3):587-590
[4]Mikolajczyk K,Schmid C.Scale & affine invariant interest point detectors [J].International journal of computer vision,2004,60(1):63-86
[5]Shimkets R A,Lowe D G.Gene expression analysis by transcript profiling coupled to a genedatabase query[J].Nature biotechnology,1999,17(8):798-803
[6]Lowe D G.Distinctive image features from scale-invariant key-points[J].International journal of computer vision,2004,60(2):91-110
[7]Ke Y,Sukthankar R.PCA-SIFT:A More Distinctive Representation for Local Image Descriptors[J].Computer Vision and Pattern Recognition,2004,2(2):506-513
[8]Perona P,Malik J.Scale-space and edge detection using anisotropic diffusion[J].Pattern Analysis and Machine Intelligence,IEEE Transactions,1990,12(7):629-639
[9]Babaud J,Witkin A P,Baudin M,et al.Uniqueness of the Gaussian kernel for scale-space filtering[J].Pattern Analysis and Machine Intelligence,IEEE Transactions,1986(1):26-33
[10]卜凡艷,檀結(jié)慶.利用SIFT算子與圖像插值實現(xiàn)圖像匹配[J].計算機(jī)工程與應(yīng)用,2011,47(16):156-158