張樹靜,閆宇
(1.河南科技學院,河南新鄉(xiāng) 453003;2.上海交通大學,上海 200240)
特征描述的方法已經(jīng)廣泛應用于計算機視覺的許多領域,比如目標識別與跟蹤、紋理識別、寬基線匹配、圖像檢索和全景圖像拼接等.其基本思想是在檢測感興趣點或感興趣區(qū)域的基礎上計算不變特征描述子.通過計算獲得特征描述子,可以使得不同圖像之間的特征匹配在一些相似性度量下得到自動確定.
特征描述的方法主要分為3類:基于灰度值、基于灰度階以及基于灰度值與灰度階結(jié)合的方法.基于灰度值的特征描述方法中最著名的是SIFT(Scale Invariant Feature Transform)[1],SIFT主要是通過創(chuàng)建梯度方位和位置直方圖的方式進行特征描述.此方法對一定的尺度變化、旋轉(zhuǎn)和平移具有不變性.然而,當圖像出現(xiàn)大的視角變化時,算法性能就會降低,并且計算過程非常耗時.Daisy[2]同樣依賴于梯度直方圖,與SIFT不同的是,它通過使用高斯權(quán)重和圓形對稱核與方位地圖進行卷積,從而大大提升了密集計算的速度.這種基于灰度梯度的描述子通常能獲得較好的性能.然而,盡管上述描述子對許多變化或變形具有魯棒性,但是它們不能處理復雜的光照變化,包括伽馬修正和小的鏡面反射,以及在曝光時間內(nèi)的變化等.為了解決上述問題,一些學者提出使用灰度階來描述特征.Tang等[3]通過創(chuàng)建2D直方圖的方式編碼序數(shù)分布和空間分布.Gupta等[4]提出了一種魯棒的方法HRI-CSLTP(Histogram Relative Intensity-Central Symmetric Local Ternary Patterns),其包含兩部分:相對灰度直方圖和CS-LTP編碼直方圖.隨后,Wang等[5]提出一種新的基于灰度階的特征描述方法LIOP(Locality Intensity Order Pattern),其基本原則是當灰度變化呈現(xiàn)單調(diào)性時,像素灰度的相對階保持不變.Fan等[6]提出了兩種特征描述子:MROGH(Multi-Support Region Order-based Gradient Histogram) 和 MRRID(Multi-Support Region Rotation and Intensity Monotonic Invariant Descriptor),并指出兩者具有旋轉(zhuǎn)不變性并且不依賴于指定的參考取向,同時具有很高的區(qū)分性.
為了進一步探究上述各種描述子的性能,以便更好地服務于實際工程應用,本文基于灰度階的特征描述方法,首先分析了各種方法的組成及其在不同場景下的應用;其次利用不同場景下的圖像進行測試,評估各種方法的性能;最后通過實驗比較分析各種方法的應用場景,為其后續(xù)的實際工程應用提供指導作用.
利用特征描述子匹配圖像中的點主要有3個步驟:①檢測圖像中的感興趣點或感興趣區(qū)域.被檢測的點應該在不同成像條件下的圖像間被檢測和匹配,這些點稱作感興趣點或特征點.特征點檢測通常跟隨額外的步驟,檢測感興趣點周圍的仿射不變區(qū)域,以便處理大的視角變化.②在上述檢測到的感興趣區(qū)域(仿射歸一化)中建立特征描述子,以便將其區(qū)分開來.③計算兩個候選點描述子之間的距離以決定是否是一個正確的匹配.
本文以基于灰度階的特征描述方法中具有代表性的4種描述子(HRI-CSLTP,LIOP,MROGH和MRRID)為例,分析這幾種描述子的建立過程.
1.1.1 H RI-CSLTP方法 HRI-CSLTP是Gupta等[4]提出一種魯棒的基于灰度階的特征描述方法,其包含兩部分:相對灰度直方圖和CS-LTP編碼直方圖.與大多數(shù)描述子一樣,首先需要檢測圖像中的感興趣點或感興趣區(qū)域.被檢測的點應該在不同成像條件下的圖像間可以被檢測和匹配.部分學者已經(jīng)提出許多方法用來檢測感興趣點或與某一類變換(如仿射變換)具有協(xié)變式的感興趣區(qū)域.如Harris角點檢測子[7]和DOG(Difference of Gaussian)用來檢測感興趣點,Harris-affine,Hessian-affine,MSER(Maximally Stable ExtremalRegion)和EBR(Edge-Based Region)用來檢測仿射協(xié)變區(qū)域.HRI-CSLTP采用廣泛使用的仿射協(xié)變區(qū)域檢測子Harris-affine和Hessian-affine來定位特征位置和估計其鄰域的仿射形狀.由于檢測到的區(qū)域尺寸和形狀各異,文中將其歸一化到固定直徑的圓形區(qū)域.為了消除在歸一化步驟中由于差值引入的噪聲,使用高斯平滑濾波器消除噪聲影響,最后得到局部塊.
為了提升區(qū)分性,需要將上述得到的局部塊分割為一些子區(qū)域,分別計算每個子區(qū)域的直方圖,將其連接起來建立描述子.HRI-CSLTP將空間位置量化為4*4的網(wǎng)格.對每個局部塊,必須估計一個局部連續(xù)的取向,然后相對于這個取向建立描述子以獲得旋轉(zhuǎn)不變性.
在對區(qū)域進行劃分之后,建立描述子.HRI-CSLTP采用兩種技術:相對灰度直方圖HRI和中心對稱局部三值模式(CS-LTP).前者首先根據(jù)局部塊(patch)的灰度起點和終點將灰度范圍分為k個相同的間隔,獲得每個間隔大小.然后將局部塊(patch)分為s*s個空間bins,對每一個空間bin,根據(jù)像素灰度范圍建立直方圖,因此獲得s*s*k個bins.雖然它作用于塊(patch)的整體分布,但它沒有捕捉到局部梯度信息,而這些信息與全局階信息具有互補作用.因此,后者主要作用于局部梯度信息,它在CS-LBP的基礎上,采用第三個值來表示幾乎具有相同灰度值的像素.然而,如果采用類似于CS-LBP的比較方法,將獲得81bins的直方圖.為了減小直方圖的尺寸,只考慮兩次比較.由于特征歸一化和通用的圖像特征,僅采用對角比較就足以生成CS-LTP編碼,由此對于每個空間bin可以獲得9bins的直方圖.對于值為1的編碼,也即兩個匹配點的灰度值相差很小,更傾向于漂移,因此賦予更小的權(quán)重.因此,每個空間bin的數(shù)量減小到8,生成s*s*8維的CS-LTP描述子.將前者與后者得到的直方圖連接起來形成最后的描述子.然而,由于上述描述子只比較中心對稱鄰域采樣點的灰度,不能有效捕捉鄰域采樣點灰度之間的關系.此外,它需要分配一個參考取向以獲得旋轉(zhuǎn)不變性,這使得它對方位估計誤差比較敏感.
獲得描述子向量之后的問題就是如何計算兩個候選點之間的距離,從而判定這兩個點是否是匹配點.目前最著名的決策策略是最近鄰(Nearest Neighbour,NN)和最近鄰距離比(Nearest Neighbour Distance Ratio,NNDR)[8].此外,EMD(Earth Movers Distance)對于許多描述子表現(xiàn)出更優(yōu)的性能.因此,HRI-CSLTP[4]采用EMD來匹配兩個描述子向量之間的相似性.對于直方圖而言,EMD定義為將一個直方圖轉(zhuǎn)換到另一個直方圖的最小代價,在直方圖的bins之間有一個“基準距離”.基于數(shù)學的分析角度,這是一個最小代價流問題,可以利用線性規(guī)劃來解決.
1.1.2 L I OP方法 LIOP(Locality Intensity Order Pattern),即局部灰度階模式,是Wang等[5]提出的一種新的基于灰度階的特征描述方法,其基本原則是當灰度變化呈現(xiàn)單調(diào)性時,像素灰度的相對階保持不變.
與HRI-CSLTP一樣,LIOP采用廣泛使用的仿射協(xié)變區(qū)域檢測子Harris-affine和Hessian-affine來定位特征位置和估計其鄰域的仿射形狀.由于檢測到的區(qū)域尺寸和形狀各異,同樣將其歸一化到固定直徑的圓形區(qū)域.為了消除在歸一化步驟中由于差值引入的噪聲,使用高斯平滑濾波器消除噪聲影響,最后得到局部塊.
為了提升描述子區(qū)分性,LIOP采用了基于灰度階的區(qū)域劃分方法.首先,局部塊中的所有像素按其灰度大小進行非降序排列.其次,根據(jù)排序?qū)⒕植繅K等量量化成B個序數(shù)bins.因此,它不僅對單調(diào)灰度變化和圖像旋轉(zhuǎn)不變,同時比上述環(huán)形區(qū)域劃分方法包含更多的空間信息.
對區(qū)域進行劃分之后,建立描述子.為了克服HRI-CSLTP對方位估計誤差比較敏感的問題,LIOP使用所有采樣鄰域點的灰度階來挖掘局部信息.此外,它采用旋轉(zhuǎn)不變采樣方法以避免局部連續(xù)取向帶來的誤差,因此獲得了更高的區(qū)分性.然而,對于一個特定尺寸的支持域(support region),當兩個非對應點具有相似的表觀模型時,LIOP可能將其認為是一對對應點,因此區(qū)分性消失.
獲得描述子向量之后的問題就是如何計算兩個候選點之間的距離,從而判定這兩個點是否是匹配點.LIOP采用著名的NNDR(Nearest Neighbour Distance Ratio)匹配策略來計算兩個特征點描述子向量之間的點積,如果第一個和第二個最近鄰點的距離比值小于某一閾值,則認為是一個匹配.
1.1.3 MROGH和M RRID方法 由于MROGH和MRRID均是由Fan等[6]提出的,有較多相似之處,本文將其進行統(tǒng)一分析.MROGH(Multi-Support Region Order-based Gradient Histogram)[9]和 MRRID(Multi-Support Region Rotation and Intensity Monotonic Invariant Descriptor)[10]采用兩種不同的局部特征,前者聯(lián)合灰度階和梯度信息,后者完全基于灰度階,因此后者不僅能適應線性光照變化,對于大的光照變化也具有一定的魯棒性.除此之外,它們具有旋轉(zhuǎn)不變性而不依賴于指定的參考取向,同時具有很高的區(qū)分性.
與前面兩種描述子一樣,MROGH和MRRID采用廣泛使用的仿射協(xié)變區(qū)域檢測子Harris-affine和Hessian-affine來定位特征位置和估計其鄰域的仿射形狀.隨后再將其歸一化到固定直徑的圓形區(qū)域.圖1展示了歸一化區(qū)域的一個案例.支持域被歸一化到圓形區(qū)域,歸一化的點的灰度通過雙線性差值獲得.為了消除在歸一化步驟中由于差值引入的噪聲,使用高斯平滑濾波器消除噪聲影響,最后得到局部塊.
圖1 將被檢測區(qū)域仿射歸一化到圓形區(qū)域Fig.1 Affine detection area will be normalized to a circular area
在獲得局部塊之后,將上述得到的局部塊分割為一些子區(qū)域,分別計算每個子區(qū)域的直方圖,將其連接起來建立描述子.與LIOP一樣,MROGH和MRRID[6]也是基于灰度階來劃分子區(qū)域.基于此類情況,每一組中的采樣點不需要空間相鄰,并且這種自適應劃分方法不需要分配一個參考取向,從而大大提升了描述子的區(qū)分性.
在對區(qū)域進行劃分的基礎之上,MROGH和MRRID采用多個不同尺寸的支持域來建立描述子.與LIOP類似,它們同樣采用基于灰度階和旋轉(zhuǎn)不變采樣的方法來建立描述子,在保持魯棒性的同時進一步提升了描述子的區(qū)分性.
與LIOP一樣,MROGH和MRRID采用著名的NNDR(NearestNeighbour Distance Ratio)匹配策略來計算兩個特征點描述子向量之間的點積,如果第一個和第二個最近鄰點的距離比值小于某一閾值,則認為是一個匹配.
為了評估上述各種特征描述子的性能,本文選擇來自于牛津大學網(wǎng)站的標準Oxford數(shù)據(jù)集.它包含結(jié)構(gòu)和紋理場景的幾何和光學變換圖像.6種不同的變換分別為:視角變化、尺度變化、圖像旋轉(zhuǎn)、圖像模糊、光照變化和JPEG壓縮.實驗在Inte(lR)Core(TM)CPU 3.10Ghzde的PC機上進行,仿真環(huán)境為MATLABR2010a.此外,選擇Mikolajczyk和Schmid[8]提出的評估準則來評價描述子匹配的性能.它基于兩幅圖像之間正確匹配和錯誤匹配的數(shù)量.匹配策略以NNDR為例,如果第一個和第二個最近鄰點的距離比值小于某一閾值,則認為是一個匹配.正確匹配和基準對應點的數(shù)量由重疊誤差來確定.如果重疊誤差小于0.5,則認為是一對正確匹配.結(jié)果可以用精度召回曲線來表示
其中#correspondences是匹配的基準數(shù)量,#correct matches表示正確匹配的點對數(shù)量,#false matches表示錯誤匹配的點對數(shù)量,#allmatches表示所有匹配的點對數(shù)量.精度越高,recall越大.
對于LIOP,同樣按照Wang等[5]實驗使用的參數(shù),一共有6個:①區(qū)域檢測前的高斯平滑核σp;②區(qū)域歸一化后的高斯平滑核σn;③序數(shù)bins的數(shù)量B;④鄰域采樣點數(shù)N;⑤采樣半徑R;⑥權(quán)重函數(shù)的閾值Tlp.實驗發(fā)現(xiàn),當σp=1.0,σn=1.2,N=4,B=6,R=6,Tlp=5時能獲得更好的性能.就針對HRI-CSLTP,空間bins的數(shù)量為4*4,對于相對灰度直方圖,每個空間bin按灰度值范圍分為16個bins;對于中心對稱局部三值模式,鄰域距離D=2,閾值T=3.對于MROGH和MRRID,需對部分參數(shù)進行設置:空間劃分數(shù)量k,支持域的數(shù)量N,方位bins d,二值編碼數(shù)量m.考慮到描述子的性能和復雜度的折中,對于MROGH,實驗設置參數(shù)d=8,k=6,N=4;對于MRRID,m=4,k=4,N=4.因此,MROGH描述子有192維,MRRID描述子由256維.
為了比較上述基于灰度階的特征描述方法的性能,在標準Oxford數(shù)據(jù)集上進行實驗和分析,其中每個數(shù)據(jù)集包含6幅圖像,采用廣泛使用的仿射協(xié)變區(qū)域檢測子:Harris-affine(haraff).Hesaff檢測blob-like結(jié)構(gòu),輸出尺寸不一的橢圓形區(qū)域,然后將其歸一化到固定直徑(41個像素)的圓形區(qū)域.
為了評估MROGH對方位估計誤差的不敏感性(由于其不需要分配方位取向),將其與SIFT描述子(需要分配方位取向)作比較,將得到的紐約城市的兩幅大幅度旋轉(zhuǎn)(旋轉(zhuǎn)角度超過200)圖像進行關鍵點匹配,獲得的匹配結(jié)果如圖2所示.圖中深色線表示正確匹配的點對,淺色線表示錯誤匹配的點對.在圖像發(fā)生較大角度的旋轉(zhuǎn)時,采用MROGH描述子可以獲得大量正確匹配點對,而SIFT描述子會出現(xiàn)很多錯誤匹配.從而驗證了MROGH對方位估計誤差的不敏感性.
圖2 SIFT和MROGH對應點匹配結(jié)果Fig.2 SIFT and MROGH corresponding points matching results
為了定量評估描述子在視角、光照、旋轉(zhuǎn)和尺度變化下的匹配性能,將HRI-CSLTP、LIOP、MROGH和MRRID描述子與廣泛使用的SIFT和DAISY描述子進行比較.由于空間限制,對于Oxford數(shù)據(jù)集,只展示各種描述子在每種情況下的圖像對1-2(第一幅vs第二幅)和1-4(第一幅vs第四幅)上分別使用Harris-affine(haraff)和Hessian-affine(hesaff)區(qū)域上的評估結(jié)果,如圖3所示.圖3中每一行圖像分別為不同描述子使用Harris-affine區(qū)域檢測子在圖像對1-2和1-4上的評估結(jié)果.
圖3 實驗結(jié)果Fig.3 Experimental results
對于同一個數(shù)據(jù)集,當圖像發(fā)生較大變化(圖像4相對于圖像1)時,描述子整體性能呈現(xiàn)下降趨勢.對于光照變化(圖3(b)),相對于其它描述子,MRRID表現(xiàn)出最好的性能.當光照變化較小時(圖3(b)左邊),MRRID性能最好,MROGH次之,LIOP稍遜,均優(yōu)于SIFT、DAISY和HRI-CSLTP;當光照變化劇烈時(圖3(b)右邊),MRRID性能依然保持最好,MROGH與LIOP相當,HRI-CSLTP性能最差.這是由于MROGH、MRRID和LIOP均使用了灰度階,這比單純使用灰度(SIFT、DAISY和HRI-CSLTP)能更好地處理復雜的光照變化.
除了光照變化之外,對于圖像發(fā)生視角、旋轉(zhuǎn)、尺度變化的情況,以上基于灰度階的描述子中,MROGH均表現(xiàn)出最好的性能,MRRID次之,LIOP最差.
綜上所述,基于灰度階的特征描述子在處理許多圖像變換時性能均優(yōu)于基于灰度值的描述子,尤其在處理復雜的光照變化時區(qū)分性更強,性能進一步提升.
本文首先分析了近年來一些主流的基于灰度階的特征描述方法,如HRI-CSLTP、LIOP、MROGH和MRRID.其次,評估了描述子在視角、光照、旋轉(zhuǎn)和尺度變化下的匹配性能,將HRI-CSLTP、LIOP、MROGH和MRRID描述子與廣泛使用的SIFT和DAISY描述子進行了比較分析.最后,通過實驗比較分析了不同描述子在不同場景下的性能.實驗結(jié)果表明,基于灰度階的特征描述子在處理許多圖像變換時性能均優(yōu)于基于灰度值的描述子,尤其在處理復雜的光照變化時區(qū)分性更強,性能進一步提升.上述分析和評估不僅有利于在特定應用情況下選擇合適的算法,同時為后續(xù)設計新的特征描述方法以及應用到工程實踐中提供一定的借鑒.
[1] Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60:91-110.
[2] Tola E,Lepeit V,Fua P.Daisy:An efficient dense descriptor applied to wide-baseline stereo[J].Pattern Analysis and Machine Intelligence,2010,32:815-803.
[3] Tang F,Lim S H,Chang N,et al.A novel feature descriptor invariant to complex brightness changes[C]//IEEE Conf.Computer Vision and Pattern Recognition.[S.l.]:IEEE,2009,2631-2638.
[4] Gupta R,Patil H,Mittal A.Robust order-based methods for feature description[C]//IEEE Conf. Computer Vision and Pattern Recognition.[S.l.]:IEEE,2010,334-341.
[5] Wang Z H,Fan B,Wu F C.Locality intensity order pattern for feature description[C]//IEEE International Conference on Computer Vision.IEEE,2011,603-610.
[6] Fan B,Wu F,Hu Z.Rotationally invariant descriptors using intensity order pooling[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2012,34(10):2031-2045.
[7] Harris C,Stephens M.A combined corner and edge detection[C]//Alvey Vision Conference,1988:147-152.
[8] Mikolajczyk K,Schmid C.A performance evaluation of local descriptors[J].Pattern Analysis and Machine Intelligence,2005,27(10):1615-1630.
[9] Wang H,Ullah M M,Klaser A,et al.Evaluation of local spatio-temporal features for action recognition[C]//Proc.British Machine Vision Conf,2009:1-11.
[10] Rao C,Yilmaz A,Shah M.View-invariant representation and recognition of actions[J].International Journal of Computer Vision,2002,50(2):203-226.