張 瑛
(沈陽音樂學院)
目前國內外關于實時圖像的識別方法主要包括基于人工標志和基于特征點兩種方式.由于人工標志方法不適合于復雜多色素圖像的識別,而特征點方法處理速度復雜多色素圖像的識別非常慢[1].所以該文從圖像識別的實時性和圖像識別的準確性兩個方面進行研究,采用圖像金字塔算法和FAST相結合的算法進行探討,分別闡述SIFT、SURF和ORB算法的產(chǎn)生與實現(xiàn)過程,以便于能夠選擇適合移動設備實時圖像識別系統(tǒng)應用的算法.
SIFT(Scale-invariant feature transform)算法是一種以尺度空間原理進行圖像局部特征的檢測,識別出圖像的特征點,保證圖像的尺度不變[4].通過SIFT算法在尺度空間中進行圖像的特征點信息的挖掘,算法流程如圖1所示。
圖1 SIFT 算法流程
首先,生成尺寸空間提取極值點.構建方程:
(1)
I(x,y)為原始圖像,σ為圖像尺度因子,G(x,y,σ)為二維高斯核,L(x,y,σ)為尺度空間.SIFT算法雖然可以通過尺度空間定位圖像特征,但是其在檢測效率方面并不理想,所以提出高斯差值DOG(Difference of Gaussian)方法[5],結合圖像卷積獲取極值點.假設二維空間原始圖像I(x,y),DOG使用k系數(shù)和相鄰尺度的差值做計算,得到公式:
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))×I(x,y)=L(x,y,kσ)-L(x,y,σ)
(2)
DOG算子可以在圖像的上下層之間做差值,減少計算的時間.建立DOG尺度空間后,對其求極值點,讓每個采集點的周圍相鄰8個點遍歷作比較,其上下兩層各自9個點,除了計算自身點外還包括26個像素點進行依次比較,當中間層像素點大于其他26個點時,可判斷中間層像素點即為極值點.其次,進行特征點位置的精準確定.特征點集中存在低對比度和邊緣位置的特征點,所以需要曲線擬合尺度空間的DOG函數(shù),對其進行泰勒展開得到公式:
(3)
X=(x,y,σ)為關鍵點偏移量,將其做偏導,設值為0,得到X的極值為:
(4)
將(3)與(4)結合,刪除不穩(wěn)定極值點,再考慮去除邊緣處特征點,利用閾值來判斷邊緣上是否存在極值點,利用2×2海瑟矩陣H求出:
(5)
假設r為特征值之間的比值,則α=rβ,得出:
(6)
當r>1時,(r+1)2/r為單調遞增,比值隨著r的增大而增加,通常r=10具有較好的性能.
最后,進行特征點的方向描述.直方圖由36塊組成,每塊為10°[7].梯度大小由像素梯度大小累加而得,那么主方向則可以看作直方圖的縱坐標最大值.以此推導,若是以4×4子窗口,則共計128維特征向量描述符.
SURF(Speeded-Up Robust Features)算法,是以圖像特征為依據(jù)在SIFT廢的基礎上,保持尺度不變、旋轉不變的特征,更加具有較好的魯棒性,并且可以縮短檢測的時間[9].SURF與SIFT算法在尺度空間構建、主方向生成、描述符生成三個方面的比較見表1.
表1 SURF & SIFT 比較
SURF算法采用積分圖像的方法進行計算[10],可以提升計算效率,假定圖像I及其中的任意一點像素P(x,y),那么通過積分圖像可以將圖像I的原點I(0,0)與P(x,y)共同組成矩陣區(qū)域,再在這個區(qū)域內進行內部所有像素值的和,計算公式如下:
(7)
采用積分圖像進行計算求像素值之和,假設矩形區(qū)域為S,A、B、C、D為四個角點,則S=A+D-(B+C).對于識別單幅圖的特征識別可以保證圖像大小不變的情況下通過改變?yōu)V波器大小加速計算.
Hessian矩陣定義:
(8)
Lxx(X,σ)為高斯濾波后x方向二階導數(shù),Lxy(X,σ)和Lyy(X,σ)分別是高斯濾波后xy和y的方向的二階導數(shù):
∑wX(xi+1,yi+1)-X(xi+1,yi)-X(xi,yi+1)+X(xi,yi)
(9)
∑w為區(qū)域的四個點積分圖像值,xi,xi+1,yi,yi+1為像素值.采用盒子濾波器近似替換二階高斯濾波,得到Dxx,Dxy,Dyy表示圖像卷積:
Δ(H)=DxxDyy-(0.9Dxy)2
(10)
為SURF建立描述子,每個關鍵特征點在以6S為半徑的圓形空間內都擁有一個主方向,將S作為特征點所對應的尺度大小,利用4S的Haar小波模板求x和y方向的響應,計算在圓形空間內像素點Haar特征中水平與垂直方向響應,保持旋轉不變性.
若x方向為dx,y方向為dy,對其響應值dx、dy、|dx|、|dy|求和,每個子塊含有一個4維向量w,表達式可表示為:
w=(∑dx,∑dy,∑|dx|,∑|dy|)
(11)
由此該特征點描述由4×4×4組成,得到描述符維數(shù)向量為64.
將SIFT與SURF檢測特征點的算法進行消耗時間的比較,看兩個算法在實時圖像處理方面的效率,采用三幅圖進行檢測時間的計算,特征點檢測數(shù)目及檢測時間比較結果見表2.
表2 特征點檢測與檢測時間的比較
由此可見,在算法效率上SUFR算法要相比SIFT算法縮短近一倍的時間,但是從檢測效果上來看,SIFT算法明顯要優(yōu)于SURF算法.
ORB(Oriented FAST and Rotated BRIEF)算法公式為:
(12)
p(x)作為圖像鄰域P在像素點x處的灰度值,p(y)為y處的灰度值.
選擇n個(x,y)像素位置對不同的n值在存儲、處理速度和識別率方面進行評價,BRIEF描述子為n維的二進制比特串:
(13)
假設兩幅圖像特征描述子為B={b1,b2,b3,…,bn}和C={c1,c2,c3,…,cn},則可以通過距離之間的異或之和表示描述子的相似度:
(14)
Dk(i,j)的值越小則表示相似度越高.
在通過RANSAC提純后,同樣選擇之前的三幅圖進行三種算法的匹配個數(shù)與消耗時間進行比較得出結果見表3.
表3 匹配次數(shù)與消耗時間的比較
在該文的研究中,主要側重于圖像識別的實時性,所以通過以上結果的比較ORB算法符合Android移動設備實時圖像識別系統(tǒng)的應用.
該文所設計的基于Android實時圖像識別系統(tǒng)是在改進圖像特征識別算法的基礎上利用ORB算法進行圖像的跟蹤與定位,系統(tǒng)的實現(xiàn)流程如圖2所示.
圖2 系統(tǒng)流程
視頻圖像和基準圖像的采集是利用Android移動設備攝像頭進行圖像信息的采集,利用Android JNI方法調用本地C++代碼執(zhí)行,通過ORB算法快速提取特征點及其描述信息,并存儲在本地圖像特征庫匯中,再通過RANSAC方法進行基準圖像與視頻幀的匹配提純,消除錯誤匹配點,估計攝像頭的拍攝角度和位置,最后利用OPENGLES進行圖像特征的繪制,識別出圖像.根據(jù)基于Android實時圖像識別系統(tǒng)設計流程將系統(tǒng)設計的步驟劃分為六個部分:
(1)圖像采集.無論是在何種環(huán)境下,通過Android移動設備攝像頭對真實場景進行實時圖像的采集.
(2)JNI方法傳輸數(shù)據(jù).JNI方法傳輸數(shù)據(jù)是通過JNI方法調用Android系統(tǒng)下的C/C++庫,實現(xiàn)混合編程,將攝像頭采集到的視頻幀通過C/C++代碼執(zhí)行,處理特征點的提取與匹配.
(3)視頻圖像特征提取.通過對SIFT算法、SURF算法和ORB算法的比較分析,確定該文采用了ORB算法進行Android移動設備實時圖像識別.
(4)基準圖像與視頻幀的匹配.利用RANSAC方法對配比信息進行提純,建立基準圖像與視頻幀的匹配的單應關系.
(5)攝像頭姿態(tài)估計.攝像頭的姿態(tài)估計采用三維跟蹤注冊,提取攝像頭拍攝到的現(xiàn)實場景下目標物體的注冊信息,通過視頻幀上找出虛擬物體的具體位置信息.在此過程中,采用透視模型推導出的透視投影變換,再通過單應矩陣在現(xiàn)實場景中目標物體到其圖像點之間的一個對應矩陣將基準圖像平面點集合與目標圖像平面上的點集合的位置關聯(lián),形成映射關系.
(6)繪制虛擬物體.以Android開發(fā)環(huán)境下,提供了OPENGLES三維圖形API子集,可針對移動嵌入式設備進行編程開發(fā)繪制3D虛擬物體.再通過繪制的圖形,OPENGLES將得到的R、T用來組成新的數(shù)組數(shù)據(jù),將虛擬圖像與基準圖像融合達到實時圖像識別的效果.
基于Android實時圖像識別系統(tǒng)采用引用值進行信息傳遞,加快找準基準圖像,減少遍歷時間,可將系統(tǒng)模塊劃分為四個模塊,包括:UI模塊、特征點及描述符提取模塊、特征匹配模塊和繪制圖像模塊.UI模塊是系統(tǒng)與用戶的交互控制模塊,該模塊包含Android視頻組件和菜單項,通過菜單可以控制Android攝像頭對應的模式.提取特征點和描述符模塊是建立圖像特征庫,用于存儲圖像數(shù)據(jù)到本地數(shù)據(jù)庫,并通過JNI調用實現(xiàn)模塊的提取.特征匹配模塊是根據(jù)Android圖像識別系統(tǒng)的菜單選項值來提取對應的圖像特征點檢測和描述符,利用RANSAC篩除誤配點.繪制圖像模塊是根據(jù)選項值和對應的圖像特征數(shù)據(jù)進行圖像的識別繪制,利用OPENGLES圖形繪制庫完成對圖像特征的繪制與識別.
該次實驗是利用Android開發(fā)平臺所提供的JNI方法調用本地C++余元進行編程設計,Android設備攝像頭視頻圖像大小為640×480像素.實驗采用不同角度和部分遮擋的情況下實時拍攝作為實驗方法,經(jīng)過Android設備攝像頭所拍攝并處理圖像以85ms的平均每幀進行刷新,選擇系統(tǒng)不同執(zhí)行方式得到對應的物體形狀如圖3所示.
圖3 實時圖像測試結果
利用ORB算法匹配所呈現(xiàn)的繪制物體通過Android設備處理實現(xiàn)得到結果:圖a為普通場景,在Android設備上獲取的圖像幀與基準圖像同角度;圖像b與圖像c是不同角度變化下的實現(xiàn)結果;圖像d采用紙片進行部分遮擋基準圖像得到的實驗結果.該文所設計的基于Android移動設備實時圖像識別系統(tǒng)對不同角度和部分遮擋的圖像均能完整的、準確的實時定位跟蹤圖像,并且具有較好的魯棒性.
再選取不同的三幅圖像進行實驗,分別是openvc立方體物體基準圖像、java長方體物體基準圖像、python錐形體物體基準圖像.Android設備菜單鍵顯示不同物體圖像如圖4所示.
圖4 設備菜單鍵顯示不同對象的圖像
得到結果表明,通過識別系統(tǒng)的選項菜單鍵功能可以直接作為識別的引用值,當選擇openvc選項值時,Android設備的屏幕上顯示出openvc選項值對應的立方體物體,選擇java選項值時會在屏幕上顯示出對應的長方體物體,選擇python選項值時,會在屏幕上顯示出對應的錐體物體.
通過該文提出的基于ORB算法匹配而設計的Android移動設備圖像識別提供測試可以看出,該系統(tǒng)能夠較好的識別出圖像,并且檢測效率也有明顯的提高,能夠滿足實時圖像識別的要求.
該文所設計的基于移動設備的圖像識別系統(tǒng)以圖像特征點進行計算,利用算法比較的方法證明FAST算法在圖像識別中具有較好的識別效果,但是因為缺少尺度不變的特征,其缺點是檢測效率低,因此要對其進行BRIEF描述符的改進,由此提高設備對場景檢測的效率,在匹配方面,采用基于FAST改進的ORB算法解決當前特征點檢測算法在處理目標遮擋與目標高速移動狀態(tài)下的實時圖像識別困難,通過單應性矩陣找出視頻幀的可匹配點.在Android設備上以C++語言編程優(yōu)勢進行實時處理,通過實驗得出系統(tǒng)對于圖像的跟蹤定位具有較好的準確性和實時性.雖然該文對現(xiàn)有算法進行了一系列的改進但是面對移動設備的快速搖晃仍然具有一定的局限性,并且對于檢測目標物體的遮擋僅采取了少面積的遮擋,如果大面積的遮擋則仍存在魯棒性不足的問題.在系統(tǒng)設計方面也需要對圖像檢測算法在硬件設備加速方面進行進一步的研究.
參 考 文 獻
[1] Gerhard Schall,Tobias Langlotz.Mobile Augmented Reality:Robust detection and tracking of annotations for out door augmented reality browsing[J].Computers & Graphics, 2011, 35(4):831-840.
[2] Ertl P, Bernhard Rohde A, Selzer P.Fast Calculation of Molecular Polar Surface Area as a Sum of Fragment-Based Contributions and Its Application to the Prediction of Drug Transport Properties[J].Journal of medicinal chemistry, 2017, 43(20):3714-3717.
[3] 劉洋,韓廣良,史春蕾.基于SIFT算法的多表情人臉識別[J].液晶與顯示, 2016,31(12):1156-1160.
[4] 韓峰,韓文靜.一種改進SURF算法的視覺定位[J].電光與控制,2016(7):29-33.
[5] 吳延峰.基于OpenCV的實時人臉識別系統(tǒng)研究與實現(xiàn)[D].華北電力大學, 2016.
[6] 吉冬玉.基于ORB算法的圖像匹配方法研究[D].陜西師范大學, 2016.