樊一娜,郎 波
(北京師范大學珠海分校 信息技術(shù)學院,廣東 珠海 519087)
選取一個好的特征并且設(shè)計出相應(yīng)的表征方法是物體識別模型的前提。在人類對物體的感知屬性中,形狀信息可能是最能引起視覺注意的一個特征,相比其他屬性(比如顏色、紋理等)可以使觀察者預(yù)測關(guān)于物體的更多信息。除此之外,形狀信息也是物體最穩(wěn)定的屬性,它不隨圖像亮度、對比度等因素的變化而發(fā)生實質(zhì)性的變化。形狀的分解表征決定著一個物體識別模型的最終效果,因為從物體的形狀可以初步確定一個物體的類別,從形狀所拆分得到的部件、部件之間的空間信息、部件之間組成的全局特征都是非常重要的特征。為了衡量帶背景物體之間的形狀相似性,需要一種適合計算機理解的形狀表征方法來量化形狀之間的相似度。基于此,將生物視覺中得到的“朝向特征”與“上下文信息”相融合對物體形狀進行表征,找到一種最適合基于形狀的物體識別模型[1-2]。
如圖1所示,神經(jīng)元感受野的位置居于明暗對比的刺激區(qū)域。
圖1 神經(jīng)元感受野對明暗變化的刺激對比
(1)
結(jié)合文獻[4-6]的研究結(jié)果,神經(jīng)元感受野在物體邊緣上的分布如圖2所示。
圖2 感受野覆蓋在刺激邊緣的分布
(2)
得到最優(yōu)解為:
(3)
計算檢測到的方向與觀測數(shù)據(jù)之間的誤差為:
(4)
為了評估計算結(jié)果,引入最大允許誤差emax,如果優(yōu)化誤差e(k,b) 物體的形狀輪廓由一些基本線段組成,如圖3所示,基本線段之間的互聯(lián)用連接線段表示。 圖3 構(gòu)成輪廓的基本線段(BL,實線)和連接線段(LL,虛線) 底部水平的實線線段的上下文信息由其他所有線段和虛線段決定。圖3中出現(xiàn)兩個夾角(θ,γ),其中θ表示基本線段和連接線段的夾角,γ表示基本線段之間的夾角。底部線段的形狀信息表示為Pj={pj1,pj2,…,pjk},其中pji=(θji,φji),θji表示基本線段BLj和BLi之間的角度,每一條基本線段的形狀特征被整合在一起,組成物體的形狀特征P={P1,P2,…,PK}。對于一個良好的形狀上下文來說,物體真實形狀和上下文之間的描述應(yīng)該是一一對應(yīng)的,具有不同形狀物體對應(yīng)的輪廓上下文肯定也不同。對于具有背景的圖片的輪廓上下文來說,同一類圖片(例如汽車)的相似度是非常大的,而在不同類之間,上下文的相似度就降低了,這一屬性和是否具有背景無關(guān)。輪廓上下文可以用直方圖矩陣來表示: (5) 其中,#表示計數(shù);bin(k)表示一些特定的角度范圍,例如bin(1)表示[0,45°),bin(2)表示[45°,90°]。 得到輪廓特征直方圖后,需要一種相似度度量方法來比較直方圖之間的相似度,因為背景會擴大形狀距離但是不會減少形狀相似度。文中采用相似度累積方式,統(tǒng)計特征直方圖相同位置的最小值,背景的出現(xiàn)并不會減少公共區(qū)域的值,兩條線段的輪廓上下文的相似度可以通過以下公式進行計算: (6) 當兩條線段實際上就是一對匹配的線段時,它們的輪廓上下文直方圖也是很相似的。在文獻[6]中提到了形狀連續(xù)性原理,即如果不同形狀的兩個邊緣點匹配是正確的,那么它們各自相鄰的邊緣點也應(yīng)該是匹配的,將此原理應(yīng)用到相似度計算上,可認為每一條線段特征的相似度可以通過與之相鄰的線段特征之間的相似度進行調(diào)整,如式(7)所示: (7) 線段匹配的基本原理遵循局部一致性準則,即如果測試圖片中的某一條線段是物體的線段,那么與之相鄰的線段也最有可能是物體的線段[7-9]。 給定模板圖像P={p1,p2,…,pk}及測試圖像Q={q1,q2,…,qn}的輪廓上下文特征,利用式(8)實現(xiàn)從模板圖像到測試圖像的匹配: (8) 在實際情況中,測試圖片顯示出的線段數(shù)量會遠遠多于模板圖像的數(shù)量,那么如何尋找映射問題就被轉(zhuǎn)化成一個優(yōu)化問題,如式(9)所示: maxH(x)=xTSx(x∈δ) (9) 其中,x表示測試圖片的索引坐標向量;δ={x∈{0,1}N×1};S∈RN×N,K=‖P‖⊕4,K,N表示模板線段圖和測試線段圖各自的線段數(shù)目。 整個優(yōu)化目標就是從相似矩陣S中找到一個最優(yōu)匹配,使得整個相似度值最大。根據(jù)1.1節(jié)的內(nèi)容,設(shè)定一個利用局部朝向特征之間相似度的計算公式。設(shè)兩對相鄰的線段為M=M1,M2,I=I1,I2,相似度計算公式定義如下: (10) β‖T(I1,I2)-T(M1,M2)‖ (11) 其中,D(a,b)表示線段a,b中點之間的距離;T(a,b)表示線段a,b之間歸一化的角度值;α,β是權(quán)重值(α>β),且α+β=1,隨著線段數(shù)目的變化而變化。 線段匹配算法是整個物體識別的重要組成部分,在實際物體檢測中,面對的困難主要是測試圖像包含太多的背景線段會對識別過程產(chǎn)生干擾。由于線段匹配是直接從相似矩陣S中進行匹配,沒有考慮到線段之間的位置關(guān)系,找出來的匹配有可能不符合最終的結(jié)果,如圖4所示。到了實際物體檢測階段,主要工作就是去除背景因素的影響,找到更為精確的物體邊界。物體相似度就是將所有匹配好的線段對的相似度相加,隨著越來越多的測試物體的線段被匹配,得到的匹配結(jié)果也越精確,最終模板M與測試形狀I(lǐng)之間的相似度表示如下: (12) 原始測試圖 由輪廓上下文組成的測試圖像 為了處理同一幅圖片中出現(xiàn)的多個相同類別的物體,可以先設(shè)置一個閾值η,當一幅圖像檢測出來的物體相似度值高于η時,繼續(xù)對同一幅圖像進行搜索,直至找出的物體相似度值小于η為止,具體流程如下: 輸入:模板線段M={M1,M2,…,Mk},測試圖線段I={I1,I2,…,Ik} 1.得到線段隊列QM,計算I,M的輪廓上下文 2.計算相似度: 3.調(diào)整相似度: 4.得到起始線段:start←DEQUEUE(Q) 5.fori=1∶ndo simi(start,Ii)←S(start,I) end 6.pre←start 7.while 隊列Q非空 do 出隊:q=DEQUEUE(Q) forIi∈Ido end end 8.fori=1∶kdo end (13) 實驗采用的數(shù)據(jù)集是ETHZ形狀數(shù)據(jù)集,參與測試的圖片分別與其中模板進行匹配,得到各自不同的匹配結(jié)果,每次識別某一類物體時,其他包含另外四種類別的圖像都被當作負例。利用ETHZ圖庫自帶的模板,即每個物體類別只有唯一的一個模板,不需要設(shè)計多個不同形狀的模板依次進行比較。識別過程是建立在形狀匹配的基礎(chǔ)上進行的,匹配結(jié)果如圖5所示。從實驗結(jié)果可以發(fā)現(xiàn),即便物體的尺度發(fā)生變化,文中方法還是可以利用同樣一個模板找到物體的位置并匹配物體的準確輪廓。在識別過程中沒有使用諸如滑動窗口、霍夫投票等方法,這表明該形狀表征具備尺度不變的性質(zhì)。 文中使用ETHZ形狀來驗證物體識別的準確性。該圖庫包含5個物體類,共計255張圖像,其中蘋果圖像40張,瓶子圖像48張,長勁鹿圖像87張,杯子圖像48張,天鵝圖像32張。圖庫對每一個類別提供一個手工模板原型,如圖6所示,這使得圖庫對基于形狀匹配的物體識別具有評判的標準。255張圖片都作為測試圖,分別與五個模型進行匹配,得到各自不同的匹配結(jié)果。 圖5 ETZH圖庫形狀匹配結(jié)果 圖6 ETZH圖庫提供的手工模板原型 評價指標采用FPPI(false positive per image)和DR(detection rate)進行衡量,F(xiàn)PPI表示識別的所有結(jié)果圖像中假正例出現(xiàn)的比例,DR表示檢測結(jié)果中找出的正例占所有正例數(shù)的比率,即識別率。五個類別的DR-FPPI統(tǒng)計數(shù)據(jù)如圖7所示,對比算法分別來自文獻[11-14]。從實驗結(jié)果可以看出,文中提出的模型在識別率方面占有一定的優(yōu)勢。 圖7 ETHZ圖庫的DR-FPPI對比數(shù)據(jù) 物體識別是計算機視覺的一個重要研究方向,而形狀匹配則是其中最為關(guān)鍵的步驟。文中提出的基于物體朝向的特征是一種尺度不變的形狀表征方法,結(jié)合了生物視覺通路的原理,利用通路中簡單細胞和復(fù)雜細胞感受到的朝向特征來構(gòu)造基于物體輪廓的形狀表征模型,并與自適應(yīng)的上下文信息整合到一起,適用于帶有復(fù)雜背景的形狀匹配[15]。但是,目前基于形狀匹配標準的模板都是人工設(shè)計的,在后期的工作中,要從改善表征模型入手,結(jié)合機器學習的手段,實現(xiàn)從海量圖片中自動學習到模板原型。 參考文獻: [1] 李新德,劉苗苗,徐葉帆,等.一種基于2D和3D SIFT特征級融合的一般物體識別算法[J].電子學報,2015,43(11):2277-2283. [2] 劉 曦,史忠植,石志偉,等.一種基于特征捆綁計算模型的物體識別方法[J].軟件學報,2010,21(3):452-460. [3] EINEVOLL G T.Mathematical modelling in the early visual system:why and how[C]//NATO advanced institute series:modulation of neuronal signaling:implications for visual perception.Amsterdam:IOS Press,2003. [4] CRONER L J,KAPLAN E.Receptive fields of P and M ganglion cells across the primate retina[J].Vision Research,1995,35(1):7-24. [5] XU X,BONDS A B,CASAGRANDE V A.Modeling receptive-field structure of koniocellular,magnocellular,and parvocellular LGN cells in the owl monkey (aotus trivigatus)[J].Visual Neuroscience,2002,19(6):703-711. [6] THAYANANTHAN A, STENGER B, TORR P H,et al.Shape context and chamfer matching in cluttered scenes[C]//Proceedings of computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2003:127-133. [7] 劉亦書,楊力華,孫 倩.輪廓矩不變量及其在物體形狀識別中的應(yīng)用[J].中國圖象圖形學報,2004,9(3):308-313. [8] 劉亞楠,涂錚錚,羅 斌.基于反饋稀疏約束的非負張量分解算法[J].計算機應(yīng)用,2013,33(10):2871-2873. [9] 鄭 軍,魏海永.基于白化變換及曲率特征的3維物體識別及姿態(tài)計算[J].清華大學學報:自然科學版,2016,56(10):1025-1030. [10] 郎 波,黃 靜,危 輝.利用多層視覺網(wǎng)絡(luò)模型進行圖像局部特征表征的方法[J].計算機輔助設(shè)計與圖形學學報,2015,27(4):703-712. [11] SERRE T,WOLF L,POGGIO T.Object recognition with features inspired by visual cortex[C]//Proceedings of computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2005:994-1000. [12] GRAUMAN K,DARRELL T.The pyramid match kernel: discriminative classification with sets of image features[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,6(10):1458-1465. [13] HOLUB A D,WELLING M,PERONA P.Combining generative models and fisher kernels for object recognition[C]//Proceedings of the 10th international conference on computer vision.Washington DC,USA:IEEE Computer Society,2005:136-143. [14] ZHANG H,BERG A C,MAIRE M,et al.SVM-KNN:discriminative nearest neighbor classification for visual category recognition[C]//Proceedings of computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2006:2126-2136. [15] 郎 波,樊一娜,黃 靜,等.基于混合高斯模型的物體成分擬合方法[J].電子技術(shù)應(yīng)用,2016,42(6):128-131.1.2 朝向輪廓上下文
2 物體識別過程
2.1 線段匹配
2.2 形狀匹配
2.3 上下文“敏感特征”形狀的匹配
3 實驗結(jié)果
3.1 形狀匹配
3.2 性能評價
4 結(jié)束語