柴華
(國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作北京中心,北京 100190)
形狀特征提取是將輸入的圖像數(shù)據(jù)轉(zhuǎn)換為形狀特征序列的過(guò)程。目標(biāo)圖像中包含大量的數(shù)據(jù),然而,圖像通常被認(rèn)為是冗余的,因此,需要將輸入的圖像數(shù)據(jù)轉(zhuǎn)換為簡(jiǎn)化的表示形狀特征的序列。利用形狀特征可以非常直觀有效地進(jìn)行目標(biāo)區(qū)分,因此,可以大大提高圖像檢索的精度和效率。形狀特征通常和特定的目標(biāo)對(duì)象聯(lián)系在一起,因而含有一定的語(yǔ)義信息,是目標(biāo)圖像中最顯著的核心特征;圖像中感興趣的目標(biāo)區(qū)域,可以通過(guò)形狀特征有效地進(jìn)行表達(dá)和描述。在計(jì)算機(jī)視覺(jué)、圖像分析以及模式識(shí)別等領(lǐng)域中,二維目標(biāo)圖像的形狀特征提取算法的研究發(fā)展很快,應(yīng)用非常廣泛[1]。形狀特征可以從形狀的輪廓或者形狀所包含的區(qū)域里獲得,分別稱為基于輪廓的形狀特征提取和基于區(qū)域的形狀特征提取,常用的算法包括傅里葉描述符、統(tǒng)計(jì)矩、中軸變換、尺度空間、幾何參數(shù)法等。形狀特征提取目前還沒(méi)有公認(rèn)的數(shù)學(xué)模型,多數(shù)形狀特征提取算法涉及的數(shù)學(xué)方法有計(jì)算幾何、統(tǒng)計(jì)學(xué)、變換域(傅里葉變換、多尺度變換)等,根據(jù)不同的空間域或變換域的相互關(guān)系,獲得具有不同性質(zhì)的形狀特征[2]。
形狀描述符可以定義為用以描述給定形狀的一些數(shù)字集合,目標(biāo)圖像的形狀可能無(wú)法利用形狀描述符進(jìn)行完全重構(gòu),但是對(duì)于不同的目標(biāo)形狀,形狀描述符的差別應(yīng)該足夠大,以便有效地對(duì)不同的目標(biāo)形狀進(jìn)行區(qū)分[1]。有效的形狀描述符還應(yīng)該使用一定的相似性測(cè)度,對(duì)于顯著不同的目標(biāo)形狀,相似性測(cè)度應(yīng)該越大;而對(duì)于相似的目標(biāo)形狀,相似性測(cè)度應(yīng)該越小。此外,有效的形狀描述符對(duì)于目標(biāo)形狀的平移、尺度變換、旋轉(zhuǎn)、仿射變換和非剛性變換應(yīng)該具有良好的魯棒性;同時(shí)對(duì)于部分遮擋、形變、噪聲引起的干擾具有一定的抵抗能力[3]。
目標(biāo)圖像的形狀可以用圖像的輪廓、區(qū)域或者有限點(diǎn)集進(jìn)行表示?;谳喞男螤蠲枋龇麅H僅利用了目標(biāo)圖像的邊界信息,而忽略了圖像的內(nèi)容信息,因而這種方法不能很好地表示下列物體:內(nèi)部帶有空洞的物體、部分遮擋的物體以及具有不連續(xù)區(qū)域的結(jié)構(gòu)較為復(fù)雜的物體;基于區(qū)域的形狀描述符則利用了目標(biāo)圖像的邊界信息以及內(nèi)部信息,區(qū)域的分割與輪廓的分割相比,更加容易實(shí)現(xiàn),但是基于區(qū)域的方法提取的特征維數(shù)一般較大,這就導(dǎo)致了特征提取和相似性測(cè)度計(jì)算量的增大;基于有限點(diǎn)集的形狀描述符表示的是采樣點(diǎn)集,該采樣點(diǎn)集來(lái)自于應(yīng)用在目標(biāo)圖像的邊緣檢測(cè)算子的輸出數(shù)據(jù),這些采樣點(diǎn)集不需要進(jìn)行排序,因此在實(shí)際應(yīng)用中很容易實(shí)現(xiàn)。
形狀描述符根據(jù)形狀特征表達(dá)的形式可以分為:
(1)基于輪廓的形狀描述符:利用形狀的目標(biāo)區(qū)域輪廓信息,表示邊界輪廓的像素集合;
(2)基于區(qū)域的形狀描述符:利用形狀的目標(biāo)區(qū)域整體信息,表示目標(biāo)區(qū)域所有的像素集合。
每類(lèi)方法還可進(jìn)一步劃分為基于結(jié)構(gòu)和基于全局的方法[4]。
通過(guò)對(duì)近年來(lái)形狀特征提取的熱點(diǎn)算法進(jìn)行實(shí)驗(yàn)和對(duì)比[3],按照?qǐng)D形圖像處理方法可以將形狀特征提取算法分為以下7類(lèi):
(1)輪廓一維函數(shù)表示法,又稱為形狀簽名,是用一維函數(shù)表示形狀的某些特征。其中包含累積切線角函數(shù)[5]、輪廓曲率函數(shù)[6]、扇形面積函數(shù)、歸一化部分面積向量[7]、三角形面積表示法[4]、弦長(zhǎng)函數(shù)[8]等。該類(lèi)方法具有明確的函數(shù)表達(dá)式,非常有利于后期的相似性測(cè)量;計(jì)算量小,并且很容易與多尺度分析相結(jié)合,從而有利于提高表達(dá)準(zhǔn)確度和計(jì)算速度。但該類(lèi)方法對(duì)于噪聲較敏感,要求有較高的形狀分割質(zhì)量和較復(fù)雜的預(yù)處理技術(shù)。對(duì)于目標(biāo)形狀的平移,輪廓一維函數(shù)表示法需要在進(jìn)行相似性測(cè)度時(shí)解決這一問(wèn)題。一個(gè)替代的方法是使用該類(lèi)方法提取特征后,一般還需要進(jìn)一步處理以增強(qiáng)特征的魯棒性,同時(shí)也減少特征匹配時(shí)的負(fù)擔(dān)。
(2)多邊形近似方法,通常采用融合算法或分裂算法,是在一定的近似準(zhǔn)則下采用首尾相連的直線段來(lái)近似目標(biāo)形狀的輪廓。多邊形近似方法可以用較少的數(shù)據(jù)和較為簡(jiǎn)潔的形式來(lái)表示和描述輪廓。距離門(mén)限算法、隧道算法以及多邊形進(jìn)化算法是實(shí)際應(yīng)用中常用而有效的多邊形近似方法。該類(lèi)算法自然模糊掉目標(biāo)形狀的微小變化,捕捉了目標(biāo)形狀的主要特征,使用的度量準(zhǔn)則通常有最小誤差、最小多邊形周長(zhǎng)、最小多邊形內(nèi)部面積以及最小多邊形外部面積等;該算法在抗噪聲方面有著突出的性能,然而目標(biāo)圖像中形狀的仿射變換以及部分遮擋對(duì)于該類(lèi)算法進(jìn)行形狀特征的提取將引起巨大的影響。目前,對(duì)于多邊形近似方法沒(méi)有固定的評(píng)價(jià)標(biāo)準(zhǔn)。
(3)空間關(guān)系特點(diǎn)算法,是描述形狀輪廓或區(qū)域上的點(diǎn)、曲線間相互關(guān)系的算法。該類(lèi)算法包括自適應(yīng)柵格分解算法[9]、限定盒算法[10]、凸殼算法[11]、平滑曲線分解[12]、弦角統(tǒng)計(jì)算法[13]、形狀上下文[14]、弦分布表示法[15]、弦長(zhǎng)上下文[3]等。根據(jù)不同的空間相互關(guān)系特點(diǎn)獲得的形狀特征具有不同的性質(zhì),其中形狀上下文法對(duì)非剛性變形物體形狀特征表現(xiàn)出卓越的魯棒特性,已經(jīng)成為形狀特征提取算法研究中的熱點(diǎn)。
(4)矩不變法,是通過(guò)計(jì)算目標(biāo)圖像中形狀的輪廓或者區(qū)域的各階矩來(lái)獲得形狀特征的方法。在實(shí)際應(yīng)用中使用不同的基函數(shù)可以得到不同的矩特征,有不變矩、代數(shù)不變矩、Zernike矩、徑向Chebyshev矩等。不變矩是圖像的一種統(tǒng)計(jì)特性,是利用圖像灰度分布的各階矩來(lái)描述圖像灰度的分布特性。實(shí)際上,不變矩的構(gòu)造是利用了二元齊次多項(xiàng)式系數(shù)的函數(shù)具有的不變性,因此可以根據(jù)代數(shù)不變性為目標(biāo)圖像的矩特征建立起完善的數(shù)學(xué)模型。矩不變法表示形狀簡(jiǎn)明、穩(wěn)定且容易計(jì)算,因此在模式識(shí)別和目標(biāo)分類(lèi)中得到非常廣泛的應(yīng)用。然而由于它描述的是目標(biāo)圖像中形狀的全局特征,當(dāng)部分形狀被遮擋時(shí),目標(biāo)形狀的矩特征將發(fā)生較大的變化,同時(shí),將高階權(quán)值矩與目標(biāo)形狀的物理特征進(jìn)行關(guān)聯(lián)還是非常困難的任務(wù)。
(5)尺度空間近似法,是利用多尺度分析理論,將目標(biāo)圖像中形狀投影在尺度空間域,在該域中提取形狀特征。典型的算法有曲率尺度空間和交叉點(diǎn)映射算法等。尺度空間近似法既可以描述形狀的細(xì)節(jié),又獲得了形狀的概貌特征,可以較好地消除噪聲干擾,并且與人類(lèi)的感知行為模型比較一致,具有良好的應(yīng)用前景。其中,曲率尺度空間描述符已經(jīng)成功應(yīng)用于目標(biāo)形狀特征的描述以及檢索中。目前,該描述符已成為MPEG-7標(biāo)準(zhǔn)中輪廓描述的一種方法。由于尺度空間近似算法對(duì)目標(biāo)圖像的形狀采用濾波的方法進(jìn)行處理,因此,使用尺度空間近似算法提取的形狀特征穩(wěn)健性較好,但是在進(jìn)行相似度測(cè)量時(shí),一般計(jì)算量較大。
(6)形狀變換域法,是將形狀投影到不同的基函數(shù)上,用其系數(shù)表示形狀特征,包括傅里葉變換描述符[16]、小波變換描述符、徑向角變換算法、形狀標(biāo)志和諧嵌入算法、改進(jìn)型Radon變換等。使用這類(lèi)算法一般是將閉合輪廓線上的任意一點(diǎn)位置看作為一個(gè)周期函數(shù),因此該輪廓線可以用不同的變換函數(shù)進(jìn)行展開(kāi),低頻信息對(duì)應(yīng)于目標(biāo)形狀輪廓的概貌,高頻信息對(duì)應(yīng)于目標(biāo)形狀輪廓的細(xì)節(jié)。該類(lèi)算法使用不同數(shù)量的系數(shù)可以獲得不同精確度的形狀描述,從而可以方便地在描述精確度和描述復(fù)雜度上進(jìn)行平衡。
(7)基于形狀軸的表示算法,表示形狀常用的軸包括長(zhǎng)軸、短軸、最小慣量軸以及中軸等,典型的基于軸的形狀表示方法包括基于最小慣量軸的符號(hào)表示法、束堆圖等。這些基于形狀軸的形狀描述符均與旋轉(zhuǎn)、平移和尺度放縮無(wú)關(guān),提取的特征可以同時(shí)利用目標(biāo)圖像中的邊界信息和區(qū)域信息,但是這些特征的提取依賴于目標(biāo)圖像的分割結(jié)果,而且目標(biāo)圖像中的邊界變化和噪聲干擾也會(huì)對(duì)最終的結(jié)果造成很大的影響。
形狀是目標(biāo)圖像中包含豐富信息的內(nèi)在特征,人們對(duì)于一幅圖像的理解很大程度上依賴于對(duì)圖像中目標(biāo)形狀的區(qū)別和感知。形狀的描述和識(shí)別在計(jì)算機(jī)視覺(jué)和圖像分析的研究中占有十分重要的地位。目標(biāo)圖像中形狀特征的表示和描述是目標(biāo)識(shí)別的基礎(chǔ);形狀的表示可能是一系列外部邊界坐標(biāo)的集合,也可能是利用二維函數(shù)表示的區(qū)域(輪廓)。對(duì)于二維圖像,形狀特征提取階段生成用于圖像形狀匹配時(shí)所需的描述信息,也就是說(shuō),形狀特征提取的目的是獲得形狀描述符;形狀描述符是用于表示形狀特征的一系列數(shù)據(jù)集合。一般來(lái)說(shuō),目標(biāo)圖像中形狀的表示和描述要求盡可能地被壓縮,以便滿足高效存儲(chǔ)和檢索要求;同時(shí)特征描述符需要整合特征信息,以滿足區(qū)分形狀的要求,但是,這個(gè)問(wèn)題一直是非常困難的任務(wù)。
在目前的實(shí)際應(yīng)用中,提取形狀特征的方法對(duì)目標(biāo)圖像預(yù)處理的要求比較高,主要是要求有較高的圖像分割質(zhì)量,而這一點(diǎn)的難度相當(dāng)大,因此自動(dòng)而準(zhǔn)確地提取目標(biāo)圖像中的形狀特征非常困難,特別是對(duì)于大規(guī)模的圖像數(shù)據(jù)集以及高維數(shù)的圖像特征,這個(gè)問(wèn)題嚴(yán)重制約著形狀特征在實(shí)際中的應(yīng)用[10]。由于圖像中目標(biāo)形狀的自動(dòng)獲取比較困難,因此,目前基于目標(biāo)圖像形狀特征的應(yīng)用一般僅限于比較容易識(shí)別的目標(biāo)物體[1]。盡管在文獻(xiàn)中提出很多形狀特征提取的方法和技術(shù),然而這些方法和技術(shù)還存在一些難以解決的問(wèn)題;同時(shí),已有的方法和技術(shù)還遠(yuǎn)遠(yuǎn)不能滿足人們實(shí)際應(yīng)用的要求。
由以上的分析可以看出,在實(shí)際的應(yīng)用中,直接利用目標(biāo)圖像的形狀信息還存在許多困難,主要集中在以下兩個(gè)方面:
(1)同一個(gè)物體,在不同的視角下觀察,獲得的目標(biāo)形狀可能有很大差別——仿射變換或投影變換問(wèn)題。
(2)對(duì)于生物體或者關(guān)節(jié)相連的物體發(fā)生相對(duì)移動(dòng)(如剪子、鉗子等)時(shí),物體自身的狀態(tài)變化,可能會(huì)引起形狀發(fā)生巨大變化——非剛性或剛性變形問(wèn)題。
所以形狀特征提取的焦點(diǎn)在于,如何有效利用形狀的輪廓信息和區(qū)域信息,挖掘圖像的內(nèi)在特性,從而獲得具有抗仿射變換、抗投影變換、抗噪聲、抗非剛性變換和抗關(guān)節(jié)相對(duì)移動(dòng)的形狀魯棒性特征。
[1]汪彥龍,李金龍,劉金華,等.基于內(nèi)容的圖像檢索方法[J].電視技術(shù),2005(4):9-12.
[2]陳晞,楊軼,董育寧.用于圖像檢索的MPEG-7形狀描述子[J].電視技術(shù),2003(4):18-21.
[3]Yang Mingqiang.Shape-based Feature Extraction and Similarity Matching[D].Institut National des Sciences Appliquées,F(xiàn)rance,2008.
[4]Alajlan N,KamelM S,F(xiàn)reeman G.Multi-object image retrieval based on shape and topology[J].Image Communication,2006,21(10):904-918.
[5]Zhang D S,Lu G.A comparative study on shape retrieval using Fourier descriptors with different shape signatures[C]//Proceedings of the International Conference on Intelligent Multimedia and Distance Education(ICIMADE01).2001.
[6]Kauppinen H,Seppanen T,Pietikainen M.An experimental comparison of autoregressive and Fourier-based descriptors in 2-D shape classification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1995,17(2):201-207.
[7]Yang M,Kpalma K,Ronsin J.Affine invariance contour descriptor based on iso-area normalisation[J].Electronics Letters,2007,43(7):379-380.
[8]Zhang D S,Lu G.A comparative study of Fourier descriptors for shape representation and retrieval[C]//Proceedings of the 5th Asian Conference on Computer Vision.2002:646-651.
[9]Chakrabarti K,Ortega-Binderberger M,Porkaew K,et al.Similar shape retrieval in Mars[C]//Proceedings of the 2000 IEEE International Conference on Multimedia and Expo.2000,2:709-712.
[10]Bauckhage C,Tsotsos JK.Bounding box splitting for robust shape classification[C]//Proceedings of the 2005 IEEE International Conference on Image Processing.2005,2:478-481.
[11]Gonzalez R,Woods R.Digital Image Processing(2nd Edition)[M].Pearson Education North Asia Limited,Publishing House of Electronics Industry,2002.
[12]Berretti S,Del Bimbo A,Pala P.Retrieval by shape similarity with perceptual distance and effective indexing[J].IEEE Transactions on Multimedia,2000,2(4):225-239.
[13]Arica N,Vural F.BAS:A perceptual shape descriptor based on the beam angle statistics[J].Pattern Recognition Letters,2003,24(9-10):1627-1639.
[14]Mori G,Belongie S,Malik J.Shape contexts enable efficient retrieval of similar shapes[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2001,1:723-730.
[15]Smith SP,Jain A K.Chord distributions for shapematching[J].Computer Graphics and Image Processing,1982,20(3):259-271.
[16]Zhang Shaoting,Zhan Yiqiang,Zhou Yan,et al.Efficient sparse shape composition with its applications in biomedical image analysis:An overview[C]//Proceedings of the 9th IEEE International Symposium on Biomedical Imaging.2012:976-979.
[17]柴華.基于改進(jìn)的弦長(zhǎng)關(guān)聯(lián)形狀特征提取算法研究[D].濟(jì)南:山東大學(xué),2011.