彭智東,宣士斌
(廣西民族大學(xué) 信息科學(xué)與工程學(xué)院,廣西 南寧 530006)
圖像分割是將圖像中人們感興趣的部分提取出來(lái)的一個(gè)過(guò)程,是圖像處理環(huán)節(jié)中最關(guān)鍵的步驟,直接影響圖像的后續(xù)處理?,F(xiàn)有的圖像分割方法主要分為兩大類:傳統(tǒng)的圖像分割方法和基于特定理論的方法。在基于特定理論方法中,基于圖的方法近年來(lái)備受關(guān)注,最常見(jiàn)的有minimum cut[1]、average cut[2]、ratio cut[3]、normalized cut[4]、min-max cut[5]。其中min-max cut是一種經(jīng)典的基于圖論的分割方法。
1989年,基于圖論的方法[6]首次引入到圖像處理領(lǐng)域,由于當(dāng)時(shí)技術(shù)的限制,該方法并沒(méi)有得到較好的發(fā)展。21世紀(jì)初,Boykov等[7]通過(guò)引入最大流算法[8],提出了一種快速的基于圖論的圖像分割算法,加快了對(duì)圖割的研究。在隨后數(shù)年中,圖割算法逐漸應(yīng)用到各領(lǐng)域,如醫(yī)學(xué)[9]、地理[10]、人體行為識(shí)別[11]、視頻分割[12]等,使得人們不斷地去改進(jìn)圖割算法。而對(duì)算法的改進(jìn),無(wú)非是從圖的構(gòu)造和能量函數(shù)的構(gòu)造這兩個(gè)方面進(jìn)行。文獻(xiàn)[13-14]使用了分水嶺和均值漂移的方法,將圖像劃分為多個(gè)小型區(qū)域,最后使用最大流最小割實(shí)現(xiàn)圖像分割。文獻(xiàn)[15]在原有圖割方法的基礎(chǔ)上加入了自適應(yīng)的形狀先驗(yàn)?zāi)P汀N墨I(xiàn)[16]在傳統(tǒng)的方法上加入了非局部信息,并且用像素片替代了像素,從算法的效率和效果兩方面提高了算法的性能。文獻(xiàn)[17]使用了對(duì)目標(biāo)和背景種子點(diǎn)特征向量聚類的方法,以改進(jìn)算法的分割效果。文獻(xiàn)[18-19]通過(guò)重新構(gòu)造邊上的權(quán)值和刪除圖中簡(jiǎn)單邊的方法來(lái)改進(jìn)算法等。
在上述研究的基礎(chǔ)上,文中提出了一種結(jié)合最小生成樹(shù)的圖割方法,并通過(guò)實(shí)驗(yàn)對(duì)其進(jìn)行驗(yàn)證,
圖像分割問(wèn)題從本質(zhì)上來(lái)說(shuō)是像素分配的問(wèn)題,也可以說(shuō)是像素的標(biāo)記問(wèn)題。給定一個(gè)標(biāo)簽集合L,圖像中的一個(gè)像素為Pi(i=1,2,…,n),圖像分割就是對(duì)圖像中的每一個(gè)像素分配一個(gè)標(biāo)簽Pi∈Lo或者Pi∈Lp(Lo為目標(biāo),Lp為背景)的過(guò)程。圖割是基于圖論的一種方法,首先將一幅圖像映射為一個(gè)網(wǎng)絡(luò)圖G=(V,E),在這個(gè)圖中有兩類節(jié)點(diǎn),即普通節(jié)點(diǎn)Pi,端節(jié)點(diǎn)S和T,其中S為前景目標(biāo),T為背景目標(biāo)。邊E={(u,v)|u∈P,v∈P}表示圖中邊的集合,一般的圖割方法中只有相鄰的節(jié)點(diǎn)間才存在邊,每條邊上都有權(quán)值ω(u,v)。所要解決的問(wèn)題就是在已知能量函數(shù)的前提下,如何將這個(gè)圖切割開(kāi),并且隔開(kāi)后所花的代價(jià)最小。G1,G2為被割開(kāi)后的子圖。
Cut(G1,G2)min=∑ω(u,v)
(1)
一般情況下,用到的能量函數(shù)的形式為:
E(L)=αR(L)+B(L)
(2)
其中,R(L)為區(qū)域項(xiàng),決定t-link邊的權(quán)值。
(3)
其中,Rp(lp)表示像素p分配給標(biāo)簽lp的代價(jià),也可以說(shuō)是Pi∈lp的概率。
(4)
當(dāng)像素p屬于前景的概率P(lp|obj)大于屬于背景的概率P(lp|bkg)時(shí),就給p分配標(biāo)簽lp=1,反之,給p分配標(biāo)簽0。如果全部的像素都被正確劃分后,此時(shí)區(qū)域項(xiàng)R(L)的能量值就達(dá)到最小。
B(L)表示邊界項(xiàng),決定n-link邊的權(quán)值。
(5)
其中
(6)
(7)
其中,B(L)為權(quán)重函數(shù),表示像素p和像素q之間被切割開(kāi)所要花費(fèi)的代價(jià);為圖像鄰域,p,q∈表示p和q為兩個(gè)相鄰的像素,‖p-q‖表示兩像素點(diǎn)之間的歐氏距離;σ為圖像噪聲參數(shù)。當(dāng)兩個(gè)像素之間的變化不大時(shí),表示它們更可能是圖像的邊界點(diǎn),它們之間的局部權(quán)值就越小,反之亦然。
參數(shù)α是一個(gè)作為平衡區(qū)域項(xiàng)與邊界項(xiàng)的平衡參數(shù),α的大小直接會(huì)影響到圖像分割的結(jié)果。當(dāng)α越大時(shí),表示分割的結(jié)果受區(qū)域項(xiàng)的影響更大,當(dāng)α=0時(shí),只考慮邊界項(xiàng)。對(duì)于α的取值并沒(méi)有明確的規(guī)定。文獻(xiàn)[20]中介紹了一種自適應(yīng)α的方法。
傳統(tǒng)圖割算法的復(fù)雜度較高,對(duì)于部分圖像來(lái)說(shuō),還容易造成錯(cuò)誤的分割。在一幅圖像中,將圖像映射成圖,在圖中可能存在本不應(yīng)該被割開(kāi)的邊,然而實(shí)際卻被分割開(kāi)了,這就造成了錯(cuò)誤的分割。對(duì)此,文中借鑒最小生成樹(shù)的思想[21],最小生成樹(shù)也可以用來(lái)做圖像切割。加入最小生成樹(shù)后,能有效降低錯(cuò)誤分割。在實(shí)驗(yàn)中,隨機(jī)生成一個(gè)3階矩陣,然后將這個(gè)矩陣映射成圖,如圖1所示。然后對(duì)圖進(jìn)行最小生成樹(shù)處理,結(jié)果如圖2所示。
695564141
圖1 隨機(jī)3階矩陣
圖2 最小生成樹(shù)
由圖2和圖3的比較可以看出,原來(lái)每?jī)蓚€(gè)相鄰節(jié)點(diǎn)之間都存在著一條邊,而現(xiàn)在只有部分相鄰節(jié)點(diǎn)之間還存在著邊,另一部分相鄰節(jié)點(diǎn)之間的邊被刪除,并且被刪除邊后的兩個(gè)節(jié)點(diǎn)之間的距離也隨之發(fā)生變化。例如,節(jié)點(diǎn)4和7之間的距離為5,節(jié)點(diǎn)8和9之間的距離為3等。
在圖的構(gòu)造中借鑒最小生成樹(shù)的思想,對(duì)圖中邊的權(quán)值進(jìn)行了新的定義:
(8)
其中,p,q為圖像中兩個(gè)相鄰的像素,p,q?表示像素p,q在最小生成樹(shù)中不相鄰;0≤γ≤1為一個(gè)調(diào)節(jié)參數(shù),當(dāng)γ=1時(shí)φ退化為傳統(tǒng)權(quán)重函數(shù);Spq表示像素p和q在最小生成樹(shù)中的相似程度。
(9)
其中,∑ω(p,q)=ω(p,p1)+ω(p1,p2)+…+ω(pn,q)表示從像素p到像素q所經(jīng)過(guò)最短路徑的權(quán)值之和;d(p,q)表示兩個(gè)像素之間的距離,即像素p到q之間最短路徑上邊的條數(shù)。
通過(guò)對(duì)圖中邊的權(quán)值進(jìn)行重新定義,能夠盡可能地提高圖像分割的精確度,使分割結(jié)果更加理想。圖3為加入最小生成樹(shù)方法后使用最大流/最小割得到的分割結(jié)果。通過(guò)實(shí)驗(yàn)證明,該方法有效提高了分割的精確度,但在精確度提高的同時(shí),勢(shì)必會(huì)增加算法的復(fù)雜度,于是考慮從減少圖的節(jié)點(diǎn)上去減少算法運(yùn)行的時(shí)間。因此,引入了一種四叉樹(shù)方法[22]來(lái)減少圖中節(jié)點(diǎn)的數(shù)量。
令G表示一幅圖像,將G分割成n個(gè)子區(qū)域G1,G2,···,Gn的過(guò)程就叫分割,滿足的條件如下:
(2)Gi(i=1,2,…,n)是一個(gè)連通域;
(3)Gi∩Gj=?,i≠j;
(4)P(Gi)=TRUE;
(5)P(Gi∪Gj)=FALSE,對(duì)于任意相鄰像素Gi和Gj。
其中,P(Gi)是定義在集合Gi的點(diǎn)上的邏輯謂詞,?表示空集。
四叉樹(shù)的分解步驟如下:
(1)將原圖像分成幾個(gè)(一般為4個(gè))大小相同的區(qū)域。