聶方彥,李建奇,張平鳳,屠添翼
(1.湖南文理學(xué)院洞庭湖生態(tài)經(jīng)濟區(qū)建設(shè)與發(fā)展湖南省協(xié)同創(chuàng)新中心,湖南 常德 415000;2.湖南文理學(xué)院計算機與電氣工程學(xué)院,湖南 常德 415000)
人類對世界的感知絕大部分是通過眼睛實現(xiàn)的,因此應(yīng)用機器智能技術(shù)實現(xiàn)對客觀世界的理解在很大程度上依賴于對輸入的圖像視頻信息的高效處理。圖像成像原理及條件復(fù)雜多樣,要實現(xiàn)對圖像的理解并不是件簡易的工作。應(yīng)用圖像分割實現(xiàn)對圖像目標(biāo)的分離[1]進而支持圖像處理最終功能的實現(xiàn)一直是圖像處理領(lǐng)域的底層關(guān)鍵技術(shù)。在實踐應(yīng)用中,因圖像種類紛繁復(fù)雜,因此涌現(xiàn)出來的圖像分割技術(shù)也層出不窮??紤]到工程實踐上的實時性,在很多場所,簡潔易實現(xiàn)的閾值化技術(shù)得到廣泛應(yīng)用。
圖像閾值化的基本原理就是根據(jù)圖像直方圖信息或一些附加信息實現(xiàn)對圖像的分割。在生產(chǎn)實踐上,目前應(yīng)用非常廣泛的閾值化方法主要有基于統(tǒng)計方差思想的方法(如Otsu提出的非常著名的最大類間方差法[2]及一些改良方法[3-6])、基于信息熵的方法等。統(tǒng)計方差類方法數(shù)學(xué)機理清晰,算法原理基礎(chǔ)扎實,因此在實際應(yīng)用中得到大范圍研究和應(yīng)用。統(tǒng)計方差類方法有一個出生即存在的不足,即對于不同的統(tǒng)計類,如果類別之間統(tǒng)計量差異很大時,這些方法很容易造成錯分,在圖像分割上即會存在閾值偏離等現(xiàn)象[4]。信息熵類方法物理意義明確,背靠原理深厚,因此也得到了大量研究和應(yīng)用,如Kapur提出的最大熵法[7]、Reny熵法[8]、Tsallis熵法[9]及它們的一些變種[10]等。應(yīng)用信息熵對圖像實施閾值分割,方法實現(xiàn)算法簡單,性能和效果優(yōu)異,但是如果圖像背景與目標(biāo)像素分布差異大時,該類方法也極易造成錯分。故對于圖像分割領(lǐng)域的閾值分割研究來說,這是一個古老的議題,但又歷久彌新,現(xiàn)實需求隨時挑戰(zhàn)著研究人員在該領(lǐng)域的努力和付出。
在實際應(yīng)用中,很多任務(wù)需求圖像中的目標(biāo)與背景像素分布差異大,如工業(yè)無損檢測中的圖像、紅外圖像[11]等。在該類圖像視域中,圖像目標(biāo)像素占整幅圖像比例小,目標(biāo)與背景交融致使邊界模糊,在圖像直方圖上的體現(xiàn)是灰度級分布呈現(xiàn)不規(guī)則分布,因此要實現(xiàn)目標(biāo)的有效分割也不是件容易的工作。在分析傳統(tǒng)熱力學(xué)熵基礎(chǔ)上,Frank與Daffertshofer提出一種非廣延高斯熵(nonextensive Gaussian entropy,NeG熵)用于處理序貫相關(guān)的Ornstein-Uhlenbeck隨機過程(OU過程)的非線性Fokker-Planck方程問題[12-14]。在時間序列的推移方向上序貫相關(guān)的OU過程將向它的長程均值(long-term mean)方向漂移,該特性與具有長程相關(guān)特性的圖像具有相似性,因此在這里將NeG熵用于工業(yè)無損檢測圖像及紅外圖像的分割,并在與其他一些典型方法的比較中考察提出方法的性能。
圖像閾值分割是將圖像直方圖信息作為處理對象,對于兩級閾值化來說,就是通過某種特定的工具或方法從圖像直方圖中找到最合適的一個灰度值作為圖像分割的閾值,大于等于該灰度值的圖像像素歸為一類,小于該灰度值的圖像像素歸為另一類。假設(shè)原始圖像坐標(biāo)(x,y)處的像素值函數(shù)為f(x,y),分割后圖像該坐標(biāo)像素值函數(shù)為s(x,y),圖像像素值域為{0,1,2,…,L-1},設(shè)g1、g2分別為兩不相等的灰度級值,找到的最佳閾值為t,則圖像兩級閾值化問題可描述為圖像像素的二分類問題,即
(1)
對于一個完備的概率分布P={p1,…,pi,…,pn},i=1,…,n,p1+…+pi+…+pn=1,Frank與Daffertshofer定義[12]的NeG熵數(shù)學(xué)表達式為:
(2)
從式(2)可以看出,NeG熵是一個完全與傳統(tǒng)信息熵形式不一樣的熵表達形式,在該式中,s表示NeG熵指數(shù),s>0且s≠1。為便于觀察與計算,采用指數(shù)與對數(shù)的等價變換,可以將式(2)連乘形式的熵表達式變換為:
(3)
當(dāng)s→1時,NeG熵收斂于傳統(tǒng)Boltzmann-Gibbs熵,即Shannon熵。對于統(tǒng)計獨立的概率分布系統(tǒng)P={pi} 和Q={qi},i=1,…,n,NeG熵滿足以下形式的非廣延可加性原則[14]:
E(P∩Q)=E(P)+E(Q)+(1-s)E(P)E(Q)
(4)
應(yīng)用NeG熵對圖像進行閾值化分割,首先做如下假定。假定待分割圖像為I,其大小為m×n,圖像灰度級范圍為{0,1,2,…,L-1},灰度級的概率分布用圖像像素灰度級在圖像中出現(xiàn)的頻度進行估計,這里圖像灰度級的頻度hi(i=0,1,2,…,L-1)定義為hi=ni/(m×n),ni表示灰度級i在圖像I中出現(xiàn)的像素數(shù)量。對待分割圖像I進行分割時,假定最佳閾值為t,分割后的兩部分分別為圖像背景(B)和目標(biāo)(O),它們對應(yīng)的灰度級分布概率估計分別為B={bi|0≤i E(I|t)=E(B)+E(O)+(1-s)E(B)E(O) (5) 基于最大熵原則,可據(jù)式(5)在圖像灰度級G={0,1,2,…,L-1}范圍內(nèi)求取最佳閾值t*,即: (6) 依式(6)計算得出最佳閾值t*后,即可應(yīng)用式(1)對圖像實施分割。 根據(jù)以上描述,輸入待分割圖像后,首先計算圖像灰度級直方圖信息,然后應(yīng)用提出的方法對圖像實施分割可以得到分割結(jié)果,具體來說,該過程可用如圖1所示流程圖描述。 圖1 算法實現(xiàn)流程圖Fig.1 The flow chart of algorithm realization 為檢驗提出方法在對圖像實施閾值分割時的有效性,將提出方法在無損檢測圖像及一些紅外圖像上進行了實驗測試。作為對比,在本節(jié)中也將提出方法與基于統(tǒng)計方差思想一些方法及一些熵方法進行了比較。據(jù)基于方差思想的文獻[3]、[6]描述,這兩種方法在對無損檢測圖像進行分割時能獲得較好的效果,因此在這里將這兩種方法與本文提出方法進行了比較,為簡潔起見,這兩種方法在下文中稱為文獻[3]方法、文獻[6]方法。另外,作為廣泛應(yīng)用的Shannon熵方法[7]、Renyi熵方法[8]、Tsallis熵方法[9]是最為經(jīng)典的熵方法,且它們對圖像實施分割的效果也得到了有效檢驗,因此它們也在這里用來與本文提出方法進行對比,在這里把三種方法簡稱為MaxE方法、MRE方法、MTE方法。在測試中,相比較的方法都用Matlab(2010a)編碼實現(xiàn),測試機器配置為Intel(R) Core(TM) i7-8550U CPU,16GB內(nèi)存,64位Windows10操作系統(tǒng)。 為了評判相比較方法的性能,在這里應(yīng)用客觀評價標(biāo)準(zhǔn)像素誤分率作為評價準(zhǔn)則。圖像分割的誤分率準(zhǔn)則函數(shù)在這里定義為: (7) 在測試過程中,首先選用來自文獻[15]并在其他文獻中得到廣泛應(yīng)用的無損檢測圖像用于本文相比較各方法的性能評估。圖2列出了用于測試的原始無損檢測圖像,它們分別是一幅超聲成像圖像(ultrasonic image,超聲圖像)、渦流成像圖像(eddy current image,渦流圖像)、材料異物圖像(material image,異物圖像)以及一幅有缺陷的印刷電路板圖像(printed circuit board image,PCB圖像),它們的大小分別是232×131、107×92、100×70和232×243。 圖2 原始測試圖像Fig.2 The original testing images 圖3列出的是原始測試圖像的灰度級直方圖,圖4列出的是測試圖像文獻[15]給出的專家分割結(jié)果圖像。從圖2可以看出,這幾幅測試圖像背景與目標(biāo)像素交融,且也可從圖3看出,它們的灰度級直方圖呈不規(guī)則復(fù)雜分布,因此要將目標(biāo)分割出來不是件容易的工作。 圖3 原始測試圖像灰度級直方圖Fig.3 The histogram of testing images 圖4 測試圖像的專家分割結(jié)果Fig.4 The segmented result by experts of testing images 圖5~8列出了相比較各方法對原始測試無損檢測圖像分別進行分割時獲得的結(jié)果。 圖5 超聲成像圖像的分割結(jié)果Fig.5 The segmented results of ultrasonic image 圖5列出的是各方法對超聲成像無損檢測圖像的分割結(jié)果。從圖5可以看出,最大熵法MaxE、MRE、MTE熵法分割后留下的噪聲像素點還較多,文獻[3]方法有過分割現(xiàn)象發(fā)生,文獻[6]方法也是留下的噪聲像素點過多。本文提出方法獲得的結(jié)果也有殘余噪聲點,但如果應(yīng)用形態(tài)學(xué)算子進一步處理的話,將會使殘余噪聲點大幅減少。 圖6 渦流圖像分割結(jié)果Fig.6 The segmented results of eddy current image 從圖6~8列出的各方法對渦流圖像、材料異物圖像以及缺陷印刷電路板圖像的分割結(jié)果來看,本文方法獲得了相比較方法的最好結(jié)果。 圖7 材料異物圖像分割結(jié)果Fig.7 The segmented results of material image 圖8 缺陷印刷電路板圖像分割結(jié)果Fig.8 The segmented results of PCB image 以上敘述僅從視覺角度出發(fā)對各相比較方法在測試圖像上獲取的主觀分割觀察結(jié)果。為了更客觀的描述各方法的分割性能,以式(7)定義的客觀標(biāo)準(zhǔn)為基準(zhǔn),用表1統(tǒng)計了各相比較方法在對各測試無損檢測圖像進行分割時,獲得的最佳分割閾值及分割結(jié)果圖像與專家分割圖像相比存在的像素錯分率。從表1可以看出,除了在第一幅測試圖像,即超聲成像無損檢測圖像上獲得的分割結(jié)果像素誤分率高于文獻[3]方法外,在其他圖像的分割上,本文提出方法都獲得了相比較方法中最好的分割結(jié)果(相比較方法中最低的像素誤分率用黑色數(shù)字進行了標(biāo)示)。再比較表1獲得的最佳閾值,與圖3相比,本文方法獲得的最佳閾值也與圖像灰度直方圖分布的谷點貼合的更緊密。 表1 相比較各方法對測試無損檢測圖像分割時獲得的最佳閾值及像素誤分率Tab.1 The thresholds and me values obtained by using different methods for the tested images 為了考察本文方法在其他圖像上分割效果,在這里將本方法用于自拍的兩幅紅外圖像的分割。圖9列出了這兩幅圖像及其灰度級直方圖,這兩幅圖像的大小為240×320。從圖9可以看出紅外圖像中人體目標(biāo)與背景像素灰度級區(qū)分不是特別大,除了人體頭部等沒有被衣服遮蓋部分像素值與背景有較大區(qū)別外,人體其他部位的成像像素值與背景區(qū)分度不大。另外,從這兩幅圖像的灰度級直方圖也可看出,圖像像素灰度分布呈現(xiàn)多峰的不規(guī)則分布,要找到合適的分隔點將目標(biāo)提取出來不容易。 圖9 紅外圖像及其直方圖Fig.9 Infrared images and their histograms 圖10~11列出了相比較的6種方法對這兩幅圖像的分割結(jié)果。從圖10~11可以看出,在對這兩幅圖像的分割中,最大Shannon熵法MaxE、最大Renyi熵法MRE以及最大Tsallis熵法MTE獲得的結(jié)果圖像中目標(biāo)不完整,人體各部位出現(xiàn)破碎,分割結(jié)果對于圖像處理后續(xù)階段任務(wù)價值不大。而對于基于統(tǒng)計方差思想的文獻[3]方法與文獻[6]方法來說,在對第一幅紅外圖像的分割中,兩文獻提出方法都失敗了;對于第二幅紅外圖像,文獻[3]方法完全失敗,文獻[6]方法獲得的結(jié)果如果做進一步處理(如形態(tài)學(xué)算子處理)可以為作為后續(xù)階段任務(wù)的基礎(chǔ)。本文方法在對這兩幅圖像的分割中獲得的結(jié)果優(yōu)于相比較的各方法獲得的結(jié)果。 圖10 紅外圖像1分割結(jié)果Fig.10 The segmented results of infrared image1 圖11 紅外圖像2分割結(jié)果Fig.11 The segmented results of infrared image2 在本文提出方法中,存在著一個可變的NeG熵參數(shù)s,該值的改變影響著最佳閾值的獲取。圖12列出了本文提出方法對各圖像進行分割實驗時,對參數(shù)s取不同的值時獲取得到的最佳分割閾值變化曲線圖。從圖12可以看出,參數(shù)s取不同的值對圖像閾值分割的最佳閾值獲取影響非常大。對于本文測試的6幅圖像來說,當(dāng)0 圖12 不同參數(shù)s值條件下最佳閾值變化曲線圖Fig.12 Threshold change curves on different s values 圖12給我們的啟示是:通過調(diào)校參數(shù)s值可使方法具有更好的任務(wù)適應(yīng)性,增強方法的普適程度。對于前文進行的實驗涉及的6幅圖像,在測試過程中熵參數(shù)s取值分別為5.39、7.1、6.3、6.14、6.4及5.9。對于具體的圖像分割任務(wù)來說,任務(wù)場景與成像條件在一定時間和空間范圍內(nèi)是可控的,因此在對圖像進行處理時,我們可以先通過一些訓(xùn)練圖像找到適合該任務(wù)處理的參數(shù)s值,然后保持該值對圖像實施分割;如果條件發(fā)生變化,可以再通過訓(xùn)練來調(diào)整參數(shù)s的取值。為了證實這一想法的可行性,我們從Terravic Motion IR Database紅外圖像數(shù)據(jù)庫[16]中的某一序列圖像中選取了幀序號為000270,000290,000310,000330,000350,000380,000390,000430的8幀圖像開展本實驗。這8幀圖像的原始圖像如圖13所示,它們的大小為240×320,圖13中圖像與幀序號的對應(yīng)關(guān)系是自上到下,自左到右。 圖13 序列紅外圖像樣例Fig.13 The samples of a series of infrared images 圖14列出了本文方法對圖13連續(xù)序列幀圖像分割的結(jié)果。對于這8幅圖像,NeG熵參數(shù)s統(tǒng)一設(shè)置為4。從圖14可以看出,對于連續(xù)幀序列中的間隔的8幅圖像來說,設(shè)置統(tǒng)一的參數(shù)s值在對圖像實施分割時,獲得的結(jié)果可以將要關(guān)注的圖像目標(biāo)分割出來,達到任務(wù)處理要求,該實驗也驗證了前面所描述的想法??烧{(diào)NeG熵參數(shù)s增強了提出方法對任務(wù)的普適性,但也增加了參數(shù)選擇的困難。在本文實驗中,所有參數(shù)都是通過手工調(diào)校達到要求,對于怎樣自適應(yīng)地找到合適參數(shù)值,也是后續(xù)工作需要考慮和研究的問題。 對于相比較的6種方法,各方法的算法時間復(fù)雜度都為O(L),其中L為圖像灰度級數(shù),對于8位數(shù)字圖像來說,L=256。所以這些方法在對圖像實施分割時都能獲得較好實時性能。 相對于本文實驗環(huán)境,以圖13中240×320大小的紅外圖像為例,本文提出算法處理時間約為0.03 s,也即30 ms左右,對于實踐圖像處理任務(wù)來說,是可以保證實時性處理需求的。 圖14 圖13圖像分割結(jié)果Fig.14 The segmented results of images inFig.13 對于當(dāng)前各種智能或智慧業(yè)務(wù)來說,圖像處理一直是其中的底層關(guān)鍵支撐技術(shù)。在圖像處理中應(yīng)用分割算法實現(xiàn)圖像目標(biāo)的提取是更為底層的關(guān)鍵操作。本文討論并提出了應(yīng)用非廣延高斯熵實現(xiàn)圖像閾值分割的方法。該方法充分利用NeG熵處理圖像灰度級概率分布長程相關(guān)、不均衡、非規(guī)則等特性的能力,實現(xiàn)對圖像的有效分割。在方法構(gòu)建及論證過程中,以各類不同成像機理的無損檢測圖像以及紅外圖像為例,驗證了提出方法的有效性及在工業(yè)實踐中應(yīng)用推廣的可能性。2.2 算法實現(xiàn)流程圖
3 實驗與結(jié)果分析
3.1 性能評估
3.2 紅外圖像分割實驗
3.3 參數(shù)s對最佳閾值獲取的影響
20時,本文方法在對測試圖像實施分割時,在有的圖像上獲取的最佳閾值出現(xiàn)振蕩性變化。3.4 時間性能
4 結(jié) 論