龍勝春,堯麗君
(浙江工業(yè)大學 計算機科學與技術(shù)學院,浙江 杭州 310023)
行程長度紋理特征應用于腸癌病理圖片識別
龍勝春,堯麗君
(浙江工業(yè)大學 計算機科學與技術(shù)學院,浙江 杭州 310023)
摘要:傳統(tǒng)的腸癌病理診斷都由病理醫(yī)生完成,隨著圖像處理技術(shù)的發(fā)展,為滿足醫(yī)學病理圖像輔助診斷的需要,提出用灰度行程紋理特征(GLRLM)來識別大腸病變切片.考慮到傳統(tǒng)的灰度行程長度紋理特征預處理方式未充分利用圖像彩色信息和病理圖像的組織學信息,提出將模糊C均值應用于大腸彩色病理圖像的預處理,然后提取圖像的行程長度紋理特征,最后利用支持向量機分類.通過與灰度共生矩陣紋理特征對比,行程長度紋理特征和改進的行程長度紋理特征具有更高的分類準確率.同時用SVM分類器與BP神經(jīng)網(wǎng)絡、最近鄰分類器對比,根據(jù)實驗結(jié)果得出SVM分類器更適合小樣本腸癌病理圖像的分類.
關(guān)鍵詞:腸癌;模糊C均值;灰度行程長度;輔助診斷;支持向量機
中圖分類號:TP391.41
文獻標志碼:A
文章編號:1006-4303(2015)01-0110-05
Recognition of colorectal cancer pathological images based on
run length texture features
LONG Shengchun, YAO Lijun
(College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China)
Abstract:Conventional pathology of colorectal cancer is diagnosed by pathologists. With the development of image processing technology, the gray level run length matrix (GLRLM) is used to recognize the pathological images in order to meet the demand of computer-aided diagnosis for medical images. Because the traditional GLRLM algorithm ignores the color and structural information behind the images, an improved algorithm was proposed using FCM for the preprocessing. Then the run length texture features of the image are extracted. Finally, the SVM is used to classify the pathological pictures. Compared with gray level co-occurrence matrix texture feature extraction algorithm, the experiments show that the traditional GLRLM and improved GLRLM have higher classification accuracy. Meanwhile, compared with KNN and BP, experiments show that SVM classifier is more appropriate for classification of small samples such as colorectal cancer pathological images.
Keywords:colorectal cancer; FCM; GLRLM; computer-aided diagnosis; SVM
近年來,腸癌的發(fā)病率越來越高.要降低腸癌的死亡率,早期診斷和篩查是關(guān)鍵[1].而腸癌的診斷方法中,只有病理診斷才能確診腸癌.病理檢查是通過腸鏡取得組織制成切片經(jīng)HE(蘇木紫-伊紅)染色后,通過顯微鏡和數(shù)碼相機獲得病理圖像,病理醫(yī)生結(jié)合自己的臨床經(jīng)驗進行診斷.但是這種傳統(tǒng)的通過病理醫(yī)生閱片的方法耗時并且勞動強度大.為了緩解病理醫(yī)生閱片勞動強度和提高診斷精度[2],隨著醫(yī)學圖像處理和模式識別技術(shù)的發(fā)展,國內(nèi)計算機輔助識別癌癥病理圖片逐漸成為熱點,比如,前列腺癌[3],宮頸癌[4].對于計算機輔助腸癌識別,國內(nèi)外起步較晚,這些研究針對含有癌變圖片進行分割[5-6],將異質(zhì)區(qū)域分割成勻質(zhì)區(qū)域;以及針對正常圖片和腸癌圖片進行分類[7-9].針對文獻[7]利用灰度共生矩陣進行紋理特征提取只適合正常和低分化癌變分類,算法并不適合高分化腸癌識別,提出用行程紋理特征來識別高分化腸癌.
首先用傳統(tǒng)的灰度行程長度矩陣提取紋理特征,傳統(tǒng)方法預處理是基于灰度值來統(tǒng)計特征量,灰度行程紋理特征在遙感圖像和分類和礦石識別[10-11]中得到廣泛應用.這些算法首先將彩色圖變?yōu)榛叶葓D,然后將灰度圖等間隔量化為8,16或者32個灰度等級計算灰度行程長度矩陣(GLRLM)以減小計算量.但是這種對灰度圖像進行預處理會丟失圖像中彩色信息包含的內(nèi)容.針對這一缺點,作者提出一種改進型灰度行程長度矩陣(GLRLM)特征提取來識別高分化腸癌.該算法利用FCM算法量化彩色圖像,針對量化后的矩陣統(tǒng)計各個方向的行程長度矩陣,克服了傳統(tǒng)GLRLM算法未考慮組織學信息和顏色信息的缺點.主要貢獻有以下兩點:第一,首次將傳統(tǒng)灰度行程長度紋理特征應用于腸癌病理圖片分類.第二,針對傳統(tǒng)預處理方式直接將彩色圖灰度化利用灰度直方圖壓縮圖像的灰度級會丟失圖像彩色信息包含的內(nèi)容,利用FCM對彩色圖像進行聚類,然后提取圖像的紋理特征進行分類識別.
1灰度行程長度紋理特征提取
傳統(tǒng)灰度行程長度即在某一方向(0°,45°,90°,135°)上具有連續(xù)相同灰度值像素的個數(shù).灰度行程長度矩陣定義為某個方向上連續(xù)j個點都具有灰度值i出現(xiàn)的次數(shù),記為Pθ(i,j),其中i=0,1,…,M-1;j=0,1,…,N-1;M為灰度級數(shù),N為最長的行程長度,由P(i,j)所組成大小為M×N的矩陣稱為灰度行程長度矩陣.
由于計算灰度為256級的行程長度矩陣具有很大的計算量,傳統(tǒng)的做法一般是將256級灰度轉(zhuǎn)化為8,16或者32級.對于8級灰度等級,即首先計算灰度直方圖,然后進行簡單映射,即將原圖中灰度為[031]的映射為新圖的0,原圖灰度為[3263]的映射為1,將[32n32(n+1)-1]的灰度映射為n(0≤n≤7).這樣就能大大減小計算量,然后從行程長度矩陣中計算特征因子.
考慮到大腸正常病理圖像和癌變病理圖像紋理特征的差異,正常圖像紋理較細,癌變紋理較粗,正常圖像和癌變圖像不同灰度等級行程數(shù)的差異,結(jié)合Galloway和Chu提出的特征量,提出結(jié)合量化后四個方向的行程長度矩陣分別計算以下特征因子:強調(diào)短行程的矩(SRE)、強調(diào)長行程的矩(LRE)、強調(diào)低灰度級行程的逆矩(LGRE)和強調(diào)高灰度級行程的逆矩(HGRE)公式分別為
(1)
(2)
(3)
(4)
其中s為圖像中總行程數(shù).式(1)中,矩1/j2對短行程給予較大的加權(quán).行程越短,SRE越大,對應圖像紋理越細;式(2)中,矩j2對長行程給予較大的加權(quán).行程越長,LRE越大,對應圖像紋理越粗;式(3,4)中強調(diào)的是灰度級的行程,作為對式(1,2)的補充.
2改進的灰度行程長度紋理特征提取
由于傳統(tǒng)的灰度行程長度矩陣為了減小計算量直接將灰度等級采用灰度直方圖的方式進行簡單映射,這種簡單的映射沒有考慮從腸癌病理圖像組織學意義,破壞圖像本身紋理特性.
圖1 大腸病理圖片F(xiàn)ig.1 Colon histopathological images
考慮到大腸病理圖像的特點,根據(jù)病理專家的指導,正常的大腸病理切片腺體排列整齊(圖1a,b);癌變的切片(圖1c,d),腺體排列紊亂,并且上皮細胞質(zhì)消失.大腸病理切片中主要包含有上皮細胞核、間質(zhì)細胞核、間質(zhì)、腺腔和上皮細胞質(zhì).這四類有醫(yī)學意義的物質(zhì)經(jīng)過HE染色后在RGB顏色空間會有三種顏色:白色(腺腔和上皮細胞質(zhì)),紫黑色(上皮細胞核和間質(zhì)細胞核,位于單個腺體和間質(zhì)外圍),紫色(間質(zhì)),這些有組織學意義的物質(zhì),剛好通過顏色可以加以區(qū)分.因此采用模糊均值聚類(FCM)的方法大腸病理圖像進行預處理,得到原圖的映射,然后計算行程長度紋理特征.
由于聚類的類別數(shù)由大腸病理圖片的特征決定為3類,而于FCM結(jié)果容易受初始中心位置的影響,將采用PCA方法[12]選出的3個初始聚類中心,把數(shù)據(jù)集中所有對象分成3類,通過隸屬度確定每個像素屬于某個類別的程度,使得被劃分到同一類像素之間相似度最大,而不同類別之間的相似度最小,聚類準則式為
(5)
其中DikA=||xk-vi||=(xk-vi)TA(xk-vi).利用拉格朗日乘數(shù)法求目標函數(shù)的極小值,目標函數(shù)式分別為
1≤i≤c,1≤k≤N
(6)
(7)
其中:X={x1,x2,…,xn}為圖像的像素構(gòu)成的集合;c為聚類的總類數(shù)取3;m為加權(quán)指數(shù),通常取值2;υi為初始聚類中心,在此通過PCA的方法確定;μik為xk以υi為聚類中心的模糊隸屬度.初始中心確定后,將每個像素的R,G,B值到三個初始中心的歐氏距離作比較,歐氏距離最小的歸為一類,然后不斷迭代更新初始中心,直到算法收斂.為了節(jié)省篇幅,圖2中只給出了圖1(b,d)的聚類結(jié)果:
根據(jù)圖2,即利用FCM量化后的圖中得知,圖2(b)癌變圖片在某個方向上(比如90°方向)某個量化值連續(xù)出現(xiàn)的行程數(shù)明顯比正常圖片要多.因此考慮用行程長度矩陣來統(tǒng)計量化后的矩陣,并計算特征向量.圖片2(b)只是90°方向一個例子,由于其他大腸正常和癌變圖片在四個方向的行程長度矩陣(0°,45°,90°,135°)行程特征差異比較大,因此從四個方向行程矩陣中計算特征因子(SRE,LRE,LGRE,HGRE).計算得到的特征向量共16維.
圖2 圖(1)中部分圖聚類結(jié)果Fig.2 Part of clustering results for Fig.1
3SVM分類器
支持向量機(Support vector machine)是一種新型機器學習方法[13],建立在統(tǒng)計學習理論的VC維理論核結(jié)構(gòu)風險最小原理基礎上,對于解決小樣本模式分類問題有獨特的優(yōu)勢、具有很好的泛化能力,在腸癌病理切片輔助診斷中有一定的應用[7-9].SVM模型中,懲罰參數(shù)c和核函數(shù)參數(shù)g對SVM分類準確率影響較大.SVM在線性可分的情況下,其最優(yōu)分類函數(shù)為
f(x)=sgn{w*·x+b*}=
(8)
對于非線性可分的情況下,利用內(nèi)積核函數(shù)將輸入空間變換到高維空間,當維度增加到無限維時,不同類別之間就可以區(qū)分.然后在新空間求最優(yōu)化線性分類面,最優(yōu)分類面為
(9)
SVM分類器常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù),需要根據(jù)實驗選出最合適的核函數(shù).
4實驗結(jié)果與分析
4.1圖片來源及實驗設計
作者實驗的大腸病理圖片均來自浙江省立同德醫(yī)院病理科.圖片總數(shù)為360 張,大腸病理圖片是由組織切片經(jīng)HE染色后由顯微鏡通過相機拍攝獲取的彩色圖片,其中顯微鏡為20倍物鏡,相機的分辨率為480×640.這360張大腸病理圖片由專業(yè)病理醫(yī)生對正常圖片和癌變圖片進行標注.作者實驗平臺及軟件環(huán)境在Intel(R)Core(TM)i3-2350MCPU2.3GHz,內(nèi)存為4GB,仿真軟件為MatlabR2013b.支持向量機(SVM)采用臺灣林智仁博士開發(fā)的LIBSVM軟件包.訓練圖片為200,其中正常和癌變圖片各100.測試圖片為160,其中正常和癌變圖片各為80.
算法的總體流程圖如圖3所示,具體步驟如下:
1) 把病理圖片分成訓練圖片和測試圖片2份.
2) 用根據(jù)顏色特征利用FCM量化病理圖片,得到量化后的矩陣.
3) 依據(jù)量化后的矩陣計算四個方向行程長度矩陣.
4) 依據(jù)四個方向行程長度矩陣計算紋理度量指標.
5) 計算出的紋理度量指標即特征向量作為支持向量機的輸入進行訓練,待分類器訓練好后,將待測圖片的特征向量輸入到分類器中進行識別.
圖3 算法流程圖Fig.3 Workflow of improved GLRLM algorithm
4.2實驗結(jié)果對比及分析
為了說明提取特征的有效性,針對大腸病理圖片,圖1,首先進行FCM聚類,然后根據(jù)聚類的結(jié)果計算其四個方向(0°,45°,90°,135°)的類別行程長度矩陣,并從矩陣中提取能夠反映出紋理的特征因子分別為(SRE,LRE,LGRE,HGRE)共16維特征.由于篇幅限制,主要寫出90°方向的四個特征(表1).
表1 圖1在90°方向特征
由表1可以看出:正常圖片SRE相對癌變圖片要大,由于正常圖片的紋理較細,所以SRE要大,而癌變圖片紋理較粗,變化緩慢,所以LRE對比正常圖片要大很多.表格中的特征值正好與實際圖片的紋理相符.對于正常圖片和癌變圖片LGRE和HGRE也有差異.大腸病變圖像不同的圖像表現(xiàn)從不同方向上特征值差異大,所以計算了四個方向行程長度矩陣將正常圖片和癌變圖片分類,由于篇幅限制表1只顯示了90°方向的特征值.
對于所有的訓練樣本首先都計算出特征向量共16維(0°,45°,90°,135°)特征值SRE,LRE,LGRE,HGRE.然后用SVM分類器訓練,找出最合適的參數(shù).實驗采用交叉驗證(Cross validation)的方法尋找適合診斷的最優(yōu)參數(shù),KCV的思想是將訓練集分成K組,每一組樣本依次作為驗證集,同時其余的K-1組作為訓練集,就可以找到最優(yōu)的c和g的值.訓練集用10折交叉驗證尋優(yōu),找出最合適的核函數(shù)參數(shù)g和懲罰參數(shù)c.核函數(shù)采用線性核函數(shù),最優(yōu)參數(shù)最終選定c=11.313 7,g=2.
為了評價實驗結(jié)果,將160張測試圖片(其中正常和癌變圖片和80)的分類準確率,為驗證作者算法的有效性與優(yōu)越性,將該算法與基于傳統(tǒng)灰度行程長度(GLRLM)紋理特征提取算法對比.灰度共生矩陣[7]應用于腸癌病理圖片的分類國內(nèi)也已經(jīng)在研究,因此與文獻[7]中腸癌病理圖片分類算法結(jié)果對比.同時將三種分類器SVM,KNN,BP[14]應用于腸癌病理圖片分類,實驗結(jié)果如表2所示.
表2 算法對比結(jié)果
從表2中可以看出:針對同一種算法,用不同的分類器時,SVM能得到比其他分類器更高的識別率.而從當都用SVM分類器進行訓練時,對于測試樣本,作者算法比傳統(tǒng)GLRLM算法和文獻[7]的灰度共生矩陣識別準確率要高.當采用SVM分類器時,作者算法可以達到97%的分類準確率.由此也可以看出針對腸癌病理圖片的特征,以及樣本數(shù)量少的特性,采用SVM分類器比較適合.
為了分析改進后GLRLM相對于傳統(tǒng)算法的優(yōu)勢,以下是傳統(tǒng)算法將癌變圖片分類錯誤的一個例子.圖4(a)是筆者利用FCM算法量化彩色圖像為3個等級后的圖像.圖4(b)是利用傳統(tǒng)GLRLM算法,將灰度圖像圖等間隔量化為8個灰度等級.由于癌變的圖像紋理較粗,作者算法提出利用FCM將彩色圖像量化為3個等級,正反映了這一紋理特征如圖4(a)所示.而傳統(tǒng)的GLRLM算法未考慮組織學特征,直接將灰度圖等間隔量化為8個灰度等級,導致癌變圖像圖4(b)的紋理與正常圖像的細紋理接近,計算紋理特征向量時,尤其是在45°方向長行程因子會較小,從而將癌變圖像錯分到正常一類.
圖4 預處理結(jié)果對比Fig.4 Comparison results for preprocessing
5結(jié)論
將傳統(tǒng)行程長度紋理特征應用于腸癌病理圖像的分類,通過與共生矩陣紋理特征對比,表明行程長度紋理特征對于腸癌病理特征分類的有效性.進一步對行程長度紋理特征進行預處理改進,得到更高的分類準確率,通過不同的分類器的分類準確率比較,得出SVM分類器比較適合小樣本的腸癌病理圖像的分類,此算法對于輔助病理醫(yī)生診斷具有重要的價值.由于數(shù)據(jù)的獲取不太方便,作者此次只做了高分化癌變的識別,如何提出更好的特征應用其他癌變情況識別將是作者下一步的研究計劃.
參考文獻:
[1]SIEGEL R, NAISHADHAM D, JEMAL A. Cancer statistics[J]. A Cancer Journal for Clinicians,2013,63(1):11-30.
[2]BARRETT J, JIWA M, ROSE P, et al. Pathways to the diagnosis of colorectal cancer:an observational study in three UK cities[J]. Family Practice,2006,23(1):15-19.
[3]JAFARI-KHOUZANI K, SOLTANIAN-ZADEH H. Multiwavelet grading of pathological images of prostate[J]. IEEE Transactions on Biomedical Engineering,2003,50(6):697-704.
[4]WANG Y, CROOKES D, ELDIN O S, et al. Assisted diagnosis of cervical intraepithelial neoplasia[J]. IEEE Journal of Selected Topics in Signal Processing,2009,3(1):112-121.
[5]TOSUN A B, GUNDUZ-DEMIR C. Graph run-length matrices for histopathological image segmentation[J]. IEEE Transactions on Medical Imaging,2011,30(3):721-732.
[6]TOSUN A B, KANDEMIR M, SOKMENSUER C, et al. Object-oriented texture analysis for the unsupervised segmentation of biopsy images for cancer detection[J]. Pattern Recognition,2009,42(6):1104-1112.
[7]JIAO Liping, CHEN Qi ,LI Shuyu, et al. Colon cancer detection using whole slide histopathological images[C]// Mian Long .World Congress on Medical Physics and Biomedical Engineering. Beijing, China:Springer Berlin Heidelberg,2013:1283-1286.
[8]XU Yan, JIAO Liping, WANG Siyu, et al. Multi-label classification for colon cancer using histopathological images[J]. Microscopy Research and Technique,2013,76(12):1266-1277.
[9]ALTUNBAY D, CIGIR C, SOKMENSUER C, et al. Color graphs for automated cancer diagnosis and grading[J]. Biomedical Engineering, IEEE Transactions on,2010,57(3):665-674.
[10]陳玲,沈紅標,李咸偉,等.改進的圖像紋理檢索方法在礦石識別中的應用[J].中國圖象圖形學報,2007,11(11):1700-1703.
[11]王培珍,繆家龍,周可,等.基于行程長度紋理特征的焦炭顯微圖像分類算法[J].煤炭學報,2012,37(6):1051-1055.
[12]朱永忠,姚燁,張艷.基于主成分分析和Logistic回歸的上市公司財務困境預警模型的研究[J].浙江工業(yè)大學學報,2012,40(6):692-694.
[13]古輝,吳佳麗.一種紅細胞特征提取與分類識別的研究[J].浙江工業(yè)大學學報,2009,37(5):480-485.
[14]朱海濤,徐建明,何德峰,等.基于最小均方delta規(guī)則的神經(jīng)網(wǎng)絡工件識別[J].浙江工業(yè)大學學報,2014,42(2):219-224.
(責任編輯:劉巖)
作者簡介:龍勝春(1970-),女,浙江杭州人,副教授,研究方向為無線傳感器網(wǎng)絡、醫(yī)學圖形處理,E-mail:longsc@zjut.edu.cn.
收稿日期:2014-09-05