劉艷紅,羅曉曙,陳 錦,郭 磊
(廣西師范大學(xué)電子工程學(xué)院,廣西桂林541004)
?
宮頸細(xì)胞圖像的特征提取與識別研究
劉艷紅,羅曉曙,陳錦,郭磊
(廣西師范大學(xué)電子工程學(xué)院,廣西桂林541004)
摘要:宮頸涂片的檢查是診斷宮頸癌的最有效手段之一,而傳統(tǒng)的宮頸細(xì)胞識別系統(tǒng)存在很大的局限,例如假陰性率和假陽性率過高。本文為了提高宮頸細(xì)胞涂片診斷的效率和準(zhǔn)確率,首先提取宮頸細(xì)胞的形態(tài)特征和極徑灰度中值,然后采用AdaBoost-SVM多特征融合分類器進(jìn)行分類。實驗研究結(jié)果表明:通過特征提取方法與AdaBoost-SVM多特征融合分類器結(jié)合,明顯提高了宮頸細(xì)胞涂片篩查的效率和準(zhǔn)確率,降低了宮頸癌的誤診率。
關(guān)鍵詞:極徑;灰度中值;支持向量機(jī);AdaBoost;AdaBoost-SVM分類器
0引言
根據(jù)全球的流行病報道,宮頸癌是現(xiàn)代女性的殺手之一,全世界每年新增的宮頸癌患者50多萬。宮頸癌的癌變是一個連續(xù)發(fā)展的過程,有相當(dāng)長的癌病變節(jié)時段,宮頸細(xì)胞癌變前期到宮頸浸潤癌一般需要8~10年時間,所以早期篩查成為宮頸癌的預(yù)防和治療的關(guān)鍵之一。一些發(fā)達(dá)國家定期讓婦女參加宮頸篩查,現(xiàn)在他們的宮頸癌發(fā)病率相當(dāng)?shù)蚚1]。根據(jù)WHO調(diào)研報告,如果發(fā)展中國家每5年對婦女做一次宮頸癌早期篩查,全球?qū)m頸癌的死亡率可能下降60%。目前傳統(tǒng)方法是通過人工閱片來篩查宮頸癌的癌變,這種方法會使判讀結(jié)果出現(xiàn)較高的假陰性率和假陽性率,識別效率也低。為了提高宮頸細(xì)胞涂片診斷的效率和準(zhǔn)確率,本文利用計算機(jī)技術(shù)并結(jié)合有關(guān)算法,首先提取宮頸細(xì)胞的形態(tài)特征(幾何與紋理特征)和極徑灰度中值,然后將支持向量機(jī)SVM與AdaBoost迭代算法結(jié)合起來,形成AdaBoost-SVM多特征融合分類器[2],實現(xiàn)對宮頸細(xì)胞的幾何、紋理特征和極徑灰度中值的多特征融合識別。
1宮頸細(xì)胞圖像的特征提取
本文的實驗數(shù)據(jù)來源于Herlev宮頸細(xì)胞圖像數(shù)據(jù)集(http://labs.fme.aegean.gr/decision/downloads),Herlev宮頸細(xì)胞圖像數(shù)據(jù)集是由丹麥技術(shù)大學(xué)(TechnicalUniversityofDenmark)和Herlev大學(xué)醫(yī)院(HerlevUniversityHospital)聯(lián)合開發(fā)的。宮頸單細(xì)胞圖像包括七類(如圖1所示):正常上皮宮頸細(xì)胞、正常中層宮頸細(xì)胞、正常柱狀宮頸細(xì)胞、輕度異常宮頸細(xì)胞、中度異常宮頸細(xì)胞、重度異常宮頸細(xì)胞、宮頸癌細(xì)胞。JensenB.[2]提出使用模糊神經(jīng)網(wǎng)絡(luò)分類器識別500張,但是識別率較低。NikolaosAmpazis等[3]提出使用神經(jīng)網(wǎng)絡(luò)識別宮頸細(xì)胞圖像,提取20種形態(tài),用神經(jīng)網(wǎng)絡(luò)訓(xùn)練,實現(xiàn)七分類平均識別率80.70%,最高識別率為88.90%。YannisMarinakis等[4]使用鄰近分類器(Nearestneighborbasedclassifiers)對宮頸細(xì)胞圖像二分類識別率雖然能達(dá)到96%,但是七分類的識別率不到80%。
圖1 7種宮頸單細(xì)胞圖像示例圖Fig.1 The example of figure is seven kinds of cervical single cell image
本文參考文獻(xiàn)[5]的方法,把宮頸細(xì)胞圖像的20種幾何特征精簡到9種,這9種特征分別為:細(xì)胞質(zhì)的周長、細(xì)胞核的周長、豎直方向長軸的最長度(Maximumlength,L)、水平方向?qū)捿S的最長度(Maximumwidth,W)、細(xì)胞核與細(xì)胞質(zhì)的比率(N/Cratio)、 從軸的中心到周長的最長度(MAP)、從軸中心到周長的平均長度(AAP)、從重心到周長的最長長度(MGP)、從重心到周長的平均長度(AGP),這些特征可以完整描述宮頸細(xì)胞不規(guī)則形狀的幾何特征。紋理特征使用Haralick兩特征和Tamura的2種特征,共4種紋理特征,包括:共生矩陣的熵(entropyofco-occurrencematrix,ECM)、共生矩陣的對比度(CCM);2種Tamura特征為對比度和粗糙度應(yīng)用到宮頸細(xì)胞核的紋理特征。
宮頸單細(xì)胞圖像是由細(xì)胞核、細(xì)胞質(zhì)和背景3個區(qū)域組成,每一幅圖像的3個區(qū)域都可以轉(zhuǎn)化到極坐標(biāo)系,這樣可以提取極坐標(biāo)下的極徑灰度值,360條極徑的灰度值組成一個特征矩陣。本文將極坐標(biāo)下的特征向量與前面的形態(tài)特征進(jìn)行融合,來研究宮頸細(xì)胞的識別。圖2所示的就是將直角坐標(biāo)的宮頸細(xì)胞圖像轉(zhuǎn)化為極坐標(biāo)圖像的結(jié)果。
圖2 宮頸細(xì)胞轉(zhuǎn)換到極坐標(biāo)下的示例圖Fig.2 The example of figure is cervical cells converting to polar coordinates
設(shè)極坐標(biāo)空間中的宮頸單細(xì)胞圖像為P,則P矩陣可表示為:
(1)
式中:maxr為極坐標(biāo)的最大半徑,mincta為極坐標(biāo)中的極角間隔,取值為1°。再將極坐標(biāo)空間中每條極徑上的宮頸細(xì)胞圖像灰度中值作為宮頸細(xì)胞圖像的一種特征值,構(gòu)成宮頸細(xì)胞圖像的特征向量:
(2)
2AdaBoost-SVM多特征融合分類器
張曉龍等[6]選擇支持向量機(jī)SVM與AdaBoost結(jié)合的算法,以breast-cancer數(shù)據(jù)集為對象提高了SVM的學(xué)習(xí)性能;RuihuWang[7]提出了一種基于AdaBoost與SVM算法結(jié)合的向量機(jī),應(yīng)用于人臉和表情識別,改善了分類器的穩(wěn)定性和差異性。本文采用的AdaBoost-SVM分類器用于宮頸細(xì)胞的識別,具體算法如下:
1)提取宮頸細(xì)胞圖像幾何特征A(i,j)、紋理特征B(i,j)和極徑灰度值特征c(i,j),i是從1到7的整數(shù),分別表示相對應(yīng)宮頸細(xì)胞的類;j表示從1到n維的特征向量;
2)二維主成分分析(2DPCA)多特征向量降維[8]:設(shè)X為宮頸細(xì)胞的特征矩陣,X是A(i,j),B(i,j)和C(i,j)的融合,并進(jìn)行歸一化處理得:
(3)
其中X1是X的列向量,將X的每行、列進(jìn)行零均值化,得行協(xié)方差矩陣和列協(xié)方差矩陣為:
(4)
(5)
(6)
Mi就是二維主成分分析(2DPCA)提取降維后的多特征矩陣。由降維后的矩陣Mi、宮頸細(xì)胞數(shù)據(jù)集{(x1,y1),(x2,y2),…,(xn,yn)}(yi表示訓(xùn)練點的類型,xi表示樣本特征向量,n表示訓(xùn)練點數(shù))加入AdaBoost-SVM多特征融合分類器進(jìn)行分類實驗。
3)AdaBoost-SVM多特征融合分類器具體實施步驟如下:
②支持向量是由訓(xùn)練子集χ中的每一個樣本點來求出:
(7)
(8)
(9)
‖x-x′‖=k(x,x)-2k(x,x′)+k(x′,x′),
(10)
對宮頸細(xì)胞數(shù)據(jù)訓(xùn)練集上的所有樣本進(jìn)行分類。
⑤按照當(dāng)前權(quán)值的分布。隨機(jī)從宮頸細(xì)胞數(shù)據(jù)集中選擇一個樣本,若該樣本不在訓(xùn)練子集χ中,或者被分類器分錯,將這個樣本重新加入正在訓(xùn)練的子集中,同時將χ中具有最小權(quán)值的樣本刪除,回到步驟②;否則跳轉(zhuǎn)步驟④。
⑥最后分類器函數(shù):
(11)
3AdaBoost-SVM分類器統(tǒng)計的結(jié)果
根據(jù)前面所述,用AdaBoost-SVM分類器對宮頸細(xì)胞進(jìn)行二分類、七分類的識別研究,二分類實驗結(jié)果見表1,七分類實驗結(jié)果見表2。
表1 本文方法對宮頸細(xì)胞圖像進(jìn)行二分類
二分類識別平均百分率為98.83%,其中正常細(xì)胞識別率最高為99.12%。表2所示的七分類的平均識別率為95.18%,其中正常柱狀宮頸細(xì)胞識別率最高達(dá)97.19%。
表2 本文方法對宮頸細(xì)胞圖像進(jìn)行七分類的結(jié)果
文獻(xiàn)[9]使用機(jī)器學(xué)習(xí)的方法對新的宮頸細(xì)胞數(shù)據(jù)庫(917張圖片)進(jìn)行識別,假陽性率和假陰性率較低,二分類平均識別率96.83%,七分類平均識別率78.00%。本文與文獻(xiàn)[9]相比,二分類識別率提高2個百分點,七分類識別率提高17.18個百分點。
將患者的真實情況與計算機(jī)系統(tǒng)診斷的結(jié)果進(jìn)行對比是用來檢驗計算機(jī)判讀能力的方法,通常使用的指標(biāo)有:假陰性率(falsenegative:FN)、假陽性率(falsepositive:FP)、準(zhǔn)確率(accuracy)、靈敏度(sensitivity)和特異度(specificity);其中準(zhǔn)確率(accuracy)、靈敏度(sensitivity)和特異度(specificity)[10]是最常用的。下面將使用這3個指標(biāo)來評價本文的特征提取與AdaBoost-SVM分類器相結(jié)合后的識別率,再與貝葉斯分類器(Bayes)、線性判別(LDA)分類器、人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM)[11]作比較。二分類評價指標(biāo)對比數(shù)據(jù)如表3所示,七分類評價指標(biāo)對比數(shù)據(jù)如表4所示。
表3 宮頸細(xì)胞圖像二分類的評價指標(biāo)
表4 宮頸細(xì)胞圖像七分類評價指標(biāo)
4小結(jié)
本文基于AdaBoost-SVM多特征融合的方法研究了宮頸單細(xì)胞圖像識別問題?;贛ATLAB平臺工具箱和VC++輔助,驗證了本文的特征提取與特征選擇的有效性。由表3、表4的識別結(jié)果可知,與貝葉斯分類器、線性判別分類器、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)相比較,本文的宮頸細(xì)胞識別方法明顯提高了二分類和七分類宮頸細(xì)胞的識別率,其識別靈敏度與所比較的方法基本相同。研究結(jié)果對于降低宮頸癌的誤診率有較好的應(yīng)用價值。
參考文獻(xiàn):
[1]FERLAYJ,SOERJOMATARAMI,DIKSHITR,etal.Cancerincidenceandmortalityworldwide:sources,methodsandmajorpatternsinGLOBOCAN2012 [J/OL].InternationalJournalofCancer, 2015, 136(5):E359-E386.http://onlinelibary.wiley.com/doi/10.1002/ijc.29210/abstract.
[2]JENSENB.Neuro-FuzzyClassificationofCellsinCervicalSmears[D].Denmark:TechnicalUniversityofDenmark, 1999.
[3]NIKOLAOSA,GEORGED,JANJ.Pap-Smearclassificationusingefficientsecondorderneuralnetworktrainingalgorithms[M]//GEORGEAV,THEMISTOKLISP.MethodsandApplicationsofAritificialIntelligence:BerlinHeidelberg:SpringerVerlag2004:230-245.
[4]YANNISM,GEORGIOSD,JANJ.Papsmeardiagnosisusingahybridintelligentschemefocusingongeneticalgorithmbasedfeatureselectionandnearestneighborclassification[J].ComputersinBiologyandMedicine,2009, 39(1):69-78.
[5]CHENYungfu,HUANGPochi,LinKercheng,etal.Semi-Automaticsegmentationandclassificationofpapsmearcells[J].IEEJournalofBiomedicalandhealthinformatics, 2014, 18(1):94-108.
[6]張曉龍,任芳. 支持向量機(jī)與AdaBoost的結(jié)合算法研究[J]. 計算機(jī)應(yīng)用研究,2009(1):77-78.
[7]WANGRuihu.AdaBoostforfeatureselection,classificationanditsrelationwithSVM,AReview[J].PhysicsProcedia,2012,25:800-807.
[8]YANGJian,ZHANGD,F(xiàn)RANGIAF,etal.TwodimensionalPCA:anewapproachtoappearance-basedfaceRepresentationandrecognition[J].IEEETransPatternAnalMachIntell, 2004, 26(1):131-137.
[9]ABIDS,VINODS,RAJEEVG,HybridensemblelearningtechniqueforscreeningofcervicalcancerusingPapanicolaousmearimageanalysis[J].PersonalizedMedicineUniverse, 2015, 4:54-62.
[10]NORUPJ.Classificationofpap-smeardatabytransductiveneuro-fuzzymethods[D].Denmark:TechnicalUniversityofDenmark, 2005.
[11]CHANKONGT,THEERA-UMPONN,AUEPHANWIRIYAKULS.AutomaticcervicalcellsegmentationandclassificationinPapsmears[J].ComputerMethodsandProgramsinBiomedicine,2014, 113(2):539-556.
(責(zé)任編輯馬殷華)
doi:10.16088/j.issn.1001-6600.2016.02.009
收稿日期:2015-12-15
基金項目:國家自然科學(xué)基金資助項目(21327007);廣西研究生教育創(chuàng)新計劃項目(YCSZ2015101)
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
文章編號:1001-6600(2016)02-0061-06
ResearchonCervicalCellImageFeatureExtractionandRecognition
LIUYanhong,LUOXiaoshu,CHENJin,GUOLei
(CollegeofElectronicEngineering,GuangxiNormalUniversity,GuilinGuangxi541004,China)
Abstract:Cervical smear examination is one of the most effective means of diagnosis of cervical cancer, while the traditional cervical cell recognition system has significant limitations, with low false-negative and false-positive rates. Firstly, morphological characteristics and the gray values of pole in cervical cells are extracted. Then AdaBoost-SVM feature fusion classifier is used to classify the cervical cells in order to improve the efficiency and accuracy of diagnosis of cervical smears. The research results show that the combination of extraction method and multi-feature fusion AdaBoost-SVM classifier can significantly improve the efficiency and accuracy of cervical smear screening, and can reducethe misdiagnosis rate of cervical cancer.
Keywords:polar radius; gray median in value; support vector machine; AdaBoost; AdaBoost-SVM classifier
通信聯(lián)系人:羅曉曙(1961—),男,湖北應(yīng)城人,廣西師范大學(xué)教授,博士。E-mail:lxs@mailbox.gxnu.edu.cn