茹仙古麗·艾爾西丁 木拉提·哈米提 嚴(yán)傳波
摘 要:目的 探討RF和C4.5決策樹對X線食管造影圖像分型中的應(yīng)用,以及驗證分類器對特征的分類能力。方法 選取2018年1月~6月在新疆醫(yī)科大學(xué)第一附屬醫(yī)院、第二附屬醫(yī)院和第三附屬(腫瘤)醫(yī)院的放射科選取潰瘍性、縮窄型和蕈傘型食管癌X線圖像各560張,提取灰度共生矩陣,灰度直方圖和混合特征;采用RF和C4.5決策樹通過調(diào)整參數(shù)進(jìn)行分類研究。結(jié)果 RF和C4.5決策樹對潰瘍型和縮窄型食管癌進(jìn)行分類,灰度共生矩陣的分類準(zhǔn)確率分別為73.30%,67.76%;灰度直方圖分類準(zhǔn)確率分別為84.55%,76.16%。而混合特征算法的分類準(zhǔn)確率分別為95.08%,86.87%;對潰瘍型和蕈傘型食管癌進(jìn)行分類,灰度共生矩陣的分類準(zhǔn)確率分別為75.08%,66.96%;灰度直方圖分類準(zhǔn)確率分別為83.83%,77.23%。而混合特征算法的分類準(zhǔn)確率分別為80.98%,73.66%。結(jié)論 灰度直方圖特征的分類準(zhǔn)確率比灰度共生矩陣特征的平均高10%,混合特征更適合于潰瘍型,縮窄型食管癌的分類。而灰度直方圖特征更適合于潰瘍型,蕈傘型食管癌的分類;RF的分類能力比C4.5決策樹高。此算法可為X線食管造影圖像的分類提供參考。
關(guān)鍵詞:食管癌;隨機(jī)森林;C4.5決策樹;特征提取
中圖分類號:R735.1;TP391.4 文獻(xiàn)標(biāo)識碼:A DOI:10.3969/j.issn.1006-1959.2018.22.015
文章編號:1006-1959(2018)22-0051-05
Research on RF and C4.5 Decision Tree in Image Classification of Esophageal Cancer
Roxangvl·Arxidin1,Murat·Hamit2,YAN Chuan-bo2,YAO Juan3
(1.Basic Medical College,Xinjiang Medical University,Urumqi 830011,Xinjiang,China;
2.College of Medical Engineering Technology,Xinjiang Medical University,Urumqi 830011,Xinjiang,China;
3.Department of Radiology,the First Affiliated Hospital,Xinjiang Medical University,Urumqi 830054,Xinjiang,China)
Abstract:Objective To explore the application of RF and C4.5 decision tree to the classification of X-ray esophageal images and to verify the classifier's ability to classify texture features.Methods From January to June 2018, the radiologists of the first affiliated Hospital, the second affiliated Hospital and the third affiliated (tumor) Hospital of Xinjiang Medical University selected 560 X-ray images of ulcerative, constrictive and mushroom esophageal cancer to extract the gray level symbiosis matrix. Grayscale histogram and mixed feature; RF and C4.5 decision tree are used to study the classification by adjusting the parameters.Results RF and C4.5 decision tree were used to classify ulcerative and constricted esophageal cancer. The classification accuracy of gray co-occurrence matrix was 73.30%and 67.76%.The classification accuracy of gray histogram was 84.55% and 76.16%,respectively.The classification accuracy of comprehensive feature algorithm was 95.08% and 86.87%, the classification accuracy of ulcerative and mushroom esophageal cancer was 75.08% and 66.96%, respectively, and the classification accuracy of gray histogram was 83.83%and 77.23%, respectively. The classification accuracy of comprehensive feature algorithm was 80.98% and 73.66%,respectively.Conclusion The classification accuracy of grayscale histogram is 10% higher than that of gray level co-occurrence matrix. The comprehensive feature is more suitable for classification of ulcerative and constrictive esophageal cancer. The gray histogram features are more suitable for the classification of ulcerative and mushroom esophageal cancer, and the classification ability of RF is higher than that of C4.5 decision tree. This algorithm can provide reference for the classification of X-ray esophageal images.
Key words:Esophageal cancer;Random forest;C4.5 decision tree;Feature extraction
癌癥是嚴(yán)重危害人類健康的慢性疾病,也是威脅生命的主要殺手。其中食管癌是對癌癥患者生存質(zhì)量(quality of life,QOL)影響最大的疾病之一[1]。新疆哈薩克族是食管癌的高發(fā)民族,其食管癌死亡率達(dá)155.9/106,高于我國平均水平15.23/106,是本地區(qū)重點防治的惡性腫瘤[2]。隨著科學(xué)技術(shù)的發(fā)展和醫(yī)學(xué)影像應(yīng)用的推廣,越來越多的醫(yī)學(xué)圖像需要醫(yī)生解讀[3,4]。由于食管癌的早期臨床特征不明顯,醫(yī)生也有可能會因為經(jīng)驗不足或疲勞而產(chǎn)生解讀錯誤,使疾病漏診[5]。醫(yī)學(xué)影像疾病誤診率可達(dá)到10%~30%[6]。計算機(jī)輔助診斷(computer-aided diagnosis,CAD)技術(shù)的出現(xiàn)為醫(yī)生提供有效的診斷決策支持。分析整幅圖像時不僅存在大量冗余信息,而且容易降低準(zhǔn)確率。所以,將整幅圖像縮小到若干小的病灶區(qū)域(ROI),然后對圖像進(jìn)行預(yù)處理,最后提取特征,這樣可以提高計算機(jī)處理速度和分類準(zhǔn)確率。本研究利用灰度共生矩陣和灰度直方圖提取食管圖像的特征,構(gòu)造RF和C4.5決策樹分類器實現(xiàn)圖像的分類,以及驗證分類器對特征的分類能力。
1資料與方法
1.1研究對象 選取2018年1月~6月在新疆醫(yī)科大學(xué)第一附屬醫(yī)院、第二附屬醫(yī)院和第三附屬(腫瘤)醫(yī)院放射科選取潰瘍性、縮窄型和蕈傘型食管癌X線圖像各560張,在臨床醫(yī)師的指導(dǎo)下,人工干預(yù)的方式分割出病灶信息區(qū)域,并進(jìn)行歸類,病灶區(qū)域的提取結(jié)果見圖1。
1.2圖像處理 在醫(yī)學(xué)X射線圖像放射成像的過程中,由于人體組織結(jié)構(gòu)的復(fù)雜性及成像系統(tǒng)的X射線散射、電器噪聲等不利因素的影響,會導(dǎo)致圖像質(zhì)量下降。最主要表現(xiàn)為對比度差、細(xì)節(jié)模糊,影響了醫(yī)生的診斷及分析,為了得到更清晰的圖像對圖像進(jìn)行預(yù)處理。本研究在臨床醫(yī)師的指導(dǎo)下,首先對圖像進(jìn)行病灶區(qū)域分割,并進(jìn)行歸一化。然后用中值濾波去噪[7-10],中值濾波是一種非線性濾波,適用于濾除脈沖噪聲或顆粒噪聲,并能保護(hù)圖像邊緣。但是去噪處理之后,出現(xiàn)圖像的邊緣和輪廓模糊的情況。為了減少這類不利效果的影響,就需要利用高通濾波器對圖像進(jìn)行銳化增強(qiáng)[11,12],目的是為了使圖像的邊緣、輪廓線以及圖像的細(xì)節(jié)變得清晰。預(yù)處理后的結(jié)果見圖2~圖4。
1.3特征提取
1.3.1灰度共生矩陣特征 灰度共生矩陣[13,14]將圖像中像素及其鄰域像素的空間關(guān)系和灰度關(guān)系結(jié)合起來,充分體現(xiàn)了一定空間關(guān)系下圖像的灰度變化情況,從而達(dá)到分析圖像紋理特征的目的。首先,對圖像進(jìn)行二層小波分解提取圖像的低頻信息;然后使用灰度共生矩陣法提取低頻信息的特征,取像素距離d=1,?夼={0°,45°,90°,135°}4個方向,對每個方向上的共生矩陣提取以下Q1~Q4的特征值。因此,每種紋理形成了能反映自身特征的一組包含16個元素的特征向量。
2圖像分類
2.1 RF分類算法 RF算法[17,18]是由Brieman在2001年提出的一個集成學(xué)習(xí)算法框架。訓(xùn)練時,通過Bagging方法隨機(jī)抽取樣本集和特征集訓(xùn)練不同的決策樹;分類時,每棵樹對類別進(jìn)行“投票”決定最終分類結(jié)果[19]。隨機(jī)森林特征選擇過程是通過迭代生成隨機(jī)森林,每輪迭代后對特征重要性進(jìn)行排序,剔除不重要的特征,直至符合結(jié)束條件。
2.2 C4.5決策樹分類算法 C4.5決策樹算法[20-22]是判斷給定樣本與某種屬性相關(guān)聯(lián)的決策過程的一種表示方法,從數(shù)據(jù)中生成分類器的一個特別有效的方法是生成一棵決策樹,該方法廣泛應(yīng)用于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等領(lǐng)域,用來解決與分類相關(guān)的問題。決策樹表示法是應(yīng)用最廣泛的邏輯方法。目前生成決策樹方法的算法主要有三種:CART算法,ID3算法,C4.5算法。其中C4.5算法具有分類速度快且精度高的特點,是發(fā)展得比較完善的一種決策樹算法[23]。
3結(jié)果
本研究構(gòu)造RF分類器和C4.5決策樹分類器,采用十折交叉驗證法。在實驗過程中,調(diào)整RF分類器的數(shù)字特征(0≤n≤2)和C4.5決策樹分類器的參數(shù)c(0.1≤c≤5)對提取的特征進(jìn)行分類。分類結(jié)果見圖5。RF和C4.5決策樹分類器應(yīng)用于兩種分類方式,分類準(zhǔn)確率,見表1。
4討論
本次研究顯示:①用潰瘍型和縮窄型兩種食管癌進(jìn)行分類,RF(n=2)和C4.5決策樹(c=0.35)對灰度共生矩陣特征的分類準(zhǔn)確率分別為73.30%和67.76%;RF(n=2)和C4.5決策樹(c=0.4)對灰度直方圖特征的分類準(zhǔn)確率分別為84.55%和76.16%;RF(n=0)和C4.5決策樹(c=0.3)對混合特征的分類準(zhǔn)確率分別為95.08%和86.87%。RF分類器對三種特征的分類能力比C4.5決策樹分類器的高,對混合特征的分類準(zhǔn)確率最好。②用潰瘍型和蕈傘型兩種食管癌進(jìn)行分類,RF(n=0)和C4.5決策樹(c=0.3)對灰度共生矩陣特征的分類準(zhǔn)確率分別為75.08%和66.96%;RF(n=2)和C4.5決策樹(c=0.25)對灰度直方圖特征的分類準(zhǔn)確率分別為83.83%和77.23%;RF(n=0)和C4.5決策樹(c=0.2)對混合特征的分類準(zhǔn)確率分別為80.98%和73.66%。RF分類器對灰度直方圖特征的分類效果比灰度共生矩陣特征的高9.51%,比混合特征的高3.21%;灰度直方圖特征更適合于這兩種食管癌的準(zhǔn)確分類。
本研究結(jié)果顯示,兩種分類器適用于兩種分類方式RF分類器的分類效果比C4.5決策樹分類器的高;這可能是由于C4.5決策樹雖然是一種簡單且快速的非參數(shù)分類方法,還具有很好的準(zhǔn)確率。然而當(dāng)數(shù)據(jù)復(fù)雜或者存在噪聲時,易出現(xiàn)過擬合問題,使得分類準(zhǔn)確率下降。隨機(jī)森林是以決策樹為基本分類器的一個集成學(xué)習(xí)模型,它克服了決策樹過擬合問題,對噪聲和異常值有較好的容忍性,對高維數(shù)據(jù)分類問題具有良好的可擴(kuò)展性和并行性??偟姆诸愋Ч麃碇v,潰瘍型食管癌的分類效果最高,這表明潰瘍性食管癌與縮窄型或蕈傘型食管癌在灰度共生和灰度直方圖特征上有很大的差異。這可能是由于潰瘍性食管癌的病灶區(qū)存在長條狀潰瘍造成圖像的灰度改變所致。
食管癌是常見的消化道惡性腫瘤,新疆哈薩克族人群的食管癌發(fā)病率與其他民族相比居首位。本研究選取潰瘍型、縮窄型和蕈傘型X線食管造影圖像為研究對象,使用基于灰度共生矩陣,灰度直方圖和混合的特征提取方法,通過構(gòu)造RF和C4.5決策樹分類器對特征的分類能力進(jìn)行驗證。結(jié)果表明,灰度直方圖特征的分類效率優(yōu)于灰度共生矩陣特征;RF與C4.5決策樹分類器分類能力進(jìn)行比較,RF的分類能力較佳,更適合于本研究所使用的研究對象進(jìn)行分類。這將新疆哈薩克族X線食管造影圖像的分類提供一種新的思路和參考。
參考文獻(xiàn):
[1]徐悅洋,衛(wèi)莉,楊長永.癌癥患者自我感受負(fù)擔(dān)現(xiàn)狀的研究進(jìn)展[J].中國實用護(hù)理雜志,2018,34(13):1032-1035.
[2]楊芳,木拉提·哈米提,嚴(yán)傳波,等.PCA和SVM在新疆哈薩克族食管癌圖像分類中的研究與應(yīng)用[J].科技通報,2016,32(3):53-57.
[3]Martin Spahn.X-ray detectors in medical imaging[J].Nuclear Instruments and Methods in Physics Research Section A Accelerators Spectrometers Detectors and Associated Equipment,2013,731(5):57-63.
[4]Setyowati E,Suparta GB,Poedjomartono B.Phantom image dimension analysis on computed tomography image[J].AIP Conference Proceedings,2016,1755(1):1-4.
[5]房俊飛,李文武,劉桂芬,等.腹段食管癌漏診的常見原因及預(yù)防措施[J].腫瘤研究與臨床,2002,14(4):281.
[6]顧晴,熊長明,柳志紅,等.結(jié)締組織病合并肺栓塞的臨床特征及誤診原因分析[J].中華醫(yī)學(xué)雜志,2015,95(2):120-122.
[7]黃夢濤,胡永才.改進(jìn)自適應(yīng)中值濾波的低照度煙霧圖像去噪[J].計算機(jī)工程與設(shè)計,2018,39(6):1659-1663.
[8]張娟.融合中值濾波與小波軟閾值去噪模型的新元礦視頻監(jiān)控圖像濾波方法[J].金屬礦山,2017,(12):103-107.
[9]龔夢龍.中值濾波結(jié)合小波變換在光譜去噪中的應(yīng)用[J].科技與創(chuàng)新,2018(12):152-154.
[10]陳曉,唐詩華.改進(jìn)的中值濾波在圖像去噪中的應(yīng)用[J].地理空間信息,2015,13(6):77-78.
[11]楊作寶,侯凌燕,楊大利.人臉識別的光照預(yù)處理算法[J].北京信息科技大學(xué)學(xué)報(自然科學(xué)版),2015,30(6):77-82.
[12]武惠杰,郭天興.高通濾波器性能研究[J].電力電容器與無功補(bǔ)償,2014,35(2):5-8.
[13]宋衛(wèi)華,張青.灰度共生矩陣算法研究[J].黃山學(xué)院學(xué)報,2014,16(3):34-37.
[14]任國貞,江濤.基于灰度共生矩陣的紋理提取方法研究[J].計算機(jī)應(yīng)用與軟件,2014,31(11):190-192,325.
[15]牛沖,牛昱光,李寒,等.基于圖像灰度直方圖特征的草莓病蟲害識別[J].江蘇農(nóng)業(yè)科學(xué),2017,45(4):169-172.
[16]任民宏,陳波,魯秋菊.基于灰度直方圖和高斯混合模型多特征膚色識別算法[J].陜西理工學(xué)院學(xué)報,2017,33(5):43-46,64.
[17]尹華,胡玉平.基于隨機(jī)森林的不平衡特征選擇算法[J].中山大學(xué)學(xué)報(自然科學(xué)版),2014,53(5):59-65.
[18]寧霄,趙鵬.隨機(jī)森林算法在樹木年輪圖像分割中的應(yīng)用[J].林業(yè)工程學(xué)報,2018,3(4):125-130.
[19]吳帥,趙方.基于隨機(jī)森林的老年人居住偏好預(yù)測研究[J].計算機(jī)工程與科學(xué),2018,40(5):924-930.
[20]Tzirakis P,Tjortjis C.T3C: improving a decision tree classification algorithm's interval splits on continuous attributes[J].Advances in Data Analysis and Classification,2017,11(2):353-370.
[21]楊茂,翟冠強(qiáng).基于決策樹理論的風(fēng)電功率實時預(yù)測方法[J].電測與儀表,2018,55(11):120-124.
[22]王小樂,張玉鋒,袁媛.基于決策樹的衛(wèi)星故障診斷知識挖掘方法[J].電子設(shè)計工程,2018,26(3):165-169.
[23]馬偉杰.基于C4.5決策樹算法的網(wǎng)絡(luò)學(xué)習(xí)行為研究[J].科教導(dǎo)刊(電子版),2016,116(8):150-151.
收稿日期:2018-8-21;修回日期:2018-9-10
編輯/雷華