KNN分類器在新疆維吾爾藥材圖像分類中的應(yīng)用
木拉提·哈米提1, 張歲霞1,嚴(yán)傳波1, 阿布都艾尼·庫吐魯克1, 孫靜1,
艾賽提·買提木沙2, 員偉康1, 楊芳1, 伊利扎提·阿力甫1, 孔喜梅1
(新疆醫(yī)科大學(xué)1醫(yī)學(xué)工程技術(shù)學(xué)院;2公共衛(wèi)生學(xué)院, 烏魯木齊830011)
摘要:目的探討K近鄰結(jié)點算法(k-Nearest Neighbor algorithm,KNN)分類器在新疆維吾爾藥材圖像分類中的應(yīng)用。方法采用KNN分類器對新疆維吾爾藥材圖像的灰度-梯度共生矩陣特征和Tamura紋理特征進(jìn)行判別分類。選取訓(xùn)練樣本為80、100、120的3個訓(xùn)練集,訓(xùn)練并得到最優(yōu)K值,并分別在測試樣本為120、100、80的3個測試集中驗證結(jié)果。結(jié)果K值越小(3~13),KNN分類器對葉類圖像分類準(zhǔn)確率越高;K值越大(63~71),KNN分類器對花類圖像分類準(zhǔn)確率越高。當(dāng)K值取3~13時,120、100、80的3個測試集中葉類圖像的平均分類準(zhǔn)確率分別為94.72%、89.45%、82.61%;K值取63~79時,120、100、80的3個測試集中花類圖像的平均分類準(zhǔn)確率分別為74.71%、72.79%、76.55%。結(jié)論KNN分類器可為新疆維吾爾藥材圖像類型判斷提供一定的依據(jù),為新疆維吾爾藥材圖像檢索系統(tǒng)的檢索精度的提升奠定了基礎(chǔ)。
關(guān)鍵詞:KNN分類器; 灰度-共生矩陣; Tamura紋理特征; 圖像分類
中圖分類號:R318.04文獻(xiàn)標(biāo)識碼:A
doi:10.3969/j.issn.1009-5551.2015.07.001
[收稿日期:2015-04-19]
基金項目:國家自然科學(xué)基金(81160182,81460281,61201125); 江西民族傳統(tǒng)藥協(xié)同創(chuàng)新項目(JXXT201401001-2); 留學(xué)人員科技活動擇優(yōu)資助項目(2013-277)
作者簡介:嚴(yán)傳波(1970-),男,本科,副教授,研究方向:數(shù)據(jù)庫應(yīng)用、圖像處理。
Classification of Xinjiang Uygur medicine image based on KNN Classifier
Hamit Murat1, ZHANG Suixia1,YAN Chuanbo1, Abdugheni Kutluk1, SUN Jing1, Asat Matmusa2,
YUAN Weikang1, YANG Fang1, Elzat Alip1, KONG Ximei1
(1CollegeofMedicalEngineeringTechnology;2CollegeofPublicHealth,
XinjiangMedicalUniversity,Urumqi830011,China)
Abstract:ObjectiveTo investigate the classification capability dealing with Xinjiang Uygur medicine by means of k-Nearest Neighbor algorithm (KNN)classifier. MethodsMatlab was used to preprocess and extract features based on gray gradient co-occurrence matrix and Tamura texture features. KNN classifier was used to classify image features. We selected training samples of 80, 100, 120 as train sets, trained and got optimal k value, then tested results in three test samples of 120, 100, 80. ResultsThe smaller the k value (3-13) was the higher accuracy KNN classifier on the leaf image classification. The average accuracy rate in three test samples reached 94.72%, 89.45% and 82.61% respectively. The larger k value (63-71) was the higher accuracy KNN classifier on the flower image classification. The average accuracy rate in three test samples reached 74.71%, 72.79% and 76.55% respectively. ConclusionThe data show that when adopting mixed texture combined with the KNN classifier, the classification ability can be improved and provide a certain basis for judgment of Xinjiang Uygur medicine types. This laid the foundation for improvement of accuracy of Xinjiang Uygur medicine image retrieval system.
Key words: KNN Classifier; gray gradient co-occurrence matrix; tamura texture features; image classification
維吾爾醫(yī)藥是維吾爾族人民在長期的醫(yī)療實踐中,通過不斷積累和總結(jié)防病治病經(jīng)驗,集阿拉伯醫(yī)藥、古希臘醫(yī)藥之長,在中醫(yī)學(xué)的影響下,逐漸形成的有系統(tǒng)的醫(yī)學(xué)理論、完整的醫(yī)療方法、豐富的藥材資源及單驗方制劑的醫(yī)學(xué)體系[1]。據(jù)初步統(tǒng)計,維吾爾藥材現(xiàn)有1 100多種,其中植物藥1 000多種,礦物藥80多種,動物藥50多種;國產(chǎn)的有1 000多種,新疆產(chǎn)的有100多種,進(jìn)口藥60多種。K近鄰結(jié)點算法(KNN)分類是一種簡單、有效、非參數(shù)的方法,現(xiàn)已廣泛應(yīng)用于文本分類、模式識別、圖像及空間分類等領(lǐng)域[2]。本研究將KNN分類算法應(yīng)用于新疆維吾爾藥材的分類中,根據(jù)新疆維吾爾藥材圖像在紋理和灰度上的差異,使用灰度-梯度共生矩陣法和Tamura紋理特征法提取混合紋理特征,并且通過KNN分類器對特征值進(jìn)行判別分類,通過調(diào)節(jié)K值來提高不同類型圖像的分類準(zhǔn)確率,旨在探討KNN分類器在新疆維吾爾藥材圖像分類中的應(yīng)用。
1新疆維吾爾藥材圖像預(yù)處理
采用圖像預(yù)處理模塊,首先對采集到的新疆維吾爾藥材圖片進(jìn)行灰度歸一,將RGB模式的圖片轉(zhuǎn)換為GRAY模式,再利用中值濾波和直方圖均衡化對食管癌X線醫(yī)學(xué)圖像進(jìn)行去噪和增強(qiáng),從而得到更清晰的灰度圖像。選取花類圖像亞麻和葉類圖像銀杏圖像預(yù)處理結(jié)果作為示例,其圖像預(yù)處理結(jié)果見圖1、2,其中a為尺寸歸一化后的圖像,將獲取的大小不等的圖像規(guī)定為200 400像素;b為經(jīng)過灰度化后的維吾爾藥材圖像,將圖像從RGB模式轉(zhuǎn)換到GRAY模式[3];c為中值濾波去噪后的圖像,在不減小圖像對比度的情況下減小異常值的影響;d為經(jīng)過有限對比度自適應(yīng)直方圖均衡化后的藥材圖像,抑制圖像的某些特征而使另一些特征得到增強(qiáng)[3]。
a b c d
圖1新疆維吾爾藥材亞麻圖像預(yù)處理結(jié)果
a b c d
圖2新疆維吾爾藥材銀杏圖像預(yù)處理結(jié)果
2混合紋理特征提取
2.1基于灰度-梯度共生矩陣的特征提取灰度-梯度共生矩陣紋理分析方法是用灰度和梯度的綜合信息提取紋理特征,其考慮像素灰度與邊緣梯度的聯(lián)合統(tǒng)計分布。要獲得圖像的梯度信息,就必須用一種微分算子來與圖像進(jìn)行卷積運(yùn)算,檢測出圖像領(lǐng)域灰度相差較大的部分,因而產(chǎn)生了基于灰度-梯度共生矩陣的圖像紋理特征提取的方法[4-6]?;叶?梯度共生矩陣能夠使圖像內(nèi)各像素灰度與梯度的分布規(guī)律得到很清楚地描述,同時也使圖像中各像素點與其領(lǐng)域像素點之間的空間關(guān)系得到很好地反映,因此它能很好地描繪圖像的紋理。
本研究提取新疆維吾爾藥材圖像的灰度-梯度共生矩陣:小梯度優(yōu)勢(T1)、大梯度優(yōu)(T2)、灰度的不均勻性分布(T3)、梯度的不均勻性分布(T4)、能量(T5)、灰度平均(T6)、梯度平均(T7)、灰度均方差(T8)、梯度均方差(T9)、相關(guān)(T10)、灰度熵(T11)、梯度熵(T12)、混合熵(T13)、慣性(T14)、逆差距(T15)共15個特征值。
2.2基于Tamura紋理的特征提取在人類對紋理的視覺感知的研究基礎(chǔ)上,Tamura等于1978年提出了一種紋理特征的表達(dá)[7-8],Tamura紋理特征的6個分量對應(yīng)于心理學(xué)角度上紋理特征的6種屬性,分別是粗糙度(coarseness)、方向度(contrast)、方向性(directionality)、線性度(linelikeness)、規(guī)整度(regularity)、粗略度(roughness)。Tamura紋理特征是紋理分析中經(jīng)典算法,文獻(xiàn)[9-10]詳細(xì)介紹了該算法的原理。本研究利用MATLAB對Tamura紋理特征進(jìn)行編程,并應(yīng)用于新疆維吾爾藥材圖像,提取維藥圖像的粗糙度(H1)、對比度(H2)、方向度(H3)、線性度(H4)、規(guī)整度(H5)5個分量作為特征向量。
2.3基于混合紋理特征的提取結(jié)果本研究對維吾爾藥材圖像進(jìn)行分類,隨機(jī)抽取新疆維吾爾藥材圖像200張,其中花類藥材圖像100張,葉類藥材圖像100張。對新疆維吾爾藥材圖像的花類圖像和葉類圖像,提取圖像基于灰度-梯度共生矩陣和Tamura紋理的混合紋理特征:T1、T2、T3、T4、T5、T6、T7、T8、T9、T10、T11、T12、T13、T14、T15、H1、H2、H3、H4、H5共20個特征值,組成了新疆維吾爾藥材圖像的的特征向量。新疆維吾爾藥材花類圖像和葉類圖像的混合紋理特征提取結(jié)果見表1。
表1 新疆維吾爾藥材圖像花類和葉類圖像混合紋理特征
3KNN分類算法
近鄰法(Nearest Neighbor algorithm,NN)是模式識別非參數(shù)法中最重要的方法之一,NN的一個很大特點是將各類中全部樣本點都作為“代表點”。1NN是將所有訓(xùn)練樣本都作為代表點,因此在分類時需要計算待識別樣本到所有訓(xùn)練樣本的距離,結(jié)果就是與最近的訓(xùn)練樣本所屬于的類別,KNN是1NN的推廣,即分類時選出的一個最近鄰,看這個近鄰中的多數(shù)屬于哪一類,就把分到哪一類[11]。圖3為KNN算法原理展示圖,圖3a為KNN算法將總樣本分為兩部分,一部分作為訓(xùn)練集,其余部分作為測試集[12-13]。圖3b為KNN算法分類示例:圖中黑色圓點為未知的數(shù)據(jù)點,白色圓點為已知類別的數(shù)據(jù)集,基于歐幾里得定理,利用降序排序,刪選出離黑色圓點(未知數(shù)據(jù)點)最近的3個白色圓點(已知類型的數(shù)據(jù)點)。示例中為4個點,此時未知的數(shù)據(jù)點被分為a類。
圖3 KNN算法原理圖
3.1KNN分類器訓(xùn)練集分類過程本研究利用MATLAB R2013a 對KNN分類器進(jìn)行編輯。提取新疆維吾爾藥材圖像的梯度-灰度共生矩陣和Tamura紋理的混合紋理特征(共20特征向量)。將KNN分類器應(yīng)用于新疆維吾爾藥材圖像的分類,隨機(jī)抽取新疆維吾爾藥材圖像200張,其中花類藥材圖像100張,葉類藥材圖像100張。將樣本按4∶6、5∶5和6∶4選取訓(xùn)練集和測試集。選3個不同大小的訓(xùn)練集80、100、120,分別作為訓(xùn)練數(shù)據(jù)集,余下的樣本120、100、80分別作為3個測試集數(shù)據(jù)。在訓(xùn)練過程中,當(dāng)取不同K值時,得到不同分類準(zhǔn)確率,根據(jù)分類準(zhǔn)確率來確定最優(yōu)K值。
第1個訓(xùn)練集為80張藥材圖片,其中花類圖像訓(xùn)練樣本為40張,葉類圖像訓(xùn)練樣本為40張。圖4為在此訓(xùn)練集下,K取3~71時,花類和葉類圖像分類準(zhǔn)確率的折線圖。根據(jù)折線圖的變化趨勢,將花類和葉類圖像分類準(zhǔn)確率,分為幾個區(qū)間,并計算出該區(qū)間內(nèi)花類圖像和葉類圖像的平均、最大、最小分類準(zhǔn)確率。由圖5可以得到:當(dāng)訓(xùn)練集為80時,根據(jù)花類和葉類圖像的分類準(zhǔn)確率對比可以得到當(dāng)K值越小(3~19),葉類圖像分類準(zhǔn)確率越高,平均分類準(zhǔn)確率達(dá)78.93%。K值越大(63~71)時,花類圖像分類準(zhǔn)確率越高,平均分類準(zhǔn)確率達(dá)75.35%。
圖4 訓(xùn)練集為80時的分類準(zhǔn)確率
第2個訓(xùn)練集為100張草藥圖片,其中花類圖像訓(xùn)練樣本為50張,葉類圖像訓(xùn)練樣本為50張。圖6為在此訓(xùn)練集下,K取3~71時,花類和葉類圖像分類準(zhǔn)確率的折線圖。根據(jù)折線圖變化趨勢,將花類和葉類圖像分類準(zhǔn)確率,分為幾個區(qū)間,并計算出該區(qū)間內(nèi)花類圖像和葉類圖像的平均、最大、最小分類準(zhǔn)確率。由圖7可以得到:當(dāng)訓(xùn)練集為100時,根據(jù)花類和葉類圖像的分類準(zhǔn)確率對比可以得到當(dāng)K值越小(3~13),葉類圖像分類準(zhǔn)確率越高,平均分類準(zhǔn)確率達(dá)84.90%。K值越大(61~71)時,花類圖像分類準(zhǔn)確率越高,平均分類準(zhǔn)確率達(dá)73.68%。
a
b
圖6 訓(xùn)練集為100時的分類準(zhǔn)確率
第3個訓(xùn)練集為120張草藥圖片,其中花類圖像訓(xùn)練樣本為60張,葉類圖像訓(xùn)練樣本為60張。圖8為在此訓(xùn)練集下,K取3~71時,花類和葉類圖像分類準(zhǔn)確率的折線圖。根據(jù)折線圖變化趨勢,將花類和葉類圖像分類準(zhǔn)確率,分為幾個區(qū)間,并計算出該區(qū)間內(nèi)花類圖像和葉類圖像的平均、最大、最小分類準(zhǔn)確率。由圖9結(jié)果可以得到:當(dāng)訓(xùn)練集為120時,同前2個訓(xùn)練集,花類和葉類圖像的分類準(zhǔn)確率對比可以得到當(dāng)K值越小(3~19),葉類圖像分類準(zhǔn)確率越高,平均分類準(zhǔn)確率達(dá)95.78%。K值越大(57~71)時,花類圖像分類準(zhǔn)確率越高,平均分類準(zhǔn)確率達(dá)82.57%。
a
b
3.2KNN分類器測試集分類結(jié)果綜合樣本量為80、100、120的3個訓(xùn)練集的訓(xùn)練結(jié)果(最優(yōu)K值區(qū)間取交集),可以得出:當(dāng)K值越小(3~13),KNN分類器對葉類圖像分類準(zhǔn)確率越高;當(dāng)K值越大(63~71),KNN分類器對花類圖像分類準(zhǔn)確率越高。選取樣本量為120、100、80的3個測試集分別對訓(xùn)練結(jié)果做驗證。當(dāng)K值取3~13時,120、100、80的3個測試集中葉類圖像的平均分類準(zhǔn)確率分別為94.72%、89.45%、82、61;K值取63~79時,120、100、80的3個測試集中花類圖像的平均分類準(zhǔn)確率分別為74.71%、72.79%、76.55%,結(jié)果見表2、3。
表2 K取3~13不同測試集花類圖像的分類準(zhǔn)確率/%
表3 K取63~71不同測試集葉類圖像的分類準(zhǔn)確率/%
圖8 訓(xùn)練集為120時的分類準(zhǔn)確率
a b
4結(jié)論
根據(jù)新疆維吾爾藥材圖像在紋理和灰度上的差異,使用灰度-梯度共生矩陣和Tamura紋理特征提取混合紋理特征,并且通過KNN分類器對特征值進(jìn)行判別分類。由實驗結(jié)果可以看出,根據(jù)待測樣本圖片類型,可以通過調(diào)節(jié)K值從而達(dá)到理想的分類準(zhǔn)確率。本研究根據(jù)KNN分類器選取的3個訓(xùn)練集,訓(xùn)練結(jié)果顯示:當(dāng)K值越小(3~13),KNN分類器對葉類圖像分類準(zhǔn)確率越高;當(dāng)K值越大(63~71),KNN分類器對花類圖像分類準(zhǔn)確率越高,同時3個測試集的測試結(jié)果也驗證了該結(jié)論的正確性。在樣本量為120、100、80的3個測試集測試結(jié)果中,還可以得出另一個結(jié)論:當(dāng)樣本量越大時,花類圖像的分類準(zhǔn)確率越高,而葉類圖像分類并非如此。在后期研究中,用KNN分類器分類新疆維吾爾藥材圖像的過程中,將增大樣本量和訓(xùn)練次數(shù),來獲得更精確的分類趨勢。通過本研究結(jié)果可以看出,KNN分類器為新疆維吾爾藥材圖像類型判斷提供一定的依據(jù),為新疆維吾爾藥材圖像檢索系統(tǒng)的檢索精度的提升奠定了基礎(chǔ)。
參考文獻(xiàn):
[1]黃秀蘭,周秋蘭.維吾爾醫(yī)藥發(fā)展現(xiàn)狀及存在問題分析[J].中央民族大學(xué)學(xué)報:自然科學(xué)版,2007,16(3):223-228.
[2]張曉輝, 李瑩, 王華勇,等. 應(yīng)用特征聚合進(jìn)行中文文本分類的改進(jìn)的KNN算法[J].東北大學(xué)學(xué)報:自然科學(xué)版,2003, 24(3):229-232.
[3]Mir AH, Hanmandlu M, Tandon SN.Texture analysis of CT images[J].IEEE Eng Med Biol, 1995, 14(6):781-786.
[4]張逵,朱大奇.基于D.S證據(jù)理論的信息融合圖像識別[J].上海海事大學(xué)學(xué)報,2012, 33(3):81-86.
[5]張弘,范九倫.灰度一梯度共生矩陣模型的加權(quán)條件熵閾值法[J].計算機(jī)工程與應(yīng)用, 2010, 46(6):10-14.
[6]周德龍,申石磊,蒲小勃,等.基于灰度-梯度共生矩陣模型的最大熵閾值處理算法[J].小型微型計算機(jī)系統(tǒng),2002, 23(2):135-138.
[7]張松林.基于紋理特征圖像檢索方法研究[D].重慶大學(xué),2010.
[8]楊秀娟.基于紋理特征的圖像檢索研究[D].西安科技大學(xué),2009.
[9]景軍鋒,張媛媛,李鵬飛,等.LBP和Tamura紋理特征方法融合的織物疵點分類算法[J].計算機(jī)工程與應(yīng)用,2012,48(23):155-160.
[10]孫勁光,尹達(dá),張華偉.基于顏色和紋理特征的圖像檢索技術(shù)研究[J].河北工業(yè)大學(xué)學(xué)報, 2008,37(6):23-30.
[11]李蓉,葉世偉,史忠植.SVM-KNN分類器一種提高SVM分類精度的新方法[J].電子學(xué)報,2002,30(5):745-748.
[12]Li GH, Fan P, Yuan L. Continuous K-Nearest neighbor processing based on speed and direction of moving objects in a road network[J].Telecommun Syst,2014 ,55(3):403-419.
[13]Ahmet A, Gong DH, Kahveci T. Network-based prediction of cancer under genetic storm[J]. Cancer Inform,2014,13(3):14-31.
(本文編輯施洋)
通信作者:木拉提·哈米提,男(維吾爾族),教授,碩士生導(dǎo)師,研究方向:醫(yī)學(xué)圖像處理及生物醫(yī)學(xué)信號分析,E-mail:murat.h@163.com。