国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新疆維吾爾草藥圖像特征提取及分類研究

2016-01-07 09:02:52木拉提·哈米提,孔喜梅,嚴(yán)傳波
關(guān)鍵詞:草藥特征向量決策樹

新疆維吾爾草藥圖像特征提取及分類研究

木拉提·哈米提1, 孔喜梅1, 嚴(yán)傳波1, 阿布都艾尼·庫(kù)吐魯克1, 孫靜1,

艾賽提·買提木沙2, 員偉康1, 楊芳1, 伊利扎提·阿力甫1, 張歲霞1

(新疆醫(yī)科大學(xué)1醫(yī)學(xué)工程技術(shù)學(xué)院;2公共衛(wèi)生學(xué)院, 烏魯木齊830011)

摘要:目的探討決策樹C4.5算法及主成分分析法在新疆維吾爾草藥圖像分類中的應(yīng)用。 方法選取新疆維吾爾草藥圖像450張,其中花類、葉類、果類圖像各150張。對(duì)圖像進(jìn)行去噪、尺度歸一化和空間轉(zhuǎn)換等預(yù)處理;利用顏色直方圖與顏色矩法分別提取3種草藥的特征;采用主成分分析(PCA)法對(duì)所提取的特征進(jìn)行篩選;構(gòu)造一個(gè)基于C4.5決策樹算法的圖像分類器,使用決策樹C4.5算法,對(duì)顏色直方圖、顏色矩、14個(gè)綜合特征及主成分分析獲取的特征進(jìn)行分類,以驗(yàn)證特征的分類能力。結(jié)果顏色直方圖特征分類準(zhǔn)確率為63.11%,顏色矩特征分類準(zhǔn)確率為65.11%,14個(gè)綜合特征分類準(zhǔn)確率為54.76%,PCA選擇的特征分類準(zhǔn)確率為72.00%。結(jié)論綜合特征的分類準(zhǔn)確率較單一特征低,表明在進(jìn)行分類時(shí),冗余特征可能會(huì)降低分類準(zhǔn)確率;利用PCA選擇后的特征分類準(zhǔn)確率較高,表明該算法能有效減少冗余特征,彌補(bǔ)單一特征分類的局限性,從而提高整體分類效率,為提高后續(xù)基于內(nèi)容的圖像檢索系統(tǒng)的檢索效率奠定了基礎(chǔ)。

關(guān)鍵詞:新疆維吾爾草藥; 主成分分析(PCA); 綜合特征; 決策樹C4.5; 圖像分類

中圖分類號(hào):R318.04; TP751.1文獻(xiàn)標(biāo)識(shí)碼:A

doi:10.3969/j.issn.1009-5551.2015.07.004

[收稿日期:2015-04-19]

基金項(xiàng)目:新疆少數(shù)民族科技人才特殊培養(yǎng)計(jì)劃科研項(xiàng)目(201323122)

作者簡(jiǎn)介:祖麗菲亞·吾斯曼(1986-),女(維吾爾族),碩士,實(shí)習(xí)研究員,研究方向:維藥藥效物質(zhì)基礎(chǔ)研究。

基金項(xiàng)目:國(guó)家自然科學(xué)基金(81160182,81460281,61201125); 江西民族傳統(tǒng)藥協(xié)同創(chuàng)新項(xiàng)目(JXXT201401001-2); 留學(xué)人員科技活動(dòng)擇優(yōu)資助項(xiàng)目(2013-277)

作者簡(jiǎn)介:木拉提·哈米提(1957-),男(維吾爾族),教授,碩士生導(dǎo)師,研究方向:醫(yī)學(xué)圖像處理及生物醫(yī)學(xué)信號(hào)分析,E-mail:murat.h@163.com。

Feature extraction and classification of Xinjiang Uygur herbal images

Hamit Murat1, KONG Ximei1, YAN Chuanbo1, Kutluk Abdugheni1, SUN Jing1, Matmusa Asat2,

YUAN Weikang1, FANG Yang1, Alip Elzat1, ZHANG Suixia1

(1CollegeofMedicalEngineeringTechnology;2CollegeofPublicHealth,

XinjiangMedicalUniversity,Urumqi830011,China)

Abstract:ObjectiveThis paper details the application of decision tree C4.5 and principle component analysis for Xinjiag uygur herbal images. MethodsWe selected 450 Xinjiang Uygur Herbal images, among which there were 150 flower type images, the leaves type images and fruit type images respectively. We processed the images by removing the noise by median filter, normalizing scale and conversing type. Then we used color histogram and color moment method to extract the characteristics of the three kinds of Herbs respectively, and integrated two kinds of feature extraction, then used PCA method for the selection of the characteristic value, and C4.5 decision tree algorithm to construct classifier for color histogram, color moment, the characteristics of comprehensive and characteristics of principal component and then we evaluated the classification capability. ResultsThe color histogram classification accuracy rate reached 63.11%; Color moment classification results accuracy reached 65.11%; Characteristics of comprehensive classification accuracy reached 54.76%; characteristics of the PCA to choose classification accuracy rate reached 72.00%. ConclusionComprehensive characteristics of the classification accuracy rate was lower than those of single feature, while the classification, redundant features can reduce classification accuracy; after using PCA to select the characteristics, the classification accuracy goes higher, which shows that the algorithm can effectively reduce the redundant features. It compensates for the limitations of single feature classification and thus improving the overall classification efficiency. It can lay a foundation for the subsequent content-based image retrieval system to a certain extent.

Key words: Xinjiang of Uygur Herbal images; principal component analysis; comprehensive feature; decision tree C4.5; image classification

數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)系統(tǒng)應(yīng)用最新和最活躍的學(xué)科前沿,是從龐大的數(shù)據(jù)集或數(shù)據(jù)庫(kù)中提煉有用信息的新興交叉學(xué)科,匯集了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)、模式識(shí)別、人工智能等學(xué)科的內(nèi)容[1]。在數(shù)據(jù)挖掘的研究與應(yīng)用中,分類(Classification)算法作為圖像處理和分析的重要工具一直受到學(xué)術(shù)界的關(guān)注,分類算法是一種有監(jiān)督的學(xué)習(xí),通過對(duì)已知類別訓(xùn)練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預(yù)測(cè)新數(shù)據(jù)的類別。在很多領(lǐng)域特別是數(shù)據(jù)挖掘中,決策樹是一種經(jīng)常要用到的技術(shù),它可以用于分析數(shù)據(jù),也可以用來進(jìn)行預(yù)測(cè),常用的算法有ID3,C4.5及CART等[2]。

顏色特征是圖像的基本特征之一。顏色特征描述了圖像或圖像區(qū)域所對(duì)應(yīng)的景物的表面性質(zhì)。一般顏色特征是基于像素點(diǎn)的特征,此時(shí)所有屬于圖像或圖像區(qū)域的像素都有各自的貢獻(xiàn)[3]。由于顏色對(duì)圖像或圖像區(qū)域的方向、大小等變化不敏感,所以顏色特征不能很好地捕捉圖像中對(duì)象的局部特征。顏色特征的提取方法主要有顏色直方圖[4]、顏色矩[5]、主色調(diào)法及顏色聚合矢量等[6]。顏色特征對(duì)圖像本身的尺寸、方向和視角的依賴性較小,顏色特征的提取也相對(duì)容易,因而基于顏色特征的圖像檢索的研究受到了廣泛的研究和應(yīng)用,已提出了許多算法。

本研究采用顏色直方圖和顏色矩方法對(duì)新疆維吾爾草藥圖像進(jìn)行特征提取,運(yùn)用主成分分析法(PCA)進(jìn)行特征的選擇,最后對(duì)特征的分類能力進(jìn)行對(duì)比評(píng)價(jià)。

1圖像特征提取

1.1決策樹算法簡(jiǎn)介決策樹(decision tree)方法起源于概念學(xué)習(xí)系統(tǒng),采用自頂向下的分治策略進(jìn)行分類,最著名的決策樹算法是J.Ross Quinlan提出的以信息增益作為選擇測(cè)試屬性標(biāo)準(zhǔn)的ID3算法[7]。ID3方法是其發(fā)展的高峰,后來又演化為能處理連續(xù)屬性的C4.5方法,主要優(yōu)點(diǎn)是描述簡(jiǎn)單、分類速度快,適合大規(guī)模的數(shù)據(jù)處理。

通常情況下,1棵決策樹由決策節(jié)點(diǎn)、葉子和分支3個(gè)部分組成。在決策樹中頂端的節(jié)點(diǎn)稱之為根節(jié)點(diǎn),整棵樹也是從這里開始。其中每個(gè)分支都是1個(gè)節(jié)點(diǎn)或者葉子[8]。每個(gè)節(jié)點(diǎn)又代表一個(gè)問題或者決策。與之相對(duì)應(yīng)的是屬性值。單個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)的是分類結(jié)果。C4.5決策樹算法的核心思想是利用信息熵原理。選擇信息增益率最大的屬性作為分類屬性,遞歸地構(gòu)造決策樹的分枝,完成決策樹的構(gòu)造[9]。

(1)

其中,信息增益Gain(S,A)與ID3算法中的信息增益相同,而分裂信息SplitInfo(S,A)代表了按屬性A劃分?jǐn)?shù)據(jù)集S的廣度和均勻性[10]。信息增益率將分裂信息作為分母,屬性A取值數(shù)目越大,分裂信息值,從而部分抵消了屬性取值數(shù)目所帶來的影響。

(2)

C4.5引入屬性的分類信息來調(diào)節(jié)信息增益。其中,Si到Sc是c個(gè)不同值的屬性A分割S而形成的c個(gè)樣本子集。

1.2圖像預(yù)處理分類算法要求分類數(shù)據(jù)必須由特征向量組成,不能直接在原始圖像上進(jìn)行數(shù)據(jù)挖掘,所以在實(shí)施挖掘之前必須先要對(duì)圖像進(jìn)行預(yù)處理及特征提取2個(gè)子過程。

圖像預(yù)處理的目的是將獲得的圖像進(jìn)行處理,去除由于外界干擾出現(xiàn)的噪聲,增強(qiáng)圖像的對(duì)比度,圖像的質(zhì)量得到明顯改善,圖像的細(xì)節(jié)更加清晰。本研究參照文獻(xiàn)[11]對(duì)新疆維吾爾草藥圖像進(jìn)行圖像濾波增強(qiáng)、尺度歸一化、空間轉(zhuǎn)換等預(yù)處理操作過程。

圖1、圖2、圖3分別表示花類、葉類、果類圖像預(yù)處理的結(jié)果,a為原始維吾爾草藥圖像;b為去噪后的圖像;c為尺寸歸一化后的圖像;d為空間轉(zhuǎn)換后的圖像,將RGB模式轉(zhuǎn)換到HSV模式。從圖中可以看出,預(yù)處理后的圖像細(xì)節(jié)更加清晰,這為后續(xù)的特征提取工作奠定良好基礎(chǔ),從而能夠進(jìn)一步提高圖像的分類正確率。

a: 原始圖像 b: 圖像去噪 c: 尺寸歸一化 d: 空間轉(zhuǎn)換

圖1新疆維吾爾草藥花類圖像預(yù)處理結(jié)果

a: 原始圖像 b: 圖像去噪 c: 尺寸歸一化 d: 空間轉(zhuǎn)換

圖2新疆維吾爾草藥葉類圖像預(yù)處理結(jié)果

a: 原始圖像 b: 圖像去噪 c: 尺寸歸一化 d: 空間轉(zhuǎn)換

圖3新疆維吾爾草藥果類圖像預(yù)處理結(jié)果

1.3特征提取從經(jīng)過預(yù)處理后的新疆維吾爾草藥圖像中抽取與分類相關(guān)的圖像特征。本研究對(duì)圖像的特征提取方法:(1)顏色直方圖:對(duì)于圖像的顏色直方圖,將3個(gè)顏色分量合成為一維特征向量,統(tǒng)計(jì)其方差(T1)、偏斜度(T2)、峰度系數(shù)(T3)、能量(T4)、熵值(T5),形成5個(gè)的特征向量;(2)顏色矩:對(duì)于圖像的顏色矩,在RGB空間和HSV空間分別對(duì)3個(gè)分量統(tǒng)計(jì)了其一階矩(h1、s1、v1)、二階矩(h2、s2、v2)、三階矩(h3、s3、v3),形成9個(gè)的特征向量(表1)。對(duì)這些提取的特征向量結(jié)果應(yīng)用主成分分析操作進(jìn)行特征選擇,從而對(duì)新疆維吾爾草藥圖像進(jìn)行分類。

1.4特征選擇由于圖像的復(fù)雜性一般會(huì)得到維數(shù)較高的特征向量,或者所獲得的特征向量是通過多種類型的提取方法獲取的,以期望能盡可能全面地反映紋理的特征[12]。此時(shí),特征選擇環(huán)節(jié)就變得非常重要,通過特征的選擇一方面可以有效降低特征向量的維數(shù);另一方面可以減少無(wú)關(guān)的特征分量在特征向量中的比重,從而有利于提高特征紋理的效率和效果。

表1 3類圖像特征提取結(jié)果的綜合特征

(3)

(4)

在(2)式中,系數(shù)lij由下列原則來決定:(1) zi與zj(i≠j;i,j=1,2,…,m)相互無(wú)關(guān);(2) z1是x1、x2、…、xp的一切線性組合中方差最大者;z2是與z1不相關(guān)的x1、x2、…、xp的所有線性組合中方差最大者;……;zm是與z1、z2、……、zm-1都不相關(guān)的x1、x2、…、xp的所有線性組合中方差最大者。

這樣決定的新變量指標(biāo)z1、z2、…、zm分別稱為原變量指標(biāo)x1、x2、…、xp的第1、2、…、第m主成分。其中,z1在總方差中占的比例最大,z2、z3、…、zm的方差依次遞減。通過找主成分確定原變量xj(j=1、2、…、p)在諸主成分zi(i=1、2、…、m)上的載荷lij(i=1、2、…、m;j=1、2、…、p)它們分別是x1、x2、…、xp的相關(guān)矩陣的m個(gè)較大的特征值所對(duì)應(yīng)的特征向量。

1.4.2提取主分量將顏色直方圖提取的5個(gè)特征向量和顏色矩提取的9個(gè)特征向量進(jìn)行綜合,共計(jì)14個(gè)特征向量。然后利用主成分分析法提取表l中的14個(gè)特征向量進(jìn)行降維,可以選取貢獻(xiàn)率較大的一些特征進(jìn)行圖像的分類。本研究在計(jì)算過程中前4個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)到了76.758%,因此將這4個(gè)主成分作為本試驗(yàn)的新疆維吾爾草藥圖像的新特征,見表2。

表2 新疆維吾爾草藥花類、葉類、果類圖像的新特征

2結(jié)果與分析

采用花類、葉類和果類圖片各150張,共計(jì)450張植物藥圖片。利用決策樹C4.5算法對(duì)表2中新疆維吾爾草藥圖像特征結(jié)果進(jìn)行分類,隨機(jī)選取3類植物藥部分圖片作為訓(xùn)練樣本,剩余的作為測(cè)試樣本。構(gòu)造一個(gè)基于決策樹算法的圖像分類器,將提取到的特征輸入到分類器中,綜合特征PCA法分類正確率為72.00%,顏色直方圖分類正確率為63.11%,顏色矩分類正確率為65.11%,直接使用14個(gè)綜合特征分類正確率為54.76%,結(jié)果見表3。

表3 3種顏色特征提取方法的比較

3結(jié)論

本研究以花類、葉類和果類3種新疆維吾爾草藥圖像為研究對(duì)象,采用顏色直方圖法和顏色矩法對(duì)其進(jìn)行特征提取,利用主成分分析法對(duì)所提取的特征進(jìn)行篩選,得到分類能力較強(qiáng)的特征,通過決策樹C4.5算法構(gòu)造分類器以驗(yàn)證特征的分類能力。結(jié)果顯示,利用顏色直方圖和顏色矩特征進(jìn)行分類時(shí),分類準(zhǔn)確率分別為63.11%和65.11%;利用綜合顏色特征進(jìn)行分類時(shí),分類準(zhǔn)確率為54.76%;利用PCA算法選擇后的特征進(jìn)行分類時(shí),分類準(zhǔn)確率為72.00%。由分類結(jié)果可知,綜合特征的分類準(zhǔn)確率較單一特征低,表明在進(jìn)行分類時(shí),特征量并不是越多越好,冗余特征可能會(huì)降低分類準(zhǔn)確率;利用PCA選擇后的特征分類準(zhǔn)確率較高,表明PCA算法能有效減少冗余特征,該算法彌補(bǔ)了單一特征分類的局限性,從而提高整體分類效率,為提高后續(xù)基于內(nèi)容的圖像檢索系統(tǒng)的檢索效率奠定了基礎(chǔ)。

參考文獻(xiàn):

[1]李舒,吳磊.數(shù)據(jù)挖掘在醫(yī)學(xué)圖像分類中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志, 2014,35(8):39-42.

[2]李燕.海量數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù)[J].醫(yī)學(xué)信息學(xué)雜志,2008,29(12):23-25.

[3]李薇,李秉茂.基于顏色、形狀和紋理的多特征融合圖像檢索[J].航空計(jì)算技術(shù),2013,43(6):88-107.

[4]Sander KE,Gevers T,Snoke CG. Evaluating color descriptors for object and scene recognition[J].TPAMI,2010,32(9)1582-1596.

[5]Shi JI,Chen LH.Color image retrieval based on primitives of color moments[J].Lect Notes Comput Sci,2002,149(6):88-94.

[6]Yang NC,Chang WH. A fast MPEG-7 dominant color extraction with new similarity measure for image retrieval[J]. J Commun Image Represent, 2008,19(2):92-105.

[7]李懷慶.決策樹算法在醫(yī)院數(shù)據(jù)挖掘中的應(yīng)用探索[J].醫(yī)學(xué)信息學(xué)雜志,2009,30(8):11-13.

[8]李玲俐.數(shù)據(jù)挖掘中分類算法綜述[J].重慶師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011,28(4):44-47.

[9]黃愛輝.決策樹C4.5算法的改進(jìn)及應(yīng)用[J].科學(xué)技術(shù)與工程, 2009,9(1):34-42.

[10]陳麗萍,武文波.基于決策樹C4.5算法的面向?qū)ο蠓诸惙椒ㄑ芯縖J].遙感信息,2013,28(2):116-120.

[11]木拉提·哈米提,楊芳,孔德偉,等.新疆高發(fā)病哈薩克族食管癌圖像紋理特征的分類研究[J].新疆醫(yī)科大學(xué)學(xué)報(bào),2014,37(3):273-276.

[12]馬莉,范影樂.紋理圖像分析[M].北京:科學(xué)出版社,2009:55-60.

(本文編輯施洋)

通信作者:麥合蘇木·艾克木,男(烏孜別克族),碩士,副教授,研究方向:維藥藥效物質(zhì)基礎(chǔ)研究及新藥開發(fā),E-mail:mahsum008@126.com。

·維醫(yī)維藥·

猜你喜歡
草藥特征向量決策樹
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
本草藥名中的避諱
草藥在皮膚病中的應(yīng)用
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
一類特殊矩陣特征向量的求法
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
基于決策樹的出租車乘客出行目的識(shí)別
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
宁远县| 蓬溪县| 华坪县| 资阳市| 运城市| 桐梓县| 常熟市| 丘北县| 抚宁县| 平阴县| 枣强县| 凌海市| 古田县| 江油市| 丹巴县| 麦盖提县| 绥棱县| 乌兰浩特市| 麻江县| 梁平县| 新泰市| 平阴县| 霸州市| 鲁山县| 肇源县| 汉中市| 惠安县| 昌图县| 宜昌市| 毕节市| 兴和县| 邹城市| 新疆| 济源市| 博湖县| 尚志市| 万山特区| 长白| 深水埗区| 台中县| 凯里市|