李治 殷云霞 楊艷
摘要:以WEKA數(shù)據(jù)挖掘平臺為挖掘工具,對收集到的AECOPD病案數(shù)據(jù)展開辨證分型相關(guān)研究,建立分型模型,為AECOPD在中醫(yī)證候?qū)W上的研究提供有效的參考依據(jù),也表明決策樹分類方法在中醫(yī)診斷領(lǐng)域中的應(yīng)用具有重要價(jià)值。
關(guān)鍵詞:WEKA;數(shù)據(jù)挖掘;AECOPD;辨證分型
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2018)06-0086-02
1 引言
在中醫(yī)學(xué)領(lǐng)域運(yùn)用數(shù)據(jù)挖掘技術(shù),可以加速了解各種疾病與癥狀之間的相互關(guān)系、各種疾病的發(fā)生發(fā)展規(guī)律、考量各類治療方案的診療效果。從數(shù)據(jù)挖掘角度來看,中醫(yī)的辨證分型過程可以看成是一個(gè)分類問題[1]。本課題以慢性阻塞性肺疾病急性加重期(AECOPD)的中醫(yī)辨證臨床病案數(shù)據(jù)為研究對象,對分類方法在該疾病中醫(yī)診療中的數(shù)據(jù)挖掘應(yīng)用展開分析研究。
2 算法研究
分類和預(yù)測是數(shù)據(jù)挖掘中非常重要的方法,具有描述數(shù)據(jù)、構(gòu)建模型并預(yù)測未知數(shù)據(jù)發(fā)展趨勢的功能。數(shù)據(jù)挖掘中分類的方法有很多,如決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)等[2]。
決策樹算法屬于貪心算法的一種,采用自上而下、分而治之的遞歸方式來構(gòu)造一棵決策樹。它遞歸地將數(shù)據(jù)拆分成若干子集,決策樹一般由決策節(jié)點(diǎn)、葉子、分支三部分組成。位于最上端的節(jié)點(diǎn)稱為根節(jié)點(diǎn),它是決策節(jié)點(diǎn)的開始,樹中的每個(gè)節(jié)點(diǎn)是根據(jù)輸入屬性來標(biāo)記的,代表一個(gè)問題或決策,每個(gè)分支形成一個(gè)新的決策節(jié)點(diǎn)或葉子,代表一種可能的分類結(jié)果,在對決策樹進(jìn)行遍歷的過程中,不同的節(jié)點(diǎn)上會產(chǎn)生不同的分支,每一條從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑就是一條規(guī)則,利用若干個(gè)變量判斷所屬的類別,這就是利用決策樹來進(jìn)行分類的過程[3]。表1是部分血瘀證診斷情況的數(shù)據(jù),包括3個(gè)條件屬性(舌下靜脈曲張,脈澀,舌質(zhì)青紫)和一個(gè)分類屬性(是否患血瘀證)。圖1是一棵根據(jù)血瘀證中醫(yī)診斷情況數(shù)據(jù)建立的決策樹模型。內(nèi)部所有節(jié)點(diǎn)用橢圓形表示,樹葉節(jié)點(diǎn)用圓角矩形表示。
通常,一棵決策樹從根到葉節(jié)點(diǎn)的每一條路徑都對應(yīng)著一組屬性測試的合取(Conjunction)規(guī)則,整棵決策樹就對應(yīng)著這些合取規(guī)則的析取(Disjunction)表達(dá)式。對于構(gòu)建的每一棵決策樹,都可以提取出IF-THEN形式的分類表達(dá)規(guī)則。根據(jù)圖1的血瘀證決策樹分類模型,提取出的分類規(guī)則,舉例如下:
IF舌下靜脈曲張=“無”AND脈澀=“無”,THEN診斷結(jié)論=“非血瘀證”。
IF舌下靜脈曲張=“輕”AND舌質(zhì)青紫=“中”,THEN診斷結(jié)論=“血瘀證”。
……
由此可以更加直觀地看到,決策樹的內(nèi)部節(jié)點(diǎn)(非葉節(jié)點(diǎn))是屬性或?qū)傩缘募?,一棵決策樹自上而下在內(nèi)部節(jié)點(diǎn)進(jìn)行屬性的比較,并由屬性判定從該節(jié)點(diǎn)向下的分支,最終在葉節(jié)點(diǎn)得到結(jié)論。
3 應(yīng)用實(shí)例
本課題以WEKA數(shù)據(jù)挖掘平臺為挖掘工具,采用決策樹相關(guān)算法對收集到的400余例AECOPD病案數(shù)據(jù)展開辨證分型相關(guān)研究。WEKA(Waika to Environment for Knowledge Analysis)是由新西蘭懷卡托大學(xué)開發(fā)的開源數(shù)據(jù)挖掘平臺。WEKA是由JAVA語言實(shí)現(xiàn)的,可以運(yùn)行在目前所有的操作系統(tǒng)中。
作為一款開放的數(shù)據(jù)挖掘工作平臺,數(shù)據(jù)挖掘用戶可使用Weka平臺執(zhí)行數(shù)據(jù)預(yù)處理,分類,回歸,聚類,關(guān)聯(lián)分析等任務(wù)。同時(shí),它具有很強(qiáng)的兼容性和擴(kuò)展性,用戶可以在WEKA系統(tǒng)中封裝個(gè)性化的算法,實(shí)現(xiàn)數(shù)據(jù)處理及算法性能評估的目的[4]。
3.1 中醫(yī)數(shù)據(jù)的預(yù)處理
中醫(yī)臨床診斷中的癥狀、辨證都是用文字去表述,缺乏統(tǒng)一的標(biāo)識,同時(shí),由于受到中醫(yī)望、聞、問、切4種診斷方法的限制,醫(yī)生因其個(gè)人表述習(xí)慣的不同而使得病案記錄常存在對于同一癥狀用不同術(shù)語表述的情況。針對這些特點(diǎn),課題進(jìn)行病案數(shù)據(jù)預(yù)處理的相關(guān)流程主要為:
在中醫(yī)專家的指導(dǎo)下,對出現(xiàn)頻率極低、不影響分型的癥狀屬性進(jìn)行了消減,同一部位的癥狀屬性進(jìn)行了合并,此外,根據(jù)出現(xiàn)頻率的高低,對病案數(shù)據(jù)中的辨證證型進(jìn)行了篩選,選出了出現(xiàn)頻率較高的證型。數(shù)據(jù)規(guī)約后,部分?jǐn)?shù)據(jù)如表2所示。
通過對收集醫(yī)案的所有癥狀歸類、統(tǒng)計(jì)、預(yù)處理,對照中醫(yī)名詞委頒布的《中醫(yī)藥學(xué)基本名詞術(shù)語》對癥狀的名稱的規(guī)定進(jìn)行規(guī)范,得到了用于研究本課題的基本癥狀統(tǒng)一名稱。此外,為滿足數(shù)據(jù)挖掘進(jìn)行數(shù)字化運(yùn)算和分析的要求,還需要對各癥狀、癥狀表現(xiàn)及證型按照統(tǒng)一的字符或符號進(jìn)行標(biāo)準(zhǔn)化編碼,如Nadai表示納呆,F(xiàn)表示食欲正常,T表示食欲不振,Tanre表示痰熱郁肺,Tanyu表示痰瘀阻肺,Tanzhu表示痰濁阻肺等。
3.2 實(shí)驗(yàn)過程及結(jié)果
利用WEKA平臺將數(shù)據(jù)首先進(jìn)行預(yù)處理,將數(shù)據(jù)轉(zhuǎn)化為.arff文件。由于WEKA平臺要求訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)具有完全一致的屬性格式,包括屬性列出的順序,所以利用UltraEdit軟件將訓(xùn)練樣本和測試樣本進(jìn)行比對,以保證數(shù)據(jù)屬性格式完全一致。這些準(zhǔn)備工作完成之后,將數(shù)據(jù)載入WEKA平臺(圖3),再選取相關(guān)算法,采用10折分層交叉驗(yàn)證法作為驗(yàn)證方法,運(yùn)行平臺,建立模型(圖4)。
4 結(jié)語
課題以收集到的AECOPD中醫(yī)病案數(shù)據(jù)展開基于WEKA平臺的辨證分型研究。首先對數(shù)據(jù)中癥狀和辨證兩維屬性進(jìn)行了數(shù)據(jù)預(yù)處理,然后利用新西蘭懷卡托大學(xué)開發(fā)的WEKA數(shù)據(jù)挖掘平臺建立了分型模型,為AECOPD在中醫(yī)證候?qū)W上的研究提供了有效的參考依據(jù),同時(shí)也表明決策樹分類方法在中醫(yī)診斷領(lǐng)域中的應(yīng)用具有重要價(jià)值。
參考文獻(xiàn)
[1]陳克龍,樊永平.數(shù)據(jù)挖掘中的分類算法及其在中醫(yī)證候?qū)W中的應(yīng)用[J].中華中醫(yī)藥雜志,2011,26(3):469-473.
[2]牟冬梅,馮超,王萍.數(shù)據(jù)挖掘方法在醫(yī)學(xué)領(lǐng)域的應(yīng)用及SWOT分析[J].醫(yī)學(xué)信息學(xué)雜志,2015,36(1):53-57.
[3]張棪,曹健.面向大數(shù)據(jù)分析的決策樹算法[J].計(jì)算機(jī)科學(xué),2016,43(6A):374-378.
[4]程斐斐,王子牛,侯立鐸.決策樹算法在Weka平臺上的數(shù)據(jù)挖掘應(yīng)用[J].微型電腦應(yīng)用,2015,31(06):63-65.
Abstract:The Syndrome differentiation and classification for the cases of Acute Exacerbation of Chronic Obstructive Pulmonary Disease(AECOPD) is based on the WEKA data mining platform,building the model of TCM syndrome differentiation.Some meaningful reference is Provided to the symptomatology studies of TCM,and indicating the Importance of Decision tree classification in Diagnosis of TCM.
Key words:WEKA;data mining;AECOPD;syndrome differentiation and classification