趙亮
摘要:運(yùn)用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),利用Weka數(shù)據(jù)挖掘平臺(tái),對(duì)767例慢性乙肝患者的數(shù)據(jù)進(jìn)行挖掘分析,再通過課題組編寫的過濾分解程序,過濾分解得到864條慢性乙肝癥狀和實(shí)驗(yàn)室指標(biāo)的關(guān)聯(lián)規(guī)則。研究結(jié)果表明,基于Weka的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),挖掘出的諸如鼻頭色微黃明潤、舌苔白與舌淡紅等和實(shí)驗(yàn)室指標(biāo)關(guān)聯(lián)性很強(qiáng)的慢性乙肝癥狀,可以為醫(yī)生臨床診斷決策提供新的思路和參考。
關(guān)鍵詞:Weka;慢性乙肝;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)05-0266-03
Abstract: Our research group filter and decompose to get 864 chronic hepatitis B symptoms and laboratory indexes of association rules by using association rules data mining techniques and Weka data mining platform,and data mining analysis of the 767 cases of chronic hepatitis B patients,and through our team writing filter decomposition program.The results show that it can provide new ideas and reference for the decision of doctors clinical diagnosis by the data mining to get such the yellowish-bright moist nose,white fur and pink tongue as symptoms of chronic hepatitis B strong associated with laboratory indexes based on the association rules of Weka data mining techniques.
Key words: Weka; Chronic hepatitis B; Data mining; Association rules
慢性乙型肝炎是目前危害人類健康最嚴(yán)重的傳染病之一,是一種發(fā)病率高、病程長、難治愈、易反復(fù)的常見病[1]。近年來,在慢性乙肝的治療方面,中西醫(yī)均有不斷深入的研究,新的治療方法不斷涌現(xiàn),但目前還未見慢性乙肝癥狀與實(shí)驗(yàn)室指標(biāo)相關(guān)性的研究。
本文以767例臨床病例數(shù)據(jù)為研究對(duì)象,將收集到的慢性乙肝癥狀和實(shí)驗(yàn)室指標(biāo),利用Weka數(shù)據(jù)挖掘平臺(tái),采用基于關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘方法,進(jìn)行慢性乙肝癥狀和實(shí)驗(yàn)室指標(biāo)相關(guān)性研究,最終得到慢性乙肝癥狀和諸如HBV-DNA、谷丙轉(zhuǎn)氨等重要實(shí)驗(yàn)室指標(biāo)的相關(guān)性分析結(jié)果,從而指導(dǎo)醫(yī)生的臨床診斷決策。
1 關(guān)聯(lián)規(guī)則挖掘
1.1 關(guān)聯(lián)規(guī)則挖掘簡(jiǎn)介
關(guān)聯(lián)規(guī)則挖掘是指從事務(wù)數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫和其他信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性[2],也就是給定一個(gè)交易數(shù)據(jù)集T,找出其中所有Support≥Min_support、Confidence≥Min_confidence的關(guān)聯(lián)規(guī)則,其中Support為支持度,Min_support為最小支持度,Confidence為置信度,Min_confidence為最小置信度。
1.2 關(guān)聯(lián)規(guī)則挖掘算法
關(guān)聯(lián)規(guī)則挖掘算法有很多種,也是學(xué)者研究的熱點(diǎn)領(lǐng)域之一。關(guān)聯(lián)規(guī)則常用的算法為Apriori算法、FP-Growth算法和Partition算法等。其中Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法中最經(jīng)典的算法。
2 Weka數(shù)據(jù)挖掘平臺(tái)
Weka的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一個(gè)基于Java的開源的數(shù)據(jù)挖掘平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則,以及在新的交互式界面上的可視化[2]。
3 慢性乙肝癥狀與實(shí)驗(yàn)室指標(biāo)相關(guān)性研究過程
3.1 數(shù)據(jù)選擇
本項(xiàng)目數(shù)據(jù)來源為國家科技重大專項(xiàng)的《病毒性肝炎中醫(yī)證候生物學(xué)技術(shù)平臺(tái)研究》中證候生物學(xué)技術(shù)平臺(tái)的數(shù)據(jù)。證候生物學(xué)技術(shù)平臺(tái)的數(shù)據(jù)來自于四川大學(xué)華西醫(yī)院、成都中醫(yī)藥大學(xué)附屬醫(yī)院、成都市傳染病醫(yī)院、樂山市中醫(yī)院、滬州醫(yī)學(xué)院附屬醫(yī)院、滬州醫(yī)學(xué)院附屬中醫(yī)院、德陽市人民醫(yī)院和綿陽市中醫(yī)院等8家醫(yī)院的病例采集,共767例臨床病例。
利用證候生物學(xué)技術(shù)平臺(tái)將數(shù)據(jù)導(dǎo)出為Excel文件數(shù)據(jù)格式,共8個(gè)Excel文件。
3.2 數(shù)據(jù)預(yù)處理
1) 文件合并
原始數(shù)據(jù)共8個(gè)Excel文件,共767行數(shù)據(jù),每個(gè)Excel文件工作表中有349列數(shù)據(jù)。本項(xiàng)目的目標(biāo)是要挖掘出慢性乙肝癥狀和實(shí)驗(yàn)室指標(biāo)相關(guān)性規(guī)則,所以只需保留慢性乙肝癥狀和實(shí)驗(yàn)室指標(biāo)數(shù)據(jù),而其他數(shù)據(jù)列可以舍去。最終將8個(gè)Excel文件合并為1個(gè)Excel文件,其工作表只需保留舌色、脈象、脅下痛、HBV-DNA和谷丙轉(zhuǎn)氨等共767行、97列數(shù)據(jù)。
2) 實(shí)驗(yàn)室指標(biāo)分類
在Excel文件的工作表的實(shí)驗(yàn)室指標(biāo),共有HBV-DNA、谷丙轉(zhuǎn)氨酶、谷草轉(zhuǎn)氨酶、總膽紅素、直接膽紅素和間接膽紅素等6項(xiàng),每項(xiàng)指標(biāo)的數(shù)據(jù)都為病人實(shí)驗(yàn)室指標(biāo)的實(shí)際數(shù)值。若要進(jìn)行數(shù)據(jù)挖掘,則必須要對(duì)各項(xiàng)實(shí)驗(yàn)室指標(biāo)數(shù)據(jù)進(jìn)行分類,分類方式如表1:
表1中結(jié)論的“正?!北硎驹搶?shí)驗(yàn)室指標(biāo)為正常范圍值,“不正?!北硎驹搶?shí)驗(yàn)室指標(biāo)超出正常范圍值,“預(yù)后好”表示病程短、肝細(xì)胞實(shí)質(zhì)損害輕和預(yù)后較好的患者實(shí)驗(yàn)室指標(biāo),“預(yù)后不好”表示早期肝硬化及肝硬化患者的實(shí)驗(yàn)室指標(biāo)。
3) 同一癥狀不同列的情況處理
在Excel文件的工作表的各項(xiàng)癥狀中,存在這樣的一種情況,例如:脈象共有三列數(shù)據(jù),表示一個(gè)人同時(shí)可有三種脈象,但在錄入數(shù)據(jù)的時(shí)候,同一種脈象并沒有在同一列中。比如患者甲存在弦脈,其數(shù)據(jù)存放于脈象A列中,而患者乙也存在弦脈,其數(shù)據(jù)卻存放于脈象B列中。這就造成了同一癥狀的數(shù)據(jù)放在不同的列中,如果直接進(jìn)行數(shù)據(jù)挖掘,則會(huì)造成挖掘的規(guī)則不準(zhǔn)確,所以必須要解決這種同一癥狀不同列的問題。
解決問題的方法如下,先統(tǒng)計(jì)工作表中脈象的種類數(shù)量,共15種脈象。然后在3列脈象之后再增加12列脈象,同一種類脈象數(shù)據(jù)就可以放在同一脈象列中了。其他癥狀不同列的問題也按此方法處理,該問題得到解決。新的Excel文件的工作表的數(shù)據(jù)列增加到147列。
經(jīng)過以上3個(gè)步驟,基本完成了數(shù)據(jù)預(yù)處理,就可以進(jìn)行數(shù)據(jù)挖掘。
3.3 數(shù)據(jù)挖掘
采用Weka3.7.11對(duì)數(shù)據(jù)進(jìn)行挖掘,挖掘步驟如下:
1) 將Excel文件轉(zhuǎn)換成Weka數(shù)據(jù)格式。
Weka數(shù)據(jù)挖掘平臺(tái)的數(shù)據(jù)存儲(chǔ)格式是ARFF文件。Weka能夠支持CSV格式的數(shù)據(jù),但對(duì)ARFF格式的支持是最好的,所以需要將CSV格式轉(zhuǎn)為ARFF格式。首先在Excel中將預(yù)處理得到的Excel文件另存為CSV格式文件,然后使用Weka提供的“ARFF Viewer”模塊打開CSV文件,再將文件另存為ARFF格式文件即可。
2) 使用Weka進(jìn)行關(guān)聯(lián)分析
打開Weka數(shù)據(jù)挖掘平臺(tái),在Weka GUI Chooser中單擊Explorer,調(diào)出Weka Explorer工具進(jìn)行數(shù)據(jù)挖掘。在Weka Explorer中打開數(shù)據(jù)文件,然后在Weka Explorer的Associate選項(xiàng)卡中進(jìn)行Apriori數(shù)據(jù)挖掘分析,設(shè)置Apriori數(shù)據(jù)挖掘分析參數(shù)如圖1所示,其中最小支持度lowerBoundMinSupport為0.2,最小置信度minMetric為0.5,挖掘出的最多規(guī)則數(shù)量numRules為20000。參數(shù)設(shè)置好后開始挖掘,結(jié)果如圖2所示,共挖掘出符合條件的規(guī)則12155條。
3) 對(duì)挖掘得到的關(guān)聯(lián)規(guī)則過濾和分解
本項(xiàng)目是要分析出慢性乙肝癥狀和實(shí)驗(yàn)室指標(biāo)的關(guān)聯(lián)規(guī)則。而在這12155條規(guī)則中,有很多是癥狀與癥狀、實(shí)驗(yàn)室指標(biāo)與實(shí)驗(yàn)室指標(biāo)和實(shí)驗(yàn)室指標(biāo)與癥狀的關(guān)聯(lián)規(guī)則,需要過濾這些不符合項(xiàng)目要求的關(guān)聯(lián)規(guī)則,最后將關(guān)聯(lián)規(guī)則分解為符合要求的數(shù)據(jù)另存為Excel文件。
首先將這12155條規(guī)則導(dǎo)出到MySql的數(shù)據(jù)庫中,然后使用“Php+MySql+Apache”開發(fā)環(huán)境編寫過濾分解程序,再應(yīng)用該程序?qū)σ?guī)則進(jìn)行過濾和分解,最后得到符合要求的Excel文件,打開Excel文件后如圖3所示,共864條規(guī)則。
4 結(jié)果分析
1)本項(xiàng)目涉及患者癥狀共247種,患者癥狀出現(xiàn)的頻次15108次,其中頻率在前10位的癥狀如表2所示。從表2可以看出,絕大部分患者語音是正常的,苔色中苔白人數(shù)最多,脈象中弦脈人數(shù)做多,苔質(zhì)中苔薄人數(shù)最多,舌色中淡紅人數(shù)最多,舌形中舌榮潤人數(shù)最多,大部分患者會(huì)有乏力感,但不影響日常工作。
5 結(jié)論
本項(xiàng)目數(shù)據(jù)挖掘結(jié)果表明,若患者鼻頭色為微黃明潤,或者苔色為苔白,或者舌色為淡紅等,則其實(shí)驗(yàn)室指標(biāo)可能不正常。而醫(yī)學(xué)文獻(xiàn)資料中常見的乙肝癥狀,主要為乏力、食欲不振、皮膚發(fā)黃和小便發(fā)黃等,并無鼻頭色微黃明潤、舌苔白和舌淡紅等癥狀。這些新的和實(shí)驗(yàn)室指標(biāo)關(guān)聯(lián)性很強(qiáng)的慢性乙肝癥狀,或許能為醫(yī)生臨床診斷決策提供新的思路和參考。
參考文獻(xiàn):
[1] 王政.慢性乙型肝炎中醫(yī)證候規(guī)律研究[J].河南中醫(yī),2011,31(8):870.
[2] 胡綠慧,任玉蘭.基于Weka關(guān)聯(lián)規(guī)則挖掘的針灸腧穴規(guī)律研究[J].電腦知識(shí)與技術(shù),2014,10(7):1361-1362.