国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分類算法在高血壓診斷中的應(yīng)用研究

2019-03-09 11:58戴曉敏丁勇
醫(yī)學(xué)信息 2019年1期
關(guān)鍵詞:決策樹心腦血管數(shù)據(jù)挖掘

戴曉敏 丁勇

摘要:高血壓作為一種嚴(yán)重影響人類健康的心腦血管疾病,越來越得到人們的重視,如何利用數(shù)據(jù)挖掘技術(shù)從大量的病例中發(fā)現(xiàn)潛在的發(fā)病機(jī)理成為生物信息學(xué)研究的熱點(diǎn)。本文首先采用數(shù)據(jù)清理、變換等預(yù)處理技術(shù)對(duì)醫(yī)院提供的大量生化檢驗(yàn)數(shù)據(jù)進(jìn)行處理,提取GLU、TC、TG等影響高血壓的主要生理體征屬性;然后,針對(duì)C4.5算法在體征屬性選擇方面存在的偏離問題,引入屬性權(quán)重的概念,對(duì)C4.5算法進(jìn)行改進(jìn);最后,基于改進(jìn)的C4.5算法構(gòu)建決策樹,并從中提取用于診斷的分類規(guī)則。實(shí)驗(yàn)證明,構(gòu)建的決策樹模型符合醫(yī)學(xué)認(rèn)識(shí),準(zhǔn)確率較高,為輔助醫(yī)生診斷和治療高血壓疾病提供了有力的科學(xué)依據(jù)。

關(guān)鍵詞:高血壓;決策樹;分類;C4.5;GLU;TC;TG

中圖分類號(hào):R319? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2019.01.001

文章編號(hào):1006-1959(2019)01-0001-03

Application of Classification Algorithm in Diagnosis of Hypertension

DAI Xiao-min1,DING Yong2

(1.Department of Cardiology,Zhoupu Hospital,Pudong New Area,Shanghai 200120,China;

2.Taizhou Institute of Science and Technology,Nanjing University of Science and Technology, Taizhou 225300,Jiangsu,China)

Abstract:As a cardiovascular and cerebrovascular disease that seriously affects human health, hypertension has been paid more and more attention. How to use data mining technology to discover potential pathogenesis from a large number of cases has become a hot spot in bioinformatics research. In this paper, the data processing, transformation and other pre-processing techniques are used to process the large amount of biochemical test data provided by the hospital, and the main physiological signs of hypertension, such as GLU, TC and TG, are extracted. Then, for the deviation problem of C4.5 algorithm in the selection of the attribute of the sign, the concept of? ?attribute weight is introduced to improve the C4.5 algorithm. Finally, the decision tree is constructed based on the improved C4.5 algorithm and extracted for diagnosis classification rules.The experiment proves that the constructed decision tree model is in line with medical knowledge and has high accuracy, which provides a powerful scientific basis for assisting doctors in the diagnosis and treatment of hypertension.

Key words:Hypertension;Decision tree;Classification;C4.5;GLU;TC;TG

高血壓(hypertension)是一種常見的心血管疾病,會(huì)導(dǎo)致冠心病、糖尿病、腦卒中等并發(fā)癥的發(fā)生,嚴(yán)重威脅到人們的身體健康。除了常規(guī)藥物治療方法,近年來使用關(guān)聯(lián)分析[1]、聚類分析[2]、分類分析[3]、回歸分析[4]、序列分析[5]等數(shù)據(jù)挖掘技術(shù)輔助疾病診療已成為生物信息學(xué)研究的熱點(diǎn)。數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(KDD)中的關(guān)鍵步驟,通常指從大量無序的數(shù)據(jù)中挖掘隱藏于其中的規(guī)律,因此可以利用數(shù)據(jù)挖掘技術(shù)從大量的高血壓電子病歷中提取有價(jià)值的數(shù)據(jù),并從中挖掘?qū)е赂哐獕杭膊〉陌l(fā)病機(jī)理和生理特征,以便于醫(yī)生更科學(xué)、準(zhǔn)確地診斷和預(yù)測(cè)高血壓等心腦血管疾病[6-9]。

有不少學(xué)者提出將數(shù)據(jù)挖掘相關(guān)技術(shù)應(yīng)用到高血壓等心腦血管疾病研究中。甘昕艷等[10]以某社區(qū)醫(yī)院電子病歷作為數(shù)據(jù)源,在數(shù)據(jù)的采集、清理、篩選的基礎(chǔ)上,利用不同的數(shù)據(jù)挖掘算法,建立不同的挖掘模型,并通過IBM SPSS Modeler挖掘平臺(tái)進(jìn)行對(duì)比分析,為醫(yī)務(wù)人員提供了適合各種病種的診療模型。王維樵[11]基于實(shí)驗(yàn)信息系統(tǒng)(LIS)與醫(yī)院信息系統(tǒng)(HIS)提供的生化檢驗(yàn)數(shù)據(jù),采用SPSS統(tǒng)計(jì)軟件和數(shù)據(jù)挖掘技術(shù),提取10項(xiàng)有價(jià)值的指標(biāo)建立人工神經(jīng)網(wǎng)絡(luò)診斷模型,對(duì)心腦血管疾病發(fā)生率進(jìn)行有效評(píng)估。馬宗帥[12]提出將深度學(xué)習(xí)算法應(yīng)用到心腦血管疾病預(yù)測(cè)中,在對(duì)生理數(shù)據(jù)集進(jìn)行歸一化處理的基礎(chǔ)上,基于受限玻爾茲曼機(jī)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò),構(gòu)建基于DBN的心腦血管疾病預(yù)測(cè)模型,并通過大量實(shí)驗(yàn)驗(yàn)證模型的識(shí)別率。王專等[13]提出將人工智能、大數(shù)據(jù)技術(shù)應(yīng)用到高血壓的治療效果分析中,搭建了基于Hadoop分布式計(jì)算平臺(tái)以及Hbase分布式數(shù)據(jù)庫的大數(shù)據(jù)疾病分析系統(tǒng),能夠?qū)μ峁┑暮A扛哐獕喊咐龜?shù)據(jù)進(jìn)行大規(guī)模分類建模與計(jì)算,實(shí)現(xiàn)高血壓療效的科學(xué)分析以及用藥推薦等功能[14,15]。

1改進(jìn)的C4.5算法

1.1算法思想? C4.5算法是一種分類決策樹算法,算法的基本思想是找出具有最大信息增益率(Gain Ratio)的屬性作為決策樹的分裂節(jié)點(diǎn),再根據(jù)不同屬性值建立樹的分支,對(duì)每個(gè)分支重復(fù)建立樹的下一層節(jié)點(diǎn)和分支,直到分支的屬性值屬于同一類[3]。C4.5算法使用信息增益率來選擇屬性,GainRatio越大,區(qū)分樣本的能力就越強(qiáng),克服了用信息增益選擇屬性時(shí)存在的偏向問題。但是有些因素,如患者是否服藥、患者性別等對(duì)高血壓的診斷具有很大的影響。因此,引入屬性權(quán)重?棕的概念,對(duì)C4.5算法進(jìn)行改進(jìn)。

1.2算法描述

算法:Hypertension _Decision_Tree

輸入:訓(xùn)練數(shù)據(jù)集樣本,屬性集

輸出:高血壓分類決策樹

(1)創(chuàng)建一個(gè)節(jié)點(diǎn)Node

(2)如果數(shù)據(jù)集中的元組屬于同一類

(3)返回Node作為葉子節(jié)點(diǎn),并以該類為標(biāo)記

(4)如果屬性集為空

(5)返回Node作為葉子節(jié)點(diǎn),標(biāo)記為樣本集的普通類

(6)選擇屬性集中具有最高信息增益率的屬性作為分裂屬性

(7)使用分裂屬性標(biāo)記節(jié)點(diǎn)Node

(8)對(duì)分裂屬性的每個(gè)屬性值X

(9)由節(jié)點(diǎn)Node產(chǎn)生一條滿足分裂屬性值=X的分枝

(10)設(shè)Di是D中滿足分裂屬性值=X的數(shù)據(jù)集合

(11)如果Di為空

(12)添加一個(gè)樹葉節(jié)點(diǎn),標(biāo)記為樣本集的普通類

(13)否則

(14)添加一個(gè)由Hypertension _Decision_Tree(Di,分裂屬性)返回的節(jié)點(diǎn)

2高血壓分類診斷模型

采用上海周浦醫(yī)院心血管內(nèi)科提供的2015年1月~2017年6月收集的9856份電子病歷,從處方和檢驗(yàn)報(bào)告中其提取部分有價(jià)值的屬性,包括患者性別(Gender)、患者年齡(Age)、收縮壓(Systolic Blood Pressure)、舒張壓(Diastolic Blood Presssure)、隨機(jī)血糖(GLU)、總膽固醇(Total Cholesterol,TC)、甘油三酯(Triglyceride,TG)、高密度脂蛋白(High Density Lipoprotein,HDL)、低密度脂蛋白(Low Density Lipoprotein,LDL)、服藥(Medicine)等。高血壓分類診斷模型主要包括數(shù)據(jù)清洗、利用C4.5算法構(gòu)造決策樹、提取分類規(guī)則等主要步驟,見圖1。

2.1數(shù)據(jù)預(yù)處理

2.1.1數(shù)據(jù)離散化? 對(duì)患者年齡進(jìn)行離散化處理,年齡>60歲設(shè)置為High(H),在30~50歲之間設(shè)置為Middle(M),<30歲設(shè)置為L(zhǎng)ow(L)。

2.1.2數(shù)據(jù)缺省值? 對(duì)于沒有記錄值的屬性,用數(shù)據(jù)缺省值進(jìn)行填充,如性別用“男”表示,TG用正常值1.7 mmol/L表示。

2.1.3數(shù)據(jù)統(tǒng)一化? 將TC、TG、HDL等屬性的單位統(tǒng)一轉(zhuǎn)換成mmol/L。

2.1.4數(shù)據(jù)歸類? 將樣本的高血壓值歸類,通常將收縮壓>140 mmHg或舒張壓>90 mmHg定義為高血壓。

2.2構(gòu)造決策樹? 以表1提供的部分訓(xùn)練集數(shù)據(jù),給出構(gòu)造決策樹的步驟。

步驟1:計(jì)算類別信息熵。高血壓屬性(Hypertension)有兩個(gè)不同值(yes,no),值為yes的元組有3個(gè),值為no的元組有7個(gè),因此期望信息為:

步驟5:構(gòu)造決策樹。通過計(jì)算,屬性是否服藥(HasDOSE)的信息增益率最高,因此被作為第一個(gè)分裂節(jié)點(diǎn),并根據(jù)不同的屬性值(Yes,No)將樣本分成2個(gè)子集,對(duì)每一顆子決策樹,遞歸調(diào)用上面的構(gòu)造方法。根據(jù)9856條樣本數(shù)據(jù)最終生成的決策樹見圖2。

2.3提取高血壓判別規(guī)則? 規(guī)則表示屬性之間的關(guān)系,通常用IF-THEN的形式來表示。IF部分為規(guī)則的前件,Then部分為規(guī)則的后件?;诟哐獕悍诸悰Q策樹,提取以下“正例”規(guī)則:

IF Has_Dose=No Then is_hypertension =Yes

IF Has_Does=Yes And HDL>1.45 And GLU≤4.5 Then is_hypertension =Yes

IF Has_Does=Yes And HDL>1.45 And GLU≥4.5 And TG>2.37 Then is_hypertension =Yes

如果沒有服藥,則患高血壓的概率為75%。

如果服藥,且高密度脂蛋白>1.45,且隨機(jī)血糖≤4.5,則患高血壓的概率為100%。

如果服藥,且高密度脂蛋白>1.45,且隨機(jī)血糖≥4.5,且甘油三酯>2.37,則患高血壓的概率為66.7%。

3總結(jié)

本文基于上海周浦醫(yī)院心血管內(nèi)科提供的電子病歷和生化檢驗(yàn)數(shù)據(jù),采用改進(jìn)的C4.5分類算法,建立高血壓分類診斷模型,該模型包括數(shù)據(jù)預(yù)處理、決策樹構(gòu)建、分類規(guī)則提取等功能。實(shí)驗(yàn)證明,基于改進(jìn)后的模型提取高血壓分類規(guī)則更加準(zhǔn)確,更符合醫(yī)學(xué)認(rèn)識(shí),為輔助醫(yī)生診療高血壓疾病提供了有價(jià)值的知識(shí)庫和科學(xué)依據(jù)。

參考文獻(xiàn):

[1]楊余壘.改進(jìn)的關(guān)聯(lián)規(guī)則算法在慢性病數(shù)據(jù)挖掘中的研究[D].浙江理工大學(xué),2017.

[2]宋欣霞.基于并行化聚類的中醫(yī)治療高血壓用藥規(guī)律分析[D].山東中醫(yī)藥大學(xué),2017.

[3]林玲玲.基于C4.5算法的高血壓分類規(guī)則提取的研究[D].太原理工大學(xué),2012.

[4]王寧.基于二項(xiàng)Logistic回歸建模的在線高血壓病情分類系統(tǒng)的研究與開發(fā)[D].內(nèi)蒙古大學(xué),2017.

[5]張曉宇.序列模式挖掘算法在高血壓藥物推薦中的研究[D].太原理工大學(xué),2017.

[6]黎彩芬,唐瑞璠,盧遠(yuǎn)新,等.病案信息數(shù)據(jù)挖掘在老年高血壓病臨床護(hù)理中的應(yīng)用[J].深圳中西醫(yī)結(jié)合雜志,2016,26(12):132-133.

[7]朱麗娟,李運(yùn)倫,聶文婷,等.基于數(shù)據(jù)挖掘的高血壓病方劑用藥規(guī)律分析[J].中國(guó)中醫(yī)藥現(xiàn)代遠(yuǎn)程教育,2016,14(10):48-51.

[8]呂長(zhǎng)霞.基于數(shù)據(jù)挖掘的從肝論治高血壓組方用藥規(guī)律研究[D].北京中醫(yī)藥大學(xué),2016.

[9]趙靜,崔德芝,鞠建慶.基于數(shù)據(jù)挖掘的名老中醫(yī)治療高血壓用藥規(guī)律分析[J].國(guó)醫(yī)論壇,2015,30(05):61-63.

[10]甘昕艷,潘家英,梁京章.數(shù)據(jù)挖掘技術(shù)在高血壓病種上的應(yīng)用研究[J].電腦知識(shí)與技術(shù),2015,11(05):1-4,6.

[11]王維樵.基于Hadoop平臺(tái)的高血壓治療效果分析系統(tǒng)的設(shè)計(jì)與開發(fā)[D].東南大學(xué),2017.

[12]馬宗帥.基于深度學(xué)習(xí)的心腦血管疾病預(yù)測(cè)方法研究[D].西安建筑科技大學(xué),2015.

[13]王專,王開正,程松,等.心腦血管疾病生化檢驗(yàn)數(shù)據(jù)挖掘和報(bào)告解讀[J].中國(guó)醫(yī)學(xué)工程,2011,19(10):86-88.

[14]盧沛良.基于高原高血壓下的生物大數(shù)據(jù)可視化研究[D].青海師范大學(xué),2017.

[15]車晉強(qiáng).基于Spark平臺(tái)的高血壓藥物推薦及療效預(yù)測(cè)研究[D].太原理工大學(xué),2016.

猜你喜歡
決策樹心腦血管數(shù)據(jù)挖掘
不是所有藥物都能掰開吃——心腦血管篇
冬季謹(jǐn)防心腦血管疾病侵襲
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
防治心腦血管疾病,注意五大誤區(qū)
心腦血管疾病用藥與藥物不良反應(yīng)的相關(guān)性
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于決策樹的出租車乘客出行目的識(shí)別
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用