国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的疾病預(yù)測模型的構(gòu)建與分析

2016-09-20 05:46李?yuàn)^華趙潤林運(yùn)城學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系運(yùn)城044000中國科學(xué)院大學(xué)北京0090
現(xiàn)代計(jì)算機(jī) 2016年18期
關(guān)鍵詞:決策樹數(shù)據(jù)挖掘對(duì)象

李?yuàn)^華,趙潤林(.運(yùn)城學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,運(yùn)城 044000 2.中國科學(xué)院大學(xué),北京 0090)

基于數(shù)據(jù)挖掘的疾病預(yù)測模型的構(gòu)建與分析

李?yuàn)^華1,2,趙潤林1
(1.運(yùn)城學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,運(yùn)城044000 2.中國科學(xué)院大學(xué),北京100190)

0 引言

自從1995年數(shù)據(jù)挖掘的概念提出以來,數(shù)據(jù)挖掘技術(shù)的發(fā)展雖然僅有二十多年的歷史,但其在商業(yè)、工程、電信等領(lǐng)域已經(jīng)獲得了廣泛的應(yīng)用,并取得了可觀的經(jīng)濟(jì)效益和社會(huì)效益。然而,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用尚處于起步階段。在信息爆炸的大數(shù)據(jù)時(shí)代,由于硬件和信息技術(shù)的迅猛發(fā)展,各行各業(yè)每時(shí)每刻都會(huì)產(chǎn)生大量的數(shù)據(jù),人們被淹沒在數(shù)據(jù)的海洋中,如何從這些海量的數(shù)據(jù)中發(fā)現(xiàn)潛在、有價(jià)值的信息難度很大。

在醫(yī)療行業(yè),隨著醫(yī)院信息系統(tǒng)(HIS)在全國各大醫(yī)院的逐步推廣和應(yīng)用,醫(yī)院每天都會(huì)產(chǎn)生大量與病人相關(guān)的臨床數(shù)據(jù),而且這些數(shù)據(jù)的規(guī)模越來越大,在這些真實(shí)的數(shù)據(jù)中蘊(yùn)含著許多對(duì)病人和醫(yī)生來說潛在、有價(jià)值的信息[1]。如何有效地利用這些真實(shí)的臨床數(shù)據(jù),并從中發(fā)現(xiàn)一些對(duì)病人治療和醫(yī)生診斷有價(jià)值的規(guī)律和信息十分關(guān)鍵,也是當(dāng)前醫(yī)學(xué)信息處理研究中一個(gè)亟待解決的難題。上述問題的解決不僅能在一定程度上緩解當(dāng)前社會(huì)上存在的緊張醫(yī)患關(guān)系,而且還能有效地輔助醫(yī)生診斷、決策和治療,提高醫(yī)生的工作效率,進(jìn)而提高醫(yī)院的醫(yī)療服務(wù)質(zhì)量和競爭力[2]。

本文將據(jù)挖掘技術(shù)引入到醫(yī)學(xué)數(shù)據(jù)分析中,提出了一種基于決策樹的疾病預(yù)測模型,并在實(shí)際的醫(yī)學(xué)疾病數(shù)據(jù)集上驗(yàn)證了其效果。第2節(jié)簡要地介紹了決策樹算法的原理,在此基礎(chǔ)上,第3節(jié)提出一種基于決策樹的疾病預(yù)測模型,并在真實(shí)醫(yī)學(xué)數(shù)據(jù)集上(二型糖尿病臨床數(shù)據(jù))進(jìn)行了實(shí)驗(yàn)驗(yàn)證,預(yù)測效果良好。

1 決策樹算法的基本原理

決策樹算法是數(shù)據(jù)挖掘技術(shù)中常用的一種分類和預(yù)測方法[3]。該算法以研究對(duì)象的屬性為基礎(chǔ),根據(jù)信息論的原理,通過多次遞歸的方式選擇信息增益最大的屬性來作為決策樹的當(dāng)前節(jié)點(diǎn)(即:最佳節(jié)點(diǎn)),在決策樹構(gòu)建過程中,已經(jīng)使用過的屬性在決策樹的后續(xù)構(gòu)建時(shí)不能再作為節(jié)點(diǎn)來使用,即:研究對(duì)象的每個(gè)屬性在決策樹中當(dāng)且僅當(dāng)出現(xiàn)一次。在決策樹的構(gòu)建過程中,遞歸過程的終止情況有下列三種:

(1)當(dāng)前節(jié)點(diǎn)對(duì)應(yīng)的所有研究對(duì)象均屬于同一類別。

(2)沒有剩余屬性被用來進(jìn)一步對(duì)當(dāng)前研究對(duì)象進(jìn)行分類。

(3)當(dāng)前節(jié)點(diǎn)所對(duì)應(yīng)的屬性值對(duì)應(yīng)的研究對(duì)象個(gè)數(shù)為0。

假設(shè)M、m分別表示研究對(duì)象集合和該集合中包含對(duì)象的個(gè)數(shù)。L={l1,l2,l3,…,ln}表示研究對(duì)象的類別集合。mi表示類別 li中研究對(duì)象的個(gè)數(shù),那么,根據(jù)信息論原理,對(duì)一個(gè)研究對(duì)象進(jìn)行分類需要的信息量如下:

其中,pi=mi/m表示一個(gè)研究對(duì)象輸入類別li的概率。

設(shè)一個(gè)屬性 X的取值集合為X={x1,x2,…,xs}。屬性X能夠把研究對(duì)象集合M劃分為s個(gè)子集{M1,M2,…,Ms},其中Mi表示屬性X=xi的研究對(duì)象的集合。如果屬性 X被選為決策樹的當(dāng)前節(jié)點(diǎn),mij表示子集 Mj中屬于li類別的研究對(duì)象的個(gè)數(shù),因此,采用屬 X對(duì)當(dāng)前研究對(duì)象集合進(jìn)行劃分所需信息熵的計(jì)算公式如下:

其中,pij=mi/(|Mj|)表示研究對(duì)象子集Mj中任意一個(gè)對(duì)象屬于類別 li的概率。由公式(1)和(2)可知,通過屬性對(duì)相應(yīng)研究對(duì)象集合進(jìn)行劃分的信息增益計(jì)算公式如下:

具體的決策樹算法描述如下:

2 基于決策樹的疾病預(yù)測模型的構(gòu)建與分析

針對(duì)醫(yī)療行業(yè)的現(xiàn)狀,為提高醫(yī)生疾病診斷的效率和緩解醫(yī)患矛盾,在數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,本文提出了一種基于決策樹的疾病預(yù)測模型,如圖1所示,并在真實(shí)醫(yī)學(xué)數(shù)據(jù)集上(即:二型糖尿病臨床數(shù)據(jù))進(jìn)行了實(shí)驗(yàn)。

圖1 基于決策樹的疾病預(yù)測模型

本文采用Clementine 12數(shù)據(jù)挖掘工具來構(gòu)建疾病預(yù)測模型,并在二型糖尿病臨床數(shù)據(jù)集上進(jìn)行了有效實(shí)驗(yàn)[4]。該數(shù)據(jù)集包含8個(gè)與二型糖尿病相關(guān)的臨床檢查病癥,共768條記錄,如圖2所示[5]。

在實(shí)驗(yàn)過程中,本文把上述實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分,通過訓(xùn)練集來構(gòu)建和提取決策樹規(guī)則,利用測試集來對(duì)該模型在實(shí)際應(yīng)用中的效果進(jìn)行驗(yàn)證,預(yù)測效果如圖3所示。從圖3中,我們發(fā)現(xiàn)該疾病預(yù)測模型的預(yù)測正確率是74.52%,預(yù)測錯(cuò)誤率是25.48%,這也有效地驗(yàn)證了基于決策樹的疾病預(yù)測模型的有效性。實(shí)驗(yàn)證明,該模型可以有效地輔助醫(yī)生進(jìn)行疾病的診斷,提高醫(yī)生工作的效率,在一定程度上緩解病人看病難、排隊(duì)時(shí)間長的問題,具有一定的實(shí)用價(jià)值。

圖2 二型糖尿病臨床數(shù)據(jù)集

3 結(jié)語

針對(duì)醫(yī)療領(lǐng)域存在的問題,從數(shù)據(jù)挖掘的角度出發(fā),本文提出了一種基于決策樹的疾病預(yù)測模型,在真實(shí)醫(yī)學(xué)數(shù)據(jù)集——二型糖尿病數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn),預(yù)測效果較明顯,能夠有效地輔助醫(yī)生進(jìn)行疾病的診斷,提高醫(yī)生疾病診斷的效率,具有一定的實(shí)際意義。

圖3 二型糖尿病數(shù)據(jù)預(yù)測效果

[1]徐剛,袁兆康.?dāng)?shù)據(jù)挖掘在醫(yī)學(xué)領(lǐng)域的應(yīng)用和展望[J].實(shí)用臨床醫(yī)學(xué),2006,7(13):11-15.

[2]石義芳,孔令人.數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)在病人流量分析中的應(yīng)用[J].現(xiàn)代預(yù)防醫(yī)學(xué),2006,33(02),p23-25.[3]邵峰晶,于忠清.?dāng)?shù)據(jù)挖掘原理與算法[M].北京:科學(xué)出版社,2009.

[4]熊平.?dāng)?shù)據(jù)挖掘算法與Clementine實(shí)踐[M].北京:清華大學(xué)出版社,2011.

[5]張承紅.醫(yī)學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:中國中醫(yī)藥出版社,2008.

Big Data;Data Mining;HIS;Disease Prediction

Design and Analysis of Disease Prediction Model Based on Data Mining

LI Feng-hua1,2,ZHAO Run-lin2
(1.Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000;2.University of Chinese Academy of Sciences,Beijing 100190)

國家自然科學(xué)基金項(xiàng)目(No.61272480)

李?yuàn)^華(1977-),男,山西昔陽縣人,博士,講師,研究方向?yàn)閿?shù)據(jù)挖掘、社會(huì)計(jì)算和電子健康

2016-05-02

2016-06-20

在大數(shù)據(jù)時(shí)代,HIS在全國絕大多數(shù)醫(yī)院得到有效推廣,這在一定程度上提高醫(yī)院的工作效率,但是也產(chǎn)生一個(gè)亟待解決的重要問題:如何能在HIS的海量醫(yī)學(xué)數(shù)據(jù)中發(fā)現(xiàn)潛在、有價(jià)值的信息,從而有效地支持醫(yī)生進(jìn)行疾病的診斷與決策,進(jìn)而緩解當(dāng)前緊張的醫(yī)患關(guān)系。把數(shù)據(jù)挖掘技術(shù)引入到海量醫(yī)學(xué)數(shù)據(jù)的分析中,提出一種基于決策樹的疾病預(yù)測模型,并在實(shí)際的醫(yī)學(xué)疾病數(shù)據(jù)集上進(jìn)行驗(yàn)證,能取得較好的預(yù)測效果。

大數(shù)據(jù);數(shù)據(jù)挖掘;醫(yī)院信息系統(tǒng);疾病預(yù)測

趙潤林(1960-),男,山西運(yùn)城人,本科,副教授,研究方向?yàn)橛?jì)算機(jī)系統(tǒng)結(jié)構(gòu)

In big data era,HIS is applied in many hospitals of our country in order to improve their work efficiency.But there is a challenging problem to solve:how to find some latent and valuable information or principles from the massive data in HIS is very important,because this not only can support the disease diagnosis and decision of doctors in some extent,but also can relieve the tense relationships between doctors and patients.Applies data mining technologies to the analysis of massive medical data,proposes a disease prediction model based on decision tree method.Through the experiments of real medical datasets,some empirical studies are shown to demonstrate the effectiveness of this model on real medical data sets.

猜你喜歡
決策樹數(shù)據(jù)挖掘對(duì)象
涉稅刑事訴訟中的舉證責(zé)任——以納稅人舉證責(zé)任為考察對(duì)象
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
判斷電壓表測量對(duì)象有妙招
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
攻略對(duì)象的心思好難猜
基于決策樹的出租車乘客出行目的識(shí)別
區(qū)間對(duì)象族的可鎮(zhèn)定性分析
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
渭南市| 布尔津县| 阿鲁科尔沁旗| 蒲江县| 宁都县| 离岛区| 永城市| 新巴尔虎左旗| 任丘市| 罗甸县| 固镇县| 大丰市| 都江堰市| 和龙市| 上犹县| 广汉市| 武宣县| 渭南市| 延安市| 凤山县| 治县。| 高密市| 吉安市| 高阳县| 灯塔市| 新巴尔虎左旗| 侯马市| 札达县| 左贡县| 溆浦县| 大田县| 定安县| 阜新| 蕉岭县| 亚东县| 朔州市| 耒阳市| 南岸区| 合阳县| 大埔县| 江陵县|