国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹(shù)算法在老年性癡呆病因病機(jī)分析中的應(yīng)用

2013-04-23 05:16:54山西中醫(yī)學(xué)院醫(yī)藥管理學(xué)院
電子世界 2013年2期
關(guān)鍵詞:字段決策樹(shù)增益

山西中醫(yī)學(xué)院醫(yī)藥管理學(xué)院 楊 婕

老年性癡呆,又叫阿爾茨海默病(Alzheimer’s Disease,AD)是一種多發(fā)于老年人的神經(jīng)退行性疾病,臨床特征主要有知功能障礙和記憶損害。據(jù)報(bào)道,老年期癡呆中AD是全世界最致殘和最累贅的疾病之一[1],除了脊髓損傷和晚期癌癥以外,AD致殘加權(quán)顯著高于任何其他健康情況[2],但目前為止AD的早期防治卻難以落實(shí)。這主要是因?yàn)槠浒l(fā)病的特殊性,且存在地域性差異,而以往研究又缺乏對(duì)AD證候類(lèi)型、證候診斷的統(tǒng)一標(biāo)準(zhǔn),所以想要研究AD的病因和發(fā)病機(jī)制就頗有難度。

如何對(duì)AD的中醫(yī)病因進(jìn)行科學(xué)分類(lèi)和識(shí)別,進(jìn)而總結(jié)提煉歸類(lèi)出可疑癡呆及確診癡呆各自不同期的中醫(yī)病機(jī)演化規(guī)律、致病危險(xiǎn)因素以及證候類(lèi)型的分布規(guī)律,已成為AD的有效防治迫切需要解決的問(wèn)題。

本文的主要工作就是深入研究決策樹(shù)C5.0算法,并利用太原市迎澤區(qū)、萬(wàn)柏林區(qū)、杏花嶺區(qū)三個(gè)市區(qū)共計(jì)1500條數(shù)據(jù)進(jìn)行多次實(shí)驗(yàn),根據(jù)結(jié)果的準(zhǔn)確性不斷修正算法,最后得到老年性癡呆病因病機(jī)的分析模型,用來(lái)對(duì)太原市人口數(shù)據(jù)進(jìn)行患病預(yù)測(cè)。

1.決策樹(shù)C5.0算法

決策樹(shù)(Decision Tree)算法是使用最為廣泛的分類(lèi)預(yù)測(cè)方法之一,可實(shí)現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律的探究和新數(shù)據(jù)對(duì)象的分類(lèi)預(yù)測(cè)。它既可以處理例如“年齡”、“家庭收入”等數(shù)值型數(shù)據(jù),又很擅長(zhǎng)處理如“受教育程度”、“家族遺傳史”等非數(shù)值型數(shù)據(jù),避免了許多數(shù)據(jù)預(yù)處理工作,因此非常適合于研究中醫(yī)病因分析。

決策樹(shù)的概念最早出現(xiàn)在CLS(Concept learning system)中,它是由Hunt等人在1996年提出的[3]?,F(xiàn)在很多算法都是CLS算法的改進(jìn),最經(jīng)典的算法之一便是C5.0算法。該算法通過(guò)計(jì)算輸入變量的信息增益率確定最佳分組變量和分割點(diǎn)。

將輸出變量作為信息源發(fā)出的信息U,輸入變量看成信宿接收到的一系列信息V。其信息增益為:

Gains( U ,V)=Ent(U)-Ent(U|V)

Ent( U )是平均不確定性:

Ent( U |V)是條件熵:

C5.0根據(jù)能夠帶來(lái)最大信息增益的字段拆分樣本。第一次拆分確定的樣本子集隨后再根據(jù)另一個(gè)字段進(jìn)行拆分,直到樣本子集不能再拆分為止。最后檢驗(yàn)最低層次的拆分,采用后修剪法從葉節(jié)點(diǎn)向上逐層判斷錯(cuò)誤率,剔除或者修建對(duì)沒(méi)有顯著貢獻(xiàn)的樣本子集。

2.基于決策樹(shù)C5.0算法的老年性癡呆病因病機(jī)預(yù)測(cè)模型

2.1 數(shù)據(jù)收集

本文采用流行學(xué)的方法在太原市迎澤區(qū)、萬(wàn)柏林區(qū)、杏花嶺區(qū)三個(gè)市區(qū)的醫(yī)院和社保中心進(jìn)行調(diào)查,收集共計(jì)1500條有效信息作為數(shù)據(jù)集合。其中每條記錄由23個(gè)字段組成。其中前22個(gè)字段是對(duì)調(diào)研者信息的描述,包括:id、性別、年齡、民族、職業(yè)、文化程度、婚姻狀況、居住方式、飲食偏嗜、是否飲酒、是否吸煙、是否癡呆、有無(wú)腦血管意外、有無(wú)帕金森病、有無(wú)精神疾患、有無(wú)心血管疾病、有無(wú)神經(jīng)系統(tǒng)疾病、有無(wú)呼吸系統(tǒng)疾病、有無(wú)消化系統(tǒng)疾病、有無(wú)內(nèi)分泌系統(tǒng)疾病、有無(wú)血液系統(tǒng)疾病、有無(wú)其他系統(tǒng)疾病。最后一個(gè)字段是對(duì)調(diào)研者是否患病的判斷,分為:“老年性癡呆(AD)”、“血管性癡呆(VD)”、“混合型癡呆(MD)”和“未患病”四個(gè)類(lèi)別。我們對(duì)前22字段進(jìn)行了分類(lèi),如表1所示。

這22個(gè)字段是除了id字段,其他都是現(xiàn)代醫(yī)學(xué)的高危因素。在模型建立初期,我們先將其都納入分析體系中,作為輸入變量。

表1 樣本字段分類(lèi)

表2 各樣本中患病情況比率

表3 第一層節(jié)點(diǎn)各字段信息增益

表4 初次建模分類(lèi)結(jié)果的正確率

表5 初次建模分類(lèi)結(jié)果與字段病型重合矩陣(行表示實(shí)際值)

我們對(duì)1500條樣本記錄進(jìn)行分區(qū)處理,隨機(jī)抽取約80%(1191條)作為訓(xùn)練樣本,約20%(309條)作為測(cè)試樣本。分區(qū)后,總樣本、訓(xùn)練樣本和測(cè)試樣本中患病情況的分布如表2。

2.2 數(shù)據(jù)處理

對(duì)已采集到的樣本數(shù)據(jù)進(jìn)行預(yù)處理,除噪、除冗余以及連續(xù)型屬性概化為區(qū)間,我們將其儲(chǔ)存到計(jì)算機(jī)之中,得到最終用于建模的樣本數(shù)據(jù)集合。

2.3 初步構(gòu)建決策樹(shù)

數(shù)據(jù)數(shù)理完畢后開(kāi)始構(gòu)建決策樹(shù)。首先將輸出變量(病型)看成是發(fā)出信息的U,共計(jì)1191條數(shù)據(jù),AD有117條,VD有109條,MD有18條,未患病947條,所以其平均不確定性為

之后分別計(jì)算除id之外其他字段的條件熵。以T2(性別)為例,分類(lèi)有2個(gè),其中男性580條,AD有46條,VD有53條,MD有8條,未患病472條;女性611條,AD有71條,VD有55條,MD有10條,未患病475條,所以條件熵為:

于是T2的信息增益為:

Gains(U,T2)=Ent(U)-Ent(U|T2)=0.999-0.996=0.003

以此類(lèi)推,分別計(jì)算其他20個(gè)字段的信息增益,具體信息增益見(jiàn)表3。

發(fā)現(xiàn)最大的為飲食偏嗜,說(shuō)明該字段消除信源的平均不確定性最強(qiáng),因此選用它作為最佳分組變量。由于該變量為分類(lèi)型變量,所以按照其取值,分為6組,形成決策樹(shù)除根節(jié)點(diǎn)外的第一層,是一個(gè)六叉樹(shù)。之后重復(fù)上面的過(guò)程,形成一棵決策樹(shù)。

決策樹(shù)構(gòu)建之后,為了避免該決策樹(shù)與訓(xùn)練樣本的過(guò)度擬合,開(kāi)始對(duì)其修剪。修剪方法是從葉節(jié)點(diǎn)向上逐層計(jì)算節(jié)點(diǎn)的真實(shí)誤差的估計(jì)上限ei。

如果葉節(jié)點(diǎn)的誤差估計(jì)大于父節(jié)點(diǎn)的誤差估計(jì),則剪掉該葉節(jié)點(diǎn)。由于數(shù)據(jù)龐大,在這里我們借助Clementine12.0完成決策樹(shù)的構(gòu)建。對(duì)初次形成的決策樹(shù)進(jìn)行評(píng)估分析,具體數(shù)據(jù)見(jiàn)表4,表5。

從上表的數(shù)據(jù)可以看出,對(duì)已患病的數(shù)據(jù)錯(cuò)判率較高,為了便于實(shí)際中為預(yù)防AD的發(fā)生,我們通過(guò)調(diào)整參數(shù)對(duì)決策樹(shù)進(jìn)行修正。

2.4 決策樹(shù)的修正

為了保證該模型能有效監(jiān)控AD的發(fā)生,我們?cè)谡`判成本中,考慮盡量避免將AD判為其他取值。

同時(shí)為了更好的反應(yīng)數(shù)據(jù)規(guī)律,減少預(yù)測(cè)結(jié)論的偏差,我們采用Boosting技術(shù)對(duì)現(xiàn)有訓(xùn)練樣本反復(fù)抽樣以增加樣本集。在這里我們迭代了5次,也就是建立了5個(gè)模型。之后對(duì)這5個(gè)模型進(jìn)行投票,計(jì)算其權(quán)數(shù)的總和??偤妥罡叩木褪菦Q策樹(shù)的最終分類(lèi)結(jié)果。

2.5 最終結(jié)果及分析

經(jīng)過(guò)參數(shù)修正,我們從5個(gè)模型中選取權(quán)數(shù)和最大(91.27%)的一個(gè)模型最為最終結(jié)果。對(duì)其進(jìn)行評(píng)估分析,得到表6,表7。

從表6和表7中的數(shù)據(jù)可以看出,最終的模型總正確率和錯(cuò)誤率與初次建模的結(jié)果基本一致,但是對(duì)于患病的判斷率明顯提高,這符合我們建立模型的初衷。

3.結(jié)論

本文介紹了C5.0算法構(gòu)建決策樹(shù)的方法,并利用該算法對(duì)老年性癡呆建立判斷模型,之后用太原市迎澤區(qū)、萬(wàn)柏林區(qū)、杏花嶺區(qū)三個(gè)市區(qū)的醫(yī)院和社保中心共計(jì)1500條數(shù)據(jù)進(jìn)行驗(yàn)證。通過(guò)剪枝、損失成本矩陣和Boosting技術(shù)對(duì)得到的模型進(jìn)行修正,最終得到可信度較高,并具有風(fēng)險(xiǎn)成本低的模型。這說(shuō)明決策樹(shù)C5.0算法建立的老年性癡呆判斷模型對(duì)實(shí)際分析具有一定的指導(dǎo)意義,能夠?yàn)轭A(yù)防老年性癡呆的發(fā)生提供決策支持。

表6 最終模型分類(lèi)結(jié)果的正確率

表7最終模型分類(lèi)結(jié)果與字段病型重合矩陣(行表示實(shí)際值)

[1]田金洲,時(shí)晶,苗迎春等.阿爾茨海默病的流行病學(xué)特點(diǎn)及其對(duì)公共衛(wèi)生觀念的影響[J].湖北中醫(yī)學(xué)院學(xué)報(bào),2009,11(1):3-7.

[2]WorldHealth Organization.WorldHealth Report2003-Shaping the future[J].Geneva:WHO,2003.

[3]季桂樹(shù),陳沛玲,宋航.決策樹(shù)分類(lèi)算法研究綜述[J].科技廣場(chǎng),2007(1):9-12.

[4]郭蕾,王永炎,張俊龍,等.關(guān)于證候因素的討論[J].中國(guó)中西醫(yī)結(jié)合雜志,2004,24(7):643-644.

[5]Quinlan J R."C5"[J]-http://rulequest.com 2007.

[6]Rastogi R;Shim K Public:A decision tree classi fi er that integrates building and pruning[J].1998.

[7]張偉,張素貞.粗糙決策樹(shù)生成方法及應(yīng)用[C].1999.

[8]石金彥,李旻辰,海燕.基于決策樹(shù)的數(shù)據(jù)挖掘方法在故障診斷中的應(yīng)用[J].水利電力機(jī)械,2006,28(4).

猜你喜歡
字段決策樹(shù)增益
圖書(shū)館中文圖書(shū)編目外包數(shù)據(jù)質(zhì)量控制分析
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
基于單片機(jī)的程控增益放大器設(shè)計(jì)
電子制作(2019年19期)2019-11-23 08:41:36
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
基于Multisim10和AD603的程控增益放大器仿真研究
電子制作(2018年19期)2018-11-14 02:37:02
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
CNMARC304字段和314字段責(zé)任附注方式解析
沙田区| 襄樊市| 确山县| 临沂市| 宜都市| 河北省| 小金县| 宜兰县| 南岸区| 二连浩特市| 永寿县| 乌拉特后旗| 武汉市| 辰溪县| 岚皋县| 依兰县| 姜堰市| 潜江市| 电白县| 孝感市| 长岛县| 宜黄县| 昌黎县| 麻栗坡县| 精河县| 威海市| 平山县| 济宁市| 海淀区| 灵宝市| 民丰县| 五指山市| 北票市| 增城市| 大厂| 望江县| 广元市| 仪陇县| 绥宁县| 瑞金市| 南阳市|