基于數(shù)據(jù)挖掘的疾病分類預(yù)測模型的構(gòu)建

2019-05-24 14:13李榮華張燕黃俊黃程成莫盡友

電腦知識(shí)與技術(shù) 2019年11期

李榮華張燕黃俊黃程成莫盡友

摘要：隨著醫(yī)院信息系統(tǒng)（HIS）在全國各大醫(yī)院的推廣和應(yīng)用，會(huì)有大量和病人相關(guān)的臨床數(shù)據(jù)每天在醫(yī)院中記錄，而這些真實(shí)的數(shù)據(jù)隨著規(guī)模積累的增加，存在著對(duì)病人和醫(yī)生來說潛在、有價(jià)值的信息作用也會(huì)越來越大。本文會(huì)根據(jù)醫(yī)院信息系統(tǒng)（HIS），通過決策樹算法，針對(duì)疾病診斷的影響因子進(jìn)行預(yù)測分析，得出一個(gè)有效幫助診斷的分析模型，通過一段時(shí)間論證分析，該模型會(huì)在臨床應(yīng)用中有一定的指導(dǎo)作用。

關(guān)鍵詞：數(shù)據(jù)挖掘；疾病分類；醫(yī)療大數(shù)據(jù)；決策樹算法

中圖分類號(hào)：TP391.5 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2019）011-0004-02

1 引言

在醫(yī)療行業(yè)，隨著醫(yī)院信息系統(tǒng) （HIS）在全國各大醫(yī)院的逐步推廣和應(yīng)用，醫(yī)院每天產(chǎn)生大量與患者相關(guān)的臨床數(shù)據(jù)，這些數(shù)據(jù)的規(guī)模越來越大[1]，而在這些真實(shí)的數(shù)據(jù)中有很多潛在的和有價(jià)值的信息，為患者和醫(yī)生。

有效利用這些真實(shí)的臨床數(shù)據(jù)，尋找一些有價(jià)值的規(guī)律和信息，對(duì)于患者的治療和醫(yī)生的診斷是非常重要的。它不僅可以有效地輔助醫(yī)生的診斷、決策和治療，而且可以提高醫(yī)生的工作效率，從而提高醫(yī)院醫(yī)療服務(wù)的質(zhì)量和競爭。個(gè)人健康數(shù)據(jù)、醫(yī)療數(shù)據(jù)、人口健康數(shù)據(jù)。在個(gè)人健康數(shù)據(jù)方面，數(shù)據(jù)源主要是傳感器信息和在線信息。使用個(gè)人疾病數(shù)據(jù)可以幫助用戶更容易地實(shí)現(xiàn)健康管理和疾病管理。處理個(gè)人飲食和運(yùn)動(dòng)數(shù)據(jù)可以幫助用戶直觀地了解他們的身體狀況，并幫助他們保持健康。在醫(yī)學(xué)數(shù)據(jù)方面，數(shù)據(jù)源主要是醫(yī)學(xué)研究數(shù)據(jù)和電子案例數(shù)據(jù)。醫(yī)生無法跟上從這些數(shù)據(jù)中發(fā)現(xiàn)新的醫(yī)學(xué)知識(shí)并將其用于治療病人的速度，而醫(yī)學(xué)可視化將為醫(yī)生提供直觀地理解新知識(shí)的機(jī)會(huì)。人口健康數(shù)據(jù)和疾病監(jiān)測數(shù)據(jù)可以幫助用戶了解人口的健康狀況和疾病爆發(fā)狀態(tài)通過可視化技術(shù) 。

總之，如何有效地利用這些真實(shí)的臨床數(shù)據(jù)，并從中發(fā)現(xiàn)一些對(duì)病人治療和醫(yī)生診斷有價(jià)值的規(guī)律和信息十分關(guān)鍵，也是當(dāng)前醫(yī)學(xué)信息處理研究中一個(gè)亟待解決的難題。上述問題的解決不僅能有效地輔助醫(yī)生診斷、決策和治療，提高醫(yī)生的工作效率，進(jìn)而提高醫(yī)院的醫(yī)療服務(wù)質(zhì)量和競爭力。

2 相關(guān)內(nèi)容簡介

2.1研究背景

傳統(tǒng)醫(yī)生在診斷疾病預(yù)先通過對(duì)病人的基本情況的了解，包括病人年齡、狀態(tài)及一些基本的身體數(shù)據(jù)。然后根據(jù)以往的經(jīng)驗(yàn)對(duì)病人的病況進(jìn)行分析并得出病人所患病型，然后對(duì)病人進(jìn)行治療。若根據(jù)這些醫(yī)生仍然不能得出病況，或者病人在醫(yī)生初步治療后仍無明顯好轉(zhuǎn)，則需要讓病人借助各種醫(yī)學(xué)儀器及影像檢驗(yàn)從而產(chǎn)生跟家準(zhǔn)確詳細(xì)的數(shù)據(jù)然后醫(yī)生利用這些數(shù)據(jù)并根據(jù)自己的經(jīng)驗(yàn)及醫(yī)學(xué)知識(shí)診斷出病人的病情并開出相應(yīng)的藥物。在這個(gè)工作過程的中，醫(yī)生的大腦就相當(dāng)于一個(gè)計(jì)算機(jī)，而醫(yī)生做出的判斷則相當(dāng)于一系列算法及數(shù)據(jù)挖掘得出的結(jié)論。然而人腦的工作效率遠(yuǎn)不能和計(jì)算機(jī)相比，且只要計(jì)算機(jī)采用的算法足夠好，人腦的計(jì)算準(zhǔn)確率也不遠(yuǎn)低于計(jì)算機(jī)處理的準(zhǔn)確率。因此，傳統(tǒng)醫(yī)生的診斷方法在現(xiàn)在看來已經(jīng)具有一定的局限性，若能將這些病人的數(shù)據(jù)都交由計(jì)算機(jī)處理并結(jié)合醫(yī)生的醫(yī)學(xué)知識(shí)得出最后的病人的病情，這樣便大大增加了醫(yī)生的工作效率及診斷準(zhǔn)確率。

若醫(yī)院已經(jīng)建立并投入使用醫(yī)療大數(shù)據(jù)挖掘分析系統(tǒng)，將患者的所有數(shù)據(jù)錄入大數(shù)據(jù)系統(tǒng)，醫(yī)生在診斷疾病和給出治療方案時(shí)，因?yàn)榇髷?shù)據(jù)系統(tǒng)的數(shù)據(jù)來自各種各樣，成千上萬或上百萬上千萬的病人，醫(yī)生即可以通過決策樹、K-鄰近等數(shù)據(jù)挖掘分析算法，獲得類似癥狀或疾病機(jī)理，病因以及治療方法，醫(yī)生就可以有更好更高的把握將疾病診斷和治療。

2.2決策樹算法簡介

決策樹算法是數(shù)據(jù)挖掘技術(shù)中一種常用的分類預(yù)測方法 .該算法以研究對(duì)象的屬性為基礎(chǔ)，根據(jù)信息論的原理，通過多次遞歸的方式選擇信息增益量最大的屬性來作為決策樹的當(dāng)前節(jié)點(diǎn)（即最佳節(jié)點(diǎn)），在決策樹的構(gòu)建中，已經(jīng)使用過的屬性在決策樹不能再作為節(jié)點(diǎn)來使用，即研究對(duì)象的每個(gè)屬性在決策樹種當(dāng)且僅當(dāng)出現(xiàn)有一次。在構(gòu)建決議計(jì)劃樹的進(jìn)程中，遞歸進(jìn)程有三種終止情形[2]：

當(dāng)前節(jié)點(diǎn)對(duì)應(yīng)的所有研究對(duì)象都屬于同一類別。

沒有剩余屬性被用來進(jìn)一步對(duì)當(dāng)前研究對(duì)象進(jìn)行分類。

對(duì)應(yīng)于當(dāng)前節(jié)點(diǎn)的屬性值的研究對(duì)象數(shù)為 0。

目前建立決策樹的主要算法有 ID3 、 C4.5/car 等方法。ID3 學(xué)習(xí)算法是基于信息熵的下降和熟悉度（也稱為信息不確定性）作為選擇測試的標(biāo)準(zhǔn) 。C4.5 算法是由昆蘭自己提出的擴(kuò)大算法[3]，是對(duì)算法的改良。C4.5 算法在收到新的訓(xùn)練示例后更新決策樹。分類回歸樹車是典型的二叉樹，主要用于分類研究。連續(xù)變量和分類變量可以同時(shí)處理。

2.3研究方法

2.3.1 研究過程

構(gòu)建一個(gè)分類預(yù)測模型來解決實(shí)際的胸痛待診問題。該模型由三個(gè)子模塊組成：第一個(gè)子模塊主要作用是收集患者的基本信息數(shù)據(jù)（包括人口學(xué)資料、臨床發(fā)病癥狀、危險(xiǎn)因素、既往病史）。第二個(gè)子模塊是分類算法-K 近鄰和決策樹兩種常用的數(shù)據(jù)挖掘。通過算法進(jìn)行比較而得出適合與某一疾病的最優(yōu)算法，從而提高模型的整體性能。通過病人在醫(yī)院的醫(yī)治方案、并發(fā)癥、用藥得到的數(shù)據(jù)來預(yù)測病人出院后會(huì)不會(huì)發(fā)生嚴(yán)重的不良反應(yīng)。模型預(yù)測流程圖如圖1所示。

1）預(yù)處理數(shù)據(jù)，如清洗、校正和缺失值填充；

2）根據(jù)病人信息建筑決策樹。添加病人檢驗(yàn)檢測數(shù)據(jù)，用LASSO（Least absolute shrinkage and selection operator， LASSO）算法篩選特征向量為接下來建模做準(zhǔn)備[4]；3）構(gòu)建了主動(dòng)脈夾層分類的子模型（包括 K 近鄰、決策樹兩種分類算法）；

4）比較兩種分類算法，得到最適合主動(dòng)脈夾層分類的算法模型；

5）在醫(yī)院添加治療數(shù)據(jù)后，采用 LASSO 算法對(duì)特征向量進(jìn)行篩選，建立患者出院恢復(fù)狀態(tài)的子模型。

2.3.1數(shù)據(jù)準(zhǔn)備

本文所使用的數(shù)據(jù)來自醫(yī)院體檢系統(tǒng)的經(jīng)驗(yàn)報(bào)告數(shù)據(jù)。在對(duì)疾病診斷數(shù)據(jù)進(jìn)行匯總和數(shù)據(jù)泛化分析后，將疾病診斷數(shù)據(jù)進(jìn)行匯總，并采用概念層次結(jié)構(gòu)將低級(jí) “原始” 數(shù)據(jù)替換為高級(jí)概念。分析處理后數(shù)據(jù)主要包含15共15種疾病診斷，總共有6131個(gè)體檢報(bào)告實(shí)例，我們把每個(gè)實(shí)例的體檢項(xiàng)目作為這些實(shí)例的屬性，共有261個(gè)檢查項(xiàng)目如表1所示。

2.3.2分類方法

根據(jù)每個(gè)屬性的不同值的數(shù)量，屬性按降序排列。其結(jié)果如下（每個(gè)屬性的不同值數(shù)目在括號(hào)中）：疾病診斷分類（17）、檢查項(xiàng)目（261）、檢查項(xiàng)目明細(xì)（3602）。根據(jù)排列順序，層從上到下生成，第一個(gè)是熟悉頂層，最后一個(gè)屬性是在底層[5]。結(jié)果分析如圖2所示。最后，用戶可以檢查結(jié)果分層，如果需要，修改它以反映所需屬性滿足的連接。在這個(gè)例子中，顯然不需要修改產(chǎn)生的分層。

對(duì)于單列屬性的二進(jìn)制拆分，選擇最小的 gtil 作為屬性列的合理劃分。而選擇作為節(jié)點(diǎn)的屬性列也要根據(jù)最小的Gini指標(biāo)判斷，其中Gini指標(biāo)是一種不等性的度量，可以用來度量任何不均勻分布，是介于0-1之間的數(shù)；下面的算法根據(jù) Gini 指標(biāo)實(shí)現(xiàn)二進(jìn)制拆分時(shí)，選擇屬性項(xiàng)的真正子集。通過系統(tǒng)計(jì)算出各個(gè)屬性值分布和總樣本中各個(gè)屬性取值分，得出相應(yīng)的治療意見，如針對(duì)本肥胖病人的治療選擇，根據(jù)訓(xùn)練樣本中肥胖病人的檢查情況，發(fā)現(xiàn)需要治療的數(shù)量小于不需要治療的數(shù)量；需要進(jìn)一步檢查的數(shù)量大于不應(yīng)進(jìn)一步檢查的數(shù)量。經(jīng)計(jì)算機(jī)預(yù)測的結(jié)果由總督察協(xié)助提供更合理的治療意見。

3 總結(jié)

3.1要解決的主要問題

3.1.1如何從大量的積累數(shù)據(jù)中得到有意義的信息

醫(yī)院電子病歷 EMRs （電子病歷）有更多的數(shù)據(jù)類型，免費(fèi)文本記錄從病人測試報(bào)告到電子病程[7]，這些數(shù)據(jù)構(gòu)成了構(gòu)建分類預(yù)測模型所需的變量。病人住院期間所積累的數(shù)據(jù)信息量大，需要從大量的積累數(shù)據(jù)中去除噪聲數(shù)據(jù)[8]以及對(duì)缺失值進(jìn)行適當(dāng)?shù)奶幚?，得到有意義的信息。

3.1.2如何選擇許多特征變量

由于不同的疾病對(duì)應(yīng)的危險(xiǎn)因素不同，所以不能對(duì)整體數(shù)據(jù)集應(yīng)用特征變量選擇方法來篩選特征向量，而是選擇出具體某一種疾病的對(duì)應(yīng)的重要特征來建立針對(duì)該疾病的分類模型。

對(duì)特征變量進(jìn)行降維的方法有很多。其中嶺回歸和LASSO分析是最可用的。

3.1.2如何處理樣本不均衡問題

例如，對(duì)于非創(chuàng)傷性胸痛疾病，主要類別是急性心肌梗死、心絞痛、主動(dòng)脈夾層等。不同類別的樣本量存在較大差異，數(shù)據(jù)不平衡導(dǎo)致模型分類預(yù)測的偏差。

針對(duì)具體疾病，如何對(duì)多種分類算法進(jìn)行比較并選出合適的算法。

數(shù)據(jù)挖掘技術(shù)中的分類算法有 K 近鄰、樸素貝葉斯、支持向量機(jī)、決策樹、隨機(jī)森林等。每種分類算法的優(yōu)缺點(diǎn)不同，適應(yīng)的數(shù)據(jù)類型也不同。針對(duì)具體疾病，每種分類算法表現(xiàn)各不相同。分類猜測模子評(píng)價(jià)指數(shù)成果的優(yōu)勢(shì)直接影響算法的選擇。

3.2結(jié)論與展望

本文根據(jù)醫(yī)院HIS數(shù)據(jù)，通過決策樹算法，針對(duì)疾病診斷的影響因子進(jìn)行分析預(yù)測，提出一個(gè)有效的輔助診斷分析模型，經(jīng)過時(shí)間論證分析，該模型在臨床應(yīng)用上有一定的指導(dǎo)作用。今后，有必要對(duì) HIS 中包含的醫(yī)學(xué)數(shù)據(jù)進(jìn)行深入的研究，并應(yīng)用決議計(jì)劃樹剖析算法構(gòu)建醫(yī)學(xué)數(shù)據(jù)卷的聯(lián)系關(guān)系規(guī)矩，樹立了完美的數(shù)據(jù)剖析平臺(tái)。

參考文獻(xiàn)：

[1]李?yuàn)^華，趙潤林. 基于數(shù)據(jù)挖掘的疾病預(yù)測模型的構(gòu)建與分析[J]. 現(xiàn)代計(jì)算機(jī)， 2016（18）：14-17.

[2] 滕皓，趙國毅，韓保勝. 改進(jìn)決策樹的研究[J]. 濟(jì)南大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2002， 16（3）：231-233.

[3] 劉承啟，黃學(xué)堅(jiān)，徐健鋒，等. 基于決策樹和粗糙集的高分辨率短時(shí)臨近雷電預(yù)報(bào)模型[J]. 南昌大學(xué)學(xué)報(bào)（理科版）， 2014（6）：559-563.

[4] 趙紫奉，李韶斌，孔抗美. 基于決策樹算法的疾病診斷分析[J]. 中國衛(wèi)生信息管理雜志， 2011， 08（5）：67-69.

[5] 萬曉莉. 數(shù)據(jù)挖掘中的分類和預(yù)測及其在決策支持系統(tǒng)中的應(yīng)用研究[D]. 西南交通大學(xué)， 2003.

[6] 馬麗，陳桂芬. 基于數(shù)據(jù)挖掘的決策樹算法應(yīng)用研究[J]. 農(nóng)業(yè)網(wǎng)絡(luò)信息， 2008（11）：45-47.

[7] 鄭西川，孫宇，陳霆，等. 基于醫(yī)療大數(shù)據(jù)分析的臨床電子病歷智能化研究[J]. 中國數(shù)字醫(yī)學(xué)， 2016， 11（11）：61-64.

[8] 馬秀紅，宋建社，董晟飛. 數(shù)據(jù)挖掘中決策樹的探討[J]. 計(jì)算機(jī)工程與應(yīng)用， 2004， 40（1）：185-185.

【通聯(lián)編輯：聞翔軍】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于數(shù)據(jù)挖掘的疾病分類預(yù)測模型的構(gòu)建