李榮華 張燕 黃俊 黃程成 莫盡友
摘要:隨著醫(yī)院信息系統(tǒng)(HIS)在全國各大醫(yī)院的推廣和應(yīng)用,會(huì)有大量和病人相關(guān)的臨床數(shù)據(jù)每天在醫(yī)院中記錄,而這些真實(shí)的數(shù)據(jù)隨著規(guī)模積累的增加,存在著對(duì)病人和醫(yī)生來說潛在、有價(jià)值的信息作用也會(huì)越來越大。本文會(huì)根據(jù)醫(yī)院信息系統(tǒng)(HIS),通過決策樹算法,針對(duì)疾病診斷的影響因子進(jìn)行預(yù)測分析,得出一個(gè)有效幫助診斷的分析模型,通過一段時(shí)間論證分析,該模型會(huì)在臨床應(yīng)用中有一定的指導(dǎo)作用。
關(guān)鍵詞:數(shù)據(jù)挖掘;疾病分類;醫(yī)療大數(shù)據(jù);決策樹算法
中圖分類號(hào):TP391.5 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)011-0004-02
1 引言
在醫(yī)療行業(yè),隨著醫(yī)院信息系統(tǒng) (HIS) 在全國各大醫(yī)院的逐步推廣和應(yīng)用,醫(yī)院每天產(chǎn)生大量與患者相關(guān)的臨床數(shù)據(jù), 這些數(shù)據(jù)的規(guī)模越來越大[1],而在這些真實(shí)的數(shù)據(jù)中有很多潛在的和有價(jià)值的信息,為患者和醫(yī)生。
有效利用這些真實(shí)的臨床數(shù)據(jù),尋找一些有價(jià)值的規(guī)律和信息,對(duì)于患者的治療和醫(yī)生的診斷是非常重要的。它不僅可以有效地輔助醫(yī)生的診斷、決策和治療,而且可以提高醫(yī)生的工作效率,從而提高醫(yī)院醫(yī)療服務(wù)的質(zhì)量和競爭。個(gè)人健康數(shù)據(jù)、醫(yī)療數(shù)據(jù)、人口健康數(shù)據(jù)。在個(gè)人健康數(shù)據(jù)方面,數(shù)據(jù)源主要是傳感器信息和在線信息。使用個(gè)人疾病數(shù)據(jù)可以幫助用戶更容易地實(shí)現(xiàn)健康管理和疾病管理。處理個(gè)人飲食和運(yùn)動(dòng)數(shù)據(jù)可以幫助用戶直觀地了解他們的身體狀況,并幫助他們保持健康。在醫(yī)學(xué)數(shù)據(jù)方面,數(shù)據(jù)源主要是醫(yī)學(xué)研究數(shù)據(jù)和電子案例數(shù)據(jù)。醫(yī)生無法跟上從這些數(shù)據(jù)中發(fā)現(xiàn)新的醫(yī)學(xué)知識(shí)并將其用于治療病人的速度, 而醫(yī)學(xué)可視化將為醫(yī)生提供直觀地理解新知識(shí)的機(jī)會(huì)。人口健康數(shù)據(jù)和疾病監(jiān)測數(shù)據(jù)可以幫助用戶了解人口的健康狀況和疾病爆發(fā)狀態(tài)通過可視化技術(shù) 。
總之,如何有效地利用這些真實(shí)的臨床數(shù)據(jù),并從中發(fā)現(xiàn)一些對(duì)病人治療和醫(yī)生診斷有價(jià)值的規(guī)律和信息十分關(guān)鍵,也是當(dāng)前醫(yī)學(xué)信息處理研究中一個(gè)亟待解決的難題。上述問題的解決不僅能有效地輔助醫(yī)生診斷、決策和治療,提高醫(yī)生的工作效率,進(jìn)而提高醫(yī)院的醫(yī)療服務(wù)質(zhì)量和競爭力。
2 相關(guān)內(nèi)容簡介
2.1研究背景
傳統(tǒng)醫(yī)生在診斷疾病預(yù)先通過對(duì)病人的基本情況的了解,包括病人年齡、狀態(tài)及一些基本的身體數(shù)據(jù)。然后根據(jù)以往的經(jīng)驗(yàn)對(duì)病人的病況進(jìn)行分析并得出病人所患病型,然后對(duì)病人進(jìn)行治療。若根據(jù)這些醫(yī)生仍然不能得出病況,或者病人在醫(yī)生初步治療后仍無明顯好轉(zhuǎn),則需要讓病人借助各種醫(yī)學(xué)儀器及影像檢驗(yàn)從而產(chǎn)生跟家準(zhǔn)確詳細(xì)的數(shù)據(jù)然后醫(yī)生利用這些數(shù)據(jù)并根據(jù)自己的經(jīng)驗(yàn)及醫(yī)學(xué)知識(shí)診斷出病人的病情并開出相應(yīng)的藥物。在這個(gè)工作過程的中,醫(yī)生的大腦就相當(dāng)于一個(gè)計(jì)算機(jī),而醫(yī)生做出的判斷則相當(dāng)于一系列算法及數(shù)據(jù)挖掘得出的結(jié)論。然而人腦的工作效率遠(yuǎn)不能和計(jì)算機(jī)相比,且只要計(jì)算機(jī)采用的算法足夠好,人腦的計(jì)算準(zhǔn)確率也不遠(yuǎn)低于計(jì)算機(jī)處理的準(zhǔn)確率。因此,傳統(tǒng)醫(yī)生的診斷方法在現(xiàn)在看來已經(jīng)具有一定的局限性,若能將這些病人的數(shù)據(jù)都交由計(jì)算機(jī)處理并結(jié)合醫(yī)生的醫(yī)學(xué)知識(shí)得出最后的病人的病情,這樣便大大增加了醫(yī)生的工作效率及診斷準(zhǔn)確率。
若醫(yī)院已經(jīng)建立并投入使用醫(yī)療大數(shù)據(jù)挖掘分析系統(tǒng),將患者的所有數(shù)據(jù)錄入大數(shù)據(jù)系統(tǒng),醫(yī)生在診斷疾病和給出治療方案時(shí),因?yàn)榇髷?shù)據(jù)系統(tǒng)的數(shù)據(jù)來自各種各樣,成千上萬或上百萬上千萬的病人,醫(yī)生即可以通過決策樹、K-鄰近等數(shù)據(jù)挖掘分析算法,獲得類似癥狀或疾病機(jī)理,病因以及治療方法,醫(yī)生就可以有更好更高的把握將疾病診斷和治療。
2.2決策樹算法簡介
決策樹算法是數(shù)據(jù)挖掘技術(shù)中一種常用的分類預(yù)測方法 .該算法以研究對(duì)象的屬性為基礎(chǔ),根據(jù)信息論的原理,通過多次遞歸的方式選擇信息增益量最大的屬性來作為決策樹的當(dāng)前節(jié)點(diǎn)(即最佳節(jié)點(diǎn)),在決策樹的構(gòu)建中,已經(jīng)使用過的屬性在決策樹不能再作為節(jié)點(diǎn)來使用,即研究對(duì)象的每個(gè)屬性在決策樹種當(dāng)且僅當(dāng)出現(xiàn)有一次。在構(gòu)建決議計(jì)劃樹的進(jìn)程中,遞歸進(jìn)程有三種終止情形[2]:
當(dāng)前節(jié)點(diǎn)對(duì)應(yīng)的所有研究對(duì)象都屬于同一類別。
沒有剩余屬性被用來進(jìn)一步對(duì)當(dāng)前研究對(duì)象進(jìn)行分類。
對(duì)應(yīng)于當(dāng)前節(jié)點(diǎn)的屬性值的研究對(duì)象數(shù)為 0。
目前建立決策樹的主要算法有 ID3 、 C4.5/car 等方法。ID3 學(xué)習(xí)算法是基于信息熵的下降和熟悉度 (也稱為信息不確定性) 作為選擇測試的標(biāo)準(zhǔn) 。C4.5 算法是由昆蘭自己提出的擴(kuò)大算法[3],是對(duì)算法的改良。C4.5 算法在收到新的訓(xùn)練示例后更新決策樹。分類回歸樹車是典型的二叉樹,主要用于分類研究。連續(xù)變量和分類變量可以同時(shí)處理 。
2.3研究方法
2.3.1 研究過程
構(gòu)建一個(gè)分類預(yù)測模型來解決實(shí)際的胸痛待診問題。該模型由三個(gè)子模塊組成:第一個(gè)子模塊主要作用是收集患者的基本信息數(shù)據(jù)(包括人口學(xué)資料、臨床發(fā)病癥狀、危險(xiǎn)因素、既往病史)。第二個(gè)子模塊是分類算法-K 近鄰和決策樹兩種常用的數(shù)據(jù)挖掘。通過算法進(jìn)行比較而得出適合與某一疾病的最優(yōu)算法,從而提高模型的整體性能。通過病人在醫(yī)院的醫(yī)治方案、并發(fā)癥、用藥得到的數(shù)據(jù)來預(yù)測病人出院后會(huì)不會(huì)發(fā)生嚴(yán)重的不良反應(yīng)。模型預(yù)測流程圖如圖1所示。
1) 預(yù)處理數(shù)據(jù),如清洗、校正和缺失值填充;
2) 根據(jù)病人信息建筑決策樹。添加病人檢驗(yàn)檢測數(shù)據(jù),用LASSO(Least absolute shrinkage and selection operator, LASSO)算法篩選特征向量為接下來建模做準(zhǔn)備[4];3) 構(gòu)建了主動(dòng)脈夾層分類的子模型 (包括 K 近鄰、決策樹兩種分類算法);
4)比較兩種分類算法,得到最適合主動(dòng)脈夾層分類的算法模型;
5)在醫(yī)院添加治療數(shù)據(jù)后,采用 LASSO 算法對(duì)特征向量進(jìn)行篩選,建立患者出院恢復(fù)狀態(tài)的子模型。
2.3.1數(shù)據(jù)準(zhǔn)備
本文所使用的數(shù)據(jù)來自醫(yī)院體檢系統(tǒng)的經(jīng)驗(yàn)報(bào)告數(shù)據(jù)。在對(duì)疾病診斷數(shù)據(jù)進(jìn)行匯總和數(shù)據(jù)泛化分析后,將疾病診斷數(shù)據(jù)進(jìn)行匯總,并采用概念層次結(jié)構(gòu)將低級(jí) “原始” 數(shù)據(jù)替換為高級(jí)概念。分析處理后數(shù)據(jù)主要包含15共15種疾病診斷,總共有6131個(gè)體檢報(bào)告實(shí)例,我們把每個(gè)實(shí)例的體檢項(xiàng)目作為這些實(shí)例的屬性,共有261個(gè)檢查項(xiàng)目如表1所示。
2.3.2分類方法
根據(jù)每個(gè)屬性的不同值的數(shù)量,屬性按降序排列。其結(jié)果如下(每個(gè)屬性的不同值數(shù)目在括號(hào)中):疾病診斷分類(17)、檢查項(xiàng)目(261)、檢查項(xiàng)目明細(xì)(3602)。根據(jù)排列順序,層從上到下生成,第一個(gè)是熟悉頂層 ,最后一個(gè)屬性是在底層[5]。結(jié)果分析如圖2所示。最后,用戶可以檢查結(jié)果分層,如果需要,修改它以反映所需屬性滿足的連接。在這個(gè)例子中,顯然不需要修改產(chǎn)生的分層。
對(duì)于單列屬性的二進(jìn)制拆分,選擇最小的 gtil 作為屬性列的合理劃分。而選擇作為節(jié)點(diǎn)的屬性列也要根據(jù)最小的Gini指標(biāo)判斷,其中Gini指標(biāo)是一種不等性的度量,可以用來度量任何不均勻分布,是介于0-1之間的數(shù);下面的算法根據(jù) Gini 指標(biāo)實(shí)現(xiàn)二進(jìn)制拆分時(shí),選擇屬性項(xiàng)的真正子集。通過系統(tǒng)計(jì)算出各個(gè)屬性值分布和總樣本中各個(gè)屬性取值分,得出相應(yīng)的治療意見,如針對(duì)本肥胖病人的治療選擇,根據(jù)訓(xùn)練樣本中肥胖病人的檢查情況,發(fā)現(xiàn)需要治療的數(shù)量小于不需要治療的數(shù)量;需要進(jìn)一步檢查的數(shù)量大于不應(yīng)進(jìn)一步檢查的數(shù)量。經(jīng)計(jì)算機(jī)預(yù)測的結(jié)果由總督察協(xié)助提供更合理的治療意見 。
3 總結(jié)
3.1要解決的主要問題
3.1.1如何從大量的積累數(shù)據(jù)中得到有意義的信息
醫(yī)院電子病歷 EMRs (電子病歷) 有更多的數(shù)據(jù)類型 ,免費(fèi)文本記錄從病人測試報(bào)告到電子病程[7], 這些數(shù)據(jù)構(gòu)成了構(gòu)建分類預(yù)測模型所需的變量。病人住院期間所積累的數(shù)據(jù)信息量大,需要從大量的積累數(shù)據(jù)中去除噪聲數(shù)據(jù)[8]以及對(duì)缺失值進(jìn)行適當(dāng)?shù)奶幚?,得到有意義的信息。
3.1.2如何選擇許多特征變量
由于不同的疾病對(duì)應(yīng)的危險(xiǎn)因素不同,所以不能對(duì)整體數(shù)據(jù)集應(yīng)用特征變量選擇方法來篩選特征向量,而是選擇出具體某一種疾病的對(duì)應(yīng)的重要特征來建立針對(duì)該疾病的分類模型。
對(duì)特征變量進(jìn)行降維的方法有很多。其中嶺回歸和LASSO分析是最可用的。
3.1.2如何處理樣本不均衡問題
例如,對(duì)于非創(chuàng)傷性胸痛疾病,主要類別是急性心肌梗死、心絞痛、主動(dòng)脈夾層等。不同類別的樣本量存在較大差異,數(shù)據(jù)不平衡導(dǎo)致模型分類預(yù)測的偏差。
針對(duì)具體疾病,如何對(duì)多種分類算法進(jìn)行比較并選出合適的算法 。
數(shù)據(jù)挖掘技術(shù)中的分類算法有 K 近鄰、樸素貝葉斯、支持向量機(jī)、決策樹、隨機(jī)森林等。每種分類算法的優(yōu)缺點(diǎn)不同,適應(yīng)的數(shù)據(jù)類型也不同。針對(duì)具體疾病,每種分類算法表現(xiàn)各不相同。分類猜測模子評(píng)價(jià)指數(shù)成果的優(yōu)勢(shì)直接影響算法的選擇。
3.2結(jié)論與展望
本文根據(jù)醫(yī)院HIS數(shù)據(jù),通過決策樹算法,針對(duì)疾病診斷的影響因子進(jìn)行分析預(yù)測,提出一個(gè)有效的輔助診斷分析模型,經(jīng)過時(shí)間論證分析,該模型在臨床應(yīng)用上有一定的指導(dǎo)作用。今后,有必要對(duì) HIS 中包含的醫(yī)學(xué)數(shù)據(jù)進(jìn)行深入的研究, 并應(yīng)用決議計(jì)劃樹剖析算法構(gòu)建醫(yī)學(xué)數(shù)據(jù)卷的聯(lián)系關(guān)系規(guī)矩,樹立了完美的數(shù)據(jù)剖析平臺(tái)。
參考文獻(xiàn):
[1]李?yuàn)^華, 趙潤林. 基于數(shù)據(jù)挖掘的疾病預(yù)測模型的構(gòu)建與分析[J]. 現(xiàn)代計(jì)算機(jī), 2016(18):14-17.
[2] 滕皓, 趙國毅, 韓保勝. 改進(jìn)決策樹的研究[J]. 濟(jì)南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2002, 16(3):231-233.
[3] 劉承啟, 黃學(xué)堅(jiān), 徐健鋒,等. 基于決策樹和粗糙集的高分辨率短時(shí)臨近雷電預(yù)報(bào)模型[J]. 南昌大學(xué)學(xué)報(bào)(理科版), 2014(6):559-563.
[4] 趙紫奉, 李韶斌, 孔抗美. 基于決策樹算法的疾病診斷分析[J]. 中國衛(wèi)生信息管理雜志, 2011, 08(5):67-69.
[5] 萬曉莉. 數(shù)據(jù)挖掘中的分類和預(yù)測及其在決策支持系統(tǒng)中的應(yīng)用研究[D]. 西南交通大學(xué), 2003.
[6] 馬麗, 陳桂芬. 基于數(shù)據(jù)挖掘的決策樹算法應(yīng)用研究[J]. 農(nóng)業(yè)網(wǎng)絡(luò)信息, 2008(11):45-47.
[7] 鄭西川, 孫宇, 陳霆,等. 基于醫(yī)療大數(shù)據(jù)分析的臨床電子病歷智能化研究[J]. 中國數(shù)字醫(yī)學(xué), 2016, 11(11):61-64.
[8] 馬秀紅, 宋建社, 董晟飛. 數(shù)據(jù)挖掘中決策樹的探討[J]. 計(jì)算機(jī)工程與應(yīng)用, 2004, 40(1):185-185.
【通聯(lián)編輯:聞翔軍】