易三莉 楊靜 姚旭升 謝穎夫 賀建峰
摘 要:使用HITON-PC算法分析某甲級醫(yī)院2015年住院首案中記錄的非胰島素依賴型糖尿病及其它協(xié)同疾病之間是否存在因果性。HITON-PC算法是一種運用條件獨立性檢驗處理高維數(shù)據(jù)的因果分析算法,將其應(yīng)用于醫(yī)學(xué)數(shù)據(jù)挖掘中,能高效得出變量之間的因果關(guān)系。非胰島素依賴型糖尿病與冠狀動脈粥樣硬化、高血脂、高血壓、高血壓II期和高血壓III期之間有著因果關(guān)系。通過因果關(guān)系分析,可以很好地從大量臨床數(shù)據(jù)中發(fā)現(xiàn)疾病間的潛在因果性,為相關(guān)疾病的臨床診斷提供輔助,具有很強的實用性。
關(guān)鍵詞:數(shù)據(jù)挖掘;HITON-PC;因果關(guān)系
DOI:10.11907/rjdk.172708
中圖分類號:TP391
文獻標識碼:A 文章編號:1672-7800(2018)004-0188-03
Abstract:HITON-PC is an algorithm of causal analysis, and it is used to analyze the causal relationship between non-insulin dependent diabetes mellitus(NIDDM) and its cooperative diseases in the medical record data; it is also an algorithm of causal analysis which conducts high-dimensional data employed conditional independence test. HITON-PC is applied in medical data mining and it can effectively determine the causality between variables in medical data mining. There are a lot of causal relationships among NIDDM, hyperlipidemia and hypertension. Causality analysis is a good way to detect the potential causality between diseases from a large amount of clinical data.It can provide an auxiliary method for the clinical diagnosis of related diseases and plays a practical role in medical data mining.
Key Words:data mining; HITON-PC; causal relationship
0 引言
近年來,大數(shù)據(jù)已成為科技界和企業(yè)界關(guān)注的熱點,其可對數(shù)量巨大的數(shù)據(jù)作搜索、比較、聚類和分類等分析歸納,找出數(shù)據(jù)之間的關(guān)聯(lián)性。相關(guān)分析的目的是找出數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng)(關(guān)聯(lián)網(wǎng)),一般用支持度、可信度和興趣度等參數(shù)反映相關(guān)性[1]。大數(shù)據(jù)分析具有較高的容錯性,其目的在于發(fā)現(xiàn)整體數(shù)據(jù)中某些指標之間的相關(guān)性,然后用分析結(jié)論改善因果關(guān)系分析的前提假設(shè),并運用大數(shù)據(jù)分析具有的預(yù)測功能解決現(xiàn)實社會中的實際應(yīng)用問題[2]。
因果關(guān)系闡釋了事物間的本質(zhì)聯(lián)系,在日常生活中,人們更多依靠經(jīng)驗判定事物間的因果關(guān)系,比如抽煙會導(dǎo)致肺癌。雖然目前因果關(guān)系還沒有一個能被廣泛接受的嚴格定義,對其到底是客觀世界本身的屬性,還是人的意識為理解世界而創(chuàng)造出來的主觀概念,人們還未達成共識。但隨著大數(shù)據(jù)時代的來臨,人們依然希望能從已有數(shù)據(jù)中客觀分析事物間的因果關(guān)系[3]。如何利用已有信息判定事物間的因果關(guān)系是科學(xué)領(lǐng)域的一個基本問題,
HITON-PC即是一個經(jīng)典的因果分析方法,它能高效地分析高維數(shù)據(jù)的因果性[4]。
1 HITON-PC
1.1 HITON-PC算法概念
HITON-PC基于因果馬爾可夫假設(shè)發(fā)現(xiàn)變量間的因果關(guān)系,應(yīng)用條件獨立性測試識別出變量間的強關(guān)聯(lián)與持久關(guān)聯(lián)。該算法可靠性的關(guān)鍵在于完全覆蓋條件獨立性測試,使持續(xù)的關(guān)聯(lián)性可以被正確識別。然而,進行所有條件獨立測試通常是不可行的,因為其運算量較大、效率低。因此,約束算法設(shè)計的一個主要目標就是減少條件獨立性測試數(shù)量,同時生成可靠結(jié)果。HITON-PC即作為一種約束算法被提出,該算法可運用隊列的方法減少條件獨立性測試數(shù)量[5]。
1.2 HITON-PC算法實現(xiàn)步驟
HITON-PC算法步驟如下:
輸入:集合D,用于存儲預(yù)測變量集X={X1,X2,… ,Xm}和目標Z;maxkα為條件獨立測試的顯著性水平。
輸出:集合PC,由Z的雙親和孩子組合{X1,X2,… ,Xm}的子集。
1:let PC=
2:let OPEN包含與Z相關(guān)的變量
3:while OPEN≠ do
4:從OPEN中移除第一個變量X
5:將X插入到PC的最后
6:for每個SPC\\{X} and S≤maxk do
7: if X和Z在顯著水平α下獨立于給定的S then
8: 從PC 中移除X并且回到while循環(huán)
9: end if
10:end for
11:end while
12:對于每個在PC中的變量X do
13:for 每個 SPC\\{X}和SPC
14: if X和Z在顯著水平α下獨立于給定的S then
15:從 PC 中移除 X
16: end if
17:end for
18:end while
19:output PC
(1)最初PC集為空(行1),創(chuàng)建OPEN列表用于保存與目標變量Z(行2)相關(guān)的預(yù)測變量。OPEN中的變量根據(jù)關(guān)聯(lián)強度以降序排序,隊列總是移除第一個變量(其在當前OPEN隊列中具有最高的關(guān)聯(lián)強度)。因此,OPEN作為優(yōu)先隊列運行。
(2)排序的目的是盡可能包括PC集合中會成為雙親或孩子的變量,以便算法可以更早且有效地修剪其它變量。HITON-PC利用預(yù)測變量與Z之間的關(guān)聯(lián)強度作為第一準則,與Z相關(guān)性高的變量排名將靠前。另一個準則是判斷預(yù)測變量和Z之間的條件依賴強度[6]。給定一對變量,這對變量有很多條件用來測試條件依賴性,并且使用最小依賴度排序。文獻[5]、[7]中的關(guān)聯(lián)強度即是一個簡單而有效的標準。
(3)在初始化階段之后,算法將包含和消除策略交織到OPEN隊列中的變量,以達到擴展PC集的效果(行3~11)。
(4)在while循環(huán)的每次迭代期間,OPEN隊列前的變量被刪除后保存在PC集中(行4和5),然后消除步驟(行6~10)立即測試新添加的變量X是否獨立于當前給定PC列表中的目標變量。一旦發(fā)現(xiàn)X與給定PC子集(不包括X)的目標變量無關(guān),則從PC集中消除X,并且開始新的迭代。如果在PC隊列中的每個子集小于或等于maxk變量,則X依賴于目標變量,且暫時保持在PC集中。
(5)當OPEN為空時,HITON-PC再次執(zhí)行消除步驟,但此時要判斷PC集中的每個變量是否滿足條件(行12~18)。也即是說,對于當前PC集的每個變量X,如果有子集S,子集S儲存小于maxk的變量,則符合條件變量,X獨立于目標變量將會從PC集中消除;如果X不存在這樣的子集,則X將永久保持在PC集中。注意,在該步驟期間,調(diào)節(jié)集合SPC\\{X},但SPC 2 HITON-PC復(fù)雜性 在HTION-PC算法中,花費的時間可大致分為兩部分:①初始化時間(行2);②在while與for循環(huán)中進行的條件獨立性測試時間。 3 HITON-PC算法在醫(yī)學(xué)數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用 3.1 醫(yī)學(xué)數(shù)據(jù)挖掘 醫(yī)學(xué)數(shù)據(jù)挖掘是計算機技術(shù)、人工智能、統(tǒng)計學(xué)等與現(xiàn)代醫(yī)療相結(jié)合的產(chǎn)物,也是提高醫(yī)療服務(wù)質(zhì)量和醫(yī)院管理水平的需要,具有廣闊的應(yīng)用前景。與僅限于某一專項領(lǐng)域知識的醫(yī)療專家系統(tǒng)不同,醫(yī)學(xué)數(shù)據(jù)挖掘面向整個醫(yī)學(xué)數(shù)據(jù)庫或醫(yī)學(xué)信息集合提供知識和決策,是醫(yī)療決策支持系統(tǒng)的重要組成部分[8]。將數(shù)據(jù)挖掘理論應(yīng)用于醫(yī)學(xué),通過對海量醫(yī)學(xué)數(shù)據(jù)進行分析,總結(jié)各種醫(yī)治方案的療效,提取隱含其中的有價值的信息,可更好地為醫(yī)院的決策管理、醫(yī)療、科研和教學(xué)服務(wù),對于醫(yī)生明確診斷、病患治療以及疾病研究等都具有極其重要的意義[9]。 3.2 數(shù)據(jù)來源 數(shù)據(jù)源:2015年某三甲醫(yī)院住院部首案的數(shù)據(jù),提取出“主要診斷”中患有2型糖尿病疾病類型的個案,總共3 724例。疾病編碼是依據(jù)國際疾病分類進行編碼的,疾病名稱有很多,在本次分析中只選取疾病數(shù)量大于300的疾病種類。 分析字段:“病案號”、“疾病編碼”、“主要診斷”、“疾病編碼1”、“其它診斷”、“疾病編碼2”、“其它診斷2”、“疾病編碼3”…… 3.3 分析結(jié)果 分析環(huán)境:本文數(shù)據(jù)首先在IBM SPSS Statistics、IBM SPSS Modeler中進行數(shù)據(jù)預(yù)處理,然后將清洗后的數(shù)據(jù)納入數(shù)據(jù)分析軟件R Studio建模實現(xiàn)。 分析目的:分析2型糖尿病的協(xié)同疾病與2型糖尿病是否有因果關(guān)系。 數(shù)據(jù)經(jīng)過HITON-PC算法分析之后,實驗結(jié)果如表1所示。其中0為預(yù)測變量與目標變量之間沒有因果關(guān)系,1為預(yù)測變量與目標變量之間有因果關(guān)系。 整理結(jié)果可知,2型糖尿病與冠狀動脈粥樣硬化、高血脂、高血壓II期、高血壓III期有因果關(guān)系。 變量之間的關(guān)系如圖1所示,該圖能全面反映出各變量之間的因果關(guān)系。 4 結(jié)語 數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展為人們的生活帶來了巨大便利,數(shù)據(jù)挖掘技術(shù)也被越來越多行業(yè)采用,并取得了很好的效果。HITON-PC算法是一種運用條件獨立性檢驗處理高維數(shù)據(jù)的因果分析算法,將其應(yīng)用于醫(yī)學(xué)數(shù)據(jù)挖掘中,能高效得出變量之間的因果關(guān)系,從而發(fā)現(xiàn)疾病間的潛在因果性,為相關(guān)疾病的臨床診斷提供輔助。隨著理論研究的不斷深入,數(shù)據(jù)挖掘技術(shù)在疾病診斷和治療、醫(yī)學(xué)科研與教學(xué)以及醫(yī)院管理等方面必將發(fā)揮越來越重要的作用。 參考文獻: [1] 李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(6):647-657. [2] 孫海龍,于劍光.大數(shù)據(jù)環(huán)境下相關(guān)關(guān)系分析改善因果關(guān)系分析[J].科技展望,2016,26(20):12. [3] Pearl J. Causality: models, reasoning,and inference[M]. England:Cambridge University Press,2000. [4] ALIFERIS C F, STATNIKOV A, TSAMARDINOS I, et al. Local causal and Markov blanket induction for causal discovery and feature selection for classification Part I: algorithms and empirical evaluation[J]. Journal of Machine Learning Research,2010(11):171-234. [5] LI J, LIU L, LE T D. Practical approaches to causal relationship exploration[J].Springerbriefs in Electrical and Computer Engineering,2015,35(1):13-24. [6] TSAMARDINOS I, BROWN L E, ALIFERIS C F. The max-min hill-climbing Bayesian network[J].structure learning algorithm. Machine Learning,2006,65(1):31-78. [7] ALIFERIS C F, STATNIKOV A, TSAMARDINOS I, et al. Local causal and Markov blanket induction for causal discovery and feature selection for classification part II:analysis and extensions[J]. Journal of Machine Learning Research,2010(11):235-284. [8] 朱凌云,吳寶明,曹長修.醫(yī)學(xué)數(shù)據(jù)挖掘的技術(shù)、方法及應(yīng)用[J].生物醫(yī)學(xué)工程學(xué)雜志,2003,20(3):559-562. [9] 汪菊琴.醫(yī)學(xué)數(shù)據(jù)挖掘綜述[J].電腦知識與技術(shù),2011,7(15):3495-3497. (責任編輯:黃 ?。?/p>