李 鵬 尹 艷 劉 偉
(1.湖南中醫(yī)藥大學信息科學與工程學院 長沙 410208)(2.湖南文理學院招生就業(yè)處 常德 415000)
臨床路徑(Clinical Pathway,CP)是針對某一單病種的診療流程等所制定的標準化的臨床診療模式,是有嚴格工作程序和準確時間要求的規(guī)范化醫(yī)療診療過程[1]。CP 作為一種全新的醫(yī)療護理模式應用于臨床,不僅能提高醫(yī)院的社會和經濟效益,而且可以提高醫(yī)療服務質量、降低住院費用、縮短住院時間、提高滿意度和改善醫(yī)患關系等[2~3]。
為實現醫(yī)院的信息化、科學化、數字化和精細化管理,需要提高對醫(yī)療數據的分析、處理和預測能力,從醫(yī)療數據中挖掘出更有價值的信息,為醫(yī)院的科學決策提供更好的信息化支持。而數據挖掘技術是在大數據時代背景下進行醫(yī)療數據處理和挖掘分析的最有力手段[4]。數據挖掘又稱為知識發(fā)現,是指從模糊的、有噪聲的、離散的海量數據中發(fā)現我們肉眼無法識別的、隱藏的、有價值的知識,預測未來趨勢及行為,及甄別不符合隱含規(guī)則的異常行為[5~6]。臨床路徑來源于臨床診療活動的實踐過程,是隱藏在醫(yī)院信息系統(tǒng)海量數據中的病種普遍治療模式。因此結合數據挖掘技術對醫(yī)院信息系統(tǒng)的海量數據進行分析,可以制定出一種符合診療規(guī)范的、科學的、合理的臨床路徑[7~10]。
本文從臨床行為的角度出發(fā),利用免疫算法[11]搜索速度快和求解精度高等優(yōu)點,結合數據挖掘技術在疾病診斷治療、臨床合理用藥和單病種費用控制等方面取得良好的成果[12~14],提出了一種基于免疫算法的醫(yī)療臨床路徑挖掘方案(Medical Clinical Pathway Mining Scheme based on Immune Algorithm,MCPM-IA)。該算法通過對臨床診療過程中發(fā)生的行為進行分析,用數據挖掘技術來構建臨床診療行為模式,制定符合診療規(guī)范的臨床路徑,并將其應用于臨床診療活動,從而能進一步規(guī)范醫(yī)院診療行為。
在臨床診療過程中,臨床行為是有序的序列,臨床行為序列的關聯規(guī)則可以描述為。該 規(guī) 則 蘊 含的意思是在診療過程中,總是已經發(fā)生了的臨床行為之后,又進行了診療行為。
在數據挖掘過程中,最基本的模式是項集,它是指若干個項的集合。在生成的臨床序列數據中,每個項集都具備各自的開始和結束時間屬性[15]。它們可以表示為其中,ei為項集,ei=<i1,i2,…,ik>,bi為項集開始時間,ei為項集結束時間。
為了更好地對臨床行為的數據序列建立數學模型,假設臨床行為序列事務數據庫為D,每一個臨床行為序列表示為事務TID,臨床行為序列表示為s=<e1,e2,…,en>,ei表示同時發(fā)生的行為集合support(s),其中ik指某一種臨床診療行為。根據臨床診療行為序列數據主要結構特征,本文給出如下的相關定義:
定義1支持度給定一個臨床行為序列s,在數據集D 中包含序列s 的事務個數稱之為序列s 的支持度,記為support(s)。
定義2可信度給定數據集D 的兩個不同序列conf(s1,s2),如果這兩個序列的支持度值都大于預先設定的閾值,則可信度conf(s1,s2)為
定義3親和度 如果序列關聯規(guī)則conf(s1,s2)的支持度和可信度分別表示為conf(s1,s2) 和support(s),則親和度為
定義4關聯規(guī)則 當且僅當conf(s1,s2)≥mconf時,序列s1,s2構成一條序列關聯規(guī)則s1→s2。mconf 是序列事務數據庫D 預先設定的最小可信度閾值。
定義5序列模式給定序列事務數據庫D,序列s 和最小支持度的閾值為msup 。 如果support(s)≥msup,則稱s 為頻繁的序列模式。
根據上述定義,本文要研究的問題可以描述為如何從醫(yī)療數據中抽取歷史執(zhí)行路徑,客觀反映數據中實際存在的醫(yī)療模式。
診療過程對于醫(yī)療質量至關重要。臨床路徑集合了各種醫(yī)療知識,是對診療過程進行標準化的重要途徑。然而,當前大多數臨床路徑由專家研討制定,往往靜態(tài)不變,難以部署和實施[16]。而免疫算法則可以彌補目前相關的臨床路徑制定方法存在的不足,客觀且動態(tài)地預測新病人的診療路徑。免疫算法[11]是一種基于迭代過程的群智能搜索算法,在臨床診斷、智能控制和異常檢測等領域都有著廣泛的應用。它的基本流程包括:
Step1 隨機產生初始父代種群X1,根據先驗知識抽取疫苗;
Step2 若當前群體中包含最佳個體,則算法停止運行并輸出結果;否則,繼續(xù);
Step3 對當前第k 代父本種群Xk進行交叉操作,得到種群Yk;
Step4 對Yk進行變異操作,得到種群Zk;
Step5 對Zk進行接種疫苗操作,得到種群Wk;
Step6 對Wk進行免疫選擇操作,得到新一代父本Xk+1,轉至Step2。
本文以免疫算法為基礎,提出了一種新穎的臨床路徑挖掘算法(MCPM-IA)。該算法采用實數編碼的方式,每一種臨床行為序列表示為一個染色體串。首先,本文對醫(yī)療數據進行預處理:在醫(yī)院信息數據庫中,原始數據中存在著大量的與最終挖掘不相關的屬性,每一條記錄都包含患者標識、基本信息、病癥、臨床診療行為等繁多屬性,如表1 所示。
表1 原始醫(yī)療數據
為了提高數據挖掘的質量和效率,本文采用主成分分析法[17]和反向特征消除法[18]對原始的臨床醫(yī)學數據進行歸約和降維處理。然后將病人的姓名、年齡等基本信息存儲到臨床診療行為數據庫中,生成一個完整的記錄病人的醫(yī)學診斷和治療信息情況的數據庫。對臨床診療過程中發(fā)生的行為進行抽取,可以得到臨床行為序列事務數據庫D,表2 顯示的是經過數據預處理后的臨床診斷序列表。
表2 臨床診斷序列表
在對原始醫(yī)療數據預處理完成之后,下面詳細地給出了MCPM-IA算法的實現過程,如下所示。
算法1:MCPM-IA算法
輸入:臨床行為序列事務數據庫D
輸出:頻繁項集L
Step1.初始化MCPM-IA 算法的參數,設置支持度閾值msup,可信度閾值mconf 。將數據集中的每條記錄進行實數編碼,作為算法的初始抗體群;
Step2.評估抗體群中每個抗體的親和度值;
Step3.將抗體群中親和度最大的抗體進行克隆操作;
Step4. 根據給定的交叉概率,隨機從抗體群中選擇兩個抗體,執(zhí)行兩點交叉操作;
Step5. 執(zhí)行選擇操作,保留支持度和可信度分別大于支持度閾值和可信度閾值的抗體,產生頻繁k 項集的集合Lk;
Step6.如果兩個項集Lk-1與前面的Lk-2相同,而最后一項不同,則將這樣的兩個Lk-1進行連接后得到候選k-項集的集合Ck;
Step7.對候選k-項集的集合Ck進行剪枝,從Ck中刪除所有不包含Ck-1的事務,根據用戶給定的支持度閾值msup 生成Lk+1;
Step8. 如果Lk為空,算法結束并執(zhí)行step 9;否則,跳轉到step 2;
Step9.從包含項數最多的頻繁項集的集合Lmax開始依次遞減直到L2為止執(zhí)行循環(huán)操作。在每次循環(huán)中,對Lk(2 ≤k ≤max)的每個元素lk~lk-1中找子集lk-1,如果找到子集,并且,則提取該規(guī)則,并輸出頻繁項集L。
以某三甲醫(yī)院的信息數據庫產生的臨床行為序列事務數據庫為實驗對象,將本文提出的MCPM-IA算法與目前較為典型的Apriori算法[19]和CSA(Clonal Selection Algorithm)算法[20]進行了仿真對比。實驗中相關參數配置如下:交叉概率pm=0.8 ,支持度閾值msup=0.68 和可信度閾值mconf=0.12。實驗環(huán)境如下。
實驗結果如圖1~4所示。
圖1 給出了在不同可信度時三種算法挖掘的關聯規(guī)則數目比較結果。從圖1 中可以看到,隨著可信度不斷提高,三種算法挖掘的關聯規(guī)則數目逐漸減少。在絕大多數情況下,CSA算法與Apriori算法的性能都比較接近,而本文設計的MCPM-IA 算法挖掘的性能優(yōu)勢非常明顯,其挖掘的關聯規(guī)則數目在任何情況下都是最多的。
圖1 不同可信度時三種算法挖掘關聯規(guī)則數目比較
圖2 不同支持度時三種算法挖掘關聯規(guī)則數目比較
圖2 給出了在不同支持度時三種算法挖掘的關聯規(guī)則數目比較結果。從圖2 中可以看到,隨著支持度不斷提高,三種算法挖掘的關聯規(guī)則數目逐漸減少。在絕大多數情況下,本文設計的MCPM-IA 算法挖掘的關聯規(guī)則數目都是最多的,并且遞減的幅度最平緩。
圖3 三種算法的查準率比較
圖3 給出了三種算法的查準率比較結果。從圖3 中可以看到,本文設計的MCPM-IA 算法隨著進化代數的深入,其挖掘的準確率迅速提高,并明顯高于其他兩種算法。Apriori 算法的整體性能表現的相對不如CSA 算法。MCPM-IA 算法的查準率最高值接近97.6%,而Apriori 算法和CSA 算法的查準率最高值分別只有89.2%和92.1%。仔細分析其原因可知,這是由于MCPM-IA 算法在迭代過程中加入了親和度和支持度的評估,提高了免疫算法中交叉和選擇操作的可靠性,進而保證了臨床路徑挖掘的質量。
圖4 三種算法的查全率比較
圖4 給出了三種算法的查全率比較結果。從圖4 中可以看到,本文設計的MCPM-IA 算法的整體性能明顯優(yōu)于Apriori 算法和CSA 算法,MCPM-IA 算法的查全率最高值接近91.9%。綜上所述,通過圖1~4 的實驗結果不難得出以下結論:本文設計的MCPM-IA 算法在挖掘關聯規(guī)則數目、準確率和查全率等方面都明顯優(yōu)于CSA 和Apriori算法,可應用于目前大多數臨床醫(yī)療路徑挖掘場景中,能進一步規(guī)范醫(yī)院診療行為。
通過數據挖掘技術,對醫(yī)院信息系統(tǒng)的數據進行分析,有利于病種質量、成本費用控制以及診療行為規(guī)范,可以制定出符合臨床診療規(guī)范的臨床路徑。文中提出一種基于免疫算法的醫(yī)療臨床路徑挖掘算法,從醫(yī)院現有的海量數據中挖掘出相適應的臨床路徑,能有效縮減其制定的時間和費用,為醫(yī)院的臨床路徑發(fā)展提供一種新的技術支持和途徑。在今后的研究過程中,將結合不同病種的診斷治療和臨床合理用藥案例,設計和制定更加合理規(guī)范的臨床路徑。