劉新宇
摘要:文章論述了關(guān)聯(lián)規(guī)則以及貝葉斯算法在醫(yī)院住院患者逃費預(yù)測分析中的實現(xiàn)原理及應(yīng)用,闡述了屬性權(quán)重分析方法、分類分析進行逃費預(yù)測的實現(xiàn)。
關(guān)鍵詞:商業(yè)智能;貝葉斯算法;關(guān)聯(lián)規(guī)則;醫(yī)院信息系統(tǒng)。
一、引言
醫(yī)院的信息化建設(shè)在商業(yè)智能領(lǐng)域?qū)儆诔跫夒A段,商業(yè)智能針對醫(yī)院信息系統(tǒng)中所產(chǎn)生的龐大數(shù)據(jù),通過BI所提供的各種強大的分析功能進行多角度、多層次的分析,為醫(yī)院的科學(xué)管理和科學(xué)決策提供有價值的信息資源,真正實現(xiàn)醫(yī)院全方位智能化管理,這將是醫(yī)院信息化的大勢所趨。
二、需求分析
從業(yè)務(wù)發(fā)展角度看,醫(yī)院作為救死扶傷的機構(gòu)承擔(dān)著治病救人的社會職責(zé)。但另一方面,作為經(jīng)營性實體,醫(yī)療機構(gòu)同時也要對就診者收費。由于種種原因,不少醫(yī)院不同程度地面臨著各式各樣的欠逃費現(xiàn)象,醫(yī)療收費難成為不少醫(yī)院的隱痛,為此本文將通過數(shù)據(jù)挖掘技術(shù)實現(xiàn)逃費分析預(yù)測模型,這是解決這些問題的第一步??v觀醫(yī)院歷年來的逃費記錄來看,每年都有大量的逃費患者,包括急診救治、住院、術(shù)后等各種狀況,在現(xiàn)有醫(yī)療體制的大環(huán)境下,對逃費概率較高的患者需要多加關(guān)注,從管理的層面盡可能地將逃費的現(xiàn)狀在一定程度上改善。逃費預(yù)測分析主要應(yīng)用思路就是基于現(xiàn)有的醫(yī)院信息系統(tǒng)歷年的數(shù)據(jù),采用數(shù)據(jù)挖掘模型的關(guān)聯(lián)規(guī)則從多方位、多角度形成出逃費的模型,并據(jù)此模型對現(xiàn)有住院患者進行逃費分析,并將分析結(jié)果提供給護士以及相應(yīng)管理人員,提供管理依據(jù)。
三、設(shè)計方案
(一)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘
數(shù)據(jù)倉庫是一種管理技術(shù),它將分布在企業(yè)中的異構(gòu)數(shù)據(jù)集成在一起,實現(xiàn)數(shù)據(jù)的采集、歸納和處理,使醫(yī)院的業(yè)務(wù)工作環(huán)境和信息分析環(huán)境相分離,為數(shù)據(jù)挖掘的應(yīng)用奠定基礎(chǔ)。把異構(gòu)的數(shù)據(jù)抽取、清理、轉(zhuǎn)載和更新到數(shù)據(jù)倉庫中,是醫(yī)院數(shù)據(jù)挖掘應(yīng)用的基礎(chǔ)。
(二)建立逃費影響因素的關(guān)聯(lián)模型
1、數(shù)據(jù)準備和屬性權(quán)重分析。數(shù)據(jù)準備需要做的工作主要為:使用數(shù)據(jù)提取、轉(zhuǎn)換和裝載工具基于事務(wù)型數(shù)據(jù)庫建立逃費相關(guān)的主題數(shù)據(jù)倉庫,使用數(shù)據(jù)有效性過濾方法過濾掉不完整的記錄,使用數(shù)字規(guī)范化方法把逃費的結(jié)果歸納成布爾值(0不逃費,1逃費),在數(shù)據(jù)處理完畢后,利用Microsoft Naive Bayes算法找出各住院相關(guān)的屬性影響逃費的權(quán)重。權(quán)重是根據(jù)對應(yīng)屬性取不同值時,影響病人逃費的概率統(tǒng)計。其中,權(quán)重大于零的屬性被認為是與逃費相關(guān)的屬性,權(quán)重小于等于零的屬性被認為是對逃費沒有影響的屬性。下文針對權(quán)重大于零的屬性,利用關(guān)聯(lián)規(guī)則進行相關(guān)性分析。
2、關(guān)聯(lián)規(guī)則基本概念。設(shè)I={i1,i2,i3,…,in}是事件全集。設(shè)集合D是事件的集合(D?奐I)。A、B是兩個事件,關(guān)聯(lián)規(guī)則是形如A→B的蘊涵式,其中A∈I,B∈I。規(guī)則A→B在事件集D中成立,具有支持度s,其中s是D中的事件包含A∪B(A和B同時發(fā)生)的概率,記為P(A∪B)。規(guī)則A→B在事件集D中具有置信度c,c是在D中包含事件A的條件下也包含B的概率,即條件概率P(B|A)。分別記為:Support(A→B)=P(A∪B)Confidence(A→B)=P(B|A)。
3、Microsoft關(guān)聯(lián)規(guī)則的應(yīng)用。關(guān)聯(lián)規(guī)則在應(yīng)用中考慮的是事件的存在與不存在,即布爾值0或1,所以它是布爾關(guān)聯(lián)規(guī)則。根據(jù)規(guī)則中涉及的數(shù)據(jù)維可以分為單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則。對于使用關(guān)聯(lián)規(guī)則中的項或?qū)傩悦總€只涉及一個維的方法,是單維關(guān)聯(lián)規(guī)則。
例1:RA→IsEscape(逃費):表示入院來源為A的病人逃費情況為逃費(其中支持度和置信度省略)。符號說明:RA——入院來源A,HB——戶籍B,MA——醫(yī)保類型A,JB——職業(yè)類型B,其他類推;下文均符合這個約定。
同樣,對于使用多個維度進行關(guān)聯(lián)的分析的方法,稱為多維關(guān)聯(lián)規(guī)則。
例2:RA∧HD→IsEscape(逃費):表示入院來源為A并且戶籍屬于D的病人,逃費情況為逃費。
在關(guān)聯(lián)分析模型中的維數(shù)可以任意地進行指定,不過指定的維數(shù)與數(shù)據(jù)挖掘進行的速度是成反比的,而且大于3個維度的置信度將會非常小,模型具有實際意義的可能性很小。表1是一個3個維度關(guān)聯(lián)分析的運行結(jié)果,可以看到不同屬性的組合能夠影響逃費情況的量化判定。以第一行為例:入院來源為A、職業(yè)為C并且醫(yī)保類型為B的病人逃費的置信度為90.9%,支持度為85.9%。可以看出入院來源為A、職業(yè)為C并且醫(yī)保類型為B的病人逃費概率比較高(90.9%的逃費概率)。
(三)分類分析進行逃費預(yù)測
分類分析是針對離散值進行預(yù)測的方法,這個方法的天然特性決定了其適合于解決逃費這個布爾值的預(yù)測問題。該方法實現(xiàn)采用Naive Bayes算法,該算法所需的運算量小,能夠快速生成挖掘模型以發(fā)現(xiàn)輸入列和可預(yù)測列之間的關(guān)系。應(yīng)用分類分析需要三個主要步驟:
第一步:建立預(yù)測模型。本例中使用基本屬性作為樣本屬性,同時簡化逃費情況的分類,逃費狀態(tài)只分為逃費和不逃費兩類。使用已知分類結(jié)果的訓(xùn)練數(shù)據(jù)集計算出a式中P(Xk|Ci)和P(Ci)的值(i=1,2;1≤k≤5),這些概率已知后,給任一樣本X就可以根據(jù)a式判定出它屬于哪個分類,這樣預(yù)測模型就建立了。
第二步:模型準確性的評價。利用同樣已知分類結(jié)果的測試數(shù)據(jù)集來評價第一步中生成的預(yù)測模型,即把測試數(shù)據(jù)集的預(yù)測結(jié)果和實際情況進行比較,評價的結(jié)果為預(yù)測矩陣,行標表示實際發(fā)生的結(jié)果,列標表示預(yù)測的結(jié)果,對角線上的數(shù)據(jù)表示預(yù)測模型預(yù)測正確的次數(shù),數(shù)據(jù)部分反對角線上的兩個數(shù)據(jù)是預(yù)測結(jié)果與實際結(jié)果不符的情況發(fā)生的次數(shù),同時可以獲得模型的準確程度為97.8%。如果對模型不滿意,可以通過調(diào)整貝葉斯方法入口參數(shù)值,重新進行第一步,直到獲得滿意的準確度。入口參數(shù)即為a式中P(Xk|Ci)的人為設(shè)定的最小參考值,當(dāng)P(Xk|Ci)小于設(shè)定的入口參數(shù)時,P(Xk|Ci)的值由設(shè)定的入口參數(shù)值替代,這個參數(shù)設(shè)置的目的是為了保證樣本屬性k取值為Xk時,把樣本預(yù)測為屬于分類Ci的概率,入口參數(shù)通常結(jié)合屬性權(quán)重分析結(jié)果設(shè)定,入口參數(shù)在0-1之間變化。
第三步:預(yù)測模型的應(yīng)用。對模型準確度滿意后,就可以將分類模型應(yīng)用于應(yīng)用數(shù)據(jù)集;這里的應(yīng)用數(shù)據(jù)集是醫(yī)院住院數(shù)據(jù)的病人相關(guān)資料信息,但是沒有逃費情況的數(shù)據(jù)集。應(yīng)用數(shù)據(jù)集存儲在一個數(shù)據(jù)表中,把這個數(shù)據(jù)表中的記錄分別作為預(yù)測模型(a式)的輸入預(yù)測出病人逃費的結(jié)果,可以把預(yù)測結(jié)果的逃費率與歷史上相同情況的逃費率進行比較,判定某個醫(yī)療環(huán)節(jié)是否需要調(diào)整以及優(yōu)化?;蛘咄ㄟ^預(yù)測模型的準確度和某病人的逃費概率,提前針對逃費病人采取措施,以避免逃費情況的發(fā)生。
四、結(jié)論與建議
在當(dāng)前的大環(huán)境下,我國與國外的醫(yī)療信息化的發(fā)展步伐相比,還有很多方面需要建設(shè)與完善,尤其是在商業(yè)智能的應(yīng)用領(lǐng)域還處于初級階段狀態(tài)下,合理、適時的逃費分析預(yù)測系統(tǒng)有現(xiàn)實的建設(shè)意義。
參考文獻:
1、段云峰,李劍威,韓潔,宋美娜.數(shù)據(jù)倉庫基礎(chǔ)[M].電子工業(yè)出版社出版,2004.
2、邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].水利水電出版社,2003.
3、韓家煒.數(shù)據(jù)挖掘概念與技術(shù)[M].機械工業(yè)出版社,2006.
(作者單位:上海互聯(lián)網(wǎng)軟件有限公司)