李霽雨
(河北工業(yè)大學(xué),天津 021000)
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù)中,提取并發(fā)現(xiàn)隱含在其中的、不為人知的,但同時(shí)又具有極大潛在使用價(jià)值的信息和知識(shí)的過(guò)程。
數(shù)據(jù)挖掘的過(guò)程是先確定挖掘目標(biāo),根據(jù)現(xiàn)有數(shù)據(jù)資源建立數(shù)據(jù)庫(kù)。然后通過(guò)清洗數(shù)據(jù)、分析、選擇或轉(zhuǎn)換與挖掘目標(biāo)有關(guān)的變量,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。根據(jù)數(shù)據(jù)挖掘的目標(biāo)和數(shù)據(jù)特征,選擇適合的模型。最后,選用合適的數(shù)據(jù)挖掘技術(shù)與工具,進(jìn)行模式的分析,從而選擇最優(yōu)的模型,運(yùn)用到實(shí)際問(wèn)題中。常見(jiàn)的數(shù)據(jù)挖掘方法有關(guān)聯(lián)規(guī)則、聚類(lèi)、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等[1]。
醫(yī)院信息系統(tǒng)包括臨床醫(yī)療信息和醫(yī)院管理信息。醫(yī)療數(shù)據(jù)由于其專(zhuān)業(yè)性及特殊性,與其他行業(yè)數(shù)據(jù)相比有所不同,對(duì)醫(yī)院信息系統(tǒng)的數(shù)據(jù)挖掘也存在其自有的特點(diǎn)[2]。
醫(yī)療數(shù)據(jù)中包含數(shù)字型數(shù)據(jù)和非數(shù)字型數(shù)據(jù)如(信號(hào)、圖像、文字、語(yǔ)音、視頻等)。模式的多態(tài)性大大的增加了數(shù)據(jù)挖掘的難度。
以病歷為例,病歷的書(shū)寫(xiě)過(guò)程本身就有不確定和模糊的因素存在,與醫(yī)生的主觀(guān)因素有關(guān),有個(gè)體差異存在,不能對(duì)疾病的信息進(jìn)行全面的反應(yīng)與記錄,因此形成了醫(yī)療數(shù)據(jù)的不完整性。
醫(yī)療數(shù)據(jù)記錄的是患者在某一特定時(shí)間內(nèi)接受醫(yī)療活動(dòng)的記錄,醫(yī)療檢查的波形和圖像也都是關(guān)于時(shí)間的函數(shù)。
醫(yī)療數(shù)據(jù)庫(kù)是十分龐大的數(shù)據(jù)資源,對(duì)于某些疾病某些癥狀,可能會(huì)采取相同的治療,檢查與化驗(yàn)的結(jié)果也都可能完全一樣。如此下來(lái),就會(huì)產(chǎn)生大量相同或者相似的數(shù)據(jù)信息。在數(shù)據(jù)挖掘過(guò)程中,增加了數(shù)據(jù)預(yù)處理的復(fù)雜性。
在數(shù)據(jù)挖掘之前,醫(yī)療數(shù)據(jù)庫(kù)中包含著數(shù)量相當(dāng)?shù)牟煌暾?、模糊的、帶有噪聲的冗余信息。?shù)據(jù)預(yù)處理技術(shù)要完成的主要任務(wù)是,將這些冗余信息進(jìn)行篩選和過(guò)濾,將多余的、沒(méi)有意義的信息刪除,把預(yù)處理后的數(shù)據(jù)整理成與數(shù)據(jù)挖掘時(shí)相匹配的形式。
由于醫(yī)療數(shù)據(jù)模式的多態(tài)性特征,使得處理不同屬性的數(shù)據(jù)時(shí),應(yīng)采用不同的技術(shù)和措施。多種數(shù)據(jù)類(lèi)型并存,加大了信息融合的難度[3]。
對(duì)醫(yī)療數(shù)據(jù)進(jìn)行挖掘,得到的結(jié)果必須具有較高的準(zhǔn)確度與可靠性,這樣才能為臨床醫(yī)療活動(dòng)和醫(yī)院的管理提供有效的數(shù)據(jù)支持和決策依據(jù),使理論更好的指導(dǎo)實(shí)踐,發(fā)揮價(jià)值。
醫(yī)院管理信息系統(tǒng)主要處理醫(yī)院日常經(jīng)營(yíng)和內(nèi)部管理方面的信息,現(xiàn)有的醫(yī)院信息管理系統(tǒng),可以實(shí)現(xiàn)查詢(xún)統(tǒng)計(jì)、輸入修改等基本功能,通過(guò)對(duì)醫(yī)療數(shù)據(jù)的挖掘,能夠?qū)崿F(xiàn)質(zhì)控管理、費(fèi)用控制、人員管理等更多更強(qiáng)大的功能。①通過(guò)對(duì)門(mén)診人流量的數(shù)據(jù)進(jìn)行挖掘,可以分析出就診時(shí)人流量的分布,能夠使醫(yī)生合理安排工作時(shí)間,減少患者就診等待時(shí)間,提高醫(yī)療資源的使用效率,提高服務(wù)質(zhì)量。②將醫(yī)院各部門(mén)不同的系統(tǒng)數(shù)據(jù)匯總,建立數(shù)據(jù)倉(cāng)庫(kù),對(duì)醫(yī)院的成本、收益等情況進(jìn)行深入分析,可以實(shí)現(xiàn)對(duì)資源的合理配置,規(guī)范醫(yī)療行為,提高服務(wù)效率。有助于掌握醫(yī)院經(jīng)營(yíng)狀況,提高醫(yī)院經(jīng)濟(jì)效益及核心競(jìng)爭(zhēng)力。③通過(guò)數(shù)據(jù)挖掘技術(shù),對(duì)醫(yī)療費(fèi)用進(jìn)行分析??梢酝ㄟ^(guò)分析醫(yī)療費(fèi)用項(xiàng)目的構(gòu)成,推斷醫(yī)療行為是否合理,可以有效控制醫(yī)療費(fèi)用不合理增長(zhǎng)。④單病種管理。通過(guò)對(duì)醫(yī)療數(shù)據(jù)進(jìn)行挖掘,可以幫助規(guī)范臨床路徑,為醫(yī)療質(zhì)量管理提供理論依據(jù),可以縮短患者住院時(shí)間、提高床位使用率,提高醫(yī)院整體收入。⑤質(zhì)控管理。通過(guò)數(shù)據(jù)挖掘技術(shù),將各個(gè)部門(mén)的考核指標(biāo)篩選出來(lái),對(duì)各部門(mén)進(jìn)行評(píng)價(jià)考核,制定管理目標(biāo),提高醫(yī)院的綜合實(shí)力。⑥對(duì)醫(yī)用耗材的備貨管理。醫(yī)用耗材的消耗容易受到季節(jié)、疾病好發(fā)時(shí)段及手術(shù)擇期規(guī)律的影響,應(yīng)用數(shù)據(jù)挖掘技術(shù)中的時(shí)間序列預(yù)測(cè)方法,對(duì)醫(yī)院現(xiàn)有的醫(yī)用耗材用量信息進(jìn)行計(jì)算模擬,得出醫(yī)用耗材消耗模型。根據(jù)實(shí)際情況自動(dòng)產(chǎn)生下一時(shí)間段的醫(yī)用耗材領(lǐng)用量,滿(mǎn)足了醫(yī)院感染管理和各種手術(shù)的需要,提高了醫(yī)用耗材備庫(kù)的合理性和科學(xué)性。
疾病的診斷,是醫(yī)生通過(guò)自己掌握的各種醫(yī)學(xué)理論知識(shí),以癥狀與檢查結(jié)果為基礎(chǔ),進(jìn)行推理的過(guò)程。醫(yī)學(xué)數(shù)據(jù)挖掘可以為醫(yī)生進(jìn)行疾病診斷提供幫助。
①通過(guò)對(duì)患者的性別、年齡、所在地區(qū)等個(gè)人信息進(jìn)行分析,用關(guān)聯(lián)規(guī)則挖掘出發(fā)病率較高的疾病種類(lèi),使醫(yī)療工作更具針對(duì)性,提高服務(wù)效率。②利用決策樹(shù)可以將疾病進(jìn)行分類(lèi),對(duì)疾病的嚴(yán)重程度進(jìn)行分級(jí),分析不良事件成因,篩選危險(xiǎn)因素,對(duì)處方藥物劑量監(jiān)控,對(duì)治療方案是否合理做出判斷。③CT、MRI等醫(yī)學(xué)圖像作為重要的醫(yī)療數(shù)據(jù),已成為疾病診斷的一種重要工具,對(duì)醫(yī)學(xué)圖像數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,篩選出有效的規(guī)則、模型等信息,有助于醫(yī)生更加準(zhǔn)確的診斷疾病。
在醫(yī)療方面除了上述應(yīng)用,數(shù)據(jù)挖掘還可以用于醫(yī)療科研、新藥開(kāi)發(fā),預(yù)防保健、流行病學(xué)研究、醫(yī)療資源利用評(píng)價(jià)、醫(yī)藥市場(chǎng)預(yù)測(cè)等諸多方面。
在醫(yī)院的支出項(xiàng)目中,藥品和醫(yī)療設(shè)備的采購(gòu)占比較大,通過(guò)數(shù)據(jù)挖掘技術(shù),對(duì)藥品數(shù)量和種類(lèi)進(jìn)行動(dòng)態(tài)監(jiān)測(cè),制定有針對(duì)性的藥品采購(gòu)計(jì)劃,可以避免不必要的浪費(fèi)。通過(guò)監(jiān)測(cè)醫(yī)療設(shè)備的運(yùn)行狀態(tài)和維修保養(yǎng)情況,可以對(duì)資源進(jìn)行合理配置,有效降低采購(gòu)成本。
通過(guò)對(duì)醫(yī)療數(shù)據(jù)進(jìn)行挖掘,是醫(yī)院科研創(chuàng)新的重要手段,是服務(wù)創(chuàng)新的新方法。數(shù)據(jù)挖掘技術(shù)的發(fā)展有助于推動(dòng)醫(yī)院開(kāi)展多樣化醫(yī)療服務(wù)。
醫(yī)院綜合實(shí)力的本質(zhì)就是知識(shí)和技能,提高醫(yī)院的綜合實(shí)力,對(duì)醫(yī)療技術(shù)的提升與醫(yī)院經(jīng)濟(jì)效益的提高都有著至關(guān)重要的作用。
通過(guò)對(duì)HIS系統(tǒng)中的數(shù)據(jù)進(jìn)行挖掘,可以分析出就診患者的信息,可以制定不同的服務(wù)策略來(lái)滿(mǎn)足不同類(lèi)型的患者,提高服務(wù)質(zhì)量和效率,建立和諧醫(yī)患關(guān)系。通過(guò)數(shù)據(jù)挖掘,對(duì)醫(yī)院醫(yī)療技術(shù)、診療水平有較客觀(guān)的認(rèn)識(shí),通過(guò)發(fā)揮優(yōu)勢(shì)補(bǔ)足劣勢(shì),使醫(yī)院醫(yī)療技術(shù)水平得到提高與發(fā)展,提升核心競(jìng)爭(zhēng)力。
數(shù)據(jù)挖掘技術(shù)作為一個(gè)在海量數(shù)據(jù)中獲取知識(shí)的有力工具,在為醫(yī)院管理中新知識(shí)的發(fā)現(xiàn)開(kāi)辟了新的途徑,快速發(fā)展的圖像數(shù)據(jù)挖掘技術(shù)更是具有較高的學(xué)術(shù)價(jià)值和廣闊的應(yīng)用前景。但存在的問(wèn)題是醫(yī)療數(shù)據(jù)庫(kù)中存在許多臟數(shù)據(jù)和已破壞了的數(shù)據(jù)、數(shù)據(jù)庫(kù)中的臨床信息標(biāo)準(zhǔn)不統(tǒng)一或者不規(guī)范使得數(shù)據(jù)挖掘過(guò)程中對(duì)數(shù)據(jù)庫(kù)的矯正、去除噪聲等顯得相當(dāng)困難,這些實(shí)際應(yīng)用中的困難有待于進(jìn)一步的研究并給予解決。