楊岳
【摘要】數(shù)據(jù)挖掘技術(shù)應(yīng)用于醫(yī)學(xué)領(lǐng)域,有助于從海量信息中提取有價(jià)值信息,為疾病的診治及臨床研究提供科學(xué)依據(jù)。醫(yī)學(xué)數(shù)據(jù)挖掘是一門涉及面廣、技術(shù)難度大的新興交叉學(xué)科。本文主要介紹數(shù)據(jù)挖掘概念,數(shù)據(jù)挖掘主要方法,數(shù)據(jù)挖掘過程及前景展望,為進(jìn)一步深入研究打下理論基礎(chǔ)。
【關(guān)鍵詞】數(shù)據(jù)挖掘;挖掘特點(diǎn);挖掘方法;挖掘過程
引言
隨著電子科技的飛速發(fā)展,在醫(yī)療機(jī)構(gòu)中有大量的醫(yī)療數(shù)據(jù)被記錄下來。此外,有關(guān)病人和疾病的電子格式的數(shù)據(jù)日益增多,通過臨床日常工作和各項(xiàng)檢查數(shù)據(jù)進(jìn)行的數(shù)據(jù)采掘研究也逐年增加。因此,掌握醫(yī)學(xué)數(shù)據(jù)挖掘的能力越來越成為開展基礎(chǔ)醫(yī)學(xué)和臨床醫(yī)學(xué)等醫(yī)學(xué)課題的先決條件。數(shù)據(jù)挖掘技術(shù),是指從大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中,提取隱含的、未知的、非平凡的及有潛在的應(yīng)用價(jià)值的信息或模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的判斷和決策。下面介紹醫(yī)學(xué)數(shù)據(jù)挖掘特點(diǎn)以及幾種在醫(yī)學(xué)上常用的數(shù)據(jù)挖掘方法。
1.數(shù)據(jù)挖掘特點(diǎn)
挖掘醫(yī)學(xué)數(shù)據(jù)庫跟挖掘其它類型的數(shù)據(jù)庫相比,具有其自身的獨(dú)特性。具體特點(diǎn)如下:
1.1 醫(yī)學(xué)數(shù)據(jù)挖掘隱私性
醫(yī)學(xué)數(shù)據(jù)不可避免地涉及到患者的一些隱私信息,有些隱私涉及倫理甚至法律問題。電子資源共享之前須征得患者關(guān)于隱私共享公開的授權(quán),否則不僅對(duì)患者造成不良影響,產(chǎn)生不良后果,而且也對(duì)醫(yī)院的整體形象及信譽(yù)諸多方面造成嚴(yán)重的負(fù)面效應(yīng)。醫(yī)學(xué)數(shù)據(jù)挖掘者有義務(wù)和職責(zé)在保護(hù)患者隱私的基礎(chǔ)上進(jìn)行科學(xué)研究,并且確保這些醫(yī)學(xué)數(shù)據(jù)的安全性和機(jī)密性。
1.2 醫(yī)學(xué)數(shù)據(jù)的多樣性
由于醫(yī)學(xué)數(shù)據(jù)是從醫(yī)學(xué)影像、實(shí)驗(yàn)數(shù)據(jù)以及醫(yī)生與病人的交流中獲得的,所以原始的醫(yī)學(xué)數(shù)據(jù)具有多種形式。醫(yī)學(xué)數(shù)據(jù)包括影像、信號(hào)、純數(shù)據(jù)、文字、動(dòng)畫,音頻,視頻等多種形式。醫(yī)學(xué)數(shù)據(jù)的多樣性是它區(qū)別于其它領(lǐng)域數(shù)據(jù)的最顯著特征。
1.3 醫(yī)學(xué)數(shù)據(jù)的不完整性
醫(yī)學(xué)數(shù)據(jù)搜集是以治愈患者為直接目的,而處理是以尋找某種疾病的一般規(guī)律為目的,關(guān)于一種疾病不可能有完整的全部信息,許多醫(yī)學(xué)信息的表達(dá)記錄本身就有模糊的特點(diǎn)。此外,人為因素也可能導(dǎo)致?lián)涗浀钠詈蜌埲?,如病情敘述主觀性較強(qiáng)。這些因素都導(dǎo)致了醫(yī)學(xué)數(shù)據(jù)挖掘的不完整特性。
1.4 醫(yī)學(xué)數(shù)據(jù)的冗余性
醫(yī)學(xué)數(shù)據(jù)庫是一個(gè)龐大的數(shù)據(jù)資源,每天都會(huì)有大量的記錄存儲(chǔ)到數(shù)據(jù)庫中,其中可能會(huì)包含重復(fù)的、無關(guān)緊要的、甚至是相互矛盾的記錄。例如,有些患者信息差異較小,病種,診斷結(jié)果,檢查方式,治療方式,預(yù)后情況都幾近相同,這不僅增加了數(shù)據(jù)的樣本量,也為檢索帶來了很大困難,也就是說,醫(yī)學(xué)數(shù)據(jù)具有冗余性這一特點(diǎn)。
1.5 醫(yī)學(xué)數(shù)據(jù)挖掘的動(dòng)態(tài)性
醫(yī)學(xué)數(shù)據(jù)挖掘的動(dòng)態(tài)性,有時(shí)候也稱醫(yī)學(xué)數(shù)據(jù)挖掘的時(shí)間性,指數(shù)據(jù)與時(shí)間密切相關(guān),如不同疾病的發(fā)病季節(jié)有著顯著特征。此外,醫(yī)學(xué)上的心腦電圖,心率,血壓等都是與時(shí)間密切相關(guān)的函數(shù),因此,醫(yī)學(xué)數(shù)據(jù)挖掘具有動(dòng)態(tài)性這一特點(diǎn)。
2.醫(yī)學(xué)數(shù)據(jù)挖掘方法
2.1 關(guān)鍵問題
關(guān)鍵問題主要包括數(shù)據(jù)的預(yù)處理,信息融合技術(shù),快速的挖掘算法以及確保知識(shí)的準(zhǔn)確性和可靠性。
2.2 主要方法
2.2.1 自動(dòng)疾病預(yù)測(cè)趨勢(shì)和行為
通過對(duì)病例的數(shù)據(jù)挖掘,對(duì)人體病例的體征數(shù)據(jù)進(jìn)行分析對(duì)比,從而學(xué)習(xí)到新的預(yù)測(cè)病例的方法,可以提前預(yù)測(cè)疾病的發(fā)生,及時(shí)挽救患者的生命。采用的技術(shù)主要有線性,非線性和廣義的回歸模型,以及神經(jīng)網(wǎng)絡(luò)技術(shù)。其中人工神經(jīng)網(wǎng)絡(luò)技術(shù)具有很強(qiáng)的自組織性,魯棒性和容錯(cuò)性,在醫(yī)學(xué)數(shù)據(jù)挖掘上具有廣泛的應(yīng)用。有學(xué)者以美國(guó)麻省理工學(xué)院的心律失常數(shù)據(jù)庫的心電圖為原始數(shù)據(jù),采用不同分類模型,對(duì)心電圖的5種異性波形進(jìn)行分類,為預(yù)測(cè)心臟病的發(fā)生提供了科學(xué)依據(jù)。
2.2.2 關(guān)聯(lián)分析
關(guān)聯(lián)是反映一個(gè)事件和其他事件之間的依賴或聯(lián)系。關(guān)聯(lián)分析主要用于DNA序列間相似搜索與比較、識(shí)別同時(shí)出現(xiàn)的基因序列、在患者生理參數(shù)分析中的應(yīng)用、疾病相關(guān)因素分析等。其處理包括兩個(gè)步驟:第一步是利用標(biāo)準(zhǔn)關(guān)聯(lián)規(guī)則挖掘算法挖掘有關(guān)的關(guān)聯(lián)規(guī)則,第二步是基于所挖掘出的關(guān)聯(lián)規(guī)則構(gòu)造出一個(gè)分類器。關(guān)聯(lián)規(guī)則有如下優(yōu)點(diǎn):可以產(chǎn)生清晰有用的結(jié)果;支持間接數(shù)據(jù)挖掘;可以處理變長(zhǎng)數(shù)據(jù);計(jì)算的消耗量可以預(yù)見。
2.2.3 聚類分析
聚類分析是對(duì)輸入集中的記錄進(jìn)行分類。聚類分析是一種探索性統(tǒng)計(jì)分析方法,是在沒有經(jīng)驗(yàn)的情況下對(duì)數(shù)據(jù)進(jìn)行分類。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué),例如決策樹歸納,貝葉斯分類,神經(jīng)網(wǎng)絡(luò)技術(shù),基于知識(shí)的案例推理,遺傳算法,粗糙集等。
2.2.4 模糊系統(tǒng)
模糊系統(tǒng)是建立在模糊數(shù)學(xué)上的一種推理方式,經(jīng)常與神經(jīng)網(wǎng)絡(luò)聯(lián)合應(yīng)用??梢詮男呐K圖像中分析心室過早收縮,也可以對(duì)肝臟超聲圖像進(jìn)行分析。
2.2.5 進(jìn)化計(jì)算
進(jìn)化算法是從生物進(jìn)化規(guī)律中得出的一種優(yōu)化算法。在醫(yī)學(xué)數(shù)據(jù)挖掘中的主要應(yīng)用有:為二尖瓣脫垂綜合征患者提供治療決策。也可以應(yīng)用于對(duì)脊柱側(cè)凸進(jìn)行分類。
3.醫(yī)學(xué)數(shù)據(jù)挖掘過程
醫(yī)學(xué)數(shù)據(jù)挖掘過程主要包括如下幾個(gè)步驟:(1)理解數(shù)據(jù);(2)準(zhǔn)備數(shù)據(jù);(3)數(shù)據(jù)挖掘;(4)評(píng)估知識(shí);(5)知識(shí)應(yīng)用。
4.醫(yī)學(xué)數(shù)據(jù)挖掘展望
我國(guó)醫(yī)學(xué)數(shù)據(jù)極為豐富,但運(yùn)用數(shù)據(jù)挖掘技術(shù)處理海量信息仍處于初級(jí)階段。醫(yī)學(xué)數(shù)據(jù)挖掘是一門涉及面廣,技術(shù)難度大的新興交叉學(xué)科,需要從事計(jì)算機(jī),統(tǒng)計(jì)學(xué)的科研人員與醫(yī)務(wù)工作者廣泛合作。可以預(yù)見數(shù)據(jù)采掘技術(shù)在醫(yī)學(xué)領(lǐng)域中具有廣闊的應(yīng)用前景,隨著大型數(shù)據(jù)庫和網(wǎng)絡(luò)技術(shù)的普及應(yīng)用,必將有大量的電子格式的數(shù)據(jù)在國(guó)內(nèi)的各行各業(yè)、尤其是醫(yī)療部門中出現(xiàn),信息專業(yè)的研究與開發(fā)人員應(yīng)當(dāng)抓住機(jī)遇,做好技術(shù)上的準(zhǔn)備,迎接挑戰(zhàn)。數(shù)據(jù)挖掘也為醫(yī)學(xué)更好的服務(wù)患者開辟的新的途徑,隨著理論研究的深入及不斷的實(shí)踐探索,相信數(shù)據(jù)挖掘技術(shù)會(huì)在醫(yī)學(xué)的方方面面發(fā)揮越來越大的作用。
參考文獻(xiàn)
[1]Han JW,Kamber M.Data mining: concepts and techniques.3rd Edition.San Francisco:Morgan Kaufmann,2011:1-8.
[2]陳功,范曉薇,蔣萌,等.數(shù)據(jù)挖掘與醫(yī)學(xué)數(shù)據(jù)資源開發(fā)利用[J].北京生物醫(yī)學(xué)工程,2010,29(3):323-328.
[3]朱凌云,吳寶明.醫(yī)學(xué)數(shù)據(jù)挖掘的技術(shù)方法及應(yīng)用[J].生物醫(yī)學(xué)工程雜志,2003,20(3):559-562.
[4]李敬社,等.數(shù)據(jù)挖掘技術(shù)的方法和最新進(jìn)展[J].現(xiàn)代電子技術(shù),2004,6:54-56.
[5]武森.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:冶金工業(yè)出版社,2003.