廖冬雪
摘要:隨著數(shù)據(jù)挖掘的不斷發(fā)展,社會(huì)各領(lǐng)域也在探索這門技術(shù)的應(yīng)用價(jià)值,其中包括醫(yī)學(xué)領(lǐng)域。本文主要介紹數(shù)據(jù)挖掘的定義及其主要技術(shù),醫(yī)學(xué)中數(shù)據(jù)挖掘存在的特點(diǎn)和挖掘技術(shù)在醫(yī)院信息系統(tǒng)、疾病診斷、生物醫(yī)學(xué)、影像等醫(yī)學(xué)各方面的應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘 醫(yī)學(xué)領(lǐng)域 疾病診斷 技術(shù)應(yīng)用
進(jìn)入信息時(shí)代以來,各行業(yè)為了日常業(yè)務(wù)處理的方便快捷,積極投入到業(yè)務(wù)處理的信息化當(dāng)中,以代替不必要的人工勞動(dòng),但隨著業(yè)務(wù)數(shù)據(jù)的不斷錄入,各行業(yè)的日常業(yè)務(wù)數(shù)據(jù)量基本上呈指數(shù)級別增長,從而致使超大量的數(shù)據(jù)堆積,然而這樣的數(shù)據(jù)再憑人或計(jì)算機(jī)簡單地理解,就是幾乎不可能的。為了從這些數(shù)據(jù)中挖掘出有用,具有預(yù)測性的信息,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。其中醫(yī)學(xué)領(lǐng)域亦是如此。但醫(yī)學(xué)上的數(shù)據(jù)更具有主觀性,大部分是非結(jié)構(gòu)化的,并與其他領(lǐng)域的數(shù)據(jù)存在較大的不同。因此怎樣從醫(yī)學(xué)數(shù)據(jù)中挖掘出價(jià)值更大的信息,如何進(jìn)行醫(yī)學(xué)中的數(shù)據(jù)挖掘,并為信息管理,診斷,疾病預(yù)防,生物醫(yī)學(xué)等服務(wù),是當(dāng)今一直研討的問題。
一、數(shù)據(jù)挖掘的概述
(一)數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘的英文名稱為Data Mining,其定義是指通過運(yùn)用科學(xué)的方法與技術(shù),從大量繁雜,有噪聲且隨機(jī)的模糊數(shù)據(jù)中,得到其中具有隱含性的,且有用的知識或情報(bào)。這些模糊數(shù)據(jù)來自于信息系統(tǒng)的實(shí)際業(yè)務(wù)處理。然而經(jīng)過日積月累的業(yè)務(wù)處理,這些數(shù)據(jù)的量非常大,因此需要數(shù)據(jù)挖掘這門新興技術(shù)來探索其中有價(jià)值的知識,以便掌握事物實(shí)際的,更深層次的發(fā)展規(guī)律。另外,從數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的關(guān)系來看,數(shù)據(jù)挖掘是在傳統(tǒng)的統(tǒng)計(jì)學(xué)方法與技術(shù)上發(fā)展起來的。但由于它發(fā)現(xiàn)的知識更具有預(yù)知性,有用性,早已不同于傳統(tǒng)的統(tǒng)計(jì)學(xué)。
(二)數(shù)據(jù)挖掘的主要技術(shù)與方法
目前,隨著信息時(shí)代的高速發(fā)展,數(shù)據(jù)挖掘能夠深入到社會(huì)各個(gè)領(lǐng)域中,一直是一個(gè)熱門領(lǐng)域。社會(huì)各行各業(yè)都需要數(shù)據(jù)挖掘技術(shù)來得到本領(lǐng)域中潛在的有價(jià)值的知識。因此,數(shù)據(jù)挖掘的理論與技術(shù)能夠不斷被人們探索,從而得到發(fā)展。其技術(shù)主要有: 神經(jīng)網(wǎng)絡(luò)法,關(guān)聯(lián)規(guī)則法,決策樹,聚類分析,粗糙集等,另外,遺傳算法同樣在實(shí)際應(yīng)用中有著很好的效果。神經(jīng)網(wǎng)絡(luò)法是指一種模擬人類大腦的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并從抽象的網(wǎng)絡(luò)中獲取知識的算法。由于這種算法適應(yīng)性強(qiáng),容錯(cuò)能力高,因此廣泛應(yīng)用于各個(gè)領(lǐng)域;關(guān)聯(lián)規(guī)則法能夠在滿足置信度以及支持度的條件下,深入分析各種數(shù)據(jù),從而得到數(shù)據(jù)之間的聯(lián)系和符合一定條件的關(guān)聯(lián)規(guī)則;決策樹算法是通過對各個(gè)變量因素進(jìn)行分析并分類,推測出每個(gè)變量的變化趨勢的過程。這種技術(shù)與聚類分析法等相比,其設(shè)置形式更靈便,因此能更廣地應(yīng)用于其他領(lǐng)域;聚類分析主要是分析樣本數(shù)據(jù)間的密集程度,從而獲得各數(shù)據(jù)間的聯(lián)系和總體角度下的分布情況;粗糙集是與模糊集相關(guān)聯(lián)的,要理解粗糙集就需要認(rèn)識模糊集。模糊集是用于分析未知的,不明確的信息,并探索隱藏其中的規(guī)律。但粗糙集常和遺傳算法等結(jié)合使用;遺傳算法指的是通過對初始數(shù)據(jù)進(jìn)行選擇,交叉等迭代操作,最終得到最優(yōu)的聚類結(jié)果。由于這種算法能夠更深入地研究數(shù)據(jù),其結(jié)果更具有前瞻性。
(二)醫(yī)學(xué)數(shù)據(jù)挖掘的特點(diǎn)
醫(yī)學(xué)中的數(shù)據(jù)常常關(guān)乎病人的生死問題以及隱私問題,而且這些數(shù)據(jù)基本上由檢查影像,診斷單,電子病歷,以及各種化驗(yàn)結(jié)果等大量異質(zhì)性數(shù)據(jù)組成。這就使得醫(yī)學(xué)數(shù)據(jù)挖掘與一般數(shù)據(jù)挖掘相比而言,具有一些特點(diǎn):醫(yī)學(xué)數(shù)據(jù)量大而復(fù)雜,這給相應(yīng)的數(shù)據(jù)挖掘帶來一定的困難,從而表現(xiàn)出醫(yī)學(xué)中數(shù)據(jù)挖掘的繁雜性;醫(yī)學(xué)數(shù)據(jù)主要分為兩大類。一類是醫(yī)生的診斷說明及與患者的交談?dòng)涗洠@種數(shù)據(jù)是醫(yī)生憑借主觀經(jīng)驗(yàn)而寫成的,具有強(qiáng)烈的非結(jié)構(gòu)性,很難標(biāo)準(zhǔn)化。另一類則是患者的各種檢查影像和化驗(yàn)單,而這類數(shù)據(jù)基本上是以圖片形式存儲(chǔ),難以用計(jì)算機(jī)捕捉其中隱含的內(nèi)容。在進(jìn)行數(shù)據(jù)挖掘時(shí),還需要將這兩類數(shù)據(jù)進(jìn)行綜合分析;醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)挖掘有一個(gè)特點(diǎn)就是醫(yī)學(xué)數(shù)據(jù)難以用數(shù)學(xué)公式來表示和推算。但隨著計(jì)算機(jī)技術(shù)不斷深入到醫(yī)學(xué)領(lǐng)域中,人們也在逐漸克服這個(gè)問題;由于醫(yī)學(xué)數(shù)據(jù)涉及到患者的隱私,安全問題和數(shù)據(jù)本身的所有權(quán)問題等,因此這個(gè)領(lǐng)域的數(shù)據(jù)挖掘還存在著倫理性的,法律性的以及社會(huì)性的問題。正是有了這些復(fù)雜的問題,人們也在努力地克服,數(shù)據(jù)挖掘才不斷得到完善。與此同時(shí),成熟的數(shù)據(jù)挖掘技術(shù)也為醫(yī)學(xué)問題提供良好的解決方案。
二、數(shù)據(jù)挖掘在醫(yī)學(xué)上的應(yīng)用
(一)醫(yī)院信息系統(tǒng)中的應(yīng)用
醫(yī)院信息系統(tǒng)主要是用于管理醫(yī)院的日常業(yè)務(wù)工作,例如:病人掛號,收費(fèi),以及醫(yī)療資源的調(diào)配問題等。這些工作往往無時(shí)不刻都在進(jìn)行著,并造成大量的數(shù)據(jù)堆積。我們可以利用數(shù)據(jù)挖掘技術(shù)來對這些業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,找出業(yè)務(wù)數(shù)據(jù)中存在的規(guī)律,以便能夠預(yù)測醫(yī)院中醫(yī)療資源的使用情況,為管理層提供決策依據(jù),從而提前做好充分準(zhǔn)備。但在這方面進(jìn)行數(shù)據(jù)挖掘的時(shí)候,需要考慮到諸如流感,政策等多種外界因素,這樣才能使挖掘的結(jié)果更具有準(zhǔn)確性。
(二)疾病診斷及預(yù)測的應(yīng)用
在醫(yī)療過程中,準(zhǔn)確的診斷對于患者的生命尤為重要,醫(yī)師對患者開具的藥品對病情的康復(fù)起到?jīng)Q定性因素。在現(xiàn)實(shí)生活中,醫(yī)生往往會(huì)依據(jù)CT、X光等檢驗(yàn)數(shù)據(jù)及自身經(jīng)驗(yàn)進(jìn)行病情診斷,依據(jù)該類疾病的治療方案進(jìn)行診治,在后期患者的恢復(fù)過程中,又根據(jù)復(fù)查的檢驗(yàn)結(jié)果進(jìn)行治療方案的修訂,直至患者完好出院。對于這一治療過程,可以使用數(shù)據(jù)挖掘中的分類分析進(jìn)行分析診斷,依據(jù)患者的檢驗(yàn)數(shù)據(jù),將患者劃分病癥類別,再依照該類病狀的治療方案進(jìn)行治療,加大了診斷的科學(xué)性、準(zhǔn)確性和合理性。在疾病預(yù)測方面,可通過關(guān)聯(lián)分析,研究某類疾病的相關(guān)并發(fā)癥,可有針對性地制定檢查方案和采取相應(yīng)的預(yù)防措施。
(三)醫(yī)學(xué)影像的應(yīng)用
當(dāng)前,隨著醫(yī)療影像設(shè)備的飛速發(fā)展以及計(jì)算機(jī)技術(shù)的不斷深入,醫(yī)生一般在診斷前都要求有關(guān)患者身體的影像數(shù)據(jù),如CT,DR,超聲成像,SPECT等。這使得越來越多的醫(yī)學(xué)掃描影像存儲(chǔ)在數(shù)據(jù)庫當(dāng)中。 然而在這些影像中大多存在著一定的不確定性,況且醫(yī)生在診斷時(shí)基本只參照當(dāng)前的影像,不會(huì)結(jié)合以前所有有用數(shù)據(jù)來診斷,這些因素都有可能導(dǎo)致醫(yī)生診斷失誤或延遲,最終造成患者未能及時(shí)接受治療,影響醫(yī)院聲譽(yù)等嚴(yán)重后果。這時(shí),就需要數(shù)據(jù)挖掘發(fā)揮其重要作用。一方面可以利用數(shù)據(jù)挖掘技術(shù),對影像結(jié)果進(jìn)行深度分析,從而逐漸減少存在影像中的不確定性,提高醫(yī)學(xué)影像報(bào)告的質(zhì)量。另一方面,醫(yī)生通過這門技術(shù),能看到患者的以前數(shù)據(jù)變化,而不只是當(dāng)前的這幾張影像,這樣就能在一定程度上提高診斷質(zhì)量。
三、結(jié)束語
數(shù)據(jù)挖掘的應(yīng)用提高了醫(yī)院的管理能力和診斷效率,為醫(yī)學(xué)領(lǐng)域帶來了可觀的經(jīng)濟(jì)和社會(huì)效益,說明醫(yī)學(xué)上的數(shù)據(jù)挖掘具有很好的發(fā)展前景。雖然這門新興技術(shù)在醫(yī)學(xué)各個(gè)方面都有較好的應(yīng)用,但由于每個(gè)挖掘方法都存在著一定的缺陷,所以在運(yùn)用數(shù)據(jù)挖掘技術(shù)時(shí)需要根據(jù)實(shí)際應(yīng)用情況來選擇合適的方法,與此同時(shí),還需要不斷地研究數(shù)據(jù)挖掘理論及實(shí)踐方法,將優(yōu)秀的挖掘算法應(yīng)用于這個(gè)領(lǐng)域中。
參考文獻(xiàn)
[1]李明江,唐穎,周力軍.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].中國新通信,2012,(22):66-67+74
[2]呂峰,楊宏,普奕,賈婧鎣.遺傳算法的數(shù)據(jù)挖掘技術(shù)在醫(yī)療大數(shù)據(jù)中的應(yīng)用[J].電子技術(shù)與軟件工程,2017,(05):203
[3]秦文哲,陳進(jìn),董力.大數(shù)據(jù)背景下醫(yī)學(xué)數(shù)據(jù)挖掘的研究進(jìn)展及應(yīng)用[J].中國胸心血管外科臨床雜志,2016,(01):55-60
[4]強(qiáng)邦紅,劉冬,朱向明.數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)影像領(lǐng)域中的應(yīng)用進(jìn)展[J].臨床超聲醫(yī)學(xué)雜志,2013,(04):287-289
財(cái)經(jīng)界2017年6期