国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談數(shù)據(jù)挖掘

2014-04-29 16:26:17楊岳
電子世界 2014年13期
關(guān)鍵詞:數(shù)據(jù)挖掘

楊岳

【摘要】數(shù)據(jù)挖掘技術(shù)應(yīng)用于醫(yī)學(xué)領(lǐng)域,有助于從海量信息中提取有價(jià)值信息,為疾病的診治及臨床研究提供科學(xué)依據(jù)。醫(yī)學(xué)數(shù)據(jù)挖掘是一門涉及面廣、技術(shù)難度大的新興交叉學(xué)科。本文主要介紹數(shù)據(jù)挖掘概念,數(shù)據(jù)挖掘主要方法,數(shù)據(jù)挖掘過程及前景展望,為進(jìn)一步深入研究打下理論基礎(chǔ)。

【關(guān)鍵詞】數(shù)據(jù)挖掘;挖掘特點(diǎn);挖掘方法;挖掘過程

引言

隨著電子科技的飛速發(fā)展,在醫(yī)療機(jī)構(gòu)中有大量的醫(yī)療數(shù)據(jù)被記錄下來。此外,有關(guān)病人和疾病的電子格式的數(shù)據(jù)日益增多,通過臨床日常工作和各項(xiàng)檢查數(shù)據(jù)進(jìn)行的數(shù)據(jù)采掘研究也逐年增加。因此,掌握醫(yī)學(xué)數(shù)據(jù)挖掘的能力越來越成為開展基礎(chǔ)醫(yī)學(xué)和臨床醫(yī)學(xué)等醫(yī)學(xué)課題的先決條件。數(shù)據(jù)挖掘技術(shù),是指從大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中,提取隱含的、未知的、非平凡的及有潛在的應(yīng)用價(jià)值的信息或模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的判斷和決策。下面介紹醫(yī)學(xué)數(shù)據(jù)挖掘特點(diǎn)以及幾種在醫(yī)學(xué)上常用的數(shù)據(jù)挖掘方法。

1.數(shù)據(jù)挖掘特點(diǎn)

挖掘醫(yī)學(xué)數(shù)據(jù)庫跟挖掘其它類型的數(shù)據(jù)庫相比,具有其自身的獨(dú)特性。具體特點(diǎn)如下:

1.1 醫(yī)學(xué)數(shù)據(jù)挖掘隱私性

醫(yī)學(xué)數(shù)據(jù)不可避免地涉及到患者的一些隱私信息,有些隱私涉及倫理甚至法律問題。電子資源共享之前須征得患者關(guān)于隱私共享公開的授權(quán),否則不僅對(duì)患者造成不良影響,產(chǎn)生不良后果,而且也對(duì)醫(yī)院的整體形象及信譽(yù)諸多方面造成嚴(yán)重的負(fù)面效應(yīng)。醫(yī)學(xué)數(shù)據(jù)挖掘者有義務(wù)和職責(zé)在保護(hù)患者隱私的基礎(chǔ)上進(jìn)行科學(xué)研究,并且確保這些醫(yī)學(xué)數(shù)據(jù)的安全性和機(jī)密性。

1.2 醫(yī)學(xué)數(shù)據(jù)的多樣性

由于醫(yī)學(xué)數(shù)據(jù)是從醫(yī)學(xué)影像、實(shí)驗(yàn)數(shù)據(jù)以及醫(yī)生與病人的交流中獲得的,所以原始的醫(yī)學(xué)數(shù)據(jù)具有多種形式。醫(yī)學(xué)數(shù)據(jù)包括影像、信號(hào)、純數(shù)據(jù)、文字、動(dòng)畫,音頻,視頻等多種形式。醫(yī)學(xué)數(shù)據(jù)的多樣性是它區(qū)別于其它領(lǐng)域數(shù)據(jù)的最顯著特征。

1.3 醫(yī)學(xué)數(shù)據(jù)的不完整性

醫(yī)學(xué)數(shù)據(jù)搜集是以治愈患者為直接目的,而處理是以尋找某種疾病的一般規(guī)律為目的,關(guān)于一種疾病不可能有完整的全部信息,許多醫(yī)學(xué)信息的表達(dá)記錄本身就有模糊的特點(diǎn)。此外,人為因素也可能導(dǎo)致?lián)涗浀钠詈蜌埲?,如病情敘述主觀性較強(qiáng)。這些因素都導(dǎo)致了醫(yī)學(xué)數(shù)據(jù)挖掘的不完整特性。

1.4 醫(yī)學(xué)數(shù)據(jù)的冗余性

醫(yī)學(xué)數(shù)據(jù)庫是一個(gè)龐大的數(shù)據(jù)資源,每天都會(huì)有大量的記錄存儲(chǔ)到數(shù)據(jù)庫中,其中可能會(huì)包含重復(fù)的、無關(guān)緊要的、甚至是相互矛盾的記錄。例如,有些患者信息差異較小,病種,診斷結(jié)果,檢查方式,治療方式,預(yù)后情況都幾近相同,這不僅增加了數(shù)據(jù)的樣本量,也為檢索帶來了很大困難,也就是說,醫(yī)學(xué)數(shù)據(jù)具有冗余性這一特點(diǎn)。

1.5 醫(yī)學(xué)數(shù)據(jù)挖掘的動(dòng)態(tài)性

醫(yī)學(xué)數(shù)據(jù)挖掘的動(dòng)態(tài)性,有時(shí)候也稱醫(yī)學(xué)數(shù)據(jù)挖掘的時(shí)間性,指數(shù)據(jù)與時(shí)間密切相關(guān),如不同疾病的發(fā)病季節(jié)有著顯著特征。此外,醫(yī)學(xué)上的心腦電圖,心率,血壓等都是與時(shí)間密切相關(guān)的函數(shù),因此,醫(yī)學(xué)數(shù)據(jù)挖掘具有動(dòng)態(tài)性這一特點(diǎn)。

2.醫(yī)學(xué)數(shù)據(jù)挖掘方法

2.1 關(guān)鍵問題

關(guān)鍵問題主要包括數(shù)據(jù)的預(yù)處理,信息融合技術(shù),快速的挖掘算法以及確保知識(shí)的準(zhǔn)確性和可靠性。

2.2 主要方法

2.2.1 自動(dòng)疾病預(yù)測(cè)趨勢(shì)和行為

通過對(duì)病例的數(shù)據(jù)挖掘,對(duì)人體病例的體征數(shù)據(jù)進(jìn)行分析對(duì)比,從而學(xué)習(xí)到新的預(yù)測(cè)病例的方法,可以提前預(yù)測(cè)疾病的發(fā)生,及時(shí)挽救患者的生命。采用的技術(shù)主要有線性,非線性和廣義的回歸模型,以及神經(jīng)網(wǎng)絡(luò)技術(shù)。其中人工神經(jīng)網(wǎng)絡(luò)技術(shù)具有很強(qiáng)的自組織性,魯棒性和容錯(cuò)性,在醫(yī)學(xué)數(shù)據(jù)挖掘上具有廣泛的應(yīng)用。有學(xué)者以美國(guó)麻省理工學(xué)院的心律失常數(shù)據(jù)庫的心電圖為原始數(shù)據(jù),采用不同分類模型,對(duì)心電圖的5種異性波形進(jìn)行分類,為預(yù)測(cè)心臟病的發(fā)生提供了科學(xué)依據(jù)。

2.2.2 關(guān)聯(lián)分析

關(guān)聯(lián)是反映一個(gè)事件和其他事件之間的依賴或聯(lián)系。關(guān)聯(lián)分析主要用于DNA序列間相似搜索與比較、識(shí)別同時(shí)出現(xiàn)的基因序列、在患者生理參數(shù)分析中的應(yīng)用、疾病相關(guān)因素分析等。其處理包括兩個(gè)步驟:第一步是利用標(biāo)準(zhǔn)關(guān)聯(lián)規(guī)則挖掘算法挖掘有關(guān)的關(guān)聯(lián)規(guī)則,第二步是基于所挖掘出的關(guān)聯(lián)規(guī)則構(gòu)造出一個(gè)分類器。關(guān)聯(lián)規(guī)則有如下優(yōu)點(diǎn):可以產(chǎn)生清晰有用的結(jié)果;支持間接數(shù)據(jù)挖掘;可以處理變長(zhǎng)數(shù)據(jù);計(jì)算的消耗量可以預(yù)見。

2.2.3 聚類分析

聚類分析是對(duì)輸入集中的記錄進(jìn)行分類。聚類分析是一種探索性統(tǒng)計(jì)分析方法,是在沒有經(jīng)驗(yàn)的情況下對(duì)數(shù)據(jù)進(jìn)行分類。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué),例如決策樹歸納,貝葉斯分類,神經(jīng)網(wǎng)絡(luò)技術(shù),基于知識(shí)的案例推理,遺傳算法,粗糙集等。

2.2.4 模糊系統(tǒng)

模糊系統(tǒng)是建立在模糊數(shù)學(xué)上的一種推理方式,經(jīng)常與神經(jīng)網(wǎng)絡(luò)聯(lián)合應(yīng)用??梢詮男呐K圖像中分析心室過早收縮,也可以對(duì)肝臟超聲圖像進(jìn)行分析。

2.2.5 進(jìn)化計(jì)算

進(jìn)化算法是從生物進(jìn)化規(guī)律中得出的一種優(yōu)化算法。在醫(yī)學(xué)數(shù)據(jù)挖掘中的主要應(yīng)用有:為二尖瓣脫垂綜合征患者提供治療決策。也可以應(yīng)用于對(duì)脊柱側(cè)凸進(jìn)行分類。

3.醫(yī)學(xué)數(shù)據(jù)挖掘過程

醫(yī)學(xué)數(shù)據(jù)挖掘過程主要包括如下幾個(gè)步驟:(1)理解數(shù)據(jù);(2)準(zhǔn)備數(shù)據(jù);(3)數(shù)據(jù)挖掘;(4)評(píng)估知識(shí);(5)知識(shí)應(yīng)用。

4.醫(yī)學(xué)數(shù)據(jù)挖掘展望

我國(guó)醫(yī)學(xué)數(shù)據(jù)極為豐富,但運(yùn)用數(shù)據(jù)挖掘技術(shù)處理海量信息仍處于初級(jí)階段。醫(yī)學(xué)數(shù)據(jù)挖掘是一門涉及面廣,技術(shù)難度大的新興交叉學(xué)科,需要從事計(jì)算機(jī),統(tǒng)計(jì)學(xué)的科研人員與醫(yī)務(wù)工作者廣泛合作。可以預(yù)見數(shù)據(jù)采掘技術(shù)在醫(yī)學(xué)領(lǐng)域中具有廣闊的應(yīng)用前景,隨著大型數(shù)據(jù)庫和網(wǎng)絡(luò)技術(shù)的普及應(yīng)用,必將有大量的電子格式的數(shù)據(jù)在國(guó)內(nèi)的各行各業(yè)、尤其是醫(yī)療部門中出現(xiàn),信息專業(yè)的研究與開發(fā)人員應(yīng)當(dāng)抓住機(jī)遇,做好技術(shù)上的準(zhǔn)備,迎接挑戰(zhàn)。數(shù)據(jù)挖掘也為醫(yī)學(xué)更好的服務(wù)患者開辟的新的途徑,隨著理論研究的深入及不斷的實(shí)踐探索,相信數(shù)據(jù)挖掘技術(shù)會(huì)在醫(yī)學(xué)的方方面面發(fā)揮越來越大的作用。

參考文獻(xiàn)

[1]Han JW,Kamber M.Data mining: concepts and techniques.3rd Edition.San Francisco:Morgan Kaufmann,2011:1-8.

[2]陳功,范曉薇,蔣萌,等.數(shù)據(jù)挖掘與醫(yī)學(xué)數(shù)據(jù)資源開發(fā)利用[J].北京生物醫(yī)學(xué)工程,2010,29(3):323-328.

[3]朱凌云,吳寶明.醫(yī)學(xué)數(shù)據(jù)挖掘的技術(shù)方法及應(yīng)用[J].生物醫(yī)學(xué)工程雜志,2003,20(3):559-562.

[4]李敬社,等.數(shù)據(jù)挖掘技術(shù)的方法和最新進(jìn)展[J].現(xiàn)代電子技術(shù),2004,6:54-56.

[5]武森.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:冶金工業(yè)出版社,2003.

猜你喜歡
數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
河南科技(2014年19期)2014-02-27 14:15:26
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
高級(jí)數(shù)據(jù)挖掘與應(yīng)用國(guó)際學(xué)術(shù)會(huì)議
石泉县| 栾川县| 扶余县| 保康县| 呼和浩特市| 安远县| 康平县| 泽州县| 东方市| 天气| 株洲县| 和静县| 全南县| 遵义市| 金沙县| 镇原县| 申扎县| 阿拉善盟| 霍林郭勒市| 法库县| 山东| 岗巴县| 衡山县| 保德县| 隆德县| 平顶山市| 栖霞市| 侯马市| 德昌县| 新竹县| 咸丰县| 邻水| 阜新市| 海城市| 社会| 陆良县| 永吉县| 确山县| 海盐县| 福州市| 兴国县|