国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

醫(yī)院信息數(shù)據(jù)挖掘及數(shù)據(jù)可視化

2014-02-02 19:17齊晨虹高生鵬
中國(guó)科技信息 2014年22期
關(guān)鍵詞:數(shù)據(jù)挖掘可視化數(shù)據(jù)庫(kù)

齊晨虹 高生鵬

蘭州交通大學(xué)電子與信息工程學(xué)院

概述

近些年來(lái),信息技術(shù)快速發(fā)展,現(xiàn)代計(jì)算機(jī)信息應(yīng)用技術(shù)在醫(yī)療領(lǐng)域發(fā)揮了前所未有的作用,大型醫(yī)院都已經(jīng)建立了醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)隨著HIS 的廣泛使用,數(shù)據(jù)庫(kù)中的醫(yī)院信息不斷累積增加。海量數(shù)據(jù)急劇增加,往往不能得到有效的應(yīng)用;若沒(méi)有辦法深入理解數(shù)據(jù)庫(kù)里面的信息,則將會(huì)失去醫(yī)院信息的價(jià)值。所以,當(dāng)前在醫(yī)院信息化的建設(shè)過(guò)程中需要處理的問(wèn)題之一就是如何充分地利用HIS 數(shù)據(jù)庫(kù)中的寶貴信息資源來(lái)為臨床科研、醫(yī)院服務(wù)質(zhì)量、醫(yī)院領(lǐng)導(dǎo)決策、衛(wèi)生統(tǒng)計(jì)等提供科學(xué)的依據(jù)。

隨著各醫(yī)院的HIS 大范圍使用運(yùn)行之后,其HIS 數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)不斷增加,數(shù)據(jù)庫(kù)中歷史數(shù)據(jù)日益增多。在這種背景情況下,把數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)可視化技術(shù)應(yīng)用到處理醫(yī)院醫(yī)療數(shù)據(jù)上是一個(gè)大趨勢(shì)。數(shù)據(jù)挖掘技術(shù)對(duì)部分醫(yī)療數(shù)據(jù)進(jìn)行了處理,但所得結(jié)果不便于理解因而無(wú)法為專(zhuān)業(yè)人員提供更好支持,而針對(duì)傳統(tǒng)數(shù)據(jù)挖掘技術(shù)所得到的各種模式能夠提供集成統(tǒng)一的接口及多種形式、多種角度、多種維度的直觀(guān)的可視化展現(xiàn)方式,可以為專(zhuān)業(yè)人員提供更強(qiáng)有力的支持。

國(guó)內(nèi)外研究現(xiàn)狀

國(guó)外研究現(xiàn)狀

早在2002年IBM 華生研究中心對(duì)以色列的耶路撒冷和哈達(dá)薩醫(yī)院的病人病例,開(kāi)發(fā)了Opal 工具包,對(duì)大量的骨髓移植數(shù)據(jù)進(jìn)行了可視化顯示,這是一個(gè)在生物信息學(xué)領(lǐng)域的信息可視化技術(shù)方面的很好的實(shí)用性實(shí)例。Brant Chee 等人相繼于2008年和2009年提出了健康信息藥物治療方案的可視化和醫(yī)療衛(wèi)生信息的社會(huì)可視化。進(jìn)而實(shí)現(xiàn)了信息可視化在醫(yī)療領(lǐng)域的應(yīng)用,并從中發(fā)現(xiàn)藥物和社會(huì)團(tuán)體之間的關(guān)聯(lián)關(guān)系和環(huán)境對(duì)人的健康狀況的影響。美國(guó)卡內(nèi)基梅隆大學(xué)的Christopher 等人于2009年提出基于初級(jí)保健糖尿病風(fēng)險(xiǎn)的分類(lèi)和評(píng)估的可視化方法。本研究與醫(yī)學(xué)證據(jù)、統(tǒng)計(jì)降維技術(shù)和信息可視化相結(jié)合建立一個(gè)框架,從而開(kāi)發(fā)信息可視化分類(lèi)器用于糖尿病風(fēng)險(xiǎn)的評(píng)估患者群中。日本島根大學(xué)的Shusaku Tsumoto 等人于2011年。他們提出了包括決策樹(shù)、聚類(lèi)分析、MDS和三維數(shù)據(jù)挖掘的時(shí)空數(shù)據(jù)挖掘過(guò)程。結(jié)果表明,大量存儲(chǔ)數(shù)據(jù)的復(fù)用為基于醫(yī)院臨床行為的分類(lèi)表征時(shí)間趨勢(shì)提供有力的工具。葡萄牙的Pedro Pereira Rodrigues 做了預(yù)測(cè)基于虛擬病人記錄的訪(fǎng)問(wèn)日志的生存分析的醫(yī)院臨床報(bào)告的可視化的研究。馬來(lái)西亞的Muhammad Sheraz Arshad Maik 等人從醫(yī)生的視角研究了電子病歷可視化系統(tǒng)在公立醫(yī)院的使用,用抽象有效的病人數(shù)據(jù)直觀(guān)顯示,以獲取有效信息進(jìn)而改善病人的護(hù)理。美國(guó)NeuroMedical和Vysis 公司利用數(shù)據(jù)挖掘可視化技術(shù),通過(guò)對(duì)其趨勢(shì)分析進(jìn)行藥物篩選,為藥品的研發(fā)進(jìn)行蛋白質(zhì)的分析,對(duì)藥物副作用進(jìn)行了探索,發(fā)現(xiàn)了藥物間的副作用。Marinovm 等人提出通過(guò)數(shù)據(jù)挖掘可視化技術(shù)對(duì)糖尿病及并發(fā)癥流行病學(xué)進(jìn)行了研究。

國(guó)內(nèi)研究現(xiàn)狀

在國(guó)內(nèi),對(duì)于醫(yī)院信息數(shù)據(jù)挖掘及數(shù)據(jù)可視化的發(fā)展相對(duì)較晚。北京大學(xué)袁曉如教授帶領(lǐng)的北大可視化研究小組在圖可視化、軌跡可視化,微博可視化等領(lǐng)域開(kāi)展了相關(guān)的研究工作。浙江大學(xué)在醫(yī)院信息系統(tǒng)的數(shù)據(jù)挖掘技術(shù)、可視化領(lǐng)域開(kāi)展了相關(guān)的研究工作。清華大學(xué)的唐澤圣教授是國(guó)內(nèi)較早進(jìn)行可視化研究的學(xué)者之一,其研究領(lǐng)域涵蓋了醫(yī)學(xué)、地質(zhì)學(xué)和氣象學(xué)可視化分析。中科院軟件所的田捷教授等在醫(yī)學(xué)可視化領(lǐng)域取得了一些研究成果。浙江大學(xué)、北京大學(xué)也建立了可視化的國(guó)家重點(diǎn)實(shí)驗(yàn)室,并在可視化方面做了很多的工作。近幾年我國(guó)對(duì)HIS 進(jìn)行數(shù)據(jù)挖掘的研究相對(duì)國(guó)外較少,我們?cè)阢y行、移動(dòng)通信、證券、聯(lián)通、保險(xiǎn)、電信等相關(guān)行業(yè)雖然已經(jīng)成功的應(yīng)用數(shù)據(jù)挖掘技術(shù),可是當(dāng)前在HIS 中的應(yīng)用還處于初始階段。據(jù)報(bào)道對(duì)HIS 所產(chǎn)生的數(shù)據(jù)進(jìn)行挖掘研究的機(jī)構(gòu),目前在國(guó)內(nèi)有北京協(xié)和醫(yī)院信息中心、解放軍福州總醫(yī)院信息中心等。

數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘及其在醫(yī)療研究中的應(yīng)用

數(shù)據(jù)挖掘是在1989年提出來(lái)的,也稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)。挖掘的過(guò)程一般由確定挖掘的對(duì)象、數(shù)據(jù)準(zhǔn)備、模型建立、數(shù)據(jù)挖掘、結(jié)果分析表述、挖掘應(yīng)用等階段組成。

當(dāng)前的醫(yī)療機(jī)構(gòu)的數(shù)字化增大了醫(yī)院數(shù)據(jù)庫(kù)醫(yī)療數(shù)據(jù)數(shù)量。在疾病的診斷、治療和醫(yī)療研究方面都,這些寶貴的醫(yī)療信息提現(xiàn)的非常有價(jià)值。因此,怎樣自動(dòng)提升和處理醫(yī)療數(shù)據(jù)庫(kù),進(jìn)而提供全局的、精準(zhǔn)的保健措施和診斷決策,已經(jīng)成為提高醫(yī)院服務(wù)質(zhì)量和促進(jìn)醫(yī)院長(zhǎng)遠(yuǎn)發(fā)展而必須解決的新問(wèn)題。醫(yī)療數(shù)據(jù)挖掘就在這種背景下應(yīng)運(yùn)而生。

數(shù)據(jù)挖掘應(yīng)用于醫(yī)療方面被提出來(lái)之后,生物醫(yī)療工程領(lǐng)域就將這一領(lǐng)域應(yīng)用到其中,并取得了相當(dāng)大的成果。從指定醫(yī)療數(shù)據(jù)中找到醫(yī)療模式類(lèi)是這項(xiàng)技術(shù)的主要功能。在文獻(xiàn)中指出,在生物工程領(lǐng)域主要有兩類(lèi)典型的研究方向:描述生理規(guī)律或現(xiàn)象;預(yù)測(cè)和診斷疾病發(fā)作??梢园l(fā)現(xiàn)醫(yī)療知識(shí)模式主要有:孤立點(diǎn)分析、聚類(lèi)分析、概念/類(lèi)別描述、關(guān)聯(lián)分析、演變分析、分類(lèi)和預(yù)測(cè)等。

所挖掘知識(shí)的類(lèi)型

數(shù)據(jù)挖掘所挖掘的知識(shí)大致有幾種:事物各方面的特征知識(shí)、事物各方面的特征知識(shí)、反映同類(lèi)事物共同性質(zhì)的廣義知識(shí)、事物間依賴(lài)關(guān)聯(lián)的知識(shí)、不同事物間屬性差異的知識(shí)、一些事物中異常偏離知識(shí)等。HIS 在使用中,為了滿(mǎn)足不同用戶(hù)和不同層次決策的需要,可以根據(jù)類(lèi)型的不同對(duì)針對(duì)一些隱藏的住院醫(yī)療主題和疾病數(shù)據(jù),分別選擇不同的挖掘方法。

任何一種數(shù)據(jù)挖掘的算法,無(wú)論是統(tǒng)計(jì)分析方法,還是神經(jīng)網(wǎng)絡(luò)、遺傳算法等,都要針對(duì)具體的情況,采用不同的算法解決,即使對(duì)于同一個(gè)問(wèn)題,可能有表現(xiàn)不一的多種算法,這時(shí),需要尋找最優(yōu)的算法。

數(shù)據(jù)挖掘功能

從數(shù)據(jù)中發(fā)現(xiàn)模式或知識(shí)是數(shù)據(jù)挖掘的主要任務(wù)。模式按功能可分有兩大類(lèi):預(yù)測(cè)型(Predictive)模式和描述型(Descriptive)模式。分類(lèi)為:時(shí)間序列模式、分類(lèi)模式、回歸模式、關(guān)聯(lián)模式、聚類(lèi)模式。以上受監(jiān)督知識(shí)包含時(shí)間序列模式、分類(lèi)模式、回歸模式,屬于預(yù)測(cè)型模式,由于在建立模式前數(shù)據(jù)的結(jié)果是已知的,可直接對(duì)模式的預(yù)測(cè)準(zhǔn)確性進(jìn)行檢測(cè),模式的產(chǎn)生是在受監(jiān)督的情況下進(jìn)行的。非監(jiān)督知識(shí)包含關(guān)聯(lián)模式、聚類(lèi)模式,屬于描述型模式,因?yàn)樵谀J浇⒅捌浣Y(jié)果是未知的,模式產(chǎn)生不受任何監(jiān)督。

研究的相關(guān)方法

醫(yī)療信息系統(tǒng)的數(shù)據(jù)挖掘的方法與傳統(tǒng)的挖掘模式相似,即為數(shù)據(jù)的采集、預(yù)處理、類(lèi)型轉(zhuǎn)換、挖掘、知識(shí)評(píng)價(jià)、知識(shí)利用等。

醫(yī)療信息系統(tǒng)所包含的數(shù)據(jù)既多元化又復(fù)雜化,所以根據(jù)醫(yī)學(xué)數(shù)據(jù)的特點(diǎn)使得醫(yī)學(xué)數(shù)據(jù)挖掘又與通用的數(shù)據(jù)挖掘之間存在差異。這里的工作主要體現(xiàn)在主要體現(xiàn)在數(shù)據(jù)預(yù)處理的階段。在這一階段,由于醫(yī)學(xué)數(shù)據(jù)的冗余性,需要在重要性和相關(guān)性檢驗(yàn)的基礎(chǔ)上采樣以消減數(shù)據(jù);又由于醫(yī)學(xué)數(shù)據(jù)的多樣性,須針對(duì)各種類(lèi)型的數(shù)據(jù)采取相應(yīng)的數(shù)據(jù)預(yù)處理方法。通過(guò)這個(gè)步驟的數(shù)據(jù)準(zhǔn)備,將原始數(shù)據(jù)轉(zhuǎn)換為特定數(shù)據(jù)挖掘方法所需要的數(shù)據(jù)形式。這一步驟直接影響挖掘的效果,工作量占整個(gè)過(guò)程的50%以上。

可視化數(shù)據(jù)挖掘在醫(yī)院信息中的應(yīng)用

可視化數(shù)據(jù)挖掘技術(shù)

使用圖形和圖像來(lái)表征數(shù)據(jù)是可視化的基本思想,以易于領(lǐng)會(huì)、相對(duì)直觀(guān)的圖形、圖像方式將隱藏在大量數(shù)據(jù)中的信息表達(dá)出來(lái),進(jìn)而加快用戶(hù)獲取知識(shí)的速度。數(shù)據(jù)可視化是數(shù)據(jù)分析過(guò)程中一個(gè)必不可少的過(guò)程,對(duì)大型數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行可視化。目前在數(shù)據(jù)可視化方面的研究方向主要是以不同的抽象層次將維度、屬性進(jìn)行互聯(lián)之后將關(guān)系數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),以展現(xiàn)給用戶(hù)不同的呈現(xiàn)形式,并將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表現(xiàn)出來(lái),并可以以不同的維度觀(guān)察數(shù)據(jù),從而更深層地分析和觀(guān)察數(shù)據(jù)。

可視化數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)發(fā)展的必然,它是數(shù)據(jù)挖掘技術(shù)和可視化技術(shù)結(jié)合的產(chǎn)物,是一種對(duì)挖掘大數(shù)據(jù)集既高效又新穎的方法。它所涉及的領(lǐng)域較廣,如計(jì)算機(jī)輔助設(shè)計(jì),計(jì)算機(jī)圖形圖像處理,人機(jī)交互技術(shù)和計(jì)算機(jī)視覺(jué)等多個(gè)領(lǐng)域。由于醫(yī)療信息數(shù)據(jù)量的增加,進(jìn)而影響醫(yī)院信息的數(shù)據(jù)的多元化和復(fù)雜化程度的增大,用戶(hù)就更加難以理解挖掘出來(lái)的結(jié)果和信息。因此,使相關(guān)用戶(hù)可以交互地查看數(shù)據(jù)、挖掘的過(guò)程等是可視化數(shù)據(jù)挖掘的最終目的,使得人們對(duì)識(shí)別不規(guī)則事物是一些圖形而不是一些數(shù)字和表格時(shí)的速度會(huì)較快,而且也容易接受。所以在對(duì)醫(yī)院信息系統(tǒng)的數(shù)據(jù)挖掘中,以用戶(hù)比較容易理解、接受的圖像、圖表、圖形等形式對(duì)中間過(guò)程結(jié)果或者最終的結(jié)果直觀(guān)地表現(xiàn)出來(lái),對(duì)相關(guān)用戶(hù)意義重大。

醫(yī)院信息可視化目標(biāo)

將進(jìn)行數(shù)據(jù)挖掘后的數(shù)據(jù)集導(dǎo)入可視化平臺(tái)進(jìn)行可視化呈現(xiàn)。用工具R、Python、D3 等開(kāi)發(fā)工具開(kāi)發(fā)可視化平臺(tái),并通過(guò)基于圖形可視化技術(shù),將數(shù)據(jù)集中的所用數(shù)據(jù)屬性各種關(guān)系使用直觀(guān)的圖形,進(jìn)而顯示出數(shù)據(jù)中潛在的信息知識(shí)及其數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。在數(shù)據(jù)顯示上,以幾何畫(huà)法或幾何投影的方式來(lái)表示數(shù)據(jù)庫(kù)中的數(shù)據(jù),運(yùn)用基于查詢(xún)的方法將每一個(gè)數(shù)據(jù)項(xiàng)的數(shù)據(jù)值對(duì)應(yīng)于一個(gè)帶顏色的屏幕像素,對(duì)于不同的數(shù)據(jù)屬性以不同的窗口分別表示,采用區(qū)域分組圖、中心爆炸圖、中心環(huán)圖、流圖、塊莖圖、輻狀會(huì)聚圖、比例大小圓形圖、分支圖等多種可視化圖形方式進(jìn)行數(shù)據(jù)的展現(xiàn)。另外,為了提高可視化分析的針對(duì)性和靈活性,設(shè)計(jì)者應(yīng)盡量設(shè)計(jì)具有互動(dòng)效果的可視化呈現(xiàn)方式,使用者可以根據(jù)自己的需要變換所顯示的數(shù)據(jù)維數(shù)、顯示方式和色彩等內(nèi)容。

舉例,針對(duì)婦幼保健院的醫(yī)院信息系統(tǒng),可視化所涉及的數(shù)據(jù)類(lèi)型大概可以包括:婦女主要病癥(主要是腫瘤類(lèi)、炎癥類(lèi)和不孕不育類(lèi))的可視化,在可視化中需要展現(xiàn)出這些病癥與地域、本人身體狀況、民族、教育程度、飲食狀況等之間的關(guān)系;嬰幼兒主要病癥(主要包括先天缺陷、炎癥、腹瀉、出血、溶血、黃疸)的可視化,尋找嬰幼兒的病癥與家庭、父母、營(yíng)養(yǎng)、地域等因素之間的關(guān)系;同一病癥用藥的變化情況,包括用藥品種、用藥量、用藥周期;不同病癥用藥之間的關(guān)聯(lián)情況等。進(jìn)而,以充分地利用HIS 數(shù)據(jù)庫(kù)中的寶貴信息資源來(lái)為臨床科研、醫(yī)院領(lǐng)導(dǎo)決策、衛(wèi)生統(tǒng)計(jì)等提供科學(xué)的依據(jù),將成為當(dāng)前在醫(yī)院信息化的建設(shè)過(guò)程中需要處理的問(wèn)題。

數(shù)據(jù)可視化技術(shù)的應(yīng)用前景

對(duì)事物的變化過(guò)程和轉(zhuǎn)折點(diǎn)進(jìn)行分析和研究,可以把握其將來(lái)的發(fā)展方向,無(wú)論是對(duì)自然科學(xué)、社會(huì)科學(xué)還是醫(yī)學(xué)都是永恒的話(huà)題。數(shù)據(jù)可視化的研究機(jī)構(gòu)和學(xué)者們也在時(shí)空格局可視化方面做研究,這些學(xué)者在“把握事物發(fā)展脈絡(luò)、探測(cè)轉(zhuǎn)折點(diǎn)”等方面取得了優(yōu)異的成果,也象征和預(yù)示著數(shù)據(jù)可視化技術(shù)對(duì)各個(gè)科學(xué)研究領(lǐng)域的應(yīng)用價(jià)值。

總結(jié)與展望

醫(yī)院信息的數(shù)據(jù)挖掘和可視化應(yīng)該積極參考醫(yī)生和相關(guān)工作人員的意見(jiàn),進(jìn)而可視化出對(duì)未來(lái)具有參考價(jià)值的信息。目前,國(guó)內(nèi)有若干研究人員對(duì)醫(yī)院信息的數(shù)據(jù)挖掘的研究具有相當(dāng)?shù)倪M(jìn)展,但是在醫(yī)院信息可視化方面的研究相對(duì)較少。在關(guān)注可視化的發(fā)展和信息有效利用的同時(shí),也應(yīng)該考慮對(duì)于相關(guān)用戶(hù)的直觀(guān)性、價(jià)值性和可操作性。

在今后的研究工作中,將數(shù)據(jù)挖掘和可視化工作有機(jī)的結(jié)合起來(lái)是我們工作的重點(diǎn),并針對(duì)醫(yī)院信息,爭(zhēng)取在數(shù)據(jù)挖掘方面和可視化方面有所突破,進(jìn)而能夠有效利用這些醫(yī)院的歷史數(shù)據(jù)和時(shí)態(tài)數(shù)據(jù)等,為臨床科研、醫(yī)院服務(wù)質(zhì)量、醫(yī)院領(lǐng)導(dǎo)決策、衛(wèi)生統(tǒng)計(jì)、提高醫(yī)院服務(wù)質(zhì)量等方面提供科學(xué)的依據(jù)。

猜你喜歡
數(shù)據(jù)挖掘可視化數(shù)據(jù)庫(kù)
基于CiteSpace的足三里穴研究可視化分析
思維可視化
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
基于CGAL和OpenGL的海底地形三維可視化
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)