国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于臨床信息系統(tǒng)的數(shù)據(jù)集市構(gòu)建及挖掘應(yīng)用*

2015-03-14 06:09:32楊曉妍王覓也師慶科
醫(yī)學(xué)信息學(xué)雜志 2015年12期
關(guān)鍵詞:特征選擇集市數(shù)據(jù)挖掘

張 睿 楊曉妍 王覓也 李 楠 師慶科 黃 勇

(四川大學(xué)華西醫(yī)院 成都 610041)

?

?醫(yī)學(xué)信息研究?

基于臨床信息系統(tǒng)的數(shù)據(jù)集市構(gòu)建及挖掘應(yīng)用*

張 睿 楊曉妍 王覓也 李 楠 師慶科 黃 勇

(四川大學(xué)華西醫(yī)院 成都 610041)

基于臨床信息系統(tǒng)(Clinical Information System, CIS)構(gòu)建臨床數(shù)據(jù)集市,介紹臨床數(shù)據(jù)的整合、數(shù)據(jù)集市結(jié)構(gòu)設(shè)計(jì)及數(shù)據(jù)預(yù)處理,構(gòu)建二維數(shù)據(jù)集并基于Weka軟件進(jìn)行特征選擇,最后給出應(yīng)用實(shí)例。

臨床數(shù)據(jù)集市; 數(shù)據(jù)挖掘; 特征選擇; 臨床信息系統(tǒng)

1 引言

數(shù)據(jù)集市(Data Mart)也稱數(shù)據(jù)市場(chǎng)。近年來(lái),醫(yī)療市場(chǎng)競(jìng)爭(zhēng)日趨激烈,醫(yī)院要在市場(chǎng)競(jìng)爭(zhēng)中取得競(jìng)爭(zhēng)的優(yōu)勢(shì),就必須考慮利用已經(jīng)積累的診斷冶療等歷史數(shù)據(jù),通過(guò)深層挖掘、分析,快速獲取有價(jià)值的信息,為醫(yī)院提供準(zhǔn)確、方便的決策支持。臨床信息系統(tǒng)(Clinical Information System, CIS)的廣泛應(yīng)用,使更多的日常醫(yī)療業(yè)務(wù)數(shù)據(jù)以信息化方式存儲(chǔ)下來(lái)。而依附于CIS構(gòu)建的臨床數(shù)據(jù)集市(Clinical Data Mart)可持續(xù)地為數(shù)據(jù)分析及挖掘提供數(shù)據(jù)基礎(chǔ)[1-2]。但隨著臨床信息的進(jìn)一步豐富,數(shù)據(jù)的實(shí)例數(shù)與維數(shù)(即特征變量或研究變量)急劇增加,由此帶來(lái)兩方面問(wèn)題:一是“維數(shù)災(zāi)難”,維數(shù)膨脹給高維數(shù)據(jù)中模式識(shí)別及知識(shí)發(fā)現(xiàn)帶來(lái)挑戰(zhàn),許多經(jīng)典的低維數(shù)據(jù)處理方法在處理高維數(shù)據(jù)時(shí)存在困難;二是“維數(shù)福音”,高維數(shù)據(jù)中蘊(yùn)藏著豐富的信息,為問(wèn)題解決帶來(lái)了新的可能性。因此,如何將高維數(shù)據(jù)在低維空間中表示,由此發(fā)現(xiàn)其可能的內(nèi)在關(guān)聯(lián)是高維數(shù)據(jù)處理的一個(gè)關(guān)鍵問(wèn)題。未來(lái)基因芯片數(shù)據(jù)的加入,特征數(shù)目將繼續(xù)膨脹,使大多數(shù)機(jī)器學(xué)習(xí)算法所需的訓(xùn)練樣本數(shù)量也將急劇增加[3]。而醫(yī)院擁有的病例樣本始終有限,因此尋找好的特征集以代表原始數(shù)據(jù)集,不僅可以降低計(jì)算復(fù)雜度、提高預(yù)測(cè)精度,更有助于尋找精簡(jiǎn)的、泛化能力更強(qiáng)的模型。本研究將基于CIS構(gòu)建臨床數(shù)據(jù)集市(涉及的CIS及臨床數(shù)據(jù)集市均基于Caché數(shù)據(jù)庫(kù)構(gòu)建),依據(jù)研究目的對(duì)其整合后的數(shù)據(jù)集(Data Set)進(jìn)行特征選擇等數(shù)據(jù)挖掘分析(在醫(yī)學(xué)領(lǐng)域也稱為“變量篩選”)。

2 基于CIS的臨床數(shù)據(jù)集市建立

2.1 相關(guān)臨床數(shù)據(jù)的整合

臨床數(shù)據(jù)集市構(gòu)建的難點(diǎn)在于不同操作類型信息系統(tǒng)中的信息整合[4]。本研究將整合下列信息:(1)病案首頁(yè)等基礎(chǔ)信息,包含年齡、性別、民族、入(出)院日期、科室、住院日等。為保護(hù)患者隱私,所有個(gè)人隱私信息均被排除。(2)臨床發(fā)現(xiàn)類術(shù)語(yǔ)(Clinical Finding)信息,其是SNOMED CT中最重要的頂層概念之一,包含癥狀、體征、既往患病等。依托既往研究成果,本研究從全院主訴及現(xiàn)病史中抽取癥狀、體征及疾病、病征等共61 861個(gè)臨床發(fā)現(xiàn)類術(shù)語(yǔ)信息,其中部分術(shù)語(yǔ)已與SNOMED CT成功映射。(3)實(shí)驗(yàn)室檢驗(yàn)信息,包含各類檢驗(yàn)醫(yī)囑(如血細(xì)胞分析)及此醫(yī)囑下的各檢驗(yàn)項(xiàng)名稱(如血紅蛋白)、結(jié)果、單位等,共1 312項(xiàng)。(4)病案相關(guān)信息整合,包括標(biāo)準(zhǔn)的入、出院診斷編碼(ICD-10)、手術(shù)編碼(ICD-9-CM)、腫瘤形態(tài)學(xué)編碼(ICD-O-3)等。(5)費(fèi)用類相關(guān)信息,以3種粒度存儲(chǔ)于數(shù)據(jù)集市中:核算分類粒度如治療費(fèi)、西藥費(fèi)等,可進(jìn)行費(fèi)別分析;醫(yī)囑項(xiàng)粒度包含患者的醫(yī)囑明細(xì)清單;收費(fèi)項(xiàng)粒度包含患者所有使用的收費(fèi)項(xiàng)目明細(xì)。(6)其余電子病歷相關(guān)信息,如身高、體重以及病理及影像學(xué)中部分可結(jié)構(gòu)化存儲(chǔ)的信息。

2.2 數(shù)據(jù)集市結(jié)構(gòu)設(shè)計(jì)

數(shù)據(jù)集市以“住院就診表”為核心,其余事實(shí)表通過(guò)“病案號(hào)”字段與其進(jìn)行關(guān)聯(lián)。研究共包含14個(gè)事實(shí)表及30余個(gè)維度表,見(jiàn)圖1。

圖1 數(shù)據(jù)集市事實(shí)表關(guān)系

2.3 數(shù)據(jù)預(yù)處理

數(shù)據(jù)集市原始數(shù)據(jù)來(lái)源于CIS中診療業(yè)務(wù)數(shù)據(jù),由于存在噪聲、不完整及不一致等問(wèn)題,原始數(shù)據(jù)不能直接使用。理論上所有的數(shù)據(jù)挖掘算法都是數(shù)據(jù)驅(qū)動(dòng),所以數(shù)據(jù)挖掘的結(jié)果極度依賴于數(shù)據(jù)集的質(zhì)量[5]。本研究依據(jù)CIS中數(shù)據(jù)實(shí)際情況,進(jìn)行了如下預(yù)處理工作:(1)錯(cuò)誤數(shù)據(jù)處理。CIS中包含多種類型的數(shù)據(jù)異?;蝈e(cuò)誤,如所填數(shù)值與量綱明顯不符,非法字符造成數(shù)據(jù)異常分隔、截取,非腫瘤病人出現(xiàn)腫瘤形態(tài)學(xué)編碼或腫瘤分期等。針對(duì)這類錯(cuò)誤,需核查原始數(shù)據(jù)及取值來(lái)源,找出問(wèn)題根源,或與相關(guān)業(yè)務(wù)人員或工程師溝通后調(diào)整。(2)計(jì)量與等級(jí)資料的統(tǒng)一。醫(yī)院不同時(shí)期的數(shù)據(jù)可能因各種原因(如檢驗(yàn)方法或設(shè)備更替)造成存儲(chǔ)格式前后不一致,如某些檢驗(yàn)類指標(biāo)前期是定性數(shù)據(jù)(-、1+、2+、3+),其后因檢驗(yàn)技術(shù)升級(jí)變?yōu)槎繑?shù)據(jù)。這類數(shù)據(jù)需進(jìn)行統(tǒng)一,向檢驗(yàn)科求證以及查證相關(guān)專業(yè)文獻(xiàn)后進(jìn)行轉(zhuǎn)換。(3)依據(jù)專業(yè)知識(shí)生產(chǎn)新的變量。如吸煙指數(shù)(包*年)及身高體重指數(shù)(BMI)。

3 二維數(shù)據(jù)集構(gòu)建與應(yīng)用

3.1 構(gòu)建

3.1.1 需考慮的問(wèn)題 臨床科研目的多種多樣,但較普遍的是臨床診斷、疾病預(yù)警以及病因及預(yù)后分析,如探索病例組與對(duì)照組間是否存在較好的疾病鑒別特征,或不同類型的預(yù)后究竟可能與哪些因素相關(guān),其本質(zhì)是兩組樣本間的分析。針對(duì)這類普遍的組間分析需求,二維數(shù)據(jù)集的構(gòu)建需考慮如下幾點(diǎn):(1)低粒度數(shù)據(jù)的匯聚。一次就診,同一藥物可能在住院期間多次使用,但應(yīng)以患者就診粒度進(jìn)行組織,將同一藥物多次用藥信息匯聚后存儲(chǔ)。(2)多時(shí)間點(diǎn)取值問(wèn)題??紤]到患者在一次就診中可能多次進(jìn)行相同的檢查項(xiàng)目,而二維表數(shù)據(jù)無(wú)法將所有同類項(xiàng)目完全納入。結(jié)合多數(shù)研究目的,選取患者入院后該項(xiàng)目的首次檢查結(jié)果以構(gòu)成此數(shù)據(jù)項(xiàng),以代表原始病情。(3)連續(xù)型變量是否進(jìn)行離散化。如對(duì)數(shù)值型的實(shí)驗(yàn)室檢查結(jié)果是否需離散化為“正?!?、“過(guò)高”、“過(guò)低”等結(jié)果。從計(jì)算機(jī)角度,離散化后的數(shù)據(jù)在降維后可約減更多的屬性,但離散化后的數(shù)據(jù)會(huì)損失部分信息量,因此本研究?jī)H將臨床上有明確等級(jí)劃分的指標(biāo)進(jìn)行離散化處理。(4)缺失值的處理。臨床業(yè)務(wù)數(shù)據(jù)中缺失值極其普遍,因?yàn)榕R床往往依據(jù)患者病情選擇檢查項(xiàng)目,而未進(jìn)行的檢查占絕大多數(shù)。但這些缺失數(shù)據(jù)其本身蘊(yùn)含信息,而且部分缺失值較多的數(shù)據(jù)項(xiàng)(如EB病毒檢測(cè))還可能是構(gòu)建醫(yī)學(xué)分類器的關(guān)鍵指標(biāo),不可輕易忽略。Little等[6]研究也表明,醫(yī)學(xué)數(shù)據(jù)集的這類缺失是不可忽略、非隨機(jī)缺失的,不可進(jìn)行數(shù)據(jù)補(bǔ)齊。

3.1.2 構(gòu)建結(jié)果 最終本研究設(shè)計(jì)了如下二維科研數(shù)據(jù)集,見(jiàn)表1。此二維數(shù)據(jù)集擁有8萬(wàn)余個(gè)特征變量,存儲(chǔ)于Caché數(shù)據(jù)庫(kù)的Global中,較難直接應(yīng)用。而且,在分析具體臨床問(wèn)題時(shí),并非所有特征變量在此研究目的上均有體現(xiàn),呈現(xiàn)出數(shù)據(jù)稀疏(Data Sparsity)問(wèn)題。為此,研究設(shè)計(jì)如下方案對(duì)科研數(shù)據(jù)集進(jìn)行動(dòng)態(tài)優(yōu)化,以減少特征變量的輸出:針對(duì)欲研究的樣本數(shù)據(jù),遍歷數(shù)據(jù)集中每個(gè)特征變量的取值情況,如其只出現(xiàn)過(guò)n次以下的非空值,則移除此特征變量(n值可自行設(shè)定,有文獻(xiàn)報(bào)道n約為總實(shí)例數(shù)×2%為佳,本文為避免將潛在有意義的特征變量移除,將n值保守設(shè)置為3)。于是在輸出的數(shù)據(jù)中,那些無(wú)取值或取值極其稀少的特征變量被迅速移除,從而達(dá)到降低數(shù)據(jù)集維度的目的。

表1 二維科研數(shù)據(jù)集

3.2 基于Weka軟件的特征選擇

在進(jìn)行數(shù)據(jù)挖掘之前,人們總希望選擇有代表性的特征,但卻并不知道哪些特征更富含信息量,而特征選擇可很好地解決此類問(wèn)題。特征選擇[7]是模式識(shí)別及機(jī)器學(xué)習(xí)領(lǐng)域的重要研究方向,通過(guò)刪除無(wú)關(guān)及冗余的特征變量,為特定的應(yīng)用在不失去數(shù)據(jù)原有價(jià)值的基礎(chǔ)上選擇盡可能小的特征子集。臨床上應(yīng)用特征選擇算法處理高維數(shù)據(jù)集,可避免無(wú)關(guān)及冗余特征對(duì)預(yù)測(cè)性能的影響,從而提高機(jī)器學(xué)習(xí)效率,增強(qiáng)學(xué)習(xí)模型的泛化能力,更可通過(guò)此過(guò)程發(fā)現(xiàn)富含信息的、潛在的、與研究病種高度相關(guān)的特征。特征選擇主要分過(guò)濾式(Filter)及封裝式(Wrapper)方法[8]。與Wrapper方法不同,F(xiàn)ilter方法不依賴后續(xù)具體的機(jī)器學(xué)習(xí)方法來(lái)進(jìn)行特征評(píng)價(jià),而是根據(jù)數(shù)據(jù)集內(nèi)在性質(zhì)評(píng)價(jià)每個(gè)特征對(duì)分類的預(yù)測(cè)能力,其通用性強(qiáng)、選擇速度快,適合較大規(guī)模的數(shù)據(jù)集。Filter方法進(jìn)一步可分為單因素及多因素方法[9],前者忽略特征間的相互作用,獨(dú)立評(píng)估每個(gè)特征,按特征與類別的相關(guān)程度進(jìn)行量化;后者則考慮多個(gè)特征間的相互作用,形成相應(yīng)的特征子集。本研究主要以基于單因素的Filter方法進(jìn)行特征選擇。為方便應(yīng)用數(shù)據(jù)挖掘平臺(tái)Weka進(jìn)行特征選擇,通過(guò)程序?qū)崿F(xiàn)將Caché中數(shù)據(jù)直接轉(zhuǎn)換生成ARFF格式的文本文件。Weka集成多種特征選擇方法,其中,基于卡方統(tǒng)計(jì)量(X2Statistic)的特征選擇方法[10]依據(jù)研究分類對(duì)每個(gè)特征計(jì)算卡方值后進(jìn)行評(píng)估,對(duì)分類資料進(jìn)行卡方檢驗(yàn)量計(jì)算,而對(duì)于連續(xù)型變量一般是先將其離散化后再進(jìn)行計(jì)算??ǚ浇y(tǒng)計(jì)中使用特征與類別間的卡方值作為量化標(biāo)準(zhǔn),卡方值越高,該特征相應(yīng)就越重要,越應(yīng)該保留供后續(xù)分析使用。

3.3 應(yīng)用案例

本研究以鼻咽癌與耳鼻喉科良性疾病對(duì)比為例,選擇不含醫(yī)囑信息的二維數(shù)據(jù)集進(jìn)行研究。依據(jù)研究病種分類對(duì)數(shù)據(jù)集進(jìn)行動(dòng)態(tài)優(yōu)化后,數(shù)據(jù)維度由原來(lái)的6萬(wàn)余維減少到1 617維,數(shù)據(jù)降維效果明顯。將優(yōu)化后的數(shù)據(jù)集導(dǎo)入Weka行特征選擇,應(yīng)用基于卡方統(tǒng)計(jì)量的特征選擇后,不僅可以明確哪些特征與研究分類高度相關(guān),還能給出量化結(jié)果。Weka軟件通過(guò)“特征權(quán)重算法+排序”方式,將相關(guān)特征按權(quán)重由高到低進(jìn)行排列。經(jīng)特征選擇后,患者年齡、淋巴細(xì)胞絕對(duì)值、血清氯離子、回吸性涕血、鼻咽部新生物等在兩組中分布差異有統(tǒng)計(jì)學(xué)意義,提示以上特征有助于兩組疾病的鑒別。其中大部分指標(biāo)符合臨床預(yù)期及經(jīng)驗(yàn),但部分特征如血清氯離子等尚不符合臨床預(yù)期。對(duì)這些不符合臨床預(yù)期的指標(biāo)應(yīng)進(jìn)行數(shù)據(jù)核查,當(dāng)數(shù)據(jù)核查無(wú)誤而臨床仍較難理解時(shí)應(yīng)查閱相關(guān)文獻(xiàn)。如文獻(xiàn)報(bào)道較少但數(shù)據(jù)分析組間確有統(tǒng)計(jì)學(xué)差異時(shí),那么其很可能導(dǎo)致新的見(jiàn)解產(chǎn)生,這也是對(duì)臨床數(shù)據(jù)集進(jìn)行特征選擇的目的。

4 結(jié)語(yǔ)

特征選擇方法對(duì)機(jī)器學(xué)習(xí)準(zhǔn)確率的影響比具體選擇哪種機(jī)器學(xué)習(xí)算法更重要,而且特征選擇算法可極大地提升醫(yī)學(xué)診斷分類的準(zhǔn)確性[11-12]。基于CIS構(gòu)建臨床數(shù)據(jù)集市,可使研究人員更便捷地獲取完整的科研數(shù)據(jù);而系統(tǒng)只需依據(jù)研究目的簡(jiǎn)單設(shè)置目標(biāo)變量及相關(guān)納入、排除條件,即可靈活、定制化地從數(shù)據(jù)集市中獲取相應(yīng)整合、降維后的數(shù)據(jù),可通過(guò)Weka軟件篩選富含信息量的重要特征變量,從而幫助臨床醫(yī)生更有效地利用CIS中的信息資源。就方法學(xué)而言,這類組間分析適用于臨床診斷、疾病預(yù)警、病因及預(yù)后分析等多類型研究場(chǎng)景,具有較好的通用性。進(jìn)一步而言,本研究基于臨床實(shí)際數(shù)據(jù)得到的“知識(shí)”不僅具有定性特征,而且具有重要性排序的量化特征,且適用性更好,是應(yīng)用信息技術(shù)輔助臨床決策的有益嘗試。

1 石曉敬. 數(shù)據(jù)挖掘及其在醫(yī)學(xué)信息中的應(yīng)用[J]. 醫(yī)學(xué)信息學(xué)雜志, 2013, 34(5):2-6.

2 孔琳. 數(shù)據(jù)挖掘在醫(yī)院信息系統(tǒng)中的應(yīng)用[J]. 醫(yī)學(xué)信息學(xué)雜志, 2011, 32(10):37-39.

3 Jain A, Zongker D. Feature Selection: evaluation, application, and small sample performance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(2): 153-158.

4 Sheta O E, Eldeen A N. Building a Health Care Data Warehouse for Cancer Diseases [J]. International Journal of Database Management Systems, 2012, 4(5): 39-46.

5 Ting S L, Shum C C, Kwok S K, et al. Data Mining in Biomedicine: current applications and further directions for research [J]. Journal of Software Engineering, 2009, 2(3): 150-159.

6 Little R J A, Rubin D B. The Analysis of Social Science Data with Missing Values [J]. Sociological Methods & Research, 1989, 18(2/3): 292-326.

7 Guyon I, Elisseeff A. An Introduction to Variable and Feature Selection [J]. Journal of Machine Learning Research, 2003, (3): 1157-1182.

8 Sun Z, Bebis G, Miller R. Object Detection Using Feature Subset Selection [J]. Pattern Recognition, 2004, 37(11): 2165-2176.

9 Saeys Y, Inza I, Larraaga P. A Review of Feature Selection Techniques in Bioinformatics [J]. Bioinformatics, 2007, 23(19): 2507-2517.

10 Jin X, Xu A, Bie R, et al. Machine Learning Techniques and Chi-square Feature Selection for Cancer Classification Using SAGE Gene Expression Profiles [J]. Data Mining for Biomedical Applications, 2006, (3916):106-115.

11 Deisy C, Subbulakshmi B, Baskar S, et al. Efficient Dimensionality Reduction Approaches for Feature Selection [C]. Conference on Computational Intelligence and Multimedia Applications, 2007.

12 Karegowda A, Manjunath A, Jayaram M. Feature Subset Selection Problem Using Wrapper Approach in Supervised Learning [J]. International Journal of Computer Applications, 2010, 1(7): 13-17.

Construction of CIS-based Data Mart and Mining Applications

ZHANG Rui, YANG Xiao-yan, WANG Mi-ye, LI Nan, SHI Qing-ke, HUANG Yong,

West China Hospital of Sichuan University, Chengdu 610041, China

To construct the clinical data mart based on Clinical Information System(CIS), the paper presents the integration of clinical data, architecture design of data mart and data preprocessing, construction of two-dimensional dataset, feature selection based on the software Weka, and finally application examples are given.

Clinical data mart; Data mining; Feature selection; Clinical Information System(CIS)

2015-05-06

張睿,博士,發(fā)表論文7篇;通訊作者:黃勇。

863國(guó)家科技計(jì)劃項(xiàng)目“數(shù)字化醫(yī)療區(qū)域協(xié)同應(yīng)用示范”(項(xiàng)目編號(hào):2012AA02A615)。

R-056

A 〔DOI〕10.3969/j.issn.1673-6036.2015.12.011

猜你喜歡
特征選擇集市數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
熱鬧的集市
探訪于山“相親集市”
海峽姐妹(2018年12期)2018-12-23 02:39:20
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
聯(lián)合互信息水下目標(biāo)特征選擇算法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
熱鬧的集市
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
基于二元搭配詞的微博情感特征選擇
安远县| 丘北县| 桦甸市| 贵港市| 南乐县| 翼城县| 安化县| 邯郸市| 枣庄市| 西林县| 威远县| 甘肃省| 阿克| 辉南县| 海门市| 诏安县| 潜江市| 老河口市| 易门县| 锦屏县| 呈贡县| 拉萨市| 晴隆县| 马山县| 丰镇市| 琼结县| 海阳市| 麦盖提县| 孟津县| 河北区| 象州县| 永修县| 白银市| 沂源县| 涪陵区| 德钦县| 临洮县| 博白县| 南充市| 竹溪县| 盖州市|