国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘在肺結(jié)核疾病智能決策中的應(yīng)用研究

2017-08-30 00:01:20陳桂芬
計算機測量與控制 2017年7期
關(guān)鍵詞:約簡粗糙集決策樹

王 科,馬 麗,陳桂芬

(吉林農(nóng)業(yè)大學(xué) 信息技術(shù)學(xué)院,吉林 長春 130118)

數(shù)據(jù)挖掘在肺結(jié)核疾病智能決策中的應(yīng)用研究

王 科,馬 麗,陳桂芬

(吉林農(nóng)業(yè)大學(xué) 信息技術(shù)學(xué)院,吉林 長春 130118)

針對單一數(shù)據(jù)挖掘方法對肺結(jié)核疾病診斷效率低、準(zhǔn)確性不高的問題,本研究對北京市昌平區(qū)結(jié)核病防治所,北京市結(jié)核病控制研究所的1203例肺結(jié)核病人檔案資料構(gòu)建了電子檔案,采用粗糙集和決策樹結(jié)合方法建立肺結(jié)核疾病診斷模型,并對其準(zhǔn)確性進(jìn)行評估,在此基礎(chǔ)上構(gòu)建肺結(jié)核疾病診斷系統(tǒng);在研究中,使用粗糙集和決策樹相結(jié)合的方法進(jìn)行屬性約簡,約簡掉冗余屬性57個,剩余屬性22個,得到?jīng)Q策規(guī)則7條,模型準(zhǔn)確率為83.46%;與未未約簡的方法相比,決策規(guī)則減少128%,模型準(zhǔn)確率基本保持不變;研究結(jié)果表明:使用該組合算法,在保證模型準(zhǔn)確率的同時,降低了算法的時間和空間復(fù)雜性,提高了挖掘效率,為臨床診斷提供了一定的借鑒。

肺結(jié)核疾??;粗糙集;決策樹;智能診斷

0 引言

醫(yī)療設(shè)備和儀器的數(shù)字化,使得醫(yī)院數(shù)據(jù)庫的信息容量不斷地膨脹,包括大量關(guān)于病人的病史、診斷、檢驗和治療的臨床信息。如何通過高效、智能的計算機算法對海量肺結(jié)核疾病診療數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,根據(jù)治療結(jié)果與醫(yī)療過程中的病歷數(shù)據(jù)之間的隱藏關(guān)系,尋找可行可靠的診療方法,及早有效的為醫(yī)務(wù)人員提供針對性的輔助診療方案,具有重要的臨床意義。

肺結(jié)核是嚴(yán)重危害人類健康的慢性呼吸道疾病。目前典型肺結(jié)核的診斷主要病歷數(shù)據(jù)之間的隱藏關(guān)系,尋找可行可靠的診療方法,及早有效的為醫(yī)務(wù)人員提供針對性的輔助診療方案,具有重要的臨床意義。

肺結(jié)核是嚴(yán)重危害人類健康的慢性呼吸道疾病。目前典型肺結(jié)核的診斷主要通過對臨床表現(xiàn)的觀察、痰查結(jié)核菌、胸部影像學(xué)、支氣管鏡檢查等做出判斷。如何對就診的肺結(jié)核可疑癥狀者及疑似肺結(jié)核患者進(jìn)行合理檢查及早期診治,減少結(jié)核菌的進(jìn)一步傳播;如何擺脫單一指標(biāo),建立患者多模態(tài)臨床信息,并從中挖掘出與病理密切相關(guān)的臨床指標(biāo),實現(xiàn)對肺結(jié)核疾病的臨床鑒別,是呼吸科重要的臨床需求之一。

本文嘗試根據(jù)肺結(jié)核數(shù)據(jù)特點改進(jìn)現(xiàn)有挖掘算法,運用粗糙集和決策樹方法相結(jié)合的方法,進(jìn)行屬性約簡,并提取決策樹規(guī)則集,挖掘病歷數(shù)據(jù)用隱含的診斷規(guī)則,獲取新的知識發(fā)現(xiàn),為結(jié)核病患者的臨床治療提供參考。

1 數(shù)據(jù)挖掘基礎(chǔ)

1.1 粗糙集理論

粗糙集以知識、近似集合等概念為核心處理不精確、不確定與不完全數(shù)據(jù)的理論。在問題處理中,不需要提供問題數(shù)據(jù)集以外的任何先驗信息,因此能較客觀的處理不確定性問題。

粗糙集理論中采用四元有序組描述知識,即:K= (U,A,V,d)。其中U是論域;A是屬性全體;V= ∪a∈AVa,Va是屬性的值域;d:U×A→V是一個信息函數(shù),dx:A→V,x∈U,表示了對象x在K中的完全信息,其中dx(a)=d(x,a)。 對于這樣的信息系統(tǒng),每個屬性子集就定義了論域上的一個等價關(guān)系,即BA,定義RB:xRBydx(b) =dy(b) ,b∈B。

記由屬性集B?AT所導(dǎo)出的等價關(guān)系為RB。a∈AT,如果RAT=RA T {a},則稱屬性a是多余的;如果在系統(tǒng)中沒有多余屬性,則稱AT是獨立的;如果RB=RAT且B中沒有多余屬性子集,則BAT稱為是AT的約簡,記作red(AT);AT的所有約簡的交集稱為AT的核,記作core(AT)。

1.2 決策樹方法

決策樹方法通過對大量數(shù)據(jù)按一定目標(biāo)進(jìn)行分類,將從一組訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的函數(shù)表示為一棵決策樹,從中找到有用的、潛在的信息,常用于分類預(yù)測的算法。決策樹方法具有速度快、精度高、生成的模式簡單等特點,在數(shù)據(jù)挖掘具有廣泛的應(yīng)用。

構(gòu)造決策樹是包括兩個步驟:生成決策樹和決策樹剪枝。生成決策樹時是從一個根節(jié)點開始,通過不斷地將樣本分割成子集,進(jìn)行從上到下的遞歸過程構(gòu)造出一棵樹。對每個屬性的測試取值表示為樹上的非葉結(jié)點,每個結(jié)果表示為樹的一個分枝,最終的分類類別為樹的葉子結(jié)點。決策樹構(gòu)造中,使用信息增益作為對節(jié)點進(jìn)行劃分的標(biāo)準(zhǔn)。

由于有噪聲數(shù)據(jù)和孤立點,因此生成的決策樹會引起分枝異常,故需要對決策樹進(jìn)行剪枝。在決策樹剪枝中,通常選用葉結(jié)點來代替一個或多個子樹,然后選擇概率最高的類為該結(jié)點的類別,也可以用其中的樹枝來代替子樹。

2 模型構(gòu)建

2.1 電子病歷構(gòu)建

原始樣本數(shù)據(jù)來源于北京市昌平區(qū)結(jié)核病防治所,北京市結(jié)核病控制研究所病歷檔案,數(shù)據(jù)采集時間為2015年11 月~2016年5月, 應(yīng)用Microsof t SQL2010 對來自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行整合, 涉及病歷檔案資料1203份。與本項研究有關(guān)數(shù)據(jù)主要三大類:

(1)患者一般信息:①病歷號、②性別、③出生日期、④分組(初治組、復(fù)治組)、⑤戶籍類型 (本市、外省)、⑥民族(漢族、回族、滿族、其他)、⑦密接史(無、有)、⑧既往有無合并其他疾病(糖尿病、矽肺、肝炎、癲癇、肺癌、肺部感染、肺心病、慢支、其他)⑨既往有無肺外結(jié)合病史(結(jié)核性胸膜炎、淋巴結(jié)核、骨結(jié)核、皮膚結(jié)核、腎結(jié)核、腹膜結(jié)核、盆腔結(jié)核、腸結(jié)核、輸卵管結(jié)核)

(2)療前主要癥狀:②咳嗽、咳痰≤2周②①咳嗽、咳痰>2周③咯血/痰中帶血④胸痛⑤午后低熱⑥盜汗⑦乏力⑧、食欲減退⑨體重減輕月經(jīng)不調(diào)體檢發(fā)現(xiàn),無任何癥狀其他

(3)療前檢查項目開展情況:①血沉②C反應(yīng)蛋白(無,有)③療前痰抗酸桿菌涂片(未查、已做結(jié)果)④療前痰抗酸桿菌普通培養(yǎng)(未查、已做結(jié)果)⑤痰結(jié)核分枝桿菌快速培養(yǎng)(未查、已做結(jié)果)⑥培養(yǎng)陽性患者菌種鑒定(傳統(tǒng)/快速)(未查、已做結(jié)果)⑦結(jié)核菌素試驗(未查、已做結(jié)果)⑧結(jié)核抗體(未查、已做結(jié)果)⑨γ-干擾素釋放試驗/T-SPOT(未查、已做結(jié)果)⑩痰結(jié)核桿菌定量PCR(未查、已做結(jié)果)痰結(jié)核桿菌Hain試驗(未查、已做結(jié)果)痰結(jié)核桿菌X-pert檢測(未查、已做結(jié)果)血液腫瘤標(biāo)志物檢查(未查、已做結(jié)果)支氣管鏡檢查(未查、已做結(jié)果)活檢(肺組織/胸膜/胸水)(未查、已做結(jié)果)療前胸部DR(未查、已做結(jié)果)療前胸部CT(未查、已做結(jié)果)(4)最終診斷(肺結(jié)核/胸膜炎、不是肺結(jié)核、NTM)。原始數(shù)據(jù)如圖1所示。

2.2 基于數(shù)據(jù)挖掘的結(jié)核病診斷

2.2.1 數(shù)據(jù)預(yù)處理

由于病歷是由醫(yī)生或非醫(yī)學(xué)專業(yè)人員手工錄入文本或數(shù)據(jù)庫,會存在數(shù)量大、記錄形式不統(tǒng)一、記錄錯誤和噪聲,因此需要對原始病歷數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理主要包括病例數(shù)據(jù)采集, 屬性選擇, 連續(xù)屬性離散化, 數(shù)據(jù)中的噪聲及丟失值處理, 實例選擇等。為進(jìn)一步進(jìn)行數(shù)據(jù)挖掘,需要對信息數(shù)據(jù)表中的值和字段進(jìn)行編碼,對于肺結(jié)核疾病的編碼如表1所示,預(yù)處理后的數(shù)據(jù)如圖2所示。

圖1 部分原始數(shù)據(jù)

屬性數(shù)據(jù)離散化及編碼屬性數(shù)據(jù)離散化及編碼性別(1)男(2)女咳嗽、咳痰(1)無(2)有分組(1)初治組(2)復(fù)治組咳嗽、咳痰≤2周(1)無(2)有戶籍類型(1)本市(2)外省盜汗(1)無(2)有民族(1)漢族(2)回族(3)滿族(4)其他午后低熱(1)無(2)有密接史(1)無(2)有咯血/痰中帶血(1)無(2)有既往有無合并其他疾病(1)無(2)有療前痰抗酸桿菌涂片(1)未查(2)已做結(jié)果糖尿病(1)無(2)有療前痰抗酸桿菌普通培養(yǎng)(1)未查(2)已做結(jié)果

圖2 預(yù)處理后部分?jǐn)?shù)據(jù)

2.2.2 基于粗糙集的屬性約簡

在病歷數(shù)據(jù)中屬性較多,而各個屬性之間往往存在著某種程度上的依賴關(guān)系,不能簡單的刪除。約簡在不丟失信息的前提下,能較簡單地表示決策系統(tǒng)的決策屬性集合對條件屬性集合的依賴關(guān)系,能夠從條件屬性中去掉不必要的條件屬性,簡化條件屬性,提高挖掘效率。本文中,對76個屬性進(jìn)行約簡,約簡后剩余屬性22個,約簡掉冗余屬性57個。約簡后的屬性如表2所示。

表2 約簡后屬性

2.2.3 決策樹模型建立

按照信息增益建立屬性重要度,如圖3所示。按從大到小順序依次為:療前痰抗酸桿菌普通培養(yǎng)已做結(jié)果、痰結(jié)核分枝桿菌快速培養(yǎng)結(jié)果、療前胸部DR已做結(jié)果、結(jié)核抗體結(jié)果、痰結(jié)核桿菌X-pert檢測、結(jié)核菌素試驗、γ-干擾素釋放試驗/T-SPOT、活檢(肺組織/胸膜/胸水), 這與臨床上確診肺結(jié)核患者診療標(biāo)準(zhǔn)基本一致。

圖3 屬性重要度排序

按C5.0構(gòu)建決策樹,為避免單次分區(qū)的抽樣誤差對結(jié)果的影響,提高模型準(zhǔn)確率,在決策樹建模的時進(jìn)行十折交叉驗證,模型正確率83.46%,支持?jǐn)?shù)據(jù)條數(shù)1,004。挖掘出的決策規(guī)則7條,按照支持度和置信度降序排序如表3所示。

2.3 結(jié)果分析

從挖掘出的規(guī)則中,大部分樣本都集中于置信度 60%~99% 的數(shù)值內(nèi),在從實際臨床診斷結(jié)果中,實例數(shù)和置信度比較高即強關(guān)聯(lián)時這一區(qū)間包含的規(guī)則數(shù)據(jù),對肺結(jié)核疾病診斷具有較高的臨床價值。本研究模型已在北京市昌平區(qū)結(jié)核病防治所,北京市結(jié)核病控制研究所進(jìn)行應(yīng)用,效果良好。

本研究對粗糙集與決策樹相結(jié)合的方法與單一決策樹方法,在規(guī)則數(shù)目、準(zhǔn)確率、置信度區(qū)間和建模時間四個方面進(jìn)行了對比,對比結(jié)果如表4所示。從表中可以看出單一的決策樹方法在分類預(yù)測中,還存在一定冗余屬性,致使構(gòu)造出的決策樹規(guī)模較大,提取的規(guī)則較多,導(dǎo)致決策時挖掘效率不高。本研究利用已有的肺結(jié)核疾病檔案數(shù)據(jù),利用粗糙集與決策樹相結(jié)合的優(yōu)化算法對篩選后的22個屬性變量建立結(jié)核病治療的預(yù)測與分類模型,去掉了冗余屬性,簡化了決策模型,提高了挖掘效率。

表3 按照支持度和置信度降序排序的規(guī)則結(jié)果

表4 模型對比結(jié)果

2.4 智能診斷系統(tǒng)構(gòu)建

本文構(gòu)建的肺結(jié)核疾病診斷系統(tǒng),在對數(shù)據(jù)進(jìn)行預(yù)處理后,應(yīng)用基于決策樹與粗糙集相結(jié)合的方法構(gòu)建決策模型。在應(yīng)用中,輸入患者信息,應(yīng)用該決策模型進(jìn)行智能決策,得到疾病診斷結(jié)果。

圖4 肺結(jié)核疾病診斷系統(tǒng)體系結(jié)構(gòu)

3 結(jié)論

數(shù)據(jù)挖掘中決策樹方法在肺結(jié)核疾病診斷中已有應(yīng)用,如張琪的“決策樹模型用于結(jié)核病治療方案的分類和預(yù)判”,說明該數(shù)據(jù)挖掘方法適用于肺結(jié)核疾病分類診斷問題,但單一應(yīng)用決策樹構(gòu)建診斷模型,納入研究的變量數(shù)較多,可能會引起檢驗功效降低的問題。

計算機輔助醫(yī)學(xué)數(shù)據(jù)挖掘?qū)崿F(xiàn)了醫(yī)學(xué)數(shù)據(jù)的冗余性消除、規(guī)范化儲存以及數(shù)據(jù)無縫融合與共享、知識提取的自動化與可視化表達(dá)等功能。本研究利用已有的肺結(jié)核疾病檔案數(shù)據(jù),利用粗糙集與決策樹相結(jié)合的優(yōu)化算法對篩選后的22個屬性變量建立結(jié)核病治療的預(yù)測與分類模型,去掉了冗余屬性,提高了挖掘效率,為臨床診斷提供一定的借鑒。此外,本研究的研究思路和方法也可以適用于其他的慢性疾病治療方案的選擇,例如高血壓、糖尿病。

醫(yī)學(xué)的發(fā)展已經(jīng)由經(jīng)驗醫(yī)學(xué)、實驗醫(yī)學(xué)轉(zhuǎn)向以證據(jù)為基礎(chǔ)的循證醫(yī)學(xué),產(chǎn)生的醫(yī)學(xué)數(shù)據(jù)量大,且具有客觀性。臨床醫(yī)生應(yīng)結(jié)合患者的病史、臨床癥狀,逐漸學(xué)會使用大樣本下建立的數(shù)據(jù)挖掘模型,分析病情、制定合理治療方案及預(yù)測疾病的發(fā)展。實踐證明,基于粗糙集和決策樹相結(jié)合的優(yōu)化算法,可以有效地處理數(shù)據(jù)中的不確定性推理,是數(shù)據(jù)挖掘的有力工具,在今后的醫(yī)療數(shù)據(jù)資源挖掘利用中具有廣闊的應(yīng)用前景。

[1] 王 欣,翁少凡,祖愛華,等. 肺結(jié)核危險因素病例對照研究[J]. 工業(yè)衛(wèi)生與職業(yè)病,2011(4):208-213.

[2] 陳桂芬,馬 麗,董 瑋,等. 聚類、粗糙集與決策樹的組合算法在地力評價中的應(yīng)用[J]. 中國農(nóng)業(yè)科學(xué),2011,23:4833-4840.

[3] 石 凱. 基于粗糙集理論的屬性約簡與決策樹分類算法研究[D].大連:大連海事大學(xué),2014.

[4] 王國胤,姚一豫,于 洪. 粗糙集理論與應(yīng)用研究綜述[J]. 計算機學(xué)報,2009(7):1229-1246.

[5] 張 明. 粗糙集理論中的知識獲取與約簡方法的研究[D].南京:南京理工大學(xué),2012.

[6] 馮少榮. 決策樹算法的研究與改進(jìn)[J]. 廈門大學(xué)學(xué)報(自然科學(xué)版),2007(4):496-500.

[7] 盧東標(biāo). 基于決策樹的數(shù)據(jù)挖掘算法研究與應(yīng)用[D].武漢:武漢理工大學(xué),2008.

[8] 王 俊,馬 麗,趙 敘,等. 數(shù)據(jù)挖掘技術(shù)在建立肺結(jié)核病單病種費用模型中的研究[J]. 中國醫(yī)院,2014(4):33-34.

[9] 張宏宇. 粗糙集理論及其在數(shù)據(jù)挖掘中的應(yīng)用研究[D].太原:山西大學(xué),2003.

[10] 陸維嘉. 輔助慢性呼吸道疾病診療的電子病歷系統(tǒng)與數(shù)據(jù)挖掘研究[D].上海:上海大學(xué),2015.

[11] 高軍艦. 關(guān)聯(lián)規(guī)則在呼吸內(nèi)科診療數(shù)據(jù)中的應(yīng)用研究[D].青島:青島科技大學(xué),2014.

[12] 張 琪,周 琳,陳 亮,等. 決策樹模型用于結(jié)核病治療方案的分類和預(yù)判[J]. 中華疾病控制雜志,2015(5):510-513.

[13] 任正洪. 2005~2011年我國肺結(jié)核發(fā)病的時間流行病學(xué)特征及趨勢[J]. 中國衛(wèi)生統(tǒng)計,2013(2):158-161.

Application of Data Mining in Intelligent Decision of Pulmonary Tuberculosis Diseases

Wang Ke, Ma Li, Chen Guifen

(College of Information Technology, Jilin Agricultural University, Changchun 130118,China)

Aiming at the problem that the low diagnostic efficiency and low accuracy of the single data mining method for Diagnosis of pulmonary tuberculosis, In this study, the electronic records of 1203 cases of tuberculosis patients in Changping District City, Beijing City of Beijng and Beijing Institute of tuberculosis control and tuberculosis control were build, Tuberculosis disease diagnosis model is built by application of rough set and decision tree method, On the basis of this, the diagnosis system of pulmonary tuberculosis was constructed. In this study, The combining method of rough set and decision tree was approached to attribute reduction, the model reduced redundant 57 attributes and remained 22 attributes, and articled 7 the decision rules. The model accuracy is 89.46%. Compared with the non reduction method, the decision rule was reduced by 128%, and the accuracy of the model remained unchanged. The research results showed that the algorithm can reduce the time and space complexity of the algorithm while ensuring the accuracy of the model, so as to improve the efficiency of the mining, and provide some references for clinical diagnosis.

pulmonary tuberculosis disease; rough set;decision tree; intelligent diagnosis

2017-02-06;

2017-04-12。

國家星火計劃(2015GA66004)。

王 科(1985-),男,北京人,碩士研究生,主要從事人工智能與計算機應(yīng)用方向的研究。

陳桂芬(1956-),女,教授,博士,博士生導(dǎo)師,主要從事人工智能與數(shù)據(jù)挖掘,精準(zhǔn)農(nóng)業(yè)方向的研究。

1671-4598(2017)07-0249-04

10.16526/j.cnki.11-4762/tp.2017.07.062

TP3

A

猜你喜歡
約簡粗糙集決策樹
基于Pawlak粗糙集模型的集合運算關(guān)系
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
基于二進(jìn)制鏈表的粗糙集屬性約簡
決策樹和隨機森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
實值多變量維數(shù)約簡:綜述
基于模糊貼近度的屬性約簡
多?;植诩再|(zhì)的幾個充分條件
基于決策樹的出租車乘客出行目的識別
雙論域粗糙集在故障診斷中的應(yīng)用
兩個域上的覆蓋變精度粗糙集模型
库尔勒市| 和平区| 湖州市| 三明市| 时尚| 洛阳市| 白沙| 垦利县| 新竹市| 阜阳市| 伊宁市| 获嘉县| 个旧市| 宽城| 循化| 双峰县| 榕江县| 宁远县| 万年县| 大宁县| 双江| 清新县| 蒙城县| 临猗县| 泸水县| 平阳县| 米林县| 莱芜市| 汤原县| 凌云县| 盘山县| 宁乡县| 马边| 郓城县| 泽普县| 浙江省| 巴中市| 陇川县| 新邵县| 桐庐县| 互助|