馬 磊,賈奇男,張 俊,寶媛媛,賀建峰,李 龍
1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院 生物醫(yī)學(xué)工程系,昆明 650500
2.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,昆明 650500
3.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院 自動(dòng)化系,昆明 650500
基于基因組合模式挖掘的輔助診斷專(zhuān)家系統(tǒng)
馬 磊1,賈奇男2,張 俊2,寶媛媛1,賀建峰1,李 龍3
1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院 生物醫(yī)學(xué)工程系,昆明 650500
2.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,昆明 650500
3.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院 自動(dòng)化系,昆明 650500
專(zhuān)家系統(tǒng)是一種以人工智能技術(shù)為基礎(chǔ),結(jié)合某個(gè)特殊領(lǐng)域內(nèi)的知識(shí)與經(jīng)驗(yàn),利用計(jì)算機(jī)實(shí)現(xiàn)模擬專(zhuān)家進(jìn)行決策,或?yàn)槭褂谜咛峁Q策依據(jù)和參考的智能信息系統(tǒng)。醫(yī)學(xué)領(lǐng)域中,Ledley在1966年首次提出了“計(jì)算機(jī)輔助診斷”CAID這一概念;1976年,斯坦福大學(xué)的Shortliffe等人設(shè)計(jì)了用于協(xié)助診斷細(xì)菌感染性疾病的醫(yī)學(xué)專(zhuān)家系統(tǒng)MYCIN。在該系統(tǒng)取得較好的診斷效果的基礎(chǔ)上,Shortliffe等人還建立了一套醫(yī)學(xué)專(zhuān)家系統(tǒng)的設(shè)計(jì)開(kāi)發(fā)理論[1]。隨后,在1990年Umbaugh在人工智能技術(shù)的基礎(chǔ)上,針對(duì)皮膚癌多樣化色彩的問(wèn)題,設(shè)計(jì)了皮膚癌輔助診斷系統(tǒng)[2]。在國(guó)內(nèi),學(xué)者蔡?hào)|聯(lián)等人在2005年也針對(duì)糖尿病設(shè)計(jì)了專(zhuān)門(mén)的專(zhuān)家系統(tǒng)[3]。而余帥帥等人則在2011年設(shè)計(jì)了自身免疫疾病的輔助診斷系統(tǒng)[4]。
醫(yī)學(xué)領(lǐng)域的診斷工作一般可歸納為聯(lián)想、推斷、判斷這樣的一個(gè)思維過(guò)程。為模擬這一思維過(guò)程,大多數(shù)診斷專(zhuān)家系統(tǒng)均是基于規(guī)則推導(dǎo)。利用規(guī)則推導(dǎo)的方式來(lái)實(shí)現(xiàn)一個(gè)醫(yī)學(xué)輔助診斷系統(tǒng)的優(yōu)點(diǎn)在于:規(guī)則推導(dǎo)方式符合醫(yī)務(wù)工作者對(duì)于疾病診斷的思維習(xí)慣。然而,基于規(guī)則的專(zhuān)家系統(tǒng)也存在不足:如果醫(yī)務(wù)工作者試圖利用基因芯片技術(shù)從基因的角度去診斷某一種疾病,則輔助診斷專(zhuān)家系統(tǒng)設(shè)計(jì)將花費(fèi)大量工作在已知規(guī)則的建立上。另一方面,某種疾病的診斷研究,其本質(zhì)也是發(fā)現(xiàn)某種致病規(guī)則的過(guò)程。而基于規(guī)則推導(dǎo)的輔助診斷專(zhuān)家系統(tǒng)顯然是不能滿(mǎn)足這樣的功能的。因此,要設(shè)計(jì)滿(mǎn)足利用基因診斷技術(shù),并且能夠?yàn)樵\斷研究提供輔助指導(dǎo)的專(zhuān)家系統(tǒng),需要跳出傳統(tǒng)規(guī)則推導(dǎo)的思維方式。
隨著機(jī)器學(xué)習(xí)理論與技術(shù)的發(fā)展,越來(lái)越多的科研工作者開(kāi)始利用機(jī)器學(xué)習(xí)算法來(lái)設(shè)計(jì)開(kāi)發(fā)醫(yī)學(xué)領(lǐng)域的專(zhuān)家系統(tǒng)。2002年杜建鳳等研究了模糊神經(jīng)網(wǎng)絡(luò)在專(zhuān)家系統(tǒng)中的運(yùn)用[5]。同年,蔡航設(shè)計(jì)了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的醫(yī)療診斷專(zhuān)家系統(tǒng)[6]。2004年,李丙春等將徑向基函數(shù)網(wǎng)絡(luò)擴(kuò)展到醫(yī)學(xué)圖像領(lǐng)域,用于對(duì)醫(yī)學(xué)圖像的分類(lèi)[7]。H.L.Chen等于2011年設(shè)計(jì)了基于粗糙集特征選擇并結(jié)合支持向量機(jī)的專(zhuān)家系統(tǒng),用于對(duì)乳腺癌的診斷[8],同年Ali Kele?等也基于模糊神經(jīng)規(guī)則設(shè)計(jì)了用于乳腺癌診斷的專(zhuān)家系統(tǒng)[9]。
這些用于診斷的專(zhuān)家系統(tǒng)無(wú)疑都是成功的。但在實(shí)際使用過(guò)程中,醫(yī)務(wù)工作者更多地是將診斷系統(tǒng)用于輔助最終結(jié)論的產(chǎn)生。而利用傳統(tǒng)的分類(lèi)算法構(gòu)建的專(zhuān)家系統(tǒng)通常都是直接給出診斷結(jié)論,卻不提供結(jié)論依據(jù)。因此,在以往理論工作的基礎(chǔ)上,根據(jù)以前所設(shè)計(jì)的算法,將算法進(jìn)行工程化應(yīng)用,設(shè)計(jì)并實(shí)現(xiàn)了一種基于挖掘基因組合模式的輔助診斷專(zhuān)家系統(tǒng)。這一專(zhuān)家系統(tǒng)方案,既滿(mǎn)足了給出診斷結(jié)果的要求,同時(shí)也能夠給出診斷的依據(jù)供使用者參考,或以此為依據(jù)研究新的診斷規(guī)則。
從機(jī)器學(xué)習(xí)的角度來(lái)看,診斷可以抽象為一個(gè)分類(lèi)問(wèn)題,即將多維特征映射到一維空間中[10]。然而,機(jī)器學(xué)習(xí)領(lǐng)域存在很多分類(lèi)算法。理論上,只要符合基本條件,這些算法均可以直接用于診斷。但是,考慮到醫(yī)務(wù)從業(yè)者的思維習(xí)慣,分類(lèi)算法必須能夠提供分類(lèi)依據(jù),從而讓使用者接受(或否定)輔助診斷結(jié)果,或發(fā)現(xiàn)新的規(guī)則模式以啟示使用者發(fā)現(xiàn)新的診斷規(guī)則。因此,基于以往的工作設(shè)計(jì)了新的分類(lèi)方法用以解決這一問(wèn)題。
2.1 MORE算法—一種Apriori算法的改進(jìn)
以腫瘤基因?yàn)槔?,在基因表達(dá)信息數(shù)據(jù)中,用規(guī)則或模式來(lái)定義一系列特征基因的組合,風(fēng)險(xiǎn)模式指的是與腫瘤產(chǎn)生具有相關(guān)性的模式;相應(yīng)的,預(yù)防模式則指與腫瘤的產(chǎn)生不具有相關(guān)性的模式。通常,人們可以利用Apriori[11]算法或FP-growth[12]等算法來(lái)挖掘風(fēng)險(xiǎn)與預(yù)防模式。然而,由于基因表達(dá)數(shù)據(jù)的特殊性,直接利用傳統(tǒng)的關(guān)聯(lián)規(guī)則算法會(huì)產(chǎn)生大量的時(shí)間開(kāi)銷(xiāo)。針對(duì)這一情況李久勇等人對(duì)Apriori算法進(jìn)行了改進(jìn)并用于挖掘風(fēng)險(xiǎn)模式與預(yù)防模式[13]。以挖掘風(fēng)險(xiǎn)模式為例,首先引入局部支持度(local support,lsupp)代替全局支持度(support)來(lái)判斷一個(gè)規(guī)則或模式是否為頻繁的,其定義如下:
其中 pc是 p∧c的縮寫(xiě),該規(guī)則為,如果一個(gè)模式的局部支持度大于給定的閾值,則這個(gè)模式是一個(gè)頻繁模式。當(dāng)確定一個(gè)模式是頻繁模式之后,則需要確定該模式為風(fēng)險(xiǎn)模式的置信度。與傳統(tǒng)的置信度指標(biāo)不同,在MORE算法中以相對(duì)風(fēng)險(xiǎn)值作為置信度指標(biāo)。
可以采用相對(duì)風(fēng)險(xiǎn)值對(duì)風(fēng)險(xiǎn)或預(yù)防模式進(jìn)行定義。
定義1風(fēng)險(xiǎn)模式是頻繁項(xiàng)集中的元素,相對(duì)風(fēng)險(xiǎn)值高于給定閾值;而預(yù)防模式也是頻繁項(xiàng)集中的元素,其相對(duì)風(fēng)險(xiǎn)值小于給定閾值。
然而數(shù)據(jù)挖掘中的風(fēng)險(xiǎn)和預(yù)防模式會(huì)帶來(lái)許多冗余的模式,這不利于觀(guān)察結(jié)果。在獲得風(fēng)險(xiǎn)模式與預(yù)防模式之后,利用模式的相對(duì)風(fēng)險(xiǎn)值排序等步驟,即可獲得最優(yōu)風(fēng)險(xiǎn)模式與預(yù)防模式。而最優(yōu)風(fēng)險(xiǎn)模式和預(yù)防模式能夠被挖掘的原因,也是由于所使用的局部支持度作為規(guī)則濾除閾值能夠滿(mǎn)足反單調(diào)性原則。
2.2 最優(yōu)風(fēng)險(xiǎn)與預(yù)防模式賦權(quán)算法ORPWS
張俊鵬等人在MORE算法的啟發(fā)下,針對(duì)挖掘最優(yōu)風(fēng)險(xiǎn)模式和預(yù)防模式中可能出現(xiàn)特征交叉的問(wèn)題,在MORE算法的基礎(chǔ)上提出了ORPSW算法[14]。該算法基于MORE算法所挖掘出的典型風(fēng)險(xiǎn)集與典型預(yù)防集,計(jì)算出兩個(gè)集合的期望閾值,而后計(jì)算出單個(gè)特征基因在所在集合中的經(jīng)驗(yàn)分布概率并降序排序。設(shè)置模式探查長(zhǎng)度L形成新的風(fēng)險(xiǎn)集與預(yù)防集。統(tǒng)計(jì)兩個(gè)集合中單階特征基因在總量為L(zhǎng)的所屬集合中的經(jīng)驗(yàn)分布概率,按照其經(jīng)驗(yàn)分布概率進(jìn)行降序排列。根據(jù)所設(shè)定的概率閾值,從兩個(gè)集合中濾去低概率基因,從而生成最優(yōu)風(fēng)險(xiǎn)與預(yù)防集。相應(yīng)的,基因所對(duì)應(yīng)的經(jīng)驗(yàn)分布概率值乘以基值100即為其所在集合中的權(quán)重。
定義2如果一個(gè)特征基因是一個(gè)在局部支持度條件下生成的風(fēng)險(xiǎn)或預(yù)防集中的元素,而它的經(jīng)驗(yàn)分布概率大于等于期望閾值,那么它就屬于最優(yōu)風(fēng)險(xiǎn)或最優(yōu)預(yù)防集。
通過(guò)積累的樣本,利用ORPWS算法獲得最優(yōu)風(fēng)險(xiǎn)集與最優(yōu)預(yù)防集,以及集合中模式的權(quán)重后,即完成了對(duì)風(fēng)險(xiǎn)預(yù)防模型的訓(xùn)練。對(duì)于新的待預(yù)測(cè)受試者樣本,只需要根據(jù)模型計(jì)算出其所包含的特征基因的風(fēng)險(xiǎn)概率和預(yù)防概率。通過(guò)概率值的大小比較即可得出該受試者屬于患病風(fēng)險(xiǎn)人群(風(fēng)險(xiǎn)概率大于預(yù)防概率)還是需要預(yù)防人群(預(yù)防概率大于風(fēng)險(xiǎn)概率),或是需要留院觀(guān)察(風(fēng)險(xiǎn)概率等于預(yù)防概率)。
挖掘風(fēng)險(xiǎn)和預(yù)防集比挖掘最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式更加有效,原因之一在于只關(guān)心特征基因本身而不關(guān)心它們的組合。第二個(gè)原因是可以通過(guò)計(jì)算每個(gè)特征基因的頻率,來(lái)了解每個(gè)特征基因的權(quán)重,從而可以確定每個(gè)特征基因?qū)δ[瘤的影響程度。
3.1 系統(tǒng)的整體結(jié)構(gòu)
目前實(shí)際上醫(yī)療機(jī)構(gòu)的大部分系統(tǒng)均運(yùn)行在其內(nèi)部網(wǎng)絡(luò)環(huán)境中。本文所提及的專(zhuān)家系統(tǒng)應(yīng)作為醫(yī)療機(jī)構(gòu)整體系統(tǒng)中的一個(gè)子系統(tǒng)?;诖耍疚慕o出了輔助診斷專(zhuān)家系統(tǒng)的一種實(shí)現(xiàn)方案。圖1是輔助診斷專(zhuān)家系統(tǒng)(100)的設(shè)計(jì)方案框圖。
系統(tǒng)可以直接通過(guò)系統(tǒng)總線(xiàn)對(duì)本地腫瘤基因數(shù)據(jù)源(108)進(jìn)行訪(fǎng)問(wèn),本地腫瘤基因數(shù)據(jù)源為目前廣泛使用的基因表達(dá)結(jié)構(gòu)化數(shù)據(jù)文件。同時(shí),可以通過(guò)網(wǎng)絡(luò)接口(110)對(duì)遠(yuǎn)程腫瘤基因數(shù)據(jù)源(112)進(jìn)行訪(fǎng)問(wèn)。
系統(tǒng)中數(shù)據(jù)清洗工具(122)對(duì)數(shù)據(jù)源進(jìn)行清洗,涉及從數(shù)據(jù)中檢測(cè)和去除錯(cuò)誤及不一致的數(shù)據(jù)部分以改善數(shù)據(jù)質(zhì)量,并且將數(shù)據(jù)源重新組織為挖掘過(guò)程中所使用的特殊格式文件。特征預(yù)處理(124)包括基于熵的離散化功能模塊和基于CFS的特征提取功能模塊,用于對(duì)數(shù)據(jù)進(jìn)行特征基因提取。應(yīng)用程序(120)同時(shí)也包括數(shù)據(jù)挖掘算法和從結(jié)構(gòu)化數(shù)據(jù)源中挖掘最優(yōu)風(fēng)險(xiǎn)模式(134)、最優(yōu)預(yù)防模式(136)、最優(yōu)風(fēng)險(xiǎn)權(quán)重集(140)和最優(yōu)預(yù)防權(quán)重集(142)的算法程序。
圖1 診斷系統(tǒng)框架
另外,存儲(chǔ)器(116)存儲(chǔ)經(jīng)過(guò)數(shù)據(jù)清洗后的結(jié)構(gòu)化病人數(shù)據(jù)源(126),結(jié)構(gòu)化病人數(shù)據(jù)源包括病人訓(xùn)練數(shù)據(jù)源(128)和病人測(cè)試數(shù)據(jù)源(130)。病人訓(xùn)練數(shù)據(jù)源(128)經(jīng)過(guò)訓(xùn)練可以產(chǎn)生模型(132)存儲(chǔ)在存儲(chǔ)器中,這些模型有最優(yōu)風(fēng)險(xiǎn)模式(134)和最優(yōu)預(yù)防模式(136)。對(duì)模型進(jìn)行約束和匯集,進(jìn)而產(chǎn)生權(quán)重集(138)。權(quán)重集(138)分為最優(yōu)風(fēng)險(xiǎn)權(quán)重集(140)和最優(yōu)預(yù)防權(quán)重集(142)。利用所得到的權(quán)重集對(duì)病人測(cè)試數(shù)據(jù)源(130)進(jìn)行打分,得到測(cè)試數(shù)據(jù)的風(fēng)險(xiǎn)權(quán)重和預(yù)防權(quán)重(144)。
3.2 診斷工作原理
圖2是用于挖掘有用的腫瘤基因信息和對(duì)病人狀況進(jìn)行診斷的基本流程框架。該框架包括訓(xùn)練階段(200)和測(cè)試階段(204)。在訓(xùn)練階段中,病人訓(xùn)練數(shù)據(jù)源(128)通過(guò)基于最小熵的離散處理和CFS特征基因提?。?02)提取出與疾病有關(guān)的離散風(fēng)險(xiǎn)特征和預(yù)防特征。得到的離散特征基因通過(guò)數(shù)據(jù)挖掘算法挖掘出最優(yōu)風(fēng)險(xiǎn)模式(134)和最優(yōu)預(yù)防模式(136),又通過(guò)統(tǒng)計(jì)分析,得到最優(yōu)風(fēng)險(xiǎn)權(quán)重集(140)和最優(yōu)預(yù)防權(quán)重集(142)。在測(cè)試階段(204),利用得到的最優(yōu)風(fēng)險(xiǎn)和預(yù)防權(quán)重集,對(duì)病人測(cè)試數(shù)據(jù)源(130)進(jìn)行權(quán)重打分,產(chǎn)生風(fēng)險(xiǎn)權(quán)重(206)和預(yù)防權(quán)重(208)。利用權(quán)重比較(210),來(lái)診斷病人患病的癥狀,如果風(fēng)險(xiǎn)權(quán)重顯著大于預(yù)防權(quán)重,則癥狀判斷為“患病”(212);如果風(fēng)險(xiǎn)權(quán)重與預(yù)防權(quán)重差異不大,則癥狀判斷為“繼續(xù)觀(guān)察”(214);如果風(fēng)險(xiǎn)權(quán)重顯著小于預(yù)防權(quán)重,則癥狀判斷為“正常”(216)。訓(xùn)練階段(200)負(fù)責(zé)從病人訓(xùn)練數(shù)據(jù)源(128)中提取模型,并將這些模型轉(zhuǎn)化為權(quán)重集。所挖掘的模型分為風(fēng)險(xiǎn)模式和預(yù)防模式,風(fēng)險(xiǎn)模式為風(fēng)險(xiǎn)因子組成的模型,而預(yù)防模式為預(yù)防因子組成的模型。所轉(zhuǎn)化的權(quán)重集是風(fēng)險(xiǎn)或預(yù)防因子導(dǎo)致患病和不患病的權(quán)重集合。測(cè)試階段(204)負(fù)責(zé)將病人測(cè)試數(shù)據(jù)源(130)進(jìn)行權(quán)重打分,比較患病的風(fēng)險(xiǎn)權(quán)重和不患病的預(yù)防權(quán)重,進(jìn)而推斷病人的狀況。
圖2 診斷流程
實(shí)驗(yàn)部分,以甲狀腺腫瘤數(shù)據(jù)為例[15],展示專(zhuān)家系統(tǒng)的工作細(xì)節(jié)以及如何做出輔助診斷。
4.1 訓(xùn)練診斷模型
做出診斷前需要首先訓(xùn)練診斷模型。模型訓(xùn)練模塊在系統(tǒng)的后臺(tái)中,只需要將積累的樣本數(shù)據(jù)上傳至服務(wù)器,并告知系統(tǒng)管理員即可由系統(tǒng)管理員進(jìn)行對(duì)應(yīng)操作,即可完成模型的訓(xùn)練。圖3所反映的即為訓(xùn)練數(shù)據(jù)源上傳的管理頁(yè)面。
圖3 上傳訓(xùn)練數(shù)據(jù)
在完成數(shù)據(jù)上傳之后,就可以開(kāi)始訓(xùn)練診斷模型。根據(jù)ORPWS算法的原理,此處需要設(shè)置兩個(gè)參數(shù)用于模型的訓(xùn)練,它們分別是最小局部支持度與模式探尋長(zhǎng)度L,如圖4所示。
系統(tǒng)管理員可以根據(jù)要求,設(shè)置對(duì)應(yīng)的參數(shù)。之后點(diǎn)擊上傳,模型就會(huì)在后臺(tái)自動(dòng)訓(xùn)練,這個(gè)過(guò)程對(duì)于系統(tǒng)管理員而言是透明的。訓(xùn)練完的模型會(huì)出現(xiàn)在上傳管理頁(yè)面中,圖3中標(biāo)記部分即為所訓(xùn)練出的模型。
4.2 利用訓(xùn)練出的模型進(jìn)行輔助診斷
在模型訓(xùn)練完成之后,醫(yī)生便可連入服務(wù)器對(duì)受試者樣本進(jìn)行診斷。只需將本地待診斷樣本數(shù)據(jù)上傳至服務(wù)器,點(diǎn)擊對(duì)應(yīng)的診斷按鈕,系統(tǒng)將會(huì)自動(dòng)跳轉(zhuǎn)到對(duì)應(yīng)的診斷結(jié)果頁(yè)面。從訓(xùn)練樣本數(shù)據(jù)源中抽取出一個(gè)確診患有甲狀腺癌的患者作為測(cè)試樣本,通過(guò)輔助診斷系統(tǒng)得到了輔助診斷結(jié)果,如圖5所示。診斷結(jié)果為多條記錄。每一條記錄對(duì)應(yīng)一個(gè)模式,包含有以下幾個(gè)信息:
(1)結(jié)果:該模式的類(lèi)型,即風(fēng)險(xiǎn)或預(yù)防。
(2)模式長(zhǎng)度:該模式的長(zhǎng)度,即包含有幾個(gè)特征基因。
(3)率比值:該模式的率比值指標(biāo)。
(4)相對(duì)風(fēng)險(xiǎn):該模式的相對(duì)風(fēng)險(xiǎn)值。
(5)致病因子:具體的模式內(nèi)容。
圖5 診斷結(jié)果展示
可以通過(guò)計(jì)算風(fēng)險(xiǎn)模式的權(quán)重之和與預(yù)防模式的權(quán)重之和,來(lái)比較大小,從而得到受試者目前屬于甲狀腺癌風(fēng)險(xiǎn)人群或是預(yù)防人群,或是其他狀態(tài)。
例如在本例中,可以計(jì)算該受試者的風(fēng)險(xiǎn)與預(yù)防權(quán)重:
(1)風(fēng)險(xiǎn)權(quán)重=34.645 9+23.446+14.276+12.636 8= 85.004 7
(2)預(yù)防權(quán)重=0.362 9+0.282 3+0.238 9+0.214 2+ 0.038 8+0.038 4+0.007 2=1.182 7
從權(quán)重來(lái)看,此受試者應(yīng)當(dāng)為風(fēng)險(xiǎn)人群。注意到,圖5第一條記錄中,包含有FTI=-28.5這一模式。該模式是傳統(tǒng)診斷中用于判斷甲狀腺癌的一個(gè)指標(biāo)。而通過(guò)輔助診斷系統(tǒng),發(fā)現(xiàn)該模式還可以與其他模式相關(guān)聯(lián),所產(chǎn)生的模式也是高相對(duì)風(fēng)險(xiǎn)模式。如圖5的第二條記錄中,看到該模式與另外兩個(gè)模式相結(jié)合,產(chǎn)生了一個(gè)長(zhǎng)度為3的新模式。如果醫(yī)生對(duì)于這樣的新模式感興趣,可以在未來(lái)的診斷或者研究中對(duì)其進(jìn)一步探索和總結(jié),如果從醫(yī)學(xué)領(lǐng)域角度可證實(shí)該模式確系與甲狀腺癌的發(fā)生有相關(guān)性,則可以將這一模式歸入傳統(tǒng)診斷方法的規(guī)則中,為未來(lái)的診斷提供參考依據(jù)。
本文描述了一種基于基因信息的輔助診斷專(zhuān)家系統(tǒng)。該系統(tǒng)是之前所提出的ORPWS分類(lèi)算法的一個(gè)具體工程實(shí)踐。系統(tǒng)克服了傳統(tǒng)基于規(guī)則推斷的診斷系統(tǒng)的不足,同時(shí)也彌補(bǔ)了其他基于分類(lèi)器的診斷系統(tǒng)不利于發(fā)現(xiàn)規(guī)則的劣勢(shì)。在一定程度上能夠同時(shí)兼顧醫(yī)務(wù)工作者的日常輔助診斷和對(duì)診斷學(xué)科研的需求。
下一步的主要工作將涉及兩個(gè)方面:
(1)對(duì)算法進(jìn)行改進(jìn)。由于需要考慮到傳統(tǒng)診斷中醫(yī)務(wù)工作者更習(xí)慣于規(guī)則的推導(dǎo),因此本文算法也是在關(guān)聯(lián)規(guī)則分析的基礎(chǔ)上進(jìn)行分類(lèi)的。然而,由于關(guān)聯(lián)規(guī)則分析要求樣本均為離散性特征,這樣就導(dǎo)致了不得不在數(shù)據(jù)預(yù)處理階段進(jìn)行離散化處理。未來(lái)將研究如何將這種基于關(guān)聯(lián)規(guī)則的診斷方法擴(kuò)展到連續(xù)性特征數(shù)據(jù)上。同時(shí),也需要從貝葉斯統(tǒng)計(jì)理論體系的角度對(duì)ORPWS算法進(jìn)行改進(jìn),使其更加具備統(tǒng)計(jì)學(xué)的理論支撐。
(2)對(duì)專(zhuān)家系統(tǒng)的工程化應(yīng)用及改進(jìn)。目前的專(zhuān)家系統(tǒng)還只是一個(gè)雛形,雖然這個(gè)系統(tǒng)基本上能夠?qū)崿F(xiàn)輔助診斷的要求,但依舊有很大改進(jìn)的空間。后續(xù)需要對(duì)其進(jìn)行優(yōu)化或局部重新設(shè)計(jì),使得該系統(tǒng)使用更加便捷和完善。
致謝 本文作者感謝澳大利亞南澳大學(xué)李久勇教授的無(wú)私幫助與支持。
[1]Shortliffe E H.Computer-based medical consultations,MYCIN[M].[S.l.]:Elsevier Publishing Company,1976.
[2]Umbaugh,Scott E.Automatic color segmentation of images with application to detection of variegated coloring in skin tumors[J].Engineering in Medicine and Biology Magazine,1989,8(4):43-50.
[3]蔡?hào)|聯(lián),羅狄隱,耿珊珊,等.糖尿病治療專(zhuān)家系統(tǒng)研制和應(yīng)用[J].中國(guó)臨床營(yíng)養(yǎng)雜志,2005,13(5):289-293.
[4]余帥帥,葉云程,曾碧新.自身免疫疾病輔助診斷專(zhuān)家系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(1):89-91.
[5]杜建鳳,宋梅,張璋,等.模糊神經(jīng)網(wǎng)絡(luò)在決策專(zhuān)家系統(tǒng)中的研究與應(yīng)用[J].系統(tǒng)工程與電子技術(shù),2002,24(2):45-47.
[6]蔡航.基于神經(jīng)網(wǎng)絡(luò)的醫(yī)療診斷專(zhuān)家系統(tǒng)[J].數(shù)理醫(yī)藥學(xué)雜志,2002,15(4):294-295.
[7]李丙春,耿國(guó)華,周明全,等.一個(gè)醫(yī)學(xué)圖像分類(lèi)器的設(shè)計(jì)[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(17):230-232.
[8]Chen H L,Yang B,Liu J,et al.A support vector machine classifier with rough set-based feature selection for breast cancer diagnosis[J].Expert Systems with Applications,2011,38(7):9014-9022.
[9]Kele? A,Yavuz U.Expert system based on neuro-fuzzy rules for diagnosis breast cancer[J].Expert Systems with Applications,2011,38(5):5719-5726.
[10]Kononenko I.Machine learning for medical diagnosis:history,state of the art and perspective[J].Artificial Intelligence in Medicine,2001,23(1):89-109.
[11]Agrawal R,Mannila H,Srikant R,et al.Fast discovery of association rules[J].Advances in Knowledge Discovery and Data Mining,1996,12:307-328.
[12]Han J,Pei J,Yin Y.Mining frequent patterns without candidate generation[J].ACM SIGMOD Record,2000,29(2):1-12.
[13]Li J Y,F(xiàn)u A W,F(xiàn)ahey P.Efficient discovery of risk patterns in medical data[J].Artificial Intelligence in Medicine,2009,45(1):77-89.
[14]張俊鵬,賀建峰,馬磊.基于最優(yōu)風(fēng)險(xiǎn)與預(yù)防模型的醫(yī)療數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)工程,2011,37(22):32-34.
[15]Li J Y,F(xiàn)u A W,He H,et al.Mining risk patterns in medical data[C]//Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD),2005:770-775.
MA Lei1,JIA Qinan2,ZHANG Jun2,BAO Yuanyuan1,HE Jianfeng1,LI Long3
1.Department of Biomedical Engineering,School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China
2.Department of Computer Science and Technology,School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China
3.Department of Automation,School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China
The development of effective nucleic acid analysis such as gene chip technology in the medical field makes clinical diagnosis and medical research be able to apply it to acquire a large number of genetic information of tumor genesis. Meanwhile,with the progress and application of machine learning theory and technology recently,plenty of expert systems based on artificial intelligence technology have occurred in various fields.Aiming to the characteristics of the analyzed gene information,this paper proposes the methods and implementation of a tumor auxiliary diagnostic expert system,and discusses the key techniques of data mining on the system implementation process.It also describes the structural framework, working mechanism and auxiliary diagnosis principle of the system.The experiment releases the test results by using clinical medical data,and the result indicates that system implementation discussed herein can meet the requirement of an auxiliary diagnosis in certain extent.
genetic data mining;association rules;classification;auxiliary diagnosis;expert system
在醫(yī)療領(lǐng)域中,基因芯片技術(shù)等高效核酸分析手段不斷發(fā)展,使得臨床診斷與醫(yī)學(xué)研究中能夠利用這一技術(shù)獲取大量與腫瘤生成相關(guān)的基因信息。同時(shí),近年來(lái)隨著機(jī)器學(xué)習(xí)理論與技術(shù)的不斷發(fā)展與應(yīng)用,在各領(lǐng)域內(nèi)出現(xiàn)了大量基于人工智能技術(shù)的專(zhuān)家系統(tǒng)。針對(duì)基因芯片信息的特點(diǎn),描述了一種腫瘤輔助診斷專(zhuān)家系統(tǒng)的設(shè)計(jì)思路與實(shí)現(xiàn)方案;討論了在專(zhuān)家系統(tǒng)實(shí)現(xiàn)過(guò)程中所采用的關(guān)鍵數(shù)據(jù)挖掘技術(shù);重點(diǎn)敘述了系統(tǒng)的結(jié)構(gòu)框架、工作機(jī)制與輔助診斷原理。在實(shí)驗(yàn)中,展示了臨床獲得的醫(yī)療數(shù)據(jù)在所論述系統(tǒng)中的測(cè)試結(jié)果。實(shí)驗(yàn)結(jié)果表明所論述的系統(tǒng)實(shí)現(xiàn)方案能夠在一定程度上滿(mǎn)足輔助診斷的需求。
基因數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;分類(lèi);輔助診斷;專(zhuān)家系統(tǒng)
A
TP311
10.3778/j.issn.1002-8331.1305-0155
MA Lei,JIA Qinan,ZHANG Jun,et al.Study of auxiliary diagnostic expert system based on combined genetic patterns mining.Computer Engineering and Applications,2014,50(24):122-126.
國(guó)家自然科學(xué)基金(No.11265007);云南省基礎(chǔ)應(yīng)用研究基金(No.2009Zc049M)。
馬磊(1978—),通訊作者,男,講師,研究領(lǐng)域?yàn)樯镄畔W(xué),數(shù)據(jù)挖掘,軟件工程;賈奇男(1986—),男,在讀碩士研究生,研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,機(jī)器學(xué)習(xí);張俊(1990—),男,在讀碩士研究生,研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,機(jī)器學(xué)習(xí)。E-mail:roy_murray@qq.com
2013-05-14
2013-06-30
1002-8331(2014)24-0122-05
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-09-12,http∶//www.cnki.net/kcms/detail/11.2127.TP.20130912.1433.010.html