張 睿 王覓也 李 楠 楊曉妍 師慶科 黃 勇
(四川大學(xué)華西醫(yī)院 成都 610041)
?
?醫(yī)學(xué)信息研究?
數(shù)據(jù)挖掘技術(shù)及其在臨床惡性腫瘤診療中的應(yīng)用*
張 睿 王覓也 李 楠 楊曉妍 師慶科 黃 勇
(四川大學(xué)華西醫(yī)院 成都 610041)
介紹數(shù)據(jù)挖掘相關(guān)技術(shù),包括特征選擇、離群值檢測(cè)模型、聚類模型、關(guān)聯(lián)規(guī)則模型、分類模型、集成學(xué)習(xí)算法等方面,對(duì)數(shù)據(jù)挖掘在臨床惡性腫瘤診斷、預(yù)后及管理中的應(yīng)用進(jìn)行具體闡述。
數(shù)據(jù)挖掘技術(shù);惡性腫瘤;診斷及預(yù)后研究
腫瘤是一種嚴(yán)重危害人類健康和生命質(zhì)量的疾病,其發(fā)病率和死亡率近年來逐年上升、居高不下。腫瘤早期無特異性臨床癥狀,一般不會(huì)引起患者重視,且臨床缺乏對(duì)于高危人群的有效早期診斷方法,因而當(dāng)患者有典型臨床表現(xiàn)再就診時(shí),大多已屬于晚期,因此探討及發(fā)展早期發(fā)現(xiàn)、早期診斷的有效方法,對(duì)于改善腫瘤患者的治療和預(yù)后、患者的健康及生命質(zhì)量都有著重要的意義。數(shù)據(jù)挖掘的重點(diǎn)是發(fā)現(xiàn)知識(shí),辨別冗余及無用信息并將其刪除,強(qiáng)調(diào)以自動(dòng)化的方式在海量數(shù)據(jù)中搜索潛在有用的模式[1];而針對(duì)醫(yī)療衛(wèi)生領(lǐng)域的知識(shí)發(fā)現(xiàn)是一個(gè)復(fù)雜而艱巨的工程。但不可否認(rèn),數(shù)據(jù)挖掘在醫(yī)療領(lǐng)域特別是在醫(yī)學(xué)研究與臨床實(shí)踐中已獲得較好的效果[2],越來越多的臨床診療數(shù)據(jù)以信息化方式保存及數(shù)據(jù)挖掘軟件的應(yīng)用普及,也使得臨床數(shù)據(jù)挖掘較過去更容易與簡(jiǎn)便[3]。本文將對(duì)數(shù)據(jù)挖掘相關(guān)技術(shù)及其在惡性腫瘤診療中的應(yīng)用進(jìn)行綜述。
2.1 特征選擇
惡性腫瘤基于基因水平的數(shù)據(jù)集往往具有極高的數(shù)據(jù)維度(維度可理解為需要研究的因素,或特征屬性),應(yīng)用特征選擇能在不失去數(shù)據(jù)原有價(jià)值的基礎(chǔ)上,有效地去除與研究目的無關(guān)及冗余的特征屬性,以提高數(shù)據(jù)挖掘的效率,改善預(yù)測(cè)精度,主要分篩選器(Filter)及封裝器(Wrapper)兩類方法。Filter類方法計(jì)算效率較高,其僅依據(jù)數(shù)據(jù)集內(nèi)在性質(zhì)來快速評(píng)價(jià)每個(gè)特征對(duì)分類的預(yù)測(cè)能力;而Wrapper類方法則需結(jié)合后續(xù)具體機(jī)器學(xué)習(xí)算法對(duì)特征子集進(jìn)行評(píng)價(jià),存在較大的計(jì)算開銷以及對(duì)機(jī)器學(xué)習(xí)算法的依賴,因此在生物醫(yī)學(xué)領(lǐng)域中,其研究關(guān)注度弱于Filter類方法[4]。特征選擇方法常用于數(shù)據(jù)挖掘前的特征子集選擇。Gandhi等[5]在面對(duì)乳腺癌數(shù)據(jù)庫中眾多屬性信息時(shí),應(yīng)用特征選擇方法構(gòu)建特征子集以降低巨大的計(jì)算開銷,特征子集也獲得了較原始數(shù)據(jù)集準(zhǔn)確率更高的模糊規(guī)則。因?yàn)楸阌谔幚砀呔S數(shù)據(jù),特征選擇方法在惡性腫瘤基因領(lǐng)域的應(yīng)用尤為普遍,Lee等[6]在處理卵巢癌的數(shù)萬個(gè)基因數(shù)據(jù)時(shí),在不降低卵巢癌分類精度前提下獲得了較優(yōu)的特征子集,其不僅去除了大量的無關(guān)基因,生成易理解的分類規(guī)則,而且可顯著提高卵巢癌的分類精度。多項(xiàng)研究證實(shí),特征選擇算法結(jié)合決策樹算法可極大地提升醫(yī)學(xué)診斷的準(zhǔn)確性[7-8]。
2.2 離群值檢測(cè)模型
離群值檢測(cè)可發(fā)現(xiàn)異常值、噪聲或有用的信息,例如異常檢測(cè)提供了一類能夠在大型數(shù)據(jù)集中識(shí)別稀有事件的技術(shù)[9]。離群值可能由錯(cuò)誤數(shù)據(jù)引起,但同時(shí)也可能導(dǎo)致新的見解產(chǎn)生[10]。Wu等[11]通過異常檢測(cè)將異于正常表達(dá)水平的基因樣本進(jìn)行標(biāo)識(shí),發(fā)現(xiàn)某些癌基因只在一小部分樣本中激活。所以離群值不應(yīng)被簡(jiǎn)單認(rèn)為就是噪聲數(shù)據(jù)而被剔除,而應(yīng)核實(shí)、分析后妥善處理。
2.3 聚類模型
聚類分析在惡性腫瘤中多用于疾病危險(xiǎn)因素的探索研究或觀察性學(xué)習(xí),其一般在應(yīng)用其他數(shù)據(jù)挖掘方法之前進(jìn)行,以提高算法準(zhǔn)確性,因此在統(tǒng)計(jì)、生物醫(yī)學(xué)以及機(jī)器學(xué)習(xí)領(lǐng)域中有較高的應(yīng)用需求,其算法的選擇有賴于數(shù)據(jù)集類型及特定的應(yīng)用目的。Chen等[12]應(yīng)用聚類方法對(duì)前列腺癌的預(yù)后因素進(jìn)行分析,在對(duì)腫瘤患者基因數(shù)據(jù)聚類后,應(yīng)用卡方檢驗(yàn)計(jì)算各個(gè)聚類與最終臨床預(yù)后結(jié)果的關(guān)聯(lián)程度,獲得與預(yù)后高度相關(guān)的基因。
2.4 關(guān)聯(lián)規(guī)則模型
在醫(yī)學(xué)領(lǐng)域,關(guān)聯(lián)規(guī)則用來發(fā)現(xiàn)數(shù)據(jù)間隱含的關(guān)聯(lián)關(guān)系[13]。Agrawal等[14]對(duì)美國腫瘤研究所的SEER數(shù)據(jù)庫中肺癌患者數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,生成了數(shù)百條關(guān)聯(lián)規(guī)則,其中大部分規(guī)則符合目前醫(yī)學(xué)認(rèn)知。隨后基于領(lǐng)域知識(shí)對(duì)大部分已知的關(guān)聯(lián)規(guī)則手工刪除后,發(fā)現(xiàn)了一些影響肺癌患者遠(yuǎn)期生存率的新穎見解。關(guān)聯(lián)規(guī)則還被用于癌基因的尋找中,Lopez等[15]利用模糊關(guān)聯(lián)規(guī)則得到部分疑似與乳腺癌發(fā)病有關(guān)的基因。
2.5 分類模型
該算法是有監(jiān)督學(xué)習(xí)算法,通常用于惡性腫瘤的診斷及預(yù)后分析。分類模型較多,而綜合多種方法的集成算法也在不斷涌現(xiàn),如Fan等[16]提出的一種基于案例的數(shù)據(jù)聚類方法結(jié)合模糊決策樹的混合模型,以完成針對(duì)乳腺癌的分類。決策樹作為在惡性腫瘤中應(yīng)用最多的分類模型,其不僅有較快的訓(xùn)練速度,并且可產(chǎn)生顯式分類規(guī)則,在臨床研究中廣泛使用。部分文獻(xiàn)[17-18]認(rèn)為決策樹模型是最優(yōu)、最實(shí)用的預(yù)測(cè)模型。目前文獻(xiàn)已經(jīng)報(bào)道數(shù)百種決策樹模型,而分類回歸樹(CART)也被部分學(xué)者認(rèn)為是最適合醫(yī)學(xué)數(shù)據(jù)挖掘的分類模型[19]。
2.6 集成學(xué)習(xí)算法
該算法是一類有效提高分類準(zhǔn)確率的方法,其核心是應(yīng)用多種分類器后,投票決定最終的分類。幾乎所有分類算法均可采用多分類器集成(Bagging)方法進(jìn)行集成式學(xué)習(xí)。Liu等[20]運(yùn)用集成的C5決策樹算法對(duì)乳腺癌生存率進(jìn)行預(yù)測(cè)。Kaewchinporn等[21]將決策樹、集成學(xué)習(xí)算法以及聚類方法綜合應(yīng)用,在多個(gè)醫(yī)學(xué)數(shù)據(jù)集上取得較好的效果。
3.1 在惡性腫瘤診斷中的應(yīng)用
對(duì)惡性腫瘤數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,可預(yù)測(cè)個(gè)體是否罹患惡性腫瘤,為其早期診斷及預(yù)警提供指導(dǎo)[22]。既往決策樹方法在惡性腫瘤診斷中的應(yīng)用較多,但其在眾多數(shù)據(jù)挖掘方法中分類精度卻并非最優(yōu)。就分類精度而言,部分文獻(xiàn)認(rèn)為神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)算法在眾多機(jī)器學(xué)習(xí)算法中效果突出。Abdelaal等[23]研究比較了支持向量機(jī)與決策樹在DDSM數(shù)據(jù)集中應(yīng)用乳房腫塊影像特點(diǎn)及年齡來預(yù)測(cè)是否罹患乳腺癌,最終支持向量機(jī)獲得了最大化ROC面積。Sawarkar等[24]在Wisconsin乳腺癌數(shù)據(jù)集中應(yīng)用支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)算法對(duì)乳腺癌進(jìn)行預(yù)測(cè),結(jié)果顯示在預(yù)測(cè)精度上兩種方法均優(yōu)于臨床醫(yī)生,高達(dá)97%的準(zhǔn)確率可以幫助患者免受活檢痛苦。Sarvestani等[25]比較了一系列神經(jīng)網(wǎng)絡(luò)算法的能力,其中包括了多層感知器(Multilayer Perceptron, MLP)、自組織映射算法、徑向基函數(shù)(Radia Basis Function, RBF)及概率神經(jīng)網(wǎng)絡(luò),以用來比較對(duì)Wisconsin乳腺癌數(shù)據(jù)集及Shiraz Namazi醫(yī)院乳腺癌數(shù)據(jù)集的診斷分類效果,結(jié)果顯示概率神經(jīng)網(wǎng)絡(luò)分類精度最優(yōu)。Padmavati等[26]同樣對(duì)Wisconsin乳腺癌數(shù)據(jù)集進(jìn)行乳腺癌預(yù)測(cè),其單獨(dú)應(yīng)用RBF與MLP對(duì)比Logistic回歸。結(jié)果顯示,兩種神經(jīng)網(wǎng)絡(luò)模型在構(gòu)建時(shí)雖比Logistic回歸花費(fèi)更多的時(shí)間,但其敏感度及特異度均優(yōu)于Logistic回歸。綜上,針對(duì)惡性腫瘤診斷的數(shù)據(jù)挖掘研究中,決策樹方法能輸出顯式的分類規(guī)則,因此在臨床研究中應(yīng)用較多;而神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)等算法卻擁有更高的分類精度。因此,臨床研究中算法的選擇應(yīng)通過研究目的、預(yù)試驗(yàn)效果、是否需要輸出易理解的顯式規(guī)則等綜合考慮。
3.2 在惡性腫瘤預(yù)后中的應(yīng)用
臨床醫(yī)生需評(píng)估多種治療方案的優(yōu)劣及預(yù)估患者的預(yù)后。預(yù)后分析主要是生存時(shí)間分析,因?yàn)榻匚矓?shù)據(jù)的存在,腫瘤預(yù)后的預(yù)測(cè)相對(duì)腫瘤診斷來說更為困難。因?yàn)橹挥幸恍〔糠只颊吣苡^察到腫瘤的復(fù)發(fā),對(duì)于這類不知道何時(shí)、是否復(fù)發(fā)的截尾數(shù)據(jù),隨訪只能得到最后一次的隨訪結(jié)果,定義這種情況為“無病生存期”。對(duì)此,Pantel[27]總結(jié)數(shù)據(jù)挖掘在腫瘤預(yù)后預(yù)測(cè)中的3個(gè)研究熱點(diǎn):(1)預(yù)測(cè)腫瘤生存率(危險(xiǎn)因素評(píng)估)。(2)預(yù)測(cè)腫瘤的復(fù)發(fā)。(3)預(yù)測(cè)腫瘤的生存概率。腫瘤預(yù)后的預(yù)測(cè)也可分成兩類問題進(jìn)行處理:一類是尚未復(fù)發(fā)的患者(截尾數(shù)據(jù)),另一類是某個(gè)時(shí)點(diǎn)已復(fù)發(fā)的患者[28]。腫瘤預(yù)后研究多選擇臨床可獲取的數(shù)據(jù)進(jìn)行分析,但加入基因數(shù)據(jù)的聯(lián)合研究也越來越多,Gevaert[29]選擇將臨床數(shù)據(jù)與基因微陣列數(shù)據(jù)共同用于乳腺癌預(yù)后的預(yù)測(cè),通過貝葉斯網(wǎng)絡(luò)模型自動(dòng)進(jìn)行特征選擇,識(shí)別出這些相關(guān)因素與乳腺癌的相關(guān)程度。在腫瘤預(yù)后研究中,決策樹是應(yīng)用最多的算法之一。Delen等[30]就乳腺癌的生存率進(jìn)行了研究,使用神經(jīng)網(wǎng)絡(luò)、決策樹以及Logistic回歸模型建立了基于20萬份乳腺癌樣本數(shù)據(jù)的預(yù)測(cè)模型,通過特征選擇篩選出72個(gè)特征以構(gòu)建預(yù)測(cè)模型,決策樹C5.0獲得最優(yōu)精度。實(shí)際應(yīng)用中發(fā)現(xiàn),如能將多種機(jī)器學(xué)習(xí)模型聯(lián)合應(yīng)用,充分利用各模型的優(yōu)點(diǎn),可提高腫瘤預(yù)后的預(yù)測(cè)精度。Khan等[31]在SEER數(shù)據(jù)集上基于模糊集-決策樹方法建立了一種混合模型,以嘗試不同的決策樹規(guī)則與不同模糊集的組合情況,發(fā)現(xiàn)混合的模糊決策樹較單個(gè)算法具有更好的魯棒性及平衡性。Choi等[32]比較了神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)模型以及包含二者的混合模型,利用SEER數(shù)據(jù)集中9個(gè)臨床認(rèn)可的數(shù)據(jù)變量以預(yù)測(cè)乳腺癌的預(yù)后,最終神經(jīng)網(wǎng)絡(luò)與混合模型的正確率均較高。
3.3 在惡性腫瘤疾病管理中的應(yīng)用
疾病管理是一種對(duì)慢性疾病進(jìn)行綜合干預(yù)的模式,通過運(yùn)用標(biāo)準(zhǔn)化的臨床指南、循證實(shí)踐以及強(qiáng)調(diào)對(duì)病人的教育來預(yù)防病情惡化,達(dá)到提升臨床預(yù)后的目的[33],而數(shù)據(jù)挖掘可協(xié)助評(píng)價(jià)疾病管理的效果。Labib等[34]對(duì)埃及兒童急性淋巴細(xì)胞白血病管理項(xiàng)目的數(shù)據(jù)進(jìn)行了挖掘研究,通過Clementine數(shù)據(jù)挖掘工具展現(xiàn)了人群地理、年齡分布,揭示了可能的疾病相關(guān)危險(xiǎn)因素,形成有指導(dǎo)意義的公共衛(wèi)生決策。Kang等[35]對(duì)醫(yī)院電子病歷信息進(jìn)行抽取后構(gòu)建臨床數(shù)據(jù)倉庫,完成對(duì)乳腺癌患者為期5年的疾病管理。其后對(duì)臨床數(shù)據(jù)倉庫中不同乳腺癌術(shù)式的術(shù)后存活率進(jìn)行了數(shù)據(jù)挖掘研究,客觀地對(duì)疾病管理效果做出了合理評(píng)價(jià)。
來自醫(yī)學(xué)及信息科學(xué)的學(xué)者從多角度、多領(lǐng)域?qū)?shù)據(jù)挖掘相關(guān)技術(shù)引入到惡性腫瘤的研究中,取得了令人鼓舞的成果,這些工作為惡性腫瘤數(shù)據(jù)的進(jìn)一步研究奠定了良好基礎(chǔ),也預(yù)示了醫(yī)學(xué)與信息科學(xué)進(jìn)行學(xué)科交叉、相互結(jié)合的美好前景。然而基于臨床信息系統(tǒng),應(yīng)用數(shù)據(jù)挖掘后真正能持續(xù)性輔助臨床決策的系統(tǒng)目前報(bào)道仍較少。這一方面是由于學(xué)科間的交叉、整合不夠,另一方面是臨床專業(yè)有其固有的復(fù)雜性。但可預(yù)見,隨著醫(yī)院信息化建設(shè)的進(jìn)一步深入以及學(xué)科間的相互滲透,數(shù)據(jù)挖掘在臨床中的應(yīng)用會(huì)越來越多,最終進(jìn)一步推動(dòng)惡性腫瘤的深入研究。
1 Mishra D. Predictive Data Mining: promising future and applications[J]. Int J of Computer and Communication Technology, 2010, 2 (1):20-28.
2 Iavindrasana J, Cohen G, Depeursinge A, et al. Clinical Data Mining: a review.[J]. Yearb Med Inform, 2009, (4):121-133.
3 Roddick J, Fule P, Graco W. Exploratory Medical Knowledge Discovery: experiences and issues [J]. ACM SIGKDD Explorations Newsletter, 2003, 5(1): 94-99.
4 Saeys Y, Inza I, Larraaga P. A Review of Feature Selection Techniques in Bioinformatics [J]. Bioinformatics, 2007, 23(19): 2507-2517.
5 Gandhi K, Karnan M, Kannan S. Classification Rule Construction Using Particle Swarm Optimization Algorithm for Breast Cancer Data Sets[C]. Bangalore: Signal Acquisition and Processing,2010: 233-237.
6 Lee Z J. An Improved Algorithm with Gene Selection and Decision Rules for Ovarian Cancer [J]. Advances in Computer Science and Its Applications, 2012, 1(1): 26-31.
7 Deisy C, Subbulakshmi B, Baskar S, et al. Efficient Dimensionality Reduction Approaches for Feature Selection[C]. Siva Kasi: Conference on Computational Intelligence and Multimedia Applications, 2007: 121-127.
8 Karegowda A, Manjunath A, Jayaram M. Feature Subset Selection Problem Using Wrapper Approach in Supervised Learning [J]. International Journal of Computer Applications, 2010, 1(7): 13-17.
9 Chandola V, Banerjee A, Kumar V, et al. Anomaly Detection: a survey [J]. ACM Computing Surveys, 2009, 41(3): 75-79.
10 Jacob S, Ramani R. Mining of Classification Patterns in Clinical Data Through Data Mining Algorithms[C]. Proceedings of the International Conference on Advances in Computing, ACM, 2012: 997-1003.
11 Wu B. Cancer Outlier Differential Gene Expression Detection [J]. Biostatistics, 2007, 8(3): 566-575.
12 Chen X, Xu S, Wang Y, et al. Identification of Biomarkers for Prostate Cancer Prognosis Using a Novel Two-Step Cluster Analysis[J]. Lecture Notes in Computer Science, 2011,(7036):63-74.
13 牟冬梅, 馮超, 王萍. 數(shù)據(jù)挖掘方法在醫(yī)學(xué)領(lǐng)域的應(yīng)用及SWOT分析[J]. 醫(yī)學(xué)信息學(xué)雜志,2015,36 (1):53-57.
14 Agrawal A, Choudhary A. Association Rule Mining Based HotSpot Analysis on SEER Lung Cancer Data [J]. International Journal of Knowledge Discovery in Bioinformatics, 2011, 2(2): 34-54.
15 Lopez F J, Cuadros M, Cano C, et al. Biomedical Application of Fuzzy Association Rules for Identifying Breast Cancer Biomarkers [J]. Medical & Biological Engineering & Computing, 2012, 50(9): 981-990.
16 Fan C, Chang P, Lin J, et al. A Hybrid Model Combining Case-based Reasoning and Fuzzy Decision Tree for Medical Data Classification [J]. Applied Soft Computing, 2011, 11(1): 632-644.
17 Aruna S, Rajagopalan S P, Nandakishore L V. An Empirical Comparison of Supervised learning algorithms in Disease Detection [J]. International Journal of Information Technology Convergence and Services, 2011, 1(4):81-92.
18 李懷慶. 決策樹算法在醫(yī)院數(shù)據(jù)挖掘中的應(yīng)用探索[J].醫(yī)學(xué)信息學(xué)雜志,2009,30 (8):11-13.
19 Lavanya D, Usha R. Performance Evaluation of Decision Tree Classifiers on Medical Datasets [J]. International Journal of Computer Applications, 2011, 26(4): 1-4.
20 Liu Y, Wang C, Zhang L. Decision Tree Based Predictive Models for Breast Cancer Survivability on Imbalanced Data [C].Beijing: Bioinformatics & Biomedical Engineering .International Conference on ICBBE, 2009:1-4.
21 Kaewchinporn C, Vongsuchoto N, Srisawat A. A Combination of Decision Tree Learning and Clustering for Data Classification[C].Nakhon Pathom: Computer Science and Software Engineering, 2011 Eighth International Joint Conference on IEEE, 2011: 363-367.
22 武會(huì)蘋, 李莉. 基于CBR的原發(fā)性心臟惡性腫瘤診斷系統(tǒng)設(shè)計(jì)[J]. 醫(yī)學(xué)信息學(xué)雜志,2011,32 (1):41-43.
23 Abdelaal M, Sena H, Farouq M, et al. Using Data Mining for Assessing Diagnosis of Breast Cancer[C].Wisla: Computer Science and Information Technology (IMCSIT), Proceedings of the 2010 International Multiconference on IEEE, 2010: 11-17.
24 Sawarkar S, Ghatol A, Pande A. Neural Network Aided Breast Cancer Detection and Diagnosis Using Support Vector Machine[C]. Cevtat: Proceedings of the 7th WSEAS International Conference on Neural Networks, Cavtat, Croatia. 2006:158-163.
25 Sarvestani A, Safavi A, Parandeh N, et al. Predicting Breast Cancer Survivability Using Data Mining Techniques [J]. Lap Lambert Academic Publishing, 2010, (2): 227-231.
26 Padmavati J. A Comparative Study on Breast Cancer Prediction Using RBF and MLP [J]. International Journal of Scientific & Engineering Research, 2011, 2(1): 1-5.
27 Pantel P. Breast Cancer Diagnosis and Prognosis [D]. Winnipeg University of Manitoba, 1998.
28 Chi C, Street W, Wolberg W. Application of Artificial Neural Network-based Survival Analysis on two Breast Cancer Datasets[C]. Palo Alto:AMIA Annual Symposium Proceedings, 2007: 130-134.
29 Gevaert O, De Smet F, Timmerman D, et al. Predicting the Prognosis of Breast Cancer by Integrating Clinical and Microarray Data with Bayesian Networks [J]. Bioinformatics, 2006, 22(14): 184-190.
30 Delen D, Walker G, Kadam A. Predicting Breast Cancer Survivability: a comparison of three data mining methods [J]. Artificial Intelligence in Medicine, 2005, 34(2): 113-128.
31 Khan M, Choi J, Shin H, et al. Predicting Breast Cancer Survivability Using Fuzzy Decision Trees for Personalized Healthcare[C]. Vancouver: Engineering in Medicine and Biology Society. 30th Annual International Conference of the IEEE. 2008: 5148-5151.
32 Choi J, Han T, Park R, et al. A Hybrid Bayesian Network Model for Predicting Breast Cancer Prognosis [J]. Healthcare Informatics Research, 2009, (1):49-57
33 Krumholz H, Currie P, Riegel B, et al. A Taxonomy for Disease Management: a scientific statement from the American heart association disease management taxonomy writing group [J]. Circulation, 2006, 114(13):1432-1445.
34 Labib N, Malek M. Data Mining for Cancer Management in Egypt Case Study: childhood acute lymphoblastic leukemia [J]. Transactions on Engineering, Computing & Technology, 2005, (8): 309-314.
35 Kang E, Han S, Kim S, et al. Five-years of Breast Cancer Management in A New Hospital: analysis using clinical data warehouse [J]. Journal of Breast Cancer, 2010, 13(1): 96-103.
Data Mining Technology and Its Application in the Diagnosis and Treatment of Clinical Malignant Tumors
ZHANGRui,WANGMi-ye,LINan,YANGXiao-yan,SHIQing-ke,HUANGYong,
WestChinaHospitalofSichuanUniversity,Chengdu610041,China
The paper introduces technologies related to data mining, including the feature selection, outlier detection model, clustering model, association rule model, classification model, ensemble learning algorithm, etc. It makes detailed explanation of the application of data mining in the diagnosis, prognosis and management of clinical malignant tumors.
Data mining technology; Malignant tumor; Research of diagnosis and prognosis
2015-05-06
張睿,博士研究生,發(fā)表論文3篇;通訊作者:王覓也。
863國家科技計(jì)劃項(xiàng)目“數(shù)字化醫(yī)療區(qū)域協(xié)同應(yīng)用示范”(項(xiàng)目編號(hào):2012AA02A615)。
R-056
A 〔DOI〕10.3969/j.issn.1673-6036.2015.10.011