国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于C50算法的胃癌生存預(yù)測模型研究

2017-05-30 05:31:57黃志剛劉虹劉娟張岐山
南京信息工程大學學報 2017年4期
關(guān)鍵詞:數(shù)據(jù)挖掘胃癌

黃志剛 劉虹 劉娟 張岐山

摘要我國的胃癌發(fā)病率高,每年新增胃癌患者占全世界每年新增數(shù)量的42%,胃癌成為我國惡性腫瘤防控的重點.本文針對胃癌數(shù)據(jù)的特征,給出數(shù)據(jù)預(yù)處理和集成方法;采用C50分類算法,構(gòu)建了胃癌生存預(yù)測模型,并首次采用美國癌癥研究所的SEER數(shù)據(jù)庫進行預(yù)測實驗.實驗結(jié)果表明:C50預(yù)測的精確度、特異性均高于BP神經(jīng)網(wǎng)絡(luò)算法;胃癌患者的出生地點與最終的存活狀態(tài)之間存在較強的相關(guān)性.該研究是數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域的一個實際應(yīng)用,對胃癌的臨床診斷具有一定的參考價值,可為醫(yī)生制定合理的治療和預(yù)防方案提供一定參考.關(guān)鍵詞數(shù)據(jù)挖掘;C50分類算法;胃癌;生存預(yù)測;SEER數(shù)據(jù)庫

中圖分類號TP391

文獻標志碼A

0引言

隨著信息和醫(yī)療管理網(wǎng)絡(luò)的發(fā)展,電子病歷系統(tǒng)成為了醫(yī)院病歷現(xiàn)代化管理的前提條件.如何使用結(jié)構(gòu)化電子病歷描述復(fù)雜的疾病,為臨床診斷和治療提供科學的決策并輔助臨床研究,已成為人們關(guān)注的焦點[1].目前,隨著醫(yī)院信息系統(tǒng)的普及,怎樣從這些數(shù)量眾多的電子病歷中發(fā)現(xiàn)隱藏的有利用價值的信息,已成為電子病歷研究中的熱點問題.

隨著大型醫(yī)院信息管理系統(tǒng)的發(fā)展,數(shù)據(jù)挖掘方法在電子病歷的應(yīng)用研究主要集中在疾病的診斷、預(yù)測、分類或分級和相關(guān)因素分析等方面.1)Kusiak等[2]用兩種算法對實體性肺結(jié)核進行了診斷分析;Fiasché等[3]運用統(tǒng)計方法和計算智能技術(shù)來識別基因診斷指標,對急性移植物抗宿主病(GVHD)準確診斷進行了研究;趙一鳴[4]采用分類回歸樹方法對結(jié)、直腸癌的病例進行了分析;孫清等[5]運用支持向量機微量元素法建立了胃癌模式識別和診斷的輔助手段;還有采用數(shù)據(jù)挖掘技術(shù)進行胃癌的臨床辨治[6]、用藥規(guī)律[7]和化療藥物不良反應(yīng)關(guān)聯(lián)的研究[8].2) Wiggins等[9]用粗糙集理論對心臟病患者術(shù)后是否會發(fā)生房顫進行了預(yù)測;非參數(shù)決策樹算法被Das等[10]用來預(yù)測肺癌患者在肺部化療以后患肺炎的概率;李輝等[11]從腫瘤基因表達譜分析入手建立了腫瘤預(yù)測模型.3)Tung 等[12]依據(jù)基因數(shù)據(jù)建立了模糊系統(tǒng)確定小兒淋巴細胞性白血病的具體類型;Mitra等[13]則是利用智能計算研究了宮頸癌惡性程度的自動分級;李建更等[14]并行分析了胃癌微陣列數(shù)據(jù)集,采用遺傳算法與支持向量機相結(jié)合提取特征基因.4)Prather等[15]通過對醫(yī)院婦產(chǎn)科中心的數(shù)據(jù)進行挖掘發(fā)現(xiàn)了導(dǎo)致早產(chǎn)的3個因素;而Dutau等[16]應(yīng)用決策樹研究了誘使兒童慢性或周期性感冒的原因;Zhang等[17]采用支持向量機評估了胃癌淋巴腺轉(zhuǎn)移在胃癌長期生存中的地位;王文文等[18]將聚類和支持向量機用于胃癌患者住院費用的預(yù)測研究.

胃癌是常見的惡性腫瘤之一,它的發(fā)病率僅次于肺癌,居世界第二位.我國是胃癌的高發(fā)區(qū),每年新增患者達40萬人,占到全世界發(fā)病人數(shù)的42%[19],患病率和死亡率均是世界平均水平的兩倍多,約2~3分鐘就有1個中國人死于胃癌,因此胃癌成為我國惡性腫瘤防控的重點[20].常用的胃癌診斷方法對腫瘤標志物檢測的靈敏度和特異性均較低.大多數(shù)的患者在發(fā)現(xiàn)病情時都已經(jīng)是中到晚期,

學報(自然科學版),2017,9(4):406410Journal of Nanjing University of Information Science and Technology(Natural Science Edition),2017,9(4):406410

黃志剛,等.基于C50算法的胃癌生存預(yù)測模型研究.

HUANG Zhigang,et al.

Gastric cancer prediction model based on C50 classification algorithm.

因此,如何早期發(fā)現(xiàn)病癥并合理規(guī)范治療是提高胃癌患者存活率的關(guān)

鍵,這對提高胃癌早期診斷和防治有著重要意義.

本文針對胃癌確診時期晚、死亡率高的特點,從SEER提供的數(shù)據(jù)出發(fā),采用C50算法構(gòu)建胃癌存活時間的預(yù)測模型,以期幫助醫(yī)生做出更為合理的決策和治療方案.

1C50算法

C50是決策樹中的經(jīng)典算法,根據(jù)統(tǒng)計學上的置信區(qū)間來進行估計,其核心問題是誤差估計和修剪標準的設(shè)置,算法的基本思路是:1)對于決策樹中的每個葉節(jié)點,輸出變量的多數(shù)類別將作為最后的預(yù)測類別;2)假設(shè)第n個葉節(jié)點含有X個觀測,其中有Y個錯誤預(yù)測,那么錯誤率,即誤差為wn=X/Y;3)

對第n個葉節(jié)點的真實誤差en在近似正態(tài)分布假設(shè)的基礎(chǔ)上進行區(qū)間估計,置信度設(shè)定為1-α,則有

Pwn-enwn(1-wn)X其中,zα/2是臨界值,那么第n個葉節(jié)點en的置信上限,即C50算法的默認置信度為1-025=75%,當α=025時,zα/2=115.

2數(shù)據(jù)處理

21數(shù)據(jù)的準備

由于我國醫(yī)院還未完全實現(xiàn)醫(yī)療信息化,加之出于隱私數(shù)據(jù)的保護,國內(nèi)醫(yī)療數(shù)據(jù)信息公開化程度不高,醫(yī)療數(shù)據(jù)庫尚未完善.SEER項目是美國國家癌癥研究所監(jiān)控美國9個注冊地的數(shù)據(jù),并將這些數(shù)據(jù)免費提供給以分析研究為目的的機構(gòu)和實驗室.本文的實驗數(shù)據(jù)是從SEER網(wǎng)站(http:∥www.seer.cancer.gov)上申請的1973—2009年登記的確診為胃癌的病例.由于本文是研究胃癌患者的生存性和存活時間,因而選取SEER數(shù)據(jù)集中的 DIGOTHR.txt,它包含308 155名隨訪患者的記錄,含有所有消化類癌癥的記錄,因而需先對數(shù)據(jù)進行初步的篩選,其規(guī)則如表1所示.初步篩選使得所有記錄都只患胃癌一種癌癥.由于較多屬性適用范圍是1988年以后,而1998年以前和2003年以后的數(shù)據(jù)缺失值較多,為了預(yù)測模型的準確性,刪除1998年以前和2003年以后的記錄,選取1998—2002年的數(shù)據(jù)用于實驗.

規(guī)則1:Sequence NumberCentral必須是00,這樣說明只患有一種癌癥.Sequence NumberCentral是描述病人一生中可報告的惡性、原位、良性、不明確原發(fā)性腫瘤的數(shù)量和順序的編碼.如果一個人之前被診斷只有一個惡性腫瘤,隨后發(fā)現(xiàn)存在第二個惡性腫瘤,則Sequence NumberCentral由00變?yōu)?1.

規(guī)則2:Primary Site是C160—C166,C168—C169,確?;嫉氖俏赴?

Site代表原發(fā)瘤產(chǎn)生的位點,具體編碼參考國際疾病分類腫瘤學第三版(The International Classification of Disease For Oncology,Third Edition,ICDO3).胃癌位點的編碼范圍為C160—C166,C168—C169,具體位點如表2所示.

22數(shù)據(jù)的集成

由于DIGOTHR.txt所含數(shù)據(jù)量太大,需要先借助文本分割器將DIGOTHR.txt分成5個較小的文本文件,經(jīng)過初步篩選,然后再將篩選的結(jié)果集成,得到的數(shù)據(jù)如圖1所示.

31C50建模過程

對預(yù)處理后的胃癌數(shù)據(jù),采用隨機抽樣選取1 264個樣本作為訓練樣本集,另外542個樣本作為測試樣本集進行建模.首先使用C50算法根據(jù)訓練樣本集建立決策樹,為避免過擬合問題,C50算法采用自底向上的逐層修剪,修剪后的決策樹如圖2所示.

根據(jù)修剪后的決策樹,通過設(shè)置最小樣本量和最小置信度,生成規(guī)則集.本次實驗最小樣本量設(shè)為15,最小置信度設(shè)為075,產(chǎn)生的規(guī)則集由兩部分組成,分別代表輸出變量的兩個類別,具體描述如圖3所示.根據(jù)修剪的決策樹共得到4條規(guī)則,類別0含有3條,類別1有1條.由于設(shè)置了最小樣本量和最小置信度,有些規(guī)則就會被舍掉,那么就會存在一些樣本不能被覆蓋,它們被歸為Default,輸出類別為0.規(guī)則后面的括號給出了每條規(guī)則覆蓋的樣本量以及這條規(guī)則的正確預(yù)測率.例如,類別0中的第一條規(guī)則共覆蓋563個樣本,它的正確預(yù)測率是881%.根據(jù)模型預(yù)測結(jié)果得到C50算法的混淆矩陣如表3所示.

模型的輸出結(jié)果中也包括輸入變量對建模的重要性測度,重要性測度的指標是各個統(tǒng)計檢驗的1-P的值(P為概率),它是一個相對值,第i個輸入變量的重要性定義為

Evaluation(i)=1-Pi∑i(1-Pi),(1)

其中,1-P的值越高,輸入變量和輸出變量的相關(guān)性越大,對輸出變量而言也就越重要,所有進入模型的輸入變量的重要性之和為1.

根據(jù)式(1),8個輸入變量對Outcome的重要性如圖4所示,其中縱坐標表示的是模型的8個輸入屬性,橫坐標為各屬性根據(jù)式(1)計算得到的1-P的值.

中可以發(fā)現(xiàn):1)胃癌患者5年后的存活狀態(tài)主要與癌癥總的惡化程度(Summary Stage 2000)、出生地點(Birth Place)、良性區(qū)域淋巴結(jié)的個數(shù)(Regional Nodes Positive)以及第一個療程中放射治療的方法(RX SummRadiation) 相關(guān);2)后3個變量和現(xiàn)實是相符的,胃癌確診時期的早晚一直以來都是影響胃癌存活率的關(guān)鍵因素,而出生地點與最終的存活狀態(tài)有較大的相關(guān)性,相對于以往研究,該結(jié)論比較出人意料.

通過分析數(shù)據(jù)庫中5年后沒有存活的記錄的出生地分布情況發(fā)現(xiàn):我國胃癌的高發(fā)地區(qū)分布情況與該結(jié)果相符,胃癌的高發(fā)地區(qū)在飲食上都很具有“地方特色”,有一個共同點,長時間的食用鹽漬食品,比方說腌制的肉類和蔬菜、咸魚以及海產(chǎn)品等.

32對比實驗與分析

比較C50算法與BP神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果,結(jié)合模型的混淆矩陣計算出精確性、敏感性和特異性,結(jié)果如表4所示.結(jié)果表明:在胃癌5年生存預(yù)測中,C50算法的精確度、特異性均高于BP神經(jīng)網(wǎng)絡(luò),敏感性略低于BP神經(jīng)網(wǎng)絡(luò);另外,兩種算法的敏感性數(shù)值均比特異性差,該情況可能是由于樣本數(shù)據(jù)集的非平衡性造成的.因為在篩選后得到的1 806個樣本中,沒有存活的占了6783%,而存活的只占了3217%,導(dǎo)致正類的數(shù)量是負類的兩倍多;當采用數(shù)據(jù)建模時,由于預(yù)測模型總是追求整體的預(yù)測錯誤率最小,這樣整體的高預(yù)測正確率往往會掩蓋負類的高預(yù)測錯誤率,即模型偏向于正類.這也是實驗中特異性總比敏感性高的原因.

4結(jié)束語

本文針對胃癌患者的生存時間,將C50分類算法用于患者生存時間預(yù)測模型的構(gòu)建,給出了數(shù)據(jù)預(yù)處理方法,篩選出與存活時間相關(guān)的屬性,進而構(gòu)造了基于C50算法的胃癌生存時間預(yù)測模型.首次選用SEER數(shù)據(jù)庫中胃癌數(shù)據(jù)進行胃癌預(yù)測實驗,將C50分類算法和BP神經(jīng)網(wǎng)絡(luò)算法分別進行預(yù)測,實驗結(jié)果表明:1)C50算法的精確度、特異性均高于BP神經(jīng)網(wǎng)絡(luò),而敏感性與BP神經(jīng)網(wǎng)絡(luò)基本持平;2)胃癌屬高死亡率的癌癥,在預(yù)測時可能會造成數(shù)據(jù)的非平衡;3)胃癌患者的出生地點與最終的存活狀態(tài)之間存在較強的相關(guān)性,即胃癌的發(fā)病具有地域特點,因此合理的飲食和良好的生活習慣在一定程度上能提高胃癌的存活率.

本文是數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域的一個實際應(yīng)用,對胃癌的臨床診斷具有一定的參考價值,可以為醫(yī)生制定合理的治療和預(yù)防方案提供一定參考.另一方面,本文的實驗數(shù)據(jù)來源于SEER數(shù)據(jù)庫,雖然在建模前對數(shù)據(jù)進行了預(yù)處理,但數(shù)據(jù)的主觀或客觀性的偏差仍對最后的實驗結(jié)果產(chǎn)生了一定的影響.因此,需要對醫(yī)學數(shù)據(jù)的預(yù)處理技術(shù)和方法開展進一步的研究.針對中國的病歷數(shù)據(jù)進行疾病預(yù)測研究也是今后的研究方向.

參考文獻

References

[1]王欣萍,李燕.數(shù)據(jù)挖掘技術(shù)于醫(yī)學電子病歷系統(tǒng)的應(yīng)用[J].現(xiàn)代預(yù)防醫(yī)學,2008,35(13):24502451

WANG Xinping,LI Yan.Application of data mining technology in electronic medical records system[J].Modern Preventive Medicine,2008,35(13):24502451

[2]Kusiak A,Kernstine K H,Kern J A,et al.Data mining:Medical and engineering case studies[C]∥Proceedings of the Industrial Engineering Research 2000 Conference,Cleveland,Ohio,2000:17

[3]Fiasché M,Cuzzola M,F(xiàn)edele R,et al.Computational intelligence methods for discovering diagnostic gene targets about aGVHD[J].Frontiers in Artifical Intelligence & Applications,2009,204:271280

[4]趙一鳴.分類與回歸樹:一種適用于臨床研究的統(tǒng)計分析方法[J].北京大學學報(醫(yī)學版),2001,33(6):562565

ZHAO Yiming.Classification and regression trees:A statistical method suitable for clinical researches[J].Journal of Peking University (Health Sciences),2001,33(6):562565

[5]孫清,鞠建峰,曲慶美,等.支持向量機在胃癌診斷預(yù)測中的應(yīng)用[J].食品與藥品,2010,12(11):401404

SUN Qing,JU Jianfeng,QU Qingmei,et al.Application of support vector machine in prediction of gastric cancer[J].Food and Drug,2010,12(11):401404

[6]馬夢妍.基于數(shù)據(jù)挖掘的舒鵬教授治療胃癌臨床病案的回顧性研究[D].南京:南京中醫(yī)藥大學基礎(chǔ)醫(yī)學院,2016

MA Mengyan.A retrospective study based on data mining,Professor Shupeng clinical case of treatment of gastric cancer[D].Nanjing:College of Basic Medicine,Nanjing University of Chinese Medicine,2016

[7]王澤明,柴可群,陳嘉斌.基于數(shù)據(jù)挖掘的柴可群治療胃癌用藥規(guī)律研究[J].江西中醫(yī)藥大學學報,2017,29(1):3841

WANG Zeming,CHAI Kequn,CHEN Jiabin.Analysis on the medication rules of CHAI Kequn for the treatment of gastric cancer based on data mining[J].Journal of Jiangxi University of Traditional Chinese Medicine,2017,29(1):3841

[8]郭佳棟,張雪梅,劉影,等.基于數(shù)據(jù)挖掘技術(shù)對胃癌化療藥物不良反應(yīng)關(guān)聯(lián)性研究[J].藥物流行病學雜志,2017,26(1):4649

GUO Jiadong,ZHANG Xuemei,LIU Ying,et al.Correlation analysis of gastric cancer chemotherapy drugs adverse drug reaction based on data mining technology[J].Chinese Journal of Pharmacoepidemiology,2017,26(1):4649

[9]Wiggins M C,F(xiàn)irpi H A,Blanco R R,et al.Prediction of atrial fibrillation following cardiac surgery using rough set derived rules[J]∥Conf Proc IEEE Eng Med Biol Soc,2006,1(1):40064009

[10]Das S K,Zhou S M,Zhang J N,et al.Predicting lung radiotherapyinduced pneumonitis using a model combining parametric Lyman probit with nonparametric decision trees[J].International Journal of Radiation Oncology Biology Physics,2007,68(4):12121221

[11]李輝,王金蓮.基于基因表達譜的腫瘤預(yù)測模型研究[J].電子學報,2008,36(5):989992

LI Hui,WANG Jinlian.Study of tumor molecular prediction model based on gene expression profiles[J].Acta Electronica Sinica,2008,36(5):989992

[12]Tung W L,Quek C.GenSoFDSS:A neuralfuzzy decision support system for pediatric ALL cancer subtype identification using gene expression data[J].Artificial Intelligence in Medicine,2005,33(1):6188

[13]Mitra P,Mitra S,Pal S K.Evolutionary modular MLP with rough sets and ID3 algorithm for staging of cervical cancer[J].Neural Computing and Applications,2001,10(1):6776

[14]李建更,賀益恒,郭慶雷.基于多數(shù)據(jù)集的胃癌亞型標志基因選擇[J].北京工業(yè)大學學報,2013,39(10):15901595

LI Jiangeng,HE Yiheng,GUO Qinglei.Marker gene selection of gastric cancer subtype based on multi microarray data sets[J].Journal of Beijing University of Technology,2013,39(10):15901595

[15]Prather J C,Lobach D F,Goodwin L K,et al.Medical data mining:Knowledge discovery in a clinical data warehouse[C]∥Proc AMIA Annu Fall Symp,1997:101105

[16]Dutau G,Micheau P,Juchet A,et al.Chronic cough in children:Etiology and decision trees[J].Archives de Pediatrie:Organe Officiel de la Societe Francaise de Pediatrie,2001,8(sup 3):610622

[17]Zhang X P,Wang Z L,Tang L,et a1.Support vector machine model for diagnosis of lymph node metastasis in gastric cancer with multidetector computed tomography:A preliminary study[J].BMC Cancer,2011,11(1):16

[18]王文文,周濤,陸惠玲,等.基于聚類和支持向量機的胃癌患者住院費用建模[J].中國初級衛(wèi)生保健,2016,30(2):14

WANG Wenwen,ZHOU Tao,LU Huiling,et al.A new model for hospitalization expenses of gastric cancer based on clustering and support vector machine[J].Chinese Primary Health Care,2016,30(2):14

[19]王永川,魏麗娟,劉俊田,等.發(fā)達與發(fā)展中國家癌癥發(fā)病率與死亡率的比較與分析[J].中國腫瘤臨床,2012,39(10):679682

WANG Yongchuan,WEI Lijuan,LIU Juntian,et al.Comparison and analysis of the incidence and mortality rate of cancer in developed and developing countries[J].Chinese Journal of Clinical Oncology,2012,39(10):679682

[20]王曉瑜.胃癌研究相關(guān)文獻熱點變化分析[J].臨床軍醫(yī)雜志,2015,43(9):955959

WANG Xiaoyu.A biblimentric analysis on gastric cancer research literature[J].Clinical Journal of Medical Officers,2015,43(9):955959

猜你喜歡
數(shù)據(jù)挖掘胃癌
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
胃癌組織中PGRN和Ki-67免疫反應(yīng)性增強
P53及Ki67在胃癌中的表達及其臨床意義
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
胃癌組織中Her-2、VEGF-C的表達及意義
胃癌組織中LKB1和VEGF-C的表達及其意義
胃癌組織中VEGF和ILK的表達及意義
中醫(yī)辨證結(jié)合化療治療中晚期胃癌50例
隆德县| 根河市| 洪泽县| 友谊县| 前郭尔| 和政县| 北流市| 和龙市| 阳泉市| 聊城市| 绥阳县| 永吉县| 麻阳| 金湖县| 壤塘县| 榆社县| 枣阳市| 旬阳县| 独山县| 嵩明县| 吴堡县| 文山县| 花垣县| 安吉县| 永城市| 新巴尔虎左旗| 马龙县| 连城县| 沁源县| 栾城县| 滨州市| 西青区| 甘泉县| 温州市| 连州市| 通许县| 娱乐| 武宁县| 济源市| 安阳县| 山东省|