馬立偉,曾強(qiáng),呂秋平,范成燁,程鵬
1.美國(guó)英立數(shù)據(jù)研究中心,西雅圖 98015 2.中國(guó)人民解放軍總醫(yī)院,北京 100853 3.北京一網(wǎng)數(shù)據(jù)研究中心,北京 100084 4.安徽中醫(yī)藥大學(xué)第一附屬學(xué)院,合肥 230031
*論著——生物信息技術(shù)*
大數(shù)據(jù)癌癥風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)
馬立偉1,3,曾強(qiáng)2134,呂秋平,范成燁,程鵬
1.美國(guó)英立數(shù)據(jù)研究中心,西雅圖 98015 2.中國(guó)人民解放軍總醫(yī)院,北京 100853 3.北京一網(wǎng)數(shù)據(jù)研究中心,北京 100084 4.安徽中醫(yī)藥大學(xué)第一附屬學(xué)院,合肥 230031
中國(guó)抗癌協(xié)會(huì)指出:90%的早期癌癥沒(méi)有明顯癥狀,以至于80%的癌癥患者確診時(shí)已屬于中晚期。如果我們能夠早期發(fā)現(xiàn)癌癥,至少可以挽救上百萬(wàn)人的生命。本研究的主要目的就是借助于大數(shù)據(jù)價(jià)值提取技術(shù),建立一套能夠早期預(yù)測(cè)癌癥風(fēng)險(xiǎn)的系統(tǒng)。本研究對(duì)486394人,包括40217名癌癥患者和446177名健康體檢者進(jìn)行了血常規(guī),血生化和尿常規(guī)數(shù)據(jù)的分析預(yù)測(cè), 預(yù)測(cè)分析數(shù)據(jù)共計(jì)48項(xiàng)。顯著性分析和預(yù)測(cè)模型的統(tǒng)計(jì)方法為邏輯分析法和判別分析法 ,顯著性檢驗(yàn)標(biāo)準(zhǔn)為p < 0.05 。預(yù)測(cè)分析使用的統(tǒng)計(jì)軟件為SAS,預(yù)測(cè)分析所用數(shù)據(jù)均來(lái)自MS SQL 數(shù)據(jù)庫(kù)。研究結(jié)果顯示血常規(guī),血生化和尿常規(guī)數(shù)據(jù)可以用來(lái)區(qū)分癌癥患者和健康者,基于血常規(guī),血生化和尿常規(guī)數(shù)據(jù)的癌癥風(fēng)險(xiǎn)預(yù)測(cè)模型可以精準(zhǔn)鎖定高風(fēng)險(xiǎn)癌癥人群,準(zhǔn)確率達(dá)95.5%。癌癥風(fēng)險(xiǎn)預(yù)測(cè)模型建成后,經(jīng)過(guò)2014年1—7月9931名癌癥患者和110077名健康體檢者數(shù)據(jù)的驗(yàn)證,準(zhǔn)確率超過(guò)95%。本研究證明血常規(guī),血生化和尿常規(guī)數(shù)據(jù)可以用來(lái)早期預(yù)測(cè)癌癥的風(fēng)險(xiǎn)。
大數(shù)據(jù);早期預(yù)測(cè)癌癥;血常規(guī);血生化;尿常規(guī)
癌癥,一個(gè)令人聞之色變的名詞,已經(jīng)成為當(dāng)今醫(yī)學(xué)界的一大挑戰(zhàn)??v觀歷史,人類(lèi)以往與疾病和細(xì)菌的斗爭(zhēng)都是以人類(lèi)的最終勝利而告終。但在癌癥面前,人類(lèi)似乎第一次感到束手無(wú)策了。德國(guó)科學(xué)家Thomas Bosch教授2014年8月宣布,人類(lèi)永遠(yuǎn)無(wú)法戰(zhàn)勝癌癥[1]。
面對(duì)癌癥的挑戰(zhàn),人類(lèi)真的就沒(méi)有希望了嗎?
2012年5月,美國(guó)6家聯(lián)邦機(jī)構(gòu)為大數(shù)據(jù)和癌癥特性的研究項(xiàng)目提供了2億美元的資助,研究機(jī)構(gòu)希望通過(guò)這項(xiàng)以大數(shù)據(jù)研究和開(kāi)發(fā)的課題帶動(dòng)其他醫(yī)療領(lǐng)域的大數(shù)據(jù)研究,尤其是干細(xì)胞和其他重大疾病領(lǐng)域[2]。2013年5月李嘉誠(chéng)捐資2000萬(wàn)英鎊資助英國(guó)牛津大學(xué)開(kāi)展 “大數(shù)據(jù)”醫(yī)學(xué)研究[3]。2014年6月12日,中國(guó)政協(xié)召開(kāi)座談會(huì),醫(yī)療、金融、食品安全等重點(diǎn)領(lǐng)域被選為中國(guó)“大數(shù)據(jù)”重大應(yīng)用示范工程,中國(guó)首次拉開(kāi)了大數(shù)據(jù)在醫(yī)療領(lǐng)域應(yīng)用研究的序幕。
國(guó)際抗癌聯(lián)盟指出,癌癥如能及早發(fā)現(xiàn)和充分治療,三分之一的癌癥可以預(yù)防,三分之一的癌癥患者可以完全治愈,但不幸的是80%的癌癥患者錯(cuò)過(guò)了最佳診斷和治療時(shí)機(jī)。所以早期預(yù)測(cè)和預(yù)防,是人類(lèi)戰(zhàn)勝癌癥的最佳方法。
2014年9月26日,北京一網(wǎng)數(shù)據(jù)軟件有限公司,美國(guó)英立數(shù)據(jù)分析公司和國(guó)內(nèi)數(shù)家醫(yī)院合作共同搭建完成了全球首個(gè)“大數(shù)據(jù)癌癥風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)”,為人類(lèi)戰(zhàn)勝癌癥帶來(lái)了希望。
大數(shù)據(jù)癌癥風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)是借助國(guó)際領(lǐng)先的大數(shù)據(jù)價(jià)值提取技術(shù),對(duì)4萬(wàn)多名癌癥患者和40多萬(wàn)名健康者的血常規(guī),血生化和尿常規(guī)指標(biāo)進(jìn)行統(tǒng)計(jì)分析對(duì)比后,采用具有顯著性,能夠區(qū)分癌癥患者和健康者的血尿指標(biāo)建立的一套癌癥預(yù)測(cè)系統(tǒng)。該預(yù)測(cè)系統(tǒng)可以隨時(shí)提取體檢者或就診者的血尿化驗(yàn)數(shù)據(jù)進(jìn)行分析預(yù)測(cè),為每一個(gè)受試者預(yù)測(cè)出一個(gè)數(shù)值在1-100之間的癌癥風(fēng)險(xiǎn)分值,然后將體檢者或就診者的預(yù)測(cè)結(jié)果與癌癥患者的已有指標(biāo)進(jìn)行對(duì)比,采用大數(shù)據(jù)預(yù)測(cè)效果提升的標(biāo)準(zhǔn)評(píng)估技術(shù),動(dòng)態(tài)評(píng)估體檢者或就診者的癌癥風(fēng)險(xiǎn)。
1.1背景
血液檢查是早期查出癌癥的重要手段,國(guó)內(nèi)的研究證明惡性腫瘤患者血液流變學(xué)指標(biāo)和健康人比較有非常顯著性的差異,特別是紅細(xì)胞壓積普遍降低[4]。英國(guó)的研究發(fā)現(xiàn)癌癥患者尿液中的蛋白質(zhì)含量和健康人具有明顯差異[5],尿液也成為診斷癌癥的一種方法。
目前研究機(jī)構(gòu)和大學(xué)研究室里的早期預(yù)測(cè)癌癥和診斷方法基本上都是與基因和生物標(biāo)記物有關(guān)的[6,7],奧地利遺傳學(xué)家、維也納大學(xué)醫(yī)學(xué)遺傳學(xué)系主任亨斯特施萊格教授2012年在歐盟臨床腫瘤協(xié)會(huì)的年會(huì)上指出“基因測(cè)試并不能為預(yù)測(cè)患癌風(fēng)險(xiǎn)提供準(zhǔn)確依據(jù)”[8]。 愛(ài)爾蘭MERCY AND CORK 大學(xué)醫(yī)院的教授帕沃也指出“90-95%的癌癥是由生活方式和吸煙造成的,只有5-8%的癌癥是和遺傳基因有關(guān)”[9]。生物標(biāo)志物的測(cè)定方法復(fù)雜,費(fèi)用高昂,關(guān)鍵是許多標(biāo)志物的本質(zhì)尚不完全明了。腫瘤標(biāo)志物通常只是作為一種檢測(cè)腫瘤的輔助手段,它的更大價(jià)值在于腫瘤病人手術(shù)后可以依據(jù)腫瘤標(biāo)志物的數(shù)值變化,來(lái)判斷手術(shù)或化療是否有效,腫瘤標(biāo)志物對(duì)檢測(cè)早期癌癥效果不好,誤差率較高。
盡管實(shí)踐已經(jīng)證明癌癥患者和健康人的血尿化驗(yàn)數(shù)據(jù)具有明顯差異,而且獲取常規(guī)健康體檢的血尿化驗(yàn)數(shù)據(jù)也并非難事,但利用常規(guī)健康體檢的血尿化驗(yàn)數(shù)據(jù)來(lái)早期預(yù)測(cè)癌癥的風(fēng)險(xiǎn)目前在全球還是一項(xiàng)空白。
1.2研究對(duì)象
本研究對(duì)486394人,包括40217名名癌癥患者和446177名健康體檢者進(jìn)行了血常規(guī),血生化和尿常規(guī)數(shù)據(jù)的分析預(yù)測(cè)。癌癥患者中,男性平均占68%,女性為32%,男性平均年齡為61歲,女性為64歲;健康體檢者中,男性平均占63%,女性為37%,男性平均年齡為42歲,女性為40歲,詳情見(jiàn)表1。
表1 研究對(duì)象基本情況Table 1 Subject Basic Information
1.3預(yù)測(cè)數(shù)據(jù)
本研究采用的是常規(guī)健康體檢中涵蓋的基本數(shù)據(jù),包括年齡,性別,身高,體重,血常規(guī),血生化和尿常規(guī),共計(jì)48項(xiàng),部分指標(biāo)見(jiàn)表2。
表2 預(yù)測(cè)癌癥風(fēng)險(xiǎn)的部分指標(biāo)Table 2 Partial Parameters Used for Predicting Cancer Risk
1.4統(tǒng)計(jì)學(xué)分析
本研究采用的預(yù)測(cè)技術(shù)為邏輯回歸分析(Logistic Regression Analysis),邏輯回歸分析在醫(yī)學(xué)研究中應(yīng)用廣泛。目前主要是用于流行病學(xué)研究中危險(xiǎn)因素的篩選,但它同時(shí)具有良好的判別和預(yù)測(cè)功能,尤其是在資料類(lèi)型不能滿足Fisher判別和Bayes判別的條件時(shí),更顯示出Logistic回歸判別的優(yōu)勢(shì)和效能。
其中y 為因變量,X 為自變量,p 為概率,α 為截距(常數(shù)),β 為回歸系數(shù),Exp為指數(shù)函數(shù)。
本研究采用的風(fēng)險(xiǎn)評(píng)估技術(shù)為,凈提升效益算式(Net Lift Algorithm)。
其中 Pt 為測(cè)試組癌癥患者的百分率,Pc 為對(duì)照組癌癥患者的百分率。
本研究中統(tǒng)計(jì)分析和預(yù)測(cè)的顯著性檢驗(yàn)標(biāo)準(zhǔn)為p < 0.05 。統(tǒng)計(jì)分析預(yù)測(cè)使用的統(tǒng)計(jì)軟件為SAS。
1.5獨(dú)立的結(jié)果驗(yàn)證
本研究的預(yù)測(cè)模型是基于2010年到2013年共4年的數(shù)據(jù)上搭建完成的,建成的預(yù)測(cè)系統(tǒng)中的7個(gè)預(yù)測(cè)模型將逐一經(jīng)過(guò)2014年1到7月,9931名癌癥患者和110077名健康體檢者的獨(dú)立的數(shù)據(jù)驗(yàn)證。
本研究經(jīng)過(guò)對(duì)2010-2013年30286名癌癥患者和336100健康體檢者48項(xiàng)指標(biāo)的相關(guān)分析和顯著性檢驗(yàn)后,采用具有顯著性,能夠區(qū)分癌癥患者和健康者的常規(guī)血尿指標(biāo)建立了7種單一的癌癥風(fēng)險(xiǎn)預(yù)測(cè)模型(肺癌,肝癌,胃癌,直腸癌,食管癌,乳腺癌和宮頸癌, 見(jiàn)圖1),7種癌癥預(yù)測(cè)模型的準(zhǔn)確率都超過(guò)了95%,平均為95.8%。預(yù)測(cè)模型可為用戶預(yù)測(cè)出7個(gè)數(shù)值在1-100之間的標(biāo)準(zhǔn)分值,通過(guò)與癌癥患者的已有血尿指標(biāo)進(jìn)行對(duì)比,動(dòng)態(tài)分析預(yù)測(cè)結(jié)果,評(píng)估用戶的癌癥風(fēng)險(xiǎn)。
圖1 基于體檢者血常規(guī),血生化和尿常規(guī)數(shù)據(jù)的癌癥風(fēng)險(xiǎn)預(yù)測(cè)報(bào)告
由于各種癌癥自身的特點(diǎn),不同癌癥在常規(guī)血尿指標(biāo)中的體現(xiàn)也不同,所以不同的常規(guī)血尿指標(biāo)在預(yù)測(cè)不同癌癥中的作用也不同。平均每種癌癥預(yù)測(cè)模型選用的常規(guī)血尿指標(biāo)為32-35項(xiàng),表3列出了早期胃癌風(fēng)險(xiǎn)預(yù)測(cè)模型所選用的部分指標(biāo)和這些指標(biāo)從低風(fēng)險(xiǎn),中風(fēng)險(xiǎn),高風(fēng)險(xiǎn)到中晚期癌癥的變化趨勢(shì)和過(guò)程。表4列出了部分指標(biāo)在預(yù)測(cè)早期胃癌風(fēng)險(xiǎn)中的作用。
表3 胃癌風(fēng)險(xiǎn) 預(yù)測(cè)模型選用的部分指標(biāo)Table 3 Partial Parameters Selected by the Early Stomach Cancer Risk Prediction Model
表4 預(yù)測(cè)胃癌風(fēng)險(xiǎn) 部分指標(biāo)的相關(guān)系數(shù)Table 4 Coeffi cients of Stomach Cancer Risk Prediction Model
目前使用常規(guī)血尿數(shù)據(jù)預(yù)測(cè)癌癥風(fēng)險(xiǎn)在全球還沒(méi)有先例,下面簡(jiǎn)單介紹一下獨(dú)立驗(yàn)證結(jié)果和幾個(gè)實(shí)例。
本研究的7種癌癥預(yù)測(cè)模型都是基于2010年到2013年的數(shù)據(jù),這7種預(yù)測(cè)模型在搭建完成后,經(jīng)過(guò)2014年1到7月,9931名癌癥患者和110077名健康體檢者血尿數(shù)據(jù)的驗(yàn)證,每一種癌癥風(fēng)險(xiǎn)預(yù)測(cè)模型的驗(yàn)證準(zhǔn)確率均超過(guò)了95%,平均為96.5%,與預(yù)期結(jié)果的95.8%,基本保持一致。
本研究在中國(guó)安徽的一家3甲醫(yī)院的實(shí)際驗(yàn)證中從正常體檢的健康人群中預(yù)測(cè)出4名高風(fēng)險(xiǎn)人員,這4名常規(guī)體檢者經(jīng)過(guò)醫(yī)院的進(jìn)一步專(zhuān)科檢查,已有3人臨床檢查為早期肺癌,肝癌和胃癌,另外一人沒(méi)有確診,但身體相關(guān)部位明顯感到不適。
不同的血尿指標(biāo)在預(yù)測(cè)癌癥風(fēng)險(xiǎn)中的作用是不同的,有些指標(biāo)和癌癥風(fēng)險(xiǎn)是正比關(guān)系,如表4中的紅細(xì)胞分布寬度,單核細(xì)胞百分比,和中性粒細(xì)胞絕對(duì)值等,如果體檢者其他指標(biāo)保持不變,這些指標(biāo)的升高,就預(yù)示該體檢者患胃癌的風(fēng)險(xiǎn)高;有些指標(biāo)和癌癥風(fēng)險(xiǎn)是負(fù)比關(guān)系,如表4中的淋巴細(xì)胞絕對(duì)值和紅細(xì)胞,如果體檢者其他指標(biāo)保持不變,這些指標(biāo)的降低,就預(yù)示該體檢者患胃癌的風(fēng)險(xiǎn)高。預(yù)測(cè)胃癌最重要的前5項(xiàng)指標(biāo)為血小板分布寬度,白蛋白,紅細(xì)胞分布寬度,血紅蛋白和紅細(xì)胞壓積。
癌癥的發(fā)生和發(fā)展是一個(gè)從量變到質(zhì)變的過(guò)程 (如圖2所示), 癌細(xì)胞的變化其實(shí)都會(huì)在人體的血尿指標(biāo)上反映出來(lái),見(jiàn)表3。由于90%的早期癌癥是沒(méi)有明顯癥狀的,癌癥患者在早期不會(huì)出現(xiàn)明顯癥狀或根本無(wú)任何癥狀,只有當(dāng)癌細(xì)胞發(fā)展到一定程度,人體才會(huì)出現(xiàn)一系列癥狀,所以80%的人一旦發(fā)現(xiàn)癌癥時(shí)已經(jīng)是中期或晚期。
圖2 癌細(xì)胞的生長(zhǎng)過(guò)程
本研究的結(jié)果,癌癥風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)具有3大特點(diǎn),第一,可以精準(zhǔn)鎖定高風(fēng)險(xiǎn)人群,預(yù)測(cè)準(zhǔn)確率超過(guò)95%;第二,預(yù)測(cè)方法簡(jiǎn)便,基于已有血尿數(shù)據(jù),無(wú)需進(jìn)一步取樣;第三,預(yù)測(cè)費(fèi)用低,不到市場(chǎng)價(jià)格的10%。
“上工治未病,不治已病”。 預(yù)防是我們建立癌癥風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的最終目的,愛(ài)爾蘭MERCY AND CORK大學(xué)醫(yī)院的教授帕沃已經(jīng)告訴我們,“90-95%的癌癥是由生活方式和吸煙造成的”,我們的愿望是:通過(guò)早期預(yù)測(cè)癌癥風(fēng)險(xiǎn),對(duì)健康和亞健康人群發(fā)出“癌癥”的預(yù)警,促使人們改變不良生活方式和戒煙,最后遠(yuǎn)離癌癥。
通過(guò)大數(shù)據(jù)分析建立的癌癥風(fēng)險(xiǎn)評(píng)估模型可以有效的利用正常健康體檢中的血常規(guī),血生化和尿常規(guī)的數(shù)據(jù),用于多種癌癥的風(fēng)險(xiǎn)預(yù)測(cè),而且預(yù)測(cè)和驗(yàn)證的準(zhǔn)確率均超過(guò)95%,這將為癌癥的防治提供一種便捷的、經(jīng)濟(jì)的、有效的新手段,將在癌癥的早防早治方面發(fā)揮積極的作用。
(References)
[1] Study: We’ll Never Cure Cancer. 2014-06-26 [2015-02-04]. http://www.newser.com/story/189053/study-wellnever-cure-cancer.html.
[2] Erwin Gianchandani . “Five Reasons ‘Big Data’ is a Big Deal”. 2012-06-29 [2015-02-04]. http://www.cccblog. org/2012/05/29/five-reasons-big-data-is-a-big-deal/
[3] Oxford University. Prime Minister joins Sir Ka-shing Li for launch of £90m initiative in big data and drug discovery at Oxford. 2013-05-03 [2015-02-04]. http:// www.ox.ac.uk/news/2013-05-03-prime-minister-joins-sirka-shing-li-launch-%C2%A390m-initiative-big-data-anddrug/
[4] 王玉蓮, 王秀珍, 杜迎雪, 等. 惡性腫瘤患者血液流變學(xué)觀察[J]. 現(xiàn)代中西醫(yī)結(jié)合雜志, 1996, 10(2): 133-134.
[5] Husi H, Stephens N, Cronshaw, A, et al. Proteomic analysis of urinary upper gastrointestinal cancer markers[J]. PROTEOMICS - Clinical Applications, Vol. 5, 2011, (5-6): 289-299.
[6] Wang H D, Yuh C H, Tu H C, et al. Method for Early Diagnosis of Liver Cancer : USA, US20140099647 [P]. 2014-04-10.
[7] Lothe R A, Sveen A, Agesen TH, et al. Method and Biomarkers for Analysis of Colorectal Cancer: USA, US20140342361 [P]. 2014-11-20.
[8] Senn H J. Myths and misunderstandings hamper efforts to prevent cancer[C]//Proceedings of ESMO 2012 Congress. Vienna, Austria, 2012: ESMO 2012 Press Release..
[9] Power D. Myths and misunderstandings hamper efforts to prevent cancer[C]//Proceedings of ESMO 2012 Congress. Vienna, Austria, 2012: ESMO 2012 Press Release.
Big Data Cancer Risk Prediction System
MA Liwei1,3, ZENG Qiang2, LU Qiuping1, FAN Chenye3, CHEN Peng4
1. Yingli Data Technology, Seattle 98015, USA 2. Chinese PLA General Hospital, Beijing 100853, China 3. Beijing Yiwang Data Technology, Beijing 100084, China 4. Anhui Chinese Medicine University Hospital, Hefei 230031, China
Chinese Anti-Cancer Association indicates that about 90% of early cancers have no obvious symptoms, so that 80% of the diagnosed cancer patients are in the later stage. More than one million lives could be saved if we can predict early cancer risk. The purpose of this research is to provide a system to early predict cancer risk with the help of big data technology. A total of 486,394 people including 40,217 cancer patients and 446,177 normal people were involved in the study. The data were used in the research including demographic, CBC (Complete Blood Count), CMP (Complete Metabolic Panel), Lipids and Urinalysis data, total of 48 data points. Both Logistic analysis and discriminant analysis were used to identify the signifi cant factors and to build seven cancer risk prediction models and the signifi cant level was set at p < 0.05. SAS was used as the primary statistical analysis tool. All the data were pulled out from the MS SQL database. The analysis results showed that CBC, CMP, Lipids and Urinalysis data can signifi cantly distinguish normal people from cancer patients and those data can be used to build cancer risk prediction models, the average accuracy of the prediction models was 95.5%. Those seven prediction models were verifi ed by a total of 120,008 people (from January 2014 to July 2014) including 9,931 cancer patients and 110,077 normal people. The accuracy of the verifi cation was over 95%. This research shows that the routine blood and urine test results can be used to predict cancer risk in the early stage.
big data; early cancer prediction; complete blood count (CBC); blood chemistry; urinalysis
R73
A doi 10.11966/j.issn.2095-994X.2015.01.01.11
2015-02-06;
2015-02-17
馬立偉,博士,研究方向?yàn)榇髷?shù)據(jù)健康醫(yī)療,電子信箱:liweima@yahoo.com;曾強(qiáng),教授,研究方向?yàn)閬喗】岛桶┌Y預(yù)測(cè),電子信箱:zq301t@126.com; 呂秋平,研究員,研究方向?yàn)榇髷?shù)據(jù)智能應(yīng)用,電子信箱:qiupinglu@gmail.com
引用格式:馬立偉,曾強(qiáng),呂秋平,等.大數(shù)據(jù)癌癥風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)[J].世界復(fù)合醫(yī)學(xué), 2015 , 1(1): 63-67.