秦明麗,王定玉,王 旗,李武志,王 琴
(四川省婦科及乳腺疾病治療中心/西南醫(yī)科大學(xué)附屬醫(yī)院婦科,四川 瀘州 646000)
卵巢癌(ovarian cancer)是女性生殖系統(tǒng)三大惡性腫瘤之一,其死亡率高居?jì)D科惡性腫瘤之首[1]。據(jù)統(tǒng)計(jì),2017 年全球新發(fā)卵巢癌病例22.4 萬(wàn),其中14.1 萬(wàn)患者因該病死亡[2],而我國(guó)年新發(fā)卵巢癌5.2萬(wàn),死亡病例高達(dá)2.3 萬(wàn)[3]。由于卵巢位于盆腔深處,部位隱蔽且患者臨床癥狀不典型,故確診時(shí)多為中晚期。研究表明,Ⅱ~Ⅳ期卵巢癌患者5 年生存率僅為15%~45%,而Ⅰ期患者5 年生存率高達(dá)90%[4],故早期、及時(shí)診斷對(duì)提高患者生存率至關(guān)重要。血清腫瘤標(biāo)志物具有微創(chuàng)、多次采集、快速檢測(cè)等諸多優(yōu)點(diǎn),其中癌胚抗原(CEA)、糖類(lèi)抗原-125(CA125)和β 人絨毛膜促性腺素(β-HCG)已廣泛用于卵巢的鑒別診斷、療效判斷和預(yù)后評(píng)估。本研究在參考血清CA125、CA153 和HCG 等用于鑒別診斷卵巢癌及卵巢良性疾病患者的基礎(chǔ)上[5-7],從卵巢腫瘤既往 血 清CEA、甲 胎 蛋 白(AFP)、CA125、CA153、CA199,CA724 及β-HCG 等多項(xiàng)腫瘤標(biāo)志物出發(fā),集主成分分析(PCA)、多層感知器(MPL)及人工神經(jīng)網(wǎng)絡(luò)(ANN)等機(jī)器學(xué)習(xí)模型,試為卵巢腫瘤良惡性鑒別診斷提供便利的決策支持,現(xiàn)報(bào)道如下。
1.1 一般資料 回顧性分析西南醫(yī)科大學(xué)附屬醫(yī)院2013 年1 月28 日~2014 年12 月30 日門(mén)診及住院的132例卵巢癌患者及211例卵巢良性腫瘤患者紙質(zhì)及電子病歷信息,并對(duì)患者血清CEA、CA125、CA153、CA199、CA724 及β-HCG 等8 項(xiàng)腫瘤標(biāo)志物測(cè)定結(jié)果進(jìn)行分析。卵巢癌患者經(jīng)病理或影像確診,年齡21~77 歲,其中Ⅰ~Ⅱ期14例,Ⅲ~Ⅳ期60例,未分期58例;漿液性卵巢癌47例,粘液性卵巢癌32例,未分型53例。排除其他惡性腫瘤疾?。ɑ蜣D(zhuǎn)移性腫瘤)、肝、腎功能顯著異常、心肺功能不全、盆腔炎,高血壓及糖尿病等患者。參照《體外診斷試劑臨床研究指導(dǎo)原則》中客觀上不可能獲得受試者知情同意或該臨床研究對(duì)受試者幾乎沒(méi)有風(fēng)險(xiǎn),可以不提交倫理委員會(huì)的審核意見(jiàn)及受試者的知情同意書(shū)進(jìn)行。
1.2 儀器與檢測(cè)方法 所有患者在診斷及放化療前空腹采血3~5 ml 后,盡快離心分離血清檢測(cè)。采用日本東曹AIA2000 化學(xué)發(fā)光儀及配套試劑在質(zhì)控在控下按標(biāo)化操作規(guī)程操作。各項(xiàng)血清參考區(qū)間分別為AFP:0~10.0 ng/ml,CEA:0~6.0 ng/ml,CA125:0~35.0 IU/ml,CA153:0.31~23.0 IU/ml,CA724:0.21~6.0IU/ml,SCCA:0.011~2.5 IU/ml,CA199:0~37.0 IU/ml,β-HCG:0~3.0 mIU/ml。
1.3 PCA 模型的建立 以卵巢癌及卵巢良性腫瘤患者間有統(tǒng)計(jì)學(xué)差異的腫瘤標(biāo)志物建立PCA 模型,將上述血清腫瘤指標(biāo)進(jìn)行降維處理,利用Z 分標(biāo)準(zhǔn)化數(shù)據(jù)后通過(guò)正交變換把相關(guān)的高維指標(biāo)綜合成少數(shù)幾個(gè)不具相關(guān)性的新變量,提取主成分(P),在保留原來(lái)指標(biāo)的大部分信息后又簡(jiǎn)化了數(shù)據(jù)結(jié)構(gòu),便于在低維度下建立疾病診斷模型。PCA 模型采用協(xié)方差矩陣進(jìn)行PCA 分析,基于特征值大小提取PCA 并建立基于各指標(biāo)的前三個(gè)PCA(P1~P3)的線(xiàn)性方程。
1.4 PCA-MPL-ANN 模型的建立 以提取的前三個(gè)主成分(P1~P3)建立基于PCA-MPL-ANN 模型,以概率P>0.50 診斷為卵巢癌,反之為卵巢良性疾病。計(jì)算該模型的隱含層、訓(xùn)練時(shí)間,并隨機(jī)選取70%個(gè)體為訓(xùn)練集,30%個(gè)體為測(cè)試集進(jìn)行預(yù)測(cè),計(jì)算診斷及預(yù)測(cè)正確率及PCA-MPL-ANN 模型的ROC 曲線(xiàn)下面積(AUC)。
1.5 統(tǒng)計(jì)學(xué)方法 采用SPSS 17.0 軟件進(jìn)行統(tǒng)計(jì)學(xué)分析,血清8 項(xiàng)腫瘤標(biāo)志物水平均呈偏態(tài)分布,以中位數(shù)和四分位數(shù)間距表示[M(P25,P75)],兩組比較采用獨(dú)立樣本的秩和檢驗(yàn),診斷價(jià)值采用受試者工作特征(ROC)曲線(xiàn)分析,P<0.05 表示差異有統(tǒng)計(jì)學(xué)意義。
2.1 卵巢癌與卵巢良性腫瘤患者血清8 項(xiàng)指標(biāo)比較卵巢癌患者血清AFP、CEA、CA125、CA153、CA724及β-HCG 水平均高于卵巢良性腫瘤患者,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表1。
表1 卵巢癌與卵巢良性腫瘤患者血清8 項(xiàng)指標(biāo)比較[M(P25,P75)]
2.2 卵巢癌與卵巢良性腫瘤患者血清8 項(xiàng)指標(biāo)ROC曲線(xiàn)分析 兩類(lèi)患者的AFP、CEA、CA125、CA153、CA724 及β-HCG 的AUC 比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),其中β-HCG 最高(AUC=0.748),其次為CA153(AUC=0.680)及CA125(AUC=0.613),見(jiàn)表2。
表2 血清腫瘤標(biāo)志物診斷卵巢癌與卵巢良性腫瘤的效能
2.3 PCA 分析 共提取3 個(gè)主成分(P1~P3),表達(dá)式如下:P1=-0.103AFP-0.199CEA+0.723CA125+0.40CA153 +0.423CA724 +0.659β -HCG;P2=0.501AFP -0.092CEA -0.341CA125 -0.580CA153 +0.584CA724+0.402β-HCG;P3=0.452AFP+0.808CEA+0.007CA125+0.271CA153-0.15CA724+0.238β-HCG。其中P1主要反映CA125、CA153 和β-HCG 特征,可歸納為婦科腫瘤標(biāo)志物及激素水平,P2主要反映CA724、AFP 特征,歸納為腫瘤的胃及肝臟轉(zhuǎn)移,P3主要反映CEA 特征,即存在惡性腫瘤,見(jiàn)表3。
表3 前三個(gè)主成分對(duì)應(yīng)的特征向量
2.4 PCA-MPL-ANN 模型分析 該模型的隱含層數(shù)為1,訓(xùn)練時(shí)間為0∶00∶00∶120,訓(xùn)練集為251 人,測(cè)試集為92 人。該模型對(duì)卵巢癌及卵巢良性疾病的診斷正確率分別為66.33%(67/101)和92.00%(138/150),預(yù)測(cè)正確率分別為67.74%(21/31)及83.61%(51/61),見(jiàn)圖1。以建立的PCA-MPL-ANN 模型繪制ROC 曲線(xiàn),該模型的診斷效能較高(0.838),AUC優(yōu)于β -HCG、CA153 及CA125 (0.748 >0.680 >0.613),敏感性和特異性分別為72.60%和88.90%,見(jiàn)圖2。
圖1 PCA-MPL-ANN 模型及CA125、CA153及β-HCG 的ROC 曲線(xiàn)
卵巢癌是最致命的婦科腫瘤,腹痛、腹部增大、腹脹或惡心等癥狀通常是非特異性的,直到疾病發(fā)展晚期才出現(xiàn),導(dǎo)致診斷延遲[8]。陰道超聲和血清CA125 篩查是常用的卵巢癌篩查技術(shù),但敏感性和特異性均不太理想[9]。臨床上,聯(lián)合多指標(biāo)進(jìn)行分析是卵巢癌常用的輔助手段,但傳統(tǒng)的并聯(lián)試驗(yàn)在提高診斷敏感性的同時(shí),降低了特異性,而串聯(lián)實(shí)驗(yàn)則在提升特異性的同時(shí)降低了敏感性,兩者均不能較好地對(duì)未知患者進(jìn)行預(yù)測(cè)分析。因此,尋找更多的腫瘤標(biāo)志物聯(lián)合檢測(cè)新模式,成為提升診斷效能和進(jìn)一步診斷和預(yù)測(cè)分析的突破口[10]。
近年來(lái),人工智能和機(jī)器學(xué)習(xí)算法的蓬勃發(fā)展為分析復(fù)雜的生物數(shù)據(jù)集提供新的方法[11]。人工神經(jīng)網(wǎng)絡(luò)(ANN)作為機(jī)器學(xué)習(xí)領(lǐng)域最經(jīng)典及最活躍的方法,通過(guò)模仿人腦神經(jīng)元的拓?fù)浣Y(jié)構(gòu)建立的計(jì)算機(jī)學(xué)習(xí)網(wǎng)絡(luò)系統(tǒng),可以解決復(fù)雜的非線(xiàn)性映射問(wèn)題而廣受關(guān)注[12]。張桐碩等[9]研究發(fā)現(xiàn),采用誤差負(fù)反饋(BP)-ANN 模型綜合腫瘤標(biāo)志物、血細(xì)胞分析、性激素等6 類(lèi)共計(jì)28 項(xiàng)實(shí)驗(yàn)室檢測(cè)指標(biāo)能很好地鑒別診斷卵巢癌、其他惡性婦科腫瘤、卵巢良性疾病及正常對(duì)照人群,其AUC、敏感性和特異性分別為0.948,91.9%和86.9%。本研究采用PCA 提取6 項(xiàng)卵巢癌及卵巢良性腫瘤患者間存在差異的腫瘤標(biāo)志物,建立PCA 及PCA-MPL-ANN 模型,通過(guò)PCA 降維處理,將6 維空間的數(shù)據(jù)形象、直觀地展現(xiàn)在三維空間,從婦科腫瘤標(biāo)志物、激素水平、胃腸及肝臟轉(zhuǎn)移等多方面揭示了數(shù)據(jù)規(guī)律。借助PCA-MPL-ANN模型能較好地鑒別診斷卵巢癌及卵巢良性疾病,該模型診斷的AUC、敏感性和特異性分別為0.838,72.60%和88.90%。由于本研究?jī)H納入6 項(xiàng)有統(tǒng)計(jì)學(xué)差異的腫瘤標(biāo)志物,故診斷效能較張桐碩等[9]相關(guān)報(bào)道低。因此,本研究也提示僅采用現(xiàn)有腫瘤標(biāo)志物建立機(jī)器學(xué)習(xí)模型診斷效能有限,需要探索和挖掘更多有價(jià)值的標(biāo)志性建立診斷和預(yù)測(cè)模型,提高診斷效能。
圖2 基于PCA-MPL-ANN 模型的卵巢癌及卵巢良性腫瘤的概率分布
大數(shù)據(jù)時(shí)代,由于海量的數(shù)據(jù)信息不斷產(chǎn)生,基因組學(xué)、蛋白組學(xué)及代謝組學(xué)等大樣本數(shù)據(jù)信息為機(jī)器學(xué)習(xí)模型精準(zhǔn)鑒別診斷卵巢癌提供了極大的機(jī)遇,但需要昂貴的儀器設(shè)備及有經(jīng)驗(yàn)技術(shù)人員且尚未形成像常規(guī)檢驗(yàn)項(xiàng)目的流水線(xiàn)檢測(cè)。因此,借助簡(jiǎn)便、易得的血清腫瘤標(biāo)志物、血常規(guī)及生化指標(biāo)建立機(jī)器學(xué)習(xí)診斷和預(yù)測(cè)模型值得探索研究。由于本研究中CA125 在卵巢癌患者中表達(dá)不明顯,單項(xiàng)指標(biāo)β-HCG、CA153 及CA125 的 診 斷 效 能 在0.613~0.748,故該模型也較好地彌補(bǔ)了CA125 對(duì)卵巢癌早期診斷能力的不足。盡管如此,本研究納入人群及血清腫瘤標(biāo)志物項(xiàng)目類(lèi)型有限,尚需要大樣本驗(yàn)證分析,使結(jié)論更嚴(yán)謹(jǐn)、可靠。
綜上,PCA-MPL-ANN 模型可有效提升卵巢癌的診斷效能,取得了較好的效果,為卵巢癌的智能化輔助診斷提供了新思路。