韓冰,遆亞楠,王蓉,仇麗霞,張繚云(.山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)教研室,太原 03000;.山西醫(yī)科大學(xué)第一醫(yī)院感染病科,太原 03000)
肝癌是當(dāng)前世界上最常見的惡性腫瘤之一,我國每年肝癌新發(fā)病例數(shù)約占全世界的50%,對我國公共衛(wèi)生安全構(gòu)成了嚴(yán)重威脅[1]。原發(fā)性肝癌(primary liver cancer,PLC)起病隱匿,早發(fā)現(xiàn)肝癌是降低患者死亡率的關(guān)鍵,因此提高肝癌鑒別診斷能力對無癥狀患者的早期診斷具有重要意義。目前我國診療規(guī)范推薦對肝癌高危人群至少6個(gè)月借助超聲檢查和血清甲胎蛋白(alpha fetoprotein, AFP)進(jìn)行篩查[2]。近年來日本肝病學(xué)會(huì)和中華肝病學(xué)分會(huì)均推薦使用“肝癌三聯(lián)檢”,即采用AFP、異常凝血酶原(des-gamma-carboxy prothrombin,DCP)、甲胎蛋白異質(zhì)體(lens culinaris agglutinin-reactive fraction of AFP,AFP-L3)聯(lián)合影像學(xué)檢查對肝癌高風(fēng)險(xiǎn)人群進(jìn)行監(jiān)測[3-4]。
大數(shù)據(jù)時(shí)代,隨著數(shù)據(jù)挖掘、云計(jì)算和人工智能的快速發(fā)展,機(jī)器學(xué)習(xí)(machine learning,ML)算法能夠分析處理患者病史信息和臨床指標(biāo)來構(gòu)建預(yù)測模型,成為疾病預(yù)測、診斷治療和預(yù)后工作的便捷工具[5]。既往研究表明,ML模型在PLC輔助診斷過程中可顯著提高(約提升了15%~25%)診斷的準(zhǔn)確性[6]。筆者擬從AFP、AFP-L3和DCP出發(fā),評(píng)估各項(xiàng)標(biāo)志物結(jié)合ML模型對肝癌的診斷準(zhǔn)確性,以期選擇合適的模型,從而提高對HCC診斷價(jià)值。
1.1研究對象 采用回顧性研究方法,收集2021年9月至2022年6月在山西醫(yī)科大學(xué)第一醫(yī)院感染病科住院患者273例,其中PLC組為經(jīng)臨床確診為肝癌的患者83例,男67例,女16例,年齡(57.6±11.5)歲,其中乙型肝炎相關(guān)肝癌76例,丙型肝炎相關(guān)肝癌2例,酒精性肝病相關(guān)肝癌2例,原發(fā)性膽汁性肝硬化相關(guān)肝癌1例,病因不明者2例。良性肝病(benign liver disease,BLD)組為同期住院且排除肝癌的肝病及肝硬化患者190例,男127例,女63例,年齡(51.6±13.3)歲,其中乙型肝炎肝硬化122例,酒精性肝炎及肝硬化19例,丙型肝炎及肝硬化9例,原發(fā)性膽汁性肝硬化8例,不明原因肝病患者32例。納入標(biāo)準(zhǔn): PLC患者均符合《原發(fā)性肝癌診療規(guī)范(2019年版)》,即具備下列任何一條:(1)病灶>2 cm或AFP≥400 ng/mL,并在動(dòng)態(tài)增強(qiáng)CT/MRI掃描、釓塞酸二鈉增強(qiáng)MRI或超聲造影4種影像學(xué)檢查之一表現(xiàn)出典型的肝癌影像學(xué)特征。(2)病灶≤2 cm并在以上兩種影像學(xué)檢查中表現(xiàn)出肝癌特征。(3)不能確診但仍高度懷疑肝癌的患者進(jìn)行肝臟穿刺和病理學(xué)檢查。BLD組為臨床推薦進(jìn)行定期肝癌監(jiān)測的慢性肝病及肝硬化患者。所有入選患者既往未曾接受過肝癌系統(tǒng)治療。排除標(biāo)準(zhǔn):(1)同時(shí)合并其他惡性腫瘤疾病的患者;(2)妊娠期或哺乳期女性;(3)使用維生素K及維生素K拮抗劑類藥物的患者。選擇同期體檢健康者25例作為健康人對照組,男18例,女7例,年齡(49.1±15.9)歲。
1.2方法
1.2.1標(biāo)本采集及肝癌標(biāo)志物檢測 采集各研究對象治療前(體檢健康者于體檢時(shí)檢測)空腹靜脈血5 mL,3 000 r/min離心15 min,分離血清,采用磁微?;瘜W(xué)發(fā)光檢測法,按照MQ60 plus全自動(dòng)化學(xué)發(fā)光免疫分析儀及配套的AFP、AFP-L3、DCP檢測試劑盒(北京熱景生物技術(shù)公司)說明書操作進(jìn)行檢測。陽性判斷標(biāo)準(zhǔn):AFP≥7 ng/mL、DCP≥40 mAU/mL、AFP-L3%≥10%,聯(lián)合3種標(biāo)志物進(jìn)行肝癌檢測時(shí),任何一項(xiàng)檢測結(jié)果顯示陽性即判斷為并聯(lián)檢測陽性,3項(xiàng)指標(biāo)所有檢測顯示陽性為串聯(lián)檢測陽性。
1.2.2臨床資料收集 根據(jù)醫(yī)院電子病歷系統(tǒng)收集入選患者的病史資料和血清學(xué)檢查資料,病史資料包括:性別、年齡、高血壓病史、糖尿病史、吸煙史、飲酒史、乙肝感染史、影像學(xué)表現(xiàn);血清學(xué)檢查資料包括:三酰甘油、總蛋白、球蛋白、總膽紅素、直接膽紅素、堿性磷酸酶、天門冬氨酸氨基轉(zhuǎn)移酶/丙氨酸氨基轉(zhuǎn)移酶、r-谷氨酰轉(zhuǎn)移酶(r-GT)、凝血酶原時(shí)間、紅細(xì)胞、白細(xì)胞、血小板、中性粒細(xì)胞。
1.2.3機(jī)器學(xué)習(xí)模型的建立 以PLC作為肝癌組,BLD組和體檢健康者作為非肝癌組,單因素分析肝癌組與非肝癌組患者之間的檢查資料,將P<0.05的變量進(jìn)行多因素分析,以篩選出的變量構(gòu)建模型。使用SPSS 26.0軟件構(gòu)建3種機(jī)器學(xué)習(xí)模型,采用向前LR法構(gòu)建Logistic回歸(Logistic regression,LR)模型,入選變量檢驗(yàn)標(biāo)準(zhǔn)α=0.05,剔除變量標(biāo)準(zhǔn)為α=0.10。使用多層感知器(multi-layer perceptron,MLP)構(gòu)建人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)模型[7],使用決策樹卡方自動(dòng)交互檢測算法(CHAID)構(gòu)建決策樹(decision tree,DT)模型[8]。為避免模型過擬合,在構(gòu)建DT和ANN時(shí)使用交叉驗(yàn)證,以預(yù)測概率表示3種模型輸出結(jié)果,其范圍皆在0~1之間。
2.13組人群中血清AFP、AFP-L3%、DCP水平 AFP、AFP-L3%、DCP水平在PLC組、BLD組及健康人對照組間的差異均有統(tǒng)計(jì)學(xué)意義(P<0.01)。進(jìn)一步進(jìn)行組間兩兩比較結(jié)果發(fā)現(xiàn),PLC組血清AFP、AFP-L3%、DCP水平均顯著高于BLD組和健康人對照組(P<0.01),但BLD組與健康人對照組AFP、AFP-L3%、DCP之間的差異均無統(tǒng)計(jì)學(xué)意義。見表1。
表1 AFP、AFP-L3%及DCP在3組人群血清中的表達(dá)水平[M(P25,P75)]
2.2AFP、AFP-L3%、DCP單獨(dú)及聯(lián)合檢測對肝癌的診斷效能 在以試劑盒設(shè)定的閾值對肝癌患者進(jìn)行檢測時(shí),DCP的敏感性最高,AFP-L3%的特異性最高,但敏感性最低。聯(lián)合檢測時(shí),并聯(lián)檢測的敏感性高于串聯(lián)檢測,而串聯(lián)檢測的特異性高于并聯(lián)檢測(表2)。腫瘤標(biāo)志物中以DCP對肝癌的預(yù)測價(jià)值(AUCROC)最優(yōu),其余標(biāo)志物單獨(dú)及聯(lián)合檢測對肝癌的AUCROC排序依次為:串聯(lián)檢測>并聯(lián)檢測>AFP-L3%>AFP。
表2 AFP、AFP-L3%、DCP及聯(lián)合檢測對肝癌的診斷效能
2.3模型變量篩選 對納入研究的患者信息進(jìn)行單因素分析,發(fā)現(xiàn)肝癌組與非肝癌組在性別、年齡、病因(乙肝/非乙肝)、吸煙史、影像結(jié)節(jié)表現(xiàn)、AFP、AFP-L3%、DCP、串聯(lián)、并聯(lián)檢測和三酰甘油、天門冬氨酸氨基轉(zhuǎn)移酶/丙氨酸氨基轉(zhuǎn)移酶、球蛋白、堿性磷酸酶、γ-GT、中性粒細(xì)胞、血小板等指標(biāo)間比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。多因素Logistic回歸分析篩選出同時(shí)納入3種ML模型的變量分別為年齡、影像結(jié)節(jié)表現(xiàn)、病因(乙肝/非乙肝)、DCP、肝癌三聯(lián)檢(串聯(lián))和γ-GT(表3~5)。
表3 2組患者病史信息對比[n(%)]
表4 機(jī)器學(xué)習(xí)模型入選變量分析
表5 2組患者臨床檢查指標(biāo)對比[n(%)]
2.4各預(yù)測模型的診斷效能 按照約登指數(shù)選取ML模型的陽性截?cái)嘀?ANN的敏感性和特異性分別為86.7%和80.4%,LR的敏感性和特異性分別為85.5%和82.8%,DT的敏感性和特異性分別為63.9%和86.5%,3種ML模型均具有較高的預(yù)測價(jià)值,其AUCROC排序依次為ANN(0.908)、LR(0.903)、DT(0.827)。其中,經(jīng)Delong檢驗(yàn),ANN與DT之間(Z=3.916,P<0.001)、DT與LR之間(Z=4.625,P<0.001)差異有統(tǒng)計(jì)學(xué)意義,而ANN與LR之間(Z=0.826,P=0.409)差異無統(tǒng)計(jì)學(xué)意義。3種肝癌標(biāo)志物的ROC曲線分析結(jié)果見圖1~3。
圖2 3種肝癌標(biāo)志物聯(lián)合檢測的ROC曲線
圖3 3種ML模型的ROC曲線
由于HCC起病隱匿、病情進(jìn)展速度快且惡性程度較高,因此肝癌早期發(fā)現(xiàn)對于提高肝癌根治率和患者長期生存率十分重要,在肝癌檢測中應(yīng)首先考慮提升敏感性[9]。血清學(xué)腫瘤標(biāo)志物檢驗(yàn)具有易獲取、操作簡便和客觀性強(qiáng)的優(yōu)點(diǎn),能較影像學(xué)檢查提前3~28個(gè)月預(yù)警肝癌發(fā)生[10]。本次研究中PLC組患者的AFP、AFP-L3%和DCP水平均顯著高于BLD組和健康人群,證實(shí)3種腫瘤標(biāo)志物在肝癌診斷中具有重要作用。通過進(jìn)一步研究結(jié)果顯示,DCP的敏感性高于AFP和AFP-L3%,提示DCP有較強(qiáng)地發(fā)現(xiàn)肝癌患者的能力。聯(lián)合使用腫瘤標(biāo)志物是肝癌篩查診斷的重要方向,但夏一帆等[11]提出聯(lián)合腫瘤標(biāo)志物的診斷精度相較于單一標(biāo)志物提高不大,本研究在聯(lián)合使用3種肝癌標(biāo)志物時(shí)其并、串聯(lián)檢測的AUCROC均低于DCP,提示聯(lián)合多個(gè)標(biāo)志物可能會(huì)導(dǎo)致診斷價(jià)值下降。
提高診斷技術(shù)準(zhǔn)確性的途徑既包括探索更高價(jià)值的新型標(biāo)志物,也包括利用既有技術(shù)設(shè)計(jì)診斷方法[12-13]。Johnson等[14]利用LR算法結(jié)合AFP、AFP-L3%、DCP開發(fā)了預(yù)測肝癌的GALAD模型,該模型在肝癌診斷中表現(xiàn)出良好效能。王運(yùn)九等[15]基于AFP和CA199、CEA構(gòu)建了用于肝癌診斷的ANN模型和LR模型,得出ANN模型較LR模型在肝癌診斷中更有效力的結(jié)論。周友乾等[16]的研究認(rèn)為,DT模型能夠提高AFP及超聲檢查在肝癌早期篩查的應(yīng)用價(jià)值。LR、ANN及DT模型常用于數(shù)據(jù)的分類和回歸,在癌癥診療領(lǐng)域中應(yīng)用廣泛[17-18]。LR是經(jīng)典概率統(tǒng)計(jì)分類模型,能夠量化自變量對因變量的影響程度并描述二者的線性關(guān)系,已廣泛應(yīng)用于二分類因變量建模[19]。ANN以模擬生物神經(jīng)元結(jié)構(gòu)來實(shí)現(xiàn)人工智能的數(shù)學(xué)模型,具有較好的穩(wěn)健性和容錯(cuò)性,在解決非線性問題時(shí)較為常用[20]。DT本質(zhì)是1個(gè)遞歸劃分過程,模型執(zhí)行過程中無須過多計(jì)算且具有良好的可解釋性,更符合臨床的邏輯思維[21]。本研究將肝癌診斷作為1個(gè)二分類問題,基于AFP、AFP-L3%、DCP構(gòu)建的并聯(lián)、串聯(lián)檢測被視為簡單的分類模型,但分類程序較為粗糙,而LR、DT及ANN這3種ML模型對肝癌診斷的AUCROC均>0.8,表明ML模型不僅具有較高的診斷價(jià)值,同時(shí)優(yōu)于AFP、AFP-L3%、DCP單獨(dú)及聯(lián)合檢測,與既往研究結(jié)論一致。ANN和LR的AUCROC分別為0.908和0.903,而DT的AUCROC僅為0.827,Delong檢驗(yàn)結(jié)果顯示,ANN和LR在肝癌診斷中的AUCROC顯著高于DT,但ANN和LR的AUCROC之間的差異無統(tǒng)計(jì)學(xué)意義。盡管其他研究中ANN和DT的診斷價(jià)值優(yōu)于LR模型[19],但本研究中ANN模型和LR模型診斷價(jià)值相近且優(yōu)于DT模型,原因可能是DT更適合處理非數(shù)值型變量而不擅長處理連續(xù)性數(shù)據(jù),降低了統(tǒng)計(jì)分析效能。
綜上所述,單項(xiàng)肝癌標(biāo)志物無法滿足臨床診斷需求,并聯(lián)或串聯(lián)檢查無法發(fā)揮多個(gè)標(biāo)志物聯(lián)合使用的優(yōu)勢,利用機(jī)器學(xué)習(xí)構(gòu)建診斷模型可以進(jìn)一步提高血清標(biāo)志物的診斷能力。另外本研究中LR模型的診斷價(jià)值優(yōu)于DT模型,說明經(jīng)典模型仍有優(yōu)越之處,應(yīng)根據(jù)臨床實(shí)際情況選擇診斷模型,而不能盲目信任決策樹這類較高級(jí)的ML模型。本研究尚存在一定局限性,包括單中心小樣本回顧性研究和參與比較的ML模型較少,未來還需要進(jìn)行前瞻性研究以分析更多ML模型在肝癌高危人群中的診斷效能,選擇最優(yōu)診斷模型以提高原發(fā)性肝癌臨床診斷效率。