朱小飛 錢世寧 曹慧玲 吳玲
南京中醫(yī)藥大學(xué)附屬醫(yī)院醫(yī)學(xué)檢驗(yàn)科(南京 210029)
乳腺癌是女性常見的惡性腫瘤。2015年我國女性乳腺癌新發(fā)病例約30.4 萬例,占女性全部惡性腫瘤發(fā)病的17.1%;死亡病例約7.0 萬例,占女性全部惡性腫瘤死亡的8.2%[1-2]。近年來,隨著我國人口老齡化的加速,工業(yè)化、城市化以及生活方式的改變,女性乳腺癌疾病負(fù)擔(dān)日益加重[3-4]。2020年中國女性乳腺癌發(fā)病率為59.0/10 萬,居全國女性惡性腫瘤發(fā)病譜首位[5]。2020年中國女性乳腺癌死亡率為16.6/10 萬,居全國女性惡性腫瘤死亡譜第4 位[5]。
提高早期乳腺癌的檢出率并進(jìn)行及時有效的治療是降低乳腺癌死亡率的有效措施。目前乳腺癌的診斷指征主要依靠影像學(xué)證據(jù)包括X 射線、核磁共振和B 超等。而實(shí)驗(yàn)室指標(biāo)尚未納入乳腺癌診斷指南[6]。究其原因,單一實(shí)驗(yàn)室指標(biāo)在乳腺癌診斷中的特異性較差、靈敏度不高,難以達(dá)到臨床對乳腺癌的篩查要求。外周血細(xì)胞分析是臨床常用的一種廉價和有效的實(shí)驗(yàn)室檢查,外周血細(xì)胞參數(shù)對多種疾病的診斷和預(yù)后都有價值[7-9]。最近研究發(fā)現(xiàn)外周血細(xì)胞參數(shù)對包括乳腺癌在內(nèi)的多種腫瘤的診斷和預(yù)后也有一定價值[8,10-12]。由于腫瘤對外周血的影響是多方面因素的綜合結(jié)果,因此單一血細(xì)胞參數(shù)對乳腺癌診斷意義有限。故而,有必要通過一種綜合全面的方法研究血細(xì)胞參數(shù)對乳腺癌的診斷價值。
以人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)算法為基礎(chǔ)的機(jī)器學(xué)習(xí),由于其具有的可以同時解決線性和非線性問題的優(yōu)勢,已經(jīng)在包括放射醫(yī)學(xué)[13]、超聲醫(yī)學(xué)[14]等領(lǐng)域得到了長足應(yīng)用,顯著提高了臨床醫(yī)生的診療效率。然而,在檢驗(yàn)醫(yī)學(xué)領(lǐng)域機(jī)器學(xué)習(xí)與實(shí)驗(yàn)室指標(biāo)結(jié)合進(jìn)行臨床輔助診斷的研究依然甚少。因此,本文首次將人工神經(jīng)網(wǎng)絡(luò)算法結(jié)合外周血細(xì)胞參數(shù)特征,通過深度學(xué)習(xí)建立乳腺癌診斷模型,為外周血細(xì)胞參數(shù)用于乳腺癌輔助診斷和預(yù)后判斷提供依據(jù)。
1.1 數(shù)據(jù)來源收集2016-2021年于我院初診的乳腺癌患者血細(xì)胞分析數(shù)據(jù)共422 例[平均年齡(56.90 ± 11.32)歲]以及其間體檢的健康女性血細(xì)胞分析數(shù)據(jù)共172例[平均年齡(56.17±12.38)歲]。納入標(biāo)準(zhǔn):經(jīng)影像學(xué)和病理學(xué)確診的乳腺癌患者術(shù)前檢查的血細(xì)胞參數(shù)納入乳腺癌組;總體年齡匹配的健康體檢女性的血細(xì)胞參數(shù)納入正常對照組。血細(xì)胞分析數(shù)據(jù)包括白細(xì)胞計(jì)數(shù)(WBC)、紅細(xì)胞計(jì)數(shù)(RBC)、血紅蛋白(HGB)、血小板計(jì)數(shù)(PLT)、紅細(xì)胞壓積(HCT)、紅細(xì)胞分布寬度(RDW)、平均紅細(xì)胞體積(MCV)、平均血紅蛋白含量(MCH)、平均血紅蛋白濃度(MCHC)、中性粒細(xì)胞絕對值(NE#)、中性粒細(xì)胞百分比(NE%)、淋巴細(xì)胞絕對值(LY#)、淋巴細(xì)胞百分比(LY%)、單核細(xì)胞絕對值(MO#)、單核細(xì)胞百分比(MO%)、嗜酸性粒細(xì)胞絕對值(EO#)、嗜酸性粒細(xì)胞百分比(BA%)、嗜堿性粒細(xì)胞絕對值(EO#)、嗜堿性粒細(xì)胞百分比(BA%)和平均血小板體積(MPV)共20項(xiàng)參數(shù)。本研究涉及的病患數(shù)據(jù)通過南京中醫(yī)藥大學(xué)附屬醫(yī)院倫理委員會批準(zhǔn)。
1.2 統(tǒng)計(jì)學(xué)方法通過正交偏最小二乘法判別分析(orthogonal partial least-squares discrimination analysis,OPLS-DA)進(jìn)行乳腺癌組和健康女性組主要差異參數(shù)的篩選。提取OPLS-DA 篩選的主要差異參數(shù)經(jīng)R(Version 1.4.1717)軟件以誤差逆向傳播(back propagation,BP)算法(含1 個隱藏層和2 個神經(jīng)節(jié))進(jìn)行人工神經(jīng)網(wǎng)絡(luò)建模。正態(tài)分布的兩組數(shù)據(jù)之間的比較使用t檢驗(yàn)。SPSS 22.0 軟件用于ROC 曲線繪制和相關(guān)數(shù)據(jù)分析。
2.1 乳腺癌患者主要差異性血細(xì)胞參數(shù)的發(fā)掘收集2016-2021年于我院初診的乳腺癌患者血細(xì)胞分析數(shù)據(jù)共422 例以及其間于我院體檢的健康女性血細(xì)胞分析數(shù)據(jù)共172 例。血細(xì)胞分析數(shù)據(jù)包括白細(xì)胞計(jì)數(shù)(WBC)、紅細(xì)胞計(jì)數(shù)(RBC)、血紅蛋白(HGB)、血小板計(jì)數(shù)(PLT)、紅細(xì)胞壓積(HCT)、紅細(xì)胞分布寬度(RDW)、平均紅細(xì)胞體積(MCV)、平均血紅蛋白含量(MCH)、平均血紅蛋白濃度(MCHC)、中性粒細(xì)胞絕對值(NE#)、中性粒細(xì)胞百分比(NE%)、淋巴細(xì)胞絕對值(LY#)、淋巴細(xì)胞百分比(LY%)、單核細(xì)胞絕對值(MO#)、單核細(xì)胞百分比(MO%)、嗜酸性粒細(xì)胞絕對值(EO#)、嗜酸性粒細(xì)胞百分比(BA%)、嗜堿性粒細(xì)胞絕對值(EO#)、嗜堿性粒細(xì)胞百分比(BA%)和平均血小板體積(MPV)共20 項(xiàng)參數(shù)。通過正交偏最小二乘法判別分析(OPLS-DA),本文發(fā)現(xiàn)乳腺癌患者和健康女性在血細(xì)胞參數(shù)上存在顯著差異(圖1A)。進(jìn)一步運(yùn)用“VIP(Variable Importance in the Projection)prediction”算法發(fā)掘MPV、BA#、PLT、MCV、RBC 和LY#是兩組間的主要差異性參數(shù)(圖1B 和1C)。其中(圖1D),MPV、BA#、MCV 和LY#在乳腺癌患者組的表達(dá)水平顯著高于健康人群組(P<0.001);而PLT 和RBC 在乳腺癌患者組的表達(dá)水平則顯著低于健康人群組(P<0.001)。上述結(jié)果說明乳腺癌患者和健康女性在血細(xì)胞參數(shù)上差異有統(tǒng)計(jì)學(xué)意義。
圖1 OPLS-DA 算法篩選主要差異參數(shù)Fig.1 Screening of primary differential parameters by OPLS-DA algorithm
2.2 主要差異血細(xì)胞參數(shù)對乳腺癌的診斷效率運(yùn)用ROC 法研究MPV、BA#、PLT、MCV、RBC 和LY#共6 種主要差異參數(shù)對乳腺癌的診斷效率。如圖2 所示,上述參數(shù)對乳腺癌診斷的特異性分別為0.564、0.983、0.622、0.674、0.878 和0.762,靈敏度分別為0.819、0.614、0.618、0.561、0.393 和0.514,曲線下面積(AUC)分別為0.773、0.793、0.657、0.649、0.643 和0.635,診斷折點(diǎn)(cutoff)分別為8.950、0.005、207.500、91.450、4.105、1.605。以上結(jié)果提示差異血細(xì)胞參數(shù)對乳腺癌診斷具有一定價值。
圖2 主要差異血細(xì)胞參數(shù)的ROC 曲線Fig.2 ROC curve of primary differential blood cell parameters
2.3 基于差異血細(xì)胞參數(shù)的人工神經(jīng)網(wǎng)絡(luò)模型的建立和對乳腺癌的診斷預(yù)測將數(shù)據(jù)分為訓(xùn)練集(乳腺癌=327 例,健康女性=132 例)和測試集(乳腺癌=95 例,健康女性=40 例),運(yùn)用人工神經(jīng)網(wǎng)絡(luò)算法(含1 個隱藏層,2 個神經(jīng)節(jié))對訓(xùn)練集數(shù)據(jù)進(jìn)行16862 次迭代,建立了基于差異血細(xì)胞參數(shù)的人工神經(jīng)網(wǎng)絡(luò)模型(圖3A)。各參數(shù)的廣義權(quán)重(generalized weight,GW)如圖3B 所示。運(yùn)用人工神經(jīng)網(wǎng)絡(luò)模型對測試集的數(shù)據(jù)進(jìn)行分析預(yù)測(圖3C)。結(jié)果見表1,預(yù)測結(jié)果的準(zhǔn)確度為0.891 5(95%CI:0.824 6 ~0.939 4),靈敏度為0.941 2,特異性為0.795 5,陽性預(yù)測值為0.898 9,陰性預(yù)測值為0.875 0。與單一差異血細(xì)胞參數(shù)比較,人工神經(jīng)網(wǎng)絡(luò)模型的診斷效率均有顯著提高。
圖3 人工神經(jīng)網(wǎng)絡(luò)模型的建立Fig.3 Establishment of artificial neural network model
表1 測試集經(jīng)人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測Tab.1 Test set predicted by artificial neural network model例(%)
乳腺癌是女性最常見腫瘤,具有發(fā)病率高和病死率高的特點(diǎn)。早期篩查對于乳腺癌的早期發(fā)現(xiàn)和預(yù)后具有重要價值。血細(xì)胞分析是臨床上成熟和廉價的一種檢驗(yàn)方法,目前發(fā)現(xiàn)該項(xiàng)檢查同樣在腫瘤疾病的發(fā)生和轉(zhuǎn)歸中具有重要意義。譬如,既往研究顯示MPV 是非小細(xì)胞肺癌患者(NSCLC)預(yù)后不良的危險(xiǎn)因素[15],同時也是區(qū)分肝內(nèi)膽管癌和肝細(xì)胞癌的重要指標(biāo)[16]。ALHASAN等[17]發(fā)現(xiàn)無論腫瘤的解剖位置如何,MPV 和嗜堿性粒細(xì)胞絕對數(shù)都可以作為治療前大腸癌患者預(yù)后的生物標(biāo)志物。不僅如此,PLT 也在包括肺癌、結(jié)腸癌在內(nèi)的多種腫瘤患者中都有不同程度的升高[18-19]。究其原因,腫瘤微環(huán)境具有高凝、高炎癥反應(yīng)等特征,由于腫瘤血供和體內(nèi)血液循環(huán)直接聯(lián)通的病理特征,外周血中的各類細(xì)胞可能直接或間接參與了腫瘤發(fā)生、免疫微環(huán)境塑造等過程,而腫瘤的免疫狀態(tài)也可能間接地反映在外周血細(xì)胞的組成上[20-21]。例如,單核細(xì)胞可以分化為腫瘤相關(guān)巨噬細(xì)胞促進(jìn)腫瘤進(jìn)展,同時分泌多種促進(jìn)炎癥的細(xì)胞因子,如IL-1、IL-6 等促進(jìn)腫瘤相關(guān)血管的生成和轉(zhuǎn)移[22]。因此通過觀察血細(xì)胞各項(xiàng)參數(shù)的變化進(jìn)而反映腫瘤發(fā)生發(fā)展成為可能。本研究同樣發(fā)現(xiàn)MPV 等參數(shù)在乳腺癌和健康女性之間存在顯著差異,說明乳腺癌腫瘤微環(huán)境同樣可能通過上述機(jī)制影響血細(xì)胞各項(xiàng)參數(shù)變化。因此,根據(jù)患者外周血細(xì)胞的各項(xiàng)參數(shù)有可能推斷患者免疫狀態(tài)、腫瘤發(fā)生乃至進(jìn)展情況。本研究首先通過OPLS-DA 算法篩選獲得乳腺癌患者和健康女性的主要差異參數(shù)包括MPV、BA#、PLT、MCV、RBC 和LY#。但是上述參數(shù)對乳腺癌的診斷效率并不高,可能原因是單一血細(xì)胞參數(shù)不足以反映腫瘤組織的復(fù)雜特征。因此,有必要建立一種復(fù)雜算法模型綜合評估血細(xì)胞參數(shù)對乳腺癌的診斷價值。
機(jī)器學(xué)習(xí)(machine learning,ML)是一門涉及概率論、統(tǒng)計(jì)學(xué)和復(fù)雜算法理論等多種學(xué)科的新興交叉學(xué)科[23]。通過對大數(shù)據(jù)的復(fù)雜處理,機(jī)器學(xué)習(xí)訓(xùn)練模型從而達(dá)到利用模型進(jìn)行預(yù)測的目的。人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種模仿人類神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法模型。誤差逆向傳播(BP)算法是醫(yī)學(xué)領(lǐng)域最常用的一種ANN 算法,其特點(diǎn)是在訓(xùn)練過程中將輸出值與實(shí)際值的差異不斷地逆向傳播給神經(jīng)網(wǎng)絡(luò),調(diào)節(jié)神經(jīng)元之間的權(quán)重大小,使得實(shí)際值與理論值的誤差最?。?4]。為此,本文以上述6 種參數(shù)為基礎(chǔ),以BP 算法建立人工神經(jīng)網(wǎng)絡(luò)模型。與單一血細(xì)胞參數(shù)相比,該模型對乳腺癌預(yù)測的靈敏度(0.941 2)顯著提高,符合臨床篩查指標(biāo)應(yīng)具有較高靈敏度的要求;同時該模型的預(yù)測診斷特異性為0.795 5,表明該模型具有輔助乳腺癌篩查的潛在能力。
血細(xì)胞分析是臨床常用的一種價格低廉、檢查方便快捷的實(shí)驗(yàn)室指標(biāo)。該指標(biāo)除了與血液系統(tǒng)和感染性疾病的直接相關(guān)之外,也可能間接反應(yīng)其他疾病的發(fā)生發(fā)展情況。然而血細(xì)胞參數(shù)的單一指標(biāo)往往不足以反應(yīng)腫瘤等疾病的全貌,因此血細(xì)胞參數(shù)對于腫瘤等疾病的診斷價值一直存在很大爭議[25-26]。通過機(jī)器學(xué)習(xí)算法納入血細(xì)胞參數(shù)的多項(xiàng)指標(biāo),更能全面地逼近個體的血細(xì)胞特征全貌,從而基于算法模型對血細(xì)胞全貌的綜合評估使腫瘤患者和健康人群得以區(qū)分。鑒于本文中基于血細(xì)胞參數(shù)的乳腺癌患者診斷預(yù)測人工神經(jīng)網(wǎng)絡(luò)模型的成功建立,通過機(jī)器學(xué)習(xí)建立基于實(shí)驗(yàn)室常用指標(biāo)(包括血細(xì)胞分析、臨床生化和免疫學(xué)指標(biāo)等參數(shù))的算法模型,將可能使“老指標(biāo)”煥發(fā)出“新生機(jī)”,從而在疾病診斷相關(guān)分組(diagnosis related groups,DRG)醫(yī)保支付改革的大背景下,為控制醫(yī)保支出,減輕患者負(fù)擔(dān),同時提高臨床疾病的診療效率做出貢獻(xiàn)。
本研究尚存在不足之處,如使用的數(shù)據(jù)是單一醫(yī)院的檢測數(shù)據(jù),可能存在人群、疾病譜、診療策略等差異,由此建立的診斷預(yù)測模型在應(yīng)用于更廣泛人群的診斷評估時仍需要優(yōu)化以提高性能。
綜上,本文發(fā)掘了乳腺癌患者和健康女性的關(guān)鍵差異血細(xì)胞參數(shù),運(yùn)用誤差逆向傳播算法建立人工神經(jīng)網(wǎng)絡(luò)模型,對乳腺癌疾病的診斷篩查具有潛在價值。