馬夢偉,秦耿耿,徐維敏,劉仁懿,文嬋娟,曾 輝,陳衛(wèi)國
(南方醫(yī)科大學(xué)南方醫(yī)院放射科,廣東 廣州 510515)
近年來乳腺癌發(fā)病率呈上升趨勢[1],而不同分子分型乳腺癌治療方式與預(yù)后截然不同。目前主要依靠術(shù)后免疫組織化學(xué)檢查判斷乳腺癌分子分型。如能于術(shù)前準(zhǔn)確、無創(chuàng)獲取分子分型,將對臨床診斷及治療產(chǎn)生重要影響。隨著醫(yī)學(xué)數(shù)據(jù)激增及計算機(jī)性能提升,相關(guān)機(jī)器學(xué)習(xí)方法進(jìn)步很快[2-3]。本研究觀察基于第5版乳腺影像報告和數(shù)據(jù)系統(tǒng)(breast imaging reporting and data system, BI-RADS)[4]根據(jù)乳腺X線、超聲征象及臨床資料構(gòu)建的機(jī)器學(xué)習(xí)模型預(yù)測乳腺癌分子分型的價值。
1.1 研究對象 回顧性分析2012年1月—2018年12月200例南方醫(yī)科大學(xué)南方醫(yī)院經(jīng)病理證實(shí)的女性浸潤性乳腺癌患者,年齡22~76歲,平均(41.5±12.2)歲。納入標(biāo)準(zhǔn):①單發(fā)乳腺病變;②術(shù)前接受乳腺X線及超聲檢查,圖像質(zhì)量符合診斷要求;③臨床資料完整。排除標(biāo)準(zhǔn):①圖像質(zhì)量不能滿足診斷要求;②術(shù)前資料不完整;③檢查前接受乳腺手術(shù)、新輔助化學(xué)或放射治療等。根據(jù)雌激素受體(estrogen receptor, ER)、孕激素受體(progesterone receptor, PR)、人表皮生長因子受體2(human epidermal growth factor receptor 2, HER2)和增殖細(xì)胞核抗原Ki-67檢查結(jié)果,將患者分為2組[5]:①Luminal組109例,包括Luminal A型[ER(+)和(或)PR(+),HER2(-),Ki-67<14%]和Luminal B型{[ER(+)和(或)PR(+),HER2(-),Ki-67≥14%]或[ER(+)和(或)PR(+),HER2(+)]};②非Luminal組91例,包括HER2過表達(dá)型[ER(-),PR(-),HER2(+)]和三陰性[ER、PR及HER2均(-)]。組內(nèi)按7∶3比例隨機(jī)分為訓(xùn)練亞組及測試亞組:Luminal組訓(xùn)練亞組76例、測試亞組33例;非Luminal組分別為64例和27例。
1.2 儀器與方法 采用Siemens Mammomat Novation及Hologic Selenia Dimensions全數(shù)字化乳腺X線機(jī),掃描參數(shù):管電壓27~32 kV,管電流28~68 mAs。囑患者站立,行常規(guī)乳腺頭足位及內(nèi)外側(cè)斜位攝影,如觀察不滿意,則增加側(cè)位或乳溝位等其他方向攝影;不能明確診斷時,行局部加壓攝影及點(diǎn)壓放大攝影。采用Philips IU 22彩色多普勒超聲診斷儀,實(shí)時線陣高頻探頭,探頭頻率7.5~10 MHz。囑患者仰臥,雙臂上舉,充分暴露胸部,以乳頭為中心掃查乳房各象限及腋窩淋巴結(jié),觀察病灶邊界、內(nèi)部回聲及血流等。
1.3 數(shù)據(jù)采集 采集11個臨床信息,包括年齡、部位、初潮年齡、家族史、生育史、哺乳史、流產(chǎn)史、乳頭改變、皮膚改變、急性乳腺炎史及絕經(jīng)史。應(yīng)用乳腺影像診斷專用工作站,由3名具有10年以上工作經(jīng)驗(yàn)的影像科醫(yī)師參照BI-RADS診斷標(biāo)準(zhǔn)[4]分析圖像,提取病變X線及超聲特征,意見不一時經(jīng)協(xié)商達(dá)成共識,共提取24個特征,見表1。
1.4 建立機(jī)器學(xué)習(xí)模型 對11個臨床信息及24個影像學(xué)特征進(jìn)行歸一化處理,采用Python語言處理連續(xù)變量,以O(shè)ne-Hot編碼處理分類變量。采用十折交叉驗(yàn)證分別訓(xùn)練以隨機(jī)森林(random forest, RF)、極端梯度提升(extreme gradient boosting, XGBoost)、邏輯回歸(logistics regression, LR)及支持向量機(jī)(support vector machine, SVC)為分類器的機(jī)器學(xué)習(xí)模型,利用測試組數(shù)據(jù)對模型進(jìn)行外部測試。為避免模型過擬合,選取測試組與訓(xùn)練組交叉驗(yàn)證平均準(zhǔn)確度差異最小的模型進(jìn)行分析。構(gòu)建模型過程中加入局部可解釋性技術(shù)SHAP值,以實(shí)現(xiàn)對最優(yōu)模型的可解釋性。
1.5 統(tǒng)計學(xué)分析 采用SPSS 20.0統(tǒng)計分析軟件。計數(shù)資料以頻數(shù)表示,采用χ2檢驗(yàn)或Fisher精確概率法;計量資料以±s表示,采用獨(dú)立樣本t檢驗(yàn)。以組內(nèi)相關(guān)系數(shù)(intra-class correlation coefficient, ICC)分析提取特征的一致性,ICC≤0.40為一致性較差;0.40 表1 提取乳腺癌X線及超聲特征 2.1 一般資料 2組一般資料中,僅乳腺癌發(fā)病部位差異具有統(tǒng)計學(xué)意義(P<0.05),其他差異均無統(tǒng)計學(xué)意義(P均>0.05),見表2。 2.2 特征提取一致性分析 3名醫(yī)生提取影像學(xué)特征(圖1、2)的一致性較好,ICC=0.74[95%CI(0.68,0.79),P<0.01]。 2.3 不同模型預(yù)測乳腺癌分子分型的價值 訓(xùn)練組中RF模型預(yù)測Luminal型與非Luminal型乳腺癌的特異度及準(zhǔn)確率優(yōu)于其他3種模型,但敏感度略低于SVC和LR模型,見表3。測試組中RF模型的特異度、準(zhǔn)確率及陽性預(yù)測值優(yōu)于其他3種模型,但敏感度、陰性預(yù)測值略低于LR模型,見表4。測試組RF模型預(yù)測乳腺癌分子分型的AUC為0.70,略高于其他3種模型,但與XGBoost、LR、SVC模型差異均無統(tǒng)計學(xué)意義(P均>0.05),見表5及圖3。采用SHAP值進(jìn)一步分析RF的最優(yōu)特征集,X線表現(xiàn)中,腫塊邊緣毛刺、邊緣模糊、腫塊最大徑、微鈣化細(xì)線樣或線樣分支狀、段樣或線樣分布,以及超聲表現(xiàn)中的腫塊方向?qū)υ撃P皖A(yù)測效能的影響較大,見圖4。 分子水平上,乳腺癌具有高度異質(zhì)性,最常見分子分型為Luminal型,約占70%以上[6],該型乳腺癌患者預(yù)后生存率明顯高于非Luminal型[7]。 表2 2組乳腺癌患者一般資料 圖1 患者女,73歲,左乳Luminal型乳腺癌 左側(cè)乳腺內(nèi)外側(cè)斜位X線片(A)示不規(guī)則高密度影,邊緣呈毛刺狀,其內(nèi)未見鈣化;左側(cè)乳腺超聲聲像圖(B)示不規(guī)則實(shí)性低回聲團(tuán),邊緣似毛刺,稍縱向生長,病灶內(nèi)可見細(xì)點(diǎn)狀強(qiáng)回聲,CDFI(C)于病灶內(nèi)部見少許彩色血流信號 (箭示病灶) 圖2 患者女,51歲,左乳非Luminal型乳腺癌 左側(cè)乳腺內(nèi)外側(cè)斜位X線片(A)示大量微鈣化,多為細(xì)線樣及線樣分支狀,呈段樣分布;左側(cè)乳腺超聲聲像圖(B)可見不規(guī)則實(shí)性低回聲團(tuán),邊緣部分成角,病灶內(nèi)見強(qiáng)回聲團(tuán),CDFI于病灶內(nèi)部及邊緣未見彩色血流信號 (箭示病灶) 表3 4種模型對訓(xùn)練組乳腺癌分子類型的預(yù)測效能(n=140,%) RF是采用隨機(jī)方式建立并可解釋的分類器模型,可用于處理高維度數(shù)據(jù)集,泛化能力及抗干擾能力較強(qiáng)[8]。本研究發(fā)現(xiàn),以RF、XGBoost、LR及SVC為分類器建立的預(yù)測不同分子分型乳腺癌模型中,RF模型的AUC、特異度、準(zhǔn)確率、陽性預(yù)測值略高于其他3種模型,但AUC差異均無統(tǒng)計學(xué)意義,可能與樣本量較少有關(guān)。 HUANG等[9]發(fā)現(xiàn)Luminal型乳腺癌多為毛刺狀腫塊,三陰性乳腺癌腫塊邊緣多模糊[10]。本研究通過SHAP值進(jìn)一步分析RF特征集,得到了與之相符的結(jié)果,提示X線征象中的腫塊邊緣毛刺、邊緣模糊、微鈣化呈細(xì)線樣或線樣分支狀、段樣或線樣分布、腫塊最大徑及超聲腫塊方向?qū)τ谀P皖A(yù)測效能尤為重要,其中腫塊呈毛刺狀是乳腺癌最常見的影像學(xué)表現(xiàn)之一,也是影響RF模型最重要的特征。本研究以乳腺X線測量腫塊最大徑為評價指標(biāo)。LEDDY等[11]認(rèn)為乳腺X線攝影所測腫塊徑線略較超聲測量值更接近組織學(xué)最大徑,但尚未見乳腺X線所測腫塊最大徑與Luminal型乳腺癌間相關(guān)性的相關(guān)文獻(xiàn)報道。YOUK等[12]發(fā)現(xiàn)微鈣化是早期乳腺癌的重要影像學(xué)表現(xiàn),且與患者預(yù)后相關(guān)[13]。本研究于乳腺X線片中提取的鈣化均為微鈣化。LEE等[14]認(rèn)為HER2型乳腺癌微鈣化多呈細(xì)線樣或線樣分支狀,且以段樣或線樣分布為主,而Luminal型多呈細(xì)小多形樣[15]。郭玉萍等[16]認(rèn)為超聲表現(xiàn)中腫塊生長方向與乳腺癌分子分型之間具有相關(guān)性,本研究結(jié)果與之相符。 圖3 測試組4種模型的ROC曲線圖 表4 4種模型對測試組乳腺癌分子類型的預(yù)測效能(n=60,%) 表5 測試組中4種模型混淆矩陣及AUC 圖4 測試組RF模型的SHAP值圖 本研究的局限性:樣本量偏小,機(jī)器學(xué)習(xí)模型易出現(xiàn)過度擬合,需擴(kuò)大數(shù)據(jù)量或加入外部數(shù)據(jù)集以減少數(shù)據(jù)對模型準(zhǔn)確性的影響。 綜上所述,采用基于乳腺BI-RADS提取的乳腺X線及超聲特征構(gòu)建的RF模型預(yù)測浸潤性乳腺癌分子分型總體效能較好,但其預(yù)測準(zhǔn)確率有待提高。2 結(jié)果
3 討論