植彪,余建群,呂賽群
1.病例資料
回顧性搜集2014年1月-2019年6月本院194例符合要求的乳腺癌患者的影像資料及臨床資料。納入標準:(1)經(jīng)外科手術(shù)切除或經(jīng)超聲引導(dǎo)下穿刺活檢術(shù)取得病理結(jié)果證實為乳腺癌,且有分子分型者;(2)T1-2N1M0期乳腺癌患者:乳腺腫塊長徑小于5 cm,可伴有同側(cè)腋窩淋巴結(jié)單發(fā)轉(zhuǎn)移,無遠處轉(zhuǎn)移;(3)穿刺活檢或外科手術(shù)前1周內(nèi)行乳腺動態(tài)增強MRI及超聲檢查,且圖像合格者。
194例中,根據(jù)免疫組化結(jié)果,將雌激素受體(ER)、孕激素受體(PR)以及人表皮生長因子受體2(HER-2)均為陰性表達的68例早期乳腺癌患者納入“三陰組”,其余126例為“非三陰組”。
2.掃描技術(shù)與參數(shù)
采用Siemens Avanto 1.5T磁共振儀行乳腺平掃和動態(tài)增強掃描。常規(guī)平掃序列和掃描參數(shù)如下。(1)FLASH T1WI:層厚1.00 mm,層間距0.20 mm,TR 8.6 ms,TE 4.7 ms,翻轉(zhuǎn)角20°,視野340 mm×340 mm,分辨率323×448,接收帶寬350 Hz/Px,層數(shù)144;(2)壓脂TSE T2WI:層厚4.00 mm,層間距0.80 mm,層數(shù)34,TR 5600 ms,TE 59 ms,TI 170 ms,回波鏈 13,翻轉(zhuǎn)角140°,視野340 mm×340 mm,分辨率320×320,接收帶寬252Hz/Px;(3)壓脂高分辨率T1WI:層厚0.70mm,層間距0.14mm,層數(shù)208,TR 12.7ms,TE 6.21ms,翻轉(zhuǎn)角12°,視野340×340mm,分辨率435×512,接收帶寬350Hz/Px;(4)矢狀面壓脂T2WI:層厚4.00 mm,層間距1.00 mm,層數(shù)28,TR 3400 ms,TE 68 ms,回波鏈長度 13,翻轉(zhuǎn)角180°,視野200 mm×200 mm,分辨率192×256,接收帶寬150 Hz/Px。
壓脂DWI掃描參數(shù):層厚4.00 mm,層間距0.80 mm,層數(shù)34,TR 7100 ms,TE 89 ms,回波鏈長度160,翻轉(zhuǎn)角90°,視野380 mm×380 mm,分辨率160×160,接收帶寬1250 Hz/Px,b值取0、600和800 s/mm2。
磁共振動態(tài)增強掃描前經(jīng)肘靜脈用高壓注射器團注對比劑Gd-DTPA,劑量0.2 mmol/kg,隨后經(jīng)高壓注射器推注生理鹽水20 mL;在注射對比劑前進行1次掃描,注射對比劑后行5期掃描,時間間隔約50 s。掃描參數(shù):壓脂T1WI序列,TR 4.43 ms,TE 1.73 ms,視野340 mm×340 mm,層厚1.70 mm,層間距0.34 mm,層數(shù)120,翻轉(zhuǎn)角10°,分辨率336×448,接收帶寬350 Hz/Px。
乳腺彩色超聲多普勒檢查:使用GE S8超聲成像儀和7~10 MHz淺表探頭,掃查手法為放射狀掃查,發(fā)現(xiàn)乳腺腫塊后再行彩色多普勒檢查,觀察病灶血流情況。
3.圖像分析與評價
由兩位不知病理結(jié)果的診斷醫(yī)師(均具有5年以上乳腺疾病影像診斷經(jīng)驗醫(yī)師)在 PACS 系統(tǒng)工作站上分別對MRI及超聲圖像進行評價。當觀察者意見不一致時(比如對T1WI、T2WI信號的長或短、是否彌散受限等不一致時),納入第三位同樣具有5年以上乳腺影像診斷工作經(jīng)驗的醫(yī)師共同商量后決定。
記錄MRI圖像上腫塊的位置、形態(tài)、邊緣、大小、信號強度、強化是否均勻、時間-信號強度曲線、擴散是否受限以及磁共振BI-RADS分類。記錄超聲圖像上腫塊的回聲強弱及均勻度、有無血流信號以及超聲BI-RADS分類。乳腺MRI及超聲檢查均要評價有無乳頭受累、有無同側(cè)腋窩淋巴結(jié)轉(zhuǎn)移,當意見不一致時,納入第三位高年資醫(yī)師商量后取得一致意見。
4.統(tǒng)計分析
一般資料中對計數(shù)資料的組間比較采用秩和檢驗,以P<0.05為差異有統(tǒng)計學(xué)意義。從納入的194例早期(T1-2N1M0)乳腺癌病例中隨機抽取70%(136例)的病例作為訓(xùn)練集,采用決策樹和隨機森林法分別建立風險預(yù)測模型,然后將隨機抽取的30%(58例)的病例作為測試集進行驗證;使用Logistic線性回歸法進行結(jié)果預(yù)測,分別得出3種方法預(yù)測早期三陰乳腺癌的符合率、敏感度、特異度、陽性預(yù)測值(positive predictive value,PPV)及陰性預(yù)測值(negative predictive value,NPV),并且對3種統(tǒng)計方法得出的結(jié)果進行比較。
三陰組和非三陰組的臨床指標、MRI動態(tài)增強表現(xiàn)和超聲表現(xiàn)的對比分析結(jié)果見表1。統(tǒng)計分析結(jié)果顯示,乳腺腫塊的長徑、短徑、邊界情況、MRI BI-RADS分類、超聲BI-RADS分類、血流信號、乳頭是否受累以及有無同側(cè)腋窩單發(fā)淋巴結(jié)轉(zhuǎn)移這些指標在三陰乳腺癌組與非三陰乳腺癌組之間的差異具有統(tǒng)計學(xué)意義(P<0.05)。在各個預(yù)測因子中,當腫瘤更大、邊界不清晰、有血流信號、乳頭受累、伴有同側(cè)淋巴結(jié)單發(fā)轉(zhuǎn)移、以及超聲/MRI的BI-RADS分類更高時更傾向于發(fā)生三陰型乳腺癌(圖1)。
表1 三陰乳腺癌與非三陰乳腺癌組的對比
圖1 三陰性左乳浸潤性導(dǎo)管癌,該患者術(shù)后左側(cè)腋窩發(fā)現(xiàn)單發(fā)淋巴結(jié)轉(zhuǎn)移。a)T1WI示左乳內(nèi)側(cè)有等信號腫塊(箭),邊界不清;b)增強T1WI示左乳腫塊呈明顯不均勻強化,并可見乳頭受累(箭);c)DWI示病灶呈高信號(箭);d)ADC圖示病灶呈低信號;e)超聲圖像示腫塊回聲不均(箭),可見血流信號。
2.決策樹模型分析結(jié)果
基于訓(xùn)練集中136例的組間差異有統(tǒng)計學(xué)意義的指標,訓(xùn)練集與測試集比例為7∶3,找到最優(yōu)劃分屬性是決策樹生長的關(guān)鍵,節(jié)點分裂方式的選擇是基于基尼系數(shù)的屬性分裂方式,采用基尼值(Gini(D))表示節(jié)點的純度,其公式為:
(1)
其中,D為數(shù)據(jù)集合,n為樣本的類別數(shù),Pi為D中第i類樣本所占比。Gini(D)越小則數(shù)據(jù)集D的純度越高。通過軟件計算獲得最優(yōu)決策樹,也就是Gini(D)最小的最優(yōu)屬性,建立的組合危險因素的決策樹模型見圖2。決策樹模型的AUC達0.833(P<0.05)。
圖2 決策樹模型。圖中1表示是三陰型乳腺癌,2表示是非三陰型乳腺癌。Ulcer≥2表示有乳頭受累,LNM≥2表示有同側(cè)淋巴結(jié)轉(zhuǎn)移;TIC<3表示TIC類型為I和II型;BI-RAD_MRI表示MRI的腫瘤分類,1、2、3、4a、4b、4c和5類分別賦值為1~7分;BFS≥2為腫瘤內(nèi)有血流信號。該決策樹模型選擇了以上6個判別指標,在決策樹模型左側(cè)表示滿足(yes),右側(cè)(no)表示不滿足。圖中各彩色方塊內(nèi)第二行的數(shù)字代表此次判別的符合率,第3行的百分比表示測試集中最終落在這個判別的百分比。 圖3 隨機森林模型中各個變量重要性示意圖。重要性居前3的因素分別為有無乳頭受累、有無同側(cè)淋巴結(jié)轉(zhuǎn)移及病灶的短徑。 圖4 隨機森林模型(森林的樹的個數(shù)為500,每棵樹的分叉數(shù)為3)預(yù)測三陰性乳腺癌的ROC曲線,AUC=0.917。
基于上述方法建立的決策樹模型,對測試集(58例)的數(shù)據(jù)進行驗證,結(jié)果顯示決策樹模型預(yù)測三陰性乳腺癌的符合率為0.763,敏感度為0.720,特異度為0.794,陽性預(yù)測值為0.720,陰性預(yù)測值為0.794。
3.隨機森林法分析結(jié)果
隨機森林是由互相獨立、互不關(guān)聯(lián)的決策樹構(gòu)成的,步驟為隨機抽取樣本、隨機屬性選擇、構(gòu)建決策樹、輸出結(jié)果并驗證。對于訓(xùn)練集(136例)中的每例患者的數(shù)據(jù),采用“放回抽樣”的方式,由多棵決策樹輸出隨機森林模型。結(jié)果表明,乳頭受累、同側(cè)淋巴結(jié)轉(zhuǎn)移及病灶的短徑是兩種算法共同呈現(xiàn)的預(yù)測三陰性乳腺癌的前3位重要因素(圖3)。ROC曲線分析結(jié)果見圖4,隨機森林模型的AUC達0.917(P<0.05)。
基于上述方法建立的隨機森林模型,對測試集(58例)的數(shù)據(jù)進行驗證,結(jié)果顯示此模型預(yù)測早期三陰性乳腺癌的符合率為0.932,敏感度為0.833,特異度為1.000,陽性預(yù)測值為1.000,陰性預(yù)測值為0.897。
4.Logistic線性回歸分析
根據(jù)兩組間秩和檢驗的結(jié)果,對組間差異有統(tǒng)計學(xué)意義的8個參數(shù),包括腫瘤長徑、短徑、邊界、乳頭受累情況、同側(cè)腋窩淋巴結(jié)單發(fā)轉(zhuǎn)移情況、瘤體血流信號、MRI和超聲的BI-RADS分類,將其納入Logistic回歸分析中,結(jié)果見表2。本研究結(jié)果表明,在預(yù)測三陰乳腺癌的變量中,以腫塊邊界不清晰和同側(cè)淋巴結(jié)單發(fā)轉(zhuǎn)移的風險指數(shù)最高。通過對模型系數(shù)的綜合檢驗和模型匯總(卡方檢驗,P<0.01說明模型擬合好),將組合危險因素變量以亞變量的形式輸入,通過測試集數(shù)據(jù)得出預(yù)測早期三陰乳腺癌的符合率為0.887,敏感度為0.960,特異度為0.750,陽性預(yù)測值為0.877,陰性預(yù)測值為0.911。
表2 Logistic線性回歸分析結(jié)果
5.三種模型的預(yù)測結(jié)果對比
決策樹、隨機森林和Logistic回歸三種模型通過測試集預(yù)測早期三陰乳腺癌均有較好的效能匯總,結(jié)果見表3。
表3 多參數(shù)模型的預(yù)測結(jié)果
結(jié)果顯示:三種多參數(shù)模型均可用于預(yù)測早期三陰乳腺癌,其中隨機森林模型具有更高的符合率、特異度以及陽性預(yù)測值;Logistic回歸分析模型具有更高的敏感度、陰性預(yù)測值;而決策樹模型的診斷效能指標在3個預(yù)測模型中均較低。總的來說,隨機森林法優(yōu)于logistic回歸,Logistic回歸優(yōu)于決策樹。
根據(jù)全球癌癥統(tǒng)計2018年的數(shù)據(jù)顯示,全球女性最常見的惡性腫瘤為乳腺癌,是103個國家女性癌癥患者導(dǎo)致死亡的主要原因之一,已成為嚴重威脅女性健康的首位疾病[1-2]。其發(fā)病病因尚不明確,遺傳因素和雌激素內(nèi)分泌異常是導(dǎo)致該疾病發(fā)生的主要原因[3]。乳腺癌具有不同的亞型,按分子分型,乳腺癌可分為四型:luminal A型、luminal B型、Erb-B2型和Basal-like型,這是由Perou等[4]于2000年率先提出的,后被廣泛應(yīng)用。不同分子亞型的乳腺癌患者具有高度的異質(zhì)性,而三陰型乳腺癌的特征表現(xiàn)為高浸潤性,相較于其他分子亞型在診治上難度加大,因此,對于三陰乳腺癌的早發(fā)現(xiàn)、早診斷和早治療將明顯提升患者的生存率和生存質(zhì)量、對降低患者精神和經(jīng)濟雙重負擔具有重要意義。
目前,數(shù)據(jù)挖掘技術(shù)已得到廣泛應(yīng)用。Herent等[5]在MRI圖像的基礎(chǔ)上,構(gòu)建了DL(deep learning)模型用于診斷良、惡性乳腺腫塊。Qi等[6]構(gòu)建了乳腺超聲圖像數(shù)據(jù)集,并創(chuàng)建新的卷積神經(jīng)網(wǎng)絡(luò)模型以實現(xiàn)在超聲圖像中識別乳腺惡性腫塊。Ha等[7]也利用216例乳腺癌患者的MRI圖像,將CNN用于預(yù)測乳腺癌的分子亞型。還有研究結(jié)果表明從乳腺X線(mammograph,MG)圖像上提取的定量組學(xué)特征可以預(yù)測腫瘤的分子亞型[8]。張文等[9]基于術(shù)前多期增強CT建立的影像組學(xué)標簽,可預(yù)測三陰性乳腺癌,從而有助于輔助臨床分期。多種模型的探索和應(yīng)用對于個性化醫(yī)療以及精準醫(yī)學(xué)具有重要意義。
本研究納入194例早期乳腺癌病例,采用決策樹、隨機森林以及Logistic線性回歸構(gòu)建風險預(yù)測模型。決策樹可以清楚的看到每個節(jié)點,像一棵樹狀的流程圖,能看到每個預(yù)測因子的判定過程,滿足“三陰組”的歸于節(jié)點的左側(cè),反之歸于節(jié)點的右側(cè),其缺點是不能顯示各個預(yù)測因子的優(yōu)勢比。隨機森林模型中是否有乳頭受累、是否有同側(cè)腋窩單發(fā)淋巴結(jié)轉(zhuǎn)移和病灶短徑是前三位的重要因素,但它不能看到各個預(yù)測因子的判定過程。Logistic回歸可以看到每一個變量對最終判斷的風險度影響,比如,本研究中腫瘤邊界不清楚患者,其三陰乳腺癌的風險指數(shù)是邊界清楚患者的43倍。本研究將三個模型用于評價三陰乳腺癌,能看到其各自的優(yōu)勢,以達到準確預(yù)測早期三陰乳腺癌的目的。未來還可以結(jié)合多種模型的優(yōu)勢,相互補充,建立混合模型,有研究表明,混合模型較傳統(tǒng)模型相比更科學(xué)、更準確[10]。
隨著人工智能軟件的使用和完善,利用軟件有可能建立腫瘤檢測的多參數(shù)模型,近年來國內(nèi)外學(xué)者利用數(shù)據(jù)挖掘技術(shù),構(gòu)建了多種疾病風險預(yù)測模型[11-12]。AI在影像醫(yī)學(xué)的發(fā)展具有巨大的機遇與挑戰(zhàn),其診斷效能高于傳統(tǒng)放射醫(yī)師,診斷醫(yī)師在AI的輔助下能提高診斷水平、縮短診斷時間[13-15]。FDA已經(jīng)將基于乳腺成像的人工智能計算機輔助軟件于2018年正式列為II類設(shè)備,大大推動了醫(yī)學(xué)影像學(xué)的發(fā)展;通過多種多參數(shù)模型的建立與完善,并整合到影像科醫(yī)生日常工作中,使其更好地輔助并服務(wù)臨床工作。
本研究結(jié)合194例早期乳腺癌患者的乳腺動態(tài)增強磁共振以及聯(lián)合彩超檢查的影像學(xué)相關(guān)指標,建立多參數(shù)模型對乳腺癌亞型(三陰乳腺癌)進行風險預(yù)測,嘗試將影像學(xué)診斷的高度提高到疾病分子亞型水平,為精準醫(yī)療及疾病的個性化治療提供依據(jù)。本研究中,決策樹、“隨機森林以及Logistic回歸三種模型用于預(yù)測早期三陰乳腺癌均具有較高的符合率、敏感度和特異度。后續(xù)可增加訓(xùn)練集數(shù)據(jù)、增加有效預(yù)測因子,可提高模型的可靠性及穩(wěn)定性。推測這種影像+AI技術(shù)+臨床的模式,將有美好的前景。
本研究存在一定的不足之處:其一,三陰乳腺癌是乳腺癌的一種病理亞型,從影像學(xué)的角度比較難確診,雖然考量的角度很多,但真正有效的信息不夠多,目前主要還是常用指標,如腫瘤長徑、短徑、邊界、血流信號、有無乳頭受累和同側(cè)淋巴結(jié)單發(fā)轉(zhuǎn)移、以及超聲/MRI的BI-RADS分類等。其二,本研究樣本量相對較小,這對于機器學(xué)習模型來說,形成穩(wěn)定有效的分類方法還不夠,容易產(chǎn)生偏倚及混淆,后續(xù)可以擴大樣本量,進一步深入研究。其三,應(yīng)納入更多的影像學(xué)檢查方法及相關(guān)指標,如乳腺X線檢查、超聲造影等,同時還可以納入部分實驗室檢查相關(guān)指標,比如患者激素水平、基因檢測指標等。