劉 斌,范 明,厲力華
(杭州電子科技大學生命信息與儀器工程學院,杭州 310018)
乳腺癌是女性中最常見的癌癥,也是女性癌癥死亡的第二大原因。大約20%~30%被診斷為浸潤性乳腺癌的婦女會轉移復發(fā),最終可能死亡[1]。新輔助化療可以降低5%的復發(fā)風險,所以部分浸潤性乳腺癌患者會進行新輔助化療[2-3]。新輔助化療可以顯著提高70歲以下婦女的無病生存率和總生存率[4]。然而由于新輔助化療的本身存在毒性和副作用[5],所以并不是所有患者都會從新輔助化療中受益,一般認為預后不良的患者從新輔助化療中受益最多[6-7]。需要預后標志物來鑒別出低復發(fā)風險的患者,以減少過度化療。正確的選擇乳腺癌預后標志物對研究乳腺癌的生物學行為、指導系統(tǒng)綜合治療具有重要意義。
影響乳腺癌預后的主要因素是年齡、腫瘤大小、腋窩淋巴結狀態(tài)、腫瘤組織學類型、病理分級和激素受體狀態(tài)。大量的其他因素也被用來預測病人的預后,但總的來說,它們的預測能力有限[8],尚不能滿足臨床個體化治療需要。乳腺癌患者預后的差異,具體表現(xiàn)在腫瘤生物學行為不同,其組織病理學改變是影像學表現(xiàn)的基礎。動態(tài)增強磁共振成像DCE-MRI(Dynamic Contrast Enhanced Magnetic Resonance Imaging)可以反映造影劑在腫瘤血管中的動態(tài)分布。乳腺MRI在臨床上主要用于術前分期、檢查乳房植入物、術后檢測殘留腫瘤或復發(fā)、在已證實的癌轉移患者中識別隱匿的原發(fā)性腫瘤以及篩選高危婦女[9],同時也可以用于評估腫瘤對新輔助化療的反應[10]。腫瘤大小、形狀、邊緣和動力學等定量圖像特征已被證明可以用來作為腫瘤診療的影像學標記物[11-13]。但是它們預測乳腺癌患者復發(fā)和存活的能力有限[14]。
近年來一些學者提出了多種免疫組織化學可檢測的生物標志物作為預后因子,如人表皮生長因子受體2(Human Epidermal growth factor Receptor 2,HER-2)、細胞增殖抗原標記物(Ki-67)、雌激素受體ER(Estrogen Receptor)、孕激素受體PR(Progesterone Receptor)等,這些生物標志物的表達與腫瘤細胞的分化、侵襲性和轉移能力相關。Szab等發(fā)現(xiàn)動態(tài)磁共振成像參數(shù)與乳腺癌不同的生理特性存在關聯(lián)[10],Lee等人發(fā)現(xiàn)動態(tài)磁共振成像與乳腺癌患者的預后相關,MR影像中毛刺狀邊緣的腫瘤可能預示乳腺癌好的預后[15]。最近的一些研究證實,DCE-MRI背景實質組織的全局增強模式與人群中患乳腺癌的風險[16-19]和化療療效相關[20]。
本研究主要對DCE-MRI影像特征和乳腺癌預后的關聯(lián)性進行了探討。本研究的主要創(chuàng)新體現(xiàn)在:第一,在數(shù)據(jù)上,使用了兩個公共數(shù)據(jù)庫中的數(shù)據(jù),數(shù)據(jù)比較規(guī)范可信;第二,在策略上,建立了影像特征的多基因標簽,并在獨立驗證數(shù)據(jù)集中驗證了其預后價值。首先對MRI原始圖像進行基本的預處理,提取定量的圖像特征,如病灶區(qū)域的統(tǒng)計特征、紋理特征和形態(tài)特征,利用Cox回歸模型找出有潛在預后價值的影像特征;然后,使用elastic-net回歸建立基因和影像特征的線性回歸模型;最后,在獨立的驗證數(shù)據(jù)集上通過測試影像特征的多基因標簽與總生存期(OS)和無病復發(fā)生存(RFS)的相關性來評估其預后價值。研究結果表明DCE-MRI的影像特征與乳腺癌的預后相關。
我們獲得61例浸潤性乳腺癌患者的回顧性數(shù)據(jù),其中預處理DCE-MRI和無病復發(fā)生存數(shù)據(jù)可在TCIA(The Cancer Imaging Archive)(http://www.cancerimagingarchive.net/.)上公開獲得。這個數(shù)據(jù)集的詳細信息已經(jīng)公開發(fā)表[21-22]。TCGA(The Cancer Genome Atlas(TCGA))[23]的數(shù)據(jù)集用來建立和驗證影像特征的多基因標簽。TCGA 數(shù)據(jù)庫的患者在進行組織樣本采集(200到300毫克的組織)前都不能接受任何類型的術前治療。數(shù)據(jù)集中共納入了1 097例浸潤性乳腺癌患者,所有患者均可獲得其腫瘤樣本的基因表達測序數(shù)據(jù)。其中126例患者可通過TCIA獲得預處理DCE-MRI,這些乳腺MRI研究中的大多數(shù)是在通過圖像引導的空芯針活檢確定乳腺癌之后進行的,并且本研究中包括的所有MRI檢查都是在患者接受治療之前進行的。為了減少潛在的圖像差異,本研究只分析了在采集技術上相似的乳腺MRI,即使用GE(GE Medical Systems,Milwaukee,WI,USA)掃描設備在1.5T下采集的87例患者(TCGA Subgroup 1)的MRI。其余1010例患者作為獨立驗證數(shù)據(jù)集(TCGA Subgroup 2)。表1總結了三個數(shù)據(jù)集的臨床統(tǒng)計信息。
表1 數(shù)據(jù)集的臨床信息
注:除非另有說明,否則數(shù)據(jù)為患者數(shù),括號內為百分比。*括號內的數(shù)據(jù)為范圍。
對于61例包含病人影像和預后信息的數(shù)據(jù)(預后標志物發(fā)現(xiàn)數(shù)據(jù)集),使用Signa 1.5T系統(tǒng)(GE Healthcare,Milwaukee,Wis)進行MR成像,在檢查過程中,患者處于俯臥位,雙側乳房自然垂入乳房相控陣線圈。在具有脂肪抑制的梯度回波序列的矢狀面上獲得單側T1加權圖像,參數(shù)為:重復時間,8ms;回波時間,4.2 ms;翻轉角度,20°;面內分辨率范圍,0.7 mm~0.9 mm;截面厚度范圍,2.0 mm~2.4 mm;靜脈注射釓基造影劑的劑量為0.1 mmol/kg,用10 mL生理鹽水沖洗。在三個時間點獲得MR圖像,第一個在造影劑注射前獲得,第二個和第三個在造影劑使用后的2.5 min和7.5 min分別獲得。
TCGA數(shù)據(jù)集(TCGA subgroup 1)的乳腺MRI由4個機構組成:紀念斯隆凱特癌癥中心(Memorial Sloan Kettering Cancer Center)、梅奧診所(Mayo Clinic)、匹斯堡大學醫(yī)學中心(University of Pittsburgh Medical Center)和羅斯威爾公園癌癥研究所(Roswell Park Cancer Institute)。DCE-MRI影像均由1.5T GE全身MRI系統(tǒng)(GE Medical Systems)及標準雙乳腺線圈采集得到,動態(tài)增強磁共振成像方案包括一個蒙片序列和經(jīng)過注射造影劑后獲得的3到5個增強序列。采用脂肪抑制梯度回波序列采集T1加權成像。分辨率為0.53 mm~0.86 mm;截面厚度范圍為2 mm~3mm;翻轉角度為10°。
在特征提取前,對MRI原始影像進行了一些基本的預處理,同時對感興趣區(qū)域進行分割。腫瘤分割上,首先由有數(shù)十年閱片經(jīng)驗的放射科醫(yī)生手工標出病灶位置,然后利用空間FCM進行粗分割,得到病灶的大致輪廓,再結合病灶的三維信息利用MRF進行細分割[24],最終得到較為精確的病灶區(qū)域。
本研究共提取了13維影像特征,首先提取了病灶區(qū)域的統(tǒng)計特征:峰度;形態(tài)特征:離心率;然后基于灰度共生矩陣提取了紋理特征:非相似性、能量、逆差分、和熵、相關性。所有的圖像預處理和特征提取都在MATLAB R2014a中完成。
在預后標志物發(fā)現(xiàn)數(shù)據(jù)集,分別評估每一個影像特征與RFS的關聯(lián)性。我們分兩步來確定與RFS有最強獨立關聯(lián)的影像特征,第一,對提取的影像特征進行皮爾遜相關分析,如果一對特征的皮爾遜相關系數(shù)大于0.7,則認為它們有較強的相關性,只保留在單因素分析中對預后預測能力更強的一個特征。第二,對互相不相關的影像特征進行Cox多元回歸分析,確定與RFS獨立相關的影像特征。
在預后標志物發(fā)現(xiàn)數(shù)據(jù)集中建立影像特征與預后的關聯(lián)之后,基于87例包含DCE-MRI和腫瘤基因表達數(shù)據(jù)的數(shù)據(jù)集(TCGA Subgroup 1)構建影像特征的多基因標簽。首先通過皮爾遜相關來獲得與有預后價值的影像特征最相關的前100個基因,然后,使用elastic-net 回歸建立這100個基因特征與影像特征的回歸模型。
在獨立驗證數(shù)據(jù)集(TCGA Subgroup 2)中,我們通過測試影像特征多基因標簽與總生存期和RFS的關聯(lián)性來評估其預后能力。
我們使用Cox比例風險模型建立與總生存期或RFS相關的生存模型,Kaplan-Meier分析用于估計生存概率。在預后標志物發(fā)現(xiàn)數(shù)據(jù)集,我們確定了影像特征的最優(yōu)閾值,這個閾值定義為使得生存分析中具有最小log-rankP值的截止點。風險比(HR)用于衡量Kaplan-Meier圖上不同組的存活率差異,還評估了HR的95%置信區(qū)間。采用log-rank檢驗評價預后。在單因素分析中,使用Benjamini-Hochberg方法[25]來控制錯誤發(fā)現(xiàn)率(FDR)。FDR的值小于0.05被認為有統(tǒng)計學意義,在單因素和多因素分析中l(wèi)og-rankp小于0.05,認為其有明顯的統(tǒng)計學意義。所有的統(tǒng)計分析都在Rversion 3.4.4中完成。
預后標志物發(fā)現(xiàn)數(shù)據(jù)集中與RFS相關的13個腫瘤影像特征的預后表現(xiàn)如表2所示。
表2 13個定量DCE-MRI特征的預后表現(xiàn)
注:1注入造影劑前的DCE-MRI序列;2第三個增強DCE-MRI序列。
進行FDR矯正后,只有1個影像特征,即逆差分達到了預先設定的顯著水平(correctedp<0.05)。進一步在Kaplan-Meier分析中,確定了逆差分的最優(yōu)截止值為0.638,使不同組之間生存差異最大(log-rankp=0.004 7),如圖1(a)所示。13個影像特征的皮爾遜相關矩陣如圖1(b)所示。對6個互不相關的影像特征做Cox多元回歸分析,影像特征逆差分仍然與RFS具有最強的獨立關聯(lián)(p=0.034 4),結果如表3所示。
圖1 預后標志物發(fā)現(xiàn)數(shù)據(jù)集的影像(n=61)
系數(shù)HR(95% CI for HR)p-value離心率0.411.51(0.89-2.54)0.125 5逆差分10.551.74(1.04-2.9)0.034 4和熵21.604.94(0.7-35.1)0.110 1非相似性2-2.380.09(0.006-1.38)0.084 2相關性1-0.060.94(0.56-1.56)0.808 2相關性2-2.040.13(0.01-1.24)0.076 6
注:預后標志物發(fā)現(xiàn)數(shù)據(jù)集中的數(shù)據(jù)(n=61)
給定100個腫瘤表達基因,我們使用elastic-net 回歸建立影像特征的線性回歸模型。在TCGA Subgroup 1數(shù)據(jù)集上建立了逆差分影像特征的74基因標簽R2為0.937。
在獨立驗證數(shù)據(jù)集(TCGA Subgroup 2)中使用74基因標簽預測影像特征(逆差分)的值,使用預測得到的影像特征值把驗證數(shù)據(jù)集的病人分成兩組,兩組病人在RFS(log-rankp=0.011)和OS(log-rankp=0.029)上都有顯著的差異如圖2所示。
圖2 獨立驗證數(shù)據(jù)集中RFS和OS的Kaplan-Meier曲線
DCE-MRI是臨床上檢查乳腺腫瘤最常用的影像學手段。除了在診斷中的潛在作用外,DCE-MRI的影像特征還與乳腺癌的治療療效、局部復發(fā)和生存[26-28]相關,但是它們的生物學基礎卻知之甚少。本研究旨在通過整合影像和基因表達數(shù)據(jù)來闡明腫瘤定量DCE-MRI影像特征的預后能力。此外,我們構建了腫瘤影像特征的74基因標簽,并在超過 1 000 名患者的大型獨立乳腺癌數(shù)據(jù)集中確定了其對RFS和總生存期的預后價值。
預后標志物的選擇對乳腺癌治療至關重要。一些研究已經(jīng)評估了基因表達特征對乳腺癌預后的預測效果[4,29]。這種分子方法有其局限性,比如:費用大,需要侵入性手術或組織活檢,以及在取樣過程中,由于腫瘤內部異質性容易引起偏差[30-31]。此外,對于占乳腺癌約三分之一[32]的雌激素受體陰性患者,目前臨床上尚無有價值的預后基因標簽。相比之下,DCE-MRI有較好的軟組織分辨率、豐富的圖像信息和無創(chuàng)性等優(yōu)點,可以提供腫瘤的多方位信息,可能為分子分析提供有用的補充信息。Hui Li等發(fā)現(xiàn)DCE-MRI的影像特征對乳腺癌分子分型的預測有一定的價值[33],Elizabeth S等人的研究表明從MRI中提取的影像特征可以預測乳腺癌患者的病理分期和淋巴結狀態(tài)[34],但關于影像特征對乳腺癌預后有無預測價值的研究很少。
本研究對DCE-MRI的影像特征和乳腺癌預后的關聯(lián)性進行了研究。首先在預后標志物發(fā)現(xiàn)數(shù)據(jù)集中,通過Cox比例風險模型,確定了有潛在預后價值的影像特征;然后,基于87例包含動態(tài)增強MR影像和腫瘤基因表達數(shù)據(jù)的數(shù)據(jù)集使用elastic-net回歸模型建立影像特征的74基因標簽。最后,在獨立驗證數(shù)據(jù)集中驗證74基因標簽的預后價值。這項研究的局限性包括其回顧性特點,以及數(shù)據(jù)集樣本量較小。TCGA數(shù)據(jù)集包含了多機構采集的數(shù)據(jù),這雖然增強了統(tǒng)計能力和外部有效性,但由于成像參數(shù)標準不一,它也引入了不確定性。另一個限制是TCGA數(shù)據(jù)集與預后標志物發(fā)現(xiàn)數(shù)據(jù)集相比隨訪時間相對較短,可能會對最終的結果有影響。
目前我們的研究只是將影像特征和腫瘤的基因表達數(shù)據(jù)結合起來,建立了影像特征的多基因標簽。將來可以對這個基因標簽進行轉錄水平上的研究,探究與影像特征相關的分子通路,從分子通路對應的生物過程來進一步證實定量的DCE-MRI影像特征在預測乳腺癌預后上的潛在臨床價值。盡管我們在一個較大的獨立驗證數(shù)據(jù)集(TCGA Subgroup 2)中證實了影像特征多基因標簽的預后價值,但是未來的研究應該在同時包括影像和生存數(shù)據(jù)的數(shù)據(jù)集上直接驗證影像特征對預后的價值。
研究結果表明DCE-MRI定量的影像特征對乳腺癌的預后預測有潛在的價值,這些結果可能會為乳腺癌的臨床預防和治療策略提供信息。