焦玉泉, 常艷亮, 楊春媚, 王 翔
(山西省運(yùn)城市中心醫(yī)院 醫(yī)學(xué)影像科, 山西 運(yùn)城, 044000)
肺腺癌是非小細(xì)胞肺癌的病理亞型之一,是導(dǎo)致全球癌癥性死亡的主要原因。盡管多年來肺腺癌的治療決策和預(yù)后有了明顯的改善,但生存率仍有待進(jìn)一步提高[1]。腫瘤-結(jié)節(jié)-轉(zhuǎn)移(TNM)分期系統(tǒng)是目前常用的預(yù)后評(píng)價(jià)體系[2]。然而,即便同一分期的患者之間的生存率也可能有所不同[3]。目前,有研究[4]開始利用放射組學(xué)預(yù)測(cè)肺癌患者的預(yù)后。放射組學(xué)是一種高通量技術(shù),用于量化醫(yī)學(xué)圖像中的表型特征,這些特征可能有助于預(yù)測(cè)生存預(yù)后、術(shù)前遠(yuǎn)處轉(zhuǎn)移和進(jìn)行組織學(xué)亞型的分類[5]。近年來,研究[6-9]顯示放射組學(xué)可作為總體生存率的獨(dú)立負(fù)性預(yù)測(cè)因素預(yù)測(cè)肺腺癌預(yù)后,且代表異質(zhì)性的紋理特征對(duì)于準(zhǔn)確性至關(guān)重要。目前對(duì)同一病理類型進(jìn)行不同分期的亞組分析的研究較少[10-12]。本研究探討不同放射組學(xué)特征選擇和基于分期的亞組分析對(duì)肺腺癌患者預(yù)后的預(yù)測(cè)價(jià)值,現(xiàn)將結(jié)果報(bào)告如下。
選取2016年1月—2018年1月在本院接受治療的293例肺腺癌患者為研究對(duì)象。納入標(biāo)準(zhǔn): ① 病理診斷為肺腺癌者; ② 影像學(xué)資料完整者; ③ 未合并其他惡性腫瘤者。排除標(biāo)準(zhǔn): ① 病理診斷不明確者; ② 全身重要臟器功能衰竭者。將患者分為訓(xùn)練組235例和測(cè)試組58例,患者一般資料見表1。
表1 2組患者一般資料比較
每例患者共提取107個(gè)特征,其中包括14個(gè)形狀特征、18個(gè)一階統(tǒng)計(jì)學(xué)特征和75個(gè)紋理特征。形狀特征量化了感興趣區(qū)域(ROI)的直徑、體積以及不規(guī)則程度; 一階統(tǒng)計(jì)特征用于創(chuàng)建像素值的直方圖,并定義與該直方圖有關(guān)的特征; 紋理特征用于將像素值之間的關(guān)系轉(zhuǎn)換為矩陣,以衡量圖像的均勻性和異質(zhì)性。紋理特征包括灰度共現(xiàn)矩陣、灰度依賴矩陣、灰度運(yùn)行長度矩陣、灰度大小區(qū)矩陣和鄰域灰調(diào)差異矩陣。
107個(gè)從腫瘤區(qū)中提取的放射學(xué)特征用3種特征選擇方法進(jìn)行了還原,分別為: ① 特征選擇1(FS1)為文獻(xiàn)報(bào)道的測(cè)試-重復(fù)測(cè)試和多重分割來選擇穩(wěn)健的特征[13-15]。使用文獻(xiàn)報(bào)道的數(shù)據(jù)集來評(píng)估當(dāng)天重復(fù)CT掃描的腫瘤單維、雙維和體積測(cè)量的變異性。該數(shù)據(jù)集可從癌癥成像檔案館公開的在線參考圖像數(shù)據(jù)庫評(píng)估治療反應(yīng)測(cè)試-重測(cè)數(shù)據(jù)集中下載。測(cè)試-重測(cè)法將腫瘤的放射學(xué)分析應(yīng)用于每例患者的2張圖像,并用一致性指數(shù)(C-index)評(píng)估2個(gè)特征值之間的一致性,在C-index >0.85時(shí)進(jìn)行特征選擇。② 特征選擇2(FS2)是根據(jù)所有特征的皮爾遜相關(guān)分析計(jì)算出的相關(guān)系數(shù),將其中1個(gè)相關(guān)的特征作為多余的特征從分析中排除[12]。相關(guān)系數(shù)的絕對(duì)值≥0.8提示2個(gè)特征之間強(qiáng)相關(guān)的閾值[16]。③ 特征選擇3(FS3)是結(jié)合FS1和FS2[17], 在使用測(cè)試檢驗(yàn)和多重分割選擇出穩(wěn)健的特征后,使用皮爾遜相關(guān)分析選擇非冗余的特征,閾值為0.8。
本實(shí)驗(yàn)構(gòu)建了2個(gè)不同的模型: 一個(gè)是使用FS1、FS2和FS3中選定的特征的單純放射學(xué)特征模型(放射學(xué)模型),另一個(gè)是使用選定的特征加上臨床預(yù)測(cè)因子的放射學(xué)和臨床特征相結(jié)合的模型(組合模型)。LASSO Cox回歸模型被用來構(gòu)建預(yù)測(cè)生存預(yù)后的模型。作者采用了5倍交叉驗(yàn)證來防止模型的簡化和過擬合,并為數(shù)據(jù)選擇最佳的λ。
肺腺癌患者依據(jù)不同的T分期創(chuàng)建亞組數(shù)據(jù)集。T1~T4期分別有93、96、49和55例患者。亞組分析中使用5倍交叉驗(yàn)證來驗(yàn)證構(gòu)建的模型。使用分層抽樣將每個(gè)亞組數(shù)據(jù)集分為5個(gè)部分,同時(shí)保持死亡患者和存活患者的比率不變; 然后,將4個(gè)部分作為訓(xùn)練數(shù)據(jù)集, 1個(gè)部分作為測(cè)試數(shù)據(jù)集。采用5倍交叉驗(yàn)證,以確保用數(shù)據(jù)數(shù)量較少的子組數(shù)據(jù)集構(gòu)建的模型的可靠性。
采用R軟件3.6.1進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)分析, Kaplan-Meier生存分析評(píng)估放射組學(xué)特征和生存率之間的關(guān)系。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
在放射學(xué)模型的訓(xùn)練和測(cè)試數(shù)據(jù)集中, FS2的C-index是所有選擇方法中最高的(分別為0.64、0.61)。同樣, FS2在組合模型的訓(xùn)練和測(cè)試數(shù)據(jù)集中的所有選擇方法中具有最高的C-index(分別為0.65、0.63)。因此,F(xiàn)S2被應(yīng)用于亞組分析,見表2。
表3顯示了各亞組的預(yù)后表現(xiàn),為了避免復(fù)雜化,顯示了在5倍交叉驗(yàn)證中最接近測(cè)試數(shù)據(jù)集的平均C-index時(shí)的情況。所有T分期放射學(xué)模型和組合模型產(chǎn)生的C-index都高于所有數(shù)據(jù),特別是在放射學(xué)模型中, T1組的測(cè)試數(shù)據(jù)集的C-index提高最多,組合模型中T4組的指數(shù)提高最多。見圖1。
表2 訓(xùn)練組和測(cè)試組中不同模型的預(yù)測(cè)性能
表3 各亞組預(yù)后預(yù)測(cè)表現(xiàn)
本研究探討了基于放射組學(xué)特征選擇和T分期的亞組數(shù)據(jù)集的肺腺癌患者的生存預(yù)測(cè),對(duì)所有數(shù)據(jù)的分析并未顯示出高的預(yù)后性能。然而,亞組的分析比所有數(shù)據(jù)的分析有更好的預(yù)后性能。這一結(jié)果表明,按特定的T分期分析肺腺癌可明顯改善生存預(yù)測(cè)。
本研究對(duì)所有數(shù)據(jù)應(yīng)用了3種獨(dú)立的特征選擇方法,以確定預(yù)后性能方面的最佳方法。在測(cè)試數(shù)據(jù)集中,放射組和組合模型使用FS2時(shí)獲得最高的預(yù)后性能。SUN W等[18]研究表明, Cox模型中Pearson的特征選擇方法在5種選擇方法中產(chǎn)生了第2高值的C-index。LEGER S等[19]研究也表明, Cox模型中同樣的Pearson特征選擇方法在12種選擇方法中產(chǎn)生了最高的C-index。這些結(jié)果與本研究結(jié)果一致(即FS2的C-index最高)。因?yàn)镃ox模型用一個(gè)簡單的回歸方程直接預(yù)測(cè)事件發(fā)生的時(shí)間,這個(gè)模型經(jīng)常產(chǎn)生過擬合的結(jié)果[19]。Pearson的特征選擇方法可以通過去除多余的特征交互作用來減少過擬合,而且計(jì)算效率很高。基于Cox模型和Pearson特征選擇方法的這些特點(diǎn),可以說明這種選擇方法是Cox模型預(yù)測(cè)預(yù)后的最有用的方法。
既往研究[20]通過將每個(gè)子組數(shù)據(jù)集應(yīng)用于整個(gè)數(shù)據(jù)集訓(xùn)練模型來驗(yàn)證預(yù)測(cè)性能,與應(yīng)用整個(gè)數(shù)據(jù)集相比,預(yù)測(cè)性能得到提高。然而,這些研究沒有使用子組數(shù)據(jù)集構(gòu)建訓(xùn)練模型,只進(jìn)行了最小的子組分析。本研究同時(shí)構(gòu)建全部數(shù)據(jù)和子組模型進(jìn)行肺腺癌患者預(yù)后分析。結(jié)果顯示,與所有數(shù)據(jù)相比,基于T分期亞組分析的預(yù)后性能提高。高預(yù)后性能是通過消除具有不同預(yù)后和異質(zhì)性的亞組之間的放射學(xué)特征趨勢(shì)的差異而產(chǎn)生的。因此,本研究采用的方法,即為每個(gè)亞組構(gòu)建訓(xùn)練模型,可以準(zhǔn)確反映每個(gè)組的放射學(xué)特征,并可以提高預(yù)后預(yù)測(cè)的性能。
A: 總數(shù)據(jù)的訓(xùn)練模型和生存模型曲線; B: T1期的訓(xùn)練模型和生存模型曲線; C: T2期的訓(xùn)練模型和生存模型曲線; D: T3期的訓(xùn)練模型和生存模型曲線; E: T4期的訓(xùn)練模型和生存模型曲線。圖1 Kaplan-Meier曲線基于每個(gè)亞組的放射模型中的Rad得分
本研究旨在使用一種方法來實(shí)現(xiàn)足夠的預(yù)后性能,以實(shí)現(xiàn)臨床效用,該方法側(cè)重于對(duì)具有相同特征的亞組進(jìn)行預(yù)后分析。然而,在未來的臨床應(yīng)用之前,有一個(gè)問題必須解決,即使用免疫檢查點(diǎn)抑制劑和分子靶向藥物的治療方法的出現(xiàn),這些療法大大改善了肺癌患者的預(yù)后[21]。因此,有必要建立一個(gè)考慮這些因素的預(yù)后模型。最近,在接受這些療法治療的患者的數(shù)據(jù)集中,已有研究[22]報(bào)道了與放射組學(xué)的高度關(guān)聯(lián)和高度預(yù)后預(yù)測(cè)的潛力。未來的一個(gè)挑戰(zhàn)是揭示該模型是否能適用于接受過上述治療的患者的數(shù)據(jù)。此外,本研究是基于相對(duì)較少的患者數(shù)量,由于一些亞組的數(shù)據(jù)數(shù)量相當(dāng)少,因此本研究得到的結(jié)果需要基于更多數(shù)據(jù)的研究來進(jìn)一步驗(yàn)證。
綜上所述,本研究調(diào)查了基于放射組學(xué)的特征選擇和T分期的亞組分析對(duì)肺腺癌患者的生存預(yù)測(cè),基于每個(gè)T分期組的模型較基于所有數(shù)據(jù)的模型具有更高的C-index。因此,對(duì)特定亞組的預(yù)后分析或可改善預(yù)后性能。