張夢(mèng)琪,玉蘇甫·肉孜,洪 悅,陳 杰
新疆維吾爾自治區(qū)人民醫(yī)院放射影像中心,新疆 烏魯木齊830001
胸腺上皮腫瘤(thymic epithelial tumor,TET)是前上縱隔最常見(jiàn)的原發(fā)腫瘤,占前縱隔病變的47%[1]。2015 年WHO 修訂了TET 組織學(xué)分型,將其簡(jiǎn)化為低危(A、AB、B1 型)和高危(B2、B3、C 型)2 種[2]。既往研究顯示,高危組侵襲性較低危組強(qiáng),生存率較低[3]。低危組手術(shù)完全切除的機(jī)會(huì)較大,而B2 或B3型則需新輔助放化療[4-5]。CT 是TET術(shù)前重要的檢查手段,術(shù)前評(píng)估多基于CT 增強(qiáng)掃描的特征表現(xiàn)[6],非增強(qiáng)CT(non-enhanced computed tomography,NECT)所提供的影像學(xué)特征較少,但其具有經(jīng)濟(jì)實(shí)用、簡(jiǎn)便快捷的優(yōu)勢(shì)。目前,影像組學(xué)在各種疾病中的應(yīng)用越來(lái)越多,其在多種腫瘤鑒別診斷中具有重要作用[7-8]。因此,本研究旨在基于NECT 聯(lián)合影像組學(xué)列線圖在術(shù)前預(yù)測(cè)TET 的WHO 簡(jiǎn)化病理分型,為臨床選擇治療方案提供新的思路。
回顧性收集2010 年1 月至2023 年1 月我院經(jīng)病理證實(shí)的TET 患者。納入標(biāo)準(zhǔn):①病理、臨床數(shù)據(jù)齊全;②術(shù)前2 周內(nèi)行胸部CT 平掃。排除標(biāo)準(zhǔn):①圖像質(zhì)量差,影響病灶分割;②合并其他類型腫瘤或混合型TET 患者。最終共納入92 例,男51 例,女41 例;年齡33~81 歲,平均(52.9±11.5)歲??人?0 例,呼吸困難12 例,胸痛16 例,胸悶15 例,重癥肌無(wú)力10 例,無(wú)癥狀19 例。低危組48 例,高危組44 例;按照7∶3 比例隨機(jī)分為訓(xùn)練集64 例,其中低危組35 例,高危組29 例;測(cè)試集28 例,其中低危組13 例,高危組15 例。
采用GE Lightspeed 64 層螺旋VCT 或Siemens Somatom FLASH 雙源CT 機(jī)?;颊呷⊙雠P位,單次深屏氣時(shí)行胸部CT 掃描。掃描參數(shù):120 kV,200~300 mAs,球管旋轉(zhuǎn)速度0.5 s/r,螺距1.375,準(zhǔn)直64×0.6 mm,探測(cè)器寬度40 mm,視野36 mm×36 mm,矩陣512×512,層厚、層距均為5 mm,窗位、窗寬分別為50、350 HU。
獲取DICOM 格式的CT 圖像,導(dǎo)出格式為NII。為減少不同設(shè)備對(duì)圖像組學(xué)特征穩(wěn)定性的影響,對(duì)圖像進(jìn)行標(biāo)準(zhǔn)化和重采樣后再提取特征。預(yù)處理后圖像采用ITK-SNAP 軟件(版本3.8.0),由2 位分別具有5、10 年以上工作經(jīng)驗(yàn)的放射科醫(yī)師在不知病理結(jié)果的情況下共同對(duì)全瘤進(jìn)行逐層勾畫ROI 并建立VOI。使用PyRadiomics 軟件(版本3.0.1)從勾畫VOI 的原始圖像及wavelet 濾波圖像、高斯拉普拉斯算子(Laplacian of Gaussian,LoG)、指數(shù)、對(duì)數(shù)、平方、平方根等圖像中提取影像組學(xué)特征,LoG 的sigma參數(shù)為1、2、3。特征提取包括一階特征、形態(tài)特征、紋理特征。
使用Python scikit-learn v1.0.2 軟件包進(jìn)行特征降維和模型構(gòu)建。所有組學(xué)特征行Mann-Whitney U檢驗(yàn),保留P<0.05 的特征;采用10 倍交叉驗(yàn)證,通過(guò)最小絕對(duì)收縮和選擇算子(least absolute eshrinkage and selection operator,LASSO)算法進(jìn)一步降維,得到使LASSO 回歸模型的誤差達(dá)到最小的λ 值,保留權(quán)重系數(shù)不為0 的影像組學(xué)特征,并與其加權(quán)系數(shù)相乘構(gòu)成影像組學(xué)評(píng)分。將最終篩選得到的組學(xué)特征輸入邏輯回歸模型(logistic regression,LR)、支持向量機(jī)(support vector machine,SVM)、隨機(jī)森林模型(random forest,RF)、極端梯度提升(extreme gradient boosting,XGBoost)、梯度提升(gradient boosting)、輕量梯度提升(light gradient boosting machine,LightGBM)、樸素貝葉斯法(naive bayes,NB)、K 近鄰(K-nearest neighbors,KNN)、極度隨機(jī)樹(shù)(extremely randomized trees,ExtraTrees)機(jī)器學(xué)習(xí)模型中進(jìn)行模型構(gòu)建。
收集患者年齡、性別、腫瘤最大徑、平掃CT 值、位置、分葉、塑形性、囊變、鈣化、是否有重癥肌無(wú)力、縱隔腫大淋巴結(jié)、胸膜/心包肥厚、胸腔/心包積液、血管/心臟受侵及肺內(nèi)轉(zhuǎn)移等基本臨床資料。篩選有統(tǒng)計(jì)學(xué)意義的指標(biāo)構(gòu)建臨床模型,設(shè)置與影像組學(xué)標(biāo)簽構(gòu)建過(guò)程中相同的參數(shù)。結(jié)合影像組學(xué)評(píng)分和臨床評(píng)分建立聯(lián)合模型并繪制其列線圖。
采用Python(版本3.67)語(yǔ)言軟件進(jìn)行數(shù)據(jù)分析。計(jì)量資料以表示,組間比較行獨(dú)立樣本t 檢驗(yàn)或Mann-Whitney U 檢驗(yàn)。計(jì)數(shù)資料組間比較行χ2檢驗(yàn)(或連續(xù)校正Yates χ2檢驗(yàn))。采用ROC 曲線評(píng)價(jià)不同模型的預(yù)測(cè)性能,并計(jì)算敏感度、特異度。采用DeLong 檢驗(yàn)估計(jì)不同模型間AUC 值的差異。使用scikit-learn 軟件包繪制校準(zhǔn)曲線。使用Python 的rpy2軟件包及rms 軟件包(https://pypi.org/project/RMS/)繪制列線圖。以P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。
訓(xùn)練集和測(cè)試集中低危組與高危組基本臨床資料見(jiàn)表1。訓(xùn)練集中,2 組縱隔增大淋巴結(jié)、胸膜/心包肥厚比較,差異均有統(tǒng)計(jì)學(xué)意義(均P<0.05);測(cè)試集中,2 組胸膜/心包肥厚、肺內(nèi)轉(zhuǎn)移比較,差異均有統(tǒng)計(jì)學(xué)意義(均P<0.05)。
表1 胸腺上皮腫瘤患者訓(xùn)練集和測(cè)試集低危組與高危組臨床資料比較
共提取1 834 個(gè)組學(xué)特征,應(yīng)用Mann-Whitney U檢驗(yàn)篩選出25 個(gè)特征,使用LASSO 算法和10 折交叉驗(yàn)證進(jìn)一步篩選特征(圖1),根據(jù)最優(yōu)λ 值0.025 6,最終共獲得11 個(gè)主要特征,影像組學(xué)評(píng)分計(jì)算公式為:
圖1 影像組學(xué)特征篩選流程 注:圖1a 為最小絕對(duì)收縮和選擇算子(LASSO)算法10 折交叉驗(yàn)證篩選出的組學(xué)特征,二項(xiàng)式偏差最小值對(duì)應(yīng)的橫坐標(biāo)為最優(yōu)λ 值;圖1b 每條曲線代表各自變量系數(shù)的變化,其中垂線對(duì)應(yīng)最優(yōu)λ 值;圖1c 為特征權(quán)重條形圖
影像組學(xué)評(píng)分=0.490-0.051×lbp_3D_m1_first order_Skewness+0.003×lbp_3D_m2_glrlm_LongRun LowGrayLevelEmphasis+0.019×lbp_3D_m2_glszm_GrayLevelVariance+0.067×lbp_3D_m2_glszm_High GrayLevelZoneEmphasis+0.025×lbp_3D_m2_glszm_SmallAreaHighGrayLevelEmphasis-0.096×log_sigma_1_0_mm_3D_glcm_Correlation-0.060×original_shape_Sphericity-0.053×wavelet_LLH_firstorder_RootMean Squared-0.027×wavelet_LLH_glcm_ClusterProminence+0.031×wavelet_LLH_glcm_Correlation-0.034×wavelet_LLH_ngtdm_Complexity。
構(gòu)建LR、SVM、RandomForest、KNN 等9 種機(jī)器學(xué)習(xí)模型,其中SVM 機(jī)器學(xué)習(xí)模型整體準(zhǔn)確率最高。因此選擇SVM 作為構(gòu)建影像組學(xué)模型的基礎(chǔ)模型(圖2)。
圖2 9 種機(jī)器學(xué)習(xí)模型整體準(zhǔn)確率柱狀圖 注:LR 為邏輯回歸模型,NB 為樸素貝葉斯法,SVM 為支持向量機(jī),KNN 為K 近鄰,RF 為隨機(jī)森林模型,ExtraTrees 為極度隨機(jī)樹(shù),XGBoost 為極端梯度提升,LightGBM 為輕量梯度提升,Gradientboosting 為梯度提升
選取縱隔腫大淋巴結(jié)、胸膜/心包肥厚構(gòu)建臨床模型。再與影像組學(xué)評(píng)分共同構(gòu)建聯(lián)合模型并制作列線圖(圖3)。校準(zhǔn)曲線表明訓(xùn)練集中各模型擬合度好(圖4)。訓(xùn)練集及測(cè)試集中聯(lián)合模型診斷效能均較高(表2,圖5)。DeLong 檢驗(yàn)顯示,訓(xùn)練集及測(cè)試集中影像組學(xué)模型及聯(lián)合模型均優(yōu)于臨床模型(均P<0.05),影像組學(xué)模型與聯(lián)合模型間AUC 比較,差異均無(wú)統(tǒng)計(jì)學(xué)意義(均P>0.05),但聯(lián)合模型AUC略高于影像組學(xué)模型。
圖3 基于臨床評(píng)分、影像組學(xué)評(píng)分構(gòu)建的聯(lián)合模型的列線圖
圖4 臨床模型、影像組學(xué)模型、聯(lián)合模型的校準(zhǔn)曲線 注:圖4a 為訓(xùn)練集;圖4b 為測(cè)試集。當(dāng)模型的預(yù)測(cè)概率與實(shí)際概率越接近,提示模型的擬合優(yōu)度越好 圖5 臨床模型、影像組學(xué)模型及聯(lián)合模型鑒別胸腺上皮腫瘤低危與高危的ROC 曲線 注:圖5a 為訓(xùn)練集;圖5b 為測(cè)試集
表2 不同模型的診斷效能比較
TET 患者多無(wú)臨床相關(guān)癥狀,僅在體檢時(shí)發(fā)現(xiàn)。CT 可提供病變的形態(tài)學(xué)和解剖學(xué)信息,但易受診斷醫(yī)師主觀判斷和經(jīng)驗(yàn)的影響,因此常規(guī)影像學(xué)表現(xiàn)無(wú)法很好地預(yù)測(cè)腫瘤的惡性程度。研究表明,基于胸腺腫瘤的CT 模型,包括腫瘤體積、邊界和強(qiáng)化程度等影像特征,預(yù)測(cè)惡性程度的準(zhǔn)確率僅70.8%[9]。CT 增強(qiáng)掃描影像組學(xué)具有區(qū)分低危組和高危組TET 的潛力[10]。但部分患者無(wú)法行CT 增強(qiáng)掃描,而NECT 提供的診斷信息又相對(duì)較少。本研究?jī)H58 例(63.04%)完成了CT 增強(qiáng)掃描。因此,本研究基于NECT 圖像,旨在分析預(yù)測(cè)模型的效能。
目前,有關(guān)影像組學(xué)在診斷胸腺病變中應(yīng)用的研究較多。Xiao 等[11]報(bào)道了聯(lián)合MRI 列線圖在個(gè)體化診斷和亞型預(yù)測(cè)方面的應(yīng)用,但其僅使用了LR 機(jī)器學(xué)習(xí)模型。Kayi 等[12]選擇了4 種影像組學(xué)模型區(qū)分低危組和高危組TET,但并未進(jìn)一步探討影像組學(xué)列線圖的價(jià)值。Dong 等[13]在CT 增強(qiáng)掃描的基礎(chǔ)上,選擇了5 種機(jī)器學(xué)習(xí)模型,構(gòu)建了影像組學(xué)列線圖以預(yù)測(cè)TET 的風(fēng)險(xiǎn)類型,但并未分析NECT 的預(yù)測(cè)價(jià)值。Liu 等[14]分別構(gòu)建了NECT、CT 增強(qiáng)掃描模型,而基于NECT 的模型表現(xiàn)更好,但研究?jī)H使用了LR 機(jī)器學(xué)習(xí)模型。本研究基于9 種機(jī)器學(xué)習(xí)模型,并通過(guò)增加臨床特征,進(jìn)一步提高了影像組學(xué)模型的效能。影像組學(xué)特征可反映NECT 圖像中的信息,而臨床特征則提供了其他識(shí)別疾病風(fēng)險(xiǎn)的線索。上述2 個(gè)因素結(jié)合,可有效提高診斷效能。
本研究通過(guò)訓(xùn)練集,在區(qū)分低危組和高危組TET方面選擇了相關(guān)的臨床特征,包括縱隔淋巴結(jié)增大和胸膜/心包肥厚。在肺部炎癥或腫瘤性病變時(shí),多伴縱隔淋巴結(jié)增大。本研究中高危組中更易出現(xiàn)縱隔淋巴結(jié)增大,與其生物學(xué)特性相符。Liu 等[14]也發(fā)現(xiàn),縱隔脂肪浸潤(rùn)、縱隔淋巴結(jié)增大和胸腔積液在TET 的不同組中存在差異。胸腔積液可出現(xiàn)在高危組TET中,是常見(jiàn)侵襲性TET 的一種臨床表現(xiàn)。本研究2 組胸腔積液發(fā)生率比較差異無(wú)統(tǒng)計(jì)學(xué)意義,可能與例數(shù)較少有關(guān)。低危組腫塊通常較小,形狀規(guī)則或呈淺分葉狀,密度均勻,包膜完整,周圍脂肪間隙清晰;當(dāng)體積較大時(shí),常壓迫周圍組織,很少侵入周圍結(jié)構(gòu)或侵犯同側(cè)胸膜或心包,因此邊界清晰。相反,高危組腫塊常呈分葉狀,邊緣不規(guī)則,密度不均勻,周圍脂肪間隙部分縮小或消失,易產(chǎn)生同側(cè)胸膜植入性轉(zhuǎn)移或浸潤(rùn)心包和大血管[15]。TET 引發(fā)的重癥肌無(wú)力多由組織學(xué)類型和免疫失衡決定,其嚴(yán)重程度與腫瘤大小無(wú)關(guān)。本研究中,低危組4 例重癥肌無(wú)力均為AB型,與Tovazhnyanska 等[16]的研究結(jié)果一致。AB 型TET 患者的臨床表現(xiàn)最嚴(yán)重,相對(duì)于淋巴樣TET(B1型)患者,肌無(wú)力癥狀較輕。本組重癥肌無(wú)力僅10 例,因此需加大樣本量進(jìn)一步探討重癥肌無(wú)力在TET 風(fēng)險(xiǎn)分類中的價(jià)值。
本研究建立并驗(yàn)證了一種基于NECT 的影像組學(xué)列線圖方法,用于預(yù)測(cè)低危和高危TET。這種方法無(wú)創(chuàng)、快速、方便,通過(guò)SVM 算法可獲得最佳預(yù)測(cè)影像組學(xué)模型。Feng 等[17]的研究也證實(shí),SVM 模型在簡(jiǎn)化的TET 風(fēng)險(xiǎn)分類中具有最佳的預(yù)測(cè)性能,但其研究基于2D-ROI 分割,而本研究采用了3D-ROI 分割,可提供腫瘤的3D 紋理信息。通過(guò)結(jié)合影像組學(xué)評(píng)分和臨床評(píng)分構(gòu)建聯(lián)合模型,訓(xùn)練集AUC 為0.909,測(cè)試集AUC 為0.875,優(yōu)于臨床模型和影像組學(xué)模型,其預(yù)測(cè)TET 的風(fēng)險(xiǎn)類型比單純使用臨床危險(xiǎn)因素和影像組學(xué)特征更好。列線圖可在模型復(fù)雜度和學(xué)習(xí)能力之間獲得最佳的泛化能力,且簡(jiǎn)潔明了,易于理解和操作,具有一定的臨床應(yīng)用價(jià)值。
本研究最終選取的11 個(gè)影像組學(xué)特征,在區(qū)分低危和高危TET 方面,灰度級(jí)大小區(qū)域矩陣特征(GLSZM)得分最高。因腫瘤分型不同和腫瘤內(nèi)部的異質(zhì)性差異,GLSZM 代表的灰度值變異性也不同,可能與腫瘤細(xì)胞的惡性程度增加、細(xì)胞體積和細(xì)胞致密性有關(guān)。目前,有關(guān)影像組學(xué)特征在模型中的作用及其背后生物學(xué)機(jī)制研究較少。因此,這些特征的潛在意義需進(jìn)一步研究。
本研究的局限性:①為單中心回顧性分析,樣本量較小,且按照7∶3 比例劃分訓(xùn)練集和測(cè)試集,可能導(dǎo)致模型過(guò)擬合,需擴(kuò)大樣本量以減少選擇偏差;②手工勾畫病變輪廓時(shí)可能會(huì)導(dǎo)致誤差,特別是較小的腫瘤,會(huì)降低精確度;③模型構(gòu)建僅針對(duì)TET 低危和高危2 組,缺乏對(duì)不同亞型之間的對(duì)比研究;④受增強(qiáng)掃描病例數(shù)量的限制,僅使用CT 平掃圖像,后續(xù)可考慮在增加病例數(shù)量的基礎(chǔ)上納入CT 增強(qiáng)掃描圖像。
綜上所述,基于所選臨床特征及NECT 影像組學(xué)特征的可視化列線圖模型,可能有助于TET 臨床術(shù)前診療方案的選擇。但該模型的臨床應(yīng)用價(jià)值和穩(wěn)定性仍需進(jìn)一步改進(jìn)和探索,以期獲得更好的效果。
中國(guó)中西醫(yī)結(jié)合影像學(xué)雜志2023年6期