張白霖,戴振暉,朱琳,王學濤
廣州中醫(yī)藥大學第二附屬醫(yī)院大學城放射治療區(qū),廣東廣州 510006;*通訊作者 王學濤 wangxuetao0625@126.com
非小細胞肺癌(non-small cell lung cancer,NSCLC)是導致癌癥相關(guān)死亡的主要原因。作為一種異質(zhì)性疾病,NSCLC包括腺癌、鱗狀細胞癌等組織學類型。腫瘤的分期及分型是影響NSCLC治療決策的關(guān)鍵因素。Aerts等[1]根據(jù)定量的影像組學方法進行腫瘤分型研究。影像組學結(jié)合臨床因素可提高NSCLC患者無病生存期預測準確率,并可預測局部控制效果[2-5]。
影像組學通過1項或多項特征的取值差異建立預測模型,實現(xiàn)腫瘤分型與分期;但特征值差異不僅來源于腫瘤的類型與進展情況,同時也來源于呼吸運動[6]、掃描參數(shù)[7]、靶區(qū)分割方式[8]等因素對特征值的影響。為獲得理想的預測模型,需要數(shù)量巨大的樣本支持,否則會由于影像組學特征數(shù)量多、研究病例數(shù)量相對少而導致預測建模過擬合[9]。在建模前篩選去除不穩(wěn)定或冗余的特征有利于提升模型魯棒性和預測能力[1,10]。目前常用的篩選方法包括多次靶區(qū)勾畫[2]和重復擺位二次成像[11]。近年來,四維計算機斷層掃描圖像(four-dimensional computed tomography,4DCT)技術(shù)已應用于胸腹部腫瘤的治療和研究中[12]。假定有臨床意義的影像組學特征在4DCT不同時相序列間具有一定的穩(wěn)定性,則可通過比較4DCT不同時相間腫瘤影像篩選影像組學特征。本研究擬分析基于4DCT篩選影像組學特征的可行性。
1.1 研究對象 自“癌癥研究的醫(yī)學圖像開放獲取數(shù)據(jù)庫”[13]下載使用4DCT技術(shù)進行計劃定位的20例 局部進展NSCLC患者200組CT及臨床資料。
圖1 4DCT不同時相圖像示意圖及部分病灶勾畫
1.2 設(shè)備與方法 采用Philips 16排螺旋CT掃描儀(Brilliance Big Bore)。掃描參數(shù):管電壓120 kV,自動管電流,分辨率512×512(0.9766 mm),重建層厚3 mm。掃描重建生成4DCT圖像由10個不同呼吸時相的CT序列組成。由1位高年資放療科主治醫(yī)師在全部CT圖像上勾畫腫瘤靶區(qū)。4DCT不同時相圖像示意圖及其病灶勾畫見圖1。
1.3 特征提取 對靶區(qū)CT圖像進行預處理,刪除CT值<-150 Hu及>200 Hu部分,以去除空腔;排除鈣化及骨化部分。
使用圖像生物標記探索軟件提取影像組學特征,包括直方圖特征、形態(tài)學特征、灰度共生矩陣特征(gray level co-occurrence matrix,GLCM)、灰度游程矩陣特征(grey-level run length matrix,GLRLM)以及領(lǐng)域灰階矩陣特征(neighborhood grey-tone difference matrix,NGTDM),共計60項特征。其中前2類為常規(guī)特征;后3類為3D紋理特征。特征計算公式參照文獻[2]。
1.4 特征分析 分別對20例患者及各自呼吸時相的影像進行編號。每組影像提取特征后,逐對比較各組特征評估穩(wěn)定性。采用一致性相關(guān)系數(shù)(concordance correlation coefficient,CCC)評估特征值在兩組時相影像間的穩(wěn)定性。CCC參考范圍為-1~1,-1代表完全負相關(guān),1代表完全正相關(guān)。該值接近1則表示特征重復性高[11]。
另外,引入動態(tài)范圍指標(dynamic range,DR)以反映特征值在入組患者間的差異度[11]。該指標同樣考慮該特征的重復性,見公式(1)。
其中,T1k(p)和T2k(p)表示第k個特征在第P個樣本數(shù)據(jù)的兩組時相特征值,n為樣本總數(shù),Maxk和Mink分別表示第k個特征在整個樣本集中的最大值和最小值。DR范圍0~1,接近1表示該特征在保證重復性的前提下存在反映較大生物學差異的可能。由于同類研究使用的閾值不統(tǒng)一,本文使用多個閾值(0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)作為特征篩選條件。當CCC或DR大于該閾值時,認為特征滿足要求,同時剔除不滿足要求的特征。
2.1 不同閾值篩選特征 隨著閾值增加,滿足CCC篩選條件的特征占比由85%(51/60)減少至35%(21/60);滿足DR篩選條件的特征占比由98%(59/60)減少至21.7%(13/60);同時滿足CCC和DR篩選條件的特征占比由85%(51/60)減少至16.7%(10/60)。CCC和DR自閾值0.9增加到0.95的過程中曲線下降趨勢明顯(圖2)。另外閾值范圍在0.6~0.9時,使用單獨CCC和CCC聯(lián)合DR篩選出的特征占總特征比重曲線重合,即在該閾值范圍內(nèi)。單獨CCC和CCC聯(lián)合DR的篩選結(jié)果一致(表1)。
2.2 各類特征篩選結(jié)果 “F2-形態(tài)”特征相對其他類別特征更穩(wěn)定,具有更好的多樣性;“F5-NGTDM”特征最不穩(wěn)定,缺乏滿足CCC>0.95且DR>0.95的特征;“F3-GLCM”特征中有15項滿足CCC>0.9且DR>0.9,但僅有1項滿足CCC>0.95且DR>0.95。使用CCC>0.95、DR>0.95篩選出10項特征,占本研究總特征數(shù)的16.7%(10/60)。
圖2 CCC和DR不同閾值篩選特征占總特征比重
表1 CCC及DR不同閾值篩選各類特征[例(%)]
影像組學需要保證研究結(jié)果的可重復性[14]。僅經(jīng)過多中心研究的驗證才具有臨床應用價值。目前大數(shù)據(jù)研究方法逐漸成為熱門,影像組學研究采用多中心海量的影像數(shù)據(jù),理論上可篩選出具有高魯棒性的特征,從而建立理想的診斷預測模型,但在實現(xiàn)的過程中存在一定的困難。首先,多中心數(shù)據(jù)的標準化不夠完善,如處理不當,有些不“標準”的數(shù)據(jù)可能對最終結(jié)果產(chǎn)生不可預測的影響;其次,多中心分析相比單中心在樣本數(shù)據(jù)增長數(shù)倍的同時,引入影響特征的因素增多,使得建模的難度激增[9]。因此,目前進行多中心分析尚存在一些困難。除多中心分析一次性考慮大部分因素外,也可通過多次勾畫靶區(qū)、重復擺位二次成像等引入單一因素的方式篩選特征。重復擺位二次成像可在短時間內(nèi)采集影像,保證腫瘤特性不變(反映腫瘤特性的特征值不發(fā)生改變),篩選特征有良好的效果[11];另一種方式是4DCT,其與重復擺位二次成像在各組影像間的差異來源不同,故認為不受擺位影響的特征很可能也不受呼吸運動的影響。NSCLC臨床上不會進行重復二次擺位成像。NSCLC進行立體定向放療通常需進行4DCT掃描成像,為基于4DCT篩選穩(wěn)定特征提供了可用的數(shù)據(jù),故本文探討4DCT成像作為一種替代方式以篩除不穩(wěn)定特征的可行性。
CCC是判斷特征穩(wěn)定性的指標,使用閾值由研究者制訂,常用的閾值有0.75、0.80、0.85、0.90、0.95[15]。本文對比4DCT各時相影像的影像組學特征,CCC結(jié)合反映特征動態(tài)范圍的指標DR,使用0.95閾值在60項特征中篩選出10項特征。Aerts等[1]通過重復二次成像方法對影像學特征進行穩(wěn)定性排名,最終選擇統(tǒng)計能量、形狀緊湊性、灰度不均勻性、小波-灰度不均勻性4項特征進行生存率預測的建模,證明了以上特征預測肺癌和頭頸癌預后的價值。其中,前3項特征納入本研究,在一定程度上證明通過4DCT多時相影像對比可作為一種影像組學特征篩選方法。同時,本研究實現(xiàn)的穩(wěn)定性特征篩選與預測模型中的特征選擇不同,后者主要針對影像組學模型的研究目的進行,如預測腫瘤病理分類、臨床分期、淋巴結(jié)轉(zhuǎn)移、預后生存、治療反應等,特征選擇常用方法包括拉索回歸、支持向量機、隨機森林、神經(jīng)網(wǎng)絡(luò)等[16-18]。重復擺位二次成像,影像間差異主要來自重復定位在患者體內(nèi)引起的不同形變。由于患者擺位不變,4DCT成像影像間的差異主要來自呼吸周期內(nèi)的不同時間點。理想的做法是結(jié)合以上兩種方式共同實現(xiàn)影像組學特征篩選。Balagurunathan等[11]在肺癌影像重復擺位二次成像影像特征重復性分析中,使用CCC和DR方法(CCC>0.95且DR>0.95)篩選出31項特征,占該研究中總特征數(shù)(189項)的16%,與本研究結(jié)果相同。以上結(jié)果表明兩種方式均可獲得理想的篩選效果。
本研究使用的樣本缺少預后數(shù)據(jù),無法分析通過4DCT成像方式篩選出的影像組學特征的臨床預測價值;高穩(wěn)定性的影像組學特征的預測價值尚需進一步驗證。
本研究對于一種基于4DCT成像的影像組學特征篩選方式進行評估,基于4DCT多時相對比實現(xiàn)NSCLC影像組學特征穩(wěn)定性分析,從60項特征中篩選出10項穩(wěn)定特征(16%),實現(xiàn)與重復擺位二次成像相近的篩選效果。