江少凡,宋陽,薛蘊菁,蔣日烽
膠質瘤是顱內(nèi)最常見的惡性腫瘤,即使通過積極的手術、放化療和靶向藥物等治療,預后仍然很差。近幾年來有研究者逐漸開展了膠質瘤分子、基因層面的研究,所研究的基因主要有IDH、EGFR、MGMT及1p/19q等[1-2]。IDH基因中以IDH1突變最常見,其作用是降低腫瘤細胞增殖程度和減少血管生成,使膠質瘤侵襲性相對減低,故有IDH1突變的膠質瘤患者具有相對良好的預后[3]。針對IDH1突變型膠質瘤的靶向藥物治療手段已逐步開展。因此,對于膠質瘤尤其是無法切除的膠質瘤患者而言,無創(chuàng)性預測IDH1突變有助于指導臨床盡早制訂合理準確的治療策略。
影像組學技術可基于常規(guī)MRI圖像提取的腫瘤病灶的高通量定量特征,在腦腫瘤的診斷方面具有高度特異性和無創(chuàng)性的綜合優(yōu)勢。既往的研究結果表明單一序列對腦腫瘤的診斷效能有限,多個序列組合能獲得更好的診斷效能[4-5]。但既往對多種序列組合和多種機器學習(machine learning,ML)模型進行比較的相關研究報道較少或不全面。本研究中通過多種序列及組合、特征選擇方式、降維方式及ML分類器的組合使用來構建多種ML影像組學模型,評價各模型對IDH1突變膠質瘤的預測效能。
1.一般資料
回顧性分析2014年1月-2021年12月在本院于術前接受3.0T MR檢查并經(jīng)病理證實的腦膠質瘤患者的病例資料。納入標準:①病理診斷為腦膠質瘤;②首次接受膠質瘤手術治療且術前未接受任何相關治療;③術前行3.0T MR檢查,檢查序列需包括標準化采集的T2WI、T2-FLAIR、DWI及對比增強T1WI。排除標準:①圖像質量較差,圖像信噪比較低和/或有明顯偽影等;②病灶過小(腫瘤直徑<1.0 cm);③免疫組化檢查未檢測IDH1。根據(jù)納入和排除標準,最終納入161例腦膠質瘤患者:低級別(WHO Ⅰ~Ⅱ級)66例,高級別(WHO Ⅲ~Ⅳ級)95例;IDH1突變型70例,IDH1野生型91例。IDH1突變型病例中,男41例,女29例;年齡23~68歲,平均(44.05±12.15)歲。IDH1野生型病例中,男54例,女37例;年齡3~77歲,平均(51.36±16.77)歲。按照7∶3的比例將161例患者隨機分為訓練集和測試集。訓練集113例,IDH1突變型與野生型例數(shù)比為50/63;測試集共48例,IDH1突變型與野生型例數(shù)比為20/28。
本研究經(jīng)福建醫(yī)科大學附屬協(xié)和醫(yī)院倫理委員會批準。為保護患者隱私,隱去患者姓名等識別信息,所有入組患者的影像資料以數(shù)字編號表示。
2.MRI檢查方法
使用GE Discovery 750 3.0T、Siemens Trio Tim 3.0T或Siemens Prisma 3.0T磁共振儀,收集的橫軸面序列有T2WI、T2-FLAIR、DWI及對比增強T1WI,各序列標準化采集參數(shù)如下。T2WI:TR 4000 ms,TE 90 ms,體素分辨率0.5 mm×0.5 mm×5.0 mm;T2-FLAIR:TR 9000 ms,TE 145 ms,體素分辨率0.6 mm×0.6 mm×5.0 mm;DWI序列:TR 4000 ms,TE 60 ms,體素分辨率1.4 mm×1.4 mm×5.0 mm,b值選用0和1000 s/mm2,自動生成ADC圖(本研究提取的是ADC圖的組學特征);對比增強T1WI:TR 1750 ms,TE 9.0 ms,體素分辨率0.6 mm×0.6 mm×5.0 mm。將患者4個序列圖像的DICOM格式轉化為Nifti格式后,采用SPM12軟件將所有序列的圖像向T2WI圖像進行配準。
3.ROI勾畫及特征提取
由2位放射科醫(yī)師(分別具有5和10年工作經(jīng)驗)利用ImageJ軟件(https://imagej.nih.gov/ij)共同進行ROI的勾畫。勾畫方法:對每例患者的前期已配準好的所有序列圖像進行觀察,對強化不明顯或無強化的腦膠質瘤選擇T2-FLAIR序列進行ROI的勾畫(圖1);對于強化明顯的腦膠質瘤則在對比增強T1WI圖像上進行ROI的勾畫(圖2);通過觀察T2WI和T2-FLAIR圖像,在腫瘤實體區(qū)域逐層勾畫ROI,注意避開腫瘤內(nèi)的液化壞死區(qū)。因所有圖像先期均進行了配準,故在任意一個序列上勾畫的ROI均可同步到其它序列。最后生成感興趣體積 (volume of interst,VOI).利用FAE Pro V0.4.1軟件(https://github.com/salan668/FAE)中的pyradiomics模塊提取各序列VOI的影像組學特征。
圖1 右額葉腦膠質瘤ROI勾畫示意圖。a)T2-FLAIR序列顯示腫瘤呈不均勻高信號;b)T2-FLAIR序列,沿腫瘤邊緣勾畫ROI。
4.最佳序列的篩選和模型的構建
使用FAE軟件,將訓練集和測試集中各序列所提取的組學特征按數(shù)據(jù)平衡化、數(shù)據(jù)歸一化、特征選擇、特征降維和分類建模的順序進行。
首先,在測試集中篩選最佳的序列或組合,具體步驟如下。①數(shù)據(jù)平衡化:上采樣;②數(shù)據(jù)歸一化:均值歸一化;③特征選擇:采用方差分析法(analysis of variance,ANOVA)進行特征選擇,特征數(shù)的范圍設置為1~20;④特征降維:對每兩個特征使用皮爾遜相關系數(shù)(Pearson correlation coefficient,PCC)法進行分析,如果其r值大于0.9,則在 FAE 軟件中隨機刪除其中一個特征;⑤分類建模:分別采用四種算法即線性判別分析(linear discriminant analysis,LDA)、最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)回歸(LASSO regression,LR)、邏輯回歸(logistic regression,LG)和支持向量機(support vector machine,SVM)建立機器學習模型。在訓練集中采用10折交叉驗證對模型進行訓練。序列或組合總計15種,通過比較其ROC曲線的AUC篩選出最佳序列或組合。以上所有流程都是在Python 3.7.6上使用FAE Pro V0.4.1軟件來完成的[6]。
然后,基于最佳序列組合,將其提取的組學特征采用多種算法按照上述步驟重新進行建模,主要步驟和方法如下。①數(shù)據(jù)平衡化:上采樣;②數(shù)據(jù)歸一化:均值歸一化;③采用2種方式進行特征選擇,分別是方差分析和特征權重算法(Relief),特征數(shù)的范圍設置為1~20;④選用2種方式進行特征降維,分別是PCC和主成分分析(principal component analysis,PCA);⑤然后,采用LDA、LR、LG和SVM四種算法分別建立機器學習模型。通過上述步驟和算法的組合共獲得16種機器學習模型。
訓練集通過10折交叉驗證對模型進行訓練。在測試集中對16種機器學習模型進行驗證,通過FAE軟件的one-standard error法、ROC曲線和Delong檢驗篩選出具有較好擬合度和AUC最大的機器學習模型,記錄其相應的診斷敏感度、特異度和符合率等效能指標值,然后,將此最佳機器學習模型聯(lián)合臨床指標(年齡、性別、病理分級及KPS評分)構建聯(lián)合模型,分析聯(lián)合模型的診斷效能。
所有AUC值的95%CI采用bootstrape法進行1000次重采樣得到。
5.統(tǒng)計學方法
臨床資料的組間比較使用SPSS 23.0統(tǒng)計軟件。計數(shù)資料用頻數(shù)表示,符合正態(tài)分布的計量資料采用均數(shù)±標準差表示。采用獨立樣本t檢驗比較訓練集和測試集之間患者年齡和KPS評分的差異,采用卡方檢驗比較訓練集和測試集之間患者性別構成、腫瘤病理級別和IDH1突變率的差異。采用Delong檢驗比較不同機器學習模型AUC的差異。以P<0.05為差異有統(tǒng)計學意義。
1.臨床資料
訓練集和測試集中患者年齡、性別、KPS評分、腫瘤分級和IDH1突變率的差異均無統(tǒng)計學意義(P>0.05),詳見表1。
表1 訓練集和測試集臨床資料的比較
2.特征提取結果
T2WI、T2-FLAIR、ADC圖及對比增強T1WI四個序列均各自提取了98個影像組學特征,包括灰度共生矩陣(gray level co-occurence matrix,GLCM)特征24個、灰度行程長度矩陣(gray level run-length matrix,GLRLM)特征16個,灰度區(qū)域大小矩陣(gray level size zone matrix,GLSZM)特征16個、鄰域灰度差矩陣(neighbouring gray tone difference matrix,NGTDM)特征5個、一階特征18個和形態(tài)特征19個。
3.篩選最佳序列或組合
基于15個序列或序列組合提取的組學特征所構建的預測IDH1突變型膠質瘤的四種機器學習模型在訓練集和測試集中的AUC值詳見表2?;贏DC圖和對比增強T1WI序列提取的組學特征所構建的4種機器學習模型在測試集中的AUC分別為0.888、0.872、0.896和0.877,均高于其它序列或組合的AUC值,故此序列組合為最佳。
表2 基于不同序列及組合的四種機器學習模型預測膠質瘤IDH1突變的AUC值
4.基于最佳序列構建ML模型及其效能分析
基于ADC圖+增強T1WI序列提取的組學特征,采用2種降維方式,2種特征選擇方式以及4種分類器共構建了16種ML模型,通過FAE軟件的one-standard error法排除過擬合或明顯欠擬合數(shù)據(jù)后剩下5種ML模型,以其構建的算法組合命名,分別為PCA_ANOVA_LDA、PCA_ANOVA_LR、PCA_ANOVA_LG、PCA_ANOVA_SVM和 PCC_Relief_LDA。
5種ML模型在訓練集和測試集中預測IDH1突變型的效能分析結果詳見表3。5種模型在測試集中的AUC為0.656、0.766、0.854、0.814和0.810,在測試集中的AUC分別為0.596、0.829、0.808、0.821和0.818。Delong檢驗結果(圖3):在訓練集中,PCA_ANOVA_LDA的AUC低于另外4種ML模型(P=0.047、0.006、0.041、0.040),另外4種ML模型之間AUC的差異均無統(tǒng)計學意義(P>0.05);在測試集中,PCA_ANOVA_LDA的AUC低于另外4種ML模型(P=0.011、0.025、0.013、0.017),另外4種ML模型之間AUC的差異無統(tǒng)計學意義(P>0.05),其中以PCA_ANOVA_LR的AUC最大,為0.829(95%CI:0.658~0.966),特異度為0.864,敏感度為0.765,符合率為0.821,構建該ML模型的組學特征及權重系數(shù)見表4。
表3 基于ADC和增強T1WI序列的組學特征構建的不同機器學習模型的診斷效能
表4 PCA_ANOVA_LR模型中的組學特征及其權重系數(shù)
圖3 數(shù)據(jù)擬合較好的5種ML模型在訓練集和測試集中的ROC曲線,顯示PCA_ANOVA_LDA模型在訓練集和測試集中的AUC均低于另外4種ML模型。a)訓練集;b)測試集。
5.臨床資料結合最佳影像組學模型的效能分析
將最佳影像組學模型PCA_ANOVA_LR進一步與四項臨床指標相結合構建組合模型,通過FAE軟件的one-standard error法排除了過擬合和欠擬合的組合模型后,擬合度較好的各組合模型在訓練集和測試集中的效能分析結果詳見表5。在測試集中,以結合了KPS評分、病理分級和影像組學模型的聯(lián)合模型的AUC最大,為0.874(95%CI:0.722~0.985)。
表5 臨床資料聯(lián)合影像組學模型構建的聯(lián)合模型的診斷效能
本研究結果顯示基于ADC圖+對比增強T1WI序列組合提取的影像組學特征所構建的4種機器學習模型在測試集中預測膠質瘤IDH1突變型的AUC值高于其它序列及組合,提示這個序列組合具有較好且穩(wěn)定的診斷效能?;谠撔蛄薪M合進一步構建的16種ML影像組學模型中,PCA_ANOVA_LR、PCA_ANOVA_LG、PCA_ANOVA_SVM和PCC_Relief_LDA這4種模型均具有較好的診斷效能,其中PCA_ANOVA_LR在測試集中的AUC最大,聯(lián)合KPS評分、病理分級后的聯(lián)合模型的AUC進一步提高。
決定膠質瘤患者預后的最主要因素是細胞增殖程度和血供程度,兩者也是反映膠質瘤侵襲性強弱的指標,而與之相對應的MRI征象是DWI上腫瘤的擴散受限程度和對比增強T1WI上腫瘤的強化程度,膠質瘤IDH1的異質性能很好地在DWI的ADC圖和對比增強T1WI序列上得以體現(xiàn),這與既往相關研究中序列的選擇結果相一致[7-9]。本研究結果亦顯示出基于多序列組合所構建的影像組學模型較單序列模型更加具有優(yōu)勢,在建模時應重點關注ADC圖和對比增強T1WI序列所提取的組學特征。
本研究的樣本量并不多,未納入隨機森林和決策樹這2種分類器,原因是這兩者都屬于同一類型的分類器,比較適合對大樣本數(shù)據(jù)進行評價,在小樣本數(shù)據(jù)的分析中出現(xiàn)錯誤的概率較高,容易出現(xiàn)數(shù)據(jù)的過擬合。如郁義星等[10]基于132例肝癌患者的肝膽期MRI圖像提取的組學特征構建了6種機器學習模型來預測肝細胞癌微血管侵犯,結果顯示隨機森林和決策樹模型在訓練集中的AUC為1或接近1,提示數(shù)據(jù)可能存在過擬合現(xiàn)象。而 LDA、LR、LG和SVM這4種分類器對訓練樣本量的依賴較小,適合小樣本高維數(shù)據(jù)的分類[11-13]。Peng等[14]對105例膠質瘤患者基于其T2WI+增強T1WI序列使用SVM分類器建立影像組學模型,結果顯示模型在測試集中預測膠質瘤IDH1類型的AUC為0.799。Chen等[15]基于175例低級別星形細胞瘤患者的增強T1WI序列提取組學特征,并利用LDA分類器建立組學模型,模型在訓練集和測試集中的AUC分別為0.801和0.799。上述研究中的病例數(shù)與本研究中相近且均未出現(xiàn)數(shù)據(jù)過擬合的情況,故本研究選擇了對小樣本二分類問題有較好訓練效果的LDA、LR、LG和SVM這4種分類器進行建模。
本研究中還發(fā)現(xiàn)基于ADC圖+增強T1WI序列提取的組學特征所構建的16個機器學習模型中,有11個模型出現(xiàn)了較明顯的數(shù)據(jù)欠擬合。數(shù)據(jù)欠擬合即訓練集與測試集之間AUC的差異較大,且訓練集的AUC值低于測試集,出現(xiàn)欠擬合現(xiàn)象的原因可能是數(shù)據(jù)分布不平衡。筆者發(fā)現(xiàn)本研究中無明顯數(shù)據(jù)欠擬合的5種機器學習模型中有4種是由PCA_ANOVA方法構建的,筆者認為可能有以下兩方面原因:一、要改善訓練集中數(shù)據(jù)欠擬合的問題即提高模型的診斷效能,主要解決方法有增加特征數(shù)、減少正則化參數(shù)和使用非線性模型(如SVM等),而PCA作為一種高維數(shù)據(jù)的降維方式,可以使得降維造成的損失最小,主要作用就是保留訓練集的特征信息,相當于增加了訓練集的特征數(shù),而PCC的降維方式是如果2個特征的相關系數(shù)值大于 0.9,則隨機刪除其中一個特征,因此相較于PCC,PCA能保留更多的訓練集特征數(shù),從而可提高訓練集的診斷效能[16];二、ANOVA特征選擇方式是通過選擇與目標變量相關性最強的指標,可以減少過擬合風險和提高訓練集的診斷效能,而Relief特征選擇方法是將權重小于某個閾值的特征移除,減少了訓練集的特征數(shù),從而可導致模型在訓練集中的診斷效能降低。同時本研究結果顯示在訓練集和測試集中,LDA分類器所構建的PCA_ANOVA_LDA與PCC_Relief_LDA兩個模型之間AUC均存在差異,筆者認為LDA作為一種線性分類器,其穩(wěn)定性可能不及LR、LG和SVM。
患者的性別、年齡、腫瘤的病理分級及KPS評分均是評價膠質瘤的主要臨床指標,既往研究中也有將臨床資料與影像組學模型結合的報道[4,17]。陳洋等[18]通過Log-rank檢驗以及多因素邏輯回歸分析,發(fā)現(xiàn)KPS評分、病理級別及IDH基因型均與膠質瘤預后密切相關,本研究結果亦顯示影像組學模型結合KPS評分和病理分級后得到的聯(lián)合模型的預測效能進一步提高。
此外,與以往的研究不同,本研究將高、低級別膠質瘤一起納入研究,使組學模型不受病理分級的影響,更加適合在術前預測膠質瘤IDH1突變,在近期的研究中也有類似報道[17]。2021年發(fā)布的第5版中樞神經(jīng)系統(tǒng)腦腫瘤分類標準進一步弱化了腫瘤分級對膠質瘤分型的作用,而IDH基因則是首個得到公認的與膠質瘤分型相關的關鍵基因。
本研究具有一定的局限性:第一,為單中心研究,沒有外部數(shù)據(jù)的驗證,這是由于外部機構的MRI掃描參數(shù)無法做到與本研究中完全一致;第二,由于本研究為回顧性分析,且入組條件較為嚴格,盡管納入的樣本是目前本中心能收集到的全部病例,但樣本量還是相對較小,今后還將繼續(xù)搜集相關病例以擴大樣本量來進一步驗證本研究的結果;第三,本研究中僅選用了常規(guī)序列進行研究和分析,沒有將采用了新技術(如磁共振三維動脈自旋標記、擴散峰度成像等)的相關數(shù)據(jù)納入研究,原因是目前相應樣本量還較少。
綜上所述,基于ADC+T1WI增強序列組合提取的影像組學特征,采用方差分析的特征選擇方法、主成分分析的降維方法以及LASSO回歸的分類方式所構建的機器學習模型對膠質瘤IDH1突變具有較好的預測效能,結合臨床KPS評分和腫瘤病理分級所構建的聯(lián)合模型可進一步提高預測效能。