郭藝賢,張利軍,黃銀銀,姚秀忠,4,曾蒙蘇,4,黃健峰,4
1.中山大學(xué)附屬第一醫(yī)院 超聲科,廣東 廣州 510080;2.復(fù)旦大學(xué)附屬中山醫(yī)院 放射科,上海 200032;3.中國(guó)人民解放軍海軍特色醫(yī)學(xué)中心 婦產(chǎn)科,上海 200000;4.上海市影像醫(yī)學(xué)研究所,上海 200032
CT檢查已廣泛應(yīng)用于肺癌的檢查、評(píng)估及術(shù)后隨訪等,但在臨床工作中,放射醫(yī)師通過(guò)肉眼識(shí)別、讀取的信息十分有限,同時(shí)也低估了CT檢查的臨床價(jià)值,研究表明,利用人工智能的方法,深度挖掘圖像中的信息,對(duì)腫瘤進(jìn)行多方面的分析及預(yù)測(cè),可為臨床提供更多、更全面、更深層度的信息。同時(shí),CT檢查的廣泛使用也為其與人工智能方法的結(jié)合提供基礎(chǔ)和可行性[1-2]。隨機(jī)森林(Random Forest,RF)算法由Breima[3]提出,是一種基于多個(gè)決策樹(shù)(Classification and Regression Tree,CART)的集成學(xué)習(xí)算法。RF算法包含若干棵決策樹(shù),且每棵決策樹(shù)都是獨(dú)立的,因此RF算法對(duì)訓(xùn)練集的過(guò)度擬合問(wèn)題表現(xiàn)不敏感,且具有較好的抗噪能力和魯棒性,如對(duì)缺省值不敏感[3-4]。RF算法訓(xùn)練速度快、決策機(jī)制簡(jiǎn)單易行,而且對(duì)數(shù)據(jù)集的適應(yīng)能力強(qiáng),因此被廣泛應(yīng)用于各個(gè)領(lǐng)域[5]。研究表明,RF算法用于評(píng)估多種臨床疾病的預(yù)后、疾病進(jìn)程及基因突變表達(dá)等方面具有較好的表現(xiàn)力[6-10]。已有應(yīng)用RF算法探測(cè)檢出肺癌、肺結(jié)節(jié)良惡性的分類、肺癌預(yù)后的分析等方面的報(bào)道[11-13]。本文旨在通過(guò)結(jié)合影像組學(xué)提取特征,應(yīng)用RF算法構(gòu)建分類模型,對(duì)腺癌、鱗癌和小細(xì)胞肺癌進(jìn)行分類鑒別并評(píng)估分類模型的預(yù)測(cè)能力。
本研究回顧性納入2013年1月至2018年8月在復(fù)旦大學(xué)附屬中山醫(yī)院經(jīng)病理確診的920例原發(fā)性肺癌患者作為研究對(duì)象。納入標(biāo)準(zhǔn):① 經(jīng)穿刺或手術(shù)標(biāo)本確診為肺腺癌、鱗狀細(xì)胞癌及小細(xì)胞肺癌3種原發(fā)性肺癌;② 在治療前及術(shù)前2周內(nèi)進(jìn)行CT檢查。排除標(biāo)準(zhǔn):① 患者術(shù)前接受化療、放療等其他治療手段;② 腫塊邊界在CT圖像上難以清晰辨認(rèn),如中央型肺癌與腫大淋巴結(jié)相融合、腫塊與肺不張邊界難以分辨以及大量胸腔積液等;③ CT檢查圖像質(zhì)量不合格或圖像缺失的病例,如有較重的運(yùn)動(dòng)偽影;④ 同時(shí)有≥2種病理類型肺癌;⑤ 腫瘤病灶直徑小于1 cm的患者。最終,納入研究的病例總數(shù)為852例,其中肺腺癌525例、肺鱗癌161例、小細(xì)胞肺癌166例。
所有患者均在術(shù)前或穿刺前2周內(nèi)實(shí)施CT檢查,吸氣末屏氣下掃描,掃描的范圍從胸廓入口到膈面。上海聯(lián)影公司生產(chǎn)的128層螺旋CT(uCT760)掃描參數(shù):管電壓120 kV,管電流130 mAs,螺距1.08,層厚1 mm。GE公司生產(chǎn)的64層螺旋CT掃描參數(shù):管電壓120~140 kV,管電流140 mAs,螺距1.08,層厚1 mm。
采用軟件 ITK-Snap(版本 3.6.0,www.itksnap.org)[14]在CT圖像上對(duì)所有病例的腫瘤病灶的每層圖像進(jìn)行分割,獲取三維的感興趣區(qū)域(Region of Interest,ROI)。分割時(shí)盡可能避免勾畫腫瘤鄰近大血管、淋巴結(jié)、支氣管以及肺不張。CT圖像格式為DICOM,輸入到ITKSnap進(jìn)行分割,所得的ROI以.mha格式輸出進(jìn)行分析。每個(gè)病例相對(duì)應(yīng)的病理結(jié)果(腺癌、鱗癌、小細(xì)胞肺癌)作為分割圖像的標(biāo)簽。所有的圖像分割工作由2名放射科醫(yī)生共同完成,最后由1名高年資的放射醫(yī)生對(duì)ROI進(jìn)行復(fù)查確認(rèn)。3種肺癌代表病例分割示意圖如圖1所示。
圖1 3種肺癌代表病例的腫瘤在CT圖像上的分割圖及ROI的三維示意圖
本研究主要采用Python下的pyradiomics庫(kù)進(jìn)行提取影像組學(xué)特征。計(jì)算原始圖像的特征以及經(jīng)過(guò)小波過(guò)濾(以“db2”為小波基)后的圖像的特征,其中包括形狀特征、一階特征、灰度共生矩陣、灰度游程矩陣、鄰域灰度差矩陣、灰度相關(guān)矩陣和灰度級(jí)帶矩陣等特征。
(1)歸一化操作:首先將每類特征進(jìn)行歸一化操作,即將數(shù)據(jù)統(tǒng)一到[0,1]范圍內(nèi),之后利用支持向量機(jī)(Support Vector Machine,SVM)篩選特征,選擇出僅利用單一特征可以使分類的受試者工作特征(Receiver Operator Characteristic,ROC)曲線及曲線下面積(Area Under Curve,AUC)大于0.5的特征,然后再通過(guò)計(jì)算特征的方差膨脹系數(shù)(Variance Inflation Factor,VIF)來(lái)衡量特征的共線性,篩選出VIF≤5的特征,此時(shí),可以認(rèn)為特征之間沒(méi)有共線性問(wèn)題存在。VIF計(jì)算方式如公式(1)所示。
式中,R為負(fù)相關(guān)系數(shù)。
(2)特征篩選:篩選VIF≤5的特征后,再通過(guò)空間上統(tǒng)一的相關(guān)特征(Spatially Uniform Relevant Features,SURF)算法[15]對(duì)特征進(jìn)行進(jìn)一步的篩選,最終保留需要的20維特征(表1)。特征篩選流程圖如圖2所示,最后保留的20維組學(xué)特征之間的相關(guān)性如圖3所示,對(duì)肺癌病理類型分類預(yù)測(cè)的重要分?jǐn)?shù)如圖4所示。
圖2 影像組學(xué)特征提取、篩選流程圖
圖3 提取的20維組學(xué)特征之間的相關(guān)性
圖4 20維組學(xué)特征對(duì)肺癌病理類型分類診斷的重要分?jǐn)?shù)
表1 篩選的20維影像組學(xué)特征
在選擇出需要的特征之后,利用RF算法進(jìn)行建模,并進(jìn)行模型擬合,其中一些參數(shù)設(shè)置如下:決策樹(shù)的數(shù)目為100,決策樹(shù)的最大深度為11,分割內(nèi)部節(jié)點(diǎn)所需要的最小樣本數(shù)量為2,需要在葉子結(jié)點(diǎn)上的最小樣本數(shù)量為4。本研究將所有數(shù)據(jù)的85%劃分為訓(xùn)練集,為保證模型的魯棒性,在訓(xùn)練集數(shù)據(jù)中采用5折交叉驗(yàn)證方法(Cross-Validation)進(jìn)行驗(yàn)證,最后使用獨(dú)立的15%的數(shù)據(jù)作為測(cè)試集。即724例(占85%,腺癌446例、鱗癌137例、小細(xì)胞肺癌141例)病例用于訓(xùn)練分類模型,128例(占15%,腺癌79例、鱗癌24例、小細(xì)胞肺癌25例)用于測(cè)試評(píng)估分類模型診斷效能。訓(xùn)練集用來(lái)進(jìn)行特征選擇以及模型擬合,測(cè)試集僅用以對(duì)本研究的分類模型進(jìn)行驗(yàn)證。RF算法運(yùn)行流程如圖5所示。
圖5 RF算法的運(yùn)行流程及結(jié)果示意圖
所有統(tǒng)計(jì)分析使用Python 3.8.0(packages:numpy)和SPSS 22.0進(jìn)行,本研究連續(xù)性變量符合正態(tài)分布但方差不齊,統(tǒng)計(jì)學(xué)分析采用Kruskal-WaliisH檢驗(yàn)。統(tǒng)計(jì)指標(biāo)中分類型變量的分析采用Fisherχ2精確檢驗(yàn)。采用準(zhǔn)確性(Accuracy)、ROC及AUC,計(jì)算精確率[真陽(yáng)/(真陽(yáng)+假陽(yáng))]、召回率[真陽(yáng)/(真陽(yáng)+假陰)]和特異性[真陰/(真陰+假陽(yáng))]來(lái)衡量和評(píng)價(jià)2種分類模型的預(yù)測(cè)能力,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。由于分析數(shù)據(jù)的不均勻性,本研究還采用F1值(F1-score)[2×(精確率×召回率)/(精確率+召回率)]來(lái)評(píng)價(jià)分類模型的效能。
所有納入患者的臨床病理基本信息如表2所示,本研究最終納入852例原發(fā)性肺癌患者(平均年齡61.4歲,年齡范圍29~87歲;女性316例、男性536例),其中包括525例腺癌、161例鱗癌和166例小細(xì)胞肺癌,見(jiàn)表2。其中,3種肺癌的年齡、性別和原發(fā)性肺癌的TMN分期的差異均具有統(tǒng)計(jì)學(xué)意義(P<0.05)。所有納入病例按照17∶3的比例分為2組,其中訓(xùn)練組724例、測(cè)試組128例(表3)。
表2 納入病例的臨床病理資料[n,(±s)]
表2 納入病例的臨床病理資料[n,(±s)]
資料 腺癌(n=525)鱗癌(n=161)小細(xì)胞肺癌(n=166)χ2/F值 P值性別 149.23<0.001男247 148 141女278 13 25年齡/歲 60.4±10.5 64.0±8.1 62.1±9.5 5.82 0.027 TNM分期 110.55<0.001Ⅰ139 56 12Ⅱ70 41 19Ⅲ91 47 57Ⅳ225 17 78
表3 3種肺癌在訓(xùn)練組和測(cè)試組的分布情況(例)
在RF分類模型,本研究從平掃CT圖像中提取和經(jīng)過(guò)特征篩選程序后,最后保留20維紋理特征(表1)。在篩選的20維特征中,包括7個(gè)一階特征、3個(gè)灰度級(jí)帶矩陣的特征、2個(gè)灰度游程矩陣的特征、4個(gè)灰度相關(guān)矩陣的特征和4個(gè)鄰域灰度差矩陣的特征。
在RF算法模型中,在訓(xùn)練組上得到ROC的AUC高達(dá)0.99;在測(cè)試組中,對(duì)腺癌、鱗癌和小細(xì)胞肺癌的分類診斷的AUC分別為0.74、0.77、0.88;3種肺癌分類診斷的平均AUC為0.80,95%CI:0.769~0.813。RF分類模型對(duì)腺癌、鱗癌及小細(xì)胞肺癌分類預(yù)測(cè)的F1值分別是0.80、0.40、0.73,F(xiàn)1加權(quán)平均值為0.71。其中,對(duì)腺癌、鱗癌、小細(xì)胞肺癌分類預(yù)測(cè)的精確率分別為0.76、0.64、0.70;特異性分別為0.55、0.96、0.92;召回率(即靈敏度)分別為0.86、0.29、0.76。模型的ROC曲線如圖6所示,分類結(jié)果預(yù)測(cè)匯總?cè)绫?所示。
圖6 RF分類模型的ROC曲線
表4 RF模型中3類肺癌的分類預(yù)測(cè)結(jié)果評(píng)估
原發(fā)性肺癌病理類型分類診斷對(duì)患者的治療方案的決定、個(gè)體化治療以及預(yù)后的評(píng)估有重要的意義和臨床價(jià)值[2,16-17]。本研究應(yīng)用影像組學(xué)和RF算法,結(jié)合CT圖像對(duì)肺癌進(jìn)行無(wú)創(chuàng)性的、術(shù)前的病理類型分類預(yù)測(cè)。利用影像組學(xué)提取、篩選組學(xué)特征,并構(gòu)建RF算法分類模型,將最終篩選保留的20維組學(xué)特征輸入分類模型中進(jìn)行訓(xùn)練、驗(yàn)證,評(píng)估模型對(duì)腺癌、鱗癌、小細(xì)胞肺癌分類的效能。采用重采樣的方法,形成多個(gè)基分類器的輸入樣本集,然后對(duì)基分類器進(jìn)行5折交叉驗(yàn)證訓(xùn)練,充分體現(xiàn)每個(gè)基分類器對(duì)樣本的分類預(yù)測(cè)能力。
本研究結(jié)果顯示,RF算法在訓(xùn)練集中能準(zhǔn)確地對(duì)3種肺癌病理類型進(jìn)行分類診斷(AUC=0.99),在測(cè)試集中能對(duì)不同類型肺癌分類進(jìn)行較好的預(yù)測(cè)(AUC=0.80)。其中,RF算法分類模型對(duì)小細(xì)胞肺癌(AUC=0.88)的分類預(yù)測(cè)能力比對(duì)腺癌(AUC=0.74)和鱗狀細(xì)胞癌(AUC=0.77)的分類預(yù)測(cè)表現(xiàn)更好。本研究中,RF算法分類模型對(duì)鱗狀細(xì)胞癌的正確識(shí)別率較低(精確率0.64,召回率0.29),對(duì)腺癌和小細(xì)胞肺癌的正確識(shí)別率較好,且模型傾向于將鱗狀細(xì)胞癌識(shí)別為腺癌,這也導(dǎo)致對(duì)腺癌識(shí)別的特異性較低(特異性0.55)。分析可能的原因有以下幾點(diǎn):① 鱗狀細(xì)胞癌的納入分析數(shù)量較少,腺癌的數(shù)量遠(yuǎn)遠(yuǎn)多于鱗狀細(xì)胞癌;② 本研究納入分析的鱗狀細(xì)胞癌病例大部分為中央型肺癌,在CT圖像上腫瘤邊界較難分辨,從而影響ROI的分割。以上原因均可能導(dǎo)致對(duì)腺癌識(shí)別的特異性較低,而對(duì)鱗癌識(shí)別的召回率較低,這也是之后模型優(yōu)化的重點(diǎn)。當(dāng)然,關(guān)于RF模型趨向于將鱗癌識(shí)別成腺癌的原因值得進(jìn)一步探究和驗(yàn)證。此外,在本研究中,經(jīng)過(guò)篩選流程后保留的20維特征與之前影像組學(xué)構(gòu)建模型(com_radNet模型)研究保留的特征不同,結(jié)果顯示,利用本次保留的20維組學(xué)特征進(jìn)行分類分析,提升了對(duì)小細(xì)胞肺癌的分類預(yù)測(cè)能力。RF算法分類模型簡(jiǎn)單易行,且表現(xiàn)能力較好。
此前,已有大量研究證明,RF算法模型在CT及PET/CT圖像上能對(duì)肺結(jié)節(jié)良惡性的分類有較好的分類能力[13,18-21]。另有研究針對(duì)小樣本的數(shù)據(jù),利用加權(quán)的RF模型對(duì)肺結(jié)節(jié)良惡性的鑒別,相較于傳統(tǒng)RF分類能力有所提升,但仍處于較差的分類能力(AUC=0.61)[19]。Zhu等[21]利用影像組學(xué)方法篩選了5維特征對(duì)129例非小細(xì)胞肺癌中的腺癌、鱗癌進(jìn)行分類,結(jié)果顯示,驗(yàn)證組中AUC為0.89,特異性為0.90,敏感度為0.83。Liu等[22]利用影像組學(xué)和SVM對(duì)349例多種非小細(xì)胞肺癌的病理分類鑒別,除鱗癌、腺癌外,還包括大細(xì)胞癌及未分類型,在驗(yàn)證組中分類診斷的F1值和準(zhǔn)確性均為0.86。本研究不僅極大地?cái)U(kuò)充了研究的數(shù)據(jù)量,而且還對(duì)小細(xì)胞肺癌和非小細(xì)胞肺癌進(jìn)行了分類預(yù)測(cè),模型分類診斷的效能也得到了明顯的提升。Linning等[23]利用影像組學(xué)的方法對(duì)小細(xì)胞肺癌和非小細(xì)胞肺癌進(jìn)行分類診斷,結(jié)果顯示,平掃CT圖像上對(duì)腺癌和小細(xì)胞肺癌(AUC=0.86)、腺癌和鱗狀細(xì)胞癌(AUC=0.80)之間能進(jìn)行較好地區(qū)分,在增強(qiáng)CT圖像上分類能力比平掃圖像更好,但無(wú)論是增強(qiáng)還是平掃CT圖像,均不能有效地對(duì)鱗狀細(xì)胞癌和小細(xì)胞肺癌進(jìn)行區(qū)分(AUC=0.62~0.66)。本研究中,分類模型能很好地識(shí)別區(qū)分小細(xì)胞肺癌,極大地提升了對(duì)小細(xì)胞肺癌的分類診斷能力。
本研究存在以下不足:① 數(shù)據(jù)量的不平衡,腺癌的納入分析數(shù)量遠(yuǎn)超過(guò)鱗狀細(xì)胞癌和小細(xì)胞肺癌,這可能會(huì)導(dǎo)致對(duì)分類診斷結(jié)果產(chǎn)生影響,在臨床上腺癌的發(fā)病率高于鱗狀細(xì)胞癌和小細(xì)胞肺癌,這是造成數(shù)據(jù)量不平衡最大的原因;② 研究數(shù)據(jù)采用的是CT平掃圖像,在對(duì)圖像進(jìn)行處理時(shí),盡管已盡可能將腫瘤邊界模糊或邊界難以與肺血管、肺不張區(qū)分開(kāi)的病例排除在外,但也不能完全排除存在非腫瘤組織對(duì)分類結(jié)果干擾的可能;③ 本研究的數(shù)據(jù)量相對(duì)于大數(shù)據(jù)分析來(lái)說(shuō)尚不充足,且數(shù)據(jù)來(lái)源單一,這可能會(huì)限制模型的擴(kuò)展和適用性。未來(lái)需進(jìn)行基于更大數(shù)據(jù)量的多中心研究。
原發(fā)性肺癌無(wú)創(chuàng)性的病理類型分類診斷方法具有極大的臨床價(jià)值和意義,本研究利用影像組學(xué)特征和RF算法分類模型能夠有效地鑒別區(qū)分肺腺癌、鱗狀細(xì)胞癌和小細(xì)胞肺癌,但模型傾向于將鱗狀細(xì)胞癌識(shí)別為腺癌。利用影像組學(xué)特征和RF算法與CT圖像相結(jié)合,對(duì)肺癌進(jìn)行分類診斷和預(yù)測(cè)可能在臨床中得到應(yīng)用,為肺癌患者的診治提供重要信息。