林泰安,羅亞梅,黃志偉,楊 錄,要小鵬
1.西南醫(yī)科大學(xué)醫(yī)學(xué)信息與工程學(xué)院(瀘州646000);2.西南醫(yī)科大學(xué)附屬醫(yī)院 放射科(瀘州646000);3.核醫(yī)學(xué)與分子影像四川省重點(diǎn)實驗室(瀘州 646000)
膽管癌(cholangiocarcinoma)是一種較為罕見的肝膽惡性腫瘤,具有擴(kuò)散轉(zhuǎn)移快、預(yù)后差、生存周期短等特點(diǎn)[1-2]。根據(jù)解剖位置通常分為肝內(nèi)膽管癌(intrahepatic cholangiocarcinoma,iCCA)和肝外膽管癌(extrahepatic cholangiocarcinoma,eCCA)。過去20 年間,大多數(shù)國家的膽管癌發(fā)病率呈逐年上升趨勢,尤其是東南亞地區(qū),其中eCCA占所有原發(fā)性肝癌的5%~30%[3-4]。目前,外科手術(shù)切除是eCCA患者獲得長期生存的唯一治療手段。根據(jù)文獻(xiàn)報道,淋巴結(jié)轉(zhuǎn)移(lymph node metastasis,LNM)被認(rèn)為是膽管癌切除手術(shù)最重要的預(yù)后因素之一,因此在術(shù)前準(zhǔn)確識別eCCA患者淋巴結(jié)轉(zhuǎn)移狀況對確定最佳治療方案和預(yù)后效果評價極為重要[5-8]。
當(dāng)前,臨床上大多采用計算機(jī)斷層掃描(CT),正電子發(fā)射斷層掃描/計算機(jī)斷層掃描(PET/CT),以及磁共振成像(MRI)進(jìn)行膽管癌放射學(xué)診斷,尤其是MRI 能更直觀的顯示病灶的形態(tài)學(xué)特征,在膽管癌病變評估和術(shù)前檢查中普遍應(yīng)用[9-11]。傳統(tǒng)的影像診斷主要依靠醫(yī)生的主觀判斷進(jìn)行定性分析,易受主觀因素影響而導(dǎo)致診斷結(jié)果出現(xiàn)偏差,進(jìn)而產(chǎn)生誤診和漏診。近年來,隨著人工智能技術(shù)的不斷發(fā)展,影像組學(xué)(radiomics)結(jié)合傳統(tǒng)影像學(xué)和機(jī)器學(xué)習(xí)算法構(gòu)建醫(yī)學(xué)圖像預(yù)測模型已成為研究熱點(diǎn),許多學(xué)者利用其對乳腺癌[12-13]、直腸癌[14]、肺癌等[15]患者的淋巴結(jié)轉(zhuǎn)移進(jìn)行了預(yù)測研究,取得了很好的預(yù)測效果。
上述研究主要是進(jìn)行定性預(yù)測,而利用MRI 影像數(shù)據(jù)開展定性和定量預(yù)測的研究較少。因此,本研究針對eCCA 患者,提取MRI 影像中DWI、T1WI、T2WI 和ADC 四種序列的圖像特征,結(jié)合病理結(jié)果利用支持向量機(jī)(support vector machine,SVM)算法建立模型,用于預(yù)測eCCA患者術(shù)前淋巴結(jié)狀態(tài)。
本研究屬于回顧性研究,獲得西南醫(yī)科大學(xué)附屬醫(yī)院倫理委員會批準(zhǔn),收集選取了2011年11月至2021年12 月于西南醫(yī)科大學(xué)附屬醫(yī)院接受根治性手術(shù)切除的101 例eCCA 患者病例資料(其中男性56 例,女性45例,平均年齡57歲)。搜集數(shù)據(jù)包括患者臨床癥狀、MRI圖像和病理結(jié)果(包括淋巴結(jié)狀態(tài))。為保護(hù)患者隱私,所收集到的數(shù)據(jù)信息都進(jìn)行了脫密處理。納入標(biāo)準(zhǔn):①患者術(shù)前未接受化療等其他抗腫瘤治療;②患者病變部位病理分析結(jié)果證實為肝外膽管癌。排除標(biāo)準(zhǔn):①術(shù)前2周內(nèi)無MRI影像;②MRI圖像模糊;③存在不明或不明顯的病變;④患者M(jìn)RI資料不完整。
在最初收集的172例eCCA患者數(shù)據(jù)中,排除了71例,主要原因是檢查信息不足,例如,沒有術(shù)前完整的MRI圖像(n=38)、MRI圖像模糊(n=10)、存在不明或不明顯的病變(n=5)以及缺乏部分淋巴結(jié)病理活檢數(shù)據(jù)(n=18)等。最終有101 名患者數(shù)據(jù)可用于構(gòu)建eCCA 的淋巴結(jié)預(yù)測模型,如圖1 所示。將eCCA 患者分為兩分類樣本,其中淋巴結(jié)轉(zhuǎn)移組為正樣本,標(biāo)記為1[LNM(+);n=29;label=1];淋巴結(jié)未轉(zhuǎn)移組為負(fù)樣本,標(biāo)記為0,[LNM(-);n=72;label=0]。
圖1 病例納入和排除流程圖Figure 1 Flowchart of case Inclusion and exclusion
本研究采用開源醫(yī)學(xué)圖像特征提取軟件MaZda(version 4.6)對MRI 圖像的感興趣區(qū)域(ROI)進(jìn)行勾畫。先將患者影像數(shù)據(jù)導(dǎo)入MaZda 軟件,根據(jù)醫(yī)師判斷手動沿ROI 邊緣分別對DWI、T1WI、T2WI 以及ADC序列的圖像進(jìn)行勾畫。為降低人為因素所導(dǎo)致的主觀偏差,選取經(jīng)驗豐富的放射科醫(yī)師在預(yù)先不知病理結(jié)果的情況下完成勾畫,如圖2所示。
圖2 MaZda軟件勾畫ROI示意圖Figure 2 ROI delineated by MaZda software
1.3.1 數(shù)據(jù)預(yù)處理 本研究采用MaZda 軟件對ROI 區(qū)域進(jìn)行放射學(xué)圖像特征提取,從每個序列的MRI 圖像可以提取302個圖像特征,共計獲取1 208個放射學(xué)圖像特征。為消除不同數(shù)據(jù)量綱影響,利用MATLAB 軟件采用最大-最小算法(Max-Min algorithm)對1 208 個特征進(jìn)行歸一化。
1.3.2 SMOTE 算法 根據(jù)機(jī)器學(xué)習(xí)的基本理論,如果數(shù)據(jù)樣本存在嚴(yán)重的不平衡性,預(yù)測結(jié)果易出現(xiàn)偏異性,主要體現(xiàn)在預(yù)測結(jié)果會向樣本量較多的一類傾斜。為有效解決樣本數(shù)據(jù)不平衡問題,研究人員提出了合成少數(shù)類過采樣算法(Synthetic Minority Oversampling Technique,SMOTE)來解決該類問題[16]。本研究中,淋巴結(jié)轉(zhuǎn)移患者(n=29)與未轉(zhuǎn)移患者(n=72)數(shù)據(jù)量很不平衡,直接影響預(yù)測模型的泛化性。從小樣本數(shù)據(jù)的角度看,適合采用SMOTE 算法來實現(xiàn)樣本數(shù)量平衡。通過計算出少數(shù)類樣本的m 個近鄰值,從近鄰值中隨機(jī)選取n個樣本進(jìn)行隨機(jī)線性插值來構(gòu)建新的少數(shù)類樣本,并將其與原數(shù)據(jù)合成,產(chǎn)生新的訓(xùn)練集,實現(xiàn)分類樣本的數(shù)據(jù)平衡。
1.3.3 特征篩選 由于少樣本高維度數(shù)據(jù)中存在大量的冗余特征,會直接影響預(yù)測模型性能。本研究采用Spearman 相關(guān)性分析和最大相關(guān)最小冗余特征算法(Max-Relevance and Min-Redundancy,mRMR)對放射學(xué)圖像特征進(jìn)行初次篩選和二次篩選,盡可能降低冗余特征對預(yù)測模型的影響。首先,采用Spearman 相關(guān)性分析遍歷所有特征,計算兩兩相鄰特征間的相關(guān)系數(shù)r。同時,將∣r∣≥0.9的特征從特征數(shù)據(jù)集中排除,完成特征初步篩選。其次,使用mRMR 算法對剩余特征進(jìn)行篩選,計算特征之間、特征與變量之間的互信息量分布,通過互信息量排序保留了前20個特征作為優(yōu)選特征(表1),完成二次篩選。
表1 篩選后的圖像特征表Table1 Image features after screening
支持向量機(jī)(Support Vector Machine,SVM)是VAPNIK 在1995 年所提出的機(jī)器學(xué)習(xí)算法,它的本質(zhì)是利用核函數(shù)建立數(shù)據(jù)高維空間的非線性映射模型,對小樣本數(shù)據(jù)分類有很好的預(yù)測效果[17]。本研究以放射學(xué)圖像特征為自變量,術(shù)前淋巴結(jié)狀態(tài)標(biāo)簽為因變量,采用SVM 算法建立預(yù)測模型。在建模過程中采用Matlab 計算軟件進(jìn)行數(shù)據(jù)預(yù)處理和特征選擇,根據(jù)小樣本數(shù)據(jù)劃分訓(xùn)練集和測試集的準(zhǔn)測,按照8:2的比例將病例樣本分為訓(xùn)練集和測試集[18]。為提高預(yù)測模型精度和泛化性,在建模過程中通過網(wǎng)格搜索和交叉驗證優(yōu)化懲罰因子和核函數(shù)參數(shù),并在測試集中利用受試者工作特征曲線(ROC)評價該模型性能。
利用Mazda 軟件對患者每個MRI 序列影像分別提取302個放射學(xué)圖像特征,總共獲取1 208個放射學(xué)圖像特征,然后進(jìn)行歸一化處理,消除量綱影響。由于上述特征中存在冗余信息和噪聲信息,會對預(yù)測模型造成偏差,故通過篩選特征數(shù)據(jù)顯示原始數(shù)據(jù)的本質(zhì)結(jié)構(gòu)特征。首先,使用SPSS軟件進(jìn)行Spearman相關(guān)性分析,篩選出具有高度相似性的特征,共計824 個,刪除后所得特征共計384 個。然后,利用最大相關(guān)最小冗余特征選擇法(mRMR)篩選剩余的384 個放射學(xué)圖像特征,根據(jù)計算互信息量結(jié)果,最終選取20 個特征用于建立預(yù)測模型,如表1 所示,其中序號1-10 為T1WI序列圖像特征,序號11-15 為T2WI 序列影像特征,序號16-20 為ADC 序列放射學(xué)圖像特征,任選一組特征圖形化描述,如圖3所示。
圖3 Skewness_T2WI層特征直方圖Figure 3 Histogram of Skewness_T2WI layer feature
圖3 參數(shù)c,g優(yōu)化等高線圖Figure 3 Contour plots of optimized parameters c,g
在本研究中,eCCA 患者淋巴結(jié)無轉(zhuǎn)移病例為72份,淋巴結(jié)有轉(zhuǎn)移的病例為29 份,通過SMOTE 算法設(shè)置合適的采樣倍率N[LNM(-),N=2;LNM(+),N=5]后,總共構(gòu)建了新樣本289 份[LNM(-),n=144;LNM(+),n=145],從而基本實現(xiàn)了樣本數(shù)據(jù)量平衡。從289 份新樣本數(shù)據(jù)中任意選擇一定數(shù)量樣本作為訓(xùn)練集,剩余的作為測試集,訓(xùn)練集與測試集之比為8:2。
本研究采用SVM 算法,選用徑向基(RBF)作為核函數(shù),以篩選后的病灶放射學(xué)圖像特征為自變量,淋巴結(jié)轉(zhuǎn)移標(biāo)簽為因變量建立預(yù)測模型。將訓(xùn)練集中的兩分類樣本[LNM(+);LNM(-)]輸入SVM模型進(jìn)行建模,通過優(yōu)化懲罰因子c和RBF核函數(shù)參數(shù)g,以獲取預(yù)測模型最優(yōu)的預(yù)測效果。
為提高預(yù)測模型的性能,通過網(wǎng)格搜索和交叉驗證優(yōu)化懲罰因子c和RBF核函數(shù)參數(shù)g,以獲取SVM模型最優(yōu)的預(yù)測效果。通過程序計算可知不同的c、g值,對應(yīng)不同的預(yù)測精度,如圖3所示。從中搜索預(yù)測精度最好的一組c、g 值,即為最優(yōu)參數(shù),則預(yù)測模型的最優(yōu)參數(shù)為:c=0.57435、g=5.278,預(yù)測精度為86.6337%,如圖4所示。
圖4 SVM 參數(shù)選擇結(jié)果圖Figure 4 Results of SVM parameter selection
為評價SVM 預(yù)測模型性能,我們利用接收器操作特征曲線(ROC)來評估分類準(zhǔn)確性,該模型的預(yù)測性能如圖5 所示。預(yù)測模型訓(xùn)練集的AUC 為0.98,準(zhǔn)確率為89.2%,靈敏度為92.9%,特異性為89.4%。預(yù)測模型測試集的AUC 為0.83,準(zhǔn)確率為82.2%,靈敏度為82.1%,特異性為80.9%。
圖5 訓(xùn)練集和測試集ROC曲線Figure 5 ROC curves of training and testing groups
eCCA是一種高度侵襲性的惡性腫瘤,其病因可能與肝部膽管結(jié)石、原發(fā)性硬化性膽管炎等疾病有關(guān)。盡管eCCA患者的臨床治療策略不盡相同,但是根治性手術(shù)切除仍然是eCCA 患者比較有效的治療方法。一般情況下,eCCA患者存在術(shù)后預(yù)后差、5年生存率低等情況,早發(fā)現(xiàn)早治療對根治eCCA 有重要的臨床意義。在臨床診斷中,LNM是否轉(zhuǎn)移被認(rèn)為是預(yù)測eCCA患者術(shù)后生存率的重要因素之一[19]。
超聲波、CT、PET/CT 和MRI 等醫(yī)學(xué)影像技術(shù)的飛速發(fā)展,為腫瘤患者在診斷、治療、療效評估、復(fù)查檢驗等方面提供了更精準(zhǔn)可靠的方法。然而,這些影像技術(shù)仍然受限于放射科醫(yī)生的主觀評價,診斷結(jié)果易受醫(yī)生個人經(jīng)驗、臨床水平等因素影響,缺乏定量評價。由于eCCA無特異性癥狀和腫瘤標(biāo)志物,超聲檢查對識別膽管源性和轉(zhuǎn)移灶有一定的缺陷,檢查結(jié)果不明顯[20]。盡管CT和MRI在eCCA術(shù)前檢查方面有一定的優(yōu)勢,但對病灶體積小、強(qiáng)化方式特異性差的病例仍有較大的誤診漏診率[21-22]。PET/CT 價格昂貴,在良性病變?nèi)缒懙栏腥净蛴不阅懝苎字锌赡軙艿郊訇栃越Y(jié)果的影響[23-24]。因此,利用機(jī)器學(xué)習(xí)算法對eCCA患者術(shù)前淋巴結(jié)狀態(tài)進(jìn)行預(yù)測是一種可行的定性異質(zhì)分析方法。
影像組學(xué)的本質(zhì)就是通過從影像數(shù)據(jù)中提取高維、定量影像特征,然后利用機(jī)器學(xué)習(xí)算法量化描述病灶異質(zhì)性。HUANG等[25]通過隨機(jī)森林算法預(yù)測iCCA的淋巴結(jié)轉(zhuǎn)移狀況,其敏感性為35.2%,特異性為91.8%,準(zhǔn)確性為46.1%。本研究利用SVM 預(yù)測對eCCA患者淋巴結(jié)是否轉(zhuǎn)移進(jìn)行了定量分析,計算結(jié)果顯示AUC 為0.92,具有優(yōu)良的預(yù)測性能。盡管大量研究表明LNM 與eCCA 患者的預(yù)后密切相關(guān),但淋巴結(jié)清掃術(shù)(lymph node dissection,LND)的臨床效果仍有一定的爭議[26]。YANG等[27]的研究發(fā)現(xiàn)在147例患者中,54.4%(80例)接受LND,其中42.5%(34/80)被發(fā)現(xiàn)有淋巴結(jié)轉(zhuǎn)移(LNM)。因此,對eCCA 患者LNM 進(jìn)行術(shù)前精準(zhǔn)評估代表了未來個性化治療的重要方向。本研究仍有一定局限性,首先是數(shù)據(jù)樣本較少,且患者數(shù)據(jù)來源于同一所醫(yī)院,樣本不可避免存在偏倚性;其次,病灶的ROI分割自動人工勾畫,存在一定的主觀性偏差;另外,本研究輸入特征只包含了影像組學(xué)特征,而缺少了患者臨床特征,會降低預(yù)測模型的泛化性。下一步,我們將開展多中心、多組學(xué)和多任務(wù)的研究作為工作重點(diǎn),旨在建立性能更優(yōu)異的預(yù)測模型,以提高本研究的臨床應(yīng)用價值。
本研究中,我們利用放射學(xué)圖像特征建立了一種預(yù)測肝外膽管癌術(shù)前淋巴結(jié)狀態(tài)的機(jī)器學(xué)習(xí)模型,該模型在訓(xùn)練集和測試集中都顯示出較高的準(zhǔn)確性、敏感性和特異性,具有良好的預(yù)測性能。該模型可有助于對eCCA患者進(jìn)行個性化預(yù)測,輔助臨床醫(yī)生評估手術(shù)價值并做出適當(dāng)?shù)呐R床決策。同時,也有助于對eCCA患者進(jìn)行精準(zhǔn)治療,避免由于前期癥狀不明顯而導(dǎo)致錯過最佳手術(shù)時機(jī),進(jìn)而盡最大可能延長患者術(shù)后生存期。