方勝儒,李逸凡,張宇威,蔡 娜,郭 麗
(天津醫(yī)科大學(xué)醫(yī)學(xué)影像學(xué)院,天津 300203)
肺癌是當(dāng)今世界最常見的惡性腫瘤之一,也是對(duì)人類威脅最大的腫瘤性疾病。如果在腫瘤的早期生長(zhǎng)階段即對(duì)其進(jìn)行檢查與治療,就能獲得更高的治愈率。因此為提高肺癌病人的生存率,早期篩查成為近年來的熱點(diǎn)。在精準(zhǔn)醫(yī)療的大背景下,放射組學(xué)(Radiomics)應(yīng)運(yùn)而生。利用多學(xué)科的知識(shí)對(duì)醫(yī)學(xué)影像數(shù)據(jù)進(jìn)行分析,應(yīng)用大量的人工智能提出的數(shù)據(jù)特征化算法將感興趣區(qū)域的影像數(shù)據(jù)轉(zhuǎn)化為具有高維度的可發(fā)掘的特征空間數(shù)據(jù)。通過機(jī)器學(xué)習(xí)等高級(jí)數(shù)據(jù)挖掘算法進(jìn)行大數(shù)據(jù)處理,對(duì)大量的影像數(shù)據(jù)進(jìn)行數(shù)字化定量定性分析,得到分類模型來綜合評(píng)價(jià)腫瘤的各種分期分型,以達(dá)到早期診斷、指導(dǎo)治療和預(yù)測(cè)預(yù)后的目的[1-3]。
目前,國(guó)內(nèi)外已有很多研究學(xué)者對(duì)肺部腫瘤進(jìn)行分析,通過特征提取的方法來進(jìn)行專家系統(tǒng)的肺部腫瘤的影像診斷,并已有專家能夠提取出肺部腫瘤的相關(guān)特征信息,為腫瘤診斷提供數(shù)據(jù)[4-6]。在特征提取階段,通過數(shù)學(xué)描述提供肺部病變區(qū)域的特征,包括大小、形狀、紋理、強(qiáng)度、邊緣和其他方面的特征。Gillies在放射組學(xué)研究上取得了重要的成果[7-10]。Gillies研究組提取了更多的特性信息,包括肺結(jié)節(jié)以及病變周圍肺組織形成的微環(huán)境的大小、灰度值、形狀、邊緣和紋理(灰度共生、游程長(zhǎng)度、小波、Law’s特征等)。同樣提取了特征的2D和3D數(shù)據(jù),并提供了可重復(fù)性的測(cè)試數(shù)據(jù),得出了這些特征對(duì)預(yù)測(cè)惡性腫瘤,疾病進(jìn)程指標(biāo)和基因具有相關(guān)性的結(jié)論[11]。由于紋理特征是細(xì)微的特征,在研究過程中是否考慮到采集設(shè)備硬件以及圖像重建方法,對(duì)放射組學(xué)紋理特征分析結(jié)果有變異的影響。
為臨床肺癌診斷技術(shù)提供具有參考價(jià)值的數(shù)據(jù)采集工作流程。Kalpathy-Cramer給出了相關(guān)特征介紹,并分析了定量圖像特征對(duì)腫瘤分割的敏感性以及通過不同特征提取方法計(jì)算特征之間的相關(guān)性。通過對(duì)不同病人之間的類似特征研究其相關(guān)性,并對(duì)所有病人不相關(guān)特征之間相關(guān)性的研究,得出了每個(gè)獨(dú)立的特征有很多具有較高的相關(guān)性和相同性的結(jié)論。目前已經(jīng)找出了特征內(nèi)部和特征之間的相應(yīng)關(guān)系,同時(shí)也發(fā)現(xiàn)了很多特征有一定的相關(guān)性,出現(xiàn)冗余特征的情況。
1.1 資料 本研究所使用的數(shù)據(jù)來自兩個(gè)部分,一個(gè)是美國(guó)國(guó)家癌癥研究所(National Cancer Institute,NCI)發(fā)起的大型公開數(shù)據(jù)集—肺部圖像影像數(shù)據(jù)庫(kù)(The LungImage Database Consortium,LIDC),包含從7個(gè)學(xué)術(shù)中心和8家醫(yī)學(xué)影像公司采集到的1 018例患者的肺部CT掃描成像結(jié)果(掃描層厚1.25~3 mm,512×512 像素)[12-13]。筆者從中挑選 224例含有分析結(jié)果的數(shù)據(jù);另一個(gè)是由從醫(yī)院CT檢查發(fā)現(xiàn)的肺部掃描的數(shù)據(jù)250例。所有的肺部病例的提取分割分析分析都是使用基于matlab2017b進(jìn)行的,具體肺結(jié)節(jié)分割,肺結(jié)節(jié)感興趣區(qū)域提取,所有的特征信息提取,均使用matlab程序函數(shù)編寫。
1.2 方法
1.2.1 ROI區(qū)域的提取 本實(shí)驗(yàn)用到LIDC數(shù)據(jù)集,這個(gè)數(shù)據(jù)集中每個(gè)CT掃描都有4位放射科醫(yī)生讀片評(píng)注,醫(yī)生同時(shí)也標(biāo)注了肺結(jié)節(jié)輪廓的坐標(biāo)點(diǎn),該部分的肺結(jié)節(jié)分割使用數(shù)據(jù)庫(kù)自帶的分割數(shù)據(jù)進(jìn)行分析。醫(yī)院的數(shù)據(jù)是經(jīng)過3名專業(yè)的放射科主治醫(yī)師的篩選分析的分割結(jié)果,在提取ROI區(qū)域進(jìn)行紋理分析的時(shí)候采用分割內(nèi)部實(shí)質(zhì)的區(qū)域進(jìn)行分析,對(duì)醫(yī)生勾畫的區(qū)域進(jìn)行了縮小操作。所有的ROI區(qū)域的提取使用matlab2017b實(shí)現(xiàn)。在分割的同時(shí)也提取肺結(jié)節(jié)的形狀、大小、邊緣毛刺程等形態(tài)學(xué)信息。
筆者采用逐結(jié)節(jié)逐層分割的策略,將分割后的感興趣區(qū)整合為一個(gè)體積感興趣區(qū)(Volume Of Interest,VOI),VOI由每層CT圖像上的感興趣區(qū)根據(jù)層面次序依次堆疊而成。如圖1所示,圖中有四種顏色的分割結(jié)果,筆者以4種顏色全部包含的區(qū)域提取ROI,并做處理。提取體積感興趣區(qū)并做mask模板為后面提取特征做前期準(zhǔn)備。圖2給出了提取的一部分肺結(jié)節(jié)VOI,mask模板的圖像和對(duì)應(yīng)的信息。
圖1 LIDC數(shù)據(jù)庫(kù)的肺結(jié)節(jié)分割圖像Fig 1 Segmentation images of lung nodule in LIDC data
圖2 獲取VOI區(qū)域的mask模板圖像Fig 2 The mask template images for the VOI region
1.2.2 特征信息的提取 特征提取是放射組學(xué)分析的基礎(chǔ)。針對(duì)肺結(jié)節(jié)的特點(diǎn),筆者設(shè)計(jì)了5組共62個(gè)放射組學(xué)特征構(gòu)成每個(gè)樣本的特征空間,特征提取算法的代碼全部基于Matlab R2017b實(shí)現(xiàn)。首先,筆者提取VOI的灰度直方圖的一階統(tǒng)計(jì)特征,共14個(gè)。此組特征分別對(duì)灰度分布、全VOI灰度特點(diǎn)、灰度分布的一致性等特點(diǎn)進(jìn)行描述。其次,形態(tài)學(xué)的特征作為前期醫(yī)生診斷的重要依據(jù)。本組特征描述結(jié)節(jié)的3D最大長(zhǎng)徑、基于像素的體積值、基于表面像素的表面積值、圓度、緊密度等指標(biāo)、維模型分形維數(shù)、相關(guān)維數(shù)、幾何學(xué)測(cè)量特征等特征。最后,筆者提取紋理特征,共841個(gè)。這一組特征使用灰度共生矩陣(Gray Co-occurrence Matrix,GLCM)算法、灰度游程長(zhǎng)矩陣(Gray Level Run-Length Matrix,GLRLM)的方法。其中GLCM特征3D特征247個(gè),和GLRLM特征2D特征55個(gè)。這兩個(gè)特征都是基于二階統(tǒng)計(jì)的特征描述子。肺結(jié)節(jié)在CT表現(xiàn)上有著肉眼可見的紋理,因此GLCM、GLRLM特征在描述結(jié)節(jié)內(nèi)部的紋理特點(diǎn)時(shí)有著獨(dú)特的優(yōu)勢(shì)。Laws特征482個(gè),Laws紋理特征是一種典型的基于模板卷積的紋理描述特征,測(cè)量單個(gè)像素和鄰域灰度分布統(tǒng)計(jì)分析方法。LoG特征27個(gè)。使用高斯濾波將孤立的噪聲點(diǎn)和較小的結(jié)構(gòu)組織濾除,然后利用無方向性的拉普拉斯算子實(shí)現(xiàn)。多尺度3D小波分解(Multilevel 3D Wavelet Decomposition at Level) 特征16個(gè)。借助正交小波對(duì)圖像進(jìn)行小波分解,得到不同分辨率的一系列圖像。均為三維特征算法,筆者采用對(duì)13個(gè)方向取均值的方法來處理。
1.2.3 特征降維與分類 對(duì)于所有特征進(jìn)行正態(tài)分析和方差齊性分析,通過分析的特征采用雙獨(dú)立樣本t檢驗(yàn)進(jìn)行降維;其余采用秩和分析進(jìn)行降維,之后采取Pearson相關(guān)系數(shù)進(jìn)一步降維。然后,對(duì)不同維度的特征通過支持向量機(jī)和隨機(jī)森林的分類器在不同的Pearson相關(guān)性系數(shù)閾值的條件下進(jìn)行了討論,并根據(jù)最佳的Pearson相關(guān)系數(shù)建立了預(yù)測(cè)模型。最后,通過10折檢驗(yàn)選擇最佳模型,并在檢驗(yàn)集中對(duì)其臨床分類效果進(jìn)行了預(yù)測(cè)。
對(duì)于所有提取到的放射組學(xué)特征,我們需要對(duì)其進(jìn)行統(tǒng)計(jì)學(xué)差異分析。首先,需要分別對(duì)于良性數(shù)據(jù)與惡性數(shù)據(jù)單獨(dú)進(jìn)行正態(tài)性分析。我們對(duì)所有的放射組學(xué)特征進(jìn)行了Lilliefors正態(tài)檢驗(yàn),良性結(jié)節(jié)與惡性結(jié)節(jié)的檢驗(yàn)結(jié)果P值(P<0.05)的特征,共發(fā)現(xiàn)了57個(gè)特征通過正態(tài)分布檢驗(yàn),再對(duì)其進(jìn)行齊性方差剩余49個(gè)特征,在良性結(jié)節(jié)和惡性結(jié)節(jié)中30個(gè)特征表現(xiàn)出了統(tǒng)計(jì)學(xué)差異。其余不符合正態(tài)分布的放射組學(xué)特征需要進(jìn)行秩和檢驗(yàn)。對(duì)于這57個(gè)符合正態(tài)分布的放射組學(xué)特征的Hrtley方差齊性分析P值(P<0.05)。通過秩和檢驗(yàn)我們得到了427個(gè)特征。綜上,筆者通過統(tǒng)計(jì)分析一共獲得了457特征,各個(gè)特征的殘留率如表1所示。
表1 特征殘留率Tab 1 Feature residual rates
在對(duì)數(shù)據(jù)進(jìn)行秩和檢驗(yàn)與雙獨(dú)立樣本t檢驗(yàn)之后,我們對(duì)于篩選出來的數(shù)據(jù)進(jìn)行皮爾遜相關(guān)系數(shù)檢驗(yàn)以對(duì)放射組學(xué)特征進(jìn)行進(jìn)一步的降維。我們根據(jù)由不同的閾值分類得出的放射組學(xué)特征進(jìn)行了50次分類器訓(xùn)練,并對(duì)其準(zhǔn)確度進(jìn)行了分析。由此筆者選取了0.14為皮爾遜相關(guān)系數(shù)的閾值以篩選在良惡性肺結(jié)節(jié)中相關(guān)性極弱的放射組學(xué)特征。
筆者將以上的放射組學(xué)特征又區(qū)分為二維放射組學(xué)特征和三維放射組學(xué)特征。其中二維放射組學(xué)特征包括了一維放射組學(xué)特征、基本形狀大小特征、二維灰度游程矩陣(GLRL-2D)、Laws圖像紋理特征(Law-Textures)、LoG二階邊緣信息特征;三維放射組學(xué)特征包括了三維灰度共生矩陣、三維灰度區(qū)域大小矩陣(GLSZM-3D)、多尺度三維小波特征;而這些特征合稱混合放射組學(xué)特征。我們通過二維放射組學(xué)特征、三維放射組學(xué)特征、混合放射組學(xué)特征對(duì)于基于隨機(jī)森林的肺結(jié)節(jié)良惡性分類器進(jìn)行了分析。如圖3所示,在3種特征分析中混合特征的識(shí)別精度要比其他兩個(gè)高。
同樣還分析了不同數(shù)據(jù)庫(kù)利用混合特征進(jìn)行分類的結(jié)果討論。繪制了對(duì)于LIDC數(shù)據(jù)的基于支持向量機(jī)的肺結(jié)節(jié)良惡性分類器和基于隨機(jī)森林的肺結(jié)節(jié)良惡性分類器的處理結(jié)果,以及腫瘤醫(yī)院數(shù)據(jù)的基于支持向量機(jī)的肺結(jié)節(jié)良惡性分類器和基于隨機(jī)森林的肺結(jié)節(jié)良惡性分類器的處理結(jié)果的ROC曲線圖(圖4)。
圖4中,來自LIDC數(shù)據(jù)庫(kù)的數(shù)據(jù)的基于隨機(jī)森林的肺結(jié)節(jié)良惡性分類器的,其中AUC(Area Under Curve)被定義為 ROC(Receiver Operating Characteristic)曲線下的面積,ACC(Accuracy)為準(zhǔn)確率。AUC=0.6571、ACC=76.26%,基于支持向量機(jī)的肺結(jié)節(jié)良惡性分類器的AUC=0.642 9、ACC=76.37%;來自腫瘤醫(yī)院的數(shù)據(jù)的基于隨機(jī)森林的肺結(jié)節(jié)良惡性分類器的AUC=0.866 7、ACC=76%,基于支持向量機(jī)的肺結(jié)節(jié)良惡性分類器的AUC=0.773 3、ACC=72%。由此可以發(fā)現(xiàn),來自LIDC數(shù)據(jù)庫(kù)的數(shù)據(jù)其分類準(zhǔn)確度較高但是其AUC較低,而來自腫瘤醫(yī)院的數(shù)據(jù)則正好與之相反。根據(jù)反復(fù)試驗(yàn)的數(shù)據(jù)證明,來自LIDC的數(shù)據(jù)準(zhǔn)確度相比于來自與腫瘤醫(yī)院的數(shù)據(jù)的準(zhǔn)確度高約3%。由此我們推測(cè)不同來源的肺結(jié)節(jié)數(shù)據(jù)對(duì)于分類器的建立有一定的影響。
圖3 基于隨機(jī)森林中三種特征分類的ROC曲線Fig 3 ROC curve based on three feature in random forest
圖4 腫瘤醫(yī)院數(shù)據(jù)與LIDC數(shù)據(jù)庫(kù)ROC比較Fig 4 Comparison of hospital data with ROC of LIDC database
筆者分析二維、三維和混合特征的放射組學(xué)信息特征的差異,采用SVM和隨機(jī)森林兩種分類方法的差異。從結(jié)果中得出混合放射組學(xué)特征的分類準(zhǔn)確度相對(duì)于二維放射組學(xué)特征的分類準(zhǔn)確度略微有一定優(yōu)勢(shì),且這兩者對(duì)于肺結(jié)節(jié)的良惡性區(qū)分能力高于三維放射組學(xué)特征的分類準(zhǔn)確度?;旌戏派浣M學(xué)特征的數(shù)量大于三維放射組學(xué)特征,而三維放射組學(xué)特征數(shù)量也大于二維放射組學(xué)特征??傮w上,混合數(shù)據(jù)特征仍優(yōu)于二維特征和三維特征。所以在今后的處理過程中,我們需要發(fā)現(xiàn)更適合病例的特征進(jìn)行分析,會(huì)大大提高分類的準(zhǔn)確度。
基于隨機(jī)森林的肺結(jié)節(jié)良惡性分類器中相比于基于SVM的肺結(jié)節(jié)良惡性分類器而言,其在兩者共同的最優(yōu)閾值 (Pearson correlation coefficient=0.14)處具有更高的分類準(zhǔn)確度,且在總體表現(xiàn)上也優(yōu)于后者。在最優(yōu)閾值之前,兩類分類器在相同的放射組學(xué)特征數(shù)量時(shí)分類能力互有高低,但是在最優(yōu)閾值處以及之后,在相同的放射組學(xué)特征數(shù)量的情況之下,基于隨機(jī)森林的肺結(jié)節(jié)良惡性分類器的分類準(zhǔn)確度明顯優(yōu)于基于支持向量機(jī)的肺結(jié)節(jié)良惡性分類器。根據(jù)ROC曲線所示,基于支持向量機(jī)的肺結(jié)節(jié)良惡性分類器曲線下面積(AUC=0.866 7),而基于隨機(jī)森林的肺結(jié)節(jié)良惡性分類器曲線下面積(AUC=0.773 3)。由此結(jié)果顯示,基于隨機(jī)森林的肺結(jié)節(jié)良惡性分類器相對(duì)于基于支持向量機(jī)的肺結(jié)節(jié)良惡性分類器具有更好的分類效果。