隋赫,莫展豪,孫旭,李雪佳,劉景鑫
1. 吉林大學(xué)中日聯(lián)誼醫(yī)院 放射科,吉林 長(zhǎng)春 130000;2. 吉林大學(xué)第二醫(yī)院 放射線科,吉林 長(zhǎng)春 130000
影像組學(xué)是在最初為分子生物學(xué)學(xué)科創(chuàng)建的組學(xué)(Omics)基礎(chǔ)上產(chǎn)生的。組學(xué)是指從研究目標(biāo)整體中提取大量參數(shù),假設(shè)這些參數(shù)和臨床數(shù)據(jù)的適當(dāng)組合可以表達(dá)顯著的組織學(xué)特性,將這些參數(shù)在先驗(yàn)統(tǒng)計(jì)方法的基礎(chǔ)上進(jìn)行數(shù)學(xué)處理,那么對(duì)每一個(gè)患者的治療診斷或預(yù)后就具有一定的個(gè)性化意義[1-2]。
影像組學(xué)可以通過(guò)提取形態(tài)學(xué)及功能學(xué)影像中的定量信息,反映組織的潛在病理及生理學(xué)特征,在病變組織及正常的人體組織中均可應(yīng)用[2]。影像組學(xué)的分析過(guò)程包括圖像采集和重建、圖像分割、特征值定義及提取、特征值分析和模型構(gòu)建等。基于臨床病理學(xué)信息及影像圖像所構(gòu)建的影像組學(xué)模型,可應(yīng)用于疾病檢測(cè)、腫瘤分型分期、評(píng)估疾病預(yù)后、評(píng)價(jià)療效等方向。影像組學(xué)特征可以通過(guò)多種數(shù)學(xué)軟件進(jìn)行特征值提取、計(jì)算,并選取最佳參數(shù)以保證輸出結(jié)果的穩(wěn)定可靠。
本文著重對(duì)CT、MR的成像特征,影像組學(xué)特征(形狀、一階、二階、高階特征)進(jìn)行了介紹,并簡(jiǎn)要討論了影像組學(xué)參數(shù)的選擇方法,包括聚類分析、主成分分析、隨機(jī)森林、線性/邏輯回歸等。參數(shù)的再現(xiàn)性以及臨床價(jià)值應(yīng)首先通過(guò)內(nèi)部交叉驗(yàn)證進(jìn)行測(cè)試,然后在獨(dú)立的外部群體中進(jìn)行驗(yàn)證。圖像的采集、后處理以及圖像的分割方式等都會(huì)影響影像特征值的質(zhì)量及其與臨床數(shù)據(jù)的相關(guān)性,同時(shí)對(duì)模型的構(gòu)建也產(chǎn)生影響。
常規(guī)臨床成像技術(shù)涉及圖像分辨率、造影劑應(yīng)用情況、超聲波頻率及增益、PET晶體材料與尺寸、CT的kVp和mAs、MRI序列類型、回波時(shí)間、重復(fù)時(shí)間、激發(fā)次數(shù)等諸多數(shù)據(jù)采集。在數(shù)據(jù)采集的過(guò)程中,即使是同一影像學(xué)檢查,也會(huì)因?yàn)樵O(shè)備的重建算法、影像中心的重建參數(shù)、掃描參數(shù)等各方面差異干擾圖像的噪聲和紋理特征,最終影響影像組學(xué)特征值的提取結(jié)果。因此,對(duì)于同一臨床問(wèn)題所構(gòu)建的影像組學(xué)模型,需評(píng)價(jià)圖像采集及重建因素對(duì)預(yù)測(cè)結(jié)果穩(wěn)定性、可靠性的影響。
通過(guò)整合每種成像模式的特性及來(lái)自文獻(xiàn)和其他實(shí)驗(yàn)測(cè)量的信息,排除受采集及重建參數(shù)影響的特征,以克服影像組學(xué)在圖像采集及重建方面的某些局限。現(xiàn)以CT及MRI的成像特征為例。
在CT掃描過(guò)程中,減小掃描層厚會(huì)減少斷層內(nèi)的光子統(tǒng)計(jì)數(shù)據(jù)(除非相應(yīng)地增加mAs或kVp),從而增加圖像噪聲。同時(shí),重建矩陣大小會(huì)決定像素尺寸并由此確定平面中的空間采樣,這會(huì)對(duì)圖像的異質(zhì)性產(chǎn)生影響;當(dāng)其他參數(shù)保持不變時(shí),像素尺寸減小會(huì)增加圖像噪聲,但空間分辨率會(huì)有所增加。當(dāng)采用螺旋CT采集時(shí),螺距是影響圖像噪聲的變量,這就增加了不同設(shè)備廠商掃描儀之間的比較難度。在臨床中,金屬假體所引起的偽影也可能會(huì)影響圖像質(zhì)量,并有礙于定量分析[3]。此外,Houns field單位(HU)值也可能隨重建算法的變更或掃描儀校準(zhǔn)情況而發(fā)生變化[4]。
因此,為了詳細(xì)研究圖像采集設(shè)置和重建算法對(duì)影像學(xué)特征的影響,需采用更為復(fù)雜、貼近臨床實(shí)際的模型。一種是Credence Cartridge Radiomics體模,它包括多個(gè)不同紋理特征的墨盒,用于測(cè)試不同掃描儀之間、多中心之間的差異[5],并測(cè)試在不同采集和重建條件下所得的數(shù)據(jù)特征的穩(wěn)定性[6]。另一種是模擬感興趣區(qū)的特制CT模型[7],在不同位置嵌入具有不同大小和紋理特征的組織插入物,以模擬真實(shí)臨床條件下的測(cè)試方案。許多研究者通過(guò)進(jìn)行反復(fù)測(cè)量研究,或者比較用不同成像設(shè)置和處理算法獲得的結(jié)果,對(duì)臨床圖像的穩(wěn)定性特征進(jìn)行了統(tǒng)計(jì)[8-9]。通過(guò)這些研究,我們發(fā)現(xiàn)仍需納入足夠大的樣本量來(lái)增加患者內(nèi)部的可重復(fù)性,并降低對(duì)CT圖像采集及重建方案的敏感程度[10]。
MR圖像中的信號(hào)強(qiáng)度源于內(nèi)在組織特性之間的復(fù)雜相互作用(弛豫時(shí)間等),且與MR設(shè)備磁體屬性、采集設(shè)置、圖像處理等相關(guān)參數(shù)有關(guān)。對(duì)于T1或T2加權(quán)序列,體素強(qiáng)度值也并非一成不變。即使在相同的位置使用相同的掃描儀掃描同一名患者,信號(hào)強(qiáng)度也可能因掃描時(shí)段的不同而變化。但組織間的對(duì)比度仍保持不變[11]。如果不對(duì)這種效應(yīng)加以校正,患者間的影像學(xué)特征比較就會(huì)失去意義。一種方法是將圖像影像組學(xué)特征提取和分析集中在量化體素強(qiáng)度比上,而不是依賴于單個(gè)的體素強(qiáng)度值;另一種方法是在進(jìn)行定量圖像分析之前,先進(jìn)行圖像補(bǔ)償(也就是歸一化)[11]。
Depeursinge等[12]與John等[13]的研究對(duì)比了不同MRI掃描參數(shù)對(duì)影像組學(xué)特征穩(wěn)定性的影響,有數(shù)據(jù)顯示,影像組學(xué)中的紋理特征對(duì)圖像采集參數(shù)的變化十分敏感;圖像空間分辨率越高,則紋理特征的靈敏度越高。所以在不同MR設(shè)備、不同掃描參數(shù)情況下所獲得的影像學(xué)特征,應(yīng)謹(jǐn)慎比較[14]。
影像組學(xué)研究的特征數(shù)據(jù)均提取于“分割區(qū)域”,因此圖像分割是此項(xiàng)研究中最重要的環(huán)節(jié)。在實(shí)際研究過(guò)程中圖像分割具有很大的難度,大部分病變邊界不清導(dǎo)致無(wú)法對(duì)所分割的區(qū)域進(jìn)行實(shí)體對(duì)比或?qū)嶓w再現(xiàn),因此分割方式尚無(wú)共識(shí)[15]。
手工勾畫(huà)是大部分研究者所采用的圖像分割方法,但在影像組學(xué)分析需要以大量數(shù)據(jù)為基礎(chǔ)的情況下,這種耗時(shí)耗力的方式并不實(shí)用[16-17]。
自動(dòng)和半自動(dòng)分割方法已在多種成像模式和不同解剖結(jié)構(gòu)中得以應(yīng)用。常見(jiàn)的分割要求包括:最大程度的自動(dòng)化、最小程度的人為操作干預(yù)、較高的時(shí)間效率、準(zhǔn)確性和病變范圍的可重復(fù)性。一些分割算法依賴于區(qū)域生長(zhǎng)法,需要操作員在感興趣區(qū)域(Region of Interest, ROI)內(nèi)選擇種子點(diǎn)[18]。這些方法比較適用于相對(duì)均勻的病變,在不均質(zhì)的病變中需進(jìn)行密集的人工糾錯(cuò)。例如,大多數(shù)早期肺腫瘤在低密度肺實(shí)質(zhì)的背景下凸顯為均勻的高密度病變,因此可以采用自動(dòng)分割,并且這種方法具有較高的重復(fù)性和準(zhǔn)確性[19-20]。然而,對(duì)于部分實(shí)性結(jié)節(jié)、磨玻璃密度結(jié)節(jié)及附著在血管和胸膜表面的結(jié)節(jié),這種自動(dòng)分割方法的可重復(fù)性及準(zhǔn)確性就會(huì)明顯降低[20]。
此外還有一些方法如:圖割算法(Graph-Cut Methods),把圖像分割問(wèn)題與圖的最小割(Min-Cut)問(wèn)題相關(guān)聯(lián),構(gòu)建了基于圖像的多個(gè)圖形,并實(shí)現(xiàn)了能量最小化函數(shù)的全局最優(yōu)解[21]。但這種方式計(jì)算成本高[22],并可能導(dǎo)致過(guò)度分割[23]。水平集法(Level-Set Methods),它將病變輪廓表示為更高維度函數(shù)的零級(jí)集(水平集函數(shù)),將低維度曲線嵌入高維度曲面中[24]?;顒?dòng)輪廓算法(Active Contour Algorithms),是指起點(diǎn)圍繞病灶進(jìn)行繪制,像伸展的松緊帶一樣的連續(xù)曲線來(lái)表達(dá)目標(biāo)邊緣,然后通過(guò)迭代過(guò)程移動(dòng)到具有最低能量函數(shù)值的點(diǎn),一般可通過(guò)求解函數(shù)對(duì)應(yīng)的歐拉方程(Euler.Lagrange)來(lái)實(shí)現(xiàn),能量達(dá)到最小時(shí)的曲線位置就是目標(biāo)的輪廓所在[25]。由于依賴最佳起始點(diǎn)并且對(duì)噪聲很敏感,所以這種算法在某些情況下也可能會(huì)導(dǎo)致較大偏差[26]。半自動(dòng)分割算法通過(guò)局部活動(dòng)輪廓分析進(jìn)行圖形搜索,同時(shí)使用動(dòng)態(tài)編程使其成本函數(shù)最小化?,F(xiàn)階段的半自動(dòng)化分割過(guò)程仍然需要人類的參與[16]。因此,目前仍沒(méi)有針對(duì)所有圖像的通用分割算法,研究者也正在評(píng)估新的算法來(lái)克服這些局限[27]。
臨床圖像可以提取出不同類型的影像組學(xué)特征。在影像學(xué)中,定性特征通常用于描述病變[28],而定量特征則是通過(guò)利用數(shù)學(xué)算法的軟件從圖像中提取的描述值[29]。它們呈現(xiàn)出不同程度的復(fù)雜性,首先表現(xiàn)出的是病變形狀和體素強(qiáng)度直方圖,其次是體素水平強(qiáng)度值的空間排列(紋理)。幾十年前,人們就通過(guò)濾波器和數(shù)學(xué)變換來(lái)處理信號(hào),發(fā)現(xiàn)紋理特征可以量化圖像屬性[30]。在影像組學(xué)中,紋理特征可以直接從原始圖像中提取,或者在應(yīng)用不同的濾波器或變換(例如:小波變換)之后提取。定量特征通常分為以下幾類:
形狀特征:描述的是ROI的形狀及其幾何特性,例如ROI的體積、沿不同正交方向的最大直徑、最大表面積、腫瘤緊湊度和類球形度等。例如,表面呈多毛刺狀的腫瘤與相似體積的球形腫瘤相比,其表面-體積比更高。
一階統(tǒng)計(jì)特征:描述了各個(gè)體素值的分布,但不涉及體素的空間排列。這些是基于直方圖的屬性,包括體素強(qiáng)度的平均值、中間值、最大值、最小值以及它們的偏度(不對(duì)稱性),峰度(平直度),均勻性和隨機(jī)性(熵)。
二階統(tǒng)計(jì)特征:包括所謂的紋理特征[31],它們是通過(guò)計(jì)算相鄰體素之間的統(tǒng)計(jì)相互關(guān)系而獲得的,反映了空間排列的體素強(qiáng)度,提示了病變的異質(zhì)性[5,32]。這些特征可以從灰度共生矩陣法(Gray-Level Co-Occurrence Matrix,GLCM)導(dǎo)出,量化沿固定方向在預(yù)定距離處具有相同強(qiáng)度的體素的發(fā)生率,或者從灰度游程矩陣(Gray-Level Run-Length Matrix,GLRLM)量化,量化沿固定方向具有相同強(qiáng)度的連續(xù)體素[33]。
高階統(tǒng)計(jì)特征:是在對(duì)圖像應(yīng)用濾波器或數(shù)學(xué)變換之后,通過(guò)統(tǒng)計(jì)學(xué)方法所獲得。這些變換旨在識(shí)別重復(fù)或非重復(fù)模式、抑制噪聲或突出細(xì)節(jié)。包括碎片分析、Minkowski函數(shù)、小波變換以及高斯濾波圖像的拉普拉斯變換等。單個(gè)圖像中可以生成千余個(gè)參數(shù)變量。
即使影像組學(xué)充分利用了其他組學(xué)學(xué)科開(kāi)發(fā)的數(shù)據(jù)分析方法以及大數(shù)據(jù)分析經(jīng)驗(yàn),組學(xué)參數(shù)的選取仍較為困難。目前常用的兩種方法,一種是從計(jì)算工具提供的所有特征開(kāi)始,執(zhí)行初步分析以選擇最可重復(fù)和可再現(xiàn)的參數(shù),隨后通過(guò)相關(guān)分析和冗余分析來(lái)進(jìn)行縮減[34];另一種是基于它們的數(shù)學(xué)定義對(duì)特征進(jìn)行先驗(yàn)選擇,集中選擇在視覺(jué)外觀方面易于解釋的參數(shù),或者與組織直接相關(guān)的一些生物特性。計(jì)算機(jī)可以從以往的例子中進(jìn)行學(xué)習(xí),并在大量復(fù)雜的數(shù)據(jù)中檢測(cè)出難以識(shí)別的關(guān)聯(lián)模式,以此為基礎(chǔ)的機(jī)器學(xué)習(xí)方法可成為特征優(yōu)選的有效工具[35-36]。
因此,最初的工作應(yīng)集中于確定具有潛在臨床意義的特征上,以選擇對(duì)特定目的有用的信息。影像組學(xué)的分析通常包括兩個(gè)主要步驟:一是降低維度和特征選擇,通常通過(guò)無(wú)監(jiān)督學(xué)習(xí)方法獲得;二是通過(guò)監(jiān)督學(xué)習(xí)方法對(duì)一個(gè)或多個(gè)特定結(jié)果之間進(jìn)行關(guān)聯(lián)分析。
人們已經(jīng)對(duì)不同的降維(特征)選擇分類方法進(jìn)行了對(duì)比[37]。兩種最常用的無(wú)監(jiān)督學(xué)習(xí)方法是聚類分析(Cluster Analysis)[38]和主成分分析(Principle Component Analysis,PCA)[39]。聚類分析旨在創(chuàng)建具有高群集內(nèi)冗余和低群集間相關(guān)性的類似功能(群集)組。這種類型的分析通常由聚類熱圖描述,可以從每個(gè)聚類中選擇單個(gè)特征作為代表,并用于以下關(guān)聯(lián)分析[40]。PCA的目的是從一大組相關(guān)變量中創(chuàng)建一組較小的最大不相關(guān)變量,并盡可能地用最少的主成分解釋數(shù)據(jù)集中的總變量。從圖形上看,PCA的輸出由得分圖組成,指出了數(shù)據(jù)集中的相似性??梢詫⑺斜灰暈榭芍噩F(xiàn)、具有信息性和非冗余的選定特征用于關(guān)聯(lián)性分析。單變量分析的一個(gè)重要因素是多重測(cè)試,克服多重測(cè)試問(wèn)題的最常見(jiàn)方法是使用Bonferroni校正或不太保守的錯(cuò)誤發(fā)現(xiàn)率校正[41]。通過(guò)多變量分析建立數(shù)學(xué)模型,以預(yù)測(cè)結(jié)果或響應(yīng)變量。不同的分析方法取決于研究的目的和結(jié)果類別,主要的機(jī)器學(xué)習(xí)分類方法包括:隨機(jī)森林(Random Forest,RF)[42],鄰近算法(K-Nearest Neighbor,KNN)[43],支持向量機(jī)(Support Vector Machine,SVM)[44],XGBOOST算法[45],決策樹(shù)(Decision Tree,DT)[46]等。Zhang 等[37]的研究比較了不同的模型構(gòu)建方法,發(fā)現(xiàn)隨機(jī)森林分類方法具有最高的預(yù)后性能。
影像組學(xué)模型建立之后,需通過(guò)驗(yàn)證的方法評(píng)估模型的穩(wěn)定性和可重復(fù)性。模型驗(yàn)證可分為內(nèi)部驗(yàn)證與外部獨(dú)立隊(duì)列數(shù)據(jù)驗(yàn)證,而評(píng)估模型潛在臨床價(jià)值的最佳方法是使用前瞻性收集的獨(dú)立隊(duì)列數(shù)據(jù)進(jìn)行驗(yàn)證。因此,多影像中心共同建立的具有標(biāo)準(zhǔn)化影像檢查與質(zhì)量控制的共享數(shù)據(jù)庫(kù)將發(fā)揮巨大作用,可以為組學(xué)模型的驗(yàn)證,提供良好的獨(dú)立隊(duì)列數(shù)據(jù)。
影像組學(xué)作為一種新興研究方法,可以提供多種疾病的豐富信息。從標(biāo)準(zhǔn)臨床試驗(yàn)、組織病理學(xué)、遺傳學(xué)以及最終放射學(xué)結(jié)果中獲取的數(shù)據(jù)將為個(gè)性化治療方案的實(shí)施提供條件。與具有非侵入性特征的放射學(xué)相結(jié)合,通過(guò)發(fā)現(xiàn)圖像的編碼規(guī)則和模式,可以更好地識(shí)別癌癥等疾病的病理生理學(xué),有助于疾病的早期發(fā)現(xiàn),提高治療效率。
數(shù)學(xué)算法與計(jì)算機(jī)技術(shù)的飛速發(fā)展,為影像組學(xué)提供了理論基礎(chǔ)和技術(shù)支持,使其可以通過(guò)從醫(yī)學(xué)影像中提取和挖掘的大量特征,分析隱含在圖像背后的問(wèn)題,為臨床診斷提供更多思路,并已在癌癥、血液學(xué)及自身免疫疾病等高發(fā)疾病的診斷、治療和預(yù)后方面取得了可靠結(jié)果,有助于早期相關(guān)診斷,調(diào)整最佳治療方案,并提高患者的生活質(zhì)量。標(biāo)準(zhǔn)化方案的實(shí)施是獲取具代表性、可靠、可重復(fù)結(jié)果的前提。目前,來(lái)自不同機(jī)構(gòu)的數(shù)據(jù)仍缺乏一致性,面臨著圖像標(biāo)準(zhǔn)化不足、缺乏質(zhì)量控制等問(wèn)題,導(dǎo)致成果轉(zhuǎn)化難度較大。創(chuàng)建共同的、連貫的數(shù)據(jù)庫(kù)是當(dāng)代醫(yī)學(xué)所面臨的最大挑戰(zhàn)之一。相信隨著醫(yī)學(xué)影像學(xué)數(shù)據(jù)的不斷積累和標(biāo)準(zhǔn)化,以及各類圖像分割、特征提取、特征選擇和模式識(shí)別方法的迅速發(fā)展,影像組學(xué)將會(huì)對(duì)臨床醫(yī)學(xué)產(chǎn)生深遠(yuǎn)的影響。