張巨,朱文珍,張順,朱虹全,吳迪,劉棟
興趣區(qū)(region of interest,ROI)勾畫是腦腫瘤影像研究及臨床定量分析的基礎(chǔ)。手動勾畫興趣區(qū)工作量大,效率低,受人員經(jīng)驗及主觀判斷影響較大,具有明顯的局限性。一些簡單的算法如閾值分割、區(qū)域生長[1,2]等在勾畫邊界分明、特征簡單、體素值差異明顯的目標時可以顯著提高效率,是傳統(tǒng)分割方法中常用的輔助方式。然而醫(yī)學圖像往往具有極高的復雜性和多樣性,傳統(tǒng)手段在包括腦腫瘤分割等多種使用場景下效果欠佳,常需大量手工調(diào)整。深度學習技術(shù)實現(xiàn)了特征工程的自動化,相對傳統(tǒng)技術(shù)具有明顯優(yōu)勢。語義分割(semantic segmentation)是目前使用深度學習對醫(yī)學圖像進行分割的常用的方式[3]。其中相較傳統(tǒng)全卷積網(wǎng)絡(fully convolutional networks,FCN),U-Net結(jié)構(gòu)包含了一個與編碼路徑對稱的解碼路徑并通過相應層級拼接的方式提供了更為精確的定位[4],該結(jié)構(gòu)因為簡單可靠被廣泛運用于圖形分割領(lǐng)域[5,6]。部分研究認為對U-Net的結(jié)構(gòu)調(diào)整可能可以進一步提高模型的準確性,Oktay等[7]提出的注意力門機制可以增加目標區(qū)域的權(quán)重,He等[8]提出的殘差網(wǎng)絡有效的應對了網(wǎng)絡退化的問題。深度學習模型的訓練、使用及數(shù)據(jù)的儲存、傳輸均需要一定的硬件及時間成本,該成本可通過降低數(shù)據(jù)量來有效控制,然而充足的數(shù)據(jù)量是充分訓練模型的基礎(chǔ)。識別并剔除無法顯著提升模型分割準確率的冗余數(shù)據(jù)則具有實用意義。本研究使用BraTS 2021的數(shù)據(jù),探索了不同序列組合對U-Net模型的影響,并對比了基線U-Net以及添加了注意力門、殘差網(wǎng)絡模塊的模型在分割腦腫瘤及亞區(qū)方面的差異。
使用BraTS 2021腦膠質(zhì)瘤數(shù)據(jù)1251例,每個病例包括T1、T1增強、T2、T2FLAIR四個序列的圖像以及一個標簽圖像,標簽包括:0,背景(非腫瘤區(qū)域);1,腫瘤壞死區(qū)域;2,水腫、浸潤區(qū)域;4,腫瘤強化區(qū)域。將所有MRI圖像歸一化處理,標簽值4改為3。將MRI圖像使用7種序列組合(4通道組、無T1的3通道組、無T2的3通道組、無T2FLAIR的3通道組、無T1增強的3通道組、無T1及T2的2通道組,無T2及T2FLAIR的2通道組)堆疊為多通道圖像,對圖像進行裁剪,保留圖像中心范圍為128×128×128的體素。由于部分病例經(jīng)裁剪后目標體素較少且缺乏腫瘤圖像特征,這部分病例被排除。剩余的病例以7:2:1的比例分為訓練組、驗證組、和測試組。
基線U-Net模型:使用3D U-Net模型,結(jié)構(gòu)如圖1,編碼器包括5層子模塊,每層子模塊包括2個卷積層(首個子模塊filters=16,后續(xù)子模塊filters依次乘以2;kernel_size=3)、2個激活函數(shù)層(activation=LeakyReLU,alpha=0.01)、以及一個隨機失活層,前4個子模塊包括一個最大池化層(pool_size=2)。解碼器包括4層子模塊,每層子模塊包括一個反卷積層(首個子模塊filters=128,后續(xù)子模塊filters依次除以2;kernel_size=2)、2個卷積層(首個子模塊filters=128,后續(xù)子模塊filters依次除以2;kernel_size=3)、2個激活函數(shù)層(activation=LeakyReLU,alpha=0.01)、以及一個隨機失活層,其中反卷積層的輸出接受來自相應編碼層的跳躍連接。
圖1 基線U-Net模型。
注意力U-Net模型:編碼器與基線模型一致。解碼器與基線模型間的區(qū)別在于卷積層前的注意力門結(jié)構(gòu)(圖2):來自深層的信號經(jīng)卷積(首個注意力門結(jié)構(gòu)filters=128,余依次除以2,kernel_size=1)、激活函數(shù)(ReLU)、卷積(同前)后,與來自相應編碼層的跳躍連接的信號經(jīng)卷積層(首個注意力門結(jié)構(gòu)filters=128,余依次除以2,kernel_size=1,strides=2)后相加,經(jīng)過激活函數(shù)ReLU、卷積層(filters=1,kernel_size=1)、激活函數(shù)Sigmoid后,上采樣至前述跳躍連接的大小并與之相乘,經(jīng)卷積層(首個注意力門結(jié)構(gòu)filters=128,余依次除以2,kernel_size=1)、批量歸一化后輸出。
圖2 注意力門的結(jié)構(gòu)(圖中顯示第1個注意力門的參數(shù),后續(xù)注意力門filters依次減半)。
殘差U-Net模型:與基線模型的區(qū)別在于各子模塊第2次卷積后的輸出接受第1次卷積前的輸入逐點卷積(filters與相應子模塊卷積層一致,kernel_size=1)后的跳躍連接(圖3)。
圖3 殘差網(wǎng)絡的跳躍連接。
殘差注意力U-Net模型:即結(jié)合上述注意力門及殘差模塊至基線U-Net的模型。
使用前述7種不同多通道圖像的訓練組和驗證組訓練基線U-Net,使用4通道圖像的訓練組和驗證組訓練殘差U-Net、注意力U-Net、殘差注意力U-Net。損失函數(shù)使用Categorical Focal Loss結(jié)合Dice Loss, 優(yōu)化器使用自適應矩估計(Adaptive Moment Estimation,Adam),初始Learning rate為0.0001,Batch size為4,每種序列組合、模型至少訓練1000個Epoch,保存每次驗證IOU分數(shù)提高的模型。訓練使用一塊NVIDIA GeForce RTX 4090顯卡,在TensorFlow框架(2.10.1)/Keras API(2.10.0)下完成。
選取每次訓練1000個Epoch中驗證IOU分數(shù)最高的模型進行對比,使用各模型對測試組(n=116)進行圖像分割,計算分割結(jié)果的Dice系數(shù)。使用Friedman檢驗和成對比較(經(jīng)Bonferroni校正法調(diào)整顯著性值)對比不同序列組合以及不同模型間Dice系數(shù)的差異,采用IBM SPSS Statistics 26進行統(tǒng)計學分析。
經(jīng)過裁剪,最終1151例患者被納入研究,其中訓練組805例,驗證組230例,測試組116例。
使用不同序列組合訓練基線U-Net模型分割腫瘤各區(qū)域的Dice系數(shù)均值、標準差及秩均值見表1。在分割腫瘤強化區(qū)域(Gd-enhancing tumor,ET)時,無增強序列的3通道組Dice系數(shù)低于其他6組(P<0.001),余組間差異無統(tǒng)計學意義;在分割腫瘤核心區(qū)域(tumor core,TC)時,同樣是無增強序列的3通道組Dice系數(shù)低于其他6組(P<0.001),余組間差異無統(tǒng)計學意義;在分割全腫瘤(whole tumor,WT)時,無T2和T2FLAIR的2通道組Dice系數(shù)顯著低于其他組(P<0.001),無T2FLAIR的3通道組Dice系數(shù)低于除前述2通道組以外的其他組(P<0.001),4通道組和無T1的3通道組的Dice系數(shù)高于其他組(P<0.05),余組間無差異無統(tǒng)計學意義。
表1 各序列組合Dice系數(shù)均值、標準差及秩均值
基線U-Net、注意力U-Net、殘差U-Net、注意力殘差U-Net模型對一例顳葉腦腫瘤的分割結(jié)果見圖4。
圖4 一個顳葉腫瘤的T1、T1增強、T2、T2 FLAIR圖像,以及預先標注的標簽、4種U-Net模型的分割結(jié)果。
基線U-Net、注意力U-Net、殘差U-Net、殘差注意力U-Net的Dice系數(shù)均值、標準差及秩均值見表2。在分割腫瘤強化區(qū)域和核心區(qū)域時,4種模型間的Dice系數(shù)差異無統(tǒng)計學意義。在分割全腫瘤時,Friedman檢驗中4種模型間差異有統(tǒng)計學意義(P<0.05),但在進一步的成對比較中,經(jīng)Bonferroni校正法調(diào)整顯著性值后,兩兩間差異均無統(tǒng)計學意義。
表2 各序列組合Dice系數(shù)均值、標準差及秩均值
本研究結(jié)果顯示剔除T1增強序列會顯著降低模型分割腫瘤強化區(qū)域及核心區(qū)域的準確性,而剔除T2FLAIR、尤其是同時剔除T2FLAIR和T2會顯著降低模型分割全腫瘤的準確度,以上結(jié)果可能與BraTS的標注原則有關(guān)。BraTS中對腫瘤強化區(qū)域的定義是相對于T1平掃和影像表現(xiàn)正常的白質(zhì),增強后高信號的區(qū)域。腫瘤的核心區(qū)域則包括腫瘤的強化區(qū)域和囊變、壞死區(qū)。囊變、壞死區(qū)的典型表現(xiàn)為T1增強圖像上的低信號。全腫瘤的定義則進一步包括了腫瘤周圍的水腫及腫瘤浸潤區(qū)域,通常表現(xiàn)為T2FLAIR上異常的高信號[9]。T1增強和T2FLAIR序列可以提供較為明確的組織對比度和腫瘤邊緣信息,剔除這些序列后,可能會導致模型對特征的提取不充分,降低準確率的同時提高誤檢率。且這兩種序列可以提供不同的腫瘤信息,去掉一種或兩種,則可能導致模型的魯棒性降低,難以處理相對復雜的分割任務。在剔除T2FLAIR的基礎(chǔ)上進一步剔除T2后,模型對全腫瘤分割的準確性進一步顯著下降可能是因為T2序列同樣對腫瘤的水腫或浸潤區(qū)較為敏感,圖像存在較好的對比度,將其剔除后,剩余序列(T1、增強)在部分病例相應區(qū)域的圖像特征不足導致的。本研究中4通道組和無T1的3通道組在分割全腫瘤時Dice系數(shù)顯著高于其他組,結(jié)合分割其他區(qū)域的結(jié)果,這兩組具有較好的綜合表現(xiàn),且二者間差異無統(tǒng)計學意義。該結(jié)果一方面提示我們訓練和使用模型時,保證信息的豐富度對模型分割的準確率具有重要意義,另一方面也提示我們序列并非越多越好。本研究中,相對于4通道組,剔除T1平掃序列未對模型的分割準確性產(chǎn)生顯著性的影響,可能是由于T1序列在上述標注區(qū)域常無明顯的對比度或清晰的邊界,可能所蘊含的相應圖像特征較為稀少且不穩(wěn)定,T1的加入可能無法提供足夠提升模型表現(xiàn)的有用信息,反而增加了噪聲和冗余信息(針對標注區(qū)域),提高了模型的復雜度和過擬合風險。影像組學的研究認為醫(yī)學圖像包含大量人眼不易直接捕捉的圖像特征[10,11],且這部分圖像特征同樣包含來源于組織的結(jié)構(gòu)或功能信息,具有分析和診斷的價值。由于深度學習特征工程的自動化,本研究的結(jié)果可能提示,由T2及T2FLAIR圖像特征所反映的腦腫瘤組織和邊界信息,并未被T1圖像所完整和可靠地蘊含,或至少不能被本研究所使用模型捕捉到。
本研究中對比的4種U-Net模型僅在分割全腫瘤時表現(xiàn)出顯著差異,且在隨后的成對比較中,若經(jīng)Bonferroni校正法調(diào)整顯著性值后則兩兩間差異無統(tǒng)計學意義。部分研究認為對U-Net的結(jié)構(gòu)調(diào)整可能不如非結(jié)構(gòu)調(diào)整有效,如Isensee等提出的nnU-Net(“no-new-Net”),僅圍繞基礎(chǔ)的U-Net模型調(diào)整,將重點集中于數(shù)據(jù)處理、模型訓練、推理、后處理上,其自適應的特點令該框架具有良好的泛用性和優(yōu)秀分割準確性[12]。本研究的結(jié)果可能提示部分對U-Net結(jié)構(gòu)的調(diào)整可以提高其在特定領(lǐng)域的分割效果,但也可能在其他領(lǐng)域增加過擬合風險以及降低泛用性。本研究中殘差模型在分割全腫瘤時具有最大的Dice系數(shù)均值和秩均值,而注意力模型則具有最小的Dice系數(shù)均值和秩均值,結(jié)合Friedman檢驗結(jié)果,筆者推測在分割全腫瘤時,殘差網(wǎng)絡可能較注意力門更有優(yōu)勢。
殘差網(wǎng)絡通過跳躍連接可以實現(xiàn)恒等映射的效果,有效應對了深層網(wǎng)絡的退化問題[8]。在本研究中,模型可能通過殘差模塊減少了信號的損失,保證了網(wǎng)絡中梯度信號的強度。此外,醫(yī)學圖像的像素之間是存在局部相關(guān)的,則反向傳播時的梯度也具有相關(guān)性,但隨著網(wǎng)絡深度的增加,該梯度間的相關(guān)性會越來越弱,難殘差網(wǎng)絡則極大的緩解了該相關(guān)性的衰減[13],保留了更多的梯度空間結(jié)構(gòu)信息。
注意力門的加入會令模型逐步增加對圖像興趣區(qū)的相對權(quán)重,理論上可以增加模型的敏感性和準確性。而本研究中的注意力模型表現(xiàn)并未顯著高于其他模型,筆者推測可能由于腦腫瘤形態(tài)、結(jié)構(gòu)、大小、位置、信號等的異質(zhì)性較大,測試集中可能存在的一些與訓練集差異較大的病例,注意力門機制由于缺乏相應的學習從而導致關(guān)注區(qū)域的錯誤和分類能力的下降。
綜上所述,在腦腫瘤分割模型的構(gòu)建與使用過程中,輸入圖像的選擇需要結(jié)合具體使用場景,在保證信息豐富度的同時也要避免冗余。多余的序列無法提高模型表現(xiàn),反而可能引入噪聲和冗余信息,提高模型的復雜度和過擬合風險,此外還會增加數(shù)據(jù)的儲存、傳輸、運算的時間及硬件成本。在分割模型的選擇方面,殘差網(wǎng)絡可能減少了模型的信號損失,保留了更多的原始圖像特征信息,確保了梯度信號的強度,且減少了梯度間相關(guān)性信息的損失,從而提高了模型的表現(xiàn)。