王 磐,強 彥,楊曉棠,侯騰璇
(1.太原理工大學(xué)信息與計算機學(xué)院,山西晉中 030600;2.山西省腫瘤醫(yī)院放射科,太原 030000)
肺結(jié)節(jié)作為肺癌早期診斷的重要依據(jù),對其邊緣精準(zhǔn)分割顯得格外重要。隨著計算機斷層掃描(Computed Tomography,CT)數(shù)據(jù)呈現(xiàn)出指數(shù)型增長的趨勢,影像科醫(yī)師面臨著越來越繁重的CT圖像審閱工作,即使醫(yī)師能夠快速準(zhǔn)確地標(biāo)記出結(jié)節(jié)所處的位置以及邊界,但在長時間高強度的工作過程中難免會出現(xiàn)誤診漏診。因此,急需一種新興技術(shù)輔助醫(yī)生診斷,而計算機輔助診斷(Computer Aided Diagnosis,CAD)[1-3]的出現(xiàn)給影像學(xué)帶來了希望。輔助診斷技術(shù)的日趨成熟不僅能減少醫(yī)生工作量,而且能夠提高標(biāo)記結(jié)節(jié)的準(zhǔn)確率和效率。然而,由于肺部CT圖像中結(jié)節(jié)的大小、形狀以及其他臨床特征(如鈣化征、分葉征、毛刺征等)都存在明顯差異,導(dǎo)致目前的一些分割方法的肺結(jié)節(jié)檢出率低,耗時長。因此,構(gòu)建一種高效的肺結(jié)節(jié)分割模型成為一個難點。
本文構(gòu)建一種基于深度神經(jīng)網(wǎng)絡(luò)的肺結(jié)節(jié)分割模型以提高肺結(jié)節(jié)的檢出率,減少肺結(jié)節(jié)檢測時間,同時將雙注意力模塊融入深度神經(jīng)網(wǎng)絡(luò),以優(yōu)化小尺寸肺結(jié)節(jié),進而提高多類型肺結(jié)節(jié)的分割精度。
近年來,深度學(xué)習(xí)的廣泛使用使得研究人員開始利用神經(jīng)網(wǎng)絡(luò)提取肺結(jié)節(jié)的深層特征,從而對結(jié)節(jié)進行自動診斷,代替使用手工特征和描述符[4]的傳統(tǒng)肺結(jié)節(jié)分割方法。文獻[5]通過調(diào)整對比度以增強CT圖像中肺結(jié)節(jié)部分,然后根據(jù)經(jīng)驗設(shè)定閾值與形態(tài)學(xué)操作的參數(shù)對圖像進行預(yù)處理,最后利用簡單的區(qū)域增長算法分割肺結(jié)節(jié)。文獻[6]首先使用2D深度神經(jīng)網(wǎng)絡(luò)對肺部CT圖像進行粗分割,然后利用概率圖模型(馬爾科夫模型)對粗分割結(jié)果進行優(yōu)化以得到精確的分割結(jié)果。文獻[7]提出一種多視圖2.5D卷積神經(jīng)網(wǎng)絡(luò)用于肺結(jié)節(jié)的分割,該網(wǎng)絡(luò)由3個CNN分支組成,分別從一組結(jié)節(jié)的軸向視圖、冠狀視圖和矢狀視圖中捕獲敏感性特征,每個分支包括7個堆疊層,并以多尺度結(jié)節(jié)斑塊為輸入。3個CNN分支與1個全連接層相連,以預(yù)測斑塊中心體素是否屬于結(jié)節(jié)。文獻[8]使用結(jié)節(jié)尺寸作為最主要的診斷標(biāo)準(zhǔn),利用Mask R-CNN對肺結(jié)節(jié)進行分割進而得到輪廓信息。文獻[9]提出將FCM算法作為基礎(chǔ),同時應(yīng)用小波變換對CT圖像展開分解,之后將分解后的低頻圖的像素點作為FCM算法的基礎(chǔ)點,最后采用馬氏距離進一步修正得到分割結(jié)果。但是上述方法均存在以下問題:
1)結(jié)節(jié)具有復(fù)雜的形狀和高度異變性紋理,2D低層次描述符無法捕獲辨識性特征。僅使用2D卷積神經(jīng)網(wǎng)絡(luò)提取的特征無法映射為高質(zhì)量的分割特征圖,從而影響網(wǎng)絡(luò)訓(xùn)練的效率。CT圖像本質(zhì)上是三維數(shù)據(jù),因此聯(lián)系空間上下文信息對肺結(jié)節(jié)分割起著重要的作用。文獻[6-7]分別使用2D、2.5D神經(jīng)網(wǎng)絡(luò)分割肺結(jié)節(jié),但是單張的2D肺部CT圖像不具備有效區(qū)分微小結(jié)節(jié)和血管剖面的能力,都沒有充分利用肺結(jié)節(jié)的空間特征,導(dǎo)致分割精度較低。文獻[8]利用結(jié)節(jié)的尺寸作為主要特征分割肺結(jié)節(jié),但是卻忽視了結(jié)節(jié)異變性的紋理特征和形狀特征,進而無法對奇異性結(jié)節(jié)完整分割。
2)在相對小目標(biāo)的分割問題中,建立局部特征與全局特征的相關(guān)性有助于提高特征表示,進而提高分割的精度。文獻[6]雖然在分割網(wǎng)絡(luò)的后端利用概率圖模型提高分割精度,但是概率圖模型只有得到較好的先驗概率函數(shù)時,才能更精準(zhǔn)地計算后驗概率以優(yōu)化第一階段的分割結(jié)果,該方法無法自適應(yīng)地根據(jù)結(jié)節(jié)的空間特征去分割。文獻[5,9]分別使用傳統(tǒng)的區(qū)域增長算法和FCM算法作為分割方法的主框架,但都沒有充分考慮肺結(jié)節(jié)局部特征與全局特征的相關(guān)性和依賴性,以至于對具有非規(guī)則形狀特征的肺結(jié)節(jié)造成欠分割。
針對上述問題,本文提出基于3D-UNet網(wǎng)絡(luò)的雙注意力機制肺結(jié)節(jié)分割方法。UNet網(wǎng)絡(luò)在醫(yī)學(xué)圖像分割領(lǐng)域有優(yōu)秀的表現(xiàn),為適應(yīng)肺結(jié)節(jié)的分割,本文將原始的2D-UNet網(wǎng)絡(luò)擴展為3D網(wǎng)絡(luò)以捕獲結(jié)節(jié)空間信息,并引入雙注意力機制使網(wǎng)絡(luò)的重點集中到關(guān)鍵特征區(qū)域以提高對小尺寸結(jié)節(jié)的分割精度。
本文提出的DA 3D-UNet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先,在3D-UNet網(wǎng)絡(luò)的主框架中,本文使用最新提出的DUpsampling結(jié)構(gòu)替代解碼層路徑中的傳統(tǒng)上采樣方法,恢復(fù)編碼路徑中結(jié)節(jié)的細節(jié)特征,提高結(jié)節(jié)特征圖質(zhì)量,加快網(wǎng)絡(luò)收斂速度。其次,將雙注意力模塊,即空間注意力模塊和通道注意力模塊,應(yīng)用于3D-UNet網(wǎng)絡(luò)倒數(shù)第二層的特征圖以捕獲局部特征與全局特征的相關(guān)性及依賴關(guān)系,將網(wǎng)絡(luò)注意力集中到病灶區(qū)域,進而提高分割精度。
圖1 網(wǎng)絡(luò)整體框架Fig.1 Network overall framework
DUpsampling結(jié)構(gòu)是2019年TIAN[10]等人提出的一種基于數(shù)據(jù)相關(guān)性的新型上采樣結(jié)構(gòu)。上采樣結(jié)構(gòu)通常存在于分割網(wǎng)絡(luò)的解碼層中,其作用是將特征圖恢復(fù)至原始圖像的大小?;陔p線性插值和最近鄰插值的上采樣操作雖然在一定程度上能夠?qū)矸e層提取的特征進行捕獲和恢復(fù),但是其過程沒有考慮每個被預(yù)測像素之間的相關(guān)性,這種弱數(shù)據(jù)依賴的卷積解碼器無法產(chǎn)生相對較高質(zhì)量的特征圖。本文將基于數(shù)據(jù)相關(guān)性的DUpsampling結(jié)構(gòu)加入3D-UNet[11]網(wǎng)絡(luò)重構(gòu)編碼路徑[12]提取到的特征,使得到的特征圖有更好的表達能力。在上采樣的過程中,通過最小化特征圖的像素點與被壓縮標(biāo)簽圖像之間的損失從而得到最“正確”的輸出,具有很強的重建能力。DUpsampling的結(jié)構(gòu)如圖2所示。
圖2 DUpsampling結(jié)構(gòu)Fig.2 Architecture of DUpsampling
在圖2中,F(xiàn)∈?h×w×c表示CT圖像經(jīng)過編碼輸出的特征圖,h、w、c分別表示特征圖的高度、寬度以及通道數(shù),R表示經(jīng)DUpsampling結(jié)構(gòu)2倍上采樣后得到的特征圖,W是DUpsampling結(jié)構(gòu)中對像素向量進行線性壓縮的矩陣。令特征圖F的每個像素為向量x∈?1×c,然后讓向量x與W∈?c×n進行矩陣相乘,得到向量v∈?1×n,再將向量v重組為2×2×N/4,經(jīng)過重排后就相當(dāng)于對原始的每個像素進行2倍的上采樣,如式(1)所示:
其中,矩陣P是矩陣W的反變換,x~ 是人工標(biāo)注的肺結(jié)節(jié)分割區(qū)域經(jīng)過PCA方法降維之后得到的向量,神經(jīng)網(wǎng)絡(luò)以隨機梯度下降法作為優(yōu)化器最小化訓(xùn)練集上的x~ 和x之間的重建誤差,來找到最優(yōu)的特征圖重構(gòu)矩陣P和W,如式(2)所示:
傳統(tǒng)的分割網(wǎng)絡(luò)僅在最后的Softmax層計算預(yù)測結(jié)果與標(biāo)簽圖像之間的損失,再通過反向傳播更新權(quán)重優(yōu)化網(wǎng)絡(luò)。但DUpsampling結(jié)構(gòu)在上采樣部分就提前計算特征圖與被壓縮標(biāo)簽之間的損失,再通過網(wǎng)絡(luò)整體的反向傳播使解碼層中低分辨率的特征圖融入高層次語義特征,進而提高特征圖的質(zhì)量以便雙注意模塊挖掘空間信息與通道信息。
在雙注意力模塊中,本文首先使用不同膨脹率的空洞卷積操作[13]來捕獲不同尺度的特征圖信息,將包含多個尺度的結(jié)果特征圖進行融合,對融合結(jié)果使用空間注意力模塊和通道注意力模塊??臻g注意模塊根據(jù)所有位置特征的加權(quán)和選擇性地聚集每個位置的特征,使相似的特征相互關(guān)聯(lián)。同時,通道注意力模塊通過整合所有通道圖之間的關(guān)聯(lián)特征,選擇性地強調(diào)相互依賴的通道特征圖。最后將兩個注意模塊的輸出相加,以進一步提高特征表示,進而有助于提高小尺寸結(jié)節(jié)分割精度。雙注意力模塊如圖3所示。
圖3 雙注意力模塊Fig.3 Double attention module
2.2.1 多尺度特征融合
提取特征圖的多尺度信息能夠提高對小目標(biāo)物體的分割精度。通常方法是將特征圖經(jīng)過多次最大池化操作得到不同分辨率的輸出結(jié)果圖再通過卷積層提取特征,但是經(jīng)過多次池化操作會丟失小目標(biāo)物體的細節(jié)信息甚至全部信息。肺結(jié)節(jié)在肺部CT圖像占比很小,屬于相對小目標(biāo)類型分割。因此,本文引入不同膨脹率的空洞卷積對特征圖進行特征提取,空洞卷積能夠在不縮小特征圖的情況下通過調(diào)整膨脹率以增大或縮小感受野,捕獲多尺度特征圖信息。
當(dāng)給定輸入特征圖F∈?h×w×c時空洞卷積定義如下:
其中,x是當(dāng)前像素的位置,W是卷積核權(quán)重,r是膨脹率,d是當(dāng)前卷積過程中的像素值。將標(biāo)準(zhǔn)形式的空洞卷積定義為Dconvr(F),其中Dconvr表示當(dāng)膨脹率為r時對特征圖F的空洞卷積操作。如圖3所示,在雙注意力模塊中將3D-UNet網(wǎng)絡(luò)倒數(shù)第二層特征圖作為輸入,然后對該特征圖執(zhí)行級聯(lián)空洞卷積操作,定義如下:
其中,M代表對輸入圖像進行1×1的卷積得到的輸出特征圖,這里1×1的卷積操作是為了確保經(jīng)過不同膨脹卷積的結(jié)果圖之間通道保持一致,以融合不同尺度的肺結(jié)節(jié)特征。經(jīng)過級聯(lián)空洞卷積操作,最終得到一個融合多個尺度特征的特征圖,該特征圖將作為雙注意力模塊的輸入。
2.2.2 空間注意力模塊
位置特征在分割任務(wù)中起重要的作用,它通過捕獲像素間的上下文信息獲得。由傳統(tǒng)的特征提取網(wǎng)絡(luò)而生成的局部特征未考慮臨近像素的影響可能導(dǎo)致錯誤的分割。因此,為在局部特征上建立豐富的像素間位置關(guān)系,本文引入了空間注意力模塊,如圖4所示。該模塊通過將較大范圍的上下文信息編碼成局部特征,突出關(guān)鍵特征的位置,從而增強特征圖表示能力。
圖4 空間注意力模塊Fig.4 Spatial attention module
如圖4所示,輸入特征圖A是融合不同膨脹率的空洞卷積結(jié)果的肺結(jié)節(jié)特征圖,首先將其復(fù)制為3個新的特征映射,即特征圖映射A1、A2、A3,且{A1,A2,A3}∈Rc×h×w,并將其維度重塑為Rc×n,n=h×w是像素的數(shù)量。然后將矩陣A1和矩陣A2的轉(zhuǎn)置矩陣進行矩陣乘法,再應(yīng)用Softmax層計算得到空間注意力圖譜S∈Rn×n:
其中,sji表示特征圖中第i個像素位置對第j個像素位置特征的影響。兩個位置的特征表示越相似,它們之間的相關(guān)性就越大,反之亦然。然后將重塑后的矩陣A3和矩陣S的轉(zhuǎn)置進行矩陣乘法,并將結(jié)果重塑為Rc×h×w。最后,將矩陣運算結(jié)果乘以一個標(biāo)度參數(shù)α并與特征圖A執(zhí)行元素求和運算,以獲得最終輸出E,如下:
其中,α初始化為0,并在訓(xùn)練過程中逐漸分配更多權(quán)重。從上述公式可知,在空間注意力圖中每個位置的結(jié)果特征Ej是所有位置上的特征與原始特征的加權(quán)和。因此,它具有上下文信息并根據(jù)空間注意圖有選擇地聚合上下文,突出重點特征區(qū)域,提高分割精度。
2.2.3 通道注意力模塊
高層特征的每個特征圖的通道都可以看作是一個特定分割結(jié)果的響應(yīng),不同的語義響應(yīng)相互關(guān)聯(lián)。通過挖掘通道圖之間的相互依賴關(guān)系,可以表現(xiàn)特征圖的依賴關(guān)系,提高特定語義的特征表示。因此,本文構(gòu)建了一個通道注意模塊顯式地建立通道之間的依賴關(guān)系,如圖5所示。
圖5 通道注意力模塊Fig.5 Channel attention module
與空間注意力模塊不同,通道注意力模塊首先將特征圖A重塑為Rc×n,然后將A與A的轉(zhuǎn)置矩陣進行矩陣乘法,最后仍用一個Softmax層來獲得通道注意力圖譜x∈Rc×c:
其中,xji測量第i個通道對第j個通道的影響。此外,將x和矩陣A的轉(zhuǎn)置矩陣進行矩陣乘法,并將其結(jié)果重塑為Rc×h×w,將矩陣運算結(jié)果乘以一個標(biāo)度參數(shù)β并與特征圖A執(zhí)行元素求和運算,以獲得最終輸出E∈Rc×h×w:
其中,β初始化為0,并在訓(xùn)練過程中逐漸分配更多權(quán)重。每個通道的最終特征是所有通道特征和原始特征的加權(quán)和,從而建立了特征映射之間的長期語義依賴關(guān)系模型,它有助于提高特征的可辨別性,進而提高分割結(jié)果的完整度。
本文涉及的實驗數(shù)據(jù)來自LIDC(Lung Imaging Database Consortium),排除了切片厚度大于2.5 mm的CT掃描圖像,將剩余的888例肺部圖像作為數(shù)據(jù)集,這888例CT圖像中共包含1 186個結(jié)節(jié),其直徑范圍為3.170 mm~27.442 mm。CT圖像采集參數(shù)為150 mA、140 kV,平均層厚1.3 mm,圖像分辨率為512像素×512像素。訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分別為800例與88例。
在訓(xùn)練過程中,DA 3D-UNet以經(jīng)過預(yù)處理后的10張連續(xù)CT圖像為一組輸入數(shù)據(jù),使用MSRA[14]方法隨機初始化權(quán)值,在標(biāo)準(zhǔn)反向傳播更新中,學(xué)習(xí)速率初始化為0.1,每完成1個Epoch衰減5%,將批量大小設(shè)為64,動量設(shè)為0.9。使用10折交叉驗證策略來評估該方法的性能,在訓(xùn)練和測試數(shù)據(jù)集中維持相近的數(shù)據(jù)分布情況,以避免由于數(shù)據(jù)不均衡而導(dǎo)致過分割和欠分割。
DA 3D-UNet網(wǎng)絡(luò)搭建的環(huán)境為Python3.4,TensorFlow框架,CentOS7.4,NVIDIA GeForce1080Ti GPU,處理器Intel?XeonTMCPU E5-2630 v4@2.20 GHz。
3.2.1 數(shù)據(jù)預(yù)處理
本文提取左右肺葉區(qū)域掩模圖作為模型輸入,忽略胸腔及其他噪聲部分,提取過程如圖6所示。
圖6 肺實質(zhì)提取流程Fig.6 Extraction procedure of lung parenchyma
肺實質(zhì)提取過程如下:1)二值化CT圖像,通過聚類的方法找到可區(qū)分肺區(qū)域和非肺區(qū)域的閾值;2)Kmeans聚類,區(qū)分肺部區(qū)域是一類,非肺部周邊為另一類;3)對圖像中的高亮部分進行腐蝕操作,去除微小粒狀噪聲;4)進行膨脹操作,將血管侵吞為肺部組織,并且去除黑色噪聲,特別是不透明射線造成的黑色肺部區(qū)域;5)將過程4)與原圖進行數(shù)值型與操作并裁剪到相同大小得到肺實質(zhì)區(qū)域。
3.2.2 數(shù)據(jù)擴充
將每個CT標(biāo)準(zhǔn)化掃描平均值設(shè)置為-600,標(biāo)準(zhǔn)差為300,然后再進行數(shù)據(jù)擴充。數(shù)據(jù)擴充策略如下:
1)裁剪。對于每個512像素×512像素CT圖像,每隔2個像素進行裁剪,裁剪為500×500的較小切片,因此每個候選區(qū)域的數(shù)據(jù)量增加36倍。
2)翻轉(zhuǎn)。對于每個CT圖像,從3個正交尺寸(冠狀,矢狀和軸向位置)進行翻轉(zhuǎn),因此最終為每個CT圖像增加8×36=288倍的數(shù)據(jù)量。
3)重復(fù)。為平衡訓(xùn)練集中的正樣本和負樣本切片的數(shù)量,將正樣本切片復(fù)制8次。
3.2.3 評價標(biāo)準(zhǔn)
本文使用像素精度(Pixel Accuracy,PA)、平均像素精度(Mean Pixel Accuracy,MPA)和平均交并比(Mean Intersection over Union,MIoU)[15]3個國際通用的語義分割度量標(biāo)準(zhǔn)[16-18]來對分割結(jié)果做出評測。計算公式分別如式(9)~式(11)所示:
像素精度:
平均像素精度:
平均交并比:
肺結(jié)節(jié)的分割只需要得到一類語義分割結(jié)果(結(jié)節(jié)與背景),因此這里k=1。pij表示本屬于i類卻被預(yù)測為j類的像素數(shù)量。同理,pii與pji分別表示本屬于i類被預(yù)測為i類的像素數(shù)量以及本屬于j類卻被預(yù)測為i類的像素數(shù)量。
表1是各種實驗方法在88例測試數(shù)據(jù)上的實驗對比結(jié)果。表2是各種實驗方法對88例測試數(shù)據(jù)集抽取的35例小尺寸結(jié)節(jié)(直徑為3.170 mm~7.5 mm)的實驗對比結(jié)果。表3為神經(jīng)網(wǎng)絡(luò)迭代次數(shù)及損失(文獻[5,9]均不涉及神經(jīng)網(wǎng)絡(luò)),從表3可以看出,本文方法在Bestepoch為124時損失值[19]就已經(jīng)達到比較低的水平并且保持小幅度的浮動,其余方法的損失值均高于本文方法。
表1 不同方法實驗結(jié)果對比Table 1 Comparison of experimental results of different methods
表2 小尺寸結(jié)節(jié)分割結(jié)果對比Table 2 Comparison of small-size nodules segmentation results
表3 最優(yōu)迭代次數(shù)及損失Table 3 Optimal number of iterations and loss
圖7為各類型肺結(jié)節(jié)的分割結(jié)果,其中,第1列、第2列是較為常見的孤立型肺結(jié)節(jié),第3列、第4列為血管粘連型肺結(jié)節(jié),第5列、第6列為胸膜牽拉型肺結(jié)節(jié),第7列是較為少見的磨玻璃型肺結(jié)節(jié),且第2、3、6列均為直徑小于7.5 mm的小尺寸結(jié)節(jié)。本文提出的方法能夠?qū)Υ蟪叽缃Y(jié)節(jié)(第1、5、7列)進行完整的分割,對小尺寸結(jié)節(jié)(第2、3、6列)進行較為精準(zhǔn)的分割,其余對比的方法或多或少都會存在過分割和欠分割[20]的情況。實驗結(jié)果表明,本文提出的分割網(wǎng)絡(luò)較優(yōu),在LIDC標(biāo)準(zhǔn)肺結(jié)節(jié)數(shù)據(jù)集[21]下肺結(jié)節(jié)分割的MIoU值達到89.4%。在圖7中第1行~第9行分別為CT圖像、醫(yī)師標(biāo)注圖像、文獻[5]方法、文獻[6]方法、文獻[7]方法、文獻[8]方法、文獻[9]方法、3D-UNet方法和本文方法。
圖7 各類型肺結(jié)節(jié)分割結(jié)果Fig.7 Segmentation results of various-types lung nodules
針對目前分割網(wǎng)絡(luò)存在的分割精度低及耗時長的問題,本文構(gòu)建一種注意機制3D-UNet網(wǎng)絡(luò)結(jié)構(gòu)。將DUpsampling結(jié)構(gòu)融入3D-UNet網(wǎng)絡(luò),在網(wǎng)絡(luò)訓(xùn)練過程中提高上采樣操作生成的特征圖質(zhì)量,使每次上采樣后的特征圖更加逼近標(biāo)簽數(shù)據(jù),同時加快網(wǎng)絡(luò)的收斂速度。在此基礎(chǔ)上,提出空間注意力模塊和通道注意力模塊以分別捕獲空間維度和通道維度上的全局依賴性。實驗結(jié)果表明,該網(wǎng)絡(luò)結(jié)構(gòu)能夠有效融合遠程上下文信息,提高對大尺寸結(jié)節(jié)分割的完整度以及小尺寸結(jié)節(jié)的分割精度。下一步將分析各類型結(jié)節(jié)的特點,以實現(xiàn)全類型多變化結(jié)節(jié)的準(zhǔn)確定位和追蹤。