王曉茹,田塍,徐培容,張珩
北京郵電大學(xué) 計(jì)算機(jī)學(xué)院,北京 100876
如何實(shí)現(xiàn)醫(yī)學(xué)圖像的自動(dòng)化分析和處理一直以來都是計(jì)算機(jī)科學(xué)領(lǐng)域中的熱點(diǎn)研究課題,由于醫(yī)療圖像本身的復(fù)雜性以及對(duì)結(jié)果極高精確度的要求,該領(lǐng)域的自動(dòng)化算法往往不能滿足臨床需要。一方面,醫(yī)學(xué)圖像數(shù)據(jù)通常含有較高比例的不規(guī)則小目標(biāo),小尺度物體識(shí)別精確度往往來說會(huì)相對(duì)偏低,但往往目標(biāo)重要性無關(guān)乎尺度大小,小尺度物體也是醫(yī)學(xué)圖像分析過程中不可忽略的重要部分;另一方面,醫(yī)生在分析醫(yī)學(xué)圖像時(shí),對(duì)病變的器官組織邊界往往關(guān)注更多,如果算法能對(duì)目標(biāo)邊界進(jìn)行準(zhǔn)確的定位,這對(duì)于醫(yī)師的輔助作用是顯著的。為了減輕醫(yī)生的工作量,提高工作效率,臨床上也迫切需求一種能精確地自動(dòng)勾畫出醫(yī)療圖像中感興趣區(qū)域的算法,這就是醫(yī)學(xué)圖像分割任務(wù)。
本文主要研究如何將淺層特征中豐富的空間信息更有效地融合進(jìn)解碼過程中,進(jìn)而恢復(fù)深度神經(jīng)網(wǎng)絡(luò)下采樣過程中損失的空間細(xì)節(jié),從而讓深度神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)到更魯棒的特征表示,對(duì)各種尺度的目標(biāo)定位更準(zhǔn),整體的分割性能更強(qiáng)。為此,本文提出了一種空間細(xì)節(jié)恢復(fù)網(wǎng)絡(luò)(SDRNet),設(shè)計(jì)了一種新穎的空間細(xì)節(jié)注意分支(SDAB)和特征強(qiáng)化模塊(FEM)。經(jīng)實(shí)驗(yàn)驗(yàn)證,通過將2 個(gè)新穎的模塊結(jié)合在一起,SDRNet被證明可以進(jìn)一步提高LUNA 數(shù)據(jù)集的整體分割精度。
深度神經(jīng)網(wǎng)絡(luò)近幾年大大推動(dòng)了圖像分割領(lǐng)域的發(fā)展,其使用卷積以及若干非線性變換來對(duì)數(shù)據(jù)進(jìn)行高維抽象,但是由于深度神經(jīng)網(wǎng)絡(luò)往往存在下采樣結(jié)構(gòu),下采樣結(jié)構(gòu)的引入是為了減少計(jì)算量,但也同時(shí)損失了大量空間信息,尤其是目標(biāo)邊緣和小尺度物體。針對(duì)空間信息損失的問題,多層特征融合是目前恢復(fù)空間信息的主要方法,多層特征融合是指將卷積網(wǎng)絡(luò)計(jì)算過程中不同尺度的特征通過加和,或者連接的形式融合起來,其中高層特征分辨率低,有強(qiáng)的語義信息,但對(duì)細(xì)節(jié)的感知能力較差;而淺層特征的分辨率更高,包含了更多位置、細(xì)節(jié)信息。
因此如何有效且高效地融合淺層特征是解決空間信息損失的重要途徑。FCN[1]最早將深度神經(jīng)網(wǎng)絡(luò)引入圖像分割任務(wù),在FCN 架構(gòu)中,網(wǎng)絡(luò)中不同分辨率的各層特征經(jīng)過上采樣到同一尺寸后,連接在一起作為最終的特征,這種融合方式?jīng)]有考慮到多尺度特征,而且淺層特征的選擇也缺乏考慮,是多層特征融合的初步嘗試。UNet[2]在FCN 的基礎(chǔ)上,考慮骨架網(wǎng)絡(luò)中不同尺度的層次化特征,提出了U 型結(jié)構(gòu)[3-5],這種結(jié)構(gòu)通過在解碼器中逐級(jí)增加特征的空間分辨率的同時(shí),簡單利用連接或者加和的方式融合淺層特征,來填充缺失的空間細(xì)節(jié),這種融合方式存在明顯的缺陷:淺層特征沒有經(jīng)過編碼器的有效編碼,其包含的信息是不夠有效的,貿(mào)然融合會(huì)導(dǎo)致精度提升有限甚至降低最終預(yù)測精度,UNet 沒有給出如何有效融合的方法?;谶@個(gè)問題,Deeplab[6-7],GCN[8]通過引入空洞卷積以及大卷積核,致力于編碼更豐富的空間信息用于恢復(fù)。BiseNet[9-10]提出了解決空間信息損失問題的雙分支模型,其提出的空間分支中低下采樣以及大卷積核編碼了豐富的空間信息,通過特征融合模塊融合特征,在引入很低的計(jì)算量的同時(shí)改善了空間信息丟失的問題,ET-Net[11]構(gòu)造了一個(gè)邊界信息強(qiáng)化分支用于強(qiáng)化邊界分割效果,優(yōu)化空間定位的精度。
全卷積網(wǎng)絡(luò)淺層特征的分辨率更高,包含了更多位置和細(xì)節(jié)信息,但這部分信息沒有被有效利用起來,因此本文設(shè)計(jì)了2 個(gè)新結(jié)構(gòu)來更有效地恢復(fù)丟失的空間信息。利用SDAB 在淺層高分辨率特征上抽取捕獲空間細(xì)節(jié),利用注意力機(jī)制,讓解碼器更關(guān)注分支引入的空間信息,減少不夠有效的語義信息的引入。同時(shí)提出FEM,結(jié)合注意力機(jī)制選擇性強(qiáng)化特征表達(dá)能力,結(jié)合輔助損失提升模型對(duì)語義信息的表達(dá)能力。相對(duì)于以前的模型直接融合未經(jīng)處理的淺層特征的做法來說,進(jìn)一步降低空間信息融合過程中可能對(duì)深層語義信息造成的干擾,整體結(jié)構(gòu)示意圖見圖1,其中左側(cè)藍(lán)色部分為編碼器,右側(cè)其余部分為解碼器。
圖1 模型整體結(jié)構(gòu)示意
編碼器選擇以ResNet50 原型為基礎(chǔ),然后在其基礎(chǔ)上進(jìn)行了調(diào)整,在通道數(shù)與降采樣倍率兩者綜合取舍后,得到以下編碼器設(shè)計(jì)思路,以更適合醫(yī)學(xué)圖像分割的應(yīng)用場景。相對(duì)于ResNet50原型,考慮到醫(yī)學(xué)數(shù)據(jù)集多為二分類、語義信息相對(duì)較少的特點(diǎn),故將原型中全部通道數(shù)減半,防止模型過度復(fù)雜,降低過擬合的風(fēng)險(xiǎn)。并且改進(jìn)后的ResNet50 除去了Encode Block 1 中初始降采樣過程,這使得模型的降采樣倍率從16 倍縮減到了8 倍,減少編碼過程中高降采樣倍率導(dǎo)致的空間信息丟失。降采樣步驟采用了步長(stride)為2 的卷積核。
基于以上討論,上采樣后的到的特征分布,其含有強(qiáng)的語義信息用于分類,同時(shí)由于空間信息的缺失導(dǎo)致其是模糊的,直接將編碼器中具有強(qiáng)空間信息的淺層特征用傳統(tǒng)的融合方式融合,一方面解碼器無法有效地理解未經(jīng)編碼的空間信息,另一方面會(huì)干擾語義信息的表達(dá)。為了解決這些問題,本文設(shè)計(jì)了SDAB 來解決以上2 個(gè)困境。
首先,SDAB 利用大卷積核的卷積操作抽取淺層次特征。由于淺層特征通過堆疊的卷積較少,感受野小,所以選擇大尺寸的卷積核盡可能高倍數(shù)的擴(kuò)大感受野。大尺寸卷積核有利于模型對(duì)空間信息進(jìn)行更有效的編碼,但由于大尺寸卷積核也必然會(huì)引入大量計(jì)算量,考慮到淺層特征中豐富的空間信息以及更多的通道數(shù)往往僅利于編碼更多語義信息這2 個(gè)特點(diǎn),因此在SDAB 中先利用1×1 卷積對(duì)特征分布進(jìn)行通道數(shù)壓縮,減少計(jì)算量,然后再利用大卷積核進(jìn)行編碼,最后還原通道數(shù),得到特征分布F,用于后續(xù)操作。
本文設(shè)計(jì)了一種引導(dǎo)空間信息恢復(fù)的結(jié)構(gòu),利用這種結(jié)構(gòu)來將上文提及的編碼后的空間信息融合入上采樣后的深層特征分布中。本文選擇利用注意力的機(jī)制來引導(dǎo):首先將特征分布F與對(duì)應(yīng)層上采樣后的深層特征,利用1×1 卷積與加和的方式簡單融合得到Fa,輸入空間信號(hào)模塊提取空間注意向量,在這個(gè)模塊中,特征將按像素位置分別執(zhí)行最大池化,與平均池化操作,壓扁成一張空間尺寸不變、通道數(shù)為1 的特征激活分布。然后用連接的方式搭配中等尺寸的卷積核融合這2 個(gè)分布,利用sigmoid 操作得到空間激活量,并與Fa相乘來激活感興趣的位置,從而獲得空間激活后的特征分布。最后將該特征分布與Fa融合,每一個(gè)位置的通道最大值與平均值表達(dá)對(duì)應(yīng)空間位置的重要程度,提取的目的是獲取對(duì)應(yīng)的激活量,更感興趣的位置其空間激活量往往更高,結(jié)構(gòu)示意見圖2,連接表示按通道連接特征,加和表示特征矩陣加法,點(diǎn)乘表示特征矩陣點(diǎn)乘。
圖2 空間細(xì)節(jié)注意力分支結(jié)構(gòu)示意
同樣的,基于2.2 節(jié)對(duì)關(guān)鍵問題的討論,通道往往對(duì)應(yīng)特定的語義響應(yīng),因此在通道上可以做相似的處理,減少無效語義信息的引入,強(qiáng)化更有價(jià)值的通道,增強(qiáng)模型對(duì)語義信息的編碼表達(dá)能力,從整體上進(jìn)一步提升分割性能。因此本文提出了FEM 來實(shí)現(xiàn)這個(gè)目標(biāo)。
FEM 由通道強(qiáng)化部分和輔助損失共同構(gòu)成,利用注意力機(jī)制,為每個(gè)通道分配不同的自適應(yīng)權(quán)重值,選擇性激活或抑制通道,結(jié)構(gòu)見圖1。
在解碼器上采樣過程中得到的特征分布被通道強(qiáng)化模塊優(yōu)化后,在訓(xùn)練過程中提前輸出用作分類;然后結(jié)合輔助損失函數(shù),增強(qiáng)通道強(qiáng)化模塊對(duì)通道的選擇能力;最終增強(qiáng)模型對(duì)不同尺度目標(biāo)的學(xué)習(xí)能力,能協(xié)同提升整個(gè)模型的分割性能。
通道強(qiáng)化部分本模塊選用全局平均池化來抽取全局上下文,得到注意力權(quán)重值向量,這個(gè)向量表達(dá)每個(gè)通道的基礎(chǔ)權(quán)重值;然后將這個(gè)基礎(chǔ)權(quán)重向量輸入1×1 卷積與ReLU 激活函數(shù)進(jìn)行進(jìn)一步優(yōu)化,最后利softmax 操作獲得最終權(quán)重值向量。
輔助損失部分中輔助損失laux1、laux2與主要損失函數(shù)lmain均為交叉熵?fù)p失函數(shù),計(jì)算公式見式(1),總的損失函數(shù)L計(jì)算見式(2)。
式中:p(x)為 真實(shí)的概率分布,q(x)為預(yù)測的概率分布,交叉熵?fù)p失函數(shù)Ecross表達(dá)2 個(gè)概率分布之間的差異值。訓(xùn)練過程中通過最小化差異值使得預(yù)測精度不斷提高。
式中:輔助損失laux1、laux2用于協(xié)調(diào)模型對(duì)不同尺度目標(biāo)的分割能力,通常選取較小比值0.1,即 α和β分別設(shè)為0.1 和0.1;而主要損失lmain反映模型最終分割結(jié)果與真實(shí)值之間的差異,占主導(dǎo)地位,為了平衡兩者,主要損失lmain的 權(quán)重 λ取為余下的0.8。即 α, β 與 λ分別設(shè)為0.1,0.1 和0.8,他們分別權(quán)衡輔助損失laux1、laux2與 主損失lmain的權(quán)重。
本文在肺結(jié)節(jié)分析比賽(LUNA)數(shù)據(jù)集上評(píng)估本文所提出的模型的性能,該數(shù)據(jù)集包含肺部CT 圖像以及對(duì)應(yīng)專業(yè)人員手動(dòng)分割結(jié)果,該比賽任務(wù)是在肺部CT 圖像中對(duì)肺部進(jìn)行查找和測量,對(duì)胸部X 射線圖像進(jìn)行分割。整個(gè)數(shù)據(jù)集包含267 張圖像,其中訓(xùn)練圖像214 張,測試圖像53 張。
模型中所有待訓(xùn)練權(quán)重均被隨機(jī)初始化。在訓(xùn)練步驟中,由于GPU 資源的限制,將batch_size設(shè)置為1,并使用“poly”學(xué)習(xí)率調(diào)度策略,該策略通過式(3)計(jì)算學(xué)習(xí)率。
式中:lrbase設(shè) 置為1 ×10-4,p設(shè)定為0.9,itotal設(shè)置為1×105。
模型由Adam 優(yōu)化器進(jìn)行訓(xùn)練,其動(dòng)量和權(quán)重衰減分別設(shè)置為0.9 和0.000 5。利用Tensorflow1.14來構(gòu)建本文提出的模型,并選擇平均交并比(mean IOU,mIoU)RmIoU作為的評(píng)估指標(biāo),計(jì)算公式為
本文提出SDAB 來優(yōu)化空間信息的抽取與表達(dá),同時(shí)降低對(duì)語義信息的干擾,提出FEM 來增強(qiáng)模型對(duì)語義信息的編碼表達(dá)能力,優(yōu)化訓(xùn)練過程。為了驗(yàn)證這2 個(gè)模塊的性能,本文在LUNA數(shù)據(jù)集上設(shè)計(jì)了以下消融實(shí)驗(yàn)來進(jìn)行證明。
定義未嵌入SDAB 和FEM 的SDRNet 為基礎(chǔ)(Base)網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果見表1。SDRNet 在LUNA數(shù)據(jù)集上的mIOU 值為96.44%,而基礎(chǔ)網(wǎng)絡(luò)的mIOU值為95.83%,在基礎(chǔ)網(wǎng)絡(luò)僅嵌入SDAB 后mIOU值為96.27%,僅嵌入FEM 的mIOU 值為96.09%,可以看出本文提出的2 個(gè)模塊能進(jìn)一步提升分割性能。
表1 模塊分割性能對(duì)比 %
圖3 給出了更直觀的圖片對(duì)比,對(duì)消融實(shí)驗(yàn)中的4 個(gè)模型輸出的分割結(jié)果可視化后,可以看出SDRNet 對(duì)邊緣細(xì)節(jié)和小區(qū)塊的處理很好,這表明本文提出的模塊能有效恢復(fù)空間信息,優(yōu)化模型對(duì)邊緣和小區(qū)塊的分割性能。
圖3 消融實(shí)驗(yàn)分割結(jié)果可視化示例
本文設(shè)計(jì)FEM 來優(yōu)化訓(xùn)練過程,同時(shí)增強(qiáng)模型對(duì)語義信息的編碼表達(dá)能力。FEM 的加入有利于模型收斂到更優(yōu)的性能,為了驗(yàn)證它對(duì)于訓(xùn)練過程的作用,設(shè)計(jì)如下對(duì)比實(shí)驗(yàn):記錄加入FEM模塊前后模型的訓(xùn)練過程,如圖4 所示,其中沒有嵌入FEM 的最高mIOU 值為95.83%,嵌入后為96.09%。可以看到基礎(chǔ)網(wǎng)絡(luò)嵌入FEM 后,訓(xùn)練過程更穩(wěn)定,同時(shí)也能收斂到更優(yōu)的性能。
圖4 FEM 驗(yàn)證實(shí)驗(yàn)結(jié)果
為了進(jìn)一步驗(yàn)證本文提出的SDRNet 的性能,SDRNet 分別與FCN[1]、U-Net[2]、M-Net[12]、ETNet[11]進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果見表2??梢钥吹?,本文提出的SDRNet 實(shí)現(xiàn)了最優(yōu)的mIOU 值96.44%,超越了其他的模型。
表2 SDRNet 與其他經(jīng)典的模型性能對(duì)比實(shí)驗(yàn)結(jié)果
本文提出了一種空間細(xì)節(jié)恢復(fù)網(wǎng)絡(luò)SDRNet來解決肺部醫(yī)學(xué)圖像分割問題,本文的主要貢獻(xiàn)如下。
1)提出了一種能有效提取、融合空間信息,進(jìn)一步恢復(fù)空間細(xì)節(jié)的模型SDRNet。
2)提出了2 個(gè)特定的模塊:SDAB 與FEM,2 個(gè)模塊的加入?yún)f(xié)同提升了模型的分割性能。
3)LUNA 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)驗(yàn)證了本文提出的模型的性能,結(jié)果表明本文提出的SDRNet性能超越了對(duì)比的經(jīng)典算法。