王雅麗
(西南民族大學(xué)電子信息學(xué)院,成都 610225)
對(duì)現(xiàn)今的醫(yī)學(xué)工作者來(lái)說(shuō),腹部器官分割在研究腹部器官病變時(shí)具有不可或缺的輔助作用[1],是利用計(jì)算機(jī)進(jìn)行輔助診斷、手術(shù)導(dǎo)航、三維重建以及后期治療的重要步驟[2]。
腹部CT 的精確測(cè)量,包括器官體積、形狀和位置,能夠幫助醫(yī)生快速做出精確的診療。由于視野(FOV)很小,而且沒(méi)有方向,特別是對(duì)于資歷尚淺的醫(yī)生來(lái)說(shuō),器官的定位十分困難[3]。針對(duì)上述問(wèn)題,用于腹部多器官的圖像引導(dǎo)技術(shù)可以幫助提供方向和跟蹤線索,甚至在FOV 之外。為了幫助器官導(dǎo)航和跟蹤,我們需要對(duì)多個(gè)器官進(jìn)行分割,如胃腸器官、胰腺和相鄰器官。然而,對(duì)腹部CT 圖像進(jìn)行多器官自動(dòng)分割依然具有挑戰(zhàn)性。首先,腹部器官周圍的軟組織、大的變化和變形使患者的器官大小和形狀明顯不同[4]。其次,每個(gè)相鄰器官之間的低強(qiáng)度對(duì)比[5],為手動(dòng)描繪相鄰器官之間模糊的邊界增加了難度。腹部CT 圖像中的器官通常與周圍器官具有相似的強(qiáng)度,尤其是在非對(duì)比增強(qiáng)數(shù)據(jù)中?,F(xiàn)如今隨著計(jì)算機(jī)性能的提升,深度學(xué)習(xí)已被證實(shí)在醫(yī)學(xué)圖像分割中非常有效,即使在低強(qiáng)度對(duì)比圖像中也是如此[6]。深度學(xué)習(xí)能夠?qū)崿F(xiàn)更好的圖像分割、目標(biāo)檢測(cè)及三維重建。但是,目前大都是對(duì)腹部單一器官進(jìn)行分割,對(duì)于腹部多器官自動(dòng)化分割的研究還尚淺,值得深入研究。
在本文中,為了更好地獲得腹部器官的細(xì)節(jié)信息,提出了一種基于改進(jìn)Swin-Unet[7]的腹部多器官自動(dòng)化分割方法SF-Unet,該方法的網(wǎng)絡(luò)架構(gòu)利用Focal Transformer[8]來(lái)搭建UNet[9]提出的U 形架構(gòu),并使用FFM 模塊作為下采樣層來(lái)提高體積較小組織的分割精度。
本文提出的SF-Unet 算法實(shí)現(xiàn)腹部多器官分割,網(wǎng)絡(luò)架構(gòu)如圖1 所示。Focal Transformer 作為骨干網(wǎng)絡(luò),提出一個(gè)新的下采樣層FFM 模塊,使得網(wǎng)絡(luò)獲取更多有效的細(xì)節(jié)信息,實(shí)現(xiàn)更加精確的多器官分割。
圖1 SF-Unet網(wǎng)絡(luò)架構(gòu)
在Focal Transformer 中,提出一種新的焦點(diǎn)注意力機(jī)制,該機(jī)制能夠在視覺(jué)變換器中實(shí)現(xiàn)有效的遠(yuǎn)程交互。與以往的方法不同,它在精細(xì)的圖像上運(yùn)用局部關(guān)注,在粗糙的圖像上運(yùn)用全局關(guān)注,提供一種以可管理的計(jì)算成本捕獲短距離和長(zhǎng)距離上下文的有效方法,將焦點(diǎn)注意力機(jī)制應(yīng)用到多尺度Transformer架構(gòu)中。
通過(guò)全面實(shí)證研究,結(jié)果表明在各種設(shè)置(即模型大小和復(fù)雜性方面)下,F(xiàn)ocal Transformer的焦點(diǎn)注意力機(jī)制在視覺(jué)Transformer方面可有效獲取有利的圖像特征。
一直以來(lái)Transformer 通過(guò)扁平化投影圖像塊或者合并2 × 2 相鄰塊的特征,再進(jìn)行線性化的處理,來(lái)形成一個(gè)多層次網(wǎng)絡(luò)。但是,該方法很容易導(dǎo)致大量細(xì)節(jié)特征信息的丟失,不利于對(duì)腹部圖像密集且體積較小的組織器官進(jìn)行語(yǔ)義分割。因此,本文設(shè)計(jì)了FFM 作為主干網(wǎng)絡(luò)的下采樣層,能夠最大程度地緩解上述問(wèn)題帶來(lái)的影響,因而可以提升體積較小組織的分割效果。
FFM具有兩個(gè)分支,如圖2所示。其中一個(gè)分支具有空洞卷積,它通過(guò)擴(kuò)張感受野來(lái)廣泛地獲取體積較小組織器官的特征信息。其先是利用1 × 1 卷積增加維數(shù),之后經(jīng)過(guò)3 × 3 擴(kuò)張卷積層獲得廣泛的結(jié)構(gòu)信息,然后采用全局平均池化操作來(lái)獲得特征圖在空間方向(垂直和水平)上的統(tǒng)計(jì)數(shù)據(jù)。具體來(lái)說(shuō),各方向元素的計(jì)算公示如下:
圖2 下采樣FFM模塊
其中:i,j和k表示垂直方向、水平方向和通道的 索 引。特 征z?=f(z),f(·) 是 帶 有 歸 一 化 和GELU 激活函數(shù)的擴(kuò)張卷積層。Vh和Vw為在空間上特征圖的收斂權(quán)重,因此將兩者相乘以獲得與位置相關(guān)的特征圖。最后加入1 × 1 卷積層減少了特征尺度。
另一個(gè)分支則引入軟池化操作來(lái)獲得更加精細(xì)的降采樣。軟池化可以用指數(shù)加權(quán)的方式激活池內(nèi)核中的像素,以保存更詳細(xì)的信息。然后,將軟池化后的特征輸入到一個(gè)卷積層(增加的維數(shù)),以獲得目標(biāo)輸出結(jié)果。
簡(jiǎn)而言之,一個(gè)分支的功能是獲得體積較小組織器官的特征,而另一個(gè)分支的功能是保留更多細(xì)節(jié),這兩個(gè)分支都是同樣重要的。因此,它們以相同的比例合并為下采樣層的輸出。
使用Synapse 數(shù)據(jù)集用于腹部多器官分割。該數(shù)據(jù)集包括30 例患者,共計(jì)3779 張腹部臨床CT 圖像。提取其中18 個(gè)案例來(lái)構(gòu)建訓(xùn)練集,而剩余12 個(gè)案例用于測(cè)試。實(shí)驗(yàn)用95%Hausdorff距離(HD95)和Dice 評(píng)分(DSC)評(píng)估了8 個(gè)腹部器官(主動(dòng)脈、膽囊、脾臟、左腎、右腎、肝臟、胰腺和胃),進(jìn)而展示模型性能。
SF-Unet 是 基 于Python 3.6 和Pytorch 1.7.0 實(shí)現(xiàn)的。對(duì)于所有訓(xùn)練案例,使用翻轉(zhuǎn)和旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)來(lái)增加數(shù)據(jù)多樣性。輸入圖像大小和補(bǔ)丁大小分別設(shè)置為224 × 224 和4。我們?cè)诰哂?2 GB 內(nèi)存的Nvidia V100 GPU 上訓(xùn)練模型,在ImageNet 上預(yù)先訓(xùn)練的權(quán)重用于初始化模型參數(shù)。訓(xùn)練期間,批量大小為24,并且使用動(dòng)量為0.9、權(quán)重衰減為1e-4的流行SGD優(yōu)化器來(lái)優(yōu)化模型以進(jìn)行反向傳播。
損失函數(shù)方面,由于數(shù)據(jù)集中的類別比例不平衡,這導(dǎo)致模型訓(xùn)練側(cè)重于數(shù)據(jù)集中占比較大的類別,而“忽略”占比較小的類別。為了解決這一問(wèn)題,我們采用聯(lián)合損失[10]LDice和交叉熵?fù)p失LCE進(jìn)行監(jiān)督。聯(lián)合損失L表示如下:
在Synapse 多器官CT 數(shù)據(jù)集上,所提出的SF-Unet 與現(xiàn)有方法比較結(jié)果如表1 所示。實(shí)驗(yàn)結(jié)果表明,本文方法實(shí)現(xiàn)了最佳性能,分割精度為80.01%(DSC↑)和21.29%(HD↓),并且在膽囊(Gallbladder)、右腎(Left Kidney)、肝臟(liver)、胰腺(pancreas)這四個(gè)器官的分割中表現(xiàn)優(yōu)秀。分割可視化結(jié)果如圖3所示。
圖3 不同方法可視化比較
表1 不同方法在Synapse多器官CT數(shù)據(jù)集上的分割精度
本文提出了一種基于改進(jìn)Swin-Unet 的腹部多器官分割方法SF-Unet,設(shè)計(jì)了新的下采樣層FFM 以保留更多的圖像詳細(xì)特征,以提高方法的全局建模能力。所提方法對(duì)比當(dāng)前主流醫(yī)學(xué)語(yǔ)義分割方法,分割精度有一定提高,器官分割位置清晰,器官邊緣信息保留程度高。我們將在接下來(lái)的研究中繼續(xù)探討SF-Unet 在三維醫(yī)學(xué)圖像分割中的應(yīng)用。