張 歡,劉 靜,馮毅博,仇大偉
山東中醫(yī)藥大學(xué) 智能與信息工程學(xué)院,濟(jì)南 250355
近年來,醫(yī)學(xué)臨床數(shù)據(jù)呈現(xiàn)爆發(fā)式增長。據(jù)統(tǒng)計(jì),我國的醫(yī)學(xué)數(shù)據(jù)增長速率約為30%。海量的醫(yī)學(xué)影像數(shù)據(jù)極大地增加了醫(yī)生診斷的負(fù)擔(dān),但也推動(dòng)了人工智能在醫(yī)療領(lǐng)域的快速發(fā)展與應(yīng)用,“智能醫(yī)療”“輔助診斷”等新興詞匯逐漸走向大眾視野[1-2]。傳統(tǒng)的機(jī)器學(xué)習(xí)通過手工設(shè)計(jì)特征提取算法進(jìn)行疾病分類,這種方法泛化性能較差,且準(zhǔn)確率不高。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的分支,由于其能自動(dòng)從大樣本數(shù)據(jù)中學(xué)習(xí)獲得優(yōu)良的特征表達(dá),有效提升各種機(jī)器學(xué)習(xí)任務(wù)的性能,近年來得到了迅速發(fā)展[3]。其中,卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中的經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu),具有很強(qiáng)的提取圖像特征的能力,且網(wǎng)絡(luò)參數(shù)量小,泛化能力強(qiáng)[4]。U-Net[5]網(wǎng)絡(luò)作為卷積神經(jīng)網(wǎng)絡(luò)的一種,于2015年提出。其采用編解碼器的思想,實(shí)現(xiàn)了圖像端到端的自動(dòng)分割,特別是針對少量的醫(yī)學(xué)數(shù)據(jù),仍具有較好的分割性能,故在醫(yī)學(xué)圖像分割領(lǐng)域得到了廣泛應(yīng)用。針對U-Net做出的各種改進(jìn)工作也對醫(yī)學(xué)圖像處理技術(shù)的提升做出了很大的貢獻(xiàn)。
肝癌是發(fā)生在人體肝臟部位的惡性腫瘤,對肝癌的早期診斷能夠有效降低患者死亡率。而實(shí)現(xiàn)肝臟區(qū)域的精準(zhǔn)分割以及對肝臟腫瘤數(shù)量和良惡性的判斷能夠輔助醫(yī)生對肝臟疾病進(jìn)行診斷和治療[6]。傳統(tǒng)分割方法需要耗費(fèi)大量的人力和時(shí)間進(jìn)行數(shù)據(jù)的手工標(biāo)注,且肝臟與周圍器官灰度相近,肝臟和肝臟腫瘤的形狀和位置也因病人差異而不同,肝臟和肝臟腫瘤的分割面臨很大的挑戰(zhàn)[7]。故許多研究者針對肝臟腫瘤分割的相關(guān)工作進(jìn)行了歸納綜述,旨在分析肝臟研究工作發(fā)展現(xiàn)狀,促進(jìn)肝臟腫瘤分割領(lǐng)域的發(fā)展。如樂美琰等人[8]從非機(jī)器學(xué)習(xí)方法和機(jī)器學(xué)習(xí)方法兩個(gè)角度對肝癌病灶自動(dòng)分割的進(jìn)展予以綜述。馬金林等人[9]則總結(jié)了全卷積網(wǎng)絡(luò)、U-Net網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)這三種深度學(xué)習(xí)分割方法在肝臟腫瘤CT圖像分割工作中的應(yīng)用。郭雯等人[10]對包括肝臟在內(nèi)的多個(gè)器官自動(dòng)分割研究進(jìn)展工作進(jìn)行了論述。
U-Net作為醫(yī)學(xué)圖像分割中的經(jīng)典網(wǎng)絡(luò),雖然在很多醫(yī)學(xué)圖像的分割中表現(xiàn)良好,但原始的U-Net網(wǎng)絡(luò)只針對二維圖像進(jìn)行分割,且在特征提取、分割精度、網(wǎng)絡(luò)性能等諸多方面仍存在不足。對U-Net網(wǎng)絡(luò)進(jìn)行改進(jìn),從而實(shí)現(xiàn)肝臟和肝臟腫瘤的自動(dòng)精準(zhǔn)分割對臨床診斷有著重要意義。因此,不同于上述綜述,本文僅針對于U-Net結(jié)構(gòu)改進(jìn)及其在肝臟和肝臟腫瘤分割上的應(yīng)用進(jìn)行深入研究。本文介紹了肝臟及肝臟腫瘤分割常用數(shù)據(jù)集及評價(jià)指標(biāo),并歸納梳理了U-Net網(wǎng)絡(luò)結(jié)構(gòu)的相關(guān)改進(jìn)工作,然后從單網(wǎng)絡(luò)結(jié)構(gòu)和多網(wǎng)絡(luò)結(jié)構(gòu)兩個(gè)方面對U-Net網(wǎng)絡(luò)在肝臟及肝臟腫瘤分割領(lǐng)域的應(yīng)用進(jìn)行了綜述,最后討論了U-Net及其相關(guān)改進(jìn)網(wǎng)絡(luò)應(yīng)用于肝臟及肝臟腫瘤分割面臨的挑戰(zhàn)和未來的發(fā)展趨勢。
(1)LiTS數(shù)據(jù)集
LiTS數(shù)據(jù)集是肝臟腫瘤分割挑戰(zhàn)賽(Liver Tumor Segmentation Challenge)所使用的公共數(shù)據(jù)集,也是目前肝臟及肝臟腫瘤分割研究中最為常用的數(shù)據(jù)集,由CodaLab組織提供。該數(shù)據(jù)集包括含有130例CT掃描的訓(xùn)練集和含有70例CT掃描的測試集。每次掃描包括的CT切片數(shù)量為42到1 026不等,軸向平面分辨率均為512×512像素,切片層間距為0.45 mm至6.0 mm之間。其中,訓(xùn)練數(shù)據(jù)集由世界各地的6個(gè)臨床站點(diǎn)的4名放射科醫(yī)生進(jìn)行了手動(dòng)標(biāo)注,而測試集未進(jìn)行標(biāo)記。由于數(shù)據(jù)來源不唯一,使得數(shù)據(jù)集的重建層厚,同時(shí)切片的厚度、掃描圖像的存儲方向、圖像質(zhì)量和空間分辨率等存在顯著差異,這在一定程度上增加了使用該數(shù)據(jù)集進(jìn)行肝臟病灶分割的難度。但由于該數(shù)據(jù)集數(shù)量相對較多,圖像質(zhì)量相對較高,其仍然是目前最為廣泛使用的肝臟和肝臟腫瘤分割數(shù)據(jù)集。
(2)3D-IRCADb數(shù)據(jù)集
用于算法數(shù)據(jù)庫比較的三維圖像重建數(shù)據(jù)集(3D image reconstruction for comparison of algorithm database,3D-IRCADb)作為公開數(shù)據(jù)集,在相關(guān)研究中也得到了廣泛使用。該數(shù)據(jù)集提供了更為復(fù)雜的肝臟及其病變數(shù)據(jù),包含匿名患者的醫(yī)學(xué)圖像和臨床專家對感興趣區(qū)域進(jìn)行手動(dòng)分割后的圖像。其中,3D-IRCADb-01由10名女性和10名男性的增強(qiáng)CT掃描組成,其中75%的患者患有肝臟腫瘤;3D-IRCADb-02則包括2個(gè)匿名的胸腹增強(qiáng)3D CT掃描,如圖1所示。該數(shù)據(jù)集的分辨率同樣為512×512像素,但是數(shù)據(jù)集中有部分肝臟和肝臟腫瘤的對比度偏低,肝臟和肝臟腫瘤區(qū)域幾乎重疊,這在一定程度上會影響模型訓(xùn)練,進(jìn)而對分割結(jié)果產(chǎn)生影響。在使用時(shí),需適當(dāng)進(jìn)行預(yù)處理。
圖1 3D-IRCADb提供的模型Fig.1 Models offered by 3D IRCADb
(3)ISICDM 2019數(shù)據(jù)集
2019年圖像計(jì)算與數(shù)字醫(yī)學(xué)國際研討會(the 2019 International Symposium on Image Computing and Digital Medicine,ISICDM2019)臨床數(shù)據(jù)分析挑戰(zhàn)賽提供的肝臟分割數(shù)據(jù)集為60例肝臟CT圖像,數(shù)據(jù)集圖像大小不同,但分辨率固定為1 mm×1 mm×5 mm,數(shù)據(jù)來源為江蘇省人民醫(yī)院。該數(shù)據(jù)集均為肝臟門靜脈期CT增強(qiáng)圖像,所有病例均人工勾畫出了肝臟輪廓及病灶輪廓,以實(shí)現(xiàn)肝臟輪廓分割和肝臟病灶分割的目的。
(4)SLiver07數(shù)據(jù)集
The Segmentation of the Liver Competition 2007(SLIVER07)數(shù)據(jù)集來自MICCAI 2007的肝臟腫瘤分割挑戰(zhàn)賽。該數(shù)據(jù)包括20例訓(xùn)練集數(shù)據(jù)和10例測試集數(shù)據(jù)。其中,訓(xùn)練集數(shù)據(jù)由專家進(jìn)行了人工標(biāo)注。該數(shù)據(jù)集軸向切片數(shù)量為64到502不等,切片層間距為0.7 mm至5.0 mm之間,切片分辨率為512×512像素。由于該數(shù)據(jù)集是2007年的公開數(shù)據(jù)集,近幾年使用較少,在實(shí)際研究中,常將其與LiTS數(shù)據(jù)集合并,作為最常用的肝臟和肝臟腫瘤分割數(shù)據(jù)集。
(5)TCGA-LIHC數(shù)據(jù)集
肝癌基因組圖譜(the cancer genome Atlas liver hepatocellular carcinoma,TCGA-LIHC)數(shù)據(jù)集是由美國國家癌癥和腫瘤研究所以及國家人類基因研究所聯(lián)合開展收集的,旨在通過提供與癌癥基因組圖譜(TCGA)中的受試者匹配的臨床圖像,將癌癥表型與基因型聯(lián)系起來。該數(shù)據(jù)集包括97名受試者的臨床數(shù)據(jù)。數(shù)據(jù)類型包括CT圖像、MR圖像和正電子放射斷層掃描成像(positron emission tomography,PT)。但由于該數(shù)據(jù)集是從世界各地許多地點(diǎn)進(jìn)行收集的,故圖像數(shù)據(jù)因?yàn)閽呙鑳x模式、采集協(xié)議等存在異構(gòu)。同時(shí),由于該數(shù)據(jù)集采集目的更傾向于臨床數(shù)據(jù)與基因組序列聯(lián)系的研究,故未對肝臟和肝臟腫瘤邊界進(jìn)行標(biāo)記,實(shí)際應(yīng)用中需根據(jù)分割需求進(jìn)行人工標(biāo)記處理。該數(shù)據(jù)集相比于其他公開數(shù)據(jù)集在分割研究中應(yīng)用較少。
(6)其他數(shù)據(jù)集
除了上述公開數(shù)據(jù)集外,還有一些研究者使用了一些內(nèi)部數(shù)據(jù)或臨床數(shù)據(jù)集,用于肝臟和肝臟腫瘤的分割研究。如Xu等人[11]在對肝臟腫瘤分割進(jìn)行模型評估時(shí),采用的是來自上海癌癥中心的40名患者的數(shù)據(jù)集,腫瘤類型包括原發(fā)性和繼發(fā)性兩種。數(shù)據(jù)集包括術(shù)前T1 MR圖像和術(shù)中未使用造影劑的CT圖像。其中,MR圖像的尺寸主要有320×260像素和256×256像素兩種;CT圖像尺寸大小均為512×512像素,厚度為3 mm,間距為0.732 mm×0.732 mm到0.920 mm×0.920 mm不等。Schlemper等人[12]則使用了CT-150數(shù)據(jù)集,該數(shù)據(jù)集由150名胃癌患者的腹部三維CT掃描圖像組成,所有圖像中胰腺、肝臟和脾臟的邊界均由3名專業(yè)的研究人員進(jìn)行了人工標(biāo)注,并由一名臨床醫(yī)生手工驗(yàn)證,以確保數(shù)據(jù)集質(zhì)量。各數(shù)據(jù)集基本情況,如表1所示。
表1 肝臟及肝臟腫瘤分割常用數(shù)據(jù)集Table 1 Datasets used for segmentation of liver and liver tumors
肝臟及肝臟腫瘤分割常用評價(jià)指標(biāo)包括Dice系數(shù)、Jaccard相似系數(shù)、體積重疊誤差(volume overlap error,VOE)、相對體積差異(relative volume difference,RVD)、平均對稱表面距離(average symmetric surface distance,ASSD)、最大對稱表面距離(maximum symmetric surface distance,MSSD)等[13]。若用A表示理論結(jié)果,用B表示實(shí)際分割結(jié)果,相關(guān)評價(jià)指標(biāo)如下。
1.2.1 Dice系數(shù)
Dice系數(shù)是圖像分割最常用的評價(jià)指標(biāo),它表示分割結(jié)果與標(biāo)記之間的重疊相似度。取值范圍在0~1之間,且越接近1,代表分割效果越好。具體計(jì)算公式為:
1.2.2 Jaccard相似系數(shù)
Jaccard相似系數(shù)同Dice系數(shù)類似,用于衡量分割結(jié)果與標(biāo)記之間的相似性,取值范圍在0~1之間。其值越大,代表樣本的分割結(jié)果與標(biāo)記之間的差異越小,分割效果越好。
1.2.3 VOE
VOE與Dice系數(shù)類似,是分割結(jié)果和標(biāo)記的體積重疊誤差,表示分割的錯(cuò)誤率大小,取值范圍在0~1之間。其值越大,代表分割效果越差。具體計(jì)算公式如下:
1.2.4 RVD
RVD用來表示分割結(jié)果與標(biāo)記之間的體積相對差異,取值可正可負(fù)。具體計(jì)算公式如下:
1.2.5 ASSD
ASSD,又稱ASD,它用于表示分割結(jié)果和標(biāo)記對稱位置的平均距離,以mm為單位。其值越接近0,說明分割效果越接近完美。具體公式如下:
其中,S(A)表示A的表面體素集合,任意體素到S(A)的最短距離表示為:
1.2.6 MSSD
MSSD,又稱MSD,它用于表示分割結(jié)果和標(biāo)記對稱位置距離的最大值,同樣以mm為單位。與ASSD類似,其值越接近0越表示分割效果接近完美。具體公式如下:
上述各項(xiàng)指標(biāo)可大致歸為兩類。一類是基于體積差異進(jìn)行衡量的指標(biāo),如Dice系數(shù)、Jaccard相似系數(shù)、VOE和RVD。其中,Dice系數(shù)和VOE相似,能夠直觀反映分割結(jié)果與標(biāo)記之間的相似度,是最為常用的評價(jià)指標(biāo)。而RVD所反映的差異僅僅是體積量的差異。RVD為0,并不意味著分割結(jié)果與標(biāo)記完全重疊,故不單獨(dú)用于分割效果的衡量。但是RVD與其他評價(jià)指標(biāo)結(jié)合使用,不僅能反映體積信息,也能夠體現(xiàn)出是否存在過分割或欠分割,這對于肝臟及肝臟腫瘤區(qū)域分割效果的判定十分重要。另一類是基于表面距離進(jìn)行判斷的指標(biāo),如ASSD和MSSD。ASSD也是最為常用的評價(jià)指標(biāo)之一。由于MSSD對離群值很敏感,且能夠反映出真實(shí)的最大值誤差,在某些分割效果判定時(shí),MSSD甚至比ASSD更重要。
針對于肝臟及肝臟腫瘤區(qū)域分割效果的評定而言,對體積誤差的評估可能比距離測量更可取。但是,不同的評價(jià)指標(biāo)強(qiáng)調(diào)了分割質(zhì)量的不同方面。使用多種指標(biāo)綜合度量,能夠傳達(dá)更多的信息,更好地估計(jì)整體分割質(zhì)量。故研究者常選擇上述評價(jià)指標(biāo)中的幾種或全部,進(jìn)行綜合評價(jià)。
U-Net網(wǎng)絡(luò)模型于2015年由Ronneberger等人[5]提出,其網(wǎng)絡(luò)最開始用于細(xì)胞壁的分割。由于其在醫(yī)學(xué)圖像分割領(lǐng)域,特別是針對小樣本數(shù)據(jù)集的良好表現(xiàn),逐漸被廣泛應(yīng)用于視網(wǎng)膜血管分割、腦腫瘤分割、肝臟腫瘤分割等各類醫(yī)學(xué)圖像分割中。U-Net網(wǎng)絡(luò)模型與同時(shí)期提出的FCN網(wǎng)絡(luò)[14]模型相比有諸多相似和不同之處。二者均使用了編碼器和解碼器的思想,但是U-Net相比于FCN而言,其網(wǎng)絡(luò)結(jié)構(gòu)更加完善。通過編碼器進(jìn)行特征提取后,再由解碼器進(jìn)行上采樣,逐步恢復(fù)原始圖像大小。同時(shí),U-Net采用跳躍連接的方式,將底層特征與深層特征通過逐點(diǎn)相加的方式進(jìn)行融合,充分利用上下文語義信息,提高網(wǎng)絡(luò)分割性能。
隨著醫(yī)學(xué)圖像處理領(lǐng)域的任務(wù)要求的提高,研究者們基于U-Net網(wǎng)絡(luò)模型進(jìn)行了諸多改進(jìn)工作。通過結(jié)構(gòu)的改進(jìn)與完善,顯著提升了網(wǎng)絡(luò)的分割性能,加快了網(wǎng)絡(luò)分割效率。根據(jù)U-Net模型的網(wǎng)絡(luò)結(jié)構(gòu),對相關(guān)改進(jìn)工作歸納如下。
U-Net網(wǎng)絡(luò)模型采用了編解碼器的思想。編解碼器均包含四個(gè)子模塊,每個(gè)子模塊內(nèi)含有兩個(gè)卷積層,并通過ReLU進(jìn)行激活。下采樣使用最大池化層,使得特征尺寸減半,通道數(shù)加倍,進(jìn)行特征的提取;上采樣通過反卷積操作,逐步恢復(fù)圖像大小。原始U-Net的編解碼器設(shè)計(jì)相對簡單,故無法充分提取特征,進(jìn)而影響了分割精度的提升。研究者在編解碼器的基礎(chǔ)上,進(jìn)行了各種改進(jìn)工作。針對編解碼器部分的改進(jìn)主要是引入殘差模塊、Dense模塊和注意力模塊等各種經(jīng)典模塊,或?qū)ψ幽K內(nèi)部的普通卷積進(jìn)行替換,使用可變形卷積、擴(kuò)張卷積、循環(huán)卷積等,以充分提取特征,進(jìn)而提高網(wǎng)絡(luò)模型的分割性能。
2.1.1 引入新模塊
(1)殘差模塊。早期神經(jīng)網(wǎng)模型,如AlexNet、VGG、GoogLeNet等,主要是通過對網(wǎng)絡(luò)層數(shù)的加深和參數(shù)優(yōu)化來提高網(wǎng)絡(luò)對特征的提取能力,進(jìn)而提升網(wǎng)絡(luò)性能。但是簡單的層數(shù)加深操作除了會增加網(wǎng)絡(luò)訓(xùn)練時(shí)間和參數(shù)量外,還易導(dǎo)致梯度消失和梯度爆炸。而ResNet網(wǎng)絡(luò)中提出殘差連接的概念,即將底層的輸出通過殘差路徑輸入到網(wǎng)絡(luò)深層,由殘差塊進(jìn)行殘差的學(xué)習(xí)和擬合,促進(jìn)訓(xùn)練過程中梯度的反向傳播,從而有效解決了網(wǎng)絡(luò)層數(shù)過深導(dǎo)致性能退化的問題,這種思想在后續(xù)網(wǎng)絡(luò)改進(jìn)中得到了很大應(yīng)用。Milletari等人[15]提出的V-Net網(wǎng)絡(luò),首次將ResNet的短路連接思想應(yīng)用于U-Net網(wǎng)絡(luò)結(jié)構(gòu)中。通過在編解碼器的每個(gè)子模塊內(nèi)使用殘差連接,從而確保短時(shí)間內(nèi)收斂。Ibtehaz等人[16]提出的MultiResUNet網(wǎng)絡(luò)中,為了縮小編碼器和解碼器之間的特征差異,則引入了1×1殘差卷積模塊,使得編碼器和解碼器中的兩幅特征圖更加同構(gòu)。雖然殘差連接的思想能夠使得網(wǎng)絡(luò)向更深層次發(fā)展,有效提高網(wǎng)絡(luò)準(zhǔn)確率,但是也會在一定程度上增加網(wǎng)絡(luò)的訓(xùn)練時(shí)間。
(2)Dense模塊。密集連接的思想來源于DenseNet,其將某層網(wǎng)絡(luò)作為之后若干層網(wǎng)絡(luò)的輸入進(jìn)行通道上的連接,實(shí)現(xiàn)了特征重用,在減少參數(shù)量和保證分割精度的同時(shí),提高了模型效率;另外,相比于殘差模塊,Dense模塊能夠?qū)⒍鄠€(gè)層次的特征圖進(jìn)行連接,有助于充分結(jié)合上下文信息,進(jìn)而能夠處理更為復(fù)雜的圖像數(shù)據(jù)。密集連接可以說是對殘差連接思想的進(jìn)一步升華,也為U-Net的相關(guān)改進(jìn)提供了一些思路。如Zhang等人[17]在U-Net的基礎(chǔ)上,提出了三種不同的多尺度密集連接,形成新的網(wǎng)絡(luò)架構(gòu)MDU-Net。該網(wǎng)絡(luò)直接將相鄰上下兩層的不同大小的特征圖進(jìn)行融合,增強(qiáng)了特征在該層的傳播;三種不同的密集連接的結(jié)合也減少了單一密集連接造成的過擬合。Guan等人[18]則將U-Net子模塊替換為全密集連接模塊(Dense Block),提出了Fully Dense UNet(FD-UNet)用于去除圖像中的偽影。Dolz等人[19]提出的Dense Multi-path U-Net網(wǎng)絡(luò)則應(yīng)用Dense思想將不同模態(tài)所有卷積層進(jìn)行密集連接,使得網(wǎng)絡(luò)在任何層次下可以自由學(xué)習(xí)任何模式,從而提高了模型的學(xué)習(xí)能力。
雖然密集連接模塊在保證分割精度的前提下降低了參數(shù)量和計(jì)算成本,并通過對特征的重用提高了模型效率,但這種特點(diǎn)也增加了網(wǎng)絡(luò)的冗余度,在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí)會導(dǎo)致顯存占用較高,在應(yīng)用時(shí)需適當(dāng)考慮顯存優(yōu)化問題。
(3)Inception模 塊。Inception模 塊 是 在 經(jīng) 典 的GoogLeNet網(wǎng)絡(luò)中首次提出的概念,通過3×3、5×5等不同尺寸大小的卷積核并行處理,能夠進(jìn)行多尺度特征提取,提高了網(wǎng)絡(luò)對尺度的適應(yīng)性;而借助1×1卷積能夠有效減少特征通道數(shù),進(jìn)而在提取不同尺寸特征的同時(shí),大大降低參數(shù)量??梢哉f,Inception模塊的提出是將網(wǎng)絡(luò)加寬的有效嘗試。但是該模塊也引入了一些無關(guān)信息,且并行多個(gè)卷積塊會導(dǎo)致內(nèi)存需求增加。因此,Ibtehaz等人[16]提出MultiResUNet網(wǎng)絡(luò),在U-Net網(wǎng)絡(luò)中引入Inception模塊,并加以改進(jìn)。該網(wǎng)絡(luò)使用了更小更輕量的3×3卷積塊序列代替原有Inception模塊中的5×5和7×7卷積,在保證多尺度特征提取的同時(shí),又避免了并行多個(gè)卷積模塊造成的較大內(nèi)存需求的問題。
(4)Attention模塊。Attention機(jī)制模仿了生物觀察行為的過程,即通過快速掃描全局圖像,獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,進(jìn)而對該區(qū)域投入更多注意力。Attention模塊中的注意門控能夠?yàn)樘卣鲌D的元素賦予權(quán)重,使神經(jīng)網(wǎng)絡(luò)在進(jìn)行學(xué)習(xí)時(shí),有重點(diǎn)地進(jìn)行關(guān)注,突出有用的顯著性的特征,抑制無關(guān)特征,有效提升了網(wǎng)絡(luò)分割效率,同時(shí)減少網(wǎng)絡(luò)參數(shù)量。Oktay等人[20]提出的Attention U-Net是Attention機(jī)制在U-Net網(wǎng)絡(luò)應(yīng)用的典型。通過在編碼器和解碼器特征進(jìn)行拼接之前插入Attention模塊,使網(wǎng)絡(luò)消除掉了跳躍連接過程中不相關(guān)信息和噪聲,只合并相關(guān)內(nèi)容。Li等人[21]則在具有密集跳躍連接的網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,提出了基于注意力的嵌套分割網(wǎng)絡(luò)ANU-Net。該網(wǎng)絡(luò)在嵌套的卷積塊之間引入了注意力機(jī)制,從而在進(jìn)行不同層次特征提取的時(shí)候增加目標(biāo)區(qū)域的權(quán)值,同時(shí)抑制與分割任務(wù)無關(guān)的區(qū)域,使得網(wǎng)絡(luò)具有更好的分割性能。
由此可以看出,Attention機(jī)制能夠靈活捕捉全局信息和局部信息之間的聯(lián)系,提高模型訓(xùn)練效率,減少訓(xùn)練時(shí)間。但是這種有側(cè)重點(diǎn)的學(xué)習(xí)方式有可能破壞深層網(wǎng)絡(luò)的特征信息,影響模型學(xué)習(xí)效果[22]。
(5)多模塊結(jié)合。由于不同模塊具有其自身的特點(diǎn),在實(shí)際應(yīng)用中,許多研究者往往綜合考慮各模塊優(yōu)缺點(diǎn),適當(dāng)選擇一種或幾種模塊,對編解碼器進(jìn)行合理改進(jìn),以實(shí)現(xiàn)最佳的網(wǎng)絡(luò)性能。如Song等人[23]在U-Net的基礎(chǔ)上提出了BSU-Net,該網(wǎng)絡(luò)在編碼器中同時(shí)引入了Dense模塊、Inception模塊和擴(kuò)張卷積,用于避免梯度消失,并擴(kuò)大感受野,提高分割精度。Zhang等人[24]提出的DENSE-Inception U-Net同樣將殘差模塊、Inception模塊和密集連接三者的思想進(jìn)行了結(jié)合。通過Inception-Res模塊替換標(biāo)準(zhǔn)卷積層來增加網(wǎng)絡(luò)的寬度,設(shè)計(jì)Density-Inception模塊來提取特征,在不增加其他參數(shù)的情況下,使網(wǎng)絡(luò)能夠更深層。實(shí)驗(yàn)結(jié)果也進(jìn)一步證實(shí)了各模塊的有效性。
2.1.2 引入新卷積
(1)可變形卷積。傳統(tǒng)卷積塊是固定不可變的,對未知變化適應(yīng)性差,這在一定程度上導(dǎo)致網(wǎng)絡(luò)泛化能力不強(qiáng)。而可變形卷積則在卷積核的每一個(gè)元素上額外增加了一個(gè)方向參數(shù),使得卷積能夠根據(jù)當(dāng)前識別的圖像內(nèi)容自適應(yīng)地學(xué)習(xí)并調(diào)整感受野范圍,從而適應(yīng)不同物體在形狀、大小等方面的幾何形變。受可變形卷積的啟發(fā),Jin等人[25]提出了名為Deformable U-Net(DU-Net)的網(wǎng)絡(luò),在編碼器和解碼器中使用可變形卷積塊代替原有的卷積塊用于捕獲幾何變化,從而使得網(wǎng)絡(luò)能夠根據(jù)血管的尺度和形狀變化自適應(yīng)地調(diào)整感受野大小,進(jìn)而捕獲各種形狀和尺度的視網(wǎng)膜血管。但是由于可變形卷積引入了方向參數(shù),需要對不連續(xù)的位置變量進(jìn)行求導(dǎo),這會在一定程度上增加網(wǎng)絡(luò)模型的計(jì)算量。
(2)擴(kuò)張卷積。原始FCN、U-Net等編解碼器結(jié)構(gòu)一般是在編碼器部分通過先卷積再池化的操作來擴(kuò)大感受野,以捕獲更多特征信息。但是下采樣的過程降低了圖像分辨率,這會導(dǎo)致一些信息的丟失,影響分割結(jié)果。為了解決這個(gè)問題,擴(kuò)張卷積被提出。擴(kuò)張卷積又稱為空洞卷積或膨脹卷積,是指在標(biāo)準(zhǔn)卷積核參數(shù)保持不變的同時(shí),在相鄰元素間注入空洞,擴(kuò)大卷積核的尺寸,從而在不損失特征圖尺寸的情況下增加了感受野范圍。Chen等人[26]提出的三維擴(kuò)張型多纖維網(wǎng)絡(luò)(DMFNet)中,借鑒了擴(kuò)張卷積的思想。其利用softmax約束并行擴(kuò)張型卷積分支的權(quán)值,用于獲得多尺度圖像表示,從而提高了腦腫瘤的分割精度。根據(jù)擴(kuò)張卷積特點(diǎn)可以看出,當(dāng)網(wǎng)絡(luò)需要較大感受野,而計(jì)算資源有限難以提高卷積核數(shù)量和大小時(shí),能夠考慮使用。但是擴(kuò)張卷積的膨脹率設(shè)置不合理,也會導(dǎo)致信息丟失,影響分割精度,在應(yīng)用時(shí)需注意合理設(shè)置膨脹率參數(shù)。
(3)循環(huán)卷積。循環(huán)卷積是周期卷積的一種,能夠?qū)哂邢嚓P(guān)性的序列數(shù)據(jù)進(jìn)行處理,在UNet結(jié)構(gòu)改進(jìn)中也得到了應(yīng)用。受殘差模塊、RCNN、U-Net的啟發(fā),Alom等人[27]在U-Net的基礎(chǔ)上提出了循環(huán)卷積網(wǎng)絡(luò)(RU-Net)和循環(huán)殘差卷積結(jié)構(gòu)(R2U-Net)。循環(huán)卷積和殘差操作使得網(wǎng)絡(luò)在不增加參數(shù)量的同時(shí),提升了分割性能。雖然循環(huán)卷積能夠很好地捕捉序列數(shù)據(jù)的語義信息,增強(qiáng)了網(wǎng)絡(luò)模型對特征長期依賴的捕獲能力,但是這種思想更多是在基于RNN的醫(yī)學(xué)影像算法中使用,且對于單一切片的分割任務(wù)優(yōu)勢并不明顯。
(4)協(xié)調(diào)引導(dǎo)卷積。經(jīng)典卷積層之間的信息傳遞通常局限在某層的接受域內(nèi),這限制了經(jīng)典卷積層表示全局位置信息的能力。而協(xié)調(diào)引導(dǎo)卷積是對傳統(tǒng)卷積的擴(kuò)展,通過添加額外的坐標(biāo)通道來集成位置信息,彌補(bǔ)傳統(tǒng)卷積的不足。Wang等人[28]在對肺部區(qū)域進(jìn)行自動(dòng)分割時(shí),在解碼器的最后一個(gè)轉(zhuǎn)換中對傳統(tǒng)卷積分別添加了三個(gè)額外通道表示輸入的3D圖像的x、y、z坐標(biāo),進(jìn)而擴(kuò)展為協(xié)調(diào)引導(dǎo)卷積,用于生成肺葉位置信息的附加特征圖,有效減少了不同肺葉的誤分類,提高了分割精度。但由于協(xié)調(diào)引導(dǎo)卷積增加了額外的參數(shù)量,會適當(dāng)影響模型訓(xùn)練效率。
針對編解碼器改進(jìn)方法總結(jié)如表2所示。
表2 U-Net編解碼器改進(jìn)方法小結(jié)Table 2 Summary of improved methods for U-Net encoding-decoding
U-Net模型中,經(jīng)過反卷積之后的輸出結(jié)果將與下采樣中對應(yīng)子模塊的輸出結(jié)果進(jìn)行逐點(diǎn)相加,然后再送入上采樣子模塊進(jìn)行卷積。這種跳躍連接的方式,將淺層特征與深層特征進(jìn)行了融合。但是由于特征層級不同,相關(guān)信息特征在融合時(shí)容易丟失。針對該問題,許多研究者嘗試對U-Net結(jié)構(gòu)中的跳躍連接結(jié)構(gòu)進(jìn)行了改進(jìn),以促進(jìn)特征融合,盡量保留信息。針對跳連部分的改進(jìn)主要有加法融合、密集跳躍連接、全尺度跳躍連接、加入attention機(jī)制等。
(1)加法融合。原始的U-Net網(wǎng)絡(luò)中,通過跳躍連接將編碼器和解碼器的特征進(jìn)行拼接融合,而在之后的網(wǎng)絡(luò)改進(jìn)中,有些研究者嘗試將其以加法的形式進(jìn)行跳連,也取得了很好的效果。如在Chen等人[29]提出的Bridged U-Net、Zhuang等人[30]提出的LadderNet網(wǎng)絡(luò)中,均采用加法跳連,將兩個(gè)分支的特征直接相加,從而有利于解決參數(shù)量過多的問題。
(2)密集跳躍連接。原始U-Net是將編碼器中的淺層輸出結(jié)果通過跳躍連接直接與解碼器中的深層網(wǎng)絡(luò)輸出進(jìn)行連接,這種將不同語義特征直接、單一進(jìn)行融合的方式,會在一定程度上降低分割效果。為了滿足醫(yī)學(xué)圖像處理對精度的高要求,Zhou等人[31]提出了UNet++網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)主要在跳連部分增加了一系列嵌套的密集跳躍連接,用于增加梯度流,縮小語義差異,有效提高了分割精度。但是由于UNet++沒有從全尺度充分挖掘信息,不能非常明確地標(biāo)明器官位置和邊界,為了彌補(bǔ)不足,Huang等人[32]進(jìn)一步提出了UNet3+網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中使用全尺度密集跳躍連接,使得網(wǎng)絡(luò)能夠充分利用多尺度特征,同時(shí)含有較少的參數(shù)。
(3)加入Attention機(jī)制。注意力機(jī)制除了在編解碼器部分使用外,還可用于跳躍連接部分?;A(chǔ)的Attention可以對特征圖元素賦予權(quán)重,以突出顯著性特征。而Fu等人[33]則在此基礎(chǔ)上,提出了包含位置注意模塊(PA)和通道注意模塊(CA)的雙注意網(wǎng)絡(luò)用于場景分割。位置注意模塊能夠根據(jù)所有位置特征的加權(quán)和有選擇性地聚合每個(gè)位置的特征,因此無論距離多遠(yuǎn),相似的特征都能夠被關(guān)聯(lián)起來。而通道注意模塊則從通道角度對關(guān)聯(lián)特征進(jìn)行整合,從而選擇性地強(qiáng)調(diào)相互依賴的特征圖。兩種注意模塊的結(jié)合,能夠有效提升分割精度。受雙注意機(jī)制的啟發(fā),谷鵬輝等人[34]提出AtGBU-Net用于視網(wǎng)膜血管分割。為了使上采樣獲取的特征圖包含更多的語義信息,該網(wǎng)絡(luò)在進(jìn)行反卷積操作后加入了PA;同時(shí)在進(jìn)行跳躍連接前加入了CA,使得對應(yīng)編碼器的特征圖包含更多的空間信息。
根據(jù)上述跳躍連接的改進(jìn)工作能夠明確,密集跳躍連接能夠?qū)⒉煌瑢蛹壍奶卣鬟M(jìn)行充分的融合,縮小了語義差異,能夠在一定程度上提高分割性能,但是要以計(jì)算成本為代價(jià)。而加法融合的思想相比于原始U-Net的拼接融合,大大減少了參數(shù)量,但由于這種改進(jìn)方式過于單一,其對網(wǎng)絡(luò)性能提升所發(fā)揮的作用有限。而Attention機(jī)制能夠通過對信息的選擇性關(guān)注,在提高網(wǎng)絡(luò)分割性能的同時(shí),能夠提高網(wǎng)絡(luò)效率,減小計(jì)算量,在網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)中發(fā)揮了重要作用。另外,除了基本的Attention機(jī)制外,研究者還可從通道注意、位置注意、多注意模塊結(jié)合等角度對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步優(yōu)化,以實(shí)現(xiàn)更佳的分割效果。
還有一些研究者在U-Net網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,保留編解碼器的思想,根據(jù)需要進(jìn)行了U-Net結(jié)構(gòu)的堆疊或整體結(jié)構(gòu)的變形。
(1)堆疊。堆疊即對U-Net的重復(fù)利用,使用兩個(gè)甚至多個(gè)U-Net網(wǎng)絡(luò)進(jìn)行串聯(lián),分步完成由粗到細(xì)的分割,能夠有效提升分割效果。如Chen等人[29]提出的Bridged U-Net采用橋接的方式將兩個(gè)Unet結(jié)構(gòu)進(jìn)行連接,使得網(wǎng)絡(luò)能夠在多個(gè)層次上充分利用不同的特征,從而降低訓(xùn)練成本,加快網(wǎng)絡(luò)收斂。Jha等人[35]提出的DoubleU-Net結(jié)構(gòu),在兩個(gè)U-Net結(jié)構(gòu)堆疊的基礎(chǔ)上,還引入了空間金字塔池(ASPP)用于捕獲網(wǎng)絡(luò)內(nèi)的上下文信息,以及SE模塊用于減少冗余信息。雖然U-Net的堆疊改進(jìn)能夠有效提升分割精度,但這種操作實(shí)質(zhì)上存在特征重復(fù)訓(xùn)練的弊端,從而影響了分割效率。因此,相關(guān)改進(jìn)工作還需考慮如何在保證分割精度的同時(shí),減少網(wǎng)絡(luò)冗余。
(2)變形。U型結(jié)構(gòu)主要包括編碼和解碼的過程,但有時(shí)候無法滿足實(shí)際應(yīng)用需求,故有些研究者對整體結(jié)構(gòu)進(jìn)行修改,如Valloli等人[36]在U-Net編解碼器的基礎(chǔ)上設(shè)計(jì)了形似W的網(wǎng)絡(luò)結(jié)構(gòu)W-Net。該網(wǎng)絡(luò)通過編碼器進(jìn)行多尺度特征提取后,經(jīng)過由密度地圖(DME)分支和增強(qiáng)分支組成的解碼器進(jìn)行解碼輸出,生成密度地圖,用于人群計(jì)數(shù)。Fu等人[37]在U-Net網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,增加了多尺度輸入層(multi-scale input layer)和側(cè)邊輸出層(side-output layer),構(gòu)成M-Net模型架構(gòu),能夠很好地在單階段多標(biāo)簽系統(tǒng)中同時(shí)解決視盤和視杯的分割問題。變形操作能夠根據(jù)應(yīng)用需求有針對性地優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),但是這種改進(jìn)是對整體結(jié)構(gòu)的設(shè)計(jì),存在一定難度。
基于U-Net結(jié)構(gòu)進(jìn)行的改進(jìn)和研究總結(jié)如表3所示??梢钥闯?,圍繞U-Net進(jìn)行的結(jié)構(gòu)改進(jìn)在視網(wǎng)膜分割、腦腫瘤分割、皮膚癌病灶區(qū)域分割等各類醫(yī)學(xué)圖像領(lǐng)域中都得到了應(yīng)用。通過引入經(jīng)典模塊和經(jīng)典卷積,或?qū)μS連接和整體結(jié)構(gòu)進(jìn)行完善,能夠加強(qiáng)網(wǎng)絡(luò)特征提取能力,大大提高網(wǎng)絡(luò)性能。相關(guān)研究工作對U-Net在肝臟和肝臟腫瘤分割領(lǐng)域的改進(jìn)和應(yīng)用起到了一定的啟發(fā)和促進(jìn)作用。
實(shí)現(xiàn)肝臟及肝臟腫瘤區(qū)域的自動(dòng)分割具有重要的臨床價(jià)值,也是進(jìn)行肝腫瘤計(jì)算機(jī)輔助診斷的基礎(chǔ),但是目前肝臟及肝臟腫瘤的自動(dòng)精準(zhǔn)分割仍面臨很大的挑戰(zhàn)。首先,在CT影像中肝臟與鄰近臟器的灰度值相似性很高,甚至存在較大連接區(qū)域,難以區(qū)分。其次,肝臟腫瘤區(qū)域形狀易受外界影響,由于患者不同、設(shè)備參數(shù)不同等原因,腫瘤區(qū)域在形狀、大小、數(shù)量等方面存在諸多差異。相比于肝臟分割,肝臟腫瘤區(qū)域的自動(dòng)分割更具挑戰(zhàn)性。另外,目前肝臟和肝臟腫瘤分割數(shù)據(jù)集過少,且以3D數(shù)據(jù)居多,一定程度上會影響分割精度,增加計(jì)算成本。因此,將肝臟區(qū)域與周圍器官更好地區(qū)分,對腫瘤區(qū)域邊緣細(xì)化,實(shí)現(xiàn)精準(zhǔn)分割,同時(shí)提高分割效率,控制計(jì)算成本等是目前肝臟及肝臟腫瘤區(qū)域分割任務(wù)中的主要需求。
傳統(tǒng)的分割方法如區(qū)域生長、強(qiáng)度閾值處理等依賴于人工設(shè)計(jì)手動(dòng)提取特征,特征表示能力有限且泛化性能較差,難以滿足目前的分割要求。基于深度學(xué)習(xí)的全卷積神經(jīng)網(wǎng)絡(luò)FCN雖然在語義分割領(lǐng)域得到廣泛關(guān)注和應(yīng)用,但其更適用于樣本較多的數(shù)據(jù)。而U-Net網(wǎng)絡(luò)作為醫(yī)學(xué)圖像分割中的經(jīng)典網(wǎng)絡(luò),在針對少量樣本的醫(yī)學(xué)數(shù)據(jù)集時(shí),也能夠具有良好的表現(xiàn)。因此,很多研究者選擇在該網(wǎng)絡(luò)及其改進(jìn)網(wǎng)絡(luò)的基礎(chǔ)上繼續(xù)改進(jìn),用于實(shí)現(xiàn)肝臟和肝臟腫瘤的分割。
針對上述應(yīng)用需求,研究者在對U-Net網(wǎng)絡(luò)改進(jìn)時(shí),主要從以下幾個(gè)方面進(jìn)行探索。首先是考慮加強(qiáng)網(wǎng)絡(luò)對特征的提取和信息的利用以提高肝臟和肝臟腫瘤區(qū)域的分割精度,通過引入上述經(jīng)典網(wǎng)絡(luò)模塊、卷積等對網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)能夠有效實(shí)現(xiàn)。其次,為了實(shí)現(xiàn)肝臟腫瘤區(qū)域的精準(zhǔn)分割,研究者嘗試粗細(xì)結(jié)合,分步驟完成分割任務(wù),這種思路的實(shí)現(xiàn)能夠通過采取級聯(lián)思想或多網(wǎng)絡(luò)結(jié)合的方式完成。能夠充分利用三維信息而又控制計(jì)算成本,是研究者針對肝臟和肝臟腫瘤區(qū)域分割的重點(diǎn)任務(wù)。在實(shí)際改進(jìn)工作中,可通過引入注意力機(jī)制、2.5D網(wǎng)絡(luò)或輕量級網(wǎng)絡(luò)等方式來減輕參數(shù)量,降低計(jì)算負(fù)擔(dān),進(jìn)而在保證分割精度的前提下提高網(wǎng)絡(luò)性能和效率,解決3D分割帶來的計(jì)算成本增加問題。根據(jù)研究者們基于U-Net所提出的新的網(wǎng)絡(luò)結(jié)構(gòu),本文從單網(wǎng)絡(luò)結(jié)構(gòu)和多網(wǎng)絡(luò)結(jié)構(gòu)兩大方面來對相關(guān)工作進(jìn)行總結(jié)。
單網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)是指在單一U-Net網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行的改進(jìn),這是一種相對簡單和常用的改進(jìn)方式。針對肝臟和肝臟腫瘤區(qū)域的分割工作,很大一部分改進(jìn)工作是在U-Net結(jié)構(gòu)的基礎(chǔ)上,引入了常用的Dense模塊、殘差模塊等,以提高網(wǎng)絡(luò)分割性能。如Song等人[23]提出的bottleneck supervised(BS)U-Net用于肝臟和腫瘤的分割。該網(wǎng)絡(luò)引入了常見的Dense模塊、Inception模塊和擴(kuò)張卷積構(gòu)成BaseU-Net,并設(shè)計(jì)了encoding U-Net和segmentation U-Net兩個(gè)部分共同組成BSU-Net以實(shí)現(xiàn)自動(dòng)編碼。與傳統(tǒng)U-Net相比,該網(wǎng)絡(luò)結(jié)構(gòu)能夠有效減少假陽性和假陰性,控制形狀失真。Xu等人[11]則在UNet++的基礎(chǔ)上進(jìn)行了改進(jìn),通過在卷積模塊中增加殘差結(jié)構(gòu),解決梯度消失問題;同時(shí),使用二值交叉熵和Dice系數(shù)的組合作為損失函數(shù),穩(wěn)定收斂。實(shí)驗(yàn)結(jié)果表明,該模型優(yōu)于U-Net和U-Net++,對快速、準(zhǔn)確地進(jìn)行配準(zhǔn)以協(xié)助醫(yī)師在CT影像指導(dǎo)下進(jìn)行多模式肝惡性腫瘤消融手術(shù)有重要的意義。
大部分醫(yī)學(xué)圖像都是3D圖像,如果僅使用二維卷積進(jìn)行分割,無法充分利用三維空間信息,這對分割精度必然會產(chǎn)生一定的影響。特別是對于肝臟和肝臟腫瘤區(qū)域來說,分割的目標(biāo)區(qū)域與其他區(qū)域差異較小,分割難度較大,更加需要特征的充分提取和信息的利用。故肝臟和肝臟腫瘤的分割任務(wù),大部分是利用三維卷積進(jìn)行3D分割。V-Net[15]和3D U-Net[38]的提出,使得U-Net在3D分割任務(wù)上的有效性得到了驗(yàn)證,也為后續(xù)進(jìn)一步改進(jìn)奠定了基礎(chǔ)。如孫明建等人[39]為了解決肝臟區(qū)域精準(zhǔn)分割的問題,提出了一種新型全卷積網(wǎng)絡(luò)3D Unet-C2-CRF,如圖2所示。該網(wǎng)絡(luò)使用三維卷積,充分利用了肝臟CT圖像的空間信息,通過級聯(lián)的方式,將淺層特征與深層特征結(jié)合,同時(shí)增加網(wǎng)絡(luò)層數(shù)以提取更深層次的特征。在初步分割后,使用三維條件隨機(jī)場3D CRF解決了肝臟邊界分割精準(zhǔn)度低的問題,并有效降低肝臟分割的假陽性率。與V-Net和3D U-Net模型相比,該網(wǎng)絡(luò)具有更好的特征表達(dá)能力和更強(qiáng)的泛化性能。
圖2 3DUnet-C2-CRF網(wǎng)絡(luò)體系結(jié)構(gòu)示意圖Fig.2 Schematic representation of 3DUnet-C2-CRF architecture
雖然三維卷積能夠結(jié)合層間信息,但是也帶來了很高的計(jì)算成本,對計(jì)算機(jī)性能提出了更高的要求。為了解決該問題,2.5D網(wǎng)絡(luò)[40]的概念被提出。2.5D網(wǎng)絡(luò)是二維卷積與三維卷積的結(jié)合,故2.5D既能夠充分利用層內(nèi)信息和層間信息,又避免了較高的計(jì)算成本問題。Han[41]受V-Net模型改進(jìn)的啟發(fā),結(jié)合了U-Net模型遠(yuǎn)程跳躍連接和ResNet中短距離殘差連接的思想,提出了DCNN。與V-Net在3D分割不同的是,該網(wǎng)絡(luò)設(shè)計(jì)應(yīng)用在了2.5D上。該網(wǎng)絡(luò)既能夠促進(jìn)淺層高分辨率信息與深層語義信息的融合,又能夠加速網(wǎng)絡(luò)收斂,進(jìn)而提高網(wǎng)絡(luò)性能。Han等人[42]提出的垂直2.5D U-Net,將3個(gè)2.5D Res-UNets進(jìn)行融合用于肝臟和肝臟腫瘤的分割,如圖3所示。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)比2D U-Net的分割精度更高,同時(shí)又比3D U-Net模型尺寸更小,GPU內(nèi)存需求更少,能夠更廣泛地部署在低配置的設(shè)備上。
圖3 2.5D U-Net結(jié)構(gòu)示意圖Fig.3 Schematic representation of 2.5D U-Net
針對3D分割帶來的計(jì)算成本問題,除了使用2.5D分割外,還可以通過引入注意力機(jī)制,從而加強(qiáng)對特征的有效提取,減少無效特征帶來的計(jì)算負(fù)擔(dān)。Jin等人[43]提出的名為RA-UNet的三維混合殘差注意力感知分割網(wǎng)絡(luò),是首次使用注意力殘差機(jī)制(attention residual mechanism)來處理醫(yī)學(xué)體積圖像的網(wǎng)絡(luò)。該網(wǎng)絡(luò)在跳連部分增加了attention模塊使得網(wǎng)絡(luò)能夠?qū)⒆⒁饬Ψ旁诟信d趣的位置;同時(shí)為了避免單純疊加注意力模塊造成網(wǎng)絡(luò)性能下降,引入殘差機(jī)制,形成注意力殘差模塊。該網(wǎng)絡(luò)在肝臟區(qū)域分割和肝臟腫瘤提取方面均具有良好的表現(xiàn)。為了進(jìn)一步提高特征提取的有效性,Schlemper等人[12]提出了attention gated networks,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。該AG模型能夠自動(dòng)學(xué)習(xí)不同大小的目標(biāo)區(qū)域,同時(shí)能夠抑制無關(guān)特征,突出有效特征,從而在保證模型訓(xùn)練效率的基礎(chǔ)上,減小計(jì)算開銷,提高分割精度。同時(shí),AG能夠較為容易地集成到U-Net網(wǎng)絡(luò)等標(biāo)準(zhǔn)CNN結(jié)構(gòu)中,該網(wǎng)絡(luò)模型能夠很好地實(shí)現(xiàn)對胰腺、肝臟和脾臟區(qū)域的分割。
圖4 attention gated networks結(jié)構(gòu)示意圖Fig.4 Schematic representation of attention gated networks
無論是2.5D網(wǎng)絡(luò)還是3D網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)都具有較大的參數(shù)量,這在一定程度上使得計(jì)算成本和GPU內(nèi)存過高。隨著深度學(xué)習(xí)的發(fā)展,輕量級網(wǎng)絡(luò)逐漸被應(yīng)用。Lei等人[44]在V-Net的基礎(chǔ)上提出了輕量級V-Net(LV-Net)用于肝臟的分割。該模型通過引入一個(gè)反向剩余瓶頸塊(IRB塊)和一個(gè)三維平均池化模塊,顯著減少了參數(shù)量。同時(shí)在訓(xùn)練階段采用了3D深度監(jiān)督來改進(jìn)最終的損失函數(shù)。實(shí)驗(yàn)結(jié)果表明,LV-Net的可訓(xùn)練參數(shù)僅為普通V-Net的2.55%,但其仍具備更強(qiáng)的區(qū)分肝區(qū)和非肝區(qū)的能力。
對單一的U-Net網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)是現(xiàn)有分割算法普遍使用的思路,通過加入經(jīng)典網(wǎng)絡(luò)模塊等操作能夠很好地實(shí)現(xiàn)對肝臟和肝臟腫瘤的分割。但是對于一些分割精度要求很高的任務(wù),比如對肝臟腫瘤邊緣區(qū)域的精細(xì)分割來說,由于肝臟腫瘤體積較小,形態(tài)差異較大,且邊緣模糊,僅通過單階段的U-Net網(wǎng)絡(luò)結(jié)構(gòu)無法對邊界進(jìn)行精準(zhǔn)分割[45]。故研究者們嘗試使用多網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。較為常見的方法是級聯(lián)網(wǎng)絡(luò)或?qū)-Net網(wǎng)絡(luò)與其他網(wǎng)絡(luò)結(jié)合,分步驟完成分割任務(wù)。
級聯(lián)網(wǎng)絡(luò)的基本思想是將前一個(gè)網(wǎng)絡(luò)的輸出作為后一個(gè)網(wǎng)絡(luò)的輸入,實(shí)現(xiàn)對特征的進(jìn)一步提取和利用,以實(shí)現(xiàn)精準(zhǔn)分割。全卷積網(wǎng)絡(luò)FCN與U-Net類似,均采用編碼器和解碼器的結(jié)構(gòu)。針對于肝臟和肝臟腫瘤區(qū)域的精準(zhǔn)分割,有部分研究者選擇使用FCN網(wǎng)絡(luò)進(jìn)行級聯(lián)。如Christ等人[46]通過第一個(gè)FCN分割出肝臟,作為感興趣區(qū)域(ROI),然后將結(jié)果輸入第二個(gè)FCN分割出肝臟病變區(qū)域,最后使用3D條件隨機(jī)場(conditional random fields,CRFs)進(jìn)一步細(xì)化分割結(jié)果。Vorontsov等人[47]同樣將兩個(gè)全卷積網(wǎng)絡(luò)串聯(lián),實(shí)現(xiàn)了端到端的訓(xùn)練。
雖然級聯(lián)FCN能夠在一定程度上實(shí)現(xiàn)精準(zhǔn)分割,但是醫(yī)學(xué)圖像數(shù)據(jù)的顯著特點(diǎn)是數(shù)據(jù)量小,而U-Net能夠很好地在少量數(shù)據(jù)集下進(jìn)行分割。因此,很多研究者選擇級聯(lián)U-Net網(wǎng)絡(luò)。比如Isensee等人[48]提出的nnU-Net中使用到了一個(gè)2D U-Net、一個(gè)3D U-Net以及級聯(lián)了兩個(gè)3D U-Net的網(wǎng)絡(luò)模型。nnU-Net打破了以往對U-Net網(wǎng)絡(luò)模型的各種復(fù)雜改進(jìn),充分考慮非結(jié)構(gòu)因素對網(wǎng)絡(luò)性能的影響,使得網(wǎng)絡(luò)能夠自適應(yīng)任何給定的醫(yī)學(xué)圖像數(shù)據(jù)集。劉云鵬等人[49]則將深度學(xué)習(xí)與醫(yī)學(xué)影像組學(xué)結(jié)合,采用級聯(lián)的U-Net網(wǎng)絡(luò)結(jié)構(gòu)對肝臟和肝臟腫瘤實(shí)現(xiàn)同時(shí)分割,并在U-Net結(jié)構(gòu)中引入了注意力模塊、密集連接和子像素卷積,使得網(wǎng)絡(luò)能夠更好地獲取全局信息和局部特征,提升對微小腫瘤區(qū)域的分割精度。Xu等人[50]提出的多尺度DC-CUNets是一種基于雙通道的級聯(lián)U-Net網(wǎng)絡(luò)結(jié)構(gòu),通過雙通道分別提取肝臟和肝臟腫瘤動(dòng)脈期和靜脈期的特征,然后通過級聯(lián)的方式進(jìn)行特征融合,從而提高了網(wǎng)絡(luò)的分割精度。
除了級聯(lián)U-Net網(wǎng)絡(luò)的方式,還有研究者選擇將U-Net網(wǎng)絡(luò)或其改進(jìn)網(wǎng)絡(luò)與其他經(jīng)典網(wǎng)絡(luò)結(jié)合,以充分發(fā)揮不同網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)勢。黃泳嘉等人[51]針對肝部區(qū)域圖像處理存在的諸多不足,采用初始模塊和優(yōu)化模塊的方式進(jìn)行分割。初始模塊為類似于U-Net的編解碼器結(jié)構(gòu),其在上采樣中增加池化層復(fù)制對應(yīng)下采樣層的特征圖,以減小信息損失。優(yōu)化模塊則引入殘差連接來學(xué)習(xí)初始分割圖和專家標(biāo)注圖像之間的殘差,優(yōu)化分割邊界。同時(shí),該模型采用組歸一化方法減小信息損失,并使用混合損失函數(shù)提高分割邊界的清晰度和分割精度。該網(wǎng)絡(luò)結(jié)構(gòu)證明了混合損失函數(shù)和殘差模塊結(jié)合對U-Net網(wǎng)絡(luò)性能提升的有效性。
肝臟及肝臟腫瘤分割所面臨的2D分割無法利用三維信息,而3D分割計(jì)算成本過高的問題,也可以通過2D與3D網(wǎng)絡(luò)組合的方式加以解決。常見的組合為2D網(wǎng)絡(luò)粗略分割,3D網(wǎng)絡(luò)聚合信息,完成精細(xì)分割。如Li等人[52]提出了一種混合密集的網(wǎng)絡(luò)結(jié)構(gòu),即H-DenseUNet。該網(wǎng)絡(luò)先通過二維DenseUNet充分提取特征信息,然后利用一個(gè)3D網(wǎng)絡(luò)分層聚合體積上下文,從而實(shí)現(xiàn)三維卷積的效果。該方法在LiTS2017數(shù)據(jù)集和3D-IRCADb數(shù)據(jù)集上均表現(xiàn)出了這種新模式的優(yōu)越性。Zhang等人[53]在對肝臟及肝臟腫瘤分割時(shí),先使用2D的U-Net網(wǎng)絡(luò)對肝臟區(qū)域粗略定位,減少非肝臟區(qū)域的干擾;然后通過3D的FCN網(wǎng)絡(luò)對肝臟區(qū)域進(jìn)行精細(xì)分割,并對肝臟腫瘤進(jìn)行粗略的定位,以提高分割精度;最后通過提出的新的水平集方法完成對肝臟腫瘤區(qū)域的精細(xì)分割,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。2D U-Net與3D FCN的結(jié)合實(shí)現(xiàn)了肝臟和肝臟腫瘤區(qū)域由粗到細(xì)的逐步分割,既保證了分割效率,也提高了分割精度。
圖5 用于肝臟和肝腫瘤分割的粗-細(xì)通道示意圖Fig.5 Coarse-to-fine pipeline for liver and liver tumor segmentation
由上述內(nèi)容可知,由于醫(yī)學(xué)圖像大部分為3D圖像,故單網(wǎng)絡(luò)結(jié)構(gòu)與多網(wǎng)絡(luò)結(jié)構(gòu)的很多改進(jìn)工作都在圍繞如何充分利用三維空間信息,而又適當(dāng)減少3D分割帶來的高昂的計(jì)算成本問題進(jìn)行。單網(wǎng)絡(luò)結(jié)構(gòu)下,可以通過引入2.5D卷積,減少3D卷積的使用,或使用注意力機(jī)制,提高特征提取的有效性,減少無效特征對計(jì)算量的負(fù)擔(dān)加以解決。多網(wǎng)絡(luò)結(jié)構(gòu)下,則可以通過2D網(wǎng)絡(luò)粗分割與3D網(wǎng)絡(luò)細(xì)分割相結(jié)合的方式,分步提取特征。各方法在肝臟及肝臟腫瘤區(qū)域分割的評價(jià)指標(biāo)結(jié)果如表4、表5所示。
表4 肝臟分割的評價(jià)指標(biāo)結(jié)果Table 4 Evaluation index results of liver segmentation
表5 肝臟腫瘤分割的評價(jià)指標(biāo)結(jié)果Table 5 Evaluation index results of liver tumor segmentation
實(shí)驗(yàn)結(jié)果表明了各種改進(jìn)方法的有效性。單網(wǎng)絡(luò)結(jié)構(gòu)通過引入殘差模塊、密集連接模塊等經(jīng)典模塊提高網(wǎng)絡(luò)的特征提取能力,進(jìn)而提高分割精度。對單一U-Net網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)方式在對肝臟區(qū)域和較大的肝臟腫瘤區(qū)域分割時(shí),效果改善明顯,但是對細(xì)小肝臟腫瘤分割及腫瘤邊緣區(qū)域的細(xì)化時(shí),易造成信息的丟失,導(dǎo)致分割效果不佳。相比于單網(wǎng)絡(luò)結(jié)構(gòu),多網(wǎng)絡(luò)結(jié)構(gòu)對小目標(biāo)分割更具優(yōu)勢。通過級聯(lián)能夠?qū)⒎指钊蝿?wù)細(xì)化,充分利用特征信息,由粗到細(xì)地完成分割。而與其他經(jīng)典網(wǎng)絡(luò)結(jié)合,則可以結(jié)合不同網(wǎng)絡(luò)模型的優(yōu)勢,提升分割效果。但是多網(wǎng)絡(luò)結(jié)構(gòu)增加了計(jì)算成本和存儲開銷,網(wǎng)絡(luò)設(shè)計(jì)難度也較大,相關(guān)改進(jìn)還需在網(wǎng)絡(luò)性能和效率等方面加以探索。另外,從整體來看,大部分肝臟腫瘤區(qū)域分割的各項(xiàng)平均指標(biāo)低于肝臟區(qū)域分割結(jié)果,這也從側(cè)面印證了肝臟腫瘤區(qū)域分割的難度。因此,如何進(jìn)一步提高分割效果,特別是實(shí)現(xiàn)肝臟腫瘤區(qū)域的精準(zhǔn)分割,仍需要進(jìn)一步研究。相信隨著網(wǎng)絡(luò)結(jié)構(gòu)的不斷完善,肝臟和肝臟腫瘤區(qū)域的分割能夠更加精準(zhǔn)高效,將為臨床輔助診斷肝臟病變做出更多的貢獻(xiàn)。
本文對U-Net結(jié)構(gòu)改進(jìn)及其在肝臟和肝臟腫瘤分割的應(yīng)用進(jìn)行了研究總結(jié)。通過對相關(guān)工作的分析可知,U-Net常見的結(jié)構(gòu)改進(jìn)方式為引入殘差模塊、注意力模塊等經(jīng)典模塊或循環(huán)卷積、擴(kuò)張卷積等。通過對跳躍連接的改進(jìn)或整體結(jié)構(gòu)的改進(jìn)也能夠有效提升網(wǎng)絡(luò)性能,這些方法在對肝臟和肝臟腫瘤分割時(shí)得到了應(yīng)用。由于肝臟和肝臟腫瘤圖像的特殊性,在進(jìn)行相關(guān)研究時(shí),主要以3D分割為主。通過引入2.5D卷積或注意力機(jī)制,能夠有效減少網(wǎng)絡(luò)計(jì)算成本,提高分割效率。為了實(shí)現(xiàn)精細(xì)分割,研究者們常通過級聯(lián)U-Net,或使用2D網(wǎng)絡(luò)與3D網(wǎng)絡(luò)結(jié)合的方式,逐步完成粗分割和細(xì)分割,細(xì)化分割邊緣,提高分割精確度。
雖然相關(guān)改進(jìn)工作在一定程度上提升了肝臟和肝臟腫瘤區(qū)域的分割效果,但仍存在一些不足和難點(diǎn),具體如下:
(1)缺乏對非結(jié)構(gòu)內(nèi)容的改進(jìn)和思考。網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)能夠最直觀地改善網(wǎng)絡(luò)性能,也是最為常用的改進(jìn)方式。但是在模型訓(xùn)練的過程中,選擇合適的數(shù)據(jù)預(yù)處理方法,改進(jìn)損失函數(shù),或?qū)Ψ指罱Y(jié)果進(jìn)行適當(dāng)?shù)暮筇幚淼龋茉谝欢ǔ潭壬蠈W(wǎng)絡(luò)分割效果產(chǎn)生影響。如增加BN層可以減輕網(wǎng)絡(luò)的過擬合現(xiàn)象,提高網(wǎng)絡(luò)泛化能力而又不影響準(zhǔn)確率;若增加Dropout層,則可以降低參數(shù)量和模型復(fù)雜度以緩解過擬合,使模型更具魯棒性等[54]。因此,對非結(jié)構(gòu)的改進(jìn)工作不容忽視。
(2)目前,數(shù)據(jù)量少仍然是醫(yī)學(xué)圖像處理所面臨的一大難點(diǎn)。針對于肝臟及肝臟腫瘤區(qū)域而言,其形狀、大小不一,且與周圍器官相近,往往需要專業(yè)醫(yī)生進(jìn)行標(biāo)注。同時(shí),由于設(shè)備參數(shù)不同,其CT圖像灰度值也存在差異,進(jìn)一步影響了數(shù)據(jù)集的質(zhì)量和規(guī)模。若醫(yī)學(xué)圖像數(shù)據(jù)過少,而網(wǎng)絡(luò)模型參數(shù)過多,易造成過擬合,影響網(wǎng)絡(luò)性能。雖然U-Net網(wǎng)絡(luò)針對小樣本數(shù)據(jù)集具有良好的表現(xiàn),但是對于肝臟腫瘤的精細(xì)分割以及較復(fù)雜結(jié)構(gòu)的分割而言,網(wǎng)絡(luò)性能會一定程度下降。因此,少樣本訓(xùn)練問題亟待解決。
(3)分割精度與網(wǎng)絡(luò)計(jì)算成本的平衡關(guān)系仍需探索。由上述改進(jìn)工作可知,引入殘差模塊、Dense模塊、可變形卷積等操作,雖能有效提升網(wǎng)絡(luò)性能,但是也會在一定程度上增加計(jì)算量。另外,為了充分利用特征信息,肝臟及肝臟腫瘤區(qū)域往往需要3D分割,這也大大增加了計(jì)算成本。因此,如何在提高分割精度的同時(shí),盡可能減少計(jì)算量的增加,值得繼續(xù)探索。
根據(jù)對現(xiàn)有工作的歸納梳理,以及現(xiàn)階段存在問題的探討,本文認(rèn)為未來肝臟及肝臟腫瘤區(qū)域的分割工作可以圍繞以下幾點(diǎn)展開:
(1)充分考慮結(jié)構(gòu)與非結(jié)構(gòu)因素對模型分割性能的影響,既要追求網(wǎng)絡(luò)結(jié)構(gòu)的創(chuàng)新改善,又要考慮非結(jié)構(gòu)因素的改進(jìn)。比如在對數(shù)據(jù)預(yù)處理時(shí),進(jìn)行數(shù)據(jù)擴(kuò)增,避免樣本過少導(dǎo)致的過擬合現(xiàn)象。常用的數(shù)據(jù)增強(qiáng)方法包括翻轉(zhuǎn)、裁減等幾何變換方法或灰度值增強(qiáng)等顏色變換方法。隨機(jī)翻轉(zhuǎn)通過將圖像鏡像翻轉(zhuǎn)可直接將數(shù)據(jù)量擴(kuò)大一倍,隨機(jī)裁減可將數(shù)據(jù)量更大幅度提升。在對方向不敏感的任務(wù)比如分類任務(wù)中隨機(jī)裁剪最為常用[55],經(jīng)典的深度學(xué)習(xí)網(wǎng)絡(luò)LeNet、AlexNet以及VGG等在訓(xùn)練中均有所涉及。針對曝光過度或不足的X光圖像可以使用直方圖均衡化的方法重新分布圖像像素值,以增加局部對比度;針對對比度偏低而整體亮度偏高的情況,可選擇伽馬校正的方法以增強(qiáng)高灰度或低灰度細(xì)節(jié),進(jìn)而增加對比度。在實(shí)際應(yīng)用中應(yīng)考慮多種數(shù)據(jù)增強(qiáng)方法的結(jié)合,以實(shí)現(xiàn)最佳的數(shù)據(jù)增強(qiáng)效果,進(jìn)而提高分割精度。
非結(jié)構(gòu)因素還包括訓(xùn)練時(shí)使用的損失函數(shù)和后處理方法等。通過對損失函數(shù)進(jìn)行合理改進(jìn),或采取一定的策略將多種經(jīng)典損失函數(shù)組合,能夠發(fā)揮不同損失函數(shù)的優(yōu)勢。比如將常用損失函數(shù)Dice和Cross-entropy結(jié)合,既能夠保證背景被正確分割,提高分割精度,又能夠使模型加快收斂[56];在后處理階段可考慮使用CRF條件隨機(jī)場等方法,進(jìn)一步優(yōu)化分割邊緣,提高分割精度。
(2)針對數(shù)據(jù)量過小的問題,一方面,要醫(yī)工結(jié)合,加強(qiáng)研究者與專業(yè)醫(yī)生的合作交流,進(jìn)一步搜集相關(guān)數(shù)據(jù),提高數(shù)據(jù)集的質(zhì)量。針對現(xiàn)有數(shù)據(jù)集,考慮使用翻轉(zhuǎn)、裁減等數(shù)據(jù)增強(qiáng)方法擴(kuò)大數(shù)據(jù)量。同時(shí),完善網(wǎng)絡(luò)結(jié)構(gòu),提高網(wǎng)絡(luò)模型對小規(guī)模數(shù)據(jù)集的訓(xùn)練效果。另一方面,積極探索半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)與傳統(tǒng)監(jiān)督學(xué)習(xí)方式的結(jié)合。比如通過無監(jiān)督學(xué)習(xí)中的生成對抗網(wǎng)絡(luò)GAN進(jìn)行訓(xùn)練,生成高質(zhì)量的肝臟腫瘤圖像,從而避免訓(xùn)練樣本不平衡的問題,提高分割效果。
(3)加強(qiáng)對輕量級網(wǎng)絡(luò)、2.5D網(wǎng)絡(luò)的探索。為減小計(jì)算成本,同時(shí)能夠有效改善網(wǎng)絡(luò)性能,可加強(qiáng)對輕量級網(wǎng)絡(luò)的研究,以減小網(wǎng)絡(luò)參數(shù)量。同時(shí),2.5D卷積概念的提出以及2.5D網(wǎng)絡(luò)的應(yīng)用也給以啟示。針對三維肝臟及肝臟腫瘤圖像分割工作,將2D分割與3D分割結(jié)合,能夠有效改善分割效果,而又避免參數(shù)量的大幅增加。未來可在輕量級網(wǎng)絡(luò)和2.5網(wǎng)絡(luò)的應(yīng)用上進(jìn)一步探索。
(4)可以加強(qiáng)對多任務(wù)學(xué)習(xí)的研究。除了進(jìn)一步加強(qiáng)對肝臟和肝臟腫瘤區(qū)域自動(dòng)精準(zhǔn)分割外,未來還可以將多種深度神經(jīng)網(wǎng)絡(luò)結(jié)合,在完成肝臟及肝臟腫瘤分割的同時(shí),能夠?qū)Ω闻K腫瘤良惡性作出定性判斷或?qū)崿F(xiàn)對肝臟腫瘤區(qū)域的檢測任務(wù),以更好地輔助臨床診斷工作。
U-Net及其改進(jìn)網(wǎng)絡(luò)在肝臟及肝臟腫瘤區(qū)域的分割中已經(jīng)具有了良好的表現(xiàn)。相信隨著研究工作的開展,肝臟及肝臟腫瘤的自動(dòng)精準(zhǔn)分割能夠得到更加充分的發(fā)展,更好地為臨床肝臟病變的早期發(fā)現(xiàn)和治療提供輔助。