李緯 吳聰
[摘 要]針對(duì)目前多數(shù)U型網(wǎng)絡(luò)存在編碼階段卷積核尺度單一難以提取變化較大特征以及深層網(wǎng)絡(luò)難以訓(xùn)練優(yōu)化的情況,提出一種新的基于多級(jí)殘差和多尺度的神經(jīng)網(wǎng)絡(luò),利用多級(jí)殘差使神經(jīng)網(wǎng)絡(luò)更易學(xué)習(xí),提高網(wǎng)絡(luò)的深度,使它在模型不退化的情況下?lián)碛懈S富的特征表達(dá)能力,提出了了多尺度交叉融合模塊,通過不同的感受尺度去提取特征,交叉融合也使得特征信息更加充分的交流和融合。網(wǎng)絡(luò)在CHASE_DB1數(shù)據(jù)集上進(jìn)行測(cè)試,并進(jìn)行數(shù)據(jù)對(duì)比,性能表現(xiàn)優(yōu)良,特別是ACC達(dá)到了0.9744,SP達(dá)到了0.9876。提出的網(wǎng)絡(luò)在增加深度的同時(shí)并不影響它的學(xué)習(xí)過程和表現(xiàn)效果。
[關(guān)鍵詞]血管分割;深度學(xué)習(xí);U-Net;殘差學(xué)習(xí);多尺度
[中圖分類號(hào)]TP391[文獻(xiàn)標(biāo)識(shí)碼]A
很多疾病可通過視網(wǎng)膜血管的細(xì)微特征反映出來,專業(yè)醫(yī)師可以根據(jù)視網(wǎng)膜血管的形態(tài)變化來進(jìn)行病理分析和判斷,制定診療計(jì)劃。深度學(xué)習(xí)在醫(yī)學(xué)圖像處理領(lǐng)域的應(yīng)用在近些年來取得了極大的進(jìn)步,Ben-Cohen[1]將全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks , FCN)應(yīng)用在分割肝臟和腫瘤的CT影像分割上。Dasgupta[2]將FCN引入視網(wǎng)膜血管分割的領(lǐng)域,在DRIVE數(shù)據(jù)集上的實(shí)驗(yàn)證明了FCN的強(qiáng)大性能。Ronneber[3]提出的經(jīng)典的U-Net擴(kuò)展了FCN使其效果更好并且僅僅需要更少的標(biāo)注數(shù)據(jù)。
深度學(xué)習(xí)的發(fā)展伴隨著網(wǎng)絡(luò)深度的增加,AlexNet[4]僅僅只有5個(gè)卷積層,隨后VGG,GoogleNet,DenseNet先后被提出,性能提升的同時(shí)結(jié)構(gòu)更加復(fù)雜。神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程[5-6]說明了網(wǎng)絡(luò)的深度對(duì)于網(wǎng)絡(luò)模型的表達(dá)能力非常重要。Wu Yan-Cheng[7]進(jìn)行的實(shí)驗(yàn)說明網(wǎng)絡(luò)深度的增加可以決定網(wǎng)絡(luò)是否可以取得良好效果。
1 相關(guān)
一定范圍內(nèi),隨著網(wǎng)絡(luò)深度的增加,模型可以擬合更加復(fù)雜的函數(shù),模型的性能也可以提升,但是在深度達(dá)到某種程度時(shí),單純?cè)黾泳W(wǎng)絡(luò)深度,網(wǎng)絡(luò)模型并不會(huì)得到優(yōu)化。He[8]等在Highway網(wǎng)絡(luò)的基礎(chǔ)上提出了殘差網(wǎng)絡(luò),殘差學(xué)習(xí)機(jī)制可以解決由于網(wǎng)絡(luò)深度增加帶來的退化問題,較深的網(wǎng)絡(luò)可以更好地訓(xùn)練。ZL Ni等提出了RAUNet[9]用于語義分割,RAUNet是在U-Net的基礎(chǔ)上結(jié)合了殘差學(xué)習(xí)機(jī)制和注意力機(jī)制,是對(duì)U型網(wǎng)絡(luò)的成功改進(jìn)。Zhang[10]等人在實(shí)驗(yàn)的基礎(chǔ)上提出設(shè)想:如果殘差映射容易學(xué)習(xí),那么殘差映射中的殘差映射更容易學(xué)習(xí)。他們?cè)赗esNets的基礎(chǔ)上逐級(jí)加入shortcut支路,建立了Residual network of Residual networrk(RoR),這就是多級(jí)殘差,RoR在 CIFAR-10, CIFAR-100 和SVHN 等數(shù)據(jù)集上均取得了較 ResNets 更好的分類結(jié)果。LIAN 等[11]構(gòu)建了多尺度殘差網(wǎng)絡(luò),在殘差結(jié)構(gòu)中,由級(jí)聯(lián)的多尺度卷積層作為殘差映射分支。Zheng[12]等人在卷積的過程中引入多級(jí)殘差來彌補(bǔ)CNN中缺失的特征從而提高識(shí)別精度。WU等人提出了新穎的殘差網(wǎng)絡(luò)結(jié)構(gòu),也就是深度多級(jí)殘差網(wǎng)絡(luò),他們?cè)谠械臍埐罹W(wǎng)絡(luò)結(jié)構(gòu)上再加上多級(jí)捷徑連接,用來挖掘殘差網(wǎng)絡(luò)的優(yōu)化能力。
2 方法
單一尺度卷積核感受野固定,網(wǎng)絡(luò)層數(shù)增加導(dǎo)致擬合能力退化,針對(duì)這些問題,可以將多尺度和多級(jí)殘差機(jī)制相結(jié)合,前者增強(qiáng)特征的提取能力,后者讓每一個(gè)多尺度模塊更好地學(xué)習(xí)和優(yōu)化,計(jì)劃在U型網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)一種多級(jí)殘差多尺度網(wǎng)絡(luò)(Multilevel residual Multi-Scale Net,MRMS-Net),在編碼器中將多尺度機(jī)制集成在多級(jí)殘差機(jī)制內(nèi)。
2.1 多級(jí)殘差
圖1a顯示了基本的殘差結(jié)構(gòu),在普通卷積塊的基礎(chǔ)上增加了一條shortcut,這條沒有權(quán)重的越層連接成為一條從輸入到輸出的通路可以避免特征圖丟失。
多級(jí)殘差RoR(Residual of Residual)是通過添加逐級(jí)快捷連接來實(shí)現(xiàn)對(duì)殘差映射的優(yōu)化,以此方式構(gòu)建出的基于殘差網(wǎng)絡(luò)的RoR,它的快捷連接較多,但等級(jí)分明。如圖1b所示,這是一個(gè)擁有L個(gè)原始?xì)埐顗K的RoR-3網(wǎng)絡(luò),因?yàn)橛衦oot-level shortcut,middle-level shortcut,final-level shortcut這三級(jí)快捷連接而得名。這里存在L個(gè)final-level shortcut,L/2個(gè)middle-level short,1個(gè)root-level shortcut,最基本的殘差塊的shortcut是final-level shortcut。設(shè)m為快捷連接級(jí)數(shù),m=1,2,3,…,當(dāng)m=1時(shí),RoR是一個(gè)基本的殘差網(wǎng)絡(luò),當(dāng)m=2時(shí),RoR只有root-level shortcut和final-level shortcut。
2.2 多尺度交叉融合模塊
對(duì)于特征圖,多尺度模塊按照不同的感受野去提取特征。使用空洞卷積[13]的方法既能夠提升卷積核的感受野又能夠不增加參數(shù)量,可以保留更多的細(xì)節(jié)信息。多尺度特征提取會(huì)產(chǎn)生若干個(gè)特征圖,一般意義的多尺度模塊會(huì)直接對(duì)它們進(jìn)行融合處理,如圖2a所示,將輸入特征圖標(biāo)記為Input。
本文提出了新穎的多尺度交叉融合模塊,如圖2b所示,感受野設(shè)置為3×3,5×5,7×7,而且特征融合的方式也變成了交叉融合,交叉融合之后特征圖再經(jīng)歷一次卷積操作,最后融合特征得到輸出,最后的卷積層中包含了BN和ReLU操作。矩形表示特征操作,這里設(shè)輸入特征圖為x,x首先被尺寸大小分別為3×3,5×5,7×7的卷積核同時(shí)提取特征,這三種卷積操作分別標(biāo)記為F1,F(xiàn)2,F(xiàn)3,對(duì)應(yīng)的輸出標(biāo)記為F1(x),F(xiàn)2(x),F(xiàn)3(x),交叉融合的方式如圖所示,F(xiàn)1(x)和F2(x)進(jìn)行融合,F(xiàn)1(x),F(xiàn)2(x),F(xiàn)3(x)進(jìn)行融合,F(xiàn)2(x)和F3(x)進(jìn)行融合,生成的三個(gè)特征圖都傳遞到F4操作中,最后再經(jīng)歷一次融合得到模塊的輸出。那么該模塊的輸出x′可以表示為:
F4(F1(x)+F2(x))+F4(F1(x)+F2(x)+F3(x))+F4(F2(x)+F3(x))=x′
和一般性的多尺度模塊存在一些區(qū)別,這里應(yīng)用了交叉融合,然后又增加了Conv-BN-ReLU操作。交叉融合得到的特征包涵信息量更多,多尺度融合擁有一個(gè)融合結(jié)果,而交叉融合具有三個(gè)不同的融合結(jié)果,不同的融合結(jié)果包涵的信息豐富層次不同,尺度描述也不同,這是由于交叉路徑使得信息的流動(dòng)更加充分,不同尺度不同層次的特征信息可以相互結(jié)合生成更加豐富的表示。之所以再增加一層Conv-BN-ReLu操作,考慮有兩點(diǎn):一是因?yàn)榻?jīng)過交叉融合生成的特征圖包含的信息存在冗余,這種不必要的冗余會(huì)影響后面的特征提取,所以額外設(shè)置一層Conv-BN-ReLU自適應(yīng)的學(xué)習(xí)消除冗余,使特征的表示保持在合理的范圍內(nèi),方便后續(xù)特征學(xué)習(xí)。二是由于殘差結(jié)構(gòu)的殘差分支要求至少兩層卷積,F(xiàn)1,F(xiàn)2,F(xiàn)3算作第一層卷積,這里使用F4充當(dāng)?shù)诙?。在?shí)驗(yàn)部分將設(shè)計(jì)一組對(duì)比實(shí)驗(yàn),保證總體框架不變的情況下比較多尺度交叉融合模塊和一般性的多尺度融合模塊的性能作用。
2.3 總體結(jié)構(gòu)
在編碼器中堆疊多尺度交叉融合模塊,這樣的操作有兩個(gè)好處:1)多尺度交叉融合機(jī)制可以極大地促進(jìn)特征信息的傳播流動(dòng);2)更多的卷積層能夠提升網(wǎng)絡(luò)的擬合能力。這樣的設(shè)計(jì)存在深度增加網(wǎng)絡(luò)退化的問題,這里應(yīng)用了多級(jí)殘差機(jī)制,遵循這樣的思路:殘差映射容易學(xué)習(xí),如果讓恒等映射也成為殘差映射的一部分,那么這樣的安排對(duì)于殘差機(jī)制性能的挖掘是可觀的。
本文提出了新穎的多級(jí)殘差多尺度模塊,結(jié)構(gòu)見圖3。將這種模塊嵌入每一個(gè)編碼器中,對(duì)解碼器的改動(dòng)很輕微,僅僅把普通卷積換成深度可分離卷積,這樣的操作是為了平衡整體網(wǎng)絡(luò)模型的參數(shù)量,使模型容易訓(xùn)練。對(duì)于多級(jí)殘差多尺度模塊,設(shè)計(jì)它的root-level殘差中包含有兩個(gè)middle-level殘差,每一個(gè)middle-level殘差包含兩個(gè)final-level殘差,final-level殘差塊的殘差部分為多尺度交叉融合模塊。
模型總體架構(gòu)如圖4所示,除第一個(gè)編碼器外,其余編碼器中的第一個(gè)卷積層負(fù)責(zé)接收處理經(jīng)過池化層后的特征圖,并調(diào)整通道數(shù),第二個(gè)卷積層僅負(fù)責(zé)提取特征并進(jìn)行激活處理和歸一化,在這個(gè)網(wǎng)絡(luò)中,多級(jí)殘差多尺度模塊并不改變特征圖的維度,僅僅起到提取特征的作用。網(wǎng)絡(luò)模型的底部和第一個(gè)編碼器類似,也是采用普通卷積加殘差塊的結(jié)構(gòu),希望能夠規(guī)避過擬合。解碼器結(jié)構(gòu)順序?yàn)樘卣髌唇?、深度可分離卷積,之所以大量采用深度可分離卷積,是為了一定程度降低參數(shù)量。
3 實(shí)驗(yàn)和結(jié)果
這項(xiàng)工作的實(shí)驗(yàn)使用了CHASE_DB1數(shù)據(jù)集。劃分20個(gè)樣本用于網(wǎng)絡(luò)訓(xùn)練,另外8個(gè)樣本用于測(cè)試。經(jīng)過數(shù)據(jù)增強(qiáng)后的訓(xùn)練集容量為600,每一張訓(xùn)練圖像裁減為512×512像素,并轉(zhuǎn)換為灰度圖。在訓(xùn)練階段選擇RMSPprop優(yōu)化算法,學(xué)習(xí)率為0.0001,weight decay為e-8,momentum為0.9。
在圖像分割領(lǐng)域存在著若干個(gè)衡量分割效果的指標(biāo),其中有SE,SP,ACC。SE指的是敏感性,正確分割的血管像素占真實(shí)血管像素的百分比,SP指特異性,正確分割的背景像素占真實(shí)背景像素的百分比,ACC指準(zhǔn)確度,正確分割血管像素和背景像素在整個(gè)圖像中的百分比。圖5的內(nèi)容顯示了網(wǎng)絡(luò)的工作效果,表1展示了MRMS-Net的性能表現(xiàn)以及和其它的網(wǎng)絡(luò)效果的比較。從表1中可知,MRMS-Net對(duì)視網(wǎng)膜血管的分割特異性和準(zhǔn)確度表現(xiàn)較好,但是敏感性方面略有不足。
在這項(xiàng)工作中,還存在一組對(duì)照試驗(yàn),MRMS-Net作為標(biāo)準(zhǔn)網(wǎng)絡(luò),把MRMS-Net中的多尺度交叉融合模塊替換為一般性多尺度融合模塊,這種網(wǎng)絡(luò)模型定義為MRMS-Compare-Net,作為對(duì)照網(wǎng)絡(luò),這兩種多尺度模塊在前文中已經(jīng)得到闡述,這里需要用實(shí)驗(yàn)結(jié)果來說明兩個(gè)網(wǎng)絡(luò)的差異(表1)。
從表1中可以看到,標(biāo)準(zhǔn)網(wǎng)絡(luò)的ACC和SP均高于對(duì)照網(wǎng)絡(luò),而對(duì)照網(wǎng)絡(luò)的SE更高,有理由相信多尺度融合模塊的不同在其中發(fā)揮了作用,雖然特征信息在標(biāo)準(zhǔn)網(wǎng)絡(luò)中得到更充分的流動(dòng)和融合,也采取了一些手段對(duì)冗余的信息加以抑制,但對(duì)照網(wǎng)絡(luò)的多尺度融合模塊毫無疑問在結(jié)構(gòu)上更加簡(jiǎn)單直接,沒有那么多的冗余堆疊。但也應(yīng)該看到,這種簡(jiǎn)單模塊并沒有使殘差機(jī)制發(fā)揮應(yīng)有的作用,這一點(diǎn)在ACC,SP兩項(xiàng)指標(biāo)的差距上可以得到證明。
4 結(jié)論
針對(duì)大部分U型網(wǎng)絡(luò)編碼器階段卷積核的尺寸過于單一,網(wǎng)絡(luò)擬合能力因深度增加而退化的問題,本文提出了一種多尺度交叉融合模塊,其擁有較強(qiáng)的特征提取能力,并將多尺度交叉融合模塊和多級(jí)殘差機(jī)制相結(jié)合,形成了一種新的多級(jí)殘差多尺度網(wǎng)絡(luò)。一方面該網(wǎng)絡(luò)同時(shí)兼顧良好的擬合能力和可收斂性,通過在公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)比較,這種新的多尺度交叉融合相較于普通的多尺度融合在ACC和SP這兩個(gè)指標(biāo)上表現(xiàn)更優(yōu),這也體現(xiàn)在MRMS-Net和其它的網(wǎng)絡(luò)的比較上。但是另一方面多級(jí)殘差機(jī)制的引入也增加了網(wǎng)絡(luò)的復(fù)雜度,復(fù)雜度的提升客觀上使得網(wǎng)絡(luò)參數(shù)量劇增,訓(xùn)練速度更慢。本論文所提出的網(wǎng)絡(luò)在SE指標(biāo)上亦存在不可忽視的問題,這種不平衡反映出網(wǎng)絡(luò)模型在設(shè)計(jì)上存在一些問題,有待進(jìn)一步研究解決。
[ 參 考 文 獻(xiàn) ]
[1] BEN-COHEN A,DIAMANT I,KLANG E,et al.Fully convolutional network for liver segmentation and lesions detection[C].∥Athens,Greece: Springer Verlag,2016:77-85.
[2] DASGUPTA A,SINGH S.A fully convolutional neural network based structured prediction approach towards the retinal vessel segmentation[C].∥Melbourne,VIC,Australia:IEEE Computer Society,2017:248-251.
[3] RONNEBERGER O,F(xiàn)ISCHER P,BROX T.U-net:convolutional networks for biomedical image segmentation[C].∥Munich,Germany: Springer Verlag,2015:234-241.
[4] KRIZHEVSKY A,SUTSKEVER I,HINTON G.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[5] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-9-4).[2021-9-20].https:∥arxiv.org/abs/1409.1556.
[6] SZEGEDY C,WEI LIU,YANGQING JIA,et al.Going deeper with convolutions[C].∥Boston,MA,United States: IEEE Computer Society,2015:1-9.
[7] YAN CHENG WU,CHEN H C,SHAO MEI L I,et al.Person re-identification using attribute priori distribution[J].Acta Automatica Sinica,2019,45(5):953-964.
[8] HE KAIMING,ZHANG XIANGYU,REN SHAOQING,et al.Deep residual learning for image rec-ognition[C].∥Las Vegas,NV,United states: IEEE Computer Society,2016:770-778.
[9] NI Z L,BIAN G B,ZHOU X H,et al.RAunet:residual attention U-net for semanticsegmentation of cataract surgical instruments[C].∥Sydney,NSW,Australia: Springer Science and Business Media Deutschland GmbH,2019:139-149.
[10]ZHANG K,SUN M,HAN X,et al.Residual Networks of residual networks: multilevelresidual Networks[J].IEEE Transactions on Circuits and Systems for Video Technolog-y,2018,28(6):1303-1314.
[11]練秋生,富利鵬,陳書貞,等.基于多尺度殘差網(wǎng)絡(luò)的壓縮感知重構(gòu)算法[J].自動(dòng)化學(xué)報(bào),2019,45(11):2082-2091.
[12]ZHENG K,XIA Z,ZHANG Y,et al.Speech emotion recognition based on multi-level residual convolutional neural networks[J].Engineering Letters,2020,28(2):559-565.
[13]CHEN L C,PAPANDREOU G,KOKKINOS I,et al.DeepLab: semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J].IE- EE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.
[14]WANG W,YU K,HUGONOT J,et al.Recurrent U-net for resource-constrained segmentation[C].∥Seoul,Korea: Institute of Electrical and Electronics Engineers Inc.,United States,2019:2142-2151.
[15]ZHANG B,HUANG S,HU S.Multi-scale neural networks for retinal blood vessels segme-ntation[EB/OL].(2018-4-11).[2021-9-20].https:∥arxiv.org/abs/1804.04206.
[16]JIANG Z,ZHANG H,WANG Y,et al.Retinal blood vessel segmentation using fully convo-lutional network with transfer learning[J].Computerized Medical Imaging and Graphic-s,2018,68(09):1-15.
[17]ZHUANG J.LadderNet:Multi-path networks based on U-Net for medical image segment-ation[EB/OL].(2018-10-17).[2021-9-20].https:∥arxiv.org/abs/1810.07810.
[18]WU Y,XIA Y,SONG Y,et al.Vessel-net:retinal vessel segmentation under multi-path supervision[C].∥Shenzhen,China: Springer Science and Business Media Deutschland GmbH,2019:264-272.
[19]LI X,JIANG Y,LI M,et al.Lightweight attention convolutional neural network for retinal vessel segmentation[J].IEEE Transactions on Industrial Informatics,2020,17(03):1958-1967.
[20]WANG B,WANG S,QIU S,et al.CSU-Net: a context spatial U-net for accurate blo-od vessel segmentation in fundus images[J].IEEE Journal of Biomedical and Health I-nformatics,2020,25(04):1128-1138.
Medical Image Segmentation Network based on
Multilevel Residuals and Multi-scales
LI Wei, WU Cong
(School of Computer Science,Hubei Univ. of Tech.,Wuhan 430068,China)
Abstract:At present, in most U-shaped networks, it is difficult to extract features with a single convolution kernel scale in the encoding stage, and it is also difficult to train and optimize the deep network. A new neural network based on multi-level residuals and multi-scale is proposed, which makes the neural network easier to learn, improves the depth of the network, and enables it to have richer feature expression ability, without reducing the performance of the model. In this paper, a multi-scale cross fusion module is proposed, which extracts features through different sensory scales. Cross-fusion also enables feature information to be more fully exchanged and fused. After testing on the data set CHASE _ DB 1, the performance is excellent, especially with ACC being 0.9744, and SP being 0.982. The depth of the proposed network is increased without affecting its learning process and performance.
Keywords:blood vessel segmentation; deep learning; u-net; residual learning;multi-scale
[責(zé)任編校:張巖芳]