燕 楊, 曹婭迪, 黃文博
(長(zhǎng)春師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 長(zhǎng)春 130032)
精準(zhǔn)分割眼底圖像中的視杯和視盤(pán)是診斷眼底疾病(如青光眼)的重要因素[1-3].利用眼底圖像中視盤(pán)(optic disc, OD)區(qū)域和視杯(optic cup, OC)區(qū)域的形態(tài)學(xué)變化是篩查青光眼的早期特征之一, 因此分割OD/OC區(qū)域, 并計(jì)算杯盤(pán)比(cup to dis ratio, CDR)是診斷青光眼的重要因素.OD/OC目前仍需醫(yī)生手工分割, 這種方法過(guò)于依賴醫(yī)生經(jīng)驗(yàn), 不同醫(yī)生對(duì)同一病例可能有不同的判斷, 不利于醫(yī)療水平較差區(qū)域的青光眼篩查.同時(shí), 手工分割效率較低, 很難實(shí)現(xiàn)大規(guī)模篩查.視杯盤(pán)自動(dòng)分割算法輔助青光眼診斷篩查, 相對(duì)更客觀、更高效.
視杯盤(pán)自動(dòng)分割算法目前主要有閾值分割方法[4]、超像素分類法[5]、水平集法[6-7]和主動(dòng)形狀建模法[8-9]等, 這些方法雖然可準(zhǔn)確分割OD/OC, 但存在CDR偏小時(shí)分割誤差大、需設(shè)定恰當(dāng)參數(shù)、過(guò)度依賴對(duì)比度強(qiáng)的特征及分割效率低等問(wèn)題.隨著深度學(xué)習(xí)的廣泛應(yīng)用, 使用深度學(xué)習(xí)方法解決OD/OC分割任務(wù)的研究已備受關(guān)注.如Fu等[10]研究表明, OD/OC分割中的難點(diǎn)在于前背景像素不均衡, 針對(duì)該問(wèn)題, 提出了視盤(pán)和視杯聯(lián)合分割的深度學(xué)習(xí)方法, 首先對(duì)輸入圖像進(jìn)行極坐標(biāo)變換并采用多尺度輸入, 同時(shí)對(duì)每個(gè)尺度的輸入產(chǎn)生相應(yīng)的輸出, 實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的深層監(jiān)督, 最終將多個(gè)尺度的輸出特征圖拼接為最終輸出.該方法充分利用了“視杯包含于視盤(pán)內(nèi)”這一先驗(yàn)知識(shí), 使用多標(biāo)簽分類, 解決了眼底圖像中屬于“視盤(pán)”類像素過(guò)少的問(wèn)題, 實(shí)現(xiàn)了視盤(pán)和視杯的自動(dòng)分割, 但該網(wǎng)絡(luò)是在極坐標(biāo)下進(jìn)行的, 最終結(jié)果并非直接分割所得, 而是經(jīng)過(guò)坐標(biāo)轉(zhuǎn)換后再進(jìn)行圓擬合所得, 損失了分割精度;董林等[11]提出了一種端到端的基于區(qū)域的深度卷積神經(jīng)網(wǎng)絡(luò)(R-DCNN)用于視盤(pán)和視杯的自動(dòng)分割, R-DCNN由殘差網(wǎng)絡(luò)(residual network, ResNet)ResNet34作為主干網(wǎng)絡(luò)進(jìn)行特征提取, 同時(shí), 為提取更密集的特征, 在ResNet34中引入了密集原子卷積.視盤(pán)建議網(wǎng)絡(luò)(disc proposal network, DPN)根據(jù)主干網(wǎng)絡(luò)提取的特征, 給出多個(gè)可能的視盤(pán)區(qū)域, 并將其與經(jīng)過(guò)感興趣池化(ROI pooling)處理的特征聯(lián)合, 送入分類器, 產(chǎn)生最終的視盤(pán)分割結(jié)果.該方法利用視盤(pán)和視杯的包含關(guān)系, 產(chǎn)生視盤(pán)分割結(jié)果后, 將特征圖中相應(yīng)區(qū)域通過(guò)盤(pán)注意力模塊進(jìn)行裁剪, 作為視杯分割的輸入.雖然通過(guò)密集原子卷積降低了卷積池化過(guò)程中過(guò)濾的特征信息導(dǎo)致的影響, 但由于ROI pooling的量化誤差導(dǎo)致了精度損失.
現(xiàn)有算法雖然能實(shí)現(xiàn)自動(dòng)分割視盤(pán)、視杯, 達(dá)到輔助青光眼診斷的基本目的, 但仍存在很多不足.由于成像條件不同及個(gè)體差異會(huì)導(dǎo)致視盤(pán)、視杯區(qū)域顏色、大小、形狀不同, 現(xiàn)有分割方法由于缺少豐富的感受野, 無(wú)法利用更多的尺度特征, 很難捕捉尺寸差異大的目標(biāo), 在分割時(shí)易出現(xiàn)欠分割問(wèn)題.而多樣的感受野可為網(wǎng)絡(luò)引入豐富的上下文信息, 降低其他病變區(qū)域?qū)σ暠P(pán)、視杯分割的影響.基于此, 本文提出一種基于多尺度特征的視盤(pán)分割方法, 以一種更輕型的U型網(wǎng)絡(luò)(U-Net)——輕型U型網(wǎng)絡(luò)(UNet-Light)[12]為主干網(wǎng)絡(luò).U型網(wǎng)絡(luò)在上采樣過(guò)程中將其結(jié)果與原特征圖拼接, 融合更多尺度, 同時(shí)將UNet-Light與金字塔池化模塊[13]相結(jié)合, 以進(jìn)一步豐富感受野, 充分利用上下文信息, 使網(wǎng)絡(luò)更好地捕捉大小不同的目標(biāo), 同時(shí)兼顧局部特征和全局特征, 增加可利用的空間信息, 從而完成視盤(pán)自動(dòng)精準(zhǔn)分割.其結(jié)構(gòu)如圖1所示.
由于彩色眼底圖像數(shù)據(jù)集所包含的圖像數(shù)量小, 單張圖像尺寸較大, 因此用原始圖像作為輸入會(huì)加大訓(xùn)練難度.U-Net[14]是全卷積神經(jīng)網(wǎng)絡(luò)(fully convolution net, FCN)的一種, 其采用Overlap-tile策略將輸入圖像分割為多個(gè)圖像塊再進(jìn)行訓(xùn)練, 處理后再拼接多個(gè)圖像塊作為最終輸出結(jié)果, 從而在提高分割精度的基礎(chǔ)上加快訓(xùn)練速度.因此, U-Net在彩色眼底圖像分割中性能優(yōu)于其他方法.
U-Net主要由兩部分組成: 收縮路徑用于獲取上下文信息; 擴(kuò)張路徑完成精準(zhǔn)分割.收縮路徑和擴(kuò)張路徑同樣擁有大量的特征通道, 允許網(wǎng)絡(luò)將上下文信息傳播到更高分辨率層.因此, 兩條路徑呈對(duì)稱狀態(tài).收縮路徑通過(guò)池化操作降低特征圖分辨率, 其特征提取由重復(fù)卷積完成, 每層卷積結(jié)束后對(duì)特征圖進(jìn)行最大池化操作, 使得在提取特征過(guò)程中特征圖尺寸不斷減小, 通道數(shù)增加.擴(kuò)張路徑則會(huì)將來(lái)自對(duì)應(yīng)收縮路徑的高分辨率輸出和擴(kuò)展路徑輸出進(jìn)行拼接, 該過(guò)程實(shí)際上是將多尺度特征進(jìn)行融合, 使網(wǎng)絡(luò)可提取多個(gè)尺度的特征.
對(duì)于一張輸入特征圖, 要經(jīng)過(guò)兩次卷積核大小為3×3的卷積操作, 為防止出現(xiàn)過(guò)擬合現(xiàn)象并提高網(wǎng)絡(luò)泛化能力, 在每次卷積后使用退出層, 使一定概率的神經(jīng)元不再傳播, 再用ReLU激活函數(shù)進(jìn)行激活.對(duì)于輸入的X, 若X>0, 則ReLU激活函數(shù)將保留其值;若X<0, 則將其賦值為0.計(jì)算公式為
ReLU(X)=max{0,X}.
(1)
然后對(duì)特征圖進(jìn)行最大池化操作, 輸出特征圖的寬和高將會(huì)減少至輸入圖像的0.5倍, 通道數(shù)增加2倍.圖像將通過(guò)上述層序列多次, 直到分辨率降為合適大小.在上采樣層添加2×2的上采樣操作, 使其寬和高提升至原來(lái)的2倍, 并將其與對(duì)應(yīng)下采樣層的輸出進(jìn)行融合.
為縮短在較大數(shù)據(jù)庫(kù)中對(duì)算法進(jìn)行再訓(xùn)練所消耗的時(shí)間, 本文引入改進(jìn)的UNet-Light作為主干網(wǎng)絡(luò).與原始U-Net相比, UNet-Light減少了所有卷積層上的濾波器, 但用于降低分辨率的濾波器數(shù)目并未減少.從而不會(huì)降低任務(wù)的識(shí)別質(zhì)量, 在參數(shù)數(shù)量和訓(xùn)練時(shí)間方面使體系結(jié)構(gòu)變得更輕量級(jí), 使網(wǎng)絡(luò)模型性能得以提高.其結(jié)構(gòu)如圖2所示.
圖2 UNet-Light網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 UNet-Light network structure
在視盤(pán)分割任務(wù)中, 由于視盤(pán)僅占眼底圖像的較小區(qū)域, 導(dǎo)致了前背景像素嚴(yán)重不均衡的問(wèn)題, 訓(xùn)練時(shí)損失函數(shù)易陷入局部最小值, 產(chǎn)生更重視背景部分的網(wǎng)絡(luò), 前景部分常會(huì)丟失或僅被部分分割.為解決上述問(wèn)題, 本文模型損失函數(shù)設(shè)計(jì)為
(2)
其中:A為網(wǎng)絡(luò)輸出的概率圖;B為專家手工標(biāo)注的真實(shí)標(biāo)簽, 包含每個(gè)像素及其所屬的類;aij和bij分別表示A和B中的某一像素;d(A,B)是Dice損失函數(shù)[15], 取值范圍為[0,1].該函數(shù)計(jì)算概率圖與真實(shí)標(biāo)簽的相似度, 使網(wǎng)絡(luò)不會(huì)在前景占比較小時(shí), 為追求更小的損失將圖像全部分割為背景像素, 而是更重視對(duì)前景的分割.
眼底圖像中視杯尺寸在不同患病階段有較大差異, 針對(duì)這種變化, 本文引入如圖3所示的金字塔池化模塊(pyramid pooling module, PPM), 通過(guò)設(shè)計(jì)多個(gè)不同大小的感受野檢測(cè)不同大小的目標(biāo), 以減少視杯大小變化導(dǎo)致的分割錯(cuò)誤.同時(shí), 金字塔池化模塊也使網(wǎng)絡(luò)獲得了更豐富的多尺度特征, 這些極具區(qū)分度的多尺度特征對(duì)OD/OC精準(zhǔn)分割至關(guān)重要.
金字塔池化模塊中采用最大池化操作, 本文通過(guò)1×1,2×2,4×4和8×8四個(gè)不同大小的感受野收集特征圖的上下文信息并對(duì)其編碼, 池化后得到4個(gè)不同大小的特征圖.對(duì)每個(gè)特征圖進(jìn)行1×1的卷積操作, 將其通道數(shù)降為一維, 以減少計(jì)算權(quán)重產(chǎn)生的消耗.為將池化結(jié)果聚合, 先使用雙線性差值方法對(duì)其進(jìn)行上采樣操作, 池化后大小不一的特征圖被擴(kuò)張至原始特征圖大小, 并與原始特征圖進(jìn)行拼接.最后, 對(duì)拼接的特征圖采用1×1卷積操作, 將通道數(shù)恢復(fù)至原特征圖大小, 最終的輸出特征圖尺寸與輸入特征圖尺寸相同.
圖3 本文金字塔池化模塊Fig.3 Proposed pyramid pooling module
若輸入特征圖F, 則產(chǎn)生最終特征圖的過(guò)程如下:
其中MaxPooln×n表示卷積核大小為n×n的最大池化操作, Conv1×1表示卷積核大小為1×1的卷積操作, UpSamble表示上采樣操作, ⊕表示對(duì)不同尺度的特征圖進(jìn)行鏈接,P為最終輸出的特征圖.
在公開(kāi)彩色眼底視盤(pán)、視杯分割數(shù)據(jù)集RIM-ONE v.3[16]中, 利用本文方法在視盤(pán)、視杯分割任務(wù)中進(jìn)行多組對(duì)比實(shí)驗(yàn), 以驗(yàn)證本文方法的性能及泛化能力.數(shù)據(jù)集RIM-ONE v.3由159張彩色視網(wǎng)膜圖像組成, 分為健康眼、青光眼和疑似青光眼兩類.每張圖像的視盤(pán)和視杯均由眼科專家進(jìn)行分割, 作為分割標(biāo)準(zhǔn).
在進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練前, 先對(duì)輸入圖像做預(yù)處理.預(yù)處理采用對(duì)比度受限自適應(yīng)直方圖均衡化(contrast limited adaptive histogram equalization, CLAHE)方法以增強(qiáng)對(duì)比度, 避免放大噪聲及圖像失真.CLAHE方法將眼底圖像分為多個(gè)子域, 對(duì)每個(gè)子域分別進(jìn)行直方圖均衡化, 同時(shí)限制每個(gè)子域的對(duì)比度.設(shè)對(duì)比度閾值為T(mén), 對(duì)原始直方圖高度超過(guò)T的部分從頂部開(kāi)始裁剪, 為保證整個(gè)直方圖最終面積不變, 將裁剪掉的部分均勻地分布在整個(gè)像素范圍內(nèi), 使整個(gè)直方圖上升L, 最大值為T(mén)+L, 重復(fù)該過(guò)程直到L可忽略不計(jì).CLAHE方法表達(dá)式為
(4)
其中H(i)表示直方圖在i處的高度.
均衡后采用雙線性插值法消除子域邊界產(chǎn)生的偽影.設(shè)均衡后的圖像為f(x,y), (xi,yi)為其中某像素點(diǎn), (xi,yi)在原圖像中最鄰近的4個(gè)像素點(diǎn)為Q11=(xi,yi),Q12=(x1,y2),Q21=(x2,y1),Q22=(x2,y2),f(x,y)在這些像素點(diǎn)的值已知, 則雙線性插值結(jié)果為
為防止過(guò)擬合, 還需對(duì)圖像進(jìn)行隨機(jī)縮放、隨機(jī)水平偏移、隨機(jī)垂直偏移和隨機(jī)旋轉(zhuǎn)等預(yù)處理操作.
本文采用Dice系數(shù)、平均交并比(mean intersection over union, MIoU)和均方誤差(mean square error, MSE)作為算法評(píng)估標(biāo)準(zhǔn).
Dice系數(shù)用于計(jì)算預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽的相似度, 公式為
(6)
其中X是真實(shí)標(biāo)簽圖像,Y是預(yù)測(cè)結(jié)果圖像.平均交并比MIoU用于計(jì)算預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽的交并比, 公式為
(7)
其中k為類別數(shù)量, 本文k=1,i表示前景類,j表示背景類,pij為將前景分割為背景的概率.均方誤差MSE用于計(jì)算預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽的偏差程度, 其值越小, 分割性能越好, 公式為
(8)
其中X為真實(shí)標(biāo)簽圖像,Y為預(yù)測(cè)結(jié)果圖像,n為圖像包含像素的數(shù)量.
本文方法與其他方法對(duì)比實(shí)驗(yàn)結(jié)果列表1.由表1可見(jiàn), 本文方法的平均交并比MIoU由0.896提升至0.908, Dice系數(shù)由0.951提升至0.958, 均方誤差MSE則降低了0.001, 證明了本文方法的有效性.
表1 不同方法在數(shù)據(jù)集RIM-ONE v.3上的對(duì)比結(jié)果
圖4 視盤(pán)分割示例Fig.4 Examples of OD segmentation
眼底圖像采集光照不均及眼底病變和滲出物的干擾都會(huì)加大視盤(pán)分割難度, 圖4為視盤(pán)分割示例.由圖4可見(jiàn), 視盤(pán)左側(cè)邊界不清晰, 且箭頭所指處存在陰影, 被陰影包圍區(qū)域與陰影產(chǎn)生明暗對(duì)比.若算法僅關(guān)注局部特征, 則很容易誤認(rèn)為陰影中全是視盤(pán), 導(dǎo)致誤分割.由于本文方法兼顧了全局與局部特征信息, 因此在邊界模糊且有陰影干擾的情況下, 仍實(shí)現(xiàn)了視盤(pán)區(qū)域精準(zhǔn)分割.
視杯包含在視盤(pán)內(nèi)部, 基于該先驗(yàn)知識(shí), 本文在進(jìn)行視杯分割前先根據(jù)視盤(pán)分割結(jié)果對(duì)眼底圖像進(jìn)行裁剪.圖5為一個(gè)視杯分割示例.圖5(A)為數(shù)據(jù)集中的原始圖像和經(jīng)過(guò)裁剪后的輸入圖像, 由圖5(A)可見(jiàn), 視杯和視盤(pán)擁有極相似的特征, 很難區(qū)分.同時(shí), 視盤(pán)中心匯聚的大量血管結(jié)構(gòu)也對(duì)視杯分割產(chǎn)生干擾, 增加了分割難度.由圖5(B),(C)可見(jiàn), 本文方法實(shí)現(xiàn)了視杯區(qū)域精準(zhǔn)分割, 驗(yàn)證了本文網(wǎng)絡(luò)模型的特征提取能力.圖6和圖7展示了更多的可視化結(jié)果, 驗(yàn)證了本文方法準(zhǔn)確率不受目標(biāo)大小變化的影響.
圖5 視杯分割示例Fig.5 Examples of OC segmentation
圖6 視盤(pán)分割在數(shù)據(jù)集RIM-ONE v.3上的結(jié)果Fig.6 Results of OD segmentation on RIM-ONE v.3 dataset
圖7 視杯分割在數(shù)據(jù)集RIM-ONE v.3上的結(jié)果Fig.7 Results of OC segmentation on RIM-ONE v.3 dataset
綜上所述, 本文以UNet-Light作為主干網(wǎng)絡(luò), 通過(guò)在其中加入金字塔池化模塊, 降低病變等噪聲對(duì)視盤(pán)和視杯分割的干擾, 豐富多尺度特征, 有效提高了網(wǎng)絡(luò)特征的提取能力, 使網(wǎng)絡(luò)在分割時(shí)不受目標(biāo)大小形狀變化的影響.針對(duì)視盤(pán)和視杯分割兩個(gè)任務(wù), 在公開(kāi)數(shù)據(jù)集RIM-ONE v.3上進(jìn)行了多組對(duì)比實(shí)驗(yàn), 結(jié)果表明, 本文方法在兩個(gè)任務(wù)中的分割精度均優(yōu)于原始網(wǎng)絡(luò), 且在處理病變區(qū)域、視杯特征不明顯等分割困難區(qū)域, 比現(xiàn)有算法各項(xiàng)指標(biāo)均有顯著提高.