黃鴻,楊沂川,王龍,鄭福建,吳劍
(1 重慶大學(xué) 光電技術(shù)與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,重慶 400044)
(2 重慶大學(xué)附屬腫瘤醫(yī)院 頭頸腫瘤中心,重慶 400030)
在臨床診斷中,對病理圖像中的病灶區(qū)域進(jìn)行精確分割和定量評估能夠?yàn)楹罄m(xù)的病理分析提供有價(jià)值的信息,在理解、診斷和治療疾病方面發(fā)揮了關(guān)鍵作用[1]。然而,傳統(tǒng)的手動分割方法耗時(shí)耗力,并且嚴(yán)重依賴病理學(xué)家的經(jīng)驗(yàn)[2]。因此,高效的病理圖像自動分割方法就顯得尤其重要。
傳統(tǒng)的圖像分割方法主要基于手工特征,包括閾值分割法、圖割法和分水嶺法等[3]。典型的閾值分割法有大津法[4],其主要原理是通過最大化類間方差來計(jì)算分割閾值,因其效率高而被廣泛應(yīng)用。分水嶺算法[5]檢測速度快且分割結(jié)果具有空間連續(xù)性,但該算法對噪聲敏感且不適用于大區(qū)域分割。典型的圖割法有Graphcut 法[6],其原理為利用圖像紋理信息和邊界信息先構(gòu)建一張加權(quán)圖,通過邊權(quán)值的大小來篩選邊,使劃分的子圖彼此盡量相互分離,從而實(shí)現(xiàn)分割的目的。該方法具有較好的泛化性,但對于相似目標(biāo)分割能力差。上述傳統(tǒng)圖像分割方法主要適用于早期計(jì)算機(jī)輔助病理圖像分割的研究中,過度依賴于手工特征的先驗(yàn)知識,而深層鑒別特征表達(dá)能力不足,導(dǎo)致其分割性能受限。
近年來,深度學(xué)習(xí)在自然圖像處理任務(wù)中表現(xiàn)出了卓越的性能,并應(yīng)用于生物醫(yī)學(xué)圖像分割。基于編碼器-解碼器結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)因其可實(shí)現(xiàn)端到端的自動分割,在準(zhǔn)確性以及效率方面相較于傳統(tǒng)分割方法體現(xiàn)出明顯優(yōu)勢[7]。U-Net[8]作為醫(yī)學(xué)圖像分割中廣泛使用的編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu),其編碼器捕獲低級和高級特征,解碼器利用上采樣層恢復(fù)空間分辨率并通過跳躍連接實(shí)現(xiàn)特征融合來構(gòu)建最終結(jié)果。該網(wǎng)絡(luò)能夠在病理圖像數(shù)據(jù)缺乏的情況下完成圖像分割任務(wù),但由于跳躍連接導(dǎo)致了編碼器與解碼器之間的語義差距,限制了其分割性能。
為了克服上述限制,UNet++[9]在跳躍連接的過程中添加了一系列嵌套、密集的連接路徑,以形成密集的編碼-解碼網(wǎng)絡(luò),并帶有深監(jiān)督實(shí)現(xiàn)對目標(biāo)的分割。IBTEHAZ N 等[10]提出一種MultiResUNet,觀察到編碼器特征和解碼器特征之間可能存在語義差距,通過引入具有殘差結(jié)構(gòu)的Res-Path 來改進(jìn)跳躍連接,從而提升分割精度。OKTAY O 等[11]提出Attention U-Net對編碼-解碼塊使用注意力門來突出特定局部區(qū)域的顯著特征,同時(shí)抑制不相干區(qū)域。WANG J S 等[12]提出了一種基于乳腺癌組織微陣列樣本高光譜圖像的癌巢分割方法,該方法結(jié)合了U-Net神經(jīng)網(wǎng)絡(luò)和無監(jiān)督主成分分析的優(yōu)點(diǎn),在減少模型計(jì)算量的同時(shí),提高了目標(biāo)分割精度。黃鴻等[13]將不同深度解碼特征重新進(jìn)行組合并實(shí)現(xiàn)深度特征融合,提升了深層特征在預(yù)測中的作用,改善了分割性能。ZHAO B C 等[14]提出具有漸進(jìn)密集特征聚集的感知分割網(wǎng)絡(luò),通過提取病理圖像的RGB 信息、染色信息以及分割位置信息,使網(wǎng)絡(luò)學(xué)習(xí)到更多有用的特征,提高病理圖像分割精度。但是上述網(wǎng)絡(luò)僅改變網(wǎng)絡(luò)結(jié)構(gòu)以增強(qiáng)特征間的交互,忽略了大部分病理圖像病灶區(qū)域聚集、細(xì)胞形態(tài)差異過小的特點(diǎn)。
為了解決上述問題,ZAMORA W 等[15]基于U-Net 網(wǎng)絡(luò)框架,通過圖像前景、背景和細(xì)胞核邊緣的距離信息來提取分割目標(biāo)的形態(tài)特征,將形態(tài)學(xué)特征與全卷積網(wǎng)絡(luò)模型結(jié)合,實(shí)現(xiàn)細(xì)胞核實(shí)例分割,且細(xì)胞核分割精度明顯優(yōu)于U-Net。FANG Y 等[16]提出了一種具有面積和邊界約束的選擇性特征聚合網(wǎng)絡(luò)用于息肉分割,考慮了區(qū)域和邊界之間的相關(guān)性,并通過附加的邊緣監(jiān)督獲得了良好的結(jié)果。FAN D P 等[17]提出具有前景背景區(qū)分注意力模塊作為補(bǔ)充特征的PraNet,在分割結(jié)果的邊緣細(xì)化上取得了較大的突破。CHEN S等[18]提出了一種多邊形上下文感知網(wǎng)絡(luò),通過對目標(biāo)像素點(diǎn)集進(jìn)行采樣獲取每個(gè)點(diǎn)集的質(zhì)心與區(qū)域邊界構(gòu)成的多邊形特征,利用置信度加權(quán)模塊融合輸出特征,并引入了形狀感知損失,在一定程度上解決了細(xì)胞核分布擁擠和邊界模糊的問題,提高了預(yù)測分割精度。ACSNet[19]利用編碼器分支的局部和全局上下文特征為每個(gè)解碼步驟提供具有空間注意力的引導(dǎo)信息,使網(wǎng)絡(luò)在醫(yī)學(xué)圖像分割結(jié)果上取得了進(jìn)一步的提升。由于CNN 結(jié)構(gòu)存在固有的歸納偏差,缺乏對圖像遠(yuǎn)程依賴關(guān)系的學(xué)習(xí)理解,最近基于Transformer 結(jié)構(gòu)的網(wǎng)絡(luò)也逐漸應(yīng)用于醫(yī)學(xué)圖像分割。TransUNet[20]同時(shí)具有Transformer 和U-Net 的優(yōu)點(diǎn),一方面將CNN 與Transformer 的自編碼器結(jié)合作為醫(yī)學(xué)圖像分割任務(wù)的強(qiáng)編碼器提取全局上下文信息,另一方面解碼器將編碼特征上采樣并與高分辨率的CNN 特征圖組合以提高定位精度,從而增強(qiáng)網(wǎng)絡(luò)的分割性能。VALANARASU J 等[21]提出了一種門控軸線注意力模型來擴(kuò)展現(xiàn)有的Transformer 模型,并提出LoGo 訓(xùn)練策略,能夠更好的訓(xùn)練醫(yī)學(xué)圖像,提高了分割精度。WANG H 等[22]利用基于Transformer 的通道變換器替代U-Net 簡單的跳躍連接,有效地將編碼器多尺度信息交叉融合到解碼器部分,分割精度明顯優(yōu)于U-Net。但上述深度學(xué)習(xí)方法仍存在以下兩個(gè)問題:大多數(shù)網(wǎng)絡(luò)更關(guān)注易于分割的區(qū)域,而忽略了分割困難的邊緣像素點(diǎn),限制了分割精度的提高;某些網(wǎng)絡(luò)雖然提取了邊緣信息作為補(bǔ)充,但并沒有解決不同特征間語義層次不一致的問題,而利用通道注意力機(jī)制來彌補(bǔ)特征間語義差距的現(xiàn)有方法模型復(fù)雜度過高,在醫(yī)學(xué)圖像稀少的情況下網(wǎng)絡(luò)模型擬合較慢。
針對上述問題,本文提出了基于邊緣感知融合的病理圖像分割網(wǎng)絡(luò)(Boundary Perception Network,BPNet)。該網(wǎng)絡(luò)基于經(jīng)典的編碼-解碼結(jié)構(gòu),并構(gòu)建了邊緣感知模塊(Boundary Perception Module,BPM)以及自適應(yīng)通道注意力模塊(Adaptive Shuffle Channel Attention Module,ASCAM)來提升網(wǎng)絡(luò)性能。BPM使邊界位置信息深度參與到網(wǎng)絡(luò)訓(xùn)練的優(yōu)化過程中,大幅提升了網(wǎng)絡(luò)分割結(jié)果的精細(xì)程度。ASCAM 在增加極少參數(shù)量的情況下,自適應(yīng)的捕捉了編碼、邊緣、解碼三部分特征信息的交互關(guān)系,以彌補(bǔ)不同層次特征間的語義差距,捕獲更復(fù)雜的通道相關(guān)性。此外,設(shè)計(jì)了邊緣與結(jié)構(gòu)的聯(lián)合損失函數(shù),以優(yōu)化網(wǎng)絡(luò)的目標(biāo)定位和細(xì)節(jié)處理能力。與其他圖像分割方法相比,本文方法在兩個(gè)公共病理圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果都表現(xiàn)出更好的分割性能。
針對病理圖像病灶目標(biāo)實(shí)例多、分布廣以及邊緣模糊的特性,本文提出了一種面向病理圖像分割的邊緣感知網(wǎng)絡(luò)(BPNet),該模型基于編碼器-解碼器結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。其中,編碼過程采用基于EfficientNet-B4 網(wǎng)絡(luò)[23]的特征編碼器。EfficientNet-B4 屬于EfficientNet 系列的一部分,是一種高效的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),它采用了復(fù)合縮放方法,即在網(wǎng)絡(luò)的深度、寬度和分辨率三個(gè)維度上進(jìn)行縮放,以實(shí)現(xiàn)高效的模型設(shè)計(jì)。本文通過EfficientNet-B4 網(wǎng)絡(luò)的特征編碼器進(jìn)行卷積下采樣,提取圖像的特征信息,在保持網(wǎng)絡(luò)性能的同時(shí),顯著減少了計(jì)算復(fù)雜性和參數(shù)量。解碼器包括解碼塊、邊緣感知模塊以及自適應(yīng)通道注意力模塊。解碼塊進(jìn)行反卷積操作完成特征信息的解碼過程。邊緣感知模塊(BPM)對每層解碼器的輸出進(jìn)行邊緣提取,再將邊緣信息疊加到編碼特征上輸出邊緣感知增強(qiáng)特征。自適應(yīng)通道注意力模塊(ASCAM)在增加極少參數(shù)量的情況下,自適應(yīng)的捕捉編碼、邊緣、解碼三部分特征信息的交互關(guān)系,彌補(bǔ)不同層次特征間的語義差距,捕獲更復(fù)雜的通道相關(guān)性,以更好地恢復(fù)目標(biāo)對象的細(xì)粒度細(xì)節(jié)。在此基礎(chǔ)上,通過采用聯(lián)合損失函數(shù)對網(wǎng)絡(luò)進(jìn)行深監(jiān)督約束,首先將不同深度的解碼特征進(jìn)行激活輸出,分別計(jì)算各層的層級監(jiān)督損失Ldsi,從解碼器不同尺度優(yōu)化隱藏層特征以獲得更精確的分割結(jié)果;隨后通過分割損失L1約束目標(biāo)區(qū)域從而優(yōu)化網(wǎng)絡(luò)參數(shù);同時(shí),為了更大程度地提升邊緣分割效果,訓(xùn)練過程中增加邊緣損失約束Ledge。
圖1 BPNet 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The overall structure of the BPNet algorithm
本文設(shè)計(jì)的邊緣感知模塊(BPMi)具體結(jié)構(gòu)如圖2所示。該模塊是一種新型邊緣注意力方式,通過關(guān)注不確定性更高和更復(fù)雜的邊緣區(qū)域,以實(shí)現(xiàn)特征互補(bǔ)和預(yù)測結(jié)果精細(xì)化。
圖2 邊緣感知模塊結(jié)構(gòu)Fig.2 The structure of attention boundary perception module
為了更好地融合編碼器、解碼器和邊緣感知模塊間語義不一致的特征,本文使用改進(jìn)的自適應(yīng)通道注意力模塊(ASCAM),通過有效學(xué)習(xí)特征間的通道交互信息從而提高特征表達(dá)能力,該模塊具體結(jié)構(gòu)如圖3所示。
圖3 自適應(yīng)通道注意力模塊結(jié)構(gòu)Fig.3 The structure of adaptive shuffle channel attention module
圖4 GlaS 病理圖像數(shù)據(jù)集Fig.4 The GlaS pathological image datasets
圖5 MoNuSeg 細(xì)胞核數(shù)據(jù)集Fig.5 The MoNuSeg nuclei datasets
自適應(yīng)通道注意力模塊輸入為第k層網(wǎng)絡(luò)的編碼器、解碼器和邊緣感知模塊特征拼接得到的融合特征Xk∈RH×W×C。首先對融合特征進(jìn)行通道重排,按順序各取三個(gè)特征塊的一個(gè)通道特征圖依次排列組成新的特征塊,其目的是使后續(xù)卷積操作在不使用大卷積核的情況下能有效捕獲不同特征塊之間的信息交互。通道重排后的特征RH×W×C作為通道注意力處理的輸入。之后空間壓縮由一個(gè)全局平均池化(Global Average Pooling,GAP)進(jìn)行,產(chǎn)生特征向量G(x)∈R1×1×C
式中對輸入特征Xk∈RH×W×C的C個(gè)通道的特征值分別求平均值,H,W分別為每個(gè)特征圖的高度與寬度。
執(zhí)行以上步驟后,通常采用一個(gè)多層感知器模塊(Multiple Layer Perception,MLP)[24]計(jì)算通道權(quán)重系數(shù)。MLP 主要由兩個(gè)全連接層(Fully Connected Layer,F(xiàn)C)構(gòu)成,其中首個(gè)FC 的節(jié)點(diǎn)數(shù)通常利用降維操作降低模塊的參數(shù)量,第二個(gè)FC 再將特征映射回特征空間。但這樣的降維操作破壞了通道與權(quán)重參數(shù)之間一一對應(yīng)的關(guān)系,進(jìn)而影響最終的模型學(xué)習(xí)效果[25]。因此,本文提出的自適應(yīng)通道注意力利用一維卷積捕獲局部通道交互信息,顯著降低通道注意力模塊復(fù)雜度的同時(shí)兼顧了模塊有效性。同時(shí),為了最大程度地保證信息交互的通用性,需要確定相互作用的覆蓋范圍,即一維卷積核的尺寸。而網(wǎng)絡(luò)不同層級的特征塊中具有不同的通道數(shù),需要通過人工調(diào)整優(yōu)化卷積核大小。然而,通過手動調(diào)整核參數(shù)耗費(fèi)大量計(jì)算資源,部分采用組卷積的改進(jìn)模型證實(shí),卷積操作的卷積核尺寸k與通道數(shù)量C之間存在正相關(guān)映射關(guān)系φ[26],且網(wǎng)絡(luò)中通道數(shù)量通常為2 的指數(shù),因此,將映射關(guān)系設(shè)置為如下所示的非線性映射關(guān)系
因此,給定通道數(shù)C,一維卷積核大小k可以自適應(yīng)確定為
式中,|t|odd表示取t的絕對值相鄰最近的奇數(shù)。本文中,γ的值設(shè)置為1,b設(shè)置為0。顯然,通過非線性映射關(guān)系,高維通道的相互作用距離較長,而低維通道的相互作用距離較短,經(jīng)計(jì)算自上往下的四個(gè)ASCAM 模塊自適應(yīng)卷積核數(shù)量分別為1、3、5、7。在此基礎(chǔ)上,利用Sigmoid 函數(shù)進(jìn)行激活得到通道注意力權(quán)值系數(shù)β∈[0,1]1×1×C。隨后,將獲得的通道注意力系數(shù)β與原始的輸入映射Xk∈RH×W×C逐通道相乘,得到經(jīng)過權(quán)值優(yōu)化的層注意力融合特征。該模塊可以有效地學(xué)習(xí)特征間的通道交互信息提高特征表達(dá)能力,與其他現(xiàn)有通道注意力相比,該方法以較低的模型復(fù)雜度獲得了較好的性能。
本文提出邊緣與結(jié)構(gòu)聯(lián)合損失函數(shù),以優(yōu)化網(wǎng)絡(luò)的目標(biāo)定位和細(xì)節(jié)處理能力。該聯(lián)合損失函數(shù)包括三部分:分割損失L1,層級監(jiān)督損失Lds和邊緣懲罰損失Ledge。其中,分割損失L1計(jì)算網(wǎng)絡(luò)最終的分割預(yù)測結(jié)果與對應(yīng)標(biāo)簽Mask 之間的損失,在保證網(wǎng)絡(luò)魯棒性的同時(shí)有效提升訓(xùn)練速度,提高目標(biāo)分割精度;層級監(jiān)督損失Lds計(jì)算不同深度的解碼特征進(jìn)行激活輸出后的預(yù)測值與對應(yīng)標(biāo)簽Mask 之間的損失,從解碼器的不同尺度優(yōu)化隱藏層特征以獲得更精確的分割結(jié)果;邊緣懲罰損失Ledge計(jì)算網(wǎng)絡(luò)最終的分割預(yù)測結(jié)果邊緣與對應(yīng)標(biāo)簽Mask 邊緣之間的損失(預(yù)測圖像與標(biāo)簽的邊緣均有Sobel 算子提?。?,進(jìn)而有效利用目標(biāo)的邊緣信息,約束網(wǎng)絡(luò)預(yù)測的邊緣精度,提升對邊緣的分割效果。該聯(lián)合損失函數(shù)Lall表示為
式中,α,β,γ分別為損失的權(quán)重系數(shù),α設(shè)置為2,β與γ均設(shè)置為1。
L1是二元交叉熵?fù)p失(Binary Cross Entropy,BCE)與Dice 損失的加權(quán)結(jié)果:L1=LBCE+LDice。
LBCE魯棒性較好,但易受到醫(yī)學(xué)圖像類別不均衡的影響,定義為
LDice更關(guān)注目標(biāo)區(qū)域,可以有效提升訓(xùn)練速度,提高目標(biāo)分割效果,但穩(wěn)定性較差,其表達(dá)式為
式中,y表示真實(shí)標(biāo)注,?表示預(yù)測結(jié)果。
Lds從解碼器不同尺度優(yōu)化隱藏層特征以獲得更精確的分割結(jié)果,屬于深監(jiān)督損失,每一層的Lds與L1計(jì)算方式相同,均為二元交叉熵?fù)p失與Dice 損失的加權(quán),定義為
式中,ydowni和Oi分別表示第i層下采樣標(biāo)簽矩陣與第i層網(wǎng)絡(luò)預(yù)測矩陣。
除了約束目標(biāo)區(qū)域的L1與Lds損失外,本文引入了增強(qiáng)邊緣精度的Ledge損失,在網(wǎng)絡(luò)訓(xùn)練過程中實(shí)時(shí)優(yōu)化分割邊緣,該損失定義為預(yù)測結(jié)果邊緣與標(biāo)簽邊緣的二元交叉熵計(jì)算結(jié)果,具體可表示為
在整個(gè)實(shí)驗(yàn)中,實(shí)驗(yàn)硬件環(huán)境是基于PANYAO 7048GR 服務(wù)器,CPU 為正式版E5-2096 2.3G-3.6G 45M Cache22NM,內(nèi)存為256G,六張NVIDIA GeForce TITAN RTX 顯卡。軟件環(huán)境是基于Ubuntu 系統(tǒng)的Tensorflow2.0 深度學(xué)習(xí)框架,CUDA 和CUDNN 的版本分別為10.1.243 和7.6.5,編程語言為Python3.8。
1)MICCAI 2015 腺體分割挑戰(zhàn)賽數(shù)據(jù)集(GlaS)[27]。
GlaS 數(shù)據(jù)集病理圖像采用蘇木精和伊紅(Hematoxylin Eosin,H&E)染色,并使用蔡司MIRAX MIDI 掃描儀對結(jié)直腸癌組織進(jìn)行20 倍放大成像,原始圖像大小不一,大多數(shù)為775×522 大小的RGB 圖像。共包含85 張訓(xùn)練數(shù)據(jù)以及80 張測試數(shù)據(jù)。
2)MoNuSeg 細(xì)胞核數(shù)據(jù)集[28-29]。
MoNuSeg 數(shù)據(jù)集由40 倍放大下捕獲的H&E 染色組織圖像形成。該數(shù)據(jù)集包含患者和多個(gè)器官的圖像,原始尺寸均為1 000×1 000。訓(xùn)練數(shù)據(jù)包含30 張圖像,約22 000 個(gè)細(xì)胞核核邊界注釋。測試數(shù)據(jù)包含14 張圖像,其中核邊界標(biāo)注超過7 000 個(gè)。
兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集將訓(xùn)練數(shù)據(jù)按照訓(xùn)練集與測試集4∶1 劃分。同時(shí)為了彌補(bǔ)訓(xùn)練數(shù)據(jù)不足造成過擬合,實(shí)驗(yàn)中對訓(xùn)練集數(shù)據(jù)進(jìn)行了水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)兩種在線數(shù)據(jù)增強(qiáng)方式。為盡量保留訓(xùn)練圖像細(xì)節(jié)和減少模型計(jì)算量,訓(xùn)練BPNet 網(wǎng)絡(luò)時(shí)兩個(gè)數(shù)據(jù)集中圖像均縮放為512×512 尺寸作為輸入。模型訓(xùn)練采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)作為模型優(yōu)化器。訓(xùn)練初始學(xué)習(xí)率為0.01,訓(xùn)練epoch 總數(shù)設(shè)置為200,當(dāng)驗(yàn)證精度超過15 個(gè)epoch 不增加時(shí),則將學(xué)習(xí)率更改為當(dāng)前學(xué)習(xí)率的0.5,最小學(xué)習(xí)率為0.000 5,當(dāng)經(jīng)過連續(xù)30 個(gè)epoch 驗(yàn)證精度沒有提高時(shí)結(jié)束訓(xùn)練,批次大小統(tǒng)一設(shè)置為6。實(shí)驗(yàn)采用1.4 節(jié)描述的邊緣與結(jié)構(gòu)聯(lián)合損失函數(shù),為保證實(shí)驗(yàn)可靠性,實(shí)驗(yàn)最終結(jié)果取5 次重復(fù)實(shí)驗(yàn)平均值。
對于兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集,均采取Dice 系數(shù)、交并比系數(shù)(Intersection over Union,IoU)、準(zhǔn)確率(Accuracy,ACC)和精確率(Precision,PRE)四個(gè)評價(jià)指標(biāo)。
式中,y表示標(biāo)簽,y?表示預(yù)測結(jié)果,TP、FP、TN、FN 分別表示為真陽性、假陽性、真陰性、假陰性的對應(yīng)像素預(yù)測結(jié)果,其中最終的預(yù)測結(jié)果為模型預(yù)測結(jié)果以0.5 為閾值進(jìn)行二值化后得出。
2.3.1 BPNet 算法和經(jīng)典算法對比
為驗(yàn)證BPNet 網(wǎng)絡(luò)整體分割性能,將其與其他先進(jìn)的方法進(jìn)行對比。對比方法包括兩種類型,四種基于CNN 的方法:U-Net[8]、UNet++[9]、MultiResUNet[10]和AttentionUNet[11],三種基于Transformer 的方法:TransUNet[20]、MedT[21]和UCTransNet[22]。其中,MedT 與UCTransNet 模型輸入大小按照原始公布代碼設(shè)置為224×224,其余網(wǎng)絡(luò)模型輸入設(shè)置為512×512。為了更加公平的比較,上述所有方法的其余設(shè)置均采用2.2 節(jié)所提的實(shí)驗(yàn)設(shè)置,不同算法在GlaS 數(shù)據(jù)集上的分割結(jié)果見表1,最佳分割結(jié)果采用加粗顯示。
表1 不同算法在GlaS 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(平均值±標(biāo)準(zhǔn)差)Table 1 The experimental results with different methods on GlaS datasets(Mean ± Std)
由表1 可知,BPNet 方法與現(xiàn)有方法相比在四個(gè)指標(biāo)上具有明顯優(yōu)勢。其中,U-Net 作為經(jīng)典的醫(yī)學(xué)圖像分割網(wǎng)絡(luò),提出使用跳躍連接融合細(xì)節(jié)特征,但其較弱的特征提取能力以及簡單的特征融合方式導(dǎo)致分割性能不足。UNet++和MultiResUNet 分別在UNet 的基礎(chǔ)上改進(jìn)跳躍連接方式、增強(qiáng)特征融合使得分割效果有提升。而基于Tansformer 結(jié)構(gòu)的TransUNet、UCTransNet 網(wǎng)絡(luò)通過利用自注意力機(jī)制編碼遠(yuǎn)程依賴關(guān)系,在精度上相較于基于U-Net 的模型精度有較大提升,但其參數(shù)量巨大,且網(wǎng)絡(luò)訓(xùn)練擬合速度慢,在多個(gè)指標(biāo)上仍略低于BPNet。MedT 則由于其復(fù)雜的特征提取過程和訓(xùn)練策略,在數(shù)據(jù)量偏少的數(shù)據(jù)集上難以取得優(yōu)勢。BPNet 因其加強(qiáng)了對于病理圖像復(fù)雜區(qū)域的特征提取,取得最好的圖像分割性能。
為了直觀對比不同方法的預(yù)測結(jié)果,將模型分割結(jié)果進(jìn)行可視化,如圖6所示??梢钥闯觯琔-Net 及其改進(jìn)網(wǎng)絡(luò)特征信息提取不夠完全,導(dǎo)致存在欠分割的情況?;赥ransformer 系列網(wǎng)絡(luò)的分割結(jié)果相較于U-Net 系列網(wǎng)絡(luò)有明顯改善,但對于一部分相鄰的病灶區(qū)域,其分割結(jié)果依舊存在粘連情況,說明上述基于Transformer 的分割網(wǎng)絡(luò)并沒有針對邊緣特征進(jìn)行單獨(dú)的網(wǎng)絡(luò)改進(jìn)。而BPNet 擁有最佳的分割效果,尤其是在分割邊緣保留了更多的細(xì)節(jié)信息,證明所提的邊緣感知模塊優(yōu)化了網(wǎng)絡(luò)對于邊緣的分割效果。
圖6 不同算法在GlaS 數(shù)據(jù)集上的分割結(jié)果Fig.6 The segmentation results of different algorithms on GlaS datasets
2.3.2 算法消融實(shí)驗(yàn)
在此基礎(chǔ)上,進(jìn)行了消融實(shí)驗(yàn),具體設(shè)置為:1)Baseline 是以EfficientNet-B4 網(wǎng)絡(luò)作為編碼器的UNet,并使用ImageNet 數(shù)據(jù)集預(yù)訓(xùn)練模型,訓(xùn)練過程中采用聯(lián)合損失函數(shù)。2)在Baseline 的基礎(chǔ)上加入邊緣感知模塊,命名為Baseline+BPM。3)在Baesline+BPM 的基礎(chǔ)上增加自適應(yīng)通道注意力模塊,注意力模塊的使用位置在各解碼層對應(yīng)的特征融合位置,實(shí)驗(yàn)中命名為Baseline+BPM+ASCAM,即BPNet。消融實(shí)驗(yàn)中所有模型訓(xùn)練設(shè)置與BPNet 算法相同,取五次重復(fù)實(shí)驗(yàn)結(jié)果均值作為各模型得分,實(shí)驗(yàn)結(jié)果如表2所示。
表2 GlaS 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果(平均值±標(biāo)準(zhǔn)差)Table 2 The ablation experimental results on GlaS datasets(Mean ± Std)
由表2 可知,Baseline 在原始U-Net 基礎(chǔ)上更換有效編碼器及使用聯(lián)合損失函數(shù)使得網(wǎng)絡(luò)的性能有一定的提升。同時(shí),添加邊緣感知模塊后模型的預(yù)測分割精度提升明顯,說明邊緣感知模塊有效地增強(qiáng)了網(wǎng)絡(luò)對于邊緣細(xì)節(jié)的預(yù)測。而自適應(yīng)感知通道模塊僅增加極少的參數(shù)量使得網(wǎng)絡(luò)的分割結(jié)果進(jìn)一步提升。
為體現(xiàn)各模塊對分割結(jié)果的作用,圖7 展示了相應(yīng)的消融實(shí)驗(yàn)實(shí)際分割效果??梢钥闯?,在基礎(chǔ)模型添加BPM 后,相鄰分割目標(biāo)的粘連現(xiàn)象有明顯改善,說明該模塊加強(qiáng)了模型對于邊緣的區(qū)分能力,但還存在定位不準(zhǔn)確,分割目標(biāo)缺失的問題。在上述模型添加ASCAM 后,分割結(jié)果進(jìn)一步完善,在保留精細(xì)邊緣的同時(shí)準(zhǔn)確定位目標(biāo)。
圖7 GlaS 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Fig.7 The segmentation results of ablation experiments on GlaS datasets
2.4.1 BPNet 算法和經(jīng)典算法對比
為了測試BPNet 模型在不同數(shù)據(jù)集上的泛化性,在MoNuSeg 數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn),實(shí)驗(yàn)設(shè)置同2.3.1 節(jié),實(shí)驗(yàn)結(jié)果見表3。
表3 不同算法在MoNuSeg 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(平均值±標(biāo)準(zhǔn)差)Table 3 The experimental results with different methods on MoNuSeg datasets(Mean ± Std)
在表3 中,UNet++和MultiResUNet 相較于U-Net 分別提升了約1.6%和2.5%的Dice 系數(shù),提升幅度小于GlaS 數(shù)據(jù)集,這是由于MoNuSeg 數(shù)據(jù)集的分割目標(biāo)更加聚集復(fù)雜。而AttentionUNet 的注意力模塊并沒有使網(wǎng)絡(luò)在復(fù)雜的數(shù)據(jù)下獲得更佳的融合特征,反而使得網(wǎng)絡(luò)參數(shù)量增加導(dǎo)致過擬合,測試集得分相較于U-Net 有所下降?;赥ransformer 的TransUNet 和UCTransNet 在得分上相較于基于U-Net 的網(wǎng)絡(luò)有明顯提升,這是由于細(xì)胞核在整幅圖像有重復(fù)性以及相似性,Transformer 能夠有效提取不同區(qū)域相似目標(biāo)之間的關(guān)聯(lián)特征,使分割效果提升,但MedT 由于網(wǎng)絡(luò)僅采用自注意力機(jī)制進(jìn)行特征提取,在數(shù)據(jù)量偏少的情況下網(wǎng)絡(luò)不能有效擬合,導(dǎo)致得分明顯偏低。本文提出的BPNet 在四個(gè)指標(biāo)上均取得了最高得分,說明網(wǎng)絡(luò)有效提取了復(fù)雜病理圖像的細(xì)節(jié)信息。
各算法在測試集上的預(yù)測結(jié)果如圖8所示。在圖8 中,各算法均出現(xiàn)了不同程度的過分割,主要體現(xiàn)在相鄰細(xì)胞核的邊界存在粘連,這種情況會極大地影響臨床中后續(xù)的細(xì)胞計(jì)數(shù)。相較于對比算法,BPNet 優(yōu)化了邊界的特征提取以及在訓(xùn)練過程中加入對邊界效果的評價(jià),使其取得了最好的分割效果。
圖8 不同算法在MoNuSeg 數(shù)據(jù)集上的分割結(jié)果Fig.8 The segmentation results of different algorithms on MoNuSeg datasets
2.4.2 算法消融實(shí)驗(yàn)
在MoNuSeg 數(shù)據(jù)集上的消融實(shí)驗(yàn)設(shè)置與2.3.2 節(jié)一致,實(shí)驗(yàn)結(jié)果見表4。
表4 MoNuSeg 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果(平均值±標(biāo)準(zhǔn)差)Table 4 The ablation experimental results on MoNuSeg datasets(Mean ± Std)
從表4 可以看出,Baseline 逐漸添加BPM 以及ASCAM 后各指標(biāo)有了明顯提升,說明采用邊緣感知融合以及自適應(yīng)通道注意力都能提高網(wǎng)絡(luò)的病灶分割性能。結(jié)合表3 的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)添加BPM 模塊能夠使目標(biāo)的邊界位置信息深度參與到網(wǎng)絡(luò)訓(xùn)練的優(yōu)化過程中,對于模型的分割性能提升尤為明顯,這體現(xiàn)了邊緣特征對于提高密集目標(biāo)分割性能的重要性;而ASCAM 模塊在保證不增加網(wǎng)絡(luò)模型復(fù)雜度的前提下,自適應(yīng)的捕捉了編碼、邊緣、解碼三部分特征信息的交互關(guān)系,彌補(bǔ)了不同層次特征間的語義差距,有效捕獲了更復(fù)雜的通道相關(guān)性,進(jìn)一步提升了分割精度。
本文提出了一種改進(jìn)的病理圖像語義分割算法BPNet。該算法首先利用解碼特征圖生成邊緣增強(qiáng)特征,加強(qiáng)了網(wǎng)絡(luò)對于實(shí)例多且分布廣的病理圖像的分割性能,并采用自適應(yīng)通道注意力模塊篩選重要特征,最后在輸出層利用聯(lián)合損失函數(shù)實(shí)現(xiàn)網(wǎng)絡(luò)對于不同層級特征的信息捕獲,使網(wǎng)絡(luò)性能達(dá)到最優(yōu)。在GlaS 和MoNuSeg 病理圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提方法優(yōu)于其他方法,獲得了最好的分割效果,其Dice分割精度分別可達(dá)92.21%和81.18%,尤其在邊緣預(yù)測處理上具有明顯的優(yōu)勢。此外,基于Transformer 的網(wǎng)絡(luò)能夠有效提取圖像不同區(qū)域相似目標(biāo)之間的長距離依賴關(guān)系,提升分割性能。因此下一步將聯(lián)合Transformer 模型,在細(xì)化分割邊緣的同時(shí)進(jìn)一步加強(qiáng)網(wǎng)絡(luò)的特征提取能力。