高書陽
(湖北方源東力電力科學(xué)研究有限公司,湖北 武漢 430000)
在胎兒的醫(yī)療診斷過程中,準(zhǔn)確地識別胎盤圖像中胎兒位置對評價胎兒和母親的健康狀況很重要?,F(xiàn)有的方法主要是借助超聲波掃描儀獲得胎盤圖像,再由專業(yè)的超聲波圖像解析人員識別出胎兒位置并采集各項數(shù)據(jù)(例如:頭圍、腹部寬度等),由于解析人員的專業(yè)知識和長時間的識別疲勞,導(dǎo)致胎兒位置的識別結(jié)果在不同的觀察者那里會存在很大的差異;超聲波解析人員在采集各項數(shù)據(jù)時,主要使用卡尺作為測量工具,卡尺的放置位置會對測量結(jié)果產(chǎn)生很大的誤差。
傳統(tǒng)的圖像分割方法,包括閾值法、邊緣法和區(qū)域法等,這些都沒有考慮像素之間的相關(guān)性,分割的效果不理想。基于圖論的分割方法是將圖像中的每個像素點看成圖的頂點,像素點之間的關(guān)系看作圖的邊,像素之間的相關(guān)性看作邊的權(quán)值,建立一個關(guān)于邊的能量函數(shù),通過最小化能量函數(shù)實現(xiàn)對圖像的分割;基于能量泛函的分割方法是利用類間方差或像素間梯度構(gòu)造能量泛函,求解泛函極值時圖像的分割狀態(tài)。近年來,卷積神經(jīng)網(wǎng)絡(luò)以其超強的特征提取能力被廣泛地應(yīng)用于圖像檢測和分割領(lǐng)域。圖像分割主要分為語義分割和實例分割,語義分割是區(qū)分圖像中不同物體類的分割,它不需要區(qū)分圖像中某個物體類的不同個體,從早期的全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)[1]、U-Net[2],發(fā)展到現(xiàn)在的金字塔場景分析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet)[3]、DeepLab[4]等,這些都是單階段直接預(yù)測掩碼。實例分割需要分清圖像中每個類的不同個體,代表性是Mask Rcnn[5]網(wǎng)絡(luò),它的特點是需要在檢測出目標(biāo)的基礎(chǔ)上對目標(biāo)掩碼進(jìn)行預(yù)測,能夠提高分割的精確性。而注意力機制方法,可以是網(wǎng)絡(luò)更關(guān)注感興趣區(qū)域,得模型能夠關(guān)注圖像中的重點信息。[6]
由于傳統(tǒng)方法無法區(qū)分目標(biāo)與背景邊界的問題,同時考慮到胎盤圖像背景的復(fù)雜性,本文提出了一種基于注意機制的深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分割方法,可以有效的解決胎盤圖像分割問題??偟膩碚f,本文主要貢獻(xiàn)點可以歸納如下:
1.本文采用先定位后分割的方法,構(gòu)建類別預(yù)測和檢測框回歸模塊粗定位出目標(biāo)的區(qū)域,在定位區(qū)域里進(jìn)行胎盤分割,提升了分割精度,同時也降低了分割難度。
2.本文為了將關(guān)注點放在目標(biāo)區(qū)域的有效位置,提出了基于注意力機制的掩碼預(yù)測分支細(xì)定位目標(biāo)的位置,可以使網(wǎng)絡(luò)關(guān)注有效特征信息。
3.本文在公開的數(shù)據(jù)集上,進(jìn)行大量實驗本文提出方法的有效性,并與當(dāng)前主流的六種圖像分割方法進(jìn)行對比,結(jié)果表明,無論在視覺感知還是三個量化指標(biāo)上,均優(yōu)于其他方法。
2.1.1 FCN
FCN 主要由提取高層語義的下采樣層和預(yù)測掩碼的上采樣層組成。其基本結(jié)構(gòu)如圖1 所示,輸入通過多層的卷積層和池化層下采樣得到通道數(shù)為256的卷積特征圖,再將該特征圖通過三個全連接層得到通道數(shù)為2的高層語義特征,最后將該特征通過多層的反卷積層上采樣得到預(yù)測的掩碼。其中,在下采樣的過程中,最后三層的特征圖將被保留并添加到上采樣層相對應(yīng)的尺寸輸出中。
圖1 FCN 結(jié)構(gòu)圖
2.1.2 U-Net
U-Net 一種U 型網(wǎng)絡(luò),是一種編碼和解碼結(jié)構(gòu),考慮了不同分辨率的圖像特征,將圖像的高分辨率和低分辨率特征結(jié)合,編碼層是學(xué)習(xí)圖像的初級特征,解碼層是將圖像高層語義特征與初級相結(jié)合來還原細(xì)節(jié)信息,并且逐步還原圖像精度。
2.1.3 PSPNet
PSPNet 在FCN的基礎(chǔ)上加入了金字塔池化模塊,取出FCN 網(wǎng)絡(luò)下采樣過程中得到的高層語義特征圖F,將F 經(jīng)過金字塔池化模塊中四種不同尺度的池化層下采樣得到{P1,P2,P3,P4},此下采樣方式考慮到了不同尺度的特征,減少了信息的丟失,再將P1 到P4 經(jīng)過上采樣后得到的特征圖與F 合并,最后通過反卷積上采樣預(yù)測掩碼,結(jié)構(gòu)圖見圖2。
圖2 PSPNet 結(jié)構(gòu)圖
2.1.4 DeepLab
Deeplab 引入了空洞卷積,在傳統(tǒng)卷積的基礎(chǔ)上加入了卷積空洞,相同參數(shù)的條件下極大地提高了卷積的感受野。DeepLab 在特征池化時引入了空洞空間金字塔池(Atrous Spatial Pyramid Pooling,ASPP)[7]模塊,能夠在高層特征層中極大效率的利用圖像的全局特征。在主干特征提取網(wǎng)絡(luò)方面,DeepLab 采用了Xception 結(jié)構(gòu),它采用深度可分離卷積,能夠在網(wǎng)絡(luò)參數(shù)量保持基本不變的情況下帶來很好的特征提取效果。
從注意力機制的可微分性來看,注意力機制大體可以分為軟注意力機制和硬注意力機制。
2.2.1 軟注意力機制
在圖像處理領(lǐng)域,軟注意力機制關(guān)注圖像的特征區(qū)域和特征通道,可以通過網(wǎng)絡(luò)的自身學(xué)習(xí)來生成,并添加到原始特征上,使得模型能夠關(guān)注圖像中的重點信息。由于它是可微分的,所以在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程中可以計算出梯度,并且前向傳播和反向傳播反饋來學(xué)習(xí)得到注意力的權(quán)重。
2.2.2 硬注意力機制
硬注意力機制更關(guān)注于圖像中的目標(biāo)點或區(qū)域,它通過學(xué)習(xí)一個定位物體部分的網(wǎng)絡(luò),通過神經(jīng)網(wǎng)絡(luò)強大的學(xué)習(xí)能力首先定位出物體的大致位置,提取定位后的區(qū)域特征,再將該特征用于下一步的任務(wù),如果該特征對整體任務(wù)有促進(jìn)作用,該特征區(qū)域在后續(xù)的學(xué)習(xí)過程中將會被更加關(guān)注。
本文提出了基于注意機制的深度卷積神經(jīng)網(wǎng)絡(luò)胎盤圖像分割方法,將注意力機制與Mask RCNN 結(jié)合,采用先定位后分割,使網(wǎng)絡(luò)更關(guān)注感興趣信息,能夠有效的提高分割的準(zhǔn)確性(本文的總體網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示)。
圖3 總體結(jié)構(gòu)圖
本文采用檢測定位加上分割的方法分割目標(biāo)區(qū)域,首先檢測出目標(biāo)的大體區(qū)域,然后在目標(biāo)區(qū)域內(nèi)分割目標(biāo)。
3.1.1 檢測定位
取出ROIAlign 后的特征圖F1,經(jīng)過全局平均池化后得到的特征向量F2 送入類別預(yù)測和檢測框回歸分支,其中:
Meank*k表示在k*k的區(qū)域內(nèi)求平均,F(xiàn)1的每個通道求平均得到F2,輸出的維度是1*1*1024。
式中,wi和wj分別為類別預(yù)測分支和檢測框回歸分支到F2的連接權(quán)值,bi和bj為相對應(yīng)的偏置。
3.1.2 目標(biāo)分割
將ROIAlign 得到的特征圖F1經(jīng)過若干個注意力機制模塊后得到F3,其中:
式中,Atten 表示若干個注意力機制模塊。
帶有注意力的特征圖F3經(jīng)過反卷積上采樣得到預(yù)測的掩碼,反卷積的步長為2,其中:
式中,?表示反卷積操作,f 為激活函數(shù),wi 為第i 個卷積核,bi 表示偏置。
由于胎盤圖像具有重影、目標(biāo)模糊的特點,且胎盤圖像中背景和其他物體會干擾胎兒目標(biāo)的分割,因此,本文采用自注意力機制將模型的關(guān)注區(qū)域放在胎兒目標(biāo)上,其結(jié)構(gòu)如圖4 所示。
儒家追求盡心而成性,進(jìn)而到達(dá)圣人之境,最終擁有理想的人格?!笆ト恕笔冀K是儒家所求的理想人格的代稱,由此,儒家認(rèn)可的理想人格最直接的標(biāo)準(zhǔn)就是圣人所代表的概念。而胡宏對此的理解,不僅對許多先賢大儒的眾多理論予以了承繼,而且還進(jìn)行了積極的探究,進(jìn)而使其提出的圣人理論極具個人特色。
圖4 注意力機制結(jié)構(gòu)圖
首先將輸入的特征圖F4經(jīng)過一維卷積運算得到特征圖H,其中:
式中,?表示卷積操作,f 為激活函數(shù),W1*1表示一維卷積核的權(quán)值,b1*1表示一維卷積核的偏置。
再將特征圖F4分別經(jīng)過兩次下采樣(DS)和兩次上采樣(US)得到注意力圖,其中:
其 中,wk(k=f、g、p、Am)和bk(k=f、g、p、Am)分別表示生成特征圖F、G、P 和注意力圖時卷積核的權(quán)值和偏置。
最后將注意力圖和特征圖點乘得到帶有注意力機制的特征圖Afm,其中:
本文采用先檢測定位后分割目標(biāo)的方法,共有三個損失函數(shù),分別是將背景和目標(biāo)區(qū)分開的分類損失函數(shù)Lcls、回歸目標(biāo)檢測框坐標(biāo)的L2損失函數(shù)Lbox和預(yù)測目標(biāo)掩碼的二值交叉熵?fù)p失函數(shù)Lmask,由于預(yù)測目標(biāo)掩碼任務(wù)的難度最大,回歸目標(biāo)檢測框坐標(biāo)任務(wù)次之,本文構(gòu)建式*所示的損失函數(shù)。
本文選用三種評價指標(biāo),分別是Dice、BF scores 和Hausdorff,Dice的計算公式:
式中,pred和gt分別表示預(yù)測結(jié)果和標(biāo)簽,common(pred,gt)表示預(yù)測結(jié)果和標(biāo)簽的相同部分,length 表示計算長度。
BF scores的計算公式為:
式中,precision 表示預(yù)測結(jié)果的精確度,recall 表示預(yù)測結(jié)果的召回率。
Hausdorff的計算公式為:
其中h(Pred,Gt)和h(Gt,Pred)分別表示Pred 到Gt 和Gt 到Pred的Hausdorff 距離,計算公式見式*和*:
其中max(p ∈Pred)min(g ∈Gt)||p-g||表示取出Pred 中的每個點p,求出Gt 中距離點p 最近的點g,取所有||p-g||的最大值作為h(Pred,Gt),h(Gt,Pred)同理可得。
本次實驗中,數(shù)據(jù)集來自https://hc18.grand-challenge.org 公開的胎盤數(shù)據(jù)集,該數(shù)據(jù)集一共有999 張圖像,每張圖像對應(yīng)一張標(biāo)簽圖像,標(biāo)簽圖像的內(nèi)容是一個形狀為橢圓的曲線,曲線部分為白色,其他部分為黑色。以1:9的比例將數(shù)據(jù)集劃分為899 張圖像的訓(xùn)練集和100 張圖像的測試集。從100 張測試集圖像的實驗結(jié)果中隨機挑選出4組圖像,驗證本文提出方法的有效性。
本文實驗基于深度學(xué)習(xí)框架Tensorflow 在一臺NVIDIA GeForce GTXGTX1080Ti GPU的計算機上進(jìn)行訓(xùn)練和測試。
在訓(xùn)練階段,采用大小為256×256的圖像的進(jìn)行訓(xùn)練,每次迭代輸入4 張圖像。網(wǎng)絡(luò)通過Adam 來更新網(wǎng)絡(luò)參數(shù),RMSprop 具體參數(shù)為:權(quán)值超參數(shù),初始學(xué)習(xí)速率設(shè)置為0.001,網(wǎng)絡(luò)每層卷積采用He K 均勻分布初始化方法,偏置為0,總訓(xùn)練Epoch 為15,前10 個Epoch的學(xué)習(xí)率為10-4,后5 個Epoch的學(xué)習(xí)率為10-6。
為了衡量本文算法的性能,本文選取在測試集上實施了大量實驗,并與當(dāng)前主流的六種圖像分割算法進(jìn)行實驗對比,分別為PSPNet、DeeplabV3、DeeplabV3+、U-Net、注意力機制U-Net、Mask-Rcnn。同時采用三個量化指標(biāo)來客觀定量的平均圖形分割結(jié)果。
視覺感知。為了更好衡量評估本文算法胎盤圖像分割的視覺效果,本文選取了四幅圖像來展示分割效果。
圖5 中:測試集隨機挑選出四組圖像的二值圖預(yù)測結(jié)果:(a)原始圖像、(b)標(biāo)簽二值圖、(c)PSPNet、(d)DeeplabV3、(e)DeeplabV3+、(f)Unet、(g)Unetattention、(h)Maskrcnn、(i)Maskrcnn-attention。
圖5
圖6 中:測試集中隨機挑選出四組圖像及預(yù)測結(jié)果輪廓圖:(a)原始圖像、(b)標(biāo)簽二值圖、(c)PSPNet、(d)DeeplabV3、(e)DeeplabV3+、(f)Unet、(g)Unet-attention、(h)Maskrcnn、(i)Maskrcnn-attention。
圖6
隨機從測試集中挑選出4 組圖像,從圖5 和6 可以看出,PSPNet的預(yù)測效果最差,DeeplabV3 和DeeplabV3+次之,Unet 和Unet-attention 對胎盤圖像具有良好的預(yù)測能力,加上Attention 機制的Mask rcnn的預(yù)測效果與掩碼標(biāo)簽是最為接近的。
為了驗證模型的有效性,統(tǒng)計七種方法下,測試集上的Dice 系數(shù)、BF scores 和Hausdorff,如上表1 所示。
表1 七種方法下測試集Dice、BF scores 和Hausdorff的比較
Dice 系數(shù)越大表示預(yù)測結(jié)果和標(biāo)簽之間的重疊部分占比越大,BF_scores 值越大,表示預(yù)測結(jié)果的輪廓與標(biāo)簽之間越相似。
從測試集中隨機挑選出10 組圖像統(tǒng)計Dice、BF scores 和Hausdorff 指標(biāo)(如圖7 所示),可以看出Mask rcnn-attention的分割結(jié)果具有最高的Dice、BF scores 和Hausdorff,能夠非常精確地對圖像中的目標(biāo)進(jìn)行分割。Unet-attention、Unet、Mask rcnn、DeeplabV3、DeeplabV3+和PSPNet 等方法的評價指標(biāo)均沒有Mask rcnn-attention 高。
圖7
圖7
考慮到模型預(yù)測的時效性,本文將以上七種方法分別統(tǒng)計了單張圖像的模型推斷耗時,如上表2 所示。
表2 七種方法下單張圖像模型推斷耗時(T)的比較(單位:秒)
可以看出,Attention-MaskRcnn 由于模型更為復(fù)雜導(dǎo)致推斷耗時最長,但也是毫秒級別,整體而言影響不大。
本文提出的基于注意力機制的深度卷積神經(jīng)網(wǎng)絡(luò)包括兩個部分:(1)在深度神經(jīng)網(wǎng)絡(luò)特征提取器后加上類別預(yù)測和檢測框回歸模塊,粗定位出目標(biāo)的位置;(2)在粗定位的位置上加上帶有注意力機制的掩碼預(yù)測模塊預(yù)測掩碼。由于本方法是針對胎兒頭部位置的兩階段定位分割,與其他的單階段直接預(yù)測掩碼相比,本方法能夠更為精確的定位出胎兒頭部位置并預(yù)測掩碼。多組實驗結(jié)果均表明,本方法與其他分割性能優(yōu)越的Unet、Unet-attention、DeeplabV3 和DeeplabV3+相比,分割效果整體更好。