国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MDA-Net:一種結(jié)合雙路徑注意力機(jī)制的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)

2023-10-18 10:18:38彭學(xué)桂彭敦陸
關(guān)鍵詞:注意力像素卷積

彭學(xué)桂,彭敦陸

(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

1 引 言

醫(yī)學(xué)圖像處理已經(jīng)成為了輔助醫(yī)生治療疾病的重要手段,它可以幫助醫(yī)生精準(zhǔn)定位病變區(qū)域,對(duì)病變部分進(jìn)行前期處理,可以提高對(duì)疾病的診斷效率.但與自然圖像一樣,醫(yī)學(xué)圖像的模態(tài)也比較多樣化,且醫(yī)學(xué)圖像在成像過程中往往會(huì)存在噪聲和偽影,這對(duì)通過影像觀察疾病的醫(yī)生來說存在一定的挑戰(zhàn).如果能通過計(jì)算機(jī)輔助技術(shù),實(shí)現(xiàn)對(duì)病變器官的自動(dòng)分割,這將大大提高醫(yī)生的診斷效率.

深度學(xué)習(xí)在大數(shù)據(jù)發(fā)展的輔助下,越來越多的醫(yī)學(xué)圖像分割模型被提出.其最早的代表是全卷積神經(jīng)網(wǎng)絡(luò)[1],首先采用預(yù)先訓(xùn)練的分類網(wǎng)絡(luò)(VGG-Net、Res-Net、Dense-Net)為特征提取器,然后再利用跳躍連接融合各個(gè)層次特征.但由于上下采樣層,層次結(jié)構(gòu)不一致,導(dǎo)致分割結(jié)果較為粗糙.為了解決該問題,Olaf Ronneberger[2]等人提出對(duì)稱結(jié)構(gòu)的U-Net網(wǎng)絡(luò),使得分割精度得到一定提升.

卷積神經(jīng)網(wǎng)絡(luò)具備對(duì)圖像語(yǔ)義信息的捕獲能力,很多創(chuàng)新型的語(yǔ)義分割算法都是此基礎(chǔ)上進(jìn)行擴(kuò)展,同時(shí)這些模型通常是以編解碼結(jié)構(gòu)來呈現(xiàn)的.但卷積神經(jīng)網(wǎng)絡(luò)存在一些問題:首先,卷積運(yùn)算具有“平移不變性”的特點(diǎn),也即在特征圖的各個(gè)地方使用的都是同一個(gè)卷積核,這樣就只獲取到了語(yǔ)義信息,卻忽視了空間位置信息,這樣對(duì)于普通目標(biāo)分類任務(wù)來說是可以的,但是對(duì)于語(yǔ)義分割這種像素級(jí)的分類任務(wù)存在問題.其次,有些網(wǎng)絡(luò)僅僅只是簡(jiǎn)單地將低層次信息和高層次信息進(jìn)行連接,認(rèn)為所有的特征圖通道都是有用的,這會(huì)造成一定的信息冗余,降低模型的計(jì)算速度.最后,在卷積層中一系列的池化下采樣操作會(huì)丟失特征信息,該操作在解碼部分的上采樣中是不可逆的.

為了更好地處理以上問題,提出了MDA-Net.利用位置注意力模塊(PAM)將所有像素位置進(jìn)行特征加權(quán)和,從而將特征的位置信息進(jìn)行提取;利用通道注意力模塊(CAM)選擇性地強(qiáng)調(diào)相互依賴的通道映射,避免了特征提取過程中的信息冗余;為了得到更好的分割效果,將Mobile-NetV2模塊得到的信息和高層次特征信息進(jìn)行融合.

本文的主要貢獻(xiàn)總結(jié)如下:1)提出了一種結(jié)合雙路徑注意力機(jī)制的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)MDA-Net,能夠同時(shí)捕獲語(yǔ)義信息和空間位置信息;2)通道注意力模塊(CAM)和位置注意力模塊(PAM)的提出使得模型能夠通過參數(shù)學(xué)習(xí)來自動(dòng)識(shí)別重要信息與冗余信息,加速模型訓(xùn)練;3)在IBSI數(shù)據(jù)集和LUNA競(jìng)賽數(shù)據(jù)集上來驗(yàn)證所提出的模型的有效性.

2 相關(guān)工作

Olaf Ronneberger 等人于 2015 在 FCN 的基礎(chǔ)上提出了第一個(gè)用于生物醫(yī)學(xué)圖像分割的深度學(xué)習(xí)模型 U-Net,由于U-Net在醫(yī)學(xué)圖像分割上的優(yōu)秀表現(xiàn),許多研究者在編解碼結(jié)構(gòu)的基礎(chǔ)上提出不同的改進(jìn)方法.Nabil[3]等人在將U-Net的變種應(yīng)用于多模態(tài)醫(yī)學(xué)圖像分割任務(wù)上,并取得了優(yōu)異的整體性能.D-Net[4]的作者提出了一種多尺度信息融合模塊,該模塊使用不同擴(kuò)張速率的并行卷積層,以更好地捕捉不同大小的視網(wǎng)膜血管信息.

Chen[5]等人提出了一種帶有尺度上下文選擇注意模塊的雙流結(jié)構(gòu),以增強(qiáng)多尺度處理能力.Zhang等人[6]通過空洞卷積引入了邊界強(qiáng)化結(jié)構(gòu)來結(jié)合空間信息.CE-Net[7]的作者提出了一個(gè)密集的空洞卷積模塊,以捕獲更廣泛和更深入的上下文特征.BA-Net[8]的作者引入了從邊界解碼器到分割解碼器的跳躍連接,并定義了一致性損失,以推動(dòng)兩個(gè)解碼器產(chǎn)生相同的結(jié)果.此外,結(jié)合兩個(gè)金字塔模塊開發(fā)了CPF-Net[9],融合了全局和多尺度的上下文信息.背景特征提取也被應(yīng)用到三維醫(yī)學(xué)圖像分割中.Con-ResNet[10]作為一種注意機(jī)制,明確地學(xué)習(xí)空間的上下文信息,以提高分割的準(zhǔn)確性.

基于全卷積神經(jīng)網(wǎng)絡(luò)(FCN)的語(yǔ)義分割方法在圖像分割方面取得了很大的進(jìn)展,這類模型已經(jīng)成為醫(yī)學(xué)圖像分割任務(wù)中的主要解決方案,楊[11]等人將全卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于生物醫(yī)學(xué)圖像分割.另一種方法是使用遞歸神經(jīng)網(wǎng)絡(luò)來利用長(zhǎng)距離相關(guān)性,從而提高圖像分割的精度.Chu[12]等人提出了一種利用條件位置編碼的網(wǎng)絡(luò),以此來獲取網(wǎng)絡(luò)中的位置信息.

Transformer中的自注意力機(jī)制能夠全局地計(jì)算patch之間的成對(duì)關(guān)系,從而實(shí)現(xiàn)在較長(zhǎng)的范圍內(nèi)進(jìn)行特征交互.Beyer[13]等人利用一個(gè)純Transformer框架來處理視覺任務(wù),將圖像視為空間patch的集合.DGFAU-Net[14]中同樣結(jié)合了自注意力機(jī)制.閆[15]等人提出了一種結(jié)合多分支的注意力機(jī)制分割網(wǎng)絡(luò).在醫(yī)學(xué)圖像語(yǔ)義分割中,transformer組合架構(gòu)可分為兩類:一類主要采用自注意力機(jī)制對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行補(bǔ)充[16];另一種是使用純transformer構(gòu)建編碼器解碼器架構(gòu),以捕獲深度表示并預(yù)測(cè)每個(gè)圖像像素的類別[17].實(shí)際上Transformer中的自注意力機(jī)制是置換等價(jià)[18]的,它省略了輸入序列中塊的順序.然而,由于醫(yī)學(xué)圖像分割結(jié)果往往和位置高度相關(guān),因此,置換等價(jià)的性質(zhì)可能不利于醫(yī)學(xué)圖像分割.以往的工作通常采用絕對(duì)位置編碼(APE)[18]或相對(duì)位置編碼(RPE)[19]來補(bǔ)充位置信息.但是,APE需要一個(gè)預(yù)先給定的固定的patch量,因此不能泛化到不同的圖像大小,而RPE忽略了絕對(duì)位置信息,這對(duì)醫(yī)學(xué)圖像分割這種像素級(jí)別的任務(wù)來說恰恰是重要信息.

受以上研究啟發(fā),本文旨在提出一種能夠同時(shí)將輸入特征的空間信息和語(yǔ)義信息進(jìn)行提取的雙路徑注意力網(wǎng)絡(luò),如圖1所示,以此來捕獲豐富的上下文信息.主干網(wǎng)絡(luò)采用Mobile-NetV2[20],該模塊首先把輸入的低維壓縮表示延伸到高維,用輕量級(jí)的深度可分離卷積做過濾;然后利用線性的 bottleneck[20]把特征轉(zhuǎn)換為低維輸出.解碼部分將Mobile-NetV2中的低層次信息和經(jīng)過雙路徑注意力模塊后的高層次信息進(jìn)行融合,最后利用轉(zhuǎn)置卷積的自動(dòng)學(xué)習(xí)能力,將特征圖上采樣至輸入圖片的尺寸.

3 模 型

在這一部分中,首先給出了網(wǎng)絡(luò)的總體框架,然后介紹了backbone以及兩個(gè)分別在空間和通道維度捕獲遠(yuǎn)程上下文信息的注意模塊.其次,將詳細(xì)闡述空間和通道模塊內(nèi)部是如何進(jìn)行特征信息的提取,最后對(duì)解碼部分中不同層次特征的融合操作進(jìn)行說明.

3.1 問題定義

語(yǔ)義分割作為圖像分割的一種,其本質(zhì)是一種像素級(jí)別的分類任務(wù).訓(xùn)練集一般由一組圖像組成,可以表示為如下結(jié)構(gòu)Image=[Img1,Img2,…,Imgn],并且每張圖片有多個(gè)像素,Img1=[Imgi1,Imgi2,…,Imgik].預(yù)測(cè)目標(biāo)為L(zhǎng)=[Pi1,Pi2,…,Pik],其中Pik為分割目標(biāo)區(qū)域的像素值,L是分割目標(biāo)區(qū)域的像素集合.通過訓(xùn)練一個(gè)分類器S(i),使輸出的目標(biāo)區(qū)域與標(biāo)簽區(qū)域?qū)?yīng)像素的誤差盡可能小.

3.2 MDA-Net框架

提出的MDA-Net是一種編解碼型的網(wǎng)絡(luò)結(jié)構(gòu).在編碼器部分,首先利用Mobile-NetV2用于網(wǎng)絡(luò)的特征提取器,Mobile-NetV2中提供的一個(gè)深度可拆分的卷積把標(biāo)準(zhǔn)卷積拆分成兩個(gè)部分,能夠大大減少模型的參數(shù),從而促進(jìn)模型的訓(xùn)練.在得到圖片特征信息之后,使用了一種雙路徑的注意力模塊,應(yīng)用卷積層來獲得低層次的特征.將初級(jí)特征信息輸送至到位置注意力模塊(PAM),再經(jīng)過如下3個(gè)過程得到了新的上下文信息特征.首先就是根據(jù)輸入的特征圖生成注意力矩陣,該矩陣可以對(duì)特征的任何兩個(gè)像素之間的空間關(guān)聯(lián)性進(jìn)行分析.其次,在注意力矩陣與初始特征之間進(jìn)行向量運(yùn)算.最后,再對(duì)經(jīng)過上述運(yùn)算的結(jié)果矩陣與初始特征間進(jìn)行元素求和運(yùn)算,并得到反映長(zhǎng)距離全局上下文的空間位置信息.

針對(duì)通道維度的信息,可以使用通道注意力模塊(CAM)來處理.而通道注意力模塊的原理與位置注意力模塊很相似,只不過第一步是在通道維度上對(duì)通道注意力矩陣進(jìn)行計(jì)算.最后,將兩個(gè)注意力模塊輸出的張量進(jìn)行sum-fusion運(yùn)算,從而得到包含更多信息的特征圖.解碼部分則將backbone中輸出的部分低層次特征與經(jīng)過雙路徑注意力模塊的高層次特征進(jìn)行融合.為了使得兩類特征能夠,采用一系列的轉(zhuǎn)置卷積和Dropout對(duì)高層次特征進(jìn)行上采樣操作,最終獲得與輸入尺寸一致的預(yù)測(cè)輸出.

3.3 編碼模塊

編碼器作為提取特征的模塊,特征圖在編碼過程中,尺寸不斷減小,因此更容易在較深的編碼器中捕獲較長(zhǎng)范圍的特征信息.Mobile-NetV2作為backbone,是一種輕量級(jí)的網(wǎng)絡(luò),可以在加深網(wǎng)絡(luò)深度的情況下而不增大參數(shù)量,將backbone中提取的初級(jí)信息進(jìn)一步輸入到雙路徑注意力模塊.

因此,針對(duì)位置注意模塊,便使用了自注意力機(jī)制來捕捉特征圖中任意兩個(gè)區(qū)域相互的空間依賴關(guān)系.而針對(duì)某個(gè)特殊區(qū)域,則使用了加權(quán)求和的方式來聚合每個(gè)區(qū)域的特征對(duì)其加以更新,其中權(quán)重由對(duì)應(yīng)兩個(gè)位置之間的特征相似性決定.具有相似特征的任何兩個(gè)位置便可以相互促進(jìn),而不管它們?cè)诳臻g維度上的距離怎樣.因此,對(duì)于通道注意模塊,不必使用最中間的特征映射,而是在原始特征中計(jì)算注意力圖,并利用對(duì)每個(gè)通道特征映射的加權(quán)和更新各個(gè)通道的特征映射.最后,再把這兩種注意模塊的輸出結(jié)果加以融合,以便特征表示的進(jìn)一步加強(qiáng).

3.3.1 Backbone

作為網(wǎng)絡(luò)的特征提取器,backbone的選擇直接影響分割效果.這里采用Mobile-NetV2作為骨干網(wǎng)絡(luò),如圖2所示.Mobile-NetV2網(wǎng)絡(luò)是一種輕量級(jí)網(wǎng)絡(luò),該網(wǎng)絡(luò)中的深度可分離卷積是一種新型的卷積,與常規(guī)卷積相比,其所含參數(shù)量更少,運(yùn)算成本比較低.

圖2 骨干網(wǎng)絡(luò)Fig.2 Backbone network

Mobile-NetV2是在V1的基礎(chǔ)上進(jìn)行的改進(jìn),V1主要采用的是深度可分離卷積,但V2提出的線性瓶頸(Linear bottleneck)和反向殘差(Inverted Residuals)進(jìn)一步加快了運(yùn)算速度,以下為Mobile-NetV2的結(jié)構(gòu).

深度可分離卷積是通過和兩個(gè)部分結(jié)合起來,使用該卷積用來提取特征圖.Mobile-NetV2結(jié)構(gòu)主要作用是加快計(jì)算速度.首先,利用將低維空間特征映射到高維,然后通過深度可分離卷積的處理,再使用線性瓶頸層將特征圖投影回低維特征.Mobile-NetV2采用線性瓶頸(Linear bottleneck)層來代替非線性激活變換,以此保留更多的特征信息.

3.3.2 位置注意力部分

一些研究人員指出,由傳統(tǒng)的FCN生成的局部特征會(huì)使得像素級(jí)別的分類任務(wù)出現(xiàn)錯(cuò)誤,為在局部特征上形成更豐富的上下文關(guān)系模型,提出了PAM模塊.PAM模塊可以把覆蓋范圍更廣的上下文信息轉(zhuǎn)換為局部特征,這樣便可以保留更多的特征信息,接下來將詳細(xì)闡述該過程.

如圖3所示,假設(shè)一個(gè)局部特征表示為A∈RC×H×W,通過一個(gè)卷積層,生成兩個(gè)新的特征映射B和C,其中{B,C}∈RC×H×W,然后通過reshape操作,將該張量形狀改為RC×N,其中N=H×W代表像素點(diǎn)的數(shù)量,再將B,C做矩陣乘法,應(yīng)用softmax層來得到空間注意力圖S∈RN×N,計(jì)算過程表示如下:

(1)

其中sji表示像素點(diǎn)中ith位置對(duì)jth位置的影響,若兩像素點(diǎn)的特征相似,則該值表示其相關(guān)性強(qiáng)度.

在生成B,C特征映射的同時(shí),將局部特征A輸入卷積層,生成一個(gè)新的特征映射D∈RC×H×W,再reshappe為RC×N的張量.得到新的張量后,在D與S的轉(zhuǎn)置之間進(jìn)行矩陣乘法,并將結(jié)果重新reshape為RC×H×W的特征圖,最后乘以學(xué)習(xí)參數(shù)α,將獲得的注意力圖和原輸入的局部特征圖A相加,得到最后的輸出E∈RC×H×W,表示如下:

(2)

其中α的值隨機(jī)初始化得到,經(jīng)過網(wǎng)絡(luò)訓(xùn)練,逐漸學(xué)習(xí)分配更多的權(quán)重.特征圖中某個(gè)區(qū)域的結(jié)果特征E是每個(gè)位置特征和原始特征的加權(quán)和運(yùn)算,所以,生成的結(jié)果會(huì)結(jié)合更多的上下文信息.可以根據(jù)空間注意力圖來選擇性地聚合上下文信息.輸入中有相似的語(yǔ)義特征的位置將會(huì)被聚合到一類,而不相似的則根據(jù)注意力圖被聚合為另一類.該方法大大增強(qiáng)了同類型位置特征的緊湊性和語(yǔ)義的一致性.

3.3.3 通道注意力部分

高層次特征的所有通道特征圖都可以認(rèn)為是一種特定于類的響應(yīng)結(jié)果,不同類型的語(yǔ)義響應(yīng)都可以互相聯(lián)系.通過通道特征映射間的相互依賴性,來強(qiáng)調(diào)相互依賴的特征映射,從而進(jìn)行特殊含義的特征表達(dá).于是,構(gòu)建了一個(gè)通道注意力模塊來顯式地將通道特征圖之間的關(guān)系建立起來.

圖3 注意力模塊Fig.3 Attention module

通道注意力模塊的詳細(xì)構(gòu)造如圖3(b)所示,和位置注意力模塊不同的是,它是直接在原始特征A∈RC×H×W中計(jì)算出的通道注意力圖X∈RC×C.具體來說,首先將特征圖A經(jīng)過reshape操作變換為RC×N,接著在A和A的轉(zhuǎn)置中間進(jìn)行向量運(yùn)算,結(jié)尾再利用softmax激活函數(shù)來實(shí)現(xiàn)通道注意力圖X∈RC×C,表示如下:

(3)

其中的xji表示了第i層特征圖通道ith對(duì)第j層特征圖通道jth的影響.此外,可以在X和A的轉(zhuǎn)置之間進(jìn)行向量運(yùn)算,然后再利用reshape將結(jié)果變形為RC×H×W,將該結(jié)果結(jié)合尺度參數(shù)β,最后對(duì)特征圖A執(zhí)行元素的求和運(yùn)算,最后輸出結(jié)果E∈RC×H×W,將該過程表示如下:

(4)

其中β的值隨機(jī)初始化得到,根據(jù)上述方程,每個(gè)通道的最終特征就是每個(gè)通道特征和原始特征之間的加權(quán)和結(jié)果,這樣使得在通道上形成了與特征映射間的長(zhǎng)期語(yǔ)義依賴關(guān)系,可以增加特征圖中特征的可識(shí)別性,從而在圖像的分割精度上得到一定的提升.

為了確保各個(gè)通道映射間特征相關(guān)性的正確性,在計(jì)算兩個(gè)通道的特征關(guān)系之前,可以不通過卷積層來嵌入通道特征.另外,和最近的文獻(xiàn)[5]中使用全局池化作為網(wǎng)絡(luò)的注意力參數(shù)不一致之處是,本文使用了每一個(gè)相對(duì)應(yīng)位置的空間信息來對(duì)通道相關(guān)性建模.

3.4 解碼模塊

圖像分割工作要求對(duì)來自更多尺度空間的數(shù)據(jù)加以融合.同時(shí)該工作還要求對(duì)局部與全局的信息加以平衡.一方面,細(xì)粒度的或者局部整體的數(shù)據(jù)在提升整個(gè)像素級(jí)別的標(biāo)注正確率而言是必不可少的;另一方面,整合圖像全局的上下文信息在解決局部模糊性問題是至關(guān)重要的.

一般的CNN模型并不擅長(zhǎng)處理這種平衡.于是,本文受Unet和deeplabv3+網(wǎng)絡(luò)模型的啟發(fā),將backbone輸出的低層次信息和雙路徑注意力模塊輸出的高層次信息進(jìn)行特征融合.具體做法為,先通過轉(zhuǎn)置卷積將雙路徑注意力模塊輸出的高層次特征進(jìn)行上采樣,使之與backbone輸出的低層次特征處于同一尺度,然后將它們進(jìn)行操作,從而得到拼接后的新特征圖.

在解碼部分,設(shè)計(jì)了一種高效的空間信息捕捉模塊,運(yùn)用空間注意力機(jī)制來選擇性地突出了有用的空間信息,而且在空間層次上形成了很強(qiáng)的依賴關(guān)聯(lián)關(guān)系.為了產(chǎn)生高分辨率的特征預(yù)測(cè)結(jié)果,在解碼部分融合了由多尺度信息融合模塊的高維和低維特征圖.這些特征圖具有區(qū)分力強(qiáng)、多尺度上下文信息豐富以及依賴性強(qiáng)等特點(diǎn).然后,再利用一個(gè)多核卷積塊對(duì)特征圖加以細(xì)分.多核卷積塊由兩種尺寸不一樣的卷積核所構(gòu)成,且并行排列.其中一種卷積核尺寸為3×3,另一個(gè)尺寸為5×5.最后,利用轉(zhuǎn)置卷積運(yùn)算得出最終的預(yù)測(cè)結(jié)果.該模型極大地提高了分割結(jié)果的準(zhǔn)確度.

3.5 損失函數(shù)

由于醫(yī)學(xué)圖像分割的本質(zhì)其實(shí)還是一個(gè)二分類,即預(yù)測(cè)每一個(gè)像素是前景還是背景.針對(duì)分類問題,較為常見的損失函數(shù)是交叉熵?fù)p失函數(shù).但由于醫(yī)學(xué)圖像中的物體往往占據(jù)圖像中很小的一部分區(qū)域,如果直接采用交叉熵?fù)p失函數(shù),得到的效果并不好,于是采用Dice函數(shù)作為模型的損失函數(shù),如下所示:

(5)

Lloss=Ldice+Lreg

(6)

其中Lreg表示正則化損失,主要用于模型訓(xùn)練過程中避免過擬合.

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)設(shè)置

在訓(xùn)練階段,采用小批量隨機(jī)梯度下降方法來優(yōu)化模型,優(yōu)化器各參數(shù)設(shè)置如下:batchsize=2,momentum=0.9,weightdecay=0.00001,totalepoch=200.此外,使用了迭代固定次數(shù)之后按一定比例降低學(xué)習(xí)率的“多步學(xué)習(xí)率改變策略”:設(shè)初始學(xué)習(xí)率為Initiallr=0.01,當(dāng)?shù)螖?shù)為epoch時(shí)使用的學(xué)習(xí)率更新為:Ir=Initiallr×ε[epoch/stepsize],其中,ε=0.9,stepsize=10.

4.2 評(píng)價(jià)指標(biāo)

語(yǔ)義分割的評(píng)價(jià)指標(biāo)有很多,這里選擇Dice系數(shù)、平均交并比(mIOU)、準(zhǔn)確率(Acc)這3個(gè)常用的指標(biāo),它們的詳細(xì)定義將會(huì)在下文中一一闡述.

(7)

其中,|A|和|B|分別表示模型的預(yù)測(cè)圖片和真實(shí)標(biāo)簽圖像中的像素?cái)?shù)目,|A∩B|表示兩圖像中位置相同且標(biāo)簽相同的像素?cái)?shù)目.

(8)

其中,N表示類別總數(shù),pii表示真實(shí)類別i且預(yù)測(cè)類別也為i的像素總數(shù),pij表示真實(shí)類別為i但被預(yù)測(cè)為jth類的像素總數(shù).

(9)

其中,TP、TN、FP和FN分別表示屬于真陽(yáng)性、真陰性、假陽(yáng)性和假陰性的圖片像素點(diǎn)數(shù)目.

4.3 針對(duì)不同數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)

4.3.1 細(xì)胞輪廓數(shù)據(jù)集

細(xì)胞輪廓數(shù)據(jù)集來自 EM 挑戰(zhàn)賽,訓(xùn)練集中包含30 張圖片及與之對(duì)應(yīng)的金標(biāo)準(zhǔn)圖片,圖片的尺寸為512×512.測(cè)試集同樣由 30 張圖片組成,該數(shù)據(jù)集為公共數(shù)據(jù)集,可在http://brainiac2.mit.edu/下載.為了進(jìn)行數(shù)據(jù)增強(qiáng),使用了灰度轉(zhuǎn)化、標(biāo)準(zhǔn)化、旋轉(zhuǎn)、裁剪和自適應(yīng)直方圖均衡等手段,最終得到的訓(xùn)練集為3000張圖片.

為了更加全面的證明本模型的有效性,選擇的對(duì)比模型有U-Net、CE-Net、HDC-Net、LCA-Net[21].表1中展示了MDA-Net在細(xì)胞壁輪廓分割數(shù)據(jù)集上和其它模型的對(duì)比結(jié)果.

表1 細(xì)胞輪廓數(shù)據(jù)集上各指標(biāo)數(shù)據(jù)Table 1 Data on various indicators on the cell profile

從實(shí)驗(yàn)結(jié)果中可以得出,和以往的模型相比,MDA-Net在Dice、Acc、mIOU指標(biāo)上效果較好.在Dice和Acc上分別達(dá)到98.59%和97.96%,比U-Net分別高出7.65%和4.38%,比LCA-Net分別高出0.47和0.42.同時(shí),通過觀察發(fā)現(xiàn),MDA-Net移除CAM或PAM模塊,模型的指標(biāo)都在呈下降趨勢(shì),這表明CAM和PAM都是MDA-Net不可缺少的部分,二者對(duì)模型的分割精度的提升都起到了一定的作用.從表中還可以看出,只去掉CAM的模型分割性能比只去掉PAM的模型更好,這說明PAM比CAM更能獲取空間維度的信息.為了更直觀地進(jìn)行對(duì)比,圖4給出了分割結(jié)果的可視化對(duì)比,可以看出在一些比較細(xì)微的地方,MDA-Net分割的效果比LCA-Net要好.

圖4 細(xì)胞輪廓分割結(jié)果可視化Fig.4 Visualization of cell contour segmentation results

在backbone的選取上,醫(yī)學(xué)圖像分割領(lǐng)域常用的是ResNet.然而ResNet網(wǎng)絡(luò)層數(shù)太多,參數(shù)量龐大,直接使用該網(wǎng)絡(luò)作為初級(jí)特征的提取存在大量冗余信息且計(jì)算緩慢.最終通過對(duì)比,如表2所示,模型選取Mobile-NetV2作為特征提取的backbone.

表2 backbone上的各指標(biāo)數(shù)據(jù)Table 2 Data for each indicator on backbone

同時(shí),為了說明預(yù)訓(xùn)練參數(shù)能夠更快地使模型收斂,這里首先選取部分訓(xùn)練集,然后將訓(xùn)練好的參數(shù)直接保存,將重新訓(xùn)練時(shí)的loss和直接用預(yù)訓(xùn)練好的loss進(jìn)行對(duì)比,通過圖5可以發(fā)現(xiàn)預(yù)訓(xùn)練參數(shù)的確收斂更快,這一對(duì)比也間接地說明了MDA-Net模型的有效性.

圖5 預(yù)訓(xùn)練參數(shù)的有效性Fig.5 Validity of pre-training parameters

4.3.2 LUAN競(jìng)賽數(shù)據(jù)集

該數(shù)據(jù)集是二維CT圖像的肺部分割結(jié)構(gòu),LUNA競(jìng)賽最初是為了結(jié)節(jié)檢測(cè)和假陽(yáng)性檢測(cè),而分割肺是進(jìn)一步篩選肺結(jié)節(jié)的基礎(chǔ),采用競(jìng)賽數(shù)據(jù)集來評(píng)估提出的MDA-Net.該數(shù)集包含534個(gè)2D樣本(512×512像素)和各自的標(biāo)簽圖像,可以從官方網(wǎng)站上免費(fèi)下載.使用80%的圖像進(jìn)行訓(xùn)練,其余的用于測(cè)試,并通過交叉驗(yàn)證的方法來提高分割精度.

表3 肺部分割實(shí)驗(yàn)數(shù)據(jù)Table 3 Experimental data on partial lung slitting

同樣地,這里選取一些比較主流的網(wǎng)絡(luò)來和MDA-Net進(jìn)行對(duì)比,分別是U-Net、R2U-Net、BCDU-Net.如表3所示,從實(shí)驗(yàn)結(jié)果中可以看出,MDA-Net在3項(xiàng)評(píng)價(jià)指標(biāo)中均獲得最好的效果,分別為98.55%,98.64%,95.36%.同時(shí),通過觀察,在肺部分割這種目標(biāo)區(qū)域大于背景的任務(wù)下,模型的各項(xiàng)指標(biāo)都表現(xiàn)的很好,圖6說明MDA-Net不僅僅擅長(zhǎng)小目標(biāo)的分割,在不同層次的物體上同樣能取得較好的效果.

圖6 肺部分割效果圖Fig.6 Partial lung cut rendering

當(dāng)分割目標(biāo)比較大時(shí),為了驗(yàn)證雙路徑注意力模塊的作用,對(duì)網(wǎng)絡(luò)中的CAM和PAM模塊進(jìn)行消融實(shí)驗(yàn),如表4所示.通過實(shí)驗(yàn)數(shù)據(jù)得出,當(dāng)僅使用PAM模塊或CAM模塊時(shí),模型的效果要比Backbone好,并且含有PAM模塊的性能要優(yōu)于CAM,這再次說明了空間位置信息對(duì)于醫(yī)學(xué)圖像分割的重要性.

表4 消融實(shí)驗(yàn)Table 4 Ablation experiments

5 結(jié) 論

為了解決醫(yī)學(xué)圖像分割常用網(wǎng)絡(luò)對(duì)低層次空間信息以及全局上下文信息提取不足的問題,提出了MDA-Net.通過通道注意力模塊和位置注意力模塊來增強(qiáng)像素與像素之間的空間信息,這對(duì)于醫(yī)學(xué)圖像分割這種像素級(jí)別的分類任務(wù)可以起到較好的提升效果.同時(shí),為了加快模型的訓(xùn)練速度,在特征提取階段采用Mobile-NetV2這種輕量級(jí)的骨干網(wǎng)絡(luò),其深度可分離卷積與常規(guī)卷積相比能在一定程度上減輕參數(shù)量.在上采樣階段,采用轉(zhuǎn)置卷積這種可學(xué)習(xí)參數(shù)的方式對(duì)圖片分辨率進(jìn)行提升.在IBSI數(shù)據(jù)集和LUNA競(jìng)賽數(shù)據(jù)集上的效果表明,MDA-Net能夠提升醫(yī)學(xué)圖像的分割精度,對(duì)網(wǎng)絡(luò)中的雙路徑注意力模塊進(jìn)行消融實(shí)驗(yàn)也證明了模型的有效性.目前MDA-Net只適合在二維醫(yī)學(xué)圖像切片上的分割,在將來的工作中,將致力于更高維度的醫(yī)學(xué)圖像分割任務(wù)上.

猜你喜歡
注意力像素卷積
趙運(yùn)哲作品
藝術(shù)家(2023年8期)2023-11-02 02:05:28
像素前線之“幻影”2000
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
“像素”仙人掌
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
高像素不是全部
CHIP新電腦(2016年3期)2016-03-10 14:22:03
双城市| 临洮县| 久治县| 仁布县| 富顺县| 安乡县| 吴桥县| 类乌齐县| 澄江县| 沁阳市| 台南市| 宜昌市| 德阳市| 定日县| 延安市| 黎平县| 富顺县| 威信县| 南川市| 金堂县| 鄢陵县| 龙南县| 阿鲁科尔沁旗| 昌邑市| 伊春市| 教育| 武陟县| 航空| 枝江市| 昌乐县| 两当县| 延吉市| 玛多县| 宁武县| 沈丘县| 互助| 长丰县| 武夷山市| 武汉市| 成武县| 调兵山市|