摘 要:原始采集的醫(yī)學(xué)圖像普遍存在對(duì)比度不足、細(xì)節(jié)模糊以及噪聲干擾等質(zhì)量問題,使得現(xiàn)有醫(yī)學(xué)圖像分割技術(shù)的精度很難達(dá)到新的突破。針對(duì)醫(yī)學(xué)圖像數(shù)據(jù)增強(qiáng)技術(shù)進(jìn)行研究,在不明顯改變圖像外觀的前提下,通過添加特定的像素補(bǔ)償和進(jìn)行細(xì)微的圖像調(diào)整來改善原始圖像質(zhì)量問題,從而提高圖像分割準(zhǔn)確率。首先,設(shè)計(jì)引入了一個(gè)新的優(yōu)化器模塊,以產(chǎn)生一個(gè)連續(xù)分布的空間作為遷移的目標(biāo)域,該優(yōu)化器模塊接受數(shù)據(jù)集的標(biāo)簽作為輸入,并將離散的標(biāo)簽數(shù)據(jù)映射到連續(xù)分布的醫(yī)學(xué)圖像中;其次,提出了一個(gè)基于對(duì)抗生成網(wǎng)絡(luò)的EnGAN模型,并將優(yōu)化器模塊產(chǎn)生的遷移目標(biāo)域用來指導(dǎo)對(duì)抗網(wǎng)絡(luò)的目標(biāo)生成,從而將改善的醫(yī)學(xué)圖像質(zhì)量知識(shí)植入模型中實(shí)現(xiàn)圖像增強(qiáng)?;贑OVID-19數(shù)據(jù)集,實(shí)驗(yàn)中使用U-Net、U-Net+ResNet34、U-Net+Attn Res U-Net等卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),Dice系數(shù)和交并比分別達(dá)到了73.5%和69.3%、75.1%和70.5%,以及75.2%和70.3%。實(shí)驗(yàn)的結(jié)果表明,提出的醫(yī)學(xué)圖像質(zhì)量增強(qiáng)技術(shù)在最大限度保留原始特征的條件下,有效地提高了分割的準(zhǔn)確率,為后續(xù)的醫(yī)學(xué)圖像處理研究提供了一個(gè)更為穩(wěn)健和高效的解決方案。
關(guān)鍵詞:醫(yī)學(xué)圖像分割;圖像質(zhì)量;圖像增強(qiáng);域遷移;對(duì)抗生成網(wǎng)絡(luò)
中圖分類號(hào):TP751.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-039-2195-08
doi: 10.19734/j.issn.1001-3695.2023.08.0509
EnGAN: enhancement generative adversarial network in medical image segmentation
Abstract:The quality issues commonly found in original medical images, such as insufficient contrast, blurred details, and noise interference, make it difficult for existing medical image segmentation techniques to achieve new breakthroughs. This study focused on the enhancement of medical image data. Without significantly altering the appearance of the image, it improved the quality problems of the original image by adding specific pixel compensation and making subtle image adjustments, thereby enhancing the accuracy of image segmentation. Firstly, it introduced a new optimizer module, which generated a continuous distribution space as the target domain for transfer. This optimizer module took the labels of the dataset as input and mapped the discrete label data to the continuous distribution of medical images. Secondly, it proposed an EnGAN model based on generative adversarial networks(GAN), and used the transfer target domain generated by the optimizer module to guide the target generation of the adversarial network, thereby implanting the knowledge of improving medical image quality into the model to achieve image enhancement. Based on the COVID-19 dataset, convolutional neural networks, including U-Net, U-Net+ResNet34, U-Net+Attn Res U-Net, were utilized as the backbone network in the experiment, and the Dice coefficient and intersection over union reached 73.5% and 69.3%, 75.1% and 70.5%, and 75.2% and 70.3% respectively. The empirical results demonstrate that the proposed medical image quality enhancement technology effectively improves the accuracy of segmentation while retaining the original features to the greatest extent, providing a more robust and efficient solution for subsequent medical image processing research.
Key words:medical image segmentation; image quality; image enhancement; domain migration; generative adversarial networks
0 引言
以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[1]為代表的深度學(xué)習(xí)模型在圖像處理中得到了廣泛的應(yīng)用,醫(yī)學(xué)圖像也從中受益,U-Net[2]這樣的網(wǎng)絡(luò)模型大幅提高了分割的準(zhǔn)確性。然而,由于醫(yī)學(xué)成像設(shè)備的固有限制和成像過程的局限性,導(dǎo)致部分醫(yī)學(xué)圖像存在對(duì)比度不足、細(xì)節(jié)模糊以及噪點(diǎn)干擾等問題。這些問題對(duì)神經(jīng)網(wǎng)絡(luò)的語義分割造成了較大的干擾,導(dǎo)致分割準(zhǔn)確率下降的問題。因此,許多方法都嘗試對(duì)醫(yī)學(xué)圖像進(jìn)行增強(qiáng),通過提升圖像質(zhì)量來提高分割準(zhǔn)確率?,F(xiàn)有的圖像增強(qiáng)方法雖然可以顯著提升網(wǎng)絡(luò)分割的準(zhǔn)確率,但會(huì)改變圖像的外觀,例如圖像亮度、對(duì)比度等特征,更嚴(yán)重的甚至?xí)淖兡繕?biāo)特征,此類方法很難在不改變圖像外觀的條件下提升圖像質(zhì)量。
本文設(shè)計(jì)了一種新的醫(yī)學(xué)圖像增強(qiáng)網(wǎng)絡(luò)模型,該模型在不明顯改變圖像外觀的同時(shí),通過添加特定的像素補(bǔ)償和進(jìn)行細(xì)微的調(diào)整來增強(qiáng)圖像,提升分割準(zhǔn)確度。因此,原始醫(yī)學(xué)圖像通過該模型增強(qiáng)后的效果與原始圖像外觀保持高度一致,不存在肉眼所見的失真情況。
為了通過添加特定的像素補(bǔ)償和進(jìn)行細(xì)微的圖像調(diào)整來增強(qiáng)分割準(zhǔn)確度,本文設(shè)計(jì)了一個(gè)新的醫(yī)學(xué)圖像增強(qiáng)網(wǎng)絡(luò)EnGAN(enhancement generative adversarial network),它基于對(duì)抗生成網(wǎng)絡(luò)(generative adversarial network,GAN)[3]的框架,利用GAN的可遷移性完成數(shù)據(jù)域的映射。首先,本文設(shè)計(jì)了一個(gè)優(yōu)化器來生成目標(biāo)域[4],它是預(yù)訓(xùn)練分割模型的反向網(wǎng)絡(luò)。將數(shù)據(jù)集的標(biāo)簽作為其輸入,將標(biāo)簽中的分割信息與模型中的分布結(jié)合,生成GAN所需的目標(biāo)域。其次,當(dāng)?shù)玫揭粋€(gè)目標(biāo)域后,訓(xùn)練GAN的生成器將數(shù)據(jù)遷移到目標(biāo)域,使原始數(shù)據(jù)得以增強(qiáng),最終提高圖像分割的準(zhǔn)確率。
本文的主要貢獻(xiàn)概括如下: a)提出了一種用于分割任務(wù)的數(shù)據(jù)增強(qiáng)對(duì)抗生成網(wǎng)絡(luò)EnGAN,完成域遷移,提高數(shù)據(jù)質(zhì)量,并在不改變分割網(wǎng)絡(luò)的情況下提高性能;b)提出了一個(gè)優(yōu)化器結(jié)構(gòu),生成具有更好數(shù)據(jù)分布的目標(biāo)域,并提供給GAN進(jìn)行遷移學(xué)習(xí);c)提出了一個(gè)三方交替訓(xùn)練模型,將目標(biāo)域的生成插入到GAN的對(duì)抗訓(xùn)練中。
1 相關(guān)工作
醫(yī)學(xué)圖像分割任務(wù)對(duì)于后續(xù)的診斷和治療具有重要指導(dǎo)意義,但由于復(fù)雜的數(shù)據(jù)格式、噪聲、干擾和遮擋等不利因素,使得這一任務(wù)變得困難。為解決此類問題,研究人員提出了許多高效的分割方法和模型。
Leclerc等人[5]對(duì)用于醫(yī)學(xué)圖像分割的不同方法,如CNN[1]、全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)[6]、U-Net[2]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[7]等進(jìn)行了調(diào)研。FCN與CNN相比具有更高的計(jì)算效率和更少的存儲(chǔ)空間,它源于AlexNet[8],并對(duì)其進(jìn)行了像素級(jí)分類的語義分割內(nèi)容的改造。使用這種方法,輸出大小可被恢復(fù)為與輸入圖像相同的大小。
為了提高分割精度,Ronneberger等人[2]設(shè)計(jì)了一個(gè)名為U-Net的U型結(jié)構(gòu)網(wǎng)絡(luò)。U-Net包括編碼器和解碼器,其中編碼器用于提取特征,解碼器用于恢復(fù)原始分辨率。編碼器獲取圖像的細(xì)節(jié)和輪廓信息,然后將提取的特征傳輸?shù)浇獯a器;解碼器接收到特征后,將多個(gè)尺度的特征結(jié)合起來進(jìn)行恢復(fù)。實(shí)驗(yàn)表明,U-Net在小樣本數(shù)據(jù)集上表現(xiàn)出色。
SegNet[9]是為自動(dòng)駕駛或智能機(jī)器人的圖像語義分割而提出的,它源自FCN,并集成了VGG-16[10]網(wǎng)絡(luò)修改。在編碼器部分,部分使用了VGG16網(wǎng)絡(luò),包括五個(gè)塊,每個(gè)塊包括卷積層和最大池化層。解碼器部分對(duì)應(yīng)編碼器層,使用了softmax,它通過輸出不同分類的最大值以獲得最終的分割圖。
Chen等人[11]提出了基于CNN的DeepLab,此后,又陸續(xù)提出了DeepLabv2、DeepLabv3和DeepLabv3+[12~14]。DeepLabv3+的編碼器使用空洞卷積來提取圖像特征,特別是包括了改進(jìn)的Xception網(wǎng)絡(luò)和帶有空洞的空間金字塔池化模塊。DeepLabv3+的解碼器將提取的全局特征上采樣到1/4的大小,然后與局部特征融合,最后將特征上采樣到與原始圖像相同的大小,并生成預(yù)測的分割圖像。
GAN[3]在醫(yī)學(xué)圖像領(lǐng)域有廣泛的應(yīng)用。Yang等人[15]提出一個(gè)結(jié)合了感知相似性的WGAN模型[16],引入了人類視覺感知的概念,并將其應(yīng)用于如何去除低劑量CT圖像的噪聲。它可以在去噪后更好地保留圖像的細(xì)節(jié),但丟棄了3D空間信息。隨后,Shan等人[17]在LDCT的基礎(chǔ)上,構(gòu)建了一個(gè)結(jié)合2D和3D的傳送路徑卷積編碼解碼器。它彌補(bǔ)了前者浪費(fèi)空間信息的缺點(diǎn),并實(shí)現(xiàn)了更快的3D圖像去噪。
在超分辨率應(yīng)用領(lǐng)域,Chen等人[18]基于GAN構(gòu)建了一個(gè)多級(jí)密集連接超分辨率網(wǎng)絡(luò),實(shí)現(xiàn)了從低分辨率的3D磁共振圖像中恢復(fù)高分辨率的細(xì)節(jié)。通過結(jié)合GAN和單圖像超分辨率技術(shù),Sun等人[19]完成了動(dòng)態(tài)對(duì)比增強(qiáng)乳腺磁共振圖像的高質(zhì)量超分辨率任務(wù),大大縮短了磁共振檢查的時(shí)間。Xie等人[20]提出使用CycleGAN[21],從無配對(duì)的磁共振圖像生成沿不同成像方向的高分辨率磁共振圖像,然后通過圖像融合實(shí)現(xiàn)超分辨率圖像生成的目標(biāo)。
在圖像樣本增強(qiáng)方面,Calimeri等人[22]使用GAN實(shí)現(xiàn)了人腦磁共振圖像數(shù)據(jù)的擴(kuò)展,有效地提高了診斷算法的泛化能力,但只能生成2D圖像。隨后,Han等人[23]使用GAN實(shí)現(xiàn)了多序列腦磁共振圖像的數(shù)據(jù)增強(qiáng),并使用條件PGGAN實(shí)現(xiàn)了遷移性腦腫瘤檢測任務(wù)中的數(shù)據(jù)增強(qiáng)。Madani等人[24]使用了GAN進(jìn)行心血管異常分類任務(wù)中的胸部X光圖像數(shù)據(jù)的擴(kuò)展。Bailo等人[25]將Pix2PixHD模型應(yīng)用于紅細(xì)胞分割任務(wù)的圖像增強(qiáng)。
在GAN進(jìn)行醫(yī)學(xué)圖像分割增強(qiáng)方面,Shi等人[26]通過Style-Based GAN提出了一種新穎的數(shù)據(jù)增強(qiáng)框架,用于合成增強(qiáng)的訓(xùn)練數(shù)據(jù)。首先,訓(xùn)練風(fēng)格編碼器和生成器直到能夠重構(gòu)數(shù)據(jù)集中的圖像,然后利用從數(shù)據(jù)集中提取的風(fēng)格庫以隨機(jī)風(fēng)格合成增強(qiáng)數(shù)據(jù),從而在風(fēng)格方面平衡數(shù)據(jù)集。該方法在公開的LIDC-IDRI數(shù)據(jù)集上得到驗(yàn)證,結(jié)果證明該數(shù)據(jù)增強(qiáng)框架不僅能生成逼真的圖像,而且能提高分割模型的穩(wěn)定性和準(zhǔn)確性。
文獻(xiàn)[27]提出了一種基于Seg2GAN架構(gòu)的兩階段對(duì)抗網(wǎng)絡(luò),該網(wǎng)絡(luò)允許創(chuàng)建擴(kuò)展的合成醫(yī)學(xué)圖像分布,從而在分割任務(wù)中取得更好的結(jié)果,該方法已在生成與膝蓋軟骨及眼底和冠狀動(dòng)脈血管相關(guān)的合成醫(yī)學(xué)數(shù)據(jù),并在分割生成圖像方面顯示出其有效性。此外,該方法在多個(gè)分割指標(biāo)方面提高了分割的Dice得分。
為了提高腦瘤分割的準(zhǔn)確性并充分利用MRI數(shù)據(jù)的多模態(tài)信息,文獻(xiàn)[28]提出了一種名為TensorMixup的腦瘤分割算法。首先,從具有相同模態(tài)的兩個(gè)MRI腦圖像中獲取腫瘤圖像塊及其一熱編碼標(biāo)簽;然后,使用一個(gè)張量Λ混合兩個(gè)圖像塊,并將映射自Λ的矩陣Λ*用于混合兩個(gè)一熱編碼標(biāo)簽序列,從而合成新的圖像及獨(dú)熱編碼標(biāo)簽。該方法可用于訓(xùn)練模型并緩解腦瘤分割任務(wù)中數(shù)據(jù)不足的問題,通過增加數(shù)據(jù)訓(xùn)練量來提升分割Dice得分。
盡管上述研究已經(jīng)在醫(yī)學(xué)圖像增強(qiáng)和分割方面取得了進(jìn)步,但仍存在一些挑戰(zhàn)。一方面,有些方法雖然可以提高分割的準(zhǔn)確率,但可能會(huì)改變圖像的外觀,導(dǎo)致后續(xù)的圖像分析任務(wù)受到影響;另一方面,有些方法雖然保持了圖像的外觀,但其對(duì)分割精度的提升并不明顯。因此,如何在保持圖像外觀的同時(shí)提高分割精度,是一個(gè)需要進(jìn)一步研究的問題。
為了解決這個(gè)問題,本文提出了EnGAN對(duì)醫(yī)學(xué)圖像進(jìn)行增強(qiáng),本文方法主要通過添加特定的像素補(bǔ)償和進(jìn)行必要的圖像調(diào)整來解決分割網(wǎng)絡(luò)可能遇到的干擾問題,同時(shí)避免破壞原有圖像結(jié)構(gòu)。通過EnGAN框架,圖像的細(xì)節(jié)得到填充,不利因素被剔除,實(shí)現(xiàn)了在保證外觀相似度的條件下顯著提升語義分割網(wǎng)絡(luò)表現(xiàn)的圖像增強(qiáng)效果。
2 增強(qiáng)生成網(wǎng)絡(luò)EnGAN
本文設(shè)計(jì)了一個(gè)基于生成對(duì)抗網(wǎng)絡(luò)(GAN)結(jié)構(gòu)的醫(yī)學(xué)圖像增強(qiáng)框架EnGAN。在該框架中,生成器被用于實(shí)現(xiàn)從源域到目標(biāo)域的增強(qiáng),而判別器則用于判定數(shù)據(jù)遷移的效果。在醫(yī)學(xué)圖像分割中,有效的目標(biāo)域應(yīng)能提高分割精度,并適應(yīng)已訓(xùn)練的分割網(wǎng)絡(luò),但一個(gè)隱含條件是源域和目標(biāo)域圖像需要具有高度的相似性[29],并且醫(yī)學(xué)圖像中的組織結(jié)構(gòu)和紋理信息不應(yīng)被修改。
在框架EnGAN下,本文設(shè)計(jì)了一個(gè)新的優(yōu)化器用于生成所需的目標(biāo)數(shù)據(jù)。它將數(shù)據(jù)標(biāo)簽作為輸入,以攜帶精確的分割信息;它自身是分割網(wǎng)絡(luò)的逆網(wǎng)絡(luò),將分割網(wǎng)絡(luò)的分布信息遷移到目標(biāo)域數(shù)據(jù)[30];在操作過程中,它只產(chǎn)生微小偏移量,這些偏移量被疊加到源域數(shù)據(jù)上,以確保源域和目標(biāo)域數(shù)據(jù)的相似性[31]。
2.1 增強(qiáng)方案
2.1.1 問題定義
假設(shè)有一組醫(yī)學(xué)圖像數(shù)據(jù)x∈Euclid Math OneXAp,每個(gè)圖像x~Ps,其中Ps是原始數(shù)據(jù)集中標(biāo)簽分類的分布。在圖像分割場景中,p∈Ps代表每個(gè)點(diǎn)的真實(shí)類別標(biāo)簽分布,具體來說,對(duì)于圖像中的某個(gè)像素點(diǎn)i,如果其分類標(biāo)簽是c,那么pi,c=1,否則pi,c=0。
對(duì)于單張圖像而言,增強(qiáng)的目標(biāo)是通過修改原始圖像x的部分像素,得到新的目標(biāo)圖像xt,使得修改后的圖像xt輸入到相同的網(wǎng)絡(luò)fSeg后,輸出的分割結(jié)果有更高的準(zhǔn)確率,即Acc[fSeg(xt)]>Acc[fSeg(x)]。其中,fSeg是一個(gè)分割網(wǎng)絡(luò),Acc是一個(gè)評(píng)估fSeg(x)準(zhǔn)確性的度量函數(shù)。
按照此定義,對(duì)集合中所有的圖像進(jìn)行增強(qiáng)后,會(huì)產(chǎn)生一個(gè)新的圖像集合Euclid Math OneXApt,所有圖像的分割結(jié)果形成了新的數(shù)據(jù)分布,即需要求解的分布Pt。
2.1.2 優(yōu)化器設(shè)計(jì)
本文設(shè)計(jì)了一個(gè)優(yōu)化器來生成變量δ,它是一個(gè)與x具有相同像素大小的偏移量,將其添加到x形成xt,從而生成目標(biāo)分布域xt~Pt。優(yōu)化器的目標(biāo)是提高分割精度Acc[fSeg(xt)],這等同于最小化分割網(wǎng)絡(luò)的損失值。同時(shí),為了保持xt和x之間的相似性,δ應(yīng)該盡可能小。因此,這個(gè)問題可以轉(zhuǎn)換為求解δ和優(yōu)化分割損失的最優(yōu)化問題,定義如下:
min c‖δ‖2+Loss(fSeg(tanh(x+δ)))(1)
其中:‖·‖2是二范數(shù);c是一個(gè)超參數(shù),用于控制兩部分之間的平衡;Loss是預(yù)訓(xùn)練分割網(wǎng)絡(luò)的損失函數(shù)。由于xt是一個(gè)醫(yī)學(xué)圖像,所以使用xt=tanh(x+δ)來限制其像素值在[-1,1]。
在以上優(yōu)化目標(biāo)函數(shù)中,c‖δ‖2和Loss(fSeg(tanh(x+δ)))兩部分存在對(duì)抗關(guān)系。為了獲得目標(biāo)函數(shù)最優(yōu)值,需要生成較大的隨機(jī)值δ,從而減小Loss(fSeg(tanh(x+δ))),此時(shí)合成的圖像xt表現(xiàn)為失去原始圖像的外部特征。因此,為了保留圖像的原始特征,本文在目標(biāo)函數(shù)中引入正則化項(xiàng)c‖δ‖2,該正則化項(xiàng)引導(dǎo)目標(biāo)函數(shù)朝著生成較小δ的方向?qū)ふ易顑?yōu)目標(biāo)值,從而實(shí)現(xiàn)制約原始圖像被修改的程度。因此,通過這個(gè)優(yōu)化過程,可以找到這兩部分之間的平衡,從而得到優(yōu)化的δ。
在整個(gè)數(shù)據(jù)集中,對(duì)于每一個(gè)x∈Euclid Math OneXAp,都有一個(gè)對(duì)應(yīng)的δ,使得xt=tanh(x+δ),得到一個(gè)新的增強(qiáng)后的圖像集合xt,其中包含了所有增強(qiáng)后的圖像。這個(gè)圖像集合xt就形成了目標(biāo)分布Pt。
2.1.3 目標(biāo)遷移
為了求解Pt,本研究采用了生成網(wǎng)絡(luò)的方案,其目標(biāo)是找到一個(gè)生成器G,它可以將源域x~Ps的圖像增強(qiáng)到目標(biāo)域xt~Pt。生成器被定義為
G:xt=G(x)
such that Acc[fSeg(xt~Pt)]>Acc[fSeg(x~Ps)](2)
在這個(gè)過程中,本文使用了生成對(duì)抗網(wǎng)絡(luò)的框架。GAN網(wǎng)絡(luò)在訓(xùn)練過程中,通過交替訓(xùn)練生成器和判別器,逐步提升生成器的效果。本研究的創(chuàng)新之處在于,將優(yōu)化器也加入到該模型中,形成了一個(gè)三步訓(xùn)練的過程:a)在每次迭代中,優(yōu)化器首先生成偏移量δ;b)然后將這個(gè)δ作為判別器的目標(biāo),接著使用同樣的方式訓(xùn)練GAN;c)通過多次迭代優(yōu)化,最終得到了優(yōu)化后δ的分布,而xt=tanh(x+δ)的集合形成了目標(biāo)分布Pt。
生成器G的目標(biāo)是將原始的分布x遷移到目標(biāo)分布xt上。通過對(duì)G的訓(xùn)練,最終使得G(x)的分布趨近于xt,此為目標(biāo)遷移過程。該方法通過對(duì)數(shù)據(jù)集中的每一張圖像進(jìn)行獨(dú)立的優(yōu)化,實(shí)現(xiàn)了在保持相似性的同時(shí)提高分割精度的目標(biāo)。這是本文方法的一個(gè)重要特點(diǎn)和創(chuàng)新,也是在醫(yī)學(xué)圖像分割任務(wù)中取得良好效果的關(guān)鍵。
2.2 網(wǎng)絡(luò)設(shè)計(jì)
網(wǎng)絡(luò)框架由優(yōu)化器、生成器和判別器三個(gè)部分組成。其中,通過訓(xùn)練優(yōu)化器O創(chuàng)建具有連續(xù)分布xt~Pt的目標(biāo)域,生成器G用于接收x生成xt,而判別器D負(fù)責(zé)判定生成數(shù)據(jù)xt的質(zhì)量。整體架構(gòu)如圖1所示。
優(yōu)化器結(jié)構(gòu)基于U-Net,并且網(wǎng)絡(luò)在前向傳播中被應(yīng)用于分割。在每個(gè)下采樣過程中都增加了一個(gè)可變形的卷積層,使得特征圖在每個(gè)下采樣過程中逐層編碼,并且特征信息連接跳躍到上采樣階段,變形特征逐步恢復(fù)。
判別器由8個(gè)卷積層和2個(gè)全連接層組成,其結(jié)構(gòu)如圖2所示。其中,8個(gè)卷積層的卷積核大小為3×3,步長為1或2。如果步長為1,圖像大小保持不變;如果步長為2,圖像大小減半。卷積核的數(shù)量從64增加到512。第一個(gè)全連接層使用1 024個(gè)神經(jīng)元將二維特征圖轉(zhuǎn)換為一維數(shù)組。第二個(gè)全連接層使用一個(gè)神經(jīng)元通過閾值函數(shù)完成預(yù)測。
生成器結(jié)構(gòu)如圖3所示,包含八個(gè)塊,每個(gè)塊有四個(gè)3×3的卷積層,后面跟著一個(gè)下采樣或上采樣層。下采樣層是帶有步長2的卷積,后面跟著LeakyReLU、批量歸一化和dropout。上采樣層是帶有步長12的反卷積,后面跟著LeakyReLU、批量歸一化和dropout。如前所述,生成器內(nèi)部也保持了跳躍連接,并通過使用與ResNet相似的策略,采用1×1的卷積層在塊之間傳遞特征。
損失函數(shù)由三部分組成。生成器和判別器的損失函數(shù)定義與GAN相同。此外,為了限制圖像修改,添加了相似性損失,并且還添加了優(yōu)化器的損失,以確定圖像傳輸?shù)男ЧI赡P偷膿p失函數(shù)為
為了確保圖像與增強(qiáng)后圖像之間的相似性,損失函數(shù)中添加了一個(gè)相似性損失來約束距離:
其中:N是該圖像中的像素個(gè)數(shù)。增強(qiáng)圖像作為輸入的分割網(wǎng)絡(luò)的損失值為
總損失如式(6)所示,超參數(shù)α和β用于控制三部分的平衡:
L(G,D)=LGAN+αLSim+βLSeg(6)
2.3 實(shí)現(xiàn)方法
2.3.1 初始化
在初始化階段,首先定義訓(xùn)練過程所需的基本參數(shù),輸入圖像xi、真實(shí)標(biāo)簽li、判別器參數(shù)ω、生成器參數(shù)θ、預(yù)訓(xùn)練的優(yōu)化器η,以及優(yōu)化的偏移量δ。這些參數(shù)是訓(xùn)練過程的基礎(chǔ),為后續(xù)的訓(xùn)練和優(yōu)化提供了初始設(shè)定。
2.3.2 循環(huán)訓(xùn)練
本階段的核心是圍繞生成器參數(shù)θ的收斂進(jìn)行循環(huán)訓(xùn)練。在每一次循環(huán)中,執(zhí)行兩層嵌套循環(huán),外層循環(huán)對(duì)i進(jìn)行迭代,內(nèi)層循環(huán)對(duì)j進(jìn)行迭代。在內(nèi)層循環(huán)中,首先采樣原始數(shù)據(jù)xj,對(duì)應(yīng)的標(biāo)簽lj和隨機(jī)偏移量δj~N(0,1),其中N(0,1)是標(biāo)準(zhǔn)正態(tài)分布。
然后通過x′j=tanh(xj+δj),并根據(jù)式(5)作為損失函數(shù),在反向傳播過程中更新優(yōu)化偏移量δ。 接下來計(jì)算新的偏移量δ^=G(x),以及按照式(3)計(jì)算生成器損失LiGAN。這個(gè)階段的主要目的是通過循環(huán)不斷優(yōu)化生成器和判別器的參數(shù),以逼近最優(yōu)解。
2.3.3 參數(shù)更新
在每次內(nèi)循環(huán)結(jié)束后,通過Adam[32]優(yōu)化器更新判別器參數(shù)ω和生成器參數(shù)θ。這個(gè)階段是訓(xùn)練過程中的關(guān)鍵,它保證了模型參數(shù)能夠朝著最優(yōu)解的方向不斷更新。
2.3.4 算法流程
算法1描述了EnGAN的算法流程,通過逐步優(yōu)化生成器和判別器的參數(shù),實(shí)現(xiàn)從原始數(shù)據(jù)分布到高質(zhì)量數(shù)據(jù)分布的遷移。通過循環(huán)訓(xùn)練和參數(shù)更新,最終得到了優(yōu)化后的參數(shù)集Euclid Math OneXAp′,為后續(xù)的醫(yī)學(xué)圖像分割任務(wù)提供了有力的支持。
算法1 EnGAN交替訓(xùn)練實(shí)現(xiàn)
3 實(shí)驗(yàn)
實(shí)驗(yàn)使用了三個(gè)不同的數(shù)據(jù)集,包括乳腺超聲圖像數(shù)據(jù)集、心臟超聲圖像分割數(shù)據(jù)集以及COVID-19 CT圖像數(shù)據(jù)集。每個(gè)數(shù)據(jù)集都包含了不同的醫(yī)學(xué)圖像,這些圖像來自不同的病患,涵蓋了多種病變類型。使用多種模態(tài)的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),可有效驗(yàn)證本文方法的泛化性。
3.1 數(shù)據(jù)集
乳腺超聲圖像數(shù)據(jù)集(BUSI)[34]收集了600名年齡在25~75歲的女性患者的乳腺超聲圖像。數(shù)據(jù)集中的圖像數(shù)量超過700張,由Baheya醫(yī)院收集的DICOM格式數(shù)據(jù)被轉(zhuǎn)換成PNG格式的灰度圖像。圖像的平均尺寸為500×500像素。根據(jù)不同的病變,這些圖像被劃分為常見、良性和惡性三個(gè)類別。
心臟超聲圖像分割數(shù)據(jù)集(CAMUS)[5]包含了450名患者的心臟超聲檢查的1 800張單獨(dú)圖像。每位患者的超聲檢查包含四張圖片:兩張是心室收縮末期(ES)的心尖四腔視圖(A4C)和心尖二腔視圖(A2C),另外兩張是心室舒張末期(ED)的A4C和A2C視圖。CAMUS數(shù)據(jù)集總共包含900張ES圖像和900張ED圖像。CAMUS中的數(shù)據(jù)具有一定的異質(zhì)性,A4C和A2C視圖,ED和ES圖像的混合給神經(jīng)網(wǎng)絡(luò)的自動(dòng)分割帶來了挑戰(zhàn)。在CMAUS數(shù)據(jù)集的450名患者中,有366名(81%)患者的心臟超聲圖像質(zhì)量良好,84名(19%)患者的心臟超聲圖像質(zhì)量較差。
由意大利醫(yī)學(xué)和介入放射學(xué)會(huì)收集的數(shù)據(jù)集[35],包含了40多名COVID-19患者的100張CT圖像。圖像已經(jīng)被縮小,轉(zhuǎn)為灰度,并編譯為512×512像素的NIFTI格式。一位放射科醫(yī)生已經(jīng)根據(jù)胸膜積液、磨玻璃樣改變和實(shí)變?nèi)齻€(gè)類別分割了每張圖像。
3.2 評(píng)價(jià)指標(biāo)
本節(jié)將詳細(xì)介紹用于評(píng)估分割模型性能的指標(biāo),包括 Dice 系數(shù)(Dice similarity coefficient)、準(zhǔn)確率(pixel accuracy)、召回率(recall rate)和交并比(intersection over union,IoU)。這些指標(biāo)能夠從不同維度全面評(píng)估模型的表現(xiàn),包括預(yù)測結(jié)果與標(biāo)注結(jié)果的一致性、模型在不同類別圖像上的分割精度、模型對(duì)真實(shí)邊界的檢測能力,以及模型的精確率和召回率等。通過這些指標(biāo),可以全面了解模型的性能,從而為模型的評(píng)估、改進(jìn)和優(yōu)化提供定量依據(jù)。
Dice 系數(shù)是一種常用于衡量兩個(gè)樣本集相似度的指標(biāo),尤其適用于評(píng)估圖像分割任務(wù)的性能,其計(jì)算公式為
其中:X和Y分別代表預(yù)測區(qū)域和真實(shí)區(qū)域的像素集。Dice系數(shù)的值為0~1,值越接近1,表示預(yù)測區(qū)域與真實(shí)區(qū)域的重疊程度越高,分割模型的性能越好。
準(zhǔn)確率是衡量模型分類正確性的基本指標(biāo),其計(jì)算公式為
其中:TP(真正例)、TN(真負(fù)例)、FP(假正例)和 FN(假負(fù)例)是混淆矩陣的四個(gè)組成部分,準(zhǔn)確率衡量了模型在所有樣本中正確分類的能力。
召回率衡量了模型在所有真正例中正確識(shí)別正例的能力,其計(jì)算公式為
召回率是評(píng)估模型查全率的重要指標(biāo),尤其在不平衡數(shù)據(jù)集的情境中具有重要意義。
交并比是一種衡量圖像分割任務(wù)中預(yù)測區(qū)域和真實(shí)區(qū)域重疊程度的指標(biāo),其計(jì)算公式為
其中:X是預(yù)測區(qū)域;Y是真實(shí)區(qū)域。交并比的值為0~1,值越接近1,表示預(yù)測區(qū)域與真實(shí)區(qū)域的重疊程度越高,分割模型的性能越好。
為了評(píng)估圖像增強(qiáng)前后的差異,本文采用了結(jié)構(gòu)相似度指標(biāo)(structural similarity index,SSIM),它是一種用于衡量兩幅圖像相似度的指標(biāo),其主要思想是通過比較圖像的亮度、對(duì)比度和結(jié)構(gòu)信息來評(píng)估圖像的相似度。SSIM的計(jì)算公式如下:
其中:x和y分別表示兩幅圖像;μx和μy分別表示x和y的均值;σ2x和σ2y分別表示x和y的方差;σxy表示x和y的協(xié)方差;C1和C2是為了避免分母為0而設(shè)定的常數(shù)。SSIM指標(biāo)的值為-1~1,值越接近1,表示兩幅圖像越相似。
通過以上評(píng)估指標(biāo),本文能夠從不同維度全面地評(píng)價(jià)模型在特定任務(wù)上的性能,并為模型的優(yōu)化提供定量依據(jù)。
3.3 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)選擇了U-Net作為基礎(chǔ)網(wǎng)絡(luò),并添加了ResNet34和注意力機(jī)制。每個(gè)網(wǎng)絡(luò)都經(jīng)過預(yù)訓(xùn)練,以達(dá)到特定級(jí)別的分割精度。在此基礎(chǔ)上,提出了EnGAN增強(qiáng)方法。一個(gè)預(yù)訓(xùn)練的模型同時(shí)具有兩個(gè)身份。前向傳播用于預(yù)測該分割模型的分割結(jié)果。它也是EnGAN中的優(yōu)化器,通過反向傳播調(diào)整原始圖像的偏移量δ。
實(shí)驗(yàn)選擇了PyTorch[36]作為框架,并以批次大小為32進(jìn)行模型訓(xùn)練。優(yōu)化器是AdamGrad[32],學(xué)習(xí)率為0.001。實(shí)驗(yàn)在Ubuntu 20.04的服務(wù)器上進(jìn)行,內(nèi)存為64 GB,使用TeslaV100顯卡進(jìn)行CUDA計(jì)算。
3.4 應(yīng)用策略
首先,使用未增強(qiáng)的數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,為模型提供一個(gè)良好的初始狀態(tài)。其次,開始使用由EnGAN生成的增強(qiáng)數(shù)據(jù)進(jìn)行微調(diào)。在此過程中,為了確保增強(qiáng)數(shù)據(jù)的有效性,按照4∶1的比例混合原始數(shù)據(jù)和增強(qiáng)數(shù)據(jù)進(jìn)行訓(xùn)練。
在實(shí)際應(yīng)用中,首先將輸入的醫(yī)學(xué)圖像通過EnGAN進(jìn)行增強(qiáng),然后再將增強(qiáng)后的圖像輸入到U-Net+ResNet34中進(jìn)行分割。這種雙階段的處理策略確保了在實(shí)際應(yīng)用中,既能夠受益于增強(qiáng)數(shù)據(jù)的高質(zhì)量,同時(shí)也能夠充分利用深度網(wǎng)絡(luò)對(duì)圖像特征的強(qiáng)大捕獲能力。
通過上述的實(shí)現(xiàn)方法和策略,本研究所提出的模型能夠有效地應(yīng)對(duì)醫(yī)學(xué)圖像的多樣性和不均衡性,從而在實(shí)際應(yīng)用中獲得良好的分割效果。
3.5 實(shí)驗(yàn)結(jié)果分析
3.5.1 BUSI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
從表1中可以看出,無論是U-Net、U-Net+ResNet34還是Attn U-Net+ResNet34模型,與EnGAN結(jié)合后,其在乳腺超聲圖像分割任務(wù)上的性能都有所提升。這說明了EnGAN能夠有效地提升模型的分割性能。同時(shí),Attn U-Net+ResNet34+EnGAN模型在所有指標(biāo)上的表現(xiàn)最好,是因?yàn)樵撃P徒Y(jié)合了注意力機(jī)制和深度殘差網(wǎng)絡(luò),使得模型能夠更好地關(guān)注和學(xué)習(xí)圖像的重要特征。
對(duì)比的實(shí)驗(yàn)結(jié)果如圖4所示,在使用EnGAN對(duì)圖像進(jìn)行增強(qiáng)之后,圖像與原圖具有較高的相似度,但是分割結(jié)果有較大的提升。
3.5.2 COVID-19數(shù)據(jù)集實(shí)驗(yàn)
在COVID-19數(shù)據(jù)集上也測試了U-Net、U-Net+EnGAN、U-Net+ResNet34,以及U-Net+ResNet34+EnGAN四種模型。實(shí)驗(yàn)結(jié)果表明,引入EnGAN的模型能顯著提高分割精度,COVID-19分割效果對(duì)比如表2所示,COVID-19數(shù)據(jù)集效果對(duì)比如圖5所示。
U-Net+ResNet34+EnGAN模型在所有測試的模型中表現(xiàn)最為優(yōu)秀。這表明ResNet34的深度殘差學(xué)習(xí)框架和EnGAN的生成對(duì)抗網(wǎng)絡(luò)能夠有效地提升U-Net的性能。這也證實(shí)了在CT數(shù)據(jù)上,EnGAN增強(qiáng)的數(shù)據(jù)同樣可以提高醫(yī)學(xué)圖像的分割精度。
3.5.3 CAMUS數(shù)據(jù)集實(shí)驗(yàn)
表3展示了在CAMUS數(shù)據(jù)集上的分割評(píng)估結(jié)果。選擇了四種不同的方法進(jìn)行比較,即U-Net、U-Net+EnGAN、U-Net+ResNet34、U-Net+ResNet34+EnGAN,以及這四種方法加入注意力機(jī)制后的結(jié)果。每一種方法都在三個(gè)不同的數(shù)據(jù)質(zhì)量級(jí)別(低、中、高)下進(jìn)行了評(píng)估,分別對(duì)LVEndo、LVEpi和LA進(jìn)行了分割。
從結(jié)果顯示,無論在哪種數(shù)據(jù)質(zhì)量級(jí)別下,加入EnGAN的方法都比未加入EnGAN的方法表現(xiàn)要好。例如,在低質(zhì)量級(jí)別下,U-Net+EnGAN在LVEndo上的表現(xiàn)為82.27%,而未加入EnGAN的U-Net在同一條件下的表現(xiàn)為80.76%。這說明本文提出的EnGAN增強(qiáng)方法在多分類的數(shù)據(jù)集上也具有提升效果。
在所有方法中,U-Net+ResNet34+EnGAN的表現(xiàn)最好。這表明,ResNet34和EnGAN的結(jié)合能進(jìn)一步提升分割精度。從圖像分割的效果可以看出,其不僅分割準(zhǔn)確度有較大提升,增強(qiáng)圖像的邊緣平滑度、整體的連貫程度也有較大的提升,如圖6所示。
3.5.4 EnGAN與其他數(shù)據(jù)增強(qiáng)方法的對(duì)比實(shí)驗(yàn)
表4展示了EnGAN和其他模型的實(shí)驗(yàn)對(duì)比結(jié)果。首先可以從整體上觀察到,EnGAN在所有三種模型(U-Net、U-Net+ResNet34和Attn Res U-Net)上都實(shí)現(xiàn)了Dice系數(shù)和召回率的最優(yōu)結(jié)果,這明確地證明了EnGAN在增強(qiáng)方法中的優(yōu)越性。
在U-Net模型中,EnGAN在所有指標(biāo)上均取得了最佳表現(xiàn)。具體來說,其Dice系數(shù)為0.735,比第二高的Seg2GAN提高了0.1百分點(diǎn);交并比為0.693,領(lǐng)先于Style-Based GAN的0.687,提高0.6百分點(diǎn);在準(zhǔn)確度和召回率上,EnGAN分別達(dá)到了0.792和0.775,均略高于其他增強(qiáng)方法。
這些數(shù)據(jù)表明,EnGAN在U-Net模型中具有顯著的數(shù)據(jù)增強(qiáng)優(yōu)勢。
對(duì)于U-Net+ResNet34模型,EnGAN同樣展現(xiàn)出了較好性能。其Dice系數(shù)達(dá)到了0.751,領(lǐng)先于第二名的Style-Based GAN的0.748,提升了0.3百分點(diǎn);交并比達(dá)到了0.705,超過第二名的Style-Based GAN的0.701,差距為0.4百分點(diǎn)。在準(zhǔn)確度上,EnGAN的0.811同樣是所有方法中的最高值。盡管召回率上EnGAN的0.792略低于Style-Based GAN的0.804,但其在其他三個(gè)指標(biāo)上的明顯優(yōu)勢確保了其整體表現(xiàn)的領(lǐng)先。
在Attn Res U-Net模型中,EnGAN繼續(xù)展現(xiàn)出卓越的性能。其Dice系數(shù)為0.752,是所有方法中的最高值,與第二名的Style-Based GAN相比有0.4百分點(diǎn)的優(yōu)勢;交并比上,EnGAN的0.703超出第二名的Style-Based GAN的0.695,差距為0.8百分點(diǎn)。雖然在準(zhǔn)確度上,Style-Based GAN的0.811略高于EnGAN的0.804,但EnGAN在召回率上以0.803的成績領(lǐng)先,與第二名的Style-Based GAN有0.8百分點(diǎn)的優(yōu)勢。這進(jìn)一步證明了EnGAN增強(qiáng)方法的有效性和優(yōu)越性。
實(shí)驗(yàn)結(jié)果表明,EnGAN增強(qiáng)方法在U-Net、U-Net+ResNet34和Attn Res U-Net三種模型上均展現(xiàn)出顯著的優(yōu)勢。特別是,它在Dice系數(shù)和召回率上均達(dá)到了最優(yōu)表現(xiàn)。無論是與Seg2GAN還是Style-Based GAN進(jìn)行比較,EnGAN在各個(gè)評(píng)價(jià)指標(biāo)上均表現(xiàn)出色。盡管在某些指標(biāo)上可能略遜于其他方法,但EnGAN的整體性能確保了其在各種模型條件下的領(lǐng)先地位,證明了其在數(shù)據(jù)增強(qiáng)方面的出色性能。
3.5.5 魯棒性分析
為了進(jìn)一步探索EnGAN模型的魯棒性,根據(jù)式(6)對(duì)模型損失函數(shù)中的兩個(gè)關(guān)鍵超參數(shù)α和β進(jìn)行了深入研究。α是通過相似性損失來約束距離的超參數(shù),而β是增強(qiáng)圖像作為輸入的分割網(wǎng)絡(luò)的損失值的超參數(shù)。魯棒性實(shí)驗(yàn)采用COVID-19數(shù)據(jù)集,使用U-Net+EnGAN模型。在本研究中,進(jìn)行了兩組實(shí)驗(yàn):第一組實(shí)驗(yàn)設(shè)置α=1,調(diào)整β的值域?yàn)椋?.1,5]進(jìn)行測試;第二組實(shí)驗(yàn)設(shè)置β=1,調(diào)整α的值域?yàn)椋?.1,5]。觀測指標(biāo)使用評(píng)估分割準(zhǔn)確率的Dice系數(shù),以及評(píng)估圖像相似度的SSIM指標(biāo),如圖7所示。
當(dāng)β值較低(β<1)時(shí),LSeg在損失函數(shù)中的比重較小,因此LSim占主導(dǎo)地位,圖像的變更相對(duì)較小,相似性指標(biāo)表現(xiàn)得相對(duì)較好;但隨著β的增加,對(duì)于圖像分割準(zhǔn)確率的權(quán)重提升,對(duì)于圖像的優(yōu)化方向逐漸傾向LSeg,因此相似性逐漸下降。與此同時(shí),由于LSeg權(quán)重的提升,Dice系數(shù)隨β的增加快速提升。但是當(dāng)β繼續(xù)增大時(shí),LSeg權(quán)重增大,圖像的相似度逐漸變小,而且難以收斂,相應(yīng)的Dice值增長緩慢,同時(shí)也出現(xiàn)了發(fā)散現(xiàn)象。
根據(jù)這些實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),簡單地增加β值并不會(huì)始終提升模型性能。進(jìn)一步分析,可以發(fā)現(xiàn)存在一個(gè)最優(yōu)β值,在該值時(shí)模型可以達(dá)到最佳的性能平衡。
在另一組實(shí)驗(yàn)中,固定β=1,調(diào)整α進(jìn)行對(duì)比分析。如圖8所示,隨α值的遞增,可以看到相似性和Dice系數(shù)兩大性能指標(biāo)的變化呈現(xiàn)出一種特定關(guān)系。
具體地,在α值較低的區(qū)間,相似性指標(biāo)顯著上升,表明模型在這個(gè)范圍內(nèi)對(duì)相似性的約束能力逐漸增強(qiáng)。但當(dāng)α進(jìn)一步增加時(shí),相似性指標(biāo)逐漸趨于穩(wěn)定,并且逼近到1。而Dice系數(shù)在α初期增加時(shí)略顯下降,但隨后基本穩(wěn)定,表明α的權(quán)重增大之后,LSim的懲罰加大,使優(yōu)化的方向趨向于保持圖形的相似度,最終導(dǎo)致增強(qiáng)圖像和原始圖像高度相似時(shí),分割的結(jié)果也趨近原始的數(shù)值。
基于對(duì)α和β的魯棒性的初步分析,進(jìn)一步展開了深入的實(shí)驗(yàn)研究。實(shí)驗(yàn)結(jié)果表明,在α取值為[0.65, 1.1],以及β取值為[0.7, 1.5],圖像的相似度能夠穩(wěn)定維持在[0.8,0.9],并且此時(shí)模型的分割準(zhǔn)確率達(dá)到最優(yōu)表現(xiàn)。
在EnGAN模型的構(gòu)建與優(yōu)化中,超參數(shù)α和β的選擇和調(diào)整顯得尤為關(guān)鍵。深入了解并妥善調(diào)整這兩參數(shù)間的相互關(guān)系,有助于確保模型在多種應(yīng)用場景下呈現(xiàn)出穩(wěn)健的高效性能。
3.5.6 實(shí)驗(yàn)結(jié)果分析
本文在三個(gè)數(shù)據(jù)集上進(jìn)行了數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)。由于相似性損失的限制,如圖4~6所示,增強(qiáng)前后的圖像差異非常小,在視覺上難以察覺。一般的數(shù)據(jù)增強(qiáng)處理方法為擴(kuò)展數(shù)據(jù)集空間,這會(huì)對(duì)數(shù)據(jù)本身造成損傷和損失。本文在第四個(gè)實(shí)驗(yàn)中證明了EnGAN方法的優(yōu)越性。從四個(gè)實(shí)驗(yàn)的結(jié)果來看,本文的增強(qiáng)方法保護(hù)了數(shù)據(jù)的一致性和完整性,只對(duì)數(shù)據(jù)造成了微小的改變。然而,相似性損失的效果仍然有限,一些增強(qiáng)圖像中出現(xiàn)了更明顯的噪聲,如圖4的第三張圖片所示。
表1~4的分割結(jié)果顯示,無論是使用基線的U-Net,還是添加注意機(jī)制或添加ResNet模塊,原始圖像經(jīng)過EnGAN增強(qiáng)后,圖像分割的準(zhǔn)確性都有所提高。生成器遷移的目標(biāo)是連續(xù)空間中的標(biāo)簽分布,優(yōu)化器作為映射函數(shù)由分割網(wǎng)絡(luò)執(zhí)行。因此,生成器服從標(biāo)簽和分割網(wǎng)絡(luò)的聯(lián)合分布,并通過GAN的遷移能力獲取先驗(yàn)知識(shí),從而有效地增強(qiáng)圖像。
這種方法已在不同模態(tài)的數(shù)據(jù)集上得到驗(yàn)證,適用于二元分割和多類分割任務(wù),表明這種方法對(duì)不同數(shù)據(jù)類型具有良好的適應(yīng)性。一些圖像的分割精度得到了顯著提高,如圖4中的第四張圖片。全數(shù)據(jù)的準(zhǔn)確性也得到了提高,顯示出一定的適應(yīng)性。無論模型和數(shù)據(jù)集選擇怎樣的,其改進(jìn)效率都相對(duì)穩(wěn)定。
4 結(jié)束語
本文提出了一種在醫(yī)學(xué)圖像中使用自標(biāo)簽的數(shù)據(jù)增強(qiáng)方法。在該方法中,使用了一個(gè)優(yōu)化器將離散分布的標(biāo)簽數(shù)據(jù)映射到連續(xù)空間,并將其添加到GAN中,為GAN提供一個(gè)目標(biāo)域。同時(shí),限制了增強(qiáng)圖像與原始圖像之間的差異,以確保數(shù)據(jù)本身不受損害。訓(xùn)練過的GAN可以增強(qiáng)原始圖像,并提高系統(tǒng)的分割精度。通過多模態(tài)的實(shí)驗(yàn),結(jié)果表明,增強(qiáng)圖像能使分割精度穩(wěn)定提升,顯示了該方法的穩(wěn)定性和適應(yīng)性。需要指出的是,實(shí)驗(yàn)中出現(xiàn)了隨機(jī)噪聲。而本文中的相似性損失無法防止這種情況的發(fā)生,這需要在后續(xù)的研究中尋找解決方法。
參考文獻(xiàn):
[1]Albawi S,Mohammed TA,Al-Zawi S. Understanding of a convolutio-nal neural network [C]// Proc of International Conference on Engineering and Technology. Piscataway,NJ:IEEE Press,2017: 1-6.
[2]Ronneberger O,F(xiàn)ischer P,Brox T. U-Net: convolutional networks for biomedical image segmentation [C]// Proc of International Confe-rence on Medical Image Computing and Computer-Assisted Intervention. Berlin:Springer,2015: 234-241.
[3]GoodFellow I,Pouget-Abadie J,Mirza M,et al. Generative adversarial nets [C]// Advances in Neural Information Processing Systems. 2014.
[4]王紹帆,馬馳,胡輝,等. 基于對(duì)抗學(xué)習(xí)的醫(yī)學(xué)圖像分割領(lǐng)域自適應(yīng)研究 [J]. 計(jì)算機(jī)應(yīng)用研究,2022,39(4): 1270-1273.( Wang Shaofan,Ma Chi,Hu Hui,et al. Research on domain adaptation medical image segmentation based on adversarial learning[J]. Application Research of Computers,2022,39(4): 1270-1273.)
[5]Leclerc S,Smistad E,Pedrosa J,et al. Deep learning for segmentation using an open large-scale dataset in 2D echocardiography [J]. IEEE Trans on Medical Imaging,2019,38(9): 2198-2210.
[6]Long J,Shelhamer E,Darrell T. Fully convolutional networks for semantic segmentation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2015: 3431-3440.
[7]Medsker L R,Jain L C. Recurrent neural networks [J]. Design and Applications,2001,5(64-67): 2.
[8]Krizhevsky A,Sutskever I,Hinton G E. ImageNet classification with deep convolutional neural networks [J]. Communication of the ACM Processing Systems,2012,60(6): 84-90.
[9]Badrinarayanan V,Kendall A,Cipolla R. SegNet:a deep convolutional encoder-decoder architecture for image segmentation [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12): 2481-2495.
[10]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL].(2014). https://arxiv.org/abs/1409. 1556.
[11]Chen L C,Papandreou G,Kokkinos I,et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL].(2014).https://arxiv.org/abs/1412. 7062.
[12]Chen L C,Papandreou G,Kokkinos I,et al. DeepLab: semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2017,40(4): 834-848.
[13]Chen L C,Papandreou G,Schroff F,et al. Rethinking atrous convolution for semantic image segmentation [EB/OL].(2017). https://arxiv.org/abs/1706. 05587.
[14]Chen L C,Zhu Yukun,Papandreou G,et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Proc of European Conference on Computer Vision. Cham: Springer,2018: 801-818.
[15]Yang Qingsong,Yan Pingkun,Zhang Yanbo,et al. Low-dose CT image denoising using a generative adversarial network with Wasserstein distance and perceptual loss [J]. IEEE Trans on Medical Ima-ging,2018,37(6): 1348-1357.
[16]Gulrajani I,Ahmed F,Arjovsky M,et al. Improved training of Wasserstein GANs [EB/OL].(2017). https://arxiv.org/abs/1704. 00028.
[17]Shan Hongming,Zhang Yi,Yang Qingsong,et al. 3-D convolutional encoder-decoder network for low-dose CT via transfer learning from a 2-D trained network [J]. IEEE Trans on Medical Imaging,2018,37(6): 1522-1534.
[18]Chen Yuhua,Shi Feng,Christodoulou A G,et al. Efficient and accurate MRI super-resolution using a generative adversarial network and 3D multilevel densely connected network [C]// Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin:Springer,2018: 91-99.
[19]Sun Kun,Qu Liangqiong,Lian Chunfeng,et al. High-resolution breast MRI reconstruction using a deep convolutional generative adversarial network [J]. Journal of Magnetic Resonance Imaging,2020,52(6): 1852-1858.
[20]Xie Huaiqian,Lei Yang,Wang Tao,et al. Synthesizing high-resolution MRI using parallel cycle-consistent generative adversarial networks for fast MR imaging [J]. Medical Physics,2021,49(1): 357-369.
[21]Zhu J Y,Park T,Isola P,et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2017: 2223-2232.
[22]Calimeri F,Aldo M,Claudio S,et al. Biomedical data augmentation using generative adversarial neural networks[C]// Proc of International Conference on Artificial Neural Networks. Cham: Springer,2017: 626-634.
[23]Han C,Hayashi H,Rundo L,et al. GAN-based synthetic brain MR image generation[C]//Proc of the 15th IEEE International Symposium on Biomedical Imaging. Piscataway,NJ: IEEE Press,2018: 734-738.
[24]Madani A,Moradi M,Karargyris A,et al. Chest X-ray generation and data augmentation for cardiovascular abnormality classification [C]// Proc of SPIE 10574,Medical Imaging:Image Processing.2018:415-420.
[25]Bailo O,Ham D,Shin Y M. Red blood cell image generation for data augmentation using conditional generative adversarial networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition Workshops. Piscataway,NJ:IEEE Press,2019: 1039-1048.
[26]Shi Haoqi,Lu Junguo,Zhou Qianjun.A novel data augmentation me-thod using style-based GAN for robust pulmonary nodule segmentation [C]// Proc of Chinese Control and Decision Conference. Piscataway,NJ:IEEE Press,2020: 2486-2491.
[27]Beji A,Blaiech A G,Said M,et al. An innovative medical image synthesis based on dual GAN deep neural networks for improved segmentation quality [J]. Applied Intelligence,2023,53(3): 3381-3397.
[28]Wang Yu,Ji Yarong,Xiao Hongbin. A data augmentation method for fully automatic brain tumor segmentation [J]. Computers in Biology and Medicine,2022,149: 106039.
[29]Ding Yi,Wu Guozheng,Chen Dajiang,et al. DeepEDN: a deep-learning-based image encryption and decryption network for Internet of Medical Things[J]. IEEE Internet of Things Journal,2020,8(3): 1504-1518.
[30]Guo Zhiwei,Yu Keping,Neeraj K,et al. Deep-distributed-learning-based POI recommendation under mobile-edge networks[J]. IEEE Internet of Things Journal,2022,10(1): 303-317.
[31]Ding Feng,Zhu Guopu,Alazab M,et al. Deep-learning empowered digital forensics for edge consumer electronics in 5G HetNets [J]. IEEE Consumer Electronics Magazine,2020,11(2):42-50.
[32]Kingma D P,Ba J. Adam: a method for stochastic optimization [EB/OL].(2014). https://arxiv.org/abs/1412. 6980.
[33]Guo Zhiwei,Yu Keping,Bashir A K,et al. Deep information fusion-driven POI scheduling for mobile social networks [J]. IEEE Network,2022,36(4): 210-216.
[34]Al-Dhabyani W,Gomaa M,Khaled H,et al. Dataset of breast ultrasound images [J]. Data in Brief,2020,28: 104863.
[35]Li Lin,Qin Lixin,Xu Zeguo,et al. Artificial intelligence distinguishes COVID-19 from community acquired pneumonia on chest CT [J]. Radiology,2020,296(2):200905.
[36]Paszke A,Gross S,Massa F,et al. PyTorch: an imperative style,high-performance deep learning library [C]// Proc of the 33rd International Conference on Neural Information Processing System. Red Hook,NY: Curran Associates Inc.,2019: 8026-8037.