国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多尺度信息交互與融合的乳腺病理圖像分類

2024-04-22 00:46:52丁維龍朱峰龍鄭魁賈秀鵬
關(guān)鍵詞:尺度像素卷積

丁維龍,朱峰龍,鄭魁,賈秀鵬

1.浙江工業(yè)大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,杭州 310023;2.上海派影醫(yī)療科技有限公司,上海 201306;3.寧波市臨床病理診斷中心,寧波 315031

0 引言

乳腺癌是我國(guó)女性最常見的惡性腫瘤之一,在所有癌癥中占比高達(dá)11.7%(Sung 等,2021;Xie 等,2021),同時(shí)也是全球女性死亡率最高的癌癥之一(滿芮 等,2020)。組織病理學(xué)檢查是乳腺癌診斷的“金標(biāo)準(zhǔn)”(金旭 等,2020;顏銳 等,2021;徐貴璇 等,2021),其準(zhǔn)確性和及時(shí)性直接影響患者治療方案的選擇和預(yù)后。一般地,組織病理學(xué)診斷流程是病理醫(yī)生先在顯微鏡下對(duì)病理切片進(jìn)行細(xì)致檢查(稱為鏡檢),而后給出癌癥分級(jí)和分期。這種人工閱片方式需要醫(yī)生對(duì)每一幅圖像進(jìn)行審閱,耗時(shí)耗力。由于不同醫(yī)生的專業(yè)知識(shí)和臨床經(jīng)驗(yàn)不同,其個(gè)人主觀性會(huì)影響最終的診斷結(jié)果。截至2018 年末,我國(guó)在冊(cè)的病理醫(yī)生(包括執(zhí)業(yè)醫(yī)師和助理執(zhí)業(yè)醫(yī)師)為1.8 萬人,病理醫(yī)生的缺口至少為6.6 萬人(卞修武和平軼芳,2019),我國(guó)各級(jí)醫(yī)院病理醫(yī)師人數(shù)均顯著低于原衛(wèi)生部制定的要求(每100 張床至少配備1~2 名病理醫(yī)師)。面對(duì)上述問題,迫切需要開發(fā)客觀且精確的計(jì)算機(jī)輔助診斷系統(tǒng)來幫助病理醫(yī)生進(jìn)行診斷,識(shí)別癌癥區(qū)域和癌癥類型。

隨著掃描技術(shù)的發(fā)展,病理切片可以數(shù)字化為全切片掃描圖像(whole slide image,WSI)。病理專家無需借助顯微鏡在病理切片上費(fèi)時(shí)費(fèi)力地搜索癌變區(qū)域,而是直接通過電腦屏幕快速便捷地查看和分析病理圖像。計(jì)算病理學(xué)的出現(xiàn)促進(jìn)了計(jì)算機(jī)輔助診斷的發(fā)展。國(guó)內(nèi)外已有諸多學(xué)者對(duì)乳腺病理圖像自動(dòng)分類展開研究,并取得了一定的進(jìn)展。這些研究主要可以分為兩類(顏銳 等,2021):1)基于人工特征提取結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)的方法;2)基于深度學(xué)習(xí)的方法。對(duì)于機(jī)器學(xué)習(xí)的方法,Zhang 等人(2014)提出一種基于單類核主成分分析(kernel principal component analysis,KPCA)模型集成的醫(yī)學(xué)圖像分類方法,采用乘積組合規(guī)則集成多個(gè)KPCA模型,以產(chǎn)生分類置信度分?jǐn)?shù)。王帥等人(2018)提出基于二次聚類與隨機(jī)森林的腺管自動(dòng)識(shí)別方法,通過一次聚類和二次聚類構(gòu)建出待分割圖像,最后使用隨機(jī)森林分類算法進(jìn)行分類。Ed-daoudy 和Malmi(2020)使用關(guān)聯(lián)規(guī)則將特征空間維數(shù)由9 個(gè)降為8 個(gè),然后輸入到多個(gè)支持向量機(jī)中對(duì)乳腺癌進(jìn)行分類。上述方法采用人工特征提取,不僅需要病理醫(yī)生專業(yè)知識(shí)的支撐,整個(gè)過程耗時(shí)耗力且主觀性強(qiáng),往往存在特征空間小、泛化能力不強(qiáng)等缺陷。

基于深度學(xué)習(xí)的乳腺組織病理圖像分類方法可以從數(shù)據(jù)中自動(dòng)學(xué)習(xí)圖像的高維特征,從而推動(dòng)自身在醫(yī)學(xué)圖像的應(yīng)用(Litjens 等,2017;Campanella等,2019;Senousy 等,2022;趙櫻莉 等,2023)?,F(xiàn)有的一些方法(Yu 等,2023;Zheng 等,2020;Wang 等,2016;Vesal 等,2018;Alom 等,2019;趙曉平 等,2023;Chhipa 等,2023)均采用單一倍率下的圖像作為神經(jīng)網(wǎng)絡(luò)的輸入(本文將其稱為單尺度網(wǎng)絡(luò)),忽略了相鄰patch 之間的相關(guān)性。這可能會(huì)帶來兩個(gè)問題:1)乳腺組織病理圖像中特定的結(jié)構(gòu)被裁剪為多個(gè)部分,分布在相鄰的patch 中,降低了patch 的特征表示能力;2)只使用高倍率下的圖像,忽略其他倍率的圖像,可能會(huì)丟失有用的信息。

為解決這些問題,Kang和Chun(2022)采用多尺度課程式學(xué)習(xí)策略來提高模型的準(zhǔn)確率。然而,該方法并沒有對(duì)模型進(jìn)行改進(jìn),只是將不同分辨率下的圖像組合成一個(gè)數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)。此外,Tong 等人(2019)利用WSI內(nèi)置的圖像金字塔結(jié)構(gòu)來融合低倍率圖像的上下文信息,以增強(qiáng)patch 的預(yù)測(cè)能力。Xie 等人(2021)提出一種基于ResNet50 的多尺度卷積網(wǎng)絡(luò)。通過同時(shí)輸入40× 和10× 放大倍率的圖像,然后合并不同尺度的特征。Chen 等人(2022)提出一個(gè)多尺度模型,提取全局和局部信息用于胃組織病理學(xué)圖像檢測(cè)。上述實(shí)驗(yàn)結(jié)果表明,采用多尺度策略的神經(jīng)網(wǎng)絡(luò)的性能明顯優(yōu)于單尺度網(wǎng)絡(luò)。但上述多尺度方法多是將不同倍率的圖像輸入網(wǎng)絡(luò)模型,經(jīng)過多層卷積層運(yùn)算之后對(duì)提取到的不同特征進(jìn)行拼接。這種特征融合方式較為簡(jiǎn)單,沒有區(qū)分不同尺度圖像特征之間存在的感受野上的差異。此外,在特征融合之前,模型對(duì)不同尺度的圖像進(jìn)行單獨(dú)提取紋理、顏色等特征,并沒有考慮不同尺度圖像之間可能存在的關(guān)聯(lián)性。

針對(duì)上述問題,本文提出一種基于多尺度和注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)策略,并應(yīng)用于DenseNet 網(wǎng)絡(luò),提高了乳腺病理圖像分類性能。本文的創(chuàng)新之處包括:1)設(shè)計(jì)信息交互模塊,加強(qiáng)不同尺度的圖像之間的聯(lián)系,實(shí)現(xiàn)不同尺度的特征相互監(jiān)督和引導(dǎo);2)設(shè)計(jì)特征融合模塊,對(duì)不同尺度的圖像的特征有所側(cè)重,并通過提出的分組注意力結(jié)合通道注意力來提高模型的特征提取能力和泛化能力。本文在公開數(shù)據(jù)集Camelyon16 上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文方法能有效提高乳腺組織病理圖像的分類精度,為今后組織病理圖像在多尺度網(wǎng)絡(luò)方面的研究提供了重要參考。

1 方法

本文基于DenseNet(dense convolutional network)(Huang 等,2017)提出一種結(jié)合多尺度和注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型MA-DenseNet(multiscale and group attention dense convolutional network)。該模型能夠接受多種尺度的圖像作為輸入,并在特征提取階段加強(qiáng)不同尺度的特征之間的交互,以起到相互引導(dǎo)的作用,使得模型能夠從多種倍率的圖像中,提取到與分類任務(wù)相關(guān)的特征,進(jìn)而提高模型的性能。此外,該模型在特征融合階段,充分考慮不同尺度的特征的重要性程度,使用分組空間注意力機(jī)制和通道注意力機(jī)制對(duì)特征賦予權(quán)重,從而區(qū)分不同區(qū)域和通道的特征對(duì)乳腺癌組織病理圖像分類任務(wù)的貢獻(xiàn)度。

由于WSI 的尺寸較大(一般為40 000×40 000像素)(Wang 等,2022),受限于硬件條件(Ciga 等,2021),現(xiàn)階段即使是對(duì)WSI進(jìn)行下采樣也需要對(duì)其進(jìn)行滑動(dòng)窗口處理才能輸入到網(wǎng)絡(luò)模型中。并且,下采樣意味著分辨率的降低,會(huì)丟失大部分的細(xì)節(jié)信息,因而研究者往往將WSI 切割成尺度更小的patch(Lu等,2021;Gao等,2023)作為分類目標(biāo),尺寸一般為256×256 像素或512×512 像素??紤]到本文提出的多尺度網(wǎng)絡(luò)需要不同倍率下的圖像作為輸入,因此,采用同一中心點(diǎn)對(duì)同一幅WSI圖像切割出3 種尺度的patch,其尺寸分別為256×256 像素、512×512 像素、768×768 像素(下文分別記做256尺度、512 尺度和768 尺度)。根據(jù)下文的對(duì)比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),20× 倍率下裁剪的512×512 像素的patch,作為單尺度網(wǎng)絡(luò)的輸入時(shí)所得到的分類性能較好。因此,在3個(gè)尺度中本文使用512尺度作為分類目標(biāo),模型所對(duì)應(yīng)的標(biāo)簽使用512 尺度的標(biāo)簽。通過該切割方式,可以在對(duì)512×512 像素的patch進(jìn)行分類時(shí),融合從高倍率的patch(256×256 像素)和低倍率的patch(768×768像素)中提取的特征,達(dá)到充分考慮其上下文信息的目的。本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,主要包括:1)信息交互模塊,用于增強(qiáng)多種尺度的特征之間的聯(lián)系;2)特征融合模塊,用于區(qū)分不同尺度的特征的重要性程度。考慮到現(xiàn)有網(wǎng)絡(luò)多采用模塊化設(shè)計(jì)以提高模型的深度,其結(jié)構(gòu)一般由一個(gè)卷積和池化組成的Stem 部分和多個(gè)特定的Layer 組成,如:ResNet 是以殘差塊的疊加形成一個(gè)Layer,而ViT(vision Transformer)則是通過多頭自注意力和多層感知機(jī)的堆疊形成一個(gè)Layer。為了保證多尺度策略的通用性,將Stem 和第1 個(gè)Layer作為插入位置,然后根據(jù)信息交互模塊和特征融合模塊的插入位置不同,分為淺層插入方式和深層插入方式,對(duì)應(yīng)的模型稱為淺層多尺度(圖1)和深層多尺度(圖2)。

圖1 淺層多尺度網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Shallow multiscale network structure

圖2 深層多尺度網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Deep multi-scale network structure

圖1 中,“3×3 Conv 64,/2”表示卷積核的大小為3×3,卷積核的數(shù)量為64,步長(zhǎng)為2;“3×3Conv 64,1”表示卷積核的大小為3×3,卷積核的數(shù)量為64,步長(zhǎng)為1;信息交互模塊和特征融合模塊將在下文進(jìn)行詳細(xì)描述;“3×3 MaxPool 64,/2”表示最大池化,池化核大小為3×3、步長(zhǎng)為2;DenseBlock 表示DenseNet 網(wǎng)絡(luò)中的密集連接塊,總共有4 個(gè);Transition 表示DenseNet 中的降通道模塊,總共有3 個(gè);Linear 表示全連接層,輸出為網(wǎng)絡(luò)模型對(duì)每個(gè)類別的預(yù)測(cè)概率。

圖2 中,Stem 表示網(wǎng)絡(luò)主干的頭部,在原始DenseNet 中,Stem 主要包括一個(gè)步長(zhǎng)為2 的7×7 卷積核以及最大池化操作,本文將其改成3 個(gè)3×3 級(jí)聯(lián),在保證感受野大小相同的情況下,減少模型的參數(shù),并提高非線性泛化能力。與淺層多尺度的區(qū)別包括:1)信息交互模塊放到Stem 之后,而不是放在兩個(gè)卷積操作之后,同時(shí)將特征融合模塊放到DenseNet 的第1 個(gè)Transition 模塊之后,相對(duì)于放在DenseBlock1_1之后能夠減少近一半的計(jì)算量。

1.1 信息交互模塊

以往關(guān)于多尺度網(wǎng)絡(luò)的研究中,不同尺度的圖像特征在融合之前均是單獨(dú)計(jì)算,容易丟失多尺度特征之間的關(guān)聯(lián)性,從而導(dǎo)致特征的利用率低。為解決這個(gè)問題,本文提出的信息交互模塊在特征融合之前進(jìn)行基于空間注意力機(jī)制的加權(quán)信息交互,能夠加強(qiáng)3種尺度輸入之間的聯(lián)系,使得256尺度和768 尺度中與512 尺度相關(guān)的局部信息獲得更大的權(quán)重。考慮到256 尺度和768 尺度對(duì)于512 尺度的重要性程度不相同,本文使用加權(quán)特征融合的方式,將256 尺度和768 尺度乘以其相應(yīng)的權(quán)重,再與512尺度的特征進(jìn)行融合,然后反饋給256尺度和768尺度,引導(dǎo)這兩個(gè)分支對(duì)相關(guān)特征施以更大的關(guān)注。該模塊結(jié)構(gòu)如圖3 所示。具體步驟為:1)將256×256像素、512×512像素、768×768像素的輸入圖像經(jīng)過卷積運(yùn)算之后,分別記做finfo_256,finfo_512,finfo_768;2)使用空間注意力機(jī)制對(duì)finfo_256和finfo_768中與finfo_512相關(guān)的區(qū)域賦予更大的權(quán)重,計(jì)算結(jié)果記做finfo_256_spatial和finfo_768_spatial,然后乘以對(duì)應(yīng)權(quán)重值,再與finfo_512進(jìn)行逐元素相加,結(jié)果記做;3)將分別與finfo_256_spatial和finfo_768_spatial按通道維度進(jìn)行拼接,并通過動(dòng)態(tài)尺度選擇模塊(Feng 等,2020)選擇兩個(gè)尺度中重要的區(qū)域,促使256尺度和768尺度的分支關(guān)注與512尺度相關(guān)的特征信息。

圖3 信息交互模塊結(jié)構(gòu)圖Fig.3 Structure diagram of information interaction module

圖3 和圖4 中,Conv 表示卷積層,?表示逐元素相乘,⊕表示逐元素相加,a和b分別表示賦予給256 尺度,768 尺度的patch 的權(quán)重,用以區(qū)分不同尺度對(duì)于512 尺度的重要性,這兩個(gè)權(quán)重是可訓(xùn)練參數(shù),在模型的反向傳播過程中會(huì)自動(dòng)調(diào)整。對(duì)于256 尺度和768 尺度的特征圖中與512 尺度相關(guān)的區(qū)域,本文采用空間注意力機(jī)制(Woo等,2018)賦予其更高的權(quán)重??臻g注意力機(jī)制的結(jié)構(gòu)如圖5所示。

圖4 動(dòng)態(tài)尺度選擇模塊Fig.4 Dynamic scale selection module

圖5 空間注意力機(jī)制Fig.5 Spatial attention mechanism

圖5 中,輸入特征記做F,維度為(B,C,H,W),按通道維度進(jìn)行最大池化和平均池化操作,得到Fmax,F(xiàn)avg,維度均為(B,1,H,W);然后,將Fmax、Favg按通道維度進(jìn)行拼接,得到Fpool,維度為(B,2,H,W);再將Fpool經(jīng)過卷積運(yùn)算并激活,得到權(quán)重張量,維度為(B,1,H,W);最后將原始特征F與權(quán)重張量逐元素相乘,并加上F后進(jìn)行激活,得到最終輸出特征Fs。具體表示式為

式中,Conv3×3表示卷積核大小為3×3,步長(zhǎng)為1,padding 為1 的卷積操作;Concat表示將Favg和Fmax按通道維度拼接,σ表示sigmoid激活函數(shù)。

1.2 多尺度特征融合模塊

一般地,多尺度網(wǎng)絡(luò)是直接將多種尺度的輸入所獲得的特征直接按維度進(jìn)行拼接,不同尺度的輸入具有相同的權(quán)重,沒有關(guān)注最終要進(jìn)行分類的patch。這有可能會(huì)造成下述問題:對(duì)多個(gè)尺度的圖像輸入在卷積之后進(jìn)行簡(jiǎn)單融合,容易引入和分類目標(biāo)無關(guān)的特征以及對(duì)特征的利用率較低等問題。比如將512尺度的標(biāo)簽作為真實(shí)標(biāo)簽時(shí),768尺度的圖像能夠提供更豐富的上下文信息,但不能保證所有的區(qū)域都與512 尺度的標(biāo)簽一致。直接將不同尺度的特征相加會(huì)引入較多噪聲。同樣地,在更高的放大倍率下獲取到的256 尺度圖像,擁有清晰的細(xì)胞形態(tài)結(jié)構(gòu),如果沒有對(duì)最終分類目標(biāo)相關(guān)的形態(tài)特征賦予更大的權(quán)重,則會(huì)造成特征利用率降低。

針對(duì)上述問題,本文提出基于分組注意力的多尺度特征融合模塊??紤]到多種尺度的圖像之間存在感受野的差異,利用空洞卷積實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)部的多尺度模塊。通過以上步驟,能夠較好地提高多尺度網(wǎng)絡(luò)在特征融合過程中的特征提取能力。本文提出的基于分組注意力的特征融合模塊結(jié)構(gòu)如圖6 所示。圖6 中,1×1 Conv 表示卷積核大小為1×1,主要的作用有兩個(gè)方面:1)降低通道數(shù),從而減少計(jì)算量;2)讓所有通道特征建立聯(lián)系。3×3 Conv表示卷積核大小為3×3,dilation=2 表示空洞卷積的膨脹系數(shù)是2(3×3 的卷積核,在dilation=2 時(shí),其所對(duì)應(yīng)的感受野為5×5)。

圖6 特征融合模塊Fig.6 Feature fusion module

本文提出的分組空間注意力是通過分組卷積的方式,將特征圖分為8 組,每組計(jì)算一個(gè)權(quán)重,從而保證更多特征得到激活,其結(jié)構(gòu)如圖7所示。Concat表示將3 種尺度的特征圖按照通道維度進(jìn)行拼接。由于Concat 操作會(huì)使得通道數(shù)翻倍,本文采用通道注意力機(jī)制區(qū)分不同特征通道的重要性程度,然后增強(qiáng)與任務(wù)相關(guān)的特征通道并抑制無關(guān)的特征通道,對(duì)應(yīng)的結(jié)構(gòu)如圖8所示。本文考慮到512尺度的感受野是256 尺度的兩倍,768 尺度是256 尺度的3 倍,當(dāng)把3 種尺度的圖像按通道維度拼接之后,存在特征圖的感受野不一致問題。因此,本文采用空洞卷積的方式,構(gòu)建了網(wǎng)絡(luò)內(nèi)部的多尺度模塊。

圖7 分組注意力機(jī)制Fig.7 Grouped attention mechanism

圖8 通道注意力Fig.8 Channel attention

圖7中,Group Conv表示分組卷積,相比于傳統(tǒng)卷積操作,分組卷積能有效減少參數(shù)量和計(jì)算量,并具有一定的正則化作用。softmax表示對(duì)分組卷積的結(jié)果,按通道維度計(jì)算每組的權(quán)重向量。具體為

Repeat 表示將經(jīng)過softmax 的權(quán)重進(jìn)行擴(kuò)張,每一個(gè)通道復(fù)制8 次,從而讓原始特征圖能夠與注意力權(quán)重逐元素相乘。

圖8中,輸入的特征先經(jīng)過全局平均池化和全局最大池化,將特征圖的寬高變?yōu)?×1。隨后池化結(jié)果經(jīng)過全連接層FC1,降低通道數(shù),r在本文中設(shè)置為8。然后,將結(jié)果通過ReLU(rectified linear unit)函數(shù)激活,再經(jīng)過一層全連接層計(jì)算,將通道數(shù)恢復(fù)到C。最后,將兩種池化結(jié)果相加并使用sigmoid 函數(shù)激活后,與原始特征進(jìn)行逐元素相乘得到輸出特征。

2 實(shí)驗(yàn)及結(jié)果

2.1 數(shù)據(jù)集介紹

本文在公開數(shù)據(jù)集Camelyon16(Bejnordi 等,2017)上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集中的乳腺組織病理圖像由the Radboud University Medical Center(Nijmegen,the Netherlands)和the University Medical Center Utrecht(Utrecht,the Netherlands)提供,均由蘇木精—伊紅染色。對(duì)于患有癌癥的乳腺組織病理圖像,該數(shù)據(jù)集提供了由專業(yè)的病理醫(yī)生進(jìn)行的像素級(jí)標(biāo)注,標(biāo)注信息以XML(extensible markup language)格式保存。本文為保證無癌(陰性)和有癌(陽性)的乳腺組織病理圖像在數(shù)量上一致,將訓(xùn)練集的111幅有癌圖像和測(cè)試集中的48 幅有癌圖像進(jìn)行整合,然后和訓(xùn)練集中的159 幅無癌圖像形成新的數(shù)據(jù)集。本文在這318 幅乳腺組織病理圖像上以滑動(dòng)窗口切割的方式,裁剪出固定數(shù)量的patch,并劃分為5 個(gè)部分,進(jìn)行五折交叉驗(yàn)證實(shí)驗(yàn),具體的數(shù)據(jù)分布如表1所示。

表1 五折交叉驗(yàn)證數(shù)據(jù)集分布Table 1 Distribution of 5-fold cross-validation dataset

2.2 數(shù)據(jù)集處理

由于乳腺組織病理圖像的尺寸較大,Camelyon16數(shù)據(jù)集的平均圖像大小為1.4 GB左右,圖像的放大倍率為40 倍,每個(gè)像素點(diǎn)所代表的實(shí)際距離約為0.243 μm。受限于目前算力,卷積神經(jīng)網(wǎng)絡(luò)的輸入一般為224×224 像素、256×256 像素、384×384 像素,因此需要對(duì)乳腺組織病理圖像進(jìn)行切割,獲得能夠輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練的圖像塊。此外,乳腺組織病理圖像一般是由樣本切片通過光學(xué)數(shù)字掃描儀獲得的,包含大部分白色背景區(qū)域,需要對(duì)其進(jìn)行去除以降低模型的計(jì)算量。具體有以下幾個(gè)處理步驟:1)本文采用最大類間方差法(Otsu,1979)對(duì)乳腺組織病理圖像進(jìn)行閾值分割;2)在分割得到的掩碼圖像上以滑動(dòng)窗口的方式選取patch 的中心坐標(biāo)點(diǎn);3)根據(jù)坐標(biāo)點(diǎn)在原圖上切割3 種尺度的patch,大小分別為256×256 像素、512×512 像素和768×768 像素;4)考慮到不同乳腺組織病理圖像在制片過程中存在顏色差異,本文采用Reinhard(Reinhard 等,2001)方法,在保證組織結(jié)構(gòu)不變的前提下,將原圖像的顏色分布轉(zhuǎn)換到目標(biāo)圖像上,保證不同圖像的顏色一致性。

深度學(xué)習(xí)的性能與樣本的數(shù)量有關(guān),為了提高模型的泛化能力,本文采用數(shù)據(jù)增強(qiáng)方法,主要包括水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和旋轉(zhuǎn)等操作。本文設(shè)計(jì)的是多尺度神經(jīng)網(wǎng)絡(luò),對(duì)于同一中心點(diǎn)裁剪的不同尺度的patch要進(jìn)行相同的數(shù)據(jù)增強(qiáng)操作。鑒于此,先將3 種數(shù)據(jù)增強(qiáng)的方式進(jìn)行隨機(jī)組合,根據(jù)產(chǎn)生的兩個(gè)隨機(jī)數(shù)是否大于0.5 來分別決定是否水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)操作。同時(shí),為了避免旋轉(zhuǎn)操作可能帶來的組織缺失問題,本文設(shè)定旋轉(zhuǎn)角度為0°、90°、180°、270°,保證在旋轉(zhuǎn)過程中不會(huì)引入空白區(qū)域,如圖9 所示。最后,本文將隨機(jī)組合的圖像增強(qiáng)方法同時(shí)應(yīng)用到不同尺度的圖像上,如圖10 所示,對(duì)不同尺度進(jìn)行了圖像增強(qiáng)操作的組合,包括水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和逆時(shí)針旋轉(zhuǎn)270°。

圖9 不同旋轉(zhuǎn)角度對(duì)比圖Fig.9 Comparison chart of different rotation angles map((a)original image;(b)rotation by 90°;(c)rotation by 180°;(d)rotation by 270°;(e)rotation by 50°)

圖10 數(shù)據(jù)增強(qiáng)方式組合圖Fig.10 Data augmentation method combination map((a)original 256 image;(b)transformed 256 image;(c)transformed 512 image;(d)transformed 768 image)

通過對(duì)輸入的數(shù)據(jù)進(jìn)行批歸一化操作能夠加快模型的收斂速度。本文并未使用隨機(jī)的均值和標(biāo)準(zhǔn)差或是在ImageNet(Deng 等,2009)數(shù)據(jù)集上計(jì)算出的均值和標(biāo)準(zhǔn)差,來進(jìn)行批歸一化操作,而是在訓(xùn)練集上隨機(jī)選取10 000 張patch,計(jì)算經(jīng)過圖像增強(qiáng)之后的均值和標(biāo)準(zhǔn)差作為批歸一化參數(shù)。此外,無論是多輸入網(wǎng)絡(luò)還是單輸入網(wǎng)絡(luò),在沒有特別說明的情況下,本文都是將圖像變換為224×224 像素,目的是為了適應(yīng)網(wǎng)絡(luò)的輸入尺寸。

2.3 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)硬件環(huán)境為Inteli9-10940xCPU,兩張3080Ti 顯卡,單張顯卡的顯存為12 GB,操作系統(tǒng)版本為Ubuntu18.04。本文網(wǎng)絡(luò)模型基于Pytorch 深度學(xué)習(xí)框架實(shí)現(xiàn),Pytorch 版本為1.10。本文在模型訓(xùn)練中使用SGD(stochastic gradient descent)優(yōu)化器(Loshchilov 和Hutter,2016),并設(shè)定初始學(xué)習(xí)率為0.01,權(quán)重衰減系數(shù)為0.000 3,動(dòng)量系數(shù)momentum為0.9,模型的數(shù)據(jù)批次大小為32,在訓(xùn)練過程中使用ReduceLROnPlateau 作為學(xué)習(xí)率調(diào)整策略。對(duì)于五折交叉驗(yàn)證實(shí)驗(yàn)中的每一個(gè)實(shí)驗(yàn),設(shè)定網(wǎng)絡(luò)模型的訓(xùn)練批次為60 次,然后將5 個(gè)實(shí)驗(yàn)的結(jié)果在多個(gè)指標(biāo)上計(jì)算平均值以及標(biāo)準(zhǔn)差,來客觀評(píng)估模型的性能。本文采用準(zhǔn)確率(Hossin 和Sulaiman,2015)、精確率、召回率、F1-score 以及AUC(area under curve)共5個(gè)評(píng)價(jià)指標(biāo),對(duì)乳腺組織病理圖像識(shí)別模型進(jìn)行評(píng)估。

2.4 實(shí)驗(yàn)結(jié)果

2.4.1 通用性實(shí)驗(yàn)

本文所提出的信息交互和特征融合模塊是一種通用策略,能夠讓單尺度網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)變?yōu)槎喑叨染W(wǎng)絡(luò),模擬病理專家在顯微鏡下多倍率觀察病理切片的過程。為了驗(yàn)證本文模塊的通用性,并且選取出更合適的網(wǎng)絡(luò)結(jié)構(gòu),在多種主流的主干網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn),將本文所提出的兩個(gè)模塊加入到主干網(wǎng)絡(luò)中,并采用上文提出的評(píng)價(jià)指標(biāo)評(píng)判網(wǎng)絡(luò)性能。首先針對(duì)淺層多尺度網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),結(jié)果如表2 所示,括號(hào)內(nèi)的數(shù)值表示五折交叉實(shí)驗(yàn)中各項(xiàng)指標(biāo)的標(biāo)準(zhǔn)差,括號(hào)外的數(shù)值表示五折交叉實(shí)驗(yàn)的平均值。從表2 可以發(fā)現(xiàn),帶有密集連接的DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)在各項(xiàng)評(píng)價(jià)指標(biāo)上具有較好的表現(xiàn),在五折交叉實(shí)驗(yàn)中,基于DenseNet201 實(shí)現(xiàn)的多尺度網(wǎng)絡(luò)在準(zhǔn)確率、召回率、F1-score 和AUC 指標(biāo)上都領(lǐng)先于其他主干網(wǎng)絡(luò)。因?yàn)槊芗B接能夠讓淺層的特征隨著網(wǎng)絡(luò)深度的遞進(jìn),傳遞給深層的網(wǎng)絡(luò),對(duì)于組織病理圖像而言,能較好地保留淺層特征,如細(xì)胞形態(tài)、顏色和紋理特征等,使最終用于分類的特征更豐富。而SEResNet 雖然同時(shí)具備殘差結(jié)構(gòu)以及壓縮激勵(lì)模塊,表現(xiàn)卻低于ResNet50,可能是因?yàn)槎鄬拥膲嚎s激勵(lì)模塊在識(shí)別細(xì)胞形態(tài)時(shí)關(guān)注了錯(cuò)誤的特征,即對(duì)于無關(guān)的特征賦予更大的權(quán)重。

表2 不同基礎(chǔ)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different base networks

從表2 還可以發(fā)現(xiàn),基于SEResNet50 實(shí)現(xiàn)的多尺度網(wǎng)絡(luò)在各項(xiàng)評(píng)價(jià)指標(biāo)中的標(biāo)準(zhǔn)差較大,表明該網(wǎng)絡(luò)的穩(wěn)定性較差,在5 個(gè)測(cè)試集中各項(xiàng)評(píng)價(jià)指標(biāo)有較大波動(dòng)。此外,為了驗(yàn)證深層多尺度網(wǎng)絡(luò)和淺層多尺度網(wǎng)絡(luò)的性能差異,本文對(duì)表2 中各項(xiàng)評(píng)價(jià)指標(biāo)都較好的DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步實(shí)驗(yàn),結(jié)果如表3 所示??梢园l(fā)現(xiàn),隨著信息交互模塊和特征融合模塊插入位置的改變,在網(wǎng)絡(luò)深層部分能夠發(fā)揮更大的效果,取得比淺層多尺度更優(yōu)異的性能。由于深層插入方式相對(duì)于淺層插入方式會(huì)增加網(wǎng)絡(luò)的參數(shù)量和計(jì)算量,對(duì)本文使用到的網(wǎng)絡(luò)模型進(jìn)行相應(yīng)數(shù)據(jù)的統(tǒng)計(jì),結(jié)果如表4 所示?;贒enseNet169 的深層多尺度網(wǎng)絡(luò)性能在參數(shù)量與浮點(diǎn)數(shù)計(jì)算次數(shù)上與淺層插入方式的DenseNet201 較為接近,但在各項(xiàng)評(píng)價(jià)指標(biāo)上均優(yōu)于后者。這表明本文所提多尺度策略在基于深層插入方式時(shí),能夠進(jìn)一步提高模型的識(shí)別性能。在后續(xù)實(shí)驗(yàn)中,本文都將采用DenseNet201 作為多尺度改進(jìn)的基礎(chǔ)網(wǎng)絡(luò),并使用深層多尺度的插入策略。

表3 深層多尺度的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of deep multi-scale

表4 網(wǎng)絡(luò)模型的參數(shù)量與計(jì)算量統(tǒng)計(jì)表Table 4 Statistics on the number of parameters and computation of the network model

2.4.2 對(duì)比實(shí)驗(yàn)

為了驗(yàn)證所改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)的有效性,本文將所提出的多尺度網(wǎng)絡(luò)模型和主流的卷積網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn)以及與Transformer網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn),包括ResNet(He 等,2016)、DenseNet(Huang 等,2017)、EfficientNetV2(Tan 和Le,2021)、HaloNet(Vaswani 等,2021)、ViT(Dosovitskiy 等,2020)和TransPath(Wang 等,2021)??紤]到本文網(wǎng)絡(luò)包含多個(gè)尺度的輸入,為了實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,對(duì)于上述單尺度網(wǎng)絡(luò),分別在256尺度和512尺度進(jìn)行實(shí)驗(yàn)。在圖像輸入到網(wǎng)絡(luò)中進(jìn)行之前,對(duì)圖像進(jìn)行上文提到的數(shù)據(jù)增強(qiáng)以及歸一化操作,并調(diào)整圖像大小為224×224 像素。HaloNet 網(wǎng)絡(luò)由于具備局部自注意力機(jī)制,需要輸入大小為8 的倍數(shù),所以對(duì)應(yīng)的圖像輸入調(diào)整為256×256像素。最終的實(shí)驗(yàn)結(jié)果如表5所示,所有評(píng)價(jià)指標(biāo)均在5-fold 實(shí)驗(yàn)下計(jì)算平均值以及標(biāo)準(zhǔn)差。從單尺度網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn),以512 尺度作為輸入的網(wǎng)絡(luò),其各項(xiàng)評(píng)價(jià)指標(biāo)都優(yōu)于以256 尺度作為輸入的網(wǎng)絡(luò),這也是上文選取512 尺度作為多尺度網(wǎng)絡(luò)分類目標(biāo)的原因。在單尺度網(wǎng)絡(luò)中,ViT 模型的各項(xiàng)指標(biāo)較低,這可能是因?yàn)閂iT是將一張patch劃分為多個(gè)小塊,然后進(jìn)行編碼,使得每個(gè)小塊對(duì)應(yīng)一個(gè)一維向量。這個(gè)過程中可能導(dǎo)致同一性質(zhì)的區(qū)域被分割開,并且ViT 相對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來說存在訓(xùn)練困難的缺點(diǎn),以上因素導(dǎo)致了本文中ViT 在patch 分類上的性能表現(xiàn)較差。在所有單尺度網(wǎng)絡(luò)模型中,取得最好性能的是TransPath,該網(wǎng)絡(luò)模型是Wang 等人(2021)通過將ResNetV2 和ViT 進(jìn)行結(jié)合得到的,相較于ResNet50有接近0.8%的提升,在AUC和F1-score這兩個(gè)評(píng)價(jià)指標(biāo)上也優(yōu)于其他的單尺度網(wǎng)絡(luò)模型。本文提出的多尺度網(wǎng)絡(luò)模型與TransPath 相比,在5 折交叉實(shí)驗(yàn)結(jié)果中,各項(xiàng)指標(biāo)都有明顯提升,其中AUC 達(dá)到了0.994 92,準(zhǔn)確率達(dá)到了97.785%,精確率達(dá)到了98.845%,并且從各項(xiàng)評(píng)價(jià)指標(biāo)的標(biāo)準(zhǔn)差中可以看出,本文所提出的方法穩(wěn)定性優(yōu)于其他方法。同時(shí),本文采用純卷積結(jié)構(gòu),與ViT 以及TransPath 相比具備訓(xùn)練簡(jiǎn)單和收斂速度快的優(yōu)點(diǎn)(Liu等,2022)。

表5 對(duì)比實(shí)驗(yàn)結(jié)果Table 5 Results of comparative experimets

2.4.3 消融實(shí)驗(yàn)

為了驗(yàn)證本文提出的信息交互模塊和特征融合模塊的有效性,對(duì)各模塊進(jìn)行了消融實(shí)驗(yàn)。主要包含:1)一般多尺度模型,記做Basic_Multi,不包含信息交互模塊和特征融合模塊,并且采用全局平均池化的方式對(duì)卷積之后的特征圖進(jìn)行融合,這也是現(xiàn)有多尺度研究普遍采用的策略;2)在一般多尺度模型的基礎(chǔ)上,使用原始的7×7大小的卷積核組成網(wǎng)絡(luò)的Stem部分,記做Stem7;3)在Basic_Multi基礎(chǔ)上添加了信息交互模塊的多尺度模型,記做+Info;4)在Basic_Multi基礎(chǔ)上添加了特征融合模塊的多尺度模型,記做+Feature;5)在Basic_Multi 基礎(chǔ)上同時(shí)添加信息交互模塊和特征融合模塊,即完整的多尺度網(wǎng)絡(luò)模型,記做+Info_Feature。所有消融實(shí)驗(yàn)均在五折交叉驗(yàn)證實(shí)驗(yàn)下進(jìn)行,并對(duì)每個(gè)評(píng)價(jià)指標(biāo)取均值,并計(jì)算對(duì)應(yīng)的標(biāo)準(zhǔn)差。實(shí)驗(yàn)結(jié)果如表6 所示,從表中可以看出,使用3 個(gè)3×3 卷積核來替換7×7卷積核,在保證感受野相同的條件下,對(duì)模型的性能能夠起到較小幅度的提升,同時(shí)可以發(fā)現(xiàn)普通的多尺度網(wǎng)絡(luò)得到的準(zhǔn)確率等指標(biāo)接近上文對(duì)比實(shí)驗(yàn)中的TransPath 網(wǎng)絡(luò)。這表明在乳腺組織病理圖像分類問題中,通過模擬病理專家在多倍率下診斷的流程,可以提高網(wǎng)絡(luò)性能。通過在一般多尺度網(wǎng)絡(luò)中加入信息交互模塊(+Info),利用空間注意力機(jī)制從256 尺度和768 尺度中捕獲與512 尺度關(guān)聯(lián)密切的區(qū)域,使得網(wǎng)絡(luò)模型的各項(xiàng)評(píng)價(jià)指標(biāo)有較大提升,準(zhǔn)確率達(dá)到97.622%,并且在五折交叉驗(yàn)證實(shí)驗(yàn)中,各項(xiàng)結(jié)果的標(biāo)準(zhǔn)差小于一般多尺度網(wǎng)絡(luò),表明其具有較好的穩(wěn)定性。本文提出的基于分組空間注意力的融合策略(+Feature)可以減少一般空間注意力的特征激活不充分問題,特征金字塔結(jié)構(gòu)能夠緩解不同尺度圖像之間的感受野差距問題,網(wǎng)絡(luò)性能比一般多尺度網(wǎng)絡(luò)有一定的提升。值得注意的是,從+Info和+Feature 兩組實(shí)驗(yàn)對(duì)比結(jié)果可以得出,信息交互模塊對(duì)于多尺度的性能影響比特征融合模塊大,進(jìn)一步驗(yàn)證了本文的思想:多尺度網(wǎng)絡(luò)需要在特征融合前進(jìn)行不同分支的特征流通與引導(dǎo)。本文將兩個(gè)模塊結(jié)合得到的網(wǎng)絡(luò)在多項(xiàng)指標(biāo)上都優(yōu)于一般多尺度網(wǎng)絡(luò),并且也高于添加單一模塊的性能,其精確率和召回率之間具有更好的平衡性,F(xiàn)1-score 達(dá)到97.762%。

表6 消融實(shí)驗(yàn)結(jié)果Table 6 Results of ablation experiments

3 討論

通過在卷積神經(jīng)網(wǎng)絡(luò),如ResNet、SEResNet 和DenseNet中加入本文提出的多尺度策略能有效提升模型的性能,相對(duì)于一般多尺度模型也有一定的提升。

目前大部分的乳腺癌病理圖像分類研究采用的是單尺度網(wǎng)絡(luò),其中Wang 等人(2021)提出的Trans-Path 模型將卷積神經(jīng)網(wǎng)絡(luò)與ViT 進(jìn)行結(jié)合,取得了97.168%的分類準(zhǔn)確率,在單尺度網(wǎng)絡(luò)模型中取得了SOTA(state-of-the-art)表現(xiàn),而本文采用一般多尺度改進(jìn)策略(Tong 等,2019;Xie 等,2021),將單尺度DenseNet201 轉(zhuǎn)換成多尺度DenseNet 后,取得了97.102%的準(zhǔn)確率,在其余各項(xiàng)指標(biāo)上也與Trans-Path相接近。這表明通過多尺度網(wǎng)絡(luò)來模擬病理專家在不同倍率下觀察及診斷切片是可行的,具備良好的解釋性和應(yīng)用前景。一般多尺度策略中存在諸多問題,比如:1)特征融合方式較為簡(jiǎn)單;2)忽略了不同尺度的圖像之間的相關(guān)性;3)在網(wǎng)絡(luò)模型淺層部分提取圖像的紋理特征時(shí),沒有考慮不同尺度圖像之間的數(shù)據(jù)流通。為此,本文提出兩個(gè)通用模塊:信息交互模塊以及特征融合模塊。前者用于加強(qiáng)不同尺度的圖像之間的特征流通和相關(guān)性,后者則用于提升不同尺度的圖像特征利用率。將上述策略融合到DenseNet 網(wǎng)絡(luò)后,在5 折交叉驗(yàn)證實(shí)驗(yàn)中取得了97.785%的分類準(zhǔn)確率和0.977 62的F1分?jǐn)?shù),同時(shí)在其他各項(xiàng)評(píng)價(jià)指標(biāo)上相較于一般多尺度網(wǎng)絡(luò)和TransPath 網(wǎng)絡(luò)也有一定提升。其中,加入信息交互模塊以后,網(wǎng)絡(luò)模型在各項(xiàng)指標(biāo)上的提升較大。這可能是因?yàn)樵诰W(wǎng)絡(luò)淺層提取的是形態(tài)紋理和顏色等特征,信息交互模塊可讓多個(gè)尺度的特征信息相互流通,使得網(wǎng)絡(luò)模型捕獲到與預(yù)測(cè)目標(biāo)更相關(guān)的特征,從而提升了模型的性能。

本文所提出的兩個(gè)模塊具有良好的通用性,將兩個(gè)模塊應(yīng)用到不同的網(wǎng)絡(luò)結(jié)構(gòu)中并進(jìn)行實(shí)驗(yàn),結(jié)果表明加入模塊后的網(wǎng)絡(luò)取得了較好的性能提升,超過一般多尺度網(wǎng)絡(luò)和單尺度網(wǎng)絡(luò)中表現(xiàn)良好的TransPath。本文在驗(yàn)證所提出模塊的通用性時(shí),采用的是使用較為廣泛的卷積網(wǎng)絡(luò)結(jié)構(gòu),并未對(duì)Transformer網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)和實(shí)驗(yàn)。計(jì)劃在未來拓展該模塊的有效性,并將改進(jìn)后的多尺度網(wǎng)絡(luò)應(yīng)用于乳腺癌病理圖像處理的下游任務(wù),比如:用于多示例學(xué)習(xí)或自監(jiān)督學(xué)習(xí)的主干網(wǎng)絡(luò),提取更豐富的patch 特征;基于patch 進(jìn)行的乳腺癌組織病理圖像分割等。

4 結(jié)論

本文提出了一種新的卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)策略,能夠適應(yīng)不同的網(wǎng)絡(luò)結(jié)構(gòu),包括信息交互模塊和特征融合模塊,其中前者是為了加強(qiáng)不同尺度的分支之間的特征結(jié)合并且形成反饋;而后者能夠較好地區(qū)分重要特征并減少不同尺度圖像的感受野差異影響。本文在一些主流的網(wǎng)絡(luò)架構(gòu)上,比如ResNet、SEResNet 和DenseNet 上添加所提出的模塊,然后在Camelyon16 公開數(shù)據(jù)集上進(jìn)行五折交叉實(shí)驗(yàn),結(jié)果表明本文方法在各項(xiàng)評(píng)價(jià)指標(biāo)上都優(yōu)于單尺度網(wǎng)絡(luò)和一般多尺度網(wǎng)絡(luò),表現(xiàn)出較好的穩(wěn)定性。此外,本文提出的多尺度網(wǎng)絡(luò)模型可以很好地應(yīng)用于乳腺組織病理圖像的下游任務(wù),比如:基于patch 進(jìn)行的乳腺癌組織病理圖像分割、基于patch提取特征進(jìn)行乳腺癌大圖判別。同時(shí)本文提出的多尺度網(wǎng)絡(luò)也可以作為多示例學(xué)習(xí)或自監(jiān)督學(xué)習(xí)的主干網(wǎng)絡(luò),提取更豐富的patch特征。

未來可以將本文提出的模塊應(yīng)用于其他網(wǎng)絡(luò)中,驗(yàn)證其通用性。同時(shí),可以改進(jìn)信息交互模塊的反饋策略,讓不同尺度的特征分階段交互并反饋。本文對(duì)圖像增強(qiáng)方法并未做過多的選擇和處理,之后可以使用其他的方法進(jìn)一步提升模型性能。

猜你喜歡
尺度像素卷積
趙運(yùn)哲作品
藝術(shù)家(2023年8期)2023-11-02 02:05:28
像素前線之“幻影”2000
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
“像素”仙人掌
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
高像素不是全部
CHIP新電腦(2016年3期)2016-03-10 14:22:03
9
科技| 上林县| 个旧市| 噶尔县| 邵东县| 诏安县| 囊谦县| 老河口市| 河曲县| 鹤峰县| 高雄县| 正阳县| 谢通门县| 嘉祥县| 垫江县| 渭源县| 安图县| 岳阳县| 鹿邑县| 唐河县| 民权县| 永修县| 盱眙县| 正蓝旗| 香格里拉县| 中卫市| 郴州市| 吉林省| 辉南县| 吴忠市| 紫金县| 枣强县| 台江县| 朝阳县| 衡阳市| 抚顺县| 西华县| 金川县| 德阳市| 渭南市| 勐海县|