改進(jìn)全局上下文注意力新冠肺炎X光診斷方法

2023-11-20 11:00:48吉旭瑞

計算機(jī)工程與應(yīng)用 2023年21期

吉旭瑞，劉靜，吉輝，張帥，曹慧

1.山東中醫(yī)藥大學(xué) 智能與信息工程學(xué)院，濟(jì)南 250355

2.陜西學(xué)前師范學(xué)院歷史與文化旅游學(xué)院，西安 710100

2019年底，新型冠狀病毒肺炎（corona virus disease 2019，COVID-19）暴發(fā)，并很快席卷了全球多數(shù)國家，嚴(yán)重威脅了人類的生命安全。新型冠狀病毒具有較強(qiáng)的傳染性[1]，且大量無癥狀感染者的出現(xiàn)給疫情防控工作帶來了更大的壓力，因此加強(qiáng)新型冠狀病毒的診斷以避免其進(jìn)一步傳播至關(guān)重要。

檢測COVID-19 的方法包括逆轉(zhuǎn)錄聚合酶鏈反應(yīng)（reverse transcription-polymerase chain reaction，RT-PCR）檢測、計算機(jī)斷層掃描（computed tomography，CT）、胸部X 射線（chest X-ray，CXR）。RT-PCR 檢測是被廣泛采用的診斷方法，但RT-PCR 檢測有時會出現(xiàn)假陰性的情況，不利于防止病毒的傳播[2]。與CT圖像相比，CXR成像更具有時效性、且成本較低，對人體的傷害也更小，此外，在一些醫(yī)療不發(fā)達(dá)的地方，CXR 成像要比CT 更容易使用。因此，這使得CXR 圖像成為抗擊疫情的有效成像工具。

近年來，深度學(xué)習(xí)在醫(yī)學(xué)方面的應(yīng)用越來越廣泛[3-5]，機(jī)器取代人力來識別醫(yī)學(xué)圖像，可大大增加醫(yī)學(xué)診斷的效率，并且許多研究人員在保證效率的基礎(chǔ)上也能保證診斷的精度。越來越多的研究人員利用深度學(xué)習(xí)技術(shù)基于CXR 圖像對COVID-19 進(jìn)行檢測[6]。Sousa等[7]提出CNN-COVID 模型用于對COVID-19 患者分類，并分別對兩個不同的COVID-19數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)。Loey 等[8]使用條件生成對抗網(wǎng)絡(luò)（conditional generative adversarial nets，CGAN）來進(jìn)行數(shù)據(jù)增強(qiáng)，提高了經(jīng)典分類模型在COVID-19 中的分類性能。Rajpal等[9]提出了COV-ELM 的三階段模型，創(chuàng)新性地引入極限學(xué)習(xí)機(jī)（extreme learning machine，ELM），加快了模型的收斂速度，在COVID-19的CXR圖像三分類問題中展現(xiàn)了良好的效果。Wang 等[10]針對COVID-19 的CXR圖像分類問題，設(shè)計了COVID-Net模型，嵌入大量輕量級殘差投影-擴(kuò)展的PEPX模塊，在保證模型性能的基礎(chǔ)上又降低了計算的復(fù)雜性，分類效果優(yōu)于ResNet50 和VGG19。Maity 等[11]受UNet++啟發(fā)提出了一種DCNN模型，使用EfficientNetB4作為編碼器，殘差塊作為解碼器對CXR 圖像分割，正確區(qū)分肺實質(zhì)區(qū)域和無實質(zhì)區(qū)域，提取出肺部區(qū)域用于醫(yī)學(xué)疾病診斷。Xu 等[12]提出了一種兩階段新冠肺炎分類方法MANet，使用帶有ResNet 主干的UNet 模型作為分割網(wǎng)絡(luò)，引入新的空間注意力模塊MA到分類網(wǎng)絡(luò)中，顯著提高了原始模型的分類性能和訓(xùn)練穩(wěn)定性。Kalaivani 等[13]提出了一種三階段集成增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)來對COVID-19分類，首先使用ResUNet 網(wǎng)絡(luò)對CXR 圖像進(jìn)行分割提取，再將其輸入到卷積神經(jīng)網(wǎng)絡(luò)中提取特征，最后利用機(jī)器學(xué)習(xí)技術(shù)和投票機(jī)制對檢索到的特征集成訓(xùn)練，其分類結(jié)果優(yōu)于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)以及機(jī)器學(xué)習(xí)算法。

盡管深度學(xué)習(xí)在COVID-19 檢測中取得了很大的成功，但是在實際應(yīng)用中仍面臨著一些挑戰(zhàn)。例如，診斷模型缺乏可解釋性和泛化性[14]。此外，訓(xùn)練模型作出決策的區(qū)域不在病理區(qū)域甚至不在肺實質(zhì)且模型沒有抑制特征圖的冗余信息，這使得這類診斷模型不易被推廣到新的樣本中，大大減少了模型開發(fā)的意義。針對這些問題，本文使用基于分割的方法來提取肺實質(zhì)再進(jìn)行COVID-19分類，以降低CXR圖像內(nèi)無關(guān)信息對分類結(jié)果的影響。由于提出的分類模型能集中在肺實質(zhì)，且這些區(qū)域中與疾病無關(guān)的信息較少，因此提高了模型的泛化能力。本文提出了一種兩階段基于CXR圖像分割的COVID-19 分類模型Res-IgSa，其中包含改進(jìn)的全局上下文模塊（WGC）以及空間注意力模塊（CSA），主要貢獻(xiàn)如下：

（1）使用ResUNet[15]網(wǎng)絡(luò)先對CXR 圖像進(jìn)行分割，防止CXR圖像中其他無關(guān)因素干擾分類結(jié)果。網(wǎng)絡(luò)中殘差單元的引入能夠有效地識別肺部掩膜，從而準(zhǔn)確地分割出肺實質(zhì)，分割出的肺實質(zhì)會作為分類網(wǎng)絡(luò)的輸入。

（2）提出一種基于全局上下文注意力機(jī)制的雙分支模塊應(yīng)用于分類部分的網(wǎng)絡(luò)，其中通道注意力和空間注意力的并行結(jié)合使得兩者實現(xiàn)了最好的分類效果。

（3）在分割后的數(shù)據(jù)集上進(jìn)行分類實驗，最終能得到94.154%的準(zhǔn)確率以及94.139%的F1 值，具有較強(qiáng)的穩(wěn)定性。并與原論文Rahman 等在分割后分類的結(jié)果進(jìn)行比較，實驗表明本文的模型進(jìn)一步提高了分類的準(zhǔn)確率，證明了分割以及Res-IgSa模型在此任務(wù)中的有效性。

1 方法

Res-IgSa 總體模型結(jié)構(gòu)圖如圖1 所示，其包含兩部分，其中分類部分是在分割的基礎(chǔ)上進(jìn)行的。分割模型是在CXR圖像以及相應(yīng)的掩膜上訓(xùn)練的[16]，分割得到的肺實質(zhì)作為分類模型的輸入。分類模型引入改進(jìn)的全局上下文模塊（WGC）以及空間注意力模塊（CSA），接下來將詳細(xì)介紹所采用的方法。

圖1 Res-IgSa總體模型結(jié)構(gòu)圖Fig.1 Overall model structure diagram of Res-IgSa

1.1 ResUNet

第一部分，本文先對原數(shù)據(jù)集進(jìn)行分割。在醫(yī)學(xué)圖像分割任務(wù)中，針對醫(yī)學(xué)圖像特點，Ronneberger等設(shè)計了U 型結(jié)構(gòu)以及skip-connection，提出UNet[17]用于醫(yī)學(xué)圖像分割。ResUNet 是U-Net 模型與殘差單元的結(jié)合，保留了UNet的U型結(jié)構(gòu)，舍棄了U-Net模型中的裁剪操作。在語義分割任務(wù)中，保留高層的語義信息至關(guān)重要，引入殘差單元，能夠簡化網(wǎng)絡(luò)的訓(xùn)練，跳連操作促進(jìn)了信息的傳播，從而能夠準(zhǔn)確地預(yù)測肺部掩膜。因此本文使用了ResUNet 作為分割的網(wǎng)絡(luò)模型，ResUNet 模型結(jié)構(gòu)圖如圖2 所示。ResUNet 具有7 層架構(gòu)，其中編碼器、橋梁和解碼器是三個主要組成部分，編碼器和解碼器通過橋梁部分相連。殘差單元分布于這三部分中，包括批歸一化（batch normalization，BN）、ReLU 激活函數(shù)、兩個3×3 卷積以及跳連操作，殘差單元可表示為如下公式：

圖2 ResUNet模型結(jié)構(gòu)圖Fig.2 Structure diagram of ResUNet

其中，z表示殘差單元的輸出，xl表示殘差單元的輸入，?表示激活函數(shù)，g(xl)以及F(xl)分別表示恒等映射和殘差函數(shù)。ResUNet編碼器與解碼器結(jié)構(gòu)表如表1和表2所示。CXR圖像的輸入尺寸為224×224×3，編碼器中包含三個殘差單元，使用步長為2的卷積核對特征圖大小減半。Unit4為編碼器與解碼器間的橋梁。與編碼器相同，解碼器也包含三個殘差單元，編碼器中的殘差塊減少了特征圖的大小，解碼器中的殘差塊能將特征圖恢復(fù)到原來的大小。來自相同編碼路徑的特征映射會與解碼器的相應(yīng)位置進(jìn)行相連。在最后一層解碼中，使用一個1×1 卷積以及Sigmoid 激活函數(shù)得到最終的輸出。

表1 ResUNet編碼器結(jié)構(gòu)表Table 1 Structure of ResUNet encoder

表2 ResUNet解碼器結(jié)構(gòu)表Table 2 Structure of ResUNet decoder

1.2 基于全局上下文注意力機(jī)制的雙分支模塊

1.2.1 改進(jìn)全局上下文模塊

在計算機(jī)視覺的各大任務(wù)中，捕捉長距離的依賴關(guān)系被證明是有很大益處的。在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中，要實現(xiàn)全局上下文的提取，就需要不斷地堆疊卷積層，但這樣會導(dǎo)致計算量的大幅增加且網(wǎng)絡(luò)難以優(yōu)化。針對這個問題，出現(xiàn)了non-local network，它引入自注意力機(jī)制，對遠(yuǎn)程依賴進(jìn)行建模[18]。盡管non-local network避免了卷積層的堆疊，但大量的矩陣操作使得計算量非常龐大。而全局上下文網(wǎng)絡(luò)（global context network，GCNet）[19]創(chuàng)新性地提出簡化版的non-local network 并將其與Squeeze-Excitation Block結(jié)合起來，在減少計算量的同時實現(xiàn)長距離依賴關(guān)系的有效捕捉，對全局上下文建模。但是，在Squeeze-Excitation Block 部分中，全連接層的設(shè)計導(dǎo)致了兩個顯著的問題。由于Squeeze-Excitation Block 是嵌入到CNN 的塊中，且為了減少計算成本需要降低全連接層的維度，這阻礙了SE 模塊的部署。其次，全連接層使得通道關(guān)系的學(xué)習(xí)完全不可見，導(dǎo)致輸出不可知。這些問題都制約著GCNet的性能。

受gated channel transformation（GCT）注意力機(jī)制[20]的啟發(fā)，本文引入通道規(guī)范化以及門控自適應(yīng)單元來對GCNet中的Squeeze-Excitation Block部分進(jìn)行改進(jìn)，同時保留GCNet中捕捉長距離依賴的特性。

通道規(guī)范化模塊使用一個簡單的l2規(guī)范化來對嵌入上下文信息的通道進(jìn)行建模，代替?zhèn)鹘y(tǒng)的全連接層。通過構(gòu)建規(guī)范化方法能夠清晰地學(xué)習(xí)到通道間的競爭關(guān)系。在進(jìn)行通道規(guī)范化時尺度因子C用來約束規(guī)范化的尺度以避免尺度過小，相較于Squeeze-Excitation Block中的FC部分，通道規(guī)范化模塊具有更小的計算復(fù)雜度。具體的通道規(guī)范化公式為：

在得到通道間的關(guān)系后，門控自適應(yīng)單元將對各個通道關(guān)系進(jìn)行分析，基于規(guī)范化輸出調(diào)整通道特征?？捎?xùn)練參數(shù)β=[β1,β2,…,βC] 和γ=[γ1,γ2,…,γC] 用于控制門控權(quán)值，使網(wǎng)絡(luò)能同時促進(jìn)通道競爭和協(xié)作關(guān)系。門控自適應(yīng)單元公式如下：

不同于Squeeze-Excitation Block，為防止梯度消失，選擇了tanh 作為這里的激活函數(shù)，舍棄了sigmoid。tanh 函數(shù)相較于sigmoid 函數(shù)是中心對稱的，收斂速度更快且不容易出現(xiàn)梯度消失現(xiàn)象。門控自適應(yīng)單元會判斷一個通道(γC)處于積極激活狀態(tài)還是消極激活狀態(tài)，從而處理通道之間的競爭或合作關(guān)系。改進(jìn)的全局上下文模塊可簡化為以下公式：

1.2.2 空間注意力模塊

空間注意力可以被視為一種自適應(yīng)空間區(qū)域的選擇機(jī)制[21]，通過壓縮通道數(shù)，構(gòu)建空間維度的信息，增強(qiáng)或抑制不同空間位置的特征，使得網(wǎng)絡(luò)能聚焦于感興趣的空間特征[22-23]。在本文中，為了減少信息的丟失讓模型能盡可能多地學(xué)習(xí)到全局維度交互特征。在設(shè)計空間注意力模塊時，本文使用兩個卷積層對空間信息進(jìn)行結(jié)合，但這樣可能會顯著增加模型的參數(shù)量，因此本文引入分組卷積以及衰減率r來控制模型的容量和其在計算方面的開銷。

分組卷積[24]是將輸入特征圖的通道數(shù)以及卷積核的個數(shù)分成g組，同時每組濾波器來處理相應(yīng)的輸入特征通道組，這樣能夠顯著降低計算成本以及模型大小，分組數(shù)g=2 的分組卷積如圖3 所示。圖中輸入特征圖大小為H×W×c1，經(jīng)過分組卷積通道數(shù)c1被分成了c1/g個，之后通過concat 操作得到最終通道數(shù)為c2的輸出。

圖3 分組數(shù)g=2的分組卷積示意圖Fig.3 Schematic diagram of group convolution with group number g=2

在實際設(shè)計空間注意力模塊中，受Global Attention Mechanism[25]啟發(fā)，引入分組卷積到兩個7×7卷積中，并使用衰減率r來控制卷積尺寸的大小，有效地控制模型的容量，讓卷積層能夠有效地利用上下文信息。其空間注意力機(jī)制可被簡化為以下公式：

其中，xr表示輸入，f表示卷積操作，f7×7g表示7×7分組卷積，σ表示使用sigmoid激活函數(shù)。

1.2.3 改進(jìn)全局上下文與空間注意力模塊的結(jié)合

在這一部分對改進(jìn)全局上下文模塊WGC(xj)和空間注意力模塊CSA(xj)進(jìn)行了闡述。常用模塊間的結(jié)合方法包括CBAM 中采用的串聯(lián)方式[26]、BAM 中采用的并行結(jié)構(gòu)逐元素相加、并行結(jié)構(gòu)逐元素相乘等[27]，采用并行結(jié)構(gòu)兩分支逐元素相加這一結(jié)合方式能夠得到最優(yōu)的分類效果。在模型結(jié)合后的信息流動時，逐元素相加能夠有效地聚合來自兩分支的輸出，并且在網(wǎng)絡(luò)訓(xùn)練的前傳階段兩分支的信息又能給網(wǎng)絡(luò)提供良好的互補(bǔ)，減少了信息的丟失。在反向傳播時也能均勻地為所有輸入分配相應(yīng)的梯度，降低訓(xùn)練損失。相比較之下并行結(jié)構(gòu)逐元素相乘會給輸入分配較大的梯度，使得模型較難訓(xùn)練，不易得到較好的分類效果，從本文的實驗結(jié)果中也證明了這一點。最終消融實驗證明并行結(jié)構(gòu)逐元素相加能夠達(dá)到更好的分類效果，因此最終選擇并行結(jié)構(gòu)逐元素相乘這一模塊間的結(jié)合方法。本文改進(jìn)的注意力模塊的總體結(jié)構(gòu)如圖4所示。

圖4 改進(jìn)的注意力模塊總體結(jié)構(gòu)圖Fig.4 Overall structure of improved attention module

2 實驗結(jié)果與分析

本文在操作系統(tǒng)Ubuntu 18.04，GPU型號為NVIDIA GTX 2080Ti的服務(wù)器端訓(xùn)練模型。使用深度學(xué)習(xí)框架Pytorch 1.8.0來構(gòu)建整體網(wǎng)絡(luò)模型，并使用Python作為開發(fā)語言。

2.1 實驗數(shù)據(jù)集

本文使用的數(shù)據(jù)集是由卡塔爾大學(xué)和達(dá)卡大學(xué)的研究人員聯(lián)合創(chuàng)建的COVID-19 Radiography DatabaseV5[28-29]。該數(shù)據(jù)集是當(dāng)前最大的COVID-19 公開胸部X光圖像數(shù)據(jù)集之一，包含3 616張COVID-19陽性、6 012 張肺渾濁和10 192 張正常的CXR 圖像。為保證比較的公平性，本文選取了其中3 616 張COVID-19 陽性、6 012 張肺渾濁和8 851 張正常的CXR 圖像作為實驗數(shù)據(jù)集。在分割部分，將18 479 張CXR 圖像的80%作為訓(xùn)練集，20%作為測試集。在分割后的分類部分，使用80%的CXR 圖像作為訓(xùn)練集，剩余20%作為測試集，并將訓(xùn)練集中20%的圖像作為驗證集在訓(xùn)練過程中進(jìn)行驗證。為了保證數(shù)據(jù)的平衡性，本文發(fā)現(xiàn)訓(xùn)練集中COVID-19 的圖像數(shù)量少于訓(xùn)練集中Normal 圖像的一半，為了保持?jǐn)?shù)據(jù)的平衡性，本文對訓(xùn)練集中的COVID-19類利用圖像翻轉(zhuǎn)技術(shù)進(jìn)行數(shù)據(jù)擴(kuò)充，表3展示了分類部分?jǐn)?shù)據(jù)集劃分的詳細(xì)情況。

表3 分類部分訓(xùn)練、驗證、測試數(shù)據(jù)集的詳細(xì)信息Table 3 Details of training，verification and test dataset in classification section

2.2 分割部分

在第一階段，本文先在按訓(xùn)練集和測試集8∶2劃分的整個數(shù)據(jù)集（8 851張正常類、6 012張肺渾濁類、3 616張新冠肺炎類）訓(xùn)練ResUNet 模型，優(yōu)化器使用Adam，epoch 設(shè)置為30。初始學(xué)習(xí)率為0.001，每10 輪做一次學(xué)習(xí)率衰減，權(quán)重衰減為0.000 01。在進(jìn)入分類階段之前，本文使用保存的模型權(quán)重來對原數(shù)據(jù)集的所有CXR圖像進(jìn)行掩膜預(yù)測，圖5展示了原CXR圖像、預(yù)測得到的掩膜、GroundTruth 和分割出的肺實質(zhì)。每一行分別對應(yīng)COVID-19、肺渾濁、正常類的圖片，也能證明經(jīng)過訓(xùn)練后的ResUNet網(wǎng)絡(luò)能夠正確地分割出肺實質(zhì)，這也能為之后的分類階段做好鋪墊。

圖5 三類CXR圖像各階段對比圖Fig.5 Comparison diagram of three types of CXR images at each stage

2.3 分類部分

本節(jié)將上一階段分割好的肺實質(zhì)按原有標(biāo)簽進(jìn)行分類。在這一階段，本文對于數(shù)據(jù)集的劃分以及處理情況如第二節(jié)數(shù)據(jù)集部分所述。本文使用ResNet50[30]作為分類的基礎(chǔ)網(wǎng)絡(luò)模型，并將所改進(jìn)的注意力模塊加入到基礎(chǔ)網(wǎng)絡(luò)中組成新的分類網(wǎng)絡(luò)模型Res-IgSa。在訓(xùn)練的開始，本文加載ResNet50 在ImageNet 上的預(yù)訓(xùn)練權(quán)重，使用SGD 優(yōu)化器訓(xùn)練60 輪，初始學(xué)習(xí)率設(shè)為0.001，在前10 輪進(jìn)行warmup 后每20 輪進(jìn)行一次學(xué)習(xí)率衰減。模型的輸入為224×224。

由于不同類別的圖像數(shù)量存在差異以及保證比較的公平性，因此本文使用加權(quán)性能指標(biāo)和總體準(zhǔn)確率來比較模型。使用準(zhǔn)確率（Accuracy）、精度（Precision）、召回率（Recall）、F1值（F1）來對模型進(jìn)行評估。各指標(biāo)的定義式為式（6）～（9）：

其中，TP代表真陽性，TN代表真陰性，F(xiàn)P為假陽性，F(xiàn)N為假陰性。

2.3.1 消融實驗

（1）模塊消融實驗結(jié)果

為了驗證本文所改進(jìn)注意力模塊的有效性，表4顯示了在分割后的數(shù)據(jù)集上進(jìn)行分類的消融實驗結(jié)果。

表4 各模塊在ResNet50上的消融實驗Table 4 Ablation experiments of each module on ResNet50單位：%

在表4中，ResNet50為本文實驗的基礎(chǔ)模型，模型2和模型4 分別在此模型的基礎(chǔ)上加入經(jīng)典的SE 注意力[31]和本文改進(jìn)的全局上下文模塊（WGC）。與基礎(chǔ)模型相比，所改進(jìn)的全局上下文模塊能將準(zhǔn)確率提高0.649 個百分點，精度提高0.823 個百分點，召回率提高0.469個百分點，F(xiàn)1值提高0.622個百分點。與模型3相比，WGC 引入通道規(guī)范化模塊以及門控自適應(yīng)單元后提高了分類準(zhǔn)確率，在此任務(wù)中WGC 對模型的適配性更強(qiáng)。

模型5 為在基礎(chǔ)模型上加入本文引入的空間注意力模塊（CSA），模型6 在基礎(chǔ)模型上加入CBAM 注意力[26]。模塊7為本文提出的新的分類網(wǎng)絡(luò)模型Res-IgSa，它將本文提出的WGC 以及CSA 進(jìn)行結(jié)合，引入到ResNet50的兩個階段之間。最終結(jié)果表明，Res-IgSa在實驗中的分類效果要優(yōu)于CBAM、SE 以及單獨在基礎(chǔ)模型中加入WGC 或CSA，最終實現(xiàn)了94.154%的準(zhǔn)確率，94.157%的精度，94.154%的召回率以及94.139%的F1 值。Res-IgSa 和其他網(wǎng)絡(luò)的混淆矩陣分別如圖6 所示。從混淆矩陣中本文可以看出，Res-IgSa能夠在三類上都具有較高的準(zhǔn)確率。

圖6 Res-IgSa和其他網(wǎng)絡(luò)分類混淆矩陣Fig.6 Res-IgSa and other network classification confusion matrix

（2）分組數(shù)g以及衰減率r的選擇

在表5 和表6，本文展示了選擇CSA 部分分組數(shù)g以及衰減率r這兩個主要參數(shù)的實驗結(jié)果。分組數(shù)g控制著空間注意力中分組卷積的個數(shù)，盡管分組數(shù)越大會讓模型的計算開銷以及容量降低，但帶來的信息丟失也是其存在的問題。表5展示了分別選取分組數(shù)g=1、2、4時模型的分類結(jié)果。本文能清楚地看到當(dāng)g=4 時產(chǎn)生了最高的準(zhǔn)確率，而標(biāo)準(zhǔn)卷積(g=1)的分類效果較差，可以證明分組卷積在空間注意力模塊中起到了較大的作用。衰減率r與輸入通道的數(shù)目直接相關(guān)，它也能控制本文模型的容量以及計算量。在表6，本文比較了r=2、4、8 三種不同衰減率的分類結(jié)果，最終發(fā)現(xiàn)r=4獲得了最高的分類準(zhǔn)確率，使得模型具有較好的分類性能。盡管當(dāng)r=8 時模型的參數(shù)量最少，但準(zhǔn)確率偏低。基于表5 和表6 的實驗結(jié)果，在本文選取分組卷積數(shù)g=4 以及衰減率r=4 進(jìn)行分類實驗。

表5 分組數(shù)g選擇實驗Table 5 Group number g selection experiment

表6 衰減率r選擇實驗Table 6 Reduction ratio r selection experiment

（3）WGC與CSA結(jié)合方式的選擇。

本文也比較了三種不同的方式去進(jìn)行WGC與CSA的結(jié)合：串行結(jié)構(gòu)、并行結(jié)構(gòu)之兩分支逐元素相乘、并行結(jié)構(gòu)之兩分支逐元素相加。表7 展示了三種不同結(jié)合方式的分類結(jié)果，對于串行結(jié)構(gòu)，實驗結(jié)果顯示其分類效果與并行結(jié)構(gòu)兩分支逐元素相加較為接近，最終本文也是選擇了分類效果更好的并行結(jié)構(gòu)兩分支逐元素相加去結(jié)合WGC與CSA。

表7 兩分支結(jié)合方式選擇實驗Table 7 Selection experiment of two branch fusion mode

2.3.2 不同模型性能比較

在這一節(jié)中，本文比較了兩階段模型Res-IgSa 在COVID-19 Radiography DatabaseV5 數(shù)據(jù)集上分割之前以及分割之后的分類效果。與原論文進(jìn)行比較，證明分割以及Res-IgSa在分類任務(wù)中的有效性。

Rahman 等[29]首先使用修改后的U-Net 分割肺實質(zhì)后進(jìn)行COVID-19 分類。本文未使用其他的數(shù)據(jù)增強(qiáng)方法，在表8，本文將Res-IgSa 與Rahman 等在分割后的分類結(jié)果進(jìn)行了比較。為了證明分割的有效性，本文以ResNet50預(yù)訓(xùn)練模型為標(biāo)準(zhǔn)，將Rahman等使用ResNet50預(yù)訓(xùn)練模型在其分割后的數(shù)據(jù)集分類的結(jié)果與本文分割后使用同樣的模型分類進(jìn)行比較，如表8 前兩行所示，結(jié)果證明ResNet50 模型在本文分割后的數(shù)據(jù)集分類將準(zhǔn)確率、精度、召回率、F1 值分別提高了0.616、0.62、0.616、0.602 個百分點。表8 還顯示了Res-IgSa 在準(zhǔn)確率、精度、召回率、F1 值方面表現(xiàn)最好，從實驗結(jié)果可以看出Res-IgSa 在分割后進(jìn)行分類的有效性，在COVID-19圖像識別方面取得了顯著的性能。

表8 各模型性能比較Table 8 Performance comparison of various models單位：%

2.3.3 可視化分析

為了進(jìn)一步證明本文提出方法的有效性，本文使用梯度加權(quán)類激活圖（gradient-weightedclass activation mapping，Grad-CAM）[32]可視化了相關(guān)模型的輸出，可視化結(jié)果如圖7 所示。圖中第一行是原始圖像分割后的肺實質(zhì)圖像，從左到右的三張為COVID-19 圖像，第四張為肺渾濁圖像，第五張為正常類圖像。第二行和第三行分別為ResNet50 以及CBAM-ResNet50 的可視化結(jié)果。Res-IgSa的可視化結(jié)果顯示在第四行，比ResNet50以及CBAM-ResNet50 更能關(guān)注它們所忽略的細(xì)節(jié)，表明Res-IgSa可以有效地識別肺部的病變區(qū)域，提高分類的準(zhǔn)確率。

圖7 三種模型在分割后分類的可視化結(jié)果Fig.7 Visual results of classification of three models after segmentation

3 結(jié)論

本文提出了一種兩階段基于分割的COVID-19 分類網(wǎng)絡(luò)Res-IgSa，它包含了分割和分類兩個階段。第一階段為ResUNet 分割并預(yù)測掩膜，從而提取出肺實質(zhì)；第二階段為分類階段，使用上一階段處理好的肺實質(zhì)按原標(biāo)簽組成新的數(shù)據(jù)集進(jìn)行COVID-19分類，在這一階段本文引入了兩種注意力模塊：WGC 和CSA 并加入到ResNet50中構(gòu)成本文的分類網(wǎng)絡(luò)。WGC模塊保留了全局上下文部分，并引入通道規(guī)范化代替?zhèn)鹘y(tǒng)的全連接層以及門控自適應(yīng)單元來調(diào)整通道特征，加強(qiáng)通道間的相互關(guān)系。CSA 在兩個7×7 卷積的基礎(chǔ)上加入分組卷積以及衰減率來控制模型的容量，本文也對分組卷積數(shù)以及衰減率的選取進(jìn)行了實驗，最終也得出了兩者最優(yōu)的組合。本文的消融實驗也證明了WGC 和CSA 具有很好的互補(bǔ)能力，兩者結(jié)合后的分類效果也要優(yōu)于經(jīng)典的注意力模型CBAM 以及SE，在分割后的基礎(chǔ)上進(jìn)一步提高了分類的準(zhǔn)確率。本文還使用了Grad-CAM 算法將模型的輸出可視化，從圖中可以看出各個模型的決策都是在肺實質(zhì)做出的，分割肺實質(zhì)能夠輔助網(wǎng)絡(luò)模型做出正確的決策，也重申了從CXR 圖像中準(zhǔn)確分割肺實質(zhì)的重要性。如何進(jìn)一步提高分割以及分割后分類的準(zhǔn)確率將會是接下來研究的重點。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡