国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

遷移學(xué)習(xí)應(yīng)用于新型冠狀病毒肺炎診斷綜述

2023-03-10 00:10孟偉袁藝琳
計(jì)算機(jī)與生活 2023年3期
關(guān)鍵詞:胸部準(zhǔn)確率分類

孟偉,袁藝琳

1.北京林業(yè)大學(xué) 信息學(xué)院,北京100083

2.國家林業(yè)草原林業(yè)智能信息處理工程技術(shù)研究中心,北京100083

自2019 年底起,由嚴(yán)重急性呼吸綜合癥冠狀病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)引起的新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)持續(xù)爆發(fā),并迅速傳播至全球,疫情的發(fā)展引起了世界的關(guān)注[1]。新冠肺炎的臨床初步表現(xiàn)為乏力、咳嗽和發(fā)熱,與普通感冒特征相似。除此之外,更有患者沒有任何癥狀,屬于無癥狀患者,加大了診斷的難度[2-3]。目前主流的檢測方法大多基于實(shí)時(shí)熒光定量PCR(real-time quantitative polymerase chain reaction,RT-PCR),但是該方法存在一些缺點(diǎn)。例如,從采集到檢測出結(jié)果耗時(shí)較長,與新冠狀肺炎病毒傳播的速度相比,這是一個(gè)相對較長的過程。除了檢測的效率低下以外,核酸檢測還存在陽性率較低的問題,由于其嚴(yán)重依賴樣本采集,存在的問題包括數(shù)量和位置不足(鼻腔、喉嚨或痰液)[4-5],檢出率僅有30%~50%[6]。因此,快速且準(zhǔn)確地檢測出感染者是一項(xiàng)非常困難的任務(wù)。

研究表明,新冠肺炎早期影像表現(xiàn)為多灶性小斑片狀陰影和間質(zhì)性肺異常[7-8],進(jìn)展期病變范圍和數(shù)量均會(huì)增加,可能會(huì)發(fā)展為多發(fā)性毛玻璃渾濁(ground glass opacity,GGO)[9-11],在重癥病例中,可能發(fā)生雙肺彌漫性實(shí)變,很少出現(xiàn)胸腔積液。鑒于X 射線圖像和CT(computed tomography)掃描圖像的影像特點(diǎn),這兩種方法已用于檢測COVID-19[12-13]。因此,除了核酸檢測以外,還可以由放射科醫(yī)生觀察患者的X 射線圖像和CT 掃描圖像進(jìn)行診斷。然而,這些影片的診斷需要具備專業(yè)知識的放射科醫(yī)生,工作量十分巨大。為了緩解人工檢測新冠肺炎病毒的低效性,研究人員在不斷探索新的方法。近年來,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)輔助診斷領(lǐng)域受到了廣泛應(yīng)用[14],Bar等[15]將深度學(xué)習(xí)應(yīng)用于胸部病理檢測,在心肌肥厚的診斷中實(shí)現(xiàn)了87%的準(zhǔn)確率。Wu等[16]提出了一種基于對比增強(qiáng)超聲成像的肝病分類診斷系統(tǒng),采用深度學(xué)習(xí)方法對良性和惡性肝臟局灶病變進(jìn)行分類,該方法在準(zhǔn)確率、召回率和特異性指標(biāo)上明顯高于其他方法。Burlina等[17]采用了深度卷積神經(jīng)網(wǎng)絡(luò)對不同的肌炎進(jìn)行分類,探究了3 種不同的分類方式,實(shí)驗(yàn)結(jié)果表明,使用深度學(xué)習(xí)方法對炎癥性肌肉疾病進(jìn)行自動(dòng)分類更加有效。Shin等[18]評估了5 種主流的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型在兩種不同的計(jì)算機(jī)輔助診斷應(yīng)用上的性能:胸腹淋巴結(jié)檢測和間質(zhì)性肺疾病分類,為該疾病提供了一種完全自動(dòng)化的診斷方法。Sirinukunwattana等[19]提出了一種空間約束卷積神經(jīng)網(wǎng)絡(luò),對癌組織的組織病理學(xué)圖像進(jìn)行檢測以及對細(xì)胞核進(jìn)行分類。相比其他方法,所提出的網(wǎng)絡(luò)在檢測和分類上都取得了更高的F1-score。

然而深度學(xué)習(xí)方法具有兩方面的局限性:一方面,深度學(xué)習(xí)模型的訓(xùn)練過程依賴于大量數(shù)據(jù),具有數(shù)據(jù)饑餓型的特點(diǎn);另一方面,模型的訓(xùn)練過程耗時(shí)長,由于需要解決的問題變得不斷復(fù)雜,模型所需要的參數(shù)數(shù)量也在不斷增加,這將導(dǎo)致模型參數(shù)過多且不容易優(yōu)化。

和其他成像領(lǐng)域相比,帶標(biāo)簽的醫(yī)學(xué)影像數(shù)據(jù)集一般比較小。遷移學(xué)習(xí)能夠彌補(bǔ)醫(yī)學(xué)圖像數(shù)據(jù)集數(shù)量不足的缺陷,并且降低過擬合的風(fēng)險(xiǎn)。Girshick等[20]是將遷移學(xué)習(xí)與預(yù)訓(xùn)練的CNN相結(jié)合用于圖像分類的最早貢獻(xiàn)者之一。Nobrega等[21]采用在ImageNet[22]上預(yù)訓(xùn)練的模型處理肺結(jié)節(jié)圖像,并使用傳統(tǒng)分類器對返回的深層特征進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,預(yù)訓(xùn)練模型和分類器的最佳組合是CNN-ResNet50 和支持向量機(jī)徑向基函數(shù)(support vector machine-radial basis function,SVM-RBF),達(dá)到了88.41%的準(zhǔn)確率和93.19%的AUC(area under curve)。Behzadi-Khormouji等[23]采用了基于問題的遷移學(xué)習(xí)模型檢測兒童胸部X 射線中的實(shí)變,該模型取得了94.67%的準(zhǔn)確率,優(yōu)于之前的其他模型。

由于現(xiàn)有的研究方向比較分散,本文將針對遷移學(xué)習(xí)技術(shù)介紹當(dāng)前的研究現(xiàn)狀,根據(jù)模型類型展開分類探討,并介紹具有代表性的基于遷移學(xué)習(xí)技術(shù)的診斷模型,分別從數(shù)據(jù)集來源、數(shù)據(jù)預(yù)處理方式、基于遷移學(xué)習(xí)的診斷模型、模型可視化、評價(jià)指標(biāo)以及模型性能6 個(gè)層面展開剖析與對比,最后提出當(dāng)前面臨的技術(shù)問題以及未來的技術(shù)發(fā)展走向,以供后來學(xué)者研究參考。

1 COVID-19 醫(yī)學(xué)影像數(shù)據(jù)集

1.1 X 射線圖像數(shù)據(jù)集

X 射線設(shè)備是大多數(shù)醫(yī)療保健系統(tǒng)中的標(biāo)準(zhǔn)設(shè)備,因此胸部X 射線成像技術(shù)在許多臨床站點(diǎn)更容易獲得和訪問。目前常用的COVID-19 檢測開源X 射線數(shù)據(jù)集有以下5 個(gè),這5 個(gè)數(shù)據(jù)集的采集來源比較可靠,標(biāo)簽規(guī)范且完整。相比其他數(shù)據(jù)集,這些影像數(shù)據(jù)在質(zhì)量上相對較好。表1 列出了這些數(shù)據(jù)集的分布情況、開源網(wǎng)址和數(shù)據(jù)格式,圖1 為部分?jǐn)?shù)據(jù)集分布情況的餅圖。

圖1 部分胸部X 射線數(shù)據(jù)集分布餅圖Fig.1 Pie chart of partial chest X-ray dataset distribution

表1 胸部X 射線數(shù)據(jù)集Table 1 Chest X-ray datasets

(1)COVID-chestxray[24]

該數(shù)據(jù)集是一個(gè)GitHub 網(wǎng)站上開源的COVID-19 胸部X 光和CT 圖像數(shù)據(jù)集,其中主要包括COVID-19 陽性、嚴(yán)重急性呼吸綜合癥(severe acute respiratory syndrome,SARS)、中東呼吸綜合癥(middle east respiratory syndrome,MARS)和急性呼吸窘迫綜合癥(acute respiratory distress syndrome,ARDS)。目前,該數(shù)據(jù)庫保持定期更新,主要用于多分類模型。

(2)Pneumonia-chestxray[25]

該數(shù)據(jù)集包含5 863 張胸部X 光圖像,分為肺炎和正常兩個(gè)類別。由兩位專家進(jìn)行標(biāo)簽化,第三位專家負(fù)責(zé)審查,以減小標(biāo)注誤差。研究人員通常使用該數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),解決數(shù)據(jù)集過小和類別不平衡問題。

(3)COVID-19 Radiography Database[26]

該數(shù)據(jù)集是Kaggle 上的一個(gè)開源數(shù)據(jù)集,在第二次更新中,此數(shù)據(jù)庫增加到3 616 個(gè)COVID-19 陽性病例、10 192個(gè)正常、6 012個(gè)肺部不透明(非COVID肺部感染)和1 345 個(gè)病毒性肺炎圖像。目前,此數(shù)據(jù)庫還在持續(xù)更新中。

(4)COVID-19 Pneumonia Normal Chest Xray PA Dataset[27]

該數(shù)據(jù)集是從不同來源檢索到的COVID-19 的X 射線樣本,這些樣本包括2 313 個(gè)COVID-19 陽性、2 313個(gè)正常和2 313個(gè)肺炎圖像,樣本分布比較均勻。

(5)COVIDx-CXR-3 Dataset[28]

該數(shù)據(jù)集是Github 網(wǎng)站上一個(gè)開源COVID-19 X 射線圖像數(shù)據(jù),目前還在不斷更新中,最新版包含來自16 648 名患者的29 986 張圖像。據(jù)作者所知,這是公開可用的COVID-19 陽性病例數(shù)量最多的數(shù)據(jù)集。

1.2 CT 掃描圖像數(shù)據(jù)集

CT 是一種較為先進(jìn)的數(shù)字放射成像,與胸部X射線圖像相比,CT 掃描圖像能夠得到患者胸部的精確圖像,器官、骨骼和組織更加清晰并且攜帶更多的信息,使其成為診斷肺部狀況的有效方法。目前常用的COVID-19 檢測的CT 數(shù)據(jù)集有以下6 個(gè),這些數(shù)據(jù)集質(zhì)量較好,具有潛在的研究價(jià)值。表2 列出了5 個(gè)數(shù)據(jù)集的分布情況、開源網(wǎng)址和數(shù)據(jù)格式。圖2為部分CT 數(shù)據(jù)集分布情況的餅圖。

圖2 部分CT 數(shù)據(jù)集分布餅圖Fig.2 Pie chart of partial CT dataset distribution

表2 CT 數(shù)據(jù)集Table 2 CT dataset

(1)COVID19-CT[29]

該數(shù)據(jù)集是一個(gè)公開的COVID-19 CT 數(shù)據(jù)集,作者從醫(yī)學(xué)預(yù)印本上提取出這些圖像,其中包含349張陽性CT 掃描和463 張正?;虬渌愋图膊〉腃T 掃描,該數(shù)據(jù)集在早期圖像分類中最為常見。

(2)CC-CCII[30]

該數(shù)據(jù)集是由中國胸部CT 圖像調(diào)查協(xié)會(huì)構(gòu)建的大型COVID-19數(shù)據(jù)集,共有617 775張CT圖像,由4 154名患者所提供。圖像種類包括COVID-19陽性、普通肺炎和正常。其中普通肺炎又包含病毒性肺炎、細(xì)菌性肺炎和支原體肺炎。這是目前針對COVID-19 建立的大型CT 切片數(shù)據(jù)集之一。

(3)SARS-CoV-2 CT[31]

該數(shù)據(jù)集包含了210 名不同患者的4 173 次CT掃描,其中2 168 次是由80 名感染了SARS-CoV-2 患者的CT 掃描構(gòu)成,并且都經(jīng)過了RT-PCR 測試進(jìn)行確認(rèn),具有一定的可靠性。

(4)COVID-CT-set[32]

該數(shù)據(jù)集共有63 849 張CT 掃描圖像,其中有15 589 張表現(xiàn)為COVID-19 陽性,其余48 260 張表現(xiàn)為正常,由95 名COVID-19 患者和282 名正常受試者的CT 掃描組成。該數(shù)據(jù)集的新穎之處在于其使用16 位灰度數(shù)據(jù)格式,而不是將圖像轉(zhuǎn)換為8 位數(shù)據(jù),從而保持?jǐn)?shù)據(jù)的完整性。

(5)MosMedData[33]

該數(shù)據(jù)集包含了1 110 名匿名患者的胸部CT 掃描圖像,根據(jù)患COVID-19 不同嚴(yán)重程度分為了5類,分別為CT-0 到CT-4,其中CT-0 表示正?;驘o病毒性肺炎,CT-1 到CT-4 表示COVID-19 陽性且毛玻璃樣混濁、肺實(shí)質(zhì)受累的程度從小于等于25%到超過75%。該數(shù)據(jù)集適合用于將CT 判別為COVID-19 陽性后,再進(jìn)行細(xì)粒度分類。

(6)BIMCV COVID-19+[34]

該數(shù)據(jù)集包含了COVID-19 患者的胸部X 射線圖像和CXR(CR、DR)圖像,其中CR(computed radiography)圖像7 377 張,DR(digital radiography)圖像9 463 張和CT 圖像6 687 張。此外,還提供了大量信息,包括患者的人口統(tǒng)計(jì)信息、投影類型和采集參數(shù)等。

2 數(shù)據(jù)預(yù)處理方法

將圖像分類算法直接應(yīng)用于原始數(shù)據(jù)集通常是不可行的,例如,醫(yī)學(xué)數(shù)據(jù)圖像質(zhì)量受設(shè)備和顯示系統(tǒng)的影響,質(zhì)量會(huì)受到一定的損壞;數(shù)據(jù)集分布不平衡問題,將導(dǎo)致遷移學(xué)習(xí)效果下降。因此,在應(yīng)用算法之前解決上述問題非常重要。本章將討論常用的數(shù)據(jù)預(yù)處理方法,如圖像重采樣、對比度和亮度調(diào)整、旋轉(zhuǎn)或翻轉(zhuǎn)、放縮或剪切和生成式對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[35],這些方法是構(gòu)建檢測COVID-19 模型的首要步驟。

2.1 圖像重采樣

圖像重采樣是圖像預(yù)處理最常用的方法之一,通常情況下,神經(jīng)網(wǎng)絡(luò)的輸入必須是固定長度的圖像,但在COVID-19 數(shù)據(jù)集中,圖像大小并不統(tǒng)一,因此在進(jìn)行輸入之前需要對圖像進(jìn)行上采樣或下采樣,即調(diào)整圖像大小。

2.2 對比度和亮度調(diào)整

由于有的數(shù)據(jù)集來自不同的設(shè)備或不同的采集場景,實(shí)驗(yàn)所用到的CT 掃描圖像和胸部X 射線圖像具有整體明暗程度不一和對比度低的特點(diǎn),通常需要對圖像進(jìn)行自適應(yīng)對比度和亮度調(diào)整,從而得到質(zhì)量更高的圖像。

2.3 數(shù)據(jù)增強(qiáng)

類別不平衡問題是圖像處理和計(jì)算機(jī)視覺中的常見問題,在醫(yī)學(xué)領(lǐng)域表現(xiàn)更為明顯。由于醫(yī)療數(shù)據(jù)涉及患者的隱私,特定疾病的圖像數(shù)量要少于其他類別的圖像數(shù)量。因此,在訓(xùn)練模型之前對數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理尤為重要。COVID-19 為近年新發(fā)現(xiàn)的疾病,數(shù)據(jù)集往往較小,且COVID-19 陽性數(shù)據(jù)的占比也較小。通常對該類數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)操作,通過創(chuàng)建具有較少對象的類來修復(fù)類別不平衡。實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)常見的方法包括有監(jiān)督的幾何變換以及無監(jiān)督的GAN。有監(jiān)督的幾何變換包含對圖像進(jìn)行水平和垂直翻轉(zhuǎn)、剪切變換、隨機(jī)旋轉(zhuǎn)等操作[36]。圖3 展示了幾種常見的幾何變換。無監(jiān)督的GAN 可以對數(shù)據(jù)集中的少量數(shù)據(jù)樣本進(jìn)行擴(kuò)充,是解決圖像類別不平衡的常用方法[35]。圖4 展示了由GAN 網(wǎng)絡(luò)生成的人工COVID-19 胸部X 光圖像[37]。結(jié)合當(dāng)前研究,在以上這些預(yù)處理方法中,使用尺寸調(diào)整的研究比例較高,而使用GAN 的研究比例較低。Gifani等[38]對COVID19-CT 數(shù)據(jù)集采用了較原始尺寸10%的隨機(jī)水平和垂直移動(dòng),20%的隨機(jī)旋轉(zhuǎn)和水平翻轉(zhuǎn)。Sheykhivand等[37]采用了GAN 技術(shù)對數(shù)據(jù)進(jìn)行預(yù)處理,獲取更多的COVID-19 陽性數(shù)據(jù)樣本。除此之外,一些研究人員還采用了自適應(yīng)濾波器[39]和仿射變換[40]的方法。

圖3 常見幾何變換Fig.3 Common geometric transformation

圖4 由GAN 網(wǎng)絡(luò)生成的COVID-19 胸部X 光圖像Fig.4 Chest X-ray image of COVID-19 generated by GAN network

3 基于遷移學(xué)習(xí)的COVID-19 檢測診斷模型

3.1 遷移學(xué)習(xí)概述

深度學(xué)習(xí)方法可以直接從任務(wù)中提取并學(xué)習(xí)相關(guān)特征,協(xié)助研究人員解決目前的復(fù)雜問題。訓(xùn)練模型需要大量數(shù)據(jù),在訓(xùn)練數(shù)據(jù)不足的情況下,很難建立最佳的模型。模型中的參數(shù)數(shù)量隨著網(wǎng)絡(luò)的加深而增加,網(wǎng)絡(luò)越深,計(jì)算越復(fù)雜,對訓(xùn)練數(shù)據(jù)的要求也越高。由分析可知,COVID-19 數(shù)據(jù)集屬于小型數(shù)據(jù)集,因此可以利用遷移學(xué)習(xí)方法來彌補(bǔ)COVID-19 數(shù)據(jù)集數(shù)量不足的缺陷,以取得更好的效果。

遷移學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,將模型在源域中學(xué)習(xí)到的知識應(yīng)用到目標(biāo)域,因此能夠減少收集額外訓(xùn)練數(shù)據(jù)的需求和工作量。Girshick等[20]是將遷移學(xué)習(xí)與預(yù)訓(xùn)練CNN 一起用于圖像分類,從相對較小的數(shù)據(jù)集學(xué)習(xí),并用于目標(biāo)檢測的最早貢獻(xiàn)之一。遷移學(xué)習(xí)通常加載ImageNet 上的預(yù)訓(xùn)練模型,有關(guān)遷移學(xué)習(xí)的研究表明,從ImageNet 等大數(shù)據(jù)集學(xué)習(xí)到的特征可以高度轉(zhuǎn)移到各種圖像識別任務(wù)中,并且經(jīng)過充分微調(diào)的預(yù)訓(xùn)練CNN 可能比從頭開始訓(xùn)練更加有效[41]。同時(shí),采用預(yù)訓(xùn)練模型有很多好處,例如,所需的訓(xùn)練時(shí)間更短,對硬件的要求降低,計(jì)算量也更低。根據(jù)預(yù)訓(xùn)練數(shù)據(jù)的來源,可以將遷移學(xué)習(xí)分為跨域和跨模型兩種遷移學(xué)習(xí)[36]。在醫(yī)學(xué)應(yīng)用中,基于跨域的遷移學(xué)習(xí)使用的是在自然圖像上的預(yù)訓(xùn)練模型,如ImageNet 數(shù)據(jù)集,而基于跨模型的遷移學(xué)習(xí)使用的是在醫(yī)學(xué)圖像上的預(yù)訓(xùn)練模型,如嚴(yán)重急性呼吸綜合征(SARS)圖像數(shù)據(jù)集。圖5 展示了基于跨域和跨模型兩種方法,模型對從上述圖像中所學(xué)到的知識進(jìn)行遷移的方法分為特征提取器和微調(diào)網(wǎng)絡(luò)兩種方法。其中使用較多的方法是特征提取器方法,通過更改預(yù)訓(xùn)練模型的最后一層,其他層的參數(shù)被凍結(jié),只有最后一層的參數(shù)針對新任務(wù)進(jìn)行訓(xùn)練[42]。如果目標(biāo)任務(wù)與原始任務(wù)相似,那么使用該方法能夠達(dá)到更好的效果。在目標(biāo)任務(wù)的數(shù)據(jù)有限的情況下,這種方法能夠有效減少訓(xùn)練過程中的參數(shù)數(shù)量并避免過擬合;當(dāng)目標(biāo)任務(wù)擁有足夠多的數(shù)據(jù)集,則可以訓(xùn)練整個(gè)網(wǎng)絡(luò)[43],使用預(yù)先訓(xùn)練的模型而不是隨機(jī)初始化權(quán)重的模型,這樣能夠提高模型的收斂速度[41],這種方法并不會(huì)凍結(jié)卷積神經(jīng)網(wǎng)絡(luò),而是在訓(xùn)練過程中更新權(quán)重,稱為微調(diào)網(wǎng)絡(luò)方法。本節(jié)將對基于遷移學(xué)習(xí)的COVID-19 診斷的典型模型進(jìn)行分類討論。

圖5 遷移學(xué)習(xí)的兩種方法Fig.5 Two approaches of transfer learning

3.2 傳統(tǒng)遷移學(xué)習(xí)COVID-19 診斷模型

傳統(tǒng)遷移學(xué)習(xí)通常只采用預(yù)訓(xùn)練網(wǎng)絡(luò),不疊加其他網(wǎng)絡(luò)和模型,對模型進(jìn)行簡單的微調(diào)。Rahaman等[44]在一個(gè)包含860 張胸部X 光射線的小型數(shù)據(jù)集上,對比了15 種不同的預(yù)訓(xùn)練CNN 模型。由于數(shù)據(jù)集較小,采用了數(shù)據(jù)增強(qiáng)方法擴(kuò)充數(shù)據(jù)集,對比了使用數(shù)據(jù)增強(qiáng)前后模型的準(zhǔn)確率和損失率,增強(qiáng)后準(zhǔn)確率得到了明顯提升且損失率下降,可以有效對抗過擬合。根據(jù)比較得出,VGG19 的各類指標(biāo)均為最佳,準(zhǔn)確率為89.3%,精確率為90.0%,召回率為89.0%,F(xiàn)1-score 為90.0%。該研究僅使用了傳統(tǒng)的遷移學(xué)習(xí)模型,由于該數(shù)據(jù)集較小,淺層網(wǎng)絡(luò)比深層網(wǎng)絡(luò)表現(xiàn)得更好。隨著網(wǎng)絡(luò)深度加深,網(wǎng)絡(luò)出現(xiàn)了梯度消失問題,使得網(wǎng)絡(luò)的性能下降。基于此數(shù)據(jù)集,淺層網(wǎng)絡(luò)能夠達(dá)到較好效果,但這可能導(dǎo)致模型的泛化能力較差,該研究忽略了對模型進(jìn)行外部驗(yàn)證,而外部驗(yàn)證對于檢測模型的穩(wěn)定性至關(guān)重要,缺乏外部驗(yàn)證的模型可能最終也無法在臨床實(shí)踐中應(yīng)用。

在傳統(tǒng)遷移學(xué)習(xí)的基礎(chǔ)上,加入一些優(yōu)化方法,分類效果可以得到明顯提升。Zhang等[45]將預(yù)訓(xùn)練網(wǎng)絡(luò)DenseNet 與優(yōu)化方法相結(jié)合,首先采用數(shù)據(jù)增強(qiáng)方法擴(kuò)充訓(xùn)練集大小,然后訓(xùn)練DenseNet 網(wǎng)絡(luò)。與其他遷移學(xué)習(xí)方法不同的是,該研究提出了一種優(yōu)化框架,即對網(wǎng)絡(luò)的凍結(jié)層、中間層和新層分配了不同的學(xué)習(xí)因子。凍結(jié)層的學(xué)習(xí)因子設(shè)為0,即不更新;中間層具有預(yù)訓(xùn)練模型的權(quán)重,將其設(shè)為1 并緩慢更新;由于新層具有隨機(jī)初始化的權(quán)值,分配的學(xué)習(xí)因子為10,以便進(jìn)行快速學(xué)習(xí)。該策略使得不同的層采用不同的學(xué)習(xí)速度,提高了模型的性能。優(yōu)化后的遷移學(xué)習(xí)算法的召回率、特異性、精確率、準(zhǔn)確率、F1-score 和馬修斯相關(guān)系數(shù)分別為96.35%、96.25%、96.29%、96.30%、96.30%和92.64%。此外,該研究使用了預(yù)計(jì)算的方法,將凍結(jié)層后的特征圖保存到硬盤,以減少隨機(jī)存取存儲(chǔ)器(random access memory,RAM)存儲(chǔ),加快了算法的速度。然而,該研究沒有驗(yàn)證凍結(jié)層、中間層和新層的最佳值,并且只采用了一種學(xué)習(xí)因子的組合,沒有測試其他的組合值以尋找最優(yōu)的組合配置。

3.3 集成遷移學(xué)習(xí)COVID-19 診斷模型

集成學(xué)習(xí)是一種融合兩個(gè)或多個(gè)基礎(chǔ)學(xué)習(xí)器特征的學(xué)習(xí)策略,能夠減少預(yù)測誤差中的方差,因此該框架比單一模型具有更強(qiáng)的魯棒性。傳統(tǒng)的集成框架,如平均概率得分、多數(shù)投票等,在對COVID-19 進(jìn)行分類的任務(wù)中被大量研究者所采用。

Gifani等[38]對CT 掃描數(shù)據(jù)集進(jìn)行二分類時(shí),由于其使用的數(shù)據(jù)集較小,首先采用了數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充數(shù)據(jù)集。然后對15 個(gè)主流的預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行了微調(diào),采用多數(shù)投票準(zhǔn)則對不同網(wǎng)絡(luò)進(jìn)行了集成。作者通過大量實(shí)驗(yàn)評估了不同網(wǎng)絡(luò)結(jié)構(gòu)下集成的有效性,共使用了3、5、7、9、11、13 和15 種不同體系結(jié)構(gòu)的集合。通過實(shí)驗(yàn)得出,結(jié)合5 種遷移學(xué)習(xí)模型的集成 模型,即EfficientNetB0、EfficientNetB3、Efficient-NetB5、Inception-ResNet-v2 和Exception,相較于其他模型取得了最佳效果,并且優(yōu)于單個(gè)模型,準(zhǔn)確率達(dá)到了85.0%,精確率達(dá)到了85.7%,召回率達(dá)到了85.4%。

Kumar等[46]采用了多數(shù)投票的集成學(xué)習(xí)策略對胸部X 射線圖像進(jìn)行二分類和多分類,其中集成的模型包括EfficientNet、GoogLeNet、Xception。通過實(shí)驗(yàn)結(jié)果得出,該集成模型的分類效果優(yōu)于單個(gè)網(wǎng)絡(luò),能夠增強(qiáng)學(xué)習(xí)系統(tǒng)的泛化能力。

Rajaraman等[47]在對肺部X 光的多任務(wù)分類中,首先對多個(gè)預(yù)訓(xùn)練模型進(jìn)行了剪枝操作,減少可訓(xùn)練參數(shù)的數(shù)量,以減輕計(jì)算的負(fù)擔(dān)。然后選擇性能最好的剪枝模型構(gòu)建集成模型,采用了最大投票、簡單平均、加權(quán)平均和模型疊加等集成方法進(jìn)行預(yù)測。結(jié)果表明,加權(quán)平均策略的精度最高,能夠達(dá)到99.01%的準(zhǔn)確率。

集成學(xué)習(xí)通過考慮預(yù)測的多樣性,提高了組合模型的性能。但是上述的簡單融合方案,如多數(shù)投票準(zhǔn)則和加權(quán)平均準(zhǔn)則,沒有考慮到基于測試時(shí)不同分類器所獲得的決策得分,根據(jù)不同的得分為分類器分配不同的權(quán)重。傳統(tǒng)的加權(quán)平均方法大多傾向于預(yù)先定義分類器權(quán)重,是一個(gè)靜態(tài)的計(jì)算過程,沒有考慮到模型對每個(gè)樣本預(yù)測的置信度。Kundu等[48]采用了四種預(yù)訓(xùn)練模型,分別是VGG11、Goog-LeNet、SqueezeNet v1.1 和Wide ResNet-50-2,提出了一種基于模糊積分的集成方法。該方法不是為每個(gè)分類器分配一個(gè)固定的權(quán)重,而是在訓(xùn)練的過程中動(dòng)態(tài)分配權(quán)重,能夠進(jìn)一步細(xì)化預(yù)測。根據(jù)各個(gè)分類器獲取互補(bǔ)信息的概率分?jǐn)?shù),動(dòng)態(tài)調(diào)整各模型的權(quán)值,比傳統(tǒng)的靜態(tài)加權(quán)平均具有更強(qiáng)的魯棒性。

Paul等[49]采用了VGG16、ResNet18 和Dense-Net161 三種預(yù)訓(xùn)練模型,通過Grad-CAM(gradientweighted class activation mapping)可視化各個(gè)模型所關(guān)注的胸部X 射線區(qū)域,觀察到這三個(gè)模型能夠注意到胸部的不同病理區(qū)域,因此通過集成能夠產(chǎn)生更好的結(jié)果。該文提出了一種基于倒鐘形曲線的模型集成,模型的權(quán)重根據(jù)倒鐘形曲線函數(shù)進(jìn)行分配,有助于懲罰更大范圍的低置信度值,從而提高模型的性能。

以上集成模型分別采用了多種不同的模型進(jìn)行集成,然而訓(xùn)練多個(gè)預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行模型平均的計(jì)算成本較高,快照集成是在不增加訓(xùn)練成本的情況下集成多個(gè)網(wǎng)絡(luò),采用余弦退火循環(huán)調(diào)度學(xué)習(xí)率,在訓(xùn)練過程中定期保存模型參數(shù),實(shí)現(xiàn)集成的效果。Samson等[50]對COVID-19 的胸部X 射線診斷過程中,采用了一種改進(jìn)的快照集成技術(shù),提出用加權(quán)平均代替所有模型的平均概率,且將計(jì)數(shù)器的數(shù)量規(guī)定在一定的范圍內(nèi),因此可以得到更加精確的改進(jìn)權(quán)重。該方法適用于訓(xùn)練數(shù)據(jù)有限和數(shù)據(jù)分布不均勻的情況,從而使模型具有良好的魯棒性。

3.4 混合型遷移學(xué)習(xí)COVID-19 診斷模型

除了上述遷移學(xué)習(xí)方法以外,許多研究人員采用混合模型,將遷移學(xué)習(xí)與其他模型相結(jié)合,提出了許多新框架,以此提高模型的泛化能力。Sheykhivand等[37]提出了一種遷移學(xué)習(xí)混合模型,將GAN、深度遷移學(xué)習(xí)、長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)相結(jié)合使用。首先使用GAN 網(wǎng)絡(luò)生成圖像,平衡各個(gè)類的數(shù)據(jù)。然后改進(jìn)了預(yù)訓(xùn)練網(wǎng)絡(luò)Inception V4,將兩個(gè)LSTM 網(wǎng)絡(luò)嵌入其中。結(jié)果表明,較其他遷移學(xué)習(xí)模型,該混合模型在各個(gè)指標(biāo)上都有明顯提升。修改后的預(yù)訓(xùn)練網(wǎng)絡(luò)與LSTM 網(wǎng)絡(luò)相結(jié)合能夠減小網(wǎng)絡(luò)的震蕩,提高模型訓(xùn)練的速度,加速模型的收斂,同時(shí)也提升了該算法的精度。該實(shí)驗(yàn)為了驗(yàn)證所提出網(wǎng)絡(luò)的魯棒性,將不同信噪比(4 dB 到20 dB)的高斯白噪聲添加到原始胸部X 射線圖像上,對算法進(jìn)行了觀測噪聲測試,觀察該模型分類的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,在添加了不同信噪比的高斯白噪聲后,分類準(zhǔn)確率仍然能夠達(dá)到80%以上,證明了所提出模型對噪聲具有較強(qiáng)的魯棒性。但是該研究由于數(shù)據(jù)集數(shù)量不足,混合了6 個(gè)不同的數(shù)據(jù)集,混合的數(shù)據(jù)集過多可能會(huì)存在偏差,模型訓(xùn)練結(jié)果的可信度會(huì)降低。例如,有的醫(yī)療設(shè)備會(huì)對X射線圖像進(jìn)行文本注釋,而另一些設(shè)備不會(huì)注釋,這就產(chǎn)生了兩種不同的背景信息,如果這兩種數(shù)據(jù)集融合在一起且恰好類別不同,網(wǎng)絡(luò)會(huì)學(xué)習(xí)背景信息,產(chǎn)生與任務(wù)無關(guān)的特征,而分類器將關(guān)注最容易區(qū)分類別的特征,而不是真正的特征。在研究過程中數(shù)據(jù)集的選擇也是影響結(jié)果的關(guān)鍵因素,盡量避免混合數(shù)據(jù)集或選擇偏差較小的數(shù)據(jù)集進(jìn)行混合,以提高結(jié)果的可信度。

Niu等[51]使用了遠(yuǎn)域遷移學(xué)習(xí)方法(distant domain transfer learning,DDTL),提出了一個(gè)新的遷移學(xué)習(xí)框架,該框架包含兩部分:縮小尺寸的ResUnet 分割模型和距離特征融合(distant feature fusion,DFF)。傳統(tǒng)的遷移學(xué)習(xí)算法假設(shè)源域和目標(biāo)域存在一定的共享信息,然而在實(shí)際應(yīng)用中這種假設(shè)不總是成立。例如醫(yī)學(xué)圖像和自然圖像領(lǐng)域的特征聯(lián)系比較松散,很容易導(dǎo)致負(fù)遷移。在該項(xiàng)研究中,采用了跨模型的遷移學(xué)習(xí),使用沒有標(biāo)簽的Office-31、Caltech-256 和胸部X 射線圖像數(shù)據(jù)集作為源數(shù)據(jù),并使用一小部分帶標(biāo)簽的COVID-19 肺部CT 作為目標(biāo)數(shù)據(jù),使源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)聯(lián)系更加緊密,有效處理訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)之間的分布偏移。此外,該研究引入了新的特征選擇方法DFF,并沒有使用傳統(tǒng)遷移學(xué)習(xí)中的預(yù)訓(xùn)練網(wǎng)絡(luò)框架,而是采用了卷積自動(dòng)編碼器和解碼器的形式。并且達(dá)到了96%的分類準(zhǔn)確率,這比非遷移學(xué)習(xí)算法的分類準(zhǔn)確率高0.13,比傳統(tǒng)的遷移學(xué)習(xí)算法高0.08。該算法有兩方面的改進(jìn):第一,不需要有標(biāo)簽的源域數(shù)據(jù),只需要少量的帶標(biāo)簽的目標(biāo)域數(shù)據(jù),該模型在目標(biāo)域上就能夠達(dá)到較高的分類準(zhǔn)確率;第二,它解決了傳統(tǒng)遷移學(xué)習(xí)算法產(chǎn)生的最具挑戰(zhàn)性的問題之一,即負(fù)遷移問題。但是該算法仍存在一些不足,例如,大多數(shù)遠(yuǎn)域遷移學(xué)習(xí)算法往往是針對特定情況的,同樣的算法難以運(yùn)用到其他的領(lǐng)域。并且提取遠(yuǎn)距離特征的過程計(jì)算量較大,目前基于特征的遠(yuǎn)域遷移學(xué)習(xí)算法可解釋性較差。

Perumal等[52]將機(jī)器學(xué)習(xí)方法與遷移學(xué)習(xí)方法相結(jié)合,使用機(jī)器學(xué)習(xí)方法手動(dòng)提取特征。首先對所有圖像進(jìn)行預(yù)處理,采用直方圖均衡化和維納濾波器方法增強(qiáng)對比度和去除圖像噪聲,并提高圖像質(zhì)量。然后對COVID-19 胸部X 射線圖像構(gòu)建灰度共生矩陣,提取出Haralick 特征,該特征可以確定相鄰像素點(diǎn)之間的強(qiáng)度關(guān)系,將其輸入ResNet50、VGG16和InceptionV3 預(yù)訓(xùn)練模型進(jìn)行分類。最后使用Grad-CAM 生成熱力圖,對網(wǎng)絡(luò)進(jìn)行可視化。實(shí)驗(yàn)結(jié)果表明,基于VGG16的遷移學(xué)習(xí)模型相較于ResNet50和InceptionV3 獲得了最佳表現(xiàn),該模型的準(zhǔn)確率達(dá)到了93%,精確率達(dá)到了91%,召回率達(dá)到了90%。但Haralick 特征的提取通常需要人工干預(yù),而手工提取特征經(jīng)常導(dǎo)致特征冗余,造成參數(shù)量和計(jì)算量的急劇增加。并且作者沒有設(shè)置對比實(shí)驗(yàn)說明手動(dòng)提取的Haralick 特征比卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取的特征更加有效。

Um等[53]提出了一個(gè)由深度卷積神經(jīng)網(wǎng)絡(luò)、特征增強(qiáng)機(jī)制和雙向LSTM(bidirectional LSTM,BiLSTM)組成的統(tǒng)一架構(gòu),將預(yù)訓(xùn)練的CNN模型,如ResNet50、SqueezeNet、GoogLeNet 和DenseNet201與特征增強(qiáng)機(jī)制和BiLSTM 相結(jié)合來評估模型的性能。該框架沒有使用傳統(tǒng)的數(shù)據(jù)增強(qiáng)策略,例如基于幾何變化的數(shù)據(jù)增強(qiáng),而是采用基于重構(gòu)獨(dú)立分量分析(reconstruction independent component analysis,RICA)[54]特征增強(qiáng)機(jī)制,通過特征空間逼近真實(shí)分布,所生成的特征是相互獨(dú)立的,并且保證了特征的多樣性。該方法生成的特征與上述生成的Haralick 特征相比較,該低維增強(qiáng)特征更緊湊,可以顯著消除干擾信息或冗余。最后使用主成分分析(principal components analysis,PCA)投影和t分布-隨機(jī)近鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)特征可視化方法解釋該模型。所提出的方法在三個(gè)公開數(shù)據(jù)集上進(jìn)行了測試,并與最新的模型相比較,實(shí)現(xiàn)了97%的準(zhǔn)確率,比目前關(guān)于三分類的最佳模型高出0.1。

Jokandan等[55]提出了一種基于不確定性感知的遷移學(xué)習(xí)方法,首先采用4 個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)VGG16、ResNet50、DenseNet121、InceptionResNetV2,從胸部X 射線和CT 圖像中提取深度特征。為了證明提取特征的有效性,該文引入了Grad-CAM 的概念,對模型的決策進(jìn)行了可視化,所描繪的熱力圖突出顯示了分類決策輸入的最顯著區(qū)域。然后對網(wǎng)絡(luò)進(jìn)行微調(diào),為了避免在將特征傳遞給分類模型之前丟失,在最后一層卷積層中舍棄了池化操作,并且將最后一層全連接層用不同的機(jī)器學(xué)習(xí)分類器替換,包括KNN(K-nearest neighbors)、linear SVM(linear support vector machine)、RF(random forest)等。實(shí)驗(yàn)結(jié)果表明,SVM 和神經(jīng)網(wǎng)絡(luò)模型在準(zhǔn)確率、召回率、特異性和受試者工作特征曲線(receiver operating characteristic curve,ROC)方面取得了最佳結(jié)果。該文引入了認(rèn)知不確定性來解釋模型分類結(jié)果的不確定性,認(rèn)知不確定性與模型的泛化能力密切相關(guān)。由于所使用的新冠肺炎數(shù)據(jù)集較小,訓(xùn)練數(shù)據(jù)不足,導(dǎo)致模型對于沒有見過的數(shù)據(jù)會(huì)有很低的置信度。模型在進(jìn)行高風(fēng)險(xiǎn)應(yīng)用和處理小型稀疏數(shù)據(jù)時(shí),定量分析其決策的不確定性非常有必要。

4 模型可視化

神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)通常被稱為黑匣子,將圖片輸入網(wǎng)絡(luò)之后,無法直觀地體現(xiàn)產(chǎn)生輸出的工作機(jī)制。為此,許多研究人員采用多種方法對預(yù)測結(jié)果進(jìn)行可視化,并通過生成熱力圖來標(biāo)識胸部X 射線的關(guān)鍵區(qū)域。常用的可視化方法包括類激活圖(class activation map,CAM)[56]、基于梯度的類激活圖(Grad-CAM、Grad-CAM++)[57]、分層相關(guān)性傳播(layer-wise relevance propagation,LRP)[58]和局部可解釋模型-不可知解釋(local interpretable model-agnostic explanation,LIME)[59]。以上方法能夠直觀地展示分類結(jié)果。例如,類激活圖將具有不同亮度的特征權(quán)重生成二維熱圖,亮度與特征的重要性相對應(yīng)。該熱圖被疊加在輸入圖像上,以定位突出的區(qū)域。在基于CT 掃描圖像的COVID-19 診斷模型中,只有少數(shù)研究采用了CAM 和Grad-CAM 對模型進(jìn)行可視化解釋,更多則是將其應(yīng)用于胸部X 射線圖像。圖6 顯示了當(dāng)輸入圖像被分類為COVID-19 時(shí),Grad-CAM 定位突出區(qū)域的可視化結(jié)果。

圖6 Grad-CAM 可視化結(jié)果Fig.6 Results of Grad-CAM visualization

5 評價(jià)指標(biāo)

分類任務(wù)中,模型常見的評價(jià)指標(biāo)包括準(zhǔn)確率(Accuracy,ACC)、精確率(Precision,PRE)、特異性(Specificity,SPE)、召回率(Recall)、F1-score、ROC曲線和AUC 指標(biāo)。

在分類模型中,準(zhǔn)確率是衡量分類器性能質(zhì)量的最常見、最基本和最簡單的標(biāo)準(zhǔn),但其主要缺點(diǎn)是無法區(qū)分“假陰性”和“假陽性”,該標(biāo)準(zhǔn)認(rèn)為所有的錯(cuò)誤都是相同的。因此,高準(zhǔn)確率并不能反映模型的實(shí)際性能。由分析可知,有的COVID-19 數(shù)據(jù)集具有高度不平衡性,此時(shí)準(zhǔn)確率就會(huì)失效,因此引入了精確率、召回率和特異性等綜合指標(biāo)來對模型的性能進(jìn)行全面的評判。準(zhǔn)確率、精確率、特異性、召回率計(jì)算分別如式(1)~(4)所示:

其中,TP(true positive)是指樣本被正確分類為陽性;TN(true negative)是指樣本被正確分類為陰性;FP(false positive)是指樣本被錯(cuò)誤分類為陽性;FN(false negative)是指樣本被錯(cuò)誤分類為陰性。

召回率和精確率均為單一指標(biāo),一般情況下,召回率越高,精確率越低;精確率越高,召回率越低,兩者是相互制約的關(guān)系。根據(jù)不同的分類情況,引入了F1-score,F(xiàn)1-score 是精確率和召回率的調(diào)和平均值,它綜合考慮了這兩種指標(biāo),F(xiàn)1-score 的計(jì)算公式如式(5)所示:

ROC 曲線又稱為受試者工作特征曲線,1-specificity 為橫坐標(biāo),表示假陽性率,sensitivity 為縱坐標(biāo),表示真陽性率。由于ROC 曲線無法進(jìn)行定量比較,又引入了AUC。AUC 表示在此坐標(biāo)軸中曲線的面積。相比ROC 曲線,AUC 值作為一個(gè)數(shù)量值,更具有可比較性,可以進(jìn)行定量的分析,因此大多研究者也采用該值作為評價(jià)模型的標(biāo)準(zhǔn)。

6 模型性能

模型性能的好壞由多方面的因素所決定,如數(shù)據(jù)集的大小、所采用的模型以及模型的特點(diǎn)等。表3從數(shù)據(jù)集大小、分類類型、性能評價(jià)、所采用模型和模型特點(diǎn),對當(dāng)前基于遷移學(xué)習(xí)的COVID-19 檢測診斷模型進(jìn)行分析和比較。

表3 不同模型分析和比較Table 3 Analysis and comparison of different models

表3(續(xù))

6.1 數(shù)據(jù)集

對所采用數(shù)據(jù)集的類別進(jìn)行分析,采用CT 數(shù)據(jù)集和胸部X 光數(shù)據(jù)集的分類模型比例大致相等。由于CT 圖像中往往包含更多的細(xì)節(jié),早期研究者更多采用CT 圖像作為數(shù)據(jù)集,但是CT 掃描圖像采集時(shí)間較長、采集的成本較高。而胸部X 射線成像技術(shù)在許多臨床站點(diǎn)更加成熟也更便宜,因此后期使用胸部X 射線的研究也開始逐步增多。從采用的數(shù)據(jù)集的大小可以看出,目前關(guān)于COVID-19 的CT 掃描圖像和胸部X 射線圖像數(shù)據(jù)集大多屬于小型數(shù)據(jù)集,因此許多研究采用了有監(jiān)督的幾何變換,即對圖像進(jìn)行水平和垂直翻轉(zhuǎn)、剪切變換、隨機(jī)翻轉(zhuǎn)等操作,以增大各類圖像的占比。從數(shù)據(jù)集的類別占比可以得出,大多數(shù)據(jù)集具有類別不平衡的特點(diǎn)。和其他成像領(lǐng)域相比較,醫(yī)學(xué)圖像領(lǐng)域的數(shù)據(jù)集大多封存于醫(yī)院的專有數(shù)據(jù)庫中,由于涉及患者的隱私,可能會(huì)阻礙數(shù)據(jù)的公開和獲取。因此COVID-19 陽性病例圖像數(shù)量占比普遍較小,大多研究采用無監(jiān)督的GAN 生成COVID-19 類別的圖像,以增大COVID-19圖像的占比。

6.2 采用模型

大多研究采用的骨架網(wǎng)絡(luò)為VGG、ResNet、DenseNet 和Inception 等當(dāng)前比較流行的預(yù)訓(xùn)練模型,對胸部X 射線圖像和CT 圖像的特征進(jìn)行有效提取,最后對圖像進(jìn)行分類。所采用的遷移學(xué)習(xí)模型通常有兩種遷移策略:第一種策略通過預(yù)訓(xùn)練模型進(jìn)行特征提取,不改變預(yù)訓(xùn)練模型的初始框架和所有學(xué)習(xí)的權(quán)重。骨架網(wǎng)絡(luò)僅充當(dāng)特征提取器,將提取到的特征送到執(zhí)行分類任務(wù)的新網(wǎng)絡(luò)中。該方法避免了從頭開始訓(xùn)練深層網(wǎng)絡(luò)所帶來的計(jì)算成本。第二種策略較第一種策略更為復(fù)雜,首先對骨架網(wǎng)絡(luò)進(jìn)行特定修改,這些修改可能包括架構(gòu)調(diào)整和參數(shù)調(diào)整。只保留從先前任務(wù)中挖掘的特征,而將新的可訓(xùn)練參數(shù)插入網(wǎng)絡(luò)。這些新參數(shù)需要使用大量的數(shù)據(jù)進(jìn)行訓(xùn)練,才能發(fā)揮優(yōu)勢。

6.3 分類類型

基于遷移學(xué)習(xí)的診斷模型分類類型包含二分類、三分類和四分類,具體將胸部X 射線圖像和CT圖像根據(jù)健康、病毒性肺炎、細(xì)菌性肺炎和COVID-19 陽性進(jìn)行分類。大部分研究的分類類型僅包含二分類,只將圖像區(qū)分為感染COVID-19 或正常。只有少部分研究會(huì)細(xì)化到三分類或四分類,三分類將圖像區(qū)分為感染COVID-19、健康、患有其他肺炎;而四分類則是將其他肺炎再細(xì)分為感染病毒性肺炎或細(xì)菌性肺炎。選擇二分類雖然可以加快模型的診斷速度,但是并不能診斷患者是否患有普通肺炎,不便于對患者進(jìn)行后續(xù)治療。

6.4 性能評價(jià)

在上述研究中,采用的評價(jià)指標(biāo)主要包括準(zhǔn)確率、精確率、特異性、召回率,少數(shù)研究加入了F1-score和AUC 指標(biāo)。大部分研究性能能達(dá)到90%以上,少部分在85%左右。由于該分類任務(wù)屬于醫(yī)療診斷,在保證準(zhǔn)確率的條件下,應(yīng)盡可能提升召回率,更高的召回率表示模型將COVID-19 陽性病例劃分為無COVID-19 癥狀病例的情況更少,即假陰性率更少。然而由于數(shù)據(jù)集的大小和質(zhì)量,以及分類類型的不同,無法對不同研究的模型僅從性能評價(jià)上進(jìn)行單一比較。

7 未來發(fā)展

大多情況下,從頭開始訓(xùn)練一個(gè)深度學(xué)習(xí)模型需要較高計(jì)算能力的硬件和較大的數(shù)據(jù)集,才能保證訓(xùn)練的效果,而使用有限的訓(xùn)練樣本學(xué)習(xí)大量的參數(shù)往往會(huì)導(dǎo)致過擬合。此外,從頭開始訓(xùn)練模型也是相當(dāng)耗時(shí)的。遷移學(xué)習(xí)的預(yù)訓(xùn)練模型可以在小型數(shù)據(jù)集上更快地收斂。由于COVID-19 病例的迅速增加,SARS-CoV-2 核酸檢測試劑短缺且效率低下,將醫(yī)學(xué)圖像與遷移學(xué)習(xí)結(jié)合有助于在COVID-19快速傳播期間提供更快、更準(zhǔn)確的結(jié)果。雖然遷移學(xué)習(xí)在COVID-19 的診斷中表現(xiàn)出了良好的性能,但仍然存在一些局限性,對此本文針對數(shù)據(jù)集、多模態(tài)數(shù)據(jù)、噪聲處理、分類類型、集成模型、不確定性量化六方面,提出了當(dāng)前存在的問題以及未來的發(fā)展方向。

7.1 數(shù)據(jù)集

當(dāng)前的數(shù)據(jù)集種類較多,大部分研究采用公開的數(shù)據(jù)集,少部分研究采用私有的數(shù)據(jù)集。公開數(shù)據(jù)集普遍較小,容易產(chǎn)生過擬合問題。而私有的數(shù)據(jù)集所訓(xùn)練的模型,由于研究中所使用的數(shù)據(jù)集不公開,這些工作很難被復(fù)制和采用。

上述問題都將導(dǎo)致最終的自動(dòng)診斷系統(tǒng)無法應(yīng)用于臨床診斷,因此創(chuàng)建一個(gè)公開的數(shù)量和質(zhì)量都較高的統(tǒng)一數(shù)據(jù)集,供研究者使用是非常必要的。擴(kuò)大數(shù)據(jù)集的規(guī)模能提升模型的魯棒性,提高數(shù)據(jù)集的質(zhì)量能夠提高模型的性能,并且數(shù)據(jù)集統(tǒng)一有利于對不同模型進(jìn)行比較。另一個(gè)問題是數(shù)據(jù)集的標(biāo)注問題,采用人工標(biāo)注的方法不僅耗時(shí),且標(biāo)注的數(shù)據(jù)帶有主觀性,未來的研究可以將遷移學(xué)習(xí)與自監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)協(xié)同集成,消除數(shù)據(jù)集的限制。

7.2 多模態(tài)數(shù)據(jù)

通過數(shù)據(jù)增強(qiáng)產(chǎn)生的人工圖像來自同一個(gè)訓(xùn)練數(shù)據(jù)集,其提高特征的多樣性和豐富性的能力是有限的。例如采用有監(jiān)督的幾何變換,隨機(jī)旋轉(zhuǎn)圖像可以生成代表同一類新像素值的圖像,但如果圖像不是方形圖像,可能會(huì)丟失信息;采用無監(jiān)督的GAN進(jìn)行數(shù)據(jù)的擴(kuò)充時(shí),如何避免對抗網(wǎng)絡(luò)訓(xùn)練過程中的非收斂性是一個(gè)非常具有挑戰(zhàn)性的問題,而梯度消失和梯度爆炸使得對抗性網(wǎng)絡(luò)的訓(xùn)練過程非常困難。

在這種情況下,采用多模態(tài)研究可能是提高模型性能的一個(gè)更有效的方法,與單模態(tài)分析相比,多模態(tài)數(shù)據(jù)集往往能達(dá)到更高的性能[60]。例如在COVID-19 的檢測中,大多數(shù)研究僅使用一個(gè)單一的順序架構(gòu),多模態(tài)研究通過采用兩個(gè)平行的特征提取器,一個(gè)提取CT 掃描圖像的特征,另一個(gè)提取X射線圖像的特征,將這兩個(gè)特征在分類前進(jìn)行組合,從而進(jìn)一步提高模型的性能,這也是一個(gè)很有價(jià)值的研究方向。

7.3 噪聲處理

X 射線通過給人體傳播一定的輻射,被人體不同的組織吸收后,最終呈現(xiàn)在膠片上。在這個(gè)過程中,一些輻射發(fā)生散射后會(huì)在X 射線圖像上產(chǎn)生噪聲,主要有椒鹽噪聲和泊松噪聲。這些噪聲會(huì)給后續(xù)特征提取帶來干擾,因此處理這些噪聲數(shù)據(jù)非常重要。

而上述研究中只有極少數(shù)研究對噪聲進(jìn)行了處理,大部分研究所使用的數(shù)據(jù)集都是清晰X 射線。為了將模型運(yùn)用于現(xiàn)實(shí)場景中,當(dāng)采用帶噪聲的數(shù)據(jù)集時(shí)可以使用合適的濾波器來消除此類噪聲,以提高噪聲數(shù)據(jù)集的準(zhǔn)確率。

7.4 分類類型

隨著類別數(shù)量的增加,對圖像的分類變得更加困難。相比之下,二分類情況更容易處理,因此當(dāng)前大部分研究側(cè)重于對圖像進(jìn)行二分類,即分為COVID-19 或正常,這導(dǎo)致多分類研究存在空白。

由于新冠肺炎與其他肺炎在圖像特點(diǎn)具有相似的表現(xiàn),未來研究可以考慮選擇多類肺炎以及COVID-19 圖像,對分類的類型進(jìn)行細(xì)化,加入多分類問題,這也便于醫(yī)生對患有其他類型肺炎的患者進(jìn)行后續(xù)治療。X 射線也能用于檢測COVID-19,但它不能提供感染肺部的細(xì)節(jié)。CT 掃描則是一種更復(fù)雜的技術(shù),圖像往往包含更多的細(xì)節(jié),在預(yù)測疾病感染嚴(yán)重程度方面非常敏感,后續(xù)研究可以對確診COVID-19 的圖像進(jìn)行嚴(yán)重程度分級,如果是重癥患者便于醫(yī)生立即采取相應(yīng)的治療方案,最大程度挽救患者的生命。

7.5 集成模型

最初將遷移學(xué)習(xí)應(yīng)用于COVID-19 的診斷時(shí),大部分研究所采用的模型都是單一的預(yù)訓(xùn)練網(wǎng)絡(luò),或者對預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行簡單調(diào)整后再將數(shù)據(jù)集放入進(jìn)行訓(xùn)練,訓(xùn)練出的模型效果不佳。集成學(xué)習(xí)通過并行訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)來解決分類任務(wù),可以解決由深度學(xué)習(xí)網(wǎng)絡(luò)產(chǎn)生的高方差問題,并且集成模型的效果優(yōu)于單一網(wǎng)絡(luò)。

希望研究者在未來的研究中能夠提供更高性能的集成網(wǎng)絡(luò)。除此之外,還可以將實(shí)驗(yàn)結(jié)果和醫(yī)學(xué)圖像以及患者的臨床表現(xiàn)相結(jié)合,以便更加全面地診斷COVID-19,對于已確診的患者增加風(fēng)險(xiǎn)分析和生存預(yù)測,這將預(yù)測感染是否會(huì)威脅患者的生命,從而有針對性地對患者制定診療計(jì)劃。

7.6 不確定性量化

深度學(xué)習(xí)模型需要考慮以下兩種不確定性:一是由于數(shù)據(jù)本身包含噪聲所產(chǎn)生的偶然不確定性,是數(shù)據(jù)分布的固有屬性,因此它是不可約的;二是由于模型訓(xùn)練不佳產(chǎn)生的認(rèn)知不確定性[56],通過收集更多的數(shù)據(jù)能夠減少這種不確定性。但是COVID-19的數(shù)據(jù)集比較匱乏,目前大多模型并沒有對新病例給出一個(gè)置信度,錯(cuò)誤的診斷可能會(huì)導(dǎo)致疫情持續(xù)傳播,如果模型在輸出結(jié)果的同時(shí),輸出了一個(gè)較低的置信度,就需要專家介入對其進(jìn)行診斷,這樣可以從很大程度上減少誤判的概率,因此對模型進(jìn)行不確定性量化非常有必要[61]。評估不確定性模型當(dāng)前普遍存在的挑戰(zhàn)有缺乏理論基礎(chǔ)、對不完整數(shù)據(jù)的敏感性低、計(jì)算量大等。

深度學(xué)習(xí)領(lǐng)域常用的不確定性評估方法有貝葉斯深度學(xué)習(xí)[62]、蒙特卡洛[63]、馬爾可夫鏈蒙特卡洛[64]。貝葉斯的核心在于求解后驗(yàn)分布,然而在深層網(wǎng)絡(luò)中,后驗(yàn)分布很難求解,只能通過近似的方法解決后驗(yàn)分布的求解問題。貝葉斯深度學(xué)習(xí)將貝葉斯概率論與深度學(xué)習(xí)相結(jié)合,為應(yīng)對復(fù)雜問題中的不確定性建模與推斷提供了強(qiáng)大的工具。其對過擬合問題具有較強(qiáng)的魯棒性,可應(yīng)用于小型數(shù)據(jù)集。蒙特卡洛(Monte-Carlo,MC)方法可以近似后驗(yàn)推斷,但是集成到深度架構(gòu)中時(shí),存在計(jì)算緩慢且計(jì)算成本較高的缺點(diǎn)。為了解決上述問題,引入了MC dropout[65],其原理是在訓(xùn)練和測試階段都使用dropout作為正則項(xiàng)計(jì)算預(yù)測的不確定性。然而該方法在樣本集中的情況下,所預(yù)測的不確定性較低;在樣本稀疏的情況下,不確定性會(huì)明顯增大。馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo,MCMC)是另一種近似后驗(yàn)分布的有效方法,所采樣的方法都是無偏的。但其需要迭代的次數(shù)過多,達(dá)到期望分布的收斂時(shí)間較長?;谏鲜鰡栴},提出了隨機(jī)梯度馬爾可夫鏈蒙特卡洛(stochastic gradient MCMC,SG-MCMC)[66],它只需要估計(jì)小批量數(shù)據(jù)的梯度,因此可以較快收斂到真正的后驗(yàn)分布。

在未來的研究中,需要對各種不確定性量化的方法加強(qiáng)理論分析。在采用半監(jiān)督學(xué)習(xí)自動(dòng)生成數(shù)據(jù)標(biāo)簽時(shí),可以將不確定性量化方法與之結(jié)合。此外,還可以將其應(yīng)用于數(shù)字醫(yī)療領(lǐng)域,量化其不確定性,并將其部署到真實(shí)的臨床環(huán)境中,這也是一個(gè)值得研究的方向。

8 結(jié)束語

本文研究了幾種基于遷移學(xué)習(xí)檢測COVID-19的診斷模型,并闡明了這些模型的特點(diǎn)。首先,表1和表2 分別展示了公開的X 射線和胸部CT 數(shù)據(jù)集,詳細(xì)描述了數(shù)據(jù)集來源、分布、占比等。然后討論了數(shù)據(jù)預(yù)處理的方法,最常見的方法是尺寸調(diào)整,使用GAN 方法的研究占比較小。接著按照模型分類闡述了各個(gè)模型的特點(diǎn),以及常用的模型評估方法。一些研究結(jié)合了可視化技術(shù)(即CAM、Grad-CAM、Grad-CAM++、LIME 和LRP),以突出與預(yù)測結(jié)果密切相關(guān)的關(guān)鍵區(qū)域,最常用的可視化技術(shù)是基于CT掃描和X 射線模型的Grad-CAM。最后整理和總結(jié)了當(dāng)前領(lǐng)域面臨的問題并提供了未來的研究方向。希望本綜述能為研究人員和放射科醫(yī)生提供指導(dǎo)。

猜你喜歡
胸部準(zhǔn)確率分類
分類算一算
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
胸部腫瘤放療后椎體對99Tcm-MDP的攝取表現(xiàn)及分析
分類討論求坐標(biāo)
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
家兔急性肺損傷胸部超聲與病理的相關(guān)性