基于多時(shí)期蒸餾網(wǎng)絡(luò)的隨訪數(shù)據(jù)知識(shí)提取方法

2021-11-05 01:29魏淳武趙涓涓唐笑先

計(jì)算機(jī)應(yīng)用 2021年10期

魏淳武，趙涓涓*，唐笑先，強(qiáng) 彥

（1.太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院，山西晉中 030600；2.山西省人民醫(yī)院影像科，太原 030012）

0 引言

由于低劑量計(jì)算機(jī)斷層掃描（Computed Tomography，CT）的出現(xiàn)和應(yīng)用以及肺癌高風(fēng)險(xiǎn)人群對(duì)于大量隨訪篩查CT 工作的需求，基于低劑量CT的肺部基線以及隨訪篩查相比過(guò)去更加重要。盡管研究者Alberle等［1］通過(guò)實(shí)驗(yàn)和統(tǒng)計(jì)證明低劑量CT對(duì)于降低肺癌致死率的作用，但大量的篩查工作仍然會(huì)增加那些無(wú)法確認(rèn)的低風(fēng)險(xiǎn)病人的致死率，同時(shí)會(huì)帶來(lái)不必要的醫(yī)療負(fù)擔(dān)。近期在《柳葉刀》和Nature子刊上發(fā)表的關(guān)于基于低劑量CT的隨訪篩查研究表明，使用深度學(xué)習(xí)方法進(jìn)行肺癌風(fēng)險(xiǎn)預(yù)測(cè)可以有效減少這種不必要的篩查工作。此外，國(guó)際醫(yī)學(xué)圖像頂級(jí)會(huì)議（Medical Image Computing and Computer Assisted Intervention，MICCAI）也在2019 年的總結(jié)展望中指出，利用隨訪數(shù)據(jù)和深度學(xué)習(xí)方法挖掘出更多信息的工作是目前醫(yī)學(xué)圖像研究的一大重點(diǎn)。

基于以上兩點(diǎn)可以看出，合理利用隨訪數(shù)據(jù)進(jìn)行分類(lèi)預(yù)測(cè)的工作具有重要意義，但是，目前有關(guān)肺結(jié)節(jié)的公開(kāi)數(shù)據(jù)集中，僅有美國(guó)國(guó)家肺部篩查實(shí)驗(yàn)（National Lung Screening Trial，NLST）作為公開(kāi)數(shù)據(jù)提供包括3 年的隨訪信息的低劑量CT數(shù)據(jù)，同時(shí)也有相關(guān)研究者在此數(shù)據(jù)的基礎(chǔ)上做肺癌預(yù)測(cè)工作。文獻(xiàn)［2］中研究者聯(lián)合了三家機(jī)構(gòu)（約翰霍普金斯大學(xué)、英國(guó)哥倫比亞癌癥研究機(jī)構(gòu)、美國(guó)國(guó)家癌癥研究機(jī)構(gòu)）分別以雙盲方式進(jìn)行了數(shù)據(jù)再標(biāo)注和模型驗(yàn)證，證明了利用長(zhǎng)時(shí)期的數(shù)據(jù)可以有效預(yù)測(cè)基線年下肺結(jié)節(jié)的變化。類(lèi)似的，Google 研究者［3］借助至少6個(gè)放射學(xué)專(zhuān)家對(duì)NLST的數(shù)據(jù)進(jìn)行了再標(biāo)注和驗(yàn)證。盡管兩者已經(jīng)能夠在NLST 使用深度學(xué)習(xí)模型實(shí)現(xiàn)較高的良惡性概率預(yù)測(cè)水平，但是對(duì)于普通研究者來(lái)說(shuō)，花費(fèi)如此多的資源進(jìn)行精確的數(shù)據(jù)標(biāo)注是非常困難且?guī)缀鯚o(wú)法實(shí)現(xiàn)的。實(shí)際上，無(wú)論是通用圖像還是醫(yī)學(xué)圖像，大部分研究也都存在樣本標(biāo)準(zhǔn)困難導(dǎo)致數(shù)據(jù)不足的問(wèn)題，標(biāo)注良好的數(shù)據(jù)可以在穩(wěn)定的模型中展現(xiàn)出優(yōu)越的效果，但是往往實(shí)際求解過(guò)程中遇到的都是數(shù)據(jù)信息不完整、標(biāo)注缺失等類(lèi)似的問(wèn)題。

對(duì)于解決這類(lèi)問(wèn)題，在通用圖像下，目前的大多研究工作可以分為兩大類(lèi)：對(duì)于有標(biāo)記的數(shù)據(jù)量少且存在大量無(wú)標(biāo)記數(shù)據(jù)的場(chǎng)景，研究者往往會(huì)結(jié)合一些小樣本學(xué)習(xí)方法解決問(wèn)題。Sung 等［4］提出一種基于關(guān)系的小樣本學(xué)習(xí)，該方法在幾個(gè)基準(zhǔn)（Baseline）數(shù)據(jù)集上取得了不錯(cuò)的效果；Snell 等［5］提出基于原型網(wǎng)絡(luò)的小樣本學(xué)習(xí)，該方法有效提升了同類(lèi)樣本的分布差異計(jì)算能力，但是并未考慮區(qū)分異類(lèi)樣本的分布邊界問(wèn)題；Santoro 等［6］則提出基于模型的小樣本學(xué)習(xí)，將計(jì)算機(jī)原理和深度學(xué)習(xí)進(jìn)行了結(jié)合。上述方法均為小樣本學(xué)習(xí)的經(jīng)典理論方法，后續(xù)也有研究基于其思路不斷擴(kuò)展，但是此類(lèi)方法僅從樣本多樣性較為單一的角度進(jìn)行設(shè)計(jì)，并不適用于樣本多樣性較復(fù)雜的醫(yī)學(xué)圖像問(wèn)題。對(duì)于兩種有標(biāo)記數(shù)據(jù)一類(lèi)數(shù)據(jù)量小、另一類(lèi)數(shù)據(jù)量大的場(chǎng)景，則有改進(jìn)的元學(xué)習(xí)方法［7］、遷移學(xué)習(xí)［8］、領(lǐng)域自適應(yīng)［9］為代表的一些方向。對(duì)于醫(yī)學(xué)圖像尤其肺結(jié)節(jié)分類(lèi)這一領(lǐng)域，出現(xiàn)最多的研究工作基于第一類(lèi)場(chǎng)景，因?yàn)獒t(yī)學(xué)圖像數(shù)據(jù)的采樣過(guò)程并不困難，但是進(jìn)行合理的標(biāo)注則需要放射學(xué)家參與且耗費(fèi)資源很大。所以存在大量未標(biāo)注的數(shù)據(jù)和少量已標(biāo)注的數(shù)據(jù)，Wang 等［10］基于NLST 數(shù)據(jù)提出了一種半監(jiān)督的三維模型且取得了不錯(cuò)的效果，由于NLST 并非三維數(shù)據(jù)，其僅將其作為未標(biāo)注的數(shù)據(jù)集使用，實(shí)際上使用的已標(biāo)注數(shù)據(jù)來(lái)源于私人數(shù)據(jù)集，并且沒(méi)有利用到相關(guān)隨訪信息。而本文研究的實(shí)際問(wèn)題從隨訪信息出發(fā)：首先，長(zhǎng)時(shí)期數(shù)據(jù)本身具有一定特征，以NLST為例，它由三年數(shù)據(jù)組成，但是基線年的數(shù)據(jù)與第2、3 年也有所不同，相較于基線年，隨訪兩年的數(shù)據(jù)存在很大的不平衡。其次，不同年份間序列對(duì)應(yīng)的切片可能因?yàn)橥庠谝蛩貨](méi)有掃描到應(yīng)該有的結(jié)節(jié)信息（如圖1），這類(lèi)數(shù)據(jù)無(wú)法作為樣本使用。類(lèi)似的信息導(dǎo)致本文研究收集到的838 例隨訪三年的數(shù)據(jù)中僅有399 例可以作為有效數(shù)據(jù)集。同時(shí)，就NLST本身而言并沒(méi)有獨(dú)立同分布的其他大量標(biāo)記過(guò)的相關(guān)數(shù)據(jù)集輔助訓(xùn)練。

圖1 隨訪年無(wú)效數(shù)據(jù)示例Fig.1 Example of invalid data in follow-up year

此外，目前的研究中大多使用隨訪數(shù)據(jù)輔助分類(lèi)預(yù)測(cè)任務(wù)，但是這些研究并沒(méi)有充分利用到隨訪指南中的領(lǐng)域知識(shí)。在長(zhǎng)時(shí)期數(shù)據(jù)中，隨訪指南具有重要作用，醫(yī)學(xué)領(lǐng)域方面，Pinsky 等［11］首次提出基于肺成像報(bào)告數(shù)據(jù)系統(tǒng)（Lung imaging Reporting And Data system，Lung-RADs）指導(dǎo)下隨訪的效果優(yōu)于一般分期標(biāo)準(zhǔn)，Martin 等［12］認(rèn)為L(zhǎng)ung-RADs 解決了以往隨訪過(guò)程中隨訪指導(dǎo)信息結(jié)構(gòu)不完整導(dǎo)致醫(yī)生漏診、錯(cuò)診的問(wèn)題，楊健等［13］則詳細(xì)說(shuō)明了Lung-RADs系統(tǒng)的價(jià)值，同時(shí)解讀了它所具備的一些領(lǐng)域知識(shí)。Veasey等［14］在Lung-RADs分級(jí)系統(tǒng)下結(jié)合NLST數(shù)據(jù)集實(shí)現(xiàn)了肺結(jié)節(jié)良惡性任務(wù)，但是并沒(méi)有考慮隨訪時(shí)間等在實(shí)現(xiàn)對(duì)長(zhǎng)時(shí)期數(shù)據(jù)分類(lèi)時(shí)應(yīng)注意的領(lǐng)域知識(shí)（如對(duì)隨訪少于2 年且CT 中實(shí)性結(jié)節(jié)的判斷如果隨訪2年后無(wú)顯著變化可以將類(lèi)別歸為良性結(jié)節(jié)，具體問(wèn)題模型以及相關(guān)領(lǐng)域知識(shí)如圖2所示）。

圖2 隨訪知識(shí)示意圖Fig.2 Schematic diagram of follow-up knowledge

基于上述問(wèn)題，本文在缺少一定隨訪數(shù)據(jù)標(biāo)注信息的情況下，提出了一種基于知識(shí)蒸餾技術(shù)的遷移學(xué)習(xí)方法，并將其應(yīng)用于多時(shí)期下少量樣本的結(jié)節(jié)分類(lèi)訓(xùn)練。本文具體工作如下：

1）首先，和傳統(tǒng)的肺結(jié)節(jié)分類(lèi)與長(zhǎng)時(shí)期良惡性預(yù)測(cè)不同，本文提出了一種從多時(shí)期數(shù)據(jù)中提取知識(shí)的方法用于引導(dǎo)模型訓(xùn)練，通過(guò)引入領(lǐng)域自適應(yīng)參數(shù)改善最終的網(wǎng)絡(luò)損失，并在網(wǎng)絡(luò)輸出前利用領(lǐng)域信息微調(diào)最終網(wǎng)絡(luò)參數(shù)使網(wǎng)絡(luò)能夠有效學(xué)習(xí)到隨訪信息的領(lǐng)域知識(shí)。

2）本文從數(shù)據(jù)規(guī)模小、基線數(shù)據(jù)與隨訪數(shù)據(jù)存在不平衡的問(wèn)題出發(fā)，提出了一種用于肺結(jié)節(jié)隨訪數(shù)據(jù)增強(qiáng)的基于元學(xué)習(xí)思想的多時(shí)期數(shù)據(jù)訓(xùn)練方法。該方法可以有效改善肺部CT隨訪數(shù)據(jù)量不足的問(wèn)題。

1 相關(guān)工作

1.1 長(zhǎng)時(shí)期肺結(jié)節(jié)良惡性預(yù)測(cè)

長(zhǎng)時(shí)期肺結(jié)節(jié)預(yù)測(cè)工作來(lái)源于肺癌病人的實(shí)際篩查流程。病人進(jìn)行了基線篩查后，原本醫(yī)生會(huì)根據(jù)CT情況指導(dǎo)病人的隨訪篩查工作，后續(xù)研究者發(fā)現(xiàn)利用深度學(xué)習(xí)方法可以預(yù)測(cè)到隨訪篩查的結(jié)果，從而避免了一些不必要的隨訪篩查工作，降低了醫(yī)療負(fù)擔(dān)。早期的長(zhǎng)時(shí)期肺結(jié)節(jié)檢測(cè)研究大多基于私有數(shù)據(jù)集，且沒(méi)有公開(kāi)有效的實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)，條件上的困難阻礙了大部分研究者的工作，但由于隨訪篩查的必要性，對(duì)此的研究卻從未停止。

在2019 年Huang 等［2］于的Lancet上提出了一種深度學(xué)習(xí)方法用于對(duì)至少有兩年隨訪數(shù)據(jù)下肺癌的良惡性概率預(yù)測(cè)，該研究基于NLST 以及Pan Can（Pan-Canadian Early Detection of Lung Cancer）兩大公共數(shù)據(jù)。實(shí)驗(yàn)的分類(lèi)標(biāo)準(zhǔn)基于Lung-RADs，該研究表明了基于目前的一些公開(kāi)數(shù)據(jù)信息，利用兩年隨訪數(shù)據(jù)可以有效完成肺結(jié)節(jié)良惡性預(yù)測(cè)。與Huang 等［2］的工作相同，Ardila等［3］則提出了一種端到端的三維肺結(jié)節(jié)良惡性預(yù)測(cè)模型，同時(shí)在NLST 上的表現(xiàn)要優(yōu)于6 個(gè)放射學(xué)家，達(dá)到了96%的預(yù)測(cè)精度。當(dāng)前研究者們對(duì)于長(zhǎng)時(shí)期肺結(jié)節(jié)良惡性的預(yù)測(cè)工作大多在于如何利用特征融合方法［15］、三維技術(shù)［16］、循環(huán)神經(jīng)網(wǎng)絡(luò)［17］或者其他方法去改進(jìn)預(yù)測(cè)效果。本文工作參考了這些研究的問(wèn)題模型與求解問(wèn)題的思路，并且提出了基于當(dāng)前研究方向的一個(gè)新的任務(wù)：如何在基線數(shù)據(jù)與隨訪數(shù)據(jù)不平衡的情況下提升訓(xùn)練效果。

1.2 知識(shí)引導(dǎo)醫(yī)學(xué)圖像分類(lèi)

分類(lèi)任務(wù)一直以來(lái)作為肺部相關(guān)乃至整個(gè)醫(yī)學(xué)圖像研究者的基本問(wèn)題。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，研究者不斷利用傳統(tǒng)醫(yī)學(xué)圖像處理方法與深度學(xué)習(xí)方法結(jié)合的方式來(lái)提高病灶分類(lèi)精度或者解決更細(xì)粒度的分類(lèi)問(wèn)題。通常情況下，一些根據(jù)專(zhuān)家既定的經(jīng)驗(yàn)手工提取的特征在深度模型中又叫作知識(shí)，研究者利用這種知識(shí)來(lái)引導(dǎo)深度模型的訓(xùn)練往往能取得不錯(cuò)的效果。Xie等［18］提出了基于知識(shí)的協(xié)同模型，從多視圖的角度出發(fā)，分別結(jié)合深度模型表征了肺結(jié)節(jié)的整體外觀、體素屬性、異質(zhì)性，最終以9種視圖訓(xùn)練出9個(gè)子模型有效降低了肺結(jié)節(jié)分類(lèi)假陽(yáng)性概率。在2018 年，Xie 等［19］提出了在決策層融合紋理、形狀、深度特征的模型，在LIDC數(shù)據(jù)集上實(shí)現(xiàn)高效肺結(jié)節(jié)分類(lèi)。本文研究參考了以上研究對(duì)于知識(shí)引導(dǎo)模型學(xué)習(xí)更深層特征表示的方法，同時(shí)也提出了一種知識(shí)引導(dǎo)模型訓(xùn)練的方法，不同之處在于之前的研究大多局限于圖像本身所帶來(lái)的特征與信息，而忽略了診斷過(guò)程中圖像外的一些信息（如隨訪過(guò)程中，醫(yī)生對(duì)于隨訪數(shù)據(jù)所提出的一些經(jīng)驗(yàn)性思路）?；谶@一點(diǎn)，本文模型充分考慮到了隨訪信息作為知識(shí)來(lái)輔助訓(xùn)練與隨訪相關(guān)的低劑量CT 數(shù)據(jù)以獲得性能上的提升。

1.3 知識(shí)蒸餾網(wǎng)絡(luò)研究

知識(shí)蒸餾的概念最初由Hinton 等［20］于2015 年提出，它是一種從網(wǎng)絡(luò)參數(shù)較多的教師網(wǎng)絡(luò)提取暗知識(shí)到參數(shù)較少的學(xué)生網(wǎng)絡(luò)的方法，并被應(yīng)用于模型壓縮的任務(wù)場(chǎng)景。從2015 年至今，不斷有研究者對(duì)知識(shí)蒸餾進(jìn)行方法上的改進(jìn)，Romero等［21］從Hint-based training 的角度先提取教師網(wǎng)絡(luò)的知識(shí)，利用hint-based損失進(jìn)行監(jiān)督訓(xùn)練，誘導(dǎo)學(xué)生網(wǎng)絡(luò)學(xué)習(xí)到與教師相似的表達(dá)，該方法將原本蒸餾過(guò)程中直接學(xué)習(xí)教師網(wǎng)絡(luò)輸出結(jié)果的思想轉(zhuǎn)變?yōu)閷W(xué)習(xí)中間層的特征。這一思想后來(lái)在知識(shí)蒸餾領(lǐng)域也被稱(chēng)為從中間層提取知識(shí)。到2017 年，Yim等［22］拓展了這一思想，指出利用從中間層提取知識(shí)的方法，不僅可以完成網(wǎng)絡(luò)壓縮的任務(wù)，甚至可以將中間知識(shí)作為遷移學(xué)習(xí)方法來(lái)實(shí)現(xiàn)更多場(chǎng)景下的任務(wù)，而Zagoruyko 等［23］則實(shí)現(xiàn)了注意力機(jī)制和知識(shí)蒸餾的結(jié)合并應(yīng)用于模型遷移。后續(xù)研究中，知識(shí)蒸餾用于模型遷移的思想得到了更多應(yīng)用與改進(jìn)，Chen 等［24］利用知識(shí)蒸餾方法實(shí)現(xiàn)了圖像像素級(jí)的域遷移，Gupta等［25］首次提出了交叉模態(tài)數(shù)據(jù)進(jìn)行知識(shí)蒸餾的思想，該思想擴(kuò)展了知識(shí)蒸餾在模型遷移方向的應(yīng)用范圍。Zhao等［26］參考MetaDistiller［27］和MetaReg 方法［28］提出了一種交叉模態(tài)知識(shí)蒸餾的應(yīng)用方法，具體將元學(xué)習(xí)和知識(shí)蒸餾方法進(jìn)行結(jié)合并用于將一種模態(tài)的知識(shí)遷移到另一種模態(tài)當(dāng)中，該方法有效解決了多模態(tài)數(shù)據(jù)中某一模態(tài)下數(shù)據(jù)量不足的問(wèn)題。受此研究的啟發(fā)，本文將不同模態(tài)的數(shù)據(jù)下信息遷移的問(wèn)題轉(zhuǎn)變?yōu)殚L(zhǎng)時(shí)期醫(yī)學(xué)數(shù)據(jù)下基線數(shù)據(jù)與隨訪數(shù)據(jù)的信息遷移，同樣彌補(bǔ)了隨訪數(shù)據(jù)信息不足對(duì)肺結(jié)節(jié)分類(lèi)判斷的影響。

2 長(zhǎng)時(shí)期知識(shí)蒸餾網(wǎng)絡(luò)

2.1 多時(shí)期數(shù)據(jù)知識(shí)蒸餾網(wǎng)絡(luò)

假設(shè)輸入圖像數(shù)據(jù)x為基線數(shù)據(jù)，對(duì)應(yīng)之后第1 年和第2年的隨訪數(shù)據(jù)為。訓(xùn)練過(guò)程中，每個(gè)分支的網(wǎng)絡(luò)分別對(duì)應(yīng)一種數(shù)據(jù)，基線類(lèi)數(shù)據(jù)的標(biāo)簽信息為y，該標(biāo)簽主要參考基線的分類(lèi)標(biāo)注標(biāo)準(zhǔn)得到，而隨訪第1年和第2年的標(biāo)簽則會(huì)參考到前一年或者前兩年的標(biāo)注分別記為。基于最終得到的基線年數(shù)據(jù)(x，y)訓(xùn)練出教師網(wǎng)絡(luò)模型f，對(duì)應(yīng)圖3 的第1個(gè)分支結(jié)構(gòu)，其中將教師網(wǎng)絡(luò)參數(shù)表示為ω，訓(xùn)練教師網(wǎng)絡(luò)過(guò)程使用損失函數(shù)為七分類(lèi)問(wèn)題的交叉熵?fù)p失表示為L(zhǎng)T。訓(xùn)練得到教師網(wǎng)絡(luò)后，本文進(jìn)一步構(gòu)建了知識(shí)蒸餾網(wǎng)絡(luò)（網(wǎng)絡(luò)結(jié)構(gòu)如圖3，Group 結(jié)構(gòu)如圖4），并通過(guò)該網(wǎng)絡(luò)從教師網(wǎng)絡(luò)中提取中間特征到學(xué)生網(wǎng)絡(luò)。此處教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)分別代表基線年下數(shù)據(jù)訓(xùn)練得到的肺結(jié)節(jié)分類(lèi)模型與利用隨訪年下數(shù)據(jù)和教師網(wǎng)絡(luò)監(jiān)督訓(xùn)練得到的帶隨訪知識(shí)的肺結(jié)節(jié)分類(lèi)模型。

圖3 多時(shí)期知識(shí)蒸餾網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of multi-term knowledge distillation network

圖4 Group塊結(jié)構(gòu)Fig.4 Structure of Group block

其中，教師網(wǎng)絡(luò)的知識(shí)主要指來(lái)自基線數(shù)據(jù)的結(jié)節(jié)信息。用以增強(qiáng)性指導(dǎo)學(xué)生網(wǎng)絡(luò)中隨訪數(shù)據(jù)標(biāo)簽訓(xùn)練。本文的知識(shí)蒸餾網(wǎng)絡(luò)同時(shí)提取了教師網(wǎng)絡(luò)中間層和輸出層的激活信息作為引導(dǎo)對(duì)象，假設(shè)網(wǎng)絡(luò)總層數(shù)均為d層，其中第j層的激活圖表示為Aj，則輸出層用于引導(dǎo)知識(shí)蒸餾網(wǎng)絡(luò)訓(xùn)練的損失為式（1）：

其中：學(xué)生網(wǎng)絡(luò)g1的網(wǎng)絡(luò)參數(shù)表示為ξ，對(duì)應(yīng)隨訪第1 年數(shù)據(jù)訓(xùn)練得到的模型。引入該損失的目的是通過(guò)教師模型輸出結(jié)果的概率值差異引導(dǎo)學(xué)生模型的訓(xùn)練，但是實(shí)際訓(xùn)練時(shí)，由于不同年份間的數(shù)據(jù)本身存在的誤差與標(biāo)簽的不統(tǒng)一，無(wú)法僅通過(guò)輸出層約束學(xué)生網(wǎng)絡(luò)收斂得到有效模型，所以本文引入基于Group 塊的注意力損失項(xiàng)，該部分的工作受到文獻(xiàn)［23］工作的啟發(fā)，具體損失定義如式（2）：

不同于LO，LI的作用更偏向于讓學(xué)生網(wǎng)絡(luò)學(xué)習(xí)教師網(wǎng)絡(luò)樣本本身的像素級(jí)的差異，這樣更有利于模型學(xué)習(xí)從外形、輪廓到結(jié)節(jié)宏觀大小等變化。

同時(shí)，因?yàn)檩斎霐?shù)據(jù)結(jié)節(jié)的圖像特征可能存在較大的變化，導(dǎo)致兩年的結(jié)節(jié)信息在圖像層完全不同。這會(huì)使得教師網(wǎng)絡(luò)模型對(duì)標(biāo)簽的引導(dǎo)與隨訪數(shù)據(jù)的引導(dǎo)產(chǎn)生較大分歧，所以本文引入約束因子來(lái)降低這種情況對(duì)損失的影響，具體模型增加了中間層的激活信息作為損失項(xiàng)，并且在設(shè)計(jì)三年數(shù)據(jù)蒸餾損失的時(shí)候考慮到了隨訪第1 年數(shù)據(jù)對(duì)隨訪第2 年數(shù)據(jù)在模型學(xué)習(xí)時(shí)的引導(dǎo)作用要大于基線年對(duì)隨訪第2 年的作用。故本文引入平衡系數(shù)λ來(lái)控制兩者對(duì)蒸餾損失的影響。對(duì)應(yīng)于輸出層和中間層的蒸餾損失項(xiàng)改進(jìn)為式（3）、（4）：

其中：Qavg為當(dāng)前網(wǎng)絡(luò)每個(gè)Group 塊的激活圖的均值，學(xué)生網(wǎng)絡(luò)g2的網(wǎng)絡(luò)參數(shù)為ψ，對(duì)應(yīng)隨訪第2 年數(shù)據(jù)訓(xùn)練得到的模型。最終的蒸餾損失函數(shù)如下：

其中：μ用于平衡兩損失間的量級(jí)，在實(shí)驗(yàn)過(guò)程中最終將其賦值為1E-3。

則多時(shí)期蒸餾網(wǎng)絡(luò)的目標(biāo)函數(shù)可以定義為式（7）：

2.2 Group結(jié)構(gòu)塊

對(duì)于Group 的實(shí)現(xiàn)，本文工作基本上沿用文獻(xiàn)［23］的思想，不同點(diǎn)在于本文使用的Group 塊的數(shù)量以及卷積核的參數(shù)與其不同，文獻(xiàn)［23］中網(wǎng)絡(luò)輸入數(shù)據(jù)的大小為32×32，而本文模型的數(shù)據(jù)輸入為64×64，所以整體網(wǎng)絡(luò)結(jié)構(gòu)有所調(diào)整且網(wǎng)絡(luò)卷積層的padding 均設(shè)置為1。具體每個(gè)Group 塊的具體結(jié)構(gòu)與ResNet的殘差塊結(jié)構(gòu)相對(duì)應(yīng)。

2.3 不平衡數(shù)據(jù)知識(shí)遷移

本文提出的多時(shí)期蒸餾網(wǎng)絡(luò)可以在基線數(shù)據(jù)與隨訪數(shù)據(jù)配對(duì)的情況下，通過(guò)遷移知識(shí)輔助訓(xùn)練。但是實(shí)際情況下，長(zhǎng)時(shí)期的配對(duì)數(shù)據(jù)量非常少，實(shí)驗(yàn)數(shù)據(jù)大多為不平衡狀態(tài)的數(shù)據(jù)，即隨訪數(shù)據(jù)量相對(duì)基線數(shù)據(jù)較少。在這種情況下，如果直接使用網(wǎng)絡(luò)進(jìn)行訓(xùn)練，那么利用僅有的配對(duì)數(shù)據(jù)訓(xùn)練的模型極易造成過(guò)擬合問(wèn)題，網(wǎng)絡(luò)也無(wú)法利用到非配對(duì)的數(shù)據(jù)。因此，本文在原有模型基礎(chǔ)上提出了一種針對(duì)數(shù)據(jù)不平衡問(wèn)題的解決方法。

首先在2.1 節(jié)提出的模型中，通過(guò)蒸餾網(wǎng)絡(luò)將基線數(shù)據(jù)訓(xùn)練的模型f的知識(shí)遷移到模型g1，g2中。當(dāng)隨訪數(shù)據(jù)不足以完整地和基線數(shù)據(jù)進(jìn)行匹配時(shí)，使用現(xiàn)有配對(duì)數(shù)據(jù)訓(xùn)練出一個(gè)正則化項(xiàng)l，用于代替缺失年數(shù)據(jù)與當(dāng)前訓(xùn)練對(duì)應(yīng)年數(shù)據(jù)之間的蒸餾損失項(xiàng)。假設(shè)正則化項(xiàng)參數(shù)代表與目標(biāo)缺失數(shù)據(jù)擬訓(xùn)練模型相同網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)δ，則具體訓(xùn)練的正則化項(xiàng)如式（8）：

其中：μ為控制正則項(xiàng)量級(jí)的訓(xùn)練參數(shù)；ξ對(duì)應(yīng)為相應(yīng)少量的已配對(duì)缺失年的其他數(shù)據(jù)訓(xùn)練得到的參數(shù)。這里以隨訪第1年缺失為例，則對(duì)應(yīng)于多時(shí)期網(wǎng)絡(luò)目標(biāo)函數(shù)式（7）的由正則項(xiàng)替換后函數(shù)表示為式（9）：

如果缺失隨訪第2年數(shù)據(jù)，而可獲取基線年與隨訪第1年的數(shù)據(jù)，則正則項(xiàng)學(xué)習(xí)的目標(biāo)對(duì)應(yīng)為式（3）、（4）對(duì)應(yīng)的蒸餾損失。具體對(duì)應(yīng)算法1步驟中的17）～22）行。

在這部分方法中，假設(shè)NLST的數(shù)據(jù)樣本之間是獨(dú)立同分布的，且基線數(shù)據(jù)與隨訪數(shù)據(jù)的樣本數(shù)據(jù)分布與標(biāo)簽分布映射關(guān)系相同，則使用元學(xué)習(xí)思想進(jìn)行知識(shí)學(xué)習(xí)的算法步驟如算法1 所示，算法以基線年和隨訪第1 年配對(duì)為例，在每輪迭代的每個(gè)批次下首先利用配對(duì)的基線-隨訪數(shù)據(jù)，這里定義為數(shù)據(jù)A，訓(xùn)練出一個(gè)教師網(wǎng)絡(luò)以及學(xué)生網(wǎng)絡(luò)，得到參數(shù)ω，ξ。然后利用配對(duì)數(shù)據(jù)得到的參數(shù)和已有的非配對(duì)數(shù)據(jù)，這里只有基線年數(shù)據(jù)，定義為數(shù)據(jù)B，結(jié)合目標(biāo)函數(shù)M和正則項(xiàng)參數(shù)δ對(duì)θ進(jìn)行訓(xùn)練。這里算法1將數(shù)據(jù)A訓(xùn)練得到的參數(shù)作為數(shù)據(jù)B 要訓(xùn)練的學(xué)生網(wǎng)絡(luò)的初始參數(shù)使用，同時(shí)模型也利用了數(shù)據(jù)B 對(duì)其進(jìn)行微調(diào)訓(xùn)練，這部分目的是得到數(shù)據(jù)A 中隨訪類(lèi)數(shù)據(jù)以及數(shù)據(jù)B 中基線數(shù)據(jù)的分布差異信息，從而訓(xùn)練得到與數(shù)據(jù)B相關(guān)的學(xué)生網(wǎng)絡(luò)模型用于對(duì)其隨訪第一年數(shù)據(jù)進(jìn)行分類(lèi)。在更新正則項(xiàng)的時(shí)候，算法選擇與數(shù)據(jù)B 同源的數(shù)據(jù)C進(jìn)行訓(xùn)練，以避免其發(fā)生過(guò)擬合現(xiàn)象。

算法1 用于知識(shí)遷移的元學(xué)習(xí)方法。

輸入學(xué)習(xí)率α、β，樣本批次K，迭代次數(shù)N，訓(xùn)練數(shù)據(jù)隨訪時(shí)期參數(shù)Y；

輸出正則參數(shù)δ。

3 實(shí)驗(yàn)結(jié)果與分析

本文研究實(shí)驗(yàn)環(huán)境為pytorch 1.2，實(shí)驗(yàn)設(shè)備顯卡為Nvidia TITAN XP，顯存16 GB。實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)來(lái)自美國(guó)癌癥研究機(jī)構(gòu)（National Cancer Institute，NCI）的研究項(xiàng)目NLST，NLST 的數(shù)據(jù)最初用來(lái)比較兩種檢測(cè)肺癌的方式即低劑量CT和標(biāo)準(zhǔn)胸部X 光對(duì)人造成的影響，該實(shí)驗(yàn)對(duì)53 454 個(gè)55～74歲的吸煙者進(jìn)行了調(diào)查并且證明了低劑量CT 相較于標(biāo)準(zhǔn)胸部X光會(huì)降低患者的致死率。但是該數(shù)據(jù)集存在大量的未標(biāo)注結(jié)節(jié)，本文實(shí)驗(yàn)從利用隨訪信息輔助訓(xùn)練角度出發(fā)，結(jié)合NLST 官方已有的標(biāo)注信息以及合作醫(yī)院的兩名放射科醫(yī)師幫助，對(duì)少量實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了標(biāo)注。實(shí)際使用到的標(biāo)注數(shù)據(jù)為838 例隨訪三年的病例，以及399 例隨訪兩年的病例，篩選后總共標(biāo)記約有400組隨訪三年的配對(duì)數(shù)據(jù)，以及800例非配對(duì)數(shù)據(jù)。

實(shí)驗(yàn)的部分測(cè)試數(shù)據(jù)來(lái)自合作醫(yī)院，該數(shù)據(jù)由42 例病人的多個(gè)時(shí)間段CT序列組成，這部分?jǐn)?shù)據(jù)被加入到模型測(cè)試階段用于驗(yàn)證模型魯棒性。

根據(jù)Lung-RADs 規(guī)定的分級(jí)標(biāo)準(zhǔn)，本文數(shù)據(jù)標(biāo)簽有7 類(lèi)，其含義分別為：1 對(duì)應(yīng)CT 中無(wú)結(jié)節(jié)，2 對(duì)應(yīng)有良性結(jié)節(jié)，3S 對(duì)應(yīng)隨訪少于5年的亞實(shí)性結(jié)節(jié)或者隨訪少于2年的實(shí)性結(jié)節(jié)，3L 對(duì)應(yīng)有炎癥表現(xiàn)的10 mm 以上結(jié)節(jié)，4A 對(duì)應(yīng)10～25 mm 的實(shí)性結(jié)節(jié)，4B 對(duì)應(yīng)隨訪后持續(xù)存在的大于10 mm 的亞實(shí)性結(jié)節(jié)，4C 對(duì)應(yīng)短期隨訪（本文從驗(yàn)證方法有效性方向?qū)⒋硕x為2 年）下，病灶無(wú)明顯改善，且基線病變大于等于10 mm 的結(jié)節(jié)。數(shù)據(jù)統(tǒng)計(jì)過(guò)程實(shí)際單個(gè)病例以三年病例為統(tǒng)計(jì)標(biāo)準(zhǔn)，將得到用于分類(lèi)的三例數(shù)據(jù)。最終統(tǒng)計(jì)在NLST 數(shù)據(jù)集中1、2、3S、3L、4A、4B、4C 的樣本比例為5∶20∶12∶22∶3∶4∶14，合作醫(yī)院的42例病例數(shù)據(jù)樣本比例為1∶2∶9∶10∶5∶4∶11。

3.1 數(shù)據(jù)集構(gòu)建與數(shù)據(jù)預(yù)處理

原始的NLST、合作醫(yī)院數(shù)據(jù)均為512 像素×512 像素左右的大小，本實(shí)驗(yàn)在預(yù)處理環(huán)節(jié)首先提取到了肺結(jié)節(jié)的感興趣區(qū)域，且將其調(diào)整大小到64 像素×64 像素并統(tǒng)一進(jìn)行了灰度化處理（實(shí)際情況下，大部分結(jié)節(jié)在切取感興趣區(qū)域（Region Of Interest，ROI）的過(guò)程中表現(xiàn)為64 像素大小以內(nèi)如圖5（a）所示，所以本文采用64 像素截取樣本以涵蓋絕大部分結(jié)節(jié)信息）。

圖5 按類(lèi)型統(tǒng)計(jì)結(jié)節(jié)的小提琴圖與損失函數(shù)的迭代曲線Fig.5 Nodule category statistical violin chart and iterative curves of loss functions

3.2 網(wǎng)絡(luò)訓(xùn)練與參數(shù)選擇

3.2.1 多時(shí)期數(shù)據(jù)知識(shí)蒸餾網(wǎng)絡(luò)參數(shù)

在多時(shí)期網(wǎng)絡(luò)結(jié)構(gòu)中本文使用ResNet的Basic block 作為基本結(jié)構(gòu)，并且按Group 塊的方式組織起來(lái)，訓(xùn)練過(guò)程中，輸入數(shù)據(jù)首先會(huì)經(jīng)過(guò)均值方差歸一化處理，訓(xùn)練集和測(cè)試集按照8∶2 的比例進(jìn)行劃分。圖6 得到的向量會(huì)經(jīng)過(guò)全連接層對(duì)應(yīng)到七分類(lèi)結(jié)果，并通過(guò)交叉熵?fù)p失訓(xùn)練產(chǎn)生標(biāo)簽信息。關(guān)于損失函數(shù)，對(duì)于式（3）、（4）中的λ=0.1，對(duì)于式（6）中的μ=0.01。模型優(yōu)化器使用了隨機(jī)梯度下降法（Stochastic Gradient Descent，SGD），學(xué)習(xí)率設(shè)置為1.0×10-3。訓(xùn)練教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)均使用了200 次迭代，其中學(xué)生網(wǎng)絡(luò)先通過(guò)交叉熵?fù)p失進(jìn)行100次迭代訓(xùn)練再結(jié)合蒸餾損失訓(xùn)練100次。關(guān)于超參數(shù)選擇問(wèn)題上，以λ為例，本文在學(xué)習(xí)率選擇上進(jìn)行了實(shí)驗(yàn)驗(yàn)證，圖5（b）、（c）為三種量級(jí)的學(xué)習(xí)率下?lián)p失函數(shù)的迭代過(guò)程，其中T1、T2、T3 分別代表訓(xùn)練集下λ=0.1、λ=0.01，、λ=0.001 下的損失迭代曲線，TS1～TS3 則對(duì)應(yīng)于驗(yàn)證集，由圖可知，200 次迭代內(nèi)3 個(gè)超參數(shù)下訓(xùn)練集損失均可收斂但是對(duì)于驗(yàn)證集TS2，TS3 損失反而上升，說(shuō)明TS1 設(shè)置下的超參數(shù)較優(yōu)。

3.2.2 元學(xué)習(xí)算法模型參數(shù)

本文的不平衡數(shù)據(jù)知識(shí)遷移方法基于元學(xué)習(xí)思想，其中對(duì)于算法1，在訓(xùn)練時(shí)的訓(xùn)練參數(shù)與多時(shí)期知識(shí)蒸餾網(wǎng)絡(luò)相同。算法1 中涉及不同兩個(gè)迭代過(guò)程中的學(xué)習(xí)率α=1×10-3，β=2.5×10-4。相對(duì)于第1 次迭代，第2 次訓(xùn)練正則項(xiàng)的收斂過(guò)程應(yīng)適當(dāng)減慢以完成良好收斂效果，所以β的設(shè)置相對(duì)較低。

3.3 多時(shí)期蒸餾網(wǎng)絡(luò)模型評(píng)估

本文模型評(píng)價(jià)指標(biāo)使用準(zhǔn)確率（MAcro?Precision，MAP）、召回率（MAcro?Recall，MAR）、F1分?jǐn)?shù)（Macro?F1，MF1），實(shí)驗(yàn)結(jié)果獨(dú)立運(yùn)行10 次取平均值得到。由于本文的任務(wù)是多分類(lèi)問(wèn)題，在計(jì)算各評(píng)價(jià)指標(biāo)時(shí)，考慮到了樣本均衡性問(wèn)題，并且在按類(lèi)別求平均值時(shí)加入與樣本類(lèi)別比例因子，使各參數(shù)計(jì)算結(jié)果均衡、合理。本文將二分類(lèi)問(wèn)題的一個(gè)混淆矩陣轉(zhuǎn)變?yōu)槠叻诸?lèi)問(wèn)題產(chǎn)生的多個(gè)混淆矩陣的評(píng)價(jià)指標(biāo)并將其求平均。具體每個(gè)指標(biāo)表達(dá)式如式（10）～（12）：

針對(duì)2.1 節(jié)和2.3 節(jié)的兩個(gè)模型本文設(shè)計(jì)了不同實(shí)驗(yàn)策略并給出了分析，如圖6 所示，首先展示了原數(shù)據(jù)與以及分別使用ResNet50、本文不采用MKD 模型訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)（對(duì)應(yīng)網(wǎng)絡(luò)框架圖3 的第一分支）以及采用MKD 模型進(jìn)行訓(xùn)練的結(jié)構(gòu)提取到的特征的t分布效果圖。從實(shí)驗(yàn)結(jié)果可以看出，通過(guò)MKD 模型學(xué)習(xí)到的特征分布邊界更加明確，尤其對(duì)比單獨(dú)使用教師網(wǎng)絡(luò)模型情況下，對(duì)于3S和2這兩類(lèi)標(biāo)簽的效果更好。這也表明利用MKD模型對(duì)于隨訪知識(shí)的學(xué)習(xí)是有效的。

圖6 各種方法提取特征的t分布圖Fig.6 t distribution charts of features extracted by various methods

圖7 對(duì)比了一些典型的深度學(xué)習(xí)模型和肺結(jié)節(jié)分類(lèi)模型的AUC（Area Under ROC Curve）值，從實(shí)驗(yàn)結(jié)果可以看出，不同方法下ROC曲線覆蓋范圍均有所差異，而本文提出MKD模型總體覆蓋面積最大，可見(jiàn)模型效果最優(yōu)。大部分優(yōu)異的肺結(jié)節(jié)分類(lèi)模型雖對(duì)結(jié)節(jié)的圖像特征學(xué)習(xí)有不錯(cuò)的學(xué)習(xí)效果，且基本上具備診斷價(jià)值，但其并不能有效學(xué)習(xí)到隨訪信息，對(duì)于多時(shí)期分類(lèi)任務(wù)學(xué)習(xí)能力欠佳。

圖7 測(cè)試集上各方法的分類(lèi)ROC曲線Fig.7 Classification ROC curve of each method on test set

表1 將不同深度學(xué)習(xí)模型與本文模型分類(lèi)結(jié)果按類(lèi)標(biāo)簽對(duì)測(cè)試數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)（對(duì)于1 標(biāo)簽無(wú)結(jié)節(jié)情況下，各類(lèi)算法效果差異較小不予對(duì)比）。為了證明本文模型對(duì)長(zhǎng)時(shí)期樣本的識(shí)別效果，實(shí)驗(yàn)引入ResNet50 與GoogleNet 作為對(duì)比方法，兩者是深度學(xué)習(xí)分類(lèi)領(lǐng)域的代表性模型且其基本結(jié)構(gòu)與本文Group 模塊組相似，以此對(duì)比可以有效證明本文設(shè)計(jì)的Group模塊組對(duì)于本文模型的適配性，而文獻(xiàn)［2］方法是目前精度提升最明顯的長(zhǎng)時(shí)期肺結(jié)節(jié)深度分類(lèi)模型之一，文獻(xiàn)［18］利用知識(shí)提升非長(zhǎng)時(shí)期肺結(jié)節(jié)分類(lèi)精度并取得最優(yōu)的效果。統(tǒng)計(jì)過(guò)程使用一定的測(cè)試樣本，其數(shù)量對(duì)應(yīng)表1 末行，各方法僅統(tǒng)計(jì)測(cè)試樣本中真陽(yáng)性的樣本數(shù)量。

表1 按類(lèi)標(biāo)簽統(tǒng)計(jì)各深度學(xué)習(xí)方法正確識(shí)別的測(cè)試樣本數(shù)Tab.1 Class label based statistics on the number of test samples correctly identified by each deep learning method

結(jié)果顯示，在2、3S、3L、4C 標(biāo)簽下，本文方法分類(lèi)效果較好，其中對(duì)2 與4C 類(lèi)數(shù)據(jù)的識(shí)別效果更好，這是由于2 與3S，3L與4C類(lèi)結(jié)節(jié)在圖像特征上容易發(fā)生混淆，其涵蓋一定隨訪信息的特征，所以不適用于一般的分類(lèi)模型。對(duì)于4A、4B 類(lèi)標(biāo)簽，由于樣本量較少，訓(xùn)練得到的模型沒(méi)有明顯差異。

對(duì)比結(jié)果表明，ResNet、GoogleNet 這些常見(jiàn)深度學(xué)習(xí)模型，在本文數(shù)據(jù)集分類(lèi)效果一般，此類(lèi)模型僅從圖像角度出發(fā)，沒(méi)有考慮到醫(yī)學(xué)圖像的相關(guān)特征，分類(lèi)效果對(duì)于數(shù)據(jù)要求較高。而加入對(duì)比的文獻(xiàn)［2］與文獻(xiàn)［18］中提出的肺結(jié)節(jié)分類(lèi)方法雖然考慮到一些醫(yī)學(xué)征象，對(duì)于此部分圖像分類(lèi)較好，但相較于MKD，其并未考慮到隨訪過(guò)程造成的標(biāo)簽變化，因而在本文研究的數(shù)據(jù)集上表現(xiàn)與本文方法相比略差。通過(guò)此部分對(duì)比表明本文方法更適用于隨訪條件下的肺結(jié)節(jié)分類(lèi)任務(wù)。

3.4 消融實(shí)驗(yàn)

為了評(píng)估多時(shí)期網(wǎng)絡(luò)的有效性，本文設(shè)計(jì)了消融實(shí)驗(yàn)，通過(guò)對(duì)比使用單年數(shù)據(jù)訓(xùn)練的教師網(wǎng)絡(luò)模型，使用兩年配對(duì)的隨訪數(shù)據(jù)訓(xùn)練雙分支的網(wǎng)絡(luò)模型（對(duì)應(yīng)MKD 的前兩個(gè)分支）和三年配對(duì)數(shù)據(jù)訓(xùn)練MKD 模型，驗(yàn)證MKD 模型的學(xué)習(xí)效果。同時(shí)，為了驗(yàn)證元學(xué)習(xí)方法解決不平衡數(shù)據(jù)問(wèn)題的有效性，實(shí)驗(yàn)在400組配對(duì)數(shù)據(jù)的基礎(chǔ)上，添加了800例非配對(duì)數(shù)據(jù)對(duì)比不使用正則學(xué)習(xí)缺失數(shù)據(jù)，使用L1 正則學(xué)習(xí)和L2 正則學(xué)習(xí)缺失數(shù)據(jù)的效果，其中非配對(duì)數(shù)據(jù)表示為假設(shè)兩年時(shí)期數(shù)據(jù)中有一年缺失但是仍作為兩年數(shù)據(jù)訓(xùn)練模型，三年數(shù)據(jù)中第1或者第2年數(shù)據(jù)缺失仍作為三年數(shù)據(jù)。

表2 的結(jié)果顯示對(duì)于單時(shí)期的教師網(wǎng)絡(luò)結(jié)構(gòu)，兩年隨訪訓(xùn)練的雙分支網(wǎng)絡(luò)均不如MKD 模型，通過(guò)對(duì)比MAP指標(biāo)得出，本文設(shè)計(jì)的知識(shí)蒸餾網(wǎng)絡(luò)有一定增強(qiáng)模型分類(lèi)能力的效果。同時(shí)對(duì)于不平衡數(shù)據(jù)的研究，本文對(duì)比了MKD 和不同正則方法的組合，得出使用L2 正則的效果更好，通過(guò)MF1 指標(biāo)的對(duì)比結(jié)果顯示，L2 正則對(duì)于提升模型擬合過(guò)程穩(wěn)定性具有一定效果，R 表示正則化項(xiàng)（Regularizer），對(duì)應(yīng)MKD 損失部分使用的正則化函數(shù)。

表2 MKD與不平衡知識(shí)遷移方法的消融實(shí)驗(yàn)對(duì)比結(jié)果單位：%Tab.2 Comparison results of ablation experiment between MKD and unbalanced knowledge transfer methods unit：%

3.5 不平衡數(shù)據(jù)下模型評(píng)估

表3 展示了在不同程度不平衡數(shù)據(jù)的情況下利用正則化項(xiàng)進(jìn)行模型遷移的效果，其中MAR部分為假陽(yáng)性率為1/8、1/4、1/2、1、2、4、8 時(shí)的平均召回率值。實(shí)驗(yàn)對(duì)比了在三年長(zhǎng)時(shí)期數(shù)據(jù)下配對(duì)數(shù)據(jù)量分別達(dá)到100、200 和400 時(shí)不平衡數(shù)據(jù)知識(shí)遷移方法的訓(xùn)練效果。對(duì)于存在400 組配對(duì)數(shù)據(jù)以及800 例非配對(duì)數(shù)據(jù)時(shí)，使用本文正則化方法，在綜合評(píng)價(jià)指標(biāo)MF1 上達(dá)到93.2%的分類(lèi)效果，并且相比不使用該方法提升了7 個(gè)百分點(diǎn)。同時(shí)本文研究者發(fā)現(xiàn)在使用800 非配對(duì)數(shù)據(jù)輔助配對(duì)數(shù)據(jù)訓(xùn)練可以近似達(dá)到雙倍配對(duì)數(shù)據(jù)單獨(dú)訓(xùn)練的效果。通過(guò)此部分結(jié)果可以看出，使用知識(shí)作為先驗(yàn)數(shù)據(jù)可以有效引導(dǎo)多時(shí)期數(shù)據(jù)訓(xùn)練。

表3 不平衡數(shù)據(jù)下的模型遷移在不同配對(duì)數(shù)據(jù)方案下的評(píng)估結(jié)果Tab.3 Evaluation results of model transfer under different paired data schemes with imbalanced data

4 結(jié)語(yǔ)

本文提出了一種多時(shí)期數(shù)據(jù)知識(shí)蒸餾模型，該模型用于將不同年份數(shù)據(jù)訓(xùn)練模型產(chǎn)生的知識(shí)遷移到缺失年份的模型中。具體模型從隨訪數(shù)據(jù)出發(fā)實(shí)現(xiàn)了長(zhǎng)時(shí)期下的肺結(jié)節(jié)分類(lèi)，同時(shí)針對(duì)長(zhǎng)時(shí)期數(shù)據(jù)中的一些不平衡問(wèn)題，本文進(jìn)一步改進(jìn)了MKD 模型使其能夠在缺失數(shù)據(jù)的情況下提升訓(xùn)練效果。實(shí)驗(yàn)結(jié)果表明，相比當(dāng)前較好的肺結(jié)節(jié)分類(lèi)模型，MKD 模型有著更好的分類(lèi)效果并且改進(jìn)后的MKD 模型對(duì)樣本需求更小，訓(xùn)練精度更高；但是，受研究環(huán)境、現(xiàn)實(shí)數(shù)據(jù)的限制，模型實(shí)驗(yàn)僅使用二維切片作為輸入數(shù)據(jù)，其信息量的缺失削弱了多時(shí)期數(shù)據(jù)互相學(xué)習(xí)分布差異的過(guò)程，在面對(duì)數(shù)據(jù)分布更為復(fù)雜的情況下，本文模型可能會(huì)出現(xiàn)坍塌現(xiàn)象，我們認(rèn)為使用三維體向量作為單期輸入數(shù)據(jù)結(jié)合三維深度模型進(jìn)行訓(xùn)練的效果會(huì)優(yōu)于多時(shí)期蒸餾網(wǎng)絡(luò)模型，在后續(xù)工作中將會(huì)收集更多三維數(shù)據(jù)作為樣本，并且嘗試改進(jìn)多時(shí)期蒸餾網(wǎng)絡(luò)為三維模型，同時(shí)進(jìn)一步降低模型對(duì)于數(shù)據(jù)的依賴(lài)性，實(shí)現(xiàn)更穩(wěn)定、更高精度的長(zhǎng)時(shí)期肺結(jié)節(jié)分類(lèi)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡