魏淳武,趙涓涓*,唐笑先,強(qiáng) 彥
(1.太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,山西晉中 030600;2.山西省人民醫(yī)院影像科,太原 030012)
由于低劑量計(jì)算機(jī)斷層掃描(Computed Tomography,CT)的出現(xiàn)和應(yīng)用以及肺癌高風(fēng)險(xiǎn)人群對(duì)于大量隨訪篩查CT 工作的需求,基于低劑量CT的肺部基線以及隨訪篩查相比過(guò)去更加重要。盡管研究者Alberle等[1]通過(guò)實(shí)驗(yàn)和統(tǒng)計(jì)證明低劑量CT對(duì)于降低肺癌致死率的作用,但大量的篩查工作仍然會(huì)增加那些無(wú)法確認(rèn)的低風(fēng)險(xiǎn)病人的致死率,同時(shí)會(huì)帶來(lái)不必要的醫(yī)療負(fù)擔(dān)。近期在《柳葉刀》和Nature子刊上發(fā)表的關(guān)于基于低劑量CT的隨訪篩查研究表明,使用深度學(xué)習(xí)方法進(jìn)行肺癌風(fēng)險(xiǎn)預(yù)測(cè)可以有效減少這種不必要的篩查工作。此外,國(guó)際醫(yī)學(xué)圖像頂級(jí)會(huì)議(Medical Image Computing and Computer Assisted Intervention,MICCAI)也在2019 年的總結(jié)展望中指出,利用隨訪數(shù)據(jù)和深度學(xué)習(xí)方法挖掘出更多信息的工作是目前醫(yī)學(xué)圖像研究的一大重點(diǎn)。
基于以上兩點(diǎn)可以看出,合理利用隨訪數(shù)據(jù)進(jìn)行分類(lèi)預(yù)測(cè)的工作具有重要意義,但是,目前有關(guān)肺結(jié)節(jié)的公開(kāi)數(shù)據(jù)集中,僅有美國(guó)國(guó)家肺部篩查實(shí)驗(yàn)(National Lung Screening Trial,NLST)作為公開(kāi)數(shù)據(jù)提供包括3 年的隨訪信息的低劑量CT數(shù)據(jù),同時(shí)也有相關(guān)研究者在此數(shù)據(jù)的基礎(chǔ)上做肺癌預(yù)測(cè)工作。文獻(xiàn)[2]中研究者聯(lián)合了三家機(jī)構(gòu)(約翰霍普金斯大學(xué)、英國(guó)哥倫比亞癌癥研究機(jī)構(gòu)、美國(guó)國(guó)家癌癥研究機(jī)構(gòu))分別以雙盲方式進(jìn)行了數(shù)據(jù)再標(biāo)注和模型驗(yàn)證,證明了利用長(zhǎng)時(shí)期的數(shù)據(jù)可以有效預(yù)測(cè)基線年下肺結(jié)節(jié)的變化。類(lèi)似的,Google 研究者[3]借助至少6個(gè)放射學(xué)專(zhuān)家對(duì)NLST的數(shù)據(jù)進(jìn)行了再標(biāo)注和驗(yàn)證。盡管兩者已經(jīng)能夠在NLST 使用深度學(xué)習(xí)模型實(shí)現(xiàn)較高的良惡性概率預(yù)測(cè)水平,但是對(duì)于普通研究者來(lái)說(shuō),花費(fèi)如此多的資源進(jìn)行精確的數(shù)據(jù)標(biāo)注是非常困難且?guī)缀鯚o(wú)法實(shí)現(xiàn)的。實(shí)際上,無(wú)論是通用圖像還是醫(yī)學(xué)圖像,大部分研究也都存在樣本標(biāo)準(zhǔn)困難導(dǎo)致數(shù)據(jù)不足的問(wèn)題,標(biāo)注良好的數(shù)據(jù)可以在穩(wěn)定的模型中展現(xiàn)出優(yōu)越的效果,但是往往實(shí)際求解過(guò)程中遇到的都是數(shù)據(jù)信息不完整、標(biāo)注缺失等類(lèi)似的問(wèn)題。
對(duì)于解決這類(lèi)問(wèn)題,在通用圖像下,目前的大多研究工作可以分為兩大類(lèi):對(duì)于有標(biāo)記的數(shù)據(jù)量少且存在大量無(wú)標(biāo)記數(shù)據(jù)的場(chǎng)景,研究者往往會(huì)結(jié)合一些小樣本學(xué)習(xí)方法解決問(wèn)題。Sung 等[4]提出一種基于關(guān)系的小樣本學(xué)習(xí),該方法在幾個(gè)基準(zhǔn)(Baseline)數(shù)據(jù)集上取得了不錯(cuò)的效果;Snell 等[5]提出基于原型網(wǎng)絡(luò)的小樣本學(xué)習(xí),該方法有效提升了同類(lèi)樣本的分布差異計(jì)算能力,但是并未考慮區(qū)分異類(lèi)樣本的分布邊界問(wèn)題;Santoro 等[6]則提出基于模型的小樣本學(xué)習(xí),將計(jì)算機(jī)原理和深度學(xué)習(xí)進(jìn)行了結(jié)合。上述方法均為小樣本學(xué)習(xí)的經(jīng)典理論方法,后續(xù)也有研究基于其思路不斷擴(kuò)展,但是此類(lèi)方法僅從樣本多樣性較為單一的角度進(jìn)行設(shè)計(jì),并不適用于樣本多樣性較復(fù)雜的醫(yī)學(xué)圖像問(wèn)題。對(duì)于兩種有標(biāo)記數(shù)據(jù)一類(lèi)數(shù)據(jù)量小、另一類(lèi)數(shù)據(jù)量大的場(chǎng)景,則有改進(jìn)的元學(xué)習(xí)方法[7]、遷移學(xué)習(xí)[8]、領(lǐng)域自適應(yīng)[9]為代表的一些方向。對(duì)于醫(yī)學(xué)圖像尤其肺結(jié)節(jié)分類(lèi)這一領(lǐng)域,出現(xiàn)最多的研究工作基于第一類(lèi)場(chǎng)景,因?yàn)獒t(yī)學(xué)圖像數(shù)據(jù)的采樣過(guò)程并不困難,但是進(jìn)行合理的標(biāo)注則需要放射學(xué)家參與且耗費(fèi)資源很大。所以存在大量未標(biāo)注的數(shù)據(jù)和少量已標(biāo)注的數(shù)據(jù),Wang 等[10]基于NLST 數(shù)據(jù)提出了一種半監(jiān)督的三維模型且取得了不錯(cuò)的效果,由于NLST 并非三維數(shù)據(jù),其僅將其作為未標(biāo)注的數(shù)據(jù)集使用,實(shí)際上使用的已標(biāo)注數(shù)據(jù)來(lái)源于私人數(shù)據(jù)集,并且沒(méi)有利用到相關(guān)隨訪信息。而本文研究的實(shí)際問(wèn)題從隨訪信息出發(fā):首先,長(zhǎng)時(shí)期數(shù)據(jù)本身具有一定特征,以NLST為例,它由三年數(shù)據(jù)組成,但是基線年的數(shù)據(jù)與第2、3 年也有所不同,相較于基線年,隨訪兩年的數(shù)據(jù)存在很大的不平衡。其次,不同年份間序列對(duì)應(yīng)的切片可能因?yàn)橥庠谝蛩貨](méi)有掃描到應(yīng)該有的結(jié)節(jié)信息(如圖1),這類(lèi)數(shù)據(jù)無(wú)法作為樣本使用。類(lèi)似的信息導(dǎo)致本文研究收集到的838 例隨訪三年的數(shù)據(jù)中僅有399 例可以作為有效數(shù)據(jù)集。同時(shí),就NLST本身而言并沒(méi)有獨(dú)立同分布的其他大量標(biāo)記過(guò)的相關(guān)數(shù)據(jù)集輔助訓(xùn)練。
圖1 隨訪年無(wú)效數(shù)據(jù)示例Fig.1 Example of invalid data in follow-up year
此外,目前的研究中大多使用隨訪數(shù)據(jù)輔助分類(lèi)預(yù)測(cè)任務(wù),但是這些研究并沒(méi)有充分利用到隨訪指南中的領(lǐng)域知識(shí)。在長(zhǎng)時(shí)期數(shù)據(jù)中,隨訪指南具有重要作用,醫(yī)學(xué)領(lǐng)域方面,Pinsky 等[11]首次提出基于肺成像報(bào)告數(shù)據(jù)系統(tǒng)(Lung imaging Reporting And Data system,Lung-RADs)指導(dǎo)下隨訪的效果優(yōu)于一般分期標(biāo)準(zhǔn),Martin 等[12]認(rèn)為L(zhǎng)ung-RADs 解決了以往隨訪過(guò)程中隨訪指導(dǎo)信息結(jié)構(gòu)不完整導(dǎo)致醫(yī)生漏診、錯(cuò)診的問(wèn)題,楊健等[13]則詳細(xì)說(shuō)明了Lung-RADs系統(tǒng)的價(jià)值,同時(shí)解讀了它所具備的一些領(lǐng)域知識(shí)。Veasey等[14]在Lung-RADs分級(jí)系統(tǒng)下結(jié)合NLST數(shù)據(jù)集實(shí)現(xiàn)了肺結(jié)節(jié)良惡性任務(wù),但是并沒(méi)有考慮隨訪時(shí)間等在實(shí)現(xiàn)對(duì)長(zhǎng)時(shí)期數(shù)據(jù)分類(lèi)時(shí)應(yīng)注意的領(lǐng)域知識(shí)(如對(duì)隨訪少于2 年且CT 中實(shí)性結(jié)節(jié)的判斷如果隨訪2年后無(wú)顯著變化可以將類(lèi)別歸為良性結(jié)節(jié),具體問(wèn)題模型以及相關(guān)領(lǐng)域知識(shí)如圖2所示)。
圖2 隨訪知識(shí)示意圖Fig.2 Schematic diagram of follow-up knowledge
基于上述問(wèn)題,本文在缺少一定隨訪數(shù)據(jù)標(biāo)注信息的情況下,提出了一種基于知識(shí)蒸餾技術(shù)的遷移學(xué)習(xí)方法,并將其應(yīng)用于多時(shí)期下少量樣本的結(jié)節(jié)分類(lèi)訓(xùn)練。本文具體工作如下:
1)首先,和傳統(tǒng)的肺結(jié)節(jié)分類(lèi)與長(zhǎng)時(shí)期良惡性預(yù)測(cè)不同,本文提出了一種從多時(shí)期數(shù)據(jù)中提取知識(shí)的方法用于引導(dǎo)模型訓(xùn)練,通過(guò)引入領(lǐng)域自適應(yīng)參數(shù)改善最終的網(wǎng)絡(luò)損失,并在網(wǎng)絡(luò)輸出前利用領(lǐng)域信息微調(diào)最終網(wǎng)絡(luò)參數(shù)使網(wǎng)絡(luò)能夠有效學(xué)習(xí)到隨訪信息的領(lǐng)域知識(shí)。
2)本文從數(shù)據(jù)規(guī)模小、基線數(shù)據(jù)與隨訪數(shù)據(jù)存在不平衡的問(wèn)題出發(fā),提出了一種用于肺結(jié)節(jié)隨訪數(shù)據(jù)增強(qiáng)的基于元學(xué)習(xí)思想的多時(shí)期數(shù)據(jù)訓(xùn)練方法。該方法可以有效改善肺部CT隨訪數(shù)據(jù)量不足的問(wèn)題。
長(zhǎng)時(shí)期肺結(jié)節(jié)預(yù)測(cè)工作來(lái)源于肺癌病人的實(shí)際篩查流程。病人進(jìn)行了基線篩查后,原本醫(yī)生會(huì)根據(jù)CT情況指導(dǎo)病人的隨訪篩查工作,后續(xù)研究者發(fā)現(xiàn)利用深度學(xué)習(xí)方法可以預(yù)測(cè)到隨訪篩查的結(jié)果,從而避免了一些不必要的隨訪篩查工作,降低了醫(yī)療負(fù)擔(dān)。早期的長(zhǎng)時(shí)期肺結(jié)節(jié)檢測(cè)研究大多基于私有數(shù)據(jù)集,且沒(méi)有公開(kāi)有效的實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn),條件上的困難阻礙了大部分研究者的工作,但由于隨訪篩查的必要性,對(duì)此的研究卻從未停止。
在2019 年Huang 等[2]于的Lancet上提出了一種深度學(xué)習(xí)方法用于對(duì)至少有兩年隨訪數(shù)據(jù)下肺癌的良惡性概率預(yù)測(cè),該研究基于NLST 以及Pan Can(Pan-Canadian Early Detection of Lung Cancer)兩大公共數(shù)據(jù)。實(shí)驗(yàn)的分類(lèi)標(biāo)準(zhǔn)基于Lung-RADs,該研究表明了基于目前的一些公開(kāi)數(shù)據(jù)信息,利用兩年隨訪數(shù)據(jù)可以有效完成肺結(jié)節(jié)良惡性預(yù)測(cè)。與Huang 等[2]的工作相同,Ardila等[3]則提出了一種端到端的三維肺結(jié)節(jié)良惡性預(yù)測(cè)模型,同時(shí)在NLST 上的表現(xiàn)要優(yōu)于6 個(gè)放射學(xué)家,達(dá)到了96%的預(yù)測(cè)精度。當(dāng)前研究者們對(duì)于長(zhǎng)時(shí)期肺結(jié)節(jié)良惡性的預(yù)測(cè)工作大多在于如何利用特征融合方法[15]、三維技術(shù)[16]、循環(huán)神經(jīng)網(wǎng)絡(luò)[17]或者其他方法去改進(jìn)預(yù)測(cè)效果。本文工作參考了這些研究的問(wèn)題模型與求解問(wèn)題的思路,并且提出了基于當(dāng)前研究方向的一個(gè)新的任務(wù):如何在基線數(shù)據(jù)與隨訪數(shù)據(jù)不平衡的情況下提升訓(xùn)練效果。
分類(lèi)任務(wù)一直以來(lái)作為肺部相關(guān)乃至整個(gè)醫(yī)學(xué)圖像研究者的基本問(wèn)題。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,研究者不斷利用傳統(tǒng)醫(yī)學(xué)圖像處理方法與深度學(xué)習(xí)方法結(jié)合的方式來(lái)提高病灶分類(lèi)精度或者解決更細(xì)粒度的分類(lèi)問(wèn)題。通常情況下,一些根據(jù)專(zhuān)家既定的經(jīng)驗(yàn)手工提取的特征在深度模型中又叫作知識(shí),研究者利用這種知識(shí)來(lái)引導(dǎo)深度模型的訓(xùn)練往往能取得不錯(cuò)的效果。Xie等[18]提出了基于知識(shí)的協(xié)同模型,從多視圖的角度出發(fā),分別結(jié)合深度模型表征了肺結(jié)節(jié)的整體外觀、體素屬性、異質(zhì)性,最終以9種視圖訓(xùn)練出9個(gè)子模型有效降低了肺結(jié)節(jié)分類(lèi)假陽(yáng)性概率。在2018 年,Xie 等[19]提出了在決策層融合紋理、形狀、深度特征的模型,在LIDC數(shù)據(jù)集上實(shí)現(xiàn)高效肺結(jié)節(jié)分類(lèi)。本文研究參考了以上研究對(duì)于知識(shí)引導(dǎo)模型學(xué)習(xí)更深層特征表示的方法,同時(shí)也提出了一種知識(shí)引導(dǎo)模型訓(xùn)練的方法,不同之處在于之前的研究大多局限于圖像本身所帶來(lái)的特征與信息,而忽略了診斷過(guò)程中圖像外的一些信息(如隨訪過(guò)程中,醫(yī)生對(duì)于隨訪數(shù)據(jù)所提出的一些經(jīng)驗(yàn)性思路)?;谶@一點(diǎn),本文模型充分考慮到了隨訪信息作為知識(shí)來(lái)輔助訓(xùn)練與隨訪相關(guān)的低劑量CT 數(shù)據(jù)以獲得性能上的提升。
知識(shí)蒸餾的概念最初由Hinton 等[20]于2015 年提出,它是一種從網(wǎng)絡(luò)參數(shù)較多的教師網(wǎng)絡(luò)提取暗知識(shí)到參數(shù)較少的學(xué)生網(wǎng)絡(luò)的方法,并被應(yīng)用于模型壓縮的任務(wù)場(chǎng)景。從2015 年至今,不斷有研究者對(duì)知識(shí)蒸餾進(jìn)行方法上的改進(jìn),Romero等[21]從Hint-based training 的角度先提取教師網(wǎng)絡(luò)的知識(shí),利用hint-based損失進(jìn)行監(jiān)督訓(xùn)練,誘導(dǎo)學(xué)生網(wǎng)絡(luò)學(xué)習(xí)到與教師相似的表達(dá),該方法將原本蒸餾過(guò)程中直接學(xué)習(xí)教師網(wǎng)絡(luò)輸出結(jié)果的思想轉(zhuǎn)變?yōu)閷W(xué)習(xí)中間層的特征。這一思想后來(lái)在知識(shí)蒸餾領(lǐng)域也被稱(chēng)為從中間層提取知識(shí)。到2017 年,Yim等[22]拓展了這一思想,指出利用從中間層提取知識(shí)的方法,不僅可以完成網(wǎng)絡(luò)壓縮的任務(wù),甚至可以將中間知識(shí)作為遷移學(xué)習(xí)方法來(lái)實(shí)現(xiàn)更多場(chǎng)景下的任務(wù),而Zagoruyko 等[23]則實(shí)現(xiàn)了注意力機(jī)制和知識(shí)蒸餾的結(jié)合并應(yīng)用于模型遷移。后續(xù)研究中,知識(shí)蒸餾用于模型遷移的思想得到了更多應(yīng)用與改進(jìn),Chen 等[24]利用知識(shí)蒸餾方法實(shí)現(xiàn)了圖像像素級(jí)的域遷移,Gupta等[25]首次提出了交叉模態(tài)數(shù)據(jù)進(jìn)行知識(shí)蒸餾的思想,該思想擴(kuò)展了知識(shí)蒸餾在模型遷移方向的應(yīng)用范圍。Zhao等[26]參考MetaDistiller[27]和MetaReg 方法[28]提出了一種交叉模態(tài)知識(shí)蒸餾的應(yīng)用方法,具體將元學(xué)習(xí)和知識(shí)蒸餾方法進(jìn)行結(jié)合并用于將一種模態(tài)的知識(shí)遷移到另一種模態(tài)當(dāng)中,該方法有效解決了多模態(tài)數(shù)據(jù)中某一模態(tài)下數(shù)據(jù)量不足的問(wèn)題。受此研究的啟發(fā),本文將不同模態(tài)的數(shù)據(jù)下信息遷移的問(wèn)題轉(zhuǎn)變?yōu)殚L(zhǎng)時(shí)期醫(yī)學(xué)數(shù)據(jù)下基線數(shù)據(jù)與隨訪數(shù)據(jù)的信息遷移,同樣彌補(bǔ)了隨訪數(shù)據(jù)信息不足對(duì)肺結(jié)節(jié)分類(lèi)判斷的影響。
假設(shè)輸入圖像數(shù)據(jù)x為基線數(shù)據(jù),對(duì)應(yīng)之后第1 年和第2年的隨訪數(shù)據(jù)為。訓(xùn)練過(guò)程中,每個(gè)分支的網(wǎng)絡(luò)分別對(duì)應(yīng)一種數(shù)據(jù),基線類(lèi)數(shù)據(jù)的標(biāo)簽信息為y,該標(biāo)簽主要參考基線的分類(lèi)標(biāo)注標(biāo)準(zhǔn)得到,而隨訪第1年和第2年的標(biāo)簽則會(huì)參考到前一年或者前兩年的標(biāo)注分別記為。基于最終得到的基線年數(shù)據(jù)(x,y)訓(xùn)練出教師網(wǎng)絡(luò)模型f,對(duì)應(yīng)圖3 的第1個(gè)分支結(jié)構(gòu),其中將教師網(wǎng)絡(luò)參數(shù)表示為ω,訓(xùn)練教師網(wǎng)絡(luò)過(guò)程使用損失函數(shù)為七分類(lèi)問(wèn)題的交叉熵?fù)p失表示為L(zhǎng)T。訓(xùn)練得到教師網(wǎng)絡(luò)后,本文進(jìn)一步構(gòu)建了知識(shí)蒸餾網(wǎng)絡(luò)(網(wǎng)絡(luò)結(jié)構(gòu)如圖3,Group 結(jié)構(gòu)如圖4),并通過(guò)該網(wǎng)絡(luò)從教師網(wǎng)絡(luò)中提取中間特征到學(xué)生網(wǎng)絡(luò)。此處教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)分別代表基線年下數(shù)據(jù)訓(xùn)練得到的肺結(jié)節(jié)分類(lèi)模型與利用隨訪年下數(shù)據(jù)和教師網(wǎng)絡(luò)監(jiān)督訓(xùn)練得到的帶隨訪知識(shí)的肺結(jié)節(jié)分類(lèi)模型。
圖3 多時(shí)期知識(shí)蒸餾網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of multi-term knowledge distillation network
圖4 Group塊結(jié)構(gòu)Fig.4 Structure of Group block
其中,教師網(wǎng)絡(luò)的知識(shí)主要指來(lái)自基線數(shù)據(jù)的結(jié)節(jié)信息。用以增強(qiáng)性指導(dǎo)學(xué)生網(wǎng)絡(luò)中隨訪數(shù)據(jù)標(biāo)簽訓(xùn)練。本文的知識(shí)蒸餾網(wǎng)絡(luò)同時(shí)提取了教師網(wǎng)絡(luò)中間層和輸出層的激活信息作為引導(dǎo)對(duì)象,假設(shè)網(wǎng)絡(luò)總層數(shù)均為d層,其中第j層的激活圖表示為Aj,則輸出層用于引導(dǎo)知識(shí)蒸餾網(wǎng)絡(luò)訓(xùn)練的損失為式(1):
其中:學(xué)生網(wǎng)絡(luò)g1的網(wǎng)絡(luò)參數(shù)表示為ξ,對(duì)應(yīng)隨訪第1 年數(shù)據(jù)訓(xùn)練得到的模型。引入該損失的目的是通過(guò)教師模型輸出結(jié)果的概率值差異引導(dǎo)學(xué)生模型的訓(xùn)練,但是實(shí)際訓(xùn)練時(shí),由于不同年份間的數(shù)據(jù)本身存在的誤差與標(biāo)簽的不統(tǒng)一,無(wú)法僅通過(guò)輸出層約束學(xué)生網(wǎng)絡(luò)收斂得到有效模型,所以本文引入基于Group 塊的注意力損失項(xiàng),該部分的工作受到文獻(xiàn)[23]工作的啟發(fā),具體損失定義如式(2):
不同于LO,LI的作用更偏向于讓學(xué)生網(wǎng)絡(luò)學(xué)習(xí)教師網(wǎng)絡(luò)樣本本身的像素級(jí)的差異,這樣更有利于模型學(xué)習(xí)從外形、輪廓到結(jié)節(jié)宏觀大小等變化。
同時(shí),因?yàn)檩斎霐?shù)據(jù)結(jié)節(jié)的圖像特征可能存在較大的變化,導(dǎo)致兩年的結(jié)節(jié)信息在圖像層完全不同。這會(huì)使得教師網(wǎng)絡(luò)模型對(duì)標(biāo)簽的引導(dǎo)與隨訪數(shù)據(jù)的引導(dǎo)產(chǎn)生較大分歧,所以本文引入約束因子來(lái)降低這種情況對(duì)損失的影響,具體模型增加了中間層的激活信息作為損失項(xiàng),并且在設(shè)計(jì)三年數(shù)據(jù)蒸餾損失的時(shí)候考慮到了隨訪第1 年數(shù)據(jù)對(duì)隨訪第2 年數(shù)據(jù)在模型學(xué)習(xí)時(shí)的引導(dǎo)作用要大于基線年對(duì)隨訪第2 年的作用。故本文引入平衡系數(shù)λ來(lái)控制兩者對(duì)蒸餾損失的影響。對(duì)應(yīng)于輸出層和中間層的蒸餾損失項(xiàng)改進(jìn)為式(3)、(4):
其中:Qavg為當(dāng)前網(wǎng)絡(luò)每個(gè)Group 塊的激活圖的均值,學(xué)生網(wǎng)絡(luò)g2的網(wǎng)絡(luò)參數(shù)為ψ,對(duì)應(yīng)隨訪第2 年數(shù)據(jù)訓(xùn)練得到的模型。最終的蒸餾損失函數(shù)如下:
其中:μ用于平衡兩損失間的量級(jí),在實(shí)驗(yàn)過(guò)程中最終將其賦值為1E-3。
則多時(shí)期蒸餾網(wǎng)絡(luò)的目標(biāo)函數(shù)可以定義為式(7):
對(duì)于Group 的實(shí)現(xiàn),本文工作基本上沿用文獻(xiàn)[23]的思想,不同點(diǎn)在于本文使用的Group 塊的數(shù)量以及卷積核的參數(shù)與其不同,文獻(xiàn)[23]中網(wǎng)絡(luò)輸入數(shù)據(jù)的大小為32×32,而本文模型的數(shù)據(jù)輸入為64×64,所以整體網(wǎng)絡(luò)結(jié)構(gòu)有所調(diào)整且網(wǎng)絡(luò)卷積層的padding 均設(shè)置為1。具體每個(gè)Group 塊的具體結(jié)構(gòu)與ResNet的殘差塊結(jié)構(gòu)相對(duì)應(yīng)。
本文提出的多時(shí)期蒸餾網(wǎng)絡(luò)可以在基線數(shù)據(jù)與隨訪數(shù)據(jù)配對(duì)的情況下,通過(guò)遷移知識(shí)輔助訓(xùn)練。但是實(shí)際情況下,長(zhǎng)時(shí)期的配對(duì)數(shù)據(jù)量非常少,實(shí)驗(yàn)數(shù)據(jù)大多為不平衡狀態(tài)的數(shù)據(jù),即隨訪數(shù)據(jù)量相對(duì)基線數(shù)據(jù)較少。在這種情況下,如果直接使用網(wǎng)絡(luò)進(jìn)行訓(xùn)練,那么利用僅有的配對(duì)數(shù)據(jù)訓(xùn)練的模型極易造成過(guò)擬合問(wèn)題,網(wǎng)絡(luò)也無(wú)法利用到非配對(duì)的數(shù)據(jù)。因此,本文在原有模型基礎(chǔ)上提出了一種針對(duì)數(shù)據(jù)不平衡問(wèn)題的解決方法。
首先在2.1 節(jié)提出的模型中,通過(guò)蒸餾網(wǎng)絡(luò)將基線數(shù)據(jù)訓(xùn)練的模型f的知識(shí)遷移到模型g1,g2中。當(dāng)隨訪數(shù)據(jù)不足以完整地和基線數(shù)據(jù)進(jìn)行匹配時(shí),使用現(xiàn)有配對(duì)數(shù)據(jù)訓(xùn)練出一個(gè)正則化項(xiàng)l,用于代替缺失年數(shù)據(jù)與當(dāng)前訓(xùn)練對(duì)應(yīng)年數(shù)據(jù)之間的蒸餾損失項(xiàng)。假設(shè)正則化項(xiàng)參數(shù)代表與目標(biāo)缺失數(shù)據(jù)擬訓(xùn)練模型相同網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)δ,則具體訓(xùn)練的正則化項(xiàng)如式(8):
其中:μ為控制正則項(xiàng)量級(jí)的訓(xùn)練參數(shù);ξ對(duì)應(yīng)為相應(yīng)少量的已配對(duì)缺失年的其他數(shù)據(jù)訓(xùn)練得到的參數(shù)。這里以隨訪第1年缺失為例,則對(duì)應(yīng)于多時(shí)期網(wǎng)絡(luò)目標(biāo)函數(shù)式(7)的由正則項(xiàng)替換后函數(shù)表示為式(9):
如果缺失隨訪第2年數(shù)據(jù),而可獲取基線年與隨訪第1年的數(shù)據(jù),則正則項(xiàng)學(xué)習(xí)的目標(biāo)對(duì)應(yīng)為式(3)、(4)對(duì)應(yīng)的蒸餾損失。具體對(duì)應(yīng)算法1步驟中的17)~22)行。
在這部分方法中,假設(shè)NLST的數(shù)據(jù)樣本之間是獨(dú)立同分布的,且基線數(shù)據(jù)與隨訪數(shù)據(jù)的樣本數(shù)據(jù)分布與標(biāo)簽分布映射關(guān)系相同,則使用元學(xué)習(xí)思想進(jìn)行知識(shí)學(xué)習(xí)的算法步驟如算法1 所示,算法以基線年和隨訪第1 年配對(duì)為例,在每輪迭代的每個(gè)批次下首先利用配對(duì)的基線-隨訪數(shù)據(jù),這里定義為數(shù)據(jù)A,訓(xùn)練出一個(gè)教師網(wǎng)絡(luò)以及學(xué)生網(wǎng)絡(luò),得到參數(shù)ω,ξ。然后利用配對(duì)數(shù)據(jù)得到的參數(shù)和已有的非配對(duì)數(shù)據(jù),這里只有基線年數(shù)據(jù),定義為數(shù)據(jù)B,結(jié)合目標(biāo)函數(shù)M和正則項(xiàng)參數(shù)δ對(duì)θ進(jìn)行訓(xùn)練。這里算法1將數(shù)據(jù)A訓(xùn)練得到的參數(shù)作為數(shù)據(jù)B 要訓(xùn)練的學(xué)生網(wǎng)絡(luò)的初始參數(shù)使用,同時(shí)模型也利用了數(shù)據(jù)B 對(duì)其進(jìn)行微調(diào)訓(xùn)練,這部分目的是得到數(shù)據(jù)A 中隨訪類(lèi)數(shù)據(jù)以及數(shù)據(jù)B 中基線數(shù)據(jù)的分布差異信息,從而訓(xùn)練得到與數(shù)據(jù)B相關(guān)的學(xué)生網(wǎng)絡(luò)模型用于對(duì)其隨訪第一年數(shù)據(jù)進(jìn)行分類(lèi)。在更新正則項(xiàng)的時(shí)候,算法選擇與數(shù)據(jù)B 同源的數(shù)據(jù)C進(jìn)行訓(xùn)練,以避免其發(fā)生過(guò)擬合現(xiàn)象。
算法1 用于知識(shí)遷移的元學(xué)習(xí)方法。
輸入 學(xué)習(xí)率α、β,樣本批次K,迭代次數(shù)N,訓(xùn)練數(shù)據(jù)隨訪時(shí)期參數(shù)Y;
輸出 正則參數(shù)δ。
本文研究實(shí)驗(yàn)環(huán)境為pytorch 1.2,實(shí)驗(yàn)設(shè)備顯卡為Nvidia TITAN XP,顯存16 GB。實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)來(lái)自美國(guó)癌癥研究機(jī)構(gòu)(National Cancer Institute,NCI)的研究項(xiàng)目NLST,NLST 的數(shù)據(jù)最初用來(lái)比較兩種檢測(cè)肺癌的方式即低劑量CT和標(biāo)準(zhǔn)胸部X 光對(duì)人造成的影響,該實(shí)驗(yàn)對(duì)53 454 個(gè)55~74歲的吸煙者進(jìn)行了調(diào)查并且證明了低劑量CT 相較于標(biāo)準(zhǔn)胸部X光會(huì)降低患者的致死率。但是該數(shù)據(jù)集存在大量的未標(biāo)注結(jié)節(jié),本文實(shí)驗(yàn)從利用隨訪信息輔助訓(xùn)練角度出發(fā),結(jié)合NLST 官方已有的標(biāo)注信息以及合作醫(yī)院的兩名放射科醫(yī)師幫助,對(duì)少量實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了標(biāo)注。實(shí)際使用到的標(biāo)注數(shù)據(jù)為838 例隨訪三年的病例,以及399 例隨訪兩年的病例,篩選后總共標(biāo)記約有400組隨訪三年的配對(duì)數(shù)據(jù),以及800例非配對(duì)數(shù)據(jù)。
實(shí)驗(yàn)的部分測(cè)試數(shù)據(jù)來(lái)自合作醫(yī)院,該數(shù)據(jù)由42 例病人的多個(gè)時(shí)間段CT序列組成,這部分?jǐn)?shù)據(jù)被加入到模型測(cè)試階段用于驗(yàn)證模型魯棒性。
根據(jù)Lung-RADs 規(guī)定的分級(jí)標(biāo)準(zhǔn),本文數(shù)據(jù)標(biāo)簽有7 類(lèi),其含義分別為:1 對(duì)應(yīng)CT 中無(wú)結(jié)節(jié),2 對(duì)應(yīng)有良性結(jié)節(jié),3S 對(duì)應(yīng)隨訪少于5年的亞實(shí)性結(jié)節(jié)或者隨訪少于2年的實(shí)性結(jié)節(jié),3L 對(duì)應(yīng)有炎癥表現(xiàn)的10 mm 以上結(jié)節(jié),4A 對(duì)應(yīng)10~25 mm 的實(shí)性結(jié)節(jié),4B 對(duì)應(yīng)隨訪后持續(xù)存在的大于10 mm 的亞實(shí)性結(jié)節(jié),4C 對(duì)應(yīng)短期隨訪(本文從驗(yàn)證方法有效性方向?qū)⒋硕x為2 年)下,病灶無(wú)明顯改善,且基線病變大于等于10 mm 的結(jié)節(jié)。數(shù)據(jù)統(tǒng)計(jì)過(guò)程實(shí)際單個(gè)病例以三年病例為統(tǒng)計(jì)標(biāo)準(zhǔn),將得到用于分類(lèi)的三例數(shù)據(jù)。最終統(tǒng)計(jì)在NLST 數(shù)據(jù)集中1、2、3S、3L、4A、4B、4C 的樣本比例為5∶20∶12∶22∶3∶4∶14,合作醫(yī)院的42例病例數(shù)據(jù)樣本比例為1∶2∶9∶10∶5∶4∶11。
原始的NLST、合作醫(yī)院數(shù)據(jù)均為512 像素×512 像素左右的大小,本實(shí)驗(yàn)在預(yù)處理環(huán)節(jié)首先提取到了肺結(jié)節(jié)的感興趣區(qū)域,且將其調(diào)整大小到64 像素×64 像素并統(tǒng)一進(jìn)行了灰度化處理(實(shí)際情況下,大部分結(jié)節(jié)在切取感興趣區(qū)域(Region Of Interest,ROI)的過(guò)程中表現(xiàn)為64 像素大小以內(nèi)如圖5(a)所示,所以本文采用64 像素截取樣本以涵蓋絕大部分結(jié)節(jié)信息)。
圖5 按類(lèi)型統(tǒng)計(jì)結(jié)節(jié)的小提琴圖與損失函數(shù)的迭代曲線Fig.5 Nodule category statistical violin chart and iterative curves of loss functions
3.2.1 多時(shí)期數(shù)據(jù)知識(shí)蒸餾網(wǎng)絡(luò)參數(shù)
在多時(shí)期網(wǎng)絡(luò)結(jié)構(gòu)中本文使用ResNet的Basic block 作為基本結(jié)構(gòu),并且按Group 塊的方式組織起來(lái),訓(xùn)練過(guò)程中,輸入數(shù)據(jù)首先會(huì)經(jīng)過(guò)均值方差歸一化處理,訓(xùn)練集和測(cè)試集按照8∶2 的比例進(jìn)行劃分。圖6 得到的向量會(huì)經(jīng)過(guò)全連接層對(duì)應(yīng)到七分類(lèi)結(jié)果,并通過(guò)交叉熵?fù)p失訓(xùn)練產(chǎn)生標(biāo)簽信息。關(guān)于損失函數(shù),對(duì)于式(3)、(4)中的λ=0.1,對(duì)于式(6)中的μ=0.01。模型優(yōu)化器使用了隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD),學(xué)習(xí)率設(shè)置為1.0×10-3。訓(xùn)練教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)均使用了200 次迭代,其中學(xué)生網(wǎng)絡(luò)先通過(guò)交叉熵?fù)p失進(jìn)行100次迭代訓(xùn)練再結(jié)合蒸餾損失訓(xùn)練100次。關(guān)于超參數(shù)選擇問(wèn)題上,以λ為例,本文在學(xué)習(xí)率選擇上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,圖5(b)、(c)為三種量級(jí)的學(xué)習(xí)率下?lián)p失函數(shù)的迭代過(guò)程,其中T1、T2、T3 分別代表訓(xùn)練集下λ=0.1、λ=0.01,、λ=0.001 下的損失迭代曲線,TS1~TS3 則對(duì)應(yīng)于驗(yàn)證集,由圖可知,200 次迭代內(nèi)3 個(gè)超參數(shù)下訓(xùn)練集損失均可收斂但是對(duì)于驗(yàn)證集TS2,TS3 損失反而上升,說(shuō)明TS1 設(shè)置下的超參數(shù)較優(yōu)。
3.2.2 元學(xué)習(xí)算法模型參數(shù)
本文的不平衡數(shù)據(jù)知識(shí)遷移方法基于元學(xué)習(xí)思想,其中對(duì)于算法1,在訓(xùn)練時(shí)的訓(xùn)練參數(shù)與多時(shí)期知識(shí)蒸餾網(wǎng)絡(luò)相同。算法1 中涉及不同兩個(gè)迭代過(guò)程中的學(xué)習(xí)率α=1×10-3,β=2.5×10-4。相對(duì)于第1 次迭代,第2 次訓(xùn)練正則項(xiàng)的收斂過(guò)程應(yīng)適當(dāng)減慢以完成良好收斂效果,所以β的設(shè)置相對(duì)較低。
本文模型評(píng)價(jià)指標(biāo)使用準(zhǔn)確率(MAcro?Precision,MAP)、召回率(MAcro?Recall,MAR)、F1分?jǐn)?shù)(Macro?F1,MF1),實(shí)驗(yàn)結(jié)果獨(dú)立運(yùn)行10 次取平均值得到。由于本文的任務(wù)是多分類(lèi)問(wèn)題,在計(jì)算各評(píng)價(jià)指標(biāo)時(shí),考慮到了樣本均衡性問(wèn)題,并且在按類(lèi)別求平均值時(shí)加入與樣本類(lèi)別比例因子,使各參數(shù)計(jì)算結(jié)果均衡、合理。本文將二分類(lèi)問(wèn)題的一個(gè)混淆矩陣轉(zhuǎn)變?yōu)槠叻诸?lèi)問(wèn)題產(chǎn)生的多個(gè)混淆矩陣的評(píng)價(jià)指標(biāo)并將其求平均。具體每個(gè)指標(biāo)表達(dá)式如式(10)~(12):
針對(duì)2.1 節(jié)和2.3 節(jié)的兩個(gè)模型本文設(shè)計(jì)了不同實(shí)驗(yàn)策略并給出了分析,如圖6 所示,首先展示了原數(shù)據(jù)與以及分別使用ResNet50、本文不采用MKD 模型訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)(對(duì)應(yīng)網(wǎng)絡(luò)框架圖3 的第一分支)以及采用MKD 模型進(jìn)行訓(xùn)練的結(jié)構(gòu)提取到的特征的t分布效果圖。從實(shí)驗(yàn)結(jié)果可以看出,通過(guò)MKD 模型學(xué)習(xí)到的特征分布邊界更加明確,尤其對(duì)比單獨(dú)使用教師網(wǎng)絡(luò)模型情況下,對(duì)于3S和2這兩類(lèi)標(biāo)簽的效果更好。這也表明利用MKD模型對(duì)于隨訪知識(shí)的學(xué)習(xí)是有效的。
圖6 各種方法提取特征的t分布圖Fig.6 t distribution charts of features extracted by various methods
圖7 對(duì)比了一些典型的深度學(xué)習(xí)模型和肺結(jié)節(jié)分類(lèi)模型的AUC(Area Under ROC Curve)值,從實(shí)驗(yàn)結(jié)果可以看出,不同方法下ROC曲線覆蓋范圍均有所差異,而本文提出MKD模型總體覆蓋面積最大,可見(jiàn)模型效果最優(yōu)。大部分優(yōu)異的肺結(jié)節(jié)分類(lèi)模型雖對(duì)結(jié)節(jié)的圖像特征學(xué)習(xí)有不錯(cuò)的學(xué)習(xí)效果,且基本上具備診斷價(jià)值,但其并不能有效學(xué)習(xí)到隨訪信息,對(duì)于多時(shí)期分類(lèi)任務(wù)學(xué)習(xí)能力欠佳。
圖7 測(cè)試集上各方法的分類(lèi)ROC曲線Fig.7 Classification ROC curve of each method on test set
表1 將不同深度學(xué)習(xí)模型與本文模型分類(lèi)結(jié)果按類(lèi)標(biāo)簽對(duì)測(cè)試數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)(對(duì)于1 標(biāo)簽無(wú)結(jié)節(jié)情況下,各類(lèi)算法效果差異較小不予對(duì)比)。為了證明本文模型對(duì)長(zhǎng)時(shí)期樣本的識(shí)別效果,實(shí)驗(yàn)引入ResNet50 與GoogleNet 作為對(duì)比方法,兩者是深度學(xué)習(xí)分類(lèi)領(lǐng)域的代表性模型且其基本結(jié)構(gòu)與本文Group 模塊組相似,以此對(duì)比可以有效證明本文設(shè)計(jì)的Group模塊組對(duì)于本文模型的適配性,而文獻(xiàn)[2]方法是目前精度提升最明顯的長(zhǎng)時(shí)期肺結(jié)節(jié)深度分類(lèi)模型之一,文獻(xiàn)[18]利用知識(shí)提升非長(zhǎng)時(shí)期肺結(jié)節(jié)分類(lèi)精度并取得最優(yōu)的效果。統(tǒng)計(jì)過(guò)程使用一定的測(cè)試樣本,其數(shù)量對(duì)應(yīng)表1 末行,各方法僅統(tǒng)計(jì)測(cè)試樣本中真陽(yáng)性的樣本數(shù)量。
表1 按類(lèi)標(biāo)簽統(tǒng)計(jì)各深度學(xué)習(xí)方法正確識(shí)別的測(cè)試樣本數(shù)Tab.1 Class label based statistics on the number of test samples correctly identified by each deep learning method
結(jié)果顯示,在2、3S、3L、4C 標(biāo)簽下,本文方法分類(lèi)效果較好,其中對(duì)2 與4C 類(lèi)數(shù)據(jù)的識(shí)別效果更好,這是由于2 與3S,3L與4C類(lèi)結(jié)節(jié)在圖像特征上容易發(fā)生混淆,其涵蓋一定隨訪信息的特征,所以不適用于一般的分類(lèi)模型。對(duì)于4A、4B 類(lèi)標(biāo)簽,由于樣本量較少,訓(xùn)練得到的模型沒(méi)有明顯差異。
對(duì)比結(jié)果表明,ResNet、GoogleNet 這些常見(jiàn)深度學(xué)習(xí)模型,在本文數(shù)據(jù)集分類(lèi)效果一般,此類(lèi)模型僅從圖像角度出發(fā),沒(méi)有考慮到醫(yī)學(xué)圖像的相關(guān)特征,分類(lèi)效果對(duì)于數(shù)據(jù)要求較高。而加入對(duì)比的文獻(xiàn)[2]與文獻(xiàn)[18]中提出的肺結(jié)節(jié)分類(lèi)方法雖然考慮到一些醫(yī)學(xué)征象,對(duì)于此部分圖像分類(lèi)較好,但相較于MKD,其并未考慮到隨訪過(guò)程造成的標(biāo)簽變化,因而在本文研究的數(shù)據(jù)集上表現(xiàn)與本文方法相比略差。通過(guò)此部分對(duì)比表明本文方法更適用于隨訪條件下的肺結(jié)節(jié)分類(lèi)任務(wù)。
為了評(píng)估多時(shí)期網(wǎng)絡(luò)的有效性,本文設(shè)計(jì)了消融實(shí)驗(yàn),通過(guò)對(duì)比使用單年數(shù)據(jù)訓(xùn)練的教師網(wǎng)絡(luò)模型,使用兩年配對(duì)的隨訪數(shù)據(jù)訓(xùn)練雙分支的網(wǎng)絡(luò)模型(對(duì)應(yīng)MKD 的前兩個(gè)分支)和三年配對(duì)數(shù)據(jù)訓(xùn)練MKD 模型,驗(yàn)證MKD 模型的學(xué)習(xí)效果。同時(shí),為了驗(yàn)證元學(xué)習(xí)方法解決不平衡數(shù)據(jù)問(wèn)題的有效性,實(shí)驗(yàn)在400組配對(duì)數(shù)據(jù)的基礎(chǔ)上,添加了800例非配對(duì)數(shù)據(jù)對(duì)比不使用正則學(xué)習(xí)缺失數(shù)據(jù),使用L1 正則學(xué)習(xí)和L2 正則學(xué)習(xí)缺失數(shù)據(jù)的效果,其中非配對(duì)數(shù)據(jù)表示為假設(shè)兩年時(shí)期數(shù)據(jù)中有一年缺失但是仍作為兩年數(shù)據(jù)訓(xùn)練模型,三年數(shù)據(jù)中第1或者第2年數(shù)據(jù)缺失仍作為三年數(shù)據(jù)。
表2 的結(jié)果顯示對(duì)于單時(shí)期的教師網(wǎng)絡(luò)結(jié)構(gòu),兩年隨訪訓(xùn)練的雙分支網(wǎng)絡(luò)均不如MKD 模型,通過(guò)對(duì)比MAP指標(biāo)得出,本文設(shè)計(jì)的知識(shí)蒸餾網(wǎng)絡(luò)有一定增強(qiáng)模型分類(lèi)能力的效果。同時(shí)對(duì)于不平衡數(shù)據(jù)的研究,本文對(duì)比了MKD 和不同正則方法的組合,得出使用L2 正則的效果更好,通過(guò)MF1 指標(biāo)的對(duì)比結(jié)果顯示,L2 正則對(duì)于提升模型擬合過(guò)程穩(wěn)定性具有一定效果,R 表示正則化項(xiàng)(Regularizer),對(duì)應(yīng)MKD 損失部分使用的正則化函數(shù)。
表2 MKD與不平衡知識(shí)遷移方法的消融實(shí)驗(yàn)對(duì)比結(jié)果 單位:%Tab.2 Comparison results of ablation experiment between MKD and unbalanced knowledge transfer methods unit:%
表3 展示了在不同程度不平衡數(shù)據(jù)的情況下利用正則化項(xiàng)進(jìn)行模型遷移的效果,其中MAR部分為假陽(yáng)性率為1/8、1/4、1/2、1、2、4、8 時(shí)的平均召回率值。實(shí)驗(yàn)對(duì)比了在三年長(zhǎng)時(shí)期數(shù)據(jù)下配對(duì)數(shù)據(jù)量分別達(dá)到100、200 和400 時(shí)不平衡數(shù)據(jù)知識(shí)遷移方法的訓(xùn)練效果。對(duì)于存在400 組配對(duì)數(shù)據(jù)以及800 例非配對(duì)數(shù)據(jù)時(shí),使用本文正則化方法,在綜合評(píng)價(jià)指標(biāo)MF1 上達(dá)到93.2%的分類(lèi)效果,并且相比不使用該方法提升了7 個(gè)百分點(diǎn)。同時(shí)本文研究者發(fā)現(xiàn)在使用800 非配對(duì)數(shù)據(jù)輔助配對(duì)數(shù)據(jù)訓(xùn)練可以近似達(dá)到雙倍配對(duì)數(shù)據(jù)單獨(dú)訓(xùn)練的效果。通過(guò)此部分結(jié)果可以看出,使用知識(shí)作為先驗(yàn)數(shù)據(jù)可以有效引導(dǎo)多時(shí)期數(shù)據(jù)訓(xùn)練。
表3 不平衡數(shù)據(jù)下的模型遷移在不同配對(duì)數(shù)據(jù)方案下的評(píng)估結(jié)果Tab.3 Evaluation results of model transfer under different paired data schemes with imbalanced data
本文提出了一種多時(shí)期數(shù)據(jù)知識(shí)蒸餾模型,該模型用于將不同年份數(shù)據(jù)訓(xùn)練模型產(chǎn)生的知識(shí)遷移到缺失年份的模型中。具體模型從隨訪數(shù)據(jù)出發(fā)實(shí)現(xiàn)了長(zhǎng)時(shí)期下的肺結(jié)節(jié)分類(lèi),同時(shí)針對(duì)長(zhǎng)時(shí)期數(shù)據(jù)中的一些不平衡問(wèn)題,本文進(jìn)一步改進(jìn)了MKD 模型使其能夠在缺失數(shù)據(jù)的情況下提升訓(xùn)練效果。實(shí)驗(yàn)結(jié)果表明,相比當(dāng)前較好的肺結(jié)節(jié)分類(lèi)模型,MKD 模型有著更好的分類(lèi)效果并且改進(jìn)后的MKD 模型對(duì)樣本需求更小,訓(xùn)練精度更高;但是,受研究環(huán)境、現(xiàn)實(shí)數(shù)據(jù)的限制,模型實(shí)驗(yàn)僅使用二維切片作為輸入數(shù)據(jù),其信息量的缺失削弱了多時(shí)期數(shù)據(jù)互相學(xué)習(xí)分布差異的過(guò)程,在面對(duì)數(shù)據(jù)分布更為復(fù)雜的情況下,本文模型可能會(huì)出現(xiàn)坍塌現(xiàn)象,我們認(rèn)為使用三維體向量作為單期輸入數(shù)據(jù)結(jié)合三維深度模型進(jìn)行訓(xùn)練的效果會(huì)優(yōu)于多時(shí)期蒸餾網(wǎng)絡(luò)模型,在后續(xù)工作中將會(huì)收集更多三維數(shù)據(jù)作為樣本,并且嘗試改進(jìn)多時(shí)期蒸餾網(wǎng)絡(luò)為三維模型,同時(shí)進(jìn)一步降低模型對(duì)于數(shù)據(jù)的依賴(lài)性,實(shí)現(xiàn)更穩(wěn)定、更高精度的長(zhǎng)時(shí)期肺結(jié)節(jié)分類(lèi)。