曹玉紅,徐 海,劉蓀傲,王紫霄,李宏亮
(1.中國電子學(xué)會,北京 100036;2.中國科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院,合肥 230026;3.中國科學(xué)院大學(xué)工程科學(xué)學(xué)院,北京 100049)
隨著醫(yī)學(xué)影像成像技術(shù)和成像設(shè)備的快速發(fā)展和普及,全球每天產(chǎn)生大量的醫(yī)學(xué)影像數(shù)據(jù),借助計算機(jī)進(jìn)行醫(yī)學(xué)影像分析在臨床診斷、手術(shù)方案制定中的重要性日益凸顯[1]。其中,醫(yī)學(xué)影像分割能夠有效地提取目標(biāo)區(qū)域的形狀和空間信息,是進(jìn)行醫(yī)學(xué)影像定量分析的關(guān)鍵步驟之一[2],目的是以機(jī)器視覺方式自動從醫(yī)學(xué)圖像中逐像素地識別出目標(biāo)區(qū)域(器官、組織或病灶)。早期的醫(yī)學(xué)影像分割系統(tǒng)主要基于傳統(tǒng)的圖像分割算法搭建,如基于邊緣檢測的分割算法[3]、基于閾值的分割算法[4]和基于區(qū)域的分割算法[5]。但醫(yī)學(xué)圖像通常具有對比度低、組織紋理復(fù)雜、邊界區(qū)域模糊等特點(diǎn),極大地限制了此類圖像分割算法的效果和應(yīng)用場景。隨后,針對特定任務(wù)設(shè)計手工特征的分割算法很長一段時間成為了醫(yī)學(xué)影像分割的研究主流[6],然而手工特征的設(shè)計極大依賴醫(yī)生的專業(yè)先驗知識,而且往往泛化能力差,無法遷移到新的任務(wù)場景下。因此在實際應(yīng)用中基于傳統(tǒng)圖像分割技術(shù)的醫(yī)學(xué)影像分割系統(tǒng)仍然不夠成熟,無法獲得令人滿意的分割效果。
近年來,隨著計算機(jī)技術(shù)和人工智能的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[7-9]強(qiáng)大的建模能力被廣泛研究,相比傳統(tǒng)的算法,基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法在圖像處理各領(lǐng)域帶來了突破性的進(jìn)展,如圖像分類[10]、語義分割[11]等,基于深度學(xué)習(xí)的圖像分割算法也被引入到醫(yī)學(xué)影像分割[12-15]中。深度學(xué)習(xí)算法的自動提取特征能力有效地克服了傳統(tǒng)醫(yī)學(xué)圖像分割算法過多依賴醫(yī)療專家先驗認(rèn)知這一弊端,且深度學(xué)習(xí)算法的可移植性高,借助遷移學(xué)習(xí)能夠快速地拓展到不同的任務(wù)場景下。
盡管深度學(xué)習(xí)在圖像分割中取得了突破性的提升,醫(yī)學(xué)影像其區(qū)別于自然場景圖像的特點(diǎn)決定了醫(yī)學(xué)影像分割需要面臨更大的挑戰(zhàn),主要來源于以下幾個方面:
受限于成像技術(shù),醫(yī)學(xué)影像相較于自然圖像往往有對比度低、噪聲較大的特點(diǎn),同時醫(yī)療影像中組織紋理復(fù)雜,邊界模糊不易區(qū)分。此時如何提升網(wǎng)絡(luò)模型的抗干擾能力和魯棒性,以及對邊界附近像素的準(zhǔn)確性是一個非常大的挑戰(zhàn)。
醫(yī)學(xué)影像數(shù)據(jù)獲取困難(尤其對于罕見疾?。?,同時圖像分割任務(wù)訓(xùn)練過程中需要對圖像每個像素的類別進(jìn)行標(biāo)注,而且醫(yī)學(xué)影像標(biāo)注對醫(yī)療專業(yè)知識依賴性高,因此,獲取足夠多的標(biāo)注樣本是極度耗時耗力的。如何在有限的標(biāo)注樣本下,減輕訓(xùn)練分割模型時對像素級標(biāo)注的依賴,是醫(yī)學(xué)影像分割的另一挑戰(zhàn)。
醫(yī)學(xué)影像病變形態(tài)學(xué)上高度異質(zhì)化,使得標(biāo)注過程極大依賴于醫(yī)療專家的認(rèn)知和經(jīng)驗,而考慮到標(biāo)注醫(yī)生主觀標(biāo)準(zhǔn)上的不確定性和不同專家客觀上的認(rèn)知差異化,標(biāo)注過程中漏標(biāo)、誤標(biāo)不可避免,標(biāo)注的準(zhǔn)確度并不完全可靠。如何在有限的醫(yī)療標(biāo)注資源下,對模型不確定性的準(zhǔn)確量化,是當(dāng)前面臨的又一挑戰(zhàn)。
綜上所述,深度學(xué)習(xí)在醫(yī)學(xué)影像分割中具有廣闊的應(yīng)用前景,但同時也面臨巨大的挑戰(zhàn)。
隨著深度學(xué)習(xí)的崛起,研究人員將應(yīng)用于自然圖像的分割算法[11,16-17]引入到醫(yī)學(xué)領(lǐng)域。其中最具代表性的研究工作是全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[11],F(xiàn)CN實現(xiàn)了不改變圖像尺寸的情況下對分割網(wǎng)絡(luò)進(jìn)行端到端(End to End)的訓(xùn)練,并較傳統(tǒng)方法取得了顯著性的提升。伴隨著FCN的成功,研究人員開始關(guān)注如何針對醫(yī)療影像的特點(diǎn)對分割網(wǎng)絡(luò)進(jìn)行改進(jìn),考慮到醫(yī)療圖像具有豐富的空間信息(如復(fù)雜的紋理結(jié)構(gòu)),而網(wǎng)絡(luò)下采樣過程容易丟失空間信息,基于編碼-解碼(Encoder-Decoder)的網(wǎng)絡(luò)結(jié)構(gòu)開始嶄露頭角。中國科學(xué)院慈溪醫(yī)工所團(tuán)隊[12]結(jié)合具有對稱結(jié)構(gòu)的編解碼網(wǎng)絡(luò)對視網(wǎng)膜血管進(jìn)行了精細(xì)化分割,并基于分割結(jié)果量化分析了健康人群視網(wǎng)膜和阿茲海默癥患者之間的差異。實際上醫(yī)學(xué)影像數(shù)據(jù)大多數(shù)為3D的容積數(shù)據(jù)(如CT(Computed Tomography)、MRI(Magnetic Resonance Imaging)數(shù)據(jù)),為了保留不同層間的位置關(guān)系,Cicek等[18]通過將二維卷積層替換為三維卷積層構(gòu)建了3D U-Net,實現(xiàn)了3D數(shù)據(jù)的端到端處理。隨著基礎(chǔ)模型的完善,人們開始更多地考慮如何優(yōu)化分割的效果,如引入注意力機(jī)制來優(yōu)化特征,以達(dá)到減小類內(nèi)差異同時增大類間差異的目的。中國科學(xué)技術(shù)大學(xué)Xie等[15]根據(jù)腫瘤位置關(guān)系提出級聯(lián)的注意力分割網(wǎng)絡(luò),有效提高了腦膠質(zhì)瘤區(qū)域分割精度。此外,研究人員嘗試從目標(biāo)函數(shù)、增大感受野、解決類別不平衡等多種角度對分割模型進(jìn)行優(yōu)化。
盡管深度神經(jīng)網(wǎng)絡(luò)相比傳統(tǒng)算法表現(xiàn)出了顯著的進(jìn)展,但在實際應(yīng)用中醫(yī)學(xué)圖像標(biāo)注過程耗時耗力,限制了深度學(xué)習(xí)算法在該領(lǐng)域的進(jìn)一步發(fā)展。相對地直接獲取大量的醫(yī)學(xué)影像數(shù)據(jù)較為容易,因此為了減輕對標(biāo)注的依賴、降低成本,半監(jiān)督學(xué)習(xí)算法得到了廣泛的關(guān)注和研究。半監(jiān)督醫(yī)學(xué)影像分割的核心是如何利用未標(biāo)注的數(shù)據(jù),基于自訓(xùn)練(Selftraining)和協(xié)同訓(xùn)練(Co-training)的算法是此領(lǐng)域最常見的半監(jiān)督分割算法,此類方法通過為未標(biāo)注數(shù)據(jù)生成偽標(biāo)簽(Pseudo Label)并優(yōu)化更新方式進(jìn)行迭代訓(xùn)練。半監(jiān)督學(xué)習(xí)中為了能夠使用少量標(biāo)注數(shù)據(jù)訓(xùn)練出更加魯棒的模型,提出了對未標(biāo)注數(shù)據(jù)添加擾動并對預(yù)測一致性進(jìn)行約束的方法[19-20],如基于均值教師(Mean Teacher,MT)的半監(jiān)督方法[20]和基于幾何變換一致性的方法[21]。此外,研究人員開始考慮更多樣的利用未標(biāo)注數(shù)據(jù)的方式,如基于圖(Graph)進(jìn)行正則化[22-23],基于生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[24]來生成更多的可用于訓(xùn)練的數(shù)據(jù)也是提升半監(jiān)督分割效果的方法之一。
由于標(biāo)注醫(yī)生主觀標(biāo)準(zhǔn)上的不確定性和不同專家客觀上的認(rèn)知差異化,標(biāo)注的準(zhǔn)確度并不完全可靠,因此對醫(yī)學(xué)影像分割中的預(yù)測結(jié)果給出定量的不確定性度量是輔助診斷的重要補(bǔ)充,近期關(guān)于醫(yī)學(xué)影像分割的不確定性也開始引起新的研究熱潮。根據(jù)不確定性的分布類型角度,Swiler等[25]將其分為認(rèn)知不確定性(Epistemic uncertainty)和隨機(jī)不確定性(Aleatoric uncertainty)。認(rèn)知不確定性是指模型認(rèn)知上的不確定性,研究者根據(jù)對模型不確定性評估的方式不同,將其大致分為兩大類,即深度模型集成(Deep model ensemble)[26]和深度貝葉斯網(wǎng)絡(luò)(Deep Bayesian Neural Network)[27]。隨機(jī)不確定性指的是觀測中固有的噪聲,這部分不確定性來源于醫(yī)療設(shè)備成像的數(shù)據(jù)本身噪聲以及標(biāo)注存在的不可控誤差。
近年來,卷積神經(jīng)網(wǎng)絡(luò)[7-8]已經(jīng)成為處理圖像分割任務(wù)的主流方法,并被廣泛拓展到醫(yī)學(xué)圖像分割當(dāng)中。卷積網(wǎng)絡(luò)能夠通過學(xué)習(xí)特定的卷積核提取豐富的圖像特征,從而生成有效、準(zhǔn)確的分割結(jié)果。受限于計算資源,卷積網(wǎng)絡(luò)通常由多個小尺寸的卷積層堆疊而成,并在此過程中進(jìn)行下采樣操作以減小圖像的空間尺寸,從而逐步擴(kuò)大卷積核的感受野,實現(xiàn)由淺到深、由局部到整體的多級特征提取。
全監(jiān)督學(xué)習(xí)是醫(yī)學(xué)影像分割任務(wù)最基本、應(yīng)用最廣泛的方法。全監(jiān)督的語義分割要求提供像素級的標(biāo)注作為訓(xùn)練參考,對于訓(xùn)練數(shù)據(jù)量以及標(biāo)注具有較高的要求。盡管醫(yī)學(xué)影像數(shù)獲取困難,數(shù)據(jù)集構(gòu)建成本高,但是為了滿足醫(yī)學(xué)領(lǐng)域的巨大需求,目前已經(jīng)出現(xiàn)了許多公開的醫(yī)學(xué)圖像數(shù)據(jù)集,保證了全監(jiān)督醫(yī)學(xué)圖像分割研究的充分發(fā)展。
醫(yī)學(xué)圖像在數(shù)據(jù)結(jié)構(gòu)上與自然圖像類似,同時,醫(yī)學(xué)圖像也存在與自然圖像明顯不同的特性,如空間尺寸、目標(biāo)大小、成像質(zhì)量等。基于這些特性,研究者對自然圖像的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),構(gòu)建更適用于醫(yī)學(xué)領(lǐng)域的模型??傮w來說,目前用于醫(yī)學(xué)分割的網(wǎng)絡(luò)都沿用了編碼器-解碼器的對稱結(jié)構(gòu),并在此基礎(chǔ)上強(qiáng)化圖像特征的提取。本節(jié)將首先介紹編碼器-解碼器的一系列經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu),隨后介紹改進(jìn)模塊,如注意力機(jī)制與新型卷積等,最后將介紹針對特定任務(wù)使用的模型級聯(lián)策略。
2.1.1 編碼器-解碼器結(jié)構(gòu)
與圖像分類任務(wù)不同,分割任務(wù)要求生成與輸入圖像尺寸一致的像素級分割結(jié)果,因此無法直接將分類任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用于分割任務(wù)。全卷積網(wǎng)絡(luò)[11]通過將全連接層替換為卷積層,實現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分割。由于在特征提取過程中存在下采樣操作,在生成分割結(jié)果時需要通過插值計算進(jìn)行上采樣。在此基礎(chǔ)上,Ronneberger等[14]提出了用于細(xì)胞分割的U-Net,這一結(jié)構(gòu)隨后被廣泛應(yīng)用于各種醫(yī)學(xué)圖像分割任務(wù)中。U-Net包括用于特征提取的編碼器,以及與之對稱、用于恢復(fù)空間分辨率并生成分割結(jié)果的解碼器,具體結(jié)構(gòu)如圖1所示。由于網(wǎng)絡(luò)整體形狀類似于字母U,故被稱作U-Net。U-Net的編碼器部分通過堆疊3×3卷積層與激活函數(shù)實現(xiàn)特征提取,并通過2×2最大池化層降低分辨率,每次將空間尺寸減半并加倍通道數(shù)。在解碼器部分,使用2×2的轉(zhuǎn)置卷積恢復(fù)空間分辨率,并通過跳躍連接(Skip Connection)將上采樣后的特征與編碼器部分同層的特征進(jìn)行級聯(lián)(concatenation),作為后續(xù)卷積層的輸入。
圖1 U-Net的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structureof U-Net
U-Net最初被設(shè)計用于2D圖像的細(xì)胞分割,而很多醫(yī)學(xué)圖像數(shù)據(jù)實際為3D的容積數(shù)據(jù)。盡管可以將容積數(shù)據(jù)拆分為2D圖像序列進(jìn)行處理,但這種方式忽視了不同層間的位置關(guān)系,并且往往不同位置的圖像差別較大,不利于網(wǎng)絡(luò)學(xué)習(xí)通用特征。因此Cicek等[18]通過將二維卷積層替換為三維卷積層構(gòu)建了3DU-Net,實現(xiàn)了3D數(shù)據(jù)的端到端處理。結(jié)合深度學(xué)習(xí)領(lǐng)域的相關(guān)研究,Milletari等[13]提出了V-Net以更好地處理容積數(shù)據(jù)。相比于3DU-Net,V-Net的改進(jìn)包括:1)使用更有效的激活函數(shù)PReLU(Parametric Rectified Linear Unit);2)使用步長為2的2×2卷積代替最大池化(Max Pooling)實現(xiàn)下采樣;3)在卷積層引入了殘差連接以提升學(xué)習(xí)效果。
U-Net通過跳躍連接實現(xiàn)了不同層級的特征融合,提高了分割精度。Zhou等[28]進(jìn)一步對多層特征的融合方式進(jìn)行改進(jìn),提出了U-Net++,結(jié)構(gòu)如圖2所示。U-Net++將U-Net中簡單的跳躍連接替換為卷積層,并且在同分辨率下的不同卷積層、相鄰分辨率下的卷積層間添加跳躍連接,從而形成密集連接以強(qiáng)化特征融合。為了保證網(wǎng)絡(luò)的充分學(xué)習(xí),U-Net++還添加了多個中繼監(jiān)督層同時計算損失函數(shù)。得益于此,U-Net++可以根據(jù)算力情況通過剪枝減小模型規(guī)模,而性能僅有小幅度下降。
圖2 U-Net++的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structureof U-Net++
2.1.2 注意力機(jī)制
隨著對神經(jīng)網(wǎng)絡(luò)研究的不斷深入,注意力機(jī)制逐漸得到了廣泛的應(yīng)用,這一機(jī)制在人類視覺系統(tǒng)中同樣至關(guān)重要。概括地說,注意力機(jī)制通過計算注意力權(quán)重,對特征進(jìn)行重加權(quán),以達(dá)到強(qiáng)化有效特征、抑制無效特征的目的。根據(jù)應(yīng)用位置的不同,可以分為空間注意力與通道注意力。通道注意力的 典 型 代 表 為SENet(Squeeze-and-Excitation Network)[29]。SENet提出了壓縮-激發(fā)(Squeeze-and-Excitation,SE)模塊以對不同通道的特征進(jìn)行加權(quán),如圖3所示。該模塊通過全局平均池化(Average Pooling)將尺寸為C×H×W的輸入特征壓縮為C×1×1,再通過全連接層計算通道注意力權(quán)重,與輸入通道相乘得到加權(quán)后的權(quán)重。此模塊的優(yōu)點(diǎn)在于計算量小且即插即用,因此常被應(yīng)用在醫(yī)學(xué)任務(wù)中作為對U-Net的改進(jìn)[30],取得了較好的效果。
圖3 SE模塊結(jié)構(gòu)Fig.3 Structure of SE module
空間注意力則以Non-local[31]的一系列工作為代表。區(qū)別于通道注意力,空間注意力給每個像素計算注意力圖以實現(xiàn)全圖范圍的特征提取,從而有效地彌補(bǔ)了卷積操作因感受野有限導(dǎo)致的全局特征提取能力的不足。標(biāo)準(zhǔn)的Non-local空間注意力計算流程如圖4所示。給定輸入特征X={x1,x2,…,xHW},首先計算像素間的特征相似度:
其中θ(?),?(?)為線性變換,由1×1卷積實現(xiàn)。σ(?)為softmax函數(shù),用于將相似度歸一化:
至此,可以得到每個像素的全圖注意力圖。隨后進(jìn)行特征重加權(quán):
在圖4的模塊中,還額外加入了殘差連接以保證訓(xùn)練過程的穩(wěn)定性??臻g注意力優(yōu)越的長距離特征提取能力同樣也可應(yīng)用在醫(yī)學(xué)圖像分割當(dāng)中,例如He等[32]表明,引入空間注意力可以有效地提升醫(yī)學(xué)圖像分割網(wǎng)絡(luò)對于對抗攻擊的魯棒性。
圖4 Non-local模塊結(jié)構(gòu)Fig.4 Structureof Non-local module
注意力機(jī)制的核心是通過計算注意力圖實現(xiàn)特征的重加權(quán),遵循這一思想,可以根據(jù)特定的醫(yī)學(xué)圖像分割任務(wù)設(shè)計與上文不同的注意力計算模塊。以腦膠質(zhì)瘤的分割為例,在腦部腫瘤分割挑戰(zhàn)賽(BraTS)[33]數(shù)據(jù)集中,膠質(zhì)瘤被劃分為三個等級:全腫瘤(Whole Tumor,WT)、腫瘤核心(Tumor Core,TC)和增強(qiáng)腫瘤(Enhancing Tumor,ET),而三者存在包含關(guān)系,即ET?TC?WT。因此,可以通過依次分割三個等級的腫瘤實現(xiàn)由粗到精的精細(xì)分割。
OMNet(One-pass Multi-task Network)[34]將這種逐級分割的思想引入通道注意力中,根據(jù)前一級腫瘤的分割情況調(diào)整通道重要性,用于強(qiáng)化下一級腫瘤的分割效果。而DCAN(Deep Cascaded Attention Network)[15]則以此改進(jìn)空間注意力,根據(jù)前一級的分割結(jié)果對背景區(qū)域的像素進(jìn)行抑制,使下一級腫瘤的分割更集中在前一級的分割區(qū)域。
2.1.3 改進(jìn)卷積計算
標(biāo)準(zhǔn)卷積的問題在于感受野有限且固定,導(dǎo)致其無法有效地提取全局信息。為了增大感受野,需要堆疊多層卷積層并通過下采樣操作降低空間分辨率。然而,這種操作仍存在局限性,因此出現(xiàn)了許多對卷積運(yùn)算的改進(jìn)工作,例如空洞卷積[35]與可變形卷積(圖5)[36]??斩淳矸e的優(yōu)勢在于可以在不進(jìn)行下采樣、不增加參數(shù)量的前提下擴(kuò)大卷積運(yùn)算的感受野,從而可以在更高的分辨率下進(jìn)行特征提取,避免因下采樣造成的空間信息損失,而將空洞卷積整合到U-Net的編碼器結(jié)構(gòu)中已經(jīng)被證明對醫(yī)學(xué)圖像分割同樣具有提升效果[37-38]。
圖5 標(biāo)準(zhǔn)卷積、空洞卷積和可變形卷積示意圖Fig.5 Schematic diagram of standard convolution,dilated convolution and deformable convolution
空洞卷積僅是在標(biāo)準(zhǔn)卷積的基礎(chǔ)上增加空洞以擴(kuò)大計算范圍,因此與后者同樣是計算位置固定的卷積操作。然而對于不同的像素,模型希望卷積核能夠根據(jù)像素之間的相關(guān)性自適應(yīng)地選擇計算位置,從而實現(xiàn)更有效的特征提取。為了實現(xiàn)這一目標(biāo),可變形卷積通過額外的偏移預(yù)測分支,為輸入特征的每個像素計算卷積計算時的偏移量,使特征提取更集中、高效。這一運(yùn)算同樣可以應(yīng)用于醫(yī)學(xué)圖像分割中,例如Guo等[39]提出了使用可變形卷積進(jìn)行多模態(tài)器官分割,并通過在偏移預(yù)測中引入全局信息進(jìn)一步強(qiáng)化了可變形卷積的特征提取能力。
如前文所述,與自然圖像不同,相當(dāng)一部分醫(yī)學(xué)圖像(如磁共振影像)實際上為三維容積數(shù)據(jù)。盡管可以使用三維卷積網(wǎng)絡(luò)直接計算,但相較于二維網(wǎng)絡(luò),三維網(wǎng)絡(luò)的參數(shù)量呈指數(shù)級增加,限制了其推廣應(yīng)用。而如果使用二維網(wǎng)絡(luò)計算,則會完全忽略一個維度的信息,影響分割效果。為了緩解這一問題,WNet(Whole tumor Network)[37]提出使用二維卷積提取平面信息,并隨后使用一維卷積提取第三個維度的信息。同時如圖6所示,醫(yī)學(xué)三維影像對于三個維度的切面具有明確的定義,即冠狀面(Coronal)、矢狀面(Sagittal)和橫斷面(Axial),每個切面能夠顯示的醫(yī)學(xué)信息有所不同。由于不對稱的卷積結(jié)構(gòu)對三個維度的提取能力不同,WNet提出多視角訓(xùn)練策略,即將三維數(shù)據(jù)以三個方向輸入網(wǎng)絡(luò)分別訓(xùn)練,但也導(dǎo)致了計算時間的加倍。區(qū)別于WNet,MFNet(Multidirection Fusion Network)[38]在 將 三 維 卷 積 拆 分 為 偽 三 維 卷積[40]的基礎(chǔ)上提出了多方向融合模塊,如圖7所示。該模塊使用三支并行的計算分支,每個分支從不同方向?qū)?×3×3卷積拆分為3×3×1與1×3×3卷積。相較于WNet,該方法同時從三個方向提取特征并進(jìn)行融合,避免了多次訓(xùn)練與推理的額外計算開銷。
圖6 醫(yī)學(xué)影像的切面劃分Fig.6 Section division of medical image
圖7 多方向融合模塊結(jié)構(gòu)Fig.7 Structureof multi-directional fusion module
2.1.4 模型級聯(lián)
對于腦膠質(zhì)瘤分割一類的醫(yī)學(xué)分割任務(wù),由于存在由粗到精的分割過程,除了使用一個模型完成一次性分割,另一種經(jīng)典而有效的處理方式是將多個模型級聯(lián)起來,每個模型分別完成一個分割子任務(wù),并根據(jù)分割結(jié)果為下一個任務(wù)提供范圍更小的感興趣區(qū)域,圖8展示了級聯(lián)模型分割的基本流程。例如,Wang等[37]使用三個模型進(jìn)行膠質(zhì)瘤的分割,第一個模型預(yù)測全腫瘤,根據(jù)預(yù)測結(jié)果計算包圍全腫瘤的矩形框,在輸入容積數(shù)據(jù)上將該部分裁剪出來,送入第二個模型預(yù)測腫瘤核心。最后,根據(jù)預(yù)測的腫瘤核心使用模型3分割增強(qiáng)腫瘤。
圖8 級聯(lián)模型的基本流程Fig.8 Basic flow of cascade model
與單模型分割相比,級聯(lián)模型可以根據(jù)預(yù)測結(jié)果逐步縮小感興趣區(qū)域,從而減少過度分割的情況。但由于使用多個模型,受算力限制,每個模型的規(guī)模往往無法與單模型相同。此外,由于后續(xù)分割直接依賴于前一級的分割結(jié)果,因此對分割準(zhǔn)確性有很高的要求。為了保證后續(xù)分割的效果,級聯(lián)模型通常采取分步訓(xùn)練的策略,以保證在增加更精細(xì)分割任務(wù)時能夠提供較好的粗分割結(jié)果。雖然隨著對卷積神經(jīng)網(wǎng)絡(luò)的研究,不斷有更有效的單模型分割方法被提出,但基于簡單模型的級聯(lián)方法仍表現(xiàn)出十分出色的效果,例如Jiang等[41]通過兩個U-Net的級聯(lián)模型贏得了2019年腦腫瘤分割挑戰(zhàn)的第一名。因此,對于追求準(zhǔn)確性與實用性的醫(yī)學(xué)影像分割來說,級聯(lián)模型是與單模型同樣值得關(guān)注的方法。
在全監(jiān)督學(xué)習(xí)中,損失函數(shù)直接決定了網(wǎng)絡(luò)的訓(xùn)練目標(biāo)。對于圖像分割任務(wù)而言,最常用的損失函數(shù)為交叉熵?fù)p失,這一損失被廣泛應(yīng)用于自然圖像分割任務(wù)中。而醫(yī)學(xué)圖像相較于自然圖像又存在其獨(dú)特性,主要在于前景與背景類別的嚴(yán)重不平衡。因此,許多工作著眼于損失函數(shù)的改進(jìn),以提高分割模型在醫(yī)學(xué)圖像上的性能。此外,針對特定的醫(yī)學(xué)場景,多任務(wù)學(xué)習(xí)也經(jīng)常受到關(guān)注。本節(jié)將分別對目前常用的損失函數(shù)進(jìn)行介紹。
2.2.1 交叉熵?fù)p失
交叉熵(Cross Entropy)損失是圖像分割任務(wù)中應(yīng)用最廣泛的損失函數(shù),并同時適用于二分類和多分類任務(wù)。在醫(yī)學(xué)圖像分割中,任務(wù)往往定義為二分類任務(wù),即將像素劃分為前景(正例)與背景(負(fù)例)區(qū)域。用于二分類任務(wù)的交叉熵?fù)p失可以寫為:
其中:pi為網(wǎng)絡(luò)預(yù)測第i個樣本為前景的概率,yi為標(biāo)注圖中對應(yīng)樣本的標(biāo)簽,前景為1,背景為0。交叉熵?fù)p失均衡地考慮了全部像素的影響,而分割任務(wù)的難點(diǎn)在對邊界部分的準(zhǔn)確分割。為此,U-Net[14]提出為交叉熵計算增加權(quán)重,以強(qiáng)化對特定像素的學(xué)習(xí)。權(quán)重的大小受像素與分割邊界的距離控制,更靠近邊界的像素具有更高的權(quán)重。類似地,Guo等[39]提出根據(jù)距離變換計算像素級權(quán)重圖,同樣可以加強(qiáng)對于邊界部分的分割效果。
在標(biāo)準(zhǔn)的交叉熵?fù)p失中,正樣本和負(fù)樣本對損失函數(shù)具有平等的影響權(quán)重。然而對于醫(yī)學(xué)圖像分割任務(wù),前景類別如目標(biāo)器官、病變區(qū)域往往僅占整個圖像的一小部分,意味著前景像素與背景像素的數(shù)量存在嚴(yán)重的不平衡;同時,大量背景像素可以被很簡單地分割出來,導(dǎo)致訓(xùn)練時存在大量的簡單負(fù)樣本,嚴(yán)重影響了模型的學(xué)習(xí)效果。對于這類任務(wù),一個可行的選擇是使用Focal Loss[42]取代交叉熵:
相比交叉熵?fù)p失,F(xiàn)ocal Loss增加了權(quán)重調(diào)節(jié)項(1-pi)γ與pγi,其中γ是指數(shù)形式的權(quán)重因子,依據(jù)正確預(yù)測的概率對樣本進(jìn)行指數(shù)加權(quán)。如果網(wǎng)絡(luò)對于像素屬于前景或背景的預(yù)測概率接近1,權(quán)重調(diào)節(jié)項則會接近0,從而自適應(yīng)地降低了簡單樣本的權(quán)重,保證了網(wǎng)絡(luò)在訓(xùn)練過程中更關(guān)注于對難樣本的學(xué)習(xí)。
2.2.2 Dice損失
在評估醫(yī)學(xué)圖像分割任務(wù)的性能時,Dice系數(shù)為一個常用的指標(biāo):
式(6)中,P表示預(yù)測結(jié)果,Y表示標(biāo)注圖。在評估Dice系數(shù)時,通常只關(guān)注前景的分割結(jié)果,因此對于二分類任務(wù),更常用的Dice系數(shù)計算公式為:
其中:pi∈(0,1)為前景預(yù)測概率,yi∈{0,1}為二值標(biāo)簽。VNet[13]提出了基于Dice系數(shù)的Dice Loss:
式(8)中的拉普拉斯平滑項(即分子分母同時加+1)避免了分母為0的情況,同時也定義了預(yù)測結(jié)果與標(biāo)注圖均不存在前景標(biāo)簽時的Dice系數(shù)為1。相比交叉熵?fù)p失,Dice Loss直接基于分割的評價指標(biāo)對網(wǎng)絡(luò)進(jìn)行優(yōu)化,同時避免了前景與背景像素數(shù)量不均衡的問題。Dice Loss的局限性在于只適用于二分類情況。Sudre等[43]提出了廣義Dice Loss,將其擴(kuò)展到了多類別,并統(tǒng)計各類別標(biāo)簽數(shù)以增大標(biāo)簽少的類別的權(quán)重,從而實現(xiàn)不同類別的平衡。
2.2.3 多任務(wù)損失
為了增強(qiáng)分割網(wǎng)絡(luò)的特征提取能力,研究者在設(shè)計損失函數(shù)時,除了最終的分割損失之外,還可以根據(jù)任務(wù)特點(diǎn)設(shè)計額外的預(yù)測分支以組成多任務(wù)損失。Ren等[44]設(shè)計了用于醫(yī)學(xué)圖像分割的多級任務(wù)分解,除了分割任務(wù)之外,還增加了類別和場景預(yù)測任務(wù)分支。網(wǎng)絡(luò)在生成像素級分割結(jié)果的同時,預(yù)測整張圖像中存在的目標(biāo)類別種類,以及更高層級的任務(wù)類型。此外,Ren等還設(shè)計了一種同步正則化以加強(qiáng)不同任務(wù)之間的聯(lián)系,最終達(dá)到提升分割精度的效果。Guo等[45]同樣設(shè)計了類別級別的預(yù)測任務(wù),但將類別存在性的預(yù)測精度提高到網(wǎng)絡(luò)下采樣后的分辨率,不同于之前全圖級別的預(yù)測。
盡管關(guān)于改進(jìn)網(wǎng)絡(luò)模型的工作不斷出現(xiàn),但以U-Net為代表的經(jīng)典網(wǎng)絡(luò)仍然具有相當(dāng)?shù)母偁幜?,在眾多醫(yī)學(xué)圖像分割比賽中具有重要地位。例如,2019年腦膠質(zhì)瘤分割比賽的第一名使用的是兩個級聯(lián)的U-Net結(jié)構(gòu)[41]。而nnU-Net[46]則在使用U-Net結(jié)構(gòu)的基礎(chǔ)上使用了更有效的訓(xùn)練設(shè)置,在多個醫(yī)學(xué)分割比賽中名列前茅。因此,對于醫(yī)學(xué)圖像分割而言,訓(xùn)練設(shè)置同樣是至關(guān)重要的一部分。本節(jié)旨在介紹一些不依賴于模型結(jié)構(gòu)的通用訓(xùn)練技巧,以提升最終的分割性能。
2.3.1 數(shù)據(jù)增廣
為了避免過擬合,同時增強(qiáng)網(wǎng)絡(luò)對于各種變化的魯棒性,訓(xùn)練數(shù)據(jù)增廣是模型訓(xùn)練不可缺少的操作。由于醫(yī)學(xué)圖像及標(biāo)注獲取的困難性,醫(yī)學(xué)數(shù)據(jù)集規(guī)模往往遠(yuǎn)小于自然圖像數(shù)據(jù)集,因此更容易出現(xiàn)過擬合現(xiàn)象。常用的訓(xùn)練數(shù)據(jù)增廣方法包括隨機(jī)縮放、隨機(jī)裁剪、隨機(jī)旋轉(zhuǎn)、隨機(jī)翻轉(zhuǎn)、隨機(jī)噪聲等。更進(jìn)一步的復(fù)雜增廣方法則包括空間與灰度變換,如彈性形變[14]、B樣條插值[13]、伽馬校正[46]等。為了減少讀取開銷,數(shù)據(jù)增廣通常是在訓(xùn)練過程中實時進(jìn)行的,在實際使用中可根據(jù)數(shù)據(jù)規(guī)模和算力情況靈活選擇。
除了訓(xùn)練數(shù)據(jù)增廣之外,測試時同樣經(jīng)常進(jìn)行數(shù)據(jù)增廣以強(qiáng)化分割效果。測試數(shù)據(jù)增廣通常包括多尺度縮放以及鏡像翻轉(zhuǎn)[41,46],并將多種增廣后的預(yù)測結(jié)果取平均值作為最終預(yù)測結(jié)果。與單尺度預(yù)測相比,增廣預(yù)測通常表現(xiàn)出更精確、更穩(wěn)定的分割性能。
2.3.2 模塊優(yōu)化
隨著深度學(xué)習(xí)研究的發(fā)展,不斷有更有效的通用網(wǎng)絡(luò)模塊被提出,并可以整合到U-Net的編碼器-解碼器結(jié)構(gòu)中。例如,在卷積層與激活函數(shù)之間加入批標(biāo)準(zhǔn)化層(Batch Normalization)[47],可以使網(wǎng)絡(luò)收斂速度更快、魯棒性更好、效果更出色。然而批標(biāo)準(zhǔn)化的性能直接受批尺寸影響,在批尺寸很小時效果不理想。對于醫(yī)學(xué)影像分割中常見的三維卷積網(wǎng)絡(luò),由于其本身計算開銷較大,批尺寸通常嚴(yán)重受限(往往為1或2),此時引入批標(biāo)準(zhǔn)化并不合適。對于這類網(wǎng)絡(luò),使用計算不依賴于批尺寸的標(biāo)準(zhǔn)化方法,例如分組標(biāo)準(zhǔn)化[48]、樣本標(biāo)準(zhǔn)化[49]和層標(biāo)準(zhǔn)化[50],往往可以達(dá)到更好的效果。圖9給出了四種標(biāo)準(zhǔn)化的計算方式示意圖。其中,分組標(biāo)準(zhǔn)化的分組數(shù)為超參數(shù),可以根據(jù)實際訓(xùn)練情況進(jìn)行調(diào)整。當(dāng)分組數(shù)為1時,分組標(biāo)準(zhǔn)化變?yōu)閷訕?biāo)準(zhǔn)化;當(dāng)分組數(shù)等于通道數(shù)時,等價于樣本標(biāo)準(zhǔn)化。
圖9 標(biāo)準(zhǔn)化方法示意圖Fig.9 Schematic diagram of normalization
除了標(biāo)準(zhǔn)化層,對激活函數(shù)的改進(jìn)同樣值得關(guān)注。標(biāo)準(zhǔn)的ReLU(Rectified Linear Unit)激活函數(shù)僅在輸入大于0時保留激活值,而完全忽略了輸入為負(fù)值的情況。作為改進(jìn),LeakyReLU[51]在ReLU的基礎(chǔ)上為負(fù)值區(qū)域保留了較小的固定斜率,避免了完全失活的情況。PReLU[52]將負(fù)值區(qū)域的固定斜率改為可學(xué)習(xí)的參數(shù),進(jìn)一步地強(qiáng)化了激活函數(shù)的表示能力。
2.3.3 模型融合
多模型融合是醫(yī)學(xué)圖像分割比賽中的常用技巧,由于訓(xùn)練的隨機(jī)性,單個模型容易陷入局部最優(yōu)點(diǎn),而整合多個模型的預(yù)測結(jié)果通??梢蕴岣哒w分割效果,增強(qiáng)分割的魯棒性。多模型融合的方式可以是:1)對訓(xùn)練數(shù)據(jù)進(jìn)行多折劃分,多次訓(xùn)練同一個模型[53-54];2)選用多種模型,分別進(jìn)行訓(xùn)練[46,55]。類似于測試數(shù)據(jù)增廣,最終結(jié)果由多個模型的預(yù)測平均得到(圖10)。
圖10 模型融合的基本流程Fig.10 Basic flow of model fusion
2.3.4 后處理
在得到網(wǎng)絡(luò)生成的分割圖后,還可以通過后處理方法進(jìn)一步對分割結(jié)果進(jìn)行細(xì)化,例如使用條件隨機(jī)場(Conditional Random Field,CRF)[35]來平滑分割圖的邊界,去除分割噪聲。針對特定的醫(yī)學(xué)任務(wù),還可以根據(jù)先驗知識設(shè)計后處理方法,以彌補(bǔ)網(wǎng)絡(luò)分割的不足。閾值化[34,41]作為一種較為常見的后處理手段,目的是去除灰度不滿足閾值的像素,或者去除體積小于閾值的連通區(qū)域。OMNet[34]對于腦腫瘤分割任務(wù)進(jìn)一步提出了基于體素灰度的聚類方法,以減少對于增強(qiáng)腫瘤的誤分類情況。
盡管深度神經(jīng)網(wǎng)絡(luò)相比傳統(tǒng)算法表現(xiàn)出了顯著的進(jìn)展,但其在訓(xùn)練過程中需要大量的標(biāo)注數(shù)據(jù)作為支撐。在實際應(yīng)用中醫(yī)學(xué)圖像語義復(fù)雜且常包含3D信息,標(biāo)注過程耗時耗力,限制了深度學(xué)習(xí)算法在該領(lǐng)域的進(jìn)一步發(fā)展。相對地直接獲取大量的醫(yī)學(xué)影像數(shù)據(jù)較為容易,因此為了減輕對標(biāo)注的依賴、降低成本,半監(jiān)督學(xué)習(xí)算法得到了廣泛的關(guān)注和研究。
半監(jiān)督學(xué)習(xí)除了使用少量數(shù)據(jù)XL=(xl)l∈[1,N]和對應(yīng)的標(biāo)注YL=(yl)l∈[1,N]外,還引入了大量的未標(biāo)記數(shù)據(jù)XU=(xu)u∈[N+1,M]輔助訓(xùn)練,在研究中通常將已有數(shù)據(jù)集的部分標(biāo)簽丟棄來模擬該情況。半監(jiān)督學(xué)習(xí)在應(yīng)用時的一個必要條件是數(shù)據(jù)的分布p(x)包含后驗分布p(y|x)的相關(guān)信息,這在多數(shù)情況下都是成立的,但是在訓(xùn)練前無法得知兩者間的關(guān)系,因此如何有效地從中提取出關(guān)于后驗分布的信息是半監(jiān)督學(xué)習(xí)方法的關(guān)鍵。目前的方法通常遵循三個基本假設(shè)來描述p(x)與p(y|x)的關(guān)系:平滑假設(shè)(smoothness assumption)、低密度假設(shè)(low-density assumption)和流形假設(shè)(manifold assumption)。平滑假設(shè)認(rèn)為兩個在輸入空間中相近的數(shù)據(jù)點(diǎn)應(yīng)有相似的標(biāo)簽,低密度假設(shè)認(rèn)為分類時的決策邊界應(yīng)盡可能地穿過數(shù)據(jù)稀疏的區(qū)域,也稱為聚類假設(shè),流形假設(shè)認(rèn)為在同一低維流形中的數(shù)據(jù)點(diǎn)應(yīng)有相同的標(biāo)簽。
本章將介紹目前醫(yī)學(xué)分割領(lǐng)域中各類半監(jiān)督算法中的代表性工作。
自訓(xùn)練算法和協(xié)同訓(xùn)練算法均通過流形假設(shè)來利用已標(biāo)記數(shù)據(jù)傳播信息生成偽標(biāo)簽并進(jìn)行迭代優(yōu)化,已有很多研究將此思想應(yīng)用于醫(yī)學(xué)影像分割,文獻(xiàn)[54,56-57]等方法采用自訓(xùn)練的分割算法,這些算法僅使用單一模型完成訓(xùn)練過程。相對地,文獻(xiàn)[58-60]等方法使用的協(xié)同訓(xùn)練算法利用兩個或以上的模型共同完成訓(xùn)練優(yōu)化。
自訓(xùn)練算法是最常見的半監(jiān)督學(xué)習(xí)算法之一,它使用單一的模型,通過為無標(biāo)記數(shù)據(jù)預(yù)測偽標(biāo)簽,進(jìn)而在學(xué)習(xí)偽標(biāo)簽并重新預(yù)測更新的迭代過程中增強(qiáng)網(wǎng)絡(luò)的泛化能力。以LS、LU表示常用損失函數(shù)(如交叉熵),yi表示偽標(biāo)簽,則此方法訓(xùn)練時的優(yōu)化目標(biāo)可表示如下:
從優(yōu)化方式可以看出,此類方法的缺陷是需要依賴于生成偽標(biāo)簽的質(zhì)量,當(dāng)網(wǎng)絡(luò)學(xué)習(xí)到錯誤的標(biāo)記后可能會不斷將其放大從而影響最終性能。由于自訓(xùn)練算法僅參考了網(wǎng)絡(luò)本身提供的信息,預(yù)測結(jié)果中的信息量有限且通常伴隨著部分誤判,特別是對于語義歧義性高、邊緣模糊的醫(yī)學(xué)影像,生成偽標(biāo)簽的質(zhì)量并不穩(wěn)定,因此目前對自訓(xùn)練算法的研究主要集中于如何在嘈雜的偽標(biāo)簽中進(jìn)行學(xué)習(xí)。
一個改進(jìn)的思路是對分割結(jié)果進(jìn)行后處理以精煉提升偽標(biāo)簽的質(zhì)量,Bai等[56]將條件隨機(jī)場的后處理方法與自訓(xùn)練算法結(jié)合并應(yīng)用于心室MRI的分割任務(wù)中。該方法首先學(xué)習(xí)已標(biāo)記數(shù)據(jù),然后對于未標(biāo)記數(shù)據(jù)進(jìn)行分割,之后使用了CRF來精煉分割結(jié)果并使用優(yōu)化后的分割圖來指導(dǎo)下一輪的迭代,最終有效地提升了分割的質(zhì)量。相似地,Tang等[57]則使用了水平集(level set)的方法來作為后處理精煉偽標(biāo)簽。另外Rajchl等[54]也基于自訓(xùn)練的方法并額外使用了邊框級的弱標(biāo)注輔助監(jiān)督過程。
自訓(xùn)練算法通過網(wǎng)絡(luò)本身的預(yù)測來分配標(biāo)簽,可以看作運(yùn)用流形假設(shè)將學(xué)到的標(biāo)簽傳播至相似的數(shù)據(jù)上,從而學(xué)習(xí)了所有數(shù)據(jù)在其特征空間上的分布特點(diǎn),并且在優(yōu)化損失函數(shù)(如交叉熵)的同時隱式地使決策邊界遠(yuǎn)離高密度數(shù)據(jù)區(qū)域,根據(jù)低密度假設(shè)最終學(xué)到了更加合理決策邊界,進(jìn)而提升了網(wǎng)絡(luò)的魯棒性。
協(xié)同訓(xùn)練算法將自訓(xùn)練算法進(jìn)行了擴(kuò)展,為了降低單一模型預(yù)測帶來的局限性提出使用多個預(yù)訓(xùn)練的模型以綜合預(yù)測偽標(biāo)簽,通過模型間的融合來提升偽標(biāo)簽的質(zhì)量。需要注意的是,協(xié)同訓(xùn)練需要使不同的模型在預(yù)訓(xùn)練過程中相互獨(dú)立以提取不同的知識,實現(xiàn)時通常需要將數(shù)據(jù)集進(jìn)行額外的劃分保證子集間存在差異性或利用同一數(shù)據(jù)的不同視圖,這樣在隨后的訓(xùn)練階段就可以通過在未標(biāo)記數(shù)據(jù)上的預(yù)測來傳播每個模型學(xué)到的知識達(dá)到相互補(bǔ)充的效果,最終得到更加魯棒的網(wǎng)絡(luò)。
Zhou等[60]基于協(xié)同訓(xùn)練的方法定義了額外的學(xué)生模型來學(xué)習(xí)融合后的偽標(biāo)簽。為了獲取獨(dú)立的子數(shù)據(jù)集,Zhou等利用器官分割中3D醫(yī)學(xué)影像數(shù)據(jù)可以分解為不同的軸向視圖(矢狀面、冠狀面和軸向)的特點(diǎn),在不同的軸上對3D數(shù)據(jù)進(jìn)行切片構(gòu)造子數(shù)據(jù)集并使用2D分割網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練得到3個教師模型。融合階段通過“投票”的方式選擇偽標(biāo)簽,對于預(yù)測一致的像素直接保留結(jié)果,而對不一致的部分則取置信度得分最高的標(biāo)簽作為偽標(biāo)記。最后使用一個新的學(xué)生網(wǎng)絡(luò)在擴(kuò)充后的數(shù)據(jù)集上進(jìn)行訓(xùn)練。
另一種常見的協(xié)同訓(xùn)練方式?jīng)]有使用學(xué)生模型,而是使用了相互指導(dǎo)的學(xué)習(xí)策略,即每個模型使用其他模型融合得到的偽標(biāo)簽進(jìn)行訓(xùn)練,從而直接學(xué)習(xí)互補(bǔ)的知識。在此基礎(chǔ)之上為了進(jìn)一步過濾噪聲數(shù)據(jù),Xia等[59]提出了基于不確定性的融合生成策略,通過添加Dropout利用貝葉斯深度網(wǎng)絡(luò)估計預(yù)測的不確定性,進(jìn)而在融合階段以加權(quán)和的方式生成更可信的偽標(biāo)簽。
Peng等[58]使用多個模型預(yù)測的均值作為偽標(biāo)簽,同時為了使模型學(xué)習(xí)到更多互補(bǔ)的知識,引入了對抗樣本以捕捉不同模型間的差異。此方法額外定義了差異損失函數(shù),針對每個模型fi對輸入x進(jìn)行調(diào)整生成對應(yīng)的對抗樣本gi(x),如圖11,其中無標(biāo)簽的對抗樣本由虛擬對抗訓(xùn)練(Virtual Adversarial Training,VAT)生成,有標(biāo)簽的對抗樣本則使用快速梯度法(Fast Gradient Sign Method,F(xiàn)GSM)生成,進(jìn)而在其他模型的指導(dǎo)下優(yōu)化使其對于對抗樣本更加魯棒。
圖11 對抗樣本示意圖Fig.11 Schematic diagram of adversarial samples
還有一些方法對學(xué)習(xí)偽標(biāo)簽的過程進(jìn)行了調(diào)整,通過引入額外的約束以提高偽標(biāo)簽的利用效率,Kervadec等[61]針對偽標(biāo)簽不可靠的問題提出了課程半監(jiān)督學(xué)習(xí)(curriculum semi-supervised learning),此方法通過學(xué)習(xí)更加寬松的區(qū)域表達(dá)來提升網(wǎng)絡(luò)的泛化性能。具體地,課程半監(jiān)督學(xué)習(xí)框架定義了一個輔助分類網(wǎng)絡(luò)預(yù)測輸入圖像中前景部分區(qū)域的大小R,進(jìn)而在網(wǎng)絡(luò)分割無標(biāo)記數(shù)據(jù)時統(tǒng)計輸出結(jié)果的前景區(qū)域大小并將其限制在R的附近(1-λR,1+λR),優(yōu)化時將超出的部分作為正則懲罰項加入到損失函數(shù)中,從而避免了利用錯誤的像素級預(yù)測作為偽標(biāo)簽帶來的影響。最終通過左心室分割任務(wù)展現(xiàn)了其算法的優(yōu)勢。
使用帶噪的偽標(biāo)簽容易造成模型退化而約束后的偽標(biāo)簽又無法提供足夠的信息量,為了平衡兩者間的矛盾,Min等[62]定義了深度注意力網(wǎng)絡(luò)(Deep Attention Network,DAN)以自適應(yīng)地發(fā)現(xiàn)和糾正噪聲標(biāo)簽中錯誤的信息,并且提出了分級蒸餾的方法生成更加可靠的偽標(biāo)簽,最終在多個醫(yī)學(xué)分割任務(wù)上有效地提升了網(wǎng)絡(luò)的性能。整個框架的訓(xùn)練過程分為三步,首先使用DAN在有標(biāo)記數(shù)據(jù)下進(jìn)行預(yù)訓(xùn)練,然后通過分級蒸餾的方式為無標(biāo)記數(shù)據(jù)生成偽標(biāo)簽,最后使用所有的數(shù)據(jù)和標(biāo)簽重新訓(xùn)練模型。其中DAN模型在訓(xùn)練時使用兩個學(xué)生網(wǎng)絡(luò)同時學(xué)習(xí)相同的數(shù)據(jù),并根據(jù)模型間的預(yù)測和內(nèi)部特征的關(guān)聯(lián)篩選出可靠的梯度部分執(zhí)行反向傳播,使其對錯誤標(biāo)簽擁有一定的糾正能力。此外在生成偽標(biāo)簽時,融合了數(shù)據(jù)蒸餾與模型蒸餾的特點(diǎn),通過將模型蒸餾中每個模型的預(yù)測替換為每個模型在多種數(shù)據(jù)變換下的預(yù)測將兩種方式分層次地結(jié)合起來,如圖12,從而進(jìn)一步提升偽標(biāo)簽的質(zhì)量。
圖12 分級蒸餾示意圖Fig.12 Schematic diagram of hierarchical distillation
根據(jù)平滑假設(shè),對數(shù)據(jù)進(jìn)行擾動后應(yīng)該得到一致的輸出結(jié)果,然而通常訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)無法保證這種變換不變性,從而泛化性能較差。半監(jiān)督學(xué)習(xí)中為了能夠使用少量標(biāo)注數(shù)據(jù)訓(xùn)練出更加魯棒的模型,提出了對數(shù)據(jù)擾動前后的一致性進(jìn)行約束的方法,實現(xiàn)上常通過定義額外的子任務(wù)提取對應(yīng)的不變性以輔助優(yōu)化網(wǎng)絡(luò)。一些代表性的研究方法包括使用均值教師的半監(jiān)督方法,如MT[19]、UAMT(Uncertainty Aware Mean Teacher)[20]。還有基于幾何變換一致性的方法,包括TCSM(Transformation Consistent Selfensembling Model)[21]、semiTC(semi-supervised Transformation-Consistent network)[63],以及兩種方法的結(jié)合TCSMv2[64]等。
在文獻(xiàn)[65]中Π-Model和Temporal Ensembling的啟發(fā)下,均值教師算法[66]對兩者的思想進(jìn)行了融合,Perone等[19]基于此方法在脊髓灰質(zhì)分割任務(wù)上進(jìn)行了實驗,整體的訓(xùn)練框架如圖13。首先在初始化時定義了相同結(jié)構(gòu)的教師模型ft和學(xué)生模型fs,其中教師模型僅通過學(xué)生模型每次迭代參數(shù)的指數(shù)滑動平均(Exponential Moving Average,EMA)更新以融合不同時期的訓(xùn)練成果,泛化能力更強(qiáng)。訓(xùn)練時對于同一數(shù)據(jù)在添加不同了噪聲η、η'后分別讓教師和學(xué)生模型進(jìn)行預(yù)測,將兩者分割結(jié)果的均方差作為輔助損失優(yōu)化學(xué)生模型,此一致性損失既包含了與時序融合后模型預(yù)測的一致性,又含有不同噪聲擾動下的不變性,最終整體損失函數(shù)如下:
圖13 均值教師分割算法Fig.13 Mean teacher segmentation method
均值教師算法可以看作利用擾動不變性的同時融入了偽標(biāo)簽的思想,由于進(jìn)行了時序上的融合,教師模型的預(yù)測更加穩(wěn)定并可以作為標(biāo)簽指導(dǎo)學(xué)生模型的更新方向。
Yu等[20]從不確定性的角度對教師模型的預(yù)測進(jìn)行了篩選,增加了蒙特卡羅Dropout(Monte Carlo Dropout)用于衡量教師模型預(yù)測的不確定度,進(jìn)而根據(jù)閾值選取低不確定度的部分計算一致性損失,最終模型的精度在左心室分割任務(wù)中相比原始均值教師方法得到了進(jìn)一步的提升。
此外還有一類思路使用重建的方法,即約束從編碼器輸出的特征中還原的圖像應(yīng)與真實的圖像相似,進(jìn)而強(qiáng)化編碼器的特征提取能力。Chen等[67]利用重建的方法構(gòu)建了多任務(wù)注意力機(jī)制半監(jiān)督學(xué)習(xí)(Multi-task Attention-based Semi-Supervised Learning,MASSL)框架輔助訓(xùn)練,總體框架如圖14。具體來說在經(jīng)編碼器得到深層特征后,除了執(zhí)行分割任務(wù)外,定義了重建解碼器預(yù)測前景和背景部分的輸入圖像,再與二值分割結(jié)果相乘后和真實的前背景圖計算均方誤差。
圖14 MASSL網(wǎng)絡(luò)框架Fig.14 Network structureof MASSL
基于圖的算法在特征空間中的數(shù)據(jù)點(diǎn)上建立加權(quán)無向圖G=(V,E),其中V表示數(shù)據(jù)點(diǎn),圖結(jié)構(gòu)中的邊用于描述樣本之間局部相似性,相連的樣本相似度較高,因而根據(jù)流形假設(shè)信息可以沿著圖的邊進(jìn)行傳播,最后將圖上所有數(shù)據(jù)點(diǎn)劃分到不相交的子集中完成分類過程。其中的代表性算法包括Baur等[68]提出的隨機(jī)特征嵌入的半監(jiān)督學(xué)習(xí)算法,以及使用圖正則化的[22-23]等方法。
嵌入半監(jiān)督學(xué)習(xí)(semi-supervised embedding)算法[69]通過減小相似數(shù)據(jù)距離、增大無關(guān)數(shù)據(jù)距離的方式利用圖中數(shù)據(jù)的分布進(jìn)行優(yōu)化,但對于像素級的分割任務(wù)此方法計算開支較大,因此Baur等[68]對算法進(jìn)行了調(diào)整,在多發(fā)性硬化病變分割任務(wù)中提出了隨機(jī)特征嵌入(Random Feature Embedding,RFE)的思想,針對圖像中大量的像素進(jìn)行了采樣,只使用部分像素參與計算,從而能夠在像素級分割結(jié)果上進(jìn)行優(yōu)化。
圖正則化的方法使用圖平滑(Graph-smooth Regularization)的思想來標(biāo)記額外的數(shù)據(jù),其中使用圖拉普拉斯算子衡量節(jié)點(diǎn)間的相似性,并作為正則器優(yōu)化圖的平滑性。
在腦部MRI腫瘤分割中,Song等[22]提出了一種基于圖正則化的歸納學(xué)習(xí)方法,使用隱變量來生成最終預(yù)測:x→t→y并基于高斯隨機(jī)場(Gaussian Random Field,GRF)對潛在變量t進(jìn)行建模,之后使用圖拉普拉斯算子衡量節(jié)點(diǎn)間的相似性并作為正則器對其進(jìn)行優(yōu)化。
生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[70]是一種基于對抗的學(xué)習(xí)生成模型算法,包含生成器(generator)與判別器(discriminator),其中生成器用于數(shù)據(jù)的生成,判別器用于結(jié)果的評估。訓(xùn)練時判別器學(xué)習(xí)如何將生成器產(chǎn)生的數(shù)據(jù)與真實數(shù)據(jù)區(qū)分開,而生成器學(xué)習(xí)如何產(chǎn)生可以迷惑判別器的數(shù)據(jù)。在對抗中兩個模型的能力均能夠得到強(qiáng)化提升。由于在相互對抗的過程中不需要數(shù)據(jù)本身的標(biāo)簽,GAN在半監(jiān)督學(xué)習(xí)中得到了大量的應(yīng)用與改進(jìn),基于對抗過程設(shè)計思路的不同包括Chaitanya等[71]和Mondal等[72]的生成數(shù)據(jù)的方法,Zhang等[73]、Nie等[74]和Zhou等[75]的評估分割結(jié)果的算法,以及Ross等[76]定義額外對抗任務(wù)訓(xùn)練特征提取能力的方法。
缺少數(shù)據(jù)是需要進(jìn)行半監(jiān)督學(xué)習(xí)的主要原因,而GAN的生成器本身就具有生成數(shù)據(jù)的能力。Chaitanya等[71]從該角度出發(fā),提出將GAN中的生成器用于合成虛假影像與標(biāo)簽以緩解數(shù)據(jù)不足的困難。對于生成器G,輸入標(biāo)記數(shù)據(jù)XL和隨機(jī)生成的向量z,輸出變形場以扭曲輸入圖像得到新的數(shù)據(jù)XG。另外定義了判別器D用于區(qū)分生成數(shù)據(jù)XG與真實數(shù)據(jù)XL∪XU,對抗訓(xùn)練時提升生成器在分類器上的得分LG=log(1-D(G(XL,z))),分 類 器 損 失LD=log(D(XL∪XU))-log(1-D(G(XL,z))),對抗學(xué)習(xí)后將新生成的數(shù)據(jù)加入分割網(wǎng)絡(luò)S的訓(xùn)練中。具體地,研究了兩種數(shù)據(jù)生成方式:變形場生成器和加性強(qiáng)度場生成器,如圖15,變形場生成器通過產(chǎn)生變形場v同時扭曲輸入圖像與標(biāo)簽進(jìn)行增廣,而加性強(qiáng)度場生成器輸出強(qiáng)度信號ΔI通過與輸入圖像相加并保留標(biāo)簽實現(xiàn)數(shù)據(jù)增廣。在心臟MRI分割數(shù)據(jù)集上的實驗結(jié)果驗證了GAN可以作為一種強(qiáng)大的數(shù)據(jù)增廣方式擴(kuò)充緩解數(shù)據(jù)不足的問題。
圖15 基于GAN的數(shù)據(jù)增廣方式Fig.15 Dataaugmentation methodsbased on GAN
另一類方法結(jié)合了偽標(biāo)簽的思路,將分割網(wǎng)絡(luò)作為生成器來產(chǎn)生分割圖,進(jìn)而將分類器(如ResNet[7])作為對抗網(wǎng)絡(luò)中的判別器用于評估分割網(wǎng)絡(luò)預(yù)測的偽標(biāo)簽質(zhì)量,從而監(jiān)督分割網(wǎng)絡(luò)生成更真實的預(yù)測結(jié)果。
其中代表性的算法是Zhang等[73]提出的深度對抗網(wǎng)絡(luò)(Deep Adversarial Network,DAN)框架,DAN將對抗網(wǎng)絡(luò)應(yīng)用于腺體分割與真菌分割任務(wù),首先在有標(biāo)記數(shù)據(jù)上預(yù)訓(xùn)練分割網(wǎng)絡(luò),在加入無標(biāo)記數(shù)據(jù)后定義了判別網(wǎng)絡(luò)來評價分割網(wǎng)絡(luò)的預(yù)測質(zhì)量,使其在訓(xùn)練過程中判斷分割結(jié)果是否來源于訓(xùn)練過的有標(biāo)記數(shù)據(jù),最后固定訓(xùn)練好的判別器,鼓勵分割網(wǎng)絡(luò)欺騙評價網(wǎng)絡(luò),使其對所有數(shù)據(jù)的分割結(jié)果都判定為有標(biāo)記數(shù)據(jù),以此促使分割網(wǎng)絡(luò)從對抗學(xué)習(xí)的過程中提高預(yù)測的質(zhì)量,整個訓(xùn)練框架如圖16。
圖16 DAN訓(xùn)練框架Fig.16 Training framework of DAN
Nie等[74]根據(jù)分割任務(wù)的特點(diǎn)進(jìn)一步細(xì)化了評價網(wǎng)絡(luò)的目標(biāo),將判別器同樣改為二分類的分割網(wǎng)絡(luò),使其產(chǎn)生像素級的質(zhì)量評估,最后對無標(biāo)記數(shù)據(jù)選取高質(zhì)量的分割區(qū)域作為偽標(biāo)簽參與訓(xùn)練,之后根據(jù)自訓(xùn)練的方法迭代地優(yōu)化模型。
Zhou等[75]探討了使用了圖像級標(biāo)注的弱監(jiān)督情形下偽標(biāo)簽的優(yōu)化,仍然使用判別器評估圖像級分割網(wǎng)絡(luò)的真?zhèn)?,此外還定義了使用圖像級標(biāo)注預(yù)訓(xùn)練的分類網(wǎng)絡(luò),利用其產(chǎn)生的注意力特征輔助優(yōu)化原分割網(wǎng)絡(luò)的結(jié)果得到新的偽標(biāo)簽用于監(jiān)督分割網(wǎng)絡(luò)訓(xùn)練。
表1 半監(jiān)督醫(yī)學(xué)影像分割方法匯總Tab.1 Summary of semi-supervised medical image segmentation methods
此外還有的研究在額外的輔助任務(wù)上執(zhí)行對抗訓(xùn)練,從而間接提升網(wǎng)絡(luò)的特征提取能力。Ross等[76]在內(nèi)窺鏡器官分割任務(wù)中定義了從灰度圖中還原的著色任務(wù)。訓(xùn)練流程如圖17,與其他半監(jiān)督學(xué)習(xí)的流程不同,該方法首先在無標(biāo)記數(shù)據(jù)上學(xué)習(xí)得到預(yù)訓(xùn)練模型。具體地,考慮到此類外科分割任務(wù)中的數(shù)據(jù)為彩色影像的特點(diǎn),先將其轉(zhuǎn)換至Lab顏色空間,再使用分割網(wǎng)絡(luò)預(yù)測彩色部分分量,相對的判別網(wǎng)絡(luò)負(fù)責(zé)區(qū)分輸入圖像為原始彩色分量還是分割網(wǎng)絡(luò)輸出的結(jié)果。得到預(yù)訓(xùn)練模型后,再使用有標(biāo)記數(shù)據(jù)對分割網(wǎng)絡(luò)的最后一層進(jìn)行調(diào)整以實現(xiàn)分割任務(wù)。實驗結(jié)果表明,著色可以為分割提供一定的特征提取能力,在只有很少的標(biāo)記數(shù)據(jù)時效果明顯。
圖17 基于重著色的訓(xùn)練流程Fig.17 Training framework based on re-colorization
基于深度學(xué)習(xí)的醫(yī)學(xué)影像分割在醫(yī)學(xué)分割各任務(wù)中均取得了顯著的成果,但是獲取十分準(zhǔn)確而且可靠的分割結(jié)果對大多數(shù)任務(wù)來說仍然具有挑戰(zhàn),尤其是在目標(biāo)的邊緣區(qū)域。因此,在給出分割的結(jié)果的同時對預(yù)測結(jié)果不確定度進(jìn)行定量分析對理解分割結(jié)果的可靠性有重大意義[77],例如,不確定性度量可以用來指示出潛在可能的誤分割區(qū)域,從而指導(dǎo)醫(yī)生對模型不確定度高的部分進(jìn)行復(fù)查。
早期關(guān)于深度學(xué)習(xí)網(wǎng)絡(luò)不確定性度量的研究主要集中在圖像分類和檢測這些粗粒度的預(yù)測任務(wù)中,隨后,研究者Kendall等[78]在2015年將其推廣到需要對逐像素預(yù)測結(jié)果進(jìn)行不確定性度量的圖像分割領(lǐng)域。文獻(xiàn)[26]根據(jù)不確定性的分布類型角度,將不確定性分為認(rèn)知不確定性(Epistemic uncertainty)和隨機(jī)不確定性(Aleatoric uncertainty)。
認(rèn)知不確定性也稱為模型不確定性,指的是系統(tǒng)原則上具備某種認(rèn)知能力,但是受限于標(biāo)注數(shù)據(jù)量、訓(xùn)練策略以及評價體系,從而導(dǎo)致的模型認(rèn)知上的不確定性??梢酝ㄟ^提供額外的訓(xùn)練數(shù)據(jù)和改進(jìn)模型訓(xùn)練策略來減輕和消除這種不確定性。在有限的醫(yī)療標(biāo)注資源下,對模型不確定性的準(zhǔn)確量化,是對當(dāng)前醫(yī)療智能診斷系統(tǒng)的重要補(bǔ)充。模型不確定性的核心是獲得模型參數(shù)改變時預(yù)測結(jié)果的分布,而傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)參數(shù)固定只能得到一次預(yù)測結(jié)果。研究者根據(jù)對模型不確定性評估的方式不同,將其大致分為兩類,即深度模型集 成(Deep model ensemble)[26]和 深 度 貝 葉 斯 網(wǎng) 絡(luò)(Deep Bayesian Neural Network)[79]。
4.1.1 深度模型集成
早期深度模型集成的方式主要采用生成多個訓(xùn)練模型來近似預(yù)測分布,如圖18。文獻(xiàn)[26]改變模型初始化參數(shù)從而獲得不同初始化條件下的訓(xùn)練模型,進(jìn)一步用獲得的多個模型下的預(yù)測集成來表征模型不確定性:
圖18 深度模型集成方式Fig.18 Deep model integration method
文獻(xiàn)[80]對模型集成方式進(jìn)行簡化,用多假設(shè)預(yù)測(Multiple Hypothesis Prediction)替換模型原來的單一假設(shè)預(yù)測(Single Hypothesis Prediction)。根據(jù)不同假設(shè)輸出損失將標(biāo)簽空間進(jìn)行沃羅伊諾劃分(Voronoi tessellation),更新過程計算最近標(biāo)簽空間的損失進(jìn)行反向傳播。
上述模型集成的方法能夠得到一致的輸出預(yù)測,但是受限于固定的集成模型數(shù)目,無法得到更多假設(shè)數(shù)目或者連續(xù)空間假設(shè)下的輸出結(jié)果,同時訓(xùn)練隊計算資源的消耗也大大增加。隨后,Kohl等[81]在2019年NIPS(advances in Neural Information Processing Systems)會議上提出概率神經(jīng)網(wǎng)絡(luò),設(shè)計先驗網(wǎng)絡(luò)獲得輸入在潛在空間(Latent space)下的分布,然后通過計算KL散度(Kullback-Leibler Divergence,KLD)與后驗網(wǎng)絡(luò)下標(biāo)簽在潛在空間的分布對齊,以獲得連續(xù)空間下的預(yù)測結(jié)果,從而獲得模型預(yù)測的不確定性。Baumgartner等[82]通過對多尺度下特征空間進(jìn)行層級化(Hierarchical)建模,進(jìn)一步提升了模型在連續(xù)空間下預(yù)測的精細(xì)化程度。
4.1.2 深度貝葉斯網(wǎng)絡(luò)
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型可以視為一個條件分布模型P(y|x,w):輸入為x,模型參數(shù)w,輸出預(yù)測y的分布。網(wǎng)絡(luò)的學(xué)習(xí)過程是對模型參數(shù)w的最大似然估計:
其中D代表訓(xùn)練數(shù)據(jù)。此種優(yōu)化過程下模型的參數(shù)w是固定的取值,以此得到輸出y的預(yù)測也是固定的,無法體現(xiàn)不確定性。而深度貝葉斯網(wǎng)絡(luò)[78]為神經(jīng)網(wǎng)絡(luò)的參數(shù)引入概率分布,如圖19,根據(jù)輸入數(shù)據(jù)的分布去學(xué)習(xí)網(wǎng)絡(luò)參數(shù)的后驗概率分布,建立基于模型參數(shù)概率分布的預(yù)測期望以度量不確定性:
圖19 兩種神經(jīng)網(wǎng)絡(luò)的區(qū)別Fig.19 Differencebetween twoneural networks
而根據(jù)貝葉斯理論,模型參數(shù)后驗概率P(w|D)是無法直接求解的,因為:
式(14)中各項均無法直接求解。為了將求w后驗分布的問題轉(zhuǎn)化為更好求解的優(yōu)化問題,研究者們引入變分推斷[83](variational)的思想,這類方法基于由一組參數(shù)θ控制的先驗假設(shè)概率分布q(w|θ)去逼近待求解的模型參數(shù)真實后驗概率分布p(w|D),轉(zhuǎn)化為如基于高斯先驗假設(shè)的(μ,θ)的參數(shù)優(yōu)化問題。這個問題可以通過最小化假設(shè)先驗分布和真實后驗分布的KL散度進(jìn)行求解,
上面優(yōu)化目標(biāo)中的KL散度可以分解成DKL[q(w|θ)||P(w)]和Eq(w|θ)[logP(D|w)]兩項之差。文獻(xiàn)[84]中用蒙特卡洛采樣法去近似KL散度中的積分項求解,而以一定概率隨機(jī)關(guān)閉模型中參數(shù)的Dropout策略[27,85]可以結(jié)合蒙特卡洛采樣以達(dá)到變分貝葉斯近似的目的,同時降低模型訓(xùn)練的復(fù)雜度。
隨機(jī)不確定性指的是觀測中固有的噪聲,這部分不確定性來源于醫(yī)療設(shè)備采集成像的數(shù)據(jù)本身噪聲以及標(biāo)注存在的不可控誤差,不能通過獲取更多的數(shù)據(jù)來減輕這種不確定性。對醫(yī)學(xué)影像分割過程中隨機(jī)不確定性的量化能標(biāo)識出分割不確定性很高的區(qū)域,有助于輔助醫(yī)生的判斷。其中按照隨機(jī)不確定性的分布主要可以分為輸入不確定性和輸出不確定性。
輸入不確定性指的是由于成像設(shè)備的限制導(dǎo)致的醫(yī)學(xué)影像的模糊性,進(jìn)而導(dǎo)致標(biāo)注結(jié)果受到醫(yī)療專家主觀認(rèn)知以及客觀差異化的影響,造成誤標(biāo)、漏標(biāo)的情況,如圖20所示,圖中不同的輪廓表示了不同專家的標(biāo)注結(jié)果。Joskowicz等[86]通過多輪次標(biāo)注對標(biāo)簽的差異性進(jìn)行統(tǒng)計建模,界定差異范圍(variability range)對輸入不確定性統(tǒng)計分析,對不確定性高的樣例或者區(qū)域可以進(jìn)一步重新標(biāo)注以達(dá)到糾錯的目的。而實際應(yīng)用過程中,不確定性統(tǒng)計建模的方式耗時耗力,無法滿足動態(tài)高效的需求,因此基于模型輸出分布的輸出不確定性被較廣泛研究。文獻(xiàn)[78]對輸入分別賦予同方差(Homoscedastic)噪聲和異方差(Heteroscedastic)噪聲以對模型輸出的分布建模,達(dá)到對隨機(jī)不確定性量化的效果。對輸出分布的研究也可以利用測試過程對數(shù)據(jù)增廣的方式達(dá)到,Wang等[87]采用幾何變換和顏色空間變換對測試過程中輸入數(shù)據(jù)進(jìn)行增廣,觀測輸出空間的差異性,進(jìn)而推斷數(shù)據(jù)本身的觀測固有噪聲。
圖20 隨機(jī)不確定性示意圖Fig.20 Schematic diagram of random uncertainty
醫(yī)學(xué)影像分割在醫(yī)療智能輔助診斷中的價值明顯,盡管基于深度學(xué)習(xí)在醫(yī)學(xué)影像分割領(lǐng)域中已經(jīng)取得了顯著的進(jìn)展,但基于深度學(xué)習(xí)思想和方法建立更加精確、高效、魯棒的分割模型仍然值得更深入的研究。目前醫(yī)學(xué)影像分割質(zhì)量的提升主要得益于網(wǎng)絡(luò)模型在圖像表征學(xué)習(xí)能力上的優(yōu)勢,以及現(xiàn)有計算技術(shù)下處理大規(guī)模數(shù)據(jù)的高效性。多數(shù)醫(yī)學(xué)影像任務(wù)場景下目前的分割算法還達(dá)不到符合醫(yī)療應(yīng)用的要求,算法要求標(biāo)注數(shù)據(jù)量大且重復(fù)標(biāo)注多,另外分割結(jié)果單一,有效信息少。未來醫(yī)學(xué)影像分割需要在以下幾個方向開展更深入的研究。
醫(yī)學(xué)影像中的組織不像自然圖像具有清晰的邊緣、紋理和顏色,因此病變和健康組織的視覺紋理很難被區(qū)分開,病變區(qū)域附近的背景冗余信息會嚴(yán)重干擾目標(biāo)視覺特征的表達(dá)能力。而由于病變組織的多變性和復(fù)雜性,類別內(nèi)的樣本紋理也存在著巨大的差異。因此,醫(yī)學(xué)影像分割會面臨較小的類間區(qū)分性和較大的類內(nèi)差異性。如何針對醫(yī)學(xué)影像的特點(diǎn),設(shè)計能夠?qū)⒕W(wǎng)絡(luò)注意力側(cè)重在目標(biāo)區(qū)域,且優(yōu)化網(wǎng)絡(luò)的特征表達(dá),使得提取到的目標(biāo)區(qū)域更加緊湊,和背景特征之間的距離盡可能大,是一個亟須解決的問題。
由于醫(yī)療業(yè)務(wù)數(shù)據(jù)特點(diǎn)(數(shù)據(jù)模糊、標(biāo)注不準(zhǔn)確)和應(yīng)用場景的特殊性,對模型的魯棒性和精度要求很高,目前的醫(yī)學(xué)影像分割算法通常僅能給出單一的分割結(jié)果,有用信息量少。醫(yī)生希望模型給出預(yù)測結(jié)果的同時,對結(jié)果的不確定性也能給出量化,這樣的話醫(yī)生就可以將精力重點(diǎn)放在模型不確定度高的地方,減少重復(fù)勞動。因此亟須在已有分割模型的預(yù)測基礎(chǔ)上,增加關(guān)于分割網(wǎng)絡(luò)不確定性的研究;同時如何結(jié)合不確定性的量化指標(biāo),優(yōu)化模型訓(xùn)練過程,提升模型的分割性能,值得進(jìn)一步的探索。
目前,醫(yī)學(xué)影像智能分析算法多以純數(shù)據(jù)驅(qū)動的方式進(jìn)行訓(xùn)練,造成模型泛化能力受標(biāo)注數(shù)據(jù)質(zhì)量的嚴(yán)重影響,過擬合嚴(yán)重。數(shù)據(jù)標(biāo)注主要問題包括樣本分布不均衡、標(biāo)注差異化、同質(zhì)樣本冗余、樣本孤立點(diǎn)等。針對這些問題,需要提出高效的與數(shù)據(jù)交互驅(qū)動的數(shù)據(jù)標(biāo)注策略,使得模型訓(xùn)練過程中能夠主動挑選出高價值的數(shù)據(jù)樣本,交給醫(yī)療專家進(jìn)行標(biāo)注,從而減少重復(fù)標(biāo)注工作,優(yōu)化標(biāo)注流程,達(dá)到海量樣本空間下模型高效學(xué)習(xí)的目的。
隨著醫(yī)學(xué)技術(shù)的發(fā)展,醫(yī)學(xué)影像數(shù)據(jù)將會更加龐大,而醫(yī)療資源無法對所有數(shù)據(jù)進(jìn)行標(biāo)注,因此未來半監(jiān)督學(xué)習(xí)算法還有很大的發(fā)展空間,并將獲得更多的關(guān)注與研究。目前在半監(jiān)督醫(yī)學(xué)分割領(lǐng)域中還存在一些問題,首先是現(xiàn)有算法的性能上距離全監(jiān)督學(xué)習(xí)的效果還有很大距離[88],原因主要在于無標(biāo)記數(shù)據(jù)中的信息難以被利用。一方面僅靠三個基本假設(shè)來定義數(shù)據(jù)分布與后驗間的關(guān)系并不準(zhǔn)確,使用某些特定先驗的半監(jiān)督學(xué)習(xí)策略在其他分布的數(shù)據(jù)上會造成一定的性能下降。另一方面盡管大多數(shù)算法對無標(biāo)記數(shù)據(jù)中的信息進(jìn)行了篩選約束,訓(xùn)練過程中仍不可避免地學(xué)習(xí)到錯誤的信息,從而導(dǎo)致了潛在的性能下降。綜上所述,如何在醫(yī)學(xué)影像分割任務(wù)中提出新的半監(jiān)督學(xué)習(xí)算法,更深入挖掘未標(biāo)注數(shù)據(jù)的有用信息,是研究的一個重要方向。
醫(yī)學(xué)影像分割是計算機(jī)輔助診斷中的重要一環(huán),在過去幾年隨著深度學(xué)習(xí)的迅速發(fā)展得到廣泛的關(guān)注。本文充分總結(jié)了基于深度學(xué)習(xí)的醫(yī)學(xué)影像分割的研究進(jìn)展。首先,本文重點(diǎn)介紹了醫(yī)學(xué)影像分割深度學(xué)習(xí)模型的基本框架,并對比分析了基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展過程、用于優(yōu)化的目標(biāo)函數(shù)和用于提升模型性能的各種方法。隨后本文針對醫(yī)學(xué)影像中標(biāo)注獲取困難的問題,重點(diǎn)討論了半監(jiān)督條件下醫(yī)學(xué)影像分割的發(fā)展現(xiàn)狀,對半監(jiān)督分割方法進(jìn)行了歸納整理。還對醫(yī)學(xué)影像分割中分割的不確定性研究這一較為新興的研究方向進(jìn)行了分析,論述了醫(yī)學(xué)圖像模糊、標(biāo)注噪聲大的不確定性分析的重要意義,并對比了主流的模型不確定性和隨機(jī)不確定性的研究方法。最后,本文對深度學(xué)習(xí)在醫(yī)學(xué)影像分割中的發(fā)展方向進(jìn)行了展望,深度學(xué)習(xí)的進(jìn)步也將推動著醫(yī)學(xué)影像分割向更深、更廣的領(lǐng)域發(fā)展。