許聰,郝華穎,王陽(yáng),馬煜輝,閻岐峰,陳浜,馬韶東,王效貴,趙一天*
1.浙江工業(yè)大學(xué)機(jī)械工程學(xué)院,杭州 310000;2.中國(guó)科學(xué)院寧波材料技術(shù)與工程研究所慈溪生物醫(yī)學(xué)工程研究所,寧波 315201;3.中國(guó)科學(xué)院空天信息創(chuàng)新研究院,北京 100094
血管系統(tǒng)是視網(wǎng)膜中最重要的生物組織結(jié)構(gòu)之一。視網(wǎng)膜血管的形態(tài)變化與系統(tǒng)性、代謝性和血液系統(tǒng)疾病密切相關(guān)(Mou等,2019),能夠幫助眼科醫(yī)生了解疾病的發(fā)展情況以及評(píng)估治療效果(Zhao等,2018)。因此,對(duì)視網(wǎng)膜血管形態(tài)進(jìn)行量化分析,可以輔助醫(yī)生對(duì)相關(guān)疾病進(jìn)行早期診斷,從而使患者在疾病的早期階段或發(fā)展出不可逆轉(zhuǎn)的病理之前得到有效治療。
臨床實(shí)踐中,眼底彩照技術(shù)是最常見的一種視網(wǎng)膜成像技術(shù),但由于成像設(shè)備的限制,眼底彩照只能顯示較粗的視網(wǎng)膜血管,難以拍攝到黃斑周圍的微血管信息,如圖1(a)所示。而眼底熒光血管技術(shù)可以顯示包括毛細(xì)血管在內(nèi)的視網(wǎng)膜血管系統(tǒng),但這些方法需要經(jīng)靜脈注射造影劑,相對(duì)耗時(shí)且可能存在嚴(yán)重的副作用(Witmer等,2013)。
圖1 同一只眼睛眼底彩照中的黃斑中央凹示意(綠框區(qū)域)及其不同深度的OCTA 2維正面投影圖像Fig.1 Illustration of the fovea(green rectangle region)in the color fundus image and OCTA enface images at different depth of the same eye((a)color fundus;(b)SVC;(c)DVC;(d)SVC+DVC)
相比之下,光學(xué)相干斷層掃描血管造影技術(shù)(optical coherence tomography angiography,OCTA)存在顯著優(yōu)勢(shì)。OCTA 作為一種高速、非侵入式的新興成像技術(shù),能夠?qū)ι锝M織進(jìn)行高分辨率成像(Hormel 等,2021),已經(jīng)成為視網(wǎng)膜血管成像及其評(píng)估的重要工具(Leitgeb,2019)。OCTA 技術(shù)可以對(duì)不同視網(wǎng)膜層的血管結(jié)構(gòu)進(jìn)行投影,從而實(shí)現(xiàn)相應(yīng)視網(wǎng)膜血管叢的獨(dú)立可視化。例如,美國(guó)Optovue公司生產(chǎn)的RTVue XR 二代SD-OCT 系統(tǒng)在配備AngioVue 軟件(版本2015.1.0.90)下,能夠生成不同深度視網(wǎng)膜血管叢的二維正面投影圖像(enface):淺層血管復(fù)合體(superficial vascular complexes,SVC)、深層血管復(fù)合體(deep vascular complexes,DVC)以及內(nèi)層視網(wǎng)膜血管叢,包括SVC 和DVC(SVC+DVC),如圖1(b)—(d)所示。這種獨(dú)特的觀察視角提高了臨床和研究領(lǐng)域?qū)σ暰W(wǎng)膜血管系統(tǒng)的病理學(xué)認(rèn)識(shí)。臨床醫(yī)生可以憑借不同深度層的enface 圖像,觀察相應(yīng)的血管結(jié)構(gòu),并通過分析血管結(jié)構(gòu)的變化來判斷是否存在相關(guān)疾病。特別是對(duì)于黃斑周圍微血管(包括細(xì)血管和毛細(xì)血管),它的任何異常變化,通常都意味著存在某種眼科疾病,如早期青光眼神經(jīng)病變(Alam 等,2018)、糖尿病視網(wǎng)膜病變(Zhao 等,2017)和年齡相關(guān)性黃斑變性(Zhang等,2020)等。此外,有研究表明(Yoon 等,2019),OCTA 圖像顯示的眼底微血管形態(tài)結(jié)構(gòu)的改變和阿爾茲海默癥等神經(jīng)退行性疾病相關(guān)。因此,基于OCTA 圖像的不同深度的enface 圖像來實(shí)現(xiàn)視網(wǎng)膜血管結(jié)構(gòu)的自動(dòng)分割和定量分析對(duì)于相關(guān)疾病的早期診斷和疾病治療具有重要意義。
目前,基于OCTA 圖像的工作受到了廣泛關(guān)注,包括圖像去偽影、圖像去噪、動(dòng)靜脈分類和疾病分類等。但基于OCTA 圖像的血管自動(dòng)分割任務(wù)的研究較少,難點(diǎn)主要包括:1)在 OCTA 成像過程中,不可避免地受到OCT 系統(tǒng)成像過程中固有的散斑噪聲的干擾(Szkulmowski 等,2012),從而生成低信噪比的圖像,對(duì)視網(wǎng)膜血管的自動(dòng)分割精度帶來嚴(yán)重影響;2)不同深度層的血管外觀變化、運(yùn)動(dòng)和陰影偽影,以及潛在的病理結(jié)構(gòu)都顯著增加了視網(wǎng)膜血管精準(zhǔn)分割的難度。目前,基于深度學(xué)習(xí)的方法主要是通過基于區(qū)域的學(xué)習(xí)(Zhang 等,2019),這種技術(shù)對(duì)于那些緊密連接的毛細(xì)血管很容易產(chǎn)生不連續(xù)、不精確的分割結(jié)果,這意味著當(dāng)需要檢測(cè)粗細(xì)、成像深度都不相同的血管結(jié)構(gòu)時(shí),這些方法難以滿足現(xiàn)階段的臨床需求。因此,基于深度學(xué)習(xí)的OCTA 圖像血管自動(dòng)分割仍然是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。
針對(duì)OCTA 圖像視網(wǎng)膜血管結(jié)構(gòu)精準(zhǔn)分割面臨的挑戰(zhàn),本文提出一種端到端的視網(wǎng)膜血管分割網(wǎng)絡(luò),包括用于融合3 種enface圖像的卷積塊、基于Swin Tranformer 的特征編碼器以及隱向量對(duì)齊模塊。首先,所提方法對(duì)SVC、DVC 和SVC+DVC 3 種enface 圖像進(jìn)行融合并輸入分割網(wǎng)絡(luò)中,旨在豐富輸入網(wǎng)絡(luò)的圖像特征信息,而且通過圖像融合能夠一定程度上緩解OCTA 圖像中的散斑噪聲和偽影對(duì)分割的干擾。然后,采用Swin Transformer 編碼器從輸入圖像中提取豐富的特征,并從隱空間層次設(shè)計(jì)了一個(gè)特征對(duì)齊損失函數(shù),以獲得更精準(zhǔn)的整體分割結(jié)果。最后,從定性和定量?jī)蓚€(gè)角度對(duì)OCTA 血管分割工作進(jìn)行全面評(píng)估。實(shí)驗(yàn)結(jié)果表明,本文方法在兩個(gè)不同設(shè)備采集的OCTA 圖像中均能夠得到優(yōu)于對(duì)比方法的分割結(jié)果。
過去20 年,基于眼底彩照的視網(wǎng)膜血管分割取得了令人矚目的成績(jī)。例如,基于各種濾波器的方法,包括匹配濾波器(Zhang 等,2016)、對(duì)稱濾波器(Zhao 等,2018)、多方向?yàn)V波器(Zhang 等,2017)等,通過抑制非血管結(jié)構(gòu)和圖像噪聲,增強(qiáng)圖像中的血管結(jié)構(gòu),達(dá)到降低血管分割任務(wù)難度的目的。基于分類器的方法(Wang等,2015)能夠提取像素附近區(qū)域的相關(guān)特征,將每個(gè)像素分為血管類和非血管類兩類,實(shí)現(xiàn)血管的分割。基于深度學(xué)習(xí)的方法(Yan等,2018;Jin 等,2019)提取整個(gè)輸入圖像的淺層與深層特征,將它們進(jìn)行編碼和解碼,通過學(xué)習(xí)血管結(jié)構(gòu)信息來對(duì)血管和非血管區(qū)域進(jìn)行識(shí)別。
目前,在OCTA 圖像中進(jìn)行視網(wǎng)膜血管自動(dòng)分割的研究相對(duì)較少,現(xiàn)有的大多數(shù)方法都是基于閾值的方法。Yousefi 等人(2015)將基于Hessian 濾波器的形狀分割方法與基于強(qiáng)度的分割方法相結(jié)合來對(duì)血管進(jìn)行分割。Camino 等人(2018)通過對(duì)血管造影和反射信號(hào)進(jìn)行回歸分析,設(shè)置出基于反射率調(diào)整的最佳閾值,實(shí)現(xiàn)了對(duì)眼底血管結(jié)構(gòu)的自動(dòng)分割。然而,這些基于閾值的方法存在一定局限性,當(dāng)血管結(jié)構(gòu)與背景的強(qiáng)度差異不明顯時(shí),很難有良好的表現(xiàn),而且對(duì)分布在OCTA 圖像上的散斑噪聲十分敏感。Eladawi 等人(2017)利用高斯—馬爾可夫隨機(jī)場(chǎng)模型來降低噪聲,提高OCTA 圖像的對(duì)比度,從而提升分割準(zhǔn)確率。盡管該方法能夠有效去除噪聲,但在去噪過程中難以精確區(qū)分大血管與毛細(xì)血管叢,有時(shí)甚至無(wú)法準(zhǔn)確識(shí)別大血管結(jié)構(gòu)的邊界,從而影響分割精度(Li 等人,2020)。隨著深度學(xué)習(xí)在醫(yī)學(xué)圖像領(lǐng)域的不斷發(fā)展,研究人員開始研究基于深度學(xué)習(xí)的OCTA 圖像視網(wǎng)膜血管分割。Ma 等人(2021)提出了一個(gè)基于編碼器—解碼器的粗細(xì)血管分割網(wǎng)絡(luò),能夠分別檢測(cè)粗血管和細(xì)血管,并首次在視網(wǎng)膜圖像分析領(lǐng)域構(gòu)建了一個(gè)OCTA 分割數(shù)據(jù)集ROSE(retinal OCT-Angiography vessel segmentation);Li等人(2020)構(gòu)建了一種能夠同時(shí)進(jìn)行特征選擇和降維的投影學(xué)習(xí)模塊,使得網(wǎng)絡(luò)能夠?qū)崿F(xiàn)輸入3D OCTA數(shù)據(jù),輸出2D的enface分割結(jié)果。
近幾年,Transformer 成為醫(yī)學(xué)圖像分析領(lǐng)域(Zhang 等,2021a;Huang 等,2021)關(guān)注的重點(diǎn)。得益于注意力機(jī)制建立的圖像輸入和輸出之間的全局依賴關(guān)系,基于Transformer 的模型已經(jīng)在圖像分割(Deng 等,2021)、圖像分類(Dai 等,2021)、圖像重建(Wang 等,2021;劉花成 等,2022)、疾病診斷(趙琛琦 等,2022)、圖像增強(qiáng)(McCollough 等,2017)和圖像檢測(cè)(Shen 等,2021)等諸多領(lǐng)域取得了非常好的結(jié)果。在醫(yī)學(xué)圖像分割領(lǐng)域,Chen 等人(2021)首先提出TransUNet,它同時(shí)具備Transformer 和U-Net 的優(yōu)點(diǎn),擁有強(qiáng)大的編碼和細(xì)節(jié)恢復(fù)能力;Valanarasu等人(2021)針對(duì)醫(yī)學(xué)圖像樣本數(shù)量相對(duì)較少的問題,提出一種門控位置軸向注意力機(jī)制,獲得了優(yōu)異的分割性能;Zhang 等人(2021b)提出一種基于Transformer 和body-edge 分支的多分支混合網(wǎng)絡(luò),分割性能超過了當(dāng)時(shí)最先進(jìn)的方法;Hatamizadeh 等人(2022)利用Transformer作為編碼器來學(xué)習(xí)輸入圖像的特征,能夠有效捕獲全局多尺度信息;Cao 等人(2021)提出一種類似U-Net 的Transformer 網(wǎng)絡(luò),在多器官分割任務(wù)中表現(xiàn)優(yōu)異。與上述方法不同,本文方法將Swin Transformer 與殘差連接相結(jié)合,有效強(qiáng)化了編碼器的表征能力,提升了整體的分割性能。
本文網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,包括Swin Transformer 模塊與殘差結(jié)構(gòu)相結(jié)合的特征提取編碼器和基于標(biāo)簽自編碼的隱向量對(duì)齊損失函數(shù)。
圖2 OCTA血管分割網(wǎng)絡(luò)框架Fig.2 OCTA vessel segmentation network framework
U 形編碼器—解碼器架構(gòu)是本文所提出網(wǎng)絡(luò)的主體結(jié)構(gòu)。首先通過卷積塊將輸入的3 種enface 圖像,即SVC、DVC和SVC+DVC,進(jìn)行圖像融合,從而能夠?yàn)榫幋a器輸入豐富的圖像信息,并一定程度上緩解了OCTA圖像中的散斑噪聲和偽影對(duì)分割的干擾。
編碼器能夠提取融合圖像的淺層和深層特征,并通過跳躍連接與解碼器相結(jié)合,將編碼器提取的各個(gè)層次的特征與解碼器上采樣得到的特征相融合,得到最終的血管分割結(jié)果。具體來說,對(duì)于編碼器模塊,經(jīng)典的U-Net 的編碼器結(jié)構(gòu)為VGG(Visual Geometry Group)結(jié)構(gòu),即每一層都由兩個(gè)3 × 3 的卷積核、線性整流函數(shù)ReLU 和步長(zhǎng)為2的最大池化層組成。隨著殘差模塊ResNet、密集連接模塊DenseNet 和Transformer 模塊的相繼提出,神經(jīng)網(wǎng)絡(luò)對(duì)輸入圖像的特征提取能力得到了顯著的增強(qiáng)。考慮到網(wǎng)絡(luò)的輸入是3 種不同層的OCTA enface 圖像,因此,為了提取更豐富的圖像特征信息,本文將ResU-Net 網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)(編碼和解碼器層由殘差塊和池化層組成),將Swin Transformer 引入ResUNet 中組成新的編碼器結(jié)構(gòu)。特征編碼器的編碼步驟包括4 個(gè)不同階段,每個(gè)階段都由兩層組成,即數(shù)個(gè)堆疊在一起的Swin Transformer 塊組成的Transformer層和殘差結(jié)構(gòu)。
如圖3 所示,Swin Transformer 塊由一個(gè)基于窗口的多頭自注意力模塊(window-based muti-head self attention,W-MSA)和一個(gè)基于移位窗口的多頭自注意力模塊(shifted window-based muti-head self attention,SW-MSA)以及兩個(gè)多層感知器(multilayer perceptron,MLP)組成,在每個(gè)MSA 模塊和MLP模塊之前應(yīng)用層歸一化(LayerNorm,LN)層,并在相應(yīng)模塊之后應(yīng)用殘差連接,從而能夠有效提升編碼模塊的表征能力。具體到詳細(xì)的編碼步驟,在編碼器的每個(gè)階段過程中,輸入的融合圖像首先分割為大小為4 × 4的非重疊局部區(qū)域,這些局部區(qū)域?qū)⒆鳛闃?biāo)記并輸入到Transformer層中。而Transformer層中的線性嵌入層能夠有效改變標(biāo)記的特征維度,以適應(yīng)每個(gè)階段的編碼需求,同時(shí),具有線性計(jì)算復(fù)雜度的窗口注意力塊和用于處理非重疊局部區(qū)域的跨窗口連接也能夠有效提升對(duì)圖像特征編碼的能力。在每個(gè)階段過程中,為了實(shí)現(xiàn)層次化表示,本文將特征圖從縮小到,然后進(jìn)行下一階段局部區(qū)域合并。在之后的階段中,迭代進(jìn)行局部區(qū)域合并,以獲得分辨率為的分層特征圖,其中,i∈{1,2,3,4}。需要注意的是,在每個(gè)階段的局部區(qū)域合并后,將特征圖與輸入該Transformer 層之前的特征圖通過殘差結(jié)構(gòu)相加,所得到的結(jié)果通過跳躍連接與解碼器上采樣的特征圖相結(jié)合。
圖3 Swin Transformer模塊Fig.3 Swin Transformer module
在醫(yī)學(xué)圖像分割網(wǎng)絡(luò)中,大多數(shù)損失函數(shù)是對(duì)網(wǎng)絡(luò)輸出端的預(yù)測(cè)結(jié)果進(jìn)行約束,例如交叉熵、均方誤差和Dice 系數(shù)損失函數(shù)等。這些損失是訓(xùn)練分割網(wǎng)絡(luò)常用的像素級(jí)損失函數(shù),通過梯度下降對(duì)端到端的網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化。目前大部分工作只針對(duì)像素級(jí)的損失進(jìn)行網(wǎng)絡(luò)優(yōu)化,而忽略了隱空間特征對(duì)網(wǎng)絡(luò)的約束。因此,為了充分利用隱空間特征的作用,本文網(wǎng)絡(luò)主要包含兩個(gè)損失函數(shù),即基于圖像的Dice 系數(shù)損失和基于隱向量的特征對(duì)齊損失函數(shù)。Dice系數(shù)損失函數(shù)是一種計(jì)算預(yù)測(cè)結(jié)果和分割標(biāo)簽之間重疊區(qū)域的度量函數(shù),能夠有效地評(píng)估分割性能,其定義為
基于隱向量的特征對(duì)齊損失函數(shù)是本文的主要貢獻(xiàn)之一。與經(jīng)典的像素級(jí)損失不同,特征對(duì)齊損失可以從特征維度對(duì)分割結(jié)果進(jìn)行優(yōu)化,通過約束標(biāo)簽與圖像在隱空間的一致性,增強(qiáng)編碼器對(duì)圖像血管結(jié)構(gòu)特征的提取。如圖2 所示,本文首先訓(xùn)練自編碼結(jié)構(gòu)對(duì)分割標(biāo)簽圖像進(jìn)行編碼,得到標(biāo)簽隱向量特征。本文引入的自編碼結(jié)構(gòu)包括編碼器和解碼器結(jié)構(gòu),每層編碼器和解碼器由一個(gè)ResNet 殘差塊和一個(gè)最大池化層組成。與常見的端到端的像素級(jí)重建網(wǎng)絡(luò)不同,自編碼結(jié)構(gòu)沒有引入跳躍連接,而是通過將輸入的分割標(biāo)簽圖像的特征編碼到隱向量空間,然后直接經(jīng)過解碼器進(jìn)行恢復(fù)。其中,自編碼器的重建損失Lrecon為均方誤差損失。此時(shí)訓(xùn)練好的自編碼器所提取的隱向量空間包含了豐富的分割標(biāo)簽特征,并且可以通過解碼器成功恢復(fù)標(biāo)簽圖像。因此,為了從原始輸入圖像中獲得豐富的與血管相關(guān)的隱空間信息,本文采用最小二乘生成對(duì)抗網(wǎng) 絡(luò)(least squares generative adversarial network,LSGAN)對(duì)原始圖像的隱空間和分割標(biāo)簽的隱空間進(jìn)行特征對(duì)齊。如圖4所示,判別器網(wǎng)絡(luò)由3個(gè)步長(zhǎng)為1的卷積層組成,每個(gè)卷積層后面是斜率為0.2的LeakyReLU 層和批歸一化層,最后通過平均池化層輸出最終的結(jié)果。LSGAN 的主要貢獻(xiàn)是將交叉熵?fù)p失函數(shù)換為最小二乘損失函數(shù),改善了傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)生成的圖像質(zhì)量不高和訓(xùn)練過程十分不穩(wěn)定的問題。
圖4 隱向量對(duì)齊判別器Fig.4 Latent vector alignment discriminator
本文采用LSGAN 代替?zhèn)鹘y(tǒng)的生成網(wǎng)絡(luò)來提高隱空間特征對(duì)齊的穩(wěn)定性。LSGAN的目標(biāo)函數(shù)為
式中,D和G分別代表判別器和分割網(wǎng)絡(luò)的編碼器,x代表標(biāo)簽編碼的隱向量特征,z代表輸入的原始圖像。因此,本文的總損失函數(shù)為
式中,λ的取值為0.6。
為了驗(yàn)證所提方法的有效性,使用3個(gè)OCTA視網(wǎng)膜血管分割數(shù)據(jù)集進(jìn)行驗(yàn)證,包括OCTA-O、OCTA-Z 和公開數(shù)據(jù)集PREVENT(Giarratano 等人,2020)。其中,OCTA-O 來源于一個(gè)公開數(shù)據(jù)集ROSE(Ma 等,2021)。所有數(shù)據(jù)都是在相關(guān)部門批準(zhǔn)和患者同意下收集的。
OCTA-O 數(shù)據(jù)集包括39 名受試者(26 名阿爾茲海默癥患者和13 名健康對(duì)照者)的117 幅OCTA圖像,受試者平均年齡為68 歲。所有的OCTA 圖像均由配備了AngioVue 軟件的RTVue XR Avanti SD-OCT 系統(tǒng)采集得到,掃描區(qū)域?yàn)? × 3 mm,掃描中心位于黃斑中央凹處,包括SVC、DVC 和SVC+DVC 這3 種enface 圖像。為了實(shí)現(xiàn)公平比較,本文在劃分訓(xùn)練集和測(cè)試集時(shí),遵循Ma 等人(2021)的設(shè)置。
OCTA-Z 數(shù)據(jù)集的OCTA 圖像由配備AngioPlex軟件的Zeiss Cirrus HD-OCT 5000 系統(tǒng)采集得到,包括42 名受試者(15 糖尿病視網(wǎng)膜病變患者、2 名阿爾茲海默癥患者和25 名健康對(duì)照者)的126 幅圖像。與OCTA-O 數(shù)據(jù)集相同,每位受試者都通過掃描得到了SVC、DVC 和SVC+DVC 這3 種enface圖像。每幅圖像的掃描區(qū)域均為以黃斑為中心的3 mm × 3 mm 區(qū)域,分辨率為512 × 512 像素。本文將所有受試者圖像隨機(jī)分配為測(cè)試集和訓(xùn)練集,其中,30 名受試者圖像為訓(xùn)練集,其余圖像為測(cè)試集。4 名訓(xùn)練有素的圖像專家對(duì)所有圖像都進(jìn)行了精確的血管標(biāo)注,兩名資深眼科醫(yī)生審查并完善了標(biāo)注。本文將他們的共識(shí)作為最終的血管分割標(biāo)簽。
PREVENT 數(shù)據(jù)集包括11位年齡在44~59歲的健康受試者的OCTA 圖像,通過配備了AngioVue 軟件的RTVue XR Avanti SD-OCT 系統(tǒng)采集得到,掃描中心位于黃斑中心凹處。不同于OCTA-O 與OCTAZ,PREVENT 僅具有3 mm × 3 mm 視野的SVC 圖像。每幅OCTA 圖像在此基礎(chǔ)上,在每個(gè)臨床關(guān)注區(qū)域(region of interest,ROI),包括上、鼻、中心凹、下和顳,各提取一幅子圖像,合計(jì)55個(gè)ROI,并將其分為訓(xùn)練(30個(gè)ROI)和測(cè)試(25個(gè)ROI)兩部分。
該方法由公開的PyTorch庫(kù)實(shí)現(xiàn)。在訓(xùn)練階段,使用Adam 優(yōu)化器來優(yōu)化深度模型。初始學(xué)習(xí)率設(shè)置為0.000 8,并在訓(xùn)練過程中不斷衰減,動(dòng)量為0.9,批量大?。╞atch size)為1。另外,將圖像隨機(jī)旋轉(zhuǎn)-10°~10°擴(kuò)充訓(xùn)練集。在總損失函數(shù)中,λ取值為0.6。如圖5 所示,本文在OCTA-Z 數(shù)據(jù)集上對(duì)λ的取值進(jìn)行了敏感性檢驗(yàn),實(shí)驗(yàn)證明,0.6 為λ的最佳取值。
圖5 λ的敏感性研究Fig.5 Sensitivity study of λ
為了客觀全面地檢驗(yàn)所提方法的性能,選擇ROC 曲線下面積(area under the roc curve,AUC)、準(zhǔn)確度(accuracy,ACC)、靈敏度(sensitivity,SEN)、Kappa 評(píng)分(Kappa)、Dice 系數(shù)(Dice)和錯(cuò)誤發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)作為評(píng)價(jià)指標(biāo),具體為
式中,TP,F(xiàn)P,TN,F(xiàn)N分別為真陽(yáng)性、假陽(yáng)性、真陰性和假陰性的像素?cái)?shù)量。Kappa 評(píng)分中的pe為標(biāo)簽和預(yù)測(cè)結(jié)果的一致性,表示為
3.4.1 對(duì)比方法
為了驗(yàn)證所提方法的有效性,在OCTA-O、OCTA-Z 和PREVENT 數(shù)據(jù)集中,將提出方法與其他最先進(jìn)的分割方法進(jìn)行對(duì)比,包括3 種傳統(tǒng)方法IPAC(infinite perime and optimally oriented flux)(Zhao 等,2015)、COOF(curvelet denoising)(Zhang等,2020)、COSFIRE(combination of shifted filter responses)(Azzopardi 等,2015)和5 種深度學(xué)習(xí)方法U-Net(Ronneberger 等,2015)、ResU-Net、CE-Net(context encoder network)(Gu 等,2019)、CS-Net(channel and spatial attention network)(Mou 等,2019)、OCTA-Net(Ma 等,2021),所有方法的相關(guān)參數(shù)都經(jīng)過手動(dòng)調(diào)整,以獲得最佳性能。
3.4.2 定性比較
圖6—圖8 分別展示了在OCTA-O、OCTA-Z 和PREVENT 3 個(gè)數(shù)據(jù)集中,本文方法與其他4 種最先進(jìn)的分割網(wǎng)絡(luò)所產(chǎn)生的血管分割結(jié)果。整體而言,U-Net在血管背景復(fù)雜區(qū)域難以準(zhǔn)確識(shí)別血管信息,因此性能相對(duì)較低;CE-Net 和CS-Net 的性能要優(yōu)于U-Net,但是它們不能很好地分割出毛細(xì)血管;OCTA-Net能夠準(zhǔn)確分割出毛細(xì)血管,但存在一定的過度分割現(xiàn)象。相比之下,如圖中的黃色箭頭所示,本文方法的分割結(jié)果與標(biāo)簽更為接近,能夠分割出更加準(zhǔn)確、更加完整的毛細(xì)血管。不同于其他方法存在將噪聲背景錯(cuò)誤地判定血管結(jié)構(gòu)的現(xiàn)象,本文方法表現(xiàn)出強(qiáng)大的血管識(shí)別和判斷能力,獲得了整體最佳的分割性能。
圖6 不同方法在OCTA-O數(shù)據(jù)集中的分割結(jié)果Fig.6 Vessel segmentation results of different methods on OCTA-O dataset((a)original images;(b)U-Net;(c)CE-Net;(d)CS-Net;(e)OCTA-Net;(f)ours;(g)manual annotations)
圖7 不同方法在OCTA-Z數(shù)據(jù)集中的分割結(jié)果Fig.7 Vessel segmentation results of different methods on OCTA-Z dataset((a)original images;(b)U-Net;(c)CE-Net;(d)CS-Net;(e)OCTA-Net;(f)ours;(g)manual annotations)
圖8 不同方法在PREVENT數(shù)據(jù)集中的分割結(jié)果Fig.8 Vessel segmentation results of different methods on PREVENT dataset((a)original images;(b)U-Net;(c)CE-Net;(d)CS-Net;(e)OCTA-Net;(f)ours;(g)manual annotations)
3.4.3 定量比較
為了更好地評(píng)估所提出方法的性能,在3 個(gè)數(shù)據(jù)集中對(duì)所有方法的分割性能進(jìn)行定量評(píng)估,實(shí)驗(yàn)結(jié)果如表1—表3 所示。需要注意的是,Zhao 等人(2015)、Zhang 等 人(2020)以 及Azzopardiet 等 人(2015)提出的傳統(tǒng)方法的評(píng)估性能明顯低于其他所有基于深度學(xué)習(xí)的方法,這可能是因?yàn)閭鹘y(tǒng)方法尚未解決以下挑戰(zhàn),即不同個(gè)體的眼底血管存在高度解剖學(xué)差異以及同一幅OCTA 圖像不同區(qū)域的血管尺寸和清晰度之間存在較大不同。此外,OCTA 圖像中可能存在的散斑噪聲、運(yùn)動(dòng)偽影和條紋噪聲,以及OCTA 圖像整體對(duì)比度較差、分辨率較低,這些不利因素也加劇了這些困難。相比之下,基于深度學(xué)習(xí)的方法能夠從圖像的整體和局部特征中提取深層的判別表示,從而得到更好的分割性能。具體到本次研究的實(shí)驗(yàn)結(jié)果,總體而言,本文方法幾乎在所有的指標(biāo)中都實(shí)現(xiàn)了最佳的性能。具體而言,在OCTA-O 數(shù)據(jù)集上,與經(jīng)典醫(yī)學(xué)圖像分割網(wǎng)絡(luò)U-Net相比,所提出方法的AUC 提升了約4.06%,Kappa 提升了約10.18%,F(xiàn)DR 提升了約23.16%,Dice 提升了約7.87%。在OCTA-Z 數(shù)據(jù)集上,與目前最先進(jìn)的OCTA 圖像血管分割網(wǎng)絡(luò)OCTA-Net 相比,AUC 提升了約1.47%,ACC 提升了約0.89%,Kappa 提升了約2.23%,Dice 提升了約1.26%。而在PREVENT 數(shù)據(jù)集上,由于該數(shù)據(jù)集僅包括SVC圖像,血管信息相對(duì)簡(jiǎn)單,所有基于深度學(xué)習(xí)的方法均取得了較好的性能,但本文方法依舊取得了最佳的整體分割性能。與經(jīng)典醫(yī)學(xué)圖像分割網(wǎng)絡(luò)U-Net 相比,本文方法的AUC提升了約1.47%,G-mean提升了約0.92%,Dice提升了約0.67%。
表1 不同方法在OCTA-O上的分割結(jié)果Table 1 Segmentation results obtained using different methods on OCTA-O/%
表2 不同方法在OCTA-Z上的分割結(jié)果Table 2 Segmentation results obtained using different methods on OCTA-Z/%
表3 不同方法在PREVENT上的分割結(jié)果Table 3 Segmentation results obtained using different methods on PREVENT/%
本文提出的血管分割方法包括一個(gè)主干網(wǎng)絡(luò)ResU-Net、圖像多融合輸入、用于特征提取的Swin Transformer編碼器模塊以及基于標(biāo)簽自編碼的隱向量對(duì)齊損失函數(shù)。為了驗(yàn)證這些組成部分的有效性,進(jìn)行了消融實(shí)驗(yàn),將ResU-Net 作為基準(zhǔn)編碼器—解碼器方法,然后逐步測(cè)試各組成部分對(duì)分割結(jié)果的影響,結(jié)果如表4 所示。其中,M 代表多融合輸入(multiple fusion input),L 代表隱向量對(duì)齊(latent vector alignment),SwinT 代表Swin Transformer。首先,檢驗(yàn)了圖像多融合輸入對(duì)分割性能的幫助,在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,與單獨(dú)輸入SVC+DVC圖像相比,融合了3 種enface 圖像輸入之后的ResU-Net的AUC 分別提升了1.60%和1.46%,Kappa 分別提升了4.10%和8.88%,Dice 分別提升了3.87%和5.52%??梢姡瑘D像多融合輸入對(duì)提升分割性能有明顯作用。其次,分析了基于標(biāo)簽自編碼的隱向量對(duì)齊損失函數(shù)對(duì)血管分割性能的影響,表明該模塊在視網(wǎng)膜血管分割任務(wù)中具備一定優(yōu)勢(shì)。值得注意的是,加入該損失函數(shù)后,AUC 分別提升了0.64%和0.32%,Kappa 分別提升了2.69%和1.83%,Dice分別提升了2.55%和1.17%,表明該損失函數(shù)能夠有效提升血管分割性能。最后,比較了Swin Transformer 編碼器對(duì)分割性能的影響。整體而言,加入Swin Transformer 編碼器之后,網(wǎng)絡(luò)的整體性能獲得了一定提升,尤其是AUC 分別提升了1.00%和1.32%,充分證明Swin Transformer 編碼器對(duì)分割性能的提高起到了積極作用。
表4 本文方法在OCTA-O和OCTA-Z數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 4 Ablation study of our method on both OCTA-O and OCTA-Z datasets/%
本文提出一種新的OCTA 圖像視網(wǎng)膜血管結(jié)構(gòu)分割方法。近年來,許多研究工作都表明基于OCTA 圖像的視網(wǎng)膜血管系統(tǒng)量化對(duì)相關(guān)眼科疾病和神經(jīng)退行性疾病的定量研究以及臨床決策起著至關(guān)重要的作用。為此,提出一種端到端的血管分割學(xué)習(xí)方法,用于OCTA 圖像中的視網(wǎng)膜血管分割任務(wù)??紤]到編碼器—解碼器結(jié)構(gòu)在分割任務(wù)中的巨大優(yōu)勢(shì),將ResU-Net 作為主干網(wǎng)絡(luò),通過圖像多融合輸入來緩解OCTA 圖像中散斑噪聲和偽影對(duì)分割的干擾,并將Swin Transformer 模塊作為編碼結(jié)構(gòu),從而獲取更加豐富的特征信息,之后,將編碼器獲取的高級(jí)特征與標(biāo)簽自編碼網(wǎng)絡(luò)獲取的隱向量對(duì)齊,縮小分割結(jié)果與標(biāo)簽之間的差距,同時(shí),通過跳躍連接將編碼器獲取的各個(gè)層次的特征圖與解碼器上采樣的相應(yīng)特征圖進(jìn)行融合,得到最終的分割結(jié)果。實(shí)驗(yàn)證明,本文方法在3 個(gè)數(shù)據(jù)集上都取得了最佳的分割性能。未來,將在其他模態(tài)的圖像中檢驗(yàn)所提出方法的分割性能,例如彩色眼底圖像和眼底熒光造影圖像等;此外,還將就分割結(jié)果提取重要的生物標(biāo)志物,計(jì)算包括血管密度、血管彎曲度在內(nèi)的相關(guān)指標(biāo),為相關(guān)疾病的量化分析和臨床治療提供幫助。