苗 玥 邢俊鳳 杜鵬程
(1.內(nèi)蒙古科技大學(xué)包頭醫(yī)學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,內(nèi)蒙古包頭 014010;2.內(nèi)蒙古科技大學(xué)包頭醫(yī)學(xué)院一附院 眼科,內(nèi)蒙古包頭 014010)
糖尿病視網(wǎng)膜病變(Diabetic Retinopathy,DR)是影響全球數(shù)百萬人視力喪失和失明的原因之一,DR 疾病的早期診治對預(yù)防視力喪失起著極其重要的作用。如果糖尿病患者長期得不到治療,最終會導(dǎo)致失明。糖尿病病程在10 年左右的患者,出現(xiàn)DR 病變的概率是50%,15年以上者患病概率達(dá)80%。糖尿病病情越重,病程越長,年齡越大,發(fā)病的概率就越高[1]。
DR 病變是視網(wǎng)膜區(qū)域小血管長期惡化導(dǎo)致急性視力損傷的主要原因。早期階段,患者并不能察覺癥狀,不能在適當(dāng)?shù)臅r(shí)間進(jìn)行檢測,錯(cuò)過了最佳的檢測時(shí)期。因此,越早干預(yù),視力損傷就會越小[2]。通過定期篩查可以早發(fā)現(xiàn)、早治療,減緩疾病的進(jìn)展,篩查在臨床診斷和治療中起著很重要作用,可以防患于未然。
近年來,隨著醫(yī)學(xué)圖像處理和深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)技術(shù)已應(yīng)用到DR 病變的檢測和診斷中?;谏疃葘W(xué)習(xí)方法的自動(dòng)識別和DR 分級診療系統(tǒng),可以更安全、準(zhǔn)確、高效、無創(chuàng)地分析圖像信息,并能檢測、定位和分類疾病。因此,加快深度學(xué)習(xí)應(yīng)用到眼部診治中,有可能徹底改變現(xiàn)有的疾病診斷系統(tǒng)。基于圖像的自動(dòng)識別和DR分級診療系統(tǒng)有助于大規(guī)模DR 病人的篩查工作,提高臨床工作效率,為緩解醫(yī)療資源短缺提供了新途徑。
早期DR 中分類中用到的網(wǎng)絡(luò)模型有LeNet、AlexNet、VGG、GoogLeNet 等,這些網(wǎng)絡(luò)都是在卷積網(wǎng)絡(luò)(Convo lutional Neural Network,CNN)的基礎(chǔ)上發(fā)展出來的。CNN主要用于圖像和視頻識別、語音系統(tǒng)、醫(yī)學(xué)圖像分析和自然語言處理中,主要由輸入和輸出層以及多個(gè)中間層組成,這些中間層也就是隱藏層,可分為卷積層、池化層、ReLu 層和全連接層。其中卷積層是CNN 的核心,通過卷積核提取圖像數(shù)據(jù)特征,使用池化層下采樣,降低數(shù)據(jù)維度,由多個(gè)卷積層和池化層可以形成多個(gè)卷積塊,逐層提取二維圖像的特征信息。
LeNet 網(wǎng)絡(luò)模型并且應(yīng)用于手寫數(shù)字識別中,包含2 個(gè)卷積層、2 個(gè)池化層、3 個(gè)全連接層,在MNIST 數(shù)據(jù)集上,LeNet 模型可以達(dá)到大約99.2%的正確率[3]。Alexnet 模型由5 個(gè)卷積層、池化層、dropout 層和3 個(gè)全連接層組成,在2012 年ImageNet 大賽中,獲得大賽冠軍,使深度學(xué)習(xí)引起了研究者的重視[4]。
VGG(Visual Geometry Group,VGG)全稱是屬于牛津大學(xué)科學(xué)工程系,發(fā)布了一系列的VGG 卷積網(wǎng)絡(luò)模型,VGG 有3 層全連接、5 個(gè)池化層,分布在不同的卷積層下。根據(jù)卷積層和全連接層層數(shù)的不同,VGG11 有8個(gè)卷積層與3 個(gè)全連接層,屬于層數(shù)最少的卷積層,最多是VGG19,有16 個(gè)卷積層和3 個(gè)全連接層。VGG 卷積網(wǎng)絡(luò)模型榮獲2014 年ILSVRC 競賽的第二名[5-6]。
GoogLeNet 是基于Inception module 子網(wǎng)構(gòu)建的,具有更深的網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)是通過增加網(wǎng)絡(luò)的寬度提高網(wǎng)絡(luò)性能,在每個(gè)inception 模塊中,使用了不同大小感受野,然后將其集合起來。inception_v4 版本中使用了Resnet 的殘差模塊和統(tǒng)一的inception 模塊,將網(wǎng)絡(luò)做得更深,在保持相同計(jì)算量的情況下,可以提取到更多的特征,高效地利用計(jì)算資源,有利于提升訓(xùn)練結(jié)果[7]。
最近兩年內(nèi)采用的網(wǎng)絡(luò)模型有ResNet、DenseNet、EfficientNet 等模型。何凱明[8]提出ResNet,并且贏得了ILSVRC2015 年冠軍,獲得3.57%的誤差率,網(wǎng)絡(luò)深度可達(dá)152 層,它的核心是使用跨連接的方式,很好地解決了在層中傳輸信息丟失和梯度消失的問題,加快了超深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,提高了模型的精度。Wan 等[9]在kaggle數(shù)據(jù)集上對數(shù)據(jù)進(jìn)行了預(yù)處理,并且采用ResNet 進(jìn)行網(wǎng)絡(luò)訓(xùn)練,獲得了準(zhǔn)確度為0.904 的結(jié)果,比AlexNet 的結(jié)果要高。
DenseNet 相較于ResNet,是一種具有更密集連接的卷積神經(jīng)網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中,網(wǎng)絡(luò)每一層的輸入都是前面所有層輸出的并集,也就是任意兩層之間都有連接。而當(dāng)前層學(xué)習(xí)的特征圖也會被直接傳給后面所有層作為輸入。DenseNet 保留了ResNet 的優(yōu)點(diǎn),并做了更加有意義的創(chuàng)新工作,使網(wǎng)絡(luò)性能進(jìn)一步提升。其最大的優(yōu)點(diǎn)是解決了梯度消失的問題,加強(qiáng)了特征傳播和復(fù)用,極大地減少了參數(shù)量[10]。
隨著深度網(wǎng)絡(luò)的層數(shù)增加,運(yùn)行效率就會降低,EfficientNet 模型主要解決精度和計(jì)算效率的問題,從寬度、深度和分辨率3 個(gè)參數(shù)上創(chuàng)建了一種更加通用的CNN 架構(gòu),其中寬度是通道數(shù),深度是層數(shù),分辨率是輸入圖像大小。通過采用Swish 激活函數(shù),而不是ReLU,通過“擠壓”層降低不太重要的特征, 將寬度、深度和分辨率3個(gè)參數(shù)保持較小,從而提高網(wǎng)絡(luò)收斂的速度,實(shí)現(xiàn)性能強(qiáng)且計(jì)算效率高的網(wǎng)絡(luò)模型??梢哉f,EfficientNets 是目前性能最好的分類模型之一[11-12]。
傳統(tǒng)機(jī)器學(xué)習(xí)方法使用了各種手工特征提取的技術(shù),將這些特征輸入特定分類器,進(jìn)行DR 嚴(yán)重性等級分類。如何挑選合適、有效的特征,需要依靠專業(yè)知識和對各種參數(shù)進(jìn)行調(diào)整。手工提取特征數(shù)量不足或不夠準(zhǔn)確會導(dǎo)致錯(cuò)誤分類,從而影響了DR 分類系統(tǒng)的性能。Sm 等[13]提出了早期DR 疾病分類方法,采用機(jī)器學(xué)習(xí)算法袋裝分類器,進(jìn)行模塊特征提取和袋裝分類。Sa 等[14]使用多種內(nèi)核方法檢測微動(dòng)脈瘤和出血。Ca 等[15]利用隨機(jī)森林的算法區(qū)別是否為DR 患者,根據(jù)分級的眼底照片和系統(tǒng)數(shù)據(jù)評估DR 風(fēng)險(xiǎn),準(zhǔn)確率超過90%。
2.2.1 深度學(xué)習(xí)網(wǎng)絡(luò)模型在DR 檢測中的研究現(xiàn)狀
深度學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用,已經(jīng)證明深度學(xué)習(xí)方法的顯著優(yōu)越性。雖然深度學(xué)習(xí)在DR 診斷中的應(yīng)用已經(jīng)取得了許多進(jìn)步,但這些系統(tǒng)仍然需要進(jìn)一步提高性能和精準(zhǔn)度,在臨床實(shí)際應(yīng)用中還需進(jìn)一步驗(yàn)證。因?yàn)樯疃葘W(xué)習(xí)CNN 模型需要大量的數(shù)據(jù),才能確保模型的收斂和不過度擬合。
孟凡奎[15]使用加了條件隨機(jī)場的卷積神經(jīng)網(wǎng)絡(luò)模型,對眼底圖像出血點(diǎn)進(jìn)行訓(xùn)練和驗(yàn)證,獲得了98.8%的準(zhǔn)確率、99.4%的召回率和99.1%的F-score。在DIARETDB1數(shù)據(jù)庫上的靈敏度為98.5%,F(xiàn)-score 為96.1%。楊振宇[16]在U-Net 模型的基礎(chǔ)上,增加了殘差網(wǎng)絡(luò)與密集網(wǎng)絡(luò)的卷積結(jié)構(gòu),可以解決過擬合、梯度彌散等問題,結(jié)合了ResU-Net 和DenseU-Net 兩者的優(yōu)勢,提高了網(wǎng)絡(luò)的泛化能力,對視網(wǎng)膜眼底圖像中的滲出液進(jìn)行了分割,解決了分割效率低、分割精度不足的問題。龍勝春[17]采用生成對抗網(wǎng)絡(luò),檢測出眼底視網(wǎng)膜圖像硬性滲出物,預(yù)處理了光照不均,對視盤進(jìn)行了掩蓋,使用了對抗網(wǎng)絡(luò),其中G 和D 網(wǎng)絡(luò)用到的結(jié)構(gòu)都是U-Net 網(wǎng)絡(luò),本算法整體平均靈敏度SE、特異性SP 和準(zhǔn)確性ACC 分別為100%、96.2%和97.8%。該網(wǎng)絡(luò)的優(yōu)點(diǎn)在于解決了標(biāo)記樣本不足的問題,不足在于預(yù)處理階段將視盤掩蓋。Pan 等[18]利用DenseNet 深度學(xué)習(xí)算法,對4 種病變進(jìn)行檢測,包括非灌注區(qū)(NP)、微動(dòng)脈瘤、滲漏和激光疤痕,AUC 分別達(dá)到0.8703、0.9435、0.9647 和0.9653,可以實(shí)現(xiàn)多標(biāo)簽分類的自動(dòng)檢測。
2.2.2 深度學(xué)習(xí)網(wǎng)絡(luò)模型在DR 分類中的研究現(xiàn)狀
近年來,深度學(xué)習(xí)在DR 圖像分類任務(wù)上取得了顯著成果。丁蓬莉等[19]改進(jìn)了AlexNet 網(wǎng)絡(luò)模型并對視網(wǎng)膜圖像進(jìn)行了分類,采用了去除邊界、歸一化、數(shù)據(jù)擴(kuò)增等圖像預(yù)處理操作,分類指標(biāo)達(dá)到0.87。Z 等[20]采用Efficient Net-B5 網(wǎng)絡(luò)對DR 病變分類,該網(wǎng)絡(luò)主要統(tǒng)一擴(kuò)展網(wǎng)絡(luò)的所有維度,在Messidor 數(shù)據(jù)集上進(jìn)行評估,AUC 值達(dá)到了0.945。W 等[21]利用CNN 卷積神經(jīng)網(wǎng)絡(luò)提取了特征,結(jié)合傳統(tǒng)機(jī)器隨機(jī)森林分類方法,對視網(wǎng)膜血管進(jìn)行分割,AUC 值為0.9475。Mammoth 團(tuán)隊(duì)用DenseNet121 網(wǎng)絡(luò)進(jìn)行特征提取,通過機(jī)器學(xué)習(xí)提升樹算法進(jìn)行預(yù)測。Li等[22]采用遷移學(xué)習(xí)的方法對DR 進(jìn)行二分類檢測,通過支持向量機(jī)對提取的特征進(jìn)行訓(xùn)練分類,實(shí)現(xiàn)了二分類任務(wù)。Rb 等[23]提出了一種將CNN 與傳統(tǒng)機(jī)器學(xué)習(xí)算法相結(jié)合的方法,利用殘差網(wǎng)絡(luò)加決策樹分類器區(qū)分是否患有DR 病變。Gn 等[24]采用InceptionV3 深度模型,利用10 萬多張眼底圖像的數(shù)據(jù)集檢測DR 病變,得益于大量的訓(xùn)練數(shù)據(jù)和眼底專家對眼底圖像的篩選,AUC 值非常高。Wan and Liang 等[25]在結(jié)合遷移學(xué)習(xí)和超參數(shù)調(diào)優(yōu),采用不同的網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù),并分析這些模型在DR 圖像分類方面的能力,其中VggNets 分類精度最高為95.68%。
大部分網(wǎng)絡(luò)模型用于分類,將病變分為5 個(gè)等級,即無、輕度、中度、重度、增殖。而對于目標(biāo)檢測方面的做研究相對來說比較分散,因?yàn)檠鄄康牟≡畛识鄻踊奶攸c(diǎn),單獨(dú)某種網(wǎng)絡(luò)結(jié)構(gòu)只適合提取其中某種病灶的特征,導(dǎo)致國內(nèi)外研究者主要研究局部病灶,比如血管檢測、滲出物檢測、出血點(diǎn)檢測、微動(dòng)脈瘤檢測,很少有全局性、通用性的研究,很少有網(wǎng)絡(luò)模型能同時(shí)檢測多種小目標(biāo)的病灶。所以針對該問題需要設(shè)計(jì)一款通用性高、不需要預(yù)處理且能有效檢測小目標(biāo)的模型,可以考慮將注意力、遷移學(xué)習(xí)機(jī)制和目標(biāo)檢測網(wǎng)絡(luò)用于分類和檢測中。
醫(yī)學(xué)標(biāo)注數(shù)據(jù)集小,醫(yī)學(xué)標(biāo)注要花費(fèi)醫(yī)生大量的時(shí)間和精力,再加上我國專業(yè)的眼科醫(yī)生的缺乏,導(dǎo)致很少有專業(yè)醫(yī)生投入數(shù)據(jù)標(biāo)注工作,造成標(biāo)注樣本小的問題,而深度學(xué)習(xí)需要大量的數(shù)據(jù),這給深度學(xué)習(xí)的訓(xùn)練帶來了一個(gè)挑戰(zhàn)。另外,樣本不平衡問題也比較嚴(yán)重,出現(xiàn)了不同病變的數(shù)據(jù)不平衡問題。
眼部的病灶呈多樣化的特點(diǎn),比如血管、滲出物、出血點(diǎn)、微動(dòng)脈瘤,對這些病灶提取到的特征呈稀疏的特性,信息過少,不利于后期的檢測和分類。因此,需要強(qiáng)化這些特征值,使用殘參、注意力機(jī)制加強(qiáng)特征信息。
在DR 檢測方法中,針對小目標(biāo)難檢測的問題,可以采用加入特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)模型,提取出目標(biāo)區(qū)域,將目標(biāo)區(qū)域中的特征和金字塔中訓(xùn)練得到的特征結(jié)合起來,進(jìn)行ROI 池化,能夠同時(shí)、準(zhǔn)確地檢測出血管瘤、眼底出血、玻璃體出血、滲出物等多種病變。
在DR 分類中,可以加入注意力機(jī)制和多尺度機(jī)制。采用注意力機(jī)制可以更好地突出微小病變特征圖像的信息,從而提取到更豐富的特征,結(jié)合遷移學(xué)習(xí)預(yù)訓(xùn)練,能更加充分地提取病變區(qū)域中較小的特征信息,提高分類的精準(zhǔn)度。采用多尺度機(jī)制可以框選出大小不同的病變區(qū)域,將不同尺度的特征信息圖片統(tǒng)一尺寸后,輸入分類模型進(jìn)行分類。此外,也可以結(jié)合其他檢測數(shù)據(jù),實(shí)現(xiàn)多模態(tài)數(shù)據(jù)融合,以判斷和檢測糖尿病視網(wǎng)膜病變。