張倩雯,陳明,2,秦玉芳,2,陳希
1.上海海洋大學(xué)信息學(xué)院,上海201306;2.農(nóng)業(yè)部漁業(yè)信息重點(diǎn)實(shí)驗(yàn)室,上海201306
工業(yè)化水平的提高在改善人類生活質(zhì)量的同時也帶來了環(huán)境污染的問題[1]。近幾十年來,肺癌的發(fā)病率和死亡率在不斷上升,同時,肺癌具有發(fā)病時間短、疾病致因復(fù)雜、轉(zhuǎn)移速度快的特點(diǎn),在發(fā)病早期大多數(shù)表現(xiàn)為肺結(jié)節(jié),常常因?yàn)樗蝗菀妆徊煊X而耽誤患者治療的最佳時間。所以,及時發(fā)現(xiàn)并提早治療可以大大增加患者的治愈率和生存幾率[2]。在肺結(jié)節(jié)檢測與識別中,候選結(jié)節(jié)提取檢測是關(guān)鍵步驟[3],候選結(jié)節(jié)提取檢測的目的是從肺實(shí)質(zhì)中定位結(jié)節(jié)所在的區(qū)域,由于肺結(jié)節(jié)與周圍的血管、組織等在形態(tài)特征、像素值上相似度很高,特別是粘連型結(jié)節(jié),這為研究帶來了困難。Ko等[4]提出多階段閾值法來識別肺部邊界,并評估肺內(nèi)可能含有結(jié)節(jié)區(qū)域的形狀、大小和位置。閾值法往往通過設(shè)置閾值來分成若干類,從而分離結(jié)節(jié)區(qū)域,這些區(qū)域通常會與肺部其他組織灰度重疊,導(dǎo)致分割效果不好。董林佳等[5]通過構(gòu)建類球形濾波器來提取疑似肺結(jié)節(jié),從而濾除其他形狀的區(qū)域,雖然形態(tài)學(xué)方法能有效提取結(jié)節(jié),但是也會出現(xiàn)漏檢、多檢的情況。Kanazawa等[6]提出一種基于聚類的方法來提取候選結(jié)節(jié)區(qū)域,同時減少假陽性,但是這種方法的計(jì)算量較大,檢測效率低下。Lassen等[7]使用區(qū)域生長法提取候選結(jié)節(jié),但是區(qū)域生長的起始種子點(diǎn)需要手工標(biāo)注選取,基于傳統(tǒng)方法的局限性,目前主要采用的方法是將傳統(tǒng)的方法和機(jī)器學(xué)習(xí)的算法結(jié)合起來,或者采用基于深度學(xué)習(xí)的方法,如R-CNN系列[8]、U-Net[9]等,嚴(yán)忱君[10]采用U-Net網(wǎng)絡(luò)提取候選區(qū)域?qū)崿F(xiàn)早期肺結(jié)節(jié)檢測,并取得較好的效果。方俊煒[11]將U-Net網(wǎng)絡(luò)的輸入改成3D圖像來檢測肺結(jié)節(jié),最終達(dá)到預(yù)期效果。
隨著深度學(xué)習(xí)興起,深度卷積神經(jīng)網(wǎng)絡(luò)開始應(yīng)用在醫(yī)療圖像[11-14]上,但由于深度學(xué)習(xí)模型依賴大量的樣本量以及對計(jì)算機(jī)性能要求高,導(dǎo)致開發(fā)成本高,嚴(yán)重限制這一技術(shù)在肺結(jié)節(jié)檢測與識別領(lǐng)域的應(yīng)用,因此在這個過程中仍然存在著許多值得研究的地方。針對這一現(xiàn)象以及為了改善深度學(xué)習(xí)中梯度消失現(xiàn)象,本研究基于U-Net模型在醫(yī)療圖像分割[15]領(lǐng)域的表現(xiàn),將 U-Net網(wǎng)絡(luò)和 ResNet結(jié)合形成新的網(wǎng)絡(luò)ResUnet,并將其應(yīng)用在肺結(jié)節(jié)疑似區(qū)域提取中,并將輸入擴(kuò)展成3D,輸出分割后的結(jié)節(jié)區(qū)域,有效地將非結(jié)節(jié)區(qū)域剔除,從而減少肺結(jié)節(jié)的假陽性,使之可用于后續(xù)的真假結(jié)節(jié)篩選。
與卷積神經(jīng)網(wǎng)絡(luò)相比,為了使獲得的結(jié)果更好,在保留高級語義信息的同時使用低層次的信息是非常重要的[16-18],但是當(dāng)可用的數(shù)據(jù)集有限時,訓(xùn)練這樣的深度神經(jīng)網(wǎng)絡(luò)是非常困難的。解決這一問題的一種常見的方法就是使用預(yù)先訓(xùn)練的網(wǎng)絡(luò),在目標(biāo)數(shù)據(jù)集上對其進(jìn)行微調(diào);還有一種方法就是采用數(shù)據(jù)增強(qiáng)技術(shù)。此外,有些網(wǎng)絡(luò)的架構(gòu)本身也有助于減輕訓(xùn)練問題,U-Net就是基于全卷積神經(jīng)網(wǎng)絡(luò)的一個用于圖像分割的經(jīng)典網(wǎng)絡(luò),它是建立在全卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)上的,U-Net包括兩部分,左側(cè)的特征提取部分和右側(cè)的上采樣部分,網(wǎng)絡(luò)結(jié)構(gòu)左右對稱,呈U形,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
在圖像的分類和識別[19]中,神經(jīng)網(wǎng)絡(luò)的深度對最后的效果有著很大的影響。因此,將網(wǎng)絡(luò)設(shè)計(jì)得越來越深,隨之帶來的矛盾就是,隨著網(wǎng)絡(luò)加深,出現(xiàn)明顯的梯度消失現(xiàn)象,網(wǎng)絡(luò)的訓(xùn)練效果不佳,但是淺層的網(wǎng)絡(luò)對效果提升又起不到明顯的作用。為了解決這一問題,殘差神經(jīng)網(wǎng)絡(luò)[20]被提出,殘差神經(jīng)網(wǎng)絡(luò)由一系列堆疊的殘差單元組成。
圖1 U-Net網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Diagram of U-Net network structure
假設(shè)神經(jīng)網(wǎng)絡(luò)的輸入是x,輸出是H(x),需要學(xué)習(xí)的函數(shù)為F(x)=H(x)-x,即輸出和輸入的差,而不再是H(x),這就是一個殘差學(xué)習(xí)單元,此時通過在淺層網(wǎng)絡(luò)的基礎(chǔ)上增加一個y=x即恒等映射來將原始函數(shù)轉(zhuǎn)換F(x)+x成的層被稱為一個殘差單元,如圖2所示,而多個殘差單元級聯(lián)成一個神經(jīng)網(wǎng)絡(luò)。
圖2 殘差單元Fig.2 Residual unit
因此網(wǎng)絡(luò)中殘差的表達(dá)式可以統(tǒng)一寫成如下公式:
其中,ws只有在特征圖維度不同的時候才用到,可以通過零填充增加維度,也可以通過1×1卷積實(shí)現(xiàn)。當(dāng)殘差用于兩層全連接層的時候,其F=W2σ(W1x),網(wǎng)絡(luò)單元如圖3所示。
將兩個3×3的卷積替換成了圖3b的卷積層。首先在1×1卷積層下降維,然后在另一個1×1卷積層下還原,這能夠起到調(diào)節(jié)維度的作用,從而令3×3卷積可以在較低維度的輸入上進(jìn)行,在非常深的網(wǎng)絡(luò)中,該設(shè)計(jì)可大幅減少計(jì)算量。殘差模塊的引入有效緩解了梯度消失的影響,使得網(wǎng)絡(luò)模型層數(shù)可以大大增加。
圖3 兩種殘差模塊Fig.3 Two residual modules
將U-Net網(wǎng)絡(luò)和ResNet結(jié)合形成新的網(wǎng)絡(luò)ResUnet,這充分結(jié)合了兩個網(wǎng)絡(luò)的優(yōu)勢:(1)殘差結(jié)構(gòu)會簡化網(wǎng)絡(luò)的訓(xùn)練;(2)在殘差單元內(nèi)的跳躍連接以及網(wǎng)絡(luò)的低層次和高層次之間將促進(jìn)信息傳播而不會出現(xiàn)梯度消失。圖4為兩種不同結(jié)構(gòu)的比較。
圖4 原始Unet和ResUnet結(jié)構(gòu)比較Fig.4 Comparison of original U-Net and ResUnet structures
網(wǎng)絡(luò)中每個殘差單元可以表示為一般形式:
其中,xl和xl+1是第l層殘差單元的輸入和輸出;F(·)是殘差函數(shù);f(y1)是激活函數(shù);h(xl)是恒等映射函數(shù),最典型的是h(xl)=xl。
整體網(wǎng)絡(luò)如圖5所示,本研究將此網(wǎng)絡(luò)擴(kuò)展成3D網(wǎng)絡(luò),利用深度7層網(wǎng)絡(luò)架構(gòu)進(jìn)行肺結(jié)節(jié)區(qū)域提取,該網(wǎng)絡(luò)由編碼、橋接、解碼這3部分組成。編碼部分包括將輸入圖像編碼成更加嚴(yán)謹(jǐn)?shù)谋硎?;橋接部分就像連接編碼和解碼的橋一樣;解碼部分恢復(fù)成像素分類。所有這3部分都是由一個卷積塊表示的,包括輸入、BN層、兩個3×3的卷積、ReLu激活層、恒等映射連接單元、輸出。編碼部分有3個殘差單元,在每個單元中對特征映射圖進(jìn)行下采樣而不是池化操作,第一個卷積塊的大小將減少一半;相應(yīng)地,解碼部分也由3個殘差單元組成,在每個單元之前,對來自較低級別的特征圖進(jìn)行上采樣,并使用相應(yīng)編碼路徑的特征映射級聯(lián)。在解碼的最后一層,使用1×1卷積和Sigmod激活層將多通道特征圖映射到所需要的分割中。與U-Net相比,ResUnet總共只有15個卷積層并且刪除了剪切。
此外,損失函數(shù)用dice_coef_loss定義,其中,兩個區(qū)域的相似程度用DSC表表示,A和B表示兩個輪廓區(qū)域所包含的點(diǎn)的集合,定義公式見式(4)。
圖5 二維ResUnet網(wǎng)絡(luò)模型Fig.5 Two-dimensional ResUnet network model
dice_coef_loss用式(5)表示,并使用自適應(yīng)性矩估計(jì)(Adaptive Moment Estimation,Adam)來訓(xùn)練網(wǎng)絡(luò)。
實(shí)驗(yàn)采用的數(shù)據(jù)集來自LUNA16(Lung Nodule Analysis 2016)比賽,該數(shù)據(jù)集由888張CT圖以及圖像的標(biāo)注內(nèi)容即結(jié)節(jié)的坐標(biāo)和直徑等組成,其中每個病人的CT圖像包括若干張切片。在所有CT中,36 378個結(jié)節(jié)被標(biāo)出(直徑>3 mm的結(jié)節(jié)),<3 mm和非結(jié)節(jié)不納入進(jìn)來,剩余5 765個結(jié)節(jié)。若兩個結(jié)節(jié)離的太近,則中心距離小于半徑之和,也就是相交了,需要對兩個結(jié)節(jié)進(jìn)行合并,合并的中心和半徑是該兩個結(jié)節(jié)的均值。
本研究采用的預(yù)處理的步驟及方法如圖6所示。
預(yù)處理過程包括標(biāo)準(zhǔn)化像素值、明確肺實(shí)質(zhì)邊界、取最大的連通圖、閉操作、膨脹,最后得到肺實(shí)質(zhì),結(jié)果如圖7所示。
圖6 預(yù)處理步驟及方法Fig.6 Preprocess steps and methods
(1)首先對原始圖片進(jìn)行二值化處理,區(qū)分肺部區(qū)域和背景噪聲,必須確保所設(shè)置的閾值能夠通過像素值區(qū)分肺和密度更高的組織。本研究將閾值設(shè)置為固定值,通過閾值將圖像分為兩部分,如圖7b所示。
(2)根據(jù)每個區(qū)域的邊界框大小選擇區(qū)域確定肺部邊界,通過連通區(qū)域分析的方法確定肺的區(qū)域,將圖像中的白色區(qū)域以及噪聲提取出來,本研究通過將連接圖片邊緣的點(diǎn)的值設(shè)置為0來消除邊緣位置噪聲產(chǎn)生的黑色區(qū)域,并保留最大的兩塊連通區(qū)域,如圖7d所示。
(3)此時圖像還存在很多空洞和氣孔,需要使用腐蝕和膨脹來填平(消除)由不透明射線造成的黑色肺部區(qū)域,然后得到mask圖像(圖7f),與原始圖像對應(yīng)的像素點(diǎn)進(jìn)行“與”操作,提取出最終的肺實(shí)質(zhì)(圖7g)。
本研究提出的模型采用的實(shí)驗(yàn)環(huán)境為LUNIX,在內(nèi)存大小為32 GB,顯存為22 GB,顯卡是GTX 1080ti的硬件平臺上完成的,所用的框架是以tensorflow為后端的Keras。將訓(xùn)練集和測試集按7:3的比例劃分,訓(xùn)練的迭代次數(shù)為113,批量大小為2,用于訓(xùn)練和驗(yàn)證,學(xué)習(xí)率設(shè)為3e-5,使用批歸一化,采用3D ResUnet模型,輸入張量為64×64×64×1×1,訓(xùn)練集上,每迭代一次結(jié)束訓(xùn)練后就同時在驗(yàn)證集上進(jìn)行訓(xùn)練。
使用本研究的模型得到的分割結(jié)果如圖8所示,左邊的圖表示輸入的圖片,中間的圖是根據(jù)標(biāo)注的文件生成的肺結(jié)節(jié)的掩膜,代表標(biāo)簽值,最右邊的圖是模型預(yù)測的結(jié)果,用上節(jié)描述的dice_coef_loss來表示模型的損失函數(shù),即真實(shí)結(jié)節(jié)和預(yù)測結(jié)節(jié)不相似程度,從圖中可以看出該模型能較好地預(yù)測到肺結(jié)節(jié)的位置。模型的損失函數(shù)如圖9,在訓(xùn)練集上loss值能快速下降,但在驗(yàn)證集不穩(wěn)定,主要原因是由于數(shù)據(jù)集有限,模型存在過擬合現(xiàn)象。
圖7 圖像預(yù)處理過程Fig.7 Image preprocessing
圖8 本文分割結(jié)果圖Fig.8 Segmentation results obtained by the proposed method
圖9 3D ResUnet模型訓(xùn)練過程Fig.9 3D ResUnet model training process
本研究提出的方法主要通過精度和召回率進(jìn)行評估,將訓(xùn)練結(jié)果最好的模型作為最終的結(jié)果。精度指的是在模型預(yù)測結(jié)節(jié)的所有結(jié)果中,預(yù)測正確的比例;召回率指的是真實(shí)值是肺結(jié)節(jié)的所有結(jié)果中,預(yù)測正確的比例。嚴(yán)憂君[10]采用二維U-Net原模型對肺結(jié)節(jié)進(jìn)行分割并使用VGG算法識別,其中圖8分割結(jié)果圖中最左邊的是輸入的肺實(shí)質(zhì),中間的是標(biāo)注的結(jié)節(jié)的位置,右邊的是預(yù)測的結(jié)節(jié)圖,可以看到預(yù)測圖中有很多假陽性結(jié)節(jié),最終得到2.7%的精度和87.1%的召回率,天池醫(yī)療大賽冠軍組采用基于3D U-Net模型來進(jìn)行肺結(jié)節(jié)的語義分割,獲得62.18%的精度和97.83%的召回率。本研究采用基于3D ResUnet的肺結(jié)節(jié)分割方法,最終的精度和召回率分別為35.02%和97.68%。該模型主要是為了將不屬于肺結(jié)節(jié)的區(qū)域剔除,使得推薦的肺結(jié)節(jié)位置較少,同時召回率又保持較高。
本研究將深度殘差學(xué)習(xí)和U-Net網(wǎng)絡(luò)結(jié)合,把ResUnet應(yīng)用在肺結(jié)節(jié)圖像語義分割中,并將輸入擴(kuò)展成3D,通過對CT圖像預(yù)處理提取出肺實(shí)質(zhì),對得到的圖像以肺結(jié)節(jié)中心為坐標(biāo)的區(qū)域附近截取立體圖像塊并進(jìn)行數(shù)據(jù)增強(qiáng)生成3D ResUnet網(wǎng)絡(luò)的輸入樣本,最后通過訓(xùn)練模型得到肺結(jié)節(jié)分割結(jié)果,本研究的方法具有較高的召回率,能有效將非結(jié)節(jié)區(qū)域剔除,為后面的真假陽性結(jié)節(jié)分類打下好的基礎(chǔ)。
中國醫(yī)學(xué)物理學(xué)雜志2019年11期