鐘思華,郭興明,鄭伊能
1.重慶大學 生物工程學院 重慶市醫(yī)療電子技術工程研究中心,重慶 400044
2.重慶醫(yī)科大學附屬第一醫(yī)院 放射科,重慶 400016
肺癌是發(fā)病率和死亡率最高的癌癥之一,我國每年肺癌死亡病例約61 萬人,及早診斷出肺癌并治療對于提高患者的生存率具有重要的意義[1]。肺結節(jié)是肺癌的早期表現(xiàn)形式,在CT 圖像上多表現(xiàn)為直徑不超過3 cm的局灶性、類圓形的肺部陰影,對其輪廓準確地分割能夠幫助醫(yī)生實現(xiàn)肺結節(jié)良惡性的診斷。由于肺結節(jié)體積微小,其形態(tài)、亮度等特征與肺實質中的血管等組織相似,僅通過肉眼觀察難以將其兩者分開,容易對醫(yī)生的判斷產生嚴重的干擾。
為了提高醫(yī)生的工作效率同時降低誤診率,近年來許多研究人員專注于利用計算機輔助診斷系統(tǒng)實現(xiàn)肺結節(jié)分割的研究[2-6]。Kostis等[7]首先采用自適應閾值法將肺結節(jié)從肺實質中分離出來,接著利用形態(tài)學操作實現(xiàn)了對肺結節(jié)輪廓較為精細的分割;Dehmeshki 等[8]提出了一種自適應區(qū)域生長的肺結節(jié)分割方法,該方法在待分割的肺結節(jié)區(qū)域放置種子點,根據肺結節(jié)區(qū)域與背景區(qū)域對比度不同的特性,自適應地對肺結節(jié)進行分割;馮寶等[9]通過結合肺結節(jié)的小波能量和漢森形狀指數特征,利用活動輪廓模型對肺結節(jié)中的實性部分進行分割。以上方法雖然能夠較好地實現(xiàn)肺結節(jié)的分割,但均依賴于人對于肺結節(jié)的先驗知識,不同的人對分割初始條件的設定都會影響到最終的分割效果。因此需要研究一種新的方法,讓機器自動地學習并提取圖像特征,最終實現(xiàn)肺結節(jié)分割,從而排除不同的人所產生的干擾,讓分割結果更加客觀。
目前,深度學習廣泛應用于計算機視覺領域并取得成功。神經網絡通過模仿人腦構造,利用大數據,能夠自動地完成對特定物體的學習,如Kumar等[10]利用卷積神經網絡(Convolutional Neural Network,CNN)實現(xiàn)了對肺結節(jié)的良惡性分類,Wang 等[11]通過多尺度的CNN有效地對肺結節(jié)進行檢測與分割。在圖像分割方面,Long 等[12]在CNN 的基礎上,創(chuàng)造性地提出了一種全卷積神經網絡(Fully Convolutional Network,F(xiàn)CN)。他們用卷積層替換CNN中的全連接層以獲得圖像中每個像素的分類結果,最終實現(xiàn)圖像分割;Ronneberger 等[13]隨后提出了一種新的FCN網絡,U-Net。該網絡具有對稱的U 型結構,通過對圖像特征的編碼與解碼,并融合網絡高低層語義特征,可以實現(xiàn)較好的分割效果。與FCN相比,U-Net能夠在較少樣本量的情況下完成模型訓練并實現(xiàn)圖像分割。由于在醫(yī)學圖像處理中,通常難以獲取許多高質量的醫(yī)學圖像,因此該網絡也經常應用于醫(yī)學圖像分割中。但是,肺結節(jié)等醫(yī)學圖像具有邊緣模糊、目標區(qū)域小等特點,僅僅使用原始U-Net 對其訓練,存在梯度消失、特征利用率低等問題,最終導致模型的分割準確率難以提高。
基于此,本文在現(xiàn)有U-Net 網絡結構的基礎上,針對其存在的不足,提出了一種改進的Dense-UNet 網絡的肺結節(jié)分割算法。該算法加強了網絡對特征的傳遞與利用,能夠有效緩解類不平衡問題,并對肺結節(jié)等小目標區(qū)域的分割具有較大的改善。本文利用LIDCIDRI 肺結節(jié)公開數據集對改進網絡的有效性進行驗證,結果表明該網絡能夠顯著提高肺結節(jié)分割的準確率。本文的主要貢獻有以下兩個方面:
(1)損失函數:在傳統(tǒng)語義分割中所使用的二值交叉熵(Binary Cross Entropy,BCE)損失函數的基礎上,結合Dice 相似系數(Dice Similarity Coefficient,DSC)損失函數,組成混合損失函數。該混合損失函數保證了網絡能夠穩(wěn)定且有針對地對難以學習的樣本進行優(yōu)化,從而緩解類不平衡問題,改善網絡的分割結果。
(2)網絡結構:借鑒了DenseNet 中密集連接(Dense Connection)的概念,在U-Net網絡的卷積層之間引入密集連接,將網絡中上下卷積層之間的特征結合起來。針對部分小目標區(qū)域存在提取特征困難的問題,通過密集連接方式,可以加強網絡對特征的傳遞與利用,同時解決梯度消失的問題。
本文所使用的肺部CT圖像來源于LIDC-IDRI肺結節(jié)公開數據庫[14]。該數據庫是由美國國家癌癥研究所發(fā)起收集,其中一共包含了1 018 個病例。對于每個病例中的CT 圖像,都有4 名放射科醫(yī)生對肺結節(jié)的輪廓及其他征象信息進行標注,并將其存放至XML 格式的文件中。
由于肺結節(jié)在原始肺部CT 圖像中所占比例很小,即代表肺結節(jié)類別的像素數量遠小于背景類別的像素數量,這種因正負樣本數量不均衡而產生的類不平衡問題會嚴重影響神經網絡的訓練過程,最終影響網絡的分割性能。因此,本文對含有肺結節(jié)的原始CT 圖像樣本進行裁剪以減少肺部其他組織對實驗結果帶來的干擾。原始CT圖像的尺寸為512×512像素,根據XML文件中醫(yī)生對肺結節(jié)位置信息的標注,將原始CT 圖像裁剪成尺寸為64×64像素大小的圖像,結果如圖1所示。
圖1 CT圖像預處理
由于在U-Net網絡中,每一層所提取的特征通常只被學習一次,不同層次的特征之間缺乏聯(lián)系,因此網絡對于特征的利用率較低,影響最終的分割準確率。相比之下,DenseNet[15]利用密集連接,使得網絡中當前層的特征與之前所有層的特征結合起來,并將該所得特征傳遞到后續(xù)的所有層。通過這種級聯(lián)方式,每一層網絡都能學習到前幾層的特征,這不僅可以加強網絡對特征的傳遞,從而實現(xiàn)特征的復用,還能夠緩解網絡中梯度消失的問題。假設DenseNet 網絡中第l層的輸出為xl,則xl的定義為:
式中,函數Hl表示第l層的非線性變換,[…]表示網絡中各層特征的融合操作。
本文借鑒了DenseNet 中密集連接的概念,設計了密集連接模塊,其結構如圖2所示。每個密集連接模塊主要包含了兩個3×3 的卷積層和兩次特征融合操作。對于輸入密集連接模塊的特征圖,在每經過一次卷積操作后,所產生的特征圖便與最原始的特征圖進行融合形成新的特征圖,最后再將特征圖輸入下一個密集連接模塊。
圖2 密集連接模塊結構
此外,每個卷積層后面均添加了批量歸一化(Batch Normalization,BN)層[16]和修正線性單元(Rectified Linear unit,ReLu)激活層[17],以此提高網絡的性能。其中,批量歸一化層是為了解決網絡的訓練效果容易受到初始數據分布的影響、模型泛化能力差等問題而提出的。批量歸一化層首先對輸入數據xi進行歸一化操作:
式中,m為輸入數據的批量大小,μB為均值,為方差,ε為平滑因子,避免分母為零。上述操作改變了網絡所學到的數據特征分布,為了避免網絡學習效果受到特征分布改變帶來的影響,需要對歸一化后的數據進行轉換重構:
式中,γ和β為可學習重構參數。yi即為網絡對輸入數據xi進行批量歸一化操作后的輸出值。
修正線性單元激活層負責將神經網絡中神經元的輸入映射到輸出端,為網絡引入了非線性因素,由此提高了網絡的非線性表達能力。其公式定義如下:
本文根據基本的U-Net 網絡結構并結合密集連接模塊設計了一種改進的Dense-UNet 模型,其網絡結構如圖3 所示。Dense-UNet 由編碼器、解碼器、分類器和跳躍連接(Skip Connection)組成。編碼器部分包含了密集連接模塊和最大池化層,其中,密集連接模塊通過卷積層用于提取圖像的語義特征,最大池化層用于特征圖的下采樣操作,在減少網絡運算量的同時能夠增加特征圖的感受野(Receptive Field),提高圖像特征的魯棒性。對于輸入網絡的圖像,首先會經過密集連接模塊進行兩次卷積操作,得到尺寸大小為64×64 的特征圖,隨后經由池化操作將特征圖的尺寸大小減半。最終,在經過四次卷積和池化操作后,得到4×4 大小的特征圖。
圖3 Dense-UNet網絡結構
解碼器部分包含了密集連接模塊和反卷積層,其中,反卷積層用于特征圖的上采樣操作,從而恢復特征圖的分辨率。特征圖每經過一次反卷積操作,其尺寸大小都增大一倍,最終可以得到大小與輸入圖像相同的特征圖。此外,在編碼器和解碼器之間通過一個密集連接模塊進行連接。
分類器由1×1卷積層和sigmoid激活層組成,其中,1×1卷積層用于減少特征圖的數量,sigmoid激活層用于計算最終的特征圖中每個像素的類別,從而輸出網絡的分割概率圖。跳躍連接將網絡中的淺層簡單特征與深層抽象特征融合起來,從而可以得到更為精細的分割結果。表1為Dense-UNet模型中各層的參數設置。
在二分類的語義分割任務中,常用的損失函數是二值交叉熵損失函數,公式如下:
式中,gi為像素點i的真實類別,pi為網絡對像素點i的預測結果。
使用二值交叉熵損失函數進行優(yōu)化,能夠穩(wěn)定地將各個類別所對應的梯度進行回傳,有效地解決網絡在反向傳播過程中梯度消失的問題。但由于該損失函數在梯度回傳的過程中對圖像上的每一個類別都平等地進行評估,所以對于存在類不平衡問題的圖像來說,其中最常見的類別更容易改變網絡的優(yōu)化方向,進而影響最終的分割結果。
表1 Dense-UNet網絡各層的參數設置
此外,另一種用于分割任務的損失函數為Dice相似系數損失函數,公式如下:
Dice 相似系數損失函數能夠指導網絡通過不斷學習,讓預測結果逐漸逼近真實結果。但是一旦預測結果中有部分像素預測錯誤,會導致預測目標的梯度變化劇烈,從而使得網絡的訓練過程變得困難。
本文根據二值交叉熵和Dice 相似系數損失函數的特點,提出了一種混合損失函數,公式如下:
式中,α為權重因子,用于調節(jié)兩種損失函數所占權重。
本文實驗的環(huán)境是基于深度學習框架Keras 結合Python編程語言進行搭建的。計算機配置如下:操作系統(tǒng)為Windows10;處理器為Intel Corei7-8700K;顯卡為NVIDIA RTX 2080Ti,11 GB內存;系統(tǒng)內存為32 GB。
本文從LIDC-IDRI 數據庫中篩選出切片厚度不大于3 mm的CT圖像作為實驗所需的數據集,最終得到總共5 108 張經過預處理的圖像,并按照8∶1∶1 的比例分別將其劃分為訓練集、驗證集和測試集。其中,訓練集用來訓練模型,驗證集用來調節(jié)模型參數使其性能達到最優(yōu),測試集用來驗證所訓練模型的性能,三者之間互不重疊。最后,根據XML中醫(yī)生對肺結節(jié)輪廓的標注,生成與肺結節(jié)圖像尺寸相同的肺結節(jié)輪廓標簽,結果如圖4所示。
圖4 實驗數據集
為了對肺結節(jié)的分割結果進行評估,本文采用Dice相似系數值(DSC)、準確率(Precision)和召回率(Recall)作為評價指標:
式中,gi為像素點i的真實類別,pi為網絡對像素點i的預測結果。Dice 相似系數值是用來衡量預測結果與真實結果之間的相似程度,準確率是指被正確預測為肺結節(jié)的像素總數占被預測為肺結節(jié)的像素總數的比例,召回率是指被正確預測為肺結節(jié)的像素總數占實際為肺結節(jié)的像素總數的比例。上述指標用于肺結節(jié)分割結果的綜合評估,它們的值越大代表分割結果越好。
神經網絡在訓練過程中,選擇混合損失函數作為目標函數,采用Adam優(yōu)化器進行優(yōu)化,其中,batch-size設置為32;初始學習率設置為10-5;動量參數設置為0.9。
3.3.1 權重因子的選擇
本文對損失函數中的權重因子α的選擇進行了探究,將α分別設置為0、0.2、0.4、0.6、0.8 和1。通過五組對比實驗最終得到效果最優(yōu)的權重因子。
表2 展示了混合損失函數在不同權重因子下對Dense-UNet 性能的影響。從表中可以看出當α取值為0.6時,網絡的性能表現(xiàn)最佳。特別地,當α取值為0時,此時損失函數為二值交叉熵損失函數;當α取值為1時,此時損失函數為相似系數損失函數。因此,本文實驗中的α設置為0.6。
表2 不同權重因子對Dense-UNet性能的影響 %
3.3.2 訓練迭代次數的選擇
訓練迭代次數的選擇對網絡的分割性能至關重要。如果訓練迭代次數太少,模型無法很好地擬合訓練數據的分布而容易出現(xiàn)欠擬合狀態(tài);如果訓練迭代次數太多,模型過度依賴訓練數據的分布而容易出現(xiàn)過擬合狀態(tài)。本文通過采用Early Stopping策略確定合適的訓練迭代次數。
圖5 展示了在訓練過程中Dense-UNet 在訓練集和驗證集上的損失值與訓練迭代次數的關系。從圖中可以看出網絡的損失值隨著訓練迭代次數的增加而降低,當訓練迭代次數超過30 時,驗證集的損失值趨于穩(wěn)定。因此,本文實驗中的訓練迭代次數設置為30。
圖5 Dense-UNet損失值與迭代次數的關系
3.4.1 不同損失函數的對比分析
為了探究不同損失函數對模型性能的影響,本文針對二值交叉熵損失函數、Dice相似系數損失函數和混合損失函數進行了對比實驗。表3列出了U-Net和Dense-UNet在三種不同損失函數下的分割效果,分別用BCE、Dice 和Hybrid 代表三種損失函數。從實驗結果可以看出,兩種模型使用混合損失函數均可以達到最優(yōu)的分割結果,其原因在于肺結節(jié)區(qū)域在圖像上的占比面積較小,使用單一的損失函數進行優(yōu)化時,肺結節(jié)區(qū)域所對應的梯度變化容易受到其他背景區(qū)域梯度的影響,導致網絡訓練困難,而混合損失函數綜合了兩種損失函數的特點,在網絡反向傳播過程中能夠對難以學習的樣本進行穩(wěn)定且有針對的優(yōu)化,從而能夠緩解類不平衡的問題,提升模型的分割性能。
表3 不同損失函數對網絡性能的影響%
3.4.2 不同肺結節(jié)分割方法的對比分析
為了驗證改進的Dense-UNet 模型的分割性能,本文選取了:FCN_32s[12]、SegNet[18]、U-Net[13]和使用了批量歸一化的U-Net 四種分割網絡與之進行對比。根據3.3節(jié)中的網絡參數設置,分別對以上五種網絡進行訓練,并利用測試集對訓練好的模型性能進行測試。
表4 展示了不同網絡在測試集上的分割結果。從表中可以看出,F(xiàn)CN_32s和SegNet的分割結果明顯低于另外三種模型的分割結果,這是由于這兩者沒有充分利用各層網絡所提取的圖像特征,網絡對于編碼器部分所提取到的特征,只是單純地進行了上采樣操作將其恢復到輸入圖像大小,而忽略了多尺度特征在空間上進行像素定位和分類之間的聯(lián)系,因此模型的分割結果比較粗糙。不同地,在以U-Net 結構為基礎的網絡,如U-Net、UNet+BN 和Dense-UNet 中引入了跳躍連接,網絡得以將淺層的簡單特征和高層的抽象特征結合起來。由于高質量的醫(yī)學圖像數量少,且目標區(qū)域與背景的對比度低,對其提取特征較為困難,所以這類網絡更適合于醫(yī)學圖像分割任務。通過跳躍連接方式,利用簡單特征用于像素準確定位以及抽象特征用于像素準確分類的特點,將兩者結合從而幫助網絡得到更為精細的分割結果。
表4 Dense-UNet與其他網絡分割結果對比%
本文方法的Dice相似系數值、精確率和召回率分別達到了84.48%、85.35%和83.81%,與U-Net和UNet+BN相比,最終的分割結果均有不同程度的提升,這是由于一方面改進的Dense-UNet模型中不僅采用了跳躍連接方式,而且還通過密集連接模塊將相鄰網絡層中提取的特征融合起來,既能夠進一步加強網絡對特征的傳遞與利用,同時也能夠緩解網絡中梯度消失的問題,因此改進的Dense-UNet對圖像中的微小或邊界模糊的肺結節(jié)區(qū)域具有更強的學習能力;另一方面,改進的Dense-UNet模型通過批量歸一化操作能夠有效地統(tǒng)一訓練數據的分布,從而提高了網絡的收斂速度,改善了網絡的優(yōu)化性能,獲得更為精確的分割結果。
五種網絡的分割結果的可視化如圖6所示,圖中第一列是輸入模型的肺結節(jié)圖像,第二列是醫(yī)生標注的肺結節(jié)輪廓金標準,最后一列是使用本文算法對肺結節(jié)分割的結果。由于方法[12]和[18]忽略了多尺度特征融合的重要性,使得最終的分割結果非常粗糙,只能實現(xiàn)對肺結節(jié)的大致定位。對比觀察圖中最后四行的圖像,肺結節(jié)在圖像中所占比例較小,且其像素值與背景區(qū)域中的血管等組織相近,未改進的網絡容易受到與病灶相似的干擾區(qū)域的影響,錯誤地將背景區(qū)域預測為肺結節(jié)區(qū)域,并且分割結果誤差較大。相比之下,本文提出的Dense-UNet能夠有效地區(qū)分肺結節(jié)與其他肺部組織,對肺結節(jié)輪廓的預測更為精確,同時分割結果中的假陽性樣本也較少。綜上所述,改進的Dense-UNet 網絡與其他分割網絡相比,分割效果得到顯著提升,在針對微小或邊界模糊的肺結節(jié)的分割過程中魯棒性高,具有良好的分割性能。
準確地對肺結節(jié)進行分割對于肺癌的早期診斷至關重要。本文在U-Net網絡結構的基礎上,提出了一種用于肺結節(jié)分割的Dense-UNet 網絡。改進的Dense-UNet 網絡在卷積層之間引入密集連接模塊,將網絡上下層的特征融合起來,進一步加強了網絡對特征的傳遞和利用,有效地提高了網絡的分割性能,并且能夠解決梯度消失的問題;同時采用改進的混合損失函數幫助網絡對難以學習的樣本進行穩(wěn)定且有針對的優(yōu)化,以解決網絡在訓練過程中面臨的類不平衡問題。本文實驗數據來源于LIDC-IDRI 肺結節(jié)公開數據庫,通過與FCN_32s、SegNet、U-Net 和使用了批量歸一化的 U-Net 四種分割網絡的實驗結果對比,表明了改進的Dense-UNet網絡能夠有效地區(qū)分肺結節(jié)與背景區(qū)域,實現(xiàn)對肺結節(jié)的準確分割,具有良好的分割性能。然而本文算法仍然存在一些局限性,由于肺結節(jié)病灶存在于多張CT 切片中,本文方法只關注了單張切片中的病灶區(qū)域,而忽略了相鄰切片圖像之間的聯(lián)系,對于較小的肺結節(jié)病灶難免出現(xiàn)一些錯檢或漏檢的現(xiàn)象。因此,利用相鄰切片中肺結節(jié)病灶之間的像素聯(lián)系以提高分割準確率將是下一步的研究重點。
圖6 不同模型的肺結節(jié)分割結果圖