基于改進(jìn)Attention U-Net的膽囊自動分割模型研究

2021-08-18 10:03尹梓名孫大運(yùn)任泰周雷李永盛王廣義王傳磊曹宏劉穎斌束翌俊

北京生物醫(yī)學(xué)工程 2021年4期

尹梓名孫大運(yùn) 任泰周雷李永盛王廣義王傳磊曹宏劉穎斌,5 束翌俊

基金項目：國家自然科學(xué)基金(31701108、81701749)、上海市2020年度“科技創(chuàng)新行動計劃”醫(yī)學(xué)創(chuàng)新研究專項(XHEC-STCSM-2020-040)、上海市人工智能創(chuàng)新發(fā)展專項(2019-RGZN-01096)資助

作者單位：1 上海理工大學(xué)醫(yī)療器械與食品學(xué)院(上海 200093) 2 上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院普外科(上海 200092) 3 上海交通大學(xué)醫(yī)學(xué)院附屬仁濟(jì)醫(yī)院膽胰外科(上海 200127) 4 上海市膽道疾病研究重點實驗室(上海 200092) 5 癌基因及相關(guān)基因國家重點實驗室(上海 200127)

6 吉林大學(xué)白求恩第一醫(yī)院肝膽胰外一科(長春 130021)

7 吉林大學(xué)中日聯(lián)誼醫(yī)院普外科(長春 130033)

通信作者：劉穎斌，E-mail: laoniulyb@163.com;束翌俊，E-mail: shuyijun19881125@163.com

0 引言

膽囊是人體消化系統(tǒng)的重要器官，其長10～15 cm，寬3～5 cm，容量為40～60 mL，呈梨形囊狀，可儲存和濃縮膽汁。臨床中常見的膽囊疾病包括膽囊結(jié)石、膽囊炎、膽囊惡性腫瘤等。根據(jù)我國不同地區(qū)的流行病學(xué)調(diào)查數(shù)據(jù)顯示，膽囊疾病的患病率從15.87%到24.80%不等[1-3]。膽囊雖小，卻是人體的重要器官，一旦發(fā)生病變，會嚴(yán)重影響患者之后的生活質(zhì)量和壽命，如未能及時診斷與治療，很容易危及生命[4]。

膽囊疾病的診斷需要參考超聲、計算機(jī)斷層掃描(computer tomography，CT)、磁共振(magnetic resonance image，MRI)等醫(yī)學(xué)影像。在閱片過程中，臨床醫(yī)生需要先對膽囊部位進(jìn)行識別，然后才能對膽囊疾病進(jìn)行準(zhǔn)確的判斷。但是由于膽囊這種腔體器官的特殊性——其體積較小且內(nèi)部包含膽汁、易受到其他臟器擠壓而產(chǎn)生形變，使得膽囊病變的識別對于欠缺臨床經(jīng)驗的低資質(zhì)醫(yī)生來說比較困難，極易發(fā)生錯漏診。

近年來，隨著人工智能技術(shù)的發(fā)展，尤其是深度學(xué)習(xí)技術(shù)的不斷進(jìn)步，基于深度學(xué)習(xí)的醫(yī)學(xué)影像分割技術(shù)已在很多醫(yī)院和科室得到應(yīng)用，如腦腫瘤的分割[5]、心室分割[6]、肝臟分割[7]等，但對于膽囊部位的分割技術(shù)研究還較少。華中科技大學(xué)團(tuán)隊[8-9]研究了基于區(qū)域增長的膽囊交互式分割方法，該方法基于傳統(tǒng)醫(yī)學(xué)影像分割技術(shù)，需要使用者手動提取圖像特征(如區(qū)域增長中種子點的選取)，增加了方法的難度。Huang等[10]基于人體解剖學(xué)的先驗知識，首先通過水平集分割找到人體最大臟器肝臟；其次，根據(jù)膽囊被肝臟包裹的解剖學(xué)知識，利用肝表面的限定球體和與膽囊最相似的球體為膽囊的位置；最后，以球體為初始函數(shù)，采用水平集方法對膽囊進(jìn)行分割。Lian 等[11]使用全局形態(tài)學(xué)濾波算法等對膽囊超聲圖像進(jìn)行分割。

傳統(tǒng)圖像分割方法受限于模型自身的建模能力，對圖像噪聲、圖像模糊等干擾因素的魯棒性有限，難以滿足臨床實踐對分割速度和準(zhǔn)確性的要求。隨著深度學(xué)習(xí)方法的興起，基于深度學(xué)習(xí)的圖像分割方法已經(jīng)成為業(yè)界主流。相對于傳統(tǒng)圖像分割方法，深度學(xué)習(xí)可以實現(xiàn)特征的自動提取，降低了人為的干預(yù)，可得到更好的分割結(jié)果。目前最典型的醫(yī)學(xué)圖像深度學(xué)習(xí)分割網(wǎng)絡(luò)是2015年提出的一種U型網(wǎng)絡(luò)結(jié)構(gòu)(U-Net)，為后續(xù)很多研究提供了思路，在醫(yī)學(xué)圖像不同目標(biāo)的分割任務(wù)中均取得了較為理想的結(jié)果[12-13]。但是，將U-Net直接用于膽囊的分割提取并未充分利用圖像中的多層次細(xì)節(jié)信息，因此，本文擬在U-Net深度學(xué)習(xí)圖像分割方法的基礎(chǔ)上，提出一種基于多尺度融合注意力機(jī)制的膽囊CT影像自動分割算法，并與相關(guān)方法進(jìn)行對比分析，從而證實所提出多尺度融合的注意力機(jī)制的有效性，進(jìn)而為膽囊結(jié)石疾病的輔助診斷提供幫助。

1 基于多尺度融合注意力機(jī)制的Attention U-Net

1.1 U-Net和Attention U-Net

在醫(yī)學(xué)圖像的分割任務(wù)中，U-Net網(wǎng)絡(luò)模型[14]因其獨特的U型結(jié)構(gòu)和跳躍連接，同時結(jié)合了圖像中低分辨率和高分辨率的信息，使其在醫(yī)學(xué)影像這種一般具有固定結(jié)構(gòu)和豐富語義的數(shù)據(jù)中，可以同時提取到圖像的淺層和深層信息。另外，由于高質(zhì)量標(biāo)注的醫(yī)學(xué)圖像的稀缺性，很難獲取到大量可供模型訓(xùn)練的數(shù)據(jù)，但U-Net可以僅使用較少的訓(xùn)練樣本，獲得較為滿意的分割結(jié)果，以上特性使得U-Net成為解決醫(yī)學(xué)圖像分割任務(wù)時的首選模型。

人類大腦在對某一事物做出判斷的時候，存在注意力機(jī)制(attention mechanism)，這使得大腦做出判斷的依據(jù)不是來源于事物表達(dá)的所有信息，而是重點注意某些局部信息。注意力機(jī)制的存在使大腦對信息處理的效率得到極大的提升。受人類大腦中注意力機(jī)制的啟發(fā)，在很多基于深度學(xué)習(xí)的應(yīng)用場景中也使用了注意力機(jī)制，并取得了很好的效果，如：自然語言處理、計算機(jī)視覺、機(jī)器翻譯等領(lǐng)域。有學(xué)者嘗試將注意力機(jī)制應(yīng)用到圖像分割領(lǐng)域，與U-Net進(jìn)行結(jié)合，如Alom等[13]提出Attention U-Net，在U-Net中引入了注意力機(jī)制，希望可以使訓(xùn)練的模型更加關(guān)注醫(yī)學(xué)影像中的局部位置，其在傳統(tǒng)U-Net的基礎(chǔ)上，通過在跳躍連接上增加注意力機(jī)制，使原本上采樣的特征與經(jīng)過注意力模塊處理的編碼信號連接，而使得模型可以很好地關(guān)注局部信息，從而提高整體的分割性能。

1.2 改進(jìn)的多尺度融合注意力機(jī)制的Attention U-Net

在上述Attention U-Net中，在網(wǎng)絡(luò)中每一個跳躍連接的時候加上注意力模塊，通過模型的訓(xùn)練自動學(xué)習(xí)參數(shù)，使得模型更多地關(guān)注數(shù)據(jù)的局部特征。在本文針對膽囊的分割任務(wù)中，由于膽囊本身是腔體，內(nèi)部包含膽汁，其形態(tài)隨著人體差異、病變等因素會發(fā)生變化，如正常膽囊形態(tài)較小，病變膽囊則可能變大、變形。所以，膽囊的分割模型必須綜合考慮膽囊的特征在影像上的表現(xiàn)。在原始U結(jié)構(gòu)的編碼器部分，深層網(wǎng)絡(luò)可以提取原始數(shù)據(jù)的高分辨率、抽象的特征。而在做醫(yī)學(xué)影像研究時，往往要關(guān)注影像的低分辨率、淺層信息。這需要關(guān)注膽囊本身及其周邊環(huán)境的語義信息。因此，本文提出一種基于多尺度融合的注意力機(jī)制模塊，在模型跳躍連接的時候，一個注意力模塊將多個不同的淺層和深層網(wǎng)絡(luò)特征級聯(lián)，并對不同的網(wǎng)絡(luò)層賦予不同的權(quán)重，通過模型訓(xùn)練自動學(xué)習(xí)注意力模塊中的參數(shù)，使得注意力模塊可以同時關(guān)注多個編碼部分特征信息，來使模型更好地關(guān)注膽囊的局部特征。改進(jìn)的基于多尺度融合的注意力模塊如圖1所示。在注意力模塊的輸入時，將來自多個編碼部分的特征層Fx作為級聯(lián)輸入，與底層特征層經(jīng)過上采樣得到的Fg結(jié)合，再經(jīng)過Relu激活函數(shù)、1×1卷積和Sigmoid激活函數(shù)的處理，得到注意力權(quán)重，最后將得到的注意力權(quán)重與當(dāng)前對應(yīng)的特征層F1相乘即得到注意力模塊的輸出。

圖1 改進(jìn)的注意力模塊Figure 1 Improved attention module

在整個U型結(jié)構(gòu)中，本研究選用ResNet[15]作為模型的編碼器部分。相比于常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)，殘差網(wǎng)絡(luò)因其使用的殘差模塊，使得網(wǎng)絡(luò)的層數(shù)加深，可以在提取圖像更深層次特征的同時，解決梯度消失的問題。編碼器的殘差模塊總體結(jié)構(gòu)如圖2(a)所示。編碼器中共包括兩種殘差模塊，如圖2(b)和圖2(c)所示。圖2(b)中殘差卷積模塊(convolution block，Conv block)在殘差跳躍連接的時候加了卷積層，這樣輸入輸出的維度不同，整個殘差模塊維度下降；而圖2(c)中殘差標(biāo)識模塊(identity block，ID block)在短連接上沒有卷積層，整個殘差模塊不改變輸入的維度。其通過跳躍連接的形式，使得模型只需要學(xué)習(xí)目標(biāo)值和輸出之間的殘差，減小了模型學(xué)習(xí)的復(fù)雜度，有利于模型的學(xué)習(xí)。

圖2 改進(jìn)的編碼器 Figure 2 Improved encoder

圖3為改進(jìn)的Attention U-Net模型結(jié)構(gòu)。在每一個跳躍連接的末端都有一個注意力模塊，其輸入包括底層上采樣的特征映射、對應(yīng)當(dāng)前層以及前幾層的特征映射。輸出經(jīng)過注意力處理之后的特征映射與底層上采樣的特征映射進(jìn)行通道維度上的級聯(lián)。之后為了將通道維度的信息整合，又經(jīng)過了一層卷積的處理才輸入到下一層。最終經(jīng)過解碼器一系列上采樣之后，特征圖恢復(fù)到原圖大小，即輸出分割結(jié)果。

圖3 改進(jìn)的Attention U-Net 網(wǎng)絡(luò)結(jié)構(gòu)Figure 3 The network structure of improved Attention U-Net

本文所提出改進(jìn)的Attention U-Net分割模型，采用基于多尺度融合的注意力模塊對Attention U-Net進(jìn)行改進(jìn)，可以使其更全面地考慮不同層的特征映射，使注意力模塊充分考慮淺層和深層特征，來提高模型在膽囊分割任務(wù)中的表現(xiàn)。

2 實驗設(shè)計及評估方法

2.1 實驗平臺

本文實驗均在Linux Ubuntu16.04系統(tǒng)環(huán)境下進(jìn)行。深度學(xué)習(xí)框架采用PyTorch，編程語言為Python 3.7版。模型訓(xùn)練GPU使用NVIDIA TITAN RTX，顯存64 G，內(nèi)存為32 G。CUDA的版本為10.1，cuDNN版本為7.64。

2.2 實驗數(shù)據(jù)準(zhǔn)備

本研究選取上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院普外科、吉林大學(xué)白求恩第一醫(yī)院肝膽胰外一科和吉林大學(xué)中日聯(lián)誼醫(yī)院普外科2017-2019年收治的88例膽囊癌患者、28例慢性膽囊炎膽囊結(jié)石患者和29例健康對照共145人，術(shù)前常規(guī)行腹部雙源增強(qiáng)CT(采用Siemens Dedinition Flash雙源炫速CT機(jī)，先行雙源CT腹部平掃，A球管電壓140 kV，有效電流126 mAs，B球管電壓100 kV，有效電流155 mAs；以雙筒高壓注射器于右肘前靜脈以4 mL/s速率注射歐乃派克1.5 mL/kg體質(zhì)量，后以相同速率注射生理鹽水20 mL；延遲25～30 s行動脈期雙能量掃描，65～70 s行靜脈期雙能量掃描)，男90例，女55例，年齡44～90歲，平均年齡67.76歲±10.94

歲。88例膽囊癌患者行單純膽囊切除術(shù)17例，膽囊癌根治術(shù)56例，膽囊癌擴(kuò)大根治術(shù)10例，膽囊癌姑息性切除術(shù)5例。所有病例全部經(jīng)術(shù)后病理診斷，其中高分化腺癌15例(17.05%)，中分化腺癌22例(25%)，低分化腺癌51例(57.95%)。結(jié)合術(shù)前雙源CT和術(shù)后病理診斷，有淋巴結(jié)轉(zhuǎn)移者61例(69.32%)，無淋巴結(jié)轉(zhuǎn)移者27例(30.68%)。根據(jù)第八版AJCC癌癥分期手冊TNM分期：0-I期患者17例(19.32%)，II-IV期患者71例(80.68%)。28例慢性膽囊炎膽囊結(jié)石患者均行腹腔鏡下膽囊切除術(shù)，術(shù)后病理證實。收集8 268張腹部CT影像(含動脈期、門脈期和延遲期所有圖像，掃描范圍從隔頂?shù)侥懩蚁用?，每張層厚、層間距均為5 mm)。數(shù)據(jù)集的格式為醫(yī)學(xué)影像常見的DICOM(Digital Imaging and Communications in Medicine)格式。

將CT圖像的數(shù)據(jù)集由5名經(jīng)驗豐富的放射科醫(yī)生對其中膽囊區(qū)域邊緣進(jìn)行勾畫，作為數(shù)據(jù)集的金標(biāo)準(zhǔn)，原始數(shù)據(jù)和標(biāo)注數(shù)據(jù)如圖4所示，并按照比例7∶2∶1隨機(jī)劃分訓(xùn)練集6 171張切片、驗證集1 238張切片和測試集859張切片。數(shù)據(jù)集中所有圖像均包含膽囊，以保證本文方法對膽囊部位的自動分割。

圖4 數(shù)據(jù)集示例Figure 4 Samples of datasets

2.3 實驗評估設(shè)計

為了驗證本文提出的改進(jìn)Attention U-Net的性能，本文將其與經(jīng)典U-Net和Attention U-Net進(jìn)行對比分析，從而證明改進(jìn)的Attention U-Net的有效性。整體實驗流程如圖5所示。

圖5 實驗流程Figure 5 Experimental process

(1) 調(diào)整窗寬窗位。在CT圖像中，窗寬是圖像上顯示的CT值范圍，窗位是顯示CT值范圍的中心。通過對窗寬窗位的調(diào)節(jié)，可以得到良好的CT圖像顯示效果。膽囊的CT值在(-10，50)之間，本文取窗寬300、窗位30，可得到膽囊的最好顯示效果。

(2) 圖像脫敏。DICOM文件中存儲的信息包括患者的個人信息，為了保護(hù)患者隱私，在數(shù)據(jù)集的實際應(yīng)用中，通常要先對數(shù)據(jù)進(jìn)行脫敏，去除DICOM圖像上患者信息。

(3) 圖像剪切。因為膽囊區(qū)域在CT影像中具有相對固定的位置，為了減小其他臟器或者噪點的影像，對原始DICOM圖像進(jìn)行剪切，只保留左上角256×256大小包含膽囊的部分。

(4) 圖像歸一化。最后對DICOM圖像進(jìn)行歸一化，即整體像素除以255，處理后圖像見圖6。

圖6 圖像預(yù)處理過程Figure 6 Image preprocessing

在對比實驗中，為了在同一標(biāo)準(zhǔn)下對比3種方法的整體性能，本文對3種圖像分析方法進(jìn)行了統(tǒng)一的超參數(shù)設(shè)置，其關(guān)鍵參數(shù)見表1。

表1 超參數(shù)設(shè)置Table 1 Hyperparameter setting

2.4 評價指標(biāo)和損失函數(shù)

評價分割結(jié)果的好壞，一般通過計算預(yù)測結(jié)果和金標(biāo)準(zhǔn)的重疊度，即交并比(intersection over union，IoU)。

(1)

(2)

(3)

(4)

式中：A和B分別代表預(yù)測和真實的區(qū)域；FP(false positive)代表檢測錯誤的負(fù)樣本的個數(shù)；TN(true negative)代表檢測正確的負(fù)樣本的個數(shù)；FN(false negative)代表檢測錯誤的負(fù)樣本的個數(shù)。

在采用IoU分?jǐn)?shù)作為評價指標(biāo)的同時，選用IoU Loss作為損失函數(shù)計算。

(5)

式中：X為預(yù)測值；Y為真實值。

3 結(jié)果

3.1 損失函數(shù)變化

在實驗中，模型總的訓(xùn)練輪數(shù)為50，由圖7可見，在訓(xùn)練40輪后，3種方法在驗證集上的損失函數(shù)都已經(jīng)收斂，本文提出的改進(jìn)Attention U-Net模型在驗證集上的損失最低為0.18，訓(xùn)練集上的損失為0.07；U-Net在驗證集上的最低損失為0.2，對應(yīng)訓(xùn)練輪數(shù)下的訓(xùn)練集損失為0.02；Attention U-Net在驗證集上的最低損失為0.19，對應(yīng)訓(xùn)練輪數(shù)下的訓(xùn)練集損失為0.03。由模型在訓(xùn)練集和驗證集中的損失曲線來看，本文提出的改進(jìn)方法在驗證集上的損失更低，與訓(xùn)練集損失值之間差距更小，證明本文提出改進(jìn)的Attention U-Net可以有效減小模型過擬合現(xiàn)象。

圖7 損失函數(shù)曲線Figure 7 The curve of loss function

3.2 評價指標(biāo)結(jié)果

由圖8可知，改進(jìn)的Attention U-Net在驗證集上的IoU指標(biāo)達(dá)到最大為0.72，而Attention U-Net為0.68，U-Net為0.67。綜上所述，本文提出改進(jìn)的Attention U-Net性能優(yōu)于Attention U-Net和U-Net，改進(jìn)的注意力機(jī)制模塊可有效提高Attention U-Net模型的性能。圖9為模型預(yù)測結(jié)果。表2為關(guān)鍵評價指標(biāo)的比較結(jié)果。

圖8 交并比分?jǐn)?shù)曲線Figure 8 The curve of IoU score

圖9 預(yù)測結(jié)果Figure 9 Results of prediction

表2 評價指標(biāo)結(jié)果Table 2 The results of evaluation indicators

4 討論

基于注意力機(jī)制的Attention U-Net，通過在U-Net跳躍連接的時候引入注意力模塊，而使U-Net可以更加關(guān)注輸入圖像的局部信息，可以提高U-Net的分割效果。本文針對于Attention U-Net中注意力模塊的輸入只有單一的編碼器特征層，接收到的特征信息有限，而將其進(jìn)行改進(jìn)，希望注意力模塊可以對局部信息的敏感度更高。改進(jìn)的Attention U-Net使用ResNet作為編碼器，在注意力模塊的輸入中，級聯(lián)輸入對應(yīng)層上的編碼特征層和其上層的特征層，最終通過在注意力模塊中和上采樣特征層加權(quán)作為輸出。由以上結(jié)果可以看出，本文提出改進(jìn)的Attention U-Net性能優(yōu)于U-Net和Attention U-Net，相對于兩個原始網(wǎng)絡(luò)，改進(jìn)的Attention U-Net還可以有效地改善模型過擬合問題，且同時不影響模型的性能。同時本文的局限性如下：對有膽囊異常病變的困難樣本進(jìn)行分割，準(zhǔn)確率不高。正常的膽囊在人體腹部CT影像中的表現(xiàn)是形狀正常、邊界明顯的，但在有些病變情況下，膽囊的表現(xiàn)就會異常，膽囊形變后，伴隨著其他病變，此時模型對膽囊的分割效果較差[16]。還有如腹腔侵犯、肝臟侵犯等情況如圖10所示。膽囊異常病變使得對于膽囊的標(biāo)注以及模型的檢測性能都是一種挑戰(zhàn)。所以，如何改善模型在這一部分?jǐn)?shù)據(jù)樣本上的性能，是下一步研究的重點。

圖10 困難樣本示例Figure 10 Examples of difficult samples

5 結(jié)論

本文提出一種基于多尺度融合的注意力機(jī)制，對Attention U-Net模型進(jìn)行改進(jìn)，在膽囊的分割任務(wù)中，模型在評價指標(biāo)上的表現(xiàn)相較于U-Net和Attention U-Net更好，IoU分?jǐn)?shù)達(dá)到0.72、Dice為0.84、精度為0.92、召回率0.79。同時證明了本文提出的方法的有效性，可以在臨床實踐中為醫(yī)生的臨床診斷提供依據(jù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡