尹梓名 孫大運(yùn) 任泰 周雷 李永盛 王廣義王傳磊 曹宏 劉穎斌,5 束翌俊
基金項目:國家自然科學(xué)基金(31701108、81701749)、上海市2020年度“科技創(chuàng)新行動計劃”醫(yī)學(xué)創(chuàng)新研究專項(XHEC-STCSM-2020-040)、上海市人工智能創(chuàng)新發(fā)展專項(2019-RGZN-01096)資助
作者單位:1 上海理工大學(xué)醫(yī)療器械與食品學(xué)院(上海 200093) 2 上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院普外科(上海 200092) 3 上海交通大學(xué)醫(yī)學(xué)院附屬仁濟(jì)醫(yī)院膽胰外科(上海 200127) 4 上海市膽道疾病研究重點實驗室(上海 200092) 5 癌基因及相關(guān)基因國家重點實驗室(上海 200127)
6 吉林大學(xué)白求恩第一醫(yī)院肝膽胰外一科(長春 130021)
7 吉林大學(xué)中日聯(lián)誼醫(yī)院普外科(長春 130033)
通信作者:劉穎斌,E-mail: laoniulyb@163.com;束翌俊,E-mail: shuyijun19881125@163.com
膽囊是人體消化系統(tǒng)的重要器官,其長10~15 cm,寬3~5 cm,容量為40~60 mL,呈梨形囊狀,可儲存和濃縮膽汁。臨床中常見的膽囊疾病包括膽囊結(jié)石、膽囊炎、膽囊惡性腫瘤等。根據(jù)我國不同地區(qū)的流行病學(xué)調(diào)查數(shù)據(jù)顯示,膽囊疾病的患病率從15.87%到24.80%不等[1-3]。膽囊雖小,卻是人體的重要器官,一旦發(fā)生病變,會嚴(yán)重影響患者之后的生活質(zhì)量和壽命,如未能及時診斷與治療,很容易危及生命[4]。
膽囊疾病的診斷需要參考超聲、計算機(jī)斷層掃描(computer tomography,CT)、磁共振(magnetic resonance image,MRI)等醫(yī)學(xué)影像。在閱片過程中,臨床醫(yī)生需要先對膽囊部位進(jìn)行識別,然后才能對膽囊疾病進(jìn)行準(zhǔn)確的判斷。但是由于膽囊這種腔體器官的特殊性——其體積較小且內(nèi)部包含膽汁、易受到其他臟器擠壓而產(chǎn)生形變,使得膽囊病變的識別對于欠缺臨床經(jīng)驗的低資質(zhì)醫(yī)生來說比較困難,極易發(fā)生錯漏診。
近年來,隨著人工智能技術(shù)的發(fā)展,尤其是深度學(xué)習(xí)技術(shù)的不斷進(jìn)步,基于深度學(xué)習(xí)的醫(yī)學(xué)影像分割技術(shù)已在很多醫(yī)院和科室得到應(yīng)用,如腦腫瘤的分割[5]、心室分割[6]、肝臟分割[7]等,但對于膽囊部位的分割技術(shù)研究還較少。華中科技大學(xué)團(tuán)隊[8-9]研究了基于區(qū)域增長的膽囊交互式分割方法,該方法基于傳統(tǒng)醫(yī)學(xué)影像分割技術(shù),需要使用者手動提取圖像特征(如區(qū)域增長中種子點的選取),增加了方法的難度。Huang等[10]基于人體解剖學(xué)的先驗知識,首先通過水平集分割找到人體最大臟器肝臟;其次,根據(jù)膽囊被肝臟包裹的解剖學(xué)知識,利用肝表面的限定球體和與膽囊最相似的球體為膽囊的位置;最后,以球體為初始函數(shù),采用水平集方法對膽囊進(jìn)行分割。Lian 等[11]使用全局形態(tài)學(xué)濾波算法等對膽囊超聲圖像進(jìn)行分割。
傳統(tǒng)圖像分割方法受限于模型自身的建模能力,對圖像噪聲、圖像模糊等干擾因素的魯棒性有限,難以滿足臨床實踐對分割速度和準(zhǔn)確性的要求。隨著深度學(xué)習(xí)方法的興起,基于深度學(xué)習(xí)的圖像分割方法已經(jīng)成為業(yè)界主流。相對于傳統(tǒng)圖像分割方法,深度學(xué)習(xí)可以實現(xiàn)特征的自動提取,降低了人為的干預(yù),可得到更好的分割結(jié)果。目前最典型的醫(yī)學(xué)圖像深度學(xué)習(xí)分割網(wǎng)絡(luò)是2015年提出的一種U型網(wǎng)絡(luò)結(jié)構(gòu)(U-Net),為后續(xù)很多研究提供了思路,在醫(yī)學(xué)圖像不同目標(biāo)的分割任務(wù)中均取得了較為理想的結(jié)果[12-13]。但是,將U-Net直接用于膽囊的分割提取并未充分利用圖像中的多層次細(xì)節(jié)信息,因此,本文擬在U-Net深度學(xué)習(xí)圖像分割方法的基礎(chǔ)上,提出一種基于多尺度融合注意力機(jī)制的膽囊CT影像自動分割算法,并與相關(guān)方法進(jìn)行對比分析,從而證實所提出多尺度融合的注意力機(jī)制的有效性,進(jìn)而為膽囊結(jié)石疾病的輔助診斷提供幫助。
在醫(yī)學(xué)圖像的分割任務(wù)中,U-Net網(wǎng)絡(luò)模型[14]因其獨特的U型結(jié)構(gòu)和跳躍連接,同時結(jié)合了圖像中低分辨率和高分辨率的信息,使其在醫(yī)學(xué)影像這種一般具有固定結(jié)構(gòu)和豐富語義的數(shù)據(jù)中,可以同時提取到圖像的淺層和深層信息。另外,由于高質(zhì)量標(biāo)注的醫(yī)學(xué)圖像的稀缺性,很難獲取到大量可供模型訓(xùn)練的數(shù)據(jù),但U-Net可以僅使用較少的訓(xùn)練樣本,獲得較為滿意的分割結(jié)果,以上特性使得U-Net成為解決醫(yī)學(xué)圖像分割任務(wù)時的首選模型。
人類大腦在對某一事物做出判斷的時候,存在注意力機(jī)制(attention mechanism),這使得大腦做出判斷的依據(jù)不是來源于事物表達(dá)的所有信息,而是重點注意某些局部信息。注意力機(jī)制的存在使大腦對信息處理的效率得到極大的提升。受人類大腦中注意力機(jī)制的啟發(fā),在很多基于深度學(xué)習(xí)的應(yīng)用場景中也使用了注意力機(jī)制,并取得了很好的效果,如:自然語言處理、計算機(jī)視覺、機(jī)器翻譯等領(lǐng)域。有學(xué)者嘗試將注意力機(jī)制應(yīng)用到圖像分割領(lǐng)域,與U-Net進(jìn)行結(jié)合,如Alom等[13]提出Attention U-Net,在U-Net中引入了注意力機(jī)制,希望可以使訓(xùn)練的模型更加關(guān)注醫(yī)學(xué)影像中的局部位置,其在傳統(tǒng)U-Net的基礎(chǔ)上,通過在跳躍連接上增加注意力機(jī)制,使原本上采樣的特征與經(jīng)過注意力模塊處理的編碼信號連接,而使得模型可以很好地關(guān)注局部信息,從而提高整體的分割性能。
在上述Attention U-Net中,在網(wǎng)絡(luò)中每一個跳躍連接的時候加上注意力模塊,通過模型的訓(xùn)練自動學(xué)習(xí)參數(shù),使得模型更多地關(guān)注數(shù)據(jù)的局部特征。在本文針對膽囊的分割任務(wù)中,由于膽囊本身是腔體,內(nèi)部包含膽汁,其形態(tài)隨著人體差異、病變等因素會發(fā)生變化,如正常膽囊形態(tài)較小,病變膽囊則可能變大、變形。所以,膽囊的分割模型必須綜合考慮膽囊的特征在影像上的表現(xiàn)。在原始U結(jié)構(gòu)的編碼器部分,深層網(wǎng)絡(luò)可以提取原始數(shù)據(jù)的高分辨率、抽象的特征。而在做醫(yī)學(xué)影像研究時,往往要關(guān)注影像的低分辨率、淺層信息。這需要關(guān)注膽囊本身及其周邊環(huán)境的語義信息。因此,本文提出一種基于多尺度融合的注意力機(jī)制模塊,在模型跳躍連接的時候,一個注意力模塊將多個不同的淺層和深層網(wǎng)絡(luò)特征級聯(lián),并對不同的網(wǎng)絡(luò)層賦予不同的權(quán)重,通過模型訓(xùn)練自動學(xué)習(xí)注意力模塊中的參數(shù),使得注意力模塊可以同時關(guān)注多個編碼部分特征信息,來使模型更好地關(guān)注膽囊的局部特征。改進(jìn)的基于多尺度融合的注意力模塊如圖1所示。在注意力模塊的輸入時,將來自多個編碼部分的特征層Fx作為級聯(lián)輸入,與底層特征層經(jīng)過上采樣得到的Fg結(jié)合,再經(jīng)過Relu激活函數(shù)、1×1卷積和Sigmoid激活函數(shù)的處理,得到注意力權(quán)重,最后將得到的注意力權(quán)重與當(dāng)前對應(yīng)的特征層F1相乘即得到注意力模塊的輸出。
圖1 改進(jìn)的注意力模塊Figure 1 Improved attention module
在整個U型結(jié)構(gòu)中,本研究選用ResNet[15]作為模型的編碼器部分。相比于常規(guī)的卷積神經(jīng)網(wǎng)絡(luò),殘差網(wǎng)絡(luò)因其使用的殘差模塊,使得網(wǎng)絡(luò)的層數(shù)加深,可以在提取圖像更深層次特征的同時,解決梯度消失的問題。編碼器的殘差模塊總體結(jié)構(gòu)如圖2(a)所示。編碼器中共包括兩種殘差模塊,如圖2(b)和圖2(c)所示。圖2(b)中殘差卷積模塊(convolution block,Conv block)在殘差跳躍連接的時候加了卷積層,這樣輸入輸出的維度不同,整個殘差模塊維度下降;而圖2(c)中殘差標(biāo)識模塊(identity block,ID block)在短連接上沒有卷積層,整個殘差模塊不改變輸入的維度。其通過跳躍連接的形式,使得模型只需要學(xué)習(xí)目標(biāo)值和輸出之間的殘差,減小了模型學(xué)習(xí)的復(fù)雜度,有利于模型的學(xué)習(xí)。
圖2 改進(jìn)的編碼器 Figure 2 Improved encoder
圖3為改進(jìn)的Attention U-Net模型結(jié)構(gòu)。在每一個跳躍連接的末端都有一個注意力模塊,其輸入包括底層上采樣的特征映射、對應(yīng)當(dāng)前層以及前幾層的特征映射。輸出經(jīng)過注意力處理之后的特征映射與底層上采樣的特征映射進(jìn)行通道維度上的級聯(lián)。之后為了將通道維度的信息整合,又經(jīng)過了一層卷積的處理才輸入到下一層。最終經(jīng)過解碼器一系列上采樣之后,特征圖恢復(fù)到原圖大小,即輸出分割結(jié)果。
圖3 改進(jìn)的Attention U-Net 網(wǎng)絡(luò)結(jié)構(gòu)Figure 3 The network structure of improved Attention U-Net
本文所提出改進(jìn)的Attention U-Net分割模型,采用基于多尺度融合的注意力模塊對Attention U-Net進(jìn)行改進(jìn),可以使其更全面地考慮不同層的特征映射,使注意力模塊充分考慮淺層和深層特征,來提高模型在膽囊分割任務(wù)中的表現(xiàn)。
本文實驗均在Linux Ubuntu16.04系統(tǒng)環(huán)境下進(jìn)行。深度學(xué)習(xí)框架采用PyTorch,編程語言為Python 3.7版。模型訓(xùn)練GPU使用NVIDIA TITAN RTX,顯存64 G,內(nèi)存為32 G。CUDA的版本為10.1,cuDNN版本為7.64。
本研究選取上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院普外科、吉林大學(xué)白求恩第一醫(yī)院肝膽胰外一科和吉林大學(xué)中日聯(lián)誼醫(yī)院普外科2017-2019年收治的88例膽囊癌患者、28例慢性膽囊炎膽囊結(jié)石患者和29例健康對照共145人,術(shù)前常規(guī)行腹部雙源增強(qiáng)CT(采用Siemens Dedinition Flash雙源炫速CT機(jī),先行雙源CT腹部平掃,A球管電壓140 kV,有效電流126 mAs,B球管電壓100 kV,有效電流155 mAs;以雙筒高壓注射器于右肘前靜脈以4 mL/s速率注射歐乃派克1.5 mL/kg體質(zhì)量,后以相同速率注射生理鹽水20 mL;延遲25~30 s行動脈期雙能量掃描,65~70 s行靜脈期雙能量掃描),男90例,女55例,年齡44~90歲,平均年齡67.76歲±10.94
歲。88例膽囊癌患者行單純膽囊切除術(shù)17例,膽囊癌根治術(shù)56例,膽囊癌擴(kuò)大根治術(shù)10例,膽囊癌姑息性切除術(shù)5例。所有病例全部經(jīng)術(shù)后病理診斷,其中高分化腺癌15例(17.05%),中分化腺癌22例(25%),低分化腺癌51例(57.95%)。結(jié)合術(shù)前雙源CT和術(shù)后病理診斷,有淋巴結(jié)轉(zhuǎn)移者61例(69.32%),無淋巴結(jié)轉(zhuǎn)移者27例(30.68%)。根據(jù)第八版AJCC癌癥分期手冊TNM分期:0-I期患者17例(19.32%),II-IV期患者71例(80.68%)。28例慢性膽囊炎膽囊結(jié)石患者均行腹腔鏡下膽囊切除術(shù),術(shù)后病理證實。收集8 268張腹部CT影像(含動脈期、門脈期和延遲期所有圖像,掃描范圍從隔頂?shù)侥懩蚁用?,每張層厚、層間距均為5 mm)。數(shù)據(jù)集的格式為醫(yī)學(xué)影像常見的DICOM(Digital Imaging and Communications in Medicine)格式。
將CT圖像的數(shù)據(jù)集由5名經(jīng)驗豐富的放射科醫(yī)生對其中膽囊區(qū)域邊緣進(jìn)行勾畫,作為數(shù)據(jù)集的金標(biāo)準(zhǔn),原始數(shù)據(jù)和標(biāo)注數(shù)據(jù)如圖4所示,并按照比例7∶2∶1隨機(jī)劃分訓(xùn)練集6 171張切片、 驗證集1 238張切片和測試集859張切片。數(shù)據(jù)集中所有圖像均包含膽囊,以保證本文方法對膽囊部位的自動分割。
圖4 數(shù)據(jù)集示例Figure 4 Samples of datasets
為了驗證本文提出的改進(jìn)Attention U-Net的性能,本文將其與經(jīng)典U-Net和Attention U-Net進(jìn)行對比分析,從而證明改進(jìn)的Attention U-Net的有效性。整體實驗流程如圖5所示。
圖5 實驗流程Figure 5 Experimental process
(1) 調(diào)整窗寬窗位。在CT圖像中,窗寬是圖像上顯示的CT值范圍,窗位是顯示CT值范圍的中心。通過對窗寬窗位的調(diào)節(jié),可以得到良好的CT圖像顯示效果。膽囊的CT值在(-10,50)之間,本文取窗寬300、窗位30,可得到膽囊的最好顯示效果。
(2) 圖像脫敏。DICOM文件中存儲的信息包括患者的個人信息,為了保護(hù)患者隱私,在數(shù)據(jù)集的實際應(yīng)用中,通常要先對數(shù)據(jù)進(jìn)行脫敏,去除DICOM圖像上患者信息。
(3) 圖像剪切。因為膽囊區(qū)域在CT影像中具有相對固定的位置,為了減小其他臟器或者噪點的影像,對原始DICOM圖像進(jìn)行剪切,只保留左上角256×256大小包含膽囊的部分。
(4) 圖像歸一化。最后對DICOM圖像進(jìn)行歸一化,即整體像素除以255,處理后圖像見圖6。
圖6 圖像預(yù)處理過程Figure 6 Image preprocessing
在對比實驗中,為了在同一標(biāo)準(zhǔn)下對比3種方法的整體性能,本文對3種圖像分析方法進(jìn)行了統(tǒng)一的超參數(shù)設(shè)置,其關(guān)鍵參數(shù)見表1。
表1 超參數(shù)設(shè)置Table 1 Hyperparameter setting
評價分割結(jié)果的好壞,一般通過計算預(yù)測結(jié)果和金標(biāo)準(zhǔn)的重疊度,即交并比(intersection over union,IoU)。
(1)
(2)
(3)
(4)
式中:A和B分別代表預(yù)測和真實的區(qū)域;FP(false positive)代表檢測錯誤的負(fù)樣本的個數(shù);TN(true negative)代表檢測正確的負(fù)樣本的個數(shù);FN(false negative)代表檢測錯誤的負(fù)樣本的個數(shù)。
在采用IoU分?jǐn)?shù)作為評價指標(biāo)的同時,選用IoU Loss作為損失函數(shù)計算。
(5)
式中:X為預(yù)測值;Y為真實值。
在實驗中,模型總的訓(xùn)練輪數(shù)為50,由圖7可見,在訓(xùn)練40輪后,3種方法在驗證集上的損失函數(shù)都已經(jīng)收斂,本文提出的改進(jìn)Attention U-Net模型在驗證集上的損失最低為0.18,訓(xùn)練集上的損失為0.07;U-Net在驗證集上的最低損失為0.2,對應(yīng)訓(xùn)練輪數(shù)下的訓(xùn)練集損失為0.02;Attention U-Net在驗證集上的最低損失為0.19,對應(yīng)訓(xùn)練輪數(shù)下的訓(xùn)練集損失為0.03。由模型在訓(xùn)練集和驗證集中的損失曲線來看,本文提出的改進(jìn)方法在驗證集上的損失更低,與訓(xùn)練集損失值之間差距更小,證明本文提出改進(jìn)的Attention U-Net可以有效減小模型過擬合現(xiàn)象。
圖7 損失函數(shù)曲線Figure 7 The curve of loss function
由圖8可知,改進(jìn)的Attention U-Net在驗證集上的IoU指標(biāo)達(dá)到最大為0.72,而Attention U-Net為0.68,U-Net為0.67。綜上所述,本文提出改進(jìn)的Attention U-Net性能優(yōu)于Attention U-Net和U-Net,改進(jìn)的注意力機(jī)制模塊可有效提高Attention U-Net模型的性能。圖9為模型預(yù)測結(jié)果。表2為關(guān)鍵評價指標(biāo)的比較結(jié)果。
圖8 交并比分?jǐn)?shù)曲線Figure 8 The curve of IoU score
圖9 預(yù)測結(jié)果Figure 9 Results of prediction
表2 評價指標(biāo)結(jié)果Table 2 The results of evaluation indicators
基于注意力機(jī)制的Attention U-Net,通過在U-Net跳躍連接的時候引入注意力模塊,而使U-Net可以更加關(guān)注輸入圖像的局部信息,可以提高U-Net的分割效果。本文針對于Attention U-Net中注意力模塊的輸入只有單一的編碼器特征層,接收到的特征信息有限,而將其進(jìn)行改進(jìn),希望注意力模塊可以對局部信息的敏感度更高。改進(jìn)的Attention U-Net使用ResNet作為編碼器,在注意力模塊的輸入中,級聯(lián)輸入對應(yīng)層上的編碼特征層和其上層的特征層,最終通過在注意力模塊中和上采樣特征層加權(quán)作為輸出。由以上結(jié)果可以看出,本文提出改進(jìn)的Attention U-Net性能優(yōu)于U-Net和Attention U-Net,相對于兩個原始網(wǎng)絡(luò),改進(jìn)的Attention U-Net還可以有效地改善模型過擬合問題,且同時不影響模型的性能。同時本文的局限性如下:對有膽囊異常病變的困難樣本進(jìn)行分割,準(zhǔn)確率不高。正常的膽囊在人體腹部CT影像中的表現(xiàn)是形狀正常、邊界明顯的,但在有些病變情況下,膽囊的表現(xiàn)就會異常,膽囊形變后,伴隨著其他病變,此時模型對膽囊的分割效果較差[16]。還有如腹腔侵犯、肝臟侵犯等情況如圖10所示。膽囊異常病變使得對于膽囊的標(biāo)注以及模型的檢測性能都是一種挑戰(zhàn)。所以,如何改善模型在這一部分?jǐn)?shù)據(jù)樣本上的性能,是下一步研究的重點。
圖10 困難樣本示例Figure 10 Examples of difficult samples
本文提出一種基于多尺度融合的注意力機(jī)制,對Attention U-Net模型進(jìn)行改進(jìn),在膽囊的分割任務(wù)中,模型在評價指標(biāo)上的表現(xiàn)相較于U-Net和Attention U-Net更好,IoU分?jǐn)?shù)達(dá)到0.72、Dice為0.84、精度為0.92、召回率0.79。同時證明了本文提出的方法的有效性,可以在臨床實踐中為醫(yī)生的臨床診斷提供依據(jù)。