王 娟,唐麗麗,于明川,那曼麗,張 濱
(北京大學首鋼醫(yī)院影像科,北京 100144)
肺癌是癌癥相關死亡的主要原因[1]。2012年全球約有159萬人死于肺癌[2]。據(jù)我國國家癌癥中心統(tǒng)計,2014年我國肺癌發(fā)病率和死亡率均居惡性腫瘤首位,其中新發(fā)病例約78.1萬,死亡病例約62.6萬[3]。約75%肺癌患者就診時已是局部晚期或出現(xiàn)遠處轉移[4],患者平均5年生存率僅約18%[5]。
肺癌篩查有利于早期檢測腫瘤,提高總體治愈率,同時能在更小范圍內(nèi)手術切除病變[6]。美國國家肺癌篩查試驗(National Lung Screening Trial, NLST)研究[7]表明,相比單視角的X線胸片,接受低劑量CT篩查的群體肺癌死亡率下降20%。目前低劑量CT逐漸成為各國篩查肺癌的主要手段,但由于篩查人群巨大而缺乏有經(jīng)驗的影像學醫(yī)師,使得普及肺癌篩查面臨巨大挑戰(zhàn)[8]。
近年來,以深度學習(deep learning, DL)為內(nèi)核的人工智能方法在計算機視覺任務方面取得了突破性進展,并逐漸滲透到醫(yī)學影像分析的各個領域[9]。研究[10-11]表明,DL模型已在低劑量CT肺結節(jié)檢測中展現(xiàn)出較高的精度,臨床應用潛力巨大。然而這類檢測模型并非完美,預測結果仍會出現(xiàn)偏差。本研究旨在探討DL模型對不同大小肺結節(jié)的檢出效果。
1.1 一般資料 回顧性分析2019年3—5月于我院接受胸部CT平掃的344例肺結節(jié)患者,男218例,女126例,年齡25~68歲,平均(45.6±19.3)歲。排除圖像質(zhì)量差、存在彌漫性病變及多發(fā)結節(jié)(10個及以上)患者。
1.2 儀器與方法
1.2.1 CT檢查 采用Toshiba Aquilion One(重建卷積核包括FC03/FC13/FC51)、Philips Ingenuity Core 128(重建卷積核包括B/YA/YB)多排螺旋CT。囑患者仰臥,掃描范圍自肺尖至肺底。掃描參數(shù):固定管電壓120 kV,管電流為自動毫安,層厚1 mm,矩陣512×512,圖像分辨率0.782 mm×0.782 mm。
1.2.2 肺結節(jié)診斷及結節(jié)大小計算 由1名具有5~10年工作經(jīng)驗的影像科醫(yī)師標注所有CT圖像中的肺結節(jié),并逐層勾勒肺結節(jié)輪廓;由另1名高年資(工作10~15年)影像科醫(yī)師對上述初標結果進行審核,并將復審結果作為醫(yī)師最終臨床診斷結果。
由計算機根據(jù)醫(yī)師的邊緣勾勒自動計算得到肺結節(jié)大小。計算流程:①于軸位圖像上找到肺結節(jié)最大層面(面積最大);②在最大層面上測量結節(jié)最長徑(距離最遠的2個輪廓點之間的距離)和最短徑(結節(jié)內(nèi)垂直于長徑的最長距離);③以最長徑和最短徑的平均值作為結節(jié)大小,精確到小數(shù)點后2位,單位為mm。
1.2.3 DL模型(以下稱模型)檢測肺結節(jié) 將CT資料傳至深睿醫(yī)療研發(fā)的Dr.Wise肺結節(jié)輔助診斷系統(tǒng),以深度卷積神經(jīng)網(wǎng)絡為基礎,配合特征金字塔和圖像金字塔,融合全局結構和局部細節(jié)信息,自動檢測結節(jié)大小。
1.3 統(tǒng)計學分析 采用Scipy統(tǒng)計分析軟件。以χ2檢驗比較模型對不同大小肺結節(jié)的檢出率(相對于醫(yī)師診斷結果)。P<0.05為差異有統(tǒng)計學意義。
344份CT圖像中,醫(yī)師共診斷710個0~30 mm肺結節(jié),其中0~4 mm者93個(93/710,13.10%),0~5 mm者264個(264/710,37.18%),0~6 mm者425個(425/710,59.86%),5~10 mm者389個(389/710,54.79%),>10~20 mm者56個(56/710,7.89%),>20~30 mm者1個(1/710,0.14%)。根據(jù)結節(jié)密度,其中536個(536/710,75.49%)為實性結節(jié),54個(54/710,7.61%)為純磨玻璃結節(jié),10個(10/710,1.41%)部分實性結節(jié),110個(110/710,15.49%)為鈣化結節(jié)。
DL檢測模型共檢出2 495個候選肺結節(jié),相對于醫(yī)師診斷結果,模型診斷真陽性675個(圖1~3),模型對結節(jié)的檢出率為95.07%(675/710),陽性預測值為27.05%(675/2 495)。模型對不同大小肺結節(jié)的檢出率如下:0~4 mm者82.80%(77/93),0~5 mm者90.15%(238/264),0~6 mm者92.94%(395/425),5~10 mm者97.94%(381/389),10~20 mm者98.21%(55/56),20~30 mm組100%(1/1)。模型對0~4 mm、0~5 mm、0~6 mm、5~10 mm、10~20 mm、20~30 mm肺結節(jié)的檢出率差異無統(tǒng)計學意義(χ2=21.72,P>0.05)。
為進一步確認模型中假陽性結節(jié)的具體分布,上述2名醫(yī)師重新針對這些假陽性結節(jié)進行逐一復審。假陽性結節(jié)中,50.38%(917/1 820)為醫(yī)師最初漏診者(圖4),32.53%(592/1 820)為血管斷面,其余為局灶性胸膜增厚(164個)、斑片(73個)、條索(55個)、黏液栓(13個)、肺實變(4個)和腫塊(2個)等,平均每例醫(yī)師漏診肺結節(jié)2.67個(917/344),血管斷面的平均假陽性數(shù)為1.72個(593/344)。
圖1 患者男,87歲,模型檢出28 mm×27 mm部分實性結節(jié)(箭),為真陽性結節(jié) 圖2 患者女,57歲,模型檢出8 mm×7 mm磨玻璃結節(jié)(箭),為真陽性結節(jié) 圖3 患者女,51歲,模型檢出12 mm×12 mm實性結節(jié)(箭),為真陽性結節(jié) 圖4 患者男,53歲,模型檢出2 mm×2 mm實性結節(jié)(箭),為假陰性結節(jié)(醫(yī)師未檢出)
基于DL的肺結節(jié)檢測模型預測精度高,低劑量CT對于0~30 mm肺結節(jié)的檢出敏感度達到95.07%。本研究發(fā)現(xiàn)檢測模型的預測精度不受肺結節(jié)大小的影響,證實了DL檢測模型在肺結節(jié)檢測中的一致性。在中華醫(yī)學會肺癌臨床診療指南2018版[3]中,以5 mm作為陽性肺結節(jié)的分界值;在2005版Fleishner指南[12]中,將4 mm作為肺結節(jié)隨訪的分界線,在其2013版[13]中,將此分界線提高到5 mm,在2017版[14]中進一步將其提高到6 mm。本研究結果表明,臨床上不管使用哪種診斷標準,基于DL的肺結節(jié)檢測方法均表現(xiàn)出良好的泛化性能。
除肺結節(jié)大小以外,影響檢測模型效果的因素還有很多。既往計算機輔助診斷研究觀察圖像采集參數(shù)對于類似肺結節(jié)檢測模型的影響,證實DL對肺結節(jié)檢出效果的一致性良好。Den Harder等[15]前瞻性納入25例肺結節(jié)隨訪患者,分別進行4種劑量(45%、60%、75%和100%的標準管電流)CT掃描,并以3種方式(FBP、iDose4及IMR3)進行重建,發(fā)現(xiàn)3種重建方式下計算機輔助診斷對于4 mm以上肺結節(jié)的檢出率幾乎相當,但假陽性率方面,最低劑量下的FBP優(yōu)于iDose4和IMR3。Takahashi等[16]前瞻性觀察55例肺結節(jié)患者,分別進行常規(guī)劑量(120 kV)及低劑量(100 kV)CT掃描,結果顯示計算機輔助診斷在常規(guī)劑量下獲得的結節(jié)檢出敏感度為76%,低劑量下敏感度為71%。
進一步分析本研究中模型檢出的假陽性肺結節(jié),其中50.38%(917/1 820)為醫(yī)師初次診斷漏檢的肺結節(jié),提示醫(yī)師和輔助診斷系統(tǒng)可互相補充、各取所長;臨床工作中,判斷腫瘤肺轉移時,檢出微小轉移灶對診斷及治療均具有重要意義,此時輔助診斷系統(tǒng)能夠高效幫助醫(yī)師減少漏診微小轉移灶;但另一方面,引入DL可能增加過度診斷的概率。DL系統(tǒng)會額外發(fā)現(xiàn)很多被醫(yī)師漏掉的肺結節(jié),普通篩查人群中這些肺結節(jié)大多為良性,即使是惡性肺結節(jié),未獲發(fā)現(xiàn)也不影響患者終生發(fā)病率和死亡率[17],故過度診斷是DL肺結節(jié)檢測模型實現(xiàn)大規(guī)模臨床應用前亟待解決的問題。本研究中醫(yī)師漏診的大多是5 mm以下微小肺結節(jié),對此中華醫(yī)學會指南[3]建議處理的方式是長期隨訪,可能對患者造成較大心理負擔,以至于采取不必要的激進治療方案。此外,人工智能方法檢出的過多肺結節(jié)也可能增加醫(yī)師的工作量。
本研究的局限性:樣本量相對不足,未能定量評估其他因素(機型/重建算法等)以及醫(yī)師標注誤差對于結果的影響,有待進一步完善。