趙正凱,梁 勇,周建收,李建林,李 婭, 程紹玲
(1. 成都市第三人民醫(yī)院 放射科,四川 成都 610031;2. 大連醫(yī)科大學(xué)附屬第二醫(yī)院 放射科,遼寧 大連 116027)
肺癌的發(fā)病率和死亡率較高,是對人類健康和生命威脅最大的惡性腫瘤之一[1]。既往研究發(fā)現(xiàn)早期肺癌可表現(xiàn)為磨玻璃結(jié)節(jié)(ground glass nodule,GGN)[2],因此在大量胸部影像中檢出并正確診斷GGN是當(dāng)前醫(yī)患共同的迫切需求。近年來越來越廣泛應(yīng)用的高分辨胸部CT 篩查使GGN的檢出率顯著提高,可實現(xiàn)肺癌早診早治,降低死亡率,但影像科醫(yī)師的工作負擔(dān)日益加重?;谏疃葘W(xué)習(xí)的人工智能(artificial intelligence, AI)已應(yīng)用于高分辨胸部CT,其對GGN的快速檢出和定性,可幫助醫(yī)師減少工作量,但AI的準(zhǔn)確性目前研究較少。本研究旨在探討基于深度學(xué)習(xí)的AI在胸部CT磨玻璃結(jié)節(jié)檢測及良惡性診斷中的應(yīng)用價值。
收集2018年6月至2020年6月于成都市第三人民醫(yī)院術(shù)前行胸部高分辨CT檢查,并行胸腔鏡手術(shù)切除肺GGN的患者共123例,共切除154枚GGN。其中男性35例,女性88例,年齡27~81歲,平均年齡(57.8±11.3)歲。
排除標(biāo)準(zhǔn):(1)嚴重運動偽影;(2)間質(zhì)性肺病、纖維化;(3)肺炎;(4)肺水腫。
采用Philips Brilliance iCT 256 層螺旋 CT,管電壓120 kV,管電流39 mAs,螺距0.8,層厚8 mm,使用標(biāo)準(zhǔn)算法重建1.5 mm層厚軸位圖像。采用西門子16排CT掃描儀,管電壓120 kV,管電流自動調(diào)整,螺距1.2,層厚10 mm,使用標(biāo)準(zhǔn)算法重建1.5 mm層厚軸位圖像。Philips Brilliance iCT 256 層螺旋 CT掃描75例共切除94枚GGN;西門子16排CT掃描48例共切除60枚GGN。
基于深度學(xué)習(xí)模型的AI軟件由圖瑪深維醫(yī)療公司提供,將123例胸部高分辨CT薄層圖像傳輸至AI工作站,軟件系統(tǒng)自動識別、標(biāo)記肺GGN及良惡性診斷,GGN標(biāo)記的惡性概率<50%認定AI診斷為良性可能,惡性概率≥50%則認定AI診斷為可疑惡性。
影像醫(yī)師組GGN的檢測及定性診斷先由高年資住院醫(yī)師對高分辨薄層胸部CT圖像進行檢測,并根據(jù)GGN的大小、密度、形態(tài)及與周圍血管支氣管的關(guān)系診斷GGN為良性可能或可疑惡性,隨后經(jīng)副主任醫(yī)師審核后完成。另兩名高級職稱影像科醫(yī)師結(jié)合人工智能并參考已審核的影像報告在胸部CT橫軸位圖像進行GGN檢測及認定,兩人意見不一致時結(jié)合多平面重建并討論獲得一致性結(jié)果作為真GGN檢出的金標(biāo)準(zhǔn)。手術(shù)病理結(jié)果作為GGN定性診斷的金標(biāo)準(zhǔn)。分別記錄人工智能軟件和影像醫(yī)師檢測的每個磨玻璃結(jié)節(jié)的大小及良惡性;GGN的大小分為<5 mm和≥5 mm。
所有數(shù)據(jù)采用SPSS 21.0 統(tǒng)計學(xué)軟件處理。分別計算影像醫(yī)師、人工智能對GGN檢測的靈敏度、陽性預(yù)測值及假陽性率;采用McNemar檢驗比較影像醫(yī)師和人工智能對GGN檢出的能力。計算AI、影像醫(yī)師及AI聯(lián)合影像醫(yī)師診斷惡性GGN的敏感度、特異度、陽性預(yù)測值及陰性預(yù)測值。P<0.05為差異有統(tǒng)計學(xué)意義。
123例患者高分辨胸部CT中兩名高年資影像科醫(yī)師結(jié)合人工智能總共檢出289枚真GGN,AI和影像醫(yī)師檢出真磨玻璃結(jié)節(jié)情況比較見表1。AI和影像醫(yī)師檢測的靈敏度分別為(94.8% vs. 85.1%),陽性預(yù)測值分別為(94.2% vs. 100%)。對于≥5 mm的219枚GGN,AI和影像醫(yī)師檢測的靈敏度分別為(96.8% vs. 94.5%),陽性預(yù)測值分別為(95.1% vs. 100%)。典型病例圖像見圖1~4。
AI的假陽性結(jié)節(jié)個數(shù)為17個,假陽性率為每例胸部CT 0.14個GGN;其中8例表現(xiàn)為少許炎癥;4例表現(xiàn)為小葉中央結(jié)構(gòu);3例表現(xiàn)為血管分叉、聚集、迂曲偽影;2例表現(xiàn)為條索影的容積效應(yīng)。影像醫(yī)師無假陽性磨玻璃結(jié)節(jié)檢出。
表1 AI和影像醫(yī)師檢出真磨玻璃結(jié)節(jié)情況比較
圖1 男,54歲,左肺上葉小血管分叉并呼吸運動偽影,AI假陽性Fig.1 Male, 54 years old. The left upper lobe showed small blood vessels bifurcation and respiratory motion artifacts, false positive case by AI
圖2 男,78歲;左肺上葉多支血管聚集,并見臨近氣管結(jié)構(gòu),AI假陽性Fig.2 Male, 78 years old. The left lung upper lobe showed gathering of multiple blood vessels and adjacent trachea structure, false positive case by AI
圖3 男,45歲,左肺下葉磨玻璃結(jié)節(jié),直徑約4 mm;影像醫(yī)師漏診,AI實現(xiàn)檢測Fig.3 Male, 45 years old. The ground glass nodule of the left lower lobe was about 4mm in diameter, which was missed by radiologist and detected by AI
圖4 男,55歲;右肺上葉多支氣管、血管旁結(jié)節(jié),直徑約7 mm,影像醫(yī)師漏診,AI實現(xiàn)檢測Fig.4 Male, 55 years old. Multibronchi and paravascular nodule in the right upper lobe, about 7 mm in diameter, was missed by radiologist and detected by AI
123例患者經(jīng)手術(shù)后共切除154枚磨玻璃結(jié)節(jié),AI與影像醫(yī)師均全部檢出;包括浸潤性腺癌42枚、微浸潤性腺癌25枚、原位腺癌46枚、不典型腺瘤樣增生23枚、良性磨玻璃結(jié)節(jié)18枚。計算AI、影像醫(yī)師及AI聯(lián)合影像醫(yī)師診斷惡性GGN的效能情況見表2。
本研究結(jié)果顯示AI檢測GGN的敏感度較高,且AI假陽性率很低。AI對惡性GGN診斷效能較弱,但AI診斷惡性GGN的敏感度高于影像醫(yī)師,AI聯(lián)合影像醫(yī)師診斷惡性肺結(jié)節(jié)效能高于AI或影像醫(yī)師單獨診斷。
表2 AI、影像醫(yī)師及AI聯(lián)合影像醫(yī)師診斷惡性GGN效能情況(%)
本研究中AI和影像醫(yī)師對于≥5 mm的GGN檢出敏感度均較高,特別是對于經(jīng)手術(shù)切除的154枚GGN,AI和影像醫(yī)師均全部檢出,說明AI和影像醫(yī)師對于較大的具有可疑惡性征象的GGN檢出率較為相近;而對于<5 mm的GGN,AI檢出的敏感度明顯高于影像醫(yī)師,分析其原因為人工智能經(jīng)過大量的數(shù)據(jù)處理和學(xué)習(xí),能自動對圖像進行特征提取,獲取其三維信息,并對GGN進行識別、定性;其次影像醫(yī)師對于微小GGN的稍高密度影肉眼不敏感容易遺漏,不能長時間集中注意力不可避免的漏診。本研究結(jié)果顯示AI對惡性GGN診斷效能較弱,其原因為AI的特異度很低,即對良性GGN的診斷能力很差,可能因AI訓(xùn)練時良性GGN病例數(shù)不夠,學(xué)習(xí)效果不佳,導(dǎo)致很多GGN誤判為惡性;但是AI診斷惡性GGN的敏感度高于影像醫(yī)師,影像醫(yī)師對于正確診斷良性GGN方面優(yōu)于AI,所以AI聯(lián)合影像醫(yī)師診斷可以提高GGN的總體診斷效能。
敏感度高的檢測或診斷方法適用于若發(fā)生漏診則會導(dǎo)致嚴重后果,或者用于篩查發(fā)病率低的人群[3]。蔡雅倩等[4]研究顯示AI和住院醫(yī)師檢出GGN的敏感度分別為93.98%、65.20%,與本研究AI檢出GGN的敏感度94.8%相似,但本研究醫(yī)師檢出GGN的敏感度更高為85.1%,原因可能為分組不一致,本研究的醫(yī)師組為住院醫(yī)師檢測GGN后并由高年資醫(yī)師審核。本研究AI假陽性率為每例胸部CT 0.14個結(jié)節(jié),假陽性GGN主要表現(xiàn)為少許炎癥、小葉中央結(jié)構(gòu)、血管分叉聚集及迂曲偽影,以往少有文獻報道。李甜等[5]研究顯示AI和醫(yī)師診斷惡性GGN的敏感度分別為91.5%、87.2%,特異度分別為57.1%、85.7%;其敏感度稍低于本研究結(jié)果,特異度較明顯高于本研究,原因可能為深度學(xué)習(xí)模型的算法不同及樣本量不同。本研究AI診斷GGN的特異度很低,如果僅參考AI檢測結(jié)果進行隨訪甚至手術(shù)治療,會浪費醫(yī)療資源、可能造成患者恐慌和焦慮,對這些結(jié)節(jié)進一步分析是否需要臨床干預(yù)是醫(yī)師所面臨的問題;故AI對于良性GGN的診斷訓(xùn)練也應(yīng)該加強。
GGN在高分辨胸部CT上表現(xiàn)為局灶性云霧狀稍高密度影,又可以看到穿行其內(nèi)的血管和支氣管影,混合型GGN內(nèi)可見局灶結(jié)節(jié)狀軟組織密度影。GGN的病理結(jié)果可能為局灶炎癥、局灶性纖維化等良性病變,也可能為不典型腺瘤樣增生、原位腺癌、微浸潤性腺癌或浸潤性腺癌[6];既往研究表明,持續(xù)存在的GGN具有很高的惡性風(fēng)險[7];但是不典型腺瘤樣增生、原位腺癌和微浸潤性腺癌等浸潤前病變術(shù)后5年生存率可接近100%[8-9],因此早診斷、早治療顯得尤為重要。本研究使用的AI軟件基于卷積神經(jīng)網(wǎng)絡(luò),可自動選擇最佳三維圖像特征,獲得更多的肺結(jié)節(jié)特征,得到更高的檢出率和更準(zhǔn)確的定性診斷能力。蔡雅倩等[4]的研究表明AI聯(lián)合醫(yī)師診斷與醫(yī)師單獨診斷1例胸部CT所需平均時間分別為3.6 min、7.1 min,說明AI可以加快醫(yī)師的診斷速度。雖然有很多關(guān)于人工智能取代影像科醫(yī)生的推測,但目前人工智能在放射學(xué)中的大多數(shù)應(yīng)用是作為影像科醫(yī)生的助手[10]。近年來人工智能技術(shù)在醫(yī)學(xué)影像領(lǐng)域的應(yīng)用越來越廣泛[11-13],其快速的檢測、診斷速度和長時間高精度工作的優(yōu)勢[14-15],可以有效緩解影像醫(yī)師閱片診斷的壓力,將時間用于和患者溝通、與臨床醫(yī)師會診等。本研究證實AI聯(lián)合影像醫(yī)師診斷GGN的效能高于AI或影像醫(yī)師單獨診斷,一方面AI對于GGN的檢出和惡性結(jié)節(jié)診斷具有很高的敏感度避免結(jié)節(jié)漏診,另一方面影像醫(yī)師可以利用多平面重建等觀察結(jié)節(jié)的大小、形態(tài)、邊緣、密度、與支氣管和血管的關(guān)系進行綜合判斷[16],故我們建議影像醫(yī)師診斷工作中可參考AI的診斷結(jié)果。
本研究的局限性:(1)回顧性的收集肺GGN手術(shù)病例,存在一定的選擇性偏倚;(2)由于原位癌、微浸潤性腺癌可發(fā)展為浸潤性腺癌,故本研究將病理結(jié)果為原位癌、微浸潤性腺癌的GGN納入惡性組中,可能存在一定的分組偏倚。
綜上所述,AI檢測GGN的敏感度較高,且AI假陽性率很低。AI診斷惡性肺結(jié)節(jié)的敏感度高于影像醫(yī)師,AI聯(lián)合影像醫(yī)師診斷GGN的效能高于AI或影像醫(yī)師單獨診斷;因此,建議AI聯(lián)合影像醫(yī)師共同檢出和診斷GGN。