張修磊 王倩 夏麗 劉遠明 郝焱 郭琳
結核病是一種由結核分枝桿菌引起的主要經呼吸道傳播的慢性傳染病,其診斷以病原學檢查為主,結合流行病史、臨床表現(xiàn)、胸部影像等相關檢查進行綜合分析。我國作為結核病高負擔國家之一, 63%的結核病患者缺乏病原學確診依據[1]。這種情況在病原學檢查條件極大受限的基層醫(yī)院更為突出,相關研究顯示部分地區(qū)痰檢陽性率僅為11.7%[2],因此基層醫(yī)生在較大程度上依然主要依靠影像依據做出判斷[3]。雖然CT掃描越來越普及,但多數結核病定點醫(yī)院仍以X線胸片診斷為主。目前,許多研究表明,基于數字化放射成像(digital radiography, DR)的人工智能(artificial intelligence, AI)技術不僅能夠對影像征象實現(xiàn)快速定位及定量分析,同時還能識別出早期較為微小的病灶,幫助基層醫(yī)生提高對肺結核的診斷準確率[4-6]。因此,本研究在山東省8家縣(區(qū))級獨立結核病防治所(簡稱“結防所”)內安裝了肺結核AI輔助診斷系統(tǒng),通過對AI系統(tǒng)與基層影像醫(yī)師的診斷結果進行比較,以評估該系統(tǒng)在多中心基層醫(yī)療機構結核診斷方面的應用價值。
收集2020年11月至2021年4月山東省郯城縣、沂南縣、蘭陵縣、平邑縣、汶上縣、金鄉(xiāng)縣、鄒城縣、泗水縣8家結防所的8600例初診疑似肺結核患者的影像資料。通過隨機數字表法從8600例中選取連續(xù)30 d納入的396例為本研究納入患者。其中男249例,女147例,男∶女=2.32∶1。年齡范圍為6~90歲,中位年齡56歲。
結防所診斷小組閱片:在每家縣級結防所,由2名具備10年以上閱片經驗的影像科醫(yī)生和1名門診醫(yī)生組成診斷小組,對396例初診患者的DR影像進行閱片,結合患者的其他臨床資料,經集體討論判斷患者所患疾病的性質。統(tǒng)計判斷為肺結核(陽性)與排除肺結核(陰性)的患者例數,其中排除肺結核包括正常和非肺結核異常。
AI系統(tǒng)閱片:將396例患者的影像資料上傳至DR輔助診斷系統(tǒng)(深圳市智影醫(yī)療科技有限公司提供),該系統(tǒng)應用的算法模型在之前的研究中得到了描述和驗證[7]。其具體工作流程為:對于每張輸入的DR圖像,算法會提供1個 0~1的異常圖像概率值,概率值越高,說明其包含某種胸部疾病的可能性就越大。之后系統(tǒng)自動對病灶進行識別勾勒,并以文字注釋病灶標簽。目前系統(tǒng)共包含7種病的標簽:結核病,肺炎,結節(jié),脊柱彎曲心臟增大,主動脈迂曲,主動脈鈣化。診斷完成后系統(tǒng)自動生成輔助診斷報告,注明病灶位置和疑似度等信息。統(tǒng)計AI系統(tǒng)判斷為肺結核與排除肺結核的患者例數。
在結防所診斷小組與AI系統(tǒng)對比中,引入高年資專家組閱片。2名高年資結核病??漆t(yī)院的主任醫(yī)師(>30年閱片經驗)結合患者癥狀體征及其他實驗室病原學檢查結果,并依據《WS 288—2017 肺結核診斷》[3]標準對396例患者的DR胸片進行閱讀。部分患者在本次就診前,曾于其他機構就醫(yī)并進行了CT影像檢查,專家組亦參考了CT影像。研究對兩位醫(yī)學專家的評估標準進行一致性檢驗。最后將兩位醫(yī)學專家的一致判斷作為標準(不一致的由專家進行內部討論最終確認一致)[8-9],專家組診斷結果為134例肺結核,262例排除肺結核。
以專家組診斷結論為標準,驗證AI系統(tǒng)與結防所醫(yī)生組成的診斷小組判斷結果。評價指標包括:敏感度、特異度、陽性預測值、陰性預測值以及診斷準確率。敏感度=真陽性例數/(真陽性例數+假陰性例數)×100%;特異度=真陰性例數/(真陰性例數+假陽性例數)×100%;陽性預測值=真陽性例數/(真陽性例數+假陽性例數)×100%;陰性預測值=真陰性例數/(真陰性例數+假陰性例數)×100%;診斷準確率=(真陽性例數+真陰性例數)/患者總例數×100%。
數據分析使用SPSS 20.0軟件,不同方法的敏感度,特異度,陽性預測值,陰性預測值以及診斷準確率等的比較采用卡方檢驗,以P<0.05為差異有統(tǒng)計學意義。2名醫(yī)學專家評估標準的一致性采用Kappa系數評價。Kappa值<0.4為一致性較差,0.4≤Kappa值<0.6為一致性一般,0.6≤Kappa值<0.8為一致性較高,Kappa值≥0.8為一致性很好。
2名高年資專家分別對396例患者的胸片進行審閱,對兩位專家的評估標準進行一致性檢驗,Kappa值=0.95(95%CI:0.92~0.99),P<0.05。結果顯示,2名高年資專家的診斷吻合度很好,有非常高的一致性(表1)。
表1 兩名高年資專家診斷肺結核的一致性分析
本研究8家縣級結防所就醫(yī)的396例患者中,診斷小組共檢出118例肺結核患者。AI系統(tǒng)與結防所診斷小組閱片一致率為86.1%(341/396),且AI系統(tǒng)與結防所診斷小組判斷一致的患者均符合高年資專家組的判斷結果。AI系統(tǒng)與結防所診斷小組共對55例X線胸片判斷不一致,其中35例由AI系統(tǒng)判斷為肺結核,診斷小組判斷排除肺結核,占8.8%(35/396);20例由AI系統(tǒng)判斷為排除肺結核,診斷小組判斷為肺結核,占5.1%(20/396)(表2)。
表2 結防所診斷小組與AI系統(tǒng)閱片結果比較(例)
針對AI系統(tǒng)與結防所醫(yī)生閱片結果不一致的患者,分析了高年資醫(yī)生專家組的閱片結果。35例AI系統(tǒng)診斷陽性,結防所診斷小組診斷陰性的患者中,33例為高年資專家組的判斷與AI系統(tǒng)的判斷一致者,不一致的2例為高年資醫(yī)生分別判斷為兩肺病變、炎癥與結核病鑒別。20例AI系統(tǒng)診斷陰性,結防所診斷小組診斷陽性的患者中,17例為高年資專家組的判斷與AI系統(tǒng)的判斷一致,不一致的3例為高年資醫(yī)生判斷為陽性。因此,結果顯示AI系統(tǒng)漏診3例,結防所診斷小組漏診33例(表3)。結防所醫(yī)生漏診患者示例如圖1~9所示。此外,AI系統(tǒng)與結防所診斷小組閱片的假陽性率分別為0.8%(2/260)和6.5% (17/260)。
表3 結防所診斷小組與AI系統(tǒng)閱片結果不一致者與高年資專家組結果比較(例)
圖1~3 結防所診斷小組漏診患者X線胸片。圖1示左肺尖可見斑片狀、條索狀高密度影;圖2示雙上肺可見條索狀、結節(jié)狀高密度影;圖3 示右上肺可見斑片狀高密度影。 圖4~9 AI系統(tǒng)與結防所診斷小組判斷一致患者的X線胸片。圖4~6為結防所診斷小組判斷的患者的X線胸片,圖7~9為AI系統(tǒng)判斷的患者的X線胸片。AI系統(tǒng)對病灶進行定位(綠色勾勒區(qū)域)并注釋相應病種標簽作為輔助診斷信息。圖4、5示 左肺、右上肺可見斑片狀及結節(jié)狀高密度影;圖6、7示 雙上肺可見斑片狀高密度影;圖8、9示雙肺內可見小斑片狀及結節(jié)狀高密度影
在檢出率上,AI系統(tǒng)閱片肺結核檢出率為97.8%(131/134),結防所診斷小組閱片肺結核檢出率為75.4%(101/134),AI系統(tǒng)檢出率高于結防所診斷小組,差異有統(tǒng)計學意義(χ2=28.88,P<0.05)在敏感度、特異度、陽性預測值、陰性預測值以及診斷準確率方面,AI系統(tǒng)的閱片表現(xiàn)均高于結防所診斷小組(表4)。
表4 結防所診斷小組與AI系統(tǒng)閱片水平對比分析
肺結核作為一種呼吸道傳染病,嚴重威脅自身和他人健康,識別出肺結核患者的微小影像學特征對早期預防和及時治療肺結核至關重要。目前,基于深度學習的AI技術能夠通過大量經人工標注的肺結核影像資料進行學習,實現(xiàn)對肺結核的智能輔助診斷。AI軟件的基本原理在于深度學習網絡能夠從大量標注的訓練圖像中自動地提取、學習到高維語義特征,從而可以根據目標病灶的圖像特征進行分類任務,最終建立對疾病的識別和檢測系統(tǒng)。在算法開發(fā)層面,Jin等[10]采用深度學習網絡建立了DR胸片肺結核識別算法模型,并在6個獨立胸片測試集(結核病比例為39%~60%)作為外部驗證數據集測試所開發(fā)的算法性能,結果發(fā)現(xiàn)深度學習算法對胸片表現(xiàn)出非常出色的肺結核診斷性能,敏感度和特異度均>94%。曹盼等[9]采用特征金字塔網絡(FPN)建立了DR胸片肺結核診斷模型,并引入了兩名放射科醫(yī)生的判斷作為模型判斷標準,結果顯示該網絡診斷肺結核的敏感度,特異度和準確度分別為96.0%,76.0%和86.0%,同時以矩形框的形式提示病灶位置。在應用效果層面,劉廣天等[8]在2020年對寧夏回族自治區(qū)醫(yī)療機構的AI影像系統(tǒng)進行了應用效果評價,研究同樣以2名具有高級或者副高級職稱的放射科醫(yī)師閱片結果為標準,隨機回顧性抽查100張患者X線胸片進行分析,結果顯示AI自動閱片診斷肺結核的敏感度和特異度分別為90.91% 和89.89%。與這些已發(fā)表的研究相比,一方面本研究AI系統(tǒng)表現(xiàn)出更高的敏感度、特異度和準確度,但是需要注意的是,這些指標與測試數據集的大小和構成相關,因此不能直接得出系統(tǒng)性能優(yōu)劣的結論。另一方面,本研究中山東省8家縣級結防所應用的AI系統(tǒng)能夠清晰地勾勒出病灶邊緣(圖1~9)并提示0~1的風險概率,而不是基于矩形邊框或熱圖來呈現(xiàn)病灶位置。因此醫(yī)生可以更清晰地知道AI的判斷結果。
通過在8家縣級結防所進行的回顧性研究,發(fā)現(xiàn)AI系統(tǒng)比結防所診斷小組的肺結核檢出率高,且差異有統(tǒng)計學意義;AI系統(tǒng)的假陽性率低于結防所醫(yī)生。在AI系統(tǒng)與結防所診斷小組不一致的患者中,AI系統(tǒng)的判斷結果與高年資醫(yī)學專家組標準的吻合度更高,AI系統(tǒng)具有比縣級結防所診斷小組更高的敏感度、特異度以及準確率。本研究中,AI系統(tǒng)比結防所診斷小組有更好的結核診斷表現(xiàn),這與文獻[11-12]的研究結論一致,兩者將AI系統(tǒng)與不同年資的放射科醫(yī)生進行閱片性能比較,發(fā)現(xiàn)AI系統(tǒng)與較高年資放射科醫(yī)生診斷水平相當,高于低年資放射科醫(yī)生的閱片表現(xiàn),且低年資放射科醫(yī)生的閱片水平可以在AI系統(tǒng)的輔助下獲得提升。AI系統(tǒng)能夠取得良好閱片表現(xiàn)的原因一方面在于數據。該系統(tǒng)在開發(fā)過程中學習了海量的高質量標注數據,這些數據來源于全國各地,標注過程嚴格遵守“多人獨立標注+審核”的流程,這使得系統(tǒng)具有良好的魯棒性和廣泛適用性。另一方面在于算法架構。研究在建立算法模型時融合了多種學習網絡。一般而言,AI系統(tǒng)具備較高檢出率的同時也可能帶來更高的系統(tǒng)判斷假陽性[13]。Litjens等[14]的研究結果顯示在使用深度學習算法檢測肺癌時假陽性率達到40%。在臨床應用過程中,不難發(fā)現(xiàn)對于AI系統(tǒng)算法的研發(fā)最具挑戰(zhàn)的工作是提高檢出率和準確度的同時降低識別的假陽性率。本研究的AI系統(tǒng)對肺結核的檢出率高于結防所診斷小組,同時具有更低的假陽性率,這可能是由于本研究中的AI系統(tǒng)采用了不同的深度學習網絡融合后來進行圖像的分割和圖像特征的提取[7],而不僅僅是采用單一深度學習網絡。Mckinney等[15]也發(fā)現(xiàn)由3個深度學習模型構成的AI系統(tǒng)能夠識別早期乳腺癌影像征象,從而實現(xiàn)減少假陰性(漏診率)和假陽性率(誤診率)的目標。因此,在算法模型中融合多種學習網絡可能是一種有效降低假陽性的方法。
肺結核影像診斷較為復雜,有時CT掃描仍難以診斷,完全依靠胸片對于疾病診斷漏診率較高,尤其是在基層衛(wèi)生機構。而AI技術的優(yōu)點是對于發(fā)現(xiàn)病變較為敏感,因此可以依照AI技術作為篩查工具,以減少漏診。但同時AI技術也存在劣勢,即距離實現(xiàn)獨立診斷仍有較大差距,最終還是需要醫(yī)生根據CT及實驗室檢查綜合診斷。本研究中AI系統(tǒng)漏診3例,而結防所診斷小組漏診33例,當地醫(yī)生的漏診情況明顯高于AI系統(tǒng)。結果提示,僅靠當地縣級結防所醫(yī)生的判斷不利于及時發(fā)現(xiàn)結核并阻斷其傳播途徑。因此研究提出,當AI系統(tǒng)具備較高的診斷準確率時,可將AI系統(tǒng)作為第一道檢查程序;當AI系統(tǒng)擁有較高檢出率而假陽性率也高于醫(yī)生時,將AI系統(tǒng)作為醫(yī)生閱片后的第二道檢查程序可能是AI系統(tǒng)輔助診斷技術在臨床上的重要應用方向[16]。
由于AI系統(tǒng)僅能夠基于影像特征進行學習分析,目前階段還不具備結合臨床癥狀、實驗室檢查結果等做出綜合判斷的能力,因此本研究僅著眼于分析評價縣級結防所醫(yī)生、AI和高年資專家的影像診斷能力,而不是結合實驗室檢測結果等綜合判斷后的診斷結果。另外,本研究采用的AI系統(tǒng)目前只能對病灶類型進行判斷,未涉及相應病變的影像學表現(xiàn)描述和肺結核分型,同時這也是目前相關AI系統(tǒng)普遍面臨的局限性之一[17],未來將升級AI系統(tǒng),使系統(tǒng)自動出具的相關結果中包含與病變對應的影像學改變。
本研究為一項多中心基層醫(yī)療機構臨床測試,通過直接與當地醫(yī)生進行閱片水平對比,從而評價AI系統(tǒng)的臨床應用價值,這與之前直接從算法模型的性能指標進行AI系統(tǒng)驗證的研究不同[18-20],因此也更能反映AI系統(tǒng)在實際情況中的應用價值。本研究結果表明,AI系統(tǒng)的閱片水平高于縣級結防所診斷小組,可以有效幫助解決縣級醫(yī)療機構閱讀胸片能力不足的問題,同時大大提高轉診質量,提升全地區(qū)結核病防控能力。
利益沖突所有作者均聲明不存在利益沖突
作者貢獻張修磊:論文撰寫,數據整理,統(tǒng)計分析; 王倩:實施研究,統(tǒng)計分析; 夏麗:研究指導,論文修改;劉遠明:研究設計,數據分析; 郝焱:實施研究;郭琳:修改指導,獲得經費