趙亞芳 蔡青山
根據(jù)世界衛(wèi)生組織《2022 年全球結(jié)核病報(bào)告》[1],2021 年全球估算新發(fā)結(jié)核病患者1060 萬例,新報(bào)告患者640 萬例,死亡患者160 萬例。在傳染病中,結(jié)核病仍是全球死亡的主要原因之一。盡管目前結(jié)核病檢測方法趨于多樣化,但仍有耗時(shí)長、費(fèi)用高、存在主觀性等缺點(diǎn)。隨著大數(shù)據(jù)收集及計(jì)算機(jī)技術(shù)的進(jìn)一步發(fā)展,極大地促進(jìn)了人工智能(artificial intelligence,AI)在醫(yī)學(xué)領(lǐng)域的應(yīng)用,基于影像、臨床信息等大數(shù)據(jù)的AI 系統(tǒng)已被用于篩查、診斷、評估嚴(yán)重程度及預(yù)后。本綜述旨在總結(jié)AI 在結(jié)核病領(lǐng)域的應(yīng)用情況及最新進(jìn)展,為該領(lǐng)域的研究者提供參考。
1.1 AI 發(fā)展簡介 1956 年第一次明確提出AI 的概念,60 多年來,隨著計(jì)算機(jī)的不斷發(fā)展,AI 已經(jīng)取得了很大的進(jìn)步。它是一門新興技術(shù),基本目的在于利用計(jì)算機(jī)模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)[2]。AI 在醫(yī)學(xué)領(lǐng)域的應(yīng)用,目前正處于早期發(fā)展階段,主要聚焦于醫(yī)學(xué)影像輔助診斷、醫(yī)學(xué)大數(shù)據(jù)的采集、生物標(biāo)記物及基因檢測等分子生物學(xué)。20 世紀(jì)60 年代,AI 開始應(yīng)用于醫(yī)學(xué)圖像處理。AI 在病理圖像較影像學(xué)起步晚,全切片數(shù)字掃描圖像(WSI)的出現(xiàn)加速了數(shù)字病理學(xué)的發(fā)展[3]。隨著深度學(xué)習(xí)數(shù)據(jù)庫的產(chǎn)生,生物信息學(xué)中的深度學(xué)習(xí)算法等得到了進(jìn)一步的發(fā)展,AI 在分子領(lǐng)域也逐漸起步。目前AI 已形成了基本的工作模式。以影像AI為例,為解決圖像分類問題,以人工標(biāo)記數(shù)據(jù),進(jìn)一步使用卷積神經(jīng)網(wǎng)絡(luò)處理圖像信息,然后通過人類專家來評估系統(tǒng)的性能,最終應(yīng)用臨床[4]。
1.2 AI 技術(shù) 機(jī)器學(xué)習(xí)(ML)是實(shí)現(xiàn)AI 的關(guān)鍵,主要研究計(jì)算機(jī)如何從數(shù)據(jù)中學(xué)習(xí)并挖掘信息的學(xué)科[5]。ML 經(jīng)歷了早期的人工神經(jīng)網(wǎng)絡(luò)及近期的熱門研究-深度學(xué)習(xí)(DL)。與傳統(tǒng)ML 相比,DL 在圖像識別領(lǐng)域的應(yīng)用更為廣泛,它通過模擬大腦的結(jié)構(gòu),從中提取出圖像的特征,有效避免人為圖像分割導(dǎo)致圖像信息準(zhǔn)確度低的問題。主要包括深度神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。其中CNN 是研究最多的,主要利用以多層組成的卷積神經(jīng)網(wǎng)絡(luò)(CNN),可靈活設(shè)定網(wǎng)絡(luò)層數(shù)及神經(jīng)元個(gè)數(shù),更有效地處理高維數(shù)據(jù)[6]。同時(shí),CNN 在圖像處理方面也較為突出,多應(yīng)用于圖像分割及醫(yī)學(xué)圖像識別[7]。
2.1 醫(yī)學(xué)影像應(yīng)用
2.1.1 結(jié)核病的檢出 對于肺內(nèi)結(jié)核、脊柱結(jié)核、胸壁結(jié)核等,X 線具有一定的輔助診斷作用,但在細(xì)微的實(shí)質(zhì)改變、縱隔或肺門淋巴結(jié)受累時(shí)可能不明顯[8],易漏診。經(jīng)近些年的探索,AI 已在肺部結(jié)核X 線篩查中具備較強(qiáng)的診斷能力。
Hwang 等[9]在10848 張韓國結(jié)核病研究院的胸部X 線數(shù)據(jù)集基礎(chǔ)上,70%用一種深度卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet 進(jìn)行訓(xùn)練,15%用于診斷肺結(jié)核,與美國國立衛(wèi)生院(NIH)138 張X 線以及深圳三院662 張X 線的診斷結(jié)果進(jìn)行比對,AlexNet 診斷肺結(jié)核的曲線下面積(AUC),在KIT 數(shù)據(jù)集可達(dá)到0.96,NIH 數(shù)據(jù)集為0.88,深圳三院數(shù)據(jù)集可達(dá)0.93。王曉林等[10]采用AI 和DL 肺結(jié)核智能管理系統(tǒng),對520張胸部X 線進(jìn)行肺結(jié)核診斷的敏感性和特異性可達(dá)到93.5%及86.0%。安超等[11]在ChinaSet、MontgomerySet 及深圳三院數(shù)據(jù)集的基礎(chǔ)上,運(yùn)用以ResNeXt-FPN 為基礎(chǔ)網(wǎng)絡(luò)的檢測模型,其AUC 分別為0.95、0.93、0.98。
2.1.2 耐藥性及敏感性結(jié)核病的鑒別 我國耐藥結(jié)核病患者日漸增多[1],早期快速區(qū)分耐藥及敏感結(jié)核病患者,對減少傳播及結(jié)核病治療具有重要意義。結(jié)核分枝桿菌藥物敏感性試驗(yàn)可使臨床醫(yī)師了解患者所感染的結(jié)核分枝桿菌對各種抗結(jié)核藥物的敏感或耐受程度,對診斷耐藥結(jié)核病至關(guān)重要。目前常用檢測技術(shù)包括Gene-Xpert MTB/RIF、線性探針、基因芯片、熔解曲線、基因測序等[2],均受時(shí)間、成本、技術(shù)等的限制。利用AI 診斷耐藥結(jié)核病可極大縮小時(shí)間、成本等限制。
敏感肺結(jié)核和耐多藥肺結(jié)核胸部影像特征有一定差別,耐藥結(jié)核可在胸部X 線圖像上表現(xiàn)較大的病變及厚壁腔等[12]。Jaeger 等[13]利用交叉驗(yàn)證得到一個(gè)人工神經(jīng)網(wǎng)絡(luò),利用胸部X 線識別耐多藥結(jié)核病患者。實(shí)驗(yàn)1 運(yùn)用135 例病例(61 例敏感型+74 例耐藥型),其AUC 為0.65。實(shí)驗(yàn)2 將胸部X 線的數(shù)量增加到327(157 例敏感型+170 例耐藥型),其AUC 僅為0.66,可能與數(shù)據(jù)量偏少有關(guān)。接著,該團(tuán)隊(duì)使用了更大的數(shù)據(jù)集,包括5642 個(gè)胸部X 線(來源于結(jié)核病門戶網(wǎng)站、蒙哥馬利縣和深圳胸片組、TB X11K 大規(guī)模結(jié)核病數(shù)據(jù)集及各種CNN),通過靜態(tài)或動(dòng)態(tài)數(shù)據(jù)增強(qiáng),InceptionV3 的AUC 增加到0.85。對于自定義CNN,六層CNN 表現(xiàn)出最佳性能,AUC 為0.74[14]。Cha等[15]研究53 例耐多藥肺結(jié)核及141 例敏感肺結(jié)核CT影像發(fā)現(xiàn),耐多藥肺結(jié)核中多發(fā)空洞、大結(jié)節(jié)、支氣管擴(kuò)張顯著多于敏感肺結(jié)核。楊鈞等[16]比較51 例耐多藥及46 例非耐藥肺結(jié)核患者胸部CT 發(fā)現(xiàn),肺內(nèi)多發(fā)結(jié)節(jié)、播散病灶、空腔及毀損肺在耐多藥肺結(jié)核中多見。這些胸部影像特征的差異為AI 在影像上篩選耐多藥肺結(jié)核提供可能性。Gao 和Qian[17]受CLEF 比賽的啟發(fā),為提高分類的準(zhǔn)確性,采用CLEF 比賽病例,根據(jù)230 例(敏感134 例,耐多藥96 例)肺結(jié)核患者的胸部CT 影像,聯(lián)合基于補(bǔ)丁的神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)建模,測試214 例肺結(jié)核患者胸部CT 影像是否耐多藥,分類準(zhǔn)確率可達(dá)91.11%。但該研究仍存在納入的耐藥人群少,人群單一等不足,不能確保建立模型的可靠性和泛化能力。
目前AI 應(yīng)用于耐藥肺結(jié)核影像診斷的研究相對較少,且存在用于建模的病例少、未采用CT 影像、模型預(yù)測結(jié)果的準(zhǔn)確性不高等不足。
2.2 分子生物學(xué)應(yīng)用 遺傳基因也可作為結(jié)核的診斷工具。如上所述,各種分子方法能夠檢測結(jié)核耐藥性,結(jié)核分枝桿菌在繁殖分裂過程中發(fā)生少量的基因突變,從而引起某種抗結(jié)核藥物產(chǎn)生耐藥,并可在菌株的傳代中,產(chǎn)生不同的變化[18]?;诨蚪M信息的快速分子檢測較基于培養(yǎng)物檢測的時(shí)間更短、更有效,已被廣泛應(yīng)用于檢測結(jié)核病耐藥性[19]。因此,目前已探索一些基于基因序列的AI 來鑒定結(jié)核分枝桿菌的耐藥性。
Yang 等[20]使用8388 株對4 種一線抗結(jié)核藥物(異煙肼、乙胺丁醇、利福平、吡嗪酰胺)具有藥敏試驗(yàn)表型檢測的分離物,開發(fā)了一個(gè)具有深度去噪自動(dòng)編碼器的多任務(wù)學(xué)習(xí)模型(DeepAMR)。結(jié)果顯示,該模型對4 種一線藥物、多藥耐藥結(jié)核病和泛敏感結(jié)核病的耐藥率預(yù)測優(yōu)于其他方法,平均AUROC 為94.4%~98.7%(P<0.05)。在異煙肼、乙胺丁醇、吡嗪酰胺和多藥耐藥結(jié)核病中,DeepAMR 的平均敏感性分別為94.3%、91.5%、87.3%和96.3%。此外,該團(tuán)隊(duì)另開發(fā)的一個(gè)名為“HGAT-AMR”的深度圖形神經(jīng)網(wǎng)絡(luò)[21],使用從結(jié)核分枝桿菌遺傳數(shù)據(jù)翻譯出的圖形為輸入量,包含了13402 個(gè)分離株,對多達(dá)11 種的藥物敏感性進(jìn)行測試。結(jié)果表明,該模型對異煙肼和利福平測試中表現(xiàn)最佳,AUROC 分別為98.53%和99.10%,對3 種一線藥物產(chǎn)生了最好的敏感性(異煙肼94.91%,乙胺丁醇96.60%和吡嗪酰胺90.63%),同時(shí),排除一些數(shù)據(jù)高度不平衡情況下(分離株數(shù)據(jù)僅能通過異煙肼和乙胺丁醇測試,不能通過其他藥物測試),HGATAMR 優(yōu)于SVM 和LR。該小組構(gòu)建的多種機(jī)器模型,較前基于規(guī)則的方法,表現(xiàn)出更高的靈敏性(異煙肼、利福平、吡嗪酰胺的敏感性分別增加了2%~4%,達(dá)到97%(P<0.01);對于環(huán)丙沙星和耐多藥結(jié)核病,敏感性增加到96%[22]。對莫西沙星和氧氟沙星的敏感性分別從83%和81%增加到95%和96%(P<0.01)。對吡嗪酰胺和鏈霉素的敏感性分別從15%和24%提高至84%和87%(P<0.01)。Deelder 等[23]使用16688 株經(jīng)過全基因組測序(WGS)和藥物敏感性試驗(yàn)的14 種抗結(jié)核藥物的結(jié)核分枝桿菌分離株,其中22.5%的樣本具有多重耐藥性,2.1%的樣本具有廣泛耐藥性。使用非參數(shù)分類樹和梯度提升樹模型來預(yù)測耐藥性,在耐多藥結(jié)核病識別的準(zhǔn)確性達(dá)到95.5%。
2.3 醫(yī)學(xué)數(shù)據(jù)應(yīng)用 臨床數(shù)據(jù)在一定程度上也可協(xié)助診斷結(jié)核病。結(jié)核病是艾滋病患者最常見的機(jī)會性感染之一,由于其早期癥狀不典型,早期診療不及時(shí),極大地增加了艾滋病合并結(jié)核病患者的死亡率,目前結(jié)核病仍是全球感染HIV 患者(成人及兒童)住院及死亡的首要原因[24]。在南非,Rajpurkar 等[25]利用CXRS 以及某些臨床數(shù)據(jù)(來自兩家醫(yī)院的677 例HIV 陽性患者的年齡、體溫、血紅蛋白和白細(xì)胞計(jì)數(shù)等),建立了名為CheXaid 的深度學(xué)習(xí)算法EB/OL。該算法的使用提高了臨床醫(yī)師對于結(jié)核病的診斷準(zhǔn)確性(0.65 比0.60,P=0.002),該算法的性能優(yōu)于由AI 輔助的臨床醫(yī)師(精度為0.79 比0.65,P<0.001)。此外,使用CXR 添加臨床變量的訓(xùn)練策略提高了本研究中算法的性能(僅組合模型和模型中的AUC 分別為0.83 和0.71),并提出了以各種方式整合輸入以增強(qiáng)模型功效的重要性。
2.4 病理學(xué)應(yīng)用 病理學(xué)診斷也是臨床診斷結(jié)核病的重要手段之一,但由于細(xì)菌體積及數(shù)量偏小,不利于臨床醫(yī)師診斷。目前,基于AI 輔助病理診斷也成為一定的主流趨勢。2018 年Xiong 等[26]建立了一個(gè)CNN 模型,命名為結(jié)核病AI(TB-AI),包含訓(xùn)練集45 例(30 例陽性),測試集201 例(108 例陽性),將TB-AI 的診斷結(jié)果與病理科醫(yī)師通過顯微鏡和數(shù)字幻燈片雙重確認(rèn)的診斷相比,TB-AI 獲得了97.94%的敏感性和83.65%的特異性,但仍存在實(shí)驗(yàn)數(shù)據(jù)偏少的缺陷。
AI 技術(shù)應(yīng)用到醫(yī)學(xué)領(lǐng)域仍存在許多局限性。數(shù)據(jù)是AI 的重點(diǎn),數(shù)據(jù)的正確獲取、數(shù)據(jù)的安全性、對數(shù)據(jù)的高質(zhì)量處理及標(biāo)注較難做到[27]。其次,AI 得出結(jié)果應(yīng)該由誰承擔(dān)法律責(zé)任,假如出現(xiàn)漏診、誤診、應(yīng)該由誰承擔(dān)相關(guān)責(zé)任,仍需要我們進(jìn)一步思考。再者,AI 應(yīng)用收集的數(shù)據(jù)在數(shù)據(jù)主體不知情的情況下很容易傳播給第三方,隱私數(shù)據(jù)的傳播可對數(shù)據(jù)主體及其家庭產(chǎn)生不可避免的傷害,更有甚者危害國家及社會安全,目前國家并未頒布相關(guān)法律約束隱私泄露相關(guān)問題[28]。但可以肯定的是,目前隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,數(shù)據(jù)量的不斷增多,AI 將越來越多投入臨床使用,進(jìn)一步提高醫(yī)師的診斷決策。
綜上所述,AI 目前廣受大眾關(guān)注。在結(jié)核病領(lǐng)域的研究應(yīng)用日趨深入。據(jù)調(diào)查顯示,從20 世紀(jì)90 年代開始,醫(yī)學(xué)圖像數(shù)據(jù)急劇增長,呈指數(shù)上升的趨勢,診療活動(dòng)過程中所需的醫(yī)療數(shù)據(jù)有90%以上來源于醫(yī)學(xué)影像[29],發(fā)展迅速,是健康創(chuàng)新最具有希望的領(lǐng)域。借力于醫(yī)學(xué)影像的診斷與各種臨床治療的輔助決策,進(jìn)一步提高結(jié)核病診斷率、縮短耐藥結(jié)核的診斷時(shí)間,大步提升我國結(jié)核病的診治水平。未來AI 在智能結(jié)核病領(lǐng)域的研究應(yīng)用上,將發(fā)揮更加重要的作用和具有廣闊的前景。