詹維偉, 侯怡卿
(上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院超聲診斷科,上海 200025)
甲狀腺結(jié)節(jié)是一個(gè)全球發(fā)病率非常高的疾病。中國、北美洲、澳洲發(fā)病率>7.8/10萬人[1]。從增長率來看,1980年以來,甲狀腺癌的發(fā)病率大幅增長。有研究者認(rèn)為發(fā)病率增長與檢出率有較大關(guān)系。許多甲狀腺乳頭狀癌 (papillary thyroid carcinoma,PTC)存在過度診斷、過度穿刺的問題。研究表明,全球各國都存在PTC過度診斷的情況,其中韓國的過度診斷率高達(dá)93%,中國約87%[2]。由于超聲診斷對醫(yī)師的經(jīng)驗(yàn)依賴較大,在低年資醫(yī)師和一些基層醫(yī)療機(jī)構(gòu)中,尚存在漏診的情況。作為一種高發(fā)疾病,甲狀腺結(jié)節(jié)的篩查需大量基層醫(yī)院參與,因此如何平衡甲狀腺結(jié)節(jié)的漏診和過度診斷,提高甲狀腺結(jié)節(jié)的診斷能力,尤其是基層醫(yī)院的診斷能力,是一個(gè)嚴(yán)峻的問題,成為目前甲狀腺超聲人工智能(artificial intelligence,AI)研究的主要關(guān)注點(diǎn)。基于AI的計(jì)算機(jī)輔助診斷 (computer-aided diagnosis,CAD)系統(tǒng)是一種新的診斷技術(shù),具有一致性好、便捷、快速等特點(diǎn),因此越來越多被運(yùn)用到解決甲狀腺結(jié)節(jié)超聲診斷的問題中。
目前,以減少甲狀腺結(jié)節(jié)的過度診斷為目的,AI在甲狀腺超聲檢查的應(yīng)用可具體分為3個(gè)方向。①甲狀腺結(jié)節(jié)的準(zhǔn)確診斷:降低操作者經(jīng)驗(yàn)、儀器成像、甲狀腺背景等因素對診斷效果的影響,保持診斷一致性、提升診斷效果;②風(fēng)險(xiǎn)分層系統(tǒng),即甲狀腺影像報(bào)告與數(shù)據(jù)系統(tǒng)(thyroid imaging reporting and data system,TI-RADS)的標(biāo)準(zhǔn)化:包括評估指標(biāo)、評分系統(tǒng)和臨床處理方式的標(biāo)準(zhǔn)化;③提升細(xì)針穿刺檢查的診斷效能:減少細(xì)胞病理檢查難以診斷的標(biāo)本,如Bethesda 3類標(biāo)本的比例,降低重復(fù)穿刺率。另外,術(shù)前診斷甲狀腺癌淋巴結(jié)轉(zhuǎn)移也是重要的臨床問題之一。淋巴結(jié)轉(zhuǎn)移的情況,尤其是頸側(cè)區(qū)是否存在淋巴結(jié)轉(zhuǎn)移,對手術(shù)方式有極大的影響。但目前超聲檢查診斷淋巴結(jié)轉(zhuǎn)移的靈敏度較低。67%的病人無法通過超聲檢查發(fā)現(xiàn)早期微轉(zhuǎn)移。提高轉(zhuǎn)移性淋巴結(jié)的診斷靈敏度是極富挑戰(zhàn)的課題。
本文簡述目前AI研究方法的現(xiàn)狀,歸納總結(jié)AI在甲狀腺超聲檢查的應(yīng)用,提出對甲狀腺超聲AI的展望。
甲狀腺超聲檢查AI的方法分為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。機(jī)器學(xué)習(xí)由于需要的數(shù)據(jù)量較少,是研究者最早使用的方法。該方法需先勾畫感興趣區(qū)域(region of interest,ROI)、提取 ROI內(nèi)的特征,經(jīng)篩選得到最有意義的特征,最后根據(jù)這些特征通過分類算法判斷結(jié)節(jié)的良、惡性。機(jī)器學(xué)習(xí)中常用的特征有形狀、回聲、邊緣邊界、鈣化等,與超聲檢查特征有較高的重合度。常用的分類算法有隨機(jī)森林(random forest,RF)、支持向量機(jī) (support vector machine,SVM)、線性判別分析(linear discriminant analysis)等[3]。Chang等[4]用SVM算法學(xué)習(xí)超聲檢查灰階圖像,診斷惡性結(jié)節(jié)的ROC曲線下面積(area under curve,AUC)達(dá) 0.986,與醫(yī)師的診斷效能相似(AUC=0.979)?;译A圖像還可聯(lián)合彩色多普勒、彈性圖像等多種模態(tài),如Zhang等[5]使用多模態(tài)超聲檢查圖像在區(qū)分良、惡性結(jié)節(jié)的AUC達(dá)0.938,優(yōu)于醫(yī)師的診斷水平(AUC=0.843)。
深度學(xué)習(xí)與機(jī)器學(xué)習(xí)相比,需更多數(shù)據(jù)量,因此在性能方面有顯著提升。另一區(qū)別是,深度學(xué)習(xí)不需要人為規(guī)定的特征,也無需篩選,可直接從輸入到輸出,中間無需額外操作,因此成為近來的熱點(diǎn)。Gao等[6]用342例病例得到的深度學(xué)習(xí)模型在結(jié)節(jié)良、惡性診斷的AUC達(dá)0.73。Wang等[7]使用YOLO(you only look once,是一種目標(biāo)檢測模型)與ResNet(又稱殘差神經(jīng)網(wǎng)絡(luò),一種分類模型)結(jié)合的模型,對276例的AUC達(dá)0.902。Li等[8]的研究使用目前最大數(shù)據(jù)量,>40 000例,用ResNet和DarkNet模型聯(lián)合。ResNet和DarkNet均為深度學(xué)習(xí)常用的模型,為分類模型,可對超聲檢查圖像進(jìn)行良、惡性分類。內(nèi)部測試集(即測試圖像來自于訓(xùn)練集相同的中心)的AUC達(dá)0.947。2個(gè)外部測試集(即測試圖像來自于不同訓(xùn)練集的中心)AUC分別達(dá)0.912、0.908。
然而深度學(xué)習(xí)有一定局限性。在數(shù)據(jù)量不夠大時(shí)易出現(xiàn)過擬合,指為得到一致假設(shè)而使假設(shè)變得過度嚴(yán)格,導(dǎo)致模型只能在該數(shù)據(jù)集下取得好的效果,難以推廣到其他數(shù)據(jù)集上。且深度學(xué)習(xí)的分類過程是一個(gè)黑箱,只能看到結(jié)果而不知其過程和原理,因此其可解釋性較差。目前有學(xué)者使用深度學(xué)習(xí)聯(lián)合機(jī)器學(xué)習(xí)的方法診斷乳腺癌。該方法利用深度學(xué)習(xí)客觀、多維度提取圖像特征的優(yōu)點(diǎn),也融入機(jī)器學(xué)習(xí)分類算法可解釋性好的優(yōu)點(diǎn)[9]。未來機(jī)器學(xué)習(xí)+深度學(xué)習(xí)的結(jié)合將成為一種研究趨勢。
AI技術(shù)的發(fā)展對甲狀腺超聲檢查圖像素材的多樣性提出更高的需求。從單張灰階圖像到多模態(tài)超聲檢查影像、RF射頻信號(即原始射頻信號)等,越來越豐富的原始輸入圖像意味著更多、更全面的信息量。多模態(tài)圖像的運(yùn)用可提升診斷精確度,更好地區(qū)分良、惡性結(jié)節(jié)。Zhang等[5]加入超聲檢查彈性成像的圖像后,將AUC從0.924提升至0.938。RF射頻信號作為最原始的第一手資料,能減少人為因素的影響。
在甲狀腺結(jié)節(jié)檢測方面,Liu等[10]的研究用深度神經(jīng)網(wǎng)絡(luò),對靜態(tài)圖片進(jìn)行結(jié)節(jié)檢測的準(zhǔn)確率達(dá)97.5%。為更進(jìn)一步貼合臨床的操作流程,F(xiàn)ang等[11]用Faster RCNN模型實(shí)現(xiàn)對結(jié)節(jié)靜態(tài)圖像的實(shí)時(shí)檢測,速度達(dá)16幀/s,精確率達(dá)92.7%,可用于實(shí)時(shí)檢測。實(shí)時(shí)檢測的使用減少人工留圖產(chǎn)生的主觀性影響,降低人為因素對AI結(jié)果的影響。
AI輔助診斷甲狀腺結(jié)節(jié)的方式有很多。較常見的輸出結(jié)果有:結(jié)節(jié)的良/惡性概率、良/惡性二分類結(jié)果、TI-RADS類別、TI-RADS指標(biāo),如邊緣、邊界、生長方式等。AI直接輸出良、惡性概率或良、惡性二分類診斷是最常見和直接的方式。Gao等[6]用AlexNet建模,在結(jié)節(jié)良、惡性診斷的任務(wù)上AUC為 0.73。Wang 等[7]用 YOLO 模型,AUC 達(dá) 0.902。Li等[8]用ResNet和DarkNet聯(lián)合建模,并開展多中心研究,收集4萬多病例,10萬張以上的超聲檢查圖像作為訓(xùn)練集,設(shè)置1個(gè)內(nèi)部測試集和2個(gè)外部測試集,是目前數(shù)據(jù)量最大的多中心研究。該研究的模型在內(nèi)部和外部測試集上的AUC均>0.9,診斷準(zhǔn)確率≥超聲醫(yī)師。大量的數(shù)據(jù)說明AI對甲狀腺結(jié)節(jié)的診斷并不是簡單的過擬合,而是具備跨中心使用的可能。Hou等[12]關(guān)注到合并彌漫性背景會提升甲狀腺結(jié)節(jié)的診斷難度,因此針對彌漫性背景設(shè)計(jì)了AI模型。不但學(xué)習(xí)結(jié)節(jié)內(nèi)部的特征,也學(xué)習(xí)結(jié)節(jié)周邊的甲狀腺背景特征。經(jīng)訓(xùn)練后的模型在彌漫性背景下,對結(jié)節(jié)的診斷能力高于低年資醫(yī)師,與高年資醫(yī)師相當(dāng)。說明AI能克服各種混雜因素,具備準(zhǔn)確診斷結(jié)節(jié)的能力。AI還可通過學(xué)習(xí)超聲圖像區(qū)分BethesdaⅢ類結(jié)節(jié)與Ⅳ、Ⅴ、Ⅵ類結(jié)節(jié),準(zhǔn)確率可達(dá)87.15%[13],給細(xì)胞病理醫(yī)師提供診斷參考。
AI也可輸出風(fēng)險(xiǎn)分層。目前已商業(yè)化推廣的三星S-Detect系統(tǒng),可輸出回聲水平、邊緣邊界、點(diǎn)狀強(qiáng)回聲等TI-RADS指標(biāo),最后計(jì)算出TI-RADS級別。許多學(xué)者對該系統(tǒng)進(jìn)行外部驗(yàn)證。Choi等[14]在含102個(gè)結(jié)節(jié)的測試集上取得靈敏度88.4%、特異度74.6%的診斷效果。其中靈敏度與醫(yī)師相當(dāng),而特異性低于醫(yī)師。Kim等[15]在含218個(gè)結(jié)節(jié)的測試集上,診斷靈敏度和特異度分別達(dá)80.2%、82.6%。Buda等[16]開發(fā)自己的深度學(xué)習(xí)模型,通過對良、惡性概率分段輸出的方式進(jìn)行風(fēng)險(xiǎn)分層。該模型的靈敏度、特異度分別為87%、52%,與ACR-TIRADS專家組的診斷效能相似。上述研究表明,AI風(fēng)險(xiǎn)分層可一定程度上達(dá)到與醫(yī)師相當(dāng)?shù)乃健M瑫r(shí)AI輸出的結(jié)果每次都一致,因此可在效果相似的基礎(chǔ)上提升風(fēng)險(xiǎn)分層的一致性和標(biāo)準(zhǔn)化。
AI風(fēng)險(xiǎn)分層除了建立在現(xiàn)有的TI-RADS指標(biāo)上,還有許多不同的建模思路。Daniels等[17]提出以基因突變?yōu)榻饦?biāo)準(zhǔn),對結(jié)節(jié)的基因突變進(jìn)行風(fēng)險(xiǎn)分層。該團(tuán)隊(duì)收集121例,共134個(gè)結(jié)節(jié),涵蓋BRAF、TERT、TSHR等23種與甲狀腺癌有關(guān)的基因。AI通過學(xué)習(xí)超聲圖像和基因突變的關(guān)系,最終輸出結(jié)節(jié)基因突變的風(fēng)險(xiǎn),模型的靈敏度、特異度分別為45%、97%。
可解釋性低一直是深度學(xué)習(xí)應(yīng)用于臨床的最大阻礙,因此不少學(xué)者嘗試將AI與醫(yī)師的經(jīng)驗(yàn)相結(jié)合。目前已有不少學(xué)者驗(yàn)證兩者結(jié)合對診斷效果的提升。Wang等[18]用AI診斷結(jié)果修正醫(yī)師的TIRADS,發(fā)現(xiàn)修正后平均特異度從65.2%±6.4%提升至83.3%±7.2%,差異有統(tǒng)計(jì)學(xué)意義。Zhang等[19]對比CAD與不同年資醫(yī)師的診斷效能。單用CAD的靈敏度和特異度分別為71.5%和86.0%,CAD聯(lián)合低年資醫(yī)師的診斷靈敏度有顯著提升,從75.3%提升至88.2%(P<0.001),而對高年資醫(yī)師的診斷靈敏度也略有提升,從95.2%上升至97.8%。李潛等[20]的研究用S-Detect系統(tǒng)。用該系統(tǒng)輸出的AI風(fēng)險(xiǎn)分層聯(lián)合C-TI-RADS進(jìn)行診斷。結(jié)果發(fā)現(xiàn)AI聯(lián)合CTI-RADS的效果顯著好于醫(yī)師單獨(dú)使用C-TIRADS。Thomas等[21]提出用尋找相似病例的方法輔助醫(yī)師診斷。作者納入482個(gè)結(jié)節(jié)的圖像和病理檢查結(jié)果作為資料庫,用AI尋找與目標(biāo)結(jié)節(jié)最相似的圖像,并將圖像和病理檢查信息輸出給醫(yī)師參考。但最終風(fēng)險(xiǎn)分層的級別仍由醫(yī)師決定。該方法的模型并不復(fù)雜,但其優(yōu)點(diǎn)是與人類的思維過程相近,且輸出圖像更直觀、更易理解。該研究也給了一個(gè)啟示,即甲狀腺超聲檢查AI的發(fā)展除追求更高級的模型、更大的數(shù)據(jù)量、更高的診斷指標(biāo)之外,也可另辟蹊徑,提供更貼近醫(yī)師思維方式的結(jié)果。
甲狀腺癌淋巴結(jié)轉(zhuǎn)移的診斷影響著手術(shù)方式,而術(shù)前超聲檢查對轉(zhuǎn)移性淋巴結(jié)的診斷靈敏度較低。因此有學(xué)者提出使用CAD提升術(shù)前超聲檢查對轉(zhuǎn)移性淋巴結(jié)的檢出率。
早在2018年,Lee等[22]開展深度學(xué)習(xí)診斷淋巴結(jié)轉(zhuǎn)移的初步研究。共入組800多例,模型的準(zhǔn)確率、靈敏度、特異度分別為83.0%、79.5%、87.5%。但該研究缺少外部驗(yàn)證集,因此說服力較弱。隨后,Yu等[23]用遷移學(xué)習(xí)的方法,先對深度學(xué)習(xí)模型進(jìn)行預(yù)訓(xùn)練,再進(jìn)一步學(xué)習(xí)淋巴結(jié)的超聲檢查圖像。該研究共入組2 000多例,其中513例為外部測試集,AUC在內(nèi)部和外部測試集上均超過0.90。此外,該研究還探討不同機(jī)器、不同操作者對模型的影響。結(jié)果表明機(jī)型和操作者因素對AI影響甚微。一定程度上說明,AI或能克服超聲檢查圖像非標(biāo)準(zhǔn)化的特點(diǎn)。
目前的AI研究使用的建模方法、入組數(shù)據(jù)分布和超聲檢查圖像采集缺乏統(tǒng)一標(biāo)準(zhǔn)。大部分研究仍是小范圍的實(shí)驗(yàn)性研究。訓(xùn)練集和測試集的難度、數(shù)據(jù)分布的相似程度直接影響研究效果。當(dāng)推廣到良、惡性分布和圖像特征差異較大的醫(yī)療機(jī)構(gòu)時(shí),模型能否仍表現(xiàn)良好尚不可知。相比實(shí)驗(yàn)性研究得到的模型,已商業(yè)化的模型一定程度上彌補(bǔ)學(xué)術(shù)研究在數(shù)據(jù)多樣性上的不足,且商業(yè)模型的測試環(huán)境更貼近臨床工作,因此更有說服力。但縱觀現(xiàn)有兩款商業(yè)化模型的研究結(jié)果,AI的泛化性和效果仍有待提升。一是S-Detect在臨床驗(yàn)證中表現(xiàn)出較好的效果[14-15]。但該CAD的開發(fā)和測試僅基于三星的設(shè)備,無法推廣到其他廠家的設(shè)備。二是我國臺灣的安克偵雖能跨設(shè)備使用,但其效果稍遜。在一項(xiàng)外部驗(yàn)證研究中AUC僅達(dá)0.72[24]。
在大多數(shù)研究中,CAD表現(xiàn)出較高的靈敏度,但特異度較低[14-16]。說明運(yùn)用AI可增加惡性結(jié)節(jié)的檢出率,更適合運(yùn)用到基層醫(yī)院進(jìn)行甲狀腺癌的篩查,或用于輔助經(jīng)驗(yàn)缺乏的醫(yī)師進(jìn)行診斷[25]。不可否認(rèn),大多數(shù)研究均表現(xiàn)出令人滿意的AUC指標(biāo),但各研究采用的靈敏度和特異度閾值均有所不同。究竟是采用高靈敏度還是高特異度,在不同的臨床情況下如何平衡靈敏度和特異度,以及是否需規(guī)定范圍區(qū)間,都是尚需解決的問題。
目前AI的研究尚存在較多人為因素。一方面,基于超聲檢查靜態(tài)圖像的CAD需人為凍結(jié)圖像,其診斷效果受到臨床經(jīng)驗(yàn)影響。研究表明,低年資醫(yī)師的診斷靈敏度和準(zhǔn)確率均低于高年資醫(yī)師[26]。另一方面,采集訓(xùn)練集或測試集圖像時(shí)切面的選擇存在一定主觀性。因此,規(guī)范圖像采集、推出公認(rèn)的大數(shù)據(jù)集勢在必行。
曾擔(dān)心隨著AI技術(shù)的發(fā)展,AI在不久的將來可能會代替醫(yī)師。從目前的研究現(xiàn)狀看,AI雖可與人類媲美,但仍存在許多亟待解決的問題。因此,不能簡單將兩者對立,而應(yīng)取AI之長補(bǔ)醫(yī)師之短,方為AI時(shí)代甲狀腺超聲檢查的發(fā)展之道。可見,在未來很長一段時(shí)間內(nèi),AI與醫(yī)師或?qū)⒁恢北3种噍o相成的狀態(tài),共同助力甲狀腺超聲檢查診斷技術(shù)的提升。