王琳萍 張 波
甲狀腺結(jié)節(jié)是常見的內(nèi)分泌腫瘤,在無癥狀人群中約占19%~67% ,但大部分結(jié)節(jié)為良性,惡性結(jié)節(jié)不足10%[1]。如何將甲狀腺癌從高發(fā)的甲狀腺結(jié)節(jié)中甄別出來,就顯得至關(guān)重要。
超聲是甲狀腺結(jié)節(jié)首選的影像學(xué)診斷方法,所有已知或可疑甲狀腺結(jié)節(jié)的患者均應(yīng)行超聲檢查[2]。超聲用于評估惡性腫瘤的風(fēng)險,結(jié)合結(jié)節(jié)大小、局部侵犯情況、頸部淋巴結(jié)是否轉(zhuǎn)移等推薦細(xì)針穿刺活檢,在甲狀腺結(jié)節(jié)的全程管理中發(fā)揮重要作用[3]。然而,對于經(jīng)驗不足的檢查者來說,準(zhǔn)確識別和解讀超聲特征具有挑戰(zhàn)性,易引起觀察者間和觀察者內(nèi)部的差異,導(dǎo)致不必要的細(xì)針穿刺和(或)診斷性手術(shù),故準(zhǔn)確診斷甲狀腺結(jié)節(jié)良、惡性既能讓患者得到及時治療,也能減少醫(yī)療資源的浪費(fèi)和緩解患者不必要的緊張、焦慮情緒。
為減少甲狀腺結(jié)節(jié)超聲診斷的人員依賴性,規(guī)范化超聲圖像的解讀,自21世紀(jì)初以來,風(fēng)險評估系統(tǒng)(risk-stratification systems , RSS)開始用于甲狀腺結(jié)節(jié)超聲診斷的有效管理,并由最初簡單分類的定性分級系統(tǒng)發(fā)展為定量評分系統(tǒng),即甲狀腺影像報告與數(shù)據(jù)系統(tǒng)(thyroid imaging reporting and data system, TI-RADS),以可疑超聲指標(biāo)的數(shù)量和指標(biāo)風(fēng)險評分為依據(jù),進(jìn)行甲狀腺結(jié)節(jié)的惡性風(fēng)險分層[4]。
當(dāng)今各種TI-RADS分類系統(tǒng)已在實踐中得到廣泛應(yīng)用。但不足之處在于具有不同風(fēng)險的Ⅳ類和Ⅴ類甲狀腺結(jié)節(jié)的臨床處置相同,所以研究者建議采取分級更精細(xì)的RSS,以便對甲狀腺結(jié)節(jié)進(jìn)行個性化和優(yōu)化管理[5]。為滿足這一臨床需求,以機(jī)器學(xué)習(xí)(machine learning, ML)和深度學(xué)習(xí)(deep learning, DL)為核心,基于人工智能(artificial intelligence, AI)的甲狀腺結(jié)節(jié)計算機(jī)輔助診斷系統(tǒng)被引入臨床。AI可以提取和量化關(guān)鍵的圖像信息,從而使圖像診斷從主觀的定性分析轉(zhuǎn)化為客觀的定量分析,因此基于AI的CAD系統(tǒng)可提高醫(yī)生超聲診斷準(zhǔn)確性并解決分級RSS復(fù)雜性的問題,以避免低危結(jié)節(jié)進(jìn)行不必要的FNA[6]。
1.機(jī)器學(xué)習(xí)及深度學(xué)習(xí):基于AI的CAD系統(tǒng)具有兩種核心技術(shù): ML和DL。使用ML技術(shù)時,通常是基于超聲特征(例如成分、形狀、邊緣、回聲和鈣化)開發(fā)CAD系統(tǒng),并證明其診斷甲狀腺癌的潛力?;贛L的CAD系統(tǒng)可以為醫(yī)生提供參考意見。與ML比較,DL則不需要醫(yī)生預(yù)處理圖像及選擇特征,降低了對數(shù)據(jù)質(zhì)量的要求,可更客觀地分析圖像信息。近期使用DL進(jìn)行的研究都開發(fā)了分類模型,但未提供有關(guān)超聲特征的信息[7]。DL的算法目前還屬于黑盒子狀態(tài),其對甲狀腺結(jié)節(jié)檢出原理尚無法解釋。
2.甲狀腺結(jié)節(jié)超聲診斷的商業(yè)化CAD系統(tǒng):目前,針對軟件植入和外部驗證問題,已開發(fā)出兩種用于甲狀腺結(jié)節(jié)良惡性診斷的商業(yè)化CAD系統(tǒng)。AmCAD-UT(中國臺灣地區(qū)AmCAD Biomed公司)是用于超聲診斷甲狀腺結(jié)節(jié)的商業(yè)化CAD系統(tǒng),旨在使用統(tǒng)計模式識別和量化算法來表征甲狀腺結(jié)節(jié),并根據(jù)TI-RADS分類提供惡性腫瘤的風(fēng)險。用于甲狀腺的S-Detect(韓國Samsung Medison公司) 是另一種商業(yè)化的CAD系統(tǒng),應(yīng)用最為廣泛,已集成到商用超聲平臺中。它使用二分類結(jié)果(可能是良性或惡性)或TI-RADS分類結(jié)果來顯示超聲特征和可能的診斷。甲狀腺的S-Detect1利用基于支持向量機(jī)模型的ML技術(shù),甲狀腺的S-Detect2利用基于卷積神經(jīng)網(wǎng)絡(luò)的DL技術(shù)。S-Detect技術(shù)診斷甲狀腺的準(zhǔn)確性較高,該技術(shù)有助于提高低年資醫(yī)生診斷的特異性和準(zhǔn)確性,與高年資醫(yī)生診斷一致性相對較好,未來有助于超聲圖像的標(biāo)準(zhǔn)化判讀[8,9]。
3.CAD系統(tǒng)在甲狀腺結(jié)節(jié)超聲診斷中的應(yīng)用現(xiàn)狀:隨著技術(shù)的進(jìn)步,CAD系統(tǒng)在甲狀腺結(jié)節(jié)超聲診斷中的應(yīng)用,從只可重點(diǎn)標(biāo)注惡性程度較高的特征,到實現(xiàn)對整個甲狀腺結(jié)節(jié)超聲圖像的分析及自動診斷。DL出現(xiàn)之后,計算機(jī)輔助甲狀腺結(jié)節(jié)超聲診斷系統(tǒng)在臨床上的應(yīng)用取得了質(zhì)的飛躍。
單一超聲征象計算機(jī)化:第一階段的應(yīng)用主要局限在對甲狀腺結(jié)節(jié)單個特征的自動化識別方面,從而實現(xiàn)良惡性判斷。單一超聲征象計算機(jī)軟件可自動計算感興趣區(qū)域內(nèi)的某個特征值(如回聲、鈣化等),并輸出量化參數(shù)值,從而預(yù)測甲狀腺結(jié)節(jié)良惡性。Choi團(tuán)隊的研究中,超聲醫(yī)生使用計算機(jī)軟件手動選擇甲狀腺結(jié)節(jié)區(qū)域,軟件自動識別鈣化并計算一些鈣化指數(shù),從而得出量化鈣化更客觀、更少依賴于操作者,可以提高檢測的敏感度的結(jié)論[10]。Meta分析發(fā)現(xiàn)最廣泛使用的特征是形狀、邊緣、回聲、鈣化、成分和大小,這些特征應(yīng)當(dāng)成為AI模型學(xué)習(xí)的重點(diǎn)??v橫比>1表明甲狀腺結(jié)節(jié)在空間和方向生長上的變異,是惡性腫瘤最具提示性的特征[11]。
自動檢測及自動診斷:隨著ML技術(shù)的發(fā)展,CAD系統(tǒng)研究已經(jīng)能實現(xiàn)對整個甲狀腺結(jié)節(jié)超聲圖像的分析,而不僅限于對單獨(dú)超聲特征的定量分析。該技術(shù)通常包括圖像預(yù)處理、特征提取和數(shù)據(jù)分類。其中圖像分類即分類器通過數(shù)據(jù)輸入、監(jiān)督學(xué)習(xí)、訓(xùn)練和反饋等建立未知圖像的自動分類模型。最常見的兩種分類器是支持向量機(jī)(support vectors machine, SVM)和人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)。
SVM旨在間隔最大化的前提下找到一條最優(yōu)的分割線進(jìn)行二分類?;赟VM的圖像分析系統(tǒng)用于評估甲狀腺結(jié)節(jié)的惡性風(fēng)險時,可從每個結(jié)節(jié)中自動計算出40個紋理特征,并與SVM算法一起用于圖像分析系統(tǒng)的設(shè)計,最高分類準(zhǔn)確率為98.65%[12]。,尤其是在甲狀腺結(jié)節(jié)數(shù)據(jù)集信息較少的情況下,SVM對甲狀腺結(jié)節(jié)的檢出對計算機(jī)硬件要求較低,成本也低于深度學(xué)習(xí);但采用人為設(shè)計的特征提取進(jìn)行選擇,易造成部分結(jié)節(jié)信息丟失。深度學(xué)習(xí)則可同時完成結(jié)節(jié)定位、分割和分類。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)屬于深度學(xué)習(xí)的一種,無需手動選取特征,訓(xùn)練好權(quán)重即得特征分類。Kwon等[13]采用遷移學(xué)習(xí)方法,用762例患者的甲狀腺橫、縱向超聲圖像預(yù)先訓(xùn)練深度學(xué)習(xí)模型VGG16,從而使用CNN為甲狀腺超聲圖像分類構(gòu)建高效、準(zhǔn)確的CAD系統(tǒng)。在定位上,由于CNN具有圖像特征位移不變性,學(xué)習(xí)到的特征可從圖像的不同位置中提取出來,不會因結(jié)節(jié)位置多變和體積較小導(dǎo)致檢出率下降,具有較好的泛化能力。在結(jié)節(jié)分類中,深度學(xué)習(xí)實現(xiàn)從原始圖像輸入到最終分類的映射,消除CAD手工設(shè)計特征對最終分類的影響。雖然CNN對圖像物體的分類與定位具有較強(qiáng)的優(yōu)勢,但對甲狀腺結(jié)節(jié)的檢出也存在不足,需對醫(yī)生標(biāo)注過的甲狀腺圖像進(jìn)行學(xué)習(xí),而醫(yī)生標(biāo)注質(zhì)量的高低則直接決定了學(xué)習(xí)質(zhì)量及模型的效能。
4.CAD系統(tǒng)在甲狀腺結(jié)節(jié)超聲診斷中的研究進(jìn)展:基于AI的CAD系統(tǒng)與RSS在商用超聲機(jī)器上的集成,可減少圖像判讀過程中操作人員的依賴性,有助于實時解讀以評估甲狀腺結(jié)節(jié)患者的惡性腫瘤風(fēng)險和是否進(jìn)行FNA,但CAD系統(tǒng)的實際臨床意義需要在不同的臨床環(huán)境中進(jìn)一步驗證。
Choi等[14]應(yīng)用S-DetectTM模式,納入89例患者共102個甲狀腺結(jié)節(jié),研究發(fā)現(xiàn)經(jīng)驗豐富的診斷醫(yī)生對甲狀腺癌的診斷特異性及特征曲線下面積明顯高于CAD系統(tǒng),但兩種方法的診斷敏感度比較差異無統(tǒng)計學(xué)意義。另一項研究選取50例患者共117個甲狀腺結(jié)節(jié)進(jìn)行診斷,CAD系統(tǒng)的敏感度和特異性與診斷醫(yī)生比較差異無統(tǒng)計學(xué)意義,提示當(dāng)CAD系統(tǒng)用于輔助診斷醫(yī)生時,醫(yī)生診斷敏感度提高,特異性下降[15]。Gao等[16]利用基于多尺度CNN模型建立的甲狀腺癌CAD系統(tǒng),診斷甲狀腺癌的敏感度、特異性、準(zhǔn)確度分別為96.7%、48.5%和82.2%。具有20年甲狀腺超聲經(jīng)驗的一位醫(yī)生利用Kwak-TIRADS、美國甲狀腺協(xié)會風(fēng)險分層、美國放射協(xié)會-TIRADS這3種指南單獨(dú)對所有結(jié)節(jié)進(jìn)行診斷比較,發(fā)現(xiàn)CAD系統(tǒng)的敏感度接近超聲醫(yī)生,而特異性稍低。Gitto等[17]研究發(fā)現(xiàn),CAD系統(tǒng)與有經(jīng)驗的超聲醫(yī)生在方向、成分、回聲方面和Kwak-TIRADS的觀察者一致性好,而在邊緣方面的一致性差。該研究還比較了CAD系統(tǒng)和醫(yī)生的診斷能力,結(jié)果發(fā)現(xiàn)診斷醫(yī)生對需要隨訪或手術(shù)的甲狀腺結(jié)節(jié)的診斷敏感度明顯高于CAD系統(tǒng),特異性差異無統(tǒng)計學(xué)意義。這與Choi等的研究結(jié)論大相徑庭,或許是由于兩個研究使用的參考標(biāo)準(zhǔn)不同,且該研究中進(jìn)行CAD系統(tǒng)處理的兩位醫(yī)生診斷甲狀腺結(jié)節(jié)經(jīng)驗不足。Li等[18]開發(fā)了含超過30萬張圖像的分類模型,直接比較用TI-RADS診斷的醫(yī)生和使用二分類結(jié)果的CAD系統(tǒng),結(jié)果提示,新開發(fā)的CAD系統(tǒng)與熟練的醫(yī)生具有相似的敏感度(分別為84.3%~93.4% vs 89.0%~96.9%)以及更高的特異性(分別為86.1%~87.8% vs 57.1%~68.6%)。這一結(jié)論存在爭議,例如與此前的研究報道比較,診斷醫(yī)生的特異性相對較低(57.1%~68.6%),以及使用TI-RADS分類的診斷醫(yī)生與使用二分類結(jié)果的CAD系統(tǒng)之間是否可直接比較有待商榷。但是這項研究在技術(shù)性方面的成功值得引起研究者的注意,該研究亟待進(jìn)一步在不同的地理環(huán)境中進(jìn)行驗證。
后續(xù)的研究著眼于醫(yī)生的經(jīng)驗是否會影響CAD系統(tǒng)的診斷結(jié)果。Chung等[19]探討CAD系統(tǒng)在甲狀腺結(jié)節(jié)診斷中是否優(yōu)于3位具有不同經(jīng)驗(1個月、4年和7年甲狀腺超聲經(jīng)驗)的診斷醫(yī)生。CAD系統(tǒng)的診斷準(zhǔn)確率(88.5%,95%CI:82.7~92.5)不低于甲狀腺超聲經(jīng)驗較少(1個月和4年)的診斷醫(yī)生(83.0%,95%CI:76.5~88.0,P=0.000),而低于有經(jīng)驗的診斷醫(yī)生(7年)(95.8%,95%CI:91.4~98.0,P=0.138),該系統(tǒng)可為經(jīng)驗較少的甲狀腺超聲工作者提供甲狀腺惡性結(jié)節(jié)診斷決策支持。一項多中心前瞻性研究中,494例患者(565個甲狀腺結(jié)節(jié))于2019年1~9月在4家醫(yī)院接受了超聲檢查后的手術(shù)或活檢。計算CAD系統(tǒng)和診斷醫(yī)生的診斷準(zhǔn)確率指標(biāo),并與病理結(jié)果進(jìn)行比較。結(jié)果表明CAD系統(tǒng)的診斷準(zhǔn)確率與高年資診斷醫(yī)生相當(dāng),特異性高于低年資診斷醫(yī)生(87.5% vs 70.4%,P=0.03)。CAD系統(tǒng)的敏感度低于高年資和低年資診斷醫(yī)生,但差異無統(tǒng)計學(xué)意義(76.9% vs 86.9%,P>0.5;76.9% vs 82.6%,P>0.5)[20]。
綜上所述,不同版本的CAD系統(tǒng)診斷效率接近或略低于高年資醫(yī)生,但是明顯高于低年資醫(yī)生。然而,由于分化型甲狀腺癌占甲狀腺癌總體比例90%以上,預(yù)后好,病死率低,許多研究者傾向于將高特異性作為減少不必要的FNA的方法。因此可以使用CAD系統(tǒng)作為高敏感度的篩查工具,以協(xié)助初級醫(yī)療中心經(jīng)驗較少的操作員。關(guān)于是否進(jìn)行FNA可參考甲狀腺成像專家的建議從而增加診斷的特異性??傊?,計算機(jī)輔助診斷系統(tǒng)對低年資診斷醫(yī)生具有重要的輔助診斷價值,其在臨床的應(yīng)用具有廣闊的前景,然而它的應(yīng)用也面臨很多挑戰(zhàn)及局限性。
CAD技術(shù)的局限性和超聲檢查的性質(zhì)對超聲AI的發(fā)展和臨床應(yīng)用提出了挑戰(zhàn)。(1)CAD技術(shù)無法全面評估血流和硬度等信息,也無法將癥狀和體征納入考慮范圍內(nèi)。(2)AI的輸出結(jié)果通常以概率形式呈現(xiàn),概率尺度的準(zhǔn)確性很大程度上受到基線特征和臨床環(huán)境的影響。用于醫(yī)學(xué)診斷和預(yù)測的AI算法的可推廣性有限,不同患者和醫(yī)院之間的AI準(zhǔn)確性具有顯著差異,即“過擬合”。這種局限性在超聲檢查的AI算法上尤其明顯,因為超聲檢查廣泛使用于各種臨床環(huán)境和患者,由具有不同專業(yè)知識的各種醫(yī)療專業(yè)人員執(zhí)行,超聲的操作者依賴性引入了額外變異。超聲檢查系統(tǒng)也比CT或MRI更加多樣化,具有更多的供應(yīng)商和版本。故掃描和圖像采集的標(biāo)準(zhǔn)化對于AI在超聲中的成功應(yīng)用至關(guān)重要。(3)即使系統(tǒng)是使用相對較小的樣本量開發(fā)的,但在大多數(shù)情況下仍缺乏測試和驗證數(shù)據(jù)集。近期一項回顧醫(yī)學(xué)影像診斷AI算法的系統(tǒng)評價分析發(fā)現(xiàn),只有6%發(fā)表在同行評議期刊上的此類研究進(jìn)行了某種形式的外部研究驗證(無論在方法上是否充足)。(4)雖然人們期望AI有助于經(jīng)驗不足的檢查者進(jìn)行診斷,然而未接受專業(yè)培訓(xùn)的人員在使用AI時會出現(xiàn)解讀困難,且傾向于未進(jìn)行必要的評估便直接采納AI的結(jié)果,這最終將影響超聲檢查報告的準(zhǔn)確性。雖然將AI引入醫(yī)學(xué)的路上仍然困難重重,但是挑戰(zhàn)就是機(jī)遇,突破就會成長。
醫(yī)療領(lǐng)域的AI研究正在迅速發(fā)展并出現(xiàn)了許多潛在的應(yīng)用前景。首先,超聲對操作者的依賴性使得驗證AI的前瞻性研究顯得尤為必要。AI的作用不僅取決于技術(shù)分析能力,還取決于計算機(jī)化結(jié)果如何呈現(xiàn)給醫(yī)師進(jìn)行診斷。考慮到在采集超聲圖像以及實時檢查過程中結(jié)合AI做出決策時的操作人員依賴性,回顧性收集圖像的分析與真實臨床環(huán)境之間比較差異可能有統(tǒng)計學(xué)意義。到目前為止,超聲AI的研究主要集中在回顧性研究,應(yīng)該進(jìn)行更多涉及檢查者和AI系統(tǒng)之間的實際交互的前瞻性研究。其次,過度擬合的問題強(qiáng)調(diào)了AI算法在各種實際臨床環(huán)境中的充分外部驗證的重要性。未來超聲的AI研究除了開發(fā)新的算法外,還應(yīng)強(qiáng)調(diào)對已開發(fā)算法的外部驗證。嚴(yán)格的外部驗證有助于明確AI算法何時可保持其預(yù)期精度,從而有助于確保醫(yī)生安全有效地使用CAD系統(tǒng)[21]。
綜上所述,對于診斷醫(yī)生來說,了解CAD技術(shù)的優(yōu)缺點(diǎn),最大限度地利用其輔助診斷甲狀腺病變的功能是非常重要的?;趯Τ暀z查的性質(zhì)的認(rèn)識,未來需要關(guān)注以下問題。超聲檢查本身和相關(guān)的臨床和流行病學(xué)方面的知識、掃描和圖像采集的標(biāo)準(zhǔn)化、AI算法充分外部驗證等都尤為重要。還應(yīng)進(jìn)行涉及操作者和AI系統(tǒng)之間實際相互作用的前瞻性研究,而不僅僅是分析回顧性收集的圖像。AI初入臨床實踐便已取得可觀的成果,應(yīng)用于超聲檢查的具體例子在未來還會繼續(xù)增加,相信計算機(jī)輔助診斷系統(tǒng)終將成為診斷醫(yī)生的第三只眼。