邱永康,陳釗,楊琦,康磊
北京大學(xué)第一醫(yī)院核醫(yī)學(xué)科,北京 100034;*通信作者 康磊 kanglei@bjmu.edu.cn
甲狀腺疾病的發(fā)病率近年不斷升高。甲狀腺功能異常已經(jīng)成為第二常見的內(nèi)分泌疾病,我國約4 000萬人被診斷為甲狀腺功能減退癥,甲狀腺功能亢進(jìn)癥患者超過1 000萬人,甲狀腺癌的發(fā)病率在過去幾十年內(nèi)也穩(wěn)步上升。我國甲狀腺癌占新發(fā)惡性腫瘤的4.8%,高于世界平均水平(3%)[1]。甲狀腺疾病,尤其是甲狀腺癌的診斷目前主要依賴超聲、CT和核醫(yī)學(xué)等影像檢查以及病理學(xué)檢查。然而,超聲醫(yī)師的診斷能力以及細(xì)胞病理學(xué)診斷的不確定性等因素制約著甲狀腺疾病的診斷準(zhǔn)確度和效率[2]。
人工智能是一門能夠模擬與延伸人的智能、方法與技術(shù)的技術(shù)科學(xué)。常規(guī)影像學(xué)檢查方法不易通過肉眼觀察量化,而人工智能可以提取和量化關(guān)鍵的圖像信息,從而使圖像診斷從主觀的定性任務(wù)轉(zhuǎn)變?yōu)榭陀^的定量分析。本文對近年基于影像學(xué)資料的人工智能技術(shù)輔助診斷甲狀腺疾病的相關(guān)研究進(jìn)行綜述。
20世紀(jì)60年代,有學(xué)者嘗試使用計(jì)算機(jī)分析醫(yī)學(xué)圖像[3]。隨著技術(shù)的發(fā)展,計(jì)算機(jī)輔助診斷系統(tǒng)(computer aided diagnosis system,CAD)利用人工智能技術(shù)分析醫(yī)學(xué)影像圖像特征,從而檢測病變或做出診斷,為臨床醫(yī)師提供第二診斷意見,以提高診斷效率和準(zhǔn)確性[4]。人工智能包括傳統(tǒng)的符號人工智能和以機(jī)器學(xué)習(xí)為核心的數(shù)字人工智能,目前的研究熱點(diǎn)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支。
1.1 深度學(xué)習(xí) 深度學(xué)習(xí)是人工智能的重要方法,是隨著人工神經(jīng)網(wǎng)絡(luò)的發(fā)展而興起的一類新的機(jī)器學(xué)習(xí)方法,可以適用于圖像分類、圖像分割、病灶檢測等多種任務(wù)。人工神經(jīng)網(wǎng)絡(luò)能夠使用多層計(jì)算模擬人類大腦解釋信息,并從信息中得出結(jié)論,而深度學(xué)習(xí)通過排列在層中的神經(jīng)元,逐漸從輸入數(shù)據(jù)(如甲狀腺超聲圖像)中提取更高級別的特征。與基于人類專家提取特征的傳統(tǒng)機(jī)器學(xué)習(xí)方法不同,深度學(xué)習(xí)能夠自動(dòng)學(xué)習(xí)輸入信息的特征,并從原始數(shù)據(jù)中積累經(jīng)驗(yàn),自動(dòng)從影像中提取并篩選出更多、更深層次、更適應(yīng)研究任務(wù)的特征,在模擬非線性關(guān)系方面具有優(yōu)越的性能[5-6]。得益于硬件設(shè)備、學(xué)習(xí)算法和大型數(shù)據(jù)庫的快速發(fā)展,深度學(xué)習(xí)是目前最成功的人工智能方法之一。
1.2 卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)及常用模型 CNN是深度學(xué)習(xí)的一種結(jié)構(gòu),也是人工神經(jīng)網(wǎng)絡(luò)的一個(gè)子類別,能夠保留二維數(shù)據(jù)中的空間關(guān)系,常應(yīng)用于圖像識別和計(jì)算機(jī)視覺應(yīng)用,能夠高效執(zhí)行醫(yī)學(xué)成像任務(wù)[7]。典型的CNN結(jié)構(gòu)由一系列層組成,①卷積層:CNN的主要組成部分,由可訓(xùn)練的濾波器組成;②池化層:在卷積層之后,逐步縮小特征張量維度,并控制過擬合;③全連接層:將CNN在訓(xùn)練中獲取的特征映射到樣本標(biāo)記空間,起到分類器的作用。CNN的多個(gè)處理層使其能夠具有學(xué)習(xí)醫(yī)學(xué)影像的層次和抽象特征的能力[8]。
自誕生以來,醫(yī)學(xué)影像常用的CNN模型隨臨床需求不斷改進(jìn)發(fā)展。1994年,LeNet5模型的出現(xiàn)標(biāo)志著CNN正式問世。但LeNet5模型深度較淺,網(wǎng)絡(luò)結(jié)構(gòu)較為簡單,訓(xùn)練過程中容易出現(xiàn)過擬合顯像,其圖像特征提取能力和訓(xùn)練速度也較為一般。因此,目前的研究通常采用基于CNN的改進(jìn)模型。
由LeNet5模型改進(jìn)而來的AlexNet、VGGNet、GoogLeNet模型通過不同的技術(shù)方式使訓(xùn)練時(shí)間大幅度減少,并能夠提取更多的復(fù)雜特征和這些特征的組合,增加了模型的穩(wěn)定性和準(zhǔn)確率。2015年提出的ResNet模型通過引入殘差單元,簡化了學(xué)習(xí)目標(biāo)和難度,使訓(xùn)練誤差會隨著層數(shù)增大而減小,降低了信息傳遞時(shí)丟失和損耗對訓(xùn)練結(jié)果產(chǎn)生的影響,可用于訓(xùn)練上百乃至近千層的CNN,對于醫(yī)學(xué)影像信息的深度挖掘具有重大意義[9]。
1.3 人工智能醫(yī)學(xué)圖像分析流程 人工智能醫(yī)學(xué)圖像分析流程包括以下步驟:首先對模型進(jìn)行預(yù)訓(xùn)練,然后是圖像輸入和分割、特征提取與圖像判別和輸出預(yù)測結(jié)果(圖1)。
圖1 人工智能醫(yī)學(xué)圖像分析流程
2.1 超聲檢查 超聲具有價(jià)格低、無創(chuàng)和無輻射等特點(diǎn),是對甲狀腺疾病,尤其是甲狀腺結(jié)節(jié)的一線檢查手段[10]。然而,超聲表現(xiàn)的描述依賴于超聲醫(yī)師的主觀判斷,對于醫(yī)師的經(jīng)驗(yàn)和水平提出了較高要求。人工智能可以提取和量化關(guān)鍵的圖像信息,使圖像診斷從主觀的定性任務(wù)轉(zhuǎn)變?yōu)榭陀^的定量分析,從而提高診斷效率與準(zhǔn)確度,并有望減少侵入性操作的應(yīng)用。人工智能聯(lián)合甲狀腺超聲檢查的主要目的是區(qū)分結(jié)節(jié)的良惡性,而人工智能模型常用的分類特征均來自美國放射學(xué)會甲狀腺影像報(bào)告和數(shù)據(jù)系統(tǒng)(ACR TIRADS),即成分、回聲、形狀、邊緣和鈣化。人工智能模型學(xué)習(xí)的重點(diǎn)特征仍是人類醫(yī)師進(jìn)行診斷所依賴的特征。
2.1.1 人工智能與醫(yī)師的診斷效能對比 Park等[11]比較了基于深度學(xué)習(xí)的CAD系統(tǒng)、基于支持向量機(jī)的CAD系統(tǒng)與超聲科醫(yī)師對甲狀腺小結(jié)節(jié)的診斷表現(xiàn),結(jié)果顯示基于深度學(xué)習(xí)的CAD系統(tǒng)顯示出與超聲醫(yī)師大致相當(dāng)?shù)脑\斷性能,并在不損失敏感度的情況下比基于支持向量機(jī)的CAD系統(tǒng)能夠更有效地評估甲狀腺結(jié)節(jié)。Kim等[12]也得到類似的結(jié)果,CNN提供的診斷性能可與經(jīng)驗(yàn)豐富的超聲醫(yī)師相當(dāng)。而Buda等[13]的研究顯示,9名平均具有17年診斷經(jīng)驗(yàn)的超聲科醫(yī)師的平均敏感度和平均特異度均低于深度學(xué)習(xí)算法(87%比68%,52%比45%);Li等[14]構(gòu)建的CNN模型識別甲狀腺癌的診斷效能也高于熟練的超聲科醫(yī)師。這些研究預(yù)示著人工智能模型在一定層面上展現(xiàn)出超越人類醫(yī)師的可能性。
2.1.2 人工智能應(yīng)用的意義 精準(zhǔn)識別出良性結(jié)節(jié),減少不必要的穿刺活檢是將人工智能模型應(yīng)用于超聲檢查流程的重要意義之一。Buda等[13]開發(fā)的深度學(xué)習(xí)算法對甲狀腺結(jié)節(jié)活檢建議的敏感度和特異度與經(jīng)驗(yàn)豐富的超聲科專家相似。Zhao等[15]利用支持向量機(jī),基于超聲圖像與剪切波彈性成像圖像構(gòu)建了診斷模型,應(yīng)用該模型后,建議穿刺活檢的比例由人類醫(yī)師判斷的37.7%降至4.7%。
將人工智能模型給出的診斷結(jié)果作為第二建議可以顯著提升人類醫(yī)師的診斷表現(xiàn)。Jin等[16]研究顯示,在基于CNN的CAD系統(tǒng)的幫助下,初級超聲醫(yī)師的診斷表現(xiàn)可提升至中級水平。此外,TI-RADS 4類與5類結(jié)節(jié)一直是臨床重點(diǎn)關(guān)注的問題,對此類結(jié)節(jié)的良惡性鑒別也是臨床工作中的難點(diǎn)。Wu等[17]構(gòu)建的深度學(xué)習(xí)模型,對于此類結(jié)節(jié)的診斷效能較人類醫(yī)師得到一定提升(敏感度79.0%比68.0%,特異度77.9%比76.1%)。未來此類研究的進(jìn)一步深入可能對臨床診療流程產(chǎn)生積極影響。
2.2 CT檢查 CT常用于甲狀腺結(jié)節(jié)檢查,可以對胸骨后甲狀腺病變和超聲難以探及的頸部淋巴結(jié)進(jìn)行檢查,對較大病變及其與周圍結(jié)構(gòu)的關(guān)系也能進(jìn)行細(xì)微觀察。CT檢查對操作者的經(jīng)驗(yàn)依賴性小,可重復(fù)性更強(qiáng)[18],但受制于分辨率,僅適用于最大徑>5 mm的結(jié)節(jié)。此外,CT圖像信息豐度相對較高,簡單的視覺分析無法捕捉到病灶更深層次的信息,已無法滿足精準(zhǔn)醫(yī)療和個(gè)體化治療的要求。人工智能方法能夠?qū)T圖像的像素與空間分布關(guān)系進(jìn)行量化,充分挖掘圖像中肉眼無法觀察到的隱藏信息,定量且客觀地將其呈現(xiàn)并用于指導(dǎo)臨床診斷、治療及預(yù)后。目前人工智能聯(lián)合CT圖像診斷甲狀腺疾病主要用于甲狀腺癌的術(shù)前精準(zhǔn)分期分級,對于治療方式的選擇和預(yù)后評估具有重要意義。
2.2.1 甲狀腺結(jié)節(jié)良惡性鑒別 Peng等[19]利用支持向量機(jī)模型對113例患者的284幅甲狀腺CT圖像進(jìn)行分析;Wu等[20]對171例1 cm以下甲狀腺病變的CT圖像進(jìn)行分析,兩項(xiàng)研究的模型均展現(xiàn)出良好的診斷效能(敏感度與特異度約80%)。值得注意的是,Wu等[20]研究指出,對于最大直徑<1.0 cm的甲狀腺微小乳頭狀癌,基于CT圖像的人工智能模型較基于超聲圖像的人工智能模型診斷效能更加穩(wěn)定和出色,而美國甲狀腺協(xié)會指南不建議對超聲高度可疑甲狀腺乳頭狀癌的1 cm以下病變進(jìn)行活檢,因此該研究可能用于指導(dǎo)1 cm以下甲狀腺病變的臨床診療決策。
2.2.2 甲狀腺癌頸部淋巴結(jié)轉(zhuǎn)移的預(yù)測 對淋巴結(jié),尤其是通常最先出現(xiàn)轉(zhuǎn)移的中央?yún)^(qū)頸部淋巴結(jié)狀態(tài)的判斷,是決策是否進(jìn)行淋巴結(jié)清掃術(shù)與淋巴結(jié)清掃范圍的核心因素。近年已有部分相關(guān)研究分別用以預(yù)測頸部淋巴結(jié)轉(zhuǎn)移[21-22]和中央?yún)^(qū)頸部淋巴結(jié)轉(zhuǎn)移[22-24]。這些研究的診斷效能雖然達(dá)不到對結(jié)節(jié)良惡性的鑒別水平,但是在同類研究中,基于CT圖像的人工智能模型對于臨床決策的指導(dǎo)作用已經(jīng)顯著高于術(shù)前超聲(超聲僅能改變約20%患者的手術(shù)方式)[25]。
2.2.3 甲狀腺外侵犯的預(yù)測 出現(xiàn)甲狀腺外侵犯的甲狀腺癌發(fā)病率和死亡率增加,需要行全甲狀腺切除術(shù)。因此,準(zhǔn)確的評估可以幫助外科醫(yī)師確定合適的外科治療策略,以降低再次手術(shù)的風(fēng)險(xiǎn)。Chen等[26]構(gòu)建了機(jī)器學(xué)習(xí)模型對624例甲狀腺乳頭狀癌患者的CT圖像進(jìn)行分析,以預(yù)測是否存在甲狀腺外侵犯。結(jié)合性別、年齡、結(jié)節(jié)大小、鈣化等臨床指標(biāo)構(gòu)建的放射組學(xué)諾模圖具有比臨床模型更好的表現(xiàn)(F1得分0.732比0.692)。
2.3 MRI MRI包含反映病變不同特征的多種成像模式,其除具有較高的軟組織分辨率外,擴(kuò)散加權(quán)成像及表觀擴(kuò)散系數(shù)還能反映病變組織的微觀結(jié)構(gòu)特性(如細(xì)胞密度和膜完整性),對于惡性腫瘤的診斷有顯著優(yōu)勢[27]。利用人工智能技術(shù)綜合分析MRI不同成像模式圖像中的豐富信息,提取人眼無法直接識別的深層特征,是評估甲狀腺疾病的新思路。
Sharafeldeen等[28]和Naglah等[29]分別基于神經(jīng)網(wǎng)絡(luò)和CNN構(gòu)建模型,對甲狀腺結(jié)節(jié)不同成像模式圖像進(jìn)行多參數(shù)分析,綜合分析甲狀腺結(jié)節(jié)的功能成像特征表觀擴(kuò)散系數(shù)與結(jié)構(gòu)形態(tài)和紋理特征,并預(yù)測甲狀腺結(jié)節(jié)的良惡性,取得了滿意的結(jié)果(準(zhǔn)確度0.87、0.93,特異度0.97、0.96)。此外,Wang等[30]采用相似的研究方式預(yù)測甲狀腺病變的侵襲性,基于MRI圖像多參數(shù)預(yù)測模型的診斷表現(xiàn)明顯優(yōu)于基于臨床特征的預(yù)測模型(曲線下面積0.92比0.56)。
2.4 核醫(yī)學(xué)檢查 核醫(yī)學(xué)檢查是診斷甲狀腺疾病功能的重要手段。甲狀腺平面顯像的一大優(yōu)勢是可以實(shí)現(xiàn)甲狀腺毒癥的功能診斷,進(jìn)而指導(dǎo)臨床制訂治療方案。甲狀腺平面顯像的影像特征明顯,變異度小,是利用人工智能技術(shù)進(jìn)行自動(dòng)或輔助診斷的理想影像資料來源[31]。人工智能模型應(yīng)用于核醫(yī)學(xué)檢查的主要目的是消除主觀觀測偏差,并將人類醫(yī)師從重復(fù)而繁重的工作中解放出來。
根據(jù)甲狀腺的功能狀態(tài),甲狀腺毒癥可以分為“生產(chǎn)性”甲狀腺毒癥(如Graves病、結(jié)節(jié)性毒性甲狀腺腫和甲狀腺自主高功能腺瘤等)與“破壞性”甲狀腺毒癥(如急性、亞急性甲狀腺炎)。通過甲狀腺平面顯像準(zhǔn)確判斷甲狀腺毒癥圖像對于指導(dǎo)臨床治療意義重大。Qiao等[32]對1 430例甲狀腺平面顯像圖像進(jìn)行分析,構(gòu)建了深度學(xué)習(xí)模型,并通過遷移學(xué)習(xí)進(jìn)行訓(xùn)練,以區(qū)分正常甲狀腺、Graves病患者甲狀腺和甲狀腺功能亢進(jìn)期亞急性甲狀腺炎患者的甲狀腺平面顯像圖像,模型的預(yù)測結(jié)果與臨床診斷結(jié)果具有較高的一致性(Kappa>0.715)。值得注意的是,該研究還對比了模型與住院醫(yī)師的診斷表現(xiàn),3種模型的診斷效能均優(yōu)于第一年住院醫(yī)師,但較第三年住院醫(yī)師低。
結(jié)合目前的甲狀腺結(jié)節(jié)臨床診療工作實(shí)際,超聲檢查憑借其無創(chuàng)和方便的特點(diǎn),仍將是甲狀腺結(jié)節(jié)的主要篩查及初步診斷手段?;诖?,人工智能在鑒別甲狀腺結(jié)節(jié)良惡性方面的應(yīng)用不僅有利于提高醫(yī)師的診斷準(zhǔn)確率和診斷速度,更為超聲檢查提供了相對客觀的第二意見,彌補(bǔ)了超聲檢查標(biāo)準(zhǔn)化程度較低、主觀性強(qiáng)的缺點(diǎn)。但對于已經(jīng)確診的甲狀腺癌病情分期,CT的診斷效能更好。利用人工智能技術(shù)分析CT圖像中難以被人眼捕捉的豐富信息,在術(shù)前對甲狀腺癌進(jìn)行精準(zhǔn)分期,將極大地促進(jìn)甲狀腺癌的精準(zhǔn)和微創(chuàng)治療。而人工智能技術(shù)聯(lián)合MRI及核醫(yī)學(xué)圖像,綜合分析病變形態(tài)和功能的影像表現(xiàn),將會是診斷甲狀腺疾病的有力補(bǔ)充手段。
盡管大量研究已經(jīng)證實(shí)人工智能在甲狀腺疾病診斷中的作用,但其進(jìn)一步發(fā)展仍存在挑戰(zhàn)。人工智能方法的“黑匣子”問題(結(jié)果的不可解釋性)及其帶來的相關(guān)法律、倫理問題仍需解決。此外,目前人工智能分析流程存在一定的方法學(xué)問題,如不同研究采用不同的圖像分割及處理方法、不同的算法軟件、樣本容量的巨大差異和有無驗(yàn)證集等。以上問題均在一定程度上制約了人工智能模型向其他中心的推廣應(yīng)用。
納入多種指標(biāo)的綜合診斷模型可能是人工智能在甲狀腺疾病應(yīng)用中的發(fā)展方向。此外,學(xué)科交融和醫(yī)工結(jié)合也尤為重要,醫(yī)師、技師和工程師等緊密合作,從而規(guī)范人工智能分析流程,提高模型的普適性。此外,最關(guān)鍵的問題是如何把成熟有效的人工智能模型與技術(shù)轉(zhuǎn)化為切實(shí)的臨床應(yīng)用,在這一方面仍需付出大量努力。
利益沖突 所有作者均聲明不存在利益沖突