鄭慶源,楊瑞,王磊,陳志遠(yuǎn),劉修恒
膀胱癌(bladder cancer,BLCA)是全球十大最常見的癌癥之一,是泌尿系統(tǒng)發(fā)病率最高的惡性腫瘤[1]。據(jù)最新公布的全球癌癥數(shù)據(jù)(GLOBOCAN 2020)報(bào)道,2020年新發(fā)病例約有57.3萬例,死亡病例約為21.3萬例[2]。非肌層浸潤性膀胱癌(non-muscular invasive bladder cancer,NMIBC)患者的5年生存率約為90%,但隨著腫瘤侵犯膀胱的不同層次,BLCA患者不僅5年生存率急劇下降,對治療的反應(yīng)差異也很大[3]。因此,對BLCA的準(zhǔn)確識別和診斷有助于后續(xù)的個性化治療,也是實(shí)現(xiàn)精準(zhǔn)醫(yī)療的關(guān)鍵步驟。目前,BLCA的診斷主要由病理學(xué)家通過組織活檢確定,也以此作為后續(xù)治療的基石[4]。然而,一張病理切片圖像所包含的豐富信息并不能完全被病理學(xué)家所解讀,并且在解讀過程中容易受到主觀因素的影響。隨著人工智能(artificial intelligence,AI)的出現(xiàn)和數(shù)字病理學(xué)的發(fā)展,允許我們使用計(jì)算的方法來分析數(shù)字化的全切片圖像(whole slide imaging,WSI)[5]。本文就深度學(xué)習(xí)(deep learning,DL)技術(shù)在BLCA病理圖像處理和分析中的研究進(jìn)展、局限性和展望作一綜述,以期為廣大同行及學(xué)者提供參考和新的研究思路。
AI是計(jì)算機(jī)科學(xué)的一個分支,它試圖通過開發(fā)計(jì)算機(jī)的智能,以模仿人類的工作和思維方式。機(jī)器學(xué)習(xí)(machine learning,ML)是AI的一個組成部分,它可以從大量數(shù)據(jù)中手動測量一組事先預(yù)定的特征,借以構(gòu)建模型。DL是ML的一個子類,它通過類似于生物神經(jīng)系統(tǒng)的結(jié)構(gòu)方式來處理和分析信息,其類型包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)等。CNN是目前使用最為廣泛的DL算法,它受到哺乳動物大腦視覺皮層的啟發(fā),在圖像處理和分析方面有著強(qiáng)大的能力。通常CNN的架構(gòu)包括卷積層、池化層和全連接層,通過反向傳播算法可以自適應(yīng)地從輸入的圖像中不斷提取特征,進(jìn)而聚合形成高階結(jié)構(gòu)關(guān)系,以識別感興趣的區(qū)域[6]。
隨著近幾年DL的興起,數(shù)字病理學(xué)得到了迅猛發(fā)展。病理學(xué)中的AI模型已經(jīng)從最初始的人工模式發(fā)展到傳統(tǒng)的ML,然后發(fā)展到DL[7]。人工模式依賴于病理學(xué)家定義的規(guī)則,傳統(tǒng)ML需要根據(jù)病理學(xué)家的先驗(yàn)知識定義特征,而DL可以直接從原始數(shù)據(jù)中學(xué)習(xí)相關(guān)特征來訓(xùn)練高性能模型。相比于傳統(tǒng)的病理圖像識別技術(shù),DL方法具有較高的準(zhǔn)確性并且更容易在臨床實(shí)踐中應(yīng)用,有著明顯的優(yōu)勢。目前DL已被應(yīng)用于各種病理圖像處理和分類,包括疾病診斷[8]、檢測[9]、分割[10]、預(yù)測預(yù)后[11]和復(fù)發(fā)[12]等。這些研究表明借助DL技術(shù)可能有助于克服病理學(xué)家主觀視覺評估的局限性,并且緩解病理學(xué)家資源相對匱乏的局面[13]。
早期NMIBC患者的5年生存率可達(dá)90%左右。然而,當(dāng)疾病進(jìn)展到肌層浸潤性膀胱癌(muscleinvasive bladder cancer,MIBC)時,生存率急劇下降。降低BLCA的死亡率,早期發(fā)現(xiàn)和適當(dāng)治療至關(guān)重要,而精準(zhǔn)高效的病理識別和診斷是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵。目前,傳統(tǒng)上病理診斷主要依靠病理學(xué)家手動完成。這種傳統(tǒng)工作模式存在難度高、主觀性強(qiáng)、可重復(fù)性差和耗時繁瑣等缺點(diǎn),已然成為日常實(shí)踐中較為突出的矛盾點(diǎn),需要進(jìn)行優(yōu)化和改善。因此,越來越多的研究通過DL技術(shù)開發(fā)簡單方便且可靠的方法,以輔助病理學(xué)家進(jìn)行疾病的診斷和識別。
Noorbakhsh等[14]使用DL技術(shù)對19種癌癥的WSI進(jìn)行了腫瘤識別、亞型和突變分類。他們的數(shù)據(jù)集是來自TCGA數(shù)據(jù)庫的27 815張HE染色的WSI圖像。結(jié)果顯示,DL模型對BLCA分類的準(zhǔn)確率高達(dá)98%以上,并且在大多數(shù)癌癥類型上進(jìn)行訓(xùn)練的分類器也可以成功識別BLCA,工作特征曲線下面積(AUC)為98%。Jansen等[15]基于DL技術(shù)訓(xùn)練了一個U-Net分割神經(jīng)網(wǎng)絡(luò)用于自動檢測尿路上皮和一個分類神經(jīng)網(wǎng)絡(luò)用于對NMIBC的準(zhǔn)確分級。他們從三個不同中心納入了232例NMIBC患者,共獲取了328份腫瘤標(biāo)本,并對其進(jìn)行HE染色后數(shù)字化掃描成WSI。結(jié)果表明,通過結(jié)合U-Net分割網(wǎng)絡(luò)和分類網(wǎng)絡(luò),可以實(shí)現(xiàn)對NMIBC的自動檢測和分級,其準(zhǔn)確度與病理學(xué)家相當(dāng)。
BLCA根據(jù)腫瘤侵犯膀胱的不同層次,分為NMIBC和MIBC。目前,MIBC已經(jīng)確定了不同的分子亞型,包括管腔樣、基底樣和神經(jīng)元樣[16]。由于不同亞型的MIBC對治療方法有不同的反應(yīng),且與預(yù)后相關(guān),因此準(zhǔn)確識別MIBC的不同亞型在疾病的診療中非常重要。但是目前臨床上現(xiàn)有的分子亞型分層方法往往耗時長,且經(jīng)濟(jì)成本高,限制了MIBC分子亞型在臨床中的應(yīng)用。DL技術(shù)在醫(yī)學(xué)領(lǐng)域的迅速發(fā)展或可解決此問題。
Woerl 等[17]利用DL 技術(shù)從蘇木精和伊紅(HE)載玻片中預(yù)測MIBC患者的分子亞型(基底樣、管腔樣、P53樣以及全陰性型),并將預(yù)測結(jié)果與病理學(xué)專家的診斷結(jié)果進(jìn)行了比較。他們從癌癥基因組圖譜(TCGA)數(shù)據(jù)庫中收集了363張WSI作為訓(xùn)練集,使用5折交叉驗(yàn)證的策略訓(xùn)練模型,并在獨(dú)立隊(duì)列中進(jìn)行了驗(yàn)證。結(jié)果顯示,DL模型在驗(yàn)證集的平均準(zhǔn)確率高達(dá)70%,比病理學(xué)家的判讀結(jié)果更加準(zhǔn)確。因此,該研究還利用類激活圖可視化技術(shù)進(jìn)一步分析了DL模型對于不同分子亞型腫瘤的感興趣區(qū)域,以研究與每種分子亞型最相關(guān)的病理學(xué)特征。結(jié)果表明,DL模型對于全陰性型腫瘤所關(guān)注的病理學(xué)特征大多數(shù)為具有致密和深染的細(xì)胞核;基底樣腫瘤往往具有多形性的細(xì)胞核和多個核仁;管腔樣腫瘤常為乳頭狀生長;而p53樣腫瘤則表現(xiàn)為具有彌漫性浸潤的單個腫瘤細(xì)胞和一些促纖維間質(zhì)。由此可見,DL模型的可視化技術(shù)可以幫助我們更好地理解神經(jīng)網(wǎng)絡(luò)的關(guān)注區(qū)域是否符合現(xiàn)有的病理學(xué)知識,并可能提供之前從未被評估過的病理學(xué)特征,也進(jìn)一步增加了模型的透明度和可信度。
Khosravi等[18]利用DL技術(shù)有效地對四種類型癌癥的組織病理學(xué)圖像進(jìn)行了分類,其中包括BLCA。他們收集了來自斯坦福組織微陣列數(shù)據(jù)庫和TCGA數(shù)據(jù)庫的組織病理學(xué)圖像,證明DL方法在區(qū)分不同癌癥組織、亞型、免疫組織化學(xué)標(biāo)記及其表達(dá)評分方面的強(qiáng)大能力。
盡管NMBIC患者的五年生存率高達(dá)90%,但疾病復(fù)發(fā)率較高。準(zhǔn)確預(yù)測NMIBC的復(fù)發(fā)和進(jìn)展是管理患者的關(guān)鍵。目前對具有較高復(fù)發(fā)和進(jìn)展風(fēng)險的患者,可以采用歐洲癌癥研究和治療組織(EORTC)[19]、西班牙泌尿腫瘤俱樂部(CUETO)[20]和歐洲泌尿外科協(xié)會(EAU)開發(fā)的分層工具進(jìn)行評估。然而,有研究表明,EAU、EORTC和CUETO風(fēng)險分層量表在預(yù)測BLCA的復(fù)發(fā)和進(jìn)展方面僅表現(xiàn)出中等表現(xiàn)[21]。其中,EORTC和CUETO對復(fù)發(fā)的判別能力較低,高估了高?;颊叩膹?fù)發(fā)風(fēng)險[22-23]。此外,在這兩個分層工具中都使用了腫瘤的組織病理學(xué)特征,這些特征容易受觀察者之間高度變異的影響[24]。DL技術(shù)可以自動提取病理圖像中潛在的生物學(xué)或病理組織學(xué)的特征,而不依靠傳統(tǒng)的腫瘤分期和分級的信息,或許可以消除病理學(xué)家在閱片中所帶來的主觀差異。
Lucas等[25]將WSI與臨床數(shù)據(jù)相結(jié)合,使用DL預(yù)測了NMIBC患者的1年和5年無復(fù)發(fā)生存率。他們在359例患者的1年隨訪研究隊(duì)列和281例患者的5年隨訪研究隊(duì)列中進(jìn)行了探索。結(jié)果證明,相比于僅使用臨床數(shù)據(jù)(AUC為57%)或圖像數(shù)據(jù)(AUC為72%)的模型,他們的模型增強(qiáng)了對NMIBC患者5年內(nèi)復(fù)發(fā)的預(yù)測,AUC為76%。
在臨床診療中,盡管屬于同一種病理亞型的BLCA,在分子水平上也可能存在差異,對治療的反應(yīng)也各不相同。其中,成纖維細(xì)胞生長因子受體(FGFR)抑制劑已被美國食品藥品監(jiān)督管理局批準(zhǔn)用于MIBC的靶向治療,但前提是需要有明確的分子檢測。然而,分子檢測并不是所有醫(yī)院可具備的條件,同時也會加重患者的經(jīng)濟(jì)負(fù)擔(dān)。最近有研究報(bào)道,DL技術(shù)可以通過WSI初步預(yù)測基因的突變情況[26]。這類方法擁有簡單、快速、可靠和廉價的優(yōu)點(diǎn),可以很好地在臨床實(shí)踐中實(shí)現(xiàn)對腫瘤分子水平初步檢測的應(yīng)用。
Loeffler等[27]基于DL技術(shù)直接從WSI中檢測了BLCA患者的FGFR3基因的突變情況。他們所使用的數(shù)據(jù)集是來自TCGA數(shù)據(jù)庫的237例MIBC患者和來自獨(dú)立隊(duì)列的182例BLCA患者,收集這些患者的WSI和相應(yīng)的遺傳信息,結(jié)果表明,TCGA隊(duì)列和獨(dú)立外部隊(duì)列中DL模型均能從WSI中準(zhǔn)確預(yù)測出FGFR3的突變情況,AUC分別為0.701和0.725,優(yōu)于泌尿病理學(xué)家。通過DL對BLCA患者的FGFR3突變進(jìn)行簡便的預(yù)篩查,有益于患者的早期檢測和個性化治療。
尿液細(xì)胞學(xué)檢查是被廣泛用于檢測高級別尿路上皮癌(high-grade urothelial carcinoma,HGUC)的一項(xiàng)檢查,其診斷標(biāo)準(zhǔn)是由巴黎第18屆國際細(xì)胞學(xué)大會提出的巴黎尿液細(xì)胞學(xué)報(bào)告系統(tǒng)。在臨床實(shí)踐中,病理學(xué)家會在顯微鏡下手動掃描樣本,通過檢測HGUC細(xì)胞以做出最終診斷。然而,在尿液細(xì)胞學(xué)檢查的病理診斷中同樣存在觀察者間變異的情況。隨著數(shù)字病理的發(fā)展,這些尿液細(xì)胞學(xué)檢查的病理載玻片可以進(jìn)行巴氏染色后數(shù)字化掃描成WSI。目前,DL技術(shù)在BLCA尿液細(xì)胞病理圖像中的研究也越來越多。在尿液細(xì)胞學(xué)檢查期間,通過借助DL技術(shù)進(jìn)行病理圖像的識別和篩查,既可以提高日常工作效率以及降低漏診和誤診率,也可以幫助泌尿外科醫(yī)生制定后續(xù)的治療策略。
Nojima等[28]從232例HGUC患者的巴氏染色尿細(xì)胞病理圖像中開發(fā)了一個DL模型,用于篩查HGUC細(xì)胞。在良惡性病例的識別中,他們所訓(xùn)練的模型取得了出色的性能,AUC為0.989。此外,DL模型還可以進(jìn)一步判斷腫瘤是否具有侵襲性。通過可視化技術(shù)發(fā)現(xiàn),DL模型進(jìn)行核分級的診斷是基于HGUC的細(xì)胞核。在診斷基質(zhì)侵襲中,細(xì)胞核的特點(diǎn)包括有皺縮的細(xì)胞核、顏色不規(guī)則和中性粒細(xì)胞浸潤。在診斷核分級中,細(xì)胞核的特點(diǎn)為染色密集或核仁明顯的粗染色質(zhì)。此外結(jié)果表明,細(xì)胞核的大小似乎對模型的診斷沒有貢獻(xiàn),且手動復(fù)測時也沒有發(fā)現(xiàn)明顯的差異。
Sanghvi等[29]基于2 405張存檔的HGUC尿細(xì)胞學(xué)載玻片開發(fā)了一種能夠準(zhǔn)確分析尿細(xì)胞學(xué)病理圖像的DL模型。結(jié)果證明,該DL模型可以通過縮短篩查WSI所需的時間來提高病理學(xué)家的工作效率,并且還可以提高診斷準(zhǔn)確性,AUC為0.88。
Awan等[30]基于DL方法提出了一種用于識別HGUC尿細(xì)胞病理圖像中非典型細(xì)胞和惡性細(xì)胞的方法。他們首先采用細(xì)胞分割和分類的方法,對非典型細(xì)胞和惡性細(xì)胞進(jìn)行了識別,以計(jì)算出非典型細(xì)胞和惡性細(xì)胞個數(shù)在所有細(xì)胞中的占比。緊接著根據(jù)占比結(jié)果作為預(yù)測預(yù)后的因子,對HGUC患者進(jìn)行風(fēng)險分層。該研究納入了398例患者的398張HE染色切片后對其進(jìn)行分析,以自動預(yù)測每例患者的風(fēng)險程度。結(jié)果表明,DL模型識別非典型細(xì)胞和惡性細(xì)胞的性能出色,AUC為0.99。通過對非典型和惡性細(xì)胞的計(jì)數(shù)作為預(yù)后因子,可以對HGUC患者進(jìn)行較為準(zhǔn)確的風(fēng)險分層。
綜上所述,AI中的DL技術(shù)在BLCA的病理診斷、疾病復(fù)發(fā)與進(jìn)展和突變基因檢測等方面展現(xiàn)出了良好的性能和較好的應(yīng)用潛力。在一些研究中,DL算法所展現(xiàn)出的能力甚至可以與病理學(xué)家媲美。然而,DL的發(fā)展時間較為短暫,在病理學(xué)中的應(yīng)用也僅處于起步階段,仍然存在一些局限性和挑戰(zhàn):(1)數(shù)據(jù)集標(biāo)準(zhǔn)化問題。來自不同病理科的病理切片在樣本采集、制作、染色和數(shù)字化掃描上存在著差異,這些異質(zhì)性均可能會影響到DL模型的穩(wěn)健性;(2)模型可解釋性差。DL模型由于其推理過程中缺乏可解釋性,往往會破壞結(jié)果的可信度并限制其實(shí)際應(yīng)用;(3)可用數(shù)據(jù)集匱乏。訓(xùn)練一個可靠的DL模型往往需要強(qiáng)大的數(shù)據(jù)集,然而由于醫(yī)學(xué)倫理要求嚴(yán)格保護(hù)好患者的隱私,許多數(shù)據(jù)不得被公開使用,因此難以獲得足夠多的數(shù)據(jù)支撐模型的精度。針對以上存在的挑戰(zhàn),未來可在以下方面進(jìn)行解決:(1)建立起國內(nèi)外統(tǒng)一的病理圖像標(biāo)準(zhǔn)化制作程序和大型病理數(shù)據(jù)庫;(2)開展前瞻性實(shí)驗(yàn)納入多中心數(shù)據(jù)以確保模型的泛化性和穩(wěn)健性;(3)進(jìn)一步開發(fā)可解釋、可通用的下一代人工智能方法,提高模型的透明度,打破現(xiàn)有深度學(xué)習(xí)“黑箱算法”的現(xiàn)狀。盡管存在上述的局限性和挑戰(zhàn),但基于AI的DL方法在數(shù)字病理學(xué)方面的應(yīng)用仍有可觀的前景。隨著科學(xué)的不斷發(fā)展和進(jìn)步,病理學(xué)家與AI的合作不僅可以提高診斷效能,而且也有助于輔助臨床決策的制定,最終將會促進(jìn)BLCA的精準(zhǔn)診療,讓更多的患者獲益。