孫丹輝,榮義輝,廖心怡,潘雅婷,王 玨,黃 萍,朱思越,柳蘇桐,王亞妮,杜 帆,于觀貞,*
1. 北京大學(xué)國際醫(yī)院感染性疾病科,北京 102206
2. 上海中醫(yī)藥大學(xué)附屬龍華醫(yī)院腫瘤科,上海 200032
3. 上海中醫(yī)藥大學(xué)附屬龍華醫(yī)院脾胃病研究所,上海 200032
4. 浙江數(shù)字內(nèi)容研究院數(shù)字醫(yī)療與人工智能實(shí)驗(yàn)室,紹興 312366
肝臟作為人體最重要的器官之一,承擔(dān)著人體大部分的新陳代謝功能。肝臟病變通常有2 種臨床類別,一是彌漫性肝臟病變,包括肝硬化、酒精性脂肪肝、非酒精性脂肪性肝?。╪on-alcoholic fatty liver disease,NAFLD)等;二是肝占位性病變,分為良性病變和惡性病變,其中良性病變包括肝細(xì)胞腺瘤、肝海綿狀血管瘤、肝臟局灶性結(jié)節(jié)增生和肝囊腫等,惡性病變包括肝細(xì)胞癌、肝內(nèi)膽管細(xì)胞癌、肝轉(zhuǎn)移癌、肝血管肉瘤和肝母細(xì)胞瘤等[1]。在NAFLD 病變過程中通常會出現(xiàn)3 種特征:脂肪變性、炎癥和纖維化[2]。病理組織學(xué)檢查是衡量炎癥活動度、脂肪變性和纖維化程度的重要手段[3]。對肝穿刺標(biāo)本采用H-E 染色、嗜銀染色和Masson 染色三色染色技術(shù),能夠準(zhǔn)確判斷肝組織炎癥活動度、脂肪變性及纖維化程度,還可根據(jù)實(shí)際需要增加天狼猩紅染色或免疫組織化學(xué)染色等以進(jìn)一步進(jìn)行臨床研究[4]。
近年來,許多基于CT、MRI 等醫(yī)學(xué)影像學(xué)技術(shù)的研究探索了NAFLD 的定量分析特征,這些研究通過傳統(tǒng)圖像算法或機(jī)器學(xué)習(xí)算法識別醫(yī)學(xué)影像中的病變特征并進(jìn)行分析[5-8],而病理切片同樣能用于NAFLD 病理特征的分析研究,但多數(shù)研究存在單一、片面等不足。利用數(shù)字病理切片開發(fā)出一種全面的、準(zhǔn)確的自動化NAFLD 分析系統(tǒng),能夠?yàn)樵摬〉姆制诤驮u估提供參考。本研究通過人工智能算法和數(shù)字病理切片對NAFLD 的3 種病理特征(脂肪變性細(xì)胞、炎癥細(xì)胞和纖維化)進(jìn)行識別,提出基于人工智能算法的NAFLD 病理特征識別模型,以幫助病理醫(yī)師提高識別NAFLD 病理特征的效率與準(zhǔn)確率。
1.1 材料 65 只NAFLD 小鼠的肝組織病理切片由上海中醫(yī)藥大學(xué)附屬龍華醫(yī)院宋海燕教授惠贈。所有病理切片均使用匈牙利3D HIETECH 公司Pannoramic 250 數(shù)字化掃描儀進(jìn)行掃描,獲得數(shù)字病理切片。數(shù)字病理切片納入標(biāo)準(zhǔn):(1)病理切片具有脂肪變性細(xì)胞或炎癥細(xì)胞等NAFLD 的病理特征;(2)病理切片的評估數(shù)據(jù)完整、明確;(3)病理切片染色均勻、清晰完整。選擇符合納入標(biāo)準(zhǔn)的H-E 染色和天狼猩紅染色數(shù)字病理切片各65 張。
1.2 數(shù)據(jù)集制作 取H-E 染色數(shù)字病理切片,使用CaseViewer 2.3 軟件在放大200、300、400 倍后截取病變部位圖像各2 張,每張切片共截取包含脂肪變性細(xì)胞的圖像6 張、包含炎癥細(xì)胞的圖像6 張,分辨率均為1 920 像素×1 000 像素。獲得的390 張脂肪變性細(xì)胞病理圖像和390 張炎癥細(xì)胞病理圖像構(gòu)成數(shù)據(jù)集,用于脂肪變性細(xì)胞和炎癥細(xì)胞的識別研究。
取天狼猩紅染色數(shù)字病理切片,使用CaseViewer 2.3軟件在放大50 倍后進(jìn)行全視野截取,每張切片可截取4~6 張有組織纖維化的圖像,最終共獲得370 張纖維化圖像用于肝纖維化的識別研究。
1.3 圖像標(biāo)注 將數(shù)據(jù)集中的脂肪變性細(xì)胞圖像和炎癥細(xì)胞圖像上傳至Horizope 標(biāo)注平臺,由多名住院醫(yī)師進(jìn)行手動標(biāo)注,標(biāo)注完成后由1 名富有經(jīng)驗(yàn)的主治醫(yī)師進(jìn)行糾錯(cuò)及補(bǔ)充。纖維化的識別采用顏色閾值分割圖像算法,無須標(biāo)注。將Horizope標(biāo)注平臺生成的標(biāo)注文件(帶有標(biāo)注坐標(biāo)點(diǎn)信息的JSON 文件)通過Python 代碼轉(zhuǎn)化為可用于深度學(xué)習(xí)訓(xùn)練的標(biāo)簽圖像,格式為PNG。原始圖像、Horizope 標(biāo)注平臺標(biāo)注圖像及標(biāo)簽圖像示例見圖1。
1.4 數(shù)據(jù)增強(qiáng) 在深度學(xué)習(xí)訓(xùn)練中,390 張圖像的數(shù)據(jù)量用于深度學(xué)習(xí)模型訓(xùn)練遠(yuǎn)遠(yuǎn)不夠,容易造成模型欠擬合,因此采用翻轉(zhuǎn)(水平翻轉(zhuǎn)和垂直翻轉(zhuǎn))、旋轉(zhuǎn)(90°、180°和270°旋轉(zhuǎn))和高斯噪聲等處理方法對原始圖像及對應(yīng)的標(biāo)簽圖像進(jìn)行增強(qiáng),共得到2 340 張脂肪變性細(xì)胞病理圖像和對應(yīng)的標(biāo)簽圖像,以及2 340 張炎癥細(xì)胞病理圖像和對應(yīng)的標(biāo)簽圖像。傳統(tǒng)的顏色特征提取算法不需要很大的數(shù)據(jù)量,因此未對纖維化圖像進(jìn)行增強(qiáng)。
1.5 訓(xùn)練集、驗(yàn)證集與測試集的劃分 將脂肪變性細(xì)胞圖像和炎癥細(xì)胞圖像數(shù)據(jù)集分別按照4 ∶1 ∶1 劃分為訓(xùn)練集、驗(yàn)證集和測試集。訓(xùn)練集包括1 560 張脂肪變性細(xì)胞圖像和1 560 張炎癥細(xì)胞圖像,驗(yàn)證集包括390 張脂肪變性細(xì)胞圖像和390 張炎癥細(xì)胞圖像,訓(xùn)練集和驗(yàn)證集用于深度學(xué)習(xí)模型的訓(xùn)練和參數(shù)迭代。測試集包括390 張脂肪變性細(xì)胞圖像和390 張炎癥細(xì)胞圖像,用于對訓(xùn)練好的深度學(xué)習(xí)模型進(jìn)行測試,得到識別結(jié)果,并計(jì)算模型性能指標(biāo)。纖維化圖像不需要?jiǎng)澐譃橛?xùn)練集、驗(yàn)證集和測試集。
1.6 人工智能算法 對于脂肪變性細(xì)胞圖像和炎癥細(xì)胞圖像的識別,使用U-Net 深度學(xué)習(xí)模型對訓(xùn)練集和驗(yàn)證集中人工標(biāo)注的圖像進(jìn)行訓(xùn)練學(xué)習(xí)和參數(shù)迭代。U-Net 采用編碼-解碼結(jié)構(gòu),是一種全卷積神經(jīng)網(wǎng)絡(luò)[9],示意圖見圖2。編碼器為特征提取網(wǎng)絡(luò),由下采樣卷積層和池化層組成,每次下采樣都會使通道數(shù)翻倍;解碼器為特征融合網(wǎng)絡(luò),由上采樣卷積層和下采樣卷積層構(gòu)成。將上采樣生成的特征圖與編碼器中下采樣生成的特征圖進(jìn)行融合操作,最后經(jīng)過2 次卷積操作生成特征圖。U-Net特殊的結(jié)構(gòu)保證了模型最終得到的特征圖融合了更多的低級特征,也使得不同尺度的特征得到了融合,從而可以進(jìn)行多尺度識別和預(yù)測。多次的上采樣也使模型能夠更加精細(xì)、準(zhǔn)確地提取分割圖像的邊緣特征和細(xì)節(jié)信息[10]。所用的U-Net 深度學(xué)習(xí)模型使用交叉熵作為損失函數(shù),初始學(xué)習(xí)率設(shè)置為0.000 1,最大迭代步長為100,批量大小設(shè)置為16,下采樣率為0.5,使用Adam 優(yōu)化器更新模型參數(shù)。使用Pytorch 1.6 框架和Python 3.6 環(huán)境訓(xùn)練深度學(xué)習(xí)模型,圖形處理器為NVIDIA Gtx 2080ti。
肝纖維化作為NAFLD 的一種病理特征,其形態(tài)學(xué)特征與炎癥細(xì)胞和脂肪變性細(xì)胞差異顯著[11],且通過對小鼠肝組織進(jìn)行天狼猩紅染色發(fā)現(xiàn),經(jīng)天狼猩紅染色后肝纖維化特征尤為明顯。因此,為了節(jié)約計(jì)算機(jī)資源,對纖維化特征的識別并未采用深度學(xué)習(xí)算法,而是采用顏色特征提取這一傳統(tǒng)人工智能圖像算法。
1.7 基于人工智能算法的NAFLD 病理特征識別模型的性能評估 為了驗(yàn)證人工智能算法在NAFLD病理特征識別中的有效性,以Horizope 標(biāo)注平臺人工標(biāo)注圖像為標(biāo)準(zhǔn),在測試集脂肪變性細(xì)胞圖像和炎癥細(xì)胞圖像上,采用4 個(gè)常用于評價(jià)醫(yī)學(xué)圖像分割算法精準(zhǔn)度的指標(biāo)對模型性能進(jìn)行評估,分別是Dice相似系數(shù)(Dice’s similarity coefficient,DSC)[12]、平均交互比(mean intersection over union,MIoU)[13]、平均準(zhǔn)確度(mean accuracy,MA)和靈敏度:DSC=2TP/(2TP+FP+FN),MIoU=TP/(TP+FP+FN),MA=(TP+TN)/(TP+TN+FP+FN),靈敏度=TP/(TP+FN),其中TP 為真陽性樣本數(shù),F(xiàn)P 為假陽性樣本數(shù),TN 為真陰性樣本數(shù),F(xiàn)N 為假陰性樣本數(shù)。由于纖維化識別采用的是傳統(tǒng)圖像算法,沒有相應(yīng)的標(biāo)注圖像,因此未進(jìn)行性能評估。
1.8 病理特征參數(shù)的計(jì)算 通過人工智能算法對130 張數(shù)字病理切片進(jìn)行病理特征的識別和參數(shù)計(jì)算。(1)脂肪變性細(xì)胞面積占比(proportion of fatty degeneration cell area,PFA): 對65 張H-E染色切片放大400 倍后進(jìn)行分析,每張H-E 染色切片隨機(jī)選取10 個(gè)視野進(jìn)行脂肪變性細(xì)胞識別,并計(jì)算脂肪變性細(xì)胞面積占視野面積的百分比,取平均值得到局部PFA;再根據(jù)視野面積與整張切片面積的比例關(guān)系計(jì)算得到全局PFA[14]。(2)炎癥細(xì)胞密度(density of inflammatory cell,DIC):對65 張H-E 染色切片放大400 倍后進(jìn)行分析,隨機(jī)選取20 個(gè)視野進(jìn)行炎癥細(xì)胞識別,計(jì)算炎癥細(xì)胞個(gè)數(shù)與視野面積的比值,取平均值得到局部DIC;再根據(jù)視野面積與整張切片面積的比例關(guān)系,計(jì)算得到全局DIC[14]。(3)纖維化面積占比(ratio of fibrotic area,RFA):對65 張?zhí)炖切杉t染色切片放大50 倍后進(jìn)行全視野截取及纖維化識別,計(jì)算纖維化面積占全視野面積的百分比,即為RFA。
由多名住院醫(yī)師根據(jù)NAFLD 活動度積分(NAFLD activity score,NAS)半定量評分系統(tǒng)的標(biāo)準(zhǔn)[15]對65 張H-E 染色數(shù)字病理切片進(jìn)行人工脂肪變性細(xì)胞和炎癥細(xì)胞評分,以及對65 張?zhí)炖切杉t染色數(shù)字病理切片進(jìn)行人工纖維化評分?;贜AS 半定量評分系統(tǒng)制定一套適用于人工智能算法識別的評分規(guī)則,即機(jī)器評分:對65 張H-E 染色切片根據(jù)PFA 和DIC 分別進(jìn)行脂肪變性細(xì)胞、炎癥細(xì)胞的評分,PFA<0.06 計(jì)0 分,0.06~0.33計(jì)1 分,>0.33~0.66 計(jì)2 分,>0.66 計(jì)3 分;DIC<100/mm2計(jì)0 分,100~400/mm2計(jì)1 分,>400~700/mm2計(jì)2 分,>700/mm2計(jì)3 分。基 于NAS 半定量評分系統(tǒng),根據(jù)RFA 對65 張?zhí)炖切杉t染色切片進(jìn)行纖維化機(jī)器評分,RFA<0.01 計(jì)0 分,0.01~0.07 計(jì)1 分(細(xì)分為1A、1B、1C 級),>0.07~0.10 計(jì)2 分,>0.10 計(jì)3 分。
1.9 統(tǒng)計(jì)學(xué)處理 應(yīng)用SPSS 26.0 軟件進(jìn)行統(tǒng)計(jì)學(xué)分析。通過計(jì)算偏度和峰度的Z評分對計(jì)量資料進(jìn)行正態(tài)性檢驗(yàn),若為正態(tài)分布以±s表示,若為偏態(tài)分布以中位數(shù)(范圍)表示。相關(guān)性分析采用Spearman 秩相關(guān)分析。檢驗(yàn)水準(zhǔn)(α)為0.05。
2.1 基于人工智能算法的NAFLD 病理特征識別模型的識別效果 在測試集圖像上對脂肪變性細(xì)胞和炎癥細(xì)胞進(jìn)行識別,通過對比標(biāo)簽圖像與人工智能算法識別圖像可見,人工智能算法對脂肪變性細(xì)胞和炎癥細(xì)胞的識別結(jié)果與住院醫(yī)師手動標(biāo)注的結(jié)果高度一致(圖3)。人工智能算法識別病理特征的性能評估結(jié)果顯示,在測試集脂肪變性細(xì)胞圖像上DSC 為0.87,MIoU 為0.80,MA 為0.88,靈敏度為0.84;在測試集炎癥細(xì)胞圖像上DSC 為0.84,MIoU 為0.78,MA 為0.85,靈敏度為0.80。在纖維化病理圖像上進(jìn)行肝纖維化識別,人工智能算法對于肝纖維化的識別準(zhǔn)確性較高(圖4)。
2.2 病理特征參數(shù)分析結(jié)果 65 張H-E 染色數(shù)字病理切片中55 張切片的脂肪變性細(xì)胞機(jī)器評分與人工NAS 評分相同,吻合率為84.6%。其中機(jī)器評分為0 分的切片7 張,PFA 為0.019 4±0.005 6;機(jī)器評分為1 分的切片22 張,PFA 為0.181 3±0.085 0;機(jī) 器 評 分 為2 分 的 切 片23 張,PFA 為0.466 7±0.088 6;機(jī)器評分為3 分的切片13 張,PFA 為0.704 5±0.022 2。65 張病理切片的PFA 為0.371(0.013~0.743)。Spearman 秩相關(guān)分析顯示,PFA 與脂肪變性細(xì)胞機(jī)器評分和人工NAS 評分均存在正相關(guān)關(guān)系(rs=0.953、0.928,P均<0.001)。
65 張H-E 染色數(shù)字病理切片中49 張切片的炎癥細(xì)胞機(jī)器評分與人工NAS 評分相同,吻合率為75.4%。其中機(jī)器評分為0 分的切片12 張,DIC 為(30.25±8.65)/mm2;機(jī)器評分為1 分的切片32 張,DIC 為(261.81±80.66)/mm2;機(jī)器評分為2 分的切片19 張,DIC 為(519.42±154.67)/mm2;機(jī)器評分為3 分的切片2 張,平均DIC 為870.00/mm2。65 張 病 理 切 片 的DIC 為288(19~894)/mm2。Spearman 秩相關(guān)分析顯示,DIC 與炎癥細(xì)胞機(jī)器評分和人工NAS 評分均存在正相關(guān)關(guān)系(rs=0.883、0.869,P均<0.001)。
65 張?zhí)炖切杉t染色數(shù)字病理切片中52 張切片的纖維化機(jī)器評分與人工NAS 評分相同,吻合率為80.0%。其中機(jī)器評分為0 分的切片5 張,RFA為0.002 4±0.000 9;機(jī)器評分為1A 的切片9 張,RFA 為0.018 6±0.005 4;機(jī)器評分為1B 的切片17 張,RFA 為0.040 7±0.004 7;機(jī)器評分為1C 的切片26 張,RFA 為0.059 6±0.005 8;機(jī)器評分為2 分的切片6 張,RFA 為0.083 2±0.004 6;機(jī)器評分為3 分的切片2 張,平均RFA 為0.118 0。65 張病理切片的RFA 為0.048 5±0.025 4。Spearman 秩相關(guān)分析顯示,RFA 與纖維化機(jī)器評分和人工NAS評分均呈正相關(guān)(rs=0.887、0.749,P均<0.001)。
病理組織學(xué)檢查是明確診斷、衡量炎癥活動度、脂肪變性和纖維化程度,以及判定藥物療效的重要依據(jù)[3]。病理醫(yī)師對病理圖像分析與結(jié)果判斷是否準(zhǔn)確,在很大程度上取決于自身的臨床經(jīng)驗(yàn),這不僅是一個(gè)費(fèi)時(shí)、費(fèi)力的過程,而且易出現(xiàn)漏診,甚至對于同一張病理圖像,不同的醫(yī)師由于經(jīng)驗(yàn)、精神狀態(tài)等主、客觀因素的影響可能會做出不同的診斷結(jié)論。因此,急需深度學(xué)習(xí)等新技術(shù)使高水平醫(yī)療資源惠及大眾,在減輕醫(yī)師負(fù)擔(dān)的同時(shí)輔助診斷,提高醫(yī)療服務(wù)水平。
NAFLD 的病理診斷是其分期、分型的關(guān)鍵環(huán)節(jié)之一,診斷結(jié)果影響著臨床診療方案的制定。近年來,人工智能被越來越多地應(yīng)用于NAFLD的研究[16],隨著全玻片數(shù)字化掃描儀的使用,基于全視野數(shù)字切片(whole slide image,WSI)的NAFLD 病理特征分析的研究逐漸增多。2019 年,荷蘭拉德堡德大學(xué)的研究人員在肝臟組織WSI 上開發(fā)了脂肪變性的數(shù)字化自動定量方法,進(jìn)一步驗(yàn)證發(fā)現(xiàn)該方法能夠自動計(jì)算PFA[17]。2021 年,Taylor-Weiner 等[18]提出了一種基于機(jī)器學(xué)習(xí)的肝臟組織學(xué)評估方法,該方法通過機(jī)器學(xué)習(xí)算法測量脂肪變性、炎癥、氣球樣變和纖維化程度,以準(zhǔn)確評估NAFLD 的嚴(yán)重程度和異質(zhì)性。但是,當(dāng)前的病理人工智能算法系統(tǒng)面臨著臨床應(yīng)用困難的問題。本研究亦探索了深度學(xué)習(xí)模型能否對NAFLD的病理圖像進(jìn)行分析,并可視化和定量其病理特征,結(jié)果顯示深度學(xué)習(xí)模型能夠準(zhǔn)確評估NAFLD的嚴(yán)重程度和異質(zhì)性,這將為NAFLD 的藥物研發(fā)、生物標(biāo)志物識別及基礎(chǔ)醫(yī)學(xué)機(jī)制研究提供思路和幫助。
利用人工智能算法識別NAFLD 能夠減輕醫(yī)師的工作量、提高診斷精準(zhǔn)度和杜絕造假的可能性。此外,定量和可視化病理特征也會對NAFLD 的評估產(chǎn)生積極影響。根據(jù)肉眼觀察到的特征進(jìn)行評分極具主觀性,因此利用人工智能算法定量數(shù)據(jù)進(jìn)行分級是未來研究的重點(diǎn)。值得一提的是,在基于人工智能算法識別脂肪變性細(xì)胞、炎癥細(xì)胞和纖維化,并根據(jù)得到的PFA、DIC、RFA 對所有病理切片參照NAS 評分系統(tǒng)進(jìn)行機(jī)器評分后發(fā)現(xiàn),PFA、DIC、RFA 與通過人工智能算法得到的機(jī)器評分和人工NAS 評分之間均呈正相關(guān),驗(yàn)證了相關(guān)算法的有效性,然而3 個(gè)病理特征的機(jī)器評分與人工NAS 評分之間存在不一致的現(xiàn)象,吻合率均在80%左右,原因可能是傳統(tǒng)的人工NAS 評分不夠精準(zhǔn)和本研究納入數(shù)據(jù)量較小,具體原因有待進(jìn)一步研究。
模擬人類NAFLD 的小鼠模型不僅為研究NAFLD 的發(fā)病機(jī)制提供了有力的研究工具,也為相關(guān)藥物的開發(fā)提供了良好的實(shí)驗(yàn)?zāi)P汀H欢魏蝿游锬P偷膽?yīng)用都無法很好地對人類疾病進(jìn)行表征,本研究僅使用了模型小鼠病理切片,研究結(jié)果還有待進(jìn)一步驗(yàn)證,并且只有在動物模型上實(shí)現(xiàn)有效性和安全性并獲得足夠的數(shù)據(jù)支持后才能進(jìn)一步申請開展臨床試驗(yàn)。
基于人工智能算法的NAFLD 病理特征識別模型在NAFLD 病理檢查中可準(zhǔn)確識別病理特征,能夠幫助病理醫(yī)師提高識別NAFLD 病理特征的效率與準(zhǔn)確率,準(zhǔn)確評估疾病嚴(yán)重程度和異質(zhì)性,以及進(jìn)行正確的疾病分級與分期和療效評估,從而提高診斷準(zhǔn)確性和客觀性。