国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的結(jié)腸癌病理圖片分類(lèi)研究*

2021-07-07 09:27:18廣州醫(yī)科大學(xué)公共衛(wèi)生學(xué)院511436鐘碧霞周冠群許文琪
關(guān)鍵詞:集上準(zhǔn)確度分化

廣州醫(yī)科大學(xué)公共衛(wèi)生學(xué)院(511436) 鐘碧霞 周冠群 許文琪 趙 倩

【提 要】 目的 本研究探討基于深度學(xué)習(xí)算法的結(jié)腸癌病理組織切片的診斷模型,對(duì)癌旁正常和腫瘤組織以及不同分化程度的腫瘤組織進(jìn)行自動(dòng)分類(lèi)。方法 經(jīng)公共數(shù)據(jù)庫(kù)TCGA收集117名結(jié)腸癌患者的全切片病理圖,分割成不重疊的4440張子圖片,按8∶1∶1的比例隨機(jī)劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。基于Python語(yǔ)言的TensorFlow框架,采用Inception-v3模型和遷移學(xué)習(xí)算法構(gòu)建模型。結(jié)果 對(duì)癌旁正常和腫瘤組織構(gòu)建診斷模型,測(cè)試集的準(zhǔn)確度為99.8%,靈敏度為99.7%,特異度為100%;對(duì)低分化和中分化腫瘤組織構(gòu)建診斷模型,測(cè)試集的準(zhǔn)確度為94.8%,靈敏度為94.4%,特異度為95.1%;對(duì)不同分化程度腫瘤組織構(gòu)建三分類(lèi)診斷模型,測(cè)試集中癌旁正常、中分化、低分化組織的準(zhǔn)確度分別為100%、94.6%、95.2%。結(jié)論 利用Inception-v3模型和遷移學(xué)習(xí)算法對(duì)結(jié)腸癌病理組織切片構(gòu)建診斷模型,具有較高準(zhǔn)確度、查全率和查準(zhǔn)率。

結(jié)直腸癌是嚴(yán)重危害人類(lèi)健康的惡性腫瘤之一。據(jù)2018年全球癌癥統(tǒng)計(jì)報(bào)告,2018年全球結(jié)直腸癌新發(fā)病人數(shù)約180萬(wàn),占所有惡性腫瘤的10.2%;死亡人數(shù)約86.1萬(wàn),占所有腫瘤死亡人數(shù)的9.2%;其發(fā)病率在所有癌癥中排名第三位,死亡率為第二位[1]。2014年中國(guó)癌癥的統(tǒng)計(jì)數(shù)據(jù)顯示,結(jié)直腸癌新發(fā)病例約37萬(wàn),死亡例數(shù)約18萬(wàn),發(fā)病率在所有癌癥中排名第三位,死亡率為第五位[2]。結(jié)直腸癌的高發(fā)病率和高死亡率嚴(yán)重威脅著人類(lèi)健康及生命安全。

相關(guān)研究顯示,結(jié)直腸癌患者若能早發(fā)現(xiàn)、早治療,其5年生存率可高達(dá)90%;若未能進(jìn)行早期診斷,一旦癌細(xì)胞擴(kuò)散到結(jié)直腸外,患者的5年生存率將下降為14%[3]。因此,患者早期診斷的準(zhǔn)確性就顯得尤為重要。目前,活體組織病理檢查是結(jié)直腸癌診斷的金標(biāo)準(zhǔn)[4],由臨床病理醫(yī)生根據(jù)相關(guān)指導(dǎo)原則進(jìn)行分類(lèi)和分期。而人工閱片的準(zhǔn)確性取決于臨床醫(yī)師的經(jīng)驗(yàn),且工作量大、耗時(shí)長(zhǎng)。構(gòu)建具有較高準(zhǔn)確性的病理圖片診斷模型,能輔助臨床醫(yī)生快速地診斷病理圖片,提高工作效率。

本文采用深度學(xué)習(xí)中的Inception v3模型[5]和遷移學(xué)習(xí)算法[6],對(duì)公共數(shù)據(jù)庫(kù)TCGA中經(jīng)HE染色的結(jié)腸癌病理圖像構(gòu)建診斷模型,對(duì)癌旁正常和腫瘤組織以及不同分化程度的腫瘤組織進(jìn)行自動(dòng)分類(lèi)。

資料與方法

1.數(shù)據(jù)來(lái)源

本研究的數(shù)據(jù)來(lái)自于美國(guó)癌癥基因組圖譜信息中心(the cancer genome atlas,TCGA)[7]。該數(shù)據(jù)庫(kù)提供了患者基本信息和病理掃描圖片。病理標(biāo)本經(jīng)HE染色制片和顯微鏡拍照后上傳平臺(tái),并按美國(guó)癌癥聯(lián)合委員會(huì)第六版或第七版分期手冊(cè)[8-9],對(duì)病理圖片進(jìn)行分級(jí)和分期?;颊呋拘畔⒅饕獮樾詣e、年齡、病理圖片分化程度和分期。

本研究共收集了117名結(jié)腸癌患者的病理全切片掃描圖和相關(guān)病理信息。所有患者的病理圖片只含有一種分級(jí)或一種分期,不含有混合型。其中低分化患者21人,中分化患者96人。21名患者的病理圖片包含癌旁正常組織(19個(gè)中分化,2個(gè)低分化)。對(duì)于癌旁正常組織的界定,分別由兩位具有5年以上臨床經(jīng)驗(yàn)的病理醫(yī)生劃分腫瘤邊界,確定癌旁正常組織的選取范圍。若兩名醫(yī)生意見(jiàn)不一致,則由討論后共同商定。

將117名患者的病理全切片圖分割成不重疊的512×512大小的高分辨率子圖片,共得到癌旁正常組織的圖片729張、中分化腫瘤組織2393張、低分化腫瘤組織1318張,并根據(jù)病理結(jié)果來(lái)制作圖片標(biāo)簽。如圖1所示。從細(xì)胞形態(tài)學(xué)看,正常的結(jié)腸腺體排列整齊、大小均勻,癌變的腺體發(fā)生不同程度的畸變,排列紊亂,并且上皮細(xì)胞質(zhì)消失。癌旁正常與腫瘤組織細(xì)胞形態(tài)學(xué)差異較大。

圖1 經(jīng)HE染色結(jié)腸癌病理組織切片

2.模型的介紹

(1)Inception-v3模型

2014年Christian Szegedy提出一種全新的深度學(xué)習(xí)框架GoogLeNet[10],深度有22層,參數(shù)達(dá)到500萬(wàn)。GoogLeNet最大的特點(diǎn)是具有Inception 模塊,通過(guò)對(duì)輸入圖像進(jìn)行1×1、3×3 或 5×5 等不同的卷積運(yùn)算與池化操作,獲取更好的圖像特征。Inception-v3模型是一種廣泛使用的圖片識(shí)別模型,在Inception-v1和Inception-v2的基礎(chǔ)上發(fā)展起來(lái)[5]。主要由11個(gè)Inception模塊組成,包括卷積層、平均池化層、最大池化層、連接層、丟包(dropout)層和全連接層。其中卷積層數(shù)約為100層,模型參數(shù)超過(guò)2500萬(wàn)。Inception-v3模型通過(guò)分解卷積層可增加網(wǎng)絡(luò)的深度和非線性,降低參數(shù)數(shù)量,減輕過(guò)擬合問(wèn)題。

(2)遷移學(xué)習(xí)

由于Inception-v3的模型參數(shù)數(shù)量較大,卷積層數(shù)較多,因而需要大規(guī)模的已標(biāo)記樣本進(jìn)行模型訓(xùn)練,對(duì)于臨床數(shù)據(jù)而言通常難以實(shí)現(xiàn)。常采用遷移學(xué)習(xí)的方法來(lái)解決這一問(wèn)題。遷移學(xué)習(xí)是通過(guò)對(duì)大規(guī)模已標(biāo)記的數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練,將得到的網(wǎng)絡(luò)參數(shù)遷移到目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào)訓(xùn)練[6],即對(duì)問(wèn)題甲訓(xùn)練好的網(wǎng)絡(luò)模型通過(guò)調(diào)整參數(shù)用于解決問(wèn)題乙。通常選取ImageNet數(shù)據(jù)集的120余萬(wàn)張標(biāo)注圖片對(duì)1000多個(gè)目標(biāo)進(jìn)行網(wǎng)絡(luò)訓(xùn)練[11],作為預(yù)訓(xùn)練好的Inception模型。

本文采用Google提供的預(yù)訓(xùn)練Inception-v3網(wǎng)絡(luò)模型,將底層的權(quán)重參數(shù)作為初始值來(lái)重新訓(xùn)練,將訓(xùn)練好瓶頸層遷移到本研究數(shù)據(jù)集上,替換最后一層全連接層。這樣可避免計(jì)算機(jī)內(nèi)存不足,獲得更準(zhǔn)確的權(quán)重參數(shù),減少模型訓(xùn)練的時(shí)間,提高模型的收斂速度和精度。

(3)模型訓(xùn)練策略

采用Inception-v3遷移學(xué)習(xí)模型對(duì)結(jié)腸癌病理圖像進(jìn)行建模,首先按照隨機(jī)化的原則對(duì)分割好的圖片按8∶1∶1 的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中,訓(xùn)練集用于訓(xùn)練模型,尋找損失函數(shù)最小的模型參數(shù);驗(yàn)證集用于確定模型超參數(shù),選出最優(yōu)模型;測(cè)試集用于對(duì)訓(xùn)練好的最優(yōu)模型進(jìn)行性能評(píng)估。按隨機(jī)化的原則產(chǎn)生8∶1∶1數(shù)據(jù)集的步驟如下:隨機(jī)產(chǎn)生[0,99]的服從均勻分布的整數(shù),每一張圖片對(duì)應(yīng)一個(gè)隨機(jī)數(shù);隨機(jī)數(shù)在[0,79]之間的圖片歸為訓(xùn)練集,[80,89]為驗(yàn)證集,[90,99]為測(cè)試集。癌旁正常組織、腫瘤組織、中分化腫瘤組織、低分化腫瘤組織分割好后的圖片,分別按照上述隨機(jī)化原則產(chǎn)生訓(xùn)練集、驗(yàn)證集和測(cè)試集。即:3711張腫瘤組織圖片隨機(jī)分成訓(xùn)練集2975張、驗(yàn)證集370張和測(cè)試集366張;2393張中分化圖片隨機(jī)分成訓(xùn)練集1928張、驗(yàn)證集242張和測(cè)試集223張;1318張低分化圖片隨機(jī)分成訓(xùn)練集1073張、驗(yàn)證集119張和測(cè)試集126張;729張癌旁正常圖片隨機(jī)分成訓(xùn)練集596張,驗(yàn)證集66張和測(cè)試集67張。如表1所示。

表1 模型1~3的訓(xùn)練集、驗(yàn)證集和測(cè)試集

選取隨機(jī)梯度下降(stochastic gradient descent,SGD)作為優(yōu)化器[12],設(shè)置初始學(xué)習(xí)率為0.01,批尺寸(batch_size)為32,最大迭代次數(shù)為1000。基于Python的TensorFlow框架上完成模型構(gòu)建,具體研究路線見(jiàn)圖2。

圖2 Inception-v3遷移學(xué)習(xí)模型路線圖

(4)模型的評(píng)價(jià)標(biāo)準(zhǔn)

本文采用準(zhǔn)確度(Acc)、靈敏度(Sen)、特異度(Spe)、陽(yáng)性預(yù)測(cè)值(PPV)、陰性預(yù)測(cè)值(NPV)、Youden指數(shù)(YI)、F1-score、ROC曲線、PRC曲線(precision recall curve)進(jìn)行模型的性能評(píng)價(jià)。在機(jī)器學(xué)習(xí)中,靈敏度也稱(chēng)為召回率(recall),陽(yáng)性預(yù)測(cè)值也稱(chēng)為精確率(precision)[13],F(xiàn)1-score是precision和recall的調(diào)和均數(shù)[13],PRC曲線描述precision隨recall變化關(guān)系[14-15]。

結(jié) 果

1.結(jié)腸癌患者的基本信息

本研究共納入117名結(jié)腸癌患者,男性59人,占50.4%。平均年齡為(69.3±12.7)歲,最小31歲,最大90歲?;颊叩哪[瘤的分化、分期信息見(jiàn)表2。

表2 結(jié)腸癌患者的基本信息及腫瘤的分化、分期信息

2.Inception-v3遷移學(xué)習(xí)模型評(píng)價(jià)

模型1:癌旁正常和腫瘤組織的預(yù)測(cè)

對(duì)癌旁正常和腫瘤組織圖像進(jìn)行建模,驗(yàn)證集上的損失函數(shù)隨著訓(xùn)練次數(shù)的增大而減少,最終收斂到0,見(jiàn)圖3中模型1。

圖3 三個(gè)模型在驗(yàn)證集上的損失函數(shù)隨訓(xùn)練次數(shù)變化曲線

在測(cè)試集上,模型預(yù)測(cè)的準(zhǔn)確度為99.8%,靈敏度為99.7%,特異度為100%,陽(yáng)性預(yù)測(cè)值為100%,陰性預(yù)測(cè)值為98.5%,Youden指數(shù)為0.997,F(xiàn)1-score為99.9%,僅有1例腫瘤組織誤判為正常,詳見(jiàn)表3。圖4(a)為對(duì)應(yīng)ROC和PRC曲線,兩條曲線下的面積均為1。圖5(a)為被誤判成癌旁正常的腫瘤組織圖片。

表3 三個(gè)模型在測(cè)試集上的性能評(píng)價(jià)

圖4 三個(gè)模型在測(cè)試集上的ROC和PRC曲線

圖5 三個(gè)模型在測(cè)試集上分類(lèi)錯(cuò)誤的圖片(a)和(b)為模型1測(cè)試集中的圖片,(a)被誤判為正常的腫瘤組織圖片,(b)為癌旁正常組織的圖片;(c)和(d)為模型2測(cè)試集中的圖片,(c)為中分化腫瘤被誤判成低分化,(d)為低分化腫瘤被誤判中分化;(e)和(f)為模型3測(cè)試集中的圖片,(e)為中分化腫瘤被誤判成低分化,(d)為低分化腫瘤被誤判成中分化。

模型2:低分化、中分化腫瘤組織的預(yù)測(cè)

對(duì)中分化和低分化的腫瘤組織圖像進(jìn)行建模,驗(yàn)證集上的損失函數(shù)隨著訓(xùn)練次數(shù)的增大而減少,但波動(dòng)較大、變異增大,見(jiàn)圖3中模型2。

在測(cè)試集上,模型預(yù)測(cè)的準(zhǔn)確度為94.8%,靈敏度為94.4%,特異度為95.1%,陽(yáng)性預(yù)測(cè)值為91.5%,陰性預(yù)測(cè)值為96.8%,Youden 指數(shù)為0.895,F(xiàn)1-score為93.0%,詳見(jiàn)表3。圖4(b)為對(duì)應(yīng)ROC和PRC曲線,AUC為0.99,PRC曲線下的面積(AUCPR)為0.98。圖5(c)為中分化腫瘤被誤判成低分化腫瘤,圖5(d)為低分化腫瘤被誤判成中分化腫瘤。

模型3:不同分化程度腫瘤組織的預(yù)測(cè)

對(duì)癌旁正常組織、中分化腫瘤組織和低分化腫瘤組織圖像進(jìn)行三分類(lèi)建模,驗(yàn)證集上的損失函數(shù)隨著訓(xùn)練次數(shù)的增大而減少,但波動(dòng)較大、變異增大,與模型2的曲線較為接近,見(jiàn)圖3中模型3。

在測(cè)試集上,整體準(zhǔn)確度為95.7%(398/416)。癌旁正常組織的準(zhǔn)確度為100%(67/67),中分化腫瘤組織的準(zhǔn)確度為94.6%(211/223),低分化腫瘤組織的準(zhǔn)確度為95.2%(120/126)。分別對(duì)癌旁正常組織、中分化腫瘤組織和低分化腫瘤組織的預(yù)測(cè)結(jié)果,轉(zhuǎn)為二分類(lèi)進(jìn)行性能評(píng)價(jià),見(jiàn)表3。圖4(c)為對(duì)應(yīng)ROC和PRC曲線。其中,癌旁正常組織模型對(duì)應(yīng)的AUC=1,AUCPR=1;中分化組織模型對(duì)應(yīng)的AUC=0.992,AUCPR=0.993;低分化組織模型對(duì)應(yīng)的AUC=0.991,AUCPR=0.978。在ROC曲線幾乎重合的情形下,中分化組織對(duì)應(yīng)的PRC曲線略?xún)?yōu)于低分化組織對(duì)應(yīng)的PRC曲線。圖5(e)為中分化腫瘤被誤判成低分化腫瘤,圖5(f)為低分化腫瘤被誤判成中分化腫瘤。

討 論

結(jié)腸癌嚴(yán)重危害人類(lèi)的健康,采用深度學(xué)習(xí)算法對(duì)HE染色的結(jié)腸病理圖像進(jìn)行輔助診斷具有重要的臨床意義。本文使用Inception-v3遷移學(xué)習(xí)模型,對(duì)TCGA數(shù)據(jù)庫(kù)中的癌旁正常組織和腫瘤組織,不同分化程度腫瘤組織的病理圖像進(jìn)行診斷分類(lèi),具有較高的準(zhǔn)確度、靈敏度和特異度。在本研究的測(cè)試集中,三個(gè)模型的靈敏度、特異度和準(zhǔn)確度均達(dá)到94%以上,具有較好的區(qū)分度。

傳統(tǒng)的機(jī)器學(xué)習(xí)方法如支持向量機(jī)、隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)也可用于結(jié)直腸癌的病理分類(lèi)[16-19]。針對(duì)癌旁正常組織和腫瘤組織病理圖像的分類(lèi)算法,其準(zhǔn)確度為55.0%~100%[16-17],針對(duì)結(jié)直腸癌不同分化程度的分類(lèi)算法,其準(zhǔn)確度為44.6%~95.5%[17-19],準(zhǔn)確度的變化范圍較大。出現(xiàn)這種現(xiàn)象的主要原因是,這些傳統(tǒng)方法的輸入通常為一個(gè)或多個(gè)一維的變量或特征,對(duì)于二維或三維的圖像數(shù)據(jù),需要先提取圖像特征。如通過(guò)共生矩陣獲取圖像紋理信息、通過(guò)圖像的邊緣特點(diǎn)獲取其形態(tài)特征等??梢?jiàn),如何選取有效的圖像特征、有區(qū)分性的高質(zhì)量特征以及選取多少數(shù)量的特征,是傳統(tǒng)的機(jī)器學(xué)習(xí)方法能否具有較好的準(zhǔn)確度的關(guān)鍵所在,存在一定主觀性。

深度學(xué)習(xí)方法不需要提取圖像的一維特征,而是直接把二維的圖像以矩陣的方式放入模型進(jìn)行訓(xùn)練,通過(guò)深度網(wǎng)絡(luò)的訓(xùn)練和學(xué)習(xí)直接獲取圖像特征從而進(jìn)行最優(yōu)分類(lèi)。深度學(xué)習(xí)方法讓模型自動(dòng)從原始圖像中學(xué)習(xí)特征,避免了傳統(tǒng)算法中人工設(shè)計(jì)、特征提取的復(fù)雜性和局限性。本研究所構(gòu)建的三個(gè)Inception-v3遷移學(xué)習(xí)模型的準(zhǔn)確度(99.8%,94.8%,95.7%),也高于傳統(tǒng)機(jī)器學(xué)習(xí)的平均水平。

2015年Kainz等人[20]采用深度卷積神經(jīng)網(wǎng)絡(luò),對(duì)Warwick-QU 數(shù)據(jù)庫(kù)中165幅已標(biāo)記的結(jié)腸正常組織和腫瘤組織的病理圖像進(jìn)行分類(lèi),其準(zhǔn)確性為95%。本研究在測(cè)試集上的準(zhǔn)確性達(dá)到99.8%,比深度卷積神經(jīng)網(wǎng)絡(luò)提高了4.8%。Inception-v3遷移學(xué)習(xí)模型具有更高的準(zhǔn)確性和模型精度。

另一方面,Inception-v3遷移學(xué)習(xí)模型也存在一些不足。從圖5中的誤判圖片可看出,該模型對(duì)于形態(tài)特征非常相似的病理圖片難以分辨。當(dāng)不同分化程度的腫瘤細(xì)胞的輪廓較為相似時(shí),該模型容易出現(xiàn)誤判。此外,本課題組前期研究發(fā)現(xiàn),該模型對(duì)不同T分期的病理圖片的分類(lèi)準(zhǔn)確度較低。

因此,Inception-v3遷移學(xué)習(xí)模型分類(lèi)效果的好壞,完全取決于不同分類(lèi)間的病理圖像差異或相似度的大小。如果差異大,如正常和腫瘤圖片,則分類(lèi)效果好、準(zhǔn)確度高。反之如果差異小,如不同T分期圖片,則準(zhǔn)確率較低。這可能需要對(duì)卷積層或池化層進(jìn)行重新設(shè)計(jì),最大化放大不同類(lèi)別之間的差異。這些問(wèn)題仍需要進(jìn)一步探討和研究。

由于患者的相關(guān)臨床信息較少,本文主要考慮單純依靠病理圖片信息,可提供多大的診斷效能[21]。下一步可考慮進(jìn)行臨床試驗(yàn)設(shè)計(jì),收集患者的有效臨床信息,進(jìn)一步考慮基于病理圖片和臨床信息的混合模型[22]。還可在深度學(xué)習(xí)模型中自適應(yīng)地提取圖像特征[23-24],再采用傳統(tǒng)的支持向量機(jī)、隨機(jī)森林構(gòu)建新的混合模型。此外,深度學(xué)習(xí)計(jì)算量較大,對(duì)樣本標(biāo)記、樣本量和硬件的要求較高。

猜你喜歡
集上準(zhǔn)確度分化
兩次中美貨幣政策分化的比較及啟示
分化型甲狀腺癌切除術(shù)后多發(fā)骨轉(zhuǎn)移一例
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
建筑科技(2018年6期)2018-08-30 03:40:54
復(fù)扇形指標(biāo)集上的分布混沌
動(dòng)態(tài)汽車(chē)衡準(zhǔn)確度等級(jí)的現(xiàn)實(shí)意義
Cofilin與分化的研究進(jìn)展
高爐重量布料準(zhǔn)確度的提高
天津冶金(2014年4期)2014-02-28 16:52:58
對(duì)電子天平的誤差及保證其稱(chēng)量準(zhǔn)確度的探討
苏尼特左旗| 苗栗县| 惠来县| 开远市| 天镇县| 同仁县| 长乐市| 南木林县| 奉贤区| 乌鲁木齐市| 全州县| 盐边县| 清苑县| 任丘市| 绥棱县| 玉环县| 武陟县| 开封县| 郧西县| 广东省| 南雄市| 景德镇市| 大丰市| 车致| 来凤县| 盖州市| 莫力| 宜春市| 陕西省| 鹤岗市| 石河子市| 凯里市| 永丰县| 株洲县| 台江县| 中阳县| 霞浦县| 凤山县| 荣昌县| 神农架林区| 乳山市|