(1 北京航空航天大學(xué)計(jì)算機(jī)學(xué)院,北京 100083; 2 青島大學(xué)附屬醫(yī)院,山東省數(shù)字醫(yī)學(xué)與計(jì)算機(jī)輔助手術(shù)重點(diǎn)實(shí)驗(yàn)室,山東省高等學(xué)校數(shù)字醫(yī)學(xué)臨床診療與營養(yǎng)健康協(xié)同創(chuàng)新中心; 3 北京建筑大學(xué)電氣與信息工程學(xué)院)
隨著計(jì)算機(jī)視覺技術(shù)與存儲技術(shù)的快速發(fā)展,研究人員已經(jīng)在醫(yī)學(xué)影像領(lǐng)域提出了很多基于圖像的分析、輔助診斷工具,例如自動并且高效地完成一些常規(guī)的病理圖像分析任務(wù),或精確地對一腫瘤組織給出定位或病理等級等等。近年來,隨著深度學(xué)習(xí)技術(shù)特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型在目標(biāo)檢測以及分割方面的發(fā)展,基于CNN的方法連續(xù)在MICCIA的病理全切片腫瘤細(xì)胞識別挑戰(zhàn)賽中取得了很好的成績[1],CIREGAN等[1]基于CNN的概率圖加后處理技術(shù)實(shí)現(xiàn)了對乳腺癌病理圖像有絲分裂細(xì)胞的檢測,借助非極大值抑制(NMS)提升最終的檢測效果。DONG等[2]提出了一個9層的CNN結(jié)構(gòu),基于圖像的YUV色彩空間信息對斑馬魚細(xì)胞進(jìn)行探測。MAO等[3]提出了一個基于7層CNN的探測方法,并實(shí)現(xiàn)針對圓形腫瘤細(xì)胞的不同模態(tài)顯微圖像的探測。有學(xué)者將細(xì)胞檢測問題轉(zhuǎn)化為逐級優(yōu)化問題,并實(shí)現(xiàn)了對神經(jīng)細(xì)胞和肺癌細(xì)胞核的探測[4]。全切片技術(shù)可以對細(xì)胞進(jìn)行多尺度成像,SONG等[5]針對此類細(xì)胞圖像提出了一個多尺度CNN框架,從而實(shí)現(xiàn)了對細(xì)胞的多尺度交叉探測。本研究提出了一種基于U-Net的乳腺癌淋巴結(jié)病理切片中的細(xì)胞檢測方法,用以輔助醫(yī)生進(jìn)行乳腺癌細(xì)胞的篩查?,F(xiàn)將結(jié)果報(bào)告如下。
樣本來源于凱斯西儲大學(xué)49例淋巴結(jié)陰性和雌激素受體陽性的乳腺癌病人[6]。每幅圖像的尺寸為2 200×2 200像素,每張圖片大約有1 500個核。HE染色乳腺組織病理學(xué)玻片,采用高分辨率全玻片掃描儀Aperio ScanScope digitizer在40倍光學(xué)放大率下掃描并輸入至計(jì)算機(jī)。將圖像隨機(jī)分為兩組進(jìn)行訓(xùn)練。
將數(shù)據(jù)集中標(biāo)注癌細(xì)胞的區(qū)域裁剪出來(圖1A),并在標(biāo)注為癌細(xì)胞的位置作出癌細(xì)胞的mask(圖1B),作為訓(xùn)練過程的原始圖像與目標(biāo)圖像(像素值均縮放到0~1范圍內(nèi))。
采用深度學(xué)習(xí)中的U-Net[7]網(wǎng)絡(luò)架構(gòu)對乳腺癌細(xì)胞的病理切片進(jìn)行分割,并對乳腺癌細(xì)胞進(jìn)行自動檢測。
在自然圖像和醫(yī)學(xué)圖像領(lǐng)域,圖像分割都是一個重要的步驟。CNNs將每個像素點(diǎn)用其周圍的像素所表示來對每個像素進(jìn)行單獨(dú)的分類。原始的滑動窗口方法因?yàn)槠涿看斡?jì)算相鄰像素時都會有重疊部分,這使得相同的計(jì)算會重復(fù)多次。因?yàn)榫矸e和內(nèi)積操作都是線性算子,所以將全連接層重寫為卷積層,將大大提高卷積網(wǎng)絡(luò)的效率。CNNs可以接受比其訓(xùn)練時尺寸更大的圖像的輸入,并且產(chǎn)生一個概率譜圖。
然而,因?yàn)槌鼗瘜拥拇嬖冢瑢?dǎo)致輸出的結(jié)果比輸入圖片的分辨率低。“轉(zhuǎn)移和合并”是LONG等[8]在2015年提出的一種防止圖片分辨率下降的方法。FCN通過將輸出結(jié)果合并在一起,得到了高分辨率的輸出結(jié)果,減少了由于有效卷積操作而帶來的像素?fù)p失。
RONNEBERGER等[7]在同年吸取了FCN的優(yōu)點(diǎn),進(jìn)一步地提出了U-Net結(jié)構(gòu)。U-Net在基礎(chǔ)的FCN結(jié)構(gòu)之后又加入了上采樣操作,將整個結(jié)構(gòu)分為圖像的收縮和擴(kuò)張兩個部分。雖然這不是首次提出在網(wǎng)絡(luò)結(jié)構(gòu)中加入上采樣操作,但是U-Net在收縮和擴(kuò)張兩個過程之間加入了聯(lián)結(jié)操作,使得輸出的結(jié)果能夠更加地逼近預(yù)期。FROMER等[9]在2016年將此方法運(yùn)用在三維數(shù)據(jù)中并取得良好效果。MILLETARI等[10]同年基于U-Net延伸出了加入殘差模塊和Dice損失函數(shù)的V-Net,由于不再采用交叉熵?fù)p失函數(shù),得到的分割結(jié)果更加接近于預(yù)期結(jié)果。
采用U-Net的端到端網(wǎng)絡(luò)結(jié)構(gòu)對數(shù)據(jù)集進(jìn)行訓(xùn)練,U-Net結(jié)構(gòu)圖如圖2。深度學(xué)習(xí)中主要通過卷積操作來獲取圖片中的信息,并通過這些信息來對結(jié)果進(jìn)行預(yù)測。本文所用到的U-Net結(jié)構(gòu)首先通過卷積操作來對乳腺癌病理圖像進(jìn)行信息提取(癌細(xì)胞的紋理、大小、形狀、色澤等),再通過上采樣操作使富集的信息“翻譯”到整張圖片上,得到每一個像素點(diǎn)處屬于癌細(xì)胞的概率。
通過數(shù)據(jù)增強(qiáng)來增加訓(xùn)練數(shù)據(jù),本研究采用旋轉(zhuǎn)和數(shù)據(jù)正則化兩個操作來構(gòu)建網(wǎng)絡(luò)輸入的生成器,使得訓(xùn)練及測試數(shù)據(jù)擴(kuò)大了4倍。為了使得預(yù)測結(jié)果更加接近真實(shí)結(jié)果,本研究采用U-Net網(wǎng)絡(luò)中常用的損失函數(shù)Dice:
其中,P為網(wǎng)絡(luò)預(yù)測的結(jié)果,T為真實(shí)的癌細(xì)胞圖像的mask。
通過損失函數(shù)Dice,網(wǎng)絡(luò)的預(yù)測結(jié)果將逐漸逼近真實(shí)結(jié)果,在經(jīng)過500次訓(xùn)練之后,將最后20次迭代的模型融合,得到較為準(zhǔn)確的預(yù)測模型。見圖3。
A:原始癌細(xì)胞圖像;B:癌細(xì)胞的mask。
圖2 U-Net結(jié)構(gòu)圖
A:原圖像,B:預(yù)測結(jié)果,C:真實(shí)結(jié)果。
本實(shí)驗(yàn)采用十等分交叉驗(yàn)證對模型進(jìn)行評估,即將訓(xùn)練集圖片十等分,每次取其中9份作為訓(xùn)練集,剩下的1份作為驗(yàn)證集,最終將模型在測試集上進(jìn)行評估。
Dice得到的準(zhǔn)確率衡量預(yù)測結(jié)果與真實(shí)結(jié)果的重合程度,是對整張圖片的度量,但由于癌細(xì)胞形狀不都為規(guī)則的圓形,所以本文采用檢測準(zhǔn)確率對模型進(jìn)行進(jìn)一步評估,即對圖片中每個細(xì)胞進(jìn)行進(jìn)一步的評估。
對每個癌細(xì)胞預(yù)測的準(zhǔn)確率(p)作為評估標(biāo)準(zhǔn)。p=c_s-c_p,其中c_s為真實(shí)結(jié)果中癌細(xì)胞圓心所在位置的像素值(0~1),c_p為預(yù)測結(jié)果中癌細(xì)胞圓心所在位置的像素值(0~1)。將所有癌細(xì)胞進(jìn)行統(tǒng)計(jì)分析,結(jié)果見表1。通過表1可以看出模型對于癌細(xì)胞非常敏感,圖片中存在的癌細(xì)胞基本可以檢測到。
表1 癌細(xì)胞檢測結(jié)果(χ/%)
注:準(zhǔn)確率為模型對每張圖片擬合效果的度量結(jié)果;檢測準(zhǔn)確率為測試階段針對每個細(xì)胞的度量結(jié)果。
深度學(xué)習(xí)方法目前已經(jīng)在很多實(shí)際任務(wù)上有所突破,并且這些任務(wù)可以應(yīng)用到醫(yī)學(xué)問題中,進(jìn)而解決相應(yīng)的醫(yī)學(xué)問題[11-16]。同時,一些特定的醫(yī)學(xué)領(lǐng)域如放射基因組學(xué)、預(yù)后評估等都可以用機(jī)器學(xué)習(xí)及深度學(xué)習(xí)來解決[17-20]。
本研究模型在不考慮假陽性的情況下達(dá)到了100%的準(zhǔn)確率,通過實(shí)驗(yàn)結(jié)果可以看出,本模型漏診概率小,但是會檢測出相當(dāng)一部分假陽性的細(xì)胞。有以下幾種原因:①醫(yī)生在進(jìn)行判斷時會對病人進(jìn)行綜合考慮,比如病人的病狀、并發(fā)癥等等,但網(wǎng)絡(luò)只能從圖片中獲取信息。②標(biāo)注的病理圖像中有許多類似但標(biāo)注不同的細(xì)胞,導(dǎo)致模型無法識別。③沒有精確的mask給予網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。
本研究實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)在病理圖像的細(xì)胞檢測及分割方面具有良好的表現(xiàn);模型泛化效果較好,對于不明顯的細(xì)胞也能給出其為癌細(xì)胞的概率(通過結(jié)果中的顏色深淺表示)。
本實(shí)驗(yàn)說明深度學(xué)習(xí)可以比人識別得更快,雖然會有假陽性的出現(xiàn),但這會大大減少病理醫(yī)生的工作量。在醫(yī)學(xué)圖像方面還有很大的空間可以發(fā)揮深度學(xué)習(xí)的作用,如CT、MRI等圖像都可以通過深度學(xué)習(xí)來進(jìn)行疾病預(yù)測、病灶分割等實(shí)際應(yīng)用。