閆 雯 湯 燁 張益肇 來茂德 許 燕,*
1(北京航空航天大學(xué)生物與醫(yī)學(xué)工程系,北京航空航天大學(xué)軟件開發(fā)環(huán)境國家重點實驗室,深圳北航新興產(chǎn)業(yè)技術(shù)研究院,生物醫(yī)學(xué)工程高精尖創(chuàng)新中心) 2(微軟亞洲研究院,北京 100080) 3(浙江大學(xué)醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院,杭州 310058)
病理切片作為病理診斷的金標準,在臨床和科研中都有著十分重要的應(yīng)用。病理醫(yī)生通過對病理切片進行鏡檢,完成病理診斷和預(yù)后評估,但是這個過程通常費時費力。病理切片的數(shù)字化被認為是病理學(xué)發(fā)展過程中的重要轉(zhuǎn)折點[1]。數(shù)字病理切片的制作首先需要經(jīng)過組織染色,隨后通過顯微相機數(shù)字化為數(shù)字病理切片。但是,由于最初數(shù)字切片質(zhì)量不高,其普及程度受到一定限制。1999年,全片數(shù)字化圖像(whole slide images, WSI)[1]出現(xiàn),使病理切片的保存和傳輸更加方便安全。
隨著人工智能技術(shù)走進病理分析領(lǐng)域,病理分析不再局限于傳統(tǒng)的定性分析,逐漸向定量分析過渡[2-3]。定性分析是對切片性質(zhì)特點進行概括,并沒有形成量化指標,因此定性分析的結(jié)果不可復(fù)現(xiàn),且受主觀因素影響較大。定量分析是指依據(jù)統(tǒng)計數(shù)據(jù),建立數(shù)學(xué)模型,從而計算出與病變相關(guān)的各項指標,如有絲分裂數(shù)目、腫瘤的實質(zhì)與間質(zhì)的比例、黏液湖和癌細胞的比例等定量化指標;并根據(jù)定量指標給出病理診斷,其診斷結(jié)果更加客觀。因此,病理醫(yī)生也越來越認識到定量分析的重要性。
傳統(tǒng)機器學(xué)習(xí)算法和深度學(xué)習(xí)算法都可用于定量分析[4]。傳統(tǒng)的機器學(xué)習(xí)算法依賴于人工設(shè)計特征表達,即提取圖像的形狀、大小和紋理等特征并做特征挑選,剔除冗余特征得到最優(yōu)特征集。但是,這種人工特征的選取依賴于大量專業(yè)知識,且難以涵蓋圖像的全面特征,導(dǎo)致其使用上的局限性。
深度學(xué)習(xí)預(yù)先定義了計算規(guī)則,通過層級式網(wǎng)絡(luò)結(jié)構(gòu),將數(shù)據(jù)從輸入層傳遞到輸出層,并自動學(xué)習(xí)圖像特征表達,得到圖像的低維特征。相比其他機器學(xué)習(xí)算法,深度學(xué)習(xí)算法對大數(shù)據(jù)樣本的特征提取能力更強?;谂R床上不斷積累的WSI數(shù)據(jù),深度病理能充分發(fā)揮在大數(shù)據(jù)樣本上的優(yōu)勢,推動病理定量分析的發(fā)展,輔助醫(yī)生完成病理診斷。
因此,基于深度學(xué)習(xí)的病理切片圖像的定量分析研究,既是數(shù)字病理分析的大勢所趨,也是學(xué)術(shù)界和醫(yī)學(xué)界共同努力的方向。
深度學(xué)習(xí)是機器學(xué)習(xí)中一種包含多層隱層的人工神經(jīng)網(wǎng)絡(luò)模型,其通過組合低層特征學(xué)習(xí)到數(shù)據(jù)的高層特征表達[5]。
在通常情況下,更深的網(wǎng)絡(luò)深度意味著網(wǎng)絡(luò)具有更強的特征提取能力。但是,網(wǎng)絡(luò)深度的加深往往會導(dǎo)致模型難以收斂、計算量巨大等問題。為了克服上述問題,需要一些更強大的技術(shù)的輔助,如卷積、pooling、dropout、ReLU函數(shù)以及使用GPU訓(xùn)練網(wǎng)絡(luò)等。
在圖像處理與計算機視覺領(lǐng)域,以卷積、pooling和ReLU函數(shù)為基礎(chǔ)構(gòu)成的卷積網(wǎng)絡(luò)(ConvNet)是深度學(xué)習(xí)最常用的網(wǎng)絡(luò)結(jié)構(gòu)之一,圖1為兩層ConvNet構(gòu)成的CNN。
圖1 兩層卷積神經(jīng)網(wǎng)絡(luò)(由卷積層和池化層以及全連接層構(gòu)成)Fig.1 Two layer convolution neural network, which is constituted by the convolutional layer, the pool layer and the fully connected layer
CNN將圖像直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識別算法中復(fù)雜的人工特征設(shè)計過程。這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者其他形式的變形具有高度不變性,在計算機視覺中有廣泛的應(yīng)用。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)引入權(quán)值共享和局部視野域的概念,大大減少了權(quán)值的數(shù)量。
1)權(quán)值共享。每個隱藏神經(jīng)元具有同樣的偏置和相同的連接到局部感受野的權(quán)重。每個隱藏神經(jīng)元可以學(xué)習(xí)一種特定的特征映射,最后通過多層堆疊的方式,學(xué)習(xí)到圖片的整體特征表達。
對于l層的第j、k個隱藏神經(jīng)元,輸出為
alj=σ(wljk·a(l-1)k+blj)
(1)
式中,σ是神經(jīng)元的激活函數(shù),b是偏置的共享值,w是共享權(quán)重的數(shù)組,a是激活值。
卷積神經(jīng)網(wǎng)絡(luò)能夠自動學(xué)習(xí)到合適的權(quán)重和偏置,以至于網(wǎng)絡(luò)的輸出y(x)能夠擬合所有的訓(xùn)練輸入x。為了量化輸入x與輸出y(x)之間的差距,引入代價函數(shù)的概念,有
(2)
式中,w表示網(wǎng)絡(luò)中所有的權(quán)重的矩陣,b是所有的偏置的矩陣,n是訓(xùn)練輸入數(shù)據(jù)的個數(shù),a表示輸入為x是輸出的激活值,求和則是在所有的輸入數(shù)據(jù)x上進行的。
網(wǎng)絡(luò)訓(xùn)練的過程其實就是找到代價函數(shù)最小的時候?qū)?yīng)的權(quán)重的值。直接計算代價函數(shù)的最小值得計算量十分巨大,1986年,Rumelhart提出反向傳播算法[6],大大減少了最小化代價函數(shù)時的計算量,為加深網(wǎng)絡(luò)層數(shù)提供了可能性。
2)ReLU函數(shù)。該函數(shù)是神經(jīng)網(wǎng)絡(luò)中最常用的激活函數(shù)之一,通常與卷積層同時出現(xiàn),其公式為
f(x)=max(0,x)
(3)
式中:當(dāng)輸入x<0時,輸出為0;當(dāng)輸入x>0時,輸出x。
ReLU函數(shù)的優(yōu)點在于梯度不飽和,在反向傳播過程中,減輕了梯度彌散的問題,神經(jīng)網(wǎng)絡(luò)前幾層的參數(shù)也可以很快更新;在正向傳播過程中,計算速度更快。
3)混合層。除了上面提到的卷積層,卷積神經(jīng)網(wǎng)絡(luò)還包含混合層(pooling layer)?;旌蠈油ǔ>o接著卷積層之后使用,其作用是對卷積層的輸出信息進行降采樣,減少參數(shù)的個數(shù),避免過擬合。詳細地說,混合層將輸出的每個特征映射凝縮成一個新的特征映射,常見的混合層有最大值混合(max-pooling)和均值混合(average-pooling)。以max-pooling層為例,該層提取一定大小窗口內(nèi)特征圖的最大值作為新的特征值輸入到下一層,如圖2所示。
圖2 最大池化層(窗口大小為2×2,依次移動窗口并取該窗口內(nèi)特征圖的最大值,組成下一層的特征圖)Fig.2 Gram of the max-pooling layer, the size of sample window is 2x2. The window take the maximum value of feature map within the window, to compose the feature map of next layer
2012年,Krizhevsky提出深度卷積網(wǎng)絡(luò)AlexNet[7],在數(shù)據(jù)集ImageNet[8]上實現(xiàn)了圖像分類任務(wù)并將錯誤率降低到17.0%。在此基礎(chǔ)上,Zisserman提出了一種新的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)——VGG-Net[9]。該網(wǎng)絡(luò)采用更小的卷積核以及更深的網(wǎng)絡(luò)以增強網(wǎng)絡(luò)性能,在ImageNet數(shù)據(jù)集上將分類錯誤率降到了7.32%。同年,Szegedy提出了一種帶有Inception層CNN結(jié)構(gòu)——GoogleNet,它增大了網(wǎng)絡(luò)的深度和寬度,在Image Net數(shù)據(jù)集上測試的錯誤率為6.67%[10]。
綜上所述,卷積神經(jīng)網(wǎng)絡(luò)是圖像處理領(lǐng)域的研究熱點,這種網(wǎng)絡(luò)結(jié)構(gòu)既具備自動特征的學(xué)習(xí)能力,也具有強大的分類能力,可同時解決特征提取和分類器設(shè)計兩方面的問題。在此基礎(chǔ)之上,通過設(shè)計特定的網(wǎng)絡(luò)結(jié)構(gòu),深度學(xué)習(xí)可以解決多種計算機視覺問題,如圖像分類、圖像分割、實施目標檢測、邊緣提取等。
計算機輔助算法在病理切片分析中應(yīng)用十分廣泛,可分為傳統(tǒng)機器學(xué)習(xí)算法和深度學(xué)習(xí)算法[11]。
WSI病理圖像包含的信息量很大,包含了大量復(fù)雜、冗余的信息。因此,將圖片轉(zhuǎn)化為可挖掘的特征數(shù)據(jù),是病理分析必要的步驟。特征提取的方法可分為人工特征設(shè)計和自動特征學(xué)習(xí)兩種。
人工特征設(shè)計是指從圖像中挑選并簡化出最能有效表達圖像內(nèi)容的低維矢量,這些特征包括灰度直方圖、形狀特征、紋理結(jié)構(gòu)特征、與周圍組織的關(guān)系特征等?;趥鹘y(tǒng)機器學(xué)習(xí)算法的數(shù)字病理切片分析需要人工提取特征。但是,人工特征的應(yīng)用有以下缺點[12]:一是特征選取在很大程度上依靠專業(yè)經(jīng)驗,客觀性較差,無法表征圖片的全面信息;二是缺乏將多種人工特征融合的原則性準則。自動特征學(xué)習(xí)是指從大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)圖像的尺度不變性、形變不敏感的特征表達,能更加全面地表達圖片特征,且不受專業(yè)因素的限制[13]。深度學(xué)習(xí)算法既能夠?qū)W習(xí)到數(shù)據(jù)的特征表達,又可以作為分類器使用,這樣的“端對端”結(jié)構(gòu)具有更強的自學(xué)習(xí)能力和自適應(yīng)能力,更適合于大數(shù)據(jù)量的病理分析。
2013年,Ciresan首次證明深度學(xué)習(xí)算法能夠運用在病理切片有絲分裂的檢測工作中,并取得巨大成功[14]。愈來愈多的人意識到,深度神經(jīng)網(wǎng)絡(luò)在病理切片分析中擁有傳統(tǒng)機器學(xué)習(xí)算法無法企及的巨大潛力。目前,深度學(xué)習(xí)在病理切片自動分析算法中的應(yīng)用可以按照解決任務(wù)的不同分為3個方面:細胞或組織的分割和檢測、組織層面上的分類和癌癥分級以及其他應(yīng)用。
病理切片中的腺體形態(tài)、有絲分裂數(shù)目、細胞核大小等結(jié)構(gòu)都可以作為癌癥診斷的指標。針對某些疾病的病理診斷需求,從整張病理切片中分離出上述細胞或組織結(jié)構(gòu)是數(shù)字病理分析的基礎(chǔ)[15]。下面將分別介紹深度學(xué)習(xí)在病理切片方面的應(yīng)用情況,包括細胞和細胞核的檢測和分割、腺體的分割、有絲分裂的檢測。
2.1.1細胞和細胞核的檢測與分割
細胞和細胞核的形態(tài)學(xué)特征[16-17]、幾何學(xué)特征[18]、紋理特征[19]、形狀特征[20]等是病理分析的重要指標,因此分離出細胞等結(jié)構(gòu)對于病理診斷具有重要意義。病理切片的厚度、雜質(zhì)、切割均勻度、染色后顏色的深度以及數(shù)字圖像噪聲等因素使切片圖像存在異質(zhì)性[21](見圖3),給細胞的分割和檢測帶來了困難。
圖3 細胞核的檢測中的不利因素[15]。(a)模糊;(b)重疊;(c)異質(zhì)性Fig.3 Negative factors in nuclear examination. (a)Blurring;(b)Overlap; (c) Heterogeneity,source
有研究表明,將人工特征與CNN提取的特征相結(jié)合,可以有效降低人工特征的敏感性,并減少CNN的計算量[12]。Wang等將人工設(shè)計的特征與CNN自動提取的特征相融合,用于乳腺病理切片中細胞核的檢測[22],相比當(dāng)時的其他算法,該算法計算量較小,更符合臨床需求。但是,隨著計算機性能的增強,在數(shù)據(jù)集充足的情況下,深度學(xué)習(xí)也可以直接從大量數(shù)據(jù)中學(xué)習(xí)特征表達,并結(jié)合一定的預(yù)處理和后期處理方法,高效而準確地檢測細胞。Xing等和Chen等使用CNN提取特征,并生成切片細胞核位置的概率譜[23-24]。根據(jù)所處理切片的特點,Xing等在后期處理中選擇迭代區(qū)域合并的方法分割獨立的細胞核,該算法適用于多種組織的多種染色劑圖像。Chen等在預(yù)處理和后期處理中分別使用色彩通道的分離和非極大值抑制算法,提取免疫細胞(IHC)的不同色彩通道的特征,用于代表不同細胞結(jié)構(gòu)的特點,計數(shù)的結(jié)果與人工計數(shù)基本持平。
細胞的分割通常比細胞核的分割更加復(fù)雜,細胞質(zhì)的形狀不規(guī)則以及細胞團的重疊現(xiàn)象都給細胞的分割造成了很大的困難。通過設(shè)計網(wǎng)絡(luò)結(jié)構(gòu),以上問題可以得到解決。Song等將多尺度卷積網(wǎng)絡(luò)(MSCN)提取的特征與人工特征相結(jié)合,用于宮頸細胞質(zhì)和細胞核的分割[25]。在此基礎(chǔ)上,Song等增加了訓(xùn)練數(shù)據(jù)量并改進了網(wǎng)絡(luò)結(jié)構(gòu),直接使用MSCN學(xué)習(xí)單個細胞的高級形態(tài)特征來分割重疊細胞團[26]。Akram等使用兩層級聯(lián)網(wǎng)絡(luò),第一級的卷積網(wǎng)絡(luò)粗略預(yù)測哪些區(qū)域包含細胞,第二層池化網(wǎng)絡(luò)用來準確定位細胞邊界[27]。
有監(jiān)督算法需要大量標記數(shù)據(jù)集來訓(xùn)練模型,在標記數(shù)據(jù)集不充足的情況下,可以使用海量的未標記數(shù)據(jù)集來彌補無監(jiān)督算法的缺點。Ronneberger等提出了一種網(wǎng)絡(luò)的訓(xùn)練策略,使用配準方法擴充有限的標記數(shù)據(jù)的數(shù)量,使用多特征通道的上采樣層傳遞上下文信息,幫助提高分割準確率[28]。另外,弱監(jiān)督也可以彌補標記數(shù)據(jù)量不足的問題。所謂弱監(jiān)督,就是對數(shù)據(jù)做簡單的標記,其對專業(yè)知識的要求較低,容易獲取。Xie等使用弱監(jiān)督的回歸模型檢測細胞,適用于尺寸和形狀變化較大、有細胞重疊圖像的細胞檢測[29]。
2.1.2腺體的分割
在臨床上,腺體的形態(tài)學(xué)特征,包括其外部結(jié)構(gòu)和腺體的形成過程,都常作為腺癌診斷的依據(jù),因此,腺體的分割在癌癥診斷中有重要意義[30],結(jié)腸腺體的病理圖像如圖4所示。
圖4 結(jié)腸組織切片的腺體檢測[34]Fig.4 Detection of glands in colon tissue[34]
腺體分割任務(wù)的挑戰(zhàn)性在于:一是腺體形狀不規(guī)則,染色不均勻、腺體重疊等因素導(dǎo)致其形態(tài)特征難以用數(shù)學(xué)模型描述;二是不同級別的癌癥組織中腺體形狀特征不同;三是腺體個體分割難以實現(xiàn)。
類似地,CNN在腺體分割中的廣泛應(yīng)用從2015年的腺體分割大賽中可見一斑。在大賽中,主辦方提供了結(jié)腸腺體的數(shù)據(jù)集。多個團隊采用CNN 網(wǎng)絡(luò)對腺體候選樣本做有無腺體的分類[30],例如:CVML團隊使用CNN訓(xùn)練像素級別的分類器;Freiburg團隊使用一種端對端的U型深卷積網(wǎng)絡(luò);ExB團隊使用雙路徑的CNN網(wǎng)絡(luò),分別以不同大小的樣本作為輸入,用于更好地捕捉多尺度的上下文信息;vision4GlaS使用兩個CNN[31],分別用于候選樣本和重疊樣本的分類。
隨后在分類基礎(chǔ)上,各團隊使用分割算法分割腺體個體:CVML團隊以及 vision4GlaS團隊使用基輪廓的傳統(tǒng)方法分割腺體;ExB額外訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)用于檢測腺體輪廓,并結(jié)合傳統(tǒng)算法分割腺體。不同于以上方法,也有的團隊直接使用深度神經(jīng)網(wǎng)絡(luò)完成任務(wù)。Freiburg團隊在CNN網(wǎng)絡(luò)的基礎(chǔ)上,添加由上卷積層和卷積層構(gòu)成的聚合通路,將每一級的細節(jié)特征反向傳播到聚合通路,用于捕捉腺體邊界;BenTaieb等設(shè)計了具有兩種損失函數(shù)的多任務(wù)全卷積神經(jīng)網(wǎng)絡(luò)[32],先對候選樣本做有無腺體的分類,再對包含腺體的樣本分割,分類和分割結(jié)果彼此優(yōu)化;Chen等提出了深輪廓感知網(wǎng)絡(luò)(DCAN)[33],使用基于多水平特征表達的全卷積神經(jīng)網(wǎng)絡(luò)(FCN)分割腺體;Xu等將全卷積神經(jīng)網(wǎng)絡(luò)(FCN)與整體邊緣探測器(HED)相結(jié)合[34],克服了FCN無法識別腺體個體的缺點,實現(xiàn)了腺體個體分割。
2.1.3有絲分裂的檢測
在乳腺癌分級中,有絲分裂數(shù)是一個重要的參數(shù),有絲分裂的檢測可看作是一種特殊的細胞檢測。有絲分裂在各個時期形態(tài)各異,有著前期、中期、后期和末期4個時期的4種形態(tài),這使得有絲分裂檢測更具有挑戰(zhàn)性。有絲分裂檢測如圖5所示。
圖5 乳腺組織切片的有絲分裂檢測Fig.5 Mitosis detection of Breast histological sections
ICPR數(shù)據(jù)集[35]是由病理學(xué)家手動標記的乳腺病理切片數(shù)據(jù)集,在有絲分裂檢測中被廣泛使用。Ciresan使用滑動窗在數(shù)據(jù)集中截取大量小樣本,再用CNN分類模型對樣本做有無有絲分裂的二分類,以檢測有絲分裂數(shù)目[14]。Wang等和Malon等使用人工設(shè)計特征,提取細胞核的顏色、形狀、紋理等特征,再與CNN自動提取的特征相結(jié)合,降低了算法對人工特征的敏感度,在一定程度上降低了有絲分裂多樣性給有絲分裂檢測帶來的問題[22,36]。Chen等使用兩級深度卷積級聯(lián)神經(jīng)網(wǎng)絡(luò),第一級大體定位有絲分裂對象,第二級網(wǎng)絡(luò)將真正的有絲分裂像從其類似物中識別出來[37]。該算法的第二級網(wǎng)絡(luò)使用遷移學(xué)習(xí)的方法,將跨領(lǐng)域?qū)W習(xí)的特征遷移到病理切片中,解決了訓(xùn)練數(shù)據(jù)不足的問題。隨后,Chen等又提出一種“端對端”的回歸網(wǎng)絡(luò)(DRN)用于有絲分裂檢測[38],同樣使用了遷移學(xué)習(xí)的方法。
綜上所述,深度學(xué)習(xí)在細胞、腺體和有絲分裂的病理切片分割和檢測等方面的研究日趨成熟。相比人工特征,深度學(xué)習(xí)的特征表達更全面;相比傳統(tǒng)算法,深度學(xué)習(xí)對于圖片噪聲的抗干擾能力強,其結(jié)果與人工分析的結(jié)果大致相同。另外,值得注意的是,有監(jiān)督訓(xùn)練比無監(jiān)督訓(xùn)練的性能更好,但是其訓(xùn)練需要大量的標記數(shù)據(jù)集,而這種數(shù)據(jù)集的獲取花費較大。目前,國際上有許多病理切片算法大賽,并且提供了許多公開的標記數(shù)據(jù)集,在病例分析算法的研究中起到了重要作用,相關(guān)賽事以及數(shù)據(jù)集如表1所示。
相比利用病理組織基本單元的特征(如細胞和細胞核、有絲分裂等)來分析病理切片,另一類廣泛應(yīng)用的方法是使用人工智能的算法(如深度學(xué)習(xí))學(xué)習(xí)組織水平上的特征,并對病理切片進行有癌無癌的分類和癌癥分級,相關(guān)文獻見表2。
表1 病理切片大型公開數(shù)據(jù)集一覽表Tab.1 List of pathology pubic dataset
表2 文獻及其分析算法Tab.2 List of literature and analysis algorithms
其中,病理學(xué)分類(分型)反映了組織細胞的生物行為和形態(tài)學(xué)特征,病理分級反映了在組織結(jié)構(gòu)和細胞形態(tài)上腫瘤組織與正常組織細胞不同程度的形態(tài)差異,可用來判斷組織是否癌變。下面將介紹深度學(xué)習(xí)在幾種不同組織病理切片的分類和分級任務(wù)中的應(yīng)用情況。
2.2.1乳腺組織切片
Camelyon16數(shù)據(jù)集是目前最大的乳腺WSI數(shù)據(jù)集(見表1),包含400張WSI圖像,如圖6所示。在乳腺前哨淋巴轉(zhuǎn)移瘤的檢測中,Wang等和Kovalev等都訓(xùn)練CNN網(wǎng)絡(luò)得到WSI切片的病變概率圖譜,再經(jīng)過后期處理檢測癌變區(qū)域[48-49]。
Bayramoglu等和Spanhol等分別使用BreaKHis數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)(該數(shù)據(jù)集其包含82個病人數(shù)據(jù))用于乳腺癌的檢測[50-51]。其中,Bayramoglu等訓(xùn)練了兩個CNN,用于多尺度地區(qū)分腫瘤的良性與惡性[50];Spanhol等選用Alexnet,對乳腺癌切片進行分類[51]。Zejmo等在某醫(yī)院提供的數(shù)據(jù)集上,訓(xùn)練GoogLeNet用于乳腺癌的分類[52]。
浸潤性導(dǎo)管癌(IDC)是最常見的所有乳腺癌的亞型,如圖7所示。2015年,Cruz-Roa等訓(xùn)練了一個3層CNN的二分類模型,對乳腺切片做有癌無癌的檢測,結(jié)果比使用人工特征的算法高6%[53]。2016年,Shah等為了檢測乳腺癌腫瘤擴散情況,使用了多種卷積神經(jīng)網(wǎng)絡(luò)(DenseNet、GoogLeNet、LocNet等)進行腫瘤定位、有絲分裂識別以及特征提取,完成腫瘤3個等級的分類[54]。
圖7 病理學(xué)家標記的浸潤性導(dǎo)管癌組織切片(IDC)[53],標記區(qū)域為IDC正例,其余為IDC負例Fig.7 WSI with manual annotations from pathologists of invasive ductal carcinoma[53],annotated region correspond to positive example, the other is negative one.
在乳腺癌的研究中,免疫細胞浸潤是一個新興的預(yù)后生物學(xué)標志。2016年Turkki等以20位乳腺癌病人的病理切片為訓(xùn)練集,訓(xùn)練CNN進行特征提取,而后用SVM檢測免疫細胞分布情況,用于乳腺癌診斷[55]。
2.2.2皮膚組織切片
深度學(xué)習(xí)同樣也被應(yīng)用在了皮膚腫瘤的診斷上。惡性黑色素腫瘤是最常見的皮膚腫瘤之一,但是該類病理圖像有標記的數(shù)據(jù)集較少。2013年,Cruzroa使用深度學(xué)習(xí)來區(qū)分癌癥組織和正常組織,并通過數(shù)字染色來突出顯示待診斷區(qū)域,其結(jié)果比當(dāng)時最好的算法提高了7%[56]。Kashif等使用空間約束CNN提取空間特征,該網(wǎng)絡(luò)可以檢測癌變細胞進而分析癌變特征[57]。Masood等提出的使用半監(jiān)督深度置信網(wǎng)絡(luò)[58]自監(jiān)督學(xué)習(xí)模型,充分利用有限的標記數(shù)據(jù)集,學(xué)習(xí)病變特征[59],為解決皮膚病理切片數(shù)據(jù)問題提供了較好思路。
2.2.3腦組織切片
由于腦組織切片的送檢樣本通常較小且質(zhì)地疏松,所以腦組織切片往往難以制成優(yōu)質(zhì)的病理切片,導(dǎo)致非??撇±磲t(yī)生診斷困難,該類切片的分析一直是一個比較大的挑戰(zhàn)。
根據(jù)MICCAI提供的癌癥和腫瘤基因圖譜(TCGA)標準數(shù)據(jù)集(見圖8),Xu等提出了一種基于遷移學(xué)習(xí)的CNN,用于腦腫瘤的分割和分類[60]。2015年,Ertosun等將深度學(xué)習(xí)應(yīng)用于腦瘤亞型的分級上,第一個8層神經(jīng)網(wǎng)絡(luò)將腫瘤區(qū)分為第2、3級和第4級兩類,第二個19層神經(jīng)網(wǎng)絡(luò)進而區(qū)分出膠質(zhì)瘤的2、3級[61]。2016年,Hou等使用多標簽的CNN分類模型識別神經(jīng)膠質(zhì)瘤細胞的多種形態(tài)特征,該方法能識別出常見的膠質(zhì)瘤細胞核的9個細微的、重要的病理學(xué)特征,在癌癥診斷中具有良好的準確性[62]。
圖8 大腦病理切片[60]。(a)多形性惡性膠質(zhì)瘤,(b)低級神經(jīng)膠質(zhì)瘤Fig.8 Pathology slice of brain tissue[60]. (a) glioblastoma multiforme; (b) Low grade glioma
2.2.4前列腺組織切片
在前列腺癌的分類分級中, Gleason評分系統(tǒng)根據(jù)前列腺組織的細胞、腺體等結(jié)構(gòu)的形態(tài)特征,將前列腺癌分為5個等級,等級越高惡性程度越高,預(yù)后也就越不理想[63]。正確的分級能夠幫助醫(yī)生采取相應(yīng)的治療方式,有著重要的意義。
2016年,Litjens等使用基于區(qū)塊(patch)的CNN計算各區(qū)域癌變的概率圖譜,再使用基于概率圖譜中可能存在病變的區(qū)域重新訓(xùn)練神經(jīng)網(wǎng)絡(luò),以便更精確地識別前列前病變[64]。K?llén等使用22層神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,得到能夠輔助病理醫(yī)生診斷的Gleason分級模型[65]。該模型能夠?qū)leason3~5級組織與良性組織進行分類,并根據(jù)病理學(xué)家的意見調(diào)整算法參數(shù),用于輔助病理診斷。
在結(jié)腸組織切片中,Sirinukunwattana等使用了空間約束CNN來識別切片中的細胞,再使用周邊集成預(yù)測的方法對各類結(jié)腸細胞進行分類,并判斷該細胞是否癌變,從而識別切片中的癌變區(qū)域[66]。Xu等使用深度學(xué)習(xí)自動學(xué)習(xí)切片的特征,分別使用多實例學(xué)習(xí)(MIL)和SVM作為分類器,結(jié)果表明弱監(jiān)督(MIL)分類效果更好[67]。
免疫組織化學(xué)染色(IHC)是一種廣泛使用的技術(shù),用于診斷異常免疫細胞的密度和位置等分布情況,可進一步用于癌癥預(yù)后預(yù)測。由于數(shù)據(jù)集的限制,目前IHC病理切片的相關(guān)研究較少。由于IHC圖像的RGB通道對應(yīng)不同的結(jié)構(gòu),Chen等將RGB通道分離并選擇代表膜標記的通道,利用深度學(xué)習(xí)檢測該通道的免疫細胞分布情況,該結(jié)果大體與人工分析結(jié)果持平[68]。
由于制作病理切片時相機的差異和染色過程存在許多變量(例如,試樣的厚度、染色劑的濃度、制造商、時間和溫度的污漬),因此都可能影響最終組織標本的外觀。病理醫(yī)生可以根據(jù)自身的經(jīng)驗來加以甄別,而人工智能算法卻難以克服這種多樣性帶來的影響。為了克服圖像的多樣性帶來的影響,Janowczyk等采用稀疏自動編碼器(SAE),通過迭代學(xué)習(xí)生成過濾器來優(yōu)化重建圖像,從而改變目標圖像以匹配到模板圖像的顏色空間[69]。Sethi等在上皮細胞基質(zhì)分類中驗證了顏色標準化,確實可以為分類帶來一定的增益[70]。更具體來說,對于基于超像素分類的算法有較低的增量效益,而對于CNN的分類算法有較高的增益。
在本研究中,主要闡釋了深度學(xué)習(xí)理論在病理切片定量分析中的應(yīng)用情況,如細胞層面上的檢測分割、組織層面上的分類與癌癥的分級等。CNN針對大數(shù)據(jù)樣本強大的自動特征學(xué)習(xí)的能力,適用于臨床上大量積累的WSI切片的定量分析;同時,CNN在特征提取過程中不需要研究人員具備一定的專業(yè)知識,讓病理方向的研究對計算機等領(lǐng)域的研究人員開放,有利于病理分析領(lǐng)域的發(fā)展。
但是,深度學(xué)習(xí)在病理切片分析領(lǐng)域的應(yīng)用仍存在一定的局限性:
1)運算開銷大,卷積神經(jīng)網(wǎng)絡(luò)需要基于GPU實現(xiàn),但由于GPU存儲容量的限制,WSI切片圖像的尺寸過大,無法直接作為輸入,神經(jīng)網(wǎng)絡(luò)對WSI采樣則會損失部分有用信息。
2)目前深度學(xué)習(xí)廣泛應(yīng)用的卷積神經(jīng)網(wǎng)絡(luò)是有監(jiān)督學(xué)習(xí),需要細致地標注圖像中癌癥組織的位置,而標注數(shù)據(jù)的獲得成本較高。
3)雖然現(xiàn)今的人工智能在病理切片自動分析的研究中取得了一定的進展,但是并沒有很好地應(yīng)用于臨床中。結(jié)合“云病理平臺”等前沿科技,促進科研與臨床實踐相結(jié)合的研究。
4)癌癥的分級情況與預(yù)后有著十分密切的關(guān)系,目前的癌癥分期系統(tǒng)對個性化癌癥治療和預(yù)后的預(yù)測仍不夠精準。深度學(xué)習(xí)有望在預(yù)后中取得突破性進展,但是該應(yīng)用還處于起步階段,有待加強。
目前,人工智能技術(shù)在病理學(xué)中應(yīng)用廣泛,定量分析為病理診斷提供了一系列定量化指標,彌補了醫(yī)生主觀經(jīng)驗中的不可預(yù)測因素,提高了病情診斷的準確性。在人工智能算法的幫助下,病理切片的計算機輔助診斷的知識體系將不斷完善,最終能夠為病人提供預(yù)后信息和精準的藥物治療指導(dǎo)。
[1] Weinstein RS, Graham AR, Richter LC, et al. Overview of telepathology, virtual microscopy, and whole slide imaging: prospects for the future [J]. Human Pathology, 2009, 40(8):1057-1069.
[2] Kothari S, Phan JH, Stokes TH, et al. Pathology imaging informatics for quantitative analysis of whole-slide images [J]. Journal of the American Medical Informatics Association, 2013, 20(6):1099-1108.
[3] Webster JD, Dunstan RW. Whole-slide imaging and automated image analysis: considerations and opportunities in the practice of pathology[J]. Veterinary Pathology, 2014, 51(1):211-223.
[4] Madabhushi A, Lee G. Image analysis and machine learning in digital pathology: Challenges and opportunities [J]. Medical Image Analysis, 2016, 33:170-175.
[5] Lecun Y, Bengio Y, Hinton G. Deep learning [J]. Nature, 2015, 521(7553):436-644.
[6] Rumelhart DE, Hinton GE, Williams RJ. Learning internal representations by error propagation [M] //Neurocomputing: Foundations of Research. Cambridge:MIT Press, 1988:318-362.
[7] Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks [C]// International Conference on Neural Information Processing Systems. Nevada: Curran Associates Inc, 2012:1097-1105.
[8] Jia Deng, Wei Dong, Socher R, et al. Imagenet: A large-scale hierarchical image database [C] // IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009:248-255.
[9] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [J]. Computer Science, 2014.
[10] Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions [C] //IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015:1-9.
[11] Treanor D. Virtual slides: An introduction [J]. Diagnostic Histopathology, 2009, 15(2):99-103.
[12] Malon CD, Eric C. Classification of mitotic figures with convolutional neural networks and seeded blob features [J]. Journal of Pathology Informatics. 2013, 4(1):9-18.
[13] Janowczyk A, Madabhushi A. Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases [J]. Journal of Pathology Informatics, 2016, 7:29-38.
[15] Gurcan MN, Boucheron LE, Can A, et al. Histopathological image analysis: A review [J]. IEEE Reviews in Biomedical Engineering, 2009, 2:147-171.
[16] Nedzved A, Ablameyko S, Pitas I. Morphological segmentation of histology cell images [C] // International Conference on Pattern Recognition. Barcelona: IEEE, 2000:500-503.
[17] Chang Hang, Borowsky A, Spellman P, et al. Classification of tumor histology via morphometric context [C] // IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE, 2013, 2013:2203-2210.
[18] Huang P, Lee C. Automatic classification for pathological prostate images based on fractal analysis [J]. IEEE Transactions on Medical Imaging, 2009, 28(7):1037-1050.
[19] Kong J, Sertel O, Shimada H, et al. Computer-aided evaluation of neuroblastoma on whole-slide histology images: Classifying grade of neuroblastic differentiation [J]. Pattern Recognition, 2009, 42(6):1080-1092.
[20] Tosun AB, Gunduz-Demir C. Graph run-length matrices for histopathological image segmentation [J]. IEEE Transactions on Medical Imaging, 2011, 30(3):721-732.
[21] Al-Kofahi Y, Lassoued W, Lee W, et al. Improved automatic detection and segmentation of cell nuclei in histopathology images [J]. IEEE Transactions on Biomedical Engineering, 2010, 57(4):841-852.
[22] Wang Haibo, Cruz-Roa A, Basavanhally A, et al. Mitosis detection in breast cancer pathology images by combining handcrafted and convolutional neural network features [J]. Journal of Medical Imaging, 2014, 1(3):034003.
[23] Xing Fuyong, Xie Yuanfu, Yang Lin. An automatic learning-based framework for robust nucleus segmentation [J]. IEEE Transactions on Medical Imaging, 2016, 35(2):550-566.
[24] Chen Ting, Chefd Hotel C. Deep learning based automatic immune cell detection forimmuno-histochemistry images [C] // International Workshop on Machine Learning in Medical Imaging. Boston: Spring, 2014:17-24.
[25] Song Youyi, Zhang Ling, Chen Siping, et al. Accurate segmentation of cervical cytoplasm and nuclei based on multiscale convolutional network and graph partitioning [J]. IEEE Transactions on Biomedical Engineering, 2015, 62(10):2421-2433.
[26] Song Youyi, Tan Elang, Jiang Xudong, et al. Accurate cervical cell segmentation from overlapping clumps in pap smear images [J]. IEEE Transactions on Medical Imaging, 2017, 36(1):288-300.
[27] Akram SU, Kannala J, Eklund L, et al. Cell Segmentation Proposal Network for Microscopy Image Analysis [M] //Phoenix: Springer International Publishing, 2016, 10008:21-29.
[28] Ronneberger O, Fischer P, Brox T. U-Net:Convolutional Networks for Biomedical Image Segmentation [C] // International Conference on Medical Image Computing and Computer Assisted Intervention. Munich: Springer-Cham, 2015:234-241.
[29] Xie Yuanpu, Xing Fuyong, Kong Xiangfei, et al. Beyond classification: structured regression for robust cell detection using convolutional neural network [C] // International Conference on Medical Image Computing and Computer Assisted Intervention. Munich: Springer-Cham, 2015:358-365.
[30] Sirinukunwattana K, Pluim JP, Chen H, et al. Gland segmentation in colon histology images: The glas challenge contest [J]. Medical Image Analysis, 2017, 35:489-502.
[31] Kainz P, Pfeiffer M, Urschler M. Semantic segmentation of colon glands with deep convolutional neural networks and total variation segmentation [J]. Computer Science, 2015.
[32] Bentaieb A, Kawahara J, Hamarneh G. Multi-loss convolutional networks for gland analysis in microscopy [C] // IEEE International Symposium on Biomedical Imaging. Prague: IEEE, 2016:642-645.
[33] Chen Hao, Qi Xiaojuan, Yu Lequan, et al. Dcan: deep contour-aware networks for accurate gland segmentation [C] // IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016:2487-2496.
[34] Xu Yan, Li Yang, Liu Mingyuan, et al. Gland instance segmentation by deep multichannel side supervision [C] // International Conference on Medical Image Computing and Computer-Assisted Intervention. Athens: Springer-Cham, 2016:496-504.
[35] Roux L, Racoceanu D, Lom NN, et al. Mitosis detection in breast cancer histological images: An ICPR 2012 contest[J]. Journal of Pathology Informatics, 2013, 4:8-16.
[36] Malon CD, Cosatto E. Classification of mitotic figures with convolutional neural networks and seeded blob features [J]. Journal of Pathology Informatics, 2013, 4(1):9-17.
[37] Chen Hao, Dou Qi, Wang Xi, et al. Mitosis detection in breast cancer histology images via deep cascaded networks [C] //Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Phoenix: AAAI, 2016:1160-1166.
[38] Chen Hao, Wang Xi, Heng Peng'an. Automated mitosis detection with deep regression networks [C] //IEEE International Symposium on Biomedical Imaging. Minsk: IEEE, 2016:1204-1207.
[39] Radboud University Medical Center, and the University Medical Center Utrecht. ISBI challenge on cancer metastasis detection in lymph nodes [EB/OL].https://camelyon16.grandchallenge.org/, 2016-04-14/2017-10-30.
[40] Department of Pathology of the Radboud University Medical Center in Nijmegen. CAMELYON17 [EB/OL]. https://camelyon17.grand -challenge.org/, 2017-05-15/2017-10-30.
[41] Gregory CS. A public domain database for computational anatomy [EB/OL]. http://www.ima-genglab.com/newsite/pddca/, 2016-12-30/2017-10-30.
[42] National Cancer Institute. Genomic data commons data portal [EB/OL]. https://portal.gdc.cancer.gov, 2017-10-24/2017-10-30.
[43] Ludovic Roux. ICPR 2012-Mitosis detection contest [EB/OL]. http://www.ipal.cnrs.fr/event/icpr-2012, 2012-11-15/2017-10-30.
[44] Frédérique C. Mitos-atypia-14 [EB/OL], https://mitosatypia-14.grand challenge.org/dataset/, 2014/2017-10-30.
[45] 21th International Conference on Pattern Recognition. Contest on hep-2 cells classification [EB/OL].http://nerone.diem.unisa.it/hep2contest/dataset.shtml, 2011-11-15/2017-3-24.
[46] Araújo, T. ICPR2018 gland challenge on breast cancer histology images [EB/OL]. https://iciar2018-challenge.grand-challenge.org/dataset/, 2017/11/1-2017/11/21.
[47] Ana PP and Paulode CA. Bioimaging 2015 4th international symposium in applied bioimaging [EB/OL].http://www.bioimaging2015.ineb.up.pt/challenge_overview.html, 2015/11/16/2017/11/21.
[48] Wang Dayong, Khosla A, Gargeya R, et al. Deep learning for identifying metastatic breast cancer [J]. arXiv, 2016,1606:05718.
[49] Kovalev V, Kalinovsky А, Liauchuk V. Deep learning in big image data: Histology image classification for breast cancer diagnosis [C] //International Conference on Big Data and Advanced Analytics. Boston: IEEE, 2016:15-17.
[50] Bayramoglu N, Kannala J, Heikkil? J. Deep learning for magnification independent breast cancer histopathology image classification [C] // International Conference on Pattern Recognition. IEEE. Plymouth: Springer, London, 2017:2440-2445.
[51] Spanhol FA, Oliveira LS, Petitjean C, et al. Breast cancer histopathological image classification using convolutional neural networks [C] // International Joint Conference on Neural Networks. Vancouver: IEEE, 2016:2560-2567.
[53] Cruz-Roa A, Basavanhally A, Gonz Lez F, et al. Automatic detection of invasive ductal carcinoma in whole slide images with convolutional neural networks [C] // SPIE Medical Imaging. San Diego: International Society for Optics and Photonics, 2014:139-144.
[54] Shah M, Rubadue C, Suster D, et al. Deep learning assessment of tumor proliferation in breast cancer histological images [J]. Computer Science, 2016.
[55] Turkki R, Linder N, Kovanen PE, et al. Antibody-supervised deep learning for quantification of tumor-infiltrating immune cells in hematoxylin and eosin stained breast cancer samples [J]. Journal of Pathology Informatics, 2016, 7(1):38.
[56] Cruz-Roa A, Ovalle JEA, Madabhushi A, et al. A deep learning architecture for image representation, visual interpretability and automated basal-cell carcinoma cancer detection [C] // International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer-Berlin-Heidelberg, 2013:403-410.
[57] Kashif MN, Shan EAR, Sirinukunwattana K, et al. Handcrafted features with convolutional neural networks for detection of tumor cells in histology images [C] // IEEE International Symposium on Biomedical Imaging. Prague: IEEE, 2016:1029-1032.
[58] Hinton GE, Osindero S, Teh YW. A fast learning algorithm for deep belief nets [J]. Neural Computation, 2006, 18(7):1527-1554.
[59] Masood A, Al-Jumaily A, Anam K. Self-supervised learning model for skin cancer diagnosis [C] //International IEEE/EMBS Conference on Neural Engineering. Montpellier: IEEE, 2015:1012-1015.
[60] Xu Yan, Jia Zhipeng, Ai Yuqing, et al. Deep convolutional activation features for large scale brain tumor histopathology image classification and segmentation [C] // IEEE International Conference on Acoustics. Brisbane: IEEE, 2015:947-951.
[61] Ertosun M, Rubin DL. Automated grading of gliomas using deep learning in digital pathology images: A modular approach with ensemble of convolutional neural networks [C] // American Medical Informatics Association Annual Symposium Proceedings. San Francisco: AMIA, 2015:1899-1908.
[62] Hou Le, Singh K, Samaras D, et al. Automatic histopathology image analysis with CNNs [C] //New York Scientific Data Summit. New York: IEEE, 2016:1-6.
[63] K?llén H, Molin J, Heyden A, et al. Towards grading gleason score using generically trained deep convolutional neural networks [C] //IEEE Inter-national Symposium on Biomedical Imaging. Prague: IEEE, 2016:1163-1167.
[64] Litjens G, Nchez CI, Timofeeva N, et al. Deep learning as a tool for increased accuracy and efficiency of histopathological diagnosis [J]. Scientific Reports, 2016, 6:26286.
[65] K?llén H, Molin J, Heyden A, et al. Towards grading gleason score using generically trained deep convolutional neural networks [C] // IEEE International Symposium on Biomedical Imaging. Prague: IEEE, 2016:1163-1167.
[66] Sirinukunwattana K, Raza SEA, Tsang YW, et al. Locality sensitive deep learning for detection and classification of nuclei in routine colon cancer histology images [J]. IEEE Transactions on Medical Imaging, 2016, 35(5):1196-1206.
[67] Xu Yan, Mo Tao, Feng Qiwei, et al. Deep learning of feature representation with multiple instance learning for medical image analysis [C] // IEEE International Conference on Acoustics, Speech and Signal Processing. Florence: IEEE, 2014:1626-1630.
[68] Chen Ting, Chefd'hotel C. Deep learning based automatic immune cell detection forimmuno-histochemistry images [C] // International Workshop on Machine Learning in Medical Imaging. Quebes: Springer-Cham, 2014:17-24.
[69] Janowczyk A, Basavanhally A, Madabhushi A. Stain normalization using sparse autoencoders (StaNoSA): Application to digital pathology [J]. Computerized Medical Imaging & Graphics, 2016, 57:50-61.
[70] Sethi A, Sha L, Vahadane AR, et al. Empirical comparison of color normalization methods for epithelial-stromal classification in H and E images [J]. Journal of Pathology Informatics, 2016, 7(8):468-476.