林琰超
摘要:鼻咽癌是一類高發(fā)的惡性腫瘤,實(shí)現(xiàn)其快速診斷具有重要意義。該文提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的病理圖像數(shù)據(jù)腫瘤區(qū)域自動(dòng)檢測(cè)和診斷方法。通過(guò)在病理切片像素20000*20000中檢測(cè)和定位出像素大小為256*256的腫瘤區(qū)域,將提取到的不同分辨
率下patch通過(guò)VGG-16網(wǎng)絡(luò)(10x,20x)模型提取淺層特征,并將其輸入Inception-V3網(wǎng)
絡(luò)的后半部分與Inception-V3提取的40x patch的特征進(jìn)行融合,以此建立基于病理圖像鼻咽癌融合診斷模型,在機(jī)制上可提升分析性能并降低假陽(yáng)性率。實(shí)際資料處理結(jié)果表明,對(duì)于鼻咽癌的檢測(cè)準(zhǔn)確率達(dá)到91.5%,較大提高了診斷準(zhǔn)確率。
關(guān)鍵詞:鼻咽癌診斷;深度卷積網(wǎng)絡(luò);特征融合;多尺度分析;學(xué)習(xí)算法
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)14-0183-03
Abstract: Nasopharyngeal carcinoma is a kind of high incidence malignant tumor. It is of great significance to realize its rapid diagnosis. In this paper, an automatic detection and diagnosis method based on deep convolution neural network (DCNN) is presented. The tumor area with a pixel size of 256 * 256 was detected and located in the pathological section with a pixel size of 20000 * 20000. Shallow features of patches at different resolutions are extracted by the VGG-16 network (10x, 20x) model. The features are inputted into the second half of the Inception-V3 network and fused with the features of the 40x patch extracted by the Inception-V3, to establish a nasopharyngeal carcinoma fusion diagnosis model based on pathological image, which can improve the analyzing performance and reduce the false positive rate in the mechanism. The actual data processing results show that the detection accuracy for nasopharyngeal carcinoma reached 91.5%, and the accuracy of diagnosis is greatly improved.
Key words: diagnosis of nasopharyngeal carcinoma; deep convolution network; feature fusion; multiscale analysis; learning algorithm
1 背景
在我國(guó),鼻咽癌為臨床中常見的一種惡性腫瘤,發(fā)生率及病死率高。據(jù)研究,鼻咽癌早期患者經(jīng)治療后的5年生存率達(dá)到90%以上,而中晚期患者超過(guò)5年僅為50%-60%左右[1],表明鼻咽癌患者的早期發(fā)現(xiàn)、診斷和及時(shí)治療十分重要。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在計(jì)算機(jī)視覺、圖像領(lǐng)域得到了廣泛的應(yīng)用,其強(qiáng)大的特征學(xué)習(xí)與分類能力引起了廣泛的關(guān)注。VGGNet[2]是牛津大學(xué)計(jì)算機(jī)視覺組研發(fā)的一種深度卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)相比之前的網(wǎng)絡(luò)結(jié)構(gòu),錯(cuò)誤率大幅下降,取得了“ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽”(ILSVRC 2014)比賽分類項(xiàng)目的第二名和定位項(xiàng)目的第一名。同時(shí)由Google公司研發(fā)Google Inception Net[3]首次出現(xiàn)在ILSVRC 2014比賽中,就以較大的優(yōu)勢(shì)取得了分類項(xiàng)目第一名。
由于卷積神經(jīng)網(wǎng)絡(luò)避免了對(duì)圖像的復(fù)雜前期預(yù)處理,可以直接輸入原始圖像;VGG-16網(wǎng)絡(luò)結(jié)構(gòu)非常簡(jiǎn)潔,整個(gè)網(wǎng)絡(luò)都使用了同樣大小的卷積核尺寸(3*3)和最大池化尺寸(2*2),通過(guò)不斷加深網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提升性能。Inception-V3網(wǎng)絡(luò)模型層數(shù)更深,表達(dá)能力更強(qiáng),其中的Inception Module提高了參數(shù)的利用效率。該文提出了一種將VGG-16網(wǎng)絡(luò)和Inception-V3網(wǎng)絡(luò)信息處理相融合的模型和方法,實(shí)現(xiàn)對(duì)鼻咽癌病理圖像數(shù)據(jù)中腫瘤區(qū)域的自動(dòng)檢測(cè)。
2 基于病理圖像的DCNN鼻咽癌診斷模型
該文選取VGG-16卷積網(wǎng)絡(luò)與Inception-V3卷積網(wǎng)絡(luò)作為初始網(wǎng)絡(luò)模型,通過(guò)信息融合構(gòu)建一種新的基于病理圖像的DCNN鼻咽癌診斷模型。
2.1 VGG-16網(wǎng)絡(luò)模型
VGG-16探索了卷積神經(jīng)網(wǎng)絡(luò)的深度與其性能之間的關(guān)系,通過(guò)反復(fù)堆疊3[×3]的小型卷積核和2[×2]的最大池化層。VGGNet的拓展性很強(qiáng),遷移到其他圖片數(shù)據(jù)上的泛化性非常好。VGG-16全部使用了3[×3]得卷積核和2[×2]的池化核,通過(guò)不斷加深網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提升性能。該文中我們選擇VGG-16網(wǎng)絡(luò)作為初始模型,其模型結(jié)構(gòu)如圖1所示:
2.2 Inception-V3網(wǎng)絡(luò)模型
Inception-V3最大的特點(diǎn)是控制了計(jì)算量和參數(shù)量的同時(shí),獲得了非常好的分類性能。Inception-V3網(wǎng)絡(luò)對(duì)傳統(tǒng)CNN主要有兩方面的改造:一是引入了Factorization into small convolutions的思想,將一個(gè)較大的二維卷積拆成兩個(gè)較小的一維卷積,例如將[7×7]卷積拆成[1×7]卷積和[7×1]卷積,一方面減少了大量參數(shù),加速運(yùn)算并減輕了過(guò)擬合,同時(shí)增加了一層非線性擴(kuò)展模型表達(dá)能力。文獻(xiàn)[3]中指出,這種非對(duì)稱的卷積結(jié)構(gòu)拆分,其結(jié)果比對(duì)稱地拆為幾個(gè)相同的小卷積核效果更明顯,可以處理更多、更豐富的空間特征,增加特征多樣性。其網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置如圖2所示:
2.3 多尺度下鼻咽癌診斷融合模型
該文提出的多尺度下鼻咽癌診斷分類融合模型的整體框架和處理流程如圖3所示。主要思路如下:在基于病理圖像的鼻咽癌診斷中,對(duì)于同一患者在相同視角下提取不同倍率的像素大小相同的組織病理patch。由于病理數(shù)據(jù)的特殊性,在處理中我們通過(guò)記錄原始圖像坐標(biāo)的方式提取像素大小為256*256的patch,構(gòu)造不同倍率(10x,20x,40x)下的數(shù)據(jù)集,不同倍率下相同大小的patch包含不同的紋理、結(jié)構(gòu)、空間關(guān)系等特征,因此,采用多尺度的方法進(jìn)行模型的訓(xùn)練與測(cè)試。在訓(xùn)練階段,將低倍率下10x,20x的patch送入基礎(chǔ)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將40x的patch 直接送入精細(xì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。研究中,基礎(chǔ)網(wǎng)絡(luò)取為VGG-16網(wǎng)絡(luò),精細(xì)網(wǎng)絡(luò)取為Inception-V3模型。然后利用訓(xùn)練好的深度卷積網(wǎng)絡(luò)融合模型,在測(cè)試數(shù)據(jù)集中將同一患者的病理圖片分別提取10x,20x,40x分辨率下的相同數(shù)量的patch,將10x,20x的patch送入基礎(chǔ)網(wǎng)絡(luò),將基礎(chǔ)網(wǎng)絡(luò)提取的特征與40x直接送入精細(xì)網(wǎng)絡(luò),在Inception-V3模型中將特征進(jìn)行融合,預(yù)測(cè)得出基于每個(gè)patch的概率,并依據(jù)統(tǒng)計(jì)學(xué)原理得出該患者患有鼻咽癌的概率,并將可能患有鼻咽癌的病理組織區(qū)域在病理切邊上標(biāo)記出來(lái)。
3 仿真實(shí)驗(yàn)和結(jié)果分析
3.1實(shí)驗(yàn)數(shù)據(jù)
該文中的數(shù)據(jù)取自廣州中山醫(yī)院病理科62位患者的病理圖像數(shù)據(jù)。病理圖像原始數(shù)據(jù)如圖4所示。其中,被綠色實(shí)線所標(biāo)注的區(qū)域是為此圖中可見的部分癌巢(細(xì)胞發(fā)生癌變的區(qū)域);被紅色標(biāo)注的區(qū)域即是正常區(qū)域的示例。
該實(shí)驗(yàn)基于鼻咽癌癌病理切片進(jìn)行診斷的目標(biāo)是利于深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù),使計(jì)算機(jī)能夠自動(dòng)地將鼻咽癌癌數(shù)字組織病理切片的局部視野中的癌巢快速精準(zhǔn)地標(biāo)識(shí)出來(lái)。選取鼻咽癌病理圖像,為常規(guī)HE染色原始病理切片,大小為20000×20000像素,svs格式。我們從醫(yī)生標(biāo)識(shí)的癌變組織區(qū)域中分別取10x,20x,40x下像素為256*256大小的patch,對(duì)正常的組織區(qū)域也在不同的倍率下取256*256像素的patch用于模型的訓(xùn)練與測(cè)試
在訓(xùn)練集中,10x,20x,40x的圖片分別為15000、15000、 15000張,我們將訓(xùn)練集、測(cè)試集與驗(yàn)證集按照7:2:1的比例進(jìn)行分配。在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí),可以隨機(jī)調(diào)整訓(xùn)練圖像的這些屬性,從而使得訓(xùn)練得到的模型盡可能小的受到無(wú)關(guān)因素的影響。最后以相同大小的概率選取同等數(shù)量的正常組織與癌變組織。
3.2 實(shí)驗(yàn)環(huán)境和模型參數(shù)設(shè)置
在實(shí)驗(yàn)中,針對(duì)百萬(wàn)級(jí)別的樣本量,硬件選擇為戴爾C4130節(jié)點(diǎn),包含4顆K80顯卡,每顆包含兩個(gè)GPU,單GPU顯存為12G,滿足本項(xiàng)目實(shí)驗(yàn)計(jì)算性能要求。
模型開發(fā)平臺(tái)選擇為tensorflow,支持python語(yǔ)言,可以較好的兼容不同的軟件開發(fā)平臺(tái)。同時(shí)tensorflow的靈活性為本項(xiàng)目實(shí)現(xiàn)不同模型功能結(jié)構(gòu)提供了很好的幫助。
3.3 實(shí)驗(yàn)結(jié)果和分析
實(shí)驗(yàn)中,通過(guò)多尺度融合的模型對(duì)測(cè)試集上病理組織患癌區(qū)域進(jìn)行識(shí)別的準(zhǔn)確率可以達(dá)到91.5%。相對(duì)于單用VGG-16與Inception-V3模型進(jìn)行識(shí)別具有明顯的優(yōu)勢(shì),圖5為我們?cè)跍y(cè)試數(shù)據(jù)集上進(jìn)行不同模型的試驗(yàn)結(jié)果對(duì)比。通過(guò)對(duì)比可以看出,該文提出的模型相對(duì)于其他兩個(gè)模型,能夠識(shí)別出更多的腫瘤區(qū)域。
通過(guò)采用不同的模型進(jìn)行實(shí)驗(yàn)對(duì)比,我們得出在相同實(shí)驗(yàn)數(shù)據(jù)下實(shí)驗(yàn)結(jié)果對(duì)比,如表1所示:
利用多尺度模型融合網(wǎng)絡(luò)成功地訓(xùn)練數(shù)據(jù)集并建立模型,從而實(shí)現(xiàn)對(duì)鼻咽癌全掃描病理圖像的腫瘤區(qū)域的診斷,有助于病理醫(yī)生迅速找到感興趣的區(qū)域,對(duì)患者的病情做出迅速的判斷,因此在臨床上具有一定的價(jià)值。
4 結(jié)束語(yǔ)
該文提出了一種基于VGG-16網(wǎng)絡(luò)與Inception-V3網(wǎng)絡(luò)信息融合的深度卷積神經(jīng)網(wǎng)絡(luò)模型,建立了相應(yīng)的學(xué)習(xí)算法,可實(shí)現(xiàn)對(duì)鼻咽癌病理圖像癌區(qū)直接進(jìn)行識(shí)別和標(biāo)記。在信息處理中,直接通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)從正常細(xì)胞與癌細(xì)胞所具有的不同特征出發(fā),利用多次卷積,非線性映射、池化等操作進(jìn)行自動(dòng)診斷,從而快速地實(shí)現(xiàn)了對(duì)不同病理和細(xì)胞組織的識(shí)別,較大提升了識(shí)別準(zhǔn)確率和計(jì)算效率,可為今后的研究提供參考。
參考文獻(xiàn):
[1] Liang Xin, Yang Jian. Nasopharynx Cancer Epidemiology in China[J]. China Cancer, 2016, 25(11): 828-830.
[2] KH Yu, Zhang C, Berry G J, et al. Predicting non-small cell lung cancer prognosis by fully automated microscopic pathology image features[J]. Nature Communications, 2016(7): 12474.
[3] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale Image recognition[EB/OL]. http://arxiv.org/abs/1409.1556v2.