萬亞利,彭仁華
(廣州商學(xué)院信息技術(shù)與工程學(xué)院,廣東 廣州 510000)
據(jù)癌癥協(xié)會2018年全球數(shù)據(jù)統(tǒng)計,全球范圍內(nèi)預(yù)計約有1810萬人次的新增癌癥病例,約有960萬人因癌癥而死亡[1]。目前最可靠的檢測技術(shù)是病理醫(yī)生根據(jù)人工病理切片進(jìn)行診斷,統(tǒng)計出組織病理中各項生物學(xué)指標(biāo),從而完成基于人工的組織病理圖像分類,不僅費(fèi)時且費(fèi)力,同時還易于出現(xiàn)人為主觀影響,造成誤診。依靠計算機(jī)輔助診斷技術(shù),不僅能夠提高醫(yī)生的診斷效率,而且還能提取出客觀且有效的診斷信息,具備非常重要的臨床應(yīng)用價值。
(1)基于傳統(tǒng)圖像算法和機(jī)器學(xué)習(xí)算法的組織病理圖像分類。Qu[2]等從病理圖像中人工提取特征,提出一種基于像素支持向量機(jī)(SVM)分類器的腫瘤巢(TNs)和基質(zhì)分割方法,該方法能夠區(qū)分TNs和間質(zhì),準(zhǔn)確率為87.1%。Abderrahmane[3]等采用關(guān)聯(lián)規(guī)則和支持向量機(jī)對特征集進(jìn)行約簡的乳腺癌分類,該模型對8個及4個屬性的分類正確率分別為98.00%和96.14%。Swain等[4]采用采用盒計數(shù)法提取特征,將得到的分形維數(shù)(FD)在支持向量機(jī)分類器下進(jìn)行處理,對良惡性腫瘤細(xì)胞進(jìn)行分類,從而使得正確率達(dá)到98.13%。然而,上述算法都需要人工提取特征,當(dāng)樣本量不斷增大,就會極大的影響模型的適應(yīng)能力,模型訓(xùn)練的復(fù)雜度也隨之增加。
(2)基于深度學(xué)習(xí)的組織病理圖像分類。Hou[5]用一種改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型完成病理圖像自動分類,通過數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)的方法使準(zhǔn)確率均達(dá)到91%。Krithiga[6]等將一種新的多層顯著細(xì)胞核檢測模型與深度CNN相結(jié)合,并將其應(yīng)用于乳腺癌組織的導(dǎo)管癌中,生成了一個n MSDeep CNN模型,該系統(tǒng)的準(zhǔn)確度為98.62%。Alzubaidi等[7]提出利用平行卷積層和殘差結(jié)構(gòu)的混合模型將乳腺活檢圖像分為四類。該模型取得了最新的性能,在驗證集的分片分類準(zhǔn)確率為90.5%,圖像分類準(zhǔn)確率為97.4%。上述方法利用DCNN來自動學(xué)習(xí)特征,自動學(xué)習(xí)組織病理圖像的特征,來完成病理圖像分類識別。然而,這些方法在處理組織病變分類問題中,隨著網(wǎng)絡(luò)的加深,輕量化深度網(wǎng)絡(luò)模型,在提高識別率的同時也需要優(yōu)化網(wǎng)絡(luò)的計算復(fù)雜度。
因此,本文采用深層卷積網(wǎng)絡(luò)模型,以此來解決復(fù)雜性和局限性的人工特征提取方式,完成自動提取組織病變圖像的特征,同時,采用深度可分離卷積的方法來避免因卷積網(wǎng)絡(luò)深度加深,所帶來的參數(shù)和計算量增大的問題,實驗結(jié)果表明,該方法能夠有效的提高病理圖像的識別率。
CNN卷積層的輸出特征圖(Feature map)由前一輸出層與當(dāng)前層濾波器進(jìn)行卷積得到,對于一張形狀為H*W*C彩色輸入圖片,經(jīng)過卷積核的個數(shù)為n,k*k的卷積核進(jìn)行卷積運(yùn)算后,輸出n個新的特征圖,其中每個卷積核的通道數(shù)為C。因此可計算出常規(guī)卷積運(yùn)算的參數(shù)數(shù)量為:N_std=n*C*k*k。
深度可分離卷積主要由兩部分組成,分別為:逐通道(Depthwise, DW)卷積(Convolution)和逐點(Pointwise,PW)卷積(Convolution)。該結(jié)構(gòu)相比于常規(guī)卷積運(yùn)算,可以降低參數(shù)量和運(yùn)算量。
PW卷積在運(yùn)算過程中,每個通道只單獨(dú)與每個卷積核進(jìn)行卷積操作。假如一張彩色輸入圖片可表示為H*W*C,PW卷積運(yùn)算中的卷積核(大小為k*k)的數(shù)量需要與上一層輸入的通道數(shù)相同,即此處卷積核個數(shù)為C,采用PW卷積的方式將生成C張新的特征圖。此時,卷積運(yùn)算的參數(shù)為:N_d=C*k*k。由此可以看出,經(jīng)過一次PW卷積運(yùn)算,輸出的特征圖與輸入層的通道數(shù)相同,特征圖數(shù)量保持不變,另外,該方式在進(jìn)行卷積運(yùn)算過程中,獨(dú)立對每個輸入層的通道進(jìn)行分別運(yùn)算,沒有對特征圖之間的空間信息進(jìn)行有效的融合。因此,采用PW卷積的方式來解決上述問題。
PW卷積運(yùn)算過程和常規(guī)卷積類似,主要采用1*1*C的卷積核來加權(quán)組合上一層特征圖的深度,并生成一個新的特征圖,其中,C代表的是上一層的通道數(shù),即一張輸入圖片H*W*C,與一個1*1*C的卷積核經(jīng)過PW卷積運(yùn)算后,得到一張新的特征圖,與n個的卷積核PW卷積運(yùn)算將生成n個新的特征圖??梢钥闯觯?jīng)過PW卷積運(yùn)算后,可以對輸出維度進(jìn)行擴(kuò)充。同時,可計算出卷積過程中的參數(shù)量為:N_P=n*C*1*1。
經(jīng)過上述分析,常規(guī)卷積的參數(shù)量可表示為:N_std =n*C*k*k。深度可分離卷積的參數(shù)量可表示為DW卷積和PW卷積運(yùn)算量之和,即N_d+ N_P= C*k*k+ n*C*1*1。其中,n為輸出層生成的新的特征圖,k*k為卷積核的尺寸,C為特征圖的通道數(shù)。以常用的3*3卷積,相同的輸入為三通道特征圖,輸出五張新的特征圖為例,則常規(guī)卷積的參數(shù)量為5*3*3*3=135個,而深度可分離卷積的參數(shù)量僅為:3*3*3+5*3*1*1=42個。可以看出,深度可分離卷積參數(shù)量遠(yuǎn)遠(yuǎn)小于常規(guī)卷積操作,并隨著輸入輸入及輸出特征的數(shù)量,參數(shù)量的優(yōu)勢更加突顯。
網(wǎng)絡(luò)的主體架構(gòu)采用CNN常規(guī)卷積加上深度可分離卷積相結(jié)合,構(gòu)建基于深度網(wǎng)絡(luò)的組織病理圖像分類模型。每一層常規(guī)卷積后,選用RELU激活函數(shù),引入批量歸一化對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。在全連接前進(jìn)行全局池化操作,以此來降低空間參數(shù),使模型更加健壯,抗過擬合效果更佳。
全連接層采用dropout層以0.3的概率舍棄網(wǎng)絡(luò)節(jié)點,網(wǎng)絡(luò)優(yōu)化器采用Adam,初始學(xué)習(xí)率為0.001。
實驗采用python軟件對算法進(jìn)行測試。實驗所用的環(huán)境為AMD Ryzen 5 3600 6-Core Processor CPU@3.60GHZ,內(nèi)存為8GB,GPU采用2060s,64位的Windows 10操作系統(tǒng)。
PatchCamelyon(PCam)數(shù)據(jù)集是二元組織病理圖像分類數(shù)據(jù)集,包含數(shù)字掃描提取的高分辨率全幻燈片淋巴結(jié)切片圖像。分辨率為96x96的彩色圖像約30萬張組成。
在訓(xùn)練開始,采取隨機(jī)抽樣的方式選取10萬張圖像進(jìn)行模型訓(xùn)練和測試,為了進(jìn)一步提高模型的性能,對選取的圖像進(jìn)行增強(qiáng)處理。訓(xùn)練過程中采用70%數(shù)據(jù)作為模型訓(xùn)練集,20%的數(shù)據(jù)作為模型測試集,另外10%的數(shù)據(jù)作為模型驗證集。下圖1結(jié)果訓(xùn)練過程中所記錄的訓(xùn)練和測試數(shù)據(jù)集準(zhǔn)確率所繪制的曲線圖。從圖1中可知,在前10個epoch訓(xùn)練過程中,模型的準(zhǔn)確率提升較快。模型的訓(xùn)練正確率能達(dá)到98.5%,訓(xùn)練集正確率為94.8%。由此可以看出,本文所采用的深度可分離卷積能大大縮減深度網(wǎng)絡(luò)的參數(shù)量,使模型收斂速度更快,同時能保證模型的分類效果。
圖1 訓(xùn)練集與測試集準(zhǔn)確率圖
由圖2看出,模型的損失值在訓(xùn)練集和測試集上逐步下降。最終在訓(xùn)練集和測試集上的損失值分別為0.04和0.18。采用深度可分離卷積方式,結(jié)合常規(guī)卷積層所構(gòu)建的模型,能加快損失函數(shù)的收斂速度。由此可見,本文所提出的模型能夠基于組織病理圖像進(jìn)行有效的完成分類識別,并具有較高的識別率。
圖2 訓(xùn)練集和測試集損失值曲線圖
本文提出了一種基于深度可分離卷積的組織病理圖像分類新方法,相較于常規(guī)卷積層,能獲得更少的參數(shù)計算量,來改進(jìn)深度學(xué)習(xí)中由于網(wǎng)絡(luò)層數(shù)加深而帶來的參數(shù)量計算過大的問題。實驗結(jié)果表明,采用深度可分離卷積能夠使網(wǎng)絡(luò)模型參數(shù)量更少,在保證模型性能的前提下,訓(xùn)練效率更快。