朱琳琳,杜 泓
(沈陽航空航天大學(xué) 自動化學(xué)院,沈陽 110136)
宮頸癌屬于宮頸惡性腫瘤,在女性惡性腫瘤發(fā)病率中居第二位。宮頸細胞學(xué)篩查的普遍應(yīng)用,可以使宮頸癌和癌前病變得以早期發(fā)現(xiàn)和治療,使得宮頸癌的發(fā)病率和死亡率大幅度下降。人工閱片環(huán)節(jié)中醫(yī)護人員需要在數(shù)以萬計的細胞中找到各種異常細胞,這是一項高強度的工作。利用宮頸細胞分割技術(shù)對宮頸細胞圖像進行輔助判斷分析[1-2],可以減少醫(yī)護人員的工作量,使判斷分析的效率和準(zhǔn)確率顯著提升。
由于細胞圖像的復(fù)雜多樣性,細胞分割成為醫(yī)學(xué)圖像的經(jīng)典難題,國內(nèi)外許多專家學(xué)者都進行了研究。用于細胞分割的經(jīng)典分割方法有閾值分割[3]、邊緣檢測[4]、分水嶺算法[5]及主動輪廓算法[6]等。目前,隨著深度學(xué)習(xí)方法的廣泛應(yīng)用,也有越來越多的研究者采用這種方法進行細胞分割?;谏疃葘W(xué)習(xí)的細胞分割方法一般采用卷積神經(jīng)網(wǎng)絡(luò)[7-8]和U-net神經(jīng)網(wǎng)絡(luò)[9]等,如李雪玉[10]提出了一種具有融合標(biāo)記功能的卷積神經(jīng)網(wǎng)絡(luò),實現(xiàn)了宮頸脫落細胞的深度分割。這種方法雖然解決了復(fù)雜背景下的圖像分割問題,但受像素點分類機制的制約,很難準(zhǔn)確分割重疊細胞。貝琛圓等[11]使用U-net網(wǎng)絡(luò)模型對腺體細胞進行分割,與宮頸細胞相比腺體細胞有一個顯著的特點,即重疊率十分低,幾乎沒有相互重疊的細胞,且腺體細胞圖像背景不復(fù)雜,這使細胞精確分割難度大大降低。對于宮頸細胞圖像分割問題,僅采用傳統(tǒng)的分割方法,或僅采用深度學(xué)習(xí)的分割方法,都很難實現(xiàn)重疊細胞的實例分割。故本文在使用深度學(xué)習(xí)對宮頸細胞圖像進行語義分割的基礎(chǔ)上,采用主動輪廓算法[12]中的Snake模型解決了重疊宮頸細胞的實例分割問題。
本文為了解決重疊細胞的分割問題,采用改進U-net網(wǎng)絡(luò)完成細胞圖像的語義分割,搭建U-net網(wǎng)絡(luò)訓(xùn)練,得到三分類語義分割結(jié)果。在此基礎(chǔ)上提取游離細胞和細胞團塊,依據(jù)細胞團塊的細胞核、細胞形狀等信息得到每個細胞的初始輪廓,將其輸入到Snake模型進行演化,直至逼近細胞真實輪廓。
宮頸細胞學(xué)篩查方法是通過光學(xué)顯微鏡觀察宮頸細胞涂片,對觀察到的宮頸細胞圖像形態(tài)結(jié)構(gòu)進行分析,最后根據(jù)宮頸細胞學(xué)病理原理進行診斷。本文所研究的數(shù)據(jù)集為某腫瘤醫(yī)院提供的宮頸細胞TCT圖像數(shù)據(jù)集,共240張圖像,每幅圖像像素尺寸均為2048*1536,每張圖像含有十幾個到上百個細胞,如圖1所示。
圖1 宮頸細胞TCT圖像
圖像標(biāo)注是選擇圖像中的對象并按照名稱標(biāo)記它們的過程。為了準(zhǔn)確快速辨別細胞圖像中細胞、細胞核等類別,在病理醫(yī)生的指導(dǎo)下,本文使用Labelme軟件對宮頸細胞數(shù)據(jù)集進行圖像標(biāo)注,標(biāo)簽分為3類,標(biāo)注結(jié)果如圖2所示,其中黑色為背景,灰色為細胞,灰色細胞中間的白色區(qū)域為細胞核。
圖2 細胞標(biāo)注圖像
本文提出的分割方法分為2個步驟,分別為基于U-net網(wǎng)絡(luò)的圖像語義分割和基于主動輪廓的實例分割。首先,使用改進U-net網(wǎng)絡(luò)完成圖像的語義分割,即把像素分為細胞核、細胞質(zhì)和背景3類,為后續(xù)細胞的初始輪廓獲取提供必要條件;接著,分離圖像中游離細胞與細胞團塊,在此基礎(chǔ)上,為了準(zhǔn)確分割細胞團塊中的重疊細胞,通過分析細胞核和細胞質(zhì)邊界的關(guān)系,為每個細胞初始化一個輪廓,利用Snake模型演化輪廓曲線完成重疊細胞圖像的實例分割。具體分割過程如圖3所示,總體分割流程如圖4所示。
圖3 分割過程
圖4 分割流程
本文最終實現(xiàn)宮頸細胞的實例分割,而實例分割是在語義分割的基礎(chǔ)上進行的,不但要進行像素級別的分類,還需在具體的類別基礎(chǔ)上區(qū)分不同的實例。圖像語義分割是指將圖像每個像素都劃分出對應(yīng)的類別,實現(xiàn)像素級別的分類,本文采用改進的U-net網(wǎng)絡(luò)對細胞圖像進行語義分割。
自從2015年U-net網(wǎng)絡(luò)發(fā)表于MICCAI上[9],U-net網(wǎng)絡(luò)及其擴展模型[11]廣泛應(yīng)用于醫(yī)學(xué)圖像分割,是比較早的語義分割算法。最初應(yīng)用于細胞壁分割,之后在細胞分割等領(lǐng)域都有顯著貢獻。
U-net網(wǎng)絡(luò)是一個由收縮路徑(左側(cè))和擴張路徑(右側(cè))構(gòu)成的U型結(jié)構(gòu)網(wǎng)絡(luò)。收縮路徑遵循卷積網(wǎng)絡(luò)的典型結(jié)構(gòu),包括重復(fù)2個的卷積以及一個最大池化操作。其中每個卷積之后跟隨一個Relu非線性變換,重復(fù)4次完成下采樣過程。擴張路徑則執(zhí)行相反的操作,經(jīng)反卷積與壓縮路徑特征圖拼接進行傳遞。
在原始的U-net網(wǎng)絡(luò)中,發(fā)現(xiàn)會存在特征圖丟失的現(xiàn)象,而卷積層具有在噪聲背景中提取圖像感興趣區(qū)域特征的作用。因此,適當(dāng)增加卷積層可以獲取更多的圖像特征信息,使得語義分割結(jié)果更好。本文對U-net網(wǎng)絡(luò)進行改進,將收縮路徑和擴展路徑加深一層。如圖5所示,增加了Block1和Block11,左側(cè)Block1至Block6為收縮路徑,右側(cè)Block7至Block11為擴展路徑,使得整個網(wǎng)絡(luò)經(jīng)過5次下采樣和5次上采樣。經(jīng)驗證,改進后的U-net網(wǎng)絡(luò)與原始網(wǎng)絡(luò)相比,提高了宮頸細胞分割的準(zhǔn)確度,使語義分割效果更佳。圖3b為獲得的圖像語義分割結(jié)果。
圖5 改進U-net網(wǎng)絡(luò)結(jié)構(gòu)圖
本節(jié)在細胞語義分割結(jié)果的基礎(chǔ)上,對細胞形狀信息進行分析,對于游離細胞直接提取其輪廓,對于細胞團塊,則需對其中每個細胞的輪廓進行提取。而主動輪廓方法使用曲線表示目標(biāo)輪廓[6,13],并可以有效結(jié)合圖像先驗知識[14-15]實現(xiàn)圖像有效分割,非常適合進行單個細胞輪廓提取。本文使用由Kass提出的Snake主動輪廓模型進行細胞輪廓的實例分割。
具體分割過程由3個步驟組成,分別是細胞核的提取、細胞區(qū)域的分類、重疊細胞的輪廓提取。詳細介紹如下:
(1)細胞核提取
上一節(jié)中,經(jīng)過改進U-net網(wǎng)絡(luò)獲得細胞圖像語義分割結(jié)果,如圖3b所示。從結(jié)果圖中提取細胞核即偏白色區(qū)域,對圖3c的細胞核進行標(biāo)號,計算連通分量,生成標(biāo)記矩陣,該矩陣用不同的整數(shù)來標(biāo)記細胞核圖像中的細胞核。
(2)細胞區(qū)域分類
與細胞核相同,在語義分割的結(jié)果上提取細胞區(qū)域如圖3d所示。假設(shè)每個細胞核對應(yīng)一個細胞,通過判斷各連通域中細胞核個數(shù)是否為1,將細胞區(qū)域分為2類,游離細胞區(qū)域和細胞團塊區(qū)域。
對于游離細胞分割,本文提取游離細胞區(qū)域的邊緣并對其進行可視化,如圖3f所示。對于細胞團塊中重疊細胞的分割,下一小節(jié)將進行說明。
(3)重疊細胞輪廓提取
Snake主動輪廓模型基本思想為以一條具有彈性的初始輪廓線為模板,通過模板自身的彈性形變,與圖像感興趣區(qū)域特征相匹配并調(diào)和,實現(xiàn)某種能量函數(shù)最小化,完成對圖像的分割。
本文以細胞核質(zhì)心為圓心,細胞核質(zhì)心到團塊邊緣的相應(yīng)距離d為半徑,形成一個圓形初始輪廓,如圖6b所示,距離d定義為
(1)
能量函數(shù)Esnake定義為[12]
(2)
其中
(3)
Eext(v(s))=-[?Gσ(x,y)*H(x,y)]2
(4)
其中:v(s)為圖6b中圓形初始輪廓線;s為曲線參數(shù);α和β分別為描述輪廓的連續(xù)參數(shù)和平滑參數(shù);Eint控制輪廓的連續(xù)性及平滑性;Gσ(x,y)為方差σ的二維高斯函數(shù);?為梯度算子;H(x,y)為宮頸細胞團塊灰度圖像。
通過對式(2)的迭代計算,使其達到最小,進行細胞輪廓的演化,圖像的梯度越大能量函數(shù)越小,使其不斷向局部梯度最大的區(qū)域移動,直至收斂到邊緣。經(jīng)過實驗驗證,本文迭代500次時分割結(jié)果達到最好。迭代過程如圖6c所示,迭代最終結(jié)果如圖6d所示。
圖6 細胞團塊分割過程
對細胞團塊中每一個重疊細胞進行上述操作,提取出每一個細胞輪廓,整個細胞團塊分割結(jié)果如圖3i所示。
實驗采用的計算機硬件配置為Intel Core(TM)i7-8750H與NVDIA GeForce GTX 1060,使用軟件Pycharm 2019.2 x64,以Pytorch為框架訓(xùn)練和測試U-net網(wǎng)絡(luò)模型。
在上述實驗環(huán)境中,搭建U-net網(wǎng)絡(luò),對采集到的宮頸細胞樣本進行訓(xùn)練和測試。宮頸細胞圖像數(shù)據(jù)集共240張,其中訓(xùn)練集為標(biāo)注圖像與原圖各200張,測試集為未經(jīng)過處理圖像原圖40張。訓(xùn)練時,設(shè)置U-net網(wǎng)絡(luò)的學(xué)習(xí)率為0.001,Batchsize為3,初始Epoch為200,Iteration為67,將原圖與經(jīng)過標(biāo)注處理的圖像一起送入網(wǎng)絡(luò)進行訓(xùn)練。其中每10個Epoch保存一次網(wǎng)絡(luò)模型,選擇最佳結(jié)果的網(wǎng)絡(luò)模型進行最終的40張圖片測試,輸出宮頸細胞語義分割結(jié)果,其中最佳網(wǎng)絡(luò)模型Epoch為120。
為評估最終宮頸細胞分割效果,從主觀和客觀2方面對實驗結(jié)果進行評估。主觀評估主要是從視覺上觀察整體實驗分割效果,客觀評估是對實驗分割結(jié)果與標(biāo)注結(jié)果進行比較,從計算數(shù)據(jù)指標(biāo)上評估分割效果,評估指標(biāo)為準(zhǔn)確性(Precision)、靈敏度(Recall)、相似度(Dice)和交并比(Intersection Over Union,IOU),計算公式分別為
(5)
(6)
(7)
(8)
式中,B、R分別表示實驗分割結(jié)果和人工標(biāo)注結(jié)果;Precision為正確預(yù)測部分占預(yù)測部分的比例;Recall為正確預(yù)測部分占真實部分比例;Dice為醫(yī)學(xué)圖像分割的重要度量,表示真實部分與預(yù)測部分的重疊度;IOU為真實部分與預(yù)測部分的交并比,以上各評估指數(shù),其值越接近1分割效果越好。
本文研究具有重疊細胞的宮頸細胞圖像的細胞實例分割問題,因此進行分割指數(shù)評估時,需要對宮頸細胞圖像中的每一個細胞進行評估。在醫(yī)生指導(dǎo)下,對測試集細胞圖像做單個細胞標(biāo)注,圖像的部分標(biāo)注結(jié)果如圖7所示。圖7a為細胞原圖,圖7b~7f為部分游離細胞的標(biāo)注結(jié)果,圖7a中部分細胞團塊標(biāo)注結(jié)果如圖7h~7l所示,該部分細胞團塊原圖如圖7g所示。
圖7 實例分割標(biāo)注
本文在U-net網(wǎng)絡(luò)語義分割的基礎(chǔ)上,提取游離細胞與細胞團塊,并使用Snake模型演化初始輪廓對細胞團塊圖像進行分割,測試集宮頸細胞圖像的分割結(jié)果如圖8所示。
圖8 宮頸細胞圖像分割結(jié)果
3.3.1 語義分割結(jié)果分析
針對宮頸細胞語義分割的算法較多,如Otsu算法、CV模型算法等,本文使用Otsu算法[16]、CV模型算法[17]、原始U-net網(wǎng)絡(luò)[9]以及改進的U-net網(wǎng)絡(luò)分別做分割指數(shù)評估,對比結(jié)果如圖9所示,測試集上實驗數(shù)據(jù)如表1所示。
表1 語義分割比較結(jié)果表
可以看到,Otsu算法并不能完整地找到細胞區(qū)域,細胞和背景信息相差不多的區(qū)域尤為明顯;CV模型算法相較于Otsu算法可以將大部分細胞區(qū)域找到,但準(zhǔn)確率不高,存在噪聲,邊緣處分割也較為粗糙;原始U-net網(wǎng)絡(luò)分割結(jié)果是前3種方法中準(zhǔn)確率最高的,但可以看到部分細胞沒有被找到,例如在圖9e中,方框內(nèi)的細胞有缺失,而本文算法可以找到大部分細胞,如圖9f所示。本文算法相較于其他3種算法,可以得到干凈完整的宮頸細胞區(qū)域,和原始U-net網(wǎng)絡(luò)相比,在保證Precision持平的情況下,Recall、Dice及IOU都有顯著提升??傮w來看,本文算法的細胞語義分割準(zhǔn)確率高,效果更好。
圖9 4種細胞語義分割算法對比圖
3.3.2 實例分割結(jié)果分析
對于實例分割部分,根據(jù)圖7所示標(biāo)注結(jié)果,針對圖像中游離細胞、細胞團塊中的重疊細胞分別進行分割指數(shù)評估(其中包括311個細胞實例),結(jié)果如表2所示。從表中可以看出游離細胞的分割精度達到96.65%,受到分割精度及標(biāo)注精度的影響,重疊細胞的分割精度略低于游離細胞,但是也達到了82.53%,細胞實例分割的整體精度接近90%。
表2 游離、團塊細胞的實例分割指數(shù)評估表
從主觀評估上,游離細胞可達到精準(zhǔn)分割,重疊細胞也可找到其對應(yīng)的邊緣完成分割,其中細胞團塊含有2個重疊細胞的區(qū)域分割結(jié)果,如圖10所示;含有3個重疊細胞的區(qū)域分割結(jié)果,如圖11所示;含有4個重疊細胞的區(qū)域分割結(jié)果,如圖12所示。
圖10 2個重疊細胞區(qū)域分割
圖11 3個重疊細胞區(qū)域分割
圖12 4個重疊細胞區(qū)域分割
從客觀評估上,由表2數(shù)據(jù)可知,游離細胞算法分割準(zhǔn)確率十分高,但存在細胞團塊亮度不均勻情況,邊緣模糊導(dǎo)致Snake模型曲線在演化的過程中有些許偏差,使得其分割準(zhǔn)確率沒有游離細胞高,但是從整體效果上看,本文算法實現(xiàn)了宮頸細胞圖像的實例準(zhǔn)確分割。
本文研究在語義分割的基礎(chǔ)上使用主動輪廓Snake模型完成了重疊宮頸細胞圖像分割,首先利用Pytorch深度學(xué)習(xí)框架構(gòu)建并訓(xùn)練U-net網(wǎng)絡(luò),得到具有細胞、細胞核及背景三分類的語義分割圖像,再依據(jù)細胞核與細胞形狀信息為每個細胞初始化輪廓,然后使用Snake模型對初始輪廓演化,使其逼近真實輪廓。實驗結(jié)果表明,本文宮頸細胞圖像語義分割的準(zhǔn)確率為91%,實例分割的準(zhǔn)確率90%,實現(xiàn)了精確的語義分割和準(zhǔn)確的實例分割。但存在由于細胞內(nèi)部亮度不均勻?qū)е路指铄e誤的情況,將在下一步研究中考慮如何提高語義分割結(jié)果的準(zhǔn)確度,引入更多的先驗知識以提高輪廓提取的準(zhǔn)確性。