基于UNet網(wǎng)絡(luò)的乳腺癌腫瘤細(xì)胞圖像分割

2022-06-29 06:08徐思則

電子設(shè)計(jì)工程 2022年12期

徐思則，劉威

（1.武漢大學(xué)物理科學(xué)與技術(shù)學(xué)院，湖北武漢 430072；2.武漢大學(xué)深圳研究院，廣東深圳 518057）

據(jù)世界癌癥統(tǒng)計(jì)組織2020 年發(fā)表的相關(guān)報(bào)告[1]顯示，2020 年確診患癌的病人數(shù)量高達(dá)1 930 萬，而死于患癌的病人超過1 000 萬。其中，乳腺癌依然是女性中最常見的癌癥，在女性患癌種類中居于榜首（30%）。癌細(xì)胞的檢測對癌癥的前期診療具有重要臨床價(jià)值[2-3]，而細(xì)胞圖像的自動(dòng)化分析則是醫(yī)療輔助診斷的重要方法[4-5]。由于人工智能科技近年來取得了飛躍式的進(jìn)步，目前已有許多團(tuán)隊(duì)使用深度學(xué)習(xí)方法對癌細(xì)胞進(jìn)行分辨[6-8]。

該文以乳腺癌腫瘤細(xì)胞（MCF-7）為例，基于Python3.7 平臺，利用數(shù)字圖像處理技術(shù)，結(jié)合深度學(xué)習(xí)，將采集到的乳腺癌腫瘤細(xì)胞顯微圖像在UNet 深度網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)并得到用于腫瘤細(xì)胞圖像分割的模型。該模型可大量節(jié)省工作人員在腫瘤細(xì)胞識別和分割中的時(shí)間。

1 深度學(xué)習(xí)介紹

1.1 卷積神經(jīng)網(wǎng)絡(luò)介紹

卷積神經(jīng)網(wǎng)絡(luò)（CNN）不同于機(jī)器學(xué)習(xí)早期的SVM 等算法，其獨(dú)特的卷積操作發(fā)揮著至關(guān)重要的作用，不僅能夠削減網(wǎng)絡(luò)層數(shù)過多導(dǎo)致的大量內(nèi)存，還大量降低了模型中權(quán)重和偏置的數(shù)量，從而達(dá)到減輕過擬合的目的。CNN 的設(shè)計(jì)理念最早由LeCun團(tuán)隊(duì)發(fā)表，其設(shè)計(jì)的LeNet-5[9]包含5 個(gè)隱藏層，分別為2 個(gè)卷積層、2 個(gè)池化層和1 個(gè)全連接層。而CNN蓬勃發(fā)展的轉(zhuǎn)折點(diǎn)在2012 年，在該年的ImageNet 比賽中，AlexNet[10]憑借著超高的物體識別正確率贏得冠軍。該模型取得巨大進(jìn)步的原因，一是李飛飛團(tuán)隊(duì)制作的超大數(shù)據(jù)的、帶標(biāo)注的數(shù)據(jù)集ImageNet，二是計(jì)算機(jī)設(shè)備的保障，特別是GPU 的發(fā)展，給高強(qiáng)度的數(shù)學(xué)運(yùn)算帶來了有力的支撐[11-12]，以及更為重要的算法的提升，包括網(wǎng)絡(luò)深層優(yōu)化、數(shù)據(jù)集增加、ReLU 激活函數(shù)和Dropout 等。AlexNet 之后，深度學(xué)習(xí)進(jìn)入爆炸式發(fā)展階段，目前部分模型的準(zhǔn)確率已經(jīng)高于人類識別的準(zhǔn)確率。

單層的CNN 結(jié)構(gòu)一般包括3 個(gè)部分，分別是卷積層、激活函數(shù)和池化層。

卷積層：卷積層的主要作用是卷積運(yùn)算，其運(yùn)算方式與數(shù)字圖像中的濾波器運(yùn)算類似。如圖1 所示，n1個(gè)h1*w1的輸入數(shù)據(jù)，經(jīng)過n2個(gè)h2*w2的卷積核運(yùn)算，得到n3個(gè)h3*w3的輸出數(shù)據(jù)。

圖1 圖像卷積

式（1）中，xi代表第i層輸入數(shù)據(jù)，yj代表第j層輸出數(shù)據(jù)，wij和bj則分別代表該層的權(quán)值和偏移。

激活函數(shù)：在CNN 發(fā)展前期，激活函數(shù)經(jīng)常使用Sigmoid 和tanh 等非線性函數(shù)，而近年來，ReLU 逐漸被更加廣泛地應(yīng)用。ReLU 可以把參數(shù)小于0 的神經(jīng)元置為0，從而達(dá)到稀疏模型的目的。相較之下，Sigmoid 或tanh 激活函數(shù)不具備單側(cè)抑制的功能，而ReLU 使得神經(jīng)網(wǎng)絡(luò)層中大約50%的神經(jīng)節(jié)點(diǎn)處于休眠狀態(tài)，具有更好的稀疏性。在訓(xùn)練梯度下降時(shí)ReLU 比傳統(tǒng)的飽和非線性函數(shù)有更快的收斂速度，因此在訓(xùn)練整個(gè)網(wǎng)絡(luò)時(shí)，訓(xùn)練速度也比傳統(tǒng)的方法快很多。

池化層：最大池化(Max pooling)是最常用的池化方式。如圖2 所示，最大池化可以把經(jīng)過卷積操作后的特征數(shù)據(jù)均分為若干個(gè)區(qū)域，并逐個(gè)區(qū)域計(jì)算最大值。池化層會提取出最關(guān)鍵的空間信息，減少數(shù)據(jù)冗余，因此參數(shù)的數(shù)量和計(jì)算量也會下降，這在一定程度上也控制了過擬合。

圖2 最大池化

1.2 Batch Normalization

Batch Normalization 在2015 年被提出[13]，其思路是調(diào)整各層的激活值分布使其擁有適當(dāng)?shù)膹V度，簡而言之，就是對數(shù)據(jù)進(jìn)行整合，將其調(diào)整為N(0,1)的高斯分布。Batch Normalization 操作一般被插入到激活層之前，用來對數(shù)據(jù)分布進(jìn)行正則化處理?？偟貋碚f，Batch Normalization 具有加快訓(xùn)練速度、降低對初始權(quán)重的依賴以及抑制過擬合的優(yōu)點(diǎn)，因此Batch Normalization 是目前深度網(wǎng)絡(luò)中經(jīng)常用到的加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練、加速收斂速度及提高穩(wěn)定性的算法。

1.3 UNet網(wǎng)絡(luò)模型

由于醫(yī)學(xué)圖像語義較為簡單、結(jié)構(gòu)較為固定、邊界較為模糊以及數(shù)據(jù)量較少的特點(diǎn)，自2015 年以來，在生物醫(yī)學(xué)影像語義分割領(lǐng)域，UNet被廣泛應(yīng)用[14-15]。

如圖3[16]所示，UNet 網(wǎng)絡(luò)結(jié)構(gòu)包括兩部分，第一部分為左側(cè)特征提取部分，第二部分為右側(cè)上采樣部分。由于其網(wǎng)絡(luò)結(jié)構(gòu)類似字母U，所以被稱作UNet 網(wǎng)絡(luò)。在左側(cè)特征提取部分，每經(jīng)過一個(gè)池化層，便會產(chǎn)生一個(gè)新尺度的特征圖，加上原圖共有5種尺度。在右側(cè)上采樣部分，每經(jīng)過一次上采樣，便會產(chǎn)生一個(gè)和左側(cè)部分尺度相對應(yīng)的特征圖，并和左側(cè)特征圖相拼接。最后輸出兩層，分別為前景和背景。

圖3 UNet網(wǎng)絡(luò)結(jié)構(gòu)圖

2 實(shí)驗(yàn)流程

實(shí)驗(yàn)流程圖如圖4 所示。

圖4 實(shí)驗(yàn)流程圖

2.1 細(xì)胞圖像采集

由USB 接口和CMOS 傳感器構(gòu)成的拍攝設(shè)備具有高傳輸速率、兼容性好等特點(diǎn)[17]。該實(shí)驗(yàn)的圖像采集系統(tǒng)由CMOS 工業(yè)相機(jī)和三目螺紋接口顯微鏡攝像頭（40X）組成，通過USB2.0 與計(jì)算機(jī)建立通信，用其采集混有人體紅細(xì)胞的MCF-7 腫瘤細(xì)胞顯微圖像，共200 張，圖像如圖5 所示。

圖5 MCF-7腫瘤細(xì)胞圖像

2.2 圖像處理與標(biāo)注

通過幾何變換、顏色空間變換等方法，對采集到的圖像進(jìn)行數(shù)據(jù)增強(qiáng)后，使用圖像標(biāo)注軟件labelme，標(biāo)記采集到的MCF-7腫瘤細(xì)胞輪廓，標(biāo)注后的MCF-7腫瘤細(xì)胞圖像如圖6 所示。

圖6 標(biāo)注后的MCF-7腫瘤細(xì)胞圖像

2.3 模型設(shè)計(jì)

UNet網(wǎng)絡(luò)模型和參數(shù)如圖3所示，并在每次卷積操作后和ReLU激活函數(shù)之前加入Batch Normalization。Batch Normalization 的作用是將卷積后的結(jié)果歸一化，突出不同數(shù)據(jù)間的相對區(qū)別，減小絕對區(qū)別，提升學(xué)習(xí)效率。此外，由于深層網(wǎng)絡(luò)模型具有非常強(qiáng)的學(xué)習(xí)能力，如果沒有大量的樣本，會出現(xiàn)過擬合現(xiàn)象，使得學(xué)習(xí)后的模型難以應(yīng)用。在圖像傳入U(xiǎn)Net模型前，首先隨機(jī)旋轉(zhuǎn)圖像以增強(qiáng)樣本，進(jìn)而達(dá)到抑制過擬合的目的。

2.4 UNet模型訓(xùn)練

該研究使用200 張MCF-7 細(xì)胞顯微圖像作為樣本，對UNet 網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，實(shí)現(xiàn)了對腫瘤細(xì)胞的語義分割。將訓(xùn)練樣本按照8∶1∶1 的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測試集3 部分，每部分圖像數(shù)量分別是160、20 和20。輸入數(shù)據(jù)為顯微鏡采集到的原始圖片，經(jīng)過5 層下采樣與5 層上采樣，最后經(jīng)過一層1×1 的卷積層輸出。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 模型訓(xùn)練結(jié)果

使用200張MCF-7腫瘤細(xì)胞顯微圖像對網(wǎng)絡(luò)進(jìn)行訓(xùn)練，得到的結(jié)果如表1 所示，其中準(zhǔn)確率(Accuracy，AC)、召回率(Recall，RE)、特異性(Specificity，SP)、精準(zhǔn)率(Precision，PR)和F1 值(F1-score，F(xiàn)1)為評價(jià)網(wǎng)絡(luò)結(jié)構(gòu)的5 個(gè)重要指標(biāo)，其定義分別為：

表1 UNet網(wǎng)絡(luò)分割結(jié)果

式中，TP 為真正類（True Positive），TN 為真負(fù)類（True Negative），F(xiàn)P 為假正類（False Positive），F(xiàn)N 為假負(fù)類（False Negative）。從上式可得，準(zhǔn)確率是正確預(yù)測與所有預(yù)測的比例，召回率是正確預(yù)測與所有實(shí)際正確樣本的比例，精準(zhǔn)率是正確預(yù)測與所有預(yù)測為正的比例，而F1 值則為準(zhǔn)確率與召回率的綜合加權(quán)。

由表1 可知，UNet 神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集、驗(yàn)證集和測試集的圖像分割準(zhǔn)確率均高達(dá)90%以上，并且測試集的精準(zhǔn)率高達(dá)89%，說明該網(wǎng)絡(luò)可以較好地在圖像中定位與分割MCF-7 癌細(xì)胞。而相比訓(xùn)練集和驗(yàn)證集，測試集的召回率較低，只有80%，分析其原因如下：

一方面是UNet 神經(jīng)網(wǎng)絡(luò)的深度較深、參數(shù)較多，雖然該模型在訓(xùn)練前對輸入的圖像進(jìn)行了增強(qiáng)處理，并且加入了Batch Norm alization 層來抑制過擬合，但還是在一定程度上產(chǎn)生了過擬合現(xiàn)象；另一方面，顯微圖像中腫瘤細(xì)胞數(shù)目較少，導(dǎo)致標(biāo)注區(qū)域只占背景的一小部分，也在一定程度上導(dǎo)致了網(wǎng)絡(luò)模型訓(xùn)練的難度。

3.2 圖像測試結(jié)果

將訓(xùn)練好的網(wǎng)絡(luò)模型自動(dòng)保存，并將新的MCF-7腫瘤細(xì)胞圖像輸入網(wǎng)絡(luò)進(jìn)行分割，得到的結(jié)果如圖7所示，可以看到該網(wǎng)絡(luò)模型能夠較好地識別和分割顯微圖像中的MCF-7 腫瘤細(xì)胞。

圖7 模型分割結(jié)果對比

4 結(jié)論

該文使用UNet網(wǎng)絡(luò)，實(shí)現(xiàn)了對顯微圖像中MCF-7腫瘤細(xì)胞的識別與分割。實(shí)驗(yàn)結(jié)果表明，該網(wǎng)絡(luò)模型的分割準(zhǔn)確率達(dá)到91%，能夠滿足實(shí)際需求，具有一定應(yīng)用價(jià)值。該網(wǎng)絡(luò)相比傳統(tǒng)的細(xì)胞識別算法，可以更精細(xì)地分割出細(xì)胞輪廓，并且分割后的顯微圖像還可用于細(xì)胞計(jì)數(shù)等應(yīng)用。

該文的不足之處在于腫瘤細(xì)胞分割的準(zhǔn)確率和召回率還可以進(jìn)一步提升。下一步的研究重點(diǎn)可就分割不同種類的腫瘤細(xì)胞和分割不同時(shí)期的同一細(xì)胞進(jìn)行探討，并將其與細(xì)胞計(jì)數(shù)相結(jié)合。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡