国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CNN 的乳腺癌病理圖像分類研究

2022-05-06 03:25:32易才鍵王師瑋
智能計算機(jī)與應(yīng)用 2022年3期
關(guān)鍵詞:準(zhǔn)確率卷積乳腺癌

易才鍵, 陳 俊, 王師瑋

(福州大學(xué) 物理與信息工程學(xué)院, 福州 350108)

0 引 言

據(jù)世界衛(wèi)生組織國際癌癥研究機(jī)構(gòu)(IARC)2020 年發(fā)布的研究數(shù)據(jù)顯示,乳腺癌正式取代肺癌,成為全球第一大癌癥。 其中,女性癌癥患者中乳腺癌的占比最高,遠(yuǎn)超其他癌癥類型。 目前對乳腺癌的診斷主要是依靠組織病理學(xué)分析,乳腺癌的最終診斷,包括分級和分期,大都由病理學(xué)家對組織病理圖像進(jìn)行分析得到,因此這是診斷乳腺癌的金標(biāo)準(zhǔn)。

隨著計算機(jī)技術(shù)的發(fā)展,已有許多學(xué)者嘗試將計算機(jī)輔助診斷(CAD)應(yīng)用在乳腺癌病理圖像的自動分類中,并取得了一系列的研究進(jìn)展。 在傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域中,自動診斷的方法主要是基于人工的特征提取,結(jié)合分類器實現(xiàn)的。 Roy 等人設(shè)計了特征提取器,提取了紋理和統(tǒng)計特征,將這些特征組合起來,生成一個包含782 個特征的數(shù)據(jù)集,通過使用多種分類器進(jìn)行訓(xùn)練和分類,得到的最優(yōu)識別率為92.55%;Spanhol 等人公開了BreakHis 數(shù)據(jù)集,并基于此數(shù)據(jù)集,使用了6 種不同的特征提取器,并為每個特征提取器結(jié)合了4 種分類器,最終的識別準(zhǔn)確率為80%-85%。 但基于人工的特征提取不僅需要耗費大量的時間和精力,還要求特征提取人員具有相應(yīng)的專業(yè)領(lǐng)域知識。 此外,特征提取人員的經(jīng)驗和精神狀態(tài)都會影響到特征提取的質(zhì)量,嚴(yán)重影響了計算機(jī)輔助診斷技術(shù)在實際中的應(yīng)用。

近年來,隨著計算機(jī)運算能力和人工智能的快速發(fā)展,深度學(xué)習(xí)技術(shù)在許多領(lǐng)域得以應(yīng)用,尤其在圖像處理方面取得了很大的進(jìn)展。 利用深度學(xué)習(xí)技術(shù)可以自動的從圖像中提取特征,避免了傳統(tǒng)機(jī)器學(xué)習(xí)中人工提取特征的局限性,節(jié)省了人力。如今已有很多的學(xué)者將深度學(xué)習(xí)技術(shù)應(yīng)用在乳腺癌診斷中,在一定程度上提高了乳腺癌診斷的準(zhǔn)確性。Spanhol 等人在BreaKHis 數(shù)據(jù)集上應(yīng)用AlexNet網(wǎng)絡(luò),得到的識別率比傳統(tǒng)機(jī)器學(xué)習(xí)算法高出6%;Nawaz 等人使用DenseNet CNN 模型對乳腺腫瘤的亞型進(jìn)行預(yù)測,準(zhǔn)確率達(dá)到95.4%;鄒文凱等人對GoogleNet 中的Inception 結(jié)構(gòu)進(jìn)行調(diào)整,并采用所有放大倍數(shù)統(tǒng)一訓(xùn)練、獨立測試的方法,以患者級別作為評價標(biāo)準(zhǔn),其準(zhǔn)確率為87%-90%。 上述方法雖然已經(jīng)具有一定的準(zhǔn)確率,但還需進(jìn)一步提高識別的準(zhǔn)確率和模型的魯棒性。

針對上述問題,本文以VGG16 網(wǎng)絡(luò)為基礎(chǔ),對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整,同時結(jié)合數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)策略,在公開的BreakHis 數(shù)據(jù)集上進(jìn)行訓(xùn)練,訓(xùn)練得到的模型將用作于乳腺癌病理圖像的良惡性分類;為解決數(shù)據(jù)集存在的樣本不均衡問題,本文使用焦點損失函數(shù)(Focal Loss)作為實驗的損失函數(shù),能在一定程度上緩解樣本不均衡問題;對4 種不同放大倍數(shù)的圖像統(tǒng)一訓(xùn)練,讓網(wǎng)絡(luò)能夠?qū)W習(xí)到更深層次、更復(fù)雜的特征,提高模型的魯棒性,在測試時則對不同放大倍數(shù)的圖像進(jìn)行獨立測試,更好地模擬實際應(yīng)用場景中的乳腺癌病理圖像分類。

1 本文方法

1.1 卷積神經(jīng)網(wǎng)絡(luò)

在2012 年的ImageNet 圖像分類競賽上,AlexNet 網(wǎng)絡(luò)強(qiáng)勢奪冠,該網(wǎng)絡(luò)的分類效果遠(yuǎn)超當(dāng)時的其他模型,深度學(xué)習(xí)技術(shù)從此受到廣泛的關(guān)注。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)的優(yōu)勢在于不需要人為的提取特征,而是依靠神經(jīng)網(wǎng)絡(luò)本身去學(xué)習(xí)樣本的特征,提高了特征提取的便利和準(zhǔn)確性。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為最常用的深度學(xué)習(xí)模型之一,在圖像處理領(lǐng)域表現(xiàn)優(yōu)異,本文使用CNN 來構(gòu)造圖像分類模型。 CNN 通常由輸入層、卷積層、池化層和全連接層組成,如圖1 所示。 將2D 或3D 圖像輸入,由卷積層提取圖像的特征,池化層對提取到的特征進(jìn)行降維、壓縮數(shù)據(jù)和參數(shù)的數(shù)量。 經(jīng)過一系列的卷積和池化操作,CNN 可以同時學(xué)習(xí)到數(shù)據(jù)的低層特征和高層特征,在全連接層得到易被網(wǎng)絡(luò)區(qū)分的特征,便于后續(xù)的分類。

相較于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),CNN 具有兩大優(yōu)勢:局部連接和權(quán)值共享。 局部連接是相對于全連接而言的,全連接是指網(wǎng)絡(luò)中的每個結(jié)點都相連,而局部連接則是部分結(jié)點相連。 實際處理過程中,圖像的像素點通常與臨近的像素點關(guān)聯(lián)較大,與遠(yuǎn)處的像素點關(guān)聯(lián)較小,局部連接可以形成具有高區(qū)分性的局部特征。 權(quán)值共享是指使用同一卷積核對整幅圖像進(jìn)行卷積運算,可以減少運算時的參數(shù)量,加快運算速度。

圖1 卷積神經(jīng)網(wǎng)絡(luò)典型結(jié)構(gòu)Fig. 1 Typical structure of convolutional neural network

1.2 遷移學(xué)習(xí)

遷移學(xué)習(xí)是將從一個任務(wù)訓(xùn)練得到的模型移植到其他任務(wù)上。 目前,遷移學(xué)習(xí)方法主要有實例遷移、特征遷移、共享參數(shù)遷移和關(guān)系知識遷移。本文采用參數(shù)遷移方法,用已經(jīng)在其他數(shù)據(jù)集(源域)上訓(xùn)練好的模型來初始化本文的網(wǎng)絡(luò),之后在本文使用的數(shù)據(jù)集(目標(biāo)域)上重新訓(xùn)練,對網(wǎng)絡(luò)的參數(shù)進(jìn)行調(diào)整。 卷積神經(jīng)網(wǎng)絡(luò)在開始訓(xùn)練時,是隨機(jī)初始化每個參數(shù)的,如果此時訓(xùn)練的數(shù)據(jù)量較小,容易導(dǎo)致模型無法學(xué)習(xí)到數(shù)據(jù)的規(guī)律,進(jìn)而影響模型的性能。 借助遷移學(xué)習(xí)技術(shù),可以在一定程度上縮短訓(xùn)練時間,有效的抑制欠擬合和過擬合現(xiàn)象,提高模型的泛化性能。

ImageNet 數(shù)據(jù)集是一個用于計算機(jī)視覺的大型可視化數(shù)據(jù)集,該數(shù)據(jù)集有超過1 000 萬幅的自然圖像,共1 000 個類別的手動標(biāo)注。 本文將ImageNet 數(shù)據(jù)集作為源域,先將網(wǎng)絡(luò)模型在該數(shù)據(jù)集上訓(xùn)練,訓(xùn)練得到的模型參數(shù)用作本文數(shù)據(jù)集訓(xùn)練時網(wǎng)絡(luò)的初始化。 考慮到自然圖像和醫(yī)學(xué)圖像存在的差異,本文僅將源域的模型參數(shù)用作網(wǎng)絡(luò)初始化,且構(gòu)造新的全連接層,在BreakHis 數(shù)據(jù)集上對網(wǎng)絡(luò)層的所有參數(shù)進(jìn)行新的訓(xùn)練和調(diào)整。

1.3 VGG16 網(wǎng)絡(luò)

VGG 網(wǎng)絡(luò)是由牛津大學(xué)計算機(jī)視覺組(Visual Geometry Group)和Google DeepMind 公司的研究員一起研發(fā)的,該網(wǎng)絡(luò)取得了ILSVRC2014 比賽分類項目的第二名,具有良好的特征提取能力。 本文以經(jīng)典的VGG16 網(wǎng)絡(luò)為基礎(chǔ),對網(wǎng)絡(luò)的全連接層進(jìn)行調(diào)整,調(diào)整后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

圖2 調(diào)整后的VGG 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Adjusted structure of VGG network

網(wǎng)絡(luò)的輸入采用224×224 的RGB 彩色圖像,共包含13 個卷積層,5 個最大池化層以及3 個全連接層。 3 個全連接層對應(yīng)的神經(jīng)元節(jié)點個數(shù)調(diào)整為256,128,2,原網(wǎng)絡(luò)的全連接層神經(jīng)元節(jié)點個數(shù)為4 096,4 096,1 000。 調(diào)整后的VGG16 網(wǎng)絡(luò)具有以下特點:

(1)使用小尺寸的卷積核,以3×3 大小的卷積核為主。 相較于5×5 或7×7 的大尺寸卷積核,小尺寸的卷積核不但計算量小,而且更能提取到圖像的細(xì)節(jié)信息;

(2)全連接層神經(jīng)元的個數(shù)較少,由于卷積神經(jīng)網(wǎng)絡(luò)的大部分參數(shù)量都集中在全連接層,對全連接層的維度進(jìn)行壓縮,可以輕量化模型,降低過擬合的風(fēng)險。

深度學(xué)習(xí)算法的缺點是網(wǎng)絡(luò)訓(xùn)練困難,通常要消耗較多的時間,且利用梯度下降法容易陷入到局部最優(yōu)解。 為了解決這些問題,本文將批量歸一化(BN)算法加入到網(wǎng)絡(luò)中,來縮小每個訓(xùn)練批次間的分布差距,加快網(wǎng)絡(luò)訓(xùn)練速度。 BN 算法的公式(1)和公式(2):

綜上所述,本文使用網(wǎng)絡(luò)參數(shù)量少,訓(xùn)練速度快,分類性能優(yōu)秀,用該網(wǎng)絡(luò)對BreakHis 乳腺癌組織病理圖像數(shù)據(jù)集進(jìn)行訓(xùn)練和分類,取得了良好的效果。

2 數(shù)據(jù)集

2.1 數(shù)據(jù)集來源

本文采用公開的數(shù)據(jù)集BreakHis,該數(shù)據(jù)集包含來自于82 位患者的7 909 幅已標(biāo)注的乳腺癌組織病理圖像,其中良性腫瘤圖像2 480 幅,惡性腫瘤圖像5 429 幅。 每幅病理圖像均采用4 種不同的放大倍數(shù)(40X、100X、200X、400X),大小均為700×460的R、G、B 三通道圖像。 BreakHis 數(shù)據(jù)集的部分圖像如圖3 所示;該數(shù)據(jù)集的具體分布情況見表1。

圖3 數(shù)據(jù)集部分圖像Fig. 3 Partial image of data set

表1 不同放大倍數(shù)的良、惡性腫瘤圖像分布Tab. 1 Image distribution of benign and malignant tumors with different magnification

2.2 數(shù)據(jù)增強(qiáng)

BreakHis 數(shù)據(jù)集僅有7 909 幅乳腺癌病理圖像,這對于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練來說是遠(yuǎn)遠(yuǎn)不夠的,因此需要利用數(shù)據(jù)增強(qiáng)來增加訓(xùn)練數(shù)據(jù),降低模型過擬合的風(fēng)險,提高模型的泛化性能。 常用的數(shù)據(jù)增強(qiáng)方法包括:翻轉(zhuǎn)、旋轉(zhuǎn)、裁剪、平移、高斯噪聲,模糊等。

本文按照7:3 的比例將原數(shù)據(jù)集劃分為訓(xùn)練集和測試集,且僅對訓(xùn)練集的數(shù)據(jù)進(jìn)行6 種方式的數(shù)據(jù)增強(qiáng)。 首先,將訓(xùn)練集數(shù)據(jù)進(jìn)行水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、逆時針旋轉(zhuǎn)90°、180°、270°共5 種操作,將數(shù)據(jù)擴(kuò)充至原來的6 倍;再對上述圖像按照0.8 的比例縮放。 經(jīng)過這6 種方式的變換,訓(xùn)練集數(shù)據(jù)擴(kuò)充至原來的12 倍,其中訓(xùn)練集圖像66 444 張,測試集圖像2 372 張。 擴(kuò)充后的數(shù)據(jù)集的分布情況見表2。

表2 數(shù)據(jù)增強(qiáng)后的圖像分布情況Tab. 2 Image distribution after data enhancement

3 實驗及結(jié)果分析

本文的實驗基于開源的深度學(xué)習(xí)框架Pytorch,CPU 型號為IntelCore i7-9000K,內(nèi)存為16 GB,顯卡型號為NVIDIA GeForce RTX 2080 Ti。

3.1 訓(xùn)練策略

為了更好地訓(xùn)練分類模型,本文模型的參數(shù)通過遷移學(xué)習(xí)策略進(jìn)行初始化。 在實驗過程中,將所有訓(xùn)練數(shù)據(jù)的尺寸統(tǒng)一為224×224×3,然后分為小批次訓(xùn)練,每個小批次包含32 幅圖像。 采用Adam 作為本次實驗的優(yōu)化器,在訓(xùn)練過程中自動調(diào)整學(xué)習(xí)率,提高模型分類的準(zhǔn)確率,本次Adam 優(yōu)化器的參數(shù)均采用默認(rèn)參數(shù),使用函數(shù)作為激活函數(shù)。

3.2 焦點損失函數(shù)

通常在分類任務(wù)中,會使用交叉熵函數(shù)作為損失函數(shù),以二分類為例,二分類交叉熵(Binary CrossEntropy,BCE)的公式(3)為:

其中,代表損失值;為病理標(biāo)簽,=0 代表良性,=1 為惡性;^∈(0,1)為神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測值。

交叉熵函數(shù)雖然有著廣泛的應(yīng)用,但也存在明顯的缺陷,即交叉熵函數(shù)會受到簡單易分類樣本的影響,導(dǎo)致訓(xùn)練過程中偏離正確的優(yōu)化方向,對分類效果產(chǎn)生一定的影響。 從表1 可知,BreakHis 數(shù)據(jù)集存在樣本類別不均衡問題,經(jīng)過數(shù)據(jù)增強(qiáng)后,訓(xùn)練集中的良、惡性腫瘤圖像數(shù)量分別為20 856 和45 588張,兩種類別的圖像數(shù)量差距明顯,故采用焦點損失函數(shù)代替二分類交叉熵函數(shù),其公式(4)為:

實驗結(jié)果表明,引入焦點損失函數(shù)能夠在一定程度上緩解類別不均衡問題,提高模型的分類效果。

3.3 評價標(biāo)準(zhǔn)

醫(yī)學(xué)圖像的分類通??梢詮膬蓚€方面評價模型的分類性能:患者級別和圖像級別。

本文不考慮患者級別,僅從圖像級別來計算識別準(zhǔn)確率,則圖像級別的識別率可表示為公式(5):

其中,N代表測試集中病理圖像總的數(shù)量,N代表被正確分類的圖像數(shù)量。

3.4 實驗對比分析

3.4.1 不同損失函數(shù)下的準(zhǔn)確率對比

2) 配置連接核心交換機(jī)CS6509的端口屬性Switch Port Configuration→Port Groping Parameters,設(shè)置所屬的端口組為student1,啟用端口聚合協(xié)議PAgP(Port Aggregation Protocol),端口模式采用desirable模式[15].

本次實驗將焦點損失函數(shù)(Focal Loss)與分類任務(wù)中應(yīng)用廣泛的二分類交叉熵(BCE)對比,分別使用這兩種函數(shù)作為訓(xùn)練過程中的損失函數(shù),實驗結(jié)果見表3。 從表3 可以看出:

(1)Focal Loss 作為損失函數(shù)時,良惡性腫瘤的分類準(zhǔn)確率僅相差0.29%;而使用BCE 的情況下,相差3.44%,此時模型對于較多樣本(惡性腫瘤)產(chǎn)生了傾向性,不利于對腫瘤的診斷;

(2)使用Focal Loss 時,雖然對惡性腫瘤的分類準(zhǔn)確率略低于使用BCE 的情況,但對于良性腫瘤的分類準(zhǔn)確率卻得到了很大的提升,這樣的模型更接近實際生活,具有更強(qiáng)的魯棒性;

(3)模型的平均準(zhǔn)確率有所提高。

表3 不同損失函數(shù)下的準(zhǔn)確率對比Tab. 3 Comparison of accuracy with different loss functions

3.4.2 不同訓(xùn)練策略下的準(zhǔn)確率對比

使用不同的訓(xùn)練策略,共進(jìn)行4 次實驗,實驗均采用Focal Loss 作為損失函數(shù)。 這4 種策略分別是數(shù)據(jù)增強(qiáng)結(jié)合遷移學(xué)習(xí)策略、數(shù)據(jù)增強(qiáng)策略、遷移學(xué)習(xí)策略、無數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)策略,結(jié)果為網(wǎng)絡(luò)迭代10 000次過程中的最佳模型在測試集上的準(zhǔn)確率,如圖4 所示。

圖4 4 種訓(xùn)練策略下的準(zhǔn)確率Fig. 4 Accuracy under four training strategies

由圖4 可知,采用遷移學(xué)習(xí)策略,無論是否進(jìn)行數(shù)據(jù)增強(qiáng),準(zhǔn)確率都得到了大幅度的提升(圖4 中紅色和藍(lán)色曲線對比),證實了遷移學(xué)習(xí)策略的有效性;采用數(shù)據(jù)增強(qiáng)策略后,無論是否使用遷移學(xué)習(xí)對網(wǎng)絡(luò)進(jìn)行初始化,訓(xùn)練的準(zhǔn)確率都得到了一些提升(見圖4 中紅色和綠色曲線對比),證實了數(shù)據(jù)增強(qiáng)策略的有效性。 實驗表明,本文采用有效的訓(xùn)練策略防止了訓(xùn)練過程中過擬合的現(xiàn)象,并大大的提高了模型的泛化能力,在BreakHis 數(shù)據(jù)集上的識別率為94%-98%。

3.4.3 與其他的分類方法對比

為了更好的評價本文的模型,本文選擇與應(yīng)用在同一數(shù)據(jù)集BreakHis 上的其他分類方法進(jìn)行對比,這些方法采用與本文相同的評價標(biāo)準(zhǔn),即以圖像級別的識別率作為評價標(biāo)準(zhǔn),見表4。 通過與其他分類方法的對比可知,本文方法在4 種不同放大倍數(shù)下的識別準(zhǔn)確率均高于其他的分類方法,表明了本文訓(xùn)練策略的有效性及本文深度學(xué)習(xí)模型的魯棒性。

表4 不同放大倍數(shù)下各方法識別準(zhǔn)確率的對比Tab. 4 Comparison of recognition accuracy of various methods with different magnifications

4 結(jié)束語

為解決傳統(tǒng)機(jī)器學(xué)習(xí)在病理圖像分類任務(wù)中存在的不足,提高乳腺癌病理圖像的分類準(zhǔn)確率,本文提出了基于CNN 的乳腺癌病理圖像分類模型。 在公開的BreakHis 數(shù)據(jù)集上進(jìn)行訓(xùn)練與參數(shù)優(yōu)化,最終在4 種放大倍數(shù)下的平均識別率達(dá)到96.96%,其中40X、100X 和200X 倍數(shù)下的識別率均超過97%,展現(xiàn)出了優(yōu)秀的分類能力;為解決醫(yī)學(xué)圖像數(shù)據(jù)集較少的問題,本文采用遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)策略,利用遷移學(xué)習(xí)初始化網(wǎng)絡(luò),同時將數(shù)據(jù)集擴(kuò)充至原有的12 倍,避免了過擬合現(xiàn)象的發(fā)生;為解決BreakHis 數(shù)據(jù)集存在的類別不均衡問題,本文采用焦點損失函數(shù)代替?zhèn)鹘y(tǒng)的交叉熵函數(shù)。 通過多個對比實驗,驗證了本文模型的優(yōu)異性和訓(xùn)練策略的有效性,能夠為早期發(fā)現(xiàn)和診斷乳腺癌提供有力指導(dǎo)。

猜你喜歡
準(zhǔn)確率卷積乳腺癌
絕經(jīng)了,是否就離乳腺癌越來越遠(yuǎn)呢?
中老年保健(2022年6期)2022-08-19 01:41:48
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
乳腺癌是吃出來的嗎
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
胸大更容易得乳腺癌嗎
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
长沙县| 宜都市| 横山县| 凌海市| 辽阳县| 北流市| 齐齐哈尔市| 宁德市| 嵊州市| 陆河县| 永吉县| 萨迦县| 伽师县| 鸡西市| 奉节县| 南皮县| 永康市| 新安县| 长沙市| 巫溪县| 庆阳市| 广西| 三台县| 长沙县| 南安市| 三河市| 文山县| 老河口市| 庆云县| 东乡族自治县| 旅游| 邵阳市| 专栏| 桃源县| 河西区| 来宾市| 常州市| 临武县| 河池市| 天门市| 安远县|