黃軍豪,廖天馳
(1.四川農(nóng)業(yè)大學(xué)信息工程學(xué)院,雅安 625014;2.四川農(nóng)業(yè)大學(xué)理學(xué)院,雅安 625014)
乳腺癌是危害女性健康最常見的一種癌癥[1]。在全球范圍內(nèi),2018 年新診斷的女性乳腺癌病例約210萬例,占女性癌癥病例的近四分之一[2]。乳腺癌是一種異質(zhì)性疾病,可以細分為不同的乳腺癌亞型,不同亞型的異質(zhì)性是影響治療手段的關(guān)鍵因素之一[3]。因此,乳腺癌分子亞型的鑒定成為了推進乳腺癌精準診斷和治療的重要需求[4]。隨著免疫組織化學(xué)物(IHC)的興起,在醫(yī)學(xué)上將乳腺癌分子亞型分為Luminal A、Luminal B、Her2-enrich 和 Basal-like 4 個類型,每種不同的分子亞型都與疾病進展趨勢相關(guān)[5-6]。乳腺癌分子亞型的高效診斷是分子醫(yī)學(xué)領(lǐng)域一個尚未滿足的需求,盡管使用IHC 識別乳腺癌分子亞型具有一定的精準度,但其識別周期較長,于是需要更高效的診斷來幫助制定個體化的治療方案[7-10]。
近年來,日益精化的醫(yī)學(xué)圖像和快速發(fā)展的深度學(xué)習(xí)技術(shù)給計算機輔助診斷技術(shù)提供了良好的發(fā)展平臺和契機[11]。深度學(xué)習(xí)模型能夠自動進行特征抽象,隨著卷積網(wǎng)絡(luò)的不斷加深,更加抽象且高維度的特征也不斷地被提取,這很好地突破了傳統(tǒng)機器學(xué)習(xí)算法的性能瓶頸,因此,深度學(xué)習(xí)在圖像識別、圖像分割、語義分析等多個領(lǐng)域都有著廣泛的應(yīng)用[12-13]。在生物醫(yī)學(xué)領(lǐng)域,深度學(xué)習(xí)也為高效準確的計算機輔助診斷提供了一種新的思路。
乳腺癌分子亞型的智能分類是一項非常有挑戰(zhàn)性的研究。在國內(nèi),利用深度學(xué)習(xí)技術(shù)進行乳腺癌分子亞型分類的研究較少。在國外,已經(jīng)有不少研究將深度學(xué)習(xí)技術(shù)應(yīng)用于乳腺癌分子亞型的智能分類中。Zhu 等人[14]將乳腺癌分子亞型的分類進行簡化,將Luminal A 型單獨作為一類,其他3 種亞型作為一類,利用乳腺的核磁共振成像圖(MRI)作為數(shù)據(jù)集,采用VGG16[15]、GoogLeNet[16]等多種經(jīng)典模型進行乳腺癌分子亞型分類,最終將所有的測試結(jié)果取平均值,得到的平均AUC 為0.64。Ha 等人[17]提出了一種定制的14 層卷積神經(jīng)網(wǎng)絡(luò)用于乳腺癌分子亞型的分類,他們采用的數(shù)據(jù)集是216 例乳腺癌患者的MRI,并按照醫(yī)學(xué)上的亞型分類進行預(yù)測,最終在四種亞型的分類上,取得了70%的準確率。
本文提出了一種基于深度學(xué)習(xí)的乳腺癌分子亞型分類模型,該模型針對乳腺癌病理圖像數(shù)據(jù)的特征,定制了一種深層次卷積神經(jīng)網(wǎng)絡(luò)(DCNN),在一定的精度下,實現(xiàn)乳腺癌分子亞型的高效分類。
本文使用TCGA-BRCA 數(shù)據(jù)集作為乳腺癌分子亞型分類研究的樣本集,該數(shù)據(jù)集包含1098 位乳腺癌患者的乳腺病理圖像數(shù)據(jù),該數(shù)據(jù)集可以通過TCGA 數(shù)據(jù)庫獲得[18]。
每位患者平均含有3 張乳腺的病理圖像數(shù)據(jù),病理圖像是彩色圖片,包含了紅綠藍(RGB)三個通道,每張病理圖像數(shù)據(jù)的平均像素約為80,000×50,000。本文按照8:1:1 的比例隨機地將病理圖像樣本分為訓(xùn)練集、驗證集和測試集,在隨機分配的同時,本文也考慮了四種分子亞型所對應(yīng)樣本數(shù)量本身的不均衡性,例如Luminal A 型樣本數(shù)量大約是Her2-enrich 型樣本數(shù)量的6 倍,為了保證測試效果的公平性,本文對四種分子亞型的樣本采用比例不變的分層采樣。詳細的數(shù)據(jù)劃分如表1 所示。
表1 全尺寸病理圖像的具體數(shù)據(jù)劃分
每一張原始病理圖像像素點數(shù)量的計量單位上億級,像這樣的大尺寸、超高分辨率的圖像,無法直接作為DCNN 模型的輸入。為了解決這個問題,本文在盡可能保留原始圖像特征的情況下,對全尺寸圖像進行了分塊處理。
圖像分塊就是將全尺寸圖片按照一定的尺寸進行切割,最終將一個全尺寸圖片切割成為若干小尺寸圖片,以適應(yīng)深度學(xué)習(xí)模型的輸入。本文按照2,048×2,048 的像素區(qū)域?qū)θ叽绮±韴D像進行分塊處理,每一子塊的標(biāo)簽與子塊所屬的全尺寸病理圖像的標(biāo)簽保持一致。
由于全尺寸病理圖像的表現(xiàn)特征具有區(qū)域性,圖像的局部區(qū)域是由特征信息非常少的毛細組織構(gòu)成,如圖1 所示。這部分區(qū)域整體偏向于無色和白色,本文稱其為“白色”噪音圖像。這些“白色”噪音圖像在圖像分塊的處理過程中,會被當(dāng)作有效信息切割下來,成為圖像分塊的產(chǎn)物。如果將這部分“白色”噪音圖像作為深度卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,會干擾模型的自優(yōu)化,影響模型的特征識別,最終降低網(wǎng)絡(luò)的性能。因此,為了解決這個問題,本文采用了一種基于灰度值計算的圖像過濾技術(shù),對“白色”噪音圖像進行過濾,具體的步驟如下:
以一張小尺寸病理圖像數(shù)據(jù)的處理過程為例,利用浮點算法計算該病理圖像每一個像素點的灰度值:
圖1“白色”噪音圖像示意圖
在計算出每個像素點的灰度值后,取得整張圖片的平均灰度值。平均灰度值越大,即其值越接近255,證明圖片所包含的信息越少,則這類圖片可以歸類為“白色”噪音圖片,不宜被選用。
基于此思想,對于一張全尺寸圖像分塊后的若干小尺寸病理圖像,本文選取其中信息含量最多的50 張圖像作為最終的數(shù)據(jù)集,最終的數(shù)據(jù)集劃分如表2所示。
表2 小尺寸病理圖像的具體數(shù)據(jù)劃分
除此之外,為了提高訓(xùn)練效果,打破小樣本的數(shù)據(jù)集的性能限制,本文對每一張小尺寸病理圖像都做了數(shù)據(jù)增強。主要的實現(xiàn)方法是對圖像進行隨機旋轉(zhuǎn)、鏡面翻轉(zhuǎn)和沿對角線翻轉(zhuǎn)。這樣做可以有效提高DCNN 模型的泛化能力,提高其在測試數(shù)據(jù)集上的表現(xiàn)。
整個數(shù)據(jù)預(yù)處理的流程如圖2 所示。
圖2 數(shù)據(jù)預(yù)處理流程圖
目前還有沒有一個較為成熟的乳腺癌病理圖像識別模型,為了提高模型的適應(yīng)性,本文定制了一種DCNN 模型來提取病理圖像數(shù)據(jù)的抽象特征。這個模型是基于VGG16[15]進行改進的,改進后的DCNN 模型由28 層組成,整體架構(gòu)為:深層次局部特征提取網(wǎng)絡(luò)組合高維特征抽象網(wǎng)絡(luò)。
輸入層:負責(zé)將圖像數(shù)據(jù)輸入網(wǎng)絡(luò)進行特征提取,并自適應(yīng)圖片大小。本文的輸入層包含3 個通道,為了進一步提高網(wǎng)絡(luò)的提取效率,輸入層會自適應(yīng)壓縮圖像大小,聚合特征信息,以適應(yīng)DCNN 模型的特征提取。
卷積層[19]:負責(zé)更加深入地分析圖像的每一個部分,提取更加抽象的特征,通常經(jīng)過卷積層的輸入矩陣會變得更深,特征信息會更明顯。本文模型中的卷積層過濾器的大小有1×1和3×3 兩種,過濾器的移動步長統(tǒng)一設(shè)置為1。卷積層使用全零填充機制。
Inception 層:負責(zé)進一步提取高緯度特征。本文模型中的Inception 層引用自InceptionV3 模型[19]中的倒數(shù)第六層,也是InceptionV3 模型的核心層。引用該層是為了更加深入地分析病理圖像的粗粒度信息,突破特征提取瓶頸。
池化層:負責(zé)縮小矩陣的尺寸,減少網(wǎng)絡(luò)中的參數(shù)。池化層可以有效防止過擬合,也能夠加快網(wǎng)絡(luò)的優(yōu)化速度[19]。本文模型的池化層均采用Max Pooling。池化層的過濾器尺寸統(tǒng)一為2×2,移動步長為2,全部采用全零填充機制。
為了進一步防止過擬合問題,本文在訓(xùn)練網(wǎng)絡(luò)時也引入了Dropout 技術(shù)[20],并將Dropout 技術(shù)用于第一個全連接層。
本文DCNN 模型的激活函數(shù)全部采用ReLU 激活函數(shù)[21]。該激活函數(shù)非常適合DCNN 模型,它能減輕梯度消失的問題[21]。
本文使用的參數(shù)初始化方法為:Xavier 初始化[22]。該方法可以保證每一層輸出的方差盡量相等,可以一定程度上減少收斂時間,是一種很高效的DCNN 初始化方法[22]。
本文定義的損失函數(shù)如下:
Lt表示樣本的正確標(biāo)簽,其中表示網(wǎng)絡(luò)輸出的結(jié)果,λ為正則化項的權(quán)重。
本文DCNN 模型的初始學(xué)習(xí)率設(shè)置為0.1,使用Gradient Descent Optimizer 進行誤差修正。
本文DCNN 模型的具體結(jié)構(gòu)見圖3。
圖3 DCNN網(wǎng)絡(luò)的具體結(jié)構(gòu)
本文模型在 Intel Core i7 CPU,NVIDIA GeForce RTX 2080 GPU 上進行訓(xùn)練,使用 TensorFlow 框架[23]。DCNN 模型的訓(xùn)練時長約為8 小時14 分鐘。
本文將訓(xùn)練好模型在測試集上進行性能驗證,DCNN 模型的分類準確率為70.08%,除此之外,本文還統(tǒng)計了DCNN 模型在損失函數(shù)上的損失值,DCNN 模型的損失值為0.48633。
上述準確率是在原來的測試數(shù)據(jù)集上進行一次測試得到的,不具有普適性,不能作為評判模型優(yōu)劣的結(jié)果,為了更進一步地得到更為準確可靠的模型性能結(jié)果,本文對DCNN 模型進行了十次十折交叉驗證[24],其結(jié)果如圖4 所示。在十次交叉驗證中。DCNN 模型的最高分類準確率為76.49%,平均分類準確率為71.97%。
圖4 十次十折交叉驗證的具體結(jié)果
為了評估多模態(tài)融合模型對某一種乳腺癌分子亞型作預(yù)測的性能,本文分別對每一種分子亞型作了ROC 曲線,也計算了模型在每一種分子亞型預(yù)測工作上的AUC 值。ROC 曲線是反應(yīng)二分類模型性能的一種曲線。對于一個二分類問題,實例可以分成Positive或者Negative,但在實際分類問題中,會出現(xiàn)四種情況:True Positive(TP)、False Negative(FN)、False Positive(FP)和 True Negative(TN)。ROC 曲線的橫軸是 True Positive Rate(TPR)、縱軸是 False Positive Rate(FPR),它們的計算公式如下:
ROC 曲線上的每個點對應(yīng)一個閾值,ROC 曲線下的面積即為AUC 值,AUC 值越大,則證明當(dāng)前模型的分類性能越出色。
由于分子亞型的預(yù)測工作本身是多分類問題,ROC 曲線的繪制和AUC 值的計算需要在二分類問題上進行,本文對某一種分子亞型的預(yù)測作性能評估時,將其他種類的分子亞型分為一類,例如:判斷模型對Luminal A 型作預(yù)測的性能時,將其他三個種類的分子亞型標(biāo)注為一類。不同分子亞型預(yù)測性能評估的ROC曲線如圖5 所示。
圖5 不同分子亞型的ROC曲線
為了進一步驗證本文針對乳腺癌病理圖像數(shù)據(jù)所構(gòu)建的DCNN 模型的性能優(yōu)越性,本文選取了經(jīng)典的3 種深度學(xué)習(xí)模型作為對照模型,進行性能對比。
本文選取三種經(jīng)典的深度學(xué)習(xí)模型分別為AlexNet[25]、VGG16[15]和 GoogLeNet[16],對照模型在相同的數(shù)據(jù)集下進行復(fù)現(xiàn)實驗,實驗的對比結(jié)果如表3 所示。
表3 與其他模型對比的結(jié)果
通過廣度上的對比,可以發(fā)現(xiàn)本文構(gòu)建的DCNN模型不論是在分類準確率上還是AUC 的得分上都要優(yōu)于其他三種經(jīng)典的深度學(xué)習(xí)模型。
本文提出了一種改進的深度學(xué)習(xí)模型,用于有效地提取乳腺癌病理圖像數(shù)據(jù)的特征信息,解決乳腺癌分子亞型的智能分類問題。本文利用訓(xùn)練好的模型進行十次十折交叉驗證,在四分類問題上取得了71.97%的預(yù)測準確率;分別對每種亞型進行AUC 檢驗,四種亞型的平均AUC 值為78.47%。如果將來能在更加優(yōu)質(zhì)、豐富的數(shù)據(jù)集上進行模型訓(xùn)練,本文DCNN 模型的性能可能會進一步提升。綜上所述,本文的模型可以成為未來乳腺癌分子亞型智能分類的一個潛在選擇。