李蒙蒙
(河南科技大學(xué)第一附屬醫(yī)院腫瘤內(nèi)科,河南洛陽 471000)
隨著人工智能(Artificial Intelligence)和大數(shù)據(jù)時(shí)代的到來,深度學(xué)習(xí)技術(shù)成為推動臨床醫(yī)療領(lǐng)域快速發(fā)展的新引擎[1-2]。乳腺癌(breast cancer)作為當(dāng)前全球女性常見的癌癥,早期發(fā)現(xiàn)和及時(shí)治療尤為重要[3-4]。通過調(diào)研發(fā)現(xiàn),傳統(tǒng)的醫(yī)療診斷技術(shù)在檢測過程中難免會出現(xiàn)一些人為誤差,而且也花費(fèi)了醫(yī)療工作者大量的時(shí)間和精力[5]。因此,為了獲得準(zhǔn)確、高效的診斷結(jié)果,提升乳腺癌診斷的智能化水平,如何創(chuàng)造性地將深度學(xué)習(xí)技術(shù)[6]和乳腺癌診斷相結(jié)合,成為當(dāng)前乳腺癌檢測領(lǐng)域亟待解決的關(guān)鍵科學(xué)問題之一。在國際上,LECUN 等[7]研究學(xué)者在深度學(xué)習(xí)領(lǐng)域提出了一種卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)方法,為醫(yī)療工作者在輔助診斷疑似患者方面提供了新的思路。本文首先通過對臨床上常用的乳腺癌數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)處理,其次運(yùn)用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)來訓(xùn)練模型,使得該模型能夠自動地輔助診斷出乳腺癌患者,減少人工操作在時(shí)間和經(jīng)驗(yàn)方面的影響。在臨床實(shí)踐過程中,通過選取本文所采用的乳腺癌疑似患者的檢測指標(biāo),并將檢測指標(biāo)輸入到卷積神經(jīng)網(wǎng)絡(luò)模型中,能夠快速準(zhǔn)確地檢測出待測患者是否為惡性腫瘤患者。該方法不僅可以輔助醫(yī)生及時(shí)發(fā)現(xiàn)惡性乳腺癌腫瘤患者,而且為癌癥診斷的智能化和信息化指明了新的方向。
本文采用由威斯康星醫(yī)學(xué)院William H.Wolberg 博士提供的乳腺癌公開數(shù)據(jù)樣本。該數(shù)據(jù)集是乳腺癌領(lǐng)域研究人員常用的公開數(shù)據(jù)集。公開數(shù)據(jù)集的選取為乳腺癌領(lǐng)域的研究人員進(jìn)行對比和評估提供了共同基礎(chǔ)。本文采用的數(shù)據(jù)樣本都來自于真實(shí)的臨床案例,每個(gè)案例具有32 個(gè)屬性,每個(gè)屬性值由不同量綱的數(shù)值表示。其中第1個(gè)屬性是患者的編號(ID 號),第2 個(gè)屬性是分類屬性(benign 表示良性,malignancy 表示惡性),第3~30 個(gè)屬性是檢測惡性乳腺癌患者常用的指標(biāo)。見表1。
表1 乳腺癌公開數(shù)據(jù)樣本
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),它的研究可追溯到20 世紀(jì)80 年代,而后隨著深度學(xué)習(xí)理論的進(jìn)一步完善和計(jì)算機(jī)設(shè)備的不斷更新,卷積神經(jīng)網(wǎng)絡(luò)理論也取得了快速發(fā)展,成為大型醫(yī)院自動化輔助檢測疾病的一項(xiàng)關(guān)鍵技術(shù)[8]。從理論上講,卷積神經(jīng)網(wǎng)絡(luò)是一種包含卷積層并具有深度結(jié)構(gòu)的前饋型神經(jīng)網(wǎng)絡(luò)。該神經(jīng)網(wǎng)絡(luò)通常有輸入層、隱藏層(卷積層、池化層和全連接層)和輸出層構(gòu)成。其中輸入層主要處理一維和二維數(shù)據(jù),卷積層主要是卷積核構(gòu)造和卷積層參數(shù)的設(shè)置,池化層是在卷積層的基礎(chǔ)上進(jìn)行信息過濾和特征選擇。輸出層通常使用邏輯函數(shù)輸出分類的標(biāo)簽。
支持向量機(jī)[9]是機(jī)器學(xué)習(xí)領(lǐng)域中一種經(jīng)典的分類方法。它的核心思想是通過選擇合適的特征,進(jìn)而在特征空間(Feature Space)中找到一個(gè)最優(yōu)的平面(直線),將良性腫瘤患者和惡性腫瘤患者分開。如圖1 所示,藍(lán)色圓點(diǎn)和紅色圓點(diǎn)分別代表良性腫瘤患者和惡性腫瘤患者。為了獲得更加準(zhǔn)確的分類效果,通常將腫瘤患者的特征數(shù)據(jù)轉(zhuǎn)換成更高的維度,從而找到能準(zhǔn)確區(qū)分兩類患者的高維度分類平面(直線)。
圖1 支持向量機(jī)結(jié)構(gòu)
本文研究中主要使用深度學(xué)習(xí)領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)方法和傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域的支持向量機(jī)方法。我們分別使用R 軟件(3.6.1 版本)中神經(jīng)網(wǎng)絡(luò)包中的nnet 軟件包和kernlab 軟件[10]。為了進(jìn)一步驗(yàn)證本文提出的卷積神經(jīng)網(wǎng)絡(luò)模型性能,我們使用傳統(tǒng)的支持向量機(jī)方法作為對比。本文提出的卷積神經(jīng)網(wǎng)絡(luò)模型的詳細(xì)步驟如下:
2.1.1 卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)輸入 分別選取表1 中良性腫瘤患者和惡性腫瘤患者中的腫塊厚度、細(xì)胞大小的均勻性、細(xì)胞形狀的均勻性、邊緣粘性、單上皮細(xì)胞的大小、裸核、乏味染色體、正常核和有絲分裂等特征數(shù)據(jù)作為卷積神經(jīng)網(wǎng)絡(luò)輸入層。
2.1.2 建立卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化模型 第一層:輸入層。輸入的樣本數(shù)據(jù)為腫塊厚度、細(xì)胞大小的均勻性、細(xì)胞形狀的均勻性、邊緣粘性、單上皮細(xì)胞的大小、裸核、乏味染色體、正常核和有絲分裂等9 個(gè)。這些特征數(shù)據(jù)作為判斷惡性和良性腫瘤患者的歷史數(shù)據(jù),因此輸入層由9 個(gè)神經(jīng)元構(gòu)成。
第二層:隱藏層。首先,通過將9 個(gè)輸入神經(jīng)元正向傳播,同時(shí)計(jì)算隱層的總輸出結(jié)果。其次,將隱層中每一個(gè)神經(jīng)元的結(jié)果傳遞給輸出層。根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的輸出層傳遞的誤差信號,計(jì)算隱層中每一個(gè)神經(jīng)元的誤差信號值。最后,由于卷積神經(jīng)網(wǎng)絡(luò)模型受到神經(jīng)元數(shù)量與隱層層數(shù)的影響,我們分別將隱藏神經(jīng)元的數(shù)量設(shè)為10~15個(gè),并從中選取出準(zhǔn)確率最高時(shí)所對應(yīng)的隱層神經(jīng)元的數(shù)量。
第三層:輸出層。通過計(jì)算期望值與輸出值之間的相對誤差,當(dāng)兩者之間相對誤差的絕對值保持在0.0~0.5%時(shí),停止訓(xùn)練。該層的輸出值為良性腫瘤患者(用“0”表示)和惡性腫瘤患者(用“1”表示)。通過準(zhǔn)確構(gòu)建輸入層、隱層和輸出層神經(jīng)元的數(shù)量,保證卷積神經(jīng)網(wǎng)絡(luò)模型能夠具有自適應(yīng)性和準(zhǔn)確性。
本文通過運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)模型,選取腫瘤患者中的9 種常用的特征來預(yù)測疑似惡性腫瘤患者。首先對常用的腫瘤特征進(jìn)行選取,其次運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)模型進(jìn)行訓(xùn)練,獲得預(yù)測效果最好時(shí)對應(yīng)的模型參數(shù),從而建立一種具有高度智能化和自適應(yīng)性的卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)驗(yàn)結(jié)果如表2 所示。結(jié)果表明,本文提出的卷積神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)的支持向量機(jī)模型相比,在準(zhǔn)確率、特異性、敏感性和曲線下面積(area under curve,AUC)方面分別提高了2.7%、2.9%、2.8% 和3.0%,表現(xiàn)出更好的預(yù)測結(jié)果。該方法的提出能夠有效地輔助醫(yī)療人員檢測惡性乳腺癌患者,提高了乳腺癌檢測的智能化水平。
表2 兩種方法的實(shí)驗(yàn)結(jié)果比較 (%)
針對當(dāng)前乳腺癌檢測過程中,人為誤差造成的檢測結(jié)果不準(zhǔn)確和檢測效率低等問題,本文創(chuàng)造性地將人工智能領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)與真實(shí)臨床中的乳腺癌數(shù)據(jù)集進(jìn)行結(jié)合,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的乳腺癌智能化檢測方法。從檢測結(jié)果上分析,本文提出的卷積神經(jīng)網(wǎng)絡(luò)方法優(yōu)于傳統(tǒng)的支持向量機(jī)模型。為了進(jìn)一步在臨床實(shí)踐中驗(yàn)證本文所提出方法的有效性,我們運(yùn)用臨床上的醫(yī)療工具分別測定待測患者的9 種指標(biāo)數(shù)值,并將其輸入到卷積神經(jīng)網(wǎng)絡(luò)模型,便可以準(zhǔn)確快速地診斷出待測患者是否為乳腺癌惡性腫瘤。
綜上所述,該方法是新一代人工智能技術(shù)與乳腺癌診斷相結(jié)合的很好展示,不僅提高了乳腺癌檢測的準(zhǔn)確率和效率,而且為乳腺癌智能化檢測提供了新的思路。在未來,我們將繼續(xù)研究人工智能方面的其它深度學(xué)習(xí)技術(shù)在乳腺癌診斷和早期發(fā)現(xiàn)治療方面的應(yīng)用。