闞明陽(yáng)
(河北地質(zhì)大學(xué)信息工程學(xué)院,河北 石家莊 050031)
深度學(xué)習(xí)因“整個(gè)程序都是可訓(xùn)練的”特性,成為現(xiàn)階段使用最為廣泛的模式識(shí)別方法?,F(xiàn)在深度學(xué)習(xí)框架的三大基礎(chǔ)結(jié)構(gòu)網(wǎng)絡(luò)為:卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、堆疊自動(dòng)編碼器。我們生活中常見(jiàn)的醫(yī)學(xué)圖像主要為:CT(計(jì)算機(jī)斷層掃描),X光片,B超等。醫(yī)學(xué)圖形的獲取可能涉及患者的隱私等問(wèn)題,醫(yī)學(xué)圖像的處理涉及圖像處理技術(shù),模式識(shí)別技術(shù),機(jī)器學(xué)習(xí)等多方面內(nèi)容[1]。利用深度學(xué)習(xí)框架將這些信息有效地進(jìn)行發(fā)掘,查找出其中隱藏的醫(yī)學(xué)信息和規(guī)律,必然能夠有效地為早期疾病的檢測(cè)和治療提供保障[2]。
圖1 基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分析流程圖Fig.1 flow chart of medical image analysis based on deep learning
卷積神經(jīng)網(wǎng)絡(luò)于1998年被LeCun等人設(shè)計(jì),并于2012年imageNet圖片識(shí)別大賽中摘得桂冠,此后逐漸被人們所重視。卷積神經(jīng)網(wǎng)絡(luò)模型由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成。目前經(jīng)典的CNN網(wǎng)絡(luò)模型包括GoogleNet、LeNet模型和VGG模型等。其中VGG模型是深層網(wǎng)絡(luò)模型,其具有訓(xùn)練時(shí)間長(zhǎng),識(shí)別準(zhǔn)確率高等特點(diǎn)。使用CNN模型訓(xùn)練時(shí),通常會(huì)改進(jìn)CNN網(wǎng)絡(luò)模型,例如3D-CNN模型能夠?qū)\(yùn)動(dòng)物體識(shí)別,可以在空間和時(shí)間維度中進(jìn)行特征的提取[3]?,F(xiàn)代醫(yī)學(xué)影像技術(shù)是利用現(xiàn)代高性能的成像硬件設(shè)備,對(duì)人體某個(gè)部位進(jìn)行生理結(jié)構(gòu)信息和病變信息的掃描[3],在 CNN網(wǎng)絡(luò)中的全連接層換成卷積層則變成全卷積網(wǎng)絡(luò)(FCN),從而實(shí)現(xiàn)對(duì)語(yǔ)義級(jí)圖像進(jìn)行分類(lèi)。
深度置信網(wǎng)絡(luò)(DBN)是由多層神經(jīng)元構(gòu)成的,這些神經(jīng)元又分為顯性神經(jīng)元和隱性神經(jīng)元(以下簡(jiǎn)稱(chēng)顯元和隱元)。顯元用于接受輸入,隱元用于提取特征。因此隱元也有個(gè)別名,叫特征檢測(cè)器,最頂上的兩層間的連接是無(wú)向的,組成聯(lián)合內(nèi)存。較低的其他層之間有連接上下的有向連接[5]。最底層代表了數(shù)據(jù)向量,每一個(gè)神經(jīng)元代表數(shù)據(jù)向量的一維。DBN的組成元件是受限玻爾茲曼機(jī)[6]。訓(xùn)練DBN的過(guò)程是一層一層地進(jìn)行的。在每一層中,用數(shù)據(jù)向量來(lái)推斷隱層,再把這一隱層當(dāng)作下一層(高一層)的數(shù)據(jù)向量,當(dāng)預(yù)訓(xùn)練完成后,網(wǎng)絡(luò)會(huì)獲得一個(gè)較好的網(wǎng)絡(luò)初始值,但這不是最優(yōu)的。再采用有標(biāo)簽數(shù)據(jù)去訓(xùn)練網(wǎng)絡(luò),誤差自頂而下傳播,一般采用梯度下降法對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)[7]?,F(xiàn)階段深度置信網(wǎng)絡(luò)主要應(yīng)用于圖像處理方面。
1995年,卷積神經(jīng)網(wǎng)絡(luò)首次應(yīng)用到醫(yī)學(xué)圖像的分析中。LeNet程序的面世使得卷積神經(jīng)網(wǎng)絡(luò)首次應(yīng)用到現(xiàn)實(shí)生活中,其首要任務(wù)是手寫(xiě)文字的識(shí)別工作[8]。其整體評(píng)價(jià)標(biāo)準(zhǔn)與屏一膠影像完全不同[9]。近幾年隨著深度學(xué)習(xí)[10]的出現(xiàn)而形成一個(gè)新的感念,對(duì)大量的輸入圖像通過(guò)特定的網(wǎng)絡(luò)結(jié)構(gòu)以及訓(xùn)練方法學(xué)習(xí)出有意義的特征表示,而后開(kāi)發(fā)的金字塔卷積神經(jīng)網(wǎng)絡(luò)(PCNN)對(duì)圖像進(jìn)行處理和分析。由于計(jì)算機(jī)視覺(jué)ResNet網(wǎng)絡(luò)結(jié)構(gòu)的出現(xiàn),將卷積神經(jīng)網(wǎng)絡(luò)真正推入一個(gè)新臺(tái)階[11],相關(guān)深度模型的使用取得了巨大的進(jìn)步[12]。2006年Science雜志提出了深度信念網(wǎng)絡(luò)的概念,利用貪心策略逐層訓(xùn)練由限制玻爾茲曼機(jī)組成的深層架構(gòu);PCD學(xué)習(xí)算法的提出促進(jìn)了深度信念網(wǎng)絡(luò)的發(fā)展[13];卷積深度信念網(wǎng)絡(luò)(CDBN),是一個(gè)分級(jí)生成模型,可以擴(kuò)展到現(xiàn)實(shí)的圖像大小,可以對(duì)全尺寸圖像執(zhí)行分層(自下而上和自頂向下)推理;稀疏深度信念網(wǎng)(SDBN)開(kāi)發(fā)后主要用于圖像處理[14];隨后,增強(qiáng)深層信念網(wǎng)絡(luò)(BDBN)出現(xiàn),用在統(tǒng)一的循環(huán)框架中迭代的執(zhí)行三個(gè)訓(xùn)練階段。
我們?nèi)粘I钪谐R?jiàn)的醫(yī)學(xué)圖像主要為:CT圖像,磁共振影像,B超等。利用已經(jīng)確診的病例信息和當(dāng)前醫(yī)生的臨床診斷經(jīng)驗(yàn)以及當(dāng)前患者的病例信息,能夠快速的幫助醫(yī)生診斷病情[15]?,F(xiàn)代醫(yī)學(xué)圖像由于新技術(shù)的加入具有以下特點(diǎn)[16]:(1)醫(yī)學(xué)影像成像質(zhì)量較差[17],在CT,MRI超聲影像中,存在噪聲嚴(yán)重,分辨率低,灰度對(duì)比度不足等。(2)醫(yī)學(xué)影像數(shù)據(jù)量少[18],在臨床研究中,由于每一個(gè)病例得到的對(duì)應(yīng)影像數(shù)據(jù)只有一組,因此在訓(xùn)練深度學(xué)習(xí)模型時(shí)的訓(xùn)練數(shù)據(jù)較少,在日常醫(yī)療圖片的整理中發(fā)現(xiàn),不同醫(yī)院,科室和設(shè)備的拍攝角度和方式的不同也影響最終訓(xùn)練模型的效果。(3)醫(yī)學(xué)影像大多數(shù)具有多種模態(tài)[19],與自然圖像的傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)相比,多模態(tài)的存在需要我們?cè)谠O(shè)計(jì)網(wǎng)絡(luò)時(shí)充分考慮到各個(gè)模態(tài)影像特征的提取方法以及不同模態(tài)之間特征信息的融合方式。因此,醫(yī)學(xué)圖像分割任務(wù)難度遠(yuǎn)大于自然圖像分割任務(wù)。
由于人工分析醫(yī)學(xué)圖像不僅用時(shí)長(zhǎng),且容易受到專(zhuān)業(yè)醫(yī)生的限制,培養(yǎng)一名合格的醫(yī)學(xué)圖像分析的專(zhuān)業(yè)人員需要消耗大量的時(shí)間成本。因而利用人工智能進(jìn)行醫(yī)學(xué)圖像的識(shí)別逐漸進(jìn)入人們的視野。1966年,美國(guó)學(xué)者提出了“計(jì)算機(jī)輔助診斷”的概念。1972年,由于CT圖像的臨床應(yīng)用,開(kāi)創(chuàng)了數(shù)字化醫(yī)學(xué)影像的先河。1993年,ACR-NEMA詳細(xì)規(guī)定了醫(yī)學(xué)影像及其相關(guān)信息的傳輸標(biāo)準(zhǔn)。近年來(lái),由于深度學(xué)習(xí)可以學(xué)習(xí)到圖像中的復(fù)雜特征,其在醫(yī)學(xué)圖像分析中得到了廣泛的應(yīng)用,主要包括三方面:疾病檢測(cè)、醫(yī)學(xué)圖像病變部位的識(shí)別與分析、醫(yī)學(xué)圖像建模和分析[20]。在使用深度信念網(wǎng)絡(luò)組成過(guò)程中,利用深度生成模型來(lái)降低輸入圖像的維度,以實(shí)現(xiàn)128×128×128分辨率的3D醫(yī)學(xué)圖像的訓(xùn)練,在深度信念網(wǎng)絡(luò)學(xué)習(xí)低維腦體積檢測(cè)與人口統(tǒng)計(jì)學(xué)和疾病參數(shù)相關(guān)的變異模式方面有較強(qiáng)的優(yōu)勢(shì)[21]。
疾病檢測(cè)是指利用深度學(xué)習(xí)技術(shù)分析人群是否患有某種疾病或患有某種疾病的程度,從而為實(shí)現(xiàn)疾病的治療提供理論支持,實(shí)現(xiàn)早發(fā)現(xiàn)早治療的理想目標(biāo)。
為提高醫(yī)學(xué)圖像診斷的準(zhǔn)確性,人們現(xiàn)在對(duì)醫(yī)學(xué)圖像的質(zhì)量要求越來(lái)越高,然而由于醫(yī)學(xué)成像系統(tǒng)的不穩(wěn)定等原因,導(dǎo)致醫(yī)學(xué)圖像的質(zhì)量有所下降[22]。深度學(xué)習(xí)在肝癌檢查方面具有十分出色的表現(xiàn),美國(guó)加州灣舊金山的Enlitic公司成功研發(fā)出基于卷積神經(jīng)網(wǎng)絡(luò)的惡性腫瘤檢查系統(tǒng)[23]。此系統(tǒng)通過(guò)訓(xùn)練大量的帶有惡性腫瘤標(biāo)簽的 CT圖像,通過(guò)圖像識(shí)別技術(shù)來(lái)判斷是否存在惡性腫瘤,尤其在肝癌識(shí)別率中機(jī)器識(shí)別的準(zhǔn)確率是專(zhuān)業(yè)醫(yī)生數(shù)倍以上。
深度信念網(wǎng)絡(luò),對(duì)醫(yī)學(xué)圖像進(jìn)行自動(dòng)分割,將深度學(xué)習(xí)和水平集合結(jié)合在一起,用于心臟左心室的心臟電磁共振數(shù)據(jù)的自動(dòng)分割,產(chǎn)生一種需要較小訓(xùn)練集的方法,并產(chǎn)生了準(zhǔn)確的分割結(jié)果。
在識(shí)別肺結(jié)節(jié)病變組織方面,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),將原始的 CT肺部圖像進(jìn)行訓(xùn)練,結(jié)果可證明即便是不對(duì)圖像進(jìn)行預(yù)處理也可以直接識(shí)別肺結(jié)節(jié)病變位置[24]。在肺部其他病變檢查方面,使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練 CT肺血管造影圖像輔助肺栓塞的檢查,此方法與傳統(tǒng)方法相比具有較大優(yōu)勢(shì)[25]。
現(xiàn)代醫(yī)學(xué)圖像處理系統(tǒng)可以利用深度信念網(wǎng)絡(luò)訓(xùn)練頭骨CT圖像的分類(lèi),將大腦結(jié)構(gòu)和MRI圖像結(jié)合來(lái)識(shí)別患者病癥。經(jīng)過(guò)大量實(shí)驗(yàn)證明,此方法可以提高HD病的識(shí)別準(zhǔn)確率。通過(guò)深自動(dòng)編碼器模型來(lái)識(shí)別病理圖像上的癌細(xì)胞,識(shí)別率高達(dá)90%以上。通過(guò)大量研究論文可以了解到,最近年來(lái)深度學(xué)習(xí)已經(jīng)應(yīng)用到醫(yī)學(xué)影像分析的各個(gè)方面[26]。特別是在圖像分類(lèi)中深度學(xué)習(xí)技術(shù)表現(xiàn)突出。其中圖像分類(lèi)主要應(yīng)用包括:顯像/檢測(cè)分類(lèi)和病變期分類(lèi),深度學(xué)習(xí)還能自動(dòng)檢測(cè)圖像內(nèi)的異?;蚩梢蓞^(qū)域,幫助醫(yī)生對(duì)病變區(qū)域進(jìn)行定位。圖像分割通過(guò)識(shí)別目標(biāo)的輪廓或內(nèi)部的像素空間,從而減少圖像中需要分析的領(lǐng)域,使深度學(xué)習(xí)相關(guān)的方法得以廣泛應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)成為現(xiàn)代醫(yī)學(xué)成像分析的首選方法。過(guò)去的實(shí)踐中,深度學(xué)習(xí)應(yīng)用于醫(yī)學(xué)圖像分類(lèi)的過(guò)程中面臨的最大問(wèn)題就是缺乏大量的訓(xùn)練集,而現(xiàn)在隨著科學(xué)技術(shù)的發(fā)展,越來(lái)越多的公共數(shù)據(jù)集變得可用[27]。未來(lái),在相對(duì)標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中可以看到大量的數(shù)據(jù)集,運(yùn)用深度學(xué)習(xí)模型對(duì)其訓(xùn)練能取得優(yōu)異的結(jié)果。最后,因?yàn)榛颊叩臋n案多存于醫(yī)院中,處于對(duì)患者隱私的保護(hù),使得一些數(shù)據(jù)難以做到公開(kāi)和獲取。
近年來(lái),隨著人工智能技術(shù)的飛速發(fā)展,運(yùn)用不斷深化成熟的深度學(xué)習(xí)模型對(duì)醫(yī)學(xué)圖像進(jìn)行分割、特征提取以及分類(lèi)的技術(shù)日益成熟,醫(yī)學(xué)圖像信息的挖掘與開(kāi)發(fā)不再拘泥于簡(jiǎn)單的單一算法,而是運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)或結(jié)合堆疊自動(dòng)編碼器對(duì)大量醫(yī)學(xué)圖像數(shù)據(jù)集進(jìn)行訓(xùn)練后,可實(shí)現(xiàn)對(duì)單一病理切片達(dá)到9成以上的識(shí)別精度。圖像分割的準(zhǔn)確性,基于CNN對(duì)肝臟腫瘤自動(dòng)分割,將手工提取特征與自動(dòng)學(xué)習(xí)特征的腫瘤分割統(tǒng)計(jì)結(jié)果進(jìn)行對(duì)比,得出運(yùn)用CNN自動(dòng)學(xué)習(xí)的特征用于腫瘤分割效果更好、準(zhǔn)確性更高;將深度學(xué)習(xí)模型與傳統(tǒng)算法相比,能提高輔助判斷系統(tǒng)的準(zhǔn)確率,靈敏度和特異度。對(duì)醫(yī)學(xué)影像中的分割通常以病灶區(qū)域和整體器官作為目標(biāo)進(jìn)行專(zhuān)業(yè)性分割,同時(shí)利用分割結(jié)果輔助臨床醫(yī)生進(jìn)行后續(xù)的診斷與治療。盡管深度學(xué)習(xí)在醫(yī)學(xué)圖像分割技術(shù)中起到舉足輕重的作用,但深度學(xué)習(xí)分割網(wǎng)絡(luò)仍然存在著以下不足之處:(1)訓(xùn)練時(shí)間過(guò)長(zhǎng)。目前需要深度學(xué)習(xí)模型解決的問(wèn)題日益復(fù)雜,需要模型參數(shù)增加。訓(xùn)練時(shí)間增長(zhǎng),所以改良算法,提高訓(xùn)練速度,減少訓(xùn)練時(shí)間是十分必要的[28]。(2)對(duì)無(wú)標(biāo)記數(shù)據(jù)添加標(biāo)簽。無(wú)標(biāo)記數(shù)據(jù)的迅速增加需要更新自動(dòng)添加標(biāo)簽技術(shù),依賴(lài)人工逐一將其打上標(biāo)簽已經(jīng)不能適應(yīng)現(xiàn)代信息社會(huì)的發(fā)展[29]。(3)使用深度學(xué)習(xí)算法訓(xùn)練醫(yī)學(xué)圖像時(shí),對(duì)計(jì)算機(jī)的硬件要求較高,并要求有較多的醫(yī)學(xué)圖像,在訓(xùn)練圖像數(shù)據(jù)時(shí),耗時(shí)較長(zhǎng),這些都是需要今后解決的問(wèn)題。