喬琛 吳嬌 陳堅(jiān)
摘 要 隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺任務(wù)中取得巨大成功,此技術(shù)也被應(yīng)用到醫(yī)學(xué)圖像分析領(lǐng)域。本文總結(jié)與醫(yī)學(xué)圖像分析相關(guān)的深度學(xué)習(xí)模型,并概述了這些模型在醫(yī)學(xué)圖像分類、檢測、分割和配準(zhǔn)方面的應(yīng)用成果,具體涉及到神經(jīng)、視網(wǎng)膜、肺、數(shù)字病理學(xué)、乳腺、肌骨骼等方面的圖像分析任務(wù)。本文最后還總結(jié)了目前與醫(yī)學(xué)圖像分析相關(guān)的深度學(xué)習(xí)研究現(xiàn)狀,并對未來研究面臨的挑戰(zhàn)和應(yīng)努力的方向進(jìn)行了討論。
關(guān)鍵詞 醫(yī)學(xué)圖像 深度學(xué)習(xí) 臨床應(yīng)用
中圖分類號(hào):TP391.5; R445 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-1533(2020)23-0014-06
Application of deep learning in medical image analysis*
QIAO Chen1, WU Jiao1, CHEN Jian2**(1. School of Mathematics & Statistics, Xian Jiaotong University, Xian 710049, China; 2. Department of Gastroenterology, Huashan Hospital, Fudan University, Shanghai 200040, China)
ABSTRACT With the great success of deep learning algorithms in computer vision tasks, these algorithms have been also applied to medical image analysis. This article summarizes the deep learning models related to medical image analysis and introduces their application results in medical image classification, detection, segmentation and registration, specifically involving the image analysis tasks in nerve, retina, lung, digital pathology, breast, musculoskeletal and other aspects. Finally, we summarize the current status of research and discuss the challenges and directions for future research.
KEy WORDS medical image; deep learning; clinical application
作為機(jī)器學(xué)習(xí)領(lǐng)域中新的學(xué)習(xí)范式,深度學(xué)習(xí)能通過逐層訓(xùn)練的方法學(xué)習(xí)數(shù)據(jù)深層次的非線性表達(dá),從而深刻揭示海量數(shù)據(jù)中所蘊(yùn)含的復(fù)雜抽象信息。與機(jī)器學(xué)習(xí)中常用的淺層模型相比,深層模型具有優(yōu)異的特征學(xué)習(xí)能力,可從數(shù)據(jù)的復(fù)雜結(jié)構(gòu)中學(xué)習(xí)到能對數(shù)據(jù)進(jìn)行本質(zhì)刻畫的特征,有利于數(shù)據(jù)的特征提取、分類與識(shí)別、場景描述與理解等任務(wù)執(zhí)行。由于具有上述優(yōu)異的學(xué)習(xí)能力,深度學(xué)習(xí)已被成功應(yīng)用于計(jì)算機(jī)視覺、自然語言處理和信號(hào)處理等多個(gè)領(lǐng)域。
目前,基于深度學(xué)習(xí)等機(jī)器學(xué)習(xí)算法的人工智能技術(shù)已深入融合到醫(yī)療領(lǐng)域的各個(gè)方面,從新藥研制到輔助臨床診斷、治療,醫(yī)學(xué)大數(shù)據(jù)分析正逐漸成為影響醫(yī)療行業(yè)發(fā)展的重要因素。特別是,將人工智能和醫(yī)學(xué)影像學(xué)等技術(shù)相結(jié)合的人工智能醫(yī)療的研究,得到了各級政府相關(guān)部門的大力支持。我國人工智能醫(yī)療的市場規(guī)模2017年為136.5億元,2018年達(dá)到210億元左右,同比增長54%。預(yù)計(jì)在2017—2024年間,人工智能應(yīng)用對醫(yī)療行業(yè)年復(fù)合增長率的貢獻(xiàn)率將達(dá)40%。截至2019年底,我國人工智能醫(yī)療企業(yè)有80多家。醫(yī)學(xué)圖像的人工智能分析是數(shù)字醫(yī)療產(chǎn)業(yè)的研究熱點(diǎn),涉及企業(yè)40多家,包括阿里巴巴、騰訊、百度、科大訊飛等著名公司。人工智能技術(shù)已逐漸成為影響醫(yī)療行業(yè)發(fā)展、特別是醫(yī)學(xué)圖像分析研究領(lǐng)域的重要因素。
1 醫(yī)學(xué)圖像分析研究現(xiàn)狀
人工分析醫(yī)學(xué)圖像不僅用時(shí)長,且受分析者經(jīng)驗(yàn)的限制。培養(yǎng)一名合格的醫(yī)學(xué)圖像分析專業(yè)人員需耗費(fèi)大量的時(shí)間和成本。因此,人工智能進(jìn)入了人們的視野。1963年,美國放射學(xué)家洛德威克等提出了X線片的數(shù)字化方法。1966年,美國學(xué)者萊德利等正式提出了“計(jì)算機(jī)輔助診斷”的概念,希望通過計(jì)算機(jī)來減輕醫(yī)師的工作負(fù)擔(dān)。1972年,CT得到臨床應(yīng)用,開創(chuàng)了數(shù)字化醫(yī)學(xué)影像學(xué)的先河。此后,磁共振成像儀、計(jì)算機(jī)X線攝影系統(tǒng)、數(shù)字化X線攝影系統(tǒng)和單光子發(fā)射型計(jì)算機(jī)X線斷層掃描儀等數(shù)字化醫(yī)療設(shè)備相繼問世,推動(dòng)了醫(yī)學(xué)圖像資料的存儲(chǔ)和傳輸系統(tǒng)的發(fā)展。1982年,美國放射學(xué)會(huì)(American College of Rediology, ACR)和美國電氣制造商協(xié)會(huì)(National Electrical Manufacturers Association, NEMA)決定共同成立一個(gè)名為ACRNEMA的委員會(huì),致力于制定醫(yī)學(xué)圖像設(shè)備間的通信交流規(guī)范。1985和1988年,ACR-NEMA各發(fā)布了一套規(guī)范(ACR-NEMA 1.0和ACR-NEMA 2.0)。1993年,ACR-NEMA發(fā)布了一套新規(guī)范,并命名為DICOM 3.0,詳細(xì)規(guī)定了醫(yī)學(xué)圖像及其相關(guān)信息的傳輸標(biāo)準(zhǔn)。
雖然醫(yī)學(xué)圖像存儲(chǔ)與傳輸標(biāo)準(zhǔn)有所發(fā)展,但人工智能用于醫(yī)學(xué)圖像分析仍困難重重,主要原因包括視覺系統(tǒng)成像模糊,人體組織、結(jié)構(gòu)和功能的復(fù)雜性,以及傳統(tǒng)機(jī)器學(xué)習(xí)算法的局限性等。2006年,深度算法出現(xiàn),使圖像識(shí)別研究獲得了突破性的進(jìn)展。2012年,有研究者使用多層卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)結(jié)構(gòu),將圖像識(shí)別的錯(cuò)誤率從26.2%降至3%,深度機(jī)器學(xué)習(xí)算法由此進(jìn)入了工業(yè)和醫(yī)療領(lǐng)域的應(yīng)用階段。
醫(yī)學(xué)圖像分析中常用的監(jiān)督類深度學(xué)習(xí)模型包括CNN、基于CNN的遷移學(xué)習(xí)和遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural networks, RNN),而非監(jiān)督類深度學(xué)習(xí)模型包括自動(dòng)編碼器、受限玻爾茲曼機(jī)(restricted Boltzmann machines, RBM)和對抗神經(jīng)網(wǎng)絡(luò)(generative adversarial networks, GAN)[1]。CNN是目前醫(yī)學(xué)圖像分析中最常用的機(jī)器學(xué)習(xí)算法,其優(yōu)點(diǎn)在于可保存圖像的空間關(guān)系特征,而此特征對醫(yī)學(xué)圖像分析非常重要。例如,在組織學(xué)檢查時(shí),載玻片上癌細(xì)胞的DNA和細(xì)胞質(zhì)的比例較正常細(xì)胞高。因此,若在CNN的前幾層中檢測到強(qiáng)烈的DNA特征,CNN就能預(yù)測癌細(xì)胞的存在。通過遷移學(xué)習(xí)可將已學(xué)到的模型參數(shù)通過某種方式分享給新模型,從而加快并優(yōu)化模型的學(xué)習(xí)效率,不用像其他大多數(shù)網(wǎng)絡(luò)那樣從零開始學(xué)習(xí)。在醫(yī)學(xué)圖像分析中常常利用遷移學(xué)習(xí)將CNN在接受一個(gè)數(shù)據(jù)集訓(xùn)練期間學(xué)習(xí)到的權(quán)重轉(zhuǎn)移到另一個(gè)CNN,然后再運(yùn)用這些權(quán)重接受被標(biāo)記過的醫(yī)學(xué)數(shù)據(jù)集的訓(xùn)練。RNN常被用來分析序列數(shù)據(jù),在醫(yī)學(xué)圖像分析中主要用于圖像的分割。RNN與CNN的主要不同在于,RNN的某一層輸出不僅會(huì)成為下一層的輸入,且會(huì)反饋到該層,也就是說RNN可學(xué)習(xí)使用過去的信息。自動(dòng)編碼器主要用于數(shù)據(jù)的降維或特征提取,其不需帶標(biāo)記的數(shù)據(jù)集,并能有效地降低數(shù)據(jù)的維度和模型的復(fù)雜度,非常適用于缺乏帶標(biāo)記數(shù)據(jù)集的醫(yī)學(xué)圖像分析。在深度學(xué)習(xí)中,自動(dòng)編碼器可對輸入的數(shù)據(jù)進(jìn)行特征轉(zhuǎn)換,先將數(shù)據(jù)編碼為另一種形式,然后在此基礎(chǔ)上進(jìn)行一系列的學(xué)習(xí)。RBM[2]最初由Ackley等于1985年提出,其是一類具有2層結(jié)構(gòu)、對稱連接且無自反饋的隨機(jī)神經(jīng)網(wǎng)絡(luò)模型,層間全連接,層內(nèi)無連接。GAN[3]是一種生成式神經(jīng)網(wǎng)絡(luò)模型,由2種模型生成模型和判別模型組成,其中生成模型不斷學(xué)習(xí)訓(xùn)練集中的真實(shí)概率分布,將輸入的隨機(jī)噪聲轉(zhuǎn)換為以假亂真的圖像;判別模型則判斷一幅圖像是否是真實(shí)的圖像,目標(biāo)是將生成模型產(chǎn)生的圖像與訓(xùn)練集中的真實(shí)圖像區(qū)分開。深度學(xué)習(xí)模型近年來的發(fā)展十分迅速,除上述介紹的模型外,基于這些模型也產(chǎn)生了很多變體模型。
2 深度學(xué)習(xí)在醫(yī)學(xué)圖像分析中的應(yīng)用
深度學(xué)習(xí)在醫(yī)學(xué)圖像分析中主要有4種應(yīng)用方式,分別是圖像的分類、檢測、分割和配準(zhǔn)。其中,分類是指根據(jù)在圖像信息中反映出的特征不同,把不同類別的目標(biāo)區(qū)分開來;檢測是指在各個(gè)物體周圍確定出邊界框,這些物體可能來自不同的分類;分割是指在目標(biāo)物體的邊緣確定出輪廓,并對其進(jìn)行語義標(biāo)記;配準(zhǔn)則是指將一幅圖像擬合到另一幅圖像上。
實(shí)際上,在臨床醫(yī)療實(shí)踐中,準(zhǔn)確地區(qū)分這些任務(wù)并不是十分必要。事實(shí)上,在下面介紹的一些研究中,這些任務(wù)或多或少都存在著一定的混淆或混合。最理想的機(jī)器學(xué)習(xí)系統(tǒng)是能將上述這些任務(wù)統(tǒng)一起來,如先從CT圖像中檢測肺部腫瘤,然后定位并分割出它,最后預(yù)測使用什么治療方案可獲較好療效。從大數(shù)據(jù)角度看,訓(xùn)練一個(gè)穩(wěn)健的深度學(xué)習(xí)模型需使用大量、高質(zhì)量的醫(yī)療數(shù)據(jù)。醫(yī)學(xué)圖像分析研究常用的數(shù)據(jù)集如表1所示。
2.1 醫(yī)學(xué)圖像分類
醫(yī)學(xué)圖像分析中的圖像分類是深度學(xué)習(xí)應(yīng)用的第一種方式。近年來,CNN被廣泛應(yīng)用于分類任務(wù)。2015—2017年發(fā)表的基于多分類任務(wù)的醫(yī)學(xué)圖像分析研究論文共有47篇,其中36篇使用CNN模型,6篇使用RBM模型,5篇使用自動(dòng)編碼器模型。這些模型包含很多應(yīng)用場景,如腦部磁共振成像、視網(wǎng)膜成像、肺部CT檢查和數(shù)字病理學(xué)成像等??傮w來看,CNN仍是目前多分類任務(wù)所用標(biāo)準(zhǔn)模型。
早在1995年,Lo等[12]就嘗試使用CNN模型在X線胸片圖像上檢測肺結(jié)節(jié)。他們使用55幅X線胸片圖像并建立了一個(gè)擁有2個(gè)隱藏層的CNN來檢測圖像區(qū)域是否存在肺結(jié)節(jié)。Rajkomar等[13]以1 850幅X線胸片圖像增強(qiáng)數(shù)據(jù)集,并利用一種預(yù)先訓(xùn)練好的CNN——GoogLeNet將圖像分為正面圖和側(cè)面圖,結(jié)果顯示分類準(zhǔn)確率幾近100%。雖然該研究的臨床應(yīng)用價(jià)值不大,但其證實(shí)了擴(kuò)充數(shù)據(jù)集和對模型進(jìn)行預(yù)訓(xùn)練有益。Rajpurkar等[14]使用一種改進(jìn)的DenseNet[15]對來自ChestX-ray數(shù)據(jù)集[16]的112 000幅X線胸片圖像進(jìn)行了14種疾?。òǚ窝祝┑姆诸?。這種改進(jìn)的DenseNet有121層卷積層,被稱為CheXNet。研究者將肺炎圖像視為正類、其余13種疾病的圖像視為負(fù)類來進(jìn)行分類,受試者工作特征曲線下面積(area under curve of receiver operating characteristics, AUC)為0.763。研究者還利用測試集比較了CheXNet和放射科醫(yī)師診斷結(jié)果的受試者工作特征曲線,結(jié)果顯示CheXNet的AUC為0.788,優(yōu)于放射科醫(yī)師的AUC,表明CheXNet在檢測肺炎這項(xiàng)任務(wù)上已能匹配、甚至超過放射科醫(yī)師。Shen等[17]使用CNN并結(jié)合支持向量機(jī)和隨機(jī)森林對來自LIDC-IDRI數(shù)據(jù)集的1 010幅帶標(biāo)記的肺部CT圖像進(jìn)行肺結(jié)節(jié)良、惡性分類。他們使用3個(gè)并行運(yùn)行的CNN,每個(gè)CNN有2層卷積層,不同的CNN使用不同尺度的圖像塊來提取特征,然后將學(xué)習(xí)到的特征結(jié)合起來,構(gòu)造成一個(gè)特征向量,最后利用核函數(shù)為徑向基函數(shù)的支持向量機(jī)或隨機(jī)森林作為分類器進(jìn)行分類。他們模型的分類準(zhǔn)確率達(dá)到86%,且該模型顯示有很強(qiáng)的魯棒性。Kallenberg等[18]將作為自動(dòng)編碼器訓(xùn)練的非監(jiān)督卷積層與監(jiān)督層相結(jié)合,對乳房X線片圖像按不同紋理和密度進(jìn)行分類,進(jìn)而判斷是否存在乳腺癌。他們使用來自荷蘭乳腺癌篩查項(xiàng)目的2 700幅乳房X線片圖像、荷蘭乳腺癌篩查數(shù)據(jù)集和葡萄牙梅奧乳腺攝影健康研究數(shù)據(jù)集,發(fā)現(xiàn)該卷積堆疊自編碼器模型的AUC為0.57。van Tulder等[19]利用卷積RBM對肺組織按正常、肺氣腫、纖維化、微結(jié)節(jié)和毛玻璃組織進(jìn)行分類,使用的數(shù)據(jù)集由ILD數(shù)據(jù)庫中128例間質(zhì)性肺部疾病患者的CT圖像組成。卷積RBM通過純判別、純生成、混合判別和生成學(xué)習(xí)目標(biāo)來產(chǎn)生濾波器,然后使用這些濾波器提取特征,最后利用隨機(jī)森林進(jìn)行分類。他們模型的分類準(zhǔn)確率為41% ~ 68%,且發(fā)現(xiàn)通過混合判別產(chǎn)生的濾波器的效果最好。此外,Khatami等[20]使用深度信念網(wǎng)絡(luò)將X線片圖像按解剖區(qū)域和方向分為5類。
Li等[21]提出了一種三維CNN模型來補(bǔ)全多模態(tài)數(shù)據(jù),使用磁共振成像數(shù)據(jù)來預(yù)測缺失的正電子發(fā)射型計(jì)算機(jī)X線斷層掃描數(shù)據(jù),但模型過擬合問題未解決。Hosseini-Asl等[22]使用深度三維CNN來學(xué)習(xí)捕獲阿爾茨海默病的通用特征并適應(yīng)不同的數(shù)據(jù)集域。三維CNN建立在三維卷積自動(dòng)編碼器的基礎(chǔ)上,該編碼器經(jīng)預(yù)訓(xùn)練,可捕獲結(jié)構(gòu)性腦磁共振成像中的解剖形狀變化,然后針對每個(gè)特定于任務(wù)的阿爾茨海默病分類微調(diào)三維CNN的完全連接的上層。Korolev等[23]提出了一種基于VGGNet的殘差神經(jīng)網(wǎng)絡(luò)架構(gòu),這種架構(gòu)可使層數(shù)達(dá)100 ~ 1 000層的神經(jīng)網(wǎng)絡(luò)模型也得到很好的訓(xùn)練。他們利用ADNI數(shù)據(jù)庫中的數(shù)據(jù)并分別使用VoxNet和ResNet來對健康者和老年癡呆癥患者的腦磁共振成像圖像進(jìn)行分類,結(jié)果顯示模型的分類準(zhǔn)確率分別為79%和80%。雖然這些數(shù)值相對較低,但他們的模型建立過程更為簡單。
Pratt等[24]訓(xùn)練了一個(gè)具有10層卷積層和3個(gè)全連接層的CNN來處理90 000幅眼底圖像。他們將糖尿病視網(wǎng)膜病變按照嚴(yán)重程度分為5類,模型的分類準(zhǔn)確率為75%。除此之外,Plis等[25]對亨廷頓舞蹈病和精神分裂癥患者進(jìn)行功能性磁共振成像檢查,并使用深度信念網(wǎng)絡(luò)從功能性磁共振成像圖像中提取特征。
2.2 醫(yī)學(xué)圖像檢測
對解剖對象病變部位進(jìn)行檢測和定位是醫(yī)學(xué)圖像分析中的重要一步。
2017年Kaggle“數(shù)據(jù)科學(xué)碗(Data Science Bowl)”比賽的任務(wù)包括檢測肺部CT圖像中癌變的肺結(jié)節(jié),所用數(shù)據(jù)集共包括2 000幅CT圖像。該賽題優(yōu)勝者使用的三維CNN模型受U-Net[26]架構(gòu)的啟發(fā),先用圖像的子圖像塊進(jìn)行肺結(jié)節(jié)檢測,然后將這個(gè)輸出作為第二階段的輸入,而第二階段由2個(gè)全連接層構(gòu)成,用于輸出患癌概率[27]。Shin等[28]使用5種著名的CNN模型來檢測CT圖像上的胸、腹部淋巴結(jié)和肺間質(zhì)病變,其中淋巴結(jié)是可能患癌的標(biāo)志。他們使用GoogLeNet對縱隔淋巴結(jié)進(jìn)行檢測,模型的AUC高達(dá)0.95,是一個(gè)非常好的結(jié)果。此外,他們還總結(jié)了遷移學(xué)習(xí)的益處。Overfeat是2013年ImageNet定位任務(wù)比賽的冠軍項(xiàng)目[29],同時(shí)也在分類和檢測任務(wù)上獲得了不錯(cuò)的結(jié)果。Ciompi等[30]將Overfeat與簡單的支持向量機(jī)和隨機(jī)森林分類器相結(jié)合,使用肺部CT圖像的冠狀面、軸向面和矢狀面的二維切片圖進(jìn)行訓(xùn)練,用于檢測肺部間隙及其周圍是否存在肺結(jié)節(jié)。
除肺部病變檢測外,也用于其他病變檢測,如惡性皮膚細(xì)胞檢測。Esteva等[31]使用13萬幅皮膚病學(xué)圖像和皮膚鏡圖像去訓(xùn)練基于Inception V3的GoogLeNet。該模型將圖像分為良性、惡性和非腫瘤性病變3類,分類準(zhǔn)確率為72%,而2名醫(yī)師基于專業(yè)知識(shí)的人工分類準(zhǔn)確率分別為65%和66%。除此之外,該模型在預(yù)測2種皮膚癌治療方案的療效方面也優(yōu)于21名皮膚科醫(yī)師,其AUC在0.91 ~ 0.96間。
目前,組織病理學(xué)檢查圖像越來越數(shù)字化,相關(guān)研究也越來越多。一片組織病理學(xué)切片可能包含上百、甚至上千個(gè)細(xì)胞,在高倍顯微鏡下也存在丟失異常的腫瘤區(qū)域的風(fēng)險(xiǎn)。Ciresan等[32]使用11 ~ 13層卷積層的CNN識(shí)別來自MITOS數(shù)據(jù)集的50幅乳腺組織圖像中的有絲分裂圖像,獲得88%的準(zhǔn)確率和70%的召回率。Yang等[33]使用5 ~ 7層卷積層的CNN將腎癌組織病理學(xué)檢查圖像分為腫瘤和非腫瘤2類,準(zhǔn)確率達(dá)到97%。Sirinukunwattana等[34]使用CNN在100幅結(jié)腸腺癌的染色組織病理學(xué)檢查圖像中檢測結(jié)腸腺癌細(xì)胞核。他們的方法中使用了空間受限CNN,使用空間回歸和周圍空間環(huán)境來識(shí)別細(xì)胞核的中心。Xu等[35]則使用堆疊稀疏自編碼器來檢測乳腺癌組織切片圖像中的乳腺癌細(xì)胞核,結(jié)果顯示模型的準(zhǔn)確率為89%,同時(shí)也證明了無監(jiān)督學(xué)習(xí)可用于這方面的檢測。
2.3 醫(yī)學(xué)圖像分割
CT和磁共振成像圖像分割研究涵蓋肝臟、前列腺和膝關(guān)節(jié)軟骨等各種器官和組織,但大量研究集中在腦、包括腦腫瘤圖像的分割方面。若在手術(shù)中破壞太多腦區(qū)會(huì)致出現(xiàn)多種神經(jīng)功能缺陷,故確定腦腫瘤的確切邊界對指導(dǎo)切除性手術(shù)的實(shí)施非常重要。在傳統(tǒng)治療過程中,這種邊界是由腦外科醫(yī)師通過CT或磁共振成像圖像逐層繪制的。Akkus等[36]總結(jié)了在腦磁共振成像圖像分割中曾使用過的各種CNN架構(gòu)及其性能,并介紹了許多相關(guān)數(shù)據(jù)集。
Moeskops等[37]使用3個(gè)并行運(yùn)行的CNN對22名兒童和35名成人的大腦磁共振成像圖像按不同組織進(jìn)行分類,如白質(zhì)、灰質(zhì)和腦脊液等。每個(gè)CNN都有大小不同的二維子圖像塊的輸入,每個(gè)子圖像塊分別專注于捕獲圖像的不同特征,其中最小的子圖像塊專注于捕獲圖像的局部紋理特征,較大的子圖像塊則專注于捕獲圖像的空間特征。結(jié)果顯示,該模型的Dice系數(shù)在0.82 ~ 0.87間。Tajbakhsh等[38]使用遷移學(xué)習(xí)分析了4種不同類型的醫(yī)學(xué)圖像,包括結(jié)腸鏡檢查圖像上的息肉檢測、結(jié)腸鏡檢查圖像的幀分類、肺血管造影CT圖像上的肺栓塞檢測和超聲掃描頸動(dòng)脈壁層圖像的內(nèi)中膜界面分割。他們的研究還發(fā)現(xiàn),與從頭開始訓(xùn)練的CNN相比,遷移學(xué)習(xí)能更好地提高CNN的性能。Chen等[39]將CNN和RNN相結(jié)合,從顯微鏡圖像中分割出了神經(jīng)元和真菌結(jié)構(gòu)。
大多數(shù)關(guān)于醫(yī)學(xué)圖像分割的研究都是在二維圖像上進(jìn)行的,但Milletari等[40]卻使用三維CNN對來自PROMISE 2012數(shù)據(jù)集的前列腺磁共振成像圖像進(jìn)行分割。他們提出的V-Net具有U-Net架構(gòu)[26],模型的Dice系數(shù)為0.869。Pereira等[41]使用3×3矩陣的濾波器,設(shè)計(jì)了一個(gè)具有11層卷積層的CNN模型,并用274幅存在神經(jīng)膠質(zhì)瘤的腦磁共振成像圖像訓(xùn)練該模型。他們的模型解決了過擬合問題,且在2013年國際醫(yī)學(xué)圖像計(jì)算和計(jì)算機(jī)輔助干預(yù)協(xié)會(huì)舉辦的“多模態(tài)腦腫瘤分割”挑戰(zhàn)賽中獲得了第一名。Havaei等[42]也研究了神經(jīng)膠質(zhì)瘤的圖像分割問題,他們的CNN模型中使用了一種級聯(lián)架構(gòu),即第一個(gè)CNN的輸出作為第二個(gè)CNN的輸入,算法的運(yùn)行時(shí)間從100 min減少到3 min。Chen等[43]提出了一種DeepLab架構(gòu),在對PASCAL VOC-2012圖像分割上表現(xiàn)優(yōu)秀。Casamitjana等[44]比較了各種三維CNN架構(gòu)在圖像分割任務(wù)中的性能,發(fā)現(xiàn)由DeepMedic CNN[45]修改而來的模型對BRATS 2015腦瘤數(shù)據(jù)集中圖像的分割表現(xiàn)最好。他們提倡使用更小的感受野和多尺度架構(gòu)。Stollenga等[46]則通過長短期記憶網(wǎng)絡(luò)對神經(jīng)元的三維電子顯微鏡圖像和腦磁共振成像圖像進(jìn)行分割。醫(yī)學(xué)圖像分割方法多種多樣,出于細(xì)分目的,RNN也很常用。Xie等[47]使用Clockwork RNN模型對由蘇木精-伊紅染色的組織病理學(xué)檢查圖像中的肌膜進(jìn)行了分割。
2.4 醫(yī)學(xué)圖像配準(zhǔn)
醫(yī)學(xué)圖像配準(zhǔn)是一種常見的圖像分析任務(wù),其通常在一種特定的(非)參數(shù)轉(zhuǎn)換類型的迭代框架中進(jìn)行。目前,圖像配準(zhǔn)主要有2種策略:第一種是使用深度學(xué)習(xí)網(wǎng)絡(luò)來估算2幅圖像的相似度,進(jìn)而驅(qū)動(dòng)迭代優(yōu)化策略;第二種是使用深度回歸方法直接預(yù)測轉(zhuǎn)換參數(shù)。
El-Gamal等[48]介紹了醫(yī)學(xué)圖像配準(zhǔn)的概念及其技術(shù)發(fā)展動(dòng)態(tài)。神經(jīng)外科或脊柱外科醫(yī)師使用圖像配準(zhǔn)來定位腫瘤或脊柱骨“地標(biāo)”,以便于手術(shù)切除腫瘤或植入脊柱螺釘。圖像配準(zhǔn)涉及2幅圖像,即參考圖像和感知圖像,其中參考圖像可是術(shù)前腦磁共振成像圖像,感知圖像則可為首次切除腫瘤后的腦磁共振成像圖像。感知圖像被用來確定是否有殘余腫瘤以及是否需要進(jìn)行二次切除。
Yang等[49]使用OASIS數(shù)據(jù)集中的腦磁共振成像圖像,以編碼-解碼的方式堆疊卷積層,以預(yù)測輸入像素如何變形為其最終配置。他們使用LDDMM配準(zhǔn)模型,大大縮短了計(jì)算時(shí)間。Miao等[50]使用具有5層卷積層的CNN模型,將膝關(guān)節(jié)植入物、手部植入物和食管探頭的三維模型配準(zhǔn)到二維X線片圖像上,以評估它們的姿態(tài)。他們的方法成功配準(zhǔn)的用時(shí)僅為0.1 s,較傳統(tǒng)配準(zhǔn)方法有顯著的進(jìn)步。
3 小結(jié)和展望
深度學(xué)習(xí)是人工智能研究領(lǐng)域的熱點(diǎn)之一。在機(jī)器學(xué)習(xí)中,一個(gè)關(guān)鍵問題是數(shù)據(jù)問題,高質(zhì)量的數(shù)據(jù)能有效提高算法的性能。但事實(shí)上,特別是在醫(yī)學(xué)圖像方面,高質(zhì)量的帶標(biāo)記的數(shù)據(jù)嚴(yán)重匱乏。因此,研究者們都希望能通過更好的模型架構(gòu)來避免有限數(shù)據(jù)的限制,而本文所介紹的一些研究結(jié)果相對來說是令人滿意的。深度學(xué)習(xí)中的一些生成模型,如GAN和變分自編碼器,也可通過合成醫(yī)療數(shù)據(jù)來避免數(shù)據(jù)匱乏的問題。
本文第2節(jié)主要介紹了深度學(xué)習(xí)在醫(yī)學(xué)圖像分析中的一些傳統(tǒng)應(yīng)用方式,即圖像分類、檢測、分割和配準(zhǔn)。但現(xiàn)深度學(xué)習(xí)也有許多新的應(yīng)用,如Nie等[51-52]使用GAN從原始圖像生成了分辨率更高的CT圖像。這種方法亦可用來生成高質(zhì)量的磁共振成像圖像以降低醫(yī)療成本。Tsochatzidis等[53]完成了一項(xiàng)基于內(nèi)容的圖像檢索和計(jì)算機(jī)輔助診斷相結(jié)合的工作。機(jī)器學(xué)習(xí)在醫(yī)學(xué)圖像分析方面的發(fā)展極其迅速,應(yīng)用也會(huì)越來越多。
總的來說,盡管目前的人工智能應(yīng)用于醫(yī)學(xué)圖像分析還有可解釋性、魯棒性等極其重要的問題需予解決,但在某些特定的圖像識(shí)別中,現(xiàn)有的人工智能已超過人類。相信未來人工智能系統(tǒng)一定能在很大程度上輔助、甚至替代醫(yī)師來讀片和診斷,而智能醫(yī)學(xué)圖像分析產(chǎn)品也會(huì)越來越多地進(jìn)入臨床并得到實(shí)際應(yīng)用。
參考文獻(xiàn)
[1] Litjens G, Kooi T, Bejnordi BE, et al. A survey on deep learning in medical image analysis [J]. Med Image Anal, 2017, 42: 60-88.
[2] Smolensky P. Information processing in dynamical systems: foundations of harmony theory [M]//Rumelhart DE, McClelland JL. Parallel distributed processing, Vol. 1. Cambridge, USA: MIT Press, 1986: 194-281.
[3] Goodfellow IJ, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets [EB/OL]. [2020-09-13]. https://arxiv.org/ pdf/1406.2661.pdf.
[4] Abdel-Zaher AM, Eldeib AM. Breast cancer classification using deep belief networks [J]. Expert Syst Appl, 2016, 46: 139-144.
[5] Nie D, Zhang H, Adeli E, et al. 3D deep learning for multimodal imaging-guided survival time prediction of brain tumor patients [J]. Med Image Comput Comput Assist Interv, 2016, 9901: 212-220.
[6] Havaei M, Guizard N, Larochelle H, et al. Deep learning trends for focal brain pathology segmentation in MRI [EB/ OL]. [2020-09-13]. https://arxiv.org/pdf/1607.05258.pdf.
[7] Yan Y, Qin X, Wu Y, et al. A restricted Boltzmann machine based two-lead electrocardiography classification [EB/OL].[2020-09-13]. https://ieeexplore.ieee.org/document/7299399.
[8] Che Z, Purushotham S, Khemani R, et al. Distilling knowledge from deep networks with applications to healthcare domain [EB/OL]. [2020-09-13]. https://arxiv.org/ pdf/1512.03542v1.pdf.
[9] Sun W, Tseng TB, Zhang J, et al. Enhancing deep convolutional neural network scheme for breast cancer diagnosis with unlabeled data [J]. Comput Med Imaging Graph, 2017, 57: 4-9.
[10] Andreu-Perez J, Poon CC, Merrifield RD, et al. Big data for health [J]. IEEE J Biomed Health Inform, 2015, 19(4): 1193-1208.
[11] Futoma J, Morris J, Lucas J. A comparison of models for predicting early hospital readmissions [J]. J Biomed Inform, 2015, 56: 229-238.
[12] Lo SB, Lou SA, Lin JS, et al. Artificial convolution neural network techniques and applications for lung nodule detection[J]. IEEE Trans Med Imaging, 1995, 14(4): 711-718.
[13] Rajkomar A, Lingam S, Taylor AG, et al. High-throughput classification of radiographs using deep convolutional neural networks [J]. Digit Imaging, 2017, 30(1): 95-101.
[14] Rajpurkar P, Irvin J, Zhu K, et al. CheXNet: radiologist-level pneumonia detection on chest X-rays with deep learning [EB/ OL]. [2020-09-13]. https://arxiv.org/pdf/1711.05225.pdf.
[15] Huang G, Liu Z, van der Maaten L, et al. Densely connected convolutional networks [EB/OL]. [2020-09-13]. https://arxiv. org/pdf/1608.06993.pdf.
[16] Wang X, Peng Y, Lu L, et al. ChestX-ray8: hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases[EB/OL]. [2020-09-13]. https://arxiv.org/pdf/1705.02315.pdf.
[17] Shen W, Zhou M, Yang F, et al. Multi-scale convolutional neural networks for lung nodule classification [J]. Inf Process Med Imaging, 2015, 24: 588-599.
[18] Kallenberg M, Petersen K, Nielsen M, et al. Unsupervised deep learning applied to breast density segmentation and mammographic risk scoring [J]. IEEE Trans Med Imaging, 2016, 35(5): 1322-1331.
[19] van Tulder G, de Bruijne M. Combining generative and discriminative representation learning for lung CT analysis with convolutional restricted Boltzmann machines [J]. IEEE Trans Med Imaging, 2016, 35(5): 1262-1272.
[20] Khatami A, Khosravi A, Nguyen T, et al. Medical image analysis using wavelet transform and deep belief networks[J]. Expert Syst Appl, 2017, 86: 190-198.
[21] Li R, Zhang W, Suk HI, et al. Deep learning based imaging data completion for improved brain disease diagnosis [J]. Med Image Comput Comput Assist Interv, 2014, 17(Pt 3): 305-312.
[22] Hosseini-Asl E, Gimelfarb G, El-Baz A. Alzheimers disease diagnostics by a deeply supervised adaptable 3D convolutional network [EB/OL]. [2020-09-13]. https://arxiv. org/pdf/1607.00556v1.pdf.
[23] Korolev S, Safiullin A, Belyaev M, et al. Residual and plain convolutional neural networks for 3D brain MRI classification[EB/OL]. [2020-09-13]. https://arxiv.org/pdf/1701.06643v1. pdf.
[24] Pratt H, Coenen F, Broadbent DM, et al. Convolutional neural networks for diabetic retinopathy [J]. Procedia Comput Sci, 2016, 90: 200-205.
[25] Plis SM, Hjelm DR, Salakhutdinov R, et al. Deep learning for neuroimaging: a validation study [J/OL]. Front Neurosci, 2014, 8: 229 [2020-09-13]. doi: 10.3389/fnins.2014.00229.
[26] Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation [EB/OL].[2020-09-13]. https://arxiv.org/pdf/1505.04597.pdf.
[27] Liao F, Liang M, Li Z, et al. Evaluate the malignancy of pulmonary nodules using the 3-D deep leaky noisy-OR network [J]. IEEE Trans Neural Netw Learn Syst, 2019, 30(11): 3484-3495.
[28] Shin HC, Roth HR, Gao M, et al. Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning [J]. IEEE Trans Med Imaging, 2016, 35(5): 1285-1298.
[29] Sermanet P, Eigen D, Zhang X, et al. Overfeat: integrated recognition, localization and detection using convolutional networks [EB/OL]. [2020-09-13]. https://arxiv.org/ pdf/1312.6229.
[30] Ciompi F, de Hoop B, van Riel SJ, et al. Automatic classification of pulmonary peri-fissural nodules in computed tomography using an ensemble of 2D views and a convolutional neural network out-of-the-box [J]. Med Image Anal, 2015, 26(1): 195-202.
[31] Esteva A, Kuprel B, Novoa RA, et al. Dermatologist-level classification of skin cancer with deep neural networks [J]. Nature, 2017, 542(7639): 115-118.
[32] Cire?an DC, Giusti A, Gambardella LM, et al. Mitosis detection in breast cancer histology images with deep neural networks [J]. Med Image Comput Comput Assist Interv, 2013, 16(Pt 2): 411-418.
[33] Yang X, Yeo SY, Hong JM, et al. A deep learning approach for tumor tissue image classification [EB/ OL]. [2020-09-13]. https://www.researchgate.net/profile/ Xulei_Yang/publication/298929528_A_Deep_Learning_ Approach_for_Tumor_Tissue_Image_Classification/ links/56ed642108ae59dd41c5d00b/A-Deep-LearningApproach-for-Tumor-Tissue-Image-Classification.pdf.
[34] Sirinukunwattana K, Ahmed Raza SE, Tsang YW, et al. Locality sensitive deep learning for detection and classification of nuclei in routine colon cancer histology images [J]. IEEE Trans Med Imaging, 2016, 35(5): 1196-1206.
[35] Xu J, Xiang L, Liu Q, et al. Stacked sparse autoencoder(SSAE) for nuclei detection on breast cancer histopathology images [J]. IEEE Trans Med Imaging, 2016, 35(1): 119-130.
[36] Akkus Z, Galimzianova A, Hoogi A, et al. Deep learning for brain MRI segmentation: state of the art and future directions[J]. J Digit Imaging, 2017, 30(4): 449-459.
[37] Moeskops P, Viergever MA, Mendrik AM, et al. Automatic segmentation of MR brain images with a convolutional neural network [J]. IEEE Trans Med Imaging, 2016, 35(5): 1252-1261.
[38] Tajbakhsh N, Shin JY, Gurudu SR, et al. Convolutional neural networks for medical image analysis: full training or fine tuning? [J]. IEEE Trans Med Imaging, 2016, 35(5): 1299-1312.
[39] Chen J, Yang L, Zhang Y, et al. Combining fully convolutional and recurrent neural networks for 3D biomedical image segmentation [EB/OL]. [2020-09-13]. https://arxiv.org/ pdf/1609.01006.pdf.
[40] Milletari F, Navab N, Ahmadi SA. V-Net: fully convolutional neural networks for volumetric medical image segmentation[EB/OL]. [2020-09-13]. https://arxiv.org/pdf/1606.04797.pdf.
[41] Pereira S, Pinto A, Alves V, et al. Brain tumor segmentation using convolutional neural networks in MRI images [J]. IEEE Trans Med Imaging, 2016, 35(5): 1240-1251.
[42] Havaei M, Davy A, Warde-Farley D, et al. Brain tumor segmentation with deep neural networks [J]. Med Image Anal, 2017, 35: 18-31.
[43] Chen LC, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Trans Pattern Anal Mach Intell, 2018, 40(4): 834-848.
[44] Casamitjana A, Puch S, Aduriz A, et al. 3D convolutional networks for brain tumor segmentation [EB/OL]. [2020-09-13]. https://imatge.upc.edu/web/sites/default/files/pub/ cCasamitjana16.pdf.
[45] Kamnitsas K, Ledig C, Newcombe VFJ, et al. Efficient multiscale 3D CNN with fully connected CRF for accurate brain lesion segmentation [J]. Med Image Anal, 2017, 36: 61-78.
[46] Stollenga MF, Byeon W, Liwicki M, et al. Parallel multidimensional LSTM, with application to fast biomedical volumetric image segmentation [EB/OL]. [2020-09-13]. https://arxiv.org/pdf/1506.07452.pdf.
[47] Xie Y, Zhang Z, Sapkota M, et al. Spatial clockwork recurrent neural network for muscle perimysium segmentation [J]. Med Image Comput Comput Assist Interv, 2016, 9901: 185-193.
[48] El-Gamal EZA, Elmogy M, Atwan A. Current trends in medical image registration and fusion [J]. Egypt Inform J, 2016, 17(1): 99-124.
[49] Yang X, Kwitt R, Styner M, et al. Quicksilver: fast predictive image registration – a deep learning approach [J]. Neuroimage, 2017, 158: 378-396.
[50] Miao S, Wang ZJ, Liao R. A CNN regression approach for real-time 2D/3D registration [J]. IEEE Trans Med Imaging, 2016, 35(5): 1352-1363.
[51] Nie D, Trullo R, Lian J, et al. Medical image synthesis with context-aware generative adversarial networks [J]. Med Image Comput Comput Assist Interv, 2017, 10435: 417-425.
[52] Nie D, Cao X, Gao Y, et al. Estimating CT image from MRI data using 3D fully convolutional networks [J]. Deep Learn Data Label Med Appl, 2016, 2016: 170-178.
[53] Tsochatzidis L, Zagoris K, Arikidis N, et al. Computer-aided diagnosis of mammographic masses based on a supervised content-based image retrieval approach [J]. Pattern Recogn, 2017, 71: 106-117.
*基金項(xiàng)目:西安市科技創(chuàng)新計(jì)劃(高校重大科技創(chuàng)新平臺(tái)建設(shè))資助項(xiàng)目(2019421315KYPT004JC006)
**通信作者:陳堅(jiān),副主任醫(yī)師。研究方向:消化道腫瘤的基礎(chǔ)研究與臨床診治。E-mail: chen5120@126. com