趙霞,陳瑤,鄭曉南,廖俊*
(1. 江蘇省無錫市藥品不良反應(yīng)監(jiān)測中心,江蘇 無錫214028;2. 中國藥科大學(xué)理學(xué)院,江蘇 南京211198;3. 中國藥科大學(xué)期刊編輯部,江蘇 南京210009)
生物信息領(lǐng)域產(chǎn)生的分子層面的基因突變、基因表達(dá)等數(shù)據(jù),制藥企業(yè)在藥物研發(fā)過程中產(chǎn)生的臨床試驗(yàn)數(shù)據(jù),疾病患者或藥物使用者在社交媒體發(fā)布的患病及用藥感受,醫(yī)療移動(dòng)設(shè)備收集的用戶日常健康數(shù)據(jù)等,都是醫(yī)藥大數(shù)據(jù)的主要構(gòu)成部分,其對于醫(yī)院的疾病輔助診斷和治療方案確定、制藥行業(yè)的研發(fā)及營銷效率、監(jiān)管部門對于流行病的預(yù)測和對藥物不良反應(yīng)的監(jiān)測、患者的個(gè)性化治療和個(gè)人健康管理等都具有重要意義。
深度學(xué)習(xí)作為大數(shù)據(jù)分析所涉及的關(guān)鍵技術(shù)之一[1],由于其克服了傳統(tǒng)機(jī)器學(xué)習(xí)算法依賴人為特征建立與篩選的限制,在語音識(shí)別、視覺對象識(shí)別、目標(biāo)檢測、藥物發(fā)現(xiàn)等諸多領(lǐng)域都取得了較好的實(shí)踐結(jié)果[2]。本文將從深度學(xué)習(xí)結(jié)構(gòu)框架、其在醫(yī)藥大數(shù)據(jù)中的應(yīng)用及所面臨的挑戰(zhàn)3個(gè)角度展開綜述。
深層神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)的本質(zhì)為包含多個(gè)隱含層的前反饋神經(jīng)網(wǎng)絡(luò),一個(gè)n層的DNN包含輸入層、輸出層和二者之間的非線性隱含層,每個(gè)隱含層和輸出層都由若干個(gè)神經(jīng)元構(gòu)成(見圖1)[3];當(dāng)所有的輸入通過所有隱含層到輸出層后,神經(jīng)網(wǎng)絡(luò)就會(huì)產(chǎn)生一個(gè)預(yù)測值,這一過程叫作前饋。網(wǎng)絡(luò)接受輸入值,計(jì)算激活函數(shù)值到輸出,隱含層中的神經(jīng)元通常以sigmoid函數(shù)作為激活函數(shù),以便將激活值轉(zhuǎn)化為概率值。激活函數(shù)將神經(jīng)元加權(quán)后的輸入值映射到輸出并作為下一層的輸入,輸出層使用softmax激活函數(shù)。
圖 1 深層神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Figure 1 Architecture of deep neural network model
多層的DNN模型可以通過梯度下降來進(jìn)行訓(xùn)練,復(fù)雜神經(jīng)網(wǎng)絡(luò)可以基于反向傳播過程來計(jì)算目標(biāo)函數(shù)相對于每個(gè)模塊中的參數(shù)的梯度,反向傳播過程的數(shù)學(xué)原理即為鏈?zhǔn)椒▌t。目標(biāo)函數(shù)相對于每個(gè)模塊的梯度具有一定的獨(dú)立性,這是鏈?zhǔn)椒▌t的關(guān)鍵,目標(biāo)函數(shù)相對于一個(gè)模塊的輸入的梯度可以在計(jì)算出目標(biāo)函數(shù)相對于該模塊輸出的梯度之后被計(jì)算,反向傳播規(guī)則可以反復(fù)施加通過所有模塊傳播梯度,從而實(shí)現(xiàn)梯度(即誤差)的不斷反向傳播,從最后一層一直傳播到原始的輸入。
DNN可用于代指利用感知器、自動(dòng)編碼器、受限玻爾茲曼機(jī)構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)的多層感知器(multilayer perceptron,MLP)算法、堆棧自編碼器(stacked autoEncoder,SAE)算法和深度置信網(wǎng)絡(luò)(deep belief network,DBN)算法[4]。
典型的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)由輸入層、卷積層、池化層、全連接層和輸出層組成(見圖2)[5],開始幾層是卷積層和下采樣層的交替,在靠近輸出層的最后幾層網(wǎng)絡(luò)為全連接網(wǎng)絡(luò)。卷積核是卷積層的重要組成部分,主要用于自動(dòng)提取輸入圖像的深層信息。利用CNN進(jìn)行特征提取時(shí),先從原始圖像中隨機(jī)選取一小塊區(qū)域作為訓(xùn)練樣本,模型可以從小塊樣本中學(xué)習(xí)到一些特征,然后將這些特征作為濾波器與原始的圖像做卷積運(yùn)算,從而得到原始圖像中不同特征的激活值[6]。
對圖像的一個(gè)局部中不同位置的特征進(jìn)行聚合統(tǒng)計(jì)稱為池化作用,一般有最大池采樣(計(jì)算一個(gè)區(qū)域內(nèi)的某個(gè)特征的最大值)和平均池采樣(計(jì)算一個(gè)區(qū)域內(nèi)的某個(gè)特征的平均值)2種方法。由于圖像是靜態(tài)的,所以在一個(gè)區(qū)域的特征極有可能也適用于其他的區(qū)域。與直接使用卷積后的特征相比,這些統(tǒng)計(jì)特征不僅可以降低特征向量的維度,減少分類的計(jì)算量,還可以擴(kuò)充訓(xùn)練數(shù)據(jù),防止過擬合。
圖 2 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Figure 2 Architecture of convolutional neural network model
在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型中,從輸入層到隱含層再到輸出層,層與層之間是全連接,但是每個(gè)層內(nèi)的節(jié)點(diǎn)無連接,這就導(dǎo)致其無法對時(shí)間序列上的變化進(jìn)行建模。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的網(wǎng)絡(luò)則會(huì)對前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前的輸出計(jì)算中,即隱含層之間的節(jié)點(diǎn)不再是無連接,并且隱含層的輸入不僅包括輸入層的輸出,還包括上一時(shí)刻隱藏層的輸出。此外,有別于傳統(tǒng)的機(jī)器學(xué)習(xí)模型中隱含層單元彼此之間對等,RNN中的隱含層從左向右是有時(shí)序的[7]。如圖3所示,一條單向流動(dòng)的信息從輸入層到達(dá)隱含層,與此同時(shí)另一條單向流動(dòng)的信息從隱含層到達(dá)輸出層,特殊情況下RNN會(huì)打破后者的限制,引導(dǎo)信息從輸出單元返回隱含單元,并且隱含層的輸入還包括上一隱含層的狀態(tài),即所謂的隱含層內(nèi)的節(jié)點(diǎn)可以自連也可以互連[8]。
圖 3 循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Figure 3 Architecture of recurrent neural network model
深度學(xué)習(xí)3種常見框架網(wǎng)絡(luò)結(jié)構(gòu)的差異使得其在具體應(yīng)用時(shí)各有側(cè)重,表1列出了各框架的特點(diǎn)、類似結(jié)構(gòu)算法及常見應(yīng)用。
表 1 深度學(xué)習(xí)常見框架網(wǎng)絡(luò)結(jié)構(gòu)比較Table 1 Comparison of conventional architectures of deep learning
近年來,得益于并行、分布式計(jì)算的發(fā)展,深度學(xué)習(xí)在大數(shù)據(jù)集中的圖像分類[16]、語音識(shí)別[17]、自然語言處理[18]等方面都取得了很好的研究成果。就醫(yī)藥領(lǐng)域而言,深度學(xué)習(xí)主要集中于對醫(yī)學(xué)圖像、電子病歷、基因組學(xué)的分析[19]。圖4展示了PubMed中近10年基于這3個(gè)方面的深度學(xué)習(xí)文章數(shù)目分布及趨勢,本文也將主要從這3個(gè)方面對深度學(xué)習(xí)在醫(yī)藥大數(shù)據(jù)的應(yīng)用進(jìn)行分析。
圖 4 PubMed中基于醫(yī)學(xué)圖像、電子病歷和基因組學(xué)的深度學(xué)習(xí)歷年文章數(shù)目分布Figure 4 PubMed publications on the application of deep learning in medical images, EMRs and genomics during 2008-2018
現(xiàn)代醫(yī)療技術(shù)的快速發(fā)展使得磁共振成像(magnetic resonance imaging,MRI)、電子計(jì)算機(jī)斷層掃描(computed tomography,CT)、光學(xué)相干斷層掃描(optical coherence tomography,OCT)、B超影像等醫(yī)學(xué)圖像在臨床診斷中發(fā)揮著舉足輕重的作用,而傳統(tǒng)的以醫(yī)生經(jīng)驗(yàn)為主導(dǎo)的圖像診斷行為往往伴隨著一定的誤差。2015年發(fā)表的一項(xiàng)研究結(jié)果中,不同病理學(xué)家對乳腺活檢樣本整體診斷一致性為75.3%,對其中的異型性腫瘤診斷一致性僅為48%[20]。此外,2017年一項(xiàng)研究將深度學(xué)習(xí)模型用于已經(jīng)擴(kuò)散到乳腺相鄰淋巴結(jié)的乳腺癌圖像識(shí)別中,結(jié)果顯示深度學(xué)習(xí)模型準(zhǔn)確率明顯高于病理學(xué)家人為判斷的準(zhǔn)確率[21]。表2列出了幾項(xiàng)深度學(xué)習(xí)在醫(yī)學(xué)圖像中的應(yīng)用案例。
表 2 深度學(xué)習(xí)在醫(yī)學(xué)圖像中的應(yīng)用案例Table 2 Cases of applying deep learning in medical images
電子病歷中的數(shù)據(jù)表現(xiàn)形式主要為自由文本,除了結(jié)構(gòu)化的病人基本信息外,還包括非結(jié)構(gòu)化的診斷信息、用藥信息、檢查信息、臨床記錄等,加上個(gè)人電子病歷的時(shí)序性,使得很難通過人工對這些大量文本信息進(jìn)行分析與利用。深度學(xué)習(xí)對于同一區(qū)間內(nèi)所有案例的分析以及同一病人不同時(shí)間節(jié)點(diǎn)的分析都具有很大優(yōu)勢,所提取的信息對于個(gè)性化治療、疾病預(yù)測、病人相似度計(jì)算、臨床試驗(yàn)等都具有重要意義[26]。
例如,Rajkomar等[27]使用的深度學(xué)習(xí)模型對大量異源電子病歷中的住院死亡率、30 d內(nèi)再住院、住院時(shí)間延長以及病人出院診斷都取得了較好的預(yù)測效果,與傳統(tǒng)預(yù)測方法相比,深度學(xué)習(xí)實(shí)現(xiàn)了對異源數(shù)據(jù)更加快速且有效的利用;Lafreniere等[28]根據(jù)約18萬名慢性病患者的當(dāng)前健康數(shù)據(jù)、電子病歷中的醫(yī)療記錄以及人口基本信息,利用深度學(xué)習(xí)的方法對病人是否存在高血壓風(fēng)險(xiǎn)進(jìn)行預(yù)測,最終獲得82%的準(zhǔn)確率,對于疾病輔助診斷及病人自我健康管理都具有重要意義;Choi等[29]收集到8年內(nèi)26萬名病人的電子病歷數(shù)據(jù),利用循環(huán)神經(jīng)網(wǎng)絡(luò)算法處理時(shí)間序列數(shù)據(jù)的優(yōu)勢,對電子病歷中的診斷、用藥、處方、進(jìn)程等數(shù)據(jù)進(jìn)行學(xué)習(xí),以期預(yù)測未來時(shí)間節(jié)點(diǎn)的疾病診斷和用藥方案,最終在不同的語料集上都得到了很好的驗(yàn)證。綜上可以發(fā)現(xiàn),深度學(xué)習(xí)在大量異源異構(gòu)以及時(shí)序性的電子病歷的分析與預(yù)測任務(wù)中具有明顯的優(yōu)勢。
基因組學(xué)高維度特征,使得一般算法很難從中提取內(nèi)部結(jié)構(gòu)特征,深度學(xué)習(xí)的深層神經(jīng)網(wǎng)絡(luò)則能夠很好地解決特征提取問題。例如,Wang等[30]通過條件隨機(jī)場(conditional random fi eld,CRF)和神經(jīng)網(wǎng)絡(luò)結(jié)合的方法對蛋白質(zhì)二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測,所得的模型很好地解決了復(fù)雜的序列-結(jié)構(gòu)關(guān)系和相鄰二級(jí)結(jié)構(gòu)之間的依賴性問題;Zeng等[31]則利用CNN對轉(zhuǎn)錄因子數(shù)據(jù)集中的DNA序列結(jié)合位點(diǎn)進(jìn)行預(yù)測并取得了較好的預(yù)測結(jié)果。除了分子層面的研究,由于癌癥的發(fā)生與細(xì)胞基因突變存在一定關(guān)系,也有學(xué)者將深度學(xué)習(xí)運(yùn)用于基因與表型研究,例如Yuan等[32]基于深度學(xué)習(xí)開發(fā)的DeepGene實(shí)現(xiàn)了根據(jù)病人的基因突變數(shù)據(jù)鑒別癌癥類型的功能。
基因組學(xué)的研究對于精準(zhǔn)醫(yī)學(xué)具有重要意義,但是由于檢測基因突變和基因表達(dá)數(shù)據(jù)昂貴,且基因表達(dá)和疾病表型之間的關(guān)系尚需要大量研究,目前深度學(xué)習(xí)在這一領(lǐng)域的研究尚沒有其在醫(yī)學(xué)圖像和電子病歷中的應(yīng)用普遍。
醫(yī)藥大數(shù)據(jù)既包括醫(yī)療機(jī)構(gòu)的診療數(shù)據(jù),也包括管理部門的醫(yī)保數(shù)據(jù)和公共衛(wèi)生數(shù)據(jù)、制藥企業(yè)的臨床試驗(yàn)數(shù)據(jù)等,這些數(shù)據(jù)往往存在于各機(jī)構(gòu)的數(shù)據(jù)庫,目前尚沒有將這些數(shù)據(jù)庫整合的平臺(tái)[33]。此外,各機(jī)構(gòu)之間信息孤島的現(xiàn)象也使得各數(shù)據(jù)庫之間標(biāo)準(zhǔn)不一致,很多的編碼、信息標(biāo)準(zhǔn)等都沒有行業(yè)統(tǒng)一規(guī)范,這就導(dǎo)致不同機(jī)構(gòu)之間數(shù)據(jù)庫融合時(shí)存在一定障礙。因此,各機(jī)構(gòu)之間的數(shù)據(jù)共享是醫(yī)藥大數(shù)據(jù)形成的第一步,對這些數(shù)據(jù)執(zhí)行統(tǒng)一標(biāo)準(zhǔn)規(guī)范則是整合的關(guān)鍵。
值得注意的是,由于醫(yī)藥數(shù)據(jù)很多涉及患者隱私,在數(shù)據(jù)共享時(shí)必須注意隱私保護(hù)問題,因此數(shù)據(jù)共享前的去隱私化尤為重要。除了技術(shù)層面的挑戰(zhàn),還需要建立相應(yīng)法律法規(guī)以保證數(shù)據(jù)共享的順利完成。
醫(yī)藥數(shù)據(jù)的爆發(fā)式增長在給醫(yī)藥大數(shù)據(jù)研究提供機(jī)遇的同時(shí)也為各機(jī)構(gòu)的大數(shù)據(jù)存儲(chǔ)帶來一定壓力,例如,一張病理切片的掃描圖像大小大約為2 GB,普通的存儲(chǔ)硬件顯然不能滿足需求。除了硬件方面的需求,選擇什么樣的結(jié)構(gòu)來存儲(chǔ)以便更好地存取也是醫(yī)藥大數(shù)據(jù)面臨的一項(xiàng)挑戰(zhàn)[34]。大數(shù)據(jù)除了數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)多元以外,還會(huì)實(shí)時(shí)產(chǎn)生海量的新數(shù)據(jù),因此醫(yī)藥大數(shù)據(jù)在存儲(chǔ)時(shí)還要充分考慮數(shù)據(jù)的變化因素。
大數(shù)據(jù)的分析與計(jì)算是實(shí)現(xiàn)醫(yī)藥大數(shù)據(jù)價(jià)值的關(guān)鍵,對于動(dòng)態(tài)實(shí)時(shí)更新的海量醫(yī)藥大數(shù)據(jù),傳統(tǒng)的單機(jī)系統(tǒng)和串行計(jì)算很難實(shí)現(xiàn)。目前普遍采用的大數(shù)據(jù)計(jì)算技術(shù)為分布式計(jì)算框架,該框架下需要解決可擴(kuò)展性、容錯(cuò)和自動(dòng)恢復(fù)、任務(wù)調(diào)度模型、計(jì)算資源的利用率、時(shí)效性等問題[35]。這些都需要醫(yī)藥從業(yè)人員具備一定的數(shù)據(jù)處理能力,同時(shí)具備對不斷更新的大數(shù)據(jù)技術(shù)的適應(yīng)能力。
大數(shù)據(jù)分析需要解決多源異構(gòu)數(shù)據(jù)融合、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)等問題,大數(shù)據(jù)集為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中所需的各項(xiàng)參數(shù)提供數(shù)據(jù)基礎(chǔ),而深度學(xué)習(xí)強(qiáng)大的特征提取和抽象能力,提供了一個(gè)不再依賴于隨機(jī)抽樣和尋求因果關(guān)系的新視角[36],使得大數(shù)據(jù)的分析不再依賴專家經(jīng)驗(yàn)而進(jìn)行人工分析建模[37]。如何將深度學(xué)習(xí)更好地運(yùn)用于醫(yī)藥大數(shù)據(jù)分析的各個(gè)方向還需要不斷的研究。
作為機(jī)器學(xué)習(xí)的一種,深度學(xué)習(xí)模型同樣需要大量標(biāo)注數(shù)據(jù)集訓(xùn)練得到,而標(biāo)注數(shù)據(jù)集通常需要領(lǐng)域?qū)I(yè)人員手動(dòng)標(biāo)注形成,標(biāo)注過程耗時(shí)耗力且易受標(biāo)注者主觀認(rèn)知影響。目前我國醫(yī)藥領(lǐng)域的標(biāo)注數(shù)據(jù)集在標(biāo)注完成后通常僅供內(nèi)部研究使用,很少有科研工作者愿意將已有的標(biāo)注數(shù)據(jù)集公開,這就導(dǎo)致其他科研工作者在進(jìn)行類似研究時(shí)難以快速展開。為了克服標(biāo)注數(shù)據(jù)的稀缺問題,很多研究者開始將目光轉(zhuǎn)向未標(biāo)注數(shù)據(jù)的利用,如利用小數(shù)據(jù)集進(jìn)行學(xué)習(xí)以獲得未標(biāo)注數(shù)據(jù)標(biāo)簽的半監(jiān)督學(xué)習(xí)方法等。
除了常見的文本、圖像形式的數(shù)據(jù),醫(yī)藥大數(shù)據(jù)中還包含大量的基因組學(xué)數(shù)據(jù)、化學(xué)結(jié)構(gòu)數(shù)據(jù)等,所有這些結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)的融合對于更多潛在關(guān)聯(lián)信息的挖掘至關(guān)重要,但同時(shí)也是利用醫(yī)藥大數(shù)據(jù)的挑戰(zhàn)之一[38]。異構(gòu)數(shù)據(jù)融合的常用方法即為將半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為可被計(jì)算機(jī)識(shí)別的結(jié)構(gòu)化形式數(shù)據(jù),如利用自然語言處理技術(shù)將文本中的實(shí)體、實(shí)體關(guān)系進(jìn)行提取,繼而對結(jié)構(gòu)化的實(shí)體和實(shí)體關(guān)系進(jìn)行相應(yīng)研究。更多類型的數(shù)據(jù)融合則需要分別應(yīng)用多種方法進(jìn)行轉(zhuǎn)換,這仍然是眾多研究領(lǐng)域需要攻克的難題。
本文以DNN、CNN、RNN的劃分模式對深度學(xué)習(xí)的基本框架進(jìn)行了介紹,并從醫(yī)學(xué)圖像、電子病歷和基因組學(xué)3個(gè)角度對深度學(xué)習(xí)在醫(yī)藥大數(shù)據(jù)中的應(yīng)用進(jìn)行了綜述。就醫(yī)學(xué)圖像而言,多項(xiàng)研究表明深度學(xué)習(xí)模型對疾病相關(guān)圖像的分類或預(yù)測結(jié)果的準(zhǔn)確率要優(yōu)于人工判斷;電子病歷的橫、縱向研究以及基因組學(xué)的研究,則為當(dāng)下提倡的“精準(zhǔn)醫(yī)學(xué)”提供了更多參考信息。
深度學(xué)習(xí)在醫(yī)藥大數(shù)據(jù)中的廣泛應(yīng)用為臨床輔助決策、疾病監(jiān)管、新藥研發(fā)等都提供了新的思路,但是與此同時(shí)也面臨著諸多挑戰(zhàn)。隨著各項(xiàng)醫(yī)療水平的進(jìn)步、計(jì)算機(jī)硬件及計(jì)算能力的提升,醫(yī)藥大數(shù)據(jù)與深度學(xué)習(xí)也必將能愈來愈好地結(jié)合,如何選擇相應(yīng)深度學(xué)習(xí)算法并通過一定調(diào)整將其成功應(yīng)用于目標(biāo)醫(yī)藥類數(shù)據(jù)中是兩者結(jié)合需要解決的主要問題。除了文章中總結(jié)的醫(yī)學(xué)圖像、電子病歷及基因組學(xué)3類數(shù)據(jù)應(yīng)用,研究者還可以從更宏觀的某一類疾病、某一類患者、某一地區(qū)的所有醫(yī)藥相關(guān)數(shù)據(jù),或者是更微觀的某一種藥物、某一個(gè)體、某一類基因的單一類型數(shù)據(jù)入手,利用深度學(xué)習(xí)算法或深度學(xué)習(xí)算法與其他算法的結(jié)合去挖掘更多常規(guī)方法所不能檢測到的內(nèi)容,從而發(fā)現(xiàn)更多醫(yī)藥大數(shù)據(jù)中潛在的有效信息。