組學(xué)大數(shù)據(jù)和醫(yī)學(xué)人工智能

2021-11-01 10:25:02王昕玥渠鴻竹方向東

遺傳 2021年10期

王昕玥，渠鴻竹，方向東

綜述

王昕玥1,2,3，渠鴻竹1,2,3，方向東1,2,3

1. 中國科學(xué)院北京基因組研究所(國家生物信息中心)，中國科學(xué)院基因組科學(xué)與信息重點實驗室，北京 100101 2. 中國科學(xué)院大學(xué)，北京 100049 3. 中國科學(xué)院北京基因組研究所(國家生物信息中心)，基因組與精準醫(yī)學(xué)檢測技術(shù)北京市重點實驗室，北京 100101

隨著高通量測序技術(shù)和計算機科學(xué)的飛速發(fā)展，組學(xué)數(shù)據(jù)量指數(shù)倍增長，多組學(xué)分析優(yōu)勢逐漸顯現(xiàn)，人工智能應(yīng)用也愈加廣泛。本文介紹了近年來多組學(xué)數(shù)據(jù)分析和人工智能各自在醫(yī)學(xué)領(lǐng)域的應(yīng)用進展，同時也介紹了兩者相結(jié)合應(yīng)用的案例以及優(yōu)勢，最后簡單闡述多組學(xué)分析和人工智能在現(xiàn)階段面臨的挑戰(zhàn)，旨在為醫(yī)學(xué)行業(yè)提供新的研究思路，助推精準醫(yī)學(xué)發(fā)展應(yīng)用。

多組學(xué)；人工智能；醫(yī)學(xué)；精準醫(yī)學(xué)

隨著5G技術(shù)的成熟，大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算等也在快速發(fā)展，社會逐漸從信息時代進入智能時代，各行各業(yè)也都在爭相推進智能化的腳步。在醫(yī)療行業(yè)中，醫(yī)學(xué)影像、病患信息等數(shù)據(jù)海量且復(fù)雜，人工整理或解讀效率低下，而人工智能可以快速精確地處理大數(shù)據(jù)，并挖掘其背后的潛在信息。與此同時，隨著高通量測序技術(shù)的發(fā)展，單組學(xué)分析技術(shù)日益成熟與完善，而多組學(xué)大數(shù)據(jù)的整合分析，已成為研究者們探索生命機制的新方向，在此大背景下，結(jié)合組學(xué)數(shù)據(jù)的醫(yī)療行業(yè)的智能化發(fā)展建設(shè)已成必然趨勢。本文介紹了近年來多組學(xué)整合分析和人工智能在醫(yī)學(xué)領(lǐng)域中各自的應(yīng)用以及結(jié)合應(yīng)用的最新研究成果。

1 組學(xué)和人工智能的概念

組學(xué)(omics)主要包括基因組學(xué)(genomics)、轉(zhuǎn)錄組學(xué)(transcriptomics)、表觀組學(xué)(epigenomics)、蛋白組學(xué)(proteomics)，代謝組學(xué)(metabolomics)，脂類組學(xué)(lipidomics)，免疫組學(xué)(immunomics)，糖組學(xué)(glycomics)等，是各類組學(xué)的統(tǒng)稱。每一類組學(xué)為此類特征的系統(tǒng)集合，比如第一個被定義的基因組學(xué)，是對一個生物體所有基因進行集體表征和量化，并研究它們之間的相互關(guān)系及對生物體的影響。目前，單一組學(xué)的研究比較成熟，但挖掘到的數(shù)據(jù)信息受限，只能在某一層面解釋特征與目標疾病的相關(guān)性，無法探究因果關(guān)系。多組學(xué)的整合分析，可使人們更宏觀地了解到目標疾病的全貌，理解目標疾病的發(fā)生發(fā)展機制，為攻克疑難雜癥提供更全面的信息[1]。

人工智能(artificial intelligence, AI)是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)[2]。1950年，“人工智能之父”圖靈提出計算機是否擁有人類智能這一問題。1956年，美國達特茅斯會議首次提出“人工智能”這一術(shù)語，標志著人工智能這一新興學(xué)科的正式誕生。其本質(zhì)是通過大量的樣本訓(xùn)練來模擬人腦的思維方式，或用以執(zhí)行人類的行為活動。其研究涵蓋領(lǐng)域十分廣泛，主要分為自然語言處理、機器學(xué)習(machine learning, ML)、機器人、計算機視覺、語言圖像識別和知識圖譜六大方向。目前，專家系統(tǒng)、護理機器人、手術(shù)機器人、計算機輔助診斷等產(chǎn)品都在醫(yī)療行業(yè)中起著重要作用[3]。

機器學(xué)習是一種可用于實現(xiàn)人工智能的方法，其傳統(tǒng)的算法包括決策樹、邏輯回歸、聚類、隨機森林、支持向量機、深度學(xué)習等[4]。從方法上來分，機器學(xué)習算法可以分為監(jiān)督學(xué)習、無監(jiān)督學(xué)習、半監(jiān)督學(xué)習、深度學(xué)習和強化學(xué)習。其中，深度學(xué)習(deep learning, DL)是建立于模擬人腦進行分析學(xué)習的神經(jīng)網(wǎng)絡(luò)，典型的深度學(xué)習模型有循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、深度信任網(wǎng)絡(luò)、生成式對抗網(wǎng)絡(luò)和自編碼器等。人工智能、機器學(xué)習和深度學(xué)習的關(guān)系如圖1所示。

2 組學(xué)大數(shù)據(jù)與人工智能在醫(yī)學(xué)中的應(yīng)用

2.1 多組學(xué)在醫(yī)學(xué)中的應(yīng)用

隨著測序技術(shù)的發(fā)展及組學(xué)新技術(shù)的不斷涌現(xiàn)，不同種類的組學(xué)數(shù)據(jù)指數(shù)級增長，對多組學(xué)大數(shù)據(jù)的整合分析，已成為科學(xué)家探索生命機制和疾病演變的新方向。

通過DNA甲基化和基因表達數(shù)據(jù)的整合分析，可以鑒定疾病發(fā)生發(fā)展相關(guān)的分子標志物。Mens等[5]使用了來自大規(guī)模全基因組關(guān)聯(lián)研究(genome- wide association study, GWAS)的公開數(shù)據(jù)來搜索與各種心臟代謝特征相關(guān)的miRNA相關(guān)序列的遺傳變異，包括脂質(zhì)和肥胖相關(guān)特征、血糖指數(shù)、血壓、2型糖尿病(type 2 diabetes, T2D)和冠心病(coro-nary heart disease, CHD)患病率，發(fā)現(xiàn)了67個已鑒定miRNA中的180個SNP與心臟代謝特征相關(guān)。然后，文章使用鹿特丹研究(The Rotterdam Study)參與者的DNA甲基化和miRNA表達數(shù)據(jù)進一步研究相關(guān)miRNA與心臟代謝特征之間的聯(lián)系，其中38個miRNA的CpG位點的DNA甲基化水平與研究性狀相關(guān)。此外作者從67個已鑒定miRNA中進一步發(fā)現(xiàn)了與研究性狀相關(guān)的8個miRNA。整合不同組學(xué)結(jié)果表明miR-10b-5p、miR-148a-3p、miR-125b-5p和miR-100-5p與心臟代謝的脂質(zhì)性狀密切相關(guān)，這些可以被視為潛在的2型糖尿病和冠心病早期診斷或進展的生物標志物。

圖1 人工智能、機器學(xué)習和深度學(xué)習的關(guān)系示意圖

Yuan等[6]使用多個項目的轉(zhuǎn)錄組和/或DNA甲基化數(shù)據(jù)證明了45種結(jié)直腸癌(colorectal cancer, CRC)變體中29種的易感性可能是由基因調(diào)節(jié)的順式作用介導(dǎo)的，并且確定了66個推測的易感基因。和通過破壞細胞行為(包括遷移、侵襲和上皮間質(zhì)轉(zhuǎn)化)在CRC的發(fā)生中起著至關(guān)重要的作用。

以序列為中心的蛋白質(zhì)組、基因組和轉(zhuǎn)錄組數(shù)據(jù)的整合分析，可以為基因表達調(diào)控、信號網(wǎng)絡(luò)、疾病亞型和臨床預(yù)測提供新的見解。Cohen等[7]結(jié)合游離DNA突變和循環(huán)蛋白質(zhì)生物標志物開發(fā)了一種新的基于血液的預(yù)測方法CancerSEEK，不僅可以實現(xiàn)癌癥早診，還可以定位這些癌癥的起源器官。研究將CancerSEEK應(yīng)用于1 005名患有卵巢癌、肝癌、胃癌、胰腺癌、食道癌、結(jié)直腸癌、肺癌或乳腺癌的患者上，能夠定位癌癥的起源器官并鑒定出5種腫瘤類型(卵巢癌、肝癌、胃癌、胰腺癌和食道癌)的早期存在，其靈敏度介于69%～98%，特異性為99%。

Yang等[8]為了確定早期結(jié)CRC的潛在靶點，對來自II期CRC患者進行了無標記蛋白質(zhì)組學(xué)分析，共鑒定出2 968種蛋白質(zhì)，再從癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)結(jié)腸腺癌庫中檢索到相應(yīng)的RNA測序數(shù)據(jù)，篩選出111種關(guān)鍵候選蛋白，最終由病理圖像數(shù)據(jù)確定了三個潛在靶點：蛋白質(zhì)精氨酸脫亞胺酶2 (PADI2)、IgG結(jié)合蛋白的Fc片段(FCGBP)和磷酸絲氨酸轉(zhuǎn)氨酶1。

肉瘤代表一組高度組織學(xué)和分子異質(zhì)性的罕見惡性腫瘤，預(yù)后較差。 Zhang等[9]從癌癥蛋白質(zhì)組圖譜(The Cancer Proteome Atlas, TCPA)上下載了肉瘤患者的蛋白質(zhì)組表達譜以及臨床信息，發(fā)現(xiàn)55種蛋白質(zhì)與患者的總生存期(overall survival, OS)相關(guān)?；诘鞍踪|(zhì)組學(xué)特征開發(fā)了肉瘤患者的預(yù)后模型，模型包括七種蛋白：AMPKALPHA、CHK1、S6、ARID1A、RBM15、ACETYLATUBULINLYS40和MSH6。再使用TCGA中肉瘤患者的轉(zhuǎn)錄組數(shù)據(jù)集驗證預(yù)后模型的性能，證明模型可能是指導(dǎo)臨床實踐的有效工具。

這些研究表明，多組學(xué)大數(shù)據(jù)的集成為了解跨細胞組織多個層面的因果關(guān)系提供了機會，在醫(yī)學(xué)領(lǐng)域應(yīng)用中具有巨大潛力，可以得到比單組學(xué)分析更全面，更精確的結(jié)果。

2.2 人工智能在醫(yī)學(xué)中的應(yīng)用

2.2.1 人工智能在影像中的應(yīng)用

醫(yī)學(xué)影像主要包括醫(yī)學(xué)影像計算機斷層掃描(computer tomography, CT)、磁共振成像(magnetic resonance imaging, MRI)、正電子發(fā)射計算機斷層顯像(positron emission tomography-computer tomog-raphy, PET-CT)、X射線、超聲等技術(shù)[10]。人工智能在醫(yī)學(xué)影像上已經(jīng)應(yīng)用到圖像分割、圖像分類、圖像配準和目標檢測等場景中[11]，其可以實現(xiàn)圖像質(zhì)量的改善提升，且對于理解圖像信息，輔助診斷分類都起著極大的作用，還可以迅速完成圖像分割配準等更高級的操作。

在圖像配準方面，De Silva等[12]使用了一種可以縱向?qū)R多模態(tài)視網(wǎng)膜圖象的深度學(xué)習配準算法。在彩色眼底照相(color fundus photogra-phy, CFP)、眼底自發(fā)熒光(fundus autofluorescence, FAF)和紅外反射(infrared reflectance, IR)三種圖像模式實驗中，單模態(tài)縱向配準實驗獲得54～59 μm的誤差，相較于傳統(tǒng)的配準方法(平均誤差在39～53 μm范圍內(nèi))，展示出了更高的準確性。對于多模態(tài)橫斷面配準實驗，該方法平均誤差在66～69 μm范圍內(nèi)，而傳統(tǒng)方法則錯誤頗多。在圖像分類方面，Jiang等[13]對111例乳房動態(tài)對比材料增強(dynamic contrast material-enhanced, DCE)MRI檢查的圖像分別通過傳統(tǒng)的計算機輔助評估軟件和AI進行分類測試，發(fā)現(xiàn)使用AI方法圖像分類準確性更高，平均AUC從0.71提高到0.76。在圖像分割方面，Hoseini等[14]提出了一種大容量深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)的方法，可以更準確，更快速地分割腦部MRI圖像，在BraTS2016腦腫瘤數(shù)據(jù)集的完整區(qū)域、核心區(qū)域和增強區(qū)域的準確性分別為0.90、0.85和0.84。

2.2.2 人工智能在癌癥研究中的應(yīng)用

人工智能在腫瘤學(xué)研究的各個方面的應(yīng)用增長迅速，應(yīng)用范圍包括癌癥風險預(yù)測、癌癥檢測和分類分期、癌癥藥物發(fā)現(xiàn)和再利用、預(yù)后分析等，有助于醫(yī)生為每位患者制定高度個性化的癌癥預(yù)防和治療計劃。

對于癌癥診斷，主要是對癌癥患者的圖像和非癌性病變的影像學(xué)圖像利用人工智能方法提取差異特征，構(gòu)建診斷模型。Jeyaraj等[15]開發(fā)了一種具有兩個分層的新結(jié)構(gòu)深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)，分析樣本多維高光譜圖像輔助口腔癌診斷，準確度為94.5%。Luo等[16]利用1 036 496個內(nèi)窺鏡圖像開發(fā)了一種胃腸道人工智能診斷系統(tǒng)(GRAIDS)，經(jīng)外部驗證和與專業(yè)內(nèi)鏡醫(yī)師的診斷結(jié)果比較，GRAIDS表現(xiàn)出良好的診斷性能，其準確性為0.915～0.977，靈敏度為0.942，堪比專業(yè)內(nèi)鏡醫(yī)師(0.945)。Li等[17]開發(fā)了一個基于CNN的新模型來分析窄帶成像放大內(nèi)窺鏡(magnifying endoscopy with narrow band imaging, M-NBI)觀察到的胃粘膜病變圖像，用于胃癌的早期診斷，該模型準確率、敏感性和特異性分別為90.91%、91.18%和90.64%，其中敏感性顯著高于專家組判定，準確率和特異性與專家組未有差異。同樣，基于4204張影像利用CNN方法建立的黑色素瘤診斷模型，靈敏度、特異性都超過了皮膚科醫(yī)生的檢驗結(jié)果[18]，表明了人工智能在大數(shù)據(jù)時代的優(yōu)越性。

在風險預(yù)測方面，人工智能可輔助醫(yī)生決策，降低患者就醫(yī)成本，提高其生活質(zhì)量。Kudo等[19]使用僅接受內(nèi)鏡切除術(shù)或T1 CRC手術(shù)切除術(shù)的入選患者的臨床病理記錄，構(gòu)建了一個T1大腸癌淋巴結(jié)轉(zhuǎn)移風險的人工智能預(yù)測模型(artificial neural network, ANN)，該模型(AUC＝0.84)在識別初次內(nèi)鏡手術(shù)切除后的轉(zhuǎn)移淋巴結(jié)風險上效果明顯優(yōu)于美國指南(AUC=0.77)，為T1期大腸癌患者是否進行淋巴結(jié)清除手術(shù)，提供了輔助預(yù)測手段。

腫瘤的分級用于評價惡性腫瘤侵襲轉(zhuǎn)移的程度，指導(dǎo)臨床治療和患者預(yù)后管理。Bulten等[20]使用患者穿刺活檢切片和病理報告開發(fā)了一項可根據(jù)Gleason評分標準對前列腺活檢樣本分級評分的深度學(xué)習系統(tǒng)，這個系統(tǒng)在診斷和分級方面性能卓越，區(qū)分惡性腫瘤的AUC為0.990，判斷≥2級和≥3級的AUC分別為0.978和0.974，該系統(tǒng)對100份活檢樣本的分級結(jié)果(kappa=0.854)優(yōu)于專家判定(kappa= 0.819)，可降低人工判定帶來的主觀性錯誤并節(jié)約時間成本。

在預(yù)后分析方面，人工智能也表現(xiàn)出良好的預(yù)測效果， Arya等[21]提出了一個兩階段的人類乳腺癌預(yù)后預(yù)測多模式模型，即第一階段使用卷積神經(jīng)網(wǎng)絡(luò)提取特征，第二階段輸入提取的特征進而在基于堆棧的集成模型中得到分類結(jié)果，該集成模型的結(jié)果比現(xiàn)有的多模式CNN方法更好(AUC=0.93，準確度為90.2%)。

2.2.3 人工智能在輔助醫(yī)學(xué)上的應(yīng)用

人工智能還能輔助醫(yī)生做一些識別、監(jiān)控管理疾病的工作，將人工智能的數(shù)據(jù)整合、分析與判斷能力與人類醫(yī)生的診療經(jīng)驗相結(jié)合，提供輔助醫(yī)療的處理邏輯，分擔醫(yī)生壓力、提高工作效率。

對于術(shù)后分析，F(xiàn)rit等[22]收集了來自醫(yī)療中心接受氣管插管手術(shù)的患者數(shù)據(jù)構(gòu)建了一個可以預(yù)測術(shù)后30天死亡率的多路徑卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習模型，在納入的95,907名患者數(shù)據(jù)中，最終有941名患者在手術(shù)后1個月內(nèi)死亡。該模型預(yù)測術(shù)后30天死亡率結(jié)果AUC為0.867, 95%CI為0.835～0.899。

對于監(jiān)控管理慢性病，以往用于測量視網(wǎng)膜血管口徑的方法離不開人工操作，圖片質(zhì)量好壞直接影響測定時間長短，且人工測量差異較大。為了提高效率，Cheung等[23]開發(fā)了一種深度學(xué)習CNN模型(SIVA-DLS)，可以全自動地從視網(wǎng)膜照片中去測量視網(wǎng)膜血管的口徑，且結(jié)果與人工測量結(jié)果具有高度的一致性，相關(guān)系數(shù)在0.82～0.95之間。除此之外，該研究還證明了SIVA-DLS測量的視網(wǎng)膜血管口徑與心血管疾病有關(guān)。

人工智能在醫(yī)學(xué)中的應(yīng)用如表1所示。除此之外，醫(yī)學(xué)領(lǐng)域的康復(fù)護理機器人在很大程度上也應(yīng)用了人工智能技術(shù)，可以幫助行動不便的病人日常生活和術(shù)后康復(fù)[3]，也可以輔助醫(yī)生進行手術(shù)，提高醫(yī)療效率，節(jié)省醫(yī)療資源，應(yīng)用十分廣泛。

2.3 組學(xué)大數(shù)據(jù)與人工智能的聯(lián)合應(yīng)用

組學(xué)大數(shù)據(jù)和人工智能各自在醫(yī)學(xué)領(lǐng)域都發(fā)揮著巨大的潛能與優(yōu)勢，兩者結(jié)合應(yīng)用，即高維數(shù)據(jù)集的可用性加上高性能計算機以及創(chuàng)新的機器學(xué)習架構(gòu)[24]，不僅可以提高數(shù)據(jù)利用率，更能優(yōu)化單組學(xué)或非人工智能研究的結(jié)果。

卵巢癌是女性生殖器官常見的惡性腫瘤之一，初始癥狀不明顯，很難及早發(fā)現(xiàn)，復(fù)發(fā)率較高，治愈率較差，死亡率超過宮頸癌及子宮內(nèi)膜癌之和，高居婦科癌癥首位。Hira等[25]開發(fā)了基于可變自動編碼器(variational autoencoder, VAE)改進的最大平均差異VAE (maximum mean discrepancy-variational autoencoder, MMD-VAE)技術(shù)，而后開發(fā)了VAE和MMD-VAE的深度學(xué)習框架。VAE是一種訓(xùn)練被正則化以避免過度擬合，并確保潛在空間具有良好的特性來支持生成過程的自編碼器。MMD-VAE則是將VAE的損失函數(shù)替換成使用最大平均差異。通過單一組學(xué)(基因組、轉(zhuǎn)錄組、表觀組)、綜合二組學(xué)(基因組+轉(zhuǎn)錄組、表觀組+轉(zhuǎn)錄組、基因組+表觀組)和三組學(xué)(基因組+轉(zhuǎn)錄組+表觀組)的數(shù)據(jù)分析，研究卵巢癌的癌癥樣本識別、分子亞型聚類和分類以及生存分析。結(jié)果顯示，VAE和MMD-VAE優(yōu)于現(xiàn)有的降維(PCA、t-SNE)技術(shù)，且在亞型聚類和分類以及生存分析中，綜合二組學(xué)和三組學(xué)的結(jié)果比基于單組學(xué)更好，且在多組學(xué)數(shù)據(jù)集分析中MMD-VAE性能比VAE更出色。

Zhao等[26]構(gòu)建了一個可擴展且可解釋的深度學(xué)習框架DeepOmix用來集成多組學(xué)數(shù)據(jù)和生存預(yù)測，該團隊使用突變、拷貝數(shù)變化、基因表達和DNA甲基化四種組學(xué)數(shù)據(jù)，將DeepOmix應(yīng)用在八個不同的癌癥(膀胱尿路上皮癌、乳腺浸潤癌、頭頸部鱗狀細胞癌、低級別膠質(zhì)瘤、腎透明細胞癌、肺腺癌、卵巢漿液性囊腺癌和胃腺癌)數(shù)據(jù)集的預(yù)后分析，經(jīng)與其他五種最新方法(BLockForest、DeepHit、DeepSurv、glmBoost、IPF_LASSO)比較，在其中的六個數(shù)據(jù)集中，DeepOmix的預(yù)后預(yù)測結(jié)果表現(xiàn)均為最佳。文章中還提到DeepOmix除了可以使用四種類型的組學(xué)數(shù)據(jù)之外，還可以集成更復(fù)雜的蛋白質(zhì)數(shù)據(jù)。

表1 人工智能在醫(yī)學(xué)中的應(yīng)用

Xu等[27]提出了一種新的分層集成深度靈活神經(jīng)森林框架(HI-DFNForest)，集成多組學(xué)數(shù)據(jù)用于腫瘤亞型分類。文章針對乳腺浸潤性癌、多形性膠質(zhì)母細胞瘤和卵巢癌三種腫瘤，分別使用 DNA 甲基化數(shù)據(jù)、miRNA表達數(shù)據(jù)、基因表達數(shù)據(jù)或者將三類數(shù)據(jù)整合來進行亞型分類。結(jié)果顯示無論在哪種腫瘤數(shù)據(jù)集中，多組學(xué)整合數(shù)據(jù)分類的準確性(分別為0.846、0.885、0.840)都高于單組學(xué)(DNA甲基化：0.731、0.596、0.640；miRNA表達：0.769、0.539、0.640；基因表達：0.808、0.865、0.760)。

多組學(xué)分析產(chǎn)生的數(shù)據(jù)較之單一組學(xué)分析更多更復(fù)雜，針對具體的生物醫(yī)學(xué)科學(xué)問題，多組學(xué)也可以憑借多維度多角度的優(yōu)勢更為全面地解釋該問題。所以多組學(xué)相較單組學(xué)更為需要人工智能的輔助。而將人工智能技術(shù)應(yīng)用于多組學(xué)大數(shù)據(jù)上，將會是實現(xiàn)精準醫(yī)療和個性化醫(yī)療的重要步驟?，F(xiàn)有研究表明多組學(xué)數(shù)據(jù)與人工智能結(jié)合應(yīng)用，結(jié)果會更優(yōu)于單組學(xué)分析。

3 醫(yī)學(xué)應(yīng)用的挑戰(zhàn)

大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展和人工智能的興起，促進了數(shù)據(jù)量的增長。國家政策的扶持，為組學(xué)大數(shù)據(jù)和人工智能的發(fā)展帶來了前所未有的機遇，同時也面臨諸多挑戰(zhàn)。

大規(guī)模各種組學(xué)數(shù)據(jù)的產(chǎn)生，為疾病的發(fā)病機制的研究，提供了豐富的數(shù)據(jù)資源。但是組學(xué)數(shù)據(jù)的分析由于缺乏統(tǒng)一的標準，根據(jù)不同流程，產(chǎn)生不同的結(jié)果，導(dǎo)致數(shù)據(jù)整合過程艱難復(fù)雜；不同種類組學(xué)數(shù)據(jù)質(zhì)量參差不齊，由于某些組學(xué)技術(shù)還處于初步發(fā)展階段，檢測方法尚不成熟，導(dǎo)致數(shù)據(jù)質(zhì)量差；組學(xué)數(shù)據(jù)種類多，亟需開發(fā)相互整合的分析技術(shù)；組學(xué)數(shù)據(jù)由于在機構(gòu)、醫(yī)院之間分散保存，缺乏有效的集成技術(shù)，阻礙了利用大批量的數(shù)據(jù)進行人工智能的訓(xùn)練測試。

人工智能應(yīng)用于醫(yī)學(xué)研究同樣面臨多方面的挑戰(zhàn)。現(xiàn)下研究多為監(jiān)督學(xué)習，但是無監(jiān)督學(xué)習更貼近人工智能，大量的數(shù)據(jù)集還需要熟練的醫(yī)生來進行標注，此過程需要耗費大量的人力物力精力[28]。人工智能計算過程不透明，“黑箱”的可解釋性不強[29]，在醫(yī)院層面存在責任劃分歸屬問題。并且各家醫(yī)院之間信息共享率低，開發(fā)出來的人工智能算法不一定具有普遍適應(yīng)性。此外，隨著越來越多人工智能產(chǎn)品投入臨床使用，數(shù)據(jù)安全形勢逐漸嚴峻，病人的隱私保護問題凸顯，要開發(fā)相應(yīng)技術(shù)并且具備相應(yīng)的法律法規(guī)和倫理規(guī)范去約束管制[30]。

4 結(jié)語與展望

組學(xué)大數(shù)據(jù)和人工智能相輔相成，組學(xué)大數(shù)據(jù)的增長與整合使得臨床對人工智能的需求日益增大，而人工智能的發(fā)展又可以很好地利用組學(xué)大數(shù)據(jù)推動醫(yī)療行業(yè)的發(fā)展。雖存在諸多問題，但前景一片廣闊，加之機遇良多，因此，更需要從國家政府到企業(yè)研究機構(gòu)再到醫(yī)護人員與病患的一致合作，為未來精準醫(yī)學(xué)和個性化醫(yī)學(xué)的實現(xiàn)打下堅實基礎(chǔ)。

[1] 安紹維. 多組學(xué)大數(shù)據(jù)整合分析推動人類未來的健康發(fā)展. 張江科技評論, 2019, (6): 12–14.

[2] Yu YZ, Shi DJ, Ma JC, Zhou Z. Advances in application of artificial intelligence in medical image analysis., 2019, 35(12): 1808–1812.

俞益洲, 石德君, 馬杰超, 周振. 人工智能在醫(yī)學(xué)影像分析中的應(yīng)用進展. 中國醫(yī)學(xué)影像技術(shù), 2019, 35(12): 1808–1812.

[3] 李賀. 人工智能在醫(yī)學(xué)領(lǐng)域中的應(yīng)用研究. 科技風, 2020, (17): 7.

[4] Zhao XT, Yang YD, Qu HZ, Fang XD. Applications of machine learning in clinical decision support in the omic era., 2018, 40(9): 693–703.

趙學(xué)彤, 楊亞東, 渠鴻竹, 方向東. 組學(xué)時代下機器學(xué)習方法在臨床決策支持中的應(yīng)用. 遺傳, 2018, 40(9): 693–703.

[5] Mens MMJ, Maas SCE, Klap J, Weverling GJ, Klatser P, Brakenhoff JPJ, van Meurs JBJ, Uitterlinden AG, Ikram MA, Kavousi M, Ghanbari M. Multi-omics analysis reveals microRNAs associated with cardiometabolic traits., 2020, 11: 110.

[6] Yuan Y, Bao JD, Chen ZS, Villanueva AD, Wen WQ, Wang FQ, Zhao DJ, Fu XH, Cai QY, Long JR, Shu XO, Zheng DY, Moreno V, Zheng W, Lin WQ, Guo XY. Multi-omics analysis to identify susceptibility genes for colorectal cancer., 2021, 30(5): 321–330.

[7] Cohen JD, Li L, Wang YX, Thoburn C, Afsari B, Danilova L, Douville C, Javed AA, Wong F, Mattox A, Hruban RH, Wolfgang CL, Goggins MG, Molin MD, Wang TL, Roden R, Klein AP, Ptak J, Dobbyn L, Schaefer J, Silliman N, Popoli M, Vogelstein JT, Browne JD, Schoen RE, Brand RE, Tie J, Gibbs P, Wong HL, Mansfield AS, Jen J, Hanash SM, Falconi M, Allen PJ, Zhou SB, Bettegowda C, Diaz LA, Tomasetti C, Kinzler KW, Vogelstein B, Lennon AM, Papadopoulos N. Detection and localization of surgically resectable cancers with a multi-analyte blood test., 2018, 359(6378): 926–930.

[8] Yang W, Shi J, Zhou Y, Liu TJ, Zhan FL, Zhang K, Liu N. Integrating proteomics and transcriptomics for the identification of potential targets in early colorectal cancer., 2019, 55(2): 439–450.

[9] Zhang BY, Yang L, Wang X, Fu DG. Identification of a survival-related signature for sarcoma patients through integrated transcriptomic and proteomic profiling analyses., 2021, 764: 145105.

[10] Han D, Li QH, Cai W, Xia YW, Ning J, Huang F. Research and application of artificial intelligence in medical imaging., 2019, 5(1): 39–67.

韓冬, 李其花, 蔡巍, 夏雨薇, 寧佳, 黃峰. 人工智能在醫(yī)學(xué)影像中的研究與應(yīng)用. 大數(shù)據(jù), 2019, 5(1): 39–67.

[11] Wang Y, Li CF. The new research progress of artificial intelligent methods in medical image processing., 2013, 30(3): 4138–4143.

王弈, 李傳富. 人工智能方法在醫(yī)學(xué)圖像處理中的研究新進展. 中國醫(yī)學(xué)物理學(xué)雜志, 2013, 30(03): 4138–4143.

[12] De Silva T, Chew EY, Hotaling N, Cukras CA. Deep- learning based multi-modal retinal image registration for the longitudinal analysis of patients with age-related macular degeneration., 2020, 12(1): 619–636.

[13] Jiang YL, Edwards AV, Newstead GM. Artificial intelligence applied to breast MRI for improved diagnosis., 2021, 298(1): 38–46.

[14] Hoseini F, Shahbahrami A, Bayat P. An efficient imple-mentation of deep convolutional neural networks for MRI segmentation., 2018, 31(5): 738–747.

[15] Jeyaraj PR, Nadar ERS. Computer-assisted medical image classification for early diagnosis of oral cancer employing deep learning algorithm., 2019, 145(4): 829–837.

[16] Luo HY, Xu GL, Li CF, He LJ, Luo LN, Wang ZX, Jing BZ, Deng YS, Jin Y, Li Y, Li B, Tan WC, He CS, Seeruttun SR, Wu QB, Huang J, Huang DW, Chen B, Lin SB, Chen QM, Yuan CM, Chen HX, Pu HY, Zhou F, He Y, Xu RH. Real-time artificial intelligence for detection of upper gastrointestinal cancer by endoscopy: a multicentre, case-control, diagnostic study., 2019, 20(12): 1645–1654.

[17] Li L, Chen YS, Shen Z, Zhang XQ, Sang JZ, Ding Y, Yang XY, Li J, Chen M, Jin CH, Chen CL, Yu CH. Convolutional neural network for the diagnosis of early gastric cancer based on magnifying narrow band imaging., 2020, 23(1): 126–132.

[18] Brinker TJ, Hekler A, Enk AH, Berking C, Haferkamp S, Hauschild A, Weichenthal M, Klode J, Schadendorf D, Holland-Letz T, von Kalle C, Fr?hling S, Schilling B, Utikal JS. Deep neural networks are superior to derma-tologists in melanoma image classification., 2019, 119: 11–17.

[19] Kudo SE, Ichimasa K, Villard B, Mori Y, Misawa M, Saito S, Hotta K, Saito Y, Matsuda T, Yamada K, Mitani T, Ohtsuka K, Chino A, Ide D, Imai K, Kishida Y, Nakamura K, Saiki Y, Tanaka M, Hoteya S, Yamashita S, Kinugasa Y, Fukuda M, Kudo T, Miyachi H, Ishida F, Itoh H, Oda M, Mori K. Artificial intelligence system to determine risk of T1 colorectal cancer metastasis to lymph node., 2021, 160(4): 1075–1084.e2.

[20] Bulten W, Pinckaers H, van Boven H, Vink R, de Bel T, van Ginneken B, van der Laak J, Hulsbergen-van de Kaa C, Litjens G. Automated deep-learning system for Gleason grading of prostate cancer using biopsies: a diagnostic study., 2020, 21(2): 233–241.

[21] Arya N, Saha S. Multi-modal classification for human breast cancer prognosis prediction: Proposal of deep- learning based stacked ensemble model., 2020, doi: 10.1109/TCBB.2020. 3018467.

[22] Fritz BA, Cui ZC, Zhang MH, He YJ, Chen YX, Kronzer A, Abdallah AB, King CR, Avidan MS. Deep-learning model for predicting 30-day postoperative mortality., 2019, 123(5): 688–695.

[23] Cheung CY, Xu DJ, Cheng CY, Sabanayagam C, Tham YC, Yu M, Rim TH, Chai CY, Gopinath B, Mitchell P, Poulton R, Moffitt TE, Caspi A, Yam JC, Tham CC, Jonas JB, Wang YX, Song SJ, Burrell LM, Farouque O, Li LJ, Tan G, Ting DSW, Hsu W, Lee ML, Wong TY. A deep-learning system for the assessment of cardiovascular disease risk via the measurement of retinal-vessel calibre., 2021, 5(6): 498–508.

[24] Bhinder B, Gilvary C, Madhukar NS, Elemento O. Artificial intelligence in cancer research and precision medicine., 2021, 11(4): 900–915.

[25] Hira MT, Razzaque MA, Angione C, Scrivens J, Sawan S, Sarker M. Integrated multi-omics analysis of ovarian cancer using variational autoencoders., 2021, 11(1): 6265.

[26] Zhao LH, Dong QY, Luo CL, Wu Y, Bu DC, Qi XN, Luo YF, Zhao Y. DeepOmix: A scalable and interpretable multi-omics deep learning framework and application in cancer survival analysis., 2021, 19: 2719–2725.

[27] Xu J, Wu P, Chen YH, Meng QF, Dawood H, Dawood H. A hierarchical integration deep flexible neural forest framework for cancer subtype classification by integrating multi-omics data., 2019, 20(1): 527.

[28] Liu FW, Li HJ, Zhang YH, Li RS, Wang ZS, Tang XY. Application of artificial intelligence in medical imaging diagnosis., 2019, 38(2): 206–211.

劉豐偉, 李漢軍, 張逸鶴, 李若松, 王尊升, 唐曉英. 人工智能在醫(yī)學(xué)影像診斷中的應(yīng)用. 北京生物醫(yī)學(xué)工程, 2019, 38(2): 206–211.

[29] 許家睿. 人工智能在輔助醫(yī)療領(lǐng)域現(xiàn)狀與未來發(fā)展趨勢概述. 中國新通信, 2021, 23(1): 232–234.

[30] Zhou WL. The classification and ethical reflection of artificial intelligence medical application., 2020, 33(7): 826–830.

周琬琳. 人工智能醫(yī)學(xué)應(yīng)用的分類與倫理問題反思. 中國醫(yī)學(xué)倫理學(xué), 2020, 33(7): 826–830.

Omics big data and medical artificial intelligence

Xinyue Wang1,2,3, Hongzhu Qu1,2,3, Xiangdong Fang1,2,3

With the rapid development of high-throughput sequencing technology and computer science, the amount of large omics data has increased exponentially, the advantages of multi-omics analysis have gradually emerged, and the application of artificial intelligence has become more and more extensive. In this review, we introduce the application progress of multi-omics data analysis and artificial intelligence in the medical field in recent years, and also show the cases and advantages of their combined application. Finally, we briefly explain the current challenges of multi-omics analysis and artificial intelligence in order to provide new research ideas for the medical industry and to promote the development and application of precision medicine.

multi-omics; artificial intelligence; medicine; precision medicine

2021-06-18;

2021-08-31

科技部重點研發(fā)計劃(編號：2020YFC2003405，2016YFC0901700，2018YFC0910700)資助[Supported by the National Key Research and Development Project of the Ministry of Science and Technology of the People’s Republic of China (Nos. 2020YFC2003405, 2016YFC0901700, 2018YFC0910700)]

王昕玥，在讀博士研究生，研究方向：基因組學(xué)。E-mail: wangxinyue2019d@big.ac.cn

渠鴻竹，博士，副研究員，研究方向：基因組學(xué)、精準醫(yī)學(xué)大數(shù)據(jù)。E-mail: quhongzhu@big.ac.cn

方向東，博士，研究員，研究方向：醫(yī)學(xué)遺傳學(xué)、精準醫(yī)學(xué)大數(shù)據(jù)。E-mail: fangxd@big.ac.cn

10.16288/j.yczz.21-215

2021/10/11 09:01:14

URI: https://kns.cnki.net/kcms/detail/11.1913.r.20211009.2351.001.html

(責任編委: 朱波峰)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

組學(xué)大數(shù)據(jù)和醫(yī)學(xué)人工智能

1 組學(xué)和人工智能的概念

2 組學(xué)大數(shù)據(jù)與人工智能在醫(yī)學(xué)中的應(yīng)用

2.1 多組學(xué)在醫(yī)學(xué)中的應(yīng)用

2.2 人工智能在醫(yī)學(xué)中的應(yīng)用

2.3 組學(xué)大數(shù)據(jù)與人工智能的聯(lián)合應(yīng)用

3 醫(yī)學(xué)應(yīng)用的挑戰(zhàn)

4 結(jié)語與展望