国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能在臨床基因組學(xué)中的應(yīng)用進(jìn)展

2021-03-29 01:51:13葛一平
關(guān)鍵詞:基因組學(xué)變異基因組

劉 杏,楊 寅,葛一平,林 彤

中國醫(yī)學(xué)科學(xué)院 北京協(xié)和醫(yī)學(xué)院 皮膚病醫(yī)院(研究所)1激光科 2江蘇省皮膚病與性病分子生物學(xué)重點(diǎn)實(shí)驗(yàn)室,南京 210042

概 述

臨床基因組學(xué)主要研究基因組信息在臨床中的應(yīng)用,包括診斷、治療決策、預(yù)測預(yù)后。臨床基因組學(xué)涵蓋許多重要的任務(wù),如對腫瘤患者進(jìn)行分層以便進(jìn)行更有效和精準(zhǔn)的治療,分析遺傳病的發(fā)病機(jī)制、變異位點(diǎn)從而有助于診斷和治療,還包括預(yù)測藥物療效及不良反應(yīng)等。致病性是臨床基因組學(xué)中最核心和最基本的概念。致病性是指基因變異后引起疾病的可能性,也是臨床基因組學(xué)的主要研究內(nèi)容[1]。準(zhǔn)確性是基因組學(xué)研究中分析和評價的指標(biāo),主要從兩方面來描述:分析有效性和臨床有效性[2]。

人工智能是一種基于計(jì)算機(jī)系統(tǒng)的模擬非生命體的智能形式。計(jì)算機(jī)軟件和硬件的進(jìn)步,特別是用于訓(xùn)練的深度學(xué)習(xí)算法和圖形處理單元的進(jìn)步,讓人工智能處理大量復(fù)雜數(shù)據(jù)成為可能。人工智能屬于數(shù)據(jù)科學(xué)的范疇,包括經(jīng)典編程和機(jī)器學(xué)習(xí),后者包括許多模型和方法,如深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)[3]。深度學(xué)習(xí)能夠讓多個處理層組成的模型學(xué)習(xí)具有多重抽象級別的數(shù)據(jù),還可以運(yùn)用反向傳播算法計(jì)算每一層的內(nèi)部參數(shù),從而識別大數(shù)據(jù)的具體結(jié)構(gòu)和特征[4]。人工智能的實(shí)際應(yīng)用可根據(jù)解決的問題分類,如計(jì)算機(jī)視覺、時間序列分析、語音識別、自然語言處理等,這些都逐漸應(yīng)用于醫(yī)學(xué)[5]。

人工智能在臨床基因組學(xué)中的應(yīng)用

深度學(xué)習(xí)最擅長解決復(fù)雜和數(shù)據(jù)豐富的問題,尤其適合生物學(xué)和臨床問題,包括識別致病性的基因變異[6]。目前,人工智能的許多技術(shù)已經(jīng)用于臨床基因組學(xué)研究中的多重環(huán)節(jié),包括識別變異、變異分類、影像-遺傳診斷、電子病歷-基因診斷、基因型-表型預(yù)測、藥物作用及不良反應(yīng)預(yù)測。

識別變異變異包括基因突變和基因重組。基因突變可以產(chǎn)生新基因,是生物變異的根本來源,參與了大量疾病的發(fā)生發(fā)展及轉(zhuǎn)歸。因此,變異的準(zhǔn)確識別在臨床上發(fā)揮著舉足輕重的作用,這也是基因組學(xué)研究中一項(xiàng)重要而又具有挑戰(zhàn)性的任務(wù)。近年研究表明,深度學(xué)習(xí)將徹底改變基于納米孔測序技術(shù)的堿基識別以及變異識別,從而發(fā)生質(zhì)的飛躍[7]。

DeepVariant是一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的算法,可以讀取大量堿基序列,以識別單核苷酸變異和堿基插入/缺失。在一些識別變異任務(wù)中,DeepVariant的準(zhǔn)確性優(yōu)于現(xiàn)有的標(biāo)準(zhǔn)工具,推測該準(zhǔn)確性的提高是由于CNN能夠識別測序數(shù)據(jù)中復(fù)雜的依賴關(guān)系[8]。為進(jìn)一步提高家系測序中DeepVariant識別變異的準(zhǔn)確性,研究者們又開發(fā)了另一個識別變異途徑dv-trio,dv-trio能夠?qū)⒚系聽栠z傳模型的trio信息整合到現(xiàn)有結(jié)構(gòu)[9]。Luo等[10]開發(fā)了Clairvoyante這個多任務(wù)的5層CNN模型,Clairvoyante可以從序列中預(yù)測變異類型,如單核苷酸多態(tài)性、堿基置換、堿基插入/缺失。

編碼區(qū)變異分類編碼區(qū)是指能夠轉(zhuǎn)錄為信使RNA,進(jìn)而編碼蛋白質(zhì)的區(qū)段。編碼區(qū)變異后可以直接影響蛋白質(zhì)的結(jié)構(gòu)和功能,導(dǎo)致疾病發(fā)生。編碼區(qū)變異的準(zhǔn)確識別,一直是遺傳學(xué)家竭力攻克的難題。因此,利用人工智能技術(shù)對編碼區(qū)變異進(jìn)行準(zhǔn)確識別和分類是臨床基因組學(xué)中的一大重任[11]。基于現(xiàn)有方法計(jì)算的6個功能效應(yīng)得分(SIFT、PolyPhen2、LRT、MutationTaster、GERP、PhyloP)和來自各種基因組數(shù)據(jù)源的5個關(guān)聯(lián)得分(基因本體、蛋白質(zhì)-蛋白質(zhì)相互作用、蛋白質(zhì)序列、蛋白質(zhì)域注釋、基因通路注釋),SPRING(Snv Prioritization via the Integration of Genomic data)這一生物信息學(xué)方法,可用于識別致病的非同義單核苷酸變異(single-nucleotide variants,SNVs)。通過一系列實(shí)驗(yàn)進(jìn)行驗(yàn)證,最終證明SPRING可有效檢測部分已知或完全未知的遺傳性疾病的編碼區(qū)變異。真實(shí)的全外顯子測序數(shù)據(jù)分析突顯出SPRING在檢測自閉癥、癲癇性腦病和智力殘疾等疾病的新發(fā)突變的能力[12]。經(jīng)過多次更新和完善,數(shù)據(jù)庫dbNSFP v3.0可以為人類非同義和剪接位點(diǎn)SNVs提供功能預(yù)測和注釋,3.0版本共包括82 832 027個SNVs[13]。

人類基因組測序發(fā)展迅猛,但是檢測出的變異很難分辨是致病變異還是良性基因變異,使得其在臨床及科研中的應(yīng)用受限。Sundaram等[14]對6類靈長類動物(黑猩猩、倭黑猩猩、大猩猩、猩猩、恒河、絨猴)進(jìn)行測序后發(fā)現(xiàn)數(shù)十萬個常見基因變異,再利用這些變異數(shù)據(jù)訓(xùn)練了一個深度神經(jīng)網(wǎng)絡(luò)模型,該模型可以識別罕見疾病患者的致病性突變,準(zhǔn)確率達(dá)88%。而且該模型還發(fā)現(xiàn)14個新的智力障礙候選基因。該深度神經(jīng)網(wǎng)絡(luò)對其他靈長類物種的常見基因變異進(jìn)行分類,極大推進(jìn)了人類基因組測序的臨床應(yīng)用。ClinVar,是由美國國家生物技術(shù)信息中心保存、隸屬于美國國家醫(yī)學(xué)圖書館的公共數(shù)據(jù)庫,該數(shù)據(jù)庫收集了與疾病相關(guān)的遺傳變異及臨床注釋。ClinVar根據(jù)變異-疾病和變異(或變異集)來整合數(shù)據(jù),其提供的變異注釋由臨床檢測實(shí)驗(yàn)室、研究實(shí)驗(yàn)室和專家小組共同提供[15]。ClinVar更新后,視圖和布局均有所調(diào)整,更便于查找提交的數(shù)據(jù)和對數(shù)據(jù)的注釋。新版本的ClinVar也能更好地處理復(fù)雜的數(shù)據(jù),如單倍型和基因型,以及單倍型或基因型中的一部分變異[16]。

非編碼區(qū)變異分類非編碼區(qū)是指能夠轉(zhuǎn)錄為RNA,但不能編碼蛋白質(zhì)的區(qū)段。雖然不能編碼蛋白質(zhì),但非編碼區(qū)能夠調(diào)控遺傳信息的表達(dá),同樣具有遺傳效應(yīng)。近年來,人們逐漸意識到非編碼區(qū)的重要性。非編碼區(qū)的突變可影響多個基因的轉(zhuǎn)錄、翻譯,導(dǎo)致疾病發(fā)生。計(jì)算機(jī)識別和預(yù)測非編碼變異是人類基因組學(xué)的又一項(xiàng)重大任務(wù),有助于明確疾病的發(fā)病機(jī)制和診斷[17]。

大規(guī)模并行剪接分析是一種使用隨機(jī)森林的算法,被用來篩選人類基因突變數(shù)據(jù)庫中報(bào)道的4964個外顯子疾病突變,建立人工智能篩選非編碼基因變異的新模型,該模型極大提高了識別變異的能力。結(jié)果表明,該模型檢測到的剪接與患者組織中實(shí)際剪接的一致率為81%,并且通過該模型發(fā)現(xiàn)基因的剪接缺陷可造成至少10%的罕見致病遺傳變異[18]。MMSplice(modular modeling of splicing)是經(jīng)過多個大規(guī)模基因組數(shù)據(jù)集訓(xùn)練,對外顯子、內(nèi)含子和剪接位點(diǎn)進(jìn)行評分的神經(jīng)網(wǎng)絡(luò),最終可以預(yù)測變異對外顯子跳躍、剪接位點(diǎn)選擇、剪接效率和致病性的影響[19]。另外,也有專家指出,基因剪接的過程復(fù)雜,受多種因素影響,如內(nèi)含子和外顯子剪接增強(qiáng)子、沉默子、絕緣子等,因此剪接很難被識別[20]。

Pre-mRNAs經(jīng)剪接成為成熟轉(zhuǎn)錄本是一個相當(dāng)精確的過程。超深度測序的結(jié)果表明,pre-mRNA剪接是一個序列驅(qū)動的高保真過程,但調(diào)節(jié)該過程的具體機(jī)制尚不完全清楚[21]。SpliceAI是一個具有32層卷積的深度神經(jīng)網(wǎng)絡(luò),可以精確地預(yù)測pre-mRNA轉(zhuǎn)錄序列的剪接,從而能夠精確地預(yù)測引起隱蔽剪接的非編碼變異。預(yù)測結(jié)果中影響可變剪接的同義突變和內(nèi)含子突變,可使用RNA測序數(shù)據(jù)進(jìn)行驗(yàn)證,top-k精度是0.95[22]。

可變剪接,即去除內(nèi)含子、連接外顯子,是單個基因編碼的關(guān)鍵過程。而剪接支點(diǎn)是可變剪接的標(biāo)志,內(nèi)含子中可能有多個支點(diǎn)[23]。LaBranchoR是一個基于深度學(xué)習(xí)的RNA剪接支點(diǎn)預(yù)測模型,能夠預(yù)測至少75%的3’端剪接位點(diǎn)的正確支點(diǎn),并給出相應(yīng)注釋[24]。

影像-遺傳診斷許多遺傳綜合征具有可識別的面部特征,這一點(diǎn)引起遺傳學(xué)家的重視,開始致力于此方面的研究。新型面部畸形分析軟件的圖像分析技術(shù)是基于將數(shù)學(xué)函數(shù)半自動放置在相關(guān)面部結(jié)構(gòu)上的節(jié)點(diǎn)網(wǎng)格,經(jīng)過訓(xùn)練,可識別外胚層發(fā)育不良患者的面部特征而進(jìn)行診斷。驗(yàn)證后的結(jié)果表明該軟件對男性X連鎖少汗性外胚層發(fā)育不良的診斷具有較高的敏感性和特異性[25]。另外,新型面部畸形分析軟件也提高了酒精相關(guān)神經(jīng)發(fā)育障礙的診斷準(zhǔn)確率[26]。

DeepGestalt是一種新的面部圖像分析模型,該模型使用計(jì)算機(jī)視覺和深度學(xué)習(xí)算法,量化數(shù)百種綜合征的相似性。該模型在代表200多種綜合征的17 000多幅圖像的數(shù)據(jù)集上進(jìn)行訓(xùn)練,在502張不同圖像上進(jìn)行測試,結(jié)果表明識別綜合征的準(zhǔn)確率達(dá)91%。DeepGestalt的表現(xiàn)顯著優(yōu)于人類遺傳學(xué)家,而且能夠精確地區(qū)分同一臨床診斷的分子亞型[27]。研究者選取17種遺傳綜合征的323例患者的圖像和無遺傳綜合征的323例患者的圖像,使用DeepGestalt模型進(jìn)行驗(yàn)證,結(jié)果表明綜合征的診斷靈敏度高達(dá)91%[28]。PEDIA(prioritization of exome data by image analysis)是DeepGestalt模型基礎(chǔ)上整合了基因組數(shù)據(jù)而形成,能夠提取面部圖像的表型特征。PEDIA對679個個體中的105種單基因疾病的候選致病變異進(jìn)行精確的優(yōu)先排序,準(zhǔn)確率顯著提高[29]。

在某些腫瘤中,人工智能可以彌補(bǔ)圖像特征和遺傳變異之間的差距。生存卷積神經(jīng)網(wǎng)絡(luò),即CNN與Cox回歸分析的結(jié)合,創(chuàng)建了一個統(tǒng)一的框架來整合組織學(xué)和基因組學(xué)標(biāo)記,能夠充分了解與生存和體細(xì)胞突變相關(guān)的組織學(xué)特征?;谏窠?jīng)膠質(zhì)瘤的基因組分類和組織學(xué)分級,研究者們在當(dāng)前臨床標(biāo)準(zhǔn)的背景下系統(tǒng)評估了該方法的準(zhǔn)確性,結(jié)果表明生存卷積神經(jīng)網(wǎng)絡(luò)可以直接從腫瘤組織學(xué)圖像中預(yù)測患者發(fā)生的基因突變[30]。

電子病歷-基因診斷在臨床診療中,電子健康病歷(electronic health record,EHR)是不可或缺的。EHR由臨床醫(yī)生完成,涵蓋了較為全面的信息,如個人基本信息、生命體征、發(fā)病過程、用藥史、家族史、檢查結(jié)果等,采集完成后,醫(yī)生才能給予相應(yīng)的診斷和治療。從EHR中,醫(yī)生可以基本了解患者的全部就診過程,了解疾病進(jìn)展,從而獲取大量有效信息。

近年來,研究者們設(shè)計(jì)了一個基于人工智能的系統(tǒng),該系統(tǒng)使用機(jī)器學(xué)習(xí)的方法從EHR中提取相關(guān)臨床特征,再模仿人類醫(yī)生的臨床推理,最終給出臨床診斷。自然語言處理系統(tǒng)能夠區(qū)分55個常見的兒科疾病,并給出診斷,準(zhǔn)確率達(dá)92%[31]。在另一項(xiàng)研究中發(fā)現(xiàn),當(dāng)電子健康病歷與基因組數(shù)據(jù)結(jié)合時,研究者們可以設(shè)計(jì)出一個臨床自然語言處理系統(tǒng),該系統(tǒng)可以快速給出基因診斷,特別是病情危重的住院患兒,基因診斷后可以盡快給予相應(yīng)治療措施,從而提高患兒存活率、改善預(yù)后[32]。1年多后,臨床自然語言處理系統(tǒng)對48例疑似遺傳疾病的重癥兒童再次進(jìn)行分析,其中2例疑似病例得到確診,診斷率增加4.2%[33]。

人工智能輔助診斷系統(tǒng)不僅在西醫(yī)中研究甚多,目前在中醫(yī)方面也取得了進(jìn)展。研究者們采用自然語言處理技術(shù)對非結(jié)構(gòu)化自由式電子病歷進(jìn)行處理后提取患者癥狀、體征等臨床信息,將提取后的信息用于模型訓(xùn)練,得到了一種新的預(yù)測模型,即綜合學(xué)習(xí)模型,該模型能夠預(yù)測187種中醫(yī)疾病的類型,并且具有較高的診斷準(zhǔn)確率。隨著算法的不斷改進(jìn)和電子病歷的不斷增多,運(yùn)用模型能夠診斷的疾病類型有望增多,診斷準(zhǔn)確率也有望提高[34]。

基因型-表型預(yù)測遺傳學(xué)的臨床目的是提供診斷和預(yù)測疾病風(fēng)險。常見疾病中,使用相對簡單的統(tǒng)計(jì)方法來預(yù)測多基因風(fēng)險可以獲得對個人和臨床有用的風(fēng)險分級[35]。一些研究嘗試使用人工智能算法對人類特征進(jìn)行基因組預(yù)測,通過大樣本的訓(xùn)練和測試,結(jié)果表明模型在身高基因組預(yù)測方面能夠提供相對準(zhǔn)確的預(yù)測,并且,這些結(jié)果已經(jīng)通過全基因組關(guān)聯(lián)研究中的其他數(shù)據(jù)集和單核苷酸多態(tài)性進(jìn)行樣本外驗(yàn)證[36]。通過綜合非遺傳風(fēng)險因素和遺傳數(shù)據(jù),BOADICEA(Breast and Ovarian Analysis of Disease Incidence and Carrier Estimation Algorithm)模型得到優(yōu)化,乳腺癌和卵巢癌風(fēng)險預(yù)測的準(zhǔn)確性也得到顯著提高,使得一般人群和有家族史的女性的風(fēng)險分層水平變高,該結(jié)果有助于促進(jìn)危險人群的預(yù)防性治療和篩查個性化[37]。

藥物作用及不良反應(yīng)預(yù)測CDRscan(Cancer Drug Response profile scan)是一種采用兩層卷積結(jié)構(gòu)的深度學(xué)習(xí)模型,該模型基于787種人類腫瘤細(xì)胞系基因組信息和244種藥物結(jié)構(gòu)特征,被用于預(yù)測抗癌藥物的有效性。將CDRscan應(yīng)用于已經(jīng)批準(zhǔn)的1487種藥物,訓(xùn)練后的結(jié)果表明14種腫瘤藥物和23種非腫瘤藥物具有潛在的腫瘤適應(yīng)證,通過進(jìn)一步的基礎(chǔ)實(shí)驗(yàn)和臨床驗(yàn)證有望開發(fā)出更多的抗癌藥物[38]。2019年,Chiu等[39]提出第1個深度神經(jīng)網(wǎng)絡(luò)模型,在622個癌細(xì)胞株上進(jìn)行訓(xùn)練和驗(yàn)證,最終模型預(yù)測了33種癌癥類型中9059例腫瘤的藥物反應(yīng),還提出了新的耐藥機(jī)制和藥物靶點(diǎn)。研究者們利用1001個癌細(xì)胞株藥物基因組學(xué)數(shù)據(jù),對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和優(yōu)化,以提高模型預(yù)測癌癥患者的藥物反應(yīng)的準(zhǔn)確性,從而為患者提供最佳的個體化治療方案[40]。RefDNN是一種新提出來的深度學(xué)習(xí)模型,被用于抗癌藥物的耐藥性預(yù)測及藥物反應(yīng)相關(guān)標(biāo)志物的識別。在大多數(shù)實(shí)驗(yàn)中RefDNN優(yōu)于現(xiàn)有模型,而且對于未接受訓(xùn)練的藥物和癌癥類型的預(yù)測,該模型也優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型[41]。

由于藥物與靶點(diǎn)的多維度,傳統(tǒng)學(xué)習(xí)方法難以提取其重要特征,而深度學(xué)習(xí)的加入和運(yùn)用有望帶來重大突破。在現(xiàn)有乳腺癌藥物中,運(yùn)用深度學(xué)習(xí)的方法,收集蛋白序列數(shù)據(jù)、蛋白結(jié)構(gòu)域信息和目前已知的藥物靶標(biāo)相互作用(drug-target interactions,DTIs),經(jīng)過訓(xùn)練、驗(yàn)證和比較,最終得到LASSO-DNN模型以預(yù)測DTIs。LASSO-DNN模型可以從大規(guī)?;蚪M研究中發(fā)現(xiàn)疾病相關(guān)風(fēng)險基因是潛在的藥物靶點(diǎn),這便于藥物的再利用[42]。在幾種計(jì)算模型中,常規(guī)的蛋白質(zhì)結(jié)構(gòu)均不能提供足夠的信息,這導(dǎo)致預(yù)測的DTIs準(zhǔn)確性不高。研究者們通過對不同長度的氨基酸序列進(jìn)行卷積而獲得不同的蛋白質(zhì)殘基形式,并用于模型的訓(xùn)練,優(yōu)化后的模型不僅提高了DTIs預(yù)測準(zhǔn)確性,還可以檢測DTIs的結(jié)合位點(diǎn)[43]。除了已知的DTIs,還有很多未知的DTIs需要研究和探索。DeepACTION是一種新提出的深度學(xué)習(xí)模型,能夠預(yù)測大量新的DTIs,而且可以提供相互作用的詳細(xì)信息以便于科學(xué)家開發(fā)藥物[44]。

不足和展望

人工智能具備處理復(fù)雜和多模態(tài)的大數(shù)據(jù)的能力,使得生物信息學(xué)方法發(fā)生了質(zhì)的飛躍,遺傳學(xué)家、臨床醫(yī)生可以對測序結(jié)果有更清楚和準(zhǔn)確的認(rèn)識。近年人工智能在臨床基因組學(xué)的特定任務(wù)中表現(xiàn)出更高的準(zhǔn)確度。然而,人工智能在基因組學(xué)中的應(yīng)用目前還處于初期階段,還存在諸多問題與不足,如模型可解釋性、維度災(zāi)難、數(shù)據(jù)不平衡、數(shù)據(jù)異質(zhì)性、參數(shù)和超參數(shù)調(diào)優(yōu)等[45]。因此,需要研究者們不斷開發(fā)、優(yōu)化新的模型和方法,使基因組信息在臨床中得到有效利用。

猜你喜歡
基因組學(xué)變異基因組
牛參考基因組中發(fā)現(xiàn)被忽視基因
基于基因組學(xué)數(shù)據(jù)分析構(gòu)建腎上腺皮質(zhì)癌預(yù)后模型
系統(tǒng)基因組學(xué)解碼反芻動物的演化
科學(xué)(2020年2期)2020-08-24 07:56:44
變異危機(jī)
變異
變異的蚊子
百科知識(2015年18期)2015-09-10 07:22:44
營養(yǎng)基因組學(xué)——我們可以吃得更健康
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
有趣的植物基因組
基因組生物學(xué)60年
永德县| 正镶白旗| 焦作市| 佛坪县| 西城区| 宝兴县| 胶南市| 甘德县| 高青县| 望都县| 石泉县| 阳原县| 云和县| 泾川县| 台安县| 礼泉县| 千阳县| 阿勒泰市| 长岛县| 怀化市| 双峰县| 儋州市| 德阳市| 绥宁县| 信丰县| 溧水县| 鄂州市| 西充县| 衡东县| 诸城市| 商南县| 颍上县| 顺平县| 凤阳县| 老河口市| 乌拉特前旗| 漳平市| 峨眉山市| 昔阳县| 扬州市| 灌南县|