劉 珺,林 凱,楊曉明,徐余海,張榮強,郭 青,周晴霖,朱美財
2004 年生物醫(yī)學領(lǐng)域的研究人員完成了人類基因組計劃(human genome project,HGP)和對人類染色體基因的測序,建立了基因組學等數(shù)據(jù)庫,并利用數(shù)據(jù)挖掘技術(shù)進行基因分析,使從基因組角度對疾病進行準確、全面、科學的早期預(yù)測和早期干預(yù)成為可能[1]。HGP對于分析基因變異和各種疾病的關(guān)系具有重大意義[2-3]。在進行致病基因分析時利用數(shù)據(jù)分析技術(shù)可從DNA序列中找到與疾病相關(guān)的遺傳等信息,Alsuami等[4]分析了變異基因與血壓之間的關(guān)系,發(fā)現(xiàn)CD47基因與血壓之間有顯著相關(guān)性。致病基因的發(fā)現(xiàn)促進了以預(yù)測和早期干預(yù)為主的5P醫(yī)學[5](預(yù)測醫(yī)學Predictive;預(yù)防醫(yī)學Preventive;個體化醫(yī)學Personalized;主動參與醫(yī)學Participatory和精細醫(yī)學Precise)。
1.1 全基因組關(guān)聯(lián)研究(GWAS)的概念 全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)就是針對包含有數(shù)以千計甚至萬計個體的人群基因組中數(shù)十萬甚至愈百萬的單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點,進行基因分型并與某種疾病或其它復(fù)雜性狀做病例-對照關(guān)聯(lián)分析,其關(guān)鍵技術(shù)在于探索影響人類復(fù)雜性狀疾病發(fā)生的易感基因或者SNP位點。與既往研究SNP與疾病的關(guān)系采用的“候選基因”的策略不同,GWAS的優(yōu)勢在于可直接分析與疾病關(guān)聯(lián)的SNP,并可以高通量地快速發(fā)現(xiàn)一些新的SNP位點,并應(yīng)用已經(jīng)發(fā)現(xiàn)的遺傳學風險靶標對不同個體疾病發(fā)生的風險做出預(yù)測。
1.2 GWAS-全基因組關(guān)聯(lián)技術(shù)應(yīng)用進展 GWAS是通過基因測序或基因芯片等手段,在全基因組范圍內(nèi)進行整體研究,適用于復(fù)雜疾病的研究[6]。2005年《Science》雜志首次報道了用全基因組關(guān)聯(lián)研究技術(shù)發(fā)現(xiàn)了補體因子H基因(CFH)是年齡相關(guān)性視網(wǎng)膜黃斑變性病的重要風險因素[7],此后陸續(xù)有研究人員報道了有關(guān)肥胖[8]、糖尿病[9]和冠心病[10]等常見疾病的GWAS研究。另外GWAS技術(shù)也用于多種癌癥的診斷,如前列腺癌[11]、肝癌[12]、食道癌[13]、乳腺癌[14]等,便于癌癥的早期診斷和治療,另外通過挖掘遺傳致病基因的相關(guān)突變進行胎兒產(chǎn)前診斷等。
近年來,隨著基因測序儀器和技術(shù)的飛速發(fā)展,基因測序速度不斷加快、成本也大幅下降,使其應(yīng)用于臨床疾病診斷成為可能;另一方面基因測序的推廣極大地推動了全球范圍的DNA數(shù)據(jù)的積累,以及相應(yīng)的疾病癥狀或復(fù)雜生物學性狀等數(shù)據(jù)的積累。當前臨床應(yīng)用主要在兩個方面,一方面是針對普通疾病的篩查,通過測定已知疾病相關(guān)的基因序列位點來預(yù)測其未來罹患該疾病的概率:另一方面是針對癌癥等難治性疾病的追蹤診斷,通過測定某些特定的基因序列位點,探討藥物的有效性,最終為患者找到更適合基因突變的最為有效的藥物或治療方案,真正實現(xiàn)個體化醫(yī)療。
1.3 全基因組關(guān)聯(lián)技術(shù)的發(fā)展現(xiàn)狀及優(yōu)勢 基因診斷始于探尋遺傳疾病的分子生物學病因,分子生物學家利用基因敲除等技術(shù)研究單個基因?qū)ι锉硇偷挠绊?取得了很多重大的突破;并運用統(tǒng)計學等數(shù)學分析方法處理大量數(shù)據(jù)研究基因序列與生物表型之間的關(guān)系。
人類疾病經(jīng)歷了從最簡單的單基因疾病到多基因、多因素的復(fù)雜疾病(complex diseases)的演變過程,對于疾病的基因診斷已經(jīng)從基于單基因或者少數(shù)基因的疾病遺傳學風險預(yù)測走向多基因多因素的疾病風險預(yù)測。隨著近年來GWAS研究數(shù)據(jù)的積累,科學家們對基于GWAS數(shù)據(jù)的疾病或表型風險預(yù)測方法進行了大量的研究。目前比較統(tǒng)一的觀點是:由于全基因組關(guān)聯(lián)研究要求統(tǒng)計分析的顯著性閾值為P<5×10-8[15],而在當前情況下,很多復(fù)雜表型GWAS探索由于外顯率和樣本量的限制并不能發(fā)現(xiàn)大量的符合統(tǒng)計學標準的關(guān)聯(lián)SNP,即大量的遺傳學標記被嚴格的顯著性標準過濾掉[16],因此在GWAS的剩余數(shù)據(jù)中必然包括著大量陽性關(guān)聯(lián)的SNP,但他們由于對表型的影響效果較小(small effect size)而在統(tǒng)計學顯著性上表現(xiàn)為接近閾值而大于閾值[17],很多研究也表明,在樣本量增多時,很多新的關(guān)聯(lián)SNP能夠被發(fā)掘出來[18]。有些研究者受到樣本量和研究資金的限制,不能夠?qū)Υ罅康?數(shù)十萬)樣本群進行基因分型,于是便從統(tǒng)計學的角度入手探索了更深層次挖掘潛在關(guān)聯(lián)SNP信息的方法,利用多基因模型[19]在帕金森病[20]、血管疾病[21],子宮內(nèi)膜異位[22]和其他相關(guān)疾病的基因預(yù)測上也取得了一定的成績。
GWAS的優(yōu)勢在于它集合了全人類基因組篩選和關(guān)聯(lián)分析的優(yōu)點,且能發(fā)現(xiàn)未知基因,在基因序列分析中運用生物信息學和統(tǒng)計學也將極大地推動GWAS的發(fā)展。隨著GWAS的研究越來越熱,目前人類基因組學已正式進入GWAS新紀元。在未來GWAS研究將有可能大幅推動疾病早期診斷、個體化治療和藥物基因組學的研究及其應(yīng)用[23]。
人類目前面臨的待解決成因的疾病大多屬于復(fù)雜疾病,包括各類神經(jīng)性疾病、腫瘤、糖尿病、心臟病和各類疑難雜癥等,應(yīng)用全基因組關(guān)聯(lián)分析考察全基因組范圍DNA變異的SNP,挖掘影響復(fù)雜疾病的表型SNP,有助于明確復(fù)雜疾病的發(fā)病機制[24]。
2005 年Klein等[25]研究人員第一次成功確定了影響年齡相關(guān)性黃斑變性病的重要遺傳因子。與年齡有關(guān)的黃斑變性(AMD)是老年人失明的主要原因,與許多其他慢性疾病一樣,AMD是由遺傳和環(huán)境風險因素共同導致的。該研究報告了96個受試者和50個對照者的全基因組分析結(jié)果:基因分型的116 204個單核苷酸多態(tài)性中,補體因子H基因(CFH)的內(nèi)含子和常見變異與AMD(P<10-7)密切相關(guān)。GWAS研究首次表明了人類補體因子H基因中的序列多態(tài)性可導致AMD,也是GWAS研究較早的一個成功案例。自此以后在更多的疾病診斷領(lǐng)域見證了GWAS的應(yīng)用。
為了探索癌癥的發(fā)生發(fā)展機理,研究人員從全基因組的所有SNP中,找出僅僅與癌癥相關(guān)聯(lián)的SNP,進行癌癥的早期診斷。通過對癌癥基因組序列和結(jié)構(gòu)的分析,可以了解癌癥發(fā)生發(fā)展機制。癌癥相關(guān)的遺傳因素、表遺傳因素及眾多的癌癥基因表達或活性性狀,構(gòu)成了癌癥發(fā)生、發(fā)展的分子網(wǎng)絡(luò),癌癥分子網(wǎng)絡(luò)研究已經(jīng)成為癌癥研究的一大熱點,具有重要的研究價值。近年來,隨著測序技術(shù)的不斷進步,第二代測序技術(shù)在內(nèi)的新一代高通量技術(shù)越來越多地應(yīng)用于解決生物學問題,這種以數(shù)據(jù)為基礎(chǔ),大規(guī)模的研究模式使得從基因組、轉(zhuǎn)錄組水平等角度全方位,多層次的癌癥研究成為可能[26]。基因組是指生命體內(nèi)所有DNA分子,通過對基因組的研究,能夠發(fā)現(xiàn)包括位點突變、插入與缺失、拷貝數(shù)變異及結(jié)構(gòu)變異等在內(nèi)的疾病特異性突變[27]。
近幾年有文獻報道了關(guān)于中國人群和日本人群中食管鱗狀細胞癌(ESCC)的全外顯子組測序的研究,這些研究鑒定出食管鱗狀細胞癌驅(qū)動基因包括突變頻率很高的TP53和突變頻率不高但具有統(tǒng)計學意義的基因(CDKN2A,NOTCH1,RB1和PIK3CA)[28]。北京協(xié)和醫(yī)學院的研究人員隨訪了5年以上的1088例ESCC患者外周血DNA的7 875 353個SNP,并與患者總生存時間進行關(guān)聯(lián)分析,然后對發(fā)現(xiàn)的相關(guān)SNP在1479例ESCC患者的獨立樣本中進行驗證,以探索中國人群ESCC預(yù)后相關(guān)聯(lián)的SNP位點和基因。該研究通過對94例ESCC樣本的全基因組測序和轉(zhuǎn)錄組測序的整合分析,建立了ESCC更全面的基因組景觀[29]。
另外多項研究通過GWAS技術(shù)探索了乳腺癌易感基因位點,如Cai等[30]研究人員從22 780個樣本和24 181個對照樣本中發(fā)現(xiàn)了30個獨立的乳腺癌易感基因位點。2017年,Michailidou等[31]研究人員對122 977例歐洲乳腺癌患者和105 974例對照者進行了基因分型陣列和SNP分析,證實了許多之前發(fā)現(xiàn)的乳腺癌致病位點,并找出了65個新的乳腺癌致病基因位點。 Milne等[32]研究人員通過GWAS分析與雌激素受體陰性乳腺癌風險的關(guān)聯(lián)性,證實了之前發(fā)現(xiàn)的10個易感基因位點。
將GWAS技術(shù)應(yīng)用在癌癥發(fā)生發(fā)展機制的研究上,已取得了可喜的成績。發(fā)掘癌癥患者基因組的疾病特異性突變和鑒定有效的預(yù)后分子標志物,對癌癥患者的早期診斷和潛在治療靶點的發(fā)掘具有極其重要的意義。另外近年來也有將GWAS技術(shù)應(yīng)用糖尿病[33-34]、阿爾茨海默癥[35]等慢病的篩查上,對于慢病的預(yù)防和管理有積極作用。
近年來,醫(yī)學界開始重視“治未病”的理念,即“未病先防”、對疾病早發(fā)現(xiàn)、早治療和“既病防變”。對于慢性病的預(yù)防和管理,"治未病"的理念更應(yīng)大力倡導。Zhu等[36]研究人員為了推斷各種危險因素與常見疾病之間的因果關(guān)系,開發(fā)并應(yīng)用了一種方法(稱為GSMR),即用全基因組關(guān)聯(lián)研究的匯總數(shù)據(jù)進行多SNP孟德爾隨機化分析,發(fā)現(xiàn)了BMI、腰臀比、血清膽固醇、血壓、身高和受教育年限等與常見疾病(樣本數(shù)量達405 072個)之間的因果關(guān)系,確定了低密度脂蛋白膽固醇對Ⅱ型糖尿病(T2D)的保護作用,這可能解釋了他汀類藥物對T2D有改善作用,以及受教育年限對阿爾茨海默癥的保護作用等。該研究發(fā)現(xiàn)BMI每增加4 kg/m2,患T2D的風險增加約2.3倍,另一方面T2D對BMI有顯著的負面影響。
以上研究結(jié)果對于Ⅱ型糖尿病的診斷、治療及病程管理有重要的意義。每個人的體質(zhì)不同、健康狀況不同、生活習慣不同,人們可以對照以上結(jié)果,對身體質(zhì)量指數(shù)(BMI)、腰臀比、血清膽固醇、血壓等體檢指標進行檢測,排查危害健康的因素,并通過各種健康干預(yù)措施,如:改變生活方式、調(diào)節(jié)心理、平衡膳食等,增強體質(zhì),預(yù)防疾病,真正的實現(xiàn)未病先防。
從全基因組范圍中挖掘,是為了不漏掉任何可能的致病SNP,但由于全基因組中涉及的SNP達到百萬甚至千萬數(shù)量級,在快速精準診斷疾病方面GWAS技術(shù)還面臨著巨大的挑戰(zhàn),如GWAS疾病風險預(yù)測模型區(qū)分度和校準度尚有待提高,這就需要優(yōu)化GWAS疾病預(yù)測模型;DNA數(shù)據(jù)分析的質(zhì)量控制也需要加強,質(zhì)量控制在全基因組關(guān)聯(lián)研究中非常重要,關(guān)系到是否能夠提供高質(zhì)量的DNA樣本。鑒于全基因組關(guān)聯(lián)研究能夠挖掘影響人類疾病的易感基因或者SNP位點,預(yù)測不同個體未來罹患該疾病的概率,并找到更適合基因突變的最為有效的藥物或治療方案,有必要提高全基因組關(guān)聯(lián)研究的技術(shù)水平,并擴大其臨床實際應(yīng)用,促進個體化精準醫(yī)療的發(fā)展。