呂智涵,姬云熙
安徽醫(yī)科大學第一臨床醫(yī)學院,安徽合肥 230032
復雜疾病(Complex disease)又稱為常見疾病,即不同于我們所熟知的染色體病或單基因遺傳病,其通常為多種基因與多種環(huán)境因素共同作用的結果[1],如肥胖、銀屑病等。隨著社會的進步以及人們對于生活質量水平要求的提高,復雜疾病對人們的生理與心理等各個方面產生著越來越嚴重的威脅。復雜疾病的發(fā)生發(fā)展十分迅速,并且病死率與致殘率等居高不下,現已成為國內外科研工作者迫切希望解決的難題。
遺傳因素在復雜疾病的發(fā)病中扮演著十分重要的角色。然而,由于復雜疾病的遺傳機理復雜,受到多種基因與環(huán)境的協(xié)同作用,每個基因在疾病的發(fā)生以及性狀的表現上影響甚微,這些因素都從各個方面影響著復雜疾病的研究分析與發(fā)現進展[2]。自1918年英國著名統(tǒng)計與遺傳學家Fisher首次提出“多基因遺傳”概念至今,雖然已經過去了102年,但是人們在此領域的進展依舊緩慢,探索復雜疾病的遺傳基礎工作可謂是異常的艱辛。盡管前進的道路上困難重重、荊棘滿布,但科學家前進的腳步從未停止,經過多年的不懈努力已經發(fā)現了包括冠心病、哮喘、銀屑病等在內的多種復雜疾病的多基因遺傳位點,不斷推動著人類對各種疾病的認識,為疾病的風險評價、疾病的診斷以及疾病的治療等提供了重要的依據。
復雜疾病的研究之所以進展緩慢,其原因不外乎三點,即:遺傳模式的未知、遺傳的異質性、表型的異質性[3]。首先,復雜遺傳病的復雜,在于其并不像單基因遺傳病一樣有著明確的遺傳方式。通常單基因遺傳病嚴格的遵循基因型與表型共分離定律,單個致病基因與疾病表型存在著直接的因果關系。而復雜疾病的遺傳模式十分復雜,截至目前為止我們都無法用固定的理論模式或框架來解釋[4]。其次,遺傳的異質性也從另一方面制約了人們對于復雜疾病的研究。復雜疾病往往由不同的等位基因與基因座所引起,基因組的不同部位存在著復雜疾病的多種易感基因,加之環(huán)境因素的作用,更加重了復雜疾病研究的困難性。最后,即使是同一種復雜疾病也可能會有不同的臨床表型,這就使得我們更加難以觀察與研究基因與性狀之間的關系,增大了研究的難度。這些種種因素都從各個方面制約著復雜疾病遺傳學研究的進展。
目前對于復雜疾病的遺傳理論基礎,為人們所公認的主要有兩種假說與兩種理論[5]。即常見疾病—常見變異假說(CD-CV)與常見疾病—罕見變異假說(CD-RV)、微效位點累加理論與主要位點決定理論。
依據最小等位基因頻率MAF我們可以把變異分為三種,包括常見變異(MAF>0.05)、低頻變異(MAF<0.05)和罕見變異(MAF<0.005)?;贛AF>0.05的常見疾病-常見變異假說于1997年由Collins等[6]提出,他們認為復雜疾病的產生主要是由大量基因頻率較高但致病風險比較低的常見變異累積所造成,目前的大多數研究也正是基于這一假說。然而,隨著科學家們對常見疾病—常見變異的研究逐漸深入,我們逐漸認識到人類所發(fā)現的變異位點僅僅能解釋遺傳中的很小一部分,并不能完美地解釋復雜疾病的遺傳風險(OR 1.1~1.5)[7]。這時,常見疾病—罕見變異假說開始被科學家們所關注,基因頻率較低,但是致病風險較高的罕見變異尚未被發(fā)現,或許是導致我們無法完全解釋遺傳變異的另一原因[8-10]。隨著技術的不斷進步,常見變異與罕見變異假說不斷被加以證明,最近科學家已經開始從蛋白質組—蛋白質相互作用動力學角度推斷常見變異與罕見變異是如何導致數量性狀或疾病風險與進展的[11]。
微效位點累加理論則認為復雜疾病是多個效應微小的基因或者位點共同變異所累加的結果,在這一點上,其實微效位點累加理論與常見疾病—常見變異假說的觀點相吻合。而主要位點決定理論認為在復雜疾病的發(fā)病中存在著單個的變異對其表型有特別強的效應。但是從目前的研究來看,除了阿爾茨海默病的Apo E基因[12]、銀屑病的LCE基因[13]等以外,大多數復雜疾病的易感位點其實只在其中起著微小的作用。
復雜疾病的遺傳學研究主要包括遺傳流行病學研究和易感基因的搜尋與定位。遺傳流行病學研究通過大量的樣本可以估計基因與環(huán)境在發(fā)病過程中所起到的作用,而易感基因的搜尋與定位則更加傾向于準確的找出與疾病發(fā)病相關的基因。在此,我們主要就易感基因的搜尋與定位策略進行探討。
復雜疾病的遺傳學研究是一個十分艱難而繁瑣的過程,人們曾經開發(fā)出許多的研究方法來進行研究分析,其中,經典的研究方法主要包括連鎖分析、關聯分析以及傳統(tǒng)的候選基因研究。
3.1.1 基于家系的連鎖分析同一染色體上不同的基因之間互相連鎖,在遺傳的過程中,距離越近的兩個基因的連鎖就越緊密。連鎖分析正是基于這一基本原理,利用致病基因與標記基因互相連鎖,通過基因分型與數學計算,檢測標記基因與復雜疾病的表型之間是否存在共分離現象,就能把該基因定位于某一染色體的某一特定部位[14-15]。連鎖分析一般可分為參數連鎖分析法與非參數連鎖分析法。這一方法的應用使經典的連鎖理論得到了發(fā)揚,為基因定位提供了大量的幫助。
然而,連鎖分析在應用于復雜疾病研究的同時,也存在一定的弊端。首先,因其是基于家系的研究,所以我們需要在前期收集大量的家系資料,而家系資料的收集往往需要耗費大量的時間與人力、精力。其次,這種連鎖分析方式的定位并不夠精細,該方法往往只能定位基因組內大約20~30 cm的區(qū)域,而其中可能存在著成百上千個基因。此外,此方法對于高效基因有較好的檢出率,但是對于中效和微效的基因則難以檢出。最后,連鎖分析的方法對于孟德爾遺傳病或主效基因所致疾病往往有很高的效能,而對于多基因的復雜疾病往往顯得有些力不從心。所以,在很大程度上連鎖分析正逐漸被全基因組關聯研究所取代,然而,隨著近些年全基因測序技術的應用,連鎖分析又成為了一種重要而有力的復雜疾病病因分析方法[16]。3.1.2 候選基因關聯分析候選基因關聯分析曾是人類研究復雜疾病的主要策略,此方法在最近幾十年的研究中可謂是喜憂參半[17],然而一直到目前為止,其依舊在復雜疾病的研究中扮演者不可或缺的角色。候選基因關聯分析是基于連鎖不平衡的原理,在候選基因附近選擇遺傳標記,通過觀察兩基因的連鎖不平衡,來比較患者與正常人遺傳標記的等位基因頻率并計算相對危險度(relative risk),從而確定與疾病發(fā)病相關的致病基因并將其定位,其本質上屬于病例對照研究。
此方法基于比較非血緣關系的患病人群與非患病人群的等位基因出現頻率差異,所以相較于連鎖分析來說,并不需要耗費大量的時間與精力收集家系資料。候選基因關聯研究,不但可以檢出主效基因,而且對于次效基因也有一定的檢出率,并且其對基因的定位通常比連鎖分析更加精確,定位區(qū)域在1~10 cm之間,所以相比較連鎖分析而言,它更適合用于復雜疾病的研究[18-19]。然而此方法也常常會因為樣本量的不足而造成結果的偏倚,有假陽性存在的可能。另外,在候選關聯分析時需要大量的分子標記,這也在一定程度上加大了疾病研究的難度。同時由于群體分層現象的存在,所以在研究方案設計時需要特別注重病例組與對照組的互相匹配問題,以減少不同人群、地理和社會背景等因素對結果的影響[20]。
3.1.3 基于疾病生化代謝機制的單一候選基因研究早期人們在研究復雜疾病的時候往往是通過生化代謝通路來進行研究的。這要求研究者掌握與疾病相關的生化代謝途徑,從眾多基因中選擇一個可能與疾病的發(fā)生相關的候選基因,通過連鎖分析與關聯研究,從而得出該基因與復雜疾病的發(fā)生是否有關[21]。
這種方法簡單易行,操作簡單,但是它又存在一定的局限性。比如,在候選基因的選取上往往具有盲目性,并且它對研究者的醫(yī)學知識水平要求較高,需要掌握大量的生化代謝知識,所以此方法已經很少應用于復雜疾病的遺傳研究。
自從進入了21世紀,計算機技術飛速發(fā)展,隨著兩大國際性研究計劃的順利完成,高通量芯片的發(fā)展,基因測序技術的成熟與推廣,不斷催生出新的復雜疾病遺傳學研究方法。單體型分析與全基因組關聯分析就是其中被寄予厚望的兩種方法。
3.2.1 單體型分析隨著人類基因組計劃HGP的順利完成,科學家們發(fā)現任意兩個人的遺傳物質中只有0.1%的DNA序列不同。但正是這0.1%的不同導致了人們對于不同疾病的易患程度的不同[22-23],同時也為復雜疾病的遺傳學研究找到了前進的方向。
2002年,人類基因型單體型圖計劃的實施更是促進了單體型分析的發(fā)展。這項人類基因學上的又一重大國際性研究計劃,旨在繪制出人類基因上DNA變異的常見組合模式,為全世界的遺傳學研究提供支持和幫助[24]。隨著HapMap的實施,單體型分析也逐漸成為研究的熱點,其發(fā)展也推動著大規(guī)模的乃至全基因組的關聯分析。
我們通常把DNA序列上單個基因的突變發(fā)生率大于1%的變異稱為單核苷酸多態(tài)性(SNPs)。在世代遺傳的過程中,相鄰的SNPs通常以一個整體遺傳給后代,而這個“整體”通俗的講也就是所謂的單體型(haplotype)。單體型分析也正是以此為研究對象而開展的復雜疾病遺傳學研究方式。單體型分析方式的出現使人們打破了傳統(tǒng)的對于單個基因進行的研究,從而減少了遺傳分析的SNPs數量,為人類復雜疾病的遺傳學研究帶來的新曙光。由于SNPs具有數量多分布廣泛、適用于快速篩查、易于分型等優(yōu)點,目前SNPs已成為被寄予厚望的第三代遺傳標記。
自從SNPs的作用被獲得重視以來,人們對SNPs的研究方法進行了不斷的改進與探索,單體型分析的方式也被不斷創(chuàng)新[25-26]。通常,在進行單體型分析之前,我們首先要進行SNP的檢測與單體型的推斷。SNPs的檢測技術我們可以根據技術的發(fā)展劃分為傳統(tǒng)的SNP檢測與高通量SNP檢測[27]。傳統(tǒng)的檢測技術主要利用構象進行凝膠電泳,由于其無法實現自動化,而只能進行小規(guī)模的測試現已很少使用。相比之下,高通量檢測的準確性高、性價比強、檢測通量大周期短等特點則顯得尤為突出,所以高通量檢測被廣泛用于目前的科學與研究中。而對于單體型的推斷方法主要有實驗法、系譜推斷法與統(tǒng)計算法。但由于實驗法的低性價比[28]以及系譜推斷的家系限制,這些種種因素制約了他們的發(fā)展,目前多使用統(tǒng)計算法來進行單體型推斷。應用于單體型推斷的統(tǒng)計算法主要有Clark算法、最大似然算法以及貝葉斯算法等。一旦經歷了SNP檢測與單體型推斷之后,單體型分析就會得心應手。我們既可以運用混合模型進行單體型與性狀之間的分析,也可以采用病例對照方式進行χ2檢驗而分析得出結果,甚至還可以利用家系采取連鎖不平衡檢驗進行關聯分析[29]。
單體型分析研究的是某一區(qū)域內某一組相關的SNP位點,從某種程度上來講,這一研究方法恰好與微效位點累加理論相一致[5]。同時大量的實驗和研究證實,基于單體型的研究通常比基于單個位點的研究會更加有效[30-31]。所以,在今后的復雜疾病研究中單體型分析將會繼續(xù)成為研究的熱點。
3.2.2 全基因組關聯分析全基因組關聯分析(Genome-Wide Association Studies,GWAS)自從產生以來就被人們寄予厚望并高度評價,其曾在2011年被Nature評為“重大發(fā)現與科學事件”。早在人類基因組計劃還沒有完成、測序還是一門昂貴技術的1996年,就曾有人在《Science》上預測,GWAS可以用于復雜疾病的研究[32]。隨著研究人員對基因組學研究的深入、HapMap和千人基因組計劃的順利完成以及高通量芯片測序技術的成熟,GWAS蓬勃發(fā)展并被廣泛應用到復雜疾病的研究,從2005年第一篇有關GWAS的研究成果被發(fā)表[33]到2009年安徽醫(yī)科大學張學軍團隊發(fā)表的中國第一篇有關GWAS成果的論文[13],再到如今,雖然僅僅過去了15年的時間,但是GWAS的發(fā)展速度卻超乎人們想象。無論是發(fā)表的有關GWAS的論文數量還是利用GWAS所發(fā)現的易感位點數量都成指數式增長,截至2018年12月,美國NIH全基因組關聯研究權威數據庫已經收錄了覆蓋1995個人類復雜疾病或性狀的3 675篇論文,包含SNPs 68 289個[34]。
全基因組關聯分析主要基于“常見疾病—常見變異假說”,原理與候選基因關聯分析基本一致。它是運用病例對照研究方式,在全基因組層面上對疾病與基因進行關聯研究,通過比較病例組與對照組之間標記基因的差異,統(tǒng)計分析并挑選出最相關的遺傳變異,從而尋找出與疾病發(fā)病相關的基因,全面研究疾病的發(fā)生、發(fā)展與預防[35-36]??梢哉f全基因組關聯研究不論是在國內[37-38]還是在國際上都取得了前所未有的進步。
單核苷酸多態(tài)性(SNP)與拷貝數變異(CNV)是人類表型變異的兩個重要來源,全基因組關聯研究正是基于這兩個變異,并選取它們作為主要研究對象。以往,人們大多集中于對SNP的研究,隨著近些年來人們對CNV重要性認識的逐漸加深[39],對拷貝數變異的研究激起了醫(yī)學界的廣泛興趣[40-41]。而根據研究設計類型,目前GWAS可以分為單階段研究與兩個階段研究。單階段研究即一次性的選取足夠大的樣本量,在所有研究對象中選取SNP進行分型,從而分析出其與疾病的關聯。兩個階段則是現如今被廣泛采用的方法[42],首先第一個階段是以個體為單位篩選出少量的陽性SNP,然后在第二個階段擴大樣本量對篩選出的SNP進行分析研究,從而得出與復雜疾病發(fā)病相關的基因型組合[43]。二者各有優(yōu)缺點,單階段研究雖然研究方式較為復雜且耗資巨大,但是誤差相對較?。?4-45]。GWAS在進行遺傳統(tǒng)計分析時,往往需要對主要混雜因素進行l(wèi)ogistic回歸分析以減少混雜影響,同時需要運用χ2檢驗來分析每個SNP差別。
任何一種方法都不能做到完全消除誤差帶來的影響,GWAS同樣也不例外。群體分層與多重假設檢驗調整是造成其誤差的主要原因。群體分層可能會導致結果中出現大量的假陽性與假陰性,而如果基于家系進行研究則可能會減少這一誤差。多重假設檢驗同樣也會對結果產生影響,如果采用寬松的多重假設檢驗方法,則可能會導致結果出現大量假陽性,而如果使用嚴格的Bonferroni校正,則可能會出現矯枉過正,使結果出現大量的假陰性[46-47]。所以GWAS研究不能僅僅通過P值判斷SNP是否與疾病有關聯,而應通過大樣本多群體的重復驗證,才能提高結果的準確性。
GWAS方法本身存在著眾多的優(yōu)點與不足[48],同時也正是因此才促進了GWAS的迅速發(fā)展。回顧多年來的發(fā)展歷史,我們不難發(fā)現,運用GWAS,我們取得了許多可喜的成果,比如發(fā)現了眾多與疾病發(fā)病相關的遺傳位點,但因其主要是基于“常見疾病—常見變異”,所以在研究的過程中常常會忽略掉一些罕見變異。為了彌補這方面的不足,科學家們拓展出許多新的方法,不斷開闊研究領域,比如表觀基因學研究、基因型填補研究等方法的應用都為準確揭示復雜疾病發(fā)病機理提供了幫助。目前的GWAS研究已經不僅僅滿足于尋找遺傳位點,科學家們已經利用生物信息對GWAS資料進行分析,以期發(fā)現感染途徑等。除此之外,我們已經將GWAS的研究成果進行了各種臨床轉化,如對疾病的風險進行預測[49]、對藥物的臨床應用進行指導[50]、藥物開發(fā)等[51-52]方面。如今,隨著基因芯片、隊列大小、生物信息庫的發(fā)展,GWAS也正面臨著數據管理、質量控制、研究設計[53]、疾病風險評估、個體化治療等[54]眾多方面的前所未有的挑戰(zhàn)[55],相信未來GWAS還會有更長的路要走,GWAS也將會應用于多方位、多角度、多領域的研究。
站在生命科學飛速發(fā)展的快車道上,我們不難發(fā)現,復雜疾病的遺傳學研究前景廣闊,但同時也面臨著前所未有的機遇與挑戰(zhàn)[56]。未來,我們必將打破各種研究策略所帶來的局限,綜合運用各種方法,為尋求復雜疾病發(fā)病機制不斷前進。同時,我們也需要綜合各個學科的優(yōu)勢,復雜疾病之所以復雜,在于其不只受基因的影響,同時還受環(huán)境包括內在和外在等多種因素的影響,所以多學科合作研究將會是復雜疾病研究的必經之路。在復雜疾病的研究過程中,我們往往過于注重理論的研究,而忽略了與臨床結合,這一問題在我國顯得尤為嚴重,所以提高成果轉化,使遺傳學研究成果與臨床結合得更加緊密,是復雜疾病遺傳學研究走出困境的重要途經。
隨著人們對復雜疾病的研究更加深入,對復雜疾病的發(fā)病機理的理解更加透徹,我們對疾病的預防與治療將更加系統(tǒng)。在未來,復雜疾病的遺傳學研究將會大力推動基因診斷的發(fā)展,個體化治療與藥物基因組學也將會被應用與臨床實踐。通往科學研究的道路上沒有所謂的一馬平川,唯有我們一路披荊斬棘乘風破浪,才能抵達成功的彼岸。