徐倩南 ,張佳怡 ,李成濤 ,劉希玲
(1.四川大學(xué)華西基礎(chǔ)醫(yī)學(xué)與法醫(yī)學(xué)院,四川 成都 610041;2.司法鑒定科學(xué)研究院 上海市法醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室 司法部司法鑒定重點(diǎn)實(shí)驗(yàn)室 上海市司法鑒定專業(yè)技術(shù)服務(wù)平臺,上海 200063;3.內(nèi)蒙古醫(yī)科大學(xué)法醫(yī)學(xué)教研室,內(nèi)蒙古 呼和浩特 010030)
在司法鑒定實(shí)踐中,已有多種生物學(xué)遺傳標(biāo)記應(yīng)用于個體識別及親權(quán)鑒定,如短串聯(lián)重復(fù)(short tandem repeat,STR)序列、單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)和插入/缺失(insertion/deletion,InDel)等,上述遺傳標(biāo)記已經(jīng)擁有相對成熟的檢測系統(tǒng)和計(jì)算方法。隨著法醫(yī)學(xué)研究的逐步深入,出現(xiàn)了一些新型的有潛在應(yīng)用價值的遺傳學(xué)標(biāo)記,如拷貝數(shù)變異(copy number variation,CNV)、DNA甲基化(DNA methylation)等。其中,CNV因其基因組覆蓋范圍廣泛,在人群中普遍存在,具有相對穩(wěn)定性等特點(diǎn),已被越來越多的科學(xué)家關(guān)注。本文對CNV概念和近年來的研究發(fā)展及其在法醫(yī)學(xué)中的應(yīng)用進(jìn)行闡述,為今后CNV的實(shí)際應(yīng)用提供新的思路與方向。
1936年,美國科學(xué)家BRIDGES[1]在一項(xiàng)關(guān)于果蠅眼睛大小的研究中發(fā)現(xiàn),X染色體上Bar基因加倍的果蠅會發(fā)育出小眼相對較少的棒眼(也稱為Bar eye)突變型,從而提出了基因拷貝數(shù)變異的概念,并推測其導(dǎo)致的基因不同劑量效應(yīng)對果蠅眼睛大小發(fā)育的影響。進(jìn)入80年代后,發(fā)現(xiàn)人類基因組上存在多種類型的結(jié)構(gòu)變異,這些結(jié)構(gòu)變異對疾病發(fā)生發(fā)展的影響也相繼被報道[2-5]。例如,1980年HIGGS等[2]研究發(fā)現(xiàn),α-globin基因拷貝數(shù)異常增加將導(dǎo)致β-地中海貧血(β-thalassemia)。隨后十幾年,在紅綠色盲(redgreen color blindness)[3]、糖皮質(zhì)激素可治性醛固酮增多癥(glucocorticoid-remediable aldosteronism)[4]以及阿爾茨海默?。ˋlzheimer disease)[5]等多種疾病的研究中也發(fā)現(xiàn)了基因拷貝數(shù)變異對疾病發(fā)生的影響。
早在十幾年前,隨著人類基因組圖譜的公布以及基因組測序技術(shù)的發(fā)展,科學(xué)家開始認(rèn)識到在人類基因組水平上廣泛存在著這一類拷貝數(shù)的變異。2004年,IAFRATE等[6]和SEBAT等[7]幾乎同期的兩項(xiàng)研究在人類基因組中描述了這一結(jié)構(gòu)變異并將其定義為CNV。CNV是一種長度從50bp到數(shù)Mb的DNA片段拷貝數(shù)的變異。CNV屬于結(jié)構(gòu)變異的一種,其組成形式呈現(xiàn)多樣化,主要包括DNA片段的擴(kuò)增、缺失、插入以及倒置等[8]。CNV還常涉及增加或減少DNA含量的不平衡重排[9-10]。
CNV的形成被認(rèn)為主要來源于同源突變和非同源突變[11]。研究[12]發(fā)現(xiàn),由同源突變機(jī)制形成的CNV常存在于重復(fù)序列區(qū)域附近且片段較大,而非同源突變機(jī)制形成的CNV則呈現(xiàn)相反的情況,即片段小且距離重復(fù)序列區(qū)域遠(yuǎn)。由于CNV計(jì)算預(yù)測算法以及測序的局限,存在于重復(fù)序列區(qū)域附近的CNV片段邊界的界定和確認(rèn)顯得更為困難[13]。
2006年,REDON等[9]基于HapMap的人群數(shù)據(jù)公布了人類基因組第一代CNV圖譜,其中包含1 447個CNV區(qū)域,覆蓋了人類基因組的12%。隨后幾年的研究集中在對人類CNV圖譜的優(yōu)化以及對其潛在功能的推測。2007年,MCCARROLL等[14]利用更高密度SNP芯片(affymetrix genome-wide human SNP array 6.0)對HapMap中270名健康個體的重新分析表明,CNV在人類基因組上覆蓋的物理長度可能小于REDON等[9]的前期報道,其中大片段的CNV(大于50kb)影響了約5%的基因組序列。研究同時還指出,CNV在形成過程中,擴(kuò)增比缺失更為常見,這種現(xiàn)象的發(fā)生可能與大片段缺失對后代的生存造成更嚴(yán)重的影響相關(guān)。此外,他們在染色體上的分布被發(fā)現(xiàn)主要集中在近著絲粒和亞端粒等區(qū)域。這項(xiàng)研究還揭示了大部分CNV遵循孟德爾遺傳定律,在人群之間的傳遞也符合Hardy-Weinberg平衡定律。該項(xiàng)研究參照SNP的定義,將群體中頻率高于1%的CNV定義為拷貝數(shù)多態(tài)性(copy number polymorphism,CNP),90%以上的CNV歸為此類;群體中頻率小于1%的CNV定義為罕見CNV。與SNP相似的是,一些CNV的頻率在不同人群中具有顯著差異[9,14]。同年,SCHERER 等[15]從少于1 000個健康個體的基因組數(shù)據(jù)中發(fā)現(xiàn)CNV約占538 Mb,覆蓋了約18.8%的常染色體基因組。de SMITH等[16]通過高分辨率芯片技術(shù)在50個來自法國的健康白人男性中鑒定出2 208個CNV,這些CNV分布在1469個區(qū)域,被定義為拷貝數(shù)變異區(qū)域(copy number variation region,CNVR),其中包含721個新的CNVR。這些CNV大多數(shù)為小片段,并且大多數(shù)擁有共同的邊界范圍。該項(xiàng)研究還發(fā)現(xiàn)了2570個具有重要生物學(xué)意義的基因與這些CNV中接近一半的區(qū)域密切相關(guān),從而提示CNV可能與個體表型的改變以及復(fù)雜疾病的發(fā)生相關(guān)。2010年,CONRAD等[17]聯(lián)合多國研究團(tuán)隊(duì)利用芯片技術(shù)和HapMap計(jì)劃中的樣本在人類基因組中鑒定出了11700個CNV并識別了30個與疾病易感性密切相關(guān)的CNV區(qū)域。2011年,借助千人基因組計(jì)劃中的185個個體的基因組數(shù)據(jù),MILLS等[18]在人類基因組中鑒定出了超過2萬個CNV,其中包括6000個新的CNV。這項(xiàng)研究還揭示了來自不同形成機(jī)制的CNV在片段上存在明顯差異。
CNV覆蓋范圍的差異可能與不同檢測方法、研究對象數(shù)量差異以及研究對象本身個體存在的差異密切相關(guān)。盡管在人類基因組上被報道的CNV個數(shù)遠(yuǎn)遠(yuǎn)小于SNP的個數(shù),但上述研究顯示他們在染色體上覆蓋的長度至少達(dá)到上百M(fèi)b,這遠(yuǎn)遠(yuǎn)大于SNP所占染色體的長度,提示CNV在遺傳多樣性和進(jìn)化中的重要作用。總體來說,CNV具有組成形式多樣化、基因組覆蓋范圍廣、相對穩(wěn)定性、高度異質(zhì)性以及可遺傳性等特征。所有這些關(guān)于CNV圖譜的研究使人們對CNV的認(rèn)識越來越深刻,也為今后研究CNV對個體表型和疾病發(fā)生發(fā)展以及在其他領(lǐng)域的作用提供了重要基礎(chǔ)。
自20世紀(jì)80年代開始,大量研究發(fā)現(xiàn)CNV可通過調(diào)節(jié)不同劑量基因含量從而導(dǎo)致不同程度的基因表達(dá)差異,進(jìn)一步對疾病發(fā)生發(fā)展產(chǎn)生影響[2-5]。進(jìn)入21世紀(jì)以來,基于高通量芯片技術(shù)的全基因組關(guān)聯(lián)分析也顯示,CNV與多種疾病的發(fā)生發(fā)展密切相關(guān)[19],包括自閉癥[20-21]、精神分裂癥[22-24]、骨質(zhì)疏松癥[25]等。這類CNV全基因組關(guān)聯(lián)分析盡管可以提示CNV與相關(guān)疾病的潛在聯(lián)系,但并不能區(qū)分CNV是通過基因的劑量效應(yīng)還是通過改變?nèi)旧w結(jié)構(gòu)影響疾病發(fā)生發(fā)展的。2007年,STRANGER等[26]通過分析HapMap計(jì)劃中的DNA變異與基因表達(dá)的關(guān)系時發(fā)現(xiàn),在所檢測出的SNP中83.6%與基因表達(dá)密切相關(guān)。同樣,在所檢測出的CNV中17.7%與基因表達(dá)密切相關(guān),從而提示這些序列變異和結(jié)構(gòu)變異位點(diǎn)對個體表型的潛在影響。近年來,隨著染色體三維結(jié)構(gòu)檢測技術(shù)的發(fā)展,人們逐漸發(fā)現(xiàn)CNV在染色體位置上不僅造成了單純的線性改變,還影響了染色體的空間結(jié)構(gòu),進(jìn)而導(dǎo)致復(fù)雜的表型或基因型改變。由美國國立衛(wèi)生研究院(National Institutes of Health,NIH)資助的Roadmap Epigenomics計(jì)劃在研究基因組內(nèi)活躍區(qū)、靜止區(qū)和抑制區(qū)以及他們在基因調(diào)控中的作用過程中可以更加精準(zhǔn)地判斷CNV的存在對于個體的影響[27]。CNV可通過影響順式作用元件而調(diào)節(jié)距其遠(yuǎn)達(dá)幾百kb的基因,也可以通過改變?nèi)旧|(zhì)上的拓?fù)潢P(guān)聯(lián)區(qū)從而改變基因調(diào)控區(qū),并進(jìn)一步影響基因的轉(zhuǎn)錄和翻譯,使得其相應(yīng)的功能增加或喪失。這類研究中有一個值得注意的問題是CNV常與SNP相關(guān)聯(lián),因此后續(xù)研究需要進(jìn)一步區(qū)分到底是CNV還是SNP,或者是他們的共同作用影響了基因表達(dá)的調(diào)控[28-30]。
自首次發(fā)現(xiàn)CNV以來,關(guān)于CNV的檢測方法已日趨成熟,其中常用的檢測技術(shù)有SNP芯片技術(shù)和比較基因組雜交(comparative genomic hybridization,CGH)技術(shù)。王艷等[31]使用SNP芯片技術(shù)檢測了自閉癥兒童的CNV情況,對45例核型未見異常的患兒檢測后共發(fā)現(xiàn)了7個致病性CNV,包括4個微缺失和3個微重復(fù)。陳曉麗等[32]使用基于微陣列的比較基因組雜交(array-based comparative genomic hybridization,aCGH)方法檢測了智力低下或發(fā)育遲緩患兒中的CNV。以111例患兒基因組DNA為樣本,結(jié)果在28例中發(fā)現(xiàn)了36個罕見CNV,其中66.1%(22/36)為已報道過的CNV,由此指出aCGH在提高此類疾病的診斷水平上具有較大的幫助。2011年,PARK等[33]在高分辨率aCGH數(shù)據(jù)的基礎(chǔ)上發(fā)展出了一種可以同時檢測來自正常人群基因組多個樣本中CNV的方法,即基于多樣本的基因組變異探測器(multi-sample-based genomic variations detector,MGVD),與現(xiàn)有的檢測方法相比,MGVD表現(xiàn)出高敏感性和低假陽性率。除上述研究外,這兩項(xiàng)技術(shù)也在其他研究中被報道[34-36]。有報道[37]指出兩種方法的分辨率還有待提高,如美國Affymetrix公司和美國Illumina公司的高通量SNP芯片,其分辨率為10~40 kb,通過加入非多態(tài)性探針以檢測未被SNP覆蓋的存在CNV區(qū)域的方法可提高SNP芯片分辨率。而aCGH的分辨率為5~10 Mb,這使其檢測平衡的染色體重排和嵌入型個體時顯得無能為力,但是在使用公共領(lǐng)域的人類基因組計(jì)劃(Human Genome Project,HGP)中的數(shù)據(jù)資源分析aCGH數(shù)據(jù)后,其分辨率可以得到很大的提高。此外,隨著二代測序(next generation sequence,NGS)技術(shù)的發(fā)展,應(yīng)用NGS檢測CNV已具備相對完善的條件。2009年,XIE等[38]使用高通量測序的方法-拷貝數(shù)變異測序(copy number variation sequencing,CNV-seq)對CNV進(jìn)行檢測,CNV-seq是一種基于鳥槍法測序的技術(shù),以統(tǒng)計(jì)學(xué)模型為理論支撐計(jì)算所檢測的CNV的可信度。相對aCGH來說,CNV-seq具有測序時間短、費(fèi)用低的優(yōu)點(diǎn),檢測得到的數(shù)據(jù)可根據(jù)目的不同反復(fù)利用,而基于芯片技術(shù)所得到的數(shù)據(jù)則只能針對某一特殊用途。但基于短閱讀框的NGS對于含有重復(fù)序列的CNV片段檢測能力不足,而基于長閱讀框的NGS雖然可以解決此種問題,但價格昂貴[15]。
檢測技術(shù)的多樣化使得不同平臺之間的檢測結(jié)果可能產(chǎn)生差異。有報道[15]指出,即便是同一樣本,在不同平臺檢測時,也可能出現(xiàn)不同的結(jié)果,這與平臺的敏感性、特異性以及探針的密度和類型等相關(guān)。分辨率較低的平臺將導(dǎo)致大片段的CNV比小片段CNV更易被檢測到,從而丟失部分小片段CNV信息。因此,在使用這些技術(shù)進(jìn)行CNV檢測時,應(yīng)注意根據(jù)實(shí)驗(yàn)需求選取合適的檢測方法。
同卵雙生子是由一個受精卵分裂發(fā)育而成的雙胞胎,兩者理論上具有完全相同的基因組。因此,使用法醫(yī)學(xué)經(jīng)典的STR和SNP等遺傳標(biāo)記均不能對其進(jìn)行有效甄別,這使得尋找新的遺傳標(biāo)記用于甄別同卵雙生子顯得十分必要和迫切[39]。2000年,LIN等[40]發(fā)現(xiàn)CNV不僅在患病個體中存在,在健康個體中也同樣可能存在,其涉及的區(qū)域包括控制嗅覺感受器、主要組織相容性復(fù)合體Ⅲ、β防御素抗菌基因簇等基因家族或基因簇。2008年,BRUDER等[41]以19對同卵雙生子(包括10對健康同卵雙生子)作為研究對象,使用DíAZ de ST?HL等[42]確立的Human 32K BACBased Array Platform和HumanHap 300 Duo Genotyping Beadchip(美國Illumina公司)兩大芯片系統(tǒng)對外周靜脈血中DNA的CNV進(jìn)行檢測時,發(fā)現(xiàn)無論同卵雙生子表型是否一致,CNV均存在。這些研究表明,在健康的同卵雙生子個體中CNV依然存在,為基于CNV甄別同卵雙生子提供了理論基礎(chǔ)。近年來,以同卵雙生子作為研究對象進(jìn)行有關(guān)CNV的研究也越來越多。例如,2012年,VEENMA等[43]以同卵雙生子為研究對象研究CNV與先天性膈疝(congenital diaphragmatic hernia,CDH)和食管閉鎖(esophageal atresia,EA)兩種疾病的關(guān)系時,發(fā)現(xiàn)EA發(fā)病情況不同的同卵雙生子所攜帶的CNV也存在差異,數(shù)據(jù)還顯示,在EA組發(fā)現(xiàn)10個生殖細(xì)胞系CNV以及少量SNP位點(diǎn)。2015年,ABDELLAOUI等[34]從1 097對年齡分布在0~79歲的同卵雙生子的血液或口腔拭子所提取的DNA中共檢測到556個CNV,且發(fā)現(xiàn)來源不同的DNA中CNV的一致性存在顯著的差異。
這些研究揭示了同卵雙生子之間存在明顯的CNV差異。對于CNV是否可以作為甄別同卵雙生子的一個有效手段,還有待進(jìn)一步研究,比如比較不同人群中CNV的分布,CNV在不同組織以及不同環(huán)境下的穩(wěn)定性等。隨著高通量測序技術(shù)的發(fā)展以及相應(yīng)檢測工具的優(yōu)化,CNV的檢測方法也將日趨成熟,高精度掃描同卵雙生子全基因組序列并繪制同卵雙生子間的精細(xì)CNV圖譜將為評估CNV用于法醫(yī)學(xué)同卵雙生子甄別提供堅(jiān)實(shí)的技術(shù)保障。
近十年來,法醫(yī)學(xué)組織來源推斷多以RNA和DNA甲基化方面的研究居多[44-51]。但最近CNV也呈現(xiàn)出推斷組織來源的可能性,2015年,ABDELLAOUI等[34]在研究同卵雙生子之間CNV的同時也揭示了CNV在組織間的明顯差異。2018年,ZUBAKOV等[52]的一項(xiàng)研究提示了CNV存在識別不同組織來源的可能性。此項(xiàng)研究通過結(jié)合全基因組CNV檢測技術(shù)以及實(shí)時熒光定量聚合酶鏈反應(yīng)(real-time quantitative polymerase chain reaction,qPCR)驗(yàn)證技術(shù)篩選出一些血液和精液特異性CNV標(biāo)記。初步驗(yàn)證實(shí)驗(yàn)表明,對于低至pg級的DNA,成熟的qPCR實(shí)驗(yàn)依然能獲得陽性結(jié)果,這說明此項(xiàng)技術(shù)具有相當(dāng)高的靈敏度。后續(xù)研究將CNV qPCR產(chǎn)物用于常規(guī)STR分型時也得到了完整分型結(jié)果,這使得使用同一DNA樣本同時進(jìn)行組織來源判斷和個體識別成為可能。此外,這種CNV標(biāo)記對于陳舊檢材、冷凍檢材的組織鑒別也同樣適用,通常在這些情況下,由于DNA總量和質(zhì)量的限制,獲得的DNA提取物不適合使用RNA或DNA甲基化分析來判別組織來源。這項(xiàng)突破性研究為法醫(yī)學(xué)檢材組織溯源指明了新方向。
STR作為法醫(yī)學(xué)目前最為常用的生物學(xué)遺傳標(biāo)記,被認(rèn)為是進(jìn)行個體識別及親權(quán)鑒定的金標(biāo)準(zhǔn)。然而由于CNV普遍存在于人類基因組中,因此若存在缺失或插入的CNV序列包含有STR基因座,那么將直接對STR檢測結(jié)果產(chǎn)生影響,如在親權(quán)鑒定中,父方STR基因座由于包含在CNV序列中而形成缺失,那么子代相應(yīng)的STR基因座將呈現(xiàn)出完全來源于母方的純合現(xiàn)象[53]。因此研究CNV與STR之間具體的聯(lián)系是十分必要的。到目前為止,僅有2013年的1篇報道[54]研究了CNV與STR之間的聯(lián)系,他們分析了32 850個用于做診斷性aCGH的樣本,除采用aCGH外還使用了熒光原位雜交技術(shù),以此檢測CNV序列是否包含13個DNA聯(lián)合索引系統(tǒng)(combined DNA index system,CODIS)STR基因座和性別遺傳標(biāo)記(Amelogenin X,AMELX和Amelogenin Y,AMELY),結(jié)果發(fā)現(xiàn)32個樣本中含有常染色體STR的CNV序列,這些位于CNV序列中的常染色體STR分別是TPOX(2p25.3)、FGA(4q32.1)、D7S820(7q21.11)、TH01(11p15.5)、vWA(12p13.31)、D13S317(13q31.1)、D16S539(16q24.1)和D21S11(21q21.1),12個樣本含有AMELX或AMELY的CNV序列。此研究證實(shí)了在一些個體中部分STR基因座確實(shí)存在于CNV序列中,這將嚴(yán)重干擾其STR的成功分型,因此進(jìn)一步深入剖析STR基因座與CNV的關(guān)聯(lián)顯得尤為重要,這將為法醫(yī)學(xué)STR分型提供更有價值的參考信息。
CNV在法醫(yī)學(xué)中的研究多集中在同卵雙生子甄別方面的應(yīng)用上,近期的研究也提示了其作為新的DNA分子標(biāo)記應(yīng)用于法醫(yī)學(xué)生物檢材組織溯源以及人體表型特征識別[55]的優(yōu)勢和可能性。作為一種在不同個體、同一個體不同組織之間具有特異性并且可遺傳的DNA分子標(biāo)記,隨著高通量測序技術(shù)和計(jì)算分析技術(shù)的進(jìn)步,我們有理由相信會有更高精度的CNV在不同個體以及同一個體不同時空中被檢測到。今后,CNV在法醫(yī)學(xué)其他領(lǐng)域,如復(fù)雜親緣關(guān)系識別中的應(yīng)用,也有望通過更多后續(xù)研究被評估。