李超
摘 要:人類染色體結(jié)構(gòu)變異是多種疾病產(chǎn)生的根源,研究人體中結(jié)構(gòu)變異對(duì)癌癥和相關(guān)基因疾病的治療具有十分重要的意義。本文介紹了人類染色體結(jié)構(gòu)變異的主要情況,總結(jié)了目前已有的性能優(yōu)良的結(jié)構(gòu)變異檢測(cè)方法,并分析了結(jié)構(gòu)變異研究所面臨的主要挑戰(zhàn)。
關(guān)鍵詞:染色體;結(jié)構(gòu)變異;檢測(cè)
中圖分類號(hào):Q343.2,S565.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2017)10-0188-02
1 染色體結(jié)構(gòu)變異
1.1 染色體結(jié)構(gòu)變異簡(jiǎn)介
染色體的結(jié)構(gòu)變異 (Genomic structural variants, SVs),是人類基因變異的一個(gè)主要來(lái)源[1],同時(shí)結(jié)構(gòu)變異也是一些常見(jiàn)疾病產(chǎn)生的主要原因。雖然基因組中的結(jié)構(gòu)變異并不如單核苷酸多態(tài)(single nucleotide polymorphisms, SNPs)[2]更加常見(jiàn),但是由于它比起SNPs有更大的尺寸及更復(fù)雜的結(jié)構(gòu),使其在染色體組的變異中扮演著更重要的角色。
結(jié)構(gòu)變異的類型主要包括兩類,一類是不改變基因片段拷貝數(shù)目的平衡性結(jié)構(gòu)變異(balanced structural variation),另一類是改變基因片段拷貝數(shù)目的非平衡性結(jié)構(gòu)變異(unbalanced structural variation)[3]?;绢愋偷慕Y(jié)構(gòu)變異主要包括刪除(deletions)、插入(Insertion)、倒位(Inversions)、易位(Translocations)、隨即復(fù)制(Duplications)和拷貝數(shù)變異(Copy-Number Variants)[4]?;谶@幾種基本類型的結(jié)構(gòu)變異,在實(shí)際情況中會(huì)出現(xiàn)一個(gè)變異包含多種基本類型變異的情況,例如倒位易位,甚至更復(fù)雜的情況。通常情況下,一個(gè)結(jié)構(gòu)變異在序列中的長(zhǎng)度約為1Kb到3Mb。
1.2 染色體結(jié)構(gòu)變異與疾病的關(guān)系
結(jié)構(gòu)變異和某些基因疾病的產(chǎn)生具有緊密相關(guān)的聯(lián)系。結(jié)構(gòu)變異存在于不同個(gè)體之間,可引起個(gè)體之間的表型差異[5],例如外貌、行為、環(huán)境適應(yīng)性等[6]。同一個(gè)體不同細(xì)胞間的結(jié)構(gòu)變異的類型及數(shù)目也存在差異,這些結(jié)構(gòu)變異可能直接或間接的影響某些關(guān)鍵基因的表達(dá),從而導(dǎo)致癌癥、21-三體綜合征(唐氏綜合征)[7]、貓叫綜合性征[8]和一些精神類疾病的產(chǎn)生。
隨著對(duì)癌癥研究的不斷深入,人們已經(jīng)意識(shí)到在癌癥的形成和發(fā)展過(guò)程中,結(jié)構(gòu)變異起到舉足輕重的作用。當(dāng)人體染色體中的某些關(guān)鍵基因發(fā)生突變時(shí),細(xì)胞的生成速度會(huì)大于細(xì)胞的凋亡速度,進(jìn)而細(xì)胞群落不斷擴(kuò)大,導(dǎo)致患者體內(nèi)的腫瘤逐漸形成,病情進(jìn)一步惡化,形成癌癥。如果能夠把癌癥患者體內(nèi)的變異基因識(shí)別清楚,這將對(duì)癌癥的治療具有很重要的作用。目前,導(dǎo)致癌癥的典型原癌基因和抑癌基因已經(jīng)識(shí)別的比較全面。但由于檢測(cè)方法的限制,必定還有一些與癌癥的產(chǎn)生關(guān)系很大的基因未被識(shí)別出來(lái),對(duì)這類基因的識(shí)別依然有很重要的意義。
2 染色體結(jié)構(gòu)變異的檢測(cè)
2.1 檢測(cè)染色體結(jié)構(gòu)變異的重要意義
對(duì)基因測(cè)序數(shù)據(jù)中結(jié)構(gòu)變異的檢測(cè)是對(duì)結(jié)構(gòu)變異進(jìn)行研究的一項(xiàng)重要內(nèi)容。高通量測(cè)序技術(shù)的引進(jìn),對(duì)于生殖細(xì)胞和體細(xì)胞中結(jié)構(gòu)變異的檢測(cè)起到了巨大的推動(dòng)作用。目前已有許多種基于不同統(tǒng)計(jì)方法所開(kāi)發(fā)的結(jié)構(gòu)變異檢測(cè)方法,這些方法主要包括以下幾種類型:通過(guò)分析讀片的覆蓋度來(lái)檢測(cè)結(jié)構(gòu)變異的方法稱之為讀深度分析(read-depth analysis)[9];通過(guò)分析高通量測(cè)序數(shù)據(jù)中不正常的映射對(duì)(mapping pairs)的檢測(cè)方法稱為雙末端映射方法(paired-end mapping methods)[10];通過(guò)分析斷點(diǎn)類型及斷點(diǎn)區(qū)間的方法稱之為split-read分析。識(shí)別結(jié)構(gòu)變異需要將讀片與參考序列進(jìn)行比對(duì),根據(jù)比對(duì)信息,提取異常測(cè)序片段對(duì)(discordant read pairs)[11],并對(duì)其聚類,根據(jù)聚類結(jié)果判斷基因組上的結(jié)構(gòu)變異類型,進(jìn)而識(shí)別出結(jié)構(gòu)變異的斷點(diǎn)連接點(diǎn)(breakpoint)即間斷點(diǎn)。對(duì)高通量測(cè)序平臺(tái)產(chǎn)生的原始數(shù)據(jù)重建待檢序列,理論上可以用于檢測(cè)任何結(jié)構(gòu)變異類型,但是由于基因組中存在著大量的重復(fù)區(qū)域,這使得在序列組裝過(guò)程中很難確定測(cè)序讀片在基因組上的準(zhǔn)確位置。同時(shí),由于測(cè)序錯(cuò)誤的存在以及基因組結(jié)構(gòu)的復(fù)雜性,從而加大了結(jié)構(gòu)變異檢測(cè)的困難。針對(duì)一個(gè)樣本,所用的模型不僅需要將識(shí)別出的體細(xì)胞基因組結(jié)構(gòu)變異個(gè)數(shù)控制在幾十個(gè)或者幾百個(gè),而且還要給出每個(gè)結(jié)構(gòu)變異發(fā)生的概率值,這為癌癥早期發(fā)現(xiàn)以及診斷治療提供了一個(gè)重要的參考對(duì)象。此外,大量的檢測(cè)結(jié)果表明,對(duì)于不同類型的癌癥以及同一種癌癥的不同樣本,每種結(jié)構(gòu)變異的類型所占比重不同。如何分析并解釋腫瘤異質(zhì)性,就要對(duì)癌癥樣本中的結(jié)構(gòu)變異進(jìn)行識(shí)別,進(jìn)而可以對(duì)癌癥病人進(jìn)行靶向用藥,促進(jìn)精準(zhǔn)醫(yī)療的發(fā)展[12]。
2.2 結(jié)構(gòu)變異的檢測(cè)方法
結(jié)構(gòu)變異檢測(cè)方法性能的優(yōu)劣主要用敏感性和精確性兩個(gè)值來(lái)衡量,而敏感性和精確性在一定程度上又是兩個(gè)相互對(duì)立的概念,這就使得敏感性和精確性俱佳的方法難以得到。我們只能在盡量保證精確性的前提下提高檢測(cè)方法的敏感性,這就要求我們盡量多的結(jié)合已經(jīng)得到的序列比對(duì)信息,并且運(yùn)用與堿基的分布相貼合的分布模型,來(lái)統(tǒng)計(jì)已知信息,得到更可靠的結(jié)構(gòu)變異位點(diǎn)?,F(xiàn)在的結(jié)構(gòu)變異檢測(cè)方法中,有的結(jié)合信息不夠,從而導(dǎo)致檢測(cè)方法的精確性不高,有的檢測(cè)方法所用的概率分布與實(shí)際情況出入較大,這就會(huì)對(duì)檢測(cè)結(jié)果的敏感性和精確性都造成較大的不利影響。表1中總結(jié)了目前已經(jīng)發(fā)布并且應(yīng)用比較廣的四種檢測(cè)結(jié)構(gòu)變異的軟件,并且對(duì)他們的性能特點(diǎn)做了簡(jiǎn)要的概述。
除了上述的四種檢測(cè)結(jié)構(gòu)變異的軟件之外,還有很多與之相似的軟件,例如:Pindel,GASV,HYDRA,Swan等。值得注意的是,由于不同的軟件各有自己不同的特點(diǎn),所以在進(jìn)行結(jié)構(gòu)變異檢測(cè)的時(shí)候,要根據(jù)測(cè)序數(shù)據(jù)的實(shí)際情況,選用合適的軟件進(jìn)行檢測(cè)。
3 結(jié)語(yǔ)
染色體中結(jié)構(gòu)變異的研究,對(duì)各種基因疾病尤其是癌癥的治療具有十分重要的意義。結(jié)構(gòu)變異研究的一項(xiàng)重要內(nèi)容是對(duì)其進(jìn)行檢測(cè)。目前已有一些優(yōu)秀的檢測(cè)方法和軟件,它們都有各自的優(yōu)點(diǎn),但也存在很多不足。建立敏感度和精確度俱佳的結(jié)構(gòu)變異檢測(cè)方法,是當(dāng)前結(jié)構(gòu)變異研究的一項(xiàng)重要內(nèi)容。
參考文獻(xiàn)
[1]G. R. Abecasis,D. Altshuler,A. Auton等. A map of human genome variation from population-scale sequencing[J]. Nature,2010, 467(7319):1061-1073.
[2]G. H. Roffler,S. J. Amish,S. Smith等. SNP discovery in candidate adaptive genes using exon capture in a free-ranging alpine ungulate[J]. Mol Ecol Resour,2016, 16(5):1147-1164.
[3]R. M. Layer,C. Chiang,A. R. Quinlan等.LUMPY: a probabilistic framework for structural variant discovery[J]. Genome Biol,2014,15(6):R84.
[4]H. Parikh,M. Mohiyuddin,H. Y. Lam等. svclassify: a method to establish benchmark structural variant calls[J]. BMC Genomics,2016, 17:64.
[5]龔強(qiáng). 基因組變異的深度挖掘[M]:中國(guó)科學(xué)院北京基因組研究所,2013. 135.
[6]P. H. Sudmant,T. Rausch,E. J. Gardner等. An integrated map of structural variation in 2,504 human genomes[J]. Nature,2015, 526(7571):75-81.
[7]李沖.唐氏綜合癥外周血表達(dá)譜分析和21號(hào)染色體DNA甲基化譜分析[M].復(fù)旦大學(xué),2012. 150.
[8]周煥庚,康雪珍,張蒨蒨.貓叫綜合癥的細(xì)胞遺傳學(xué)研究[J].遺傳學(xué)報(bào),1982(01):20-23.
[9]K. Chen,J. W. Wallis,M. D. McLellan等. BreakDancer: an algorithm for high-resolution mapping of genomic structural variation[J]. Nat Methods,2009, 6(9):677-681.
[10]A. Abyzov,M. Gerstein. AGE: defining breakpoints of genomic structural variants at single-nucleotide resolution, through optimal alignments with gap excision[J]. Bioinformatics,2011, 27(5):595-603.
[11]H. Li,B. Handsaker,A. Wysoker等. The Sequence Alignment/Map format and SAMtools[J]. Bioinformatics,2009, 25(16):2078-2079
[12]劉軍蘭,姜軍.精準(zhǔn)醫(yī)學(xué)的新計(jì)劃[J].中華乳腺病雜志(電子版),2016(02):124-125