張雪艷,余浩洋,孫天琳,邱實,蔡延森,李靜
(四川大學(xué)生命科學(xué)學(xué)院,生物資源與生態(tài)環(huán)境教育部重點實驗室, 四川省瀕危野生動物保護(hù)生物學(xué)重點實驗室,成都610065)
轉(zhuǎn)座子(transposable elements,TEs)是靈長目Primates動物基因組的重要組成,對基因功能、基因表達(dá)調(diào)控和基因組進(jìn)化有重要影響(Feschotte,2008;Deininger,2011),根據(jù)序列結(jié)構(gòu)特征,可以分為短散在重復(fù)序列(short interspersed elements,SINEs)、長散在重復(fù)序列(long interspersed elements,LINEs)、長末端重復(fù)序列(long terminal repeat,LTR)和DNA元件(Deiningeretal.,2002;Wickeretal.,2007)。其中,Alu元件是靈長目動物特有的SINEs家族,也是靈長目基因組中進(jìn)化最成功、數(shù)量最多的TEs,在人類基因組中超過100萬個拷貝,占10.6%以上(Landeretal.,2001)。完整的Alu元件長約300 bp,需要借助另一種逆轉(zhuǎn)座子L1編碼的酶,通過逆轉(zhuǎn)座作用在基因組中擴(kuò)增(Dewannieuxetal.,2003)。
基因組中絕大多數(shù)的Alu元件沒有轉(zhuǎn)座能力,只有少數(shù)source genes具有轉(zhuǎn)座活性,可以進(jìn)行自我復(fù)制,并插入到基因組的新位置(Deininger,2011)。這些source genes會隨著宿主基因組的進(jìn)化不斷積累突變,從而衍生出新的Alu亞家族。根據(jù)堿基突變,可將Alu分為3個主要的亞家族:最古老的AluJ、中間的AluS和最年輕的AluY(Batzer &Deininger,2002;Hanetal.,2007;Liuetal.,2009)。古老的Alu亞家族在靈長類物種分化前就存在于祖先基因組中,因此,在不同的物種中分布非常相似。而一些年輕的Alu元件在基因組中插入時間較短,尚未在基因組中固定下來,因而在不同物種間呈現(xiàn)出插入/缺失的狀態(tài)(Deininger,2002)。研究Alu元件在不同靈長目動物基因組中的插入/缺失多態(tài)性,有助于闡明它們對靈長目基因組多樣性的影響。
猴科Cercopithecidae即舊世界猴,是物種最豐富的靈長目類群,分為獼猴亞科Cercopithecinae和疣猴亞科Colobinae,它們在大約15百萬年前由共同祖先分化而來(Perelmanetal.,2011;Pozzietal.,2014)。東非狒狒Papioanubis、獼猴Macacamulatta和綠猴Chlorocebussabaeus屬于獼猴亞科,其中,東非狒狒主要分布于非洲,是狒狒屬Papio中分布最廣的一種;獼猴是獼猴屬Macaca代表動物,是生物醫(yī)學(xué)領(lǐng)域常用的模式動物(Hanetal.,2007);綠猴在西非國家?guī)缀醵加蟹植迹脖粡V泛應(yīng)用于生物醫(yī)學(xué)研究(Tchitcheketal.,2012)。長鼻猴Nasalislarvatus屬于疣猴亞科,僅分布于亞洲東南部的加里曼丹島,被世界自然保護(hù)聯(lián)盟(IUCN)列為瀕危(EN)物種(Meijaandetal.,2008)。隨著高通量測序技術(shù)的迅速發(fā)展,這4種猴科動物的基因組序列都已公布,為全基因組水平的TEs研究奠定了基礎(chǔ)。盡管這些猴科動物基因組公布時已有關(guān)于TEs的數(shù)量、頻率等的分析,但它們在不同基因組之間的差異尚未揭示。本研究基于更新的Repbase數(shù)據(jù)庫對東非狒狒、獼猴、綠猴和長鼻猴基因組中的TEs進(jìn)行了重新注釋,并比較了TEs的組成和分布特征,著重分析了靈長類特有的Alu元件在不同舊世界猴基因組中的插入/缺失多態(tài)性,旨在揭示TEs對舊世界猴基因組多樣性和進(jìn)化的影響。
東非狒狒(GCF_000264685.2,2 724 327 674 bp)、獼猴(GCF_000772875.2,2 824 209 708 bp)、綠猴(GCF_000409795.2,2 503 700 750 bp)和長鼻猴(GCA_000772465.1,2 672 372 328 bp)的基因組序列下載于NCBI(http:/www.ncbi.nlm.nih.gov/)。
基因組公布時,不同研究者進(jìn)行重復(fù)序列注釋時所用的Repbase數(shù)據(jù)庫不一致,不利于挖掘物種間的差異。因此,本研究基于更新的Repbase數(shù)據(jù)庫,使用RepeatMasker(http://www.repeatmasker.org/)對東非狒狒、獼猴、綠猴和長鼻猴基因組的TEs進(jìn)行分析,RepeatMasker的使用參數(shù)設(shè)置為“-e crossmatch-Pa 8-nolow species primates-s-gff”,其他為默認(rèn)參數(shù)。將RepeatMasker的輸出結(jié)果按照不同TEs的亞家族名稱分為獨立的文件,用來分析不同TEs的長度、占基因組比例、拷貝數(shù)和分歧率。
通過基因組兩兩比較的方法,鑒定東非狒狒、獼猴、綠猴和長鼻猴基因組中存在的插入/缺失多態(tài)性的Alu逆轉(zhuǎn)座子,其方法如下:
提取長度大于250 bp的Alu逆轉(zhuǎn)座子及其上、下游各200 bp的側(cè)翼序列。使用Blat將提取的序列分別比對到其他3個物種的基因組上,參數(shù)minIdentity設(shè)為95,即序列的長度和序列相似度都大于95%的序列時,認(rèn)為這個位點是2個物種共有的位點。如果只有側(cè)翼序列的相似度達(dá)到95%以上,但中間存在1段長度約300 bp的序列缺失,那么這個位點可能是潛在多態(tài)性的。
根據(jù)Blat比對結(jié)果,提取這些潛在插入/缺失多態(tài)性的位點上、下游各200 bp的側(cè)翼序列,將側(cè)翼序列連接起來,重新比對到目標(biāo)基因組上,如果在該基因組上只能匹配到1個長度和序列相似度都大于95%的片段,則該位點為2個基因組上具有插入/缺失多態(tài)性的位點。
將基因組兩兩比較篩選的插入/缺失多態(tài)性的位點做韋恩圖,找出在1個基因組中插入而在其他3個基因組中都缺失的位點,這樣的位點即成為該物種特有的插入位點。
東非狒狒、獼猴和綠猴基因組約47%(47.34%~47.96%)由TEs組成,而長鼻猴的僅36.12%(表1)。長鼻猴各種類型的TEs都明顯少于其他3個物種,這可能是由于其基因組是引導(dǎo)到獼猴染色體組裝的,其3條染色體(21、22和23號染色體)的TEs尚未包含在內(nèi)。LINEs是占比最高的TEs,在長鼻猴基因組中的占比為16.37%,在其他3個基因組中占比均超過20%;其次為SINEs和LTR元件;DNA元件占比最低。SINEs是拷貝數(shù)最豐富且平均分歧率最低的TEs。盡管長鼻猴的SINEs拷貝數(shù)最少,但其分歧率在4個基因組中卻最大。
4個基因組中,SINEs在分歧率為13%和30%左右存在2個峰,表明SINEs在這2個階段存在活躍的轉(zhuǎn)座活動。而LINEs、LTR和DNA元件都僅在分歧率為20%左右存在1個峰(圖1)。分歧率小于10%的TEs都來自SINEs和LINEs。此外,東非狒狒和獼猴TEs的分歧率分布非常相似,尤其是分歧率<5%的TEs數(shù)量明顯多于綠猴和長鼻猴,其中主要是SINEs。
東非狒狒、獼猴、綠猴和長鼻猴基因組中分別鑒定出1 140 275個、1 179 668個、1 037 140個和764 499個Alu元件,占總SINEs的64.32%~68.85%。去除長度≤250 bp的Alu元件后,分別保留了887 182個、936 449個、812 029個和562 850個Alu元件,其中AluS的數(shù)量遠(yuǎn)多于AluJ和AluY家族(表2)。AluJ分為4個亞家族,其中,AluJb和AluJr較多;AluS包含17個亞家族,其中以AluSz、AluSx和AluSx1為主;AluY包含18個亞家族,其中AluY(未劃分到其他特定亞家族的AluY元件)和AluYRa1最豐富。4個基因組中,獼猴的Alu元件比其他3個物種多,東非狒狒在各亞家族組成和數(shù)量上都與獼猴類似,而長鼻猴基因組AluJ、AluS和AluY家族的拷貝數(shù)明顯少于其他3個物種。另外,4個物種在AluJ和AluS的組成和數(shù)量上的差異不大,而在AluY上有較大的差異。如東非狒狒和獼猴基因組中的AluY和AluYRa1數(shù)量遠(yuǎn)高于綠猴、長鼻猴,而綠猴基因組中的AluYRc0數(shù)量約為其他3個物種的2倍;長鼻猴基因組中的AluYRa2幾乎為其他3個物種的3倍(圖2)。
表1 東非狒狒、獼猴、綠猴和長鼻猴基因組中主要轉(zhuǎn)座子的分布概況Table 1 The distribution of major transposable elements in the genomes of Papio anubis,Macaca mulatta, Chlorocebus sabaeus and Nasalis larvatus
圖1 4個舊世界猴基因組中主要轉(zhuǎn)座子的分歧率Fig.1 Divergence rates of major transposable elements in the genomes of the 4 Old World monkey species
在東非狒狒基因組插入而在獼猴基因組同源位置無Alu插入的位點共20 231個,是4個基因組間多態(tài)性位點最多的。插入長鼻猴基因組而在其他任意一個基因組中缺失的位點數(shù)目均遠(yuǎn)低于其他3個基因組之間的多態(tài)性位點。東非狒狒與獼猴2個基因組間多態(tài)性位點數(shù)量大致相當(dāng);與之不同,插入東非狒狒和獼猴基因組,而在綠猴基因組缺失的位點分別有18 371個和17 684個。插入綠猴基因組而在東非狒狒和獼猴基因組中缺失的位點數(shù)僅有7 397個和7 646個(表3)。
表2 4個舊世界猴基因組中AluJ、AluS和AluY家族的拷貝數(shù)(長度≥250 bp)Table 2 The copy number of AluJ,AluS and AluY families with length of ≥ 250 bp in the genomes of 4 Old World monkey species
基于基因組間比對的結(jié)果,進(jìn)一步鑒定了各物種特有的Alu插入(species specificAlu,SSA),即該元件僅插入某物種,而在其他3個基因組的同源區(qū)域都缺失的位點(圖3)。共獲得了7 882個SSA位點,包括東非狒狒2 321個、獼猴2 228個、綠猴1 202個以及長鼻猴2 131個。長鼻猴基因組中的多態(tài)性位點中約85%以上都是特有的,而其他 3個基因組的比例均未超過13%(圖3)。研究這些特有Alu亞家族發(fā)現(xiàn),95%以上的SSA位點都屬于AluY亞家族,獼猴亞科3個物種的SSA主要屬于AluYRa1亞家族,而長鼻猴的主要屬于AluYRa2亞家族(圖4)。獼猴中分別有309個和364個位點屬于AluYRb2和AluYRb3亞家族,明顯多于其他3個物種。長鼻猴和綠猴中AluYc亞家族分別有376個和182個,多于東非狒狒(10個)和獼猴(2個)(圖4)。此外,3個獼猴亞科動物中,AluS和AluJ的數(shù)量很少,而長鼻猴中有100個位點屬于AluS(表3)。
圖2 4個舊世界猴基因組中≥250 bp的AluJ、AluS和AluY家族的亞家族分布Fig.2 The subfamily distribution of AluJ,AluS and AluY families with length of ≥250 bp in the genomes of 4 Old World monkey species
表3 4個舊世界猴基因組中具有插入/缺失多態(tài)性的Alu位點Table 3 Alu loci with insertion/deletion polymorphism in the genomes of 4 Old World monkey species
注:+ 表示在該物種同源區(qū)域有Alu插入,- 表示在該物種同源區(qū)域有Alu缺失;下同
Notes:+ represents that there is anAluinsertion in the homologous region of the species,- represents the absence ofAluin the homologous region of the species;the same below
圖3 4個舊世界猴物種特有的Alu插入位點Fig.3 Species-specific Alu insertions in 4 Old World monkey speciesP.a.東非狒狒Papio anubis,M.m.獼猴Macaca mulatta,C.s.綠猴Chlorocebus sabaeus,N.l.長鼻猴Nasalis larvatus
圖4 4個舊世界猴物種特有的Alu位點上的亞家族分布Fig.4 Subfamily distribution of the species-specific Alu insertions in 4 Old World monkey species
Han等(2007)在全基因組水平揭示了獼猴TEs的組成和進(jìn)化,并鑒定了舊世界猴特有的4個AluY亞家族,分別命名為AluYRa~AluYRd,并認(rèn)為它們是舊世界猴中最年輕、最活躍的TEs。雖然許多舊世界猴基因組已被報道,但是關(guān)于這些基因組在TEs組成及分布上的差異,以及TEs對舊世界猴基因組多樣性的影響的研究較少。本研究對4種舊世界猴基因組中的TEs進(jìn)行了分析和比較,包括1個疣猴亞科物種(長鼻猴)和3個獼猴亞科物種(東非狒狒、獼猴和綠猴),其中,東非狒狒和獼猴同屬于狒狒族。結(jié)果顯示,4個基因組中TEs的組成和分布與它們的進(jìn)化關(guān)系吻合,東非狒狒和獼猴的TEs特征相似,二者又與綠猴、長鼻猴有較大差異,尤其是新近整合到基因組上的TEs(分歧率<10%),其數(shù)量顯著多于綠猴和長鼻猴。分歧率是根據(jù)TEs序列中累積的突變位點計算其與Repbase數(shù)據(jù)庫中一致序列的分化程度。一般說來,TEs上累積的突變越多,分歧率就越大,表明其插入基因組的時間越長,是更古老的TEs,反之亦然(Pengetal.,2018)。分歧率<10%的TEs都來自SINEs和LINEs,表明這兩類轉(zhuǎn)座子中都包含許多相對年輕的轉(zhuǎn)座元件,這與已經(jīng)報道的其他靈長目動物基因組中情況一致(Konkeletal.,2007;Mclainetal.,2013)。進(jìn)一步分析顯示,這種差異的重要來源是靈長類特有的Alu元件的差異,尤其是最年輕的AluY家族,在4個舊世界猴基因組中差異顯著。東非狒狒和獼猴基因組中AluY和AluYRa1亞家族數(shù)量遠(yuǎn)高于綠猴、長鼻猴,這2個亞家族可能是狒狒族中轉(zhuǎn)座最活躍的。與之不同,綠猴基因組中AluYRc0的數(shù)量約為其他物種的2倍;長鼻猴基因組中AluYRa2的數(shù)量是其他物種的3倍,這與AluYRa2亞家族在長鼻猴中的拷貝數(shù)顯著多于其他3個物種的結(jié)果一致。本研究結(jié)果表明,隨著靈長目動物的進(jìn)化和物種分化,各Alu亞家族在不同物種中的擴(kuò)增活性存在較大差異,從而累積不同的拷貝數(shù),而正是由于Alu特定亞家族在基因組中擴(kuò)增的差異,塑造了不同靈長目動物基因組的多樣性。
靈長目動物特有的Alu家族隨著靈長目動物的進(jìn)化而進(jìn)化,其擴(kuò)增活性在進(jìn)化歷史的不同階段不相同(Konkeletal.,2010)。AluJ的轉(zhuǎn)座高峰約在靈長目動物分化早期,目前絕大部分AluJ已不具備轉(zhuǎn)座活性,固定在各靈長目動物基因組中;AluS是由AluJ家族分化而來,在大約45百萬年前大量擴(kuò)增;AluY是最晚整合到靈長目動物基因組的,因此一些AluY在人類基因組中仍具有轉(zhuǎn)座活性(Roy-Engeletal.,2008)。由于這些元件在距今較短的時間插入基因組,尚未在基因組中固定下來,因此在不同物種基因組中具有插入/缺失多態(tài)性。這也是構(gòu)成靈長目動物基因組多樣性的重要因素,同時這些多態(tài)性的位點也可作為遺傳標(biāo)記,用于揭示不同靈長目動物之間的系統(tǒng)發(fā)育關(guān)系(Salemetal.,2003;Rayetal.,2005)。通過4個舊世界猴基因組的兩兩比較,我們鑒定了大量在不同基因組間具有插入/缺失多態(tài)性的Alu位點。值得注意的是,除去組裝質(zhì)量不高的長鼻猴外,同為獼猴亞科的3個物種,東非狒狒或獼猴基因組插入而在綠猴基因組缺失的位點數(shù)是綠猴基因組插入而在東非狒狒或獼猴中缺失的位點數(shù)的2倍多。這一結(jié)果提示在狒狒族與其他舊世界猴分化后,Alu在基因組中的擴(kuò)增活性顯著高于綠猴,從而累積了更多的拷貝。我們進(jìn)一步鑒定了4個舊世界猴物種特有的7 882個Alu位點,它們是不同物種分化之后整合到基因組的最年輕的元件。和預(yù)期一致,這些位點超過95%來源于AluY家族。然而我們?nèi)匀话l(fā)現(xiàn)長鼻猴SSA中有100個AluS元件,這表明在長鼻猴所屬的疣猴亞科和獼猴亞科分化時一些AluS元件仍然存在轉(zhuǎn)座活性,從而在疣猴亞科動物基因組中特異地擴(kuò)增。也正因為疣猴亞科的長鼻猴與其他3個獼猴亞科物種的分歧較早,因此基因組也存在更多的特有插入。這些物種特有的插入在不同靈長目動物中來源的亞家族不同,3個獼猴亞科物種SSA數(shù)量最多的都屬于AluYRa1,而長鼻猴則屬于AluYRa2,這表明這2個亞家族可能在不同舊世界猴基因組中仍然存在轉(zhuǎn)座活性。
綜上,本研究比較了4種舊世界猴TEs的組成與分布,尤其是靈長目動物特有的Alu家族的特征。并且揭示了AluY家族的轉(zhuǎn)座活動對于舊世界猴基因組的進(jìn)化及多樣性具有重要意義。鑒定的插入/缺失多態(tài)性位點和物種特有的Alu位點也為今后開展系統(tǒng)進(jìn)化以及種群遺傳學(xué)研究提供了豐富的遺傳標(biāo)記。