邊培培,張禹,姜雨
綜 述
泛基因組:高質(zhì)量參考基因組的新標(biāo)準(zhǔn)
邊培培,張禹,姜雨
西北農(nóng)林科技大學(xué)動(dòng)物科技學(xué)院,楊凌 712100
隨著三代測(cè)序組裝的高質(zhì)量參考基因組的陸續(xù)發(fā)布,以及大規(guī)模重測(cè)序和群體遺傳學(xué)分析的廣泛進(jìn)行,研究人員發(fā)現(xiàn)來自單一個(gè)體的參考基因組遠(yuǎn)不能涵蓋整個(gè)物種的所有遺傳序列,大量缺失序列導(dǎo)致群體遺傳變異圖譜不完整,而構(gòu)建來自多個(gè)個(gè)體的泛基因組能很好地解決這一缺陷,其研究?jī)?nèi)容包括負(fù)責(zé)基本生物學(xué)功能及該物種主要表型特征的核心基因組以及與物種的遺傳多樣性和個(gè)體獨(dú)特性相關(guān)的可變基因組。根據(jù)核心和可變基因組所占比例的不同,泛基因組存在開放型和閉合型兩種類型。本文主要綜述了細(xì)菌、真菌和動(dòng)植物的泛基因組學(xué)研究進(jìn)展,討論了其在各生物類群中的特征,其中哺乳動(dòng)物泛基因組是相對(duì)閉合的,而目前已知的微生物、被子植物和部分低等動(dòng)物的泛基因組傾向于開放,通過泛基因組的構(gòu)建可以完善現(xiàn)有參考基因組并獲取整個(gè)物種的完整變異信息,將有助于深入研究遺傳多樣性和表型變異產(chǎn)生的分子機(jī)制。
泛基因組;存在/缺失變異;核心基因組;可變基因組
隨著功能基因組學(xué)對(duì)基因功能的研究越來越細(xì)致,一個(gè)物種是否擁有高質(zhì)量的參考基因組成為了深入解析其遺傳與表型關(guān)系的重要前提。然而在群體水平上,研究人員發(fā)現(xiàn)來自同一物種不同個(gè)體的基因組序列并不能完全與該物種的參考基因組一一對(duì)應(yīng)。因此建立一個(gè)能夠包含這個(gè)物種全部基因組序列和變異信息情況的完整集合對(duì)基因組學(xué)的研究變得極為重要。
2005年,Tettelin等[1]首次在細(xì)菌研究中提出泛基因組(pan-genome)的概念,指整個(gè)物種基因組序列的非冗余集合,其中包括存在于該物種幾乎所有個(gè)體中的核心基因組(core genome)和僅在部分個(gè)體中存在的可變基因組(accessory/variable/dispensable genome)。相對(duì)于細(xì)菌來說,真核生物無法頻繁的跨物種交換遺傳物質(zhì),被認(rèn)為存在相對(duì)較少的存在/缺失變異(presence and absence variations, PAVs)[2]。但是隨著對(duì)動(dòng)植物個(gè)體基因組之間的比較研究,研究者發(fā)現(xiàn)高等生物同樣具有普遍的跨物種基因交流,也存在相當(dāng)數(shù)量的PAVs,且許多位于功能性區(qū)域,承擔(dān)重要的生物學(xué)功能[3~5]。泛基因組現(xiàn)已在植物、真菌、動(dòng)物基因組學(xué)研究中被廣泛用于更為全面地評(píng)估物種內(nèi)遺傳多樣性,探究跨物種的基因交流和馴化及改良過程。研究表明利用泛基因組可以獲取更為準(zhǔn)確全面的變異信息,通過與表型進(jìn)行關(guān)聯(lián),篩查出可變基因組中的功能基因或功能序列,這將為物種的遺傳改良提供寶貴的遺傳資源[6~11]。在微生物方面,利用泛基因組還可以對(duì)菌種進(jìn)化、適應(yīng)性及群體結(jié)構(gòu)進(jìn)行研究分析[12];同時(shí)可應(yīng)用于菌株重要毒力因子的發(fā)現(xiàn)和疫苗的設(shè)計(jì)[13]。
本文綜述了細(xì)菌、真菌和動(dòng)植物的泛基因組學(xué)研究進(jìn)展,討論了其在各生物類群中的特征,并對(duì)其在完善參考基因組以及獲取完整變異信息上的應(yīng)用進(jìn)行了分析和展望。
廣義的泛基因組是一個(gè)捕獲了物種全部遺傳信息的集合。對(duì)于包含一定數(shù)量個(gè)體基因組信息的泛基因組來說,整個(gè)基因或序列集合可以被分為核心基因組和可變基因組(圖1A),核心基因組(core,一般認(rèn)為存在于超過95%的個(gè)體基因組中);可變基因組又可以被進(jìn)一步分為殼基因組(shell,在所有個(gè)體基因組中存在比例大約為5%~95%)和云基因組(cloud,僅存在約少于5%的個(gè)體基因組中),shell和cloud作為可變基因組的子集,一般與生物對(duì)特定環(huán)境的適應(yīng)或生物學(xué)特性有關(guān)。上述分類能夠彌補(bǔ)在實(shí)際定義不同基因組類別時(shí)所面臨的不確定性,核心基因組為95%以上而不是100%的存在比例,可以避免某個(gè)個(gè)體的低質(zhì)量基因組序列或者是基因組缺陷而造成的分類錯(cuò)誤,確保真實(shí)的核心基因組在注釋和分類過程中不被遺漏;而cloud則可能是個(gè)別個(gè)體基因組意外獲得的外源基因,或者是來自于該個(gè)體基因組異常裝配或者是外源污染[14]。具體的分類比例并不固定,研究人員可以根據(jù)實(shí)際物種研究情況,進(jìn)行合理定義。一些研究證明了泛基因組中基因頻率呈不對(duì)稱的“U”型分布(圖1B),這說明大部分基因或以核基因組的方式存在于絕大多數(shù)個(gè)體中,或以云基因組的方式存在于個(gè)別個(gè)體中[4,14~16]。
根據(jù)泛基因組中核心基因組的比例,將泛基因組分為開放型和閉合型兩種,具體狀態(tài)取決于所分析的物種特征,如物種整合外源DNA的能力,以及物種的生活方式和環(huán)境[17]。與具有開放程度較小泛基因組的物種相比,具有大型開放泛基因組的物種可能占據(jù)更多樣的生態(tài)位和具有更復(fù)雜的群落[18]以及更大的有效群體規(guī)模,多態(tài)性水平更高。一般認(rèn)為完全閉合的泛基因組是不存在的,在構(gòu)建泛基因組的時(shí)候隨著個(gè)體數(shù)量的增加,無論是開放型還是閉合型的泛基因組,整個(gè)泛基因組的大小都是逐步增加的,而核心基因組的大小都是逐漸減少的(圖1:C, D)。對(duì)于一個(gè)既定的物種來說,除去云序列(僅存在于物種極少數(shù)個(gè)體中)以外的核心基因組和可變基因組是一個(gè)定值。對(duì)于閉合型的泛基因組,有限數(shù)量個(gè)體的增加,可以使核心基因組和整個(gè)泛基因組含量迅速到達(dá)平臺(tái)期,趨近于真實(shí)的水平。而開放程度高的泛基因組需要大量的個(gè)體才能獲取這個(gè)真實(shí)值,在逐個(gè)增加研究個(gè)體時(shí),到達(dá)平臺(tái)期獲得這個(gè)值的速度是緩慢的?;谝陨喜町悾谶M(jìn)行閉合型泛基因組研究時(shí),通過匯總有限數(shù)量個(gè)體的基因組序列,人們可以獲取這個(gè)物種幾乎全部的遺傳信息。哺乳動(dòng)物的泛基因組是比較典型的閉合型,其基因數(shù)量以及結(jié)構(gòu)相對(duì)穩(wěn)定,可變基因數(shù)量有限[5,19~20],保證了高度復(fù)雜化的基因調(diào)節(jié)網(wǎng)絡(luò)的穩(wěn)定。而開放型泛基因組意味著,隨著人們不斷加入研究個(gè)體,其總是會(huì)有一定數(shù)量的新基因或者新序列的增長(zhǎng),也就是說通過一定數(shù)量的研究對(duì)象獲取物種內(nèi)全部遺傳信息是不現(xiàn)實(shí)的,但是這種開放的模式為物種提供了豐富的遺傳資源庫(kù),增加其功能多樣性和復(fù)雜性,提高了其對(duì)動(dòng)態(tài)環(huán)境的適應(yīng)性。細(xì)菌、真菌和被子植物表現(xiàn)出開放型的特征,許多物種的核心基因比例小于80%[2,21]。
圖1 開放程度不同的泛基因組特征
A:泛基因組的組成。B:泛基因組中基因頻率的不規(guī)則“U”型分布。C:開放型泛基因組:隨著構(gòu)建泛基因組個(gè)體的增加,整個(gè)泛基因組以及核心基因組大小的增長(zhǎng)趨勢(shì)。D:閉合型泛基因組:隨著構(gòu)建泛基因組個(gè)體的增加,整個(gè)泛基因組以及核心基因組大小的增長(zhǎng)趨勢(shì)。
當(dāng)前泛基因組的研究主要是強(qiáng)調(diào)物種內(nèi)部完整基因組序列的獲取,所以更關(guān)注可變基因組,也就是在物種內(nèi)部個(gè)體基因組之間一致性低的多態(tài)序列或者是產(chǎn)生了PAVs的序列集合。廣義的泛基因組應(yīng)該能夠捕獲該物種的全部遺傳變異信息,但是當(dāng)前的研究所構(gòu)建的泛基因組大多體現(xiàn)不了那些小的插入缺失(insertions and deletions, indels)和單核苷酸多態(tài)性(single-nucleotide polymorphisms, SNPs),以及不改變序列組成的易位(translocation)和倒位(inversion)變異等,因此這種泛基因組可以被認(rèn)為是狹義的泛基因組。
最初應(yīng)用泛基因組概念的細(xì)菌,通常具有較小的基因組,其基因占據(jù)基因組序列的大部分,幾乎沒有基因間序列,而且數(shù)量差異很大,所以蛋白編碼基因的含量是細(xì)菌等原核生物泛基因組研究的主要內(nèi)容。原核基因組以不斷變化的狀態(tài)存在,通過水平基因轉(zhuǎn)移,基因復(fù)制甚至可能以從頭出現(xiàn)的方式而擴(kuò)張,并通過基因丟失而收縮。在細(xì)菌中廣泛的基因損失和水平基因轉(zhuǎn)移(轉(zhuǎn)化、接合和轉(zhuǎn)導(dǎo))是導(dǎo)致可變基因產(chǎn)生的兩個(gè)主要進(jìn)化過程[22]。不同模式真菌物種的泛基因組的研究表明真菌是通過菌株水平的創(chuàng)新來進(jìn)化的,而不是大規(guī)模的水平基因轉(zhuǎn)移。此外被子植物可通過全基因組復(fù)制(whole genome duplications, WGDs)、局部串聯(lián)重復(fù)、轉(zhuǎn)座因子(transposable elements, TEs)介導(dǎo)的重復(fù)、片段重復(fù)、近緣物種滲入、水平基因轉(zhuǎn)移和從頭基因誕生(gene birth)獲取新基因,同時(shí)也能通過染色體內(nèi)重組和假基因化介導(dǎo)基因和序列的丟失[21]。雖然當(dāng)前在動(dòng)物上泛基因組的研究有限,但是眾多的基因組學(xué)研究已經(jīng)證明了在動(dòng)物基因組上存在滲入、水平基因轉(zhuǎn)移以及各種重復(fù)事件[23]。綜上所述,正是通過序列的重復(fù)、近緣物種滲入、基因從頭誕生或水平基因轉(zhuǎn)移,以及后續(xù)的序列分歧/丟失或基因分裂/融合等多種過程,才產(chǎn)生了物種內(nèi)廣泛的PAVs,形成了泛基因組。但是重復(fù)以及從頭誕生的新基因一般很難在短時(shí)間內(nèi)與原序列產(chǎn)生足夠的分歧,因此在狹義泛基因組中難以被捕獲。所以通常認(rèn)為從狹義上來說,可變基因組的主要來源是基因和序列的丟失,滲入和水平基因轉(zhuǎn)移(圖2)。
目前構(gòu)建泛基因組主要有基于迭代組裝和基于從頭組裝兩種方法(表1)。
首先出現(xiàn)的是基于從頭組裝基因組構(gòu)建泛基因組的方法[1]。這種方法分別對(duì)多個(gè)個(gè)體進(jìn)行從頭組裝并注釋,然后通過同一物種不同個(gè)體基因組間的相互比較,確定出核心基因組序列和可變基因組序列,最后將這些序列去冗余合并后構(gòu)成一個(gè)包含該物種所有個(gè)體基因組序列的泛基因組[5]。這種方法的優(yōu)勢(shì)在于它能夠檢測(cè)到更多的結(jié)構(gòu)變異(structural variations, SVs),但對(duì)計(jì)算資源和樣品的測(cè)序深度有較高的要求,不適用于基因組較大的物種和大規(guī)模群體的分析。迭代組裝構(gòu)建泛基因組方法的出現(xiàn)彌補(bǔ)了這些不足,其方式是由參考基因組起始,將每個(gè)樣本的測(cè)序數(shù)據(jù)映射到參考基因組,提取未比對(duì)成功的序列進(jìn)行組裝,然后使用非冗余序列直接更新參考基因組,獲得最終的擴(kuò)展參考基因組即為該物種的泛基因組或者是對(duì)個(gè)體進(jìn)行初步組裝,從與參考基因組未比對(duì)上的contigs中移除冗余序列來構(gòu)建代表性的非參考序列,結(jié)合參考基因組和代表性非參考基因組序列構(gòu)建泛基因組。這種構(gòu)建策略可以利用大規(guī)模的重測(cè)序數(shù)據(jù),對(duì)測(cè)序深度要求很低,同時(shí),因?yàn)橹粚?duì)未成功比對(duì)到參考基因組上的序列進(jìn)行了組裝,這種方法相對(duì)節(jié)省了計(jì)算資源,已在基因組較大的物種如小麥[24]以及大規(guī)模測(cè)序物種如水稻[10]中被應(yīng)用。這種方法會(huì)在最終的泛基因組中產(chǎn)生大量的序列片段,并且無法檢測(cè)每個(gè)個(gè)體的拷貝數(shù)變異(copy number variations, CNVs),但對(duì)于基因的PAVs檢測(cè)非常有效[25]。
這兩種方法各有優(yōu)缺點(diǎn),目前均已被廣泛應(yīng)用于構(gòu)建各種物種的泛基因組,研究人員通過將新發(fā)現(xiàn)的序列直接加入?yún)⒖蓟蚪M的呈現(xiàn)形式產(chǎn)生了一系列的線性泛基因組,極大地豐富了人們對(duì)現(xiàn)有物種基因組的認(rèn)識(shí)。然而,這種展示方式也帶來了一些問題如:源于不同個(gè)體的變異信息被丟失,也幾乎沒有相應(yīng)的程序和算法可以處理這種方式提供的變異信息。
圖2 可變基因組的主要來源
表1 泛基因組構(gòu)建方法比較
獲取可變基因組的序列組成和位置信息是展示和應(yīng)用泛基因組的關(guān)鍵。但是線性泛基因組方式只呈現(xiàn)了可變基因組的序列組成,丟失了重要的染色體位置信息,因此在構(gòu)建泛基因組的過程中,為防止重要信息的丟失,有兩種方法:要么在線性泛基因組中標(biāo)注序列位置信息,要么構(gòu)建圖結(jié)構(gòu)的泛基因組。和線性基因組不同的是,圖結(jié)構(gòu)泛基因組是一個(gè)二維序列圖譜,它以參考基因組為框架,以單個(gè)堿基作為圖的節(jié)點(diǎn),堿基間的前后關(guān)系作為圖的邊,存在序列差異的地方會(huì)自然形成不同的分支,呈現(xiàn)出一個(gè)圖結(jié)構(gòu)。這個(gè)圖結(jié)構(gòu)基因組可以依據(jù)新序列的加入不斷擴(kuò)展變化,最終它將會(huì)成為一個(gè)符合全物種的泛基因組圖譜[26]。這種展示形式可以包含變異的嵌套,將同一位置的變異整合而不是單獨(dú)占據(jù)一個(gè)區(qū)域,從而達(dá)到將所有變異精確納入圖譜的效果。這使得物種內(nèi)大量復(fù)雜的變異可以緊湊的形式呈現(xiàn)。目前已有大量軟件被開發(fā)用于這種圖結(jié)構(gòu)泛基因組的分析[27],如vg[28]、minigraph[26]、GraphType2[29]等,并且已在動(dòng)植物基因組學(xué)研究中得到了初步應(yīng)用[19,26,30~32]。
隨著測(cè)序技術(shù)以及生物信息學(xué)工具的進(jìn)步,包含全部序列變異信息的圖結(jié)構(gòu)泛基因組出現(xiàn),盡管它受限于計(jì)算和存儲(chǔ)當(dāng)前只能應(yīng)用于部分個(gè)體,但仍舊是向著廣義泛基因組研究邁進(jìn)的重要一步。未來技術(shù)的發(fā)展會(huì)讓構(gòu)建一個(gè)包含物種內(nèi)全部遺傳信息的泛基因組成為可能,實(shí)現(xiàn)精確處理大量基因組中的序列和變異信息,那時(shí)的基因組學(xué)研究才是真正在利用一個(gè)“參考”基因組。
由于微生物基因組的可塑性和多樣性,泛基因組的研究對(duì)其十分重要,同時(shí),近年來測(cè)序和基因組組裝成本的降低,研究人員在真核生物物種中發(fā)現(xiàn)了大規(guī)模的基因組變異,促使了泛基因組研究在真核生物中的擴(kuò)展(圖3,表2)。
圖3 泛基因組相關(guān)研究數(shù)量的增長(zhǎng)
泛基因組的概念在2005年被首次提出之后,關(guān)鍵詞“pangenome”或者“pan-genome”在Europe Pubmed Central (https://europepmc.org/ RestfulWebService)被搜索時(shí)的出現(xiàn)次數(shù)(檢索日期:2021-08-17)。
表2 泛基因組代表性研究
續(xù)表
首個(gè)細(xì)菌泛基因組由無乳鏈球菌()構(gòu)建,每個(gè)菌種的核心基因組約占任何單個(gè)基因組的80%[1],這說明有一定數(shù)量的可變基因組僅在部分或者個(gè)別菌種中存在,很明顯單個(gè)基因組序列不能反映細(xì)菌物種內(nèi)的整個(gè)遺傳變異性。細(xì)菌棲息在千差萬別的生態(tài)位中,并具有大量相應(yīng)的調(diào)節(jié)機(jī)制,以適應(yīng)多變的環(huán)境[33],核心基因的比例可以從5%至98%。除了使基因組垂直向下傳給后代外,細(xì)菌還具有通過水平轉(zhuǎn)移從環(huán)境中獲取遺傳物質(zhì)的能力[34],在獲得基因的同時(shí),為了維持細(xì)菌基因組小而緊湊的結(jié)構(gòu)特征,基因還經(jīng)常復(fù)制或丟失[35]。垂直傳播和水平轉(zhuǎn)移的混合作用使細(xì)菌基因組的系統(tǒng)發(fā)育分析復(fù)雜化[22]。在同一種細(xì)菌內(nèi),在基因組水平上也可能存在很大程度的個(gè)體差異。如在大腸桿菌()泛基因組中,任何一種大腸桿菌的基因組核心基因的比例都少于泛基因總數(shù)的10%,即使在轉(zhuǎn)錄因子水平上,大腸桿菌基因組之間也存在巨大差異[36]。考慮到這種高水平的遺傳變異,重建細(xì)菌的系統(tǒng)發(fā)育和種群歷史,泛基因組研究是有必要的,并且可以作為細(xì)菌分類的重要依據(jù)[37]。Freschi等[38]基于1311個(gè)銅綠假單胞菌的高質(zhì)量基因組進(jìn)行了泛基因組分析,研究了水平基因轉(zhuǎn)移在人類病原體銅綠假單胞菌的抗菌素耐藥性和毒力機(jī)制中的貢獻(xiàn),基于核心基因組的系統(tǒng)發(fā)育為其種群結(jié)構(gòu)提供了強(qiáng)有力的證據(jù)。同樣分枝桿菌泛基因組學(xué)研究證明了水平基因轉(zhuǎn)移在進(jìn)化過程中對(duì)其適應(yīng)新環(huán)境和宿主中有重要作用[39]。隨著測(cè)序成本降低以及數(shù)據(jù)庫(kù)中可用細(xì)菌基因組的快速增加促進(jìn)了泛基因組軟件工具的開發(fā)[40],一些在線軟件例如PanX[41]等,只要遵循特定步驟,即可生成泛基因組分析結(jié)果,加速了細(xì)菌泛基因組的研究進(jìn)展。
在細(xì)菌泛基因組研究中發(fā)現(xiàn)一些可變基因在不斷變化的環(huán)境中具有適應(yīng)性優(yōu)勢(shì)[42],另一些則和菌株的致病性和耐藥性相關(guān)[18,43]。細(xì)菌泛基因組的研究在臨床微生物學(xué)中有許多應(yīng)用。它可以揭示細(xì)菌的致病潛力和抵抗抗菌素的能力,鑒定特定序列并預(yù)測(cè)抗原表位,從而可以設(shè)計(jì)分子或血清學(xué)檢測(cè)方法和疫苗[40]。
從不同植物中獲得的數(shù)據(jù)向人們展示了植物基因組的可塑性[44],單個(gè)基因組已無法表征全部的遺傳多樣性,促使在基因組學(xué)研究中引入了植物泛基因組的概念[45],這有助于深入了解植物產(chǎn)生遺傳多樣性和表型變異的過程。
首個(gè)植物泛基因組在2014年被報(bào)道,其基于對(duì)7份代表性野生大豆()全基因組的組裝比較,發(fā)現(xiàn)了與生物抗性、種子組成、開花和成熟時(shí)間等重要農(nóng)藝性狀有關(guān)的可變基因[46]。泛基因組分析使人們能夠追蹤馴化和育種過程中基因的保留和丟失,開發(fā)將基因重新引入現(xiàn)代品種的潛力,恢復(fù)物種失去的遺傳多樣性。Gao等[4]使用了具有廣泛品種和地理代表性的725個(gè)番茄()個(gè)體,揭示了參考基因組中不存在的4873個(gè)基因,PAVs分析表明,在馴化和改良過程中有大量的基因丟失以及基因和啟動(dòng)子的負(fù)選擇,并且丟失或者受到負(fù)選擇的基因具有重要功能,尤其是與抗病性相關(guān)。此外,該研究還鑒定出在馴化階段受選擇的啟動(dòng)子上與番茄風(fēng)味有關(guān)的稀有等位基因,利用其雜合子優(yōu)勢(shì),可直接應(yīng)用于生產(chǎn)中的性狀改良。目前對(duì)泛基因組的研究并不局限于基因本身,基因以外的基因組區(qū)域也解釋了作物表型變異的很大一部分,許多重要的農(nóng)藝性狀可能是由基因調(diào)控的變化而不是基因的存在/缺失變異決定的[21]。由于SVs的大小能夠造成更多的核苷酸序列差異,因此可能會(huì)表現(xiàn)出不成比例的大表型效應(yīng)[47],已被確定為許多罕見和常見疾病的致病因素,并且通常被認(rèn)為它們是通過影響基因的表達(dá)來起作用的。多個(gè)植物泛基因組研究也發(fā)現(xiàn),SVs導(dǎo)致基因組變異的同時(shí),能夠引起表型變異[48]。2020年對(duì)番茄PanSV基因組的深入研究揭示了這一點(diǎn),幾乎一半的SVs與基因或調(diào)控序列重疊,并且半數(shù)影響編碼序列的SVs與基因差異表達(dá)有關(guān)[49]。
泛基因組對(duì)于揭示物種內(nèi)完整的遺傳變異信息至關(guān)重要,尤其是近年來圖結(jié)構(gòu)泛基因組的發(fā)展,其構(gòu)建及應(yīng)用策略越來越穩(wěn)定和完善,包含的功能元素和序列空間越來越充足,能夠作為分析其他個(gè)體的參考,提高了研究人員對(duì)許多個(gè)體和物種基因組復(fù)雜性的理解。2020年,有研究將26個(gè)大豆株系從頭組裝的基因組和3個(gè)先前報(bào)道的基因組構(gòu)建了一個(gè)基于圖形的泛基因組,結(jié)合2898個(gè)不同株系的重測(cè)序數(shù)據(jù),揭示了眾多僅用單個(gè)參考基因組無法檢測(cè)到的變異,為大豆的進(jìn)化和功能基因組學(xué)研究提供了更加完整的基因組圖譜,并且通過對(duì)全基因組復(fù)制區(qū)域及SVs的研究,表明基因組復(fù)制是SVs進(jìn)化的重要驅(qū)動(dòng)力[30]。同樣基于多個(gè)參考基因組水平的高質(zhì)量組裝基因組,2021年,Qin等[31]構(gòu)建了高質(zhì)量的水稻(和)圖結(jié)構(gòu)泛基因組。其研究提供了水稻基因組變異和馴化的遺傳資源,并推斷了整個(gè)水稻種群中SVs的派生狀態(tài),分析了SVs的分布并評(píng)估了SVs形成的機(jī)制以及SVs對(duì)基因表達(dá)的影響。此研究提供了SVs和基因的拷貝數(shù)變異(gene copy number variations, gCNVs)如何直接影響環(huán)境適應(yīng)性和農(nóng)藝性狀的示例,展示了高質(zhì)量基因組組裝和圖結(jié)構(gòu)泛基因組在植物基因組學(xué)和功能基因組學(xué)中的重要作用。
迄今為止,已經(jīng)有10余種植物建立了泛基因組包括玉米()[50]、大豆[30,46]、二穗短柄草()[14]、辣椒()[51]、小麥(spp.)[24,52]、甘藍(lán)()[53]、水稻[10,31,54]、番茄[4,49]、狗尾草()[55]、向日葵(L.)[56]、大麥(ssp.)[57,58]、桃子()[6],高粱()[59,60]等,除了重要農(nóng)作物還包括馴化作物的野生和雜草近緣種,在每個(gè)被研究的物種中都有一個(gè)可觀的可變基因含量(10%~60%)??勺兓蚪?jīng)常被注釋為與生物和非生物脅迫耐受性相關(guān),同時(shí)這些基因相較于核心基因具有較低的進(jìn)化約束和表達(dá)水平。通過泛基因組研究可以獲取更多準(zhǔn)確和大片段的SVs,其中一些涉及改變基因劑量和表達(dá)水平的SVs影響了許多重要的農(nóng)藝性狀,包括水果的味道、大小和產(chǎn)量。這些發(fā)現(xiàn)強(qiáng)調(diào)了泛基因組研究在作物改良中的重要性和效用。
研究人員使用長(zhǎng)reads組裝了馴化酵母及其野生近緣種的12個(gè)端到端的基因組,核基因組的大小從11.73到12.14 Mb不等,通過多個(gè)參考質(zhì)量的基因組序列的比較,在馴化和野生個(gè)體之間觀察到的許多差異可能反映了人類活動(dòng)對(duì)基因組結(jié)構(gòu)進(jìn)化的影響[8]。接著通過對(duì)1011個(gè)釀酒酵母分離株的泛基因組構(gòu)建,結(jié)合表型分析工作,提供了釀酒酵母變異的詳細(xì)信息,為其全基因組關(guān)聯(lián)分析(genome- wide association study, GWAS)奠定了基礎(chǔ),并為基因型–表型關(guān)系提供了新的見解,在規(guī)模上提供了與其他模式生物體相匹配的群體基因組資源[61]。2019年報(bào)道了四種模式真菌的泛基因組:釀酒酵母()、白色念珠菌()、新型隱球菌()和煙曲霉()。研究發(fā)現(xiàn),在這些物種中,每個(gè)菌株的所有基因中80%~90%屬于核心基因[62],其余的可變基因可能與發(fā)病機(jī)制和抗菌素耐藥有關(guān)。對(duì)物種祖先核心基因組和可變基因組的分析表明:基因復(fù)制等過程可能是影響真菌全基因組進(jìn)化的主要因素,水平基因轉(zhuǎn)移的作用有限。真菌病原體反復(fù)擊敗農(nóng)作物抗性,變得對(duì)農(nóng)藥耐受,威脅著全球糧食生產(chǎn),種群內(nèi)的遺傳變異多樣性常常助長(zhǎng)了這種進(jìn)化過程[63]。小麥葉枯菌(會(huì)導(dǎo)致小麥枯萎病,2019年其泛基因組的研究?jī)H鑒定出了58%的核心基因,其余的可變基因?yàn)槠溥m應(yīng)性進(jìn)化提供了基礎(chǔ)[64]。此外,有研究人員組裝了來自六大洲的小麥葉枯菌的19個(gè)完整基因組,構(gòu)建了小麥真菌病原體的高質(zhì)量泛基因組,表明了染色體重排是廣泛的基因存在/缺失變異的基礎(chǔ),同時(shí)發(fā)現(xiàn)可變基因組中富含與發(fā)病機(jī)制相關(guān)的功能基因[65]。
與細(xì)菌相似,真菌生物在基因含量上也顯示出種內(nèi)變異性。真菌泛基因組可用于獲取大量菌株完整的變異信息,有助于真菌的馴化以及基因型-表型的關(guān)聯(lián)研究。同時(shí)研究表明可變基因通常在致病性中起重要作用,通過泛基因組研究可以追蹤確定參與感染和宿主反應(yīng)的新基因的來源,也將有助于解決與作物–病原體共同進(jìn)化相關(guān)的問題。
目前,相對(duì)于微生物和植物來說,動(dòng)物泛基因組的研究范圍還很有限,主要集中在人類()和家養(yǎng)動(dòng)物。2010年,Li等[5]整合了亞洲人和非洲人新組裝的基因組以及當(dāng)時(shí)的人類參考基因組,構(gòu)建了人類的第一個(gè)泛基因組。該研究在每個(gè)新組裝基因組中獲取了~5 Mb在參考基因組中不存在的新序列,推斷完整的人類泛基因組將包含現(xiàn)有參考基因組中不存在的19~40 Mb新序列。跨物種保守性分析表明這些新序列中包含的某些基因在哺乳動(dòng)物基因組之間是保守的,很可能具有生物學(xué)功能。此研究證實(shí)了單個(gè)人類基因組序列中存在大量未證明的遺傳區(qū)域,并且可以通過非常深的測(cè)序和從頭組裝來鑒定。對(duì)來自冰島的15,219個(gè)人進(jìn)行測(cè)序,僅關(guān)注非重復(fù),非參考基因組序列,該研究共發(fā)現(xiàn)了3719個(gè)約0.33 Mb的新序列[66]。2019年構(gòu)建的漢人泛基因組發(fā)現(xiàn)了~29.5 Mb的新序列,還鑒定了188個(gè)新的蛋白質(zhì)編碼基因[67],而對(duì)1000個(gè)瑞典基因組的分析發(fā)現(xiàn)了~46 Mb的新序列,大部分為重復(fù)序列(56%)[68]。Sherman等[20]利用910個(gè)非洲后裔個(gè)體組成的深度測(cè)序數(shù)據(jù)集,構(gòu)建的泛基因組比當(dāng)前參考基因組多近300Mb的新序列,這是迄今為止報(bào)道的找到最多新序列的人類泛基因組。這些研究說明,單一參考基因組不足以進(jìn)行基于群體的人類遺傳學(xué)研究,更好的方法可能是為不同的人類群體創(chuàng)建參考基因組。
豬、牛和羊在畜牧業(yè)中都占據(jù)重要地位,豬也是重要的生物醫(yī)學(xué)模型[69],構(gòu)建豬、牛和羊的泛基因組對(duì)優(yōu)質(zhì)種質(zhì)資源的保護(hù)和利用,解析人類馴化動(dòng)物的歷史及作為模式動(dòng)物探究生命奧秘有重要意義。Tian等[3]使用了來自歐亞大陸的12個(gè)基因組構(gòu)建了豬的泛基因組,相較于參考基因組(Sscrofa11.1)共獲取了72.5 Mb的非冗余的新序列,且發(fā)現(xiàn)了脂肪分解的必要調(diào)節(jié)基因在豬群中顯示為PAVs,并且可能導(dǎo)致不同豬種之間的生理差異。山羊泛基因組研究利用其他9個(gè)從頭組裝的Caprini物種基因組共鑒定出了38.3 Mb山羊參考基因組上不存在的新序列,通過山羊全基因組重測(cè)序和轉(zhuǎn)錄組數(shù)據(jù)進(jìn)一步驗(yàn)證了它們?cè)谏窖蛑械拇嬖?,證明了對(duì)親緣關(guān)系近的物種基因組進(jìn)行比較是一種基于參考基因組尋找缺失序列的有效且可靠的策略,這種方法也可能適用于其他物種[70]。這兩項(xiàng)研究都表明使用泛基因組作為參考可產(chǎn)生更高質(zhì)量的變異集合和更準(zhǔn)確的基因表達(dá)量化,改善廣泛的基因組分析。2020年,研究人員使用來自約300頭牛的變異信息(<50 bp)構(gòu)建了家養(yǎng)動(dòng)物的第一個(gè)圖結(jié)構(gòu)泛基因組[32],提高了序列比對(duì)和基因分型的準(zhǔn)確性,這是在人類以外的大基因組動(dòng)物上對(duì)圖結(jié)構(gòu)泛基因組的首個(gè)嘗試,為其他動(dòng)物的研究提供了重要參考。稍后研究人員利用6只牛的基因組構(gòu)建了圖結(jié)構(gòu)泛基因組,發(fā)現(xiàn)了參考基因組中缺失的功能序列[19],其中包括參與免疫反應(yīng)和免疫調(diào)節(jié)的基因,此研究提供了用于建立和利用更多樣化的參考基因組的方法和框架。
除了上述哺乳動(dòng)物以外,研究人員還報(bào)道了地中海貽貝的開放型泛基因組[71]。貽貝是具有生態(tài)和經(jīng)濟(jì)意義的食用雙殼類生物,對(duì)生物和非生物應(yīng)激源具有高度的侵襲性和復(fù)原力,其泛基因組具有15,000個(gè)可變基因,占全部泛基因組數(shù)量的25%,平均出現(xiàn)的時(shí)間晚,表達(dá)水平低并且容易受到PAVs的影響,開放閱讀框較短,基因結(jié)構(gòu)復(fù)雜性低,并且參與了與防御和生存相關(guān)的功能,對(duì)生物適應(yīng)性具有重要價(jià)值。此外,泛基因組也在昆蟲基因組學(xué)的研究中得到了應(yīng)用。蜱蟲(Acari: Ixodidae)是傳播最多樣化的人類和動(dòng)物病原體,對(duì)其泛基因組的研究揭示了不同蜱種的遺傳結(jié)構(gòu)和病原體組成主要受生態(tài)和地理因素的影響,并進(jìn)一步確定了與不同宿主范圍、生命周期和分布相關(guān)的物種特異性決定因素[72],這也將為蜱蟲生物學(xué)、病媒–病原體相互作用、疾病傳播和控制策略的研究開辟新途徑。熊蜂(Hy-menoptera: Apidae)的泛基因組研究表明在系統(tǒng)發(fā)育框架中對(duì)多個(gè)基因組進(jìn)行比較分析,大大提高了進(jìn)化分析的精度和靈敏度,并可以提供識(shí)別基因組穩(wěn)定和動(dòng)態(tài)特征的可靠結(jié)果[73]。此研究也將助力于功能基因定位和克隆,以及重測(cè)序和群體基因組學(xué)研究,為熊蜂在農(nóng)業(yè)中的使用提供基礎(chǔ)的遺傳信息。
上述研究表明,目前的動(dòng)物單一參考基因組對(duì)于具有高適應(yīng)能力,高雜合度,高水平重復(fù)元素以及復(fù)雜群體歷史的物種還遠(yuǎn)遠(yuǎn)不夠完整,并且強(qiáng)調(diào)了參考基因組缺失的基因?qū)τ谂R床和農(nóng)業(yè)應(yīng)用的潛在影響。后續(xù)研究應(yīng)集中于動(dòng)物高質(zhì)量泛基因組的構(gòu)建,獲取完整的泛基因組序列,以及構(gòu)建可用的圖結(jié)構(gòu)泛基因組,尋找更多可應(yīng)用于經(jīng)濟(jì)動(dòng)物選育和改良的遺傳信息。
基因組時(shí)代的前期,研究人員采取的主要策略就是為目標(biāo)物種提供一個(gè)單一的“參考”基因組,該基因組成為各種遺傳分析(包括研究物種內(nèi)部和物種之間的變異)的基礎(chǔ)[25]。隨著測(cè)序新技術(shù)的發(fā)展,測(cè)序質(zhì)量進(jìn)一步提高,同時(shí)成本大大降低,成千上萬的新基因組被測(cè)序,物種間大量變異被獲取,人們開始意識(shí)到單一參考基因組不足以代表一個(gè)物種全部的遺傳信息。泛基因組分析提供了一個(gè)平臺(tái),可通過收集物種的整個(gè)基因組信息庫(kù)來獲取其全部的遺傳多樣性,在細(xì)菌、真菌以及動(dòng)植物中已經(jīng)得到了廣泛的應(yīng)用。
在目前泛基因組的研究中仍存在一些問題亟待解決:各種生物的基因組組裝還不完整,盡管長(zhǎng)reads測(cè)序被證明已經(jīng)能夠解析基因組中一些具有挑戰(zhàn)性的區(qū)域,檢測(cè)以前無法獲取的SVs[74~76],但是為物種中每一個(gè)個(gè)體實(shí)現(xiàn)完整、無間隙的裝配是不現(xiàn)實(shí)的;此外,基因組的測(cè)序、組裝,泛基因組的構(gòu)建策略,序列注釋,判斷PAVs等一系列方法并沒有標(biāo)準(zhǔn)化的流程,導(dǎo)致不同研究獲取的泛基因組序列不能直接比較,匯集所有數(shù)據(jù)建立一個(gè)完整的泛基因組將是一個(gè)巨大的挑戰(zhàn)。
微生物和被子植物相比于哺乳動(dòng)物,基因組可塑性更高,物種內(nèi)的遺傳多樣性更為豐富,因而有了相對(duì)廣泛的研究。哺乳動(dòng)物基因組相對(duì)保守,通常只有基因間或片段化的基因區(qū)域參與基因組序列的增減,但是這并不意味著動(dòng)物泛基因組的重要性降低。從對(duì)貽貝的研究[71]中可以看到動(dòng)物泛基因組的潛力,隨著泛基因組研究擴(kuò)展到更多的物種,才能真正準(zhǔn)確地評(píng)估一個(gè)生物類群的多樣性水平。近年來泛基因組學(xué)研究為植物多樣性研究和改良提供了新的思路[21,44],但在除人類以外的動(dòng)物中泛基因組學(xué)研究有限,在其他動(dòng)物泛基因組的研究上還需要努力,以期為動(dòng)物遺傳相關(guān)研究打下堅(jiān)實(shí)基礎(chǔ)。
當(dāng)前泛基因組研究的核心是用更豐富的數(shù)據(jù)結(jié)構(gòu)取代傳統(tǒng)的線性參考基因組[27],相對(duì)于傳統(tǒng)的單一線性參考基因組,泛基因組作為參考基因組能更加全面地呈現(xiàn)群體基因組信息,同時(shí)更有益于變異信息的獲取和利用。隨著圖結(jié)構(gòu)泛基因組的構(gòu)建方式和分析策略的逐步完善,利用泛基因組將會(huì)更加高效地輔助解決功能基因組學(xué)研究的難題,從而徹底改變基因組學(xué)的研究。
[1] Tettelin H, Masignani V, Cieslewicz MJ, Donati C, Medini D, Ward NL, Angiuoli SV, Crabtree J, Jones AL, Durkin AS, DeBoy RT, Davidsen TM, Mora M, Scarselli M, Ros IMY, Peterson JD, Hauser CR, Sundaram JP, Nelson WC, Madupu R, Brinkac LM, Dodson RJ, Rosovitz MJ, Sullivan SA, Daugherty SC, Haft DH, Selengut J, Gwinn ML, Zhou LW, Zafar N, Khouri H, Radune D, Dimitrov G, Watkins K, O’Connor KJB, Smith S, Utterback TR, White O, Rubens CE, Grandi G, Madoff LC, Kasper DL, Telford JL, Wessels MR, Rappuoli R, Fraser CM. Genome analysis of multiple pathogenic isolates of: implications for the microbial "pan-genome"., 2005, 102(39): 13950–13955.
[2] Golicz AA, Bayer PE, Bhalla PL, Batley J, Edwards D. Pangenomics comes of age: from bacteria to plant and animal applications., 2020, 36(2): 132–145.
[3] Tian XM, Li R, Fu WW, Li Y, Wang XH, Li M, Du D, Tang QZ, Cai YD, Long YM, Zhao Y, Li MZ, Jiang Y. Building a sequence map of the pig pan-genome from multipleassemblies and Hi-C data., 2019, 63(5): 750–763.
[4] Gao L, Gonda I, Sun HE, Ma QY, Bao K, Tieman DM, Burzynski-Chang EA, Fish TL, Stromberg KA, Sacks GL, Thannhauser TW, Foolad MR, Diez MJ, Blanca J, Canizares J, Xu YM, van der Knaap E, Huang SW, Klee HJ, Giovannoni JJ, Fei ZJ. The tomato pan-genome uncovers new genes and a rare allele regulating fruit flavor., 2019, 51(6): 1044–1051.
[5] Li RQ, Li YR, Zheng HC, Luo RB, Zhu HM, Li QB, Qian WB, Ren YY, Tian G, Li JX, Zhou GY, Zhu X, Wu HL, Qin JJ, Jin X, Li DF, Cao HZ, Hu XD, Blanche H, Cann H, Zhang XQ, Li SG, Bolund L, Kristiansen K, Yang HM, Wang J, Wang J. Building the sequence map of the human pan-genome., 2010, 28(1): 57–63.
[6] Cao K, Peng Z, Zhao X, Li Y, Liu KZ, Arus P, Zhu GR, Deng SH, Fang WC, Chen CW, Wang XW, Wu JL, Fei ZJ, Wang LR. Pan-genome analyses of peach and its wild relatives provide insights into the genetics of disease resistance and species adaptation., 2020, doi: 10.1101/2020.07.13.200204.
[7] Schreiber M, Stein N, Mascher M. Genomic approaches for studying crop evolution., 2018, 19(1): 140.
[8] Yue JX, Li J, Aigrain L, Hallin J, Persson K, Oliver K, Bergstr?m A, Coupland P, Warringer J, Lagomarsino MC, Fischer G, Durbin R, Liti G. Contrasting evolutionary genome dynamics between domesticated and wild yeasts., 2017, 49(6): 913–924.
[9] Kaas RS, Friis C, Ussery DW, Aarestrup FM. Estimating variation within the genes and inferring the phylogeny of 186 sequenced diversegenomes., 2012, 13(1): 577.
[10] Wang WS, Mauleon R, Hu ZQ, Chebotarov D, Tai SS, Wu ZC, Li M, Zheng TQ, Fuentes RR, Zhang F, Mansueto L, Copetti D, Sanciangco M, Palis KC, Xu JL, Sun C, Fu BY, Zhang HL, Gao YM, Zhao XQ, Shen F, Cui X, Yu H, Li ZC, Chen ML, Detras J, Zhou YL, Zhang XY, Zhao Y, Kudrna D, Wang CC, Li R, Jia B, Lu JY, He XC, Dong ZT, Xu JB, Li YH, Wang M, Shi JX, Li J, Zhang DB, Lee S, Hu WS, Poliakov A, Dubchak I, Ulat VJ, Borja FN, Mendoza JR, Ali J, Li J, Gao Q, Niu YC, Yue Z, Naredo MEB, Talag J, Wang XQ, Li JJ, Fang XD, Yin Y, Glaszmann JC, Zhang JW, Li JY, Hamilton RS, Wing RA, Ruan J, Zhang GY, Wei CC, Alexandrov N, McNally KL, Li ZK, Leung H. Genomic variation in 3,010 diverse accessions of Asian cultivated rice., 2018, 557(7703): 43–49.
[11] Song JM, Guan ZL, Hu JL, Guo CC, Yang ZQ, Wang S, Liu DX, Wang B, Lu SP, Zhou R, Xie WZ, Cheng YF, Zhang YT, Liu K, Yang QY, Chen LL, Guo L. Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of., 2020, 6(1): 34–45.
[12] Zou YQ, Xue WB, Luo GW, Deng ZQ, Qin PP, Guo RJ, Sun HP, Xia Y, Liang SS, Dai Y, Wan DW, Jiang RR, Su LL, Feng Q, Jie ZY, Guo TK, Xia ZK, Liu C, Yu JH, Lin YX, Tang SM, Huo GC, Xu X, Hou Y, Liu X, Wang J, Yang HM, Kristiansen K, Li JH, Jia HJ, Xiao L. 1,520 reference genomes from cultivated human gut bacteria enable functional microbiome analyses., 2019, 37(2): 179–185.
[13] Naz K, Naz A, Ashraf ST, Rizwan M, Ahmad J, Baumbach J, Ali A. PanRV: Pangenome-reverse vaccinology approach for identifications of potential vaccine candidates in microbial pangenome., 2019, 20(1): 123.
[14] Gordon SP, Contreras-Moreira B, Woods DP, Des Marais DL, Burgess D, Shu SQ, Stritt C, Roulin AC, Schackwitz W, Tyler L, Martin J, Lipzen A, Dochy N, Phillips J, Barry K, Geuten K, Budak H, Juenger TE, Amasino R, Caicedo AL, Goodstein D, Davidson P, Mur LAJ, Figueroa M, Freeling M, Catalan P, Vogel JP. Extensive gene content variation in thepan-genome correlates with population structure., 2017, 8(1): 2184.
[15] Brito PH, Chevreux B, Serra CR, Schyns G, Henriques AO, Pereira-Leal JB. Genetic competence drives genome diversity in., 2018, 10(1): 108–124.
[16] Vincent AT, Schiettekatte O, Goarant C, Neela VK, Bernet E, Thibeaux R, Ismail N, Khalid MKNM, Amran F, Masuzawa T, Nakao R, Korba AA, Bourhy P, Veyrier FJ, Picardeau M. Revisiting the taxonomy and evolution of pathogenicity of the genusthrough the prism of genomics., 2019, 13(5): e0007270.
[17] Lefébure T, Pavinski Bitar PD, Suzuki H, Stanhope MJ. Evolutionary dynamics of complete campylobacter pan-genomes and the bacterial species concept., 2010, 2: 646–655.
[18] Rouli L, Merhej V, Fournier PE, Raoult D. The bacterial pangenome as a new tool for analysing pathogenic bacteria., 2015, 7: 72–85.
[19] Crysnanto D, Leonard AS, Fang ZH, Pausch H. Novel functional sequences uncovered through a bovine multiassembly graph., 2021, 118(20): e2101056118.
[20] Sherman RM, Forman J, Antonescu V, Puiu D, Daya M, Rafaels N, Boorgula MP, Chavan S, Vergara C, Ortega VE, Levin AM, Eng C, Yazdanbakhsh M, Wilson JG, Marrugo J, Lange LA, Williams LK, Watson H, Ware LB, Olopade CO, Olopade O, Oliveira RR, Ober C, Nicolae DL, Meyers DA, Mayorga A, Knight-Madden J, Hartert T, Hansel NN, Foreman MG, Ford JG, Faruque MU, Dunston GM, Caraballo L, Burchard EG, Bleecker ER, Araujo MI, Herrera-Paz EF, Campbell M, Foster C, Taub MA, Beaty TH, Ruczinski I, Mathias RA, Barnes KC, Salzberg SL. Assembly of a pan-genome from deep sequencing of 910 humans of African descent., 2019, 51(1): 30–35.
[21] Bayer PE, Golicz AA, Scheben A, Batley J, Edwards D. Plant pan-genomes are the new reference., 2020, 6(8): 914–920.
[22] Puigbò P, Lobkovsky AE, Kristensen DM, Wolf YI, Koonin EV. Genomes in turmoil: quantification of genome dynamics in prokaryote supergenomes., 2014, 12(1): 66.
[23] Richard GF. Eukaryotic pangenomes. The Pangenome, Springer International Publishing, 2020, 253–291.
[24] Montenegro JD, Golicz AA, Bayer PE, Hurgobin B, Lee H, Chan CKK, Visendi P, Lai KT, Dole?el J, Batley J, Edwards D. The pangenome of hexaploid bread wheat., 2017, 90(5): 1007–1013.
[25] Sherman RM, Salzberg SL. Pan-genomics in the human genome era., 2020, 21(4): 243–254.
[26] Li H, Feng XW, Chu C. The design and construction of reference pangenome graphs with minigraph., 2020, 21(1): 265.
[27] Eizenga JM, Novak AM, Sibbesen JA, Heumos S, Ghaffaari A, Hickey G, Chang X, Seaman JD, Rounthwaite R, Ebler J, Rautiainen M, Garg S, Paten B, Marschall T, Sirén J, Garrison E. Pangenome graphs., 2020, 21(1): 139–162.
[28] Garrison E, Sirén J, Novak AM, Hickey G, Eizenga JM, Dawson ET, Jones W, Garg S, Markello C, Lin MF, Paten B, Durbin R. Variation graph toolkit improves read mapping by representing genetic variation in the reference., 2018, 36(9): 875–879.
[29] Eggertsson HP, Kristmundsdottir S, Beyter D, Jonsson H, Skuladottir A, Hardarson MT, Gudbjartsson DF, Stefansson K, Halldorsson BV, Melsted P. GraphTyper2 enables population-scale genotyping of structural variation using pangenome graphs., 2019, 10(1): 5402.
[30] Liu YC, Du HL, Li PC, Shen YT, Peng H, Liu SL, Zhou GA, Zhang HK, Liu Z, Shi M, Huang XH, Li Y, Zhang M, Wang Z, Zhu BG, Han B, Liang CZ, Tian ZX. Pan-genome of wild and cultivated soybeans., 2020, 182(1): 162–176.e13.
[31] Qin P, Lu HW, Du HL, Wang H, Chen WL, Chen Z, He Q, Ou SJ, Zhang HY, Li XZ, Li XX, Li Y, Liao Y, Gao Q, Tu B, Yuan H, Ma BT, Wang YP, Qian YW, Fan SJ, Li WT, Wang J, He M, Yin JJ, Li T, Jiang N, Chen XW, Liang CZ, Li SG. Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations., 2021, 184(13): 3542–3558.e16.
[32] Crysnanto D, Pausch H. Bovine breed-specific augmented reference graphs facilitate accurate sequence read mapping and unbiased variant discovery., 2020, 21(1): 184.
[33] Boutte CC, Crosson S. Bacterial lifestyle shapes stringent response activation., 2013, 21(4): 174– 180.
[34] Soucy SM, Huang JL, Gogarten JP. Horizontal gene transfer: building the web of life., 2015, 16(8): 472–482.
[35] Lefébure T, Stanhope MJ. Evolution of the core and pan- genome of: positive selection, recombination, and genome composition., 2007, 8(5): R71.
[36] Cook H, Ussery DW. Sigma factors in a thousandgenomes., 2013, 15(12): 3121–3129.
[37] O’Callaghan A, Bottacini F, O’Connell Motherway M, van Sinderen D. Pangenome analysis ofand site-directed mutagenesis through by-pass of restriction-modification systems., 2015, 16(1): 832.
[38] Freschi L, Vincent AT, Jeukens J, Emond-Rheault JG, Kukavica-Ibrulj I, Dupont MJ, Charette SJ, Boyle B, Levesque RC. Thepan-genome provides new insights on its population structure, horizontal gene transfer, and pathogenicity., 2019, 11(1): 109–120.
[39] Dumas E, Christina Boritsch E, Vandenbogaert M, de la Vega RCR, Thiberge JM, Caro V, Gaillard JL, Heym B, Girard-Misguich F, Brosch R, Sapriel G. Mycobacterial pan-genome analysis suggests important role of plasmids in the radiation of type VII secretion systems., 2016, 8(2): 387–402.
[40] Anani H, Zgheib R, Hasni I, Raoult D, Fournier PE. Interest of bacterial pangenome analyses in clinical microbiology., 2020, 149: 104275.
[41] Ding W, Baumdicker F, Neher RA. panX: pan-genome analysis and exploration., 2018, 46(1): e5.
[42] Vernikos G, Medini D, Riley DR, Tettelin H. Ten years of pan-genome analyses., 2015, 23: 148–154.
[43] Fu J, Qin QW. Pan-genomics analysis of 30genomes., 2012, 34(6): 765–772
付靜, 秦啟偉. 30株大腸桿菌的泛基因組學(xué)特征分析. 遺傳, 2012, 34(6): 765–772.
[44] Golicz AA, Batley J, Edwards D. Towards plant pangenomics., 2016, 14(4): 1099–1105.
[45] Morgante M, De Paoli E, Radovic S. Transposable elements and the plant pan-genomes., 2007, 10(2): 149–155.
[46] Li YH, Zhou GY, Ma JX, Jiang WK, Jin LG, Zhang ZH, Guo Y, Zhang JB, Sui Y, Zheng LT, Zhang SS, Zuo QY, Shi XH, Li YF, Zhang WK, Hu YY, Kong GY, Hong HL, Tan B, Song J, Liu ZX, Wang YS, Ruan H, Yeung CKL, Liu J, Wang HL, Zhang LJ, Guan RX, Wang KJ, Li WB, Chen SY, Chang RZ, Jiang Z, Jackson SA, Li RQ, Qiu LJ. De novo assembly of soybean wild relatives for pan- genome analysis of diversity and agronomic traits., 2014, 32(10): 1045–1052.
[47] Conrad DF, Pinto D, Redon R, Feuk L, Gokcumen O, Zhang YJ, Aerts J, Andrews TD, Barnes C, Campbell P, Fitzgerald T, Hu M, Ihm CH, Kristiansson K, MacArthur DG, MacDonald JR, Onyiah I, Pang AWC, Robson S, Stirrups K, Valsesia A, Walter K, Wei J, Wellcome Trust Case Control Consortium, Tyler-Smith C, Carter NP, Lee C, Scherer SW, Hurles ME. Origins and functional impact of copy number variation in the human genome., 2010, 464(7289): 704–712.
[48] Liu YC, Tian ZX. From one linear genome to a graph- based pan-genome: a new era for genomics., 2020, 63(12): 1938–1941.
[49] Alonge M, Wang XA, Benoit M, Soyk S, Pereira L, Zhang L, Suresh H, Ramakrishnan S, Maumus F, Ciren D, Levy Y, Harel TH, Shalev-Schlosser G, Amsellem Z, Razifard H, Caicedo AL, Tieman DM, Klee H, Kirsche M, Aganezov S, Ranallo-Benavidez TR, Lemmon ZH, Kim J, Robitaille G, Kramer M, Goodwin S, McCombie WR, Hutton S, Van Eck J, Gillis J, Eshed Y, Sedlazeck FJ, van der Knaap E, Schatz MC, Lippman ZB. Major impacts of widespread structural variation on gene expression and crop improve-ment in tomato., 2020, 182(1): 145–161.e23.
[50] Hirsch CN, Foerster JM, Johnson JM, Sekhon RS, Muttoni G, Vaillancourt B, Pe?agaricano F, Lindquist E, Pedraza MA, Barry K, de Leon N, Kaeppler SM, Buell CR. Insights into the maize pan-genome and pan-transcriptome., 2014, 26(1): 121–135.
[51] Ou LJ, Li D, Lv JH, Chen WC, Zhang ZQ, Li XF, Yang BZ, Zhou SD, Yang S, Li WG, Gao HZ, Zeng Q, Yu HY, Ouyang B, Li F, Liu F, Zheng JY, Liu YH, Wang J, Wang BB, Dai XZ, Ma YQ, Zou XX. Pan-genome of cultivated pepper () and its use in gene presence-absence variation analyses., 2018, 220(2): 360–363.
[52] Walkowiak S, Gao LL, Monat C, Haberer G, Kassa MT, Brinton J, Ramirez-Gonzalez RH, Kolodziej MC, Delorean E, Thambugala D, Klymiuk V, Byrns B, Gundlach H, Bandi V, Siri JN, Nilsen K, Aquino C, Himmelbach A, Copetti D, Ban T, Venturini L, Bevan M, Clavijo B, Koo DH, Ens J, Wiebe K, N’Diaye A, Fritz AK, Gutwin C, Fiebig A, Fosker C, Fu BX, Accinelli GG, Gardner KA, Fradgley N, Gutierrez-Gonzalez J, Halstead-Nussloch G, Hatakeyama M, Koh CS, Deek J, Costamagna AC, Fobert P, Heavens D, Kanamori H, Kawaura K, Kobayashi F, Krasileva K, Kuo T, McKenzie N, Murata K, Nabeka Y, Paape T, Padmarasu S, Percival-Alwyn L, Kagale S, Scholz U, Sese J, Juliana P, Singh R, Shimizu-Inatsugi R, Swarbreck D, Cockram J, Budak H, Tameshige T, Tanaka T, Tsuji H, Wright J, Wu JZ, Steuernagel B, Small I, Cloutier S, Keeble-Gagnère G, Muehlbauer G, Tibbets J, Nasuda S, Melonek J, Hucl PJ, Sharpe AG, Clark M, Legg E, Bharti A, Langridge P, Hall A, Uauy C, Mascher M, Krattinger SG, Handa H, Shimizu KK, Distelfeld A, Chalmers K, Keller B, Mayer KFX, Poland J, Stein N, McCartney CA, Spannagl M, Wicker T, Pozniak CJ. Multiple wheat genomes reveal global variation in modern breeding., 2020, 588(7837): 277–283.
[53] Golicz AA, Bayer PE, Barker GC, Edger PP, Kim H, Martinez PA, Chan CKK, Severn-Ellis A, McCombie WR, Parkin IAP, Paterson AH, Pires JC, Sharpe AG, Tang HB, Teakle GR, Town CD, Batley J, Edwards D. The pangenome of an agronomically important crop plant., 2016, 7(1): 13390.
[54] Zhao Q, Feng Q, Lu HY, Li Y, Wang AH, Tian QL, Zhan QL, Lu YQ, Zhang L, Huang T, Wang YC, Fan DL, Zhao Y, Wang ZQ, Zhou CC, Chen JY, Zhu CR, Li WJ, Weng QJ, Xu Q, Wang ZX, Wei XH, Han B, Huang XH. Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice., 2018, 50(2): 278–284.
[55] Mamidi S, Healey A, Huang P, Grimwood J, Jenkins J, Barry K, Sreedasyam A, Shu SQ, Lovell JT, Feldman M, Wu JX, Yu YQ, Chen C, Johnson J, Sakakibara H, Kiba T, Sakurai T, Tavares R, Nusinow DA, Baxter I, Schmutz J, Brutnell TP, Kellogg EA. A genome resource for green milletenables discovery of agronomically valuable loci., 2020, 38(10): 1203–1210.
[56] Hübner S, Bercovich N, Todesco M, Mandel JR, Odenheimer J, Ziegler E, Lee JS, Baute GJ, Owens GL, Grassa CJ, Ebert DP, Ostevik KL, Moyers BT, Yakimowski S, Masalia RR, Gao LX, ?ali? I, Bowers JE, Kane NC, Swanevelder DZH, Kubach T, Mu?os S, Langlade NB, Burke JM, Rieseberg LH. Sunflower pan-genome analysis shows that hybridization altered gene content and disease resistance., 2019, 5(1): 54–62.
[57] Ma YL, Liu M, Stiller J, Liu CJ. A pan-transcriptome analysis shows that disease resistance genes have undergone more selection pressure during barley domestication., 2019, 20(1): 12.
[58] Jayakodi M, Padmarasu S, Haberer G, Bonthala VS, Gundlach H, Monat C, Lux T, Kamal N, Lang D, Himmelbach A, Ens J, Zhang XQ, Angessa TT, Zhou GF, Tan C, Hill C, Wang PH, Schreiber M, Boston LB, Plott C, Jenkins J, Guo Y, Fiebig A, Budak H, Xu DD, Zhang J, Wang CC, Grimwood J, Schmutz J, Guo GG, Zhang GP, Mochida K, Hirayama T, Sato K, Chalmers KJ, Langridge P, Waugh R, Pozniak CJ, Scholz U, Mayer KFX, Spannagl M, Li CD, Mascher M, Stein N. The barley pan-genome reveals the hidden legacy of mutation breeding., 2020, 588(7837): 284–289.
[59] Tao YF, Luo H, Xu JB, Cruickshank A, Zhao XR, Teng F, Hathorn A, Wu XY, Liu YM, Shatte T, Jordan D, Jing HC, Mace E. Extensive variation within the pan-genome of cultivated and wild sorghum., 2021, 7(6): 766–773.
[60] Wang B, Jiao YP, Chougule K, Olson A, Huang J, Llaca V, Fengler K, Wei XH, Wang LY, Wang XF, Regulski M, Drenkow J, Gingeras T, Hayes C, Armstrong JS, Huang YH, Xin ZG, Ware D. Pan-genome analysis in sorghum highlights the extent of genomic variation and sugarcane aphid resistance genes., 2021, doi: 10.1101/ 2021.01.03.424980.
[61] Peter J, De Chiara M, Friedrich A, Yue JX, Pflieger D, Bergstr?m A, Sigwalt A, Barre B, Freel K, Llored A, Cruaud C, Labadie K, Aury JM, Istace B, Lebrigand K, Barbry P, Engelen S, Lemainque A, Wincker P, Liti G, Schacherer J. Genome evolution across 1,011isolates., 2018, 556(7701): 339– 344.
[62] McCarthy CGP, Fitzpatrick DA. Pan-genome analyses of model fungal species., 2019, 5(2): e000243.
[63] Badet T, Croll D. The rise and fall of genes: origins and functions of plant pathogen pangenomes., 2020, 56: 65–73.
[64] Plissonneau C, Hartmann FE, Croll D. Pangenome analyses of the wheat pathogenreveal the structural basis of a highly plastic eukaryotic genome., 2018, 16(1): 5.
[65] Badet T, Oggenfuss U, Abraham L, McDonald BA, Croll D. A 19-isolate reference-quality global pangenome for the fungal wheat pathogen., 2020, 18(1): 12.
[66] Kehr B, Helgadottir A, Melsted P, Jonsson H, Helgason H, Jonasdottir A, Jonasdottir A, Sigurdsson A, Gylfason A, Halldorsson GH, Kristmundsdottir S, Thorgeirsson G, Olafsson I, Holm H, Thorsteinsdottir U, Sulem P, Helgason A, Gudbjartsson DF, Halldorsson BV, Stefansson K. Diversity in non-repetitive human sequences not found in the reference genome., 2017, 49(4): 588–593.
[67] Duan ZQ, Qiao YY, Lu JY, Lu HM, Zhang WM, Yan FZ, Sun C, Hu ZQ, Zhang Z, Li GC, Chen HZ, Xiang Z, Zhu ZG, Zhao HY, Yu YY, Wei CC. HUPAN: a pan-genome analysis pipeline for human genomes., 2019, 20(1): 149.
[68] Eisfeldt J, M?rtensson G, Ameur A, Nilsson D, Lindstrand A. Discovery of novel sequences in 1,000 swedish genomes., 2020, 37(1): 18–30.
[69] Lunney JK. Advances in swine biomedical model genomics., 2007, 3(3): 179–184.
[70] Li R, Fu WW, Su R, Tian XM, Du D, Zhao Y, Zheng ZQ, Chen QM, Gao S, Cai YD, Wang XH, Li JQ, Jiang Y. Towards the complete goat pan-genome by recovering missing genomic segments from the reference genome., 2019, 10: 1169.
[71] Gerdol M, Moreira R, Cruz F, Gómez-Garrido J, Vlasova A, Rosani U, Venier P, Naranjo-Ortiz MA, Murgarella M, Greco S, Balseiro P, Corvelo A, Frias L, Gut M, Gabaldón T, Pallavicini A, Canchaya C, Novoa B, Alioto TS, Posada D, Figueras A. Massive gene presence-absence variation shapes an open pan-genome in the Mediterranean mussel., 2020, 21(1): 275.
[72] Jia N, Wang JF, Shi WQ, Du LF, Sun Y, Zhan W, Jiang JF, Wang Q, Zhang B, Ji PF, Bell-Sakyi L, Cui XM, Yuan TT, Jiang BG, Yang WF, Lam TTY, Chang QC, Ding SJ, Wang XJ, Zhu JG, Ruan XD, Zhao L, Wei JT, Ye RZ, Que TC, Du CH, Zhou Y-H, Cheng JX, Dai PF, Guo WB, Han XH, Huang EJ, Li LF, Wei W, Gao YC, Liu JZ, Shao HZ, Wang X, Wang CC, Yang TC, Huo QB, Li W, Chen HY, Chen SE, Zhou LG, Ni XB, Tian JH, Sheng Y, Liu T, Pan YS, Xia LY, Li J, Tick Genome and Microbiome Consortium (TIGMIC), Zhao FQ, Cao WC. Large-scale comparative analyses of tick genomes elucidate their genetic diversity and vector capacities., 2020, 182(5): 1328–1340.e13.
[73] Sun C, Huang JX, Wang Y, Zhao XM, Su L, Thomas GWC, Zhao MY, Zhang XT, Jungreis I, Kellis M, Vicario S, Sharakhov IV, Bondarenko SM, Hasselmann M, Kim CN, Paten B, Penso-Dolfin L, Wang L, Chang YX, Gao Q, Ma L, Ma LN, Zhang Z, Zhang HB, Zhang HH, Ruzzante L, Robertson HM, Zhu YH, Liu YJ, Yang HP, Ding LL, Wang QG, Ma DN, Xu WL, Liang C, Itgen MW, Mee L, Cao G, Zhang Z, Sadd BM, Hahn MW, Schaack S, Barribeau SM, Williams PH, Waterhouse RM, Mueller RL. Genus-wide characterization of bumblebee genomes provides insights into their evolution and variation in ecological and behavioral traits., 2021, 38(2): 486–501.
[74] Sedlazeck FJ, Lee H, Darby CA, Schatz MC. Piercing the dark matter: bioinformatics of long-range sequencing and mapping., 2018, 19(6): 329–346.
[75] Logsdon GA, Vollger MR, Eichler EE. Long-read human genome sequencing and its applications., 2020, 21(10): 597–614.
[76] Alkan C, Coe BP, Eichler EE. Genome structural variation discovery and genotyping., 2011, 12(5): 363–376.
Pan-genome: setting a new standard for high-quality reference genomes
Peipei Bian, Yu Zhang, Yu Jiang
With the release of high-quality reference genomes assembled by long reads from the third-generation sequencing technology, as well as extensive re-sequencing and population genetic analysis, researchers found that a single reference genome does not represent the diversity within a species. The missing sequences on the reference genome result in an incomplete population genetic polymorphism map. The emergence of pan-genome can well repair the deficiency of single reference genome, which include core genome (responsible for basic biological functions and the main phenotypic characteristics within a species) and the variable genome (related to the genetic diversity or biological characteristics). According to the core and variable genome proportion, the types of pan-genomes can be either open or closed. Here, we review the current exploring of pan-genome for a range of species, to discuss the characteristics of pan-genome in various biological groups. The pan-genome of mammals are more likely closed, while the pan-genomes of microbes, angiosperms, and some invertebrates are likely non-closed. It is possible to complete the reference genome and obtain complete variation information through the pan-genomic study, which will contribute to the study of molecular mechanism for genetic diversity and phenotypic evolution.
pan-genome; presence and absence variations; core genome; variable genome
2021-08-26;
2021-10-28
國(guó)家自然科學(xué)基金項(xiàng)目(編號(hào):31822052)資助[Supported by the National Natural Science Foundation of China(No. 31822052)]
邊培培,在讀博士研究生,專業(yè)方向:動(dòng)物遺傳。E-mail: bppisc@163.com
姜雨,博士,教授,研究方向:動(dòng)物遺傳。E-mail: yu.jiang@nwafu.edu.cn
10.16288/j.yczz.21-214
2021/10/29 16:32:29
URI: https://kns.cnki.net/kcms/detail/11.1913.R.20211029.0923.001.html
(責(zé)任編委: 李海鵬)