向坤莉 賀文闖 鄒益 彭丹 張曉妮 廖雪竹 王杰 楊健康 武志強(qiáng)
摘 要:相對(duì)于單個(gè)參考基因組僅聚焦于個(gè)體遺傳信息的挖掘,泛基因組研究則能夠反映整個(gè)物種或類群全部的遺傳信息。隨著基因組測(cè)序和分析技術(shù)的不斷發(fā)展,泛基因組學(xué)逐漸成為新的研究熱點(diǎn),并已在植物、動(dòng)物和微生物多個(gè)物種中獲得了廣泛應(yīng)用,為全面解析物種或類群水平的遺傳變異和多樣性、功能基因組和系統(tǒng)進(jìn)化重建等研究提供了強(qiáng)有力的工具,取得了很多顯著的研究成果。盡管如此,由于泛基因組學(xué)研究尚處于發(fā)展階段,測(cè)序費(fèi)用和分析成本仍然較高,難以廣泛普及;且存在分析標(biāo)準(zhǔn)不一、數(shù)據(jù)挖掘不夠全面深入、理論難以應(yīng)用于生產(chǎn)實(shí)際等尚待解決的問(wèn)題,仍有較大的發(fā)展空間。該文系統(tǒng)總結(jié)了泛基因組在生物遺傳多樣性挖掘和功能基因組學(xué)中的研究進(jìn)展,主要包括其在泛基因組圖譜的構(gòu)建、基因組變異和有利基因的發(fā)掘、功能基因的多態(tài)性、群體遺傳多樣性和系統(tǒng)進(jìn)化等多個(gè)領(lǐng)域中的應(yīng)用和研究,探討了其在不同領(lǐng)域的應(yīng)用潛力。同時(shí),討論了目前泛基因組研究中存在的局限性和可能的解決方法,并對(duì)其將來(lái)的發(fā)展前景進(jìn)行了展望。
關(guān)鍵詞:泛基因組,結(jié)構(gòu)變異,功能基因,遺傳多樣性,系統(tǒng)進(jìn)化
中圖分類號(hào):Q943.2
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1000-3142(2021)10-1674-09
Abstract:The pan-genome can represent all of the genetic diversities in a species or population,which is a limitation for obtaining only one single reference genome. The pan-genomics is becoming a new hot research area and being widely applicated in researches of many species in plants,animals and microorganisms,as the development of the whole genome sequencing and analysis technology. It provides powerful tools for resolving the genetic variation and polymorphism at levels of species or taxa,researches of functional genomics and reconstruction of phylogenetics,obtaining abundant of significant research achievements. However,present researches on pan-genomics still need to improve due to several problems,e.g.,extensive cost of whole genome sequencing and data analysis,inconsistent analysis standards,lack of deeper and comprehensive explanation of the obtained data,and difficulty of application of the research achievements. We summarized the research progresses of pan-genomes on exploitation of genetic diversity and functional genomics,including construction of a pan-genome map,identification of genome variations and favorable genes,polymorphism of functional genes,population genetic diversity and systematic evolution,and discussed its potential in application of different research fields. Furthermore,we discussed the limitations existed in the present studies and possible solutions,and presented the prospect in the future on pan-genomics.
Key words:pan-genome,structural variants,functional gene,genetic diversity,systematic evolution
遺傳變異是生物進(jìn)化的內(nèi)在源泉,因而,研究遺傳多樣性及其演化規(guī)律是生物遺傳學(xué)及進(jìn)化生物學(xué)研究中的核心問(wèn)題之一。而泛基因組研究則是近年來(lái)隨著測(cè)序成本的急劇降低和分析技術(shù)的快速發(fā)展而全面反映物種遺傳變異的一種新興工具。泛基因組研究能夠從物種或類群水平廣泛發(fā)掘和利用遺傳變異多樣性,是現(xiàn)代醫(yī)學(xué)、生物學(xué)、農(nóng)學(xué)中的一個(gè)前沿領(lǐng)域。其中,泛基因組(pan-genome)指一個(gè)物種或者類群的全部基因組信息的集合,包括核心基因組(core genome)和非必須基因組(dispensable genome)兩部分。核心基因指在所有個(gè)體中都存在的基因/組分集合;而非必須基因組是指在部分個(gè)體或單個(gè)個(gè)體中存在的基因/組分集合,有時(shí)也稱為可變基因組(variable genome) (圖1; Tettelin et al.,2005; Medini et al.,2005)。核心基因組由所有樣本中都存在的序列組成,往往與重要的生物學(xué)功能和表型特征相關(guān),多數(shù)是一些管家基因(house-keeping genes),反映了物種的穩(wěn)定性;可變基因組由僅在部分樣本中存在的序列組成,一般與物種對(duì)特定環(huán)境的適應(yīng)性或特有的生物學(xué)特征相關(guān),反映了物種的多樣性和特異性(Montenegro et al.,2017; Gordon et al.,2017; Wang et al.,2018; Zhao et al.,2018; Liu et al.,2020)。
當(dāng)前,泛基因組研究已經(jīng)廣泛應(yīng)用于多個(gè)植物、動(dòng)物和微生物物種中,為全面解析物種或類群水平的遺傳變異、功能基因研究和系統(tǒng)進(jìn)化重建等研究提供了強(qiáng)有力的工具,取得了很多顯著的研究成果(付靜和秦啟偉,2012; 王婭麗等,2019; Tian et al.,2019; Chen et al.,2020; Domínguez et al.,2020; Weissensteiner et al.,2020; Liu et al.,2020)。然而,現(xiàn)有的泛基因組學(xué)研究主要聚焦于不同個(gè)體基因組序列和基因結(jié)構(gòu)的變異(Montenegro et al.,2017; Zhao et al.,2018; Gao et al.,2019; Liu et al.,2020),但對(duì)這些變異如何介導(dǎo)基因結(jié)構(gòu)和功能的改變,最終影響生物表型,以及這種遺傳差異如何與環(huán)境因子互作,都未能進(jìn)行深入探討。本文綜述了泛基因組學(xué)在不同物種中的研究進(jìn)展,對(duì)其在群體基因組變異、功能基因的鑒定和發(fā)掘、群體遺傳多樣性和系統(tǒng)進(jìn)化等多個(gè)領(lǐng)域中的應(yīng)用與研究進(jìn)行了系統(tǒng)性總結(jié),并對(duì)其應(yīng)用前景和局限性進(jìn)行了探討。
1 泛基因組圖譜的構(gòu)建
最早在2005年,Tettelin et al.(2005)在對(duì)幾種鏈球菌屬細(xì)菌(GBS,group B Streptococcus)的遺傳多樣性研究中提出微生物的泛基因組概念,指出核心基因組是在所有菌株中都存在的基因;非必須基因組(可變基因組)是僅在部分菌株中存在的基因。其中GBS菌共有的核心基因組占80%,剩余20%的基因組信息為非必須基因組。隨后,2010年Li et al. (2010)通過(guò)對(duì)多個(gè)人類個(gè)體基因組進(jìn)行組裝和比較基因組學(xué)分析,提出了“人類泛基因組”的概念,也就是人類群體基因組信息的總和,并從中鑒定獲得新發(fā)現(xiàn)的序列達(dá)到19~40 Mb。而隨著千人基因組計(jì)劃的提出和實(shí)施,泛基因組在人類疾病方面的研究取得了許多重大突破,為精準(zhǔn)醫(yī)療計(jì)劃提供了可能(1 000 Genomes Project Consortium,2012)。
之后,隨著越來(lái)越多的物種完成了高質(zhì)量基因組參考序列的組裝,多個(gè)動(dòng)植物物種中相繼報(bào)道了泛基因組圖譜的構(gòu)建相關(guān)研究工作。例如,通過(guò)對(duì)全球12個(gè)種豬品種的基因組進(jìn)行高質(zhì)量組裝,構(gòu)建了豬的泛基因組圖譜,發(fā)現(xiàn)中國(guó)的豬品種有大約9 Mb的泛序列(pan-sequences)與歐洲的豬品種存在差異,其中包括脂肪細(xì)胞脂解的必要調(diào)節(jié)因子TIG3 (Tazarotene-induced gene 3)(Tian et al.,2019);對(duì)19個(gè)小麥品種的泛基因組分析發(fā)現(xiàn),平均每個(gè)樣本中含有128 656個(gè)基因,核心基因有89 795個(gè)(Montenegro et al.,2017);利用725個(gè)番茄品種的基因組信息構(gòu)建的番茄泛基因組圖譜中,整個(gè)番茄泛基因組共包含40 396個(gè)基因,其中74.2%是核心基因(Gao et al.,2019)。此外,泛基因組在水稻(Schatz et al.,2014;Yao et al.,2015; Sun et al.,2017; Wang et al.,2018; Zhao et al.,2018; Zhou et al.,2020)、大豆(Li et al.,2014; Liu et al.,2020; 祝光濤和黃三文,2020)、玉米(Hufford et al.,2012; Hirsch et al.,2014; 簡(jiǎn)銀巧等,2017)等重要的植物物種均獲得了廣泛應(yīng)用(表1)。因此,構(gòu)建整個(gè)物種的泛基因組圖譜已成為廣泛應(yīng)用的基因組學(xué)方法,不僅能夠發(fā)現(xiàn)全面的遺傳信息,而且能為從物種和群體水平進(jìn)行功能基因組學(xué)、系統(tǒng)進(jìn)化和其他生物學(xué)研究提供更強(qiáng)有力的工具。
2 泛基因組學(xué)研究中序列結(jié)構(gòu)變
異與功能基因發(fā)掘
同一物種內(nèi)一個(gè)或幾個(gè)參考基因組能夠反映的遺傳變異是非常有限的,而泛基因組研究能夠覆蓋物種或類群中的所有變異,為研究整個(gè)物種或類群水平上的基因組序列和結(jié)構(gòu)變異提供了可能。現(xiàn)代生物基因庫(kù)中的遺傳變異通常包括單核苷酸多態(tài)性(SNPs,single-nucleotide polymorphisms)、插入缺失(Indels,insertions and deletions)和大的結(jié)構(gòu)變異(SVs,large structural variants)。其中SVs主要包括拷貝數(shù)變異(CNVs,copy number variants)、存在/缺失變異(PAVs,presence/absence variants)、移位(translocation events)和倒置(inversion events)等,而這些變異往往和一些關(guān)鍵的農(nóng)藝性狀相關(guān)(Springer et al.,2009; Hirsch et al.,2014; Li et al.,2014; Lu et al.,2015; Zhao et al.,2018)。
通過(guò)泛基因組分析全面發(fā)掘群體基因組中的序列和結(jié)構(gòu)變異,能夠鑒定其中與有利表型相關(guān)的變異位點(diǎn),為發(fā)掘和研究新的功能基因提供了重要依據(jù)。例如,利用 66個(gè)水稻高質(zhì)量基因組構(gòu)建了水稻的泛基因組,從中共鑒定到16 563 789 個(gè)SNPs、5 549 290個(gè)Indels和933 489個(gè)SVs,分析了其中與開(kāi)花時(shí)間相關(guān)的基因Hd3a (Heading date 3a)、抗寒性基因COLD1 (Chilling tolerance divergence 1)、谷物重量基因GW6a (Grain weight 6a)、分蘗角度基因TAC1 (Tiller Angle Control 1)、植株高度基因Sd1 (Semi dwarf 1)在不同材料間的遺傳變異,表明SNPs變異是導(dǎo)致這些基因變異的基礎(chǔ)(Zhao et al.,2018)。而利用29個(gè)高質(zhì)量基因組構(gòu)建的大豆泛基因組圖譜,共鑒定獲得14 604 953個(gè)SNPs、12 716 823個(gè)Indels和776 399個(gè)SV(包含723 862個(gè)PAVs、27 531個(gè)CNVs、21 886個(gè)移位和3 120個(gè)倒置),發(fā)現(xiàn)有些結(jié)構(gòu)變異在重要農(nóng)藝性狀調(diào)控中發(fā)揮重要作用,如PAV、基因融合和Indels分別對(duì)種皮亮度、種皮顏色的馴化、缺鐵失綠等性狀具有重要影響(Liu et al.,2020)。
同時(shí),在不同層次上發(fā)現(xiàn)的多個(gè)序列和結(jié)構(gòu)變異,不僅提供了更加豐富的變異信息,也為研究基因功能變異提供了更多素材。例如,通過(guò)六倍體普通小麥物種基因組間和亞基因組間的共線性分析,提出其“4A-5A-7B染色體重排”是兩次染色體易位事件的結(jié)果,并明確了重排的基因組區(qū)間的精細(xì)邊界;并且在微觀尺度上探討了小麥春化基因Vrn2 (Vernalization2)的復(fù)雜進(jìn)化歷史,發(fā)現(xiàn)Vrn2同源基因在普通小麥基因組中的復(fù)雜分布是包含串聯(lián)重復(fù)、多倍化、染色體易位和基因丟失在內(nèi)的一系列事件疊加的結(jié)果(Chen et al.,2020)。另有研究利用100個(gè)番茄基因組捕獲到238 490個(gè)SVs,構(gòu)建得到泛結(jié)構(gòu)變異(panSV)圖譜,研究表明SVs是許多轉(zhuǎn)座子的基礎(chǔ),而且SVs集中區(qū)域的基因漸滲現(xiàn)象嚴(yán)重,且群體中90%的SVs變異可在泛基因組圖譜中獲得驗(yàn)證(Alonge et al.,2020)。
3 泛基因組學(xué)研究中功能基因的
變異與多態(tài)性
遺傳結(jié)構(gòu)變異通常會(huì)導(dǎo)致基因功能的改變,泛基因組研究能夠通過(guò)全面整合相關(guān)基因的遺傳信息,揭示基因重組、融合等事件導(dǎo)致基因功能的獲得、丟失,以及發(fā)掘新基因。例如,大豆缺鐵萎黃病有關(guān)的候選基因被定位于14號(hào)染色體上,通過(guò)泛基因組研究發(fā)現(xiàn)該候選基因有兩種單倍型:品種“中黃13”所屬的單倍型主要分布在低緯度地區(qū);品種“威廉82”所屬的單倍型主要分布在高緯度地區(qū),能夠在高pH值、鐵為不易吸收的難溶氧化物等環(huán)境中生存,這種單倍型啟動(dòng)子區(qū)有1.4 kb 的Indel和外顯子區(qū)有5個(gè)變異位點(diǎn)(Liu et al.,2020)。在油菜中通過(guò)全PAV-GWAS (genome wide association study)分析發(fā)現(xiàn)3個(gè)開(kāi)花抑制因子BnaA10.FLC、BnaA02.FLC和BnaC02.FLC的PAVs與油菜的開(kāi)花時(shí)間和生態(tài)型分化密切相關(guān),其中:冬油菜品種的BnaA10.FLC啟動(dòng)子區(qū)都含有MITE (miniature inverted repeat transposable element)插入;85%春油菜品種的BnaA10.FLC第一個(gè)外顯子中含有LINE (long interspersed nuclear elements)插入;81%半冬性油菜品種的BnaA10.FLC啟動(dòng)子區(qū)含有hAT插入。表明BnaA10.FLC決定了油菜生態(tài)類型,是控制油菜開(kāi)花的關(guān)鍵基因(Song et al.,2020)。
生物的表型往往是來(lái)自多個(gè)基因網(wǎng)絡(luò)調(diào)控的結(jié)果,其中很多基因可能又同時(shí)對(duì)多個(gè)不同的表型性狀具有影響,因此對(duì)某個(gè)表型的有利基因亦有可能對(duì)另一個(gè)表型具有不利影響。例如,現(xiàn)代番茄中的產(chǎn)量相關(guān)性狀調(diào)控機(jī)制復(fù)雜,對(duì)100個(gè)番茄基因組的泛結(jié)構(gòu)變異(pan-SV)的研究發(fā)現(xiàn),由四個(gè)結(jié)構(gòu)變異導(dǎo)致形成了三個(gè)MADS-Box基因,共同影響番茄的經(jīng)濟(jì)性狀。其中j2TE基因型具有便于收獲的無(wú)關(guān)節(jié)花梗表型,而ej2w基因型具有防止撞傷的大花萼表型,但兩個(gè)基因型同時(shí)存在(j2TE ej2w)則會(huì)出現(xiàn)花序分枝過(guò)多而導(dǎo)致低育性的現(xiàn)象;sb1(suppressor of branching 1)基因型能有效克服雙隱性基因型的負(fù)面作用,實(shí)現(xiàn)增產(chǎn);另外,sb1基因型的表達(dá)可能受1號(hào)染色體上STM3基因的串聯(lián)重復(fù)序列影響,且串聯(lián)重復(fù)的拷貝數(shù)具有劑量效應(yīng) (Alonge et al.,2020)。因此,通過(guò)在更廣泛的群體中研究基因功能變異對(duì)表型的影響,將有助于更加準(zhǔn)確地對(duì)功能基因-表型的關(guān)聯(lián)做出全面詳細(xì)地評(píng)估,從而更好地指導(dǎo)分子育種工作來(lái)培育出抗病性更強(qiáng)、產(chǎn)量更高、保質(zhì)期更長(zhǎng)、風(fēng)味更好的作物品種,同時(shí)又不犧牲其他所期望的表型性狀。作物泛基因組學(xué)研究已經(jīng)發(fā)現(xiàn)了大量農(nóng)藝表型與特定基因的存在、缺失和變異之間的多樣化的相關(guān)性(Tao et al.,2019),通過(guò)在泛基因組完整遺傳圖譜的基礎(chǔ)上進(jìn)行研究,將有利于徹底澄清其內(nèi)在關(guān)聯(lián)和相應(yīng)的機(jī)理。
4 泛基因組學(xué)研究在種群遺傳多樣性和系統(tǒng)進(jìn)化研究中的應(yīng)用
對(duì)泛基因組學(xué)的研究,不僅可以全面地從基因組水平分析物種內(nèi)遺傳多樣性,探究個(gè)體間的系統(tǒng)發(fā)生關(guān)系和表型差異的遺傳基礎(chǔ),而且可以從物種、亞種水平分析基因組的序列變異和系統(tǒng)進(jìn)化特征,為研究物種的起源及演化等重要生物學(xué)問(wèn)題提供依據(jù)。例如,通過(guò)水稻泛基因組對(duì)6個(gè)水稻群體中與馴化有關(guān)的7個(gè)基因位點(diǎn)開(kāi)展進(jìn)化分析,發(fā)現(xiàn)Aus群體(Indica的一個(gè)亞類群)并未全部聚在栽培稻進(jìn)化分支上,從而提出Aus水稻群體處于不完全馴化選擇狀態(tài)(Zhao et al.,2018)。利用小麥泛基因組對(duì)19個(gè)小麥個(gè)體基因的PAVs進(jìn)行了發(fā)掘并構(gòu)建了系統(tǒng)進(jìn)化樹(shù),發(fā)現(xiàn)小麥品種‘中國(guó)春’位于進(jìn)化樹(shù)的基部,為小麥不同類型種質(zhì)的系統(tǒng)進(jìn)化關(guān)系和研究利用提供了理論依據(jù)(Montenegro et al.,2017)。對(duì)32只烏鴉群體的泛基因組研究,將鴉屬(Corvus)分為Jackdaw和Crow兩大支系,并在此基礎(chǔ)上探討了不同進(jìn)化分支上烏鴉的基因組結(jié)構(gòu)變異和功能性狀,尤其是發(fā)現(xiàn)烏鴉羽毛圖案差異大,但遺傳差異不大,主要受NDP 基因上游20 kb處一個(gè)大小為2.25 kb的LTR (long terminal repeats)逆轉(zhuǎn)座子插入調(diào)控 (Weissensteiner et al.,2020)。
泛基因組研究還可運(yùn)用于對(duì)不同生態(tài)地理類型中差異較大的種質(zhì)資源進(jìn)行基因組測(cè)序,挖掘物種中新的基因,為候選基因的補(bǔ)充、物種多樣性及適應(yīng)性進(jìn)化、起源經(jīng)歷和外來(lái)物種入侵性等問(wèn)題的研究提供重要信息。例如,大豆群體的生物地理分析發(fā)現(xiàn)現(xiàn)代栽培大豆起源于中國(guó)的華北地區(qū)(Liu et al.,2020),而水稻群體的相關(guān)研究發(fā)現(xiàn)現(xiàn)代栽培稻起源地應(yīng)該包括中國(guó)華南地區(qū)(Huang et al.,2012)。此外,由于一些作物的基因庫(kù)中包括多個(gè)物種,特別是具有不同遺傳結(jié)構(gòu)的野生近緣物種,需要構(gòu)建含該作物所有品種及其近緣種的遺傳圖譜以進(jìn)行更廣泛的研究,因此也有學(xué)者提出了超-泛基因組(super-pan-genome)的概念,以探討更大范圍種質(zhì)群體的遺傳基礎(chǔ)及其多樣性(Khan et al.,2020)。
5 泛基因組學(xué)研究的發(fā)展前景
真核生物的全部基因組信息包括核基因組、線粒體基因組和質(zhì)體基因組。目前的泛基因組學(xué)研究大多關(guān)注的是核基因組,而線粒體和質(zhì)體這兩種細(xì)胞器的泛基因組研究也逐漸開(kāi)始被重視。例如,研究者利用PCAWG (The Pan-Cancer Analysis of Whole Genomes) 數(shù)據(jù)庫(kù)中2 658個(gè)癌癥樣本及其匹配的正常組織樣本的全基因組數(shù)據(jù)構(gòu)建了人類線粒體基因組最全面的突變藍(lán)圖,并確定了多個(gè)高度突變類型,其中截?cái)嗤蛔儯╰runcated mutations)在腎臟癌癥、結(jié)直腸癌和甲狀腺癌中明顯富集,提示了激活特殊的信號(hào)通路或會(huì)帶來(lái)致癌影響(Yuan et al.,2020)。此外,有研究者利用321個(gè)辣椒的葉綠體基因組,構(gòu)建了辣椒5個(gè)栽培種及2個(gè)變種的葉綠體泛基因組,其不但用系統(tǒng)發(fā)育信號(hào)分析揭示了辣椒屬不同種間親緣關(guān)系的遠(yuǎn)近,也對(duì)7個(gè)葉綠體泛基因組的CDS (coding sequence)、內(nèi)含子和基因間隔區(qū)的遺傳多樣性進(jìn)行了詳盡分析,確定了rpl23和trnI的基因間隔區(qū)包含44 bp串聯(lián)重復(fù)以及其他插入缺失和單核苷酸等豐富的變異(Elmosallamy et al.,2019)。
在某些物種中,由于其基因組較大和可移動(dòng)元件的比例較高等原因,使得泛基因組研究難以有效開(kāi)展,因此,關(guān)注全部RNA信息的泛轉(zhuǎn)錄組(pan-transcriptome)研究開(kāi)始逐漸興起。許多重要作物,如玉米(Hansey et al.,2012; Hirsch et al.,2014; 簡(jiǎn)銀巧等,2017)和大麥(Ma et al.,2019),以及模式生物擬南芥(Gan et al.,2011)等的泛轉(zhuǎn)錄組研究均已有報(bào)道。
隨著多種測(cè)序技術(shù)的結(jié)合和分析策略的發(fā)展,泛基因組學(xué)相關(guān)研究呈現(xiàn)爆發(fā)式增長(zhǎng),但是大多數(shù)研究的深入程度不一,許多數(shù)據(jù)結(jié)果仍有進(jìn)一步深入挖掘的空間。尤其是構(gòu)建完整的基因圖譜后,很多研究止步于對(duì)某幾個(gè)基因的結(jié)構(gòu)變異進(jìn)行鑒定,未進(jìn)一步開(kāi)展系統(tǒng)的功能研究,更不用說(shuō)應(yīng)用于生產(chǎn)實(shí)踐。此外,隨著大量生物信息學(xué)數(shù)據(jù)的積累,單個(gè)團(tuán)隊(duì)面對(duì)浩大的數(shù)據(jù)庫(kù)也只能選擇部分?jǐn)?shù)據(jù)結(jié)果進(jìn)行深入研究,難以充分利用現(xiàn)有的數(shù)據(jù)。例如,人類基因組計(jì)劃從開(kāi)始啟動(dòng)到現(xiàn)在已經(jīng)過(guò)去30年,仍需大量的人力投入和研究分析去解決更多的問(wèn)題。因而,完善的數(shù)據(jù)共享機(jī)制和良好平臺(tái)是泛基因組學(xué)研究良性發(fā)展和應(yīng)用的一個(gè)重要條件。目前,我國(guó)已建立了國(guó)家基因組科學(xué)數(shù)據(jù)中心(NGDC,National Genomics Data Center),某些重要農(nóng)作物或農(nóng)業(yè)動(dòng)物物種的泛基因組數(shù)據(jù)也建立了數(shù)據(jù)分享平臺(tái),如豬的泛基因組數(shù)據(jù)庫(kù)PIGPAN (http://animal.nwsuaf.edu.cn/code/index.php/pan-Pig)、大白菜基因組數(shù)據(jù)庫(kù)BRAD (the Brassica database,http://brassicadb.cn)和油菜泛基因組資源數(shù)據(jù)庫(kù)(http://cbi.hzau.edu.cn/bnapus/)等。
一方面,進(jìn)一步整合更廣泛的多層次群體基因組數(shù)據(jù),如不同世代之間的泛基因組研究、整合多個(gè)物種的超-泛基因組研究等,可能是值得進(jìn)一步探索的新方向(圖2)。另一方面,隨著測(cè)序技術(shù)的不斷發(fā)展,尤其是單細(xì)胞測(cè)序技術(shù)的發(fā)展和測(cè)序成本的進(jìn)一步降低,單細(xì)胞分辨率的轉(zhuǎn)錄組圖譜已經(jīng)逐步開(kāi)始在水稻和玉米的根發(fā)育研究中獲得應(yīng)用(Satterlee et al.,2020; Liu et al.,2021)。因此,同一個(gè)體不同組織器官的泛基因組或泛轉(zhuǎn)錄基因組研究,乃至不同細(xì)胞之間的泛基因組或泛轉(zhuǎn)錄基因組研究也可能成為新的發(fā)展方向(圖2)。
參考文獻(xiàn):
1000 GENOMES PROJECT CONSORTIUM,2012. An integratedmap of genetic variation from 1092 human genomes [J]. Nature,491(7422):56-65.
ALONGE M,WANG X,BENOIT M,et al.,2020. Major impacts of widespread structural variation on gene expression and crop improvement in tomato [J]. Cell,182(1):145-1161.
BAYER PE,GOLICZ AA,TIRNAZ S,et al.,2019. Variation in abundance of predicted resistance genes in the Brassica oleracea pangenome [J]. Plant Biotechnol J,17(4):789-800.
CHEN YM,SONG WJ,XIE XM,et al.,2020. A collinearity-incorporating homology inference strategy for connecting emerging assemblies in Triticeae tribe as a pilot practice in the plant pangenomic era [J]. Mol Plant,13(12):1694-1708.
DOMNGUEZ M,DUGAS E,BENCHOUAIA M,et al.,2020. The impact of transposable elements on tomato diversity [J]. Nat Commun,11(1):4058.
ELMOSALLAMY MM,OU LJ,YU HY,et al.,2019. Pan-plastome approach empowers the assessment of genetic variation in cultivated Capsicum species [J]. Hort Res,6(1):108.
FU J,QIN QW,2012. Pan-genomics analysis of 30 Escherichia coli genomes [J]. Hereditas,34(6):765-772. [付靜,秦啟偉,2012.30株大腸桿菌的泛基因組學(xué)特征分析[J]. 遺傳,34(6):765-772.]
GAN X,STEGLE O,BEHR J,et al.,2011. Multiple reference genomes and transcriptomes for Arabidopsis thaliana [J]. Nature,477:419-423.
GAO L,GONDA I,SUN H,et al.,2019. The tomato pan-genome uncovers new genes and a rare allele regulating fruit flavor [J]. Nat Genet,51(Suppl.):1044-1051.
GOLICZ AA,BAYER PE,BARKER GC,et al.,2016. The pangenome of an agronomically important crop plant Brassica oleracea [J]. Nat Commun,7(1):13390.
GORDON SP,CONTRERAS-MOREIRA B,WOODS DP,et al.,2017. Extensive gene content variation in the Brachypodium distachyon pangenome correlates with population structure [J]. Nat Commun,8(1):2184.
HANSEY CN,VAILLANCOURT B,SEKHON RS,et al.,2012. Maize (Zea mays L.) genome diversity as revealed by RNA-sequencing [J]. PLoS ONE,7:e33071.
HIRSCH CN,F(xiàn)OERSTER JM,JOHNSON JM,et al.,2014. Insights into the maize pan-genome and pan-transcriptome [J]. Plant Cell,26(1):121-135.
HUANG XH,KURATA N,WEI XH,et al.,2012. A map of rice genome variation reveals the origin of cultivated rice [J]. Nature,490(7421):497-501.
HBNER S,BERCOVICH N,TODESCO M,et al.,2019. Sunflower pan-genome analysis shows that hybridization altered gene content and disease resistance [J]. Nat Plants,5(1):54-62.
HUFFORD MB,XU X,VAN HEERWAARDEN J,et al.,2012. Comparative population genomics of maize domestication and improvement [J]. Nat Genet,44:808-811.
HURGOBIN B,GOLICZ AA,BAYER PE,et al.,2018.Homoeologous exchange is a major cause of gene presence/absence variation in the amphidiploid Brassica napus [J]. Plant Biotechnol J,16(7):1265-1274.
JAYAKODI M,PADMARASU S,HABERER G,et al.,2020. The barley pan-genome reveals the hidden legacy of mutation breeding [J]. Nature,588(7837):284-289.
JIAN YQ,2017. Variations in pan-transcriptome and genome size in tropocal Maize (Zea mays L.) and their applications [D]. Beijing:Chinese Academy of Agricultural Sciences. [簡(jiǎn)銀巧,2017. 熱帶玉米全長(zhǎng)泛轉(zhuǎn)錄組和基因組大小變異及應(yīng)用[D]. 北京:中國(guó)農(nóng)業(yè)科學(xué)院. ]
KHAN AW,GARG V,ROORKIWAL M,et al.,2020. Super-pangenome by integrating the wild side of a species for accelerated crop improvement [J]. Trends Plant Sci,25(2):148-158.
LI RQ,LI YR,ZHENG HC,et al.,2010. Building the sequence map of the human pan-genome [J]. Nat Biotechnol,28:57-63.
LI YH,ZHOU GY,MA JX,et al.,2014. De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits [J]. Nat Biotechnol,32(10):1045-1052.
LIU Q,LIANG Z,F(xiàn)ENG D,et al.,2021. Transcriptional landscape of rice roots at the single cellrsolution [J]. Mol Plant,14(3):384-394.
LIU YC,DU HL,LI PC,et al.,2020. Pan-genome of wild and cultivated soybeans [J]. Cell,182(1):162-176.
LU F,ROMAY MC,GLAUBITZ JC,et al.,2015. High-resolution genetic mapping of maize pan-genome sequence anchors [J]. Nat Commun,6:6914.
MA YL,LIU M,STILLER J,et al.,2019. A pan-transcriptome analysis shows that disease resistance genes have undergone more selection pressure during barley domestication [J]. BMC Genomics,20:12.
MABIRE C,DUARTE J,DARRACQ A,et al.,2019. High throughput genotyping of structural variations in a complex plant genome using an original Affymetrix Axiom array Supplementary figures and tables [J]. BMC Genomics,20:848.
MEDINI D,DONATI C,TETTELIN H,et al.,2005. The microbial pan-genome [J]. Curr Opin Genet Dev,15(6):589-594.
MONTENEGRO JD,GOLICZ A,BAYER PE,et al.,2017. The pangenome of hexaploid bread wheat [J]. Plant J,90(5):1007-1013.
OU LJ,LI D,LV JH,et al.,2018. Pan-genome of cultivated pepper (Capsicum) and its use in gene presence-absence variation analyses [J]. New Phytol,220(2):360-363.
PINOSIO S,GIACOMELLO S,F(xiàn)AIVRE-RAMPANT P,et al.,2016. Characterization of the poplar pan-genome by genome-wide identification of structural variation [J]. Mol Biol Evol,33(10):2706-2719.
SATTERLEE JW,STRABLE J,SCANLON MJ,2020. Plant stem cell organization and differentiation at single-cell resolution [J]. Proc Natl Acad Sci USA,117:33689-33699.
SCHATZ MC,MARON LG,STEIN JC,et al.,2014. Whole genome de novo assemblies of three divergent strains of rice,Oryza sativa,document novel gene space of aus and indica [J]. Genome Biol,15:506.
SONG JM,GUAN ZL,HU JL,et al.,2020. Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of Brassica napus [J]. Nat Plants,6(1):34-45.
SPRINGER NM,YING K,F(xiàn)U Y,et al.,2009. Maize inbreds exhibit high levels of copy number variation (CNV) and presence/absence variation (PAV) in genome content [J]. PLoS Genet,5(11):e1000734.
SUN C,HU ZQ,ZHENG TQ,et al.,2017. RPAN:rice pan-genome browser for approximately 3000 rice genomes [J]. Nucl Acids Res,45(2):597-605.
TAO YF,ZHAO XR,MACE E,et al.,2019. Exploring and exploiting pan-genomics for crop improvement [J]. Mol Plant,12(2):156-169.
TETTELIN H,MASIGNANI V,CIESLEWICZ MJ,et al.,2005. Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae:Implications for the microbial “pan-genome” [J]. Proc Natl Acad Sci USA,102(39):13950-13955.
TIAN XM,LI R,F(xiàn)U WW,et al.,2020. Building a sequence map of the pig pan-genome from multiple de novo assemblies and Hi-C data [J]. Sci Chin Life Sci,63(5):750-763.
VAN DE WEYER AL,MONTEIRO F,et al.,2019. A species-wide inventory of NLR genes and alleles in Arabidopsis thaliana [J]. Cell,178(5):1260-1272.
WALKOWIAK S,GAO L,MONAT C,et al.,2020. Multiple wheat genomes reveal global variation in modern breeding [J]. Nature,588(7837):277-283.
WANG WS,MAULEON R,HU ZQ,et al.,2018. Genomic variation in 3,010 diverse accessions of Asian cultivated rice [J]. Nature,557(7703):43-49.
WANG YL,ZHU SS,YANG FS,et al.,2019. Pan-genome sequencing and comparative genomic analysis of atrazine-degrading bacteria [J]. Biotechnol Bull,35(7):90-99. [王婭麗,朱姍姍,楊峰山,等,2019. 莠去津降解菌泛基因組測(cè)序及比較基因組分析 [J]. 生物技術(shù)通報(bào),35(7):90-99. ]
WEISSENSTEINER MH,BUNIKIS I,CATALN A,et al.,2020. Discovery and population genomics of structural variation ina songbird genus [J]. Nat Commun,11(1):3403.
YAO W,LI GW,ZHAO H,et al.,2015. Exploring the rice dispensable genome using a metagenome-like assembly strategy [J]. Genom Biol,16(1):187.
YU JY,GOLICZ AA,LU K,et al.,2019. Insight into the evolution and functional characteristics of the pan-genome assembly from sesame landraces and modern cultivars [J]. Plant Biotechnol J,17:881-892.
YUAN Y,JU YS,KIM Y,et al.,2020. Comprehensive molecular characterization of mitochondrial genomes in human cancers [J]. Nat Genet,52:342-352.
ZHAO Q,F(xiàn)ENG Q,LU HY,et al.,2018. Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice [J]. Nat Genet,50:278.
ZHOU Y,CHEBOTAROV D,KUDRNA D,et al.,2020. A platinum standard pan-genome resource that represents the population structure of Asian rice [J]. Sci Data,7:113.
ZHU GT,HUANG SW,2020. A 360-degree scanning of population genetic variations—A pan-genome study of soybean [J]. Chin Bull Bot,55(41):56-65. [祝光濤,黃三文,2020. 360度群體遺傳變異掃描——大豆泛基因組研究[J]. 植物學(xué)報(bào),55(41):403-406. ]
(責(zé)任編輯 周翠鳴)