夏詩琪,歐陽天林,溫 強,周成釧,樓浙輝,宋 穎,3,劉麗婷★
(1.江西省林業(yè)科學院,江西 南昌 330013;2.江西省林業(yè)科技實驗中心,江西 贛州 341600;3.華南農(nóng)業(yè)大學·林學與風景園林學院,廣東 廣州 510642)
花櫚木(Ormosia henryi)為豆科(Leguminosae)紅豆屬(Ormosia)常綠喬木,在中國屬珍貴樹種,多生于亞熱帶地區(qū)的低海拔常綠闊葉林中?;澳緲湫蝺?yōu)美,樹姿挺拔,是優(yōu)良的園林綠化或防火樹種?;澳具m合材用,其木質(zhì)細膩,紋理精美。在藥用價值方面,其全株均可入藥,具有治療抑郁、鎮(zhèn)定安神等多種功效[1-2]。近年來,由于人類對花櫚木資源的不合理開發(fā)利用,花櫚木的野生資源已處于瀕危狀態(tài),同時因其種子種皮致密堅硬,不易萌芽,自然繁殖能力較弱,當前花櫚木的野外種群數(shù)量銳減[3],現(xiàn)已被列為國家二級重點保護野生植物。
現(xiàn)有文獻表明,國內(nèi)外對花櫚木的研究多集中在種苗擴繁、藥效分析[4-5]、遺傳分析、資源分布及評價[6-8]等領域,在遺傳特性方面的研究還較少。為進一步對花櫚木群體遺傳學等領域開展研究,發(fā)掘、保護和利用其遺傳資源,有必要開展花櫚木基因組的研究。
基因組大小(DNA C值)是一個評價生物單倍體細胞核DNA含量的關鍵指標[9],基因組特征研究是植物基因資源開發(fā)和分子機制研究的前提[10-11]。目前測定基因組大小的方法主要有流式細胞術和基于K-mer分析的基因組Survey測序。流式細胞術常用于評估基因組大小及倍性水平,基因組Survey測序具有速度快且數(shù)據(jù)量大等優(yōu)點[12-13]。近年來,基于流式細胞術及Genome Survey技術的豆科植物基因組研究已逐漸開展,但多集中在草本植物,如大豆(Glycine max)、綠豆(Vigna radiata)、苜蓿(Medicago sativa)、鷹嘴豆(Cicer arietinum)等均已完成了全基因測序[14],對豆科中木本植物的基因組研究還較少。本研究以花櫚木為材料,采取流式細胞術和基于K-mer分析的基因組Survey測序兩種方法,估測花櫚木基因組大小,并獲得基本特征信息,以期為花櫚木的系統(tǒng)進化和基因資源開發(fā)等研究奠定基礎。
花櫚木樣品采自江西省林業(yè)科學院苗圃,取健康花櫚木植株的新鮮葉片,經(jīng)液氮速凍后置于-80℃超低溫冰箱保存,備用。內(nèi)參植物為豌豆(Pisum sativum)。
1.2.1 細胞核懸浮液制備
細胞核懸浮液的制備是流式細胞術的基礎。取0.8 mL mGb解離液進行預冷,加入1 g待測花櫚木樣品并迅速垂直切碎其組織,使之與解離液充分接觸。靜置10 min后用400目濾網(wǎng)過濾至離心管中,經(jīng)離心后棄上清液,收集細胞核沉淀再加入200μL解離液即得到細胞核懸浮液。選用非特異染料碘化丙啶(propidium iodide,PI)對細胞核DNA進行熒光標記,在暗處染色20 min后備用。
1.2.2 流式細胞儀檢測
單獨測定內(nèi)參植物和待測植物的熒光峰強度,并以此為依據(jù),調(diào)整二者的混合比例,使共進樣品時兩種植物細胞核濃度一致,然后進行檢測。利用BD FACScalibur流式細胞儀對染色后的細胞核懸浮液樣品上機檢測,電壓為290 V,采用488 nm藍光激發(fā),檢測PI的熒光強度,每次檢測收集參數(shù)設定為10 000。變異系數(shù)(coeffcient of variation,CV)需要控制在5%以內(nèi)[15]。使用Modifit 3.0分析軟件作圖分析。
1.2.3 基因組大小計算
PI染色時,其嵌入量與DNA含量呈正比,因?qū)φ諛悠返幕蚪M大小已知,根據(jù)待測植物與內(nèi)參植物的熒光比值即可測定待測植物的DNA含量。計算公式為:待測植物DNA含量=內(nèi)參植物DNA含量×待測植物的熒光強度/內(nèi)參植物的熒光強度。觀察花櫚木和豌豆PI-DNA復合體的熒光峰值,得出二者DNA含量的比值,再與豌豆的C值相乘,即可計算出花櫚木的C值。
1.2.4 基因組DNA提取與建庫測序
采用改良CTAB法進行花櫚木基因組DNA提取,DNA質(zhì)量檢測合格后,經(jīng)Covaris超聲波破碎儀隨機打斷,構建插入片段為400 bp的DNA文庫,在Illumina Hiseq X-ten上進行雙末端(Paired-End)測序,經(jīng)SOAP nuke v1.6.5軟件質(zhì)控過濾后得到高質(zhì)量數(shù)據(jù),利用SOAP de novo進行數(shù)據(jù)組裝,采用模擬數(shù)據(jù)擬合的方法評估基因組雜合率,用CASAVA軟件對原始圖像數(shù)據(jù)進行識別。
1.2.5 基因組大小預測和雜合度估計
將測序所得的高質(zhì)量數(shù)據(jù)用于K-mer分析,K-mer是從測序數(shù)據(jù)中提取出的長度為K的寡聚核苷酸序列[16]。本研究取K=41進行分析,對序列進行頻率作圖,得到K-mer分布曲線,根據(jù)公式計算基因組大小(基因組大小=K-mer總數(shù)/K-mer期望深度)?;蚪M重復序列比例根據(jù)K-mer曲線分布圖的拖尾現(xiàn)象評估,基因組的雜合率通過雜合峰值/純合峰值來確定。
1.2.6 樣品污染評估
樣品污染問題在基因組研究中有著決定性的地位[17],在開展基因組調(diào)查前,需查明所提取的樣品DNA是否存在污染物種。本研究中,對過濾后的高質(zhì)量數(shù)據(jù)隨機抽取10 000條reads(read1和read2各5 000條)數(shù)據(jù),運用Blast軟件與NCBI核苷酸數(shù)據(jù)庫(NT庫)進行比對,計算與NT庫比對上的reads占總reads數(shù)目的比例,查看比對上的物種是否為樣本的近緣物種,以此判斷樣品有無污染。在NT庫比對結(jié)果中,若為同源比對,則認為樣品材料未被污染。
1.2.7 GC含量分布分析
物種GC(堿基對)含量是評估調(diào)研圖分析準確性和后續(xù)基因組精細組裝難度的重要指標之一[18]。利用contigs覆蓋深度分布與GC含量分布構建GCdepth關聯(lián)圖進行分析。
使用流式細胞術測定物種基因組大小時,常使用內(nèi)參法。本研究以已知基因組大小的豌豆(基因組大小為4.45 Gb)為內(nèi)參植物,進行細胞流式實驗,估算花櫚木的基因組大小。同時對豌豆和花櫚木的PI發(fā)射熒光強度進行測定分析,得到圖1。由圖1可知,豌豆和花櫚木所呈現(xiàn)的峰在形狀上均尖而細,碎片背景也非常少,二者測定峰的位置沒有重疊干擾,保證了用豌豆做內(nèi)參的準確性。經(jīng)2次重復測定,得到花櫚木與內(nèi)參植物豌豆熒光強度的比值,由此測算得到花櫚木的基因組大小為2.99 Gb和3.01 Gb(表1)。
圖1 花櫚木流式細胞術檢測Fig.1 Flow cytometry detection of Ormosia henryi
表1 花櫚木基因組測定Tab.1 O.henryi genomic assay
基于Illumina Hiseq平臺進行雙PE150測序,獲得花櫚木reads數(shù)量190 771 231對,共57.23 Gb原始數(shù)據(jù)(表2)。以Q20與Q30為指標衡量測序質(zhì)量,其中,Q20比率為96.47%、Q30比率為90.68%,測序錯誤率正常(<0.05%)。
表2 花櫚木測序數(shù)據(jù)統(tǒng)計Tab.2 Sequencing data statistics of O.henryi
利用K-mer的分析方法來預測花櫚木基因組的大小、雜合率和重復序列等基因組特征。當取K=41時,得到其K-mer的頻率分布情況(圖2),K-mer曲線在depth=28附近出現(xiàn)主峰,經(jīng)計算后得到花櫚木基因組大小為3.05 Gb,修正后為3.01 Gb。由圖2可知,K-mer分布曲線出現(xiàn)較為明顯的拖尾現(xiàn)象。根據(jù)Kmer的深度分布,估計重復序列比率為82.23%,以雜合峰值與純合峰值的比值計算得到花櫚木基因組雜合率為1.04%。利用SOAP de novo軟件預測得到Kmer總數(shù)為85 418 954 938(表3)。
圖2 K-me r17的分布頻率Fig.2 Distribution frequency of K-mer17
表3 基因組特征統(tǒng)計Tab.3 Feature statistics of genome sequences
利用SOAP de novo軟件對花櫚木有效基因組數(shù)據(jù)進行初步組裝和拼接,本研究K-mer值取41得到最佳拼接效果(表4),共獲得4 066 523條contigs,基因組總長度為1 343 713 339 bp,最長的contig長度為54 197 bp,N50長度為656 bp,N90長度為127 bp。在此基礎上進一步組裝得到3 866 097條scaffolds,拼接總長度為1 364 689 951 bp,最長序列為59 305 bp,N50為762 bp,N90為130 bp。
表4 基因組組裝統(tǒng)計Tab.4 Statistics of outcome of genome assembly
隨機選取10 000條單端reads,與NT庫BLAST比對,核苷酸比對結(jié)果顯示(表5),比對率最高的6個物種均為豆科不同屬物種,大豆、黃羽扇豆(Lupinus luteus)、鷹嘴豆、百脈根(Lotus corniculatus)、水黃皮(Millettia pinnata)、蠶豆(Vicia faba),表明此研究中的樣品不存在污染,可正常用于后續(xù)分析。
表5 原始數(shù)據(jù)文庫與NT庫比對Tab.5 Blast of raw date with NT database
針對組裝的contigs統(tǒng)計GC含量,并進行了GC含量與測序深度的關聯(lián)分析(圖3),結(jié)果表明,GC含量主要集中在40%,沒有明顯的GC偏向性,GCdepth散點未出現(xiàn)明顯的分層現(xiàn)象,說明未出現(xiàn)外源污染情況,不影響后續(xù)的拼接和注釋。經(jīng)計算分析,得到花櫚木基因組GC含量為37.17%。
圖3 GC-depth分布Fig.3 The distribution of GC-depth
基因組大小是物種最基礎的基因多樣性特征參數(shù),指一個物種單倍體基因組的DNA含量[19]。每個物種都有其獨特的C值,通過測定物種基因組大小,可以對物種全基因組測序、物種鑒定、系統(tǒng)分類及進化、遺傳資源挖掘與保護等方面的研究提供參考和理論依據(jù)[20-21]。目前基因組大小的測定方法主要有基因組調(diào)查測序法、流式細胞術、實時熒光定量PCR法、孚耳根微顯影技術、Feulgen染色圖像密度分析等[22-23]。其中基于K-mer分析的Genome Survey是一種更高效、準確的方法,能夠在開展全基因組測序工作之前,對目標物種基因組特征進行估測,進而可為后續(xù)全基因組測序策略選擇提供數(shù)據(jù)參考[23-24]。同時,流式細胞術由于具有操作快捷簡便、分辨率和準確率高等優(yōu)點,也被廣泛運用于物種染色體倍性及核型分析、基因組大小測定、種質(zhì)鑒定等研究[15-16]。
在使用流式細胞術對基因組大小進行測定時,其準確性直接受樣品處理、對照標準選擇、流式測定條件、熒光染料種類、濃度及染色時間等因素影響[25]。本研究中,使用PI進行DNA特異性染色,PI的吸光波長為480~580 nm,熒光波長為623 nm,采用波長為488 nm的藍光激發(fā),其與PI的最大激發(fā)波長相一致,由此可以保證流式細胞術測定基因組大小的準確度。本研究經(jīng)流式細胞術實驗后得到的直方圖分辨率高、峰圖平滑且完整,表明以PI作為熒光染料測定花櫚木基因組大小可行,結(jié)果具有參考價值。Genome Survey分析中,BLAST結(jié)果亦未發(fā)現(xiàn)其他科樹種或動物類、微生物類的高比率情況,表明此研究中的樣品不存在污染,可正常用于后續(xù)分析。
隨著高通量測序技術的迅速發(fā)展,目前已有多種豆科草本植物的全基因組被解析,如大豆、豌豆、紫花苜蓿(Medicago sativa)、蠶豆、綠豆和蒺藜(Tribulus terrestris)、苜蓿等作物,在遺傳學和基因組學方面已建立模式系統(tǒng),為豆科生物學研究提供了一定的基礎理論指導?;澳緸槎箍萍t豆屬樹種,目前對豆科木本植物參考基因組的研究鮮有報道。本研究通過流式細胞術對花櫚木基因組大小進行測定,所得的基因組大小為2.99 Gb和3.01 Gb。在此基礎上,利用了基于Illumina Hiseq測序平臺的K-mer分析技術進一步測定及驗證,得到花櫚木的基因組大小為3.01 Gb,與前者所得基本一致。兩種方法結(jié)合使用對花櫚木基因組進行分析與評估,獲得基因組的大小、重復序列、GC含量等信息,提高了研究的可靠性,使所得結(jié)果更全面、準確。
通常情況下,當GC含量處于25%~65%時,分析結(jié)果可信度較高[26]。本研究中,花櫚木的基因組GC含量為37.17%,無明顯偏性,說明測序中不含有污染,結(jié)果可靠。重復序列比例為82.23%,雜合率高達1.04%,表明該基因組為高重復高雜合基因組。為了進一步獲得高質(zhì)量的全基因組圖譜,后續(xù)研究策略可考慮結(jié)合三代測序PacBio和Illumina測序平臺,輔以高通量染色體構象捕獲(Hi-C)技術及相應的拼接組裝軟件進行基因組的組裝,以完成花櫚木全基因組的測序研究。