楊杰芳,甘 然,曾慶南, 程 平,王海霞
(江西省林業(yè)科學(xué)院,江西 南昌 330032)
雷竹(Phyllostachysviolascens‘Prevernalis’)是早竹的變種,因驚蟄出筍得名,又名雷打竹、打雷竹、燕竹、天雷竹等,筍期早、筍味鮮甜,深受市場(chǎng)歡迎。該竹種原產(chǎn)于浙江臨安、余杭一帶,當(dāng)?shù)赜薪?jīng)營(yíng)和食用雷竹筍的習(xí)慣,種植面積一度超6.7萬(wàn)hm2。近年來(lái),隨著勞動(dòng)力成本不斷攀升和林分退化,雷竹產(chǎn)業(yè)成功的向江西東北部轉(zhuǎn)移,在贛東北地區(qū)已形成了7.3萬(wàn)hm2的穩(wěn)定種植區(qū)[1]。雷竹在長(zhǎng)期人工栽培過(guò)程中,種內(nèi)產(chǎn)生了一定程度的遺傳變異,形成了若干變異類型。目前,對(duì)其研究多在植株形態(tài)性狀、竹筍產(chǎn)量或品質(zhì)的測(cè)定等方面,較少涉及細(xì)胞學(xué)、生化以及分子生物學(xué),分子生物學(xué)方面有運(yùn)用RAPD、AFLP等標(biāo)記研究雷竹不同變異類型間存在親緣關(guān)系和遺傳變異[2],但不同栽培類型可以區(qū)分,雷竹基因及其遺傳多樣性研究更是薄弱。為了更好的評(píng)價(jià)雷竹種質(zhì)資源,對(duì)雷竹開(kāi)展基因研究十分必要。
植物單倍體基因組內(nèi)所含DNA的總量,稱為基因組的大小,即C值。每個(gè)物種的C值是固定的,可用于評(píng)估植物的生物學(xué)特性,為其基因組和轉(zhuǎn)錄組學(xué)的研究提供依據(jù),是比較和進(jìn)化基因組學(xué)研究的基礎(chǔ)。目前,測(cè)定基因組大小的方法眾多,如流式細(xì)胞技術(shù)通過(guò)分析染色體組型信息推斷其基因組大小,通過(guò)基因組跳槽分析預(yù)測(cè)基因組大小、重復(fù)序列及早合度等[3-5]。
研究采用低深度、高通量測(cè)序?qū)字窕蚪M進(jìn)行初步研究,采用K-mer法預(yù)測(cè)雷竹基因組大小、雜合度和重復(fù)序列等信息,為后續(xù)雷竹基因組測(cè)序和分析提供依據(jù)。
試驗(yàn)材料來(lái)自于江西省林業(yè)科學(xué)院竹類國(guó)家林木種質(zhì)資源庫(kù)保存的細(xì)葉烏稍雷竹(弋陽(yáng)種源),選取本年度新竹的嫩葉作為待測(cè)對(duì)象,于2021年5月10日采集,采集后及時(shí)放液氮內(nèi)保存,帶回試驗(yàn)室處理待測(cè)。
測(cè)前,先采用1%的瓊脂糖電泳檢測(cè)DNA樣品是否有降解以及雜質(zhì);NanoPhotometer?分光光度計(jì)檢測(cè)樣品純度(IMPLEN, CA, USA);Qubit? 2.0 Flurometer(Life Technologies, CA, USA)檢測(cè)DNA樣品濃度。
基因組調(diào)查由武漢古奧基因科技有限公司完成。檢測(cè)合格的DNA樣品通過(guò)Covaris超聲波破碎儀隨機(jī)打斷成長(zhǎng)度為300~350 bp的片段,用1ug gDNA模板,根據(jù)TruSeq DNA Sample Preparation Guide(Illumina,15026486 Rev.C)方法經(jīng)末端修復(fù)、加A尾、加測(cè)序接頭、純化、PCR擴(kuò)增等步驟完成整個(gè)文庫(kù)制備。文庫(kù)構(gòu)建完成后,先使用Qubit 2.0進(jìn)行初步定量,稀釋文庫(kù)至1 ng·μL-1,隨后使用Agilent 2100對(duì)文庫(kù)的insert size進(jìn)行檢測(cè),insert size符合預(yù)期后,使用Bio-RAD CFX 96熒光定量PCR儀,Bio-RAD KIT iQ SYBR GRN進(jìn)行Q-PCR,對(duì)文庫(kù)的有效濃度進(jìn)行準(zhǔn)確定量(文庫(kù)有效濃度>10 nM)。構(gòu)建好的文庫(kù)通過(guò)Illumina Hiseq進(jìn)行PE(150)測(cè)序。
測(cè)序數(shù)據(jù)的產(chǎn)生是經(jīng)過(guò)了DNA提取、建庫(kù)、測(cè)序多個(gè)步驟的,為減少無(wú)效數(shù)據(jù)對(duì)生物信息數(shù)據(jù)高級(jí)分析帶來(lái)干擾,比如建庫(kù)階段長(zhǎng)度的偏差、測(cè)序階段測(cè)序錯(cuò)誤等情況,測(cè)序過(guò)程中,通過(guò)以下方法過(guò)濾無(wú)效數(shù)據(jù):
高通量測(cè)序(illuminanova 6000)得到的原始圖像數(shù)據(jù)文件經(jīng)堿基識(shí)別(Base Calling)分析轉(zhuǎn)化為原始測(cè)序序列(Sequenced Reads),原始測(cè)序數(shù)據(jù)中會(huì)包含接頭信息、低質(zhì)量堿基、未測(cè)出的堿基(以N表示),這些信息會(huì)對(duì)后續(xù)的信息分析造成很大的干擾,通過(guò)精細(xì)的過(guò)濾方法過(guò)濾掉(Clean Data)含有接頭序列的reads,去除由于PCR擴(kuò)增等原因引起的duplicated reads,當(dāng)單端測(cè)序read中的一端含有的N的含量超過(guò)該條read長(zhǎng)度比例的 10% 時(shí)去除此對(duì)pairedreads;當(dāng)單端測(cè)序read中的一端含有的低質(zhì)量(<=5)堿基數(shù)超過(guò)該條read長(zhǎng)度比例的 50% 時(shí)去除此對(duì)paired reads,得到有效數(shù)據(jù)。
基于Clean Data,采用K-mer法對(duì)雷竹基因組大小進(jìn)行估計(jì)。取K值為17,統(tǒng)計(jì)A、T、C、G4中堿基的K-mer值,根據(jù)Lander-waterman算法計(jì)算K-mer總數(shù)和深度,并據(jù)此統(tǒng)計(jì)K-mer頻數(shù)分布、計(jì)算繪制K-mer曲線,根據(jù)曲線獲得K-mer深度C值、預(yù)估基因組大小。
Qubit檢測(cè)DNA濃度為2 330.0 ng·μL-1,OD260/280=1.95、OD260/230=2.22、NC/QC=1.22,提取的DNA質(zhì)量較好,基因片段長(zhǎng)度97.03%集中在6 659-60 000 bp之間、峰值為59 475 bp(見(jiàn)圖1),樣本總量和質(zhì)量均能滿足建庫(kù)要求。
圖1 雷竹基因電子電泳圖Fig.1 Gene electrophoresis map of Phyllostachys violascens ‘Prevernalis’
研究采用二代Illumina Nova測(cè)序平臺(tái)、雙端測(cè)序獲得長(zhǎng)150 bp的小片段文庫(kù)測(cè)序原始數(shù)據(jù)199.41 Gb,獲得雷竹ReadNum 1 335 892 282條,Q20=97.89%,Q30=93.88%,說(shuō)明剪輯測(cè)序準(zhǔn)確度較高,滿足后續(xù)數(shù)據(jù)分析要求。雷竹基因組測(cè)序數(shù)據(jù)中A與T、C與G的互補(bǔ)堿基數(shù)基本一致、位置堿基N為0,但由于前幾個(gè)堿基測(cè)序質(zhì)量較低、DNA模板擴(kuò)增偏差等原因,導(dǎo)致每個(gè)Reads前幾個(gè)堿基有較大波動(dòng),是正?,F(xiàn)象(見(jiàn)圖2)。GC含量呈現(xiàn)出單峰(圖3)。同時(shí),進(jìn)行NT庫(kù)對(duì)比(見(jiàn)表1),結(jié)果顯示,雷竹基因比對(duì)到近源物種剛竹屬毛竹(Ph.edulis)和禾本科水稻的DNA上,證明該文庫(kù)數(shù)據(jù)中不含有明顯的外援污染。
表1 雷竹樣本的文庫(kù)數(shù)據(jù)NT庫(kù)比對(duì)
圖2 堿基頻率分布圖Fig.2 Base frequency distribution
圖3 GC含量分布結(jié)構(gòu)圖Fig.3 GC content distribution structure
基于K-mer分析法來(lái)估計(jì)基因組的大小、雜合率及重復(fù)序列信息。取K=17,根據(jù)Lander-waterman算法、泊松分布法統(tǒng)計(jì)K-mer頻數(shù)分布,進(jìn)而計(jì)算獲得K-mer深度分布曲線和深度乘積曲線,并根據(jù)曲線K-mer深度估計(jì)值c,估計(jì)雷竹基因組的大小。計(jì)算得到K-mer數(shù)為131 976 528 091,基因組大小約為1 913 Mb,修正后為1 897 Mb,雜合率為1.7%,重復(fù)序列比例為69.38%,詳細(xì)情況見(jiàn)表1。
表2 雷竹基因組特征統(tǒng)計(jì)分析(K=17)
圖4 深度和K-mer頻率分布圖Fig.4 Depth and K-mer frequency distribution
雷竹是禾本科竹亞科剛竹屬植物,剛竹屬是人類開(kāi)發(fā)利用強(qiáng)度較高的竹類植物,雷竹則是近年來(lái)經(jīng)濟(jì)貢獻(xiàn)較高的一個(gè)竹種,然而已發(fā)布的竹類植物基因組仍然較少。
高通量測(cè)序是一種精確的分析未知基因組的方法,研究采用高通量測(cè)序?qū)字窕蚪M進(jìn)行初步研究,結(jié)果表明雷竹基因組雜合度較高(1.7%),說(shuō)明雷竹基因序列差異大,有性繁殖難度大,種群擴(kuò)大很大程度上依賴于無(wú)性繁殖。同時(shí),雷竹基因重復(fù)片段多(69.38%),屬于復(fù)雜的植物基因組,基因組大小約為1 897 Mb,是水稻基因組的4倍多,全基因組數(shù)據(jù)量大,基因組裝難度也相對(duì)較大。
加強(qiáng)雷竹基因組的研究,明確雷竹遺傳資源的遺傳基礎(chǔ),探明雷竹遺傳資源的遺傳多樣性和親緣關(guān)系,為雷竹遺傳資源的保存、測(cè)定、評(píng)價(jià)、遺傳育種和合理開(kāi)發(fā)提供科學(xué)依據(jù),是林下經(jīng)濟(jì)、竹筍產(chǎn)業(yè)發(fā)展的物質(zhì)基礎(chǔ),對(duì)解決當(dāng)前雷竹種質(zhì)資源混雜和指導(dǎo)雷竹生產(chǎn)具有十分重要的意義。