李蓓,姚金波,李燕,朱守鴻,房圣濤,陳偉,張永山
(中國農(nóng)業(yè)科學(xué)院棉花研究所/ 棉花生物學(xué)國家重點實驗室,河南 安陽 455000)
棉花為我國紡織業(yè)提供了重要原材料,棉花種子作為重要的食用油原料,同樣具有重要的經(jīng)濟價值[1]。 棉花的籽指影響籽棉產(chǎn)量、衣分、種子儲存性能、出苗率及棉花苗期的生長勢等性狀[2-4]。 定位和克隆棉花籽指相關(guān)的基因,能為改良棉花籽指等性狀提供基因資源,為開展棉花產(chǎn)量相關(guān)調(diào)控機制的研究和分子育種奠定基礎(chǔ)。
棉花籽指與種子大小、種子質(zhì)量和短絨數(shù)量等性狀相關(guān)。 已有報道顯示,在不同群體中得到的與棉花籽指關(guān)聯(lián)的數(shù)量性狀位點 (quantitative trait loci,QTL)往往位于多個不同染色體或區(qū)間,而且單個位點的遺傳效應(yīng)往往較低[5-6],表明籽指受多基因調(diào)控,屬于典型的數(shù)量性狀。
傳統(tǒng)的QTL 定位具有周期長、 工作量大等缺點。 隨著測序技術(shù)的不斷發(fā)展,基于第2 代高通量測序與混合群體分離分析(bulked segregant analysis,BSA)的BSA-seq 技術(shù)可對雙親和混池進行高通量測序,而無須對整個定位群體的所有單株進行基因型分析,具有成本低、效率高的特點,適合質(zhì)量性狀位點或QTL 的初步定位[7]。BSA-seq 技術(shù)已經(jīng)被廣泛應(yīng)用于水稻[8]、玉米[9]、大豆[10]等作物的QTL 定位研究,并且已在棉花中有一定的應(yīng)用[11],但目前國內(nèi)還未見利用BSA-seq 對籽指QTL 定位的報道。
以陶小鈴為母本、 大桃棉為父本進行雜交,收獲F1種子。 其中:陶小鈴來源于海陸雜交后代,植株整體偏小,葉面積及棉鈴較小,果枝較長;大桃棉的葉面積、鈴均較大,但植株緊湊,果枝較短。 F1自交后收獲F2種子。2020 年4 月份將親本及F2種植于中國農(nóng)業(yè)科學(xué)院棉花研究所東場試驗基地(河南省安陽縣)。
1.2.1樣本采集。 開花期采集親本(40 個單株)及F2群體(1 149 個單株)的嫩葉,置于2 mL 離心管中,-80 ℃保存。 采用改良的十六烷基三甲基溴化銨 (cetyl trimethyl ammonium bromide, CTAB)法提取DNA,并測定DNA 的質(zhì)量濃度,-20 ℃保存?zhèn)溆谩?/p>
1.2.2籽指調(diào)查。 成熟期分單株采摘中部棉鈴10個,晾曬后軋花,每株隨機挑選100 粒飽滿種子稱量。
1.2.3BSA 混池測序。 在F2群體中挑選具有極端籽指表型的植株, 分別構(gòu)建 “大籽指”(含32 個單株)混池和“小籽指”混池(含28 個單株)。將每個池內(nèi)單株DNA 樣品等量混合, 將混池DNA 以及親本的DNA 樣品送深圳華大基因公司進行基因組重測序。 測序平臺為BGISEQ-500。 親本測序深度為20×,混池測序深度為30×。去除測序原始數(shù)據(jù)的接頭[測序讀長(reads)中接頭序列長度超過讀長全長50%以上則刪除整條讀長],過濾未知堿基(N)比例超過10%的讀長, 去除超過50%堿基的質(zhì)量值低于10 的讀長,得到質(zhì)控后的數(shù)據(jù)(clean reads)。
1.2.4QTL 定位分析。 采用BWA(Burrow-Wheeler Aligner Tool) 軟件將質(zhì)控后的測序數(shù)據(jù)比對到TM-1 參考基因組 (ZJU 2.1 版本)[12]。 采用GATK(The Genome Analysis Toolkit) 軟件進行單核苷酸多態(tài)性(single nucleotide polymorphism, SNP)與插入缺失突變(insertion-delete mutation, InDel mutation)檢測[13]。 篩選親本間純合多態(tài)性位點,采用基于SNP-index(親本陶小鈴某位點上含有SNP 的讀長數(shù)與混池中該位點總讀長數(shù)的比值)的QTL-seq 定位分析方法[14]。在2 個混池內(nèi)分別計算SNP-index,用小籽指池的SNP-index 減去大籽指池的SNPindex 計算得到每個位點的Δ(SNP-index),然后分別計算每個位點95%和99%水平的Δ(SNP-index)置信區(qū)間,作為QTL 的篩選閾值。
親本之間籽指差異明顯, 父本籽指均值為14.7 g,母本籽指均值為7.8 g。 F2群體籽指表現(xiàn)為超親分離,分布在5.81~19.11 g(圖1)。 正態(tài)性檢驗表明,F(xiàn)2群體籽指符合正態(tài)分布(平均值為11.44 g,偏度為0.082 6,峰度為0.247 9,P=0.269 2),呈現(xiàn)典型的多基因控制的數(shù)量性狀遺傳特點。
如圖1,選取F2群體中籽指分布兩端的單株構(gòu)建混池。 其中,“大籽指” 混池籽指范圍為15.10~19.11 g,“小籽指”混池籽指范圍為5.81~7.90 g。對上述2 個混池和2 個親本的DNA 進行第2 代高通量測序分析,獲得質(zhì)控后的數(shù)據(jù)。 全基因組中測序覆蓋度≥20×的區(qū)段占比均超過90%,Q20 均大于96%(表1), 說明4 個文庫的測序結(jié)果滿足BSA-seq 分析要求。
圖1 F2 群體棉花籽指的分布
表1 測序質(zhì)量和基因組覆蓋度統(tǒng)計
在2 個親本間共篩選出純合有差異的SNP 和InDel 多態(tài)性位點3 861 792 個, 通過BSA-seq 方法,繪制了多態(tài)性位點的Δ(SNP-index)在染色體上的分布圖(圖2)。Δ(SNP-index)值越高,表示2個極端混池在該區(qū)間的SNP-index 差異越大,該區(qū)間與籽指的相關(guān)性越強。 在A07、A13、D10 染色體上,共檢測到3 個在0.05 水平顯著的區(qū)間,其具體信息見表2。 其中,A07 染色體顯著區(qū)段最長,跨度達49 Mbp,其Δ(SNP-index)值最高的區(qū)段(峰值區(qū)間)為60.3~61.3 Mbp,峰值區(qū)間內(nèi)包含2 個基因,但均未注釋,功能未知;A13 染色體顯著區(qū)段的峰值區(qū)間為3.3~4.3 Mbp, 峰值區(qū)間內(nèi)包含81 個基因;D10 染色體顯著區(qū)段的峰值區(qū)間為7.2~8.2 Mbp,峰值區(qū)間內(nèi)包含59 個基因。
表2 候選區(qū)間信息
圖2 多態(tài)性位點Δ(SNP-index)的分布
棉花種子含有豐富的蛋白質(zhì)[15],同時還是重要的油料來源[16],具有重要的經(jīng)濟價值[17]。 棉花籽指受多個相關(guān)性狀的影響,如種子大小、質(zhì)量、短絨密度等。 籽指是重要的產(chǎn)量決定因子之一[18],與衣分呈顯著負相關(guān)[19-20];同時,也對棉花的生長發(fā)育具有重要的影響,如出苗率、苗期生物量等[4]。 目前對棉花籽指相關(guān)的基礎(chǔ)研究相對薄弱, 已經(jīng)成為了制約棉花育種創(chuàng)新的瓶頸, 因此加強棉花籽指的研究刻不容緩[21]。
本研究選擇遺傳背景差異較大的親本大桃棉和陶小鈴作為籽指的研究對象, 調(diào)查發(fā)現(xiàn)其F2群體單株的籽指符合正態(tài)分布, 屬于典型的數(shù)量性狀,且表現(xiàn)出超親現(xiàn)象。 采用BSA-seq 技術(shù)分別在A07、A13、D10 染色體上均初步定位到1 個與籽指相關(guān)的QTL。 目前候選的定位區(qū)間共3 個,長度約為1.2~49.0 Mbp, 仍需QTL 精細定位以篩選有效的候選基因。 QTL 定位精度取決于控制該性狀的基因數(shù)目以及基因與其附近標(biāo)記的交換頻率,而BSA-seq 由于僅利用了混池單株的基因型信息,一般存在精度較低的缺陷[14]。 但是,前人報道表明,BSA-seq 技術(shù)定位的峰值區(qū)間往往包含目的基因[22]。本研究定位的3 個峰值區(qū)間共包含142 個基因,這些基因可作為重點候選基因用于后續(xù)研究。
劉大軍等[23]利用陸地棉重組近交系群體鑒定了9 個與籽指相關(guān)的QTL,分別定位于A02、A06、A09、A11、A12、D01、D02、D05 和D12 染 色 體 上;伊海法[24]利用陸地棉重組近交系群體也檢測到3個與籽指相關(guān)的QTL,分別位于A03、D07、D09 染色體上。前人定位結(jié)果與本研究定位結(jié)果沒有重合的區(qū)間,究其原因,可能有2 個方面:首先,由于籽指是1 個復(fù)合性狀, 受到多個遺傳因素的控制,不同研究使用的材料間存在不同的位點分離,關(guān)聯(lián)位點重合度較低;其次,本研究使用的小籽指材料來源于海陸雜交后代,遺傳背景與普通陸地棉差異較大,故定位的QTL 可能為前人未報道的新位點。