賈曉昀,王士杰,朱繼杰,趙紅霞,李妙,王國印
河北省農(nóng)林科學(xué)院糧油作物研究所/河北省作物遺傳育種實驗室/河北省作物栽培生理與綠色生產(chǎn)重點實驗室,石家莊 050035
【研究意義】中國是世界上棉花消費(fèi)量最大的國家。據(jù)中國棉花協(xié)會官方統(tǒng)計,近年來,中國的棉花產(chǎn)量始終無法滿足消費(fèi)量,存在較大缺口,年進(jìn)口量居高不下(https://www.china-cotton.org/data/demandData)。此外,由于當(dāng)前國際環(huán)境的波動性增加,棉花市場的穩(wěn)定性較差。因此,保障中國棉花的自給能力對國內(nèi)紡織工業(yè)的發(fā)展具有重要現(xiàn)實意義,高產(chǎn)育種仍然是目前棉花育種的主要任務(wù)[1]?!厩叭搜芯窟M(jìn)展】衣分、子指和單鈴重是棉花產(chǎn)量的重要構(gòu)成性狀,且均為典型的數(shù)量性狀,QTL定位是挖掘其調(diào)控基因的主要方法之一[2]。自1994年第一張棉花遺傳圖譜公布以來[3],棉花重要性狀的分子遺傳基礎(chǔ)研究拉開序幕,大量基于以SSR標(biāo)記為代表構(gòu)建的遺傳圖譜和產(chǎn)量相關(guān)QTL位點被公布[4]。但是,由于對陸地棉基因組信息的了解較少,加之標(biāo)記密度較低,標(biāo)記開發(fā)及材料的基因型鑒定過程費(fèi)時費(fèi)力,前期QTL定位結(jié)果的準(zhǔn)確度和精度普遍偏低。二倍體雷蒙德氏棉的參考基因組首先于 2012年公布[5-6],隨后二倍體的亞洲棉[7]、異源四倍體的陸地棉[8-9]等棉種的參考基因組陸續(xù)公布,并且陸地棉TM-1參考基因組的組裝質(zhì)量不斷提高[10-11],NDM8參考基因組的公布進(jìn)一步促進(jìn)了對中國自育優(yōu)異品種基因組結(jié)構(gòu)和變異的認(rèn)識[12]。基于此,曲朝陽等[13]、WANG 等[14]利用一張包含6 295個SNP的遺傳圖譜,分別定位到32個單鈴重 QTL和 28個衣分 QTL。ZHANG等[15]利用SLAF-seq技術(shù)構(gòu)建了一張包含5 521個SNP的高密度遺傳圖譜,在11個環(huán)境下定位到18個穩(wěn)定的單鈴重QTL,注釋到344個候選基因。利用高質(zhì)量的整合圖譜,ZHANG等[2]在17個環(huán)境下進(jìn)行棉花產(chǎn)量和纖維品質(zhì)的QTL定位,綜合分析了產(chǎn)量和纖維品質(zhì)的分子遺傳基礎(chǔ)和相互關(guān)系。DIOUF等[16]利用GBS技術(shù)構(gòu)建了一張包含5 178個SNP的高密度遺傳圖譜,定位到13個棉花產(chǎn)量QTL。GU等[17]構(gòu)建了一張包含6 187個bin的高密度遺傳圖譜,定位60個產(chǎn)量QTL,預(yù)測了1個衣分的候選基因。然而,目前,基于高密度SNP遺傳圖譜開展棉花產(chǎn)量性狀的 QTL定位研究仍然較少,已知的產(chǎn)量候選基因暫時無法充分闡釋相關(guān)性狀的分子調(diào)控機(jī)理?!颈狙芯壳腥朦c】目前,限制分子標(biāo)記輔助育種效率的主要原因是對棉花產(chǎn)量相關(guān)的調(diào)控基因或分子標(biāo)記了解較少,而且,用于棉花產(chǎn)量性狀QTL定位的高密度SNP遺傳圖譜數(shù)量較少,不同材料間QTL定位結(jié)果的重復(fù)性較差,優(yōu)異基因挖掘的效率較低。冀豐1271由河北省農(nóng)林科學(xué)院糧油作物研究所選育,株型舒朗通透,具有突出的高產(chǎn)、穩(wěn)產(chǎn)、抗?fàn)€鈴等特征,為目前河北省區(qū)域試驗對照品種。冀豐173為河北省農(nóng)林科學(xué)院糧油作物研究所選育的自交系,具有纖維品質(zhì)優(yōu)異、結(jié)鈴?fù)滦跫械忍卣?。二者在產(chǎn)量性狀方面差異極顯著?!緮M解決的關(guān)鍵問題】本研究以冀豐1271為母本、冀豐173為父本構(gòu)建一個新的遺傳分離群體,利用簡化基因組測序技術(shù)構(gòu)建高密度SNP遺傳圖譜,開展多群體產(chǎn)量相關(guān)性狀的QTL定位,獲得穩(wěn)定性好、精確度高的QTL,為產(chǎn)量性狀調(diào)控基因的挖掘和有效分子標(biāo)記的開發(fā)提供更多研究基礎(chǔ)。
以冀豐1271(冀審棉2012002號)為母本、冀豐173(自交提純)為父本,于2018年夏季在河北省農(nóng)林科學(xué)院糧油作物研究所堤上試驗站(石家莊)完成雜交組配,同年冬季在河北省農(nóng)林科學(xué)院糧油作物研究所南繁基地(三亞南紅農(nóng)場)加代種植F1并自交。于2019年夏季在石家莊種植F2群體(402個單株),行長7 m,行距0.7 m,株距0.2 m。根據(jù)編號順序,從F2群體中選擇前200個正常生長的單株連續(xù)自交,于2020年和2021年夏季在石家莊分別種植F2:3和F2:4群體,行長4 m,行距0.7 m,株距0.2 m,隨機(jī)區(qū)組設(shè)計,2次重復(fù)。常規(guī)大田管理。
調(diào)查衣分(lint percentage,LP)、子指(seed index,SI)和單鈴重(boll weight,BW)3個產(chǎn)量性狀。自然吐絮后,人工采收,F(xiàn)2群體單株收獲并計數(shù),F(xiàn)2:3和F2:4群體每行收獲植株中部30鈴,稱重計算單鈴重,軋花后稱取皮棉重量,計算皮棉與籽棉重量的比值即為衣分,數(shù)出100粒正常的種子稱重即為子指。
F2群體的單株性狀即為表型性狀,F(xiàn)2:3和F2:4群體重復(fù)的平均數(shù)為表型性狀。采用Excel 2010計算基本統(tǒng)計量,采用SPSS17計算性狀之間的相關(guān)性。
采用CTAB法提取F2群體幼葉DNA,檢測合格后,利用序基因分型(genotyping by sequencing,GBS)[18-19]方法開發(fā)SNP。以MseⅠ和TaqαⅠ(Thermo scientific Fermentas)2種酶對DNA進(jìn)行酶切;鏈接接頭;膠回收397—420 bp的DNA片段(Qiagen,Valencia,CA),并進(jìn)行 PCR擴(kuò)增(Phusion High-fidelity,F(xiàn)innzymes)后,在Illumina HiSeqTM平臺進(jìn)行測序。根據(jù)LI等[20]數(shù)據(jù)分析方法過濾下機(jī)數(shù)據(jù),并以BWA(0.7.17)軟件[21]將高質(zhì)量序列比對至TM-1參考基因組[10]。利用GATK(4.0.11.0)軟件[22]鑒定SNP標(biāo)記。利用MSTMap軟件[23]構(gòu)建遺傳圖譜。
采用 WinQTLCart 2.5軟件復(fù)合區(qū)間作圖法(composite interval mapping,CIM)進(jìn)行QTL定位,窗口大小為5 cM,步長為1 cM,背景標(biāo)記為10個,LOD值為2.5。貢獻(xiàn)率在10%以上的QTL為主效QTL,至少在2個群體內(nèi)檢測到的QTL為穩(wěn)定QTL。根據(jù)參考基因組信息,注釋主效和穩(wěn)定QTL的95%置信區(qū)間內(nèi)的基因,利用在線工具 KOBAS(http://kobas.cbi.pku.edu.cn/)進(jìn)行KEGG和GO分析,利用TM-1[24]和NDM8[12]的轉(zhuǎn)錄組數(shù)據(jù)分析基因的表達(dá)模式。
由表1的統(tǒng)計數(shù)據(jù)可知,經(jīng)過對GBS下機(jī)數(shù)據(jù)過濾,母本冀豐 1271得到 26.93 Gb數(shù)據(jù),Q30值為90.55%,父本冀豐173得到27.30 Gb數(shù)據(jù),Q30值為89.95%,200個F2單株共得到328.84 Gb數(shù)據(jù),平均Q30值為95.77%,均達(dá)到測序深度要求的數(shù)據(jù)量和數(shù)據(jù)質(zhì)量。經(jīng)過與參考基因組比對,冀豐 1271和冀豐173的比對率分別為99.64%和99.47%,測序深度分別為9.58×和9.69×,對基因組的覆蓋度分別為86.45%和 84.28%;F2群體的比對率為 99.69%,平均深度為0.70×,覆蓋度為 4.17%。測序數(shù)據(jù)已上傳至 NCBI數(shù)據(jù)庫(PRJNA867015)。
表1 過濾后的測序數(shù)據(jù)量、數(shù)據(jù)質(zhì)量及比對至參考基因組的基本統(tǒng)計量Table 1 Number and quality of the clean reads and statistics of mapping with the reference genome sequence
以F2群體為試驗材料開發(fā)分子標(biāo)記,共得到1 305 642個SNP,分為8類標(biāo)記類型,其中,用于后續(xù)遺傳圖譜構(gòu)建的aa×bb型SNP標(biāo)記有410 726個(表2)。
表2 標(biāo)記類型及數(shù)量統(tǒng)計Table 2 Statistics of marker type and marker number
首先,根據(jù)標(biāo)記在參考基因組上的位置,將標(biāo)記錨定到26條染色體。其次,根據(jù)標(biāo)記在F2群體中的交換重組關(guān)系,計算標(biāo)記之間的順序和相對距離,在LOD值為4—20,逐條染色體構(gòu)建連鎖群(表3),最終上圖的SNP標(biāo)記為16 088個,其中SNP最少的是D3染色體(39),最多的是D5染色體(1 746),說明標(biāo)記在各條染色體分布的均勻性較差,可能是因為親本間遺傳多樣性較低。圖譜總長度為4 282.81 cM,標(biāo)記間的平均距離為0.27 cM,最大的Gap為D3染色體上的19.75 cM。由圖1標(biāo)記共線性及其相關(guān)系數(shù)分析可知,上圖標(biāo)記的順序與其物理位置的順序一致性較好,證明構(gòu)建的高密度遺傳圖譜質(zhì)量較高。
表3 各條連鎖群的詳細(xì)信息Table 3 Detail information of each linkage group
圖1 上圖標(biāo)記與其參考基因組物理位置的共線性分析Fig.1 Collinearity analysis of the mapped markers on the genetic map with their physical position on the reference genome
由表4可知,冀豐1271的衣分、子指和單鈴重均顯著或極顯著高于冀豐173,說明2個親本材料的產(chǎn)量性狀差異較大,可用于構(gòu)建分離群體開展QTL定位研究。F2、F2:3和F2:4群體的衣分、子指和單鈴重均表現(xiàn)為雙向超親分布,峰度和偏度的絕對值均小于 1,說明衣分、子指和單鈴重在分離群體中呈近似正態(tài)分布,冀豐1271和冀豐173中均含有調(diào)控3個目標(biāo)性狀的微效基因。由變異系數(shù)可知,單鈴重的變異系數(shù)最大(6.87%—16.24%),衣分的變異系數(shù)最?。?.03%—3.73%)。由表 5相關(guān)性分析結(jié)果可知,衣分與子指呈極顯著負(fù)相關(guān),子指與單鈴重呈極顯著正相關(guān),而衣分與單鈴重呈不顯著的正相關(guān)關(guān)系。
表4 親本及群體的表型數(shù)據(jù)統(tǒng)計量Table 4 Phenotypic statistics of the parents and populations
表5 衣分、子指和單鈴重的相關(guān)性分析Table 5 Correlation analysis of boll weight, lint percentage and seed index
在3個群體中共定位到108個QTL(電子附表1),包括34個衣分QTL、36個子指QTL和38個單鈴重QTL。至少在 2個群體中被檢測到的穩(wěn)定 QTL共有16個,包括9個衣分QTL、4個子指QTL和3個單鈴重QTL。單個 QTL的貢獻(xiàn)率為 1.07%—24.72%,貢獻(xiàn)率大于10%的主效QTL共有10個,包括4個衣分QTL、2個子指QTL和4個單鈴重QTL。QTL分布于23條染色體,各染色體上的QTL數(shù)量為1—12個(A6、D3和D6染色體均為0),分別有51和57個QTL定位于A和D基因組。有57個QTL的增效基因來源于冀豐1271,47個QTL的增效基因來源于冀豐173,4個穩(wěn)定QTL的增效基因在不同群體中的來源不同。發(fā)現(xiàn)一個衣分QTL(qLP-A13-4)可以在3個群體中定位到,貢獻(xiàn)率為6.54%—13.78%,增效基因來源于冀豐1271。
利用基因組注釋信息,在 21個主效和穩(wěn)定的QTL內(nèi)共注釋到3 415個基因,通過與GO和KEGG數(shù)據(jù)庫比對,富集到的前20個GO條目主要包括細(xì)胞質(zhì)、內(nèi)質(zhì)網(wǎng)、高爾基體等細(xì)胞組分,信號受體活性、蛋白酶體結(jié)合、脫落酸結(jié)合等分子功能,以及磷饑餓的細(xì)胞響應(yīng)、脫落酸激活的信號途徑等生物過程(圖2);富集到的前20個KEGG條目主要包括植物激素信號轉(zhuǎn)導(dǎo)、TCA循環(huán)、光合生物的碳固定以及物質(zhì)的合成與代謝等通路(圖3)。根據(jù)KEGG比對結(jié)果發(fā)現(xiàn),在前20個比對到的通路中共有279個基因,主要參與信號轉(zhuǎn)導(dǎo)、物質(zhì)合成與代謝,可能包含有參與棉花產(chǎn)量形成的關(guān)鍵調(diào)控基因。通過分析基因在TM-1[24]和NDM8[12]中的表達(dá),發(fā)現(xiàn)8個基因在不同組織中具有較高的表達(dá)量(電子附表2)。Ghir_A13G010390、Ghir_D02G015800和Ghir_D13G010980在 TM-1的胚珠和纖維中高調(diào)表達(dá),Ghir_D10G018940和Ghir_D13G005390在TM-1的0和1 d胚珠中高調(diào)表達(dá);Ghir_A02G015550、Ghir_A04G014830和Ghir_D13G009230在 NDM8的種子中高調(diào)表達(dá),Ghir_A13G010390和Ghir_D02G015800在NDM8的纖維中高調(diào)表達(dá)。根據(jù)基因注釋信息和KEGG比對結(jié)果,Ghir_A02G015550參與植物激素信號轉(zhuǎn)導(dǎo)通路,Ghir_A04G014830參與 TCA循環(huán)和次生代謝物質(zhì)生物合成通路,Ghir_D02G015800參與光合生物的碳固定、次生代謝物質(zhì)生物合成和氨基酸生物合成通路,Ghir_D10G018940參與次生代謝物質(zhì)生物合成通路,Ghir_D13G005390參與次生代謝物質(zhì)生物合成、氨基酸生物合成和苯丙氨酸、酪氨酸和色氨酸生物合成通路,Ghir_D13G009230參與次生代謝物質(zhì)生物合成通路,Ghir_A13G010390和Ghir_D13G010980參與次生代謝物質(zhì)生物合成、環(huán)丙烷生物合成和氰基氨基酸代謝通路(表6)。
表6 在不同組織中高調(diào)表達(dá)的8個基因信息Table 6 Information of the 8 genes highly expressed in different tissues
圖2 前20個GO富集條目Fig.2 The top 20 items of GO enrichment
圖3 前20個KEGG通路Fig.3 The top 20 KEGG pathways
以SSR等標(biāo)記構(gòu)建遺傳圖譜,由于標(biāo)記的數(shù)量較少、多態(tài)性較差等原因,圖譜的標(biāo)記密度較低。如LI等[25]構(gòu)建了4個F2群體的SSR遺傳圖譜,但是標(biāo)記間平均距離最小的為8.25 cM,JAMSHED等[26]構(gòu)建了一個RIL群體的SSR遺傳圖譜,標(biāo)記間的平均距離為5.2 cM。利用高通量測序技術(shù)開發(fā)SNP標(biāo)記可顯著提高圖譜的標(biāo)記密度,有助于獲得穩(wěn)定性好、精確度高的QTL,并且可進(jìn)行候選基因分析。例如ZHANG等[2]利用SLAF-seq、芯片以及SSR標(biāo)記等構(gòu)建了一張包含8 295個標(biāo)記、總圖距5 197.17 cM的高密度遺傳圖譜,在17個環(huán)境中定位到198個穩(wěn)定QTL和37個QTL簇,利用RNA-seq數(shù)據(jù)分析了關(guān)鍵QTL簇內(nèi)參與調(diào)控棉花產(chǎn)量和纖維品質(zhì)的候選基因,顯著提高了基因挖掘的效率。SI等[27]利用RAD-seq構(gòu)建了一張包含6 303個bin、總圖距為5 057.13 cM的海陸種間遺傳圖譜,并且在 15個位點內(nèi)發(fā)現(xiàn)了存在非同義突變SNP的基因,分別預(yù)測了1個產(chǎn)量和1個光合效率的候選基因。因此,說明高通量測序是進(jìn)行高效QTL定位和候選基因分析的關(guān)鍵技術(shù)。
GBS是一種效率高、成本低、廣泛應(yīng)用的簡化基因組測序技術(shù)[18-19,28]。棉花中,LI等[20]以F2群體為材料,利用GBS技術(shù)構(gòu)建了一張包含3 978個SNP、總圖距為2 480 cM的高密度遺傳圖譜,標(biāo)記間的平均距離僅有0.62 cM,對棉花的早熟性進(jìn)行QTL定位和基因注釋,根據(jù)基因表達(dá)量,在穩(wěn)定的QTL位點內(nèi)篩選到2個調(diào)控早熟性的候選基因。DIOUF等[16]以F2:3群體為材料,構(gòu)建了一張包含5 178個SNP、總圖距為4 768.1 cM的遺傳圖譜,通過對纖維產(chǎn)量和品質(zhì)進(jìn)行QTL定位和基因注釋,篩選到5個候選基因。由此說明,GBS技術(shù)在棉花中同樣具有高效的應(yīng)用價值。本研究利用GBS技術(shù),在F2群體中開發(fā)了1 305 642個SNP標(biāo)記,構(gòu)建了一張包含16 088個SNP的遺傳圖譜,標(biāo)記間的平均距離僅有0.27 cM,并通過共線性分析證明了圖譜質(zhì)量。在標(biāo)記數(shù)量和密度方面,本研究所構(gòu)建的遺傳圖譜與JIA等[29](6 295個SNP、4 071.98 CM)、LI等[20](3 978個SNP、2 480 cM)、ZHANG等[15](5 521個SNP、3 259.378 cM)、GU等[17](6 187個bin、4 478.98 cM)、DIOUF等[16](5 178個SNP、4 768.1 cM)等利用高通量測序技術(shù)構(gòu)建的遺傳圖譜具有一定可比性。
產(chǎn)量的形成是光合產(chǎn)物積累的過程,棉花的產(chǎn)量主要有棉籽和棉纖維兩部分。油分和蛋白質(zhì)是棉籽的主要成分,二者的含量分別為13.6%—24.7%和12.0%—23.0%[30-31],是重要的植物性飼料原料。棉纖維的主要成分為纖維素(~95%)[32-33],是紡織業(yè)及其他工業(yè)最重要的天然纖維原料。本研究通過構(gòu)建高密度SNP遺傳圖譜,在3個群體中定位到108個QTL,其中,穩(wěn)定QTL共有16個,主效QTL共有10個。有4個穩(wěn)定QTL的增效基因在不同世代群體中的來源不同,可能是數(shù)量性狀受環(huán)境的影響顯著,或者這4個位點存在上位性效應(yīng),導(dǎo)致等位基因在不同環(huán)境下表達(dá)了不同的效應(yīng)。通過與前人研究結(jié)果比較,30個 QTL位點與已公布棉花產(chǎn)量QTL位置重合或接近(電子附表1),其余78個QTL在所比對的文獻(xiàn)中未見報道??赡苁怯捎诒狙芯克玫募截S1271和冀豐173均為自育品種,且首次用于遺傳圖譜的構(gòu)建和產(chǎn)量相關(guān)性狀的QTL定位研究,因此發(fā)現(xiàn)了較多新的QTL位點。
在21個主效和穩(wěn)定的QTL內(nèi)共注釋到3 415個基因,通過KEGG比對分析,有279個基因參與信號轉(zhuǎn)導(dǎo)、物質(zhì)代謝與合成等通路,主要涉及脂質(zhì)、亞油酸、氨基酸、次生代謝物質(zhì)的合成與代謝以及植物激素信號轉(zhuǎn)導(dǎo)、碳固定、TCA循環(huán)等能量代謝途徑。通過分析基因在TM-1和NDM8不同組織中的表達(dá)模式發(fā)現(xiàn),Ghir_D02G015800、Ghir_A13G010390和Ghir_D13G010980在TM-1的胚珠和纖維中均高調(diào)表達(dá),Ghir_D10G018940和Ghir_D13G005390在TM-1的 0和 1 d胚珠中高調(diào)表達(dá),Ghir_A02G015550、Ghir_A04G014830和Ghir_D13G009230在NDM8的種子中高調(diào)表達(dá),Ghir_A13G010390和Ghir_D02G015800在NDM8的纖維中高調(diào)表達(dá)。其中,Ghir_A02G015550參與植物激素信號轉(zhuǎn)導(dǎo)通路,Ghir_A04G014830參與TCA循環(huán)和次生代謝物質(zhì)生物合成通路,Ghir_D02G015800參與光合生物的碳固定、次生代謝物質(zhì)生物合成和氨基酸生物合成通路,Ghir_D10G018940參與次生代謝物質(zhì)生物合成通路,Ghir_D13G005390參與次生代謝物質(zhì)生物合成、氨基酸生物合成和苯丙氨酸、酪氨酸和色氨酸生物合成通路,Ghir_D13G009230參與次生代謝物質(zhì)生物合成通路,Ghir_A13G010390和Ghir_D13G010980參與次生代謝物質(zhì)生物合成、環(huán)丙烷生物合成和氰基氨基酸代謝通路。這些通路均涉及物質(zhì)的合成與代謝,可能是通過調(diào)控纖維和種子的發(fā)育,影響衣分和子指,進(jìn)而影響棉花的產(chǎn)量,是重要的候選基因。
構(gòu)建了一張包含16 088個SNP、總圖距為4 282.81 cM的高密度遺傳圖譜,定位到108個產(chǎn)量相關(guān)QTL,有 5個主效 QTL可在多個群體中定位到,鑒定到 8個基因在纖維、胚珠或種子中高表達(dá),可能為調(diào)控棉花產(chǎn)量形成的重要候選基因。