錢蘭華, 孫小芹, 鄒 鑫, 張艷梅,①
〔1. 蘇州農(nóng)業(yè)職業(yè)技術(shù)學(xué)院, 江蘇 蘇州 215008; 2. 江蘇省中國科學(xué)院植物研究所(南京中山植物園), 江蘇 南京 210014;3. 蘇州市種子管理站, 江蘇 蘇州 215011〕
芫荽(CoriandrumsativumLinn.)隸屬于傘形科(Apiaceae)芫荽屬(CoriandrumLinn.),為一種具有強(qiáng)烈氣味的草本植物[1],起源于歐洲地中海地區(qū),目前在北非、中歐和亞洲種植廣泛,其莖和葉具有特殊的芳香氣味,是世界各地普遍使用的香料[2]。新鮮的芫荽被廣泛用于中國、泰國、越南等國家的菜品制作;磨碎的芫荽種子干粉除了在地中海地區(qū)用作調(diào)味品或香料外,還是印度人制作咖喱粉的主要成分。此外,芫荽的根、莖、葉和種子中還含有多種藥物活性成分,具有抑菌、抗氧化、抗炎及抗糖尿病等功效[2],是很多國家和地區(qū)的重要傳統(tǒng)藥用植物。而且,芫荽的莖和葉中含有豐富的人體所需的營養(yǎng)元素(包括蛋白質(zhì)、脂肪、礦質(zhì)元素、纖維素、碳水化合物及維生素等),根部也含有豐富的糠醛、不飽和脂肪酸及萜類等益于人體健康的化學(xué)成分[3-4]。
近年來,隨著種植面積不斷擴(kuò)大和重茬種植,芫荽的病害問題越來越嚴(yán)重,極大地威脅了芫荽的種植和生產(chǎn)。研究發(fā)現(xiàn),芫荽的主要病害有軟腐病、菌核病、葉枯病、白粉病和病毒病等,輕則影響產(chǎn)品質(zhì)量,重則導(dǎo)致植株成片腐爛,造成絕產(chǎn)[5-6]。迄今為止,人們尚未發(fā)現(xiàn)針對芫荽上述病害的有效防治措施,極大地阻礙了芫荽的綠色高效生產(chǎn)。因此,亟需對芫荽的抗病種質(zhì)資源和功能抗病基因進(jìn)行發(fā)掘和利用,為芫荽的農(nóng)業(yè)生產(chǎn)提供理論支持。
植物抗病基因(R基因)是植物在長期演化過程中形成的一類特殊的功能基因,其編碼的蛋白可識別各種病原體,使植物體產(chǎn)生抗性。發(fā)掘植物抗病基因是植物抗病育種工作的重要前提。自第1個(gè)植物抗病基因Hm1從玉米(ZeamaysLinn.)中被克隆以來,研究者已陸續(xù)從不同植物中克隆到300多個(gè)抗病基因[7]。這些基因編碼的蛋白結(jié)構(gòu)不同,可分成不同的家族,如RLK/RLP(receptor-like kinases/receptor-like proteins)家族、Ser/Thr(serine/threonine)激酶家族和NBS-LRR(nucleotide-binding site leucine-rich repeat)家族。超過60%的抗病基因?qū)儆贜BS-LRR家族,該家族基因可對細(xì)菌、真菌、病毒和線蟲等發(fā)揮抗性作用[7]。根據(jù)基因編碼的蛋白氨基端結(jié)構(gòu)域的不同,可將NBS-LRR家族基因分成3個(gè)亞類,分別為具有Toll/白細(xì)胞介素-1受體(toll/interleukin-1 receptor, TIR)結(jié)構(gòu)域的TIR-NBS-LRR(TNL)亞類、具有不規(guī)則卷曲(coiled-coil, CC)結(jié)構(gòu)域的CC-NBS-LRR(CNL)亞類及具有白粉病抗性基因8(resistance to powdery mildew 8, RPW8)結(jié)構(gòu)域的RPW8-NBS-LRR(RNL)亞類[8]。
近年來,隨著基因組測序技術(shù)的發(fā)展,國內(nèi)外研究者已對上百種植物基因組的NBS-LRR家族基因開展相關(guān)研究[9-12],大大地促進(jìn)了人們對NBS-LRR家族基因的結(jié)構(gòu)特征、作用機(jī)制和演化模式的認(rèn)識?;谌蚪M數(shù)據(jù)的NBS-LRR家族基因鑒定和遺傳多樣性分析可為植物功能抗病基因發(fā)掘提供重要資源,有利于挖掘植物體內(nèi)新的功能抗病基因,對于植物分子標(biāo)記輔助育種和功能抗病基因克隆等也具有重要價(jià)值。Zhang等[13]基于對水稻(OryzasativaLinn.)基因組中NBS-LRR家族基因的分析,對水稻抗性品種的NBS-LRR家族基因進(jìn)行了特異性克隆,發(fā)現(xiàn)數(shù)十個(gè)對水稻稻瘟病發(fā)揮抗性的NBS-LRR家族基因。Witek等[14]在對馬鈴薯(SolanumtuberosumLinn.)基因組中NBS-LRR家族基因分析的基礎(chǔ)上,結(jié)合目標(biāo)片段捕獲聯(lián)合三代測序技術(shù)從同屬植物少花龍葵(S.americanumMiller)中成功克隆到晚疫病抗性基因Rpi-amr3i。因此,在全基因組范圍內(nèi)進(jìn)行NBS-LRR家族基因鑒定和分析不但對植物功能抗病基因的克隆具有重要的促進(jìn)作用,還對從近緣種中克隆功能抗病基因具有重要的參考價(jià)值。
目前,芫荽的基因組測序工作已經(jīng)完成[15],同科植物旱芹(ApiumgraveolensLinn.)和野胡蘿卜(DaucuscarotaLinn.)的基因組測序工作也已經(jīng)完成[16-17]。在此基礎(chǔ)上,作者利用BLAST和HMMER軟件對芫荽基因組中的NBS-LRR家族基因進(jìn)行了鑒定,對這些基因的結(jié)構(gòu)域組成、染色體分布、復(fù)制類型和器官表達(dá)進(jìn)行了分析,并對芫荽、旱芹和野胡蘿卜的NBS-LRR家族基因進(jìn)行了系統(tǒng)演化分析,以期為芫荽及其近緣種中抗病基因的篩選和克隆以及抗病分子育種奠定研究基礎(chǔ)。
芫荽基因組序列、注釋信息及器官轉(zhuǎn)錄組數(shù)據(jù)均來自芫荽基因組數(shù)據(jù)庫(CGDB,http:∥cgdb.bio2db.com/)。旱芹和野胡蘿卜基因組中NBS-LRR家族基因的相關(guān)數(shù)據(jù)來自被子植物NBS-LRR數(shù)據(jù)庫(ANNA,https:∥biobigdata.nju.edu.cn/ANNA/)。
1.2.1 基因鑒定及結(jié)構(gòu)域組成分析 參照相關(guān)研究方法[7,18],從Pfam數(shù)據(jù)庫下載NBS結(jié)構(gòu)域(登錄號PF00931)的HMM模型(隱馬爾科夫模型,hidden Markov model);使用HMMER3軟件中的hmmsearch程序,設(shè)置e-value為0.000 1,在下載的芫荽基因組注釋蛋白序列中搜索含有NB-ARC結(jié)構(gòu)域的蛋白序列;以獲得的所有蛋白序列為問詢序列,使用BLASTp程序?qū)据椿蚪M編碼的所有蛋白序列進(jìn)行再次搜索,設(shè)置e-value為0.000 1;使用HMMER3軟件中的hmmscan程序,設(shè)置e-value為0.000 1,利用Pfam-A數(shù)據(jù)庫對獲得的序列進(jìn)行結(jié)構(gòu)域組成鑒定,所有具NB-ARC結(jié)構(gòu)域蛋白的編碼基因均被認(rèn)定為NBS-LRR家族基因。
根據(jù)前期鑒定的擬南芥基因組中NBS-LRR家族基因的相關(guān)信息[18],建立本地Blast數(shù)據(jù)庫;以獲得的芫荽NBS-LRR家族基因編碼的蛋白序列為問詢序列,使用BLASTp程序進(jìn)行搜索。根據(jù)每條序列在擬南芥中的最佳匹配結(jié)果,劃分亞類。隨后,使用保守結(jié)構(gòu)域搜索工具Conserved Domain Search (https:∥www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)在NCBI數(shù)據(jù)庫中搜索芫荽NBS-LRR家族基因編碼的氨基酸序列,以鑒定TIR、CC、RPW8、NBS和LRR結(jié)構(gòu)域及其具體位置。采用同樣的方法鑒定下載自ANNA數(shù)據(jù)庫的旱芹和野胡蘿卜NBS-LRR家族基因的結(jié)構(gòu)域組成。
1.2.2 基因染色體分布分析 從下載的芫荽基因組gff注釋文件中,提取每個(gè)NBS-LRR家族基因在染色體上的位置。參照Ameline-Torregrosa等[19]劃分NBS-LRR家族基因簇的標(biāo)準(zhǔn),將染色體上間隔小于250 kb的NBS-LRR家族基因劃分為1個(gè)多基因位點(diǎn),將超過250 kb的NBS-LRR家族基因劃分為不同的多基因位點(diǎn),并使用作者編寫的Perl腳本繪制芫荽NBS-LRR家族基因的染色體分布圖。
1.2.3 基因復(fù)制類型分析 將芫荽基因組注釋的所有蛋白序列建立本地蛋白數(shù)據(jù)庫;以芫荽基因組注釋的所有蛋白序列為問詢序列,使用BLASTp程序進(jìn)行全基因組同源蛋白序列搜索,每條問詢序列保留5個(gè)最佳匹配序列,輸出M8格式的文件。將獲得的結(jié)果文件與芫荽基因組gff注釋文件中的染色體號、基因名、基因起始位置、基因終止位置輸入MCScanX軟件[20]進(jìn)行分析,獲得芫荽基因組注釋的所有蛋白的共線性信息及復(fù)制類型信息。最后,使用TBtools軟件進(jìn)行染色體共線性作圖[21]。
1.2.4 系統(tǒng)演化分析 參照相關(guān)研究方法[22]進(jìn)行序列比對和系統(tǒng)發(fā)育樹構(gòu)建。根據(jù)HMMER3軟件中hmmscan程序的輸出文件,提取芫荽所有NBS-LRR蛋白NB-ARC結(jié)構(gòu)域的氨基酸序列,并采用相同方法提取旱芹和野胡蘿卜所有NBS-LRR蛋白NB-ARC結(jié)構(gòu)域的氨基酸序列;使用MEGA7.0軟件中的ClustalW程序?qū)B-ARC結(jié)構(gòu)域的氨基酸序列進(jìn)行比對[23],手動(dòng)刪除序列太短或比對結(jié)果較差的序列;使用ModelFinder軟件選擇最佳擬合模型,使用IQ-TREE軟件采用最大似然法構(gòu)建系統(tǒng)發(fā)育樹[24],并采用UFBoot2方法進(jìn)行分支支持率分析[25]。
1.2.5 器官表達(dá)分析 根據(jù)Song等[15]得到的芫荽根、莖、花和葉等器官轉(zhuǎn)錄測序后的基因表達(dá)數(shù)據(jù),提取NBS-LRR家族基因在芫荽不同器官中的表達(dá)信息,據(jù)此進(jìn)行比較和分析。
研究結(jié)果(表1)表明:在芫荽基因組中共鑒定出191個(gè)NBS-LRR家族基因,約占芫荽全基因組注釋基因總數(shù)(40 747)的0.5%,這些基因分屬于CNL、TNL和RNL 3個(gè)亞類。其中,CNL亞類基因有122個(gè),占已鑒定的NBS-LRR家族基因數(shù)的63.9%;TNL亞類基因有62個(gè),占已鑒定的NBS-LRR家族基因數(shù)的32.5%;RNL亞類基因有7個(gè),占已鑒定的NBS-LRR家族基因數(shù)的3.7%。根據(jù)芫荽各基因編碼蛋白的結(jié)構(gòu)域組合,CNL亞類進(jìn)一步分成CNL、CN、NL、N和NN 5個(gè)類型,且N型基因最多(71),占該亞類基因數(shù)的58.2%;TNL亞類進(jìn)一步分成TNL、TN、NL、N、TNLTN、TNLTNL和TNT 7個(gè)類型,且TNL型基因最多(26),占該亞類基因數(shù)的41.9%;RNL亞類進(jìn)一步分成RNL、RRN和RNRR 3個(gè)類型,且RNL型基因最多(5),占該亞類基因數(shù)的71.4%。
將芫荽與同科植物旱芹和野胡蘿卜的NBS-LRR家族基因進(jìn)行比較,結(jié)果(表1)表明:3個(gè)種類的NBS-LRR家族基因總數(shù)差異較大,其中,芫荽的NBS-LRR家族基因最多(191),而旱芹的NBS-LRR家族基因最少(64)。3個(gè)種類中,CNL亞類的基因數(shù)明顯高于TNL和RNL亞類,但芫荽CNL亞類基因在已鑒定的NBS-LRR家族基因中的占比明顯低于旱芹(73.4%)和野胡蘿卜(93.3%)。
表1 芫荽NBS-LRR家族基因的分類和結(jié)構(gòu)域組合類型及其與同科植物的比較
染色體定位分析結(jié)果(圖1)表明:在已鑒定的191個(gè)芫荽NBS-LRR家族基因中,有155個(gè)基因被定位到芫荽的11條染色體上,其余36個(gè)基因位于scaffold。值得注意的是,芫荽NBS-LRR家族基因在染色體上的分布不均勻,并且,染色體的長度與其包含的NBS-LRR家族基因數(shù)無明顯關(guān)系。1號、2號、3號、4號、7號、9號和10號染色體上的NBS-LRR家族基因較多(均超過10個(gè)),而5號、6號、8號和11號染色體上的NBS-LRR家族基因卻較少(最多只有5個(gè))。其中,7號染色體上的NBS-LRR家族基因最多(33),占已鑒定的NBS-LRR家族基因數(shù)的17.3%;6號染色體上的NBS-LRR家族基因最少(2),僅占已鑒定的NBS-LRR家族基因數(shù)的1.0%。
由圖1可見:位于11條染色體上的155個(gè)NBS-LRR家族基因可劃分成98個(gè)位點(diǎn),包括72個(gè)單基因位點(diǎn)和26個(gè)多基因位點(diǎn),平均每個(gè)位點(diǎn)的基因數(shù)為1.6。多基因位點(diǎn)在5號、6號、8號和11號染色體上未出現(xiàn),但集中分布在1號、2號、3號、4號、7號、9號和10號染色體上,這7條染色體上的多基因位點(diǎn)共包含83個(gè)NBS-LRR家族基因,平均每個(gè)多基因位點(diǎn)的基因數(shù)為3.2。其中,最大的多基因位點(diǎn)位于10號染色體,包含9個(gè)TNL亞類基因。
對定位于染色體的芫荽NBS-LRR家族基因的復(fù)制類型進(jìn)行分析,結(jié)果(表2)表明:分散重復(fù)基因最多(91),占已定位的NBS-LRR家族基因數(shù)的58.7%;串聯(lián)重復(fù)基因較多(34),近端重復(fù)基因也較多(26),分別占已定位的NBS-LRR家族基因數(shù)的21.9%和16.8%;片段重復(fù)基因最少(4),僅占已定位的NBS-LRR家族基因數(shù)的2.6%,并且,這4個(gè)基因被分成2對。
表2 芫荽NBS-LRR家族基因的復(fù)制類型
模型檢測發(fā)現(xiàn),JTT+F+R6模型是構(gòu)建芫荽、旱芹和野胡蘿卜的NBS-LRR家族基因系統(tǒng)發(fā)育樹的最優(yōu)模型。在此基礎(chǔ)上,采用最大似然法構(gòu)建3個(gè)種類NBS-LRR家族基因的系統(tǒng)發(fā)育樹,結(jié)果見圖2。由圖2可見:3個(gè)種類的NBS-LRR家族基因在系統(tǒng)發(fā)育樹上聚成3個(gè)分支,分別對應(yīng)NBS-LRR家族的TNL亞類、CNL亞類和RNL亞類,且這3個(gè)分支的支持率均較高。RNL亞類分支可進(jìn)一步分成ADR1和NRG1 2個(gè)小分支,其中,ADR1小支包含3個(gè)種類的4個(gè)NBS-LRR家族基因,而NRG1小支包含3個(gè)種類的16個(gè)NBS-LRR家族基因??傮w來看,芫荽、旱芹和野胡蘿卜的多數(shù)NBS-LRR家族基因各自聚集。
: 芫荽Coriandrum sativum Linn.; : 旱芹Apium graveolens Linn.; : 野胡蘿卜Daucus carota Linn. : CNL亞類CNL subclass; : TNL亞類TNL subclass; : RNL亞類RNL subclass. 分支上的數(shù)值表示UFBoot2支持率The values on the branches represent UFBoot2 support rates.
對芫荽根、莖、葉、花4個(gè)不同器官的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行分析,結(jié)果(表3)表明:在已鑒定的191個(gè)芫荽NBS-LRR家族基因中,多數(shù)NBS-LRR家族基因能夠在芫荽各器官中表達(dá),但表達(dá)水平很低,并有23個(gè)基因在所有器官中未表達(dá)。其中,147個(gè)基因在根中表達(dá),141個(gè)基因在莖中表達(dá),144個(gè)基因在葉中表達(dá),146個(gè)基因在花中表達(dá)。經(jīng)計(jì)算,芫荽NBS-LRR家族基因在根、莖、葉和花中的平均表達(dá)豐度(FPKM)分別為1.57、1.59、1.59和0.68。值得注意的是,個(gè)別NBS-LRR家族基因的表達(dá)豐度相對較高,如:RNL亞類中的Cs08G00288.1基因,該基因在4個(gè)器官中的平均表達(dá)豐度為27.34,在莖中的表達(dá)豐度最高,達(dá)48.9。
表3 芫荽NBS-LRR家族基因在不同器官中的表達(dá)情況
續(xù)表3 Table 3 (Continued)
本研究在芫荽基因組中共鑒定出191個(gè)NBS-LRR家族基因,這些基因?qū)儆贑NL、TNL和RNL 3個(gè)亞類,其中,CNL和TNL亞類基因占絕大多數(shù)(96.4%),而RNL亞類基因較少,只有3.7%,與絕大多數(shù)被子植物NBS-LRR家族基因的亞類組成一致[8],這可能是因?yàn)镃NL和TNL亞類基因編碼的蛋白通過識別特定病原入侵而發(fā)揮作用,并且,這2個(gè)亞類基因在與病原長期“軍備競賽式”的演化歷程中經(jīng)歷了劇烈的擴(kuò)張,在很多被子植物基因組中保存了數(shù)十到數(shù)百個(gè)成員;而RNL亞類基因編碼的蛋白并不參與病原識別,只是在抗病信號傳導(dǎo)過程中發(fā)揮作用,在植物基因組中的拷貝數(shù)較少[8]。值得注意的是,芫荽基因組中CNL亞類的基因數(shù)約是TNL亞類的2倍,該研究結(jié)果支持Shao等[8]在被子植物演化尺度研究中對NBS-LRR家族基因演化模式的研究結(jié)論,即CNL亞類基因在被子植物祖先中分化形成了較多分支,并在演化過程中經(jīng)歷了持續(xù)擴(kuò)張;而TNL亞類基因在被子植物祖先中分化形成的分支相對較少,且在演化過程中未擴(kuò)張。然而,芫荽同科植物旱芹和野胡蘿卜基因組中CNL亞類的基因數(shù)分別約是TNL亞類的5和28倍,這與芫荽基因組中2個(gè)亞類基因的比例存在極大差異,可能是因?yàn)楦鱽嗩惢蛟诳埔韵滤降姆N類分化過程中經(jīng)歷了不同的演化模式[8],具體原因有待進(jìn)一步探索。
本研究獲得的芫荽基因組中的NBS-LRR家族基因較少(191),遠(yuǎn)低于水稻(498)和大豆〔Glycinemax(Linn.) Merr.〕(465)等農(nóng)作物[8]。研究發(fā)現(xiàn),NBS-LRR家族基因多基因位點(diǎn)的形成與基因的串聯(lián)復(fù)制有關(guān)[26]。在芫荽基因組中已定位的155個(gè)NBS-LRR家族基因中,串聯(lián)復(fù)制基因僅占21.9%,明顯低于紫苜蓿(MedicagosativaLinn.)(45.2%)、菜豆(PhaseolusvulgarisLinn.)(52.5%)和大豆(35.1%)基因組中串聯(lián)復(fù)制基因所占比例[26]。Song等[15]發(fā)現(xiàn),在傘形科的共同祖先中發(fā)生過2次基因組加倍,而在芫荽基因組中僅檢測到2對片段重復(fù)NBS-LRR家族基因,說明大量片段重復(fù)NBS-LRR家族基因可能在芫荽物種形成過程中丟失。據(jù)此推測,串聯(lián)重復(fù)NBS-LRR家族基因缺乏以及大量的片段重復(fù)NBS-LRR家族基因丟失可能是芫荽基因組中NBS-LRR家族基因較少的主要原因。另外,芫荽基因組中屬于散在復(fù)制的分散重復(fù)和近端重復(fù)NBS-LRR家族基因分別有91和26個(gè),占芫荽基因組中已定位的NBS-LRR家族基因數(shù)的75.5%,說明芫荽的NBS-LRR家族基因復(fù)制類型以散在復(fù)制為主。
芫荽NBS-LRR家族基因在不同器官中的表達(dá)分析結(jié)果表明:芫荽多數(shù)NBS-LRR家族基因在各器官中的表達(dá)水平較低,這與抗病基因的誘導(dǎo)性表達(dá)特征[27]相符??共』蚓哂歇?dú)特的生物學(xué)功能,其高表達(dá)可能造成蛋白異常激活,進(jìn)而引發(fā)植物體發(fā)生細(xì)胞壞死等免疫反應(yīng),對植物的正常生長發(fā)育造成危害[27]。因此,從演化角度來看,很多抗病基因僅在病原入侵時(shí)具備表達(dá)必要性,在無病原侵染狀態(tài)下大量抗病基因的低表達(dá)是植物抗病基因的適應(yīng)性演化結(jié)果,達(dá)到降低適應(yīng)性代價(jià)的目的。另外,芫荽NBS-LRR家族基因在根、莖和葉中的平均表達(dá)豐度(FPKM)較為接近,無明顯差異,但在花中的平均表達(dá)水平明顯低于其他器官,說明植物抗病基因在繁殖器官中的表達(dá)水平更低[22]。