趙松子,左繼林,幸偉年
(江西省林業(yè)科學院·江西省油茶種質(zhì)資源保護與利用實驗室,江西 南昌 330013)
植物種子數(shù)量是一個復(fù)雜的性狀,涉及多個生物學過程,胚珠數(shù)量及其育性、雙授精、種子發(fā)育等均可能影響果實中最終的種子數(shù)量,從遺傳角度,胚、胚乳、細胞質(zhì)及母本的基因型均可影響種子數(shù)量。種子數(shù)量是普通油茶(Camellia oleifera)的一個重要產(chǎn)量性狀,單果重與種子數(shù)量(粒數(shù))呈極顯著正相關(guān),果高也與種子數(shù)量呈極顯著正相關(guān)[1]。EPF/EPFL基因家族編碼植物特有的分泌多肽激素;成熟的EPF/EPFL多肽有6或8個半胱氨酸殘基,半胱氨酸殘基間可形成分子內(nèi)的二硫鍵;擬南芥(Arabidopsis thaliana)EPF/EPFL基因家族有11個基因,水稻(Oryza sativa)有12個;植物EPF/EPFL基因可分為4個亞家族:EPF1/2/EPFL7亞家族、EPFL9亞家族、EPFL1/2/3亞家族、EPFL4/5/6/8亞家族[2-4]。在擬南芥中,成熟子房中的胚珠數(shù)量與胚珠原基密度(胚珠原基/胎座長度)、胎座長度相關(guān),由母本基因型決定,EPFL2(At4;37810,AtEPFL2)功能缺失突變體epfl2-1的胚珠原基密度降低、胚珠原基數(shù)量減少[5];在水稻中,OsEPFL1(;AD1)影響種子的長度和數(shù)量,gad1的種子數(shù)量增加、長度變短[6-7];AtEPFL2與OsEPFL1均屬于EPFL1/2/3亞家族[4],表明該亞家族的基因?qū)ΨN子數(shù)量的影響具有進化上的保守性,雙子葉植物中的EPFL2可能具有相同的保守的功能,即參與調(diào)控種子數(shù)量。本研究通過生物信息學方法,從普通油茶良種‘贛無1’的轉(zhuǎn)錄組和基因組數(shù)據(jù)中鑒定出3個EPFL2基因,并進行系統(tǒng)進化分析,為深入研究這些基因的生物學功能及油茶種子數(shù)量性狀變異的分子基礎(chǔ)提供參考。
利用BLASTP[8]軟件,以擬南芥的EPFL2蛋白質(zhì)序列分別搜索油茶良種‘贛無1’的幼葉、未成熟種仁、花蕾、根轉(zhuǎn)錄組蛋白質(zhì)數(shù)據(jù)庫[9-12],得到同源基因的部分蛋白質(zhì)序列及其CDS序列,用Boetie2[13]軟件將轉(zhuǎn)錄組測序數(shù)據(jù)單讀段比對到CDS序列,根據(jù)讀段編號用自編的Perl腳本提取成對的讀段,在默認狀態(tài)下用Cap3軟件[14]進行序列拼接,獲得同源基因的mRNA序列;再用Boetie2軟件將轉(zhuǎn)錄組測序數(shù)據(jù)單讀段比對到mRNA序列,提取成對的讀段,用Cap3軟件再進行序列拼接,獲得新的mRNA序列;重復(fù)上述過程,直到mRNA序列不再延伸。
用油茶EPFL2基因的mRNA序列搜索油茶良種‘贛無1’基因組3代測序數(shù)據(jù)[15],得到含有油茶EPFL2基因mRNA序列的亞讀段;亞讀段經(jīng)過校正后,用Augustus[16-17]軟件進行基因預(yù)測,得到油茶EPFL2基因的全長CDS序列。
以擬南芥與水稻EPF基因為參考,利用ME;A7[18-19]軟件對油茶EPFL2基因、植物中已鑒別的EPFL1/2/3亞家族基因進行蛋白質(zhì)序列比對,構(gòu)建EPFL1/2/3亞家族蛋白質(zhì)系統(tǒng)進化樹(Maximum Likelihood法,JTT模式)。
以擬南芥的EPFL2基因序列搜索油茶幼葉、未成熟種仁、花蕾、根轉(zhuǎn)錄組蛋白質(zhì)數(shù)據(jù)庫,得到3條EPFL2的不完整CDS序列;將轉(zhuǎn)錄組測序數(shù)據(jù)單讀段比對到油茶EPFL2序列,提取成對讀段,用Cap3軟件進行序列拼接,分別獲得油茶EPFL2基因的mRNA序列。
用油茶3條EPFL2基因mRNA序列搜索油茶基因組3代測序數(shù)據(jù),得到3條亞讀段,亞讀段經(jīng)過校正后,長度分別為39769bp(;enBank登錄號:MZ218071)、44625bp(;enBank登錄號:MZ218072)、48498bp(;enBank登錄號:MZ218073),用Augustus軟件進行基因預(yù)測,得到油茶EPFL2基因全長mRNA序列、全長CDS序列及aa序列,其結(jié)果與轉(zhuǎn)錄組測序數(shù)據(jù)的拼接結(jié)果基本一致,3個基因分別命名為CoEPFL2a、CoEPFL2b、CoEPFL2c。
用在線分析軟件SignalP-5.0[20-21](http://www.cbs.dtu.dk/services/SignalP-5.0/)進行蛋白信號肽與酶切位點預(yù)測,結(jié)果表明:AtEPFL2、CoEPFL2c含信號肽,信號肽長度分別為28、34個氨基酸,酶切位點分別在28與29(AN;-RP)、33與34(AE;-RA)個氨基酸之間,CoEPFL2a、CoEPFL2b不含信號肽。
為更好地了解油茶CoEPFL2a、CoEPFL2b、CoEPFL2c的功能,以擬南芥與水稻EPF蛋白質(zhì)序列作為參考,利用ME;A7軟件進行植物31個EPFL1/2/3亞家族蛋白質(zhì)的進化分析(表1)。結(jié)果顯示(圖1),31個EPFL1/2/3亞家族蛋白質(zhì)分為3個分支,即EPFL1分支、EPFL2分支、EPFL3分支;OsEPFL1、AtEPFL1屬于EPFL1分支;CoEPFL2a、CoEPFL2b、CoEPFL2c屬于EPFL2分支,并且CoEPFL2a、CoEPFL2c與AtEPFL2在同一個亞分支。
圖1 植物EPFL1/2/3蛋白質(zhì)系統(tǒng)進化樹Fig.1 Maximum likelihood phylogenetic tree of EPFL1/2/3 proteins in plants
表1 系統(tǒng)進化樹中的EPF/EPFL蛋白質(zhì)及其編號Tab.1 EPF/EPFL proteins in phylogenetic tree and their accession numbers
本研究利用反向遺傳學技術(shù)從油茶轉(zhuǎn)錄組蛋白質(zhì)數(shù)據(jù)庫和基因組3代測序數(shù)據(jù)中鑒定出了3條與油茶種子數(shù)量相關(guān)的基因,分別為CoEPFL2a、CoEPFL2b、CoEPFL2c;利用ME;A7軟件構(gòu)建了植物EPFL1/2/3亞家族蛋白質(zhì)系統(tǒng)進化樹,CoEPFL2a、CoEPFL2b、CoEPFL2c屬于EPFL2分支,并且CoEPFL2a、CoEPFL2c與AtEPFL2在同一個亞分支;對AtEPFL2、CoEPFL2a、CoEPFL2b、CoEPFL2c進行信號肽與酶切位點預(yù)測,AtEPFL2、CoEPFL2c含信號肽與酶切位點,CoEPFL2a、CoEPFL2b不含;CoEPFL2c可能與AtEPFL2具有同樣的功能,即通過調(diào)節(jié)胚珠原基密度影響種子數(shù)量。
目前,對油茶種子數(shù)量相關(guān)的基因進行正向遺傳學定位、克隆與鑒定需要十余年或更長的時間才能完成,利用反向遺傳學技術(shù)可以加快研究進程。在油茶種質(zhì)資源中,單果種子數(shù)量差異巨大,如‘白皮中子’為1~4粒、‘贛54’為1~3粒、‘石市紅皮’為2~6粒、‘夏講6號’為4~13粒[1],為研究油茶種子數(shù)量性狀變異的分子基礎(chǔ)提供了良好的材料,未來將繼續(xù)利用反向遺傳學技術(shù)鑒定油茶種子數(shù)量相關(guān)基因,并基于這些基因開發(fā)SSR、SNP標記,利用油茶種質(zhì)資源群體進行基因功能研究,挖掘可以增加種子數(shù)量的等位基因或分子標記。