楊 博,丁洪霞,陳方軍,郭善利,陳世華
(煙臺大學生命科學學院,山東 煙臺 264005)
在植物中,三萜皂苷的前體2,3-氧化角鯊烯是由甲羥戊酸(MVA)途徑產生的,其中2,3-氧化角鯊烯環(huán)化酶(2,3-Oxidosqualene Cyclases,OSC)家族蛋白是三萜皂苷生物合成的關鍵酶[1-2]。目前OSC基因已在擬南芥(Arabidopsisthaliana)、水稻(Oryzasativa)、大豆(Glycinemax)和人參(Panaxginseng)等多種植物中發(fā)現(xiàn)。OSC家族成員具有DCTAE和 QW(QXXXXXW)高度保守序列[3],前者負責與底物結合,后者是帶有負電性的芳香族氨基酸,在環(huán)化反應中起到穩(wěn)定碳陽離子的作用,這些重復序列可能與穩(wěn)定蛋白質結構和其功能相關。
藜麥(ChenopodiumquinoaWilld.)是南美安第斯地區(qū)的本土食用植物,其種植和食用歷史可追溯到公元前5000年,營養(yǎng)價值高且易于碾磨加工[4]。藜麥蛋白質中的必需氨基酸組成平衡,是世界公認的全營養(yǎng)谷物[5]。該植物對于干旱、鹽漬等苛刻條件具有良好的抗逆性,具有極好的經濟和研究價值。本研究基于前人公布的藜麥基因組數據[6],應用生物信息學的方法對藜麥2,3-氧化角鯊烯環(huán)化酶基因(CqOSC)家族成員進行了鑒定,并對其基因結構、編碼蛋白Motif及啟動子區(qū)順式作用元件、基因表達模式等進行了分析,以期為CqOSC基因功能的預測及研究提供理論基礎。
從擬南芥基因組數據庫TAIR(https:∥www.arabidopsis.org/)和水稻數據庫(http:∥rice.uga.edu/index.shtml)中查詢并下載擬南芥、水稻的OSC蛋白序列。獲取序列后使用Tbtools[7]軟件與藜麥的蛋白數據庫(https:∥www.cbrc.kaust.edu.sa/chenopodiumdb)的蛋白序列進行對比,得到CqOSC候選基因。使用美國國家生物技術信息市中心(NCBI)的保守結構域數據庫(CDD)(https:∥www.ncbi.nlm.nih.gov/cdd/)[8]對候選基因的蛋白結構域進行鑒定,最終確認含有OSC蛋白保守結構域的CqOSC基因家族成員。根據CqOSC基因家族全部成員在染色體上的位置進行基因命名。然后使用在線網站(https:∥web.expasy.org/protparam/)[9]對CqOSC家族進行蛋白的理化性質預測。使用Plant-mPLoc(http:∥www.csbio.sjtu.edu.cn/bioinf/plant-multi/#)在線網站進行CqOSC基因家族的蛋白亞細胞定位的預測。
利用MEGA7.0[10]軟件中的ClustalW對藜麥、擬南和水稻OSC的蛋白序列進行多序列比對。使用MEGA7.0軟件的鄰接法(neighbor joining,NJ)并設置1000次boots-trap重復抽樣來進行系統(tǒng)發(fā)育進化樹的構建。
從Phytozome v13數據庫(https:∥phytozome.jgi.doe.gov/pz/portal.html)中搜索CqOSC基因家族基因和CDS序列并下載,使用GSDS 2.0在線網站(http:∥gsds.gao-lab.org/index.php)[11]描繪CqOSC基因家族的基因結構,并利用MEME5.1在線網站(http:∥meme-suite.org/tools/meme)[12]對CqOSC蛋白進行保守基序搜索,繪制作圖。
C.quinoa和C.pallidicaule(A亞基因組)C.suecicum(B亞基因組)兩個祖先種的基因組數據來自Chenopodium DB (https:∥www.cbrc.kaust.edu.sa/chenopodiumdb/download/download-auth.html)。利用共線性掃描工具包MCScanX[13]來分析研究CqOSC基因家族所有成員與兩個祖先基因的共線性區(qū)域。使用TBtools軟件繪制共線性圖。
CqOSC基因家族成員啟動子序列(轉錄起始位點上游1500 bp)來源于NCBI網站,使用TBtools軟件提取信息,提交到Plantcare 在線網站(http:∥bioinformatics.psb.ugent.be/webtools/plantcare/html)[14]進行預測順式作用元件的種類及分布情況,繪制順式作用元件圖。
從SRA網站(https:∥www.ncbi.nlm.nih.gov/sra/)下載已知的藜麥多種組織的轉錄組數據(SRP226463、SRP116149)。以TPM(每百萬讀取轉錄本)的形式將RNA-seq數據進行標準化統(tǒng)計和計算[15],進行CqOSC基因的表達模式的分析,使用TBTools軟件繪制CqOSC基因家族表達模式分析圖。
在藜麥(品種Faro)開花時外施不同濃度0(CK)、0.5、1和2 mmol/L的MeJA,處理24 h,提取花的RNA,進行反轉錄。使用RT-qPCR測定CqOSCs的基因相對表達量,內參為Cq-Actin。使用Origin[16]軟件制作基因表達柱狀圖:以CK處理下CqOSC11基因表達量作為相對對照處理數據,繪制藜麥花中各CqOSC基因的表達量圖;以每個基因各自CK處理下基因表達量為相對對照處理數據,繪制不同濃度MeJA處理下藜麥開花時期各CqOSC基因表達量圖。
在藜麥全基因組中共鑒定到15個CqOSC基因家族成員,根據其在染色體上的位置依次命名為CqOSC1~CqOSC15(表1)。CqOSC基因的CDS長度為1124~2630 bp;編碼的蛋白長度為373~875個氨基酸,蛋白偏酸性;分子質量介于42 186.54~100 870.02 U,分子質量最大的蛋白是CqOSC4,最小的是CqOSC2;理論等電點介于5.54~6.48之間,其中等電點最大的蛋白是CqOSC5,等電點最小的蛋白是CqOSC2。蛋白亞細胞定位預測結果顯示,CqOSC2編碼的蛋白定位在細胞質和葉綠體中,其余成員編碼的蛋白都定位在葉綠體中。
表1 CqOSCs基因及蛋白基本信息
以藜麥、擬南芥和水稻的OSC蛋白序列為基礎,進行系統(tǒng)發(fā)育進化分析(圖1)。結果顯示,來自上述3個物種的40個蛋白根據進化距離被劃分為4個亞組(Ⅰ、Ⅱ、Ⅲ、Ⅳ)。亞組Ⅰ只有一個水稻基因(OsOSC12),亞組Ⅱ含有14個基因,其CqOSC基因有2個,擬南芥和水稻各有2和10個,亞組Ⅲ是CqOSC基因家族6個成員自成一支,亞組Ⅳ含有7個CqOSC家族成員和11個AtOSC家族成員。在進化樹中可以看到CqOSC9和CqOSC10與AtCAS1進化距離較近,初步可以推測它們是朝著CAS的方向進化。亞組Ⅳ中CqOSC7、CqOSC11、CqOSC12、CqOSC13、CqOSC14和CqOSC15與分支中AtLUPs進化距離相對較近,可以對其功能進行簡單預測,但具體的驗證要在以后的實驗中進行探究。
種縮寫:Cq,藜麥;Os,水稻;At,擬南芥,據文獻[17]單獨命名。
對CqOSC基因家族成員的基因結構(圖2)及蛋白序列(圖3)結果顯示,由圖2可見整體CqOSC基因家族各個成員基因結構存在較大差距,序列長度長短不一,內含子與外顯子數目存在較大差異,外顯子數目從7~20不等,內含子數目從6~19不等。但大多數位于同一分支或進化距離較近的基因家族成員結構相似,序列長度、外顯子和內含子數目相近,但也有同一分支成員存在較大差異,CqOSC2與CqOSC6序列長度雖然相近,但是外顯子與內含子的數目明顯不同。相反,CqOSC7與CqOSC12雖然序列長度存在很大差異,但外顯子與內含子的數目相近,并且含有一段十分相似的內含子區(qū)域。由圖3可見,CqOSC2和CqOSC14蛋白序列上缺少N端的一個Motif,CqOSC2和CqOSC15蛋白序列缺少C端的一個Motif,保守基序的缺失可能會對蛋白質的功能產生影響。保守結構域DCTAE和QW包含在Motif 2和Motif 3中,15個CqOSCs都含有這兩個結構域。除CqOSC2與CqOSC6外,同一分支或進化距離較近的家族成員Motif相似,由圖可見CqOSC蛋白序列同源性較高,結合說明CqOSC大部分基因家族成員家族進化過程中變化較小。
圖2 CqOSC基因家族成員的基因結構分析
圖3 CqOSC基因家族成員的蛋白保守基序分析
由圖4(a)可見,C.quinoa與C.pallidicaule(A亞基因組)、C.suecicum(B亞基因組)的共線性分析有6個基因(CqOSC9、CqOSC1、CqOSC5、CqOSC7、CqOSC14、CqOSC15)與C.pallidicaule祖先種存在同源性,其中CqOSC1與CqOSC5均與scaffold-487染色體上的基因同源,CqOSC7、CqOSC14與CqOSC15均與scaffold-349染色體上的基因同源,只有CqOSC9與scaffold-122染色體上的基因同源。由圖4(b)可見,C.quinoa有7個基因(CqOSC10、CqOSC7、CqOSC8、CqOSC11、CqOSC12、CqOSC13、CqOSC15)與C.suecicum祖先種存在同源性,其中除CqOSC10與scaffold-92染色體上的基因同源外,其余基因家族成員與scaffold-44同源。這一分析結果可以顯示CqOSC基因家族成員在系統(tǒng)發(fā)生上與其祖先種的進化關系。
圖4 C. quinoa與C. suecicum、C. pallidicaule間OSC基因的共線性分析
CqOSC基因家族啟動子區(qū)共鑒定到多種順式作用元件(圖5)。經鑒定共有18種響應元件,其中數量最多的是光響應元件(160個),可分為24類;激素響應元件也占很大比例(77個),包括赤霉素(TATC-box、P-box、GARE-motif)、生長素(TGA-element、AuxRR-core)、脫落酸(ABRE)、茉莉酸甲酯(CGTCA-motif、TGACG-motif)、水楊酸(TCA-element)等響應元件,其中茉莉酸甲酯響應元件占比較大,12個成員含有該響應元件,其中CqOSC2基因上游1500 bp含有3個MeJA響應元件,CqOSC8、CqOSC10和CqOSC14上游含有2個,CqOSC1、CqOSC4、CqOSC5、CqOSC7、CqOSC9、CqOSC11、CqOSC12和CqOSC13上游只含有1個,而CqOSC3、CqOSC6和CqOSC15上游不含MeJA響應元件;還有逆境脅迫和環(huán)境應激響應元件,包括厭氧誘導(ARE、GC-motif)、低溫(LTR)、干旱(MBS)、參與防御和壓力反應(TC-rich repeats)、和創(chuàng)傷應激(WUN-motif)等響應元件。這表明CqOSC基因家族成員的表達會受到激素或逆境脅迫等因素影響。
圖5 CqOSC基因啟動子區(qū)(1500 bp)順式作用元件的分布
除此之外,還存在其他的作用元件,但具有明顯的特異性,數量較少,如根上的順式作用元件motif I是根上的特殊元件、CAT-box參與分生組織的表達、GCN4-motif參與胚乳表達的順式作用元件、Circadian控制植物的晝夜節(jié)律、O2-site參與玉米醇溶蛋白代謝調節(jié)、MBSI調控類黃酮合成等。
CqOSC基因家族在10種不同組織器官中的表達模式表明(圖6),總體來看家族成員表達具有較大區(qū)別:CqOSC2、CqOSC3、CqOSC4、CqOSC5、CqOSC11、CqOSC14和CqOSC15在各個部位的表達量都較低,而CqOSC9與CqOSC10在所有組織中均存在不同水平的表達,說明這兩個成員與藜麥的這個整個生長發(fā)育階段都有關系,其余CqOSC家族成員的基因表達情況具有明顯的特異性。CqOSC6雖然和CqOSC2屬于同一分支,但基因表達情況卻明顯不同,CqOSC6在頂端分生組織、花和未成熟的果實、葉柄、節(jié)間莖、花序、葉、白甜藜花和白黃苦藜花都有不同程度的表達,猜測CqOSC6主要參與藜麥的生長階段的前中期。CqOSC1和CqOSC8都主要在頂端分生組織和花序中表達。CqOSC7和CqOSC12除了在葉和白藜的花中存在較少外,在其他組織中都有所表達,尤其是在花和未成熟的種子中表達量極高,在其他幾個部位的花和種子中表達量也都較高,推測其主要與藜麥種皮上皂苷的積累有關,具體的情況需要后續(xù)實驗的驗證。
圖6 CqOSC基因在藜麥不同組織中的表達模式分析
對藜麥開花期花序中CqOSC基因家族各成員的相對表達量的RT-qPCR分析(圖7)可知,在開花時CqOSC7的基因表達量是最高的,CqOSC11的表達量最低,除此之外還有CqOSC6、CqOSC9、CqOSC10、CqOSC12基因表達量相對較多,CqOSC13、CqOSC15基本不表達,大部分同一分支基因表達量相近。通過外施不同濃度MeJA可以看到各個基因對MeJA的響應情況(圖8),其中CqOSC2、CqOSC4、CqOSC8等基因的表達量受MeJA影響較為顯著,而CqOSC3、CqOSC6、CqOSC15基因表達量則基本沒有變化。CqOSC基因家族對外施不同濃度MeJA響應表現(xiàn)為常見的低促高抑現(xiàn)象。在外施0.5 mmol/L和1 mmol/L MeJA時基本是提高基因表達量,在濃度達到2 mmol/L時表達量顯著下降。
圖7 開花時期藜麥花中CqOSC基因的表達
圖8 不同濃度MeJA處理藜麥開花時期CqOSC基因表達量
藜麥目前作為一種高營養(yǎng)的新興糧食在市場逐漸火熱,但研究發(fā)現(xiàn)藜麥種皮上含有的皂苷使其具有一定的苦味與毒性,需要水洗或機械研磨去除[18],影響其種植與推廣。2,3-氧化角鯊烯環(huán)化酶(OSC)是皂苷產生途徑中的關鍵酶,在多種植物中皆有發(fā)現(xiàn),依據其蛋白上具有高度保守序列的特點,結合前人對基因家族生信分析的研究,可以快速找到藜麥中OSC基因家族成員。有研究在擬南芥和水稻中分別發(fā)現(xiàn)13個AtOSCs與12個OsOSCs[19]。通過與這25個成員對比,在藜麥基因組中鑒定得到15個CqOSC基因家族成員,在系統(tǒng)發(fā)育發(fā)育分析中可以看到CqOSC的成員與同為雙子葉植物的擬南芥親緣關系更近。研究發(fā)現(xiàn)OSC基因家族的天然結構具有多樣性,這是由于OSC酶的核心部位可以具有多種變換而產生的[3],所以CqOSC家族的基因結構具有較大差別。同時家族成員都含有Motif1/2/3這三個蛋白保守基序,推測這三個保守基序對其生物學功能具有重要意義。皂苷的苦味使其在一定程度上具有抵御蟲害的作用,所以CqOSC成員與祖先種相較在進化過程中不僅沒有丟失,相反數目還進行了明顯的擴增,并且表現(xiàn)為祖先種一條染色體上的基因進化到藜麥的不同染色體上,猜測與二倍體祖先種C.pallidicaule(A亞基因組)、C.suecicum(B亞基因組)不斷雜交產生染色體加倍相關。
結合各CqOSC基因在藜麥不同組織中的表達模式分析和開花時外施不同濃度MeJA處理后各成員基因表達情況結果來看,CqOSC家庭成員在生殖生長過程中具有顯著的組織特異性,CqOSC6、CqOSC7、CqOSC12在花以及種子中表達量較高,其可能與種子中皂苷的積累有密切關系;而CqOSC6同時與CqOSC8在頂端分生組織中表達量高,CqOSC9與CqOSC10在整個表達模式中表達量都較高,其可能與藜麥整株皂苷的積累相關。FIALLOS-JURADO[20]等發(fā)現(xiàn)將藜麥葉片浸泡在MeJA中30 s后,藜麥葉片的皂苷合成量增加,本實驗適當改變處理條件,再結合圖5與圖8的結果顯示,開花時外施不同濃度MeJA,基因上游不含有MeJA的響應元件的CqOSC3、CqOSC6、CqOSC15基因表達量基本沒有變化,而含有MeJA響應元件較多的CqOSC2、CqOSC4、CqOSC8等基因的表達量變化顯著,所以CqOSC基因家族成員的表達模式與其基因上游MeJA響應元件數量相關。同時CqOSC基因家族對外施不同濃度MeJA響應變現(xiàn)為常見的低促高抑現(xiàn)象:在外施0.5 mmol/L和1 mmol/L MeJA時基本是提高基因表達量,在濃度達到2 mmol/L時表達量顯著下降,抑制了基因表達,說明MeJA同樣影響藜麥花期皂苷合成,在后續(xù)種植或研究可以考慮外施MeJA來降低種子中的皂苷含量。綜上所述,通過生物信息學的方法對CqOSC基因家族各個成員進行分析預測,對其基因功能的后續(xù)研究具有一定的參考意義。