靳進樸 郭安源,2 何坤,3 張禾,4 朱其慧,5 陳新 高歌 羅靜初
基因表達調(diào)控在動植物生長發(fā)育過程中具有重要作用,是植物適應外界環(huán)境的分子基礎(chǔ),轉(zhuǎn)錄調(diào)控是基因表達調(diào)控的關(guān)鍵步驟。轉(zhuǎn)錄調(diào)控通過轉(zhuǎn)錄因子(Transcription factor)蛋白質(zhì)序列中的DNA結(jié)合結(jié)構(gòu)域和靶基因上游啟動子區(qū)域特異DNA序列模體結(jié)合而實現(xiàn)。除DNA結(jié)合結(jié)構(gòu)域(DNA binding domain,DBD)外,轉(zhuǎn)錄因子通常還包含轉(zhuǎn)錄調(diào)控結(jié)構(gòu)域(Transcription regulation domain),主要用于調(diào)控靶基因轉(zhuǎn)錄活性,既可激活轉(zhuǎn)錄,也可抑制轉(zhuǎn)錄。轉(zhuǎn)錄因子中的核定位信號(Nuclear localization signal,NLS)可引導轉(zhuǎn)錄因子在胞漿內(nèi)合成后通過核膜進入細胞核。此外,有些轉(zhuǎn)錄因子含寡聚化結(jié)構(gòu)域可形成二聚體或多聚體復合物,具有更為復雜的調(diào)控機制。
轉(zhuǎn)錄因子種類繁多、功能復雜,它們通過與靶基因啟動子結(jié)合,激活或抑制其轉(zhuǎn)錄活性,調(diào)控靶基因在不同組織、不同細胞、不同環(huán)境條件下特異表達,并通過轉(zhuǎn)錄因子級聯(lián)調(diào)控網(wǎng)絡,對許多生命過程進行調(diào)控。例如,果蠅體節(jié)發(fā)育由一類稱為同源異型框(Homeobox)的基因調(diào)控,它們所編碼的蛋白質(zhì)為轉(zhuǎn)錄因子,含長度為60個氨基酸的DNA結(jié)合結(jié)構(gòu)域。植物特異轉(zhuǎn)錄因子家族SQUAMOSA promotor binding protein(SBP)成員具有調(diào)控玉米果實發(fā)育和水稻分蘗等多種功能。
20世紀90年代開始的人類基因組計劃,開創(chuàng)了生命科學研究的新時代。人類基因組計劃指定的模式生物釀酒酵母、秀麗線蟲和果蠅的基因組測序于2000年前先后完成。擬南芥基因組測序于2000年底完成。2000年12月15日,就在Nature雜志發(fā)表擬南芥基因組序列分析論文[1]的第2天,Science雜志發(fā)表了題為《擬南芥轉(zhuǎn)錄因子:從基因組水平上比較真核生物轉(zhuǎn)錄因子》的論文[2],首次系統(tǒng)預測了擬南芥基因組中的1533個轉(zhuǎn)錄因子,將它們分為28個家族,并與酵母、線蟲和果蠅等其它3個真核生物進行了系統(tǒng)比較,發(fā)現(xiàn)擬南芥中轉(zhuǎn)錄因子在整個基因組中所占比例遠高于上述3個物種。
2004年,北京大學生命科學學院朱玉賢、鄧興旺主持的國家自然科學基金國際合作項目,對擬南芥中預測到的轉(zhuǎn)錄因子按家族逐個克隆,并對結(jié)果進行了初步分析[3]。為配合該課題的順利進行,我們構(gòu)建了擬南芥轉(zhuǎn)錄因子數(shù)據(jù)庫[4](Database of Arabidopsis transcription factors,DATF)。DATF 中 預測到的轉(zhuǎn)錄因子數(shù)共1922個,分為64個家族。此后不久,水稻和楊樹基因組序列發(fā)布,我們又先后構(gòu)建了水稻轉(zhuǎn)錄因子數(shù)據(jù)庫[5](Database of rice transcription factors,DRTF)和楊樹轉(zhuǎn)錄因子數(shù)據(jù)庫[6](Database of poplar transcription factors,DPTF)。與此同時,苔蘚類植物小立碗蘚(Physcomitrella patens)和綠藻類植物萊茵衣藻(Chlamydomonas reinhardtii)基因組測序也先后完成,我們又構(gòu)建了植物主要譜系中這兩個代表性物種的轉(zhuǎn)錄因子數(shù)據(jù)庫。
截止2007年,玉米、高粱、棉花、大豆、葡萄等重要經(jīng)濟作物的基因組測序尚未完成,但美國愛荷華州立大學植物基因組數(shù)據(jù)庫PlantGDB收錄了大量植物代表性轉(zhuǎn)錄本(Plant unique transcripts,PUT)序列數(shù)據(jù)[7]。這些PUT序列是由表達序列標簽(Expressed sequence tag,EST)拼接而成,有些是全長mRNA序列,有些則是mRNA序列片段。我們從17個物種PUT序列中預測了轉(zhuǎn)錄因子,并和上述DATF等5個已完成基因組測序物種的轉(zhuǎn)錄因子數(shù)據(jù)庫整合在一起,構(gòu)建了植物轉(zhuǎn)錄因子數(shù)據(jù)庫[8](Plant transcription factor database,PlantTFDB),為植物基因組學、遺傳學和植物分子生物學研究提供寶貴的數(shù)據(jù)資源。2010年,玉米、高粱、大豆、葡萄等18個被子植物,代表性蕨類植物江南卷柏(Selaginella moellendorffii),以及9個綠藻基因組測序相繼完成。此外,PlantGDB數(shù)據(jù)庫也進行了更新,并增加了不少新物種。與此同時,許多轉(zhuǎn)錄因子家族、特別是植物特異轉(zhuǎn)錄因子家族的起源、演化、功能等研究成果相繼發(fā)表,轉(zhuǎn)錄因子家族分類也得以更新。為此,我們對PlantTFDB進行了大規(guī)模更新,更新后的第2版包括從49個物種中預測到的53 315個轉(zhuǎn)錄因子,分為58個家族[9]。隨著基因組測序技術(shù)不斷改進,測序速度不斷加快。2013年,已有67種植物的基因組測序完成,我們對PlantTFDB再次進行更新。更新后的第3版共包括129 288個轉(zhuǎn)錄因子,來自83個物種,其中67個已完成基因組測序,覆蓋綠色植物各大門類[10]。
本文介紹植物轉(zhuǎn)錄因子分類規(guī)則和預測方法,以及植物轉(zhuǎn)錄因子數(shù)據(jù)庫PlantTFDB的概況和注釋信息。
轉(zhuǎn)錄因子蛋白質(zhì)序列中的DNA結(jié)合結(jié)構(gòu)域DBD在很大程度上決定其與基因上游啟動子區(qū)域DNA順式元件結(jié)合的序列特異性[11]。DBD在演化上比較保守,通常用作區(qū)分不同轉(zhuǎn)錄因子家族的主要依據(jù)。2000年,Riechmann等[2]歸納整理了擬南芥中轉(zhuǎn)錄因子家族及其特征,將其分為28個家族。10多年來,我們先后檢索和閱讀了大量植物轉(zhuǎn)錄因子相關(guān)文獻,文章總數(shù)累計達7 000余篇。在Riechmann等工作基礎(chǔ)上,根據(jù)已有文獻報道,總結(jié)了植物轉(zhuǎn)錄因子家族及其結(jié)構(gòu)域序列特征,改進了植物轉(zhuǎn)錄因子家族分類規(guī)則,并不斷加以修改和完善,用于植物轉(zhuǎn)錄因子家族劃分和植物基因組中未知轉(zhuǎn)錄因子的預測(圖1)。
圖1 植物轉(zhuǎn)錄因子家族分類規(guī)則
一般說來,根據(jù)轉(zhuǎn)錄因子蛋白質(zhì)序列中所含DNA結(jié)合結(jié)構(gòu)域種類,即可確定其屬于某個特定家族。第3版PlantTFDB數(shù)據(jù)庫58個轉(zhuǎn)錄因子家族中,36個家族(~62%)符合這種家族與DBD一一對應的簡單規(guī)則,如調(diào)控植物生長發(fā)育的乙烯不敏感(Ethylene insensitive-like,EIL)轉(zhuǎn)錄因子家族均含EIN結(jié)構(gòu)域,調(diào)控植物花、果實發(fā)育的SQUAMOSA基因啟動子結(jié)合蛋白(SQUAMOSA-promoter binding protein,SBP)均含SBP結(jié)構(gòu)域。
除上述具有簡單對應關(guān)系的轉(zhuǎn)錄因子外,某些蛋白質(zhì)家族情況比較復雜。例如,由兩個半胱氨酸(Cys,C)和兩個組氨酸(His,H)組成的C2H2鋅指結(jié)構(gòu),是重要的蛋白質(zhì)序列模體。這類蛋白質(zhì)分子中,有些能與DNA結(jié)合,具有轉(zhuǎn)錄活性;有些則與RNA結(jié)合,具有核酸酶活性,除了能與RNA結(jié)合的C2H2鋅指結(jié)構(gòu)外,它們同時包含核酸酶相關(guān)RNase_T結(jié)構(gòu)域。因此,我們將RNase_T結(jié)構(gòu)域稱為“禁止結(jié)構(gòu)域”(Forbidden domain),用來降低轉(zhuǎn)錄因子預測中含C2H2鋅指結(jié)構(gòu)的蛋白質(zhì)預測的假陽性率。又如,半胱氨酸型肽段內(nèi)切酶MCP1B和AtMC2均具有DNA結(jié)合結(jié)構(gòu)域Zf-LSD,但目前尚無證據(jù)表明它們具備轉(zhuǎn)錄調(diào)控功能。我們用禁止結(jié)構(gòu)域“Peptidase_C14”用來濾除包含Zf-LSD結(jié)構(gòu)域蛋白質(zhì)中的非轉(zhuǎn)錄因子。除上述兩個家族外,C3H和MYB家族也含禁止結(jié)構(gòu)域。
有些轉(zhuǎn)錄因子中除了DBD外,還有其它一些特征結(jié)構(gòu)域,稱為“輔助結(jié)構(gòu)域”(Auxiliary domain)。輔助結(jié)構(gòu)域也可用作轉(zhuǎn)錄因子家族分類的依據(jù)。例如,生長調(diào)控因子(Growth regulation factor,GRF)轉(zhuǎn)錄因子家族中均含WRC結(jié)構(gòu)域,該結(jié)構(gòu)域中的特征序列為色氨酸(Trp,W)-精氨酸(Arg,R)-半胱氨酸(Cys,C)序列模體WRC。但并非所有含WRC序列模體的蛋白質(zhì)都具有轉(zhuǎn)錄活性,只有既有WRC序列模體又有QLQ序列模體[谷氨酰胺(Gln,Q)-亮氨酸(Leu,L)- 谷氨酰胺(Gln,Q)]的蛋白質(zhì)才是轉(zhuǎn)錄因子。
有些轉(zhuǎn)錄因子中含兩個或兩個以上DBD,因此,DBD數(shù)目也常常用來區(qū)分不同轉(zhuǎn)錄因子家族。典型實例為AP2和ERF家族。這兩個家族轉(zhuǎn)錄因子中均含AP2結(jié)構(gòu)域,同屬于AP2/ERF超家族,其中僅含一個AP2結(jié)構(gòu)域的為ERF家族,含兩個或兩個以上的則為AP2家族。又如,MYB轉(zhuǎn)錄因子超家族均含Myb_dna_bind結(jié)構(gòu)域,僅含一個的為MYB_related家族,而含兩個或兩個以上的為MYB家族。
除上述基于DNA結(jié)合結(jié)構(gòu)域、利用禁止結(jié)構(gòu)域和輔助結(jié)構(gòu)域?qū)Σ煌D(zhuǎn)錄因子家族進行分類外,有些轉(zhuǎn)錄因子家族之間的關(guān)系比較復雜。例如,具有DNA結(jié)合結(jié)構(gòu)域G2-like的轉(zhuǎn)錄因子均屬于GARP超家族,其中同時還含Response_reg結(jié)構(gòu)域,而有的則僅有G2-like結(jié)構(gòu)域。我們將僅含G2-like結(jié)構(gòu)域的轉(zhuǎn)錄因子歸為G2-like家族,而把兼有G2-like和Response_reg結(jié)構(gòu)域的轉(zhuǎn)錄因子歸為ARR-B家族。
更為復雜的是,AP2/ERF超家族中的另外一個家族RAV同時含有兩個DNA結(jié)合結(jié)構(gòu)域,一個為AP2,另一個為B3。而B3結(jié)構(gòu)域又是另外一個超家族B3中兩個家族的DNA結(jié)合結(jié)構(gòu)域。該超家族中僅含B3結(jié)構(gòu)域的為B3家族,同時含B3結(jié)構(gòu)域和Auxin_resp輔助結(jié)構(gòu)域的為ARF家族。
具有同源異型結(jié)構(gòu)域(Homeodomain)的轉(zhuǎn)錄因子是一個具有多個家族的超家族,根據(jù)是否具有輔助結(jié)構(gòu)域及輔助結(jié)構(gòu)域類別,可細分為HD-ZIP、TALE、WOX等家族。
利用上述家族分類規(guī)則,可以將文獻中已經(jīng)報道的植物轉(zhuǎn)錄因子分為若干家族,并以此為依據(jù)預測已經(jīng)完成基因組測序的綠色植物基因組中未知轉(zhuǎn)錄因子。早期的預測主要采用BLAST序列相似性搜索,即以不同家族的已知轉(zhuǎn)錄因子DBD序列為檢測序列,設置恰當?shù)膮?shù),用安裝到本地的BLAST軟件包,逐個搜索不同物種基因組中蛋白質(zhì)編碼序列,并對搜索結(jié)果進行計算機和人工篩選,剔除假陽性結(jié)果。
基于隱馬氏模型(Hidden markov model,HMM)的序列分析軟件包HMMER在蛋白結(jié)構(gòu)域識別方面具有靈敏度高、特異性好的優(yōu)勢,多用于預測同一家族的遠緣同源序列[12]。其主要原理為適當選取若干已知種子序列并進行多序列比對,基于隱馬氏模型對序列比對結(jié)果進行分析并構(gòu)建隱馬氏模型,給出模型參數(shù)。因此,我們采用HMMER軟件包為主要轉(zhuǎn)錄因子預測工具。歐洲生物信息學研究所(European bioinformatics institute,EBI)Bateman領(lǐng)導的研究組,利用HMMER軟件包構(gòu)建了蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫Pfam[13]。該數(shù)據(jù)庫還無償提供他們構(gòu)建的用于預測蛋白質(zhì)結(jié)構(gòu)域的隱馬氏模型。上述轉(zhuǎn)錄因子分類規(guī)則中共用到63個隱馬氏模型,其中52個取自Pfam數(shù)據(jù)庫,另外11個當時發(fā)布的第27版(Pfam V27.0)尚未公布。為此,基于文獻和收集到的轉(zhuǎn)錄因子序列,利用HMMER軟件包,我們構(gòu)建了這11個結(jié)構(gòu)域的隱馬氏模型,用于預測植物基因組中的轉(zhuǎn)錄因子(表1)。為提高預測的準確性,我們基于GO注釋[14]、擬南芥信息資源數(shù)據(jù)庫[15](The Arabidopsis information resource,TAIR)和國際蛋白質(zhì)序列和功能知識庫UniProtKB[16]等相關(guān)信息,人工檢查序列比對結(jié)果,并參考Pfam確定閾值的方法,為每個結(jié)構(gòu)域模型確定了一個閾值。
基于上述方法和隱馬氏模型,我們構(gòu)建了植物轉(zhuǎn)錄因子預測流程,用于預測植物基因組中未知轉(zhuǎn)錄因子[17]。
表1 用于轉(zhuǎn)錄因子預測的隱馬氏模型
上述用于轉(zhuǎn)錄因子預測的隱馬氏模型可免費提供國內(nèi)外用戶,便于用戶自行構(gòu)建本地轉(zhuǎn)錄因子預測系統(tǒng),從基因組水平系統(tǒng)預測新測定的基因組中未知轉(zhuǎn)錄因子。為方便不具備自行構(gòu)建本地轉(zhuǎn)錄因子預測系統(tǒng)的廣大用戶,我們在PlantTFDB數(shù)據(jù)庫網(wǎng)站中構(gòu)建了在線轉(zhuǎn)錄因子預測平臺,用戶可以上載序列,預測未知蛋白序列中的轉(zhuǎn)錄因子。目前,模式植物擬南芥的轉(zhuǎn)錄因子調(diào)控機制研究最為清楚,在PlantTFDB中注釋信息也最為詳盡。用戶若在提交頁面勾選“Best hit in Arabidopsis thaliana”,預測結(jié)果中則包括相似擬南芥轉(zhuǎn)錄因子的超鏈接,供用戶參考。
2013年更新的第3版植物轉(zhuǎn)錄因子數(shù)據(jù)庫PlantTFDB收錄了從83個物種預測到的129 288個轉(zhuǎn)錄因子,分屬58個家族(表2)。這83個物種覆蓋了綠色植物各大譜系,包括10個綠藻、1個苔蘚植物、1個蕨類植物、4個裸子植物、1個被子植物基部類群、17個單子葉植物和49個雙子葉植物。裸子植物中歐洲云杉(Picea abies)的基因組測序已經(jīng)完成,填補了舊版PlantTFDB中沒有裸子植物全基因組預測所得轉(zhuǎn)錄因子的空白。顯然,這83個物種中,被子植物占絕大多數(shù)(~81%),包括單子葉植物水稻、玉米、高粱、小麥、大麥等主要糧食作物,雙子葉植物中棉花、煙草、大豆、番茄、馬鈴薯、黃瓜、西瓜等重要經(jīng)濟作物,以及葡萄、蘋果、梨、橙、橘等水果,為作物分子育種研究提供了寶貴資源。而與模式植物擬南芥同一屬的琴葉擬南芥(Arabidopsis lyrata)、同為十字花科的小鹽芥(Thellungiella halophila)和條葉藍芥(Thellungiella parvula)的轉(zhuǎn)錄因子數(shù)據(jù),則為轉(zhuǎn)錄因子家族的起源、演化和功能研究提供了基礎(chǔ)。
植物從水生到陸生的演變是生命演化史上的重要事件。橫跨綠色植物各大分支的轉(zhuǎn)錄因子全譜的發(fā)布,使我們可以從轉(zhuǎn)錄調(diào)控水平研究這一重要歷史進程。與綠藻相比,陸生植物無論在轉(zhuǎn)錄因子家族數(shù)目、轉(zhuǎn)錄因子數(shù)目及轉(zhuǎn)錄因子在基因組中所占比例等方面都明顯高于綠藻,與陸生植物更加復雜的多細胞形態(tài)發(fā)育相關(guān)[18]。
高質(zhì)量的注釋信息是植物轉(zhuǎn)錄因子數(shù)據(jù)庫PlantTFDB的重要特色。通過查看注釋信息,從事植物轉(zhuǎn)錄調(diào)控研究的生物學工作者可獲取該轉(zhuǎn)錄因子序列、功能、表達、調(diào)控等相關(guān)信息,并通過文獻信息了解其研究現(xiàn)狀。PlantTFDB中的注釋信息可以分為兩個層次,第一個層次為單個轉(zhuǎn)錄因子的注釋,第二個層次為家族水平的注釋。
單個轉(zhuǎn)錄因子的注釋,除名稱、序列、結(jié)構(gòu)域等基本信息外,也包括與其它重要數(shù)據(jù)庫的鏈接。此 外, 我 們 從 TAIR、UniProtKB和 AthMap[19]等公共數(shù)據(jù)庫中全面收集專家校驗的功能描述、結(jié)合位點/矩陣、microRNA調(diào)控、激素調(diào)控、相互作用、突變和表型等信息。同時,還通過整合Entrez Gene[20]、GeneRIF[20]以及通過文本挖掘和人工校驗獲得的文獻信息[18],為收錄的轉(zhuǎn)錄因子提供了相關(guān)的參考文獻列表。此外,我們還收錄了分別基于9個十字花科物種的基因組比對和20個被子植物基因組比對所得到的轉(zhuǎn)錄因子結(jié)合位點保守元件序列[21,22](表 3)。
家族水平的注釋除了該家族簡介和相關(guān)文獻信息外,還包括該家族成員的演化信息,包括所有物種每個家族成員和每個物種內(nèi)每個家族成員兩類比對信息,以序列圖標(Sequence logo)(圖2-A)和系統(tǒng)發(fā)生樹方式(圖2-B)展示。
自2005年首次發(fā)表擬南芥轉(zhuǎn)錄因子數(shù)據(jù)庫DATF[4]至今已有10年,10年來,我們不斷擴充和多次更新植物轉(zhuǎn)錄因子數(shù)據(jù)庫PlantTFDB。在此期間,德國波茨坦大學、丹麥奧胡斯大學、美國俄亥俄州立大學、日本理化學研究所等單位也構(gòu)建了相應的植物轉(zhuǎn)錄因子數(shù)據(jù)庫(表4)。與這些數(shù)據(jù)庫相比,PlantTFDB包括的物種最多、注釋信息最豐富、更新最及時。目前,該數(shù)據(jù)庫年訪問量逾千萬次,已成為植物轉(zhuǎn)錄因子功能和演化研究的權(quán)威數(shù)據(jù)庫和重要數(shù)據(jù)資源,我們構(gòu)建的植物轉(zhuǎn)錄因子家族分類規(guī)則也被國內(nèi)外同行用于新測序物種轉(zhuǎn)錄因子預測。
表2 植物轉(zhuǎn)錄因子數(shù)據(jù)庫PlantTFDB中83個物種轉(zhuǎn)錄因子及其家族統(tǒng)計
續(xù)表
利用上述數(shù)據(jù)庫資源,我們與其他課題組合作,對AP2/EREBP、MYB、SBP等植物轉(zhuǎn)錄因子家族進行了演化和功能分析[32-34]。同時,對擬南芥轉(zhuǎn)錄調(diào)控網(wǎng)絡進行了深入分析,揭示了植物轉(zhuǎn)錄調(diào)控網(wǎng)絡在結(jié)構(gòu)和演化上的新特征[18]。
表3 轉(zhuǎn)錄因子個體水平注釋
圖2 轉(zhuǎn)錄因子家族水平注釋
不言而喻,隨著測序技術(shù)的飛速發(fā)展,更多植物基因組測序?qū)⑼瓿?,大量基因組、轉(zhuǎn)錄組數(shù)據(jù)不斷發(fā)布。隨著轉(zhuǎn)錄調(diào)控研究不斷深入,轉(zhuǎn)錄因子分類規(guī)則有待改進。此外,SELEX等高通量DNA結(jié)合特異性測定技術(shù)的發(fā)展,為深入研究植物轉(zhuǎn)錄調(diào)控提供了新的契機。結(jié)合表達數(shù)據(jù)、啟動子區(qū)域和保守元件等信息,預測轉(zhuǎn)錄因子下游靶基因,進而構(gòu)建高質(zhì)量轉(zhuǎn)錄調(diào)控網(wǎng)絡,探索轉(zhuǎn)錄調(diào)控的分子機制,必將成為新的研究熱點。開發(fā)轉(zhuǎn)錄調(diào)控分析平臺,將植物轉(zhuǎn)錄因子數(shù)據(jù)庫與數(shù)據(jù)分析整合起來,則是下一步研究目標。
表 4 國際上主要植物轉(zhuǎn)錄因子數(shù)據(jù)庫
[1]Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana[J]. Nature, 2000, 408:796-815.
[2]Riechmann JL, Heard J, Martin G, et al. Arabidopsis transcription factors:genome-wide comparative analysis among eukaryotes[J].Science, 2000, 290:2105.
[3]Gong W, Shen YP, Ma LG, et al. Genome-wide ORFeome cloning and analysis of Arabidopsis transcription factor genes[J]. Plant Physiol, 2004, 135:773-782.
[4]Guo A, He K, Liu D, et al. DATF:a database of Arabidopsis transcription factors[J]. Bioinformatics, 2005, 21:2568.
[5]Gao G, Zhong Y, Guo A, et al. DRTF :a database of rice transcription factors[J]. Bioinformatics, 2006, 22:1286.
[6]Zhu QH, Guo AY, Gao G, et al. DPTF:a database of poplar transcription factors[J]. Bioinformatics, 2007, 23:1307.
[7]Duvick J, Fu A, MuppiralaU, et al. PlantGDB :a resource for comparative plant genomics[J]. Nucleic Acids Res, 2008, 36:D959-965.
[8]Guo AY, Chen X, Gao G, et al. PlantTFDB :a comprehensive plant transcription factor database[J]. Nucleic Acids Res, 2008, 36:D966-969.
[9]Zhang H, Jin J, Tang L, et al. PlantTFDB 2. 0:update and improvement of the comprehensive plant transcription factor database[J]. Nucleic Acids Res, 2011, 39:D1114-1117.
[10]Jin J, Zhang H, Kong L, et al. PlantTFDB 3. 0:a portal for the functional and evolutionary study of plant transcription factors[J]. Nucleic Acids Research, 2014, 42:D1182-D1187.
[11]Weirauch MT, Yang A, Albu M, et al. Determination and inference of eukaryotic transcription factor sequence specificity[J]. Cell,2014, 158:1431-1443.
[12]Eddy S. HMMERUser’s Guide:Biological sequence analysis using profile hidden Markov models[W]. 2010, http://hmmer.janelia. org/.
[13]Punta M, Coggill PC, Eberhardt RY, et al. The Pfam protein families database[J]. Nucleic Acids Research, 2012, 40:D290-D301.
[14]Ashburner M, Ball CA, Blake JA, et al. Gene ontology:tool for the unification of biology. The Gene Ontology Consortium[J]. Nat Genet, 2000, 25(1):25-29.
[15]Lamesch P, Berardini TZ, Li D, et al. The Arabidopsis Information Resource(TAIR):improved gene annotation and new tools[J].Nucleic Acids Res, 2012, 40:D1202-210.
[16]UniProt Consortium. Activities at the universal protein resource(UniProt)[J]. Nucleic Acids Research, 2014, 42:D191-D198.
[17]He K, Guo AY, Gao G, et al. Computational identification of plant transcription factors and the construction of the PlantTFDB database[M]//Computational Biology of Transcription Factor Binding. Humana Press, 2010:351-368.
[18]Jin J, He K, Tang X, et al. An Arabidopsis transcriptional regulatory map reveals distinct functional and evolutionary features of novel transcription factors[J]. Molecular Biology and Evolution, 2015,32:1767-1773.
[19]Bulow L, Engelmann S, Schindler M, et al. AthaMap, integrating transcriptional and post-transcriptional data[J]. Nucleic Acids Res, 2009, 37:D983-D986.
[20]Maglott D, Ostell J, Pruitt KD, et al. Entrez Gene:gene-centered information at NCBI[J]. Nucleic Acids Research, 2011, 39:D52-D57.
[21]Haudry A, Platts AE, Vello E, et al. An atlas of over 90, 000 conserved noncoding sequences provides insight into crucifer regulatory regions[J]. Nature Genetics, 2013, 45:891-898.
[22]Baxter L, Jironkin A, Hickman R, et al. Conserved noncoding sequences highlight shared components of regulatory networks in dicotyledonous plants[J]. The Plant Cell Online, 2012, 24:3949-3965.
[23]Pérez-Rodríguez P, Ria?o-Pachón DM, Corrêa LGG, et al.PlnTFDB:updated content and new features of the plant transcription factor database[J]. Nucleic Acids Research, 2010,38:D822-827.
[24]Fredslund J. DATFAP:a database of primers and homology alignments for transcription factors from 13 plant species[J].BMC Genomics, 2008, 9:140.
[25]Mochida K, Yoshida T, Sakurai T, et al. TreeTFDB :An integrative database of the transcription factors from six economically important tree crops for functional predictions and comparative and functional genomics[J]. DNA Research, 2013, 20:151-162.
[26]Yilmaz A, Nishiyama Jr MY, Fuentes BG, et al. GRASSIUS :a platform for comparative regulatory genomics across the grasses[J]. Plant Physiology, 2009, 149:171.
[27]Mochida K, Yoshida T, Sakurai T, et al. LegumeTFDB :an integrative database of Glycine max, Lotus japonicus and Medicago truncatula transcription factors[J]. Bioinformatics, 2010, 26:290-291.
[28]Iida K, Seki M, Sakurai T, et al. RARTF:database and tools for complete sets of Arabidopsis transcription factors[J]. DNA Res,2005, 12:247-256.
[29]Yilmaz A, Mejia-Guerra MK, Kurz K, et al. AGRIS:the Arabidopsis gene regulatory information server, an update[J].Nucleic Acids Res, 2011, 39:D1118-1122.
[30]Rushton PJ, Bokowiec MT, Laudeman TW, et al. TOBFAC :the database of tobacco transcription factors[J]. BMC Bioinformatics, 2008, 9:53.
[31]Romeuf I, Tessier D, Dardevet M, et al. wDBTF:an integrated database resource for studying wheat transcription factor families[J]. BMC Genomics, 2010, 11:185.
[32]Feng JX, Liu D, Pan Y, et al. An annotation update via cDNA sequence analysis and comprehensive profiling of developmental,hormonal or environmental responsiveness of the Arabidopsis AP2/EREBP transcription factor gene family[J]. Plant Mol Biol,2005, 59:853-68.
[33]Chen YH, Yang XY, He K, et al. The MYB transcription factor superfamily of Arabidopsis:expression analysis and phylogenetic comparison with the rice MYB family[J]. Plant Mol Biol, 2006,60:107-124.
[34]Guo AY, Zhu QH, Gu X, et al. Genome-wide identification and evolutionary analysis of the plant specific SBP-box transcription factor family[J]. Gene, 2008, 418:1-8.