梁 園,周 雁,2*
1.復旦大學生命科學學院遺傳工程國家重點實驗室,上海 200438
2.中國國家人類基因組中心上海市疾病與健康基因組學重點實驗室,上海 201203
Wnt基因編碼了一類分泌性的糖蛋白配體,長度通常在350 到400 個氨基酸之間,以具有23~24個保守的半胱氨酸為特征[1-4]。Wnt分子激發(fā)的信號通路參與了多種生物過程的調(diào)節(jié),在生物體的發(fā)育過程中起著至關(guān)重要的作用,包括細胞形態(tài)的分化、體細胞形態(tài)和功能穩(wěn)態(tài)的維持、胚軸形成,組織的再生和免疫應(yīng)答調(diào)節(jié)[5,6]。
Wnt基因家族的起源非常古老,且具有多樣性。利用已有的基因組信息對Wnt基因家族的系統(tǒng)發(fā)育分析結(jié)果顯示,在刺胞動物和兩側(cè)對稱動物的共同祖先中可能存在13 個Wnt亞家族[7,8]。其中,在腔腸動物門的??∟ematostella vectensis)中發(fā)現(xiàn)了12 個Wnt 亞家族[9]。此外,在哺乳動物中還發(fā)現(xiàn)了Wnt基因的擴增現(xiàn)象,例如在人類的基因組中共鑒定出了19 個Wnt基因,包括了12 個Wnt亞家族[10]。然而,在節(jié)肢動物中,Wnt基因的數(shù)量存在著物種間的差異。在昆蟲類的果蠅和蜜蜂的基因組中分別發(fā)現(xiàn)了7 個Wnt基因亞家族[11],然而在甲殼綱動物蚤狀溞(Daphnia pulex)中則鑒定出了12 個Wnt基因亞家族[12]。另外,根據(jù)Wnt基因在基因組上分布的位置關(guān)系,研究者發(fā)現(xiàn)Wnt基因在基因組上存在一定程度的連鎖分布現(xiàn)象,形成了具有共線性的基因簇。在刺胞動物和兩側(cè)對稱動物的共同祖先中可能有2 個具有共線性的Wnt基因簇,其中一個基因簇由Wnt9,-1,-6 和-10連鎖分布形成,另一個由Wnt5和Wnt7組成的另一個基因簇,但目前尚不清楚在節(jié)肢動物中是否仍然存在這一基因簇[7,11,13]。
迄今為止,在節(jié)肢動物門的螯肢動物中,仍然缺乏關(guān)于Wnt基因的全基因組的分析研究。不過,近期發(fā)表的拼接質(zhì)量較高的螯肢動物的基因組數(shù)據(jù)為全面研究螯肢動物中的Wnt基因的特征提供了資源。在本研究中,我們采用生物信息學方法對螯肢動物的Wnt基因序列進行了鑒定和分析,并進一步比較了其數(shù)量、結(jié)構(gòu)、基因組分布和系統(tǒng)發(fā)育關(guān)系,以期為Wnt基因家族在節(jié)肢動物乃至后生動物中的和進化過程和功能的進一步研究提供有力的基礎(chǔ)。
我們收集了公開數(shù)據(jù)庫中的7 種螯肢動物的基因組和1 種的轉(zhuǎn)錄組,包括蝎子類(Centurouroides sculpturatus),蜘蛛類(Parasteatoda tepidariorum),蜱螨類(Tetranychus urticae,Dinothrombium tinctorium,Ixodes scapularis),鱟類(Limulus polyphemus,Tachypleus tridentatus)和海蜘蛛類(Pycnogonumsp.)。所收集的7 種螯肢動物的基因組都拼接到了scaffold 或染色體水平。海蜘蛛Pycnogonumsp.的原始RNA 測序數(shù)據(jù)從NCBI SRA 數(shù)據(jù)庫下載得到,檢索號為SRR8745912。
利用NCBI 數(shù)據(jù)庫中代表性的節(jié)肢動物的Wnt基因的氨基酸序列為搜索序列,來搜索螯肢動物基因組和轉(zhuǎn)錄組中的的Wnt基因家族成員[11,14,15],首先使用BlastP 和TBlastN 算法[16]搜索螯肢動物預測基因的蛋白序列和基因組序列,e 值閾值選擇10-5。然后將獲得的序列與Pfam 數(shù)據(jù)庫進行比較,檢測是否存在Wnt 保守結(jié)構(gòu)域。接下來使用PF00110 這一Wnt 保守結(jié)構(gòu)域的隱馬爾可夫文件,利用HMMER 程序包[17]的HMMsearch 程序在螯肢動物的預測基因中搜索是否存在其它Wnt基因。第三,使用Clustal W[18]對每個物種已搜索到的Wnt基因進行聚類,使用HMMbuild 程序構(gòu)建物種特異的Wnt 隱馬爾可夫文件,然后再一次用HMMsearch 對螯肢動物的預測基因進行搜索,以獲得物種特異的Wnt基因家族候選序列。鑒定得到的Wnt 蛋白序列在SMART 中進行比對,以鑒定信號肽和其它保守結(jié)構(gòu)。鑒定出的Wnt 蛋白結(jié)構(gòu)域使用IBS 1.0.3 軟件繪制[19]。
選擇鑒定得到的2 種鱟、1 種蝎子、1 種蜘蛛、1 種螨蟲、1 種蜱蟲、1 種海蜘蛛,以及已知的1種蜜蜂、1 種甲蟲、1 種蚜蟲、1 種蜈蚣、1 種水蚤和1 種家鼠的Wnt基因用于進行系統(tǒng)發(fā)育分析。首先用Clustal W[18]的BLOSUM 打分矩陣進行多序列比對,然后使用PhyML 3.0[20]采用最大似然法構(gòu)建系統(tǒng)發(fā)育樹,使用SH-aLRT 方法對分支的支持度進行評估。
我們在8 種螯肢動物中共鑒定得到87 個Wnt基因家族成員。其中,在中華鱟和美洲鱟中分別發(fā)現(xiàn)了15 個和18 個Wnt基因,在蝎子中發(fā)現(xiàn)了13 個Wnt基因,在蜘蛛中發(fā)現(xiàn)了12 個Wnt基因,在二斑葉螨、肩突硬蜱和天鵝絨螨蟲中分別鑒定到了8、7、6 個Wnt基因,在海蜘蛛中發(fā)現(xiàn)了8 個Wnt基因。每個基因都在之后的系統(tǒng)發(fā)育分析中進一步進行了亞家族分類。在蝎子,蜘蛛和海蜘蛛中,鑒定到的Wnt基因的氨基酸序列均由300 至400 個氨基酸構(gòu)成。在二斑葉螨、肩突硬蜱、和天鵝絨螨蟲中,大多數(shù)鑒定得到的Wnt基因的氨基酸序列長度在300 至400 之間,除了在每個物種中分別鑒定出了各2 個相對較短的Wnt 氨基酸序列以及一個較長的Wnt16 序列。在中華鱟和美洲鱟的基因組中,Wnt 氨基酸序列的長度出現(xiàn)了更高的變異度,包含了兩條較長的TtWnt1 和TtWnt5c 以及若干較短的Wnt 蛋白序列。
進一步對螯肢動物的Wnt基因的氨基酸序列特征和結(jié)構(gòu)域進行分析,結(jié)果顯示,在包括鱟、蝎子、蜘蛛和海蜘蛛在內(nèi)的物種中的Wnt 氨基酸序列都含有高度保守的Wnt 結(jié)構(gòu)域(見圖1a),位于序列的C 末端附近,在這些Wnt 氨基酸序列的N 末端還發(fā)現(xiàn)了多種結(jié)構(gòu)序列,包括長度為20~30個氨基酸的信號肽序列、跨膜區(qū)序列或低復雜度區(qū)域。然而在3 個蜱螨類物種中鑒定到的一部分Wnt基因的氨基酸序列的N 末端則缺少了這些結(jié)構(gòu)域(見圖1b)。此外,我們對在蝎子、蜘蛛和海蜘蛛中鑒定到的長度在300 至400 aa 之間的Wnt基因的氨基酸序列做了多序列比對,結(jié)果顯示這些序列中存在21 個保守的半胱氨酸殘基,呈分散分布于序列當中,這與在其它后生生物中鑒定到的Wnt基因家族的氨基酸序列的特征是一致的,這些半胱氨酸殘基可能有助于這些Wnt 蛋白質(zhì)的正確折疊。
圖1 螯肢動物Wnt 基因結(jié)構(gòu)Fig.1 The structure of Wnt gene in Chelicerata
為了進一步探索螯肢動物Wnt基因的進化現(xiàn)象,我們比較了其中6 個物種的Wnt基因在基因組上的分布(見圖2)。結(jié)果發(fā)現(xiàn)除了美洲鱟以外,其它螯肢動物都保留了進化上保守的基因簇Wnt9-Wnt1-Wnt6-Wnt10中的一部分,各自伴隨著譜系特異性重排或丟失現(xiàn)象。中華鱟基因組中的Wnt6和Wnt1基因位于其3 號染色體上,蝎子和蜘蛛基因組中的Wnt6和Wnt1基因分別位于各一條scaffold 上。此外,在蝎子的另一條scaffold 上還發(fā)現(xiàn)了Wnt9-Wnt6-Wnt1的連鎖分布,在肩突硬蜱的基因組中的一條scaffold 上發(fā)現(xiàn)了相鄰的Wnt9-Wnt1基因簇。有趣的是,我們在中華鱟、美洲鱟、蝎子和蜘蛛的基因組中還發(fā)現(xiàn)了Wnt5和Wnt7基因簇,分別位于中華鱟的2 條染色體上和美洲鱟的3 條scaffolds 上。除此之外,我們還發(fā)現(xiàn)了除了這兩個基因簇以外的新的Wnt基因簇。在美洲鱟基因組中,有一串相鄰分布的Wnt11-Wnt7基因簇,位于1 條scaffold 上。在蝎子中,發(fā)現(xiàn)了相鄰分布的的Wnt2和Wnt16基因簇。在蜘蛛基因組中,Wnt4和Wnt11被發(fā)現(xiàn)相鄰分布于1 條scaffold 上。
圖2 螯肢動物Wnt 基因的連鎖分布Fig.2 The conserved Wnt gene cluster in six chelicerates and four other arthropods
為了進一步闡明螯肢動物的Wnt基因的系統(tǒng)發(fā)育關(guān)系,我們利用7 個螯肢動物以及其它節(jié)肢動物(包括蜈蚣、水蚤、蜜蜂、蚜蟲、以及甲蟲)的Wnt基因的氨基酸序列,采用最大似然法構(gòu)建了Wnt基因家族的系統(tǒng)發(fā)生樹,采用小鼠的Wnt3基因序列作為外類群。系統(tǒng)發(fā)育樹顯示,螯肢動物的Wnt家族可分為11 個不同的亞家族(見圖3)。如在其它節(jié)肢動物中所發(fā)現(xiàn)的,這些螯肢動物的基因組發(fā)生了Wnt3亞家族的缺失。有趣的是,螯肢動物的基因組中還另外缺失了Wnt10亞家族。同時,我們僅在蝎子和肩突硬蜱中鑒定到了Wnt9亞家族序列。與其它類節(jié)肢動物基因組大多擁有單拷貝的Wnt基因所不同,螯肢動物的Wnt5,Wnt7和Wnt11亞家族基因表現(xiàn)出具有多拷貝的擴增現(xiàn)象(見圖3),這可能暗示了在螯肢動物進化過程的早期出現(xiàn)了基因組的擴增現(xiàn)象。對于每個物種而言,在中華鱟、美洲鱟,蝎子和蜘蛛中分別鑒定出9、10、9、10 個Wnt亞家族。在海蜘蛛基因組中,鑒定到了8 個Wnt亞家族。值得注意的是,在螨蟲和蜱蟲中共鑒定出6 個和7個Wnt亞家族,與其它螯肢動物相比,表現(xiàn)出了Wnt2和Wnt7的丟失現(xiàn)象,這可能與其進化速率是有關(guān)的。此外,從系統(tǒng)發(fā)育樹上,我們發(fā)現(xiàn)Wnt1和Wnt6亞家族作為姐妹類群聚成一支,且具有分數(shù)較高的的支持度,這表明這兩個亞家族可能是由于串聯(lián)重復進化而來的。我們還發(fā)現(xiàn)Wnt2,Wnt6,Wnt8和Wnt16亞家族的基因都分為了支持度較高的兩個分支(螯肢動物分支和非螯肢動物分支),這表明這些基因亞家族在螯肢動物和其它節(jié)肢動物之間的進化距離更遠。
圖3 Wnt 基因家族系統(tǒng)發(fā)生樹Fig.3 The phylogenetic tree of the Wnt families
在本研究中,我們用生物信息學方法全面鑒定了8 種螯肢動物的Wnt基因家族,這可以為進一步理解Wnt基因在后生動物進化過程中的進化模式提供基礎(chǔ)。盡管在基因組的測序和拼接過程中會有一定的錯誤,但是這8 個高深度、高覆蓋度、高拼接水平的基因組和轉(zhuǎn)錄組資源為我們提供了從全基因組和轉(zhuǎn)錄組水平鑒定Wnt基因的條件。從結(jié)構(gòu)分析結(jié)果來看,在蝎子、蜘蛛和海蜘蛛中,大多數(shù)Wnt 氨基酸序列都包含可識別的信號肽區(qū)域,而其它物種中的一些Wnt序列則顯然缺乏該基序??紤]到信號肽的生物信息學預測算法仍是有限的,這些序列仍然有包含現(xiàn)有預測軟件無法識別的信號肽的可能性,需要進一步的細胞生物學實驗來確定這些缺乏信號肽的序列是否為非分泌型Wnt 蛋白。從基因組的分布情況來看,在蝎子中我們發(fā)現(xiàn)了2 個位于不同scaffold 上的Wnt6-Wnt1簇,同時分別在兩種鱟的不同scaffold 和染色體上的發(fā)現(xiàn)了2 個和3 個Wnt5-Wnt7簇,這可能暗示了在鱟的祖先中曾發(fā)生了全基因組復制事件。從系統(tǒng)發(fā)育分析結(jié)果來看,螯肢動物的Wnt基因家族包括了11 個亞家族,丟失了Wnt3和Wnt10亞家族,這表明螯肢動物的共同祖先可能已缺失了這兩個亞家族。其它亞家族的丟失是在螯肢動物的進化過程中發(fā)生的。此外,在螨蟲和蜱蟲中鑒定出了數(shù)量較少的6 個和7 個Wnt亞家族,這可能是因為它們在整個進化過程中具有更快的進化速度從而導致了大量的Wnt基因丟失。相反,Wnt5,Wnt7和Wnt11亞家族在鱟和蝎子中具有多個基因的拷貝,表現(xiàn)出了較大程度的擴張,而在其它節(jié)肢動物(如昆蟲和甲殼類動物)中則表現(xiàn)為單拷貝。對這些螯肢動物中擴張的Wnt亞家族的具體功能研究正在進行當中。
在本研究中,我們對螯肢動物中的Wnt基因家族做了全基因組的生物信息學鑒定和分析,從螯肢動物的8 個物種中共鑒定出了87 個Wnt基因。我們進一步分析了這些Wnt基因的基因結(jié)構(gòu),發(fā)現(xiàn)這些基因包含高度保守的Wnt結(jié)構(gòu)域、信號肽、跨膜區(qū)域或低復雜度區(qū)域。對這些Wnt基因在基因組上的分布研究發(fā)現(xiàn),在螯肢動物中的Wnt基因簇主要存在兩種連鎖分布模式(Wnt9-Wnt6-Wnt1或Wn5-Wnt7),并且還有一些譜系特異性的基因簇。螯肢動物中的Wnt基因家族的系統(tǒng)發(fā)育分析結(jié)果顯示了Wnt5、Wnt7和Wnt11的擴張以及Wnt3和Wnt10的缺失,這些發(fā)現(xiàn)為進一步研究螯肢動物中的Wnt基因家族的功能提供了基礎(chǔ)。