武凌云
摘 要: 在現(xiàn)代分子進化研究中,根據(jù)現(xiàn)有生物基因或物種多樣性重建生物的進化史是一個非常重要的問題,一個可靠的系統(tǒng)發(fā)生的推斷,將揭示出有關生物進化過程的順序,有助于我們了解生物進化的歷史和進化機制,本文就植物分子進化中系統(tǒng)發(fā)生樹的重建方法進行了闡述。
關鍵詞: 植物分子進化 系統(tǒng)發(fā)生樹 重建方法
運用DNA序列測定已經(jīng)普遍運用于系統(tǒng)與進化植物學的研究中,從DNA水平研究生物多樣性與生物進化的分子生物學技術(shù)作為一種研究手段,通過揭示DNA分子中核苷酸的變異研究植物的系統(tǒng)發(fā)生、種內(nèi)分化及遺傳多樣性等,正在改變植物系統(tǒng)這門古老而經(jīng)典的學科,為解決過去依靠植物形態(tài)和稀缺的化石證據(jù)在分類學、系統(tǒng)發(fā)育、物種形成與進化等方面的難題提供極為有效的途徑。本文就植物分子進化中系統(tǒng)發(fā)生樹的常用重建方法做介紹。
1.分子系統(tǒng)發(fā)生樹的重建
目前,利用分子生物學數(shù)據(jù)重建系統(tǒng)發(fā)生樹的方法很多。在重建時,對不同類型的數(shù)據(jù)應采取不同的重建方法。
1.1非加權(quán)組平均法(UPGMA)
UPGMA法在算法上較簡單。聚類時,首先將距離最小的兩個OTU聚在一起,形成一個新的OTU,其分支點位于兩個OTU間距離的1/2處,然后計算新的OTU與其他OTU間的平均距離,再找出其中最小的兩個OTU進行聚類。如此反復,直到所有的OTU都聚到一起,最終得到一個完整的系統(tǒng)發(fā)生樹。
1.2鄰結(jié)法(NJ)
與UPGMA法相比,NJ法在算法上相對較復雜,它跟蹤的是樹上的節(jié)點而不是OTUs。在聚類過程中,根據(jù)原始距離矩陣,基于其他所有節(jié)點間的平均趨異程度而對每對節(jié)點間的距離做調(diào)整,即將每個OTU的趨異程度標準化,從而形成一個新的距離矩陣。重建時將距離最小的兩個終節(jié)點連接起來,在樹中增加一個共祖節(jié)點,同時去除原初的兩個終節(jié)點及其分支,即對整個樹進行修剪。隨后,新增加的共祖節(jié)點被視成終節(jié)點,重復上一次循環(huán)。在每一次循環(huán)過程中,都有兩個終節(jié)點被一個新的共祖節(jié)點取代。整個循環(huán)直到只有兩個終節(jié)點時為止。從所得到的系統(tǒng)發(fā)生樹來看,兩個聚在一起的OUT其所在的終節(jié)點到共祖節(jié)點的距離并不一定相同。
1.3最大簡約法(MP)
MP方法利用的只是對簡約分析能提供信息的特征。如在DNA序列數(shù)據(jù)中,利用的只是存在核苷酸序列差異(至少有2種不同類型的核苷酸序列)的位點,這些位點稱為簡約信息位點。利用MP方法重建系統(tǒng)發(fā)生樹,實際上是一個對給定OTUs,其所有可能的樹進行比較的過程。對某一個可能的樹,首先對每個位點祖先序列的核苷酸組成做出推斷,然后統(tǒng)計每個位點用來闡明差異的核苷酸最小替換數(shù)目。在整個樹中,所有信息簡約位點最小核苷酸替換數(shù)的總和稱為樹的長度。通過比較所有可能樹,選擇其中長度最小的樹作為最終的系統(tǒng)發(fā)生樹,即最大簡約樹。
1.4最大似然法(ML)
利用最大似然法推斷一組序列的系統(tǒng)發(fā)生樹,需首先確定序列進化的模型,目前使用較多的是一些相對較簡單的模型,如Jukes Cantor模型、Kimura二參數(shù)模型及一般二參數(shù)模型。這些模型都建立在一定假設基礎上,然后基于一定的模型考慮兩個OTU序列間的關系,找到支的長度。這個過程需要尋找在某一進化距離上由第一種序列真正轉(zhuǎn)換成第二種序列的可能性,并確定在最大可能下的進化距離。接著將多個OTU構(gòu)成的所有可能樹作為最佳樹,對重建每個樹的統(tǒng)計量進行似然估計,最后通過對樹長度的優(yōu)化,從而獲得最佳樹各參數(shù)的最大似然估計。
1.5貝葉斯推斷法
最常用的是MCMC法,其基本思想是構(gòu)造出一條馬爾柯夫鏈,該鏈的狀態(tài)空間為統(tǒng)計模型參數(shù)和不變后驗分布參數(shù)。鏈的構(gòu)造由多步完成,每步狀態(tài)空間的狀態(tài)都被推薦為鏈的下一個連接點。首先在狀態(tài)空間中隨機挑選一個狀態(tài)作為鏈的當前態(tài),隨機擾動當前態(tài)各參數(shù),從狀態(tài)空間中推薦一個新態(tài),計算推薦態(tài)的相對后驗概率密度,若推薦態(tài)的后驗概率密度高于當前態(tài),則鏈的移動被接受,推薦態(tài)則作為下一循環(huán)的當前態(tài)。若推薦態(tài)的后驗概率密度低于當前態(tài),則計算由Metropolis等和Hasting提出的推薦態(tài)與當前態(tài)后驗概率的比率,該值接近1時接受推薦態(tài),接近0時則拒絕推薦態(tài),此時,當前態(tài)作為自身的下一個連接點。對上述過程重復若干次,最終馬爾柯夫鏈將停留在后驗概率高的狀態(tài),某態(tài)的后驗概率就是馬爾柯夫鏈停留該態(tài)的時間分值。
1.6不同構(gòu)樹方法的分析
在上述方法中,F(xiàn)arris和Penny認為距離法得到的結(jié)果要比離散特征法的差,F(xiàn)elsenstein和Nei則認為Farris和Penny的論據(jù)是對距離法的錯誤理解。事實上,在有些情況下距離法能得到比離散特征法更正確的系統(tǒng)發(fā)生樹。在距離法中,UPGMA比較簡單且實用,當使用的距離數(shù)據(jù)是來源于對含核苷酸數(shù)量較多的多個基因的分析結(jié)果時,利用UPGMA法能得到可靠的系統(tǒng)發(fā)生樹。在離散特征法中,在不同世系間進化速率相差較大,且進化速率恒定而樹的內(nèi)支很短的情況下,MP法并不能對一個真正的系統(tǒng)發(fā)生樹做出始終一致的判斷。即使有時MP法能得到一個始終一致的判斷,但它獲得一個正確樹的效率通常要比NJ法和ML法低。但在(1)序列趨異程度較小(d<0.1);(2)核苷酸替換的速率或多或少的恒定;(3)沒有很高的轉(zhuǎn)換與顛換比及很強的G+C含量偏差;(4)所分析的核苷酸數(shù)量較多(大于幾千)的情況下,MP法仍是一種較好的系統(tǒng)發(fā)生樹重建法。另外,與距離法和ML法不同,MP法能利用序列中堿基的插入與缺失信息。
2.結(jié)語
從系統(tǒng)發(fā)育生物學的角度看,基因組學的豐富數(shù)據(jù)既包括大量序列信息,又蘊藏有關重復基因、DNA片段缺失/插入、轉(zhuǎn)座子丟失/插入等信息,為系統(tǒng)發(fā)育研究提供豐富的資料,使得利用大規(guī)?;蚪M水平的數(shù)據(jù)進行系統(tǒng)發(fā)育分析成為可能。
應該注意的是,用DNA序列研究系統(tǒng)進化時也存在許多問題。首先,雖然同一DNA序列在不同分類群間的進化速率有所差異,但序列本身在植物系統(tǒng)學的研究中總有相對穩(wěn)定的適用范圍,這使得其涵蓋的研究內(nèi)容和層次有限。其次,分子片段僅僅是分類群諸多性狀的一個來源,它雖能為分類群的系統(tǒng)重建提供不可忽視的信息,但并不能完全反映其真實的演化歷史。比如核基因組龐大而復雜,擁有許多具有豐富變異的DNA片段(如某些基因的內(nèi)含子區(qū)),在低階元類群的分子系統(tǒng)學研究中應用廣泛。
參考文獻:
[1]Kay,K.,J.Whittall,et al.A survey of nuclear ribosomal internal transcribed spacer substitution rates across angiosperms:an approximate molecular clock with life history effects.BMC Evolutionary Biology,2006,6(1):36.