李可群
(同濟大學 化學科學與工程學院,上海 200092)
生命之樹是指將所有生物種類聯(lián)系在一起并蘊含海量信息的系統(tǒng)進化樹,它可用來闡明生命的起源、生物進化樣式、生物各大門類演化和親緣關(guān)系,以及生物多樣性的存在和變化的動態(tài)規(guī)律.構(gòu)建生命之樹和利用其中的信息資源是生命科學面臨的又一挑戰(zhàn)[1].研究生物進化的理想途徑是利用物種的化石證據(jù),但是自然界中化石存留下來的比較少,很多進化的關(guān)鍵環(huán)節(jié)都沒有化石存留.因此大多數(shù)生物是通過比較形態(tài)學和比較生理學構(gòu)建生物進化史的框架,然而形態(tài)和生理狀態(tài)的進化相當復(fù)雜,不同學者構(gòu)建的進化系統(tǒng)樹在細節(jié)上有所差別,得出的物種進化關(guān)系難以統(tǒng)一[2].近年來,隨著分子生物學研究的不斷深入,大大改變了這種局面.不過,目前分子系統(tǒng)發(fā)育分析在計算物種分歧時間時,大多基于分子進化速率恒定的“分子鐘”假說,但大多數(shù)生物分子在長時間尺度和不同譜系的進化速率并不恒定,從而計算得到的結(jié)果與化石年齡往往存在較大的偏差.如原口動物和后口動物分歧時間化石給出的年代在5.55~5.60億年前,而近年來快速發(fā)展的生物分子鐘方法推算結(jié)果大多介于12億~8.51億年前,僅有極少數(shù)給出小于6億年前的結(jié)果,即幾乎所有分子鐘研究結(jié)果顯示兩者分異早于寒武紀生物大爆發(fā)至少1億年[3].為此,本文作者提出了不基于分子進化速率恒定假說的分子絕對進化速率計算公式[4]、多重突變校正公式[5]和分子系統(tǒng)發(fā)育分析中的物種選擇規(guī)則[6]等.本文將繼續(xù)探討分子系統(tǒng)發(fā)育分析中物種選擇規(guī)則的相關(guān)問題.
若兩個同源序列分子進行比較,其序列差異率p可表達為[4]
(1)
(2)
文獻[4]指出當兩個遺傳距離kAt和kBt存在一定差異但相差不十分懸殊時,式(2)得到的分子絕對進化速率kA和kB分別是其各自真實值(即式(1)中對應(yīng)值)的2倍.替代公式的使用會帶來誤差,當一個物種類群對,即兩個物種類群的物種序列分子彼此兩兩相互比較,其總誤差可表示為[6]
(3)
(4)
根據(jù)高等數(shù)學中多元函數(shù)極值條件,將式(4)中s分別對xA(i)、xB(j)求一階偏導數(shù)并令它們分別為零,兩式展開整理后有
(5)
和
(6)
由式(5)和式(6)可以看出,兩式較為復(fù)雜難以直接求解.而三物種類群和四物種類群分別由3個和6個物種類群對組成,問題更為復(fù)雜.幸運地是,文獻[6]在計算出的物種分歧時間與化石年齡十分接近的成功體系中,發(fā)現(xiàn)參與計算的同一物種類群中的物種序列分子均滿足以下關(guān)系式
(7)
式中:e-x稱之為其物種序列分子的平均未突變概率,式中c值分別取1、2、3和4,m0為物種數(shù).依據(jù)該文獻的方法,式(4)可轉(zhuǎn)化為
(8)
式中:e-xA、e-xB分別為物種類群A和物種類群B中物種序列分子的平均未突變概率.不難看出,式(8)取最小值,也就是兩物種類群體系的物種選擇規(guī)則為
e-xA=e-xB
(9)
即兩物種類群自它們最近共同祖先而來的物種序列分子平均未突變概率相等.三物種類群和四物種類群體系也可做類似處理,具體過程參見文獻[6].
可以看出,式(7)的引入極大地簡化了求解過程,為了幫助讀者更好地理解和使用該公式,本文將從數(shù)學上給出式(7)的來源并討論其在分子系統(tǒng)發(fā)育分析應(yīng)用中的普遍性.
首先討論式(5).為了方例式(5)求解,本文將使用較為一種巧妙的方法.即令e-xA(i)=rie-xA0,其中e-xA0為與物種類群A的具體物種序列分子,即與i無關(guān)的變量,那么式(5)將轉(zhuǎn)化為關(guān)于e-xA0的一元三次方程,即
(10)
(11)
式(11)同樣較難直接求解.可通過使其第1項分別與第2項、第3項和第4項提出因式,剩余的兩項也提出因式,再人為地讓提出的兩因式相等,即通過將式(11)進行因式分解的方法求解,來確定其物種選擇規(guī)則.
式(11)可轉(zhuǎn)化為
(12)
若要式(12)有解,需使2個中括號內(nèi)式子相等即
(13)
式(13)可變換為
(14)
另若式(12)中括號內(nèi)因式為其解,還需令其等于零,有
(15)
而式(15)可轉(zhuǎn)換為
(16)
另由式(14)和式(16)有
(17)
式(16)和式(17)就是式(11)第1項和第2項提取因式時得到的解,即此情形時使式(5)取最小值時需滿足的條件.式(11)中第1項和第3項提取因式時得到的解與上述結(jié)果相同.
此時式(11)可轉(zhuǎn)換為
(18)
(19)
式(19)即為
(20)
同樣將式(18)提取的因式令其為零后,有
(21)
變換后有
(22)
由式(22)可知,式(20)右邊項等于1,即有
(23)
式(22)和式(23)即為式(11)第1項和第4項提取因式時得到的解,即此情形時的物種選擇規(guī)則.需說明的是,式(18)提取因式后剩余的表達式較為復(fù)雜,而物種選擇規(guī)則是選取能計算得到滿意物種分歧時間的物種組成,而不是窮盡其解,故忽略從此種情形中求解.
表1 使用因式分解法得到的兩物種類群體系解
因式(4)取最小值時要同時滿足式(5)和式(6),即需取它們在表1中解的交集.不難看出,當表1中同時選擇式(5)通過第1、2項以及式(6)通過第1、4項得到的解時,會發(fā)現(xiàn)它們之間矛盾,也即此時式(4)不存在解,反過來也一樣.表1中同時選擇式(5)和式(6)的第1、2項得到的結(jié)果是否為式(4) 的解需實際計算來驗證,本文將重點討論同時選擇使用式(5)和式(6)的第1、4項得到解的情形.
2.3.1 式(7)的數(shù)學來源
由表1中式(5)和式(6)通過第1、4項得到的解進行變換有
(24)
(25)
(26)
(27)
可以看出式(7)是式(24)至式(27)的一個解,且有式(9)成立,這也就是為什么文獻[6]能從計算出滿意物種分歧時間成功體系的數(shù)據(jù)中總結(jié)出式(7)的原因.
2.3.2 式(7)的普遍性
如果把同一物種類群中各序列分子自它們的祖先分子而來的未突變概率表達為e-xk=e-xe-Δxk(k=1,2,…,m0),其中e-x為各物種序列分子的平均未突變概率,而Δxk=xk-x.由于同一物種類群中各物種序列分子絕對進化速率大多差異并不很大,因此物種選擇時不難選擇出一組上述物種序列分子使它們的Δxk數(shù)值均較小,由泰勒級數(shù)展開式并取前兩項,因e-x一般不為零,故有
e-xk=e-x(1-Δxk)
(28)
(29)
由于前面同樣的原因,當式(7)中c為2、3和4時,可以通過適當?shù)奈锓N選擇使同一物種類群中各物種序列分子的cΔxk數(shù)值較小,從而使其e-cΔxk的泰勒級數(shù)展開式僅取其前兩項(參見文獻[6]中的實際計算體系),顯然此時式(29)成立.有
(30)
即此情形時式(7)也成立.實際計算表明,物種選擇時在同一物種類群中找到一組物種序列分子來滿足所有c取值時的式(7)事實上較為容易,即式(7)具有普遍性.因此不難理解在我們計算出滿意物種分歧時間的成功體系中,可以發(fā)現(xiàn)其各物種類群序列分子均滿足式(7).式(7)在分子系統(tǒng)發(fā)育分析中有著重要的作用,它在處理三物種類群和四物種類群體系物種選擇規(guī)則時能將計算過程大大簡化.
通過使用因式分解的方法成功地給出了兩物種類群體系物種選擇規(guī)則的解,并從數(shù)學上證明了從計算出準確物種分歧時間成功體系數(shù)據(jù)中總結(jié)出的式(7)為其中一個解.式(7)的引入,大大簡化了三物種類群體系和四物種類群體系物種選擇規(guī)則的計算過程,在分子系統(tǒng)發(fā)育分析中有著重要作用.