李可群
(同濟(jì)大學(xué)化學(xué)科學(xué)與工程學(xué)院,上海 200092)
自達(dá)爾文時(shí)代起,許多生物學(xué)家都有一個(gè)夢(mèng)想,那便是重建地球上所有生命的進(jìn)化歷史并以進(jìn)化系統(tǒng)樹(shù)的形式描述這部歷史[1].研究物種進(jìn)化的理想途徑是利用物種的化石證據(jù),但是自然界中化石存留下來(lái)的比較少,很多進(jìn)化的關(guān)鍵環(huán)節(jié)都沒(méi)有化石證據(jù)存留.因此大多數(shù)生物是通過(guò)比較形態(tài)學(xué)和比較生理學(xué)構(gòu)建生物進(jìn)化史的框架,然而形態(tài)和生理狀態(tài)的進(jìn)化相當(dāng)復(fù)雜,不同學(xué)者構(gòu)建的進(jìn)化系統(tǒng)樹(shù)在細(xì)節(jié)上有所差別,得出的物種進(jìn)化關(guān)系難以統(tǒng)一[2].近年來(lái),隨著分子生物學(xué)研究的不斷深入,大大改變了這種局面.不過(guò),目前分子系統(tǒng)發(fā)育分析在計(jì)算物種分歧時(shí)間時(shí),大多基于分子進(jìn)化速率恒定的“分子鐘”假說(shuō)[3],但大多數(shù)生物分子在長(zhǎng)時(shí)間尺度和不同譜系的進(jìn)化速率并不恒定,從而計(jì)算得到的結(jié)果與化石年齡往往存在較大偏差.如原口動(dòng)物和后口動(dòng)物分歧時(shí)間化石給出的年代大約在5.55億~5.60億年前,而近年來(lái)快速發(fā)展的生物分子鐘方法推算結(jié)果大多介于12億~8.51億年前,僅有極少數(shù)給出小于6億年前的結(jié)果,即幾乎所有分子鐘研究結(jié)果顯示兩者分異早于寒武紀(jì)生物大爆發(fā)至少1億年[4].為此本文作者提出了不基于分子進(jìn)化速率恒定假說(shuō)的分子絕對(duì)進(jìn)化速率計(jì)算公式[5]和多重突變的校正方法[6],本文將繼續(xù)討論分子系統(tǒng)發(fā)育分析中的物種選擇規(guī)則.
根據(jù)分子進(jìn)化模型[6],由于突變概率很低,核苷酸或蛋白質(zhì)序列分子的突變概率可用泊松分布來(lái)描述
(1)
式(1)中k為分子絕對(duì)進(jìn)化速率,t為進(jìn)化時(shí)間,p(x=j)為突變j次的概率.特別地,核苷酸或蛋白質(zhì)序列分子不發(fā)生突變的突變概率為
p(x=0)=e-kt
(2)
對(duì)于一個(gè)有n0個(gè)被比較位點(diǎn)的核苷酸或蛋白質(zhì)序列分子,若忽略回復(fù)突變(可校正,參看文獻(xiàn)[6]),有
(3)
式(3)中nd為核苷酸或蛋白質(zhì)序列分子相對(duì)于其被比較的祖先核苷酸或蛋白質(zhì)序列分子發(fā)生突變的位點(diǎn)數(shù),p為這兩個(gè)序列分子的序列差異率,kt一項(xiàng)稱遺傳距離.
由于祖先序列分子一般難以得到,實(shí)際工作中我們一般通過(guò)比較同源序列分子來(lái)計(jì)算物種分歧時(shí)間.根據(jù)文獻(xiàn)[5],兩個(gè)同源序列分子比較得到的序列差異率可表示為
(4)
(5)
文獻(xiàn)[5]指出當(dāng)兩個(gè)遺傳距離kAt和kBt存在一定差異但相差不十分懸殊時(shí),式(5)得到的分子絕對(duì)進(jìn)化速率是其真實(shí)值[即式(4)的對(duì)應(yīng)值]的2倍.但替代公式的使用會(huì)帶來(lái)誤差,其差值為
(6)
因此,分子系統(tǒng)發(fā)育分析中物種選擇規(guī)則的實(shí)質(zhì)就是使替代公式在物種分歧時(shí)間計(jì)算時(shí)引入的總體誤差取最小值,否則最優(yōu)化計(jì)算過(guò)程中式(5)得到的絕對(duì)進(jìn)化速率將偏離為其真實(shí)值2倍的關(guān)系,同時(shí)會(huì)給出錯(cuò)誤的物種分歧時(shí)間結(jié)果.若不考慮式(4)的誤差,此亦即使用式(5)進(jìn)行物種分歧時(shí)間計(jì)算的總體誤差.
在分子系統(tǒng)發(fā)育分析中,我們一般使用兩組同源序列分子相互兩兩比較.在成功的計(jì)算體系中,我們發(fā)現(xiàn)它們的同組同源序列分子平均未突變概率存在一些規(guī)律.我們以文獻(xiàn)[7]使用COX1蛋白質(zhì)分子計(jì)算寒武紀(jì)生物大爆發(fā)時(shí)期原口動(dòng)物與后口動(dòng)物分歧時(shí)間為例,文章分別使用一組鯊魚(yú)和一組環(huán)節(jié)動(dòng)物作為物種類群A和物種類群B,另外選用了腕足動(dòng)物、輪蟲(chóng)動(dòng)物、線蟲(chóng)動(dòng)物、節(jié)肢動(dòng)物和軟體動(dòng)物分別作為物種類群C,參見(jiàn)圖1.文獻(xiàn)[7]的計(jì)算表明:所得的原口動(dòng)物與后口動(dòng)物物種分歧時(shí)間數(shù)值很相近,且與化石年齡相符很好,遠(yuǎn)好于現(xiàn)有文獻(xiàn)結(jié)果,說(shuō)明計(jì)算結(jié)果令人滿意.
圖1 寒武紀(jì)物種分歧時(shí)間的計(jì)算框圖
表1 寒武紀(jì)物種分歧時(shí)間計(jì)算中同組同源序列分子的平均未突變概率
由表1可以看出,當(dāng)同組同源序列分子的遺傳距離取kit的倍數(shù)時(shí),其對(duì)應(yīng)的平均未突變概率取自然對(duì)數(shù)后的比值r等于它們倍數(shù),即如果我們令
(7)
那么就有
(8)
式(8)中c為0.5、1.0、1.5和2.0.我們隨意以表1中軟體動(dòng)物類群為例,試圖對(duì)式(8)做出解釋,表1中其他動(dòng)物類群計(jì)算結(jié)果與之相同.
表2 軟體動(dòng)物的平均未突變概率
表2中給出了寒武紀(jì)物種分歧時(shí)間計(jì)算時(shí),軟體動(dòng)物不同物種e-ckit的數(shù)值.可以看出,它們與其同組物種式(8)均值e-ckxt的相對(duì)偏差的加和均為零,且同一軟體動(dòng)物物種不同c值時(shí)的相對(duì)偏差數(shù)值的比值與它們c值的比值相同.也就是說(shuō),如果我們把e-kit理解為e-kxt與多出部分的乘積,即
e-kit=e-kxte-Δkit
(9)
兩物種類群體系由兩種物種類群(即一個(gè)物種類群對(duì))的物種序列分子相互兩兩比較計(jì)算的物種類群對(duì)組成.雖然兩物種類群體系在我們的分子系統(tǒng)發(fā)育分析中并不常用,但它是一個(gè)較為基本的類型,因?yàn)槌R?jiàn)的三物種類群體系和四物種類群體系分別由3個(gè)和6個(gè)物種類群對(duì)組成.
如果kA(i)和kB(j)分別為物種類群A的第i個(gè)物種和物種類群B中第j個(gè)物種的序列分子絕對(duì)進(jìn)化速率,t為兩物種類群的分歧時(shí)間,則替代公式引入總體誤差取最小值的目標(biāo)函數(shù)是
(10)
式(10)較難直接求解.但若物種類群A和B序列分子的平均未突變概率均滿足式(8),則問(wèn)題可以簡(jiǎn)化.我們令
(11)
s′=(e-xA-e-xB)4
(12)
使用式(12)中的s′分別對(duì)xA和xB求一階偏導(dǎo)數(shù)并令它們?yōu)榱?不難得到式(12)取最小值的條件為e-xA=e-xB,即物種類群A和B序列分子的平均未突變概率相等.
2.2.1 三物種類群體系物種選擇規(guī)則
由圖1計(jì)算框圖可以看出,三物種類群體系由3個(gè)相互兩兩比較計(jì)算的物種類群對(duì)組成.因此我們可得到替代公式引入總體誤差取最小值,也就是物種選擇規(guī)則的目標(biāo)函數(shù)為
(13)
(14)
(15)
由多元函數(shù)的極值條件,式將(15)中的s′分別對(duì)xA、xB和xC求一階偏導(dǎo)數(shù)并令它們等于零,有
(16)
(17)
(18)
由式(16)至式(18)可以看出,其中任意兩個(gè)方程的加減可得到第三個(gè)方程,故其中任意兩個(gè)方程均為式(15)的多元函數(shù)極值條件.以式(16)和式(17)為例,存在兩組解:
(1)e-xA=fe-xB=fe-xC,即圖1計(jì)算框圖中物種類群B和C的序列分子自它們最近共同祖先序列分子的平均未突變概率相等;同時(shí),自時(shí)間t2起物種類群A、B和C的序列分子的平均未突變概率也相等.換句話說(shuō),也就是圖1中3個(gè)物種類群對(duì)兩兩相互比較計(jì)算時(shí)殘差分別取最小值,這時(shí)三物種類群體系的總殘差也取最小值.
(2)因x3-y3=(x-y)(x2+xy+y2),故若使式(16)有解,可有
(19)
將式(19)轉(zhuǎn)換定義為
(20)
同樣地,由式(17)可有
(21)
不難看出,式(16)和式(17)成立時(shí),式(20)和式(21)中R1和R2值均為1.
2.2.2 物種選擇規(guī)則的驗(yàn)證
我們使用1.3引用的寒武紀(jì)物種分歧時(shí)間計(jì)算結(jié)果來(lái)驗(yàn)證物種選擇規(guī)則.表3給出了選用不同物種類群C時(shí)計(jì)算體系R1和R2的計(jì)算值.
表3 寒武紀(jì)物種分歧時(shí)間計(jì)算時(shí)物種選擇規(guī)則的驗(yàn)證
由表3可以看出,不同物種類群C計(jì)算所得的R1和R2值均很接近于1,說(shuō)明我們所選擇的物種符合物種選擇規(guī)則的要求,因而能得到滿意的結(jié)果.另由表1數(shù)據(jù)可以看出這些物種類群滿足式(8)的要求.
四物種類群體系的計(jì)算框圖如圖2所示.
圖2 四物種類群體系物種選擇規(guī)則的推導(dǎo)示意圖
按三物種類群體系類似的方法,我們可以得到四物種類群體系物種選擇規(guī)則的目標(biāo)函數(shù)為
(22)
(23)
(24)
根據(jù)多元函數(shù)的極值條件,將式(24)分別對(duì)xA、xB、xC和xD求一階偏導(dǎo)數(shù)并令為零,有
(25)
(26)
(27)
(28)
式(25)至式(28)方程組的解有兩類:
(1)由式(25)至式(28)可先直觀得到e-xA=e-xB,e-xC=e-xD,也就是物種類群A與物種類群B各物種的序列分子,物種類群C與物種類群D各物種的序列分子自它們各自最近共同祖先序列分子的平均未突變概率分別相等.同時(shí)還可推斷出從時(shí)間t2開(kāi)始的四個(gè)物種類群各物種序列分子的平均未突變概率也分別相等.與三物種類群體系2.2.1(1)中的情形類似,也就是組成四物種類群體系所有物種類群對(duì)的殘差分別取最小值.
(2)由于式(25)加式(26)、以及式(28)減式(27)的結(jié)果相等,兩個(gè)結(jié)果中任意一個(gè)方程式都包含了式(25)至式(28)的解,因其還可能存在其他解,根據(jù)下面的結(jié)果選擇出的物種組成是否滿足式(24)的極值條件,還需結(jié)合化石年齡等其他學(xué)科證據(jù)進(jìn)行了判斷.以式(25)加式(26)為例,兩邊除以g后其結(jié)果為
(29)
整理后可得
(30)
同樣地,式(30)較難直接求解,我們討論其中較簡(jiǎn)單的情形.因x3-y3=(x-y)(x2+xy+y2),因此式(30)要有解,可讓其方程式兩邊均能提出等于零的因式.即有
(31)
(32)
將式(31)和式(32)整理可得判別式
(33)
(34)
式(29)的其他類似組合還可得到另外兩組解.
由本文三物種類群體系和四物種類群體系分析可知,它們的物種選擇規(guī)則可分成2類:第一類直接讓組成上述2類體系所有物種類群對(duì)的殘差取最小值,即讓后者物種類群平均未突變概率分別相等。另一類是允許體系中物種類群對(duì)的平均未突變概率存在差異,而這些差異可在由多元函數(shù)極值條件得到的方程組中相互抵消,仍滿足相關(guān)極值條件.如式(20)和式(21)以及式(33)和式(34)等都是通過(guò)這種方法得到的.同時(shí),由前面分析可以看出,無(wú)論兩物種類群體系、三物種類群體系或四物種類群體系,由于變量較多,它們通過(guò)多元函數(shù)極值條件得到的方程組通常較難直接求解.而選用均滿足式(8)的物種類群,盡管可能不能窮盡其解,但可以非常方便地找到其中方程組的簡(jiǎn)單解,也就是能簡(jiǎn)單方便地找到可計(jì)算得到滿意物種分歧時(shí)間的物種類群組成,這對(duì)我們的分子系統(tǒng)發(fā)育分析是很重要的.我們?cè)趯?shí)際計(jì)算中也發(fā)現(xiàn),大多數(shù)成功的計(jì)算體系是由其同源序列分子滿足式(8)的物種類群組成.
最后需要說(shuō)明的是,由文獻(xiàn)[6]的回復(fù)突變和平行突變校正方法可知,本文結(jié)果也同樣適用于同源分子絕對(duì)進(jìn)化速率計(jì)算公式經(jīng)多重突變校正的分子系統(tǒng)發(fā)育分析體系.