劉秀芹,馬 亮,李 娜
(1.北京科技大學(xué)數(shù)理學(xué)院,北京100083; 2.中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院應(yīng)用數(shù)學(xué)所,北京100190;
3. 中國科學(xué)院動物研究所,北京100101)
?
案例教學(xué)在《應(yīng)用隨機過程》中的探索和實踐
劉秀芹1,馬亮2, 3,李娜1
(1.北京科技大學(xué)數(shù)理學(xué)院,北京100083;2.中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院應(yīng)用數(shù)學(xué)所,北京100190;
3. 中國科學(xué)院動物研究所,北京100101)
[摘要]通過C-K方程在推斷系統(tǒng)發(fā)育樹中的應(yīng)用的角度對案例教學(xué)法進行了探索和實踐,并在此基礎(chǔ)上對應(yīng)用隨機過程的教學(xué)進行了幾點粗略的探討.
[關(guān)鍵詞]案例教學(xué); C-K方程; 馬氏鏈; 系統(tǒng)發(fā)育
1引言
應(yīng)用隨機過程是一門即抽象又與實際緊密結(jié)合的學(xué)科.筆者在教學(xué)過程中強調(diào)隨機過程在實際中的應(yīng)用,并結(jié)合自身的科研工作情況,把隨機過程在科技前沿中的應(yīng)用案例引入到日常教學(xué)過程中來,不但豐富了教學(xué)內(nèi)容,擴大了課堂信息量,而且激發(fā)了學(xué)生的學(xué)習(xí)興趣,提升了學(xué)生對抽象理論的理解能力,使學(xué)生的思維得到不斷攀升.下面僅以切普曼—柯爾莫格洛夫方程的教學(xué)為例,在隨機過程講解過程中進行案例教學(xué)法的探索和實踐.
2切普曼—柯爾莫格洛夫方程的概念及其在推斷系統(tǒng)發(fā)育樹中的應(yīng)用
齊次馬爾可夫鏈的轉(zhuǎn)移概率矩陣是描述馬爾可夫鏈概率分布的最重要的內(nèi)容,而切普曼—柯爾莫格洛夫方程是求解轉(zhuǎn)移概率矩陣的橋梁.
設(shè){X(t), t≥0}是連續(xù)時間齊次馬爾可夫鏈,以下簡稱馬氏鏈,pij(t)是該馬氏鏈由狀態(tài)i經(jīng)過t時間轉(zhuǎn)移到狀態(tài)j的轉(zhuǎn)移概率,對任意的s, t,它滿足
稱之為連續(xù)時間齊次馬氏鏈的切普曼—柯爾莫格洛夫方程,簡稱為C-K方程[1].
目前《應(yīng)用隨機過程》的教材中很少提及這一抽象方程在實際中的應(yīng)用,筆者在進行數(shù)學(xué)與生物交叉學(xué)科的研究過程中發(fā)現(xiàn)了C-K方程在推斷系統(tǒng)發(fā)育樹中的應(yīng)用這一精彩案例.在應(yīng)用隨機過程的講解過程中采用首先引入抽象的數(shù)學(xué)公式,然后結(jié)合該公式在實際中的應(yīng)用這一導(dǎo)入式教學(xué)法,從而進一步加深學(xué)生對這一公式的理解,起到了很好的教學(xué)效果.
生物學(xué)家是如何推斷人類、黑猩猩、大猩猩之間的系譜關(guān)系的呢?
我們知道生物的DNA與RNA序列承載著遺傳物質(zhì),直觀來講,兩個物種之間親緣關(guān)系越近,他們相應(yīng)的DNA或者RNA序列的差異越小.下面使用人類和猩猩的線粒體12S rRNA數(shù)據(jù)舉例說明如何計算兩個物種之間的距離.
經(jīng)過對人類和猩猩的線粒體基因組12S rRNA序列比對(見圖1),計算出總的位點數(shù)和錯配的數(shù)量分別為n=948和x=90.
圖1 序列比對示意圖
如果假設(shè)物種變異的速率是固定不變的,那么兩個物種分化的時間越長,他們序列中有差異的位點越多,相應(yīng)地,他們之間的遺傳距離也應(yīng)該越遠(yuǎn),從而定義如下距離,即配對距離(又稱為錯配概率).
但是錯配距離忽略了以下的情況:
圖2 物種序列演變示意圖
如圖2可見一條祖先序列分化為兩條子序列,在整個進化過程中發(fā)生了10次堿基替代,但是在兩個后代序列中只能觀測到兩個堿基的變異.
為了考慮不可觀測的堿基變異,下面用馬氏鏈模型來描述物種的演化過程,即把每個位點隨著時間的變化看成一個連續(xù)時間有限狀態(tài)馬氏鏈{X(t), t≥0},其狀態(tài)空間為S={T,C,A,G},設(shè)它的轉(zhuǎn)移概率矩陣為,
馬氏鏈的轉(zhuǎn)移概率滿足切普曼—柯爾莫格洛夫方程:
圖3 C-K方程時間狀態(tài)轉(zhuǎn)移示意圖
馬氏鏈模型是如何把不可觀測的堿基變異(圖2)也考慮在內(nèi)的呢?這主要是因為馬氏鏈從狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率囊括了所有可能發(fā)生的進化過程(如圖3所示).
在一定條件下,從C-K方程出發(fā)可以推出轉(zhuǎn)移概率滿足柯爾莫哥洛夫向前和向后方程,
P′(t)=P(t)Q和 P′(t)=QP(t)
(1)
其中Q=(qij)n×n為狀態(tài)之間的狀態(tài)轉(zhuǎn)移速率矩陣,qij為狀態(tài)i替換為狀態(tài)j的瞬時速率.1969年JukesandCantor[3]給出了一類簡單的核苷酸替代模型JC69(式(2)所示),假設(shè)四種堿基有相同的替代速率,
TCAG
(2)
其中qijΔt表示在很短的時間Δt內(nèi)狀態(tài)i轉(zhuǎn)變?yōu)闋顟B(tài)j的概率.(1)式的解為
TCAG
(3)
其中
那么我們?nèi)绾伟堰@個模型應(yīng)用于矯正兩個物種序列之間的距離呢?
顯然此馬爾可夫鏈的極限分布為
在應(yīng)用與計算物種間距離的時候,我們一般總是假設(shè)過程已經(jīng)達(dá)到平穩(wěn)狀態(tài).
假設(shè)兩條序列從一個共同祖先發(fā)生分歧,經(jīng)過t/2時間演化到現(xiàn)在的狀態(tài)(圖4 左),可是我們實際并不知道祖先的狀態(tài).由于轉(zhuǎn)移矩陣以及極限分布的對稱性,此馬爾可夫鏈?zhǔn)菚r間可逆的,即對于t≥0,?i,j∈S有
πipij(t)=πjpji(t).
圖4
因此我們可以把一條序列視作另一序列的祖先,而把實際的祖先作為中間點,利用C-K方程遍歷其所有可能狀態(tài)(圖4右),
下面估計兩條序列之間的距離,從(2)式可見任意一個堿基被其他三種堿基替代的速率總和為3λ,由此兩個序列之間的距離可表示為d=3λt, 從而λ=d/3t.
從式(3)可知,兩條序列中的堿基變化的概率為
解得
基于物種的線粒體rRNA序列,使用上述方法計算下列物種間的距離矩陣(表1),從表1可以看到,人類和黑猩猩最近,首先把這兩個物種看成一類(A),使用這一類中各物種與其他類中物種的距離的算數(shù)平均值表示類A和其他物種之間的距離(表2).
表1 各物種之間的距離1.人類2.黑猩猩0.09653.大猩猩0.11400.11804.猩猩0.18490.20090.19471.人類2.黑猩猩3.猩猩
表2 各類之間的距離A大猩猩0.116猩 猩0.19290.1947A大猩猩
如此下去,就構(gòu)建出了他們之間的系統(tǒng)發(fā)育關(guān)系(圖5)
圖5 各物種之間的系統(tǒng)發(fā)育樹及示意圖
相比于離散時間馬爾可夫鏈,連續(xù)時間馬氏鏈的轉(zhuǎn)移概率及C-K方程的概念更加抽象,計算也更加復(fù)雜.通過結(jié)合C-K方程在進化生物學(xué)中推斷系統(tǒng)發(fā)育樹方面的應(yīng)用來將抽象的概念具象化,從而加深學(xué)生在學(xué)習(xí)中的理解.
3應(yīng)用隨機過程教學(xué)中的幾點探討
隨機過程是研究自然界中隨機現(xiàn)象變化過程的一門學(xué)科,它在金融、通信、生物、控制等科學(xué)技術(shù)領(lǐng)域都有廣泛的實際應(yīng)用.由于研究對象隨機性、復(fù)雜性的特點,隨機過程的概念相對比較抽象.在講解過程中注重由淺入深,以最樸素的語言介紹隨機過程的基本理論和分析方法,通過大量精選例題使學(xué)生能夠比較容易的理解隨機過程的基本概念;采用形象生動的圖形展現(xiàn)隨機過程的一些關(guān)鍵知識點(例如,隨機過程的樣本曲線,柯爾莫哥洛夫前進后退方程的時間狀態(tài)對應(yīng)示意圖等);講解基本概念時通??梢詫⑵渑c具體的應(yīng)用實例結(jié)合起來,使學(xué)生更容易接受.例如,對隨機過程定義的講解,可以結(jié)合具體的實例,如生物種群的增長問題,手機接收到的電話次數(shù)問題,超市的客流量問題等;再如講到泊松過程的時候,可以結(jié)合某盞燈更換燈管的數(shù)量;而復(fù)合泊松過程的講解可以結(jié)合乘飛機抵達(dá)機場的乘客人數(shù),保險公司的保險儲備金數(shù)量等.
任課教師應(yīng)該結(jié)合自己的科研情況,把隨機過程在科技前沿中的應(yīng)用引入到教學(xué)過程中,只有充分考慮當(dāng)前科學(xué)綜合、交叉、滲透的發(fā)展趨勢,做到教學(xué)內(nèi)容不僅能幫助學(xué)生理解隨機過程最本質(zhì)的東西,而且能了解各種基本規(guī)律之間,各分支之間的聯(lián)系,同時,將一些知識點組合成為案例,通過研究者的思想、語言和方法,集中傳遞科學(xué)思想.把反映當(dāng)前科學(xué)前沿的內(nèi)容整合到教學(xué)中,給學(xué)生逐步走向科技前沿起引領(lǐng)作用.
4小結(jié)
在應(yīng)用隨機過程教學(xué)過程中盡量穿插一些它在交叉學(xué)科中的應(yīng)用的實例,培養(yǎng)學(xué)生的“應(yīng)用意識”[4],從而達(dá)到為國家輸送高質(zhì)量的優(yōu)秀人才的目的.
[參考文獻]
[1]林元烈.應(yīng)用隨機過程[M].北京:清華大學(xué)出版社,2002.
[2]Ziheng Yang. Computational Molecular Evolution[M].Oxford: Oxford University Press, 2006.
[3]Jukes TH, Cantor CR. Evolution of protein molecules[M]∥ln H. N. Munro(Ed). Mammalian protein metabolism. New York: Academic, 1969:21-132.
[4]劉秀芹,趙金玲,范玉妹.剖析馬氏鏈平穩(wěn)分布的講解——談《應(yīng)用隨機過程》教學(xué)[J]. 大學(xué)數(shù)學(xué),2011, 27(4):199-202.
Exploration and Practice of Case Teaching in Applied Stochastic Process
LiuXiu-qin1,MaLiang2,3,LiNa1
(1.College of mathematics and Physics, University of science and technology Beijing, Beijing 100083,China;
2. Institute of applied mathematics, AMSS,CAS, Beijing 100190, China;
3.Institute of zoology, CAS, Beijing 100101, China)
Abstract:We have some exploration and practice of case teaching from the point of view of the application of C-K equation in inferring phylogenetic tree, and then give a simple discussion on the teaching of Applied Stochastic Process.
Key words:Case Teaching; C-K equation; Markov Chain; phylogenetic tree
[基金項目]北京科技大學(xué)研究型教學(xué)示范課項目(KC2014YJX36);北京科技大學(xué)研究生教育發(fā)展基金;北京科技大學(xué)教研基金(JG2012M38)
[收稿日期]2015-01-03
[中圖分類號]O211.6
[文獻標(biāo)識碼]C
[文章編號]1672-1454(2015)02-0101-05