張瀟瀟,甘 滔,王宇傳,劉秋云
(1.中山大學(xué)生命科學(xué)學(xué)院,廣東 廣州 510275;2.昆明醫(yī)科大學(xué)生物醫(yī)學(xué)工程研究院/云南省干細(xì)胞和再生醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;3.贛南醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院,江西 贛州 341000;4.華北理工大學(xué)基礎(chǔ)醫(yī)學(xué)院河北省慢性疾病基礎(chǔ)醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210)
分子遺傳學(xué)是在遺傳學(xué)基礎(chǔ)上發(fā)展起來的一門學(xué)科,主要研究基因的結(jié)構(gòu)與功能、基因表達(dá)的調(diào)控、表觀基因組學(xué)調(diào)控等等。在以前發(fā)表的文章里,我們闡述了分子遺傳學(xué)的教學(xué)大綱,以及二項(xiàng)式分布與珀松分布在分子遺傳學(xué)課程里的具體運(yùn)用[1]。然而,另有一些該課程的內(nèi)容涉及概率的運(yùn)用。這些計(jì)算方法的學(xué)習(xí)有利于學(xué)生更好地掌握課程的精髓,同時(shí)也有助于他們將來的學(xué)習(xí)和工作。
最早的分子標(biāo)記是ABO血型。在18、19世紀(jì),歐洲人認(rèn)為輸血可以預(yù)防疾病、有益于健康。但他們觀察到輸血后部分人死亡,由此促使了ABO血型和更多其他血型的發(fā)現(xiàn)。真正的第一代分子標(biāo)記是RFLP,由美籍華人簡(jiǎn)悅威和一位西方科學(xué)家同時(shí)發(fā)現(xiàn)。他們通過限制性內(nèi)切酶酶切DNA、電泳、Southern雜交,發(fā)現(xiàn)鐮刀細(xì)胞貧血病的致病基因產(chǎn)生了兩個(gè)條帶,而野生型只有一個(gè)條帶。部分限制性內(nèi)切酶的識(shí)別序列為回文對(duì)稱。RFLP的建立由普林斯頓大學(xué)的David Botstein教授在20世紀(jì)70年代完成。
我們可以從概率的視角研究DNA,比如堿基配對(duì)概率是1/4,而錯(cuò)配概率是3/4。如可選嘌呤堿基概率是2/4,可選嘧啶堿基也是2/4。對(duì)于EcoR I限制酶來說,其識(shí)別序列與切割序列均為GAATTC,所以概率是(1/4)6[2]。
AFLP是Amplified Fragment Length Polymorphism的簡(jiǎn)稱,在植物研究上使用的較為廣泛[3]。一般情況下采用一個(gè)6堿基酶和一個(gè)4堿基酶共同切割,加上接頭,再進(jìn)行PCR擴(kuò)增。由于4堿基酶酶切位點(diǎn)極多,特異性主要由6堿基酶的特異性所決定。綜上所述,平均4096個(gè)堿基有一個(gè)6堿基酶酶切位點(diǎn),這導(dǎo)致基因組AFLP擴(kuò)增產(chǎn)生極多的片段。為了減少片段數(shù)量,需要在兩個(gè)引物的3’端分別加上2個(gè)和3個(gè)堿基,這樣理論上減少擴(kuò)增片斷數(shù)量至原來可能數(shù)量的(1/4)2X(1/4)3。
SNP是單核苷酸多態(tài)性[4],在基因組上一般是雙等位的,作為分子標(biāo)記區(qū)分度還不夠。為了更高精度的研究遺傳連鎖,我們可以考慮使用多對(duì)SNP,比如A/a,B/b,C/c三對(duì)SNP。這樣共有2X2X2=8種組合方式。將家系的基因型分成了8組。與遺傳疾病的連鎖關(guān)系的分析從而更為精確,特別是在關(guān)聯(lián)分析上很有價(jià)值。
科學(xué)家提出了引入更多的堿基對(duì)來擴(kuò)增遺傳密碼數(shù)量[5],一組科學(xué)家通過疏水配對(duì)引入了一對(duì)堿基,將遺傳字母增加到6個(gè)。那么這樣的DNA的4堿基、6堿基、8堿基回文對(duì)稱的限制性內(nèi)切酶的識(shí)別頻率怎么計(jì)算呢?那就是(1/6)4、(1/6)6、(1/6)8。
另一組科學(xué)家將遺傳密碼的堿基用氫鍵配對(duì)擴(kuò)增到8個(gè),這樣的DNA的4堿基、6堿基、8堿基限制性內(nèi)切酶的識(shí)別頻率就是(1/8)4、(1/8)6、(1/8)8。如此類推,遺傳密碼的增加將使蛋白質(zhì)的多樣性得到極大的擴(kuò)展。
差異顯示(Differential Display)可以展示一對(duì)DNA樣品的mRNA條帶的差異。比如抗旱誘導(dǎo)的樣品與非抗旱誘導(dǎo)的樣品的比較,癌癥組織與癌癥組織旁邊正常組織的比較。這個(gè)技術(shù)用隨機(jī)引物與Oligo-dT引物配對(duì)進(jìn)行PCR擴(kuò)增,而Oligo-dT引物不能錨定于cDNA,故不能形成固定大小的片段。為了錨定引物,可在Oligo-dT引物的3’端加入2個(gè)堿基(A/G/C)(A/G/C/T)。這樣Oligo-dT錨定引物就共有3X4=12組。但是,另一端的隨機(jī)引物數(shù)為20組左右,通過配對(duì)產(chǎn)生了20X12=240個(gè)PCR組合,工作量太大。為了減少工作量,在Oligo-dT引物的3’端加入1個(gè)堿基(A/G/C)。這樣Oligo-dT錨定引物就共有3組。PCR組合減少為20X3=60個(gè),工作量大大減少。
墳?zāi)估锏墓攀行y帶了古代流行病病毒等致病源。出于研究的需要,有時(shí)要恢復(fù)這些病毒基因組的完整序列。而尸體上的病毒DNA或RNA長(zhǎng)度一般只有幾十個(gè)堿基。長(zhǎng)的引物和較高的退火溫度無法PCR擴(kuò)增或逆轉(zhuǎn)錄/PCR擴(kuò)增,那么需要使用6堿基寡聚核酸(oligo)N6,其配對(duì)概率為(1/4)6。N6具有所有的6堿基組合,使用這個(gè)技術(shù)科研人員恢復(fù)了1918年西班牙流感H1N1的基因組。
有時(shí)候需要對(duì)一個(gè)氨基酸位點(diǎn)進(jìn)行所有氨基酸的替換,可以設(shè)計(jì)中間含NNN的引物,進(jìn)行同源重組和雙交換。為了減少終止密碼子,可使用含NNK的Oligo,K代表T/G,這樣只有4X4X2=32個(gè)密碼子,終止密碼子只有一個(gè),其他氨基酸的密碼子數(shù)量也得到了均一化。如果要對(duì)兩個(gè)氨基酸同時(shí)替換,可使用中間含NNKNNK的Oligo。
在利用分子標(biāo)記進(jìn)行作物輔助育種研究時(shí),一般使用單分子標(biāo)記。方差是研究遺傳性狀的重要方法。有時(shí),盡管兩組樣品平均值類似,但變異的幅度不一樣,產(chǎn)生的方差大小不一樣。單分子標(biāo)記與產(chǎn)量性狀等存在一定重組,因此分析具有誤差?;谶@一考量,MIT的EricLander提出用區(qū)間作圖法進(jìn)行植物基因定位和克隆。原理是用兩個(gè)分子標(biāo)記來定位某個(gè)決定性狀的基因。假設(shè)有兩對(duì)等位基因A/a和B/b,如果A和B之間存在一個(gè)高產(chǎn)基因Y,a和b之間存在一個(gè)低產(chǎn)基因y,A和B的重組距離為0.2,那么a和b之間存在Y的概率為x(0.2-x),即通過一個(gè)雙交換a和b之間也可以得到一個(gè)高產(chǎn)等位基因Y。A和B之間存在一個(gè)高產(chǎn)基因Y的概率變?yōu)?.2-x(0.2-x)。通過類似這樣的加權(quán)處理,并結(jié)合線性回歸和最大似然法,Eric Lander開發(fā)出了廣泛使用的植物遺傳研究技術(shù),加速了植物育種革命。
綜上所述,通過運(yùn)用概率進(jìn)行分子遺傳學(xué)教學(xué),將使學(xué)生對(duì)本學(xué)科有更深入的理解,學(xué)習(xí)時(shí)能夠結(jié)合一定的概率或其他數(shù)學(xué)知識(shí),并加以運(yùn)用。為本科生和研究生創(chuàng)新能力和跨學(xué)科思維能力的培養(yǎng)提供一條可行途徑。