萬麗娜,馬 猛
(安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601)
mRNA 前體通過不同的剪接方式(即不同剪切位點(diǎn)和拼接方式)產(chǎn)生不同的mRNA 異構(gòu)體(isoform),出現(xiàn)一個(gè)基因指導(dǎo)合成多種不同的蛋白質(zhì)產(chǎn)物?;蚩勺兗艚拥闹饕J接校?](1)盒式外顯子(2)內(nèi)含子保留(3)互斥外顯子(4)5’供體位點(diǎn)可變(5)3’受體位點(diǎn)可變(6)可變起始外顯子(7)可變終止外顯子。如圖1 所示。
圖1 可變剪接模式
對可變剪接的研究也在不斷的發(fā)展中,其中主要的方法有基于比較基因組學(xué)的可變剪接研究、基于高通量測序的可變剪接研究和基于基因組序列特征的可變剪接研究。
比較基因組學(xué)(Comparative Genomics)是在基因組圖譜和測序的基礎(chǔ)上對已知的基因和基因組結(jié)構(gòu)進(jìn)行比較,來推測其他生物基因組的功能、表達(dá)機(jī)理和物種進(jìn)化的學(xué)科。比較基因組學(xué)的基礎(chǔ)是相關(guān)生物基因組的相似性。
基因組計(jì)劃的進(jìn)行推進(jìn)了比較基因組學(xué)的發(fā)展,使得通過比對現(xiàn)有的EST、cDNA、mRNA 和基因序列數(shù)據(jù)來預(yù)測可變剪接成為可能。通過比較兩種或多種基因組中同源外顯子序列的相似性、可變剪接類型和相對表達(dá)量等信息,可以發(fā)現(xiàn)潛在的可變剪接變體[2]、判斷可變剪接調(diào)控元件[3]或研究可變剪接外顯子的進(jìn)化保守性[4]。Ast 研究小組研究發(fā)現(xiàn)人類基因中保守的盒式外顯子兩側(cè)的內(nèi)含子序列在人和小鼠中一般也是保守的[5],他們提取了人類基因組中1996 個(gè)保守的外顯子,通過分析在人和鼠中保守外顯子序列的特征和人類基因中的外顯子以及其相鄰內(nèi)含子在小鼠中同源序列的保守性,預(yù)測出人類基因中部分的盒式外顯子[6-7]。Modrek 等人基于EST 比較了人與小鼠間可變剪接外顯子的不同[4]。
比較基因組學(xué)的精確度取決于EST、cDNA、mRNA 數(shù)據(jù)源的可靠性,此方法對于具有物種特異性的可變剪接還是無法識別出來的。
高通量測序技術(shù) (High-throughput sequencing)又稱“下一代”測序技術(shù),能一次并行對幾十萬到幾百萬條DNA 分子進(jìn)行序列測定。自2005年454 Life Sciences 公司推出了454 FLX 焦磷酸測序平臺之后,羅氏公司(Roche)、美國Illumina 公司和ABI 公司分別推出了454 測序儀(Roch GS FLX sequencer)、Solexa 基因組分析平臺(Genome Analyzer platform)和SOLiD 測序儀 (ABI SOLiD sequencer),這三個(gè)測序平臺即為目前高通量測序平臺的代表,其測序技術(shù)比較見表1。
表1 各測序技術(shù)的比較
高通量測序在癌癥中主要的關(guān)注對象是外顯子組。Bradford 等人通過對SOLiD 和外顯子芯片的結(jié)果進(jìn)行分析比對發(fā)現(xiàn)兩種方法在外顯子表達(dá)量的測定上具有相同的效果[8]。Pan 等人用Solexa 測序方法對六種不同的正常的人組織進(jìn)行測序,結(jié)果顯示在約20%的多外顯子基因中有新的可變剪接位點(diǎn);通過對不同組織的結(jié)果進(jìn)行比較發(fā)現(xiàn)大腦剪接水平的復(fù)雜度要高于其他的組織。[9]
采用微陣列等高通量技術(shù)必須先設(shè)計(jì)好探針,但是設(shè)計(jì)好的探針不能包括全部可能的剪接信息,所以高通量的測序方法不能完全滿足實(shí)驗(yàn)研究的需求。
目前人們獲得的基因組序列蘊(yùn)含著大量的生物學(xué)信息,但是如何從這些信息中提取我們想要的有意義的信息是目前研究者們面臨的難題?;诨蚪M序列特征研究使用模式識別算法、統(tǒng)計(jì)學(xué)方法和數(shù)學(xué)模型等方法對基因序列進(jìn)行特征提取,使得實(shí)驗(yàn)數(shù)據(jù)能夠從遺傳物質(zhì)本身出發(fā)提高了結(jié)果的說服力。
常見的識別方法有支持向量機(jī)(SVM),隱馬氏模型(HMM),權(quán)重矩陣(weight matrix),神經(jīng)網(wǎng)絡(luò)模型(NN)等。Gideon Dror 等人利用盒式外顯子和組成外顯子的7 個(gè)特征構(gòu)建了228 維的向量,用支持向量機(jī)對外顯子進(jìn)行分類識別。[10]Frey等人提取了1014 個(gè)基因組特征對盒式外顯子進(jìn)行分類預(yù)測[1]。邢永強(qiáng)等人分析老鼠盒式外顯子和內(nèi)含子保留型剪接位點(diǎn)附近的序列保守性特征,并用支持向量機(jī)和二次判別法對這兩種剪接模式的供體端和受體端可變剪接位點(diǎn)進(jìn)行了預(yù)測,取得較好的效果。[11]
可變剪接在真核生物機(jī)理中的重要性絕非一筆帶過,研究其在生物疾病方面的調(diào)控對人類更全面的了解疾病產(chǎn)生的根源并且有效的控制疾病產(chǎn)生尤為重要,這里我們以可變剪接中盒式外顯子為例做進(jìn)一步的探討。
盒式外顯子(又稱外顯子跳躍)是指在某種剪接形式中一個(gè)外顯子連同它兩端的內(nèi)含子一起被剪掉,從而使得該外顯子不被表達(dá)。本文通過兩種典型的疾病來說明盒式外顯子的影響。
杜氏營養(yǎng)不良癥(Duchenne Muscular Dystrophy)又稱杜氏肌肉萎縮癥,是一種X 染色體性聯(lián)隱性遺傳病,發(fā)病率約為活產(chǎn)男嬰的1/3500,[12]為癥狀最嚴(yán)重的肌肉萎縮癥。由于基因突變導(dǎo)致肌肉細(xì)胞不能正常產(chǎn)生一種稱為Dystrophin 的蛋白質(zhì)導(dǎo)致患者全身肌肉無力,其中大約65%的病例是由性染色體隱性遺傳而來,35%則由基因突變引起。貝氏營養(yǎng)不良癥(BMD)是一種病情較輕的肌肉萎縮癥,是DMD 的亞型。由于目前醫(yī)學(xué)上對DMD/BMD 尚無有效的治療方法,所以從基因?qū)用孢M(jìn)行該疾病的篩選和預(yù)防不失為一個(gè)有效的方法。
在杜氏肌肉營養(yǎng)不良疾病中外顯子缺失是很常見的,有文獻(xiàn)指出外顯子復(fù)制在基因突變中占有很大的比重(超過10%)[13],可以通過病人致病基因中外顯子的多重跳躍來預(yù)防[12]。Caroline 等人[14]以患有肌肉萎縮癥的金毛尋回犬為研究對象進(jìn)行跟蹤觀察,成功地把以rAAV-U7 為中介的外顯子跳躍方法運(yùn)用到患有杜氏營養(yǎng)不良癥的人的臨床治療中,并且達(dá)到了預(yù)期的效果。
脊髓性肌肉萎縮癥(Spinal Muscular Atrophy)是常染色體隱性遺傳病,是一種具有進(jìn)行性、對稱性、以近端為主的弛緩性癱瘓和肌肉萎縮為特征的遺傳性下運(yùn)動神經(jīng)元疾病,該病的致病基因定位于Xq11-12[15]。人群發(fā)病 率為1/6000-1/10000,SMA 患兒存在SMN 端粒側(cè)外顯子7 的純合性缺失。根據(jù)臨床表現(xiàn)和發(fā)病時(shí)間,歐洲神經(jīng)肌肉疾病中心將SMA 分為四種類型:SMAⅠ型(嚴(yán)重嬰兒型,在出生后6 個(gè)月內(nèi)發(fā)病)、AMAⅡ(遲發(fā)嬰兒型,在出生后6-18 個(gè)月內(nèi)發(fā)病)、SMAⅢ型(少年型,在出生18 個(gè)月后發(fā)病)和SMAⅣ型(成年型,一般30 歲后發(fā)病)。SMA 尚無特效治療措施,進(jìn)行產(chǎn)前基因診斷可以避免攜帶致病基因的胎兒出生。
SMN1 基因的缺失是SMA 疾病的發(fā)病機(jī)制,大約95%的SMA 患者存在SMN1 基因第7 號外顯子的純合性缺失[16]。Hui 等人[17]用計(jì)算方法模擬SMN1/2 上外顯子7 的功能,通過對SMN1/2 上C6T,G-44A,A100G 和A215G4 個(gè)核苷酸的檢測發(fā)現(xiàn)外顯子7 的缺失主要是由C6T 引起的。孟英韜等人旨在探索將測序技術(shù)應(yīng)用于缺失型脊髓性肌肉萎縮癥基因診斷的可行性,其研究結(jié)果顯示患者缺失SMN1 基因,缺失范圍包括內(nèi)含子6 至外顯子8,結(jié)果與經(jīng)典PCR-RFLP 方法的結(jié)果一致。
可變剪接大量存在于人類基因組中,是蛋白質(zhì)功能多樣性的主要來源,也是杜氏營養(yǎng)不良、脊髓性肌肉萎縮癥和癌癥等疾病的發(fā)病機(jī)制之一。對可變剪接的研究方法在不斷的提高,可變剪接數(shù)據(jù)庫也在不斷的更新豐富中。如何利用可變剪接的知識來診斷和預(yù)防疾病將會是研究者們重點(diǎn)研究的內(nèi)容,主要的研究方向是:(1)融合基因組特征提高預(yù)測可變剪接事件的精度;(2)利用可變剪接與疾病產(chǎn)生之間的聯(lián)系,構(gòu)建針對特定疾病的可變剪接模型,進(jìn)而對特定疾病起到更好的預(yù)測和診斷。
[1]Wang ZF,Burge CB. Splicing regulation:From a parts list of regulatory elements to an integrated splicing code[J].RNA,2008,14(1):802-813.
[2]Ohler U,Shomron N,Burge CB. Recognition of unknown conserved alternatively spliced exons[J].pLoS ComputBiol,2005,l(2):113-122.
[3]Fairbrother WG,Yeh RF,Sharp PA,et al. Predictive identification of exonic splicing enhancers in human genes[J].Science,2002,297(5583):1007-1013.
[4] Modrek B,Lee CJ. Alternative splicing in the human,mouse and rat genomes is associated with an increased rate of exon creation/loss[J].Nature,2003,34(2):177-180.
[5]Sorek R,Ast G. Intronic sequences flanking alternatively spliced exons are conserved between human and mouse[J].Genome Res,2003,13(7):1631 –1637.
[6]Sorek R,Shemesh R,Cohen Y,et al. A non-EST-based method for exon-skipping prediction[J].Genome Res,2004,14(8):1617-1623.
[7]Dror G,Sorek R,Shamir R. Accurate identification of alternatively spliced exons using support vector machine[J].Bioinformatics,2005,21(7):897-901.
[8]Bradford JR,Hey Y,Yates T Li Y,et al. A comparison of massively parallel nucleotide sequencing with oligonucleotide microarrays for global transcription profiling[J].BMC Genomics,2010,(11):641-648.
[9]Pan Q,Shai O,Lee LJ,et al. Deep surveying of alternative Splicing complexity in the human transcriptome by high-throughput sequencing[J].Nat Genet,2008,40(12):1413-1415.
[10]Gideon Dror,Rotem Sorek,Ron Shamir. Accurate identification of alternative spliced exons using support vector machine[J].Bioinformatics,2004,21(7):897-901.
[11]邢永強(qiáng),張利絨. 老鼠基因組盒式外顯子和內(nèi)含子保留型可變剪接位點(diǎn)預(yù)測[J]. 內(nèi)蒙古大學(xué)學(xué)報(bào),2009,40(5):576-582.
[12]Echigoya Y,Yokota T. Skipping multiple exons of dystrophin transcripts using cocktail antisense oligonucleotides[J].Nucleic Acid Ther,2014,24(1):57-68.
[13]Kane L Greer,et al. Targeted Exon Skipping to Correct Exon Duplications in the Dystrophin Gen[J].Nucleic Acids,2014,3(155):1038-1044.
[14]CaroCaroline Le Guiner,et al. Forelimb Treatment in a Large Cohort of Dystrophic Dogs Supports Delivery of a Recombinant AAV for Exon Skipping in Duchenne Patients[J].Molecular Therapy,2014,11(22):1923-1935.
[15]Finsterer J. Perspectives of Kennedy’s disease[J].J Neurol Sci,2010,298(1-2):1-10.
[16]Lefebvre S,Burglen L,Reoullet S,et al. Identification and characterization of a spinal muscular atrophy-determining gene[J].Cell,1995,80(1):155-165.
[17]Hui Y,Xiong,et al. The human splicing code reveals new insights into the genetic determinants of disease[J].Science,2015,9(347):1-8.