国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

線粒體核糖體蛋白基因中內含子序列間匹配特性分析

2021-06-01 08:10:30李瑞芳楊薩如拉程永霞趙瑞峰
關鍵詞:核糖體內含子線粒體

馮 雪, 李瑞芳, 楊薩如拉, 程永霞, 趙瑞峰

(內蒙古師范大學 物理與電子信息學院,內蒙古 呼和浩特 010022)

內含子是真核生物基因組的重要組成部分[1-2],在真核生物體內普遍存在。內含子作為一類特殊的非編碼序列,與基因表達、細胞骨架構建和動態(tài)變化密切相關[3-4]。例如,內含子可以通過剪接來提高mRNA穩(wěn)定性、促進mRNA的輸出、增強mRNA的翻譯,進而提高基因的表達[5]。許多研究表明內含子中存在基因表達的重要調控元件[6]。且內含子不僅參與基因的轉錄調控、前體mRNA的加工(主要是選擇性剪接),也參與多種非編碼RNA的功能活動[7-8]。

內含子的突變與許多疾病的產生、發(fā)展都有著重要的聯系。例如,內含子的保留也會出現在如白血病、乳腺癌等許多腫瘤細胞中[9],且內含子的突變能夠誘導很多疾病[10-11],重型血友病患者中最常見的突變類型就是凝血因子VIII基因中的內含子22倒位突變[10]。同一基因中的內含子之間存在具有某種生物學功能的相互作用,內含子可以通過配對驅動環(huán)化的形式形成circRNA[12-15],也能通過與mRNA的序列匹配來控制結合蛋白因子在mRNA上的結合[16]。并且mRNA的序列功能區(qū)和內含子的匹配有著特殊的存在形式,其中序列功能區(qū)包括翻譯終止位點、翻譯起始位點及外顯子連接處[17-18]。所以,內含子之間的相互匹配特性分析有著重要的生物學意義。

核糖體蛋白基因在進化時具有高度保守性[19],所以本文選用線粒體核糖體蛋白基因序列作為研究樣本。將所有基因序列整合,研究其內含子序列,并采用Smith-Waterman局域比對方法,得到最佳匹配區(qū)域。分析其內含子序列之間的相互匹配特征,希望揭示的這些特性能為進一步研究內含子的功能提供基礎數據。

1 材料與方法

1.1 材料選取

本文以核糖體蛋白質基因數據庫(RPG:Ribosomal Protein Gene Database)中收錄的所有物種的線粒體核糖體蛋白基因序列為樣本,獲取并整合所有基因序列數據,從411條線粒體核糖體蛋白基因中統(tǒng)計得到1 499條內含子序列。具體信息見表1。

1.2 統(tǒng)計方法

1.2.1 比對方法 考慮到內含子序列之間最基本的相互作用體現在堿基互補上,為分析第一內含子與其它內含子的匹配特征,首先對每個蛋白基因中的非第一內含子進行反向互補,然后采用Smith-Waterman局域比對方法,將得到的反向互補序列與相應第一內含子序列進行局域相似性比對,得到最佳匹配片段[20]。

1.2.2 長度、GC含量及配對率頻率函數 序列的長度和GC含量體現了序列的基本特性,對每個物種的每個線粒體核糖體蛋白基因中的第一內含子和最佳匹配片段,依據公式(1)至公式(5)計算了第一內含子長度分布頻率(FL)、最佳匹配片段長度分布頻率(FLm)、第一內含子GC含量分布頻率(FGC)、最佳匹配片段GC含量分布頻率(FGCm),以及最佳匹配片段配對率頻率(Fmat)。每種頻率值的計算方法如下:

(1)

(2)

(3)

(4)

(5)

其中:FL是第一內含子長度頻率函數;NL是長度為L的第一內含子個數,由于五個物種所有基因中的第一內含子長度最短為43 bp,所以統(tǒng)計長度頻率從L=43開始計算;FLm是最佳匹配片段長度頻率函數;NLm是長度為L的最佳匹配片段的個數,考慮到長的最佳匹配片段更有可能具有某種生物學意義,因此在統(tǒng)計最佳匹配片段時,去掉了太短的片段,從長度為6 bp的片段開始計數;FGC是第一內含子GC含量頻率函數;NGCi是GC含量為i的內含子個數;FGCm是最佳匹配片段GC含量的頻率函數;NGCmi是GC含量為i的最佳匹配片段個數;Fmat為最佳匹配片段配對率頻率函數;Nmati為GC含量為i的最佳匹配片段個數。

1.2.3 匹配頻率的分布 由于基因組內的所有第一內含子序列長度各不相同,為了方便對比,對基因組內的所有第一內含子序列進行標準化處理,由此得到最佳匹配片段在序列標準化長度為100 bp的第一內含子的相對位置分布。具體計算方法如公式(6)和公式(7)[20]:

(6)

其中:nij為序列每個位點的相對位置函數;Li為第i條第一內含子的長度;l為最佳匹配片段在序列標準化的長度(l=100 bp);Nij為第i條內含子序列的第j個堿基位點。

對每條第一內含子位點上定義賦值函數,計算方法如公式(7)[20]:

(7)

其中:fi j為基因組第i條序列中第j位點的賦值函數(j=1,2,…,99,100);nia和nib分別為最佳匹配片段起始堿基相對位點和終止堿基相對位點(i=1,2,…,n)。fi j對最佳匹配區(qū)域內的位點賦值為1,對最佳匹配區(qū)域外的位點賦值為0,由此得到內含子序列的位點數據。由此,定義表示內含子各位點參與匹配頻率的參量——相對頻率函數,具體計算方法如公式(8)[20]:

(8)

其中:Fr為標準化后的相對頻率函數;Ni a和Ni b分別為最佳匹配片段起始堿基位點和終止堿基位點(i=1,2,…,n),m為最佳匹配片段總個數。

2 結果與分析

2.1 第一內含子序列的特征分析

統(tǒng)計線粒體核糖體蛋白基因序列中所有的第一內含子。由公式(1)和公式(3)計算出其長度、GC含量及相應的頻率函數。由于第一內含子長度的分布范圍非常廣泛,個別內含子長度達到50 000 bp,統(tǒng)計發(fā)現大部分內含子的長度在0~1 400 bp。為了體現大部分第一內含子長度分布特征,圖1(a)只體現了0~1 400 bp長度范圍內內含子的分布規(guī)律。

由1圖可知,線粒體核糖體蛋白基因第一內含子的長度主要分布在0~200 bp之間,在40 bp處出現峰值。Halligan以80 bp為界限將內含子分為短內含子和長內含子[18],說明雖然樣本基因中包含人類和家鼠的基因序列(有較多長內含子),但統(tǒng)計結果發(fā)現第一內含子主要分布在較短的長度范圍內。而GC含量分布接近于正態(tài)分布,在GC含量為0.40處出現最高頻率。

2.2 最佳匹配片段特征分析

對每個線粒體核糖體蛋白基因中的非第一內含子進行反向互補,采用Smith-Waterman局域比對方法,將同一基因中的第一內含子與得到的反向互補序列進行局域相似性比對,得到最佳匹配片段。在此基礎上,依據公式(2)、公式(4)和公式(5)計算出最佳匹配片段的長度、GC含量和配對率頻率函數,結果如圖2所示。

圖2可看出,最佳匹配片段的長度范圍分布在0~100 bp之間,長度為22 bp左右的最佳匹配片段的占最大比重,且在長度為100 bp也有較高的比重。對于最佳匹配片段配對率,分布在40%到100%之間。配對率在 60%處出現峰值,也有部分達到100%。最佳匹配片段GC含量分布在0.1和0.9之間,且在0.2和0.5處出現兩個峰值。

圖2 線粒體核糖核蛋白基因最佳匹配片段分布圖Fig.2 The distribution of the optimal matched segment of mitochondrial ribosomal protein genes

2.3 最佳匹配片段在第一內含子序列相對位置分布圖

由于不同基因序列第一內含子的長度相差很大,為方便對比,根據公式(6)把第一內含子序列長度標準化到100 bp,并根據公式(7)和(8)中計算第一內含子序列各位點的相對位置和相對頻率。此外,考慮到GC含量可能對內含子之間的相互匹配起到關鍵作用,把第一內含子最佳匹配片段按照GC含量的不同分成三組,分別為高GC含量組(CGC>50%),中GC含量組(30%

圖3 線粒體核糖體蛋白基因最佳匹配片段在第一內含子序列的相對位置分布圖Fig.3 Distributions of relative position of matching segments in the first intron sequence of mitochondrial ribosomal protein genes

由圖3可看出,線粒體核糖體蛋白基因內含子間最佳匹配片段在第一內含子序列的相對位置分布中出現了多個峰值。分析不同GC含量的3組最佳匹配片段的相對位置分布。發(fā)現低GC片段分布連續(xù),沒有明顯的極大值,中GC片段在10 bp,37 bp,45 bp,58 bp,93 bp左右出現極大值,高GC片段在10 bp,26 bp,87 bp,96 bp左右出現極大值。表明了不同GC含量組的最佳匹配片段在第一內含子中的相對位置的分布具有明顯差異。這意味著片段的GC含量在內含子之間相互作用中可能起著關鍵性的作用。

3 討論

線粒體核糖體蛋白基因第一內含子的長度主要分布在0~200 bp之間,在40 bp處出現峰值。說明線粒體核糖體蛋白基因序列中第一內含子主要分布在較短的長度范圍內。Castillo-Davis等人對內含子偏短的現象進行了解釋:也許短內含子是高表達基因的一個原始特征,所以自然選擇的精煉作用阻止它們變長。在進化過程中,由于積極選擇壓力導致高表達基因的內含子長度逐漸變短[21-22],這也解釋了線粒體核糖核蛋白基因序列中雖然有高等生物人類和家鼠的基因序列,但還主要分布在較短的長度范圍內。而GC含量分布接近于正態(tài)分布,在0.40處出現最高頻率。而這些GC含量的不同有可能在基因調控表達以及發(fā)生突變時發(fā)揮重要的作用。

對第一內含子與其它內含子最佳匹配片段特征結果分析發(fā)現,最佳匹配片段的長度范圍分布在0~100 bp之間,在長度為22 bp左右的最佳匹配片段的占最大比重,且在長度為100 bp也有較高的比重。而最佳匹配片段配對率的分析結果表明,最佳匹配片段配對率分布在40%到100%之間,在60%處出現峰值,也有部分達到100%。目前已發(fā)現的微小RNA分子包括微小RNA(microRNA,miRNA)和小干擾RNA(siRNA),它們也是真核生物中兩種主要的非編碼RNA(non-coding RNA),在真核生物中發(fā)揮重要作用[23]。微小RNA是近年來在多種真核生物及病毒中發(fā)現的一類長度為19~26 bp、且具有基因表達調控作用的單鏈或雙鏈RNA分子[24]。siRNA通過與靶mRNA[25]的完美互補,引導mRNA沉默。并通過不同程度的互補來抑制靶mRNA的轉錄和表達[26]。有研究發(fā)現,miRNA與靶mRNA的匹配率范圍在65%~95%之間[27],這些研究結果與本文的統(tǒng)計結果的對比暗示著內含子與內含子相互匹配的部分最佳匹配片段可能與siRNA或miRNA一樣,是一類具有特殊生物學功能的非編碼RNA。

分析GC含量不同的3組最佳匹配片段的相對位置分布,發(fā)現低GC片段分布連續(xù),沒有明顯的極大值,中GC片段在37 bp,58 bp,93 bp左右出現極大值,高GC片段在10 bp,26 bp,87 bp,96 bp左右出現極大值。表明了不同GC含量組的最佳匹配片段在第一內含子中的相對位置的分布是有明顯差異的。這表明最佳匹配片段GC含量會影響最佳匹配片段的位置分布,所以,片段GC含量在內含子序列之間相互作用中很可能起著關鍵性的作用。

內含子之間通過堿基互補配對,部分可能反向剪接環(huán)化形成circRNA,說明內含子的序列特征和內含子序列之間的相互作用可能在circRNA的形成,調控元件的協(xié)作和競爭等過程中起到很關鍵的作用。另外,內含子繁多的種類增加了生物生命活動調控的復雜性。所以對內含子的生物功能的深入探討是非常有意義的研究工作。隨著研究的進一步深入,會有內含子的更多生物學功能被掲示出來。

猜你喜歡
核糖體內含子線粒體
核糖體成熟因子RimP、Era和RimJ的研究進展
棘皮動物線粒體基因組研究進展
海洋通報(2021年1期)2021-07-23 01:55:14
線粒體自噬與帕金森病的研究進展
生物學通報(2021年4期)2021-03-16 05:41:26
核糖體生物合成與腫瘤的研究進展
例析翻譯過程中核糖體移動方向的判斷
生物學教學(2019年9期)2019-09-23 03:53:02
不同方向內含子對重組CHO細胞中神經生長因子表達的影響
更 正
生物學通報(2019年1期)2019-02-15 16:33:43
內含子的特異性識別與選擇性剪切*
陸地棉GhDHN1基因結構及內含子生物信息學分析
中國棉花(2018年6期)2018-07-06 10:34:42
NF-κB介導線粒體依賴的神經細胞凋亡途徑
凌源市| 富阳市| 武定县| 会昌县| 伊通| 宜黄县| 苗栗县| 忻州市| 临澧县| 宁阳县| 舟山市| 渑池县| 建阳市| 镇平县| 嘉定区| 偏关县| 壶关县| 太原市| 出国| 石首市| 南岸区| 扎鲁特旗| 洛隆县| 灵璧县| 虞城县| 长沙县| 二连浩特市| 汽车| 巴南区| 洛川县| 文安县| 古浪县| 门头沟区| 仙居县| 漠河县| 苏尼特右旗| 滕州市| 郧西县| 兰西县| 宁远县| 隆德县|