国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于RNA—Seq數(shù)據(jù)識(shí)別外顯子跳躍事件的方法研究綜述

2016-05-03 02:46白楊王亞?wèn)|

白楊 王亞?wèn)|

摘 要:隨著高通量生物測(cè)序技術(shù)的產(chǎn)生及快速發(fā)展,從轉(zhuǎn)錄組高通量測(cè)序數(shù)據(jù)(RNA-Seq數(shù)據(jù))中準(zhǔn)確地識(shí)別選擇性剪接事件成為了當(dāng)前生物信息學(xué)研究的一個(gè)熱點(diǎn)課題。識(shí)別選擇性剪接事件對(duì)研究基因的功能、蛋白質(zhì)結(jié)構(gòu)的多樣性、細(xì)胞的分化、物種的進(jìn)化、以及疾病的產(chǎn)生機(jī)制具有重要的意義。在人類基因組中最主要的選擇性剪接事件是外顯子跳躍事件(>40%)。本文綜述了基于RNA-Seq數(shù)據(jù)識(shí)別外顯子跳躍事件的識(shí)別方法,并對(duì)常用的識(shí)別方法進(jìn)行了總結(jié)分析。

關(guān)鍵詞:選擇性剪接;RNA-Seq;外顯子跳躍事件

中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)號(hào):A文章編號(hào):2095-2163(2016)01-

Areview of alternative splicing event detection from RNA-Seq data

BAI Yang, WANG Yadong

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: With the rapid development of next-generation sequencing technology, alternative splicing (AS) event detection from whole transcriptome shotgun sequencing (RNA-Seq) data is a popular research topic in biology. Identification AS events can help biologists to study to gene function, protein structure, cellular diversity, species evolution, and human disease. Exon skipping (ES) event is a major AS events in human genome (>40%).This paper reviews the methods onES events detection from RNA-Seq data, and provides an overview that could serve as an entry point for users who need to decide on a suitable tool for ES event detection.

Keywords: alternative splicing; RNA-Seq; exon skipping event

0 引言

隨著高通量測(cè)序技術(shù)在分子生物學(xué)、遺傳學(xué)、臨床醫(yī)學(xué)等研究領(lǐng)域中的廣泛應(yīng)用,特別是轉(zhuǎn)錄組高通量測(cè)序技術(shù)(RNA-Seq)在基因表達(dá)以及轉(zhuǎn)錄組表達(dá)上的全面運(yùn)用,使得對(duì)應(yīng)的高通量的RNA-Seq數(shù)據(jù)越來(lái)越豐富。轉(zhuǎn)錄組高通量測(cè)序技術(shù)的發(fā)展,將從事選擇性剪接事件識(shí)別的研究者從低通量的生物學(xué)實(shí)驗(yàn)中解放出來(lái),進(jìn)而轉(zhuǎn)到使用高通量的RNA-Seq數(shù)據(jù)來(lái)識(shí)別選擇性剪接事件。有別于傳統(tǒng)的實(shí)驗(yàn)方法只能研究某一個(gè)基因的選擇性剪接情況,高通量的RNA-Seq數(shù)據(jù)是在全基因組范圍內(nèi)研究各個(gè)基因的選擇性剪接情況,因而具有定量準(zhǔn)確、可重復(fù)性高、檢測(cè)范圍廣、可靠性高等特點(diǎn),使其更具有代表性和統(tǒng)計(jì)學(xué)意義。由此,利用已有的RNA-Seq數(shù)據(jù),快速、高效、準(zhǔn)確地通過(guò)計(jì)算手段識(shí)別選擇性剪接事件則已成為目前選擇性剪接識(shí)別研究的熱點(diǎn)問(wèn)題。

選擇性剪接的模式主要有5種[1-4],包括:外顯子跳躍(Exon skipping)、選擇性5端(Alternative 5splice site)、選擇性3端(Alternative 3splice site)、外顯子互斥包含(Mutually

1 當(dāng)前基于RNA-Seq數(shù)據(jù)識(shí)別外顯子跳躍事件的研究現(xiàn)狀

為了更好地評(píng)估PSI的值,Kakaradov等人提出了三種方法去自動(dòng)評(píng)估PSI的值,包括:樸素模型、高斯模型和自動(dòng)混合模型[7]。模型中,考慮到了測(cè)序短片段映射到外顯子與外顯子連接區(qū)域存在的位置偏移信息。與MISO方法運(yùn)行時(shí)間相比較,Kakaradov提出的三個(gè)方法運(yùn)行時(shí)間都較少。

通過(guò)提取現(xiàn)在數(shù)據(jù)庫(kù)中注釋的外顯子區(qū)域、外顯子連接信息、外顯子邊界信息、內(nèi)含子區(qū)域和基因間的區(qū)域等特征,Griffith等人提出了ALEXA-Seq的方法[8]。該方法用于在不同條件下,比較特征與包含此特征的基因間差異性。實(shí)現(xiàn)過(guò)程中,提出了三種計(jì)算模型,其中, 和 分別代表不同的條件, 和 表示第 個(gè)特征的表達(dá)量, 和 表示第 個(gè)基因的表達(dá)量。

與ALEXA-Seq相似,SpliceSeq[9]也是使用SI算法,采用Fisher檢驗(yàn)去識(shí)別外顯子跳躍這一剪接事件。此外,SpliceSeq還提供了一種可視化的方法,方便用戶直觀地查看外顯子跳躍這一剪接事件。

SOLAS方法[10],利用映射到外顯子內(nèi)部區(qū)域的測(cè)序短片段數(shù)作為特征,使用Z-score計(jì)算兩種不同條件下差異表達(dá)的外顯子。

Anders提出了DEXSeq的方法[11]。DEXSeq首先假設(shè)測(cè)序短片段在參考基因組片段上的分布服從否定二項(xiàng)分布,并利用此特性,構(gòu)建了一個(gè)線性回歸模型。該線性模型使用了可以發(fā)生跳躍的外顯子的表達(dá)量和包含該外顯子的基因的表達(dá)量。通過(guò)識(shí)別離群點(diǎn)(在兩種條件下,差異表達(dá)的外顯子),來(lái)識(shí)別外顯子跳躍事件。

Wang等人提出了DEGSeq方法[12]用于從RNA-Seq數(shù)據(jù)中識(shí)別不同表達(dá)的外顯子或者基因。與DEXSeq方法類似,DEGSeq也是使用了可以發(fā)生跳躍的外顯子的表達(dá)量和包含該外顯子的基因的表達(dá)量,通過(guò)識(shí)別離群點(diǎn)(不同條件下差異表達(dá)的外顯子)來(lái)識(shí)別外顯子剪接事件。但與DEXSeq的模型不同,DEGSeq的模式是基于測(cè)序短片段在參考基因組上的分布服從均一分布這一假設(shè)的。

MATS[13]使用了貝葉斯方法,用多變量均一分布作為先驗(yàn)知識(shí),使用了映射到外顯子內(nèi)部區(qū)域的測(cè)序短片段和支持連接兩個(gè)外顯子的測(cè)序短片段,來(lái)識(shí)別外顯子跳躍事件。上述實(shí)現(xiàn)中, 表示支持外顯子保留的、連接該外顯子與上游外顯子的測(cè)序短片段數(shù), 表示支持外顯子保留的、連接該外顯子與下游外顯子的測(cè)序短片段數(shù), 表示支持跳躍該外顯子的、連接該外顯子上游與下游外顯子的測(cè)序短片段數(shù)。

Pervouchine等人提出了一個(gè)改進(jìn)的計(jì)算 的方法[14]。由于支持連接不同外顯子的測(cè)序短片段可能存在多種情況,所以Pervouchine使用公式14來(lái)評(píng)估 :

代表連接選擇性外顯子的上游外顯子和選擇性外顯子的測(cè)序短片段, 代表連接選擇性外顯子的下游外顯子和選擇性外顯子的測(cè)序短片段, 代表連接選擇性外顯子的上游外顯子和選擇性外顯子的下游外顯子的測(cè)序短片段, 代表支持跨越從5'剪接位點(diǎn) 到3'剪接位點(diǎn) 之間內(nèi)含子的測(cè)序短片段, 代表剪接到3'剪接位點(diǎn) 的、連接兩個(gè)外顯子的測(cè)序短片段, 代表從5'剪接位點(diǎn) 開(kāi)始剪接的、連接兩個(gè)外顯子的測(cè)序短片段。

JuncBASE方法[15]僅使用了連接兩個(gè)外顯子的測(cè)序短片段,在兩種不同條件下使用Fisher檢驗(yàn),去識(shí)別外顯子跳躍事件。

JETTA[16]使用SeqMap[17]和rSeq[18]方法獲得基因、外顯子、連接兩個(gè)外顯子的測(cè)序短片段表達(dá)值來(lái)評(píng)估在兩種不同條件下所有外顯子保留率,從而識(shí)別外顯子跳躍事件。

AS detector[19]整合了兩種計(jì)算方法的比較結(jié)果來(lái)識(shí)別外顯子跳躍事件:一是在兩種條件下比較連接不同外顯子的、支持外顯子保留的測(cè)序短片段和連接不同外顯子的、支持該外顯子剪接的測(cè)序短片段的不同;二是在兩種條件下比較該選擇性外顯子的表達(dá)量和包含該外顯子的基因的表達(dá)量的不同。AS detector分別用Fisher檢驗(yàn)對(duì)上述兩種比較進(jìn)行統(tǒng)計(jì)顯著的分析,計(jì)算出每一種比較的p-value,再通過(guò)使用weighted arithmetic equation方法[20]對(duì)這兩個(gè)p-value進(jìn)行校正,最終得到一個(gè)修正的p-value。對(duì)于修正后p-value值小于0.05的外顯子即為AS detector方法識(shí)別的外顯子跳躍事件。

2現(xiàn)有識(shí)別方法存在的問(wèn)題

基于RNA-Seq數(shù)據(jù)識(shí)別外顯子跳躍事件的方法,都是使用映射到與外顯子跳躍事件相關(guān)位置的測(cè)序短片段作為特征,去構(gòu)建計(jì)算方法和模型。

與外顯子跳躍事件相關(guān)位置的測(cè)序短片段主要包括:映射到選擇性外顯子內(nèi)部區(qū)域的測(cè)序短片段( );映射到支持外顯子保留區(qū)域的、連接選擇性外顯子和其上游外顯子的測(cè)序短片段( );映射到支持外顯子保留區(qū)域的、連接選擇性外顯子和其下游外顯子的測(cè)序短片段( );映射到支持外顯子保留區(qū)域的測(cè)序短片段( );映射到支持外顯子跳躍區(qū)域的、連接選擇性外顯子的上游外顯子和選擇性外顯子的下游外顯子的測(cè)序短片段( );映射到選擇性外顯子上游和下游外顯子內(nèi)部區(qū)域的測(cè)序短片段( );映射到包含此選擇性外顯子的基因區(qū)域的測(cè)序短片段( )。

SOLAS方法只使用了映射到選擇性外顯子內(nèi)部區(qū)域的測(cè)序短片段;DEXSeq、DEGSeq、Splicing Index(SI)、Alexa-Seq使用了映射到選擇性外顯子內(nèi)部區(qū)域的測(cè)序短片段和映射到包含該選擇性外顯子的基因區(qū)域的測(cè)序短片段;JuncBASE、Kakaradov methods、Pervouchines method只使用了支持外顯子跳躍和保留的、映射到連接兩個(gè)外顯子區(qū)域的測(cè)序短片段;PSI、MATS使用了映射到支持選擇性外顯子保留和剪接區(qū)域的測(cè)序短片段;MISO使用了映射到支持選擇性外顯子保留和跳躍區(qū)域的測(cè)序短片段、以及選擇性外顯子的上游和下游外顯子內(nèi)部區(qū)域的測(cè)序短片段;JETTA和AS detector使用了映射到選擇性外顯子內(nèi)部區(qū)域的測(cè)序短片段、映射到包含該選擇性外顯子的基因區(qū)域的測(cè)序短片段和映射到支持外顯子跳躍和保留的、映射到連接兩個(gè)外顯子區(qū)域的測(cè)序短片段?,F(xiàn)有外顯子跳躍事件識(shí)別方法及其用到的測(cè)序短片段特征,如表1所示。從表中可以看出,現(xiàn)有的方法都是利用了與外顯子跳躍事件相關(guān)的部分信息去構(gòu)建計(jì)算模型和方法。例如,SOLAS的方法沒(méi)有使用支持外顯子跳躍和保留的、映射到連接兩個(gè)外顯子區(qū)域的測(cè)序短片段、以及映射到包含該選擇性外顯子的基因的測(cè)序短片段信息。DEXSeq、DEGSeq、Splicing Index(SI)、Alexa-Seq沒(méi)有使用支持外顯子跳躍和保留的、映射到連接兩個(gè)外顯子區(qū)域的測(cè)序短片段信息。JuncBASE、Kakaradov's methods、Pervouchines method沒(méi)有使用映射到選擇性外顯子內(nèi)部區(qū)域的測(cè)序短片段、以及映射到包含該選擇性外顯子的基因的測(cè)序短片段信息。PSI、MATS、MISO沒(méi)有使用映射到包含該選擇性外顯子的基因的測(cè)序短片段信息。JETTA、AS detector沒(méi)有將選擇性外顯子剪接事件看成一個(gè)整體,沒(méi)有使用映射到支持選擇性外顯子保留區(qū)域的測(cè)序短片段信息。

當(dāng)前研究方法都是使用了與外顯子跳躍事件相關(guān)的部分信息去構(gòu)建計(jì)算模型和方法,而信息的過(guò)載和丟失會(huì)導(dǎo)致識(shí)別出具有假陽(yáng)性和假陰性的結(jié)果,因此距離基于RNA-Seq數(shù)據(jù)準(zhǔn)確地識(shí)別外顯子跳躍事件的目標(biāo)還有很大差距。

3 今后的研究

針對(duì)當(dāng)前研究存在的問(wèn)題,今后如何提高識(shí)別外顯子跳躍事件的準(zhǔn)確性;如何學(xué)習(xí)每一種與外顯子跳躍事件相關(guān)的特征對(duì)準(zhǔn)確識(shí)別外顯子跳躍事件的影響;如何針對(duì)單端和雙端測(cè)序數(shù)據(jù)的特性來(lái)構(gòu)建識(shí)別方法使其可以同時(shí)應(yīng)用到單端和雙端的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)上;針對(duì)具有多個(gè)生物學(xué)重復(fù)數(shù)據(jù)的情況,如何選取恰當(dāng)?shù)挠?jì)算模型和統(tǒng)計(jì)方法來(lái)構(gòu)建識(shí)別方法;針對(duì)多個(gè)生物學(xué)重復(fù)數(shù)據(jù)來(lái)自不同測(cè)序批次的情況,如何選取恰當(dāng)?shù)挠?jì)算模型和統(tǒng)計(jì)方法來(lái)構(gòu)建識(shí)別方法;如何利用已經(jīng)被生物學(xué)實(shí)驗(yàn)驗(yàn)證過(guò)的外顯子跳躍事件的信息來(lái)構(gòu)建識(shí)別方法;如何結(jié)合現(xiàn)有的生物數(shù)據(jù)庫(kù)信息來(lái)構(gòu)建識(shí)別方法;如何驗(yàn)證識(shí)別結(jié)果的準(zhǔn)確性;如何通過(guò)識(shí)別結(jié)果指導(dǎo)生物學(xué)家去做生物實(shí)驗(yàn);這些問(wèn)題都是今后基于RNA-Seq數(shù)據(jù)識(shí)別外顯子跳躍事件研究的熱點(diǎn)問(wèn)題。

4 結(jié)束語(yǔ)

基于RNA-Seq數(shù)據(jù)識(shí)別外顯子跳躍事件是一個(gè)新興的研究方向,盡管目前該領(lǐng)域的研究已經(jīng)取得了一定的進(jìn)展,但現(xiàn)有研究仍然存在著一些問(wèn)題。準(zhǔn)確地識(shí)別外顯子跳躍事件還需要許多熟悉生物科學(xué)和計(jì)算機(jī)科學(xué)的專家共同努力。隨著大量與癌癥相關(guān)的轉(zhuǎn)錄組被測(cè)序,以及精準(zhǔn)醫(yī)療的出現(xiàn),使得從癌癥RNA-Seq數(shù)據(jù)中識(shí)別外顯子跳躍越來(lái)越重要。希望有更好的計(jì)算模型和方法能夠應(yīng)用到該領(lǐng)域,從而使得基于RNA-Seq數(shù)據(jù)識(shí)別外顯子跳躍事件的精準(zhǔn)度越來(lái)越高。

參考文獻(xiàn):

[1] PAN Q, SHAI O, LEE L J, et al. Deep surveying of alternative splicing complexity in the human transcriptome by high-throughput sequencing [J]. Nature Genetics, 2008, 40(12):1413-1415.

[2] BLACK D L. Mechanisms of alternative pre-messenger RNA splicing [J]. Annual Review of Biochemistry, 2003, 72(1):291-336.

[3] MATLIN A J, CLARK F C W. Understanding alternative splicing: towards a cellular code [J]. Nature Reviews Molecular Cell Biology, 2005, 6(5):386-398.

[4] SAMMETH M, FOISSAC S, GUIGó R. A general definition and nomenclature for alternative splicing events[J]. Plos Computational Biology, 2008, 4(8):e1000147.

[5] WANG E T, SANDBERG R, LUO S, et al. Alternative isoform regulation in human tissue transcriptomes [J]. Nature,2008, 456(7221):470-476.

[6] KATZ Y, WANG E T, AIROLDI E M, et al. Analysis and design of RNA sequencing experiments foridentifying isoform regulation [J]. Nature Methods, 2010, 7(12):1009-1015.

[7] KAKARADOV B, YUAN X H, LEE L J, et al. Challenges in estimating percent inclusion of alternatively spliced junctions from RNA-seq data [J]. BMC Bioinformatics, 2012, 13 suppl 6(8):72-79.

[8] GRIFFITH M, GRIFFITH O L, MWENIFUMBO J, et al. Alternative expression analysis by RNA sequencing [J]. Nature Methods, 2010, 7(10):843-847.

[9] RYAN M C, CLELAND J, KIM R, et al. SpliceSeq: a resource for analysis and visualization of RNA-Seq data on alternative splicing and its functional impacts.[J]. Bioinformatics, 2012, 28(18):2385-2387

清丰县| 乳山市| 仁怀市| 炉霍县| 长乐市| 三河市| 兴宁市| 宜兰市| 巴彦淖尔市| 确山县| 拉萨市| 佛坪县| 湟中县| 赤城县| 塔河县| 大同市| 恭城| 冕宁县| 蒲城县| 宁远县| 东海县| 巴里| 阳朔县| 永新县| 时尚| 漳州市| 永年县| 陆川县| 香河县| 黄冈市| 特克斯县| 汉寿县| 镇巴县| 北票市| 乐至县| 镇沅| 建德市| 建阳市| 宝丰县| 清水河县| 威宁|