孫燕勇 付紹印, 何小龍 王 標(biāo) 劉永斌* 張文廣*
(1.內(nèi)蒙古農(nóng)業(yè)大學(xué) 動(dòng)物科學(xué)學(xué)院,呼和浩特 010018;2.內(nèi)蒙古農(nóng)牧業(yè)科學(xué)院 畜牧研究所,呼和浩特 010031)
大多數(shù)真核生物基因由外顯子和內(nèi)含子組成,其轉(zhuǎn)錄的mRNA前體經(jīng)過RNA剪接,其中內(nèi)含子被切除,外顯子連接在一起形成成熟的mRNA序列。通過選擇外顯子和剪接位點(diǎn),一個(gè)mRNA前體通過不同的剪接方式產(chǎn)生不同mRNA剪接異構(gòu)體的過程稱為可變剪接[1]??勺兗艚邮歉叩日婧松锘蛘{(diào)控的核心模式,可以參與動(dòng)植物生長(zhǎng)發(fā)育[2]、信號(hào)轉(zhuǎn)導(dǎo)[3]和生物/非生物脅迫下的積極調(diào)控反應(yīng)等[4-5],也可以導(dǎo)致肌無力[6]、肌肉增生[7]、細(xì)胞內(nèi)結(jié)構(gòu)缺陷、鈣調(diào)控、細(xì)胞連接和內(nèi)吞作用紊亂等負(fù)面影響[8]。動(dòng)物需要不同類型的肌肉才能生存,如循環(huán)、運(yùn)動(dòng)、繁殖和消化。在肌肉發(fā)育過程中如何轉(zhuǎn)錄調(diào)控產(chǎn)生不同類型的肌肉是肌肉領(lǐng)域的研究熱點(diǎn)。近幾年的研究表明,可變剪接和RNA調(diào)控對(duì)肌肉發(fā)育同等重要,RNA結(jié)合蛋白功能的改變會(huì)導(dǎo)致肌肉發(fā)育問題[9-10]。盡管有數(shù)百個(gè)基因被預(yù)測(cè)會(huì)結(jié)合RNA在肌肉中表達(dá),但其功能描述較少[11]。隨著測(cè)序方法和分析軟件的開發(fā)與更新,研究者不斷突破讀段、通量和準(zhǔn)確定量等問題瓶頸,并通過RNA-seq技術(shù)發(fā)現(xiàn)保守的可變剪接對(duì)肌肉組織功能具有關(guān)鍵影響[12-13]。本文分別就肌肉可變剪接的產(chǎn)生及常見模式,引起蛋白多樣性的分子機(jī)制,可變剪接在人、小鼠和常見家畜肌肉上的研究進(jìn)展及高通量測(cè)序數(shù)據(jù)量化可變剪接方面進(jìn)行了概述,為進(jìn)一步研究動(dòng)物肌肉生長(zhǎng)發(fā)育過程中可變剪接的分子調(diào)控機(jī)制奠定理論基礎(chǔ)。
肌肉是動(dòng)物個(gè)體最具活力的組織之一,它有一種天生的能力來調(diào)節(jié)對(duì)環(huán)境和生理變化的適應(yīng),包括運(yùn)動(dòng)、飲食和疾病等,其適應(yīng)性是通過調(diào)節(jié)基因表達(dá)的轉(zhuǎn)錄過程實(shí)現(xiàn)的,而且直接與RNA轉(zhuǎn)錄相關(guān)的機(jī)制也可能調(diào)節(jié)肌肉生理,所以轉(zhuǎn)錄后機(jī)制在肌肉生物學(xué)領(lǐng)域具有重要的研究意義[14-15]。轉(zhuǎn)錄后過程包括4個(gè)主要步驟:加帽、可變剪接、切割和mRNA前體的聚腺苷酸化,最終產(chǎn)生成熟的mRNA??勺兗艚邮寝D(zhuǎn)錄后的調(diào)控機(jī)制之一,通過這種機(jī)制,單個(gè)基因可以產(chǎn)生1個(gè)以上的mRNA轉(zhuǎn)錄本,從而表達(dá)多種具有不同特征的蛋白質(zhì)亞型[18]。肌肉是表現(xiàn)出最高水平的組織特異性和保守可變剪接的組織之一,在哺乳動(dòng)物和雞中該特征尤為顯著[1]。雖然人、牛、綿羊、豬與雞的基因組分別只有大約20 000、19 981、20 908、21 594和 15 495 個(gè)蛋白質(zhì)編碼基因[16-17],但每個(gè)基因產(chǎn)生的獨(dú)特的mRNA亞型可能是基因個(gè)數(shù)的10倍以上[18]。
可變剪接的基本模式包括外顯子跳躍、可變5’和3’剪接位點(diǎn)、互斥外顯子、內(nèi)含子保留以及可變的起始外顯子、與可變的終止外顯子[19](圖1(a))。mRNA前體(Heterogeneous nuclear RNA,pre-mRNA)中最重要的剪接信號(hào)是5’剪接位點(diǎn)(5’SS)、3’剪接位點(diǎn)(3’SS)、分支位點(diǎn)(A)和多嘧啶束(Y(n))。5’和3’剪接位點(diǎn)分別以高度保守的GU和AG二核苷酸作為內(nèi)含子的第1個(gè)和最后2個(gè)核苷酸。U1小核糖核蛋白(Small nucleo ribose nucleoprotein,snRNP)復(fù)合體識(shí)別5’剪接位點(diǎn),U2 snRNP復(fù)合體識(shí)別分支位點(diǎn)。U2AF蛋白識(shí)別3’剪接位點(diǎn)和聚嘧啶束。外顯子剪接增強(qiáng)子(ESEs)、外顯子剪接沉默子(ESSs)、內(nèi)含子剪接增強(qiáng)子(ISEs)和內(nèi)含子剪接沉默子(ISSs)是pre-mRNA順勢(shì)調(diào)控基序,它們募集各種RNA結(jié)合蛋白(如SR和核內(nèi)不均一核糖蛋白,Heterogeneous nuclear ribonucleoprotein,hnRNP)來調(diào)控可變剪接[19](圖1(c))。
除了在剪接過程中涉及到外顯子或剪接位點(diǎn)的二進(jìn)制選擇的基本模式外,轉(zhuǎn)錄組中還存在許多復(fù)雜的可變剪接模式[19](圖1(b))。在極端情況下,多個(gè)可變剪接區(qū)域的組合選擇可以從一個(gè)基因產(chǎn)生成千上萬的mRNA亞型[19]。由此產(chǎn)生的mRNA亞型可在細(xì)胞內(nèi)具有不同的調(diào)控性質(zhì),如定位、穩(wěn)定性和翻譯效率,并可翻譯成結(jié)構(gòu)和功能不同的穩(wěn)定蛋白亞型。因此,可變剪接為擴(kuò)大真核生物的調(diào)控和功能庫(kù)提供了一個(gè)強(qiáng)大機(jī)制。
深藍(lán)色的方框表示組成剪接的外顯子。紅色、淡藍(lán)色和綠色的方框代表可變剪接的外顯子。
mRNA前體的可變剪接是一種基因調(diào)控的共轉(zhuǎn)錄和轉(zhuǎn)錄后機(jī)制,通過可變區(qū)域的包含或排除,一個(gè)基因可以編碼多種蛋白亞型,這通常被認(rèn)為是增加蛋白質(zhì)多樣性的主要機(jī)制[21]??勺兗艚赢a(chǎn)生蛋白質(zhì)組多樣性,包括具有組織特異性或發(fā)育階段特異性功能的亞型[22],這一過程受到高度調(diào)控,涉及反式剪接因子和順式調(diào)控基序,因此易受遺傳和體細(xì)胞突變的影響[23]??勺兗艚涌梢愿淖兙幋a蛋白的性質(zhì),包括其包含的結(jié)構(gòu)域、結(jié)合性質(zhì)、穩(wěn)定性、細(xì)胞內(nèi)定位和酶活性[24-25]。一般來說,可變剪接水平較高的基因往往具有較高數(shù)量的蛋白質(zhì)相互作用(Protein-protein interactions,PPI)[26],那些發(fā)生可變剪接的組織特異性基因也往往在PPI網(wǎng)絡(luò)中處于更中心的位置[27]??勺兗艚訁^(qū)域優(yōu)先編碼在蛋白質(zhì)表面發(fā)現(xiàn)的殘基[28],這些殘基通常包含蛋白質(zhì)及其結(jié)合伴侶的相互作用位點(diǎn)[29]。事實(shí)上,通過對(duì)數(shù)百對(duì)蛋白質(zhì)亞型配對(duì)的蛋白質(zhì)相互作用的結(jié)果進(jìn)行比較,大多數(shù)的相互作用不足一半。主異構(gòu)體和備選異構(gòu)體屬于不同的功能模塊,表明同一基因產(chǎn)生的一組剪接異構(gòu)體在功能上存在差異[32]??傊?,這些結(jié)果與可變剪接在蛋白質(zhì)組多樣化和蛋白質(zhì)相互作用調(diào)節(jié)中的作用是一致的。
盡管發(fā)生可變剪接的蛋白產(chǎn)物具有不同功能作用的例子有很多,但是,并非所有的可變剪接都必然導(dǎo)致功能蛋白的產(chǎn)生,也會(huì)存在以下幾種可能:首先,轉(zhuǎn)錄可能是非編碼的,不能翻譯成蛋白質(zhì);第二,RNA穩(wěn)定性會(huì)受到影響;第三,mRNA定位改變可能會(huì)阻礙轉(zhuǎn)錄本和/或蛋白質(zhì)的正確功能[30-31]。最近的一項(xiàng)研究發(fā)現(xiàn),在人類細(xì)胞中,有3/4的具有外顯子跳躍和轉(zhuǎn)錄本亞型的核糖體參與并可能被翻譯[32]。但是來自8個(gè)人類蛋白質(zhì)組實(shí)驗(yàn)分析(包括100多個(gè)組織,細(xì)胞株等)結(jié)果檢測(cè)到的多肽中只有0.4% 來自于可變剪接的轉(zhuǎn)錄本[33]。這說明在某些情況下,可變剪接的主要功能可能不需要在蛋白質(zhì)水平上,例如,一些帶有“終止子”的轉(zhuǎn)錄本永遠(yuǎn)不會(huì)產(chǎn)生蛋白質(zhì)。相反,可能通過將一部分pre-mRNA轉(zhuǎn)入無意義介導(dǎo)的衰變(NMD)途徑來下調(diào)表達(dá),這種機(jī)制被稱為調(diào)節(jié)非再生性剪接和翻譯。
人和小鼠肌肉發(fā)育和功能廣泛受到可變剪接的調(diào)控[1]。大規(guī)模測(cè)序試驗(yàn)獲得已知的和新的可變剪接來解釋老鼠未分化的胚胎干細(xì)胞和擬胚體轉(zhuǎn)錄的RNA序列復(fù)雜性[34]。研究表明,在小鼠大腦、肝臟和骨骼肌組織大約3 500個(gè)不同的基因表達(dá)一個(gè)或多個(gè)可變剪接[35]。在人體主要組織中約有100 000個(gè)這類可變剪接,在20%的多外顯子基因中發(fā)現(xiàn)了新的剪接連接,其中許多是肌肉特異性的[36]。在心臟發(fā)育過程中,CUG-BP類Elav家族成員1(CELF1)、肌樣蛋白1(MBNL1)、RNA 結(jié)合蛋白-fox-1 homolog 1(RBFOX1)、RBFOX2、RNA結(jié)合蛋白24(RBM24)等多種調(diào)控可變剪接的RNA結(jié)合蛋白(RNA-binding proteins,RBPs)表達(dá)水平發(fā)生顯著變化[37]。這些RBPs是肌肉RNA轉(zhuǎn)錄過程的關(guān)鍵調(diào)控因子,對(duì)mRNA表達(dá)、定位或功能的錯(cuò)誤調(diào)控都會(huì)導(dǎo)致mRNA穩(wěn)定性、可變剪接和相關(guān)的聚腺苷酸化缺陷,并且RBPs的剪接靶點(diǎn)已通過動(dòng)物模型結(jié)合全基因組方法得到鑒定[38-39]。MBNL和CELF家族是調(diào)節(jié)心臟和骨骼肌發(fā)育過程中發(fā)生可變剪接的代表[40-41],它們可以調(diào)節(jié)可變剪接的協(xié)同和拮抗作用,最常見的是對(duì)可變剪接的拮抗調(diào)節(jié)[42]。肌肉發(fā)育是一個(gè)高度動(dòng)態(tài)的組織重塑過程,研究人員利用RNA-seq對(duì)小鼠腓腸肌全基因組的基因表達(dá)和可變剪接進(jìn)行了系統(tǒng)分析,時(shí)間點(diǎn)為胚胎期18.5 d到成年期的5個(gè)時(shí)間點(diǎn)。結(jié)果顯示,出生后的前2周是基因差異表達(dá)和可變剪接的動(dòng)態(tài)期,在發(fā)生可變剪接的基因中,鈣調(diào)節(jié)功能顯著增強(qiáng)[43]??勺兗艚拥陌l(fā)生與胎兒發(fā)育并不相鄰,而是局限于出生后的前兩周[43]。差異表達(dá)基因和可變剪接的基因重疊極小,提示轉(zhuǎn)錄和轉(zhuǎn)錄后調(diào)控的獨(dú)立機(jī)制。差異表達(dá)的基因主要參與線粒體功能,而發(fā)生可變剪接的基因參與鈣調(diào)控、細(xì)胞連接和內(nèi)吞作用[43]。Ras-ERK通路調(diào)節(jié)多種細(xì)胞和生理反應(yīng),包括細(xì)胞增殖、分化、動(dòng)物發(fā)育過程中的形態(tài)發(fā)生和成年人體內(nèi)的穩(wěn)態(tài)。DA-Raf1是A-Raf基因的剪接亞型,含有Ras結(jié)合域,但缺乏激酶結(jié)合域,對(duì)Ras-ERK通路呈顯性拮抗作用。DA-Raf1通過干擾Ras-ERK通路,誘導(dǎo)細(xì)胞凋亡和骨骼肌細(xì)胞分化等作用[44]。另外,小鼠與人類有50% 以上的可變剪接在剪接方向和時(shí)間上是保守的,說明肌肉發(fā)育過程中的可變剪接在哺乳動(dòng)物中具有一定的保守性,這將為哺乳動(dòng)物的可變剪接研究提供參考。
在人類和小鼠研究的基礎(chǔ)上,牛肌肉的可變剪接調(diào)控也取得了一些進(jìn)展。He等[45]使用SOAPsplice軟件對(duì)胚胎135 d和成年肉牛的肌肉組織的可變剪接進(jìn)行比較分析,發(fā)現(xiàn)兩者大約 66.6% 的基因經(jīng)歷了可變剪接,可變3’端剪接是最主要的類型,約占所有剪接類型的40.8%。Sun等[46]通過對(duì)胚胎、初生和成年的秦川牛肌肉組織的轉(zhuǎn)錄組進(jìn)行分析,表明大部分基因表達(dá)在牛骨骼肌細(xì)胞分化和發(fā)育過程中發(fā)生了顯著的變化。各種剪接類型在胚胎期發(fā)生個(gè)數(shù)均最多,其中內(nèi)含子保留類型數(shù)目最多,其次為跳躍外顯子。初生和成年期外顯子跳躍類型占比最大。這與He等[46]研究報(bào)道的內(nèi)含子保留較少的可變剪接機(jī)制不盡相同。
但是,解析肌肉發(fā)育復(fù)雜性僅僅比較分析剪接類型與數(shù)量是遠(yuǎn)遠(yuǎn)不夠的,因此,基因編輯靶向剪接體研究也隨后在家畜中逐步開展。已知MBNL是miR-30-5p家族的候選靶點(diǎn),是一種可變剪接調(diào)控因子。通過靶向剪接體試驗(yàn)發(fā)現(xiàn)miR-30-5p家族成員可以靈活調(diào)控MBNL的mRNA亞型表達(dá)[47],進(jìn)而影響到MBNL1下游的肌肉相關(guān)基因INSR和Trim55的可變剪接,參與到INSR或Trim55所在的肌肉信號(hào)通路中[48]。
綿羊是一種重要的家畜,也是許多人類醫(yī)學(xué)研究的模型。綿羊肌肉中基因表達(dá)的研究將大大提高對(duì)肌肉生長(zhǎng)的認(rèn)識(shí)。雖然RNA-seq近幾年被廣泛應(yīng)用于各種生物,但在綿羊中的研究仍然比較少,可變剪接的相關(guān)研究更是缺乏。綿羊BEGAIN基因位于印跡DLK1基因的近端138 kb和美臀突變基因CLPG的203 kb位置處[49],在綿羊骨骼肌發(fā)育過程中普遍表達(dá)[49]。有研究表明,BEGAIN基因的4個(gè)主要啟動(dòng)子和可變剪接的組合啟動(dòng)子轉(zhuǎn)錄本[49]在羊腦、腎臟、肝臟和骨骼肌中存在,這4種基因轉(zhuǎn)錄本以組織和啟動(dòng)子特異性的方式表現(xiàn)出父系或雙等位基因表達(dá)[49]。這說明與對(duì)DLK1-GTL2區(qū)域的核心基因簇的影響相反,CLPG突變不會(huì)改變BEGAIN的轉(zhuǎn)錄水平[49]。因此,雖然BEGAIN基因代表了另一個(gè)在綿羊DLK1-GTL2印跡域中的父系表達(dá)基因,但它的表達(dá)不受CLPG突變的遠(yuǎn)程調(diào)控元件的控制[49]。Zhang等對(duì)2種不同生長(zhǎng)速度的綿羊(小尾寒羊和杜泊羊)肱二頭肌構(gòu)建了2個(gè)cDNA文庫(kù),發(fā)現(xiàn)2組有多達(dá)5 116個(gè)和5 265個(gè)基因分別經(jīng)歷了13 827個(gè)和15 684個(gè)可變剪接[50],共計(jì)超過1 / 4(分別為26.02%和25.28%)的基因發(fā)生了共29 511個(gè)可變剪接事件。此外,A3SS是綿羊中最常見的可變剪接類型,可變剪接均發(fā)生在1、2和3號(hào)染色體上,其發(fā)生頻率與綿羊染色體長(zhǎng)度一致(1、2和3號(hào)染色體最長(zhǎng)),這表明不同品種之間一些轉(zhuǎn)錄和翻譯調(diào)控機(jī)制可能是保守的[50]。
迄今,基于轉(zhuǎn)錄組學(xué)對(duì)豬不同生長(zhǎng)速度和肥胖特征的差異基因表達(dá)的相關(guān)研究較多,有助于揭示影響這些特征表型變異的遺傳因素,而在mRNA亞型水平上的相關(guān)研究甚少[51-52]。豬肌肉發(fā)育中可變3’剪接是最常見的剪接類型[53],這與人類(外顯子跳躍為普遍剪接類型)和水稻(內(nèi)含子保留為普遍剪接類型)等有所不同[54-55]。豬肌肉可變剪接具有一定復(fù)雜性,有些基因同時(shí)發(fā)生了4種剪接類型(如CSN1S1)。肌動(dòng)蛋白相關(guān)的LIM蛋白(ALP)與-肌動(dòng)蛋白在z盤上共定位,對(duì)整合細(xì)胞骨架結(jié)構(gòu)和轉(zhuǎn)錄調(diào)控起關(guān)鍵作用。ALP發(fā)生可變剪接后得到的mRNA亞型在豬骨骼肌發(fā)育的產(chǎn)前、產(chǎn)后及兩品種間均有不同的表達(dá)譜,并且所有亞型均在分化的豬衛(wèi)星細(xì)胞中被誘導(dǎo),這些結(jié)果為ALP剪接水平在調(diào)控豬骨骼肌發(fā)育中的作用提供了新的見解,提示其在肌源性分化中的作用[56]。另外,豬CAPZB基因存在2種可變剪接亞型CAPZB1和CAPZB2[57]。CAPZB1在20個(gè)組織中均有表達(dá),CAPZB2主要表達(dá)于骨骼肌和心臟,這2種亞型在骨骼肌發(fā)育和品種間的表達(dá)譜也存在差異,被列入骨骼肌發(fā)育的候選基因。Cardoso等[58]的研究證明,豬肌肉中表達(dá)的基因約有10.9%發(fā)生了可變剪接,平均每個(gè)基因有2.9個(gè)轉(zhuǎn)錄本,外顯子跳躍是最常見的剪接類型,其次是5’剪接類型和3’剪接類型,通過比較不同背膘厚度豬肌肉的差異表達(dá)mRNA亞型,發(fā)現(xiàn)ITGA5、LITAF、TIMP1和ANXA2 mRNA亞型的高表達(dá)可能是引起背膘脂肪含量升高的原因。今后,對(duì)以上mRNA亞型調(diào)控功能的更廣泛深入了解將有助于闡明轉(zhuǎn)錄多樣性對(duì)豬肌肉表型的影響機(jī)理。
雞肌肉發(fā)育可變剪接的研究較少。近幾年,隨著RNA-seq分析的不斷深入,有研究將側(cè)重點(diǎn)轉(zhuǎn)向可變剪接,Li等[59]從白羽肉雞(42 d)和魯寧雞(70、120和150 d)采集肌肉組織測(cè)序,共注釋到16 958個(gè)基因,其中共有6 249個(gè)基因(36.85%)發(fā)生了可變剪接。這些可變剪接包括7種類型:跳躍外顯子、保留內(nèi)含子、可變5’剪接位點(diǎn)、可變3’剪接位點(diǎn)、可變5’UTR剪接位點(diǎn)、可變3’UTR剪接位點(diǎn)和其它類型。在這4 個(gè)樣本(42、70、120和150 d)中可變3’剪接位點(diǎn)數(shù)量最多,分別為4 221、4 401、4 409 和3 294,保留內(nèi)含子數(shù)量最少,6個(gè)參與肌肉發(fā)育和免疫應(yīng)答的DEGs(SRPK3、ENSGALG00000022884、CCL4、GATM、SESN1和PTTG1IP)在4種肌肉組織中均發(fā)生可變剪接[57]。
Delta-like 1 homologue(DLK1)是調(diào)控哺乳動(dòng)物脂肪和肌肉發(fā)育的印跡基因。DLK1不同的剪接亞型在哺乳動(dòng)物的肌生成調(diào)控中具有不同的功能,而火雞和鵪鶉中沒有DLK1轉(zhuǎn)錄本可變剪接的存在[60]。肌生成抑制素(MSTN)通過抑制成肌細(xì)胞的增殖和分化,負(fù)調(diào)控肌肉的生長(zhǎng)發(fā)育。最近,在家禽肌肉中發(fā)現(xiàn)了5種MSTN的可變剪接亞型(MSTN-A到MSTN-E)。MSTN-A在肌肉中高表達(dá),其編碼的全長(zhǎng)肽具有抗肌生成活性。另一種亞型MSTN-B也在肌肉中高度表達(dá),并編碼一種截短肽,該肽在體外具有促肌原性能力,包括促進(jìn)禽類肌肉前體細(xì)胞的增殖和分化[61]。
研究可變剪接對(duì)肌肉類型特異性發(fā)育和功能的影響需要具備識(shí)別可變剪接亞型的能力,定量分析可變剪接的傳統(tǒng)分子生物學(xué)方法是逆轉(zhuǎn)錄聚合酶鏈反應(yīng)(RT-PCR)[62]。20世紀(jì)90年代末,發(fā)展成為使用表達(dá)序列標(biāo)簽(ESTs)測(cè)序(即全長(zhǎng)mRNA的片段),在真核生物中發(fā)現(xiàn)了廣泛的可變剪接[63]。至21世紀(jì)前10年,芯片數(shù)據(jù)的廣泛累積,實(shí)現(xiàn)了跨組織、細(xì)胞狀態(tài)和物種的全局可變剪接調(diào)控過程研究。然而這些技術(shù)通量低(qRT-PCR和ESTs)、噪音高(ESTs和芯片),多局限于已知的可變剪接(RT-PCR和芯片)[64]。隨后開發(fā)的二代RNA測(cè)序(RNA-seq),可以大規(guī)模并行運(yùn)算,在高通量測(cè)序儀一次運(yùn)行中產(chǎn)生數(shù)十億的短序列讀段,這不僅極大的改進(jìn)了芯片數(shù)據(jù)分析可變剪接的一些不足,還可以發(fā)現(xiàn)新基因和mRNA亞型、定量基因表達(dá)和定量分析可變剪接[65-66]。如今,測(cè)序技術(shù)又有了新突破,以太平洋生物科學(xué)(PacBio)和牛津納米孔技術(shù)(Nanopore)為代表的第三代測(cè)序方法(Iso-Seq),成功識(shí)別了許多具有良好特征的轉(zhuǎn)錄本和可變剪接[67-68]。第三代測(cè)序具有讀段長(zhǎng)、通量低、錯(cuò)誤率高的特點(diǎn),對(duì)于轉(zhuǎn)錄本和可變剪接的分析仍存在不足。研究人員將第三代測(cè)序儀的長(zhǎng)而易出錯(cuò)的讀段與第二代測(cè)序儀的短而準(zhǔn)確的讀段特點(diǎn)相結(jié)合,應(yīng)運(yùn)而生了一種混合方法,用于糾正測(cè)序錯(cuò)誤和從長(zhǎng)讀段中獲得亞型定量[66]。從測(cè)序發(fā)展的角度看,第三代長(zhǎng)讀段RNA-seq數(shù)據(jù)與EST的測(cè)序數(shù)據(jù)相似,針對(duì)EST數(shù)據(jù)開發(fā)的計(jì)算方法在PacBio和Nanopore RNA-seq數(shù)據(jù)同樣適用[69]。
通過使用RNA-seq數(shù)據(jù)來直接量化單個(gè)可變剪接是目前比較普遍的方法。在這種方法中,從RNA-seq數(shù)據(jù)中發(fā)現(xiàn)可變剪接,計(jì)算與特定外顯子或剪接連接對(duì)齊的讀長(zhǎng),并使用適當(dāng)?shù)慕y(tǒng)計(jì)方法來量化可變剪接和檢測(cè)不同生物條件之間的差異可變剪接。在基于可變剪接的分析中,一個(gè)廣泛使用的度量標(biāo)準(zhǔn)是剪接百分比(PSI或Ψ),它表示包含特定外顯子或剪接位點(diǎn)的基因mRNA轉(zhuǎn)錄的百分比[70]。對(duì)于給定的可變剪接,PSI值可以通過特定外顯子或剪接連接的RNA-seq讀長(zhǎng)計(jì)數(shù)來計(jì)算[71]。許多流行的用于可變剪接的RNA-seq分析的計(jì)算工具都是基于可變剪接開發(fā)的(MISO[71]、SpliceTrap[72]、rMATS[71]和MAJIQ[73]等)。這些工具對(duì)可變剪接(基本的和復(fù)雜的)的讀長(zhǎng)計(jì)數(shù)過程以及用于量化和確定差異可變剪接的統(tǒng)計(jì)方法的定義有所不同。盡管如此,對(duì)于同一組可變剪接,這些工具傾向于產(chǎn)生高度一致的PSI值[74]。鑒于PSI值代表了一個(gè)從讀長(zhǎng)計(jì)數(shù)中估計(jì)出來的比例,PSI估計(jì)值的置信區(qū)間取決于感興趣可變剪接在整個(gè)RNA-seq的序列覆蓋率,因此,更高的覆蓋率會(huì)導(dǎo)致更可靠的PSI估計(jì)值,這是可變剪接在RNA-seq分析中的一個(gè)關(guān)鍵問題。研究表明,基于RNA-seq讀長(zhǎng)計(jì)數(shù)建模得到PSI值的置信區(qū)間可以改進(jìn)下游統(tǒng)計(jì)推斷[72]。此外,SUPPA是一款通過轉(zhuǎn)錄本定量來獲取可變剪接定量的軟件,它使用一種混合算法利用完整的轉(zhuǎn)錄本定量來進(jìn)行基于可變剪接的分析,這種方法運(yùn)用偽對(duì)齊算法不僅計(jì)算速度快,而且可以擴(kuò)展到大型數(shù)據(jù)集。但是,它僅限于已有的文本注釋,不能發(fā)現(xiàn)或量化新的可變剪接,這個(gè)問題是分析可變剪接遺傳變異的一個(gè)阻礙,因?yàn)榛蚪M變異可以在單個(gè)轉(zhuǎn)錄組中產(chǎn)生新的可變剪接。
幾十年來,肌肉從受精卵發(fā)育為成體的分子驅(qū)動(dòng)過程一直是備受關(guān)注的研究課題,可變剪接在調(diào)節(jié)肌肉發(fā)育和功能方面具有巨大潛力,它通過增加蛋白質(zhì)多樣性或蛋白質(zhì)網(wǎng)絡(luò)的機(jī)制,影響鈣調(diào)控或肌纖維膜等功能廣泛參與到肌肉的發(fā)育轉(zhuǎn)錄后調(diào)控過程中。目前,人和小鼠肌肉發(fā)育的可變剪接研究較為廣泛,已經(jīng)鑒定了多種調(diào)控可變剪接發(fā)生的RNA結(jié)合蛋白。仍存在很多問題有待解決,第一,肌肉中可變剪接和聚腺苷酸化的網(wǎng)絡(luò)功能;第二,RBPs在肌肉發(fā)育中的調(diào)節(jié)機(jī)制還沒有完全確定;第三,表觀遺傳學(xué)對(duì)細(xì)胞過程的影響,可以結(jié)合肌肉細(xì)胞體外培養(yǎng)試驗(yàn);第四,大量的剪接異構(gòu)體與可變剪接的功能效應(yīng)有待于研究。由于可變剪接在哺乳動(dòng)物之間具有一定的保守性,未來家畜肌肉發(fā)育的研究將建立在人和小鼠的研究基礎(chǔ)上,并結(jié)合染色質(zhì)狀態(tài)、表觀遺傳標(biāo)記和三維基因組等,進(jìn)一步研究家畜肌肉發(fā)育過程中可變剪接的調(diào)控和協(xié)調(diào);揭示單個(gè)剪接亞型的生理功能;構(gòu)建控制發(fā)育和組織穩(wěn)態(tài)的剪接網(wǎng)絡(luò),為培育高效生長(zhǎng)發(fā)育的動(dòng)物品種提供理論基礎(chǔ)。
中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào)2021年3期