袁杰,李敏,黃詩(shī)圣,舒文杰,任超
1.軍事醫(yī)學(xué)研究院 輻射醫(yī)學(xué)研究所,北京 100850;2.廣州大學(xué) 生命科學(xué)學(xué)院精準(zhǔn)基因編輯工程中心,廣東 廣州 510006;3.上??萍即髮W(xué) 生命科學(xué)與技術(shù)學(xué)院,上海 201210
盡管高通量的短讀長(zhǎng)測(cè)序極大地促進(jìn)了轉(zhuǎn)錄組學(xué)研究[1],然而基于組裝的短讀長(zhǎng)測(cè)序不足以精確地進(jìn)行生物信息學(xué)分析[2]。此外,先前研究表明真核生物的轉(zhuǎn)錄組非常復(fù)雜。包括可變剪切在內(nèi)的前體mRNA的轉(zhuǎn)錄后加工極大地增加了轉(zhuǎn)錄組的多樣性[3-4]。由于高通量測(cè)序的長(zhǎng)度限制,它無(wú)法完全解析真核生物的轉(zhuǎn)錄組,特別是與真核生物中普遍存在的新型可變剪切事件相關(guān)聯(lián)的復(fù)雜性[5-6]。近年出現(xiàn)的第三代測(cè)序技術(shù),即長(zhǎng)讀長(zhǎng)測(cè)序,通過(guò)使用長(zhǎng)讀長(zhǎng)技術(shù)來(lái)實(shí)現(xiàn)堿基序列的實(shí)時(shí)讀取,縮短了測(cè)序時(shí)間。此外,可以通過(guò)直接獲得錯(cuò)誤率小于1%的全長(zhǎng)轉(zhuǎn)錄本來(lái)克服二代短讀長(zhǎng)轉(zhuǎn)錄組測(cè)序技術(shù)(RNA-seq)的測(cè)序長(zhǎng)度限制[7]。最近,長(zhǎng)讀長(zhǎng)測(cè)序被用來(lái)證明,即使是來(lái)自人體器官的高度表征過(guò)的轉(zhuǎn)錄組在基因和同源異構(gòu)體層面也是不完整的[8-9]。相比之下,使用PacBio單分子實(shí)時(shí)(single-molecule real-time,SMRT)測(cè)序?qū)τ衩缀筒葺霓D(zhuǎn)錄組進(jìn)行分析,發(fā)現(xiàn)了許多新穎的剪切同源異構(gòu)體、長(zhǎng)鏈非編碼RNA(long noncoding RNAs,LncRNA)、融合轉(zhuǎn)錄本,以及新穎的可變剪切事件[10-11]。
等位基因特異性表達(dá)(allele-specific expression,ASE)是指二倍體生物體中來(lái)自2個(gè)等位基因的轉(zhuǎn)錄本的相對(duì)表達(dá)水平。等位基因特異性表達(dá)可能是由于轉(zhuǎn)錄速率、mRNA穩(wěn)定性或其他影響轉(zhuǎn)錄本豐度的機(jī)制的不同所造成的[12]。在小鼠早期胚胎發(fā)育過(guò)程中,它會(huì)經(jīng)歷大規(guī)模重編程過(guò)程,以完成母源mRNA的降解和合子基因組激活(zygote genome activation,ZGA)[13]。這些重編程過(guò)程可以幫助調(diào)節(jié)胚胎基因組轉(zhuǎn)錄的激活,并為隨后的胚胎發(fā)育和分化奠定基礎(chǔ)[14]。
早期胚胎的起源效應(yīng)分析可以鑒定出某些顯示出ASE的基因,從而大大增強(qiáng)了我們對(duì)早期胚胎發(fā)育過(guò)程中重編程的理解。先前的研究表明,包括等位基因特異的剪切和甲基化不對(duì)稱性在內(nèi)的轉(zhuǎn)錄組和表觀組的起源效應(yīng)極大地影響著早期胚胎的發(fā)育[15]。然而,使用二代短讀長(zhǎng)測(cè)序技術(shù)從2個(gè)等位基因的相對(duì)豐度推斷轉(zhuǎn)錄本來(lái)源的方法具有較大的局限性。在最近的研究中,我們利用三代測(cè)序技術(shù)生成了包括新穎轉(zhuǎn)錄本在內(nèi)的更加完整的轉(zhuǎn)錄組[16]。在本研究中,我們應(yīng)用三代測(cè)序技術(shù)描繪了小鼠早期胚胎的剪切圖譜和ASE。我們還將三代與二代RNA-seq數(shù)據(jù)結(jié)合在一起,以獲得完整的剪切圖譜,并且利用更完整的剪切信息探究起源效應(yīng)。我們的目標(biāo)是更好地表征剪切圖譜和轉(zhuǎn)錄組的等位基因特異性的注釋信息,以增強(qiáng)對(duì)小鼠胚胎發(fā)育的了解。
本研究用到的小鼠早期胚胎的二代測(cè)序數(shù)據(jù)、三代測(cè)序數(shù)據(jù)、全長(zhǎng)轉(zhuǎn)錄本及三代長(zhǎng)讀長(zhǎng)測(cè)序數(shù)據(jù)識(shí)別的可變剪切事件和差異可變剪切事件均來(lái)自GSE138760。
首先用 TrimGalore(v0.6.1)修剪 RNA-seq數(shù)據(jù),隨后用STAR(v2.5.0a)[17]將修剪后的數(shù)據(jù)比對(duì)到mm10參考基因組(參數(shù):--two pass Mode Basic-outSAM typeBAM Unsorted-outSAM strand Field intron Motif)。用 Cufflinks(v2.2.1)[18]拼接各階段的短讀長(zhǎng)轉(zhuǎn)錄本,并且過(guò)濾掉不包含正負(fù)鏈信息和每千個(gè)堿基的轉(zhuǎn)錄每百萬(wàn)映射讀取的片段(fragments per kilobase million,F(xiàn)PKM)的值小于1的轉(zhuǎn)錄本。
為了將雜交小鼠(♂ DBA/2×♀C57/BL6J)的序列無(wú)偏映射到參考基因組,通過(guò)SNPsplit(v0.3.4),采用來(lái)自桑格小鼠基因組計(jì)劃數(shù)據(jù)庫(kù)(dbSNP142)的DBA/2特異的單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)生成一套偽基因組。隨后,用GMAP[19]將高質(zhì)量的三代長(zhǎng)讀長(zhǎng)轉(zhuǎn)錄本比對(duì)到N掩蓋(N-masked)的基因組,并使用STAR將二代RNA-seq序列比對(duì)到N-masked的基因組。根據(jù)在N堿基處的等位基因特異性錯(cuò)配的SNP數(shù)量判定三代長(zhǎng)讀長(zhǎng)轉(zhuǎn)錄本的來(lái)源?;贜位點(diǎn)處的堿基,使用SNPsplit將唯一比對(duì)上(uniquely mapped)的二代RNA-seq序列分為DBA/2特異組、C57/BL6J特異組和不可分配組。
為了識(shí)別等位基因特異的二代短讀長(zhǎng)轉(zhuǎn)錄本,首先過(guò)濾掉在任一生物重復(fù)樣本中C57特異序列(C57 reads)+DBA特異序列(DBA reads)小于5的轉(zhuǎn)錄本。等位基因比率計(jì)算公式為ReadsC57/(ReadsC57+ReadsDBA)。然后,應(yīng)用卡方檢驗(yàn)計(jì)算每個(gè)重復(fù)樣本中等位基因特異的序列偏性的P值,并且用fisher方法將P值合并。依據(jù)等位基因比率和P值來(lái)定義等位基因平衡和等位基因不平衡的轉(zhuǎn)錄本。│等位基因比率-0.5│<0.16或P≥0.05的轉(zhuǎn)錄本被定義為等位基因平衡的轉(zhuǎn)錄本,│等位基因比率-0.5│≥0.16且P<0.05的轉(zhuǎn)錄本被定義為等位基因不平衡的轉(zhuǎn)錄本。
采用2種不同的分析策略,比較三代測(cè)序數(shù)據(jù)與二代測(cè)序數(shù)據(jù)中的等位基因特異性。長(zhǎng)讀長(zhǎng)轉(zhuǎn)錄本的起源與等位基因特異的SNP一致,而短讀長(zhǎng)轉(zhuǎn)錄本的等位基因特異性是由等位基因的比率和偏性決定的。
通過(guò) StringTie(v1.3.3b)[20],使用二代 RNA-seq數(shù)據(jù)計(jì)算長(zhǎng)讀長(zhǎng)基因和同源異構(gòu)體的總表達(dá)量(FPKM)和等位基因特異的表達(dá)量(FPKM)。計(jì)算等位基因特異的表達(dá)量時(shí),輸入的數(shù)據(jù)是等位基因特異的序列。用皮爾遜相關(guān)性檢驗(yàn)計(jì)算基因和同源異構(gòu)體的總表達(dá)量以及等位基因特異表達(dá)量之間的相關(guān)性,相關(guān)性系數(shù)(cor)>0且P<0.05的模式被定義為一致,其余模式被定義為不一致。
使用 PANTHER(v14)[21],對(duì)新發(fā)現(xiàn)的等位基因特異的轉(zhuǎn)錄本和相關(guān)性模式為不一致的基因進(jìn)行GO功能富集分析。
使用SUPPA2(v2.2.1)[22],在7個(gè)階段識(shí)別7種類型的可變剪切事件,包括外顯子跳躍(skipping exons,SE)、可 變 的 5′端(alternative 5′splice sites,A5)、可變的3′端(alternative 3′splice sites,A3)、內(nèi)含子保留(retained introns,RI)、互斥外顯子(mutually exclusive exons,MX)、可變起始外顯子(alternative first exons,AF)、可變末端外顯子(alternative last exons,AL)。由注釋的轉(zhuǎn)錄本生成的事件被定義為注釋事件,其余事件被定義為新穎事件。差異可變剪切事件是從我們最近發(fā)表的研究中獲取的[16]。我們通過(guò)STAR使用二代數(shù)據(jù)計(jì)算比對(duì)到剪切結(jié)上的序列(reads)。與等位基因特異的轉(zhuǎn)錄本相關(guān)聯(lián)的可變剪切事件或差異可變剪切事件被定義為等位基因特異的可變剪切事件或差異可變剪切事件。
為了評(píng)估三代測(cè)序數(shù)據(jù)識(shí)別可變剪切事件的潛力,比較了通過(guò)二代數(shù)據(jù)和三代與二代數(shù)據(jù)的組合來(lái)識(shí)別可變剪切事件的累積數(shù)量。首先隨機(jī)選取一個(gè)階段的二代數(shù)據(jù)識(shí)別的轉(zhuǎn)錄本,接著使用Cuffmerge(v2.2.1)[18]合并單個(gè)階段的轉(zhuǎn)錄本與前面所有階段的轉(zhuǎn)錄本,隨后用SUPPA2從合并的轉(zhuǎn)錄本中識(shí)別可變剪切事件,當(dāng)7個(gè)階段都被合并時(shí),完成一次循環(huán)。將上述過(guò)程重復(fù)100次,在每個(gè)點(diǎn)計(jì)算可變剪切事件數(shù)量的平均值和99%置信區(qū)間。當(dāng)我們對(duì)三代數(shù)據(jù)與二代數(shù)據(jù)的組合進(jìn)行累積數(shù)分析時(shí),與上述策略唯一的區(qū)別在于分析之前每個(gè)階段的長(zhǎng)讀長(zhǎng)與短讀長(zhǎng)轉(zhuǎn)錄本都已經(jīng)被合并。
為了表征PacBio三代測(cè)序技術(shù)在研究早期胚胎轉(zhuǎn)錄組中等位基因特異的轉(zhuǎn)錄本和可變剪切事件的優(yōu)勢(shì),我們從我們最近發(fā)表的研究中收集了小鼠早期胚胎7個(gè)階段[精子(sperm,SP)、卵母細(xì)胞(oocyte,Oo)、1細(xì)胞(1-cell,1C)、2細(xì)胞(2-cell,2C)、4細(xì)胞(4-cell,4C)、8細(xì)胞(8-cell,8C)和囊胚(blastocyst,BL)]的測(cè)序數(shù)據(jù)和注釋數(shù)據(jù)。這些數(shù)據(jù)包括二代測(cè)序數(shù)據(jù)、三代測(cè)序數(shù)據(jù)、來(lái)自7個(gè)階段的全長(zhǎng)轉(zhuǎn)錄本,以及7個(gè)階段合并的全長(zhǎng)轉(zhuǎn)錄本。這些數(shù)據(jù)被用來(lái)鑒別等位基因特異的轉(zhuǎn)錄本、可變剪切事件和轉(zhuǎn)錄組的起源效應(yīng)(圖1A)。借助三代測(cè)序技術(shù)的優(yōu)勢(shì),可以將等位基因特異的單核苷酸多態(tài)性SNP精確定位在單個(gè)轉(zhuǎn)錄本中,從而有助于準(zhǔn)確識(shí)別轉(zhuǎn)錄本的來(lái)源。絕大多數(shù)(97%)的長(zhǎng)讀長(zhǎng)轉(zhuǎn)錄本中至少存在1個(gè)等位基因特異的SNP,接近一半的轉(zhuǎn)錄本(46%)至少包含3個(gè)等位基因特異的SNP。因此,我們把至少包含3個(gè)等位基因特異的SNP的轉(zhuǎn)錄本定義為等位基因特異的轉(zhuǎn)錄本。然后,我們基于每個(gè)階段獲得的長(zhǎng)讀長(zhǎng)轉(zhuǎn)錄本中存在的等位基因特異的SNP來(lái)確定長(zhǎng)讀長(zhǎng)轉(zhuǎn)錄本的起源。這些轉(zhuǎn)錄本被分為可以區(qū)分來(lái)源的轉(zhuǎn)錄本[包括C57特異(母源)、DBA特異(父源)以及雙等位基因的轉(zhuǎn)錄本]和無(wú)法區(qū)分來(lái)源的轉(zhuǎn)錄本(圖1B)。與先前研究結(jié)果一致[13],從1細(xì)胞到囊胚階段,C57特異的轉(zhuǎn)錄本所占比例逐漸上升,DBA特異的轉(zhuǎn)錄本逐漸下降(圖1B)。在7個(gè)階段中,我們鑒別出734~1288個(gè)等位基因特異的轉(zhuǎn)錄本(圖1C)。在卵母細(xì)胞和精子期,我們觀察到大量的C57特異或DBA特異的轉(zhuǎn)錄本,然而隨著胚胎發(fā)育,雙等位基因的轉(zhuǎn)錄本比例逐漸上升(圖1C)。通過(guò)與GENCODE(vM20)注釋進(jìn)行比較,每個(gè)階段平均鑒定出532個(gè)C57特異的轉(zhuǎn)錄本和397個(gè)DBA特異的轉(zhuǎn)錄本,參考我們先前的發(fā)現(xiàn),每個(gè)階段平均存在650個(gè)注釋的轉(zhuǎn)錄本和234個(gè)新基因和同源異構(gòu)體(圖1D)[16]。
接著我們比較了三代測(cè)序數(shù)據(jù)和二代測(cè)序數(shù)據(jù)鑒別的等位基因特異的轉(zhuǎn)錄本。盡管由于測(cè)序深度的原因,三代數(shù)據(jù)中識(shí)別的等位基因特異的轉(zhuǎn)錄本要少于二代數(shù)據(jù),但不管是對(duì)于三代數(shù)據(jù)(圖1B、C)還是二代數(shù)據(jù),等位基因特異的轉(zhuǎn)錄本的數(shù)量和比例都是從1細(xì)胞到囊胚階段逐漸減少。然而兩者之間的重疊率逐漸降低,在囊胚階段兩者識(shí)別等位基因特異的轉(zhuǎn)錄本僅6%是一致的(圖1E)。在7個(gè)階段中,僅被三代數(shù)據(jù)所識(shí)別的新發(fā)現(xiàn)的等位基因特異的轉(zhuǎn)錄本數(shù)量范圍為378~872(圖1F)。我們對(duì)這些新發(fā)現(xiàn)的等位基因特異的轉(zhuǎn)錄本做了GO分析,發(fā)現(xiàn)這些轉(zhuǎn)錄本與細(xì)胞代謝過(guò)程、感覺知覺和細(xì)胞周期過(guò)程存在關(guān)聯(lián)。
我們進(jìn)一步表征了從三代數(shù)據(jù)中鑒別出的新發(fā)現(xiàn)的等位基因特異的轉(zhuǎn)錄本,將其分為3種類型,即沒有特異的二代數(shù)據(jù)支持(未被等位基因特異的短讀長(zhǎng)序列所識(shí)別)、等位基因特異的偏性相反(與三代數(shù)據(jù)識(shí)別的結(jié)果相比,二代數(shù)據(jù)識(shí)別結(jié)果的親代定位是相反的)、雙等位基因(存在等位基因特異的SNP但等位基因的表達(dá)水平無(wú)差異)(圖1F)。例如,在囊胚階段識(shí)別的基因PB.2249的2個(gè)異構(gòu)體在三代數(shù)據(jù)中被識(shí)別為品系特異,但在二代數(shù)據(jù)中被錯(cuò)誤地鑒定為雙等位基因(圖1G)。這些結(jié)果證明了使用三代數(shù)據(jù)鑒別等位基因特異的轉(zhuǎn)錄本的優(yōu)勢(shì)。
圖1 三代測(cè)序數(shù)據(jù)與二代測(cè)序數(shù)據(jù)定義的等位基因特異的轉(zhuǎn)錄本
為了表征三代數(shù)據(jù)識(shí)別可變剪切事件的優(yōu)勢(shì),分別使用三代數(shù)據(jù)和二代數(shù)據(jù)在7個(gè)階段識(shí)別可變剪切事件?;贕ENCODE注釋,這些事件被分為注釋的事件和新穎的事件(圖2A、B)。與二代數(shù)據(jù)相比,三代數(shù)據(jù)能鑒別出更多罕見的可變剪切事件,例如AF(P=1.3e-18,卡方檢驗(yàn)),從而證明了三代測(cè)序技術(shù)捕獲復(fù)雜可變剪切事件的能力。此外,從三代數(shù)據(jù)中識(shí)別的新穎事件的比例要顯著大于二代數(shù)據(jù)中識(shí)別的新穎事件的比例(圖2C)。這些結(jié)果證明,三代測(cè)序技術(shù)對(duì)于分析可變剪切事件極具價(jià)值。
接著,比較了分別從長(zhǎng)讀長(zhǎng)轉(zhuǎn)錄本和短讀長(zhǎng)轉(zhuǎn)錄本中提取的剪切結(jié)(splicing junction,SJ)。大多數(shù)剪切結(jié)在兩者之中都存在,但仍有數(shù)千個(gè)剪切結(jié)(平均每個(gè)階段7058個(gè))只能被三代數(shù)據(jù)所識(shí)別(圖2D)。在這些僅能被三代數(shù)據(jù)所識(shí)別的特有的剪切結(jié)中,平均每個(gè)階段有87%的剪切結(jié)能被至少5個(gè)短讀長(zhǎng)序列所支持(圖2E)。這些結(jié)果表明借助三代測(cè)序技術(shù),我們能識(shí)別出大量高準(zhǔn)確度且特異的剪切結(jié)。
圖2 使用三代測(cè)序數(shù)據(jù)和二代測(cè)序數(shù)據(jù)識(shí)別可變剪切事件
為了評(píng)估二代數(shù)據(jù)與三代數(shù)據(jù)的組合識(shí)別可變剪切事件的能力,我們比較了二代數(shù)據(jù)和二代與三代的組合數(shù)據(jù)識(shí)別可變剪切事件的累積數(shù)量。在當(dāng)前的測(cè)序深度之下,從組合數(shù)據(jù)中識(shí)別出的事件顯著地比僅從短讀數(shù)據(jù)中識(shí)別的事件的數(shù)量多(P<1e-100,威爾遜配對(duì)秩和檢驗(yàn))(圖2F)。這個(gè)結(jié)果顯示出利用二代數(shù)據(jù)和三代數(shù)據(jù)的組合識(shí)別可變剪切事件的優(yōu)勢(shì)。
由于早期胚胎中親本轉(zhuǎn)錄本的動(dòng)態(tài)變化,可變剪切事件與等位基因特異的轉(zhuǎn)錄本存在關(guān)聯(lián)。為了研究特定于起源的剪切異構(gòu)體,我們對(duì)具有不少于2個(gè)轉(zhuǎn)錄本的基因以及關(guān)聯(lián)轉(zhuǎn)錄本的總表達(dá)和等位基因特異的表達(dá)進(jìn)行了定量。通過(guò)計(jì)算基因與同源異構(gòu)體表達(dá)量之間的相關(guān)性,發(fā)現(xiàn)大多數(shù)異構(gòu)體(73%)的表達(dá)模式與對(duì)應(yīng)的基因一致。相反,有27%的異構(gòu)體與基因表達(dá)模式不一致(圖3A)?;诋悩?gòu)體與異構(gòu)體等位基因特異性表達(dá)的相關(guān)性,我們將后者分為4類。我們觀察到大多數(shù)異構(gòu)體的表達(dá)模式與它們?cè)诘任换蛱禺愋运降谋磉_(dá)不一致(圖3B、C)。例如,Hsd17b6基因的C57特異性表達(dá)與一個(gè)新鑒定的Hsd17b6的異構(gòu)體的表達(dá)一致,但是與其在整個(gè)基因?qū)用娴谋磉_(dá)模式不一致;同樣,Trim43a基因的DBA特異性表達(dá)與異構(gòu)體的表達(dá)和其在整個(gè)基因?qū)用娴谋磉_(dá)模式都不一致;然而,在ZGA過(guò)程中,Mcph1基因的異構(gòu)體的DBA特異性表達(dá)與C57特異性表達(dá)模式相反(圖3D、F)。我們對(duì)4組表達(dá)模式不一致的異構(gòu)體進(jìn)行了GO分析,這些基因參與了細(xì)胞代謝、基因表達(dá)及RNA加工等過(guò)程(圖3G)。因此,我們可以通過(guò)整合三代測(cè)序數(shù)據(jù)和二代測(cè)序數(shù)據(jù)來(lái)識(shí)別階段特異和等位基因特異的轉(zhuǎn)錄本。
圖3 等位基因特異的基因與轉(zhuǎn)錄本的表達(dá)模式的相關(guān)性
根據(jù)上述結(jié)果(圖1、2),我們鑒定了一些新發(fā)現(xiàn)的等位基因特異的轉(zhuǎn)錄本,這些轉(zhuǎn)錄本可能是由等位基因特異的可變剪切事件產(chǎn)生的。因此,我們?cè)谌鷾y(cè)序數(shù)據(jù)中分析了等位基因特異的剪切事件的發(fā)生。每個(gè)階段平均鑒定出230個(gè)等位基因特異的剪切事件(圖4A)。我們觀察到一些包含DBA特異與C57特異的mRNA的剪切事件。例如,在2細(xì)胞階段,Tor1aip1基因的一個(gè)外顯子跳躍事件產(chǎn)生了DBA特異的轉(zhuǎn)錄本TCONS_00001249和C57特異的轉(zhuǎn)錄本TCONS_00001250(無(wú)跳躍外顯子)(圖4B)。此外,我們結(jié)合三代和二代數(shù)據(jù)來(lái)檢測(cè)早期胚胎發(fā)育過(guò)程中的等位特異的差異可變剪切事件(圖4C)。等位基因特異的差異剪切事件在1細(xì)胞到2細(xì)胞階段以及4細(xì)胞到8細(xì)胞階段發(fā)生的頻率更高。仍以Tor1aip1為例,在1細(xì)胞階段,僅僅只有C57特異的轉(zhuǎn)錄本TCONS_00001250存在表達(dá),然而DBA特異的轉(zhuǎn)錄本TCONS_00001249在1細(xì)胞到2細(xì)胞的轉(zhuǎn)變中被激活(圖4D、E)。隨著一個(gè)新發(fā)現(xiàn)的DBA特異的差異可變剪切事件的出現(xiàn)(圖4D、E),Tor1aip1基因中的DBA特異的轉(zhuǎn)錄本和C57特異的轉(zhuǎn)錄本的表達(dá)量都有所上升(圖4F~H)??偟膩?lái)說(shuō),這些數(shù)據(jù)表明某些親本特異的轉(zhuǎn)錄本表現(xiàn)為親本特異的剪切異構(gòu)體,這些等位基因特異的剪切事件和差異可變剪切事件的發(fā)現(xiàn)將改善我們對(duì)早期胚胎發(fā)育過(guò)程的理解。
圖4 基于三代測(cè)序數(shù)據(jù)的等位基因特異的可變剪切
在本研究中,我們使用了最近發(fā)表的研究中的高分辨率的轉(zhuǎn)錄組信息來(lái)分析起源效應(yīng),并且比較了小鼠早期胚胎的三代測(cè)序數(shù)據(jù)和二代測(cè)序數(shù)據(jù)識(shí)別的剪切事件[16]。我們的目的是探索三代測(cè)序技術(shù)在研究轉(zhuǎn)錄組起源效應(yīng)方面的優(yōu)勢(shì),并且鑒定新穎的可變剪切事件。
由于包含2個(gè)長(zhǎng)距離的SNP的片段很難被擴(kuò)增以及無(wú)法使用Sanger在整個(gè)序列中對(duì)800 bp以上的片段進(jìn)行測(cè)序等技術(shù)限制,目前暫時(shí)無(wú)法對(duì)三代測(cè)序技術(shù)新識(shí)別的等位基因特異的轉(zhuǎn)錄本進(jìn)行準(zhǔn)確的實(shí)驗(yàn)驗(yàn)證。我們建立了一套生物信息學(xué)的流程來(lái)討論三代測(cè)序技術(shù)在識(shí)別等位基因特異性方面的優(yōu)勢(shì),并且借助這一優(yōu)勢(shì)來(lái)識(shí)別新的等位基因特異的轉(zhuǎn)錄本,在同源異構(gòu)體的層面上研究了早期胚胎中等位基因特異的轉(zhuǎn)錄激活。結(jié)果顯示,與基于組裝的二代測(cè)序技術(shù)相比,三代測(cè)序技術(shù)能夠更準(zhǔn)確地識(shí)別等位基因特異的轉(zhuǎn)錄本和剪切事件。盡管二代數(shù)據(jù)能識(shí)別大量等位基因特異的轉(zhuǎn)錄本,但是考慮到這種基于組裝的策略的可靠性與準(zhǔn)確性的不足,我們僅關(guān)注于利用三代數(shù)據(jù)的準(zhǔn)確性和優(yōu)勢(shì)來(lái)發(fā)現(xiàn)等位基因特異的轉(zhuǎn)錄本。隨著母源mRNA在ZGA過(guò)程中降解[23],我們觀察到在1細(xì)胞到2細(xì)胞轉(zhuǎn)變過(guò)程中C57特異的轉(zhuǎn)錄本數(shù)量明顯下降。但是即便是到囊胚期,仍有數(shù)百個(gè)轉(zhuǎn)錄本保持著等位基因失衡的狀態(tài),這表明等位基因特異的轉(zhuǎn)錄本是胚胎發(fā)育過(guò)程中的常規(guī)產(chǎn)物[24]。
三代測(cè)序數(shù)據(jù)具有極高的識(shí)別新穎可變剪切事件的潛力。我們對(duì)可變剪切事件的累積數(shù)量分析表明,將三代數(shù)據(jù)和二代數(shù)據(jù)合并可以快速增加可變剪切事件的數(shù)量。此外,三代數(shù)據(jù)有助于識(shí)別大量二代數(shù)據(jù)無(wú)法識(shí)別的新穎的剪切結(jié)。這突顯了三代數(shù)據(jù)在識(shí)別新的剪切事件方面的優(yōu)勢(shì)。
我們還證明了,很大一部分基因的表達(dá)模式與它對(duì)應(yīng)的異構(gòu)體或它在親本水平的表達(dá)都不一致。我們推斷某些DBA或C57偏性的轉(zhuǎn)錄本在特定階段被特異性激活,它們可能在功能上參與了胚胎發(fā)育過(guò)程。因此,迫切需要開發(fā)適當(dāng)和有效的工具來(lái)闡明等位基因特異的轉(zhuǎn)錄本的功能[25-26]。最近的一項(xiàng)研究通過(guò)靶向非甲基化基因座實(shí)現(xiàn)了印記基因的等位基因特異性編輯[26],這可以用于進(jìn)一步研究等位基因特異性基因在發(fā)育過(guò)程中的功能。
當(dāng)依據(jù)等位基因特異的SNP來(lái)分離新穎的剪切異構(gòu)體時(shí),我們觀察到數(shù)百個(gè)品系特異的剪切事件??傮w而言,與DBA特異的轉(zhuǎn)錄本相比,識(shí)別出更多的C57特異的轉(zhuǎn)錄本,尤其是在1細(xì)胞和2細(xì)胞階段。這些發(fā)現(xiàn)與已有的母源基因編碼的轉(zhuǎn)錄因子激活了ZGA過(guò)程的推測(cè)一致[24]。在啟動(dòng)子區(qū),基因間區(qū)和遠(yuǎn)端區(qū)域的等位基因特異的甲基化和母源組蛋白H3第27位賴氨酸三甲基化(H3 lysine 27 trimethylation,H3K27me3)修飾[27-29],在等位基因特異的可變剪切的分子調(diào)節(jié)過(guò)程中成為不依賴于DNA甲基化的印記機(jī)理[30-32]。這一過(guò)程可能控制了等位基因特異的基因表達(dá)和可變剪切事件。因此,利用三代測(cè)序技術(shù)識(shí)別父母源特異的DNA甲基化過(guò)程或H3K27me3印記現(xiàn)象,有助于進(jìn)一步解釋等位基因特異的轉(zhuǎn)錄調(diào)控。
總之,我們建議借助三代測(cè)序技術(shù)的優(yōu)勢(shì)準(zhǔn)確識(shí)別等位基因特異的轉(zhuǎn)錄本與剪切事件。通過(guò)三代測(cè)序技術(shù),我們可以獲得更多等位基因特異的轉(zhuǎn)錄本、新穎可變剪切事件以及更多的剪切結(jié),并且我們還報(bào)道了早期胚胎過(guò)程中的等位基因特異的可變剪切和差異可變剪切。這些發(fā)現(xiàn)可以加深我們對(duì)于早期胚胎發(fā)育過(guò)程中轉(zhuǎn)錄組起源效應(yīng)的理解。