李輝,張繼揚,杜志強
(農(nóng)業(yè)部雞遺傳育種重點實驗室,黑龍江省普通高等學校動物遺傳育種與繁殖重點實驗室,東北農(nóng)業(yè)大學動物科學技術學院,哈爾濱 150030)
雞長鏈非編碼RNA發(fā)掘及組織特異性表達分析
李輝,張繼揚,杜志強
(農(nóng)業(yè)部雞遺傳育種重點實驗室,黑龍江省普通高等學校動物遺傳育種與繁殖重點實驗室,東北農(nóng)業(yè)大學動物科學技術學院,哈爾濱150030)
長鏈非編碼RNA(Long non-coding RNA,lncRNA)是一類長度大于200個核苷酸、缺少蛋白編碼功能的RNA。lncRNA可從多層面調(diào)控基因表達,影響表型性狀。雞作為重要經(jīng)濟動物和模式生物,lncRNA研究相對滯后。為加快雞lncRNA研究進展,利用公共數(shù)據(jù)庫(如NCBI-SRA等)中雞高通量轉(zhuǎn)錄組測序(RNA-seq)數(shù)據(jù),通過生物信息學方法發(fā)掘8 040條雞lncRNA,發(fā)現(xiàn)大量組織特異性表達lncRNA,為雞lncRNA功能研究奠定基礎。
雞;RNA-seq;lncRNA;組織特異性表達
網(wǎng)絡出版時間2016-7-20 16:39:50[URL]http://www.cnki.net/kcms/detail/23.1391.S.20160720.1639.014.html
李輝,張繼揚,杜志強.雞長鏈非編碼RNA發(fā)掘及組織特異性表達分析[J].東北農(nóng)業(yè)大學學報,2016,47(7):40-47.
Li Hui,Zhang Jiyang,Du Zhiqiang.Identification of long non-coding RNAs and their tissue-specific expression analysis in chickens[J].Journal of Northeast Agricultural University,2016,47(7):40-47.(in Chinese with English abstract)
長鏈非編碼RNA是新發(fā)現(xiàn)的一類長度大于200個核苷酸,缺乏蛋白編碼功能,由RNA聚合酶II或RNA聚合酶III轉(zhuǎn)錄生成的RNA,可在多層面參與轉(zhuǎn)錄后調(diào)控和表觀調(diào)控等生物學過程[1-3]。長鏈非編碼RNA是RNA聚合酶轉(zhuǎn)錄過程副產(chǎn)物,不具備生物學功能。近年研究發(fā)現(xiàn)lncRNA可作為miRNA的吸附“海綿體”、轉(zhuǎn)錄因子引導者、順式調(diào)控元件以及蛋白支架等,與miRNA、mRNA、DNA及蛋白等相互作用,參與基因表達調(diào)控、染色體沉默、蛋白質(zhì)合成等諸多生物學過程[4-6]。同時,與蛋白編碼基因相比lncRNA保守性較差,表現(xiàn)明顯組織特異性[5,7]。Cabili等對人的24種組織或細胞進行l(wèi)ncRNA特異性表達分析[7],發(fā)現(xiàn)約有78%lncRNA表現(xiàn)組織或細胞特異性,約19%蛋白編碼基因表現(xiàn)組織或細胞特異性。Li等發(fā)現(xiàn)小鼠肝臟特異性富集lncLSTR(Liver-specific triglyceride regulator lncRNA)影響小鼠脂質(zhì)代謝,表明組織特異性表達的lncRNA可能在特定組織中發(fā)揮重要生物學功能[8]。
隨著二代測序技術興起,動物轉(zhuǎn)錄組學研究發(fā)展迅速。大量動物高通量轉(zhuǎn)錄組測序(RNA-seq)數(shù)據(jù)公布。基于公共數(shù)據(jù)庫(如NCBI-SRA數(shù)據(jù)庫)中RNA-seq數(shù)據(jù),通過生物信息學手段,已成功在人和鼠等動物中發(fā)掘大量lncRNA[1-3]。如Paralkar等利用NCBI-SRA數(shù)據(jù)庫中人RNA-seq數(shù)據(jù),發(fā)掘1 109條lncRNA[3];Lv等利用NCBI-SRA數(shù)據(jù)庫中鼠RNA-seq數(shù)據(jù),發(fā)掘29 837條lncRNA[1]。雞作為重要經(jīng)濟動物和模式生物,具有不可替代經(jīng)濟價值和獨特生物學特性。然而,國內(nèi)外雞lncRNA功能研究鮮見報道[9]。本研究利用NCBISRA數(shù)據(jù)庫中雞RNA-seq數(shù)據(jù),通過生物信息學手段初步探討雞lncRNA序列結構特征和組織表達特異性,為雞lncRNA功能研究奠定基礎。
1.1材料
1.1.1RNA-Seq數(shù)據(jù)
本研究所用數(shù)據(jù)主要來源于NCBI-SRA、Ensembl等公共數(shù)據(jù)庫;其中RNA-seq數(shù)據(jù)(見表1)來源于NCBI-SRA(http://www.ncbi.nlm.nih.gov/ sra/?term=)數(shù)據(jù)庫,共計7組109個雞RNA-seq數(shù)據(jù)樣本,包括大腦、小腦、下丘腦、垂體、坐骨神經(jīng)、心臟、肺臟、肝臟、腎臟、脾臟、脾胃、胸肌、骨骼肌、睪丸、結腸、脂肪等16種組織的RNA-seq數(shù)據(jù)及P1(原條期,Primitive streak)、HH(胚胎發(fā)育期,Hamburger Hamilton stages)6、HH11、HH14、HH16、HH19、HH28、HH38等8種不同時期雞胚胎RNA-seq數(shù)據(jù)(見表1)。雞基因組信息文件(ftp://ftp.ensembl.org/pub/release-75/ fasta/gallus_gallus/dna/)和雞基因組注釋文件(ftp:// ftp.ensembl.org/pub/release-75/gtf/gallus_gallus)均來源于Ensembl數(shù)據(jù)庫。
表1 發(fā)掘雞lncRNA的RNA-Seq數(shù)據(jù)Table 1Public RNA-seq data used for lncRNA identification
1.1.2生物信息學軟件
FastQC,RNA-seq數(shù)據(jù)質(zhì)量控制;Cutadapt,RNA-seq數(shù)據(jù)序列接頭(Adaptor)剪切等;Tophat2,短序列比對[10];Bowtie2,建立索引文件[10];Cufflinks軟件包,組裝轉(zhuǎn)錄本、估計轉(zhuǎn)錄本豐度、并檢測樣本間差異表達及可變剪接[10];gffread,翻譯基因組注釋文件[10];CPC(Coding Potential Calculator),編碼潛能預測[11];Blastn(v2.2.26),序列比對,lncRNA數(shù)據(jù)集合并。
1.2方法
1.2.1lncRNA發(fā)掘
利用雞RNA-seq數(shù)據(jù)通過生物信息學手段發(fā)掘雞lncRNA[1-3,12],具體流程如下:
①RNA-seq數(shù)據(jù)預處理。使用FastQC軟件質(zhì)量檢測表1中的RNA-seq數(shù)據(jù),Cutadpt等軟件去除reads中adaptor和不穩(wěn)定的序列等。
②與參考基因組比對。使用TopHat2軟件,以Ensembl數(shù)據(jù)庫中雞的基因組文件和基因組注釋文件為參考信息作有參比對。
③轉(zhuǎn)錄本拼接。Cufflinks軟件包利用Tophat2軟件比對結果作轉(zhuǎn)錄本拼接,定量分析轉(zhuǎn)錄本。
④轉(zhuǎn)錄本篩選。通過對比已注釋基因組信息,篩選cufflinks軟件包cuffcompare模塊分析結果(merged.gtf文件)中class_code為“u”的轉(zhuǎn)錄本(即基因組未注釋的轉(zhuǎn)錄本),同時通過Cufflinks計算每條轉(zhuǎn)錄本reads覆蓋度,剔除reads覆蓋度小于3的未注釋轉(zhuǎn)錄本。
⑤設置長度和外顯子數(shù)目閾值。篩選長度≥200個核苷酸和外顯子數(shù)目≥2的未注釋轉(zhuǎn)錄本作后續(xù)分析。
⑥編碼潛能預測。將class_code為“u”(即基因組未注釋的轉(zhuǎn)錄本)、reads覆蓋度大于等于3、長度大于等于200個核苷酸且外顯子數(shù)目≥2的轉(zhuǎn)錄本序列信息輸入CPC軟件,編碼潛能評估得到編碼潛能評分,即CPC評估得分。CPC評估得分小于等于-1的轉(zhuǎn)錄本判定為lncRNA。
⑦合并lncRNA數(shù)據(jù)集。使用Blastn軟件,設置閾值e-value小于等于1e-11,刪除重復項,合并7組RNA-seq數(shù)據(jù)中l(wèi)ncRNA[13]。
1.2.2組織特異性表達分析
以Cufflinks軟件包中Cuffdiff(http://coletrapnelllab.github.io/cufflinks/cuffdiff/index.html)軟件對lncRNA作定量分析,得到各樣本中l(wèi)ncRNA表達量信息,并以FPKM(Tragments per kilobaseof exon per million fragments mapped)為單位輸出表達量結果。
lncRNA組織特異性分析以lncRNA組織特異性表達值(The tissue specificity,Ts值)表示,即一種組織中某條lncRNA表達量(FPKM)占所有組織中該lncRNA表達量總和的比例[2]。
2.1全基因組范圍內(nèi)發(fā)掘雞lncRNA
lncRNA是一類長度大于200個核苷酸、缺少蛋白編碼功能的RNA分子。本研究基于lncRNA長度、缺少蛋白編碼功能特點,綜合lncRNA篩選方法,設置一系列嚴格lncRNA篩選條件。通過以下五個步驟利用NCBI-SRA數(shù)據(jù)庫中7組109個雞的RNA-seq數(shù)據(jù)發(fā)掘雞lncRNA,并作后續(xù)lncRNA特征分析。
①與參考基因組比對。采用Bowtie2和Tophat2等軟件對7組109個雞RNA-seq數(shù)據(jù)樣本作有參比對,得到各組RNA-seq數(shù)據(jù)比對到參考基因組reads數(shù)。
②轉(zhuǎn)錄本拼接。采用Cufflinks軟件對Tophat2等軟件比對結果作轉(zhuǎn)錄本拼接,各組RNA-seq數(shù)據(jù)得到轉(zhuǎn)錄本數(shù)。
③轉(zhuǎn)錄本篩選。通過篩選cuffcompare模塊分析結果中class_code為“u”以及reads覆蓋度≥3的基因組未注釋轉(zhuǎn)錄本,得到各組RNA-seq數(shù)據(jù)的未注釋轉(zhuǎn)錄本數(shù)。
④設置長度和外顯子數(shù)目閾值。篩選長度≥200個核苷酸未注釋轉(zhuǎn)錄本,同時為有效避免假陽性錯誤,篩選外顯子數(shù)目≥2未注釋轉(zhuǎn)錄本作后續(xù)分析,得到轉(zhuǎn)錄本過濾結果。
⑤編碼潛能預測。具有編碼潛能與否是判定轉(zhuǎn)錄本是否為lncRNA關鍵步驟。將class_code為“u”、reads覆蓋度≥3、長度≥200個核苷酸且外顯子數(shù)目≥2未注釋轉(zhuǎn)錄本序列信息輸入CPC軟件,編碼潛能評估得到編碼潛能評分,即CPC評估得分。CPC評估得分≤-1的未注釋轉(zhuǎn)錄本判定為lncRNA。
最終得到7組雞lncRNA數(shù)據(jù)集(見表2),共計11 180條lncRNA。使用Blastn軟件,設置閾值evalue<=1e-11[13],合并7組lncRNA數(shù)據(jù)集,得到8 040條雞lncRNA。
2.2雞lncRNA序列結構分析
為了解雞lncRNA基本序列結構特征,分析所發(fā)掘8 040條雞lncRNA染色體分布、序列長度、外顯子數(shù)量等基本序列結構特征,并與Ensembl數(shù)據(jù)庫中已注釋的15 675條雞蛋白編碼基因(ftp://ftp. ensembl.org/pub/release-75/gtf/gallus_gallus)相關序列結構特征作比較。
2.2.1雞lncRNA染色體分布
為了解雞lncRNA參考基因組分布狀況,統(tǒng)計雞lncRNA在不同染色體上分布。8 040條雞lncRNA染色體分布情況(見圖1),結果表明雞lncRNA在各染色體(1~28號染色體,Z和W染色體)均有分布,其中1~5號大染色體分布較多,占總數(shù)59.02%;W染色體上lncRNA分布最少,僅占0.05%。該結果與雞蛋白編碼基因在各染色體上的分布相似(見圖2),即較大染色體分布更多l(xiāng)ncRNA[25]。
表2 雞lncRNA發(fā)掘結果Table 2Information on lncRNAs identified in chickens
圖1 雞lncRNA染色體分布Fig.1Chromosomal distribution of chicken lncRNAs
圖2 雞蛋白編碼染色體分布Fig.2Chromosomal distribution of chicken protein coding genes
2.2.2雞lncRNA序列長度特征
為了解雞lncRNA序列長度(lncRNA各外顯子序列長度之和)特征,統(tǒng)計雞lncRNA序列長度。8 040條lncRNA序列長度分布情況見圖3,結果表明lncRNA序列長度多集中在500~2 000 bp,占lncRNA總數(shù)61.3%。15 675條雞蛋白編碼基因序列長度分布情況見圖4,結果表明蛋白編碼基因序列長度多集中在500~3 000 bp,占蛋白編碼基因總數(shù)63.6%。分別計算雞lncRNA和雞蛋白編碼基因序列平均長度,發(fā)現(xiàn)雞lncRNA序列平均長度為1 461 bp,雞蛋白編碼基因序列序列平均長度為2 592 bp。
圖3 lncRNA長度分布Fig.3Length distribution of lncRNAs
圖4 蛋白編碼基因長度分布Fig.4Length distribution of Protein-coding genes
2.2.3雞lncRNA外顯子數(shù)特征
為了解雞lncRNA外顯子數(shù)狀況,統(tǒng)計雞lncRNA外顯子數(shù),并與雞蛋白編碼基因外顯子數(shù)比較。8 040條lncRNA外顯子數(shù)分布情況見圖5,結果表明lncRNA外顯子數(shù)以2個居多,約占lncRNA總數(shù)60%,大于7個外顯子的lncRNA較少,僅占1%。雞蛋白編碼基因與雞lncRNA的外顯子數(shù)特征區(qū)別明顯,雞蛋白編碼基因以大于7個外顯子居多,占蛋白編碼基因總數(shù)55%(見圖6);僅有6%蛋白編碼基因外顯子數(shù)目為2。
2.3雞lncRNA組織特異性表達分析
研究表明,哺乳動物lncRNA有明顯組織表達特異性[5,7]。為了解雞lncRNA組織表達特異性,本研究選取一組包含原雞12種組織RNA-seq數(shù)據(jù)(ERP003988)(包括脂肪、神經(jīng)、腎臟、小腦、下丘腦、心臟、脾臟、肺臟、肝臟、大腦、脾胃、胸肌等組織,每種組織包含2個RNA-Seq數(shù)據(jù)樣本),特異性分析雞lncRNA組織表達。
2.3.1雞各組織lncRNA數(shù)量
本組RNA-seq數(shù)據(jù)共發(fā)掘出3 346條雞lncRNA。本研究首先統(tǒng)計該組RNA-seq數(shù)據(jù)中每種組織中l(wèi)ncRNA數(shù)量,發(fā)現(xiàn)每種組織中檢測lncRNA數(shù)量不同(見表3)。
其中,腎臟組織中l(wèi)ncRNA數(shù)量最多,為1 143條;其次是坐骨神經(jīng)、小腦、下丘腦、大腦、心臟、肝臟、肺臟、脂肪、脾臟、腺胃,胸??;胸肌中l(wèi)ncRNA數(shù)量最少,僅189條(見表3)。
2.3.2雞lncRNA組織表達特異性分析
為初步了解雞lncRNA組織表達特異性,使用Cuffdiff軟件計算每種組織中每條lncRNA表達量。依據(jù)文獻提供lncRNA組織特異性分析方法,計算每種組織中每條lncRNA組織表達特異性值(The tissue specificity,Ts值),并統(tǒng)計每個組織中特異性表達lncRNA數(shù)量。
圖5 lncRNA外顯子數(shù)目Fig.5Distribution of exon numbers of lncRNAs
圖6 蛋白編碼基因外顯子數(shù)目Fig.6Distribution of exon numbers of protein-coding genes
表3 雞各組織lncRNA數(shù)Table 3Total number of lncRNAs
lncRNA組織特異性表達值(Ts值)是指一種組織中l(wèi)ncRNA表達量(FPKM)占所有12種組織中相同lncRNA表達量總和比例。當某組織樣本中一條lncRNA的Ts值等于1時,表示這條lncRNA僅在此組織樣本中表達,即此lncRNA表現(xiàn)較強組織表達特異性;當某組織樣本中一條lncRNA的Ts值在0.8~1.0之間時,表明此條lncRNA在此組織樣本中表達量遠高于其他組織樣本中此lncRNA表達量之和,即此lncRNA表現(xiàn)較強組織表達特異性。
表達分析原雞12種組織3 346條lncRNA組織特異性,結果如下(見表4):坐骨神經(jīng)、腎臟、小腦和下丘腦中組織特異性表達lncRNA數(shù)量較多,其次是心臟、脾臟、肺臟、脂肪、大腦、肝臟、腺胃,最后是胸肌組織。其中,坐骨神經(jīng)特異表達lncRNA占坐骨神經(jīng)lncRNA總數(shù)比例最大,約34.30%;其次脾臟、腺胃、肺臟、腎臟、下丘腦、小腦、肌肉、心臟、脂肪、大腦,最低的是胸肌組織。
表4 各組織lncRNA特異性表達數(shù)量Table 4The number of lncRNAs with tissue-specific expression patterns
續(xù)表
隨著二代測序技術發(fā)展,大量動物轉(zhuǎn)錄組數(shù)據(jù)不斷公布?;诠矓?shù)據(jù)庫(如NCBI-SRA)中RNA-seq數(shù)據(jù),通過生物信息學手段已成功在人和小鼠等哺乳動物中發(fā)掘出大量lncRNA[1-3]。發(fā)掘lncRNA生物信息學流程較為固定,一般由以下5步組成:①RNA-seq數(shù)據(jù)質(zhì)控;②reads比對、轉(zhuǎn)錄本拼裝;③發(fā)掘基因組未注釋的轉(zhuǎn)錄本;④去除長度小于200個核苷酸的未注釋轉(zhuǎn)錄本;⑤編碼潛能預測,獲得候選lncRNA集合。其中,轉(zhuǎn)錄本編碼潛能預測是lncRNA生物信息學發(fā)掘關鍵步驟。本研究所用的轉(zhuǎn)錄本編碼潛能預測軟件CPC為目前國內(nèi)外文獻報道中常見編碼潛能預測軟件[1,12,14-15]。CPC是一種蛋白質(zhì)編碼潛能計算工具,將轉(zhuǎn)錄本與已知蛋白數(shù)據(jù)庫作blastx比對,依據(jù)轉(zhuǎn)錄本各個編碼框生物學序列特征等,通過支持向量機分類器評估轉(zhuǎn)錄本編碼潛能,編碼潛能預測準確性較高[11]。本研究利用公共數(shù)據(jù)庫中雞RNASeq數(shù)據(jù),通過生物信息學手段在全基因范圍內(nèi)發(fā)掘出8 040條lncRNA。Paralkar等利用NCBISRA數(shù)據(jù)庫中人的RNA-seq數(shù)據(jù)[3],發(fā)掘1 109條lncRNA;Lv等利用NCBI-SRA數(shù)據(jù)庫中鼠RNA-seq數(shù)據(jù),發(fā)掘29 837條lncRNA[1];Zhou等利用NCBI-SRA數(shù)據(jù)庫中豬RNA-seq數(shù)據(jù),發(fā)掘6 621條lncRNA[12];鳥類中利用RNA-seq數(shù)據(jù)發(fā)掘lncRNA報道較少。
二代測序雖然能夠有效捕捉lncRNA序列信息,但如何精準預測lncRNA基因結構和編碼潛能仍存在困難[18-19]。在lncRNA基因結構和編碼潛能預測方面:首先,由于二代測序技術測序深度、錯誤及偏好性等,導致轉(zhuǎn)錄本拼裝階段易產(chǎn)生部分轉(zhuǎn)錄本和假陽性轉(zhuǎn)錄本,影響lncRNA識別;其次,如何鑒定轉(zhuǎn)錄本的編碼潛能性,準確區(qū)分蛋白編碼基因和非編碼基因,尚無準確生物學判定標準。因此,目前研究者傾向于生物信息學預測后利用分子生物學試驗驗證,兩種方法互補研究lncRNA生物學功能[8,20]。
Billerey等研究發(fā)現(xiàn)[16],牛lncRNA在各染色體均有分布,且1號染色體分布最多而在X染色體分布最少,表現(xiàn)出與牛蛋白編碼基因相似染色體分布狀況。Ponjavic等研究發(fā)現(xiàn)[17],鼠lncRNA除不具備蛋白編碼潛能外,lncRNA在序列結構上與mRNA也不同,如lncRNA平均長度小于蛋白編碼基因平均長度且外顯子數(shù)普遍少于蛋白編碼基因外顯子數(shù)。本研究表明,雞lncRNA序列結構特征與哺乳動物lncRNA序列結構特征類似,即雞lncRNA在染色體分布與雞蛋白編碼基因染色體分布無明顯區(qū)別,雞lncRNA平均長度小于雞蛋白編碼基因平均長度且外顯子數(shù)普遍少于雞蛋白編碼基因外顯子數(shù)。
隨著lncRNA研究深入,越來越多證據(jù)表明組織特異性表達的lncRNA在特定組織發(fā)揮重要生物學功能[7-8]。Cabili等分析人24種不同組織或細胞lncRNA表達特異性[7],發(fā)現(xiàn)每種組織或細胞中均存在特異性表達lncRNA。Li等干擾小鼠肝臟中特異性表達的lncLSTR,發(fā)現(xiàn)可影響小鼠肝臟中血漿甘油三酯水平[8],表明組織特異性表達lncRNA可能在特定組織中發(fā)揮重要生物學功能。本研究分析原雞12種組織中l(wèi)ncRNA組織表達特性,發(fā)現(xiàn)坐骨神經(jīng)、腎臟、小腦和下丘腦組織表達特異性lncRNA較多,其次是心臟、脾臟、肺臟、脂肪、大腦、肝臟、腺胃,胸肌組織中最少,表明原雞12種組織中均存在特異性表達lncRNA,可能在組織中發(fā)揮重要生物學功能。
[1]Lv J,Cui W,Liu H,et al.Identification and characterization of long non-coding RNAs related to mouse embryonic brain development from available transcriptomic data[J].PLoS One,2013,8(8):71152.
[2]Tsoi L C,Iyer M K,Stuart P E,et al.Analysis of long non-coding RNAshighlightstissue-specificexpressionpatternsand epigenetic profiles in normal and psoriatic skin[J].Genome Biology,2015,16(1):24.
[3]Paralkar V R,Mishra T,Luan J,et al.Lineage and speciesspecific long noncoding RNAs during erythro-megakaryocytic development[J].Blood,2014,123(12):1927-1937.
[4]St L G,Wahlestedt C,Kapranov P.The Landscape of long noncoding RNA classification[J].Trends Genet,2015,31(5):239-251.
[5]Chen Z.Progress and prospects of long noncoding RNAs in lipid homeostasis[J].Mol Metab,2016,5(3):164-170.
[6]Blythe A J,F(xiàn)ox A H,Bond C S.The ins and outs of lncRNA structure:How,why and what comes next?[J].Biochim Biophys Acta,2016,1859(1):46-58.
[7]Cabili M N,Trapnell C,Goff L,et al.Integrative annotation of human large intergenic noncoding RNAs reveals global properties and specific subclasses[J].Genes Dev,2011,25(18):1915-1927.
[8]Li P,Ruan X,Yang L,et al.A liver-enriched long non-coding RNA,lncLSTR,regulates systemic lipid metabolism in mice[J]. Cell Metab,2015,21(3):455-467.
[9]Li T,Wang S,Wu R,et al.Identification of long non-protein coding RNAs in chicken skeletal muscle using next generation sequencing[J].Genomics,2012,99(5):292-298.
[10]Trapnell C,Roberts A,Goff L,et al.Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks[J].Nat Protoc,2012,7(3):562-578.
[11]Kong L,Zhang Y,Ye Z Q,et al.CPC:assess the protein-coding potential of transcripts using sequence features and support vector machine[J].Nucleic Acids Res,2007,35(Web Server issue): W345-W349.
[12]Zhou Z Y,Li A M,Adeola A C,et al.Genome-wide identification of long intergenic noncoding RNA genes and their potential association with domestication in pigs[J].Genome Biol Evol,2014,6(6):1387-1392.
[13]Billerey C,Boussaha M,Esquerre D,et al.Identification of large intergenic non-coding RNAs in bovine muscle using next-generation transcriptomic sequencing[J].BMC Genomics,2014,15:499.
[14]Li L,Eichten S R,Shimizu R,et al.Genome-wide discovery and characterization of maize long non-coding RNAs[J].Genome Biol,2014,15(2):R40.
[15]Weikard R,Hadlich F,Kuehn C.Identification of novel transcripts and noncoding RNAs in bovine skin by deep next generation sequencing[J].BMC Genomics,2013,14:789.
[16]Billerey C,Boussaha M,Esquerre D,et al.Identification of large intergenic non-coding RNAs in bovine muscle using next-generation transcriptomic sequencing[J].BMC Genomics,2014,15:499.
[17]Ponjavic J,Ponting C P,Lunter G.Functionality or transcriptional noise?Evidence for selection within long noncoding RNAs[J]. Genome Res,2007,17(5):556-565.
[18]孫磊,張林,劉輝.基于RNA-Seq的長非編碼RNA預測[J].生物化學與生物物理進展,2012(12):1156-1166.
[19]王曦,汪小我,王立坤,等.新一代高通量RNA測序數(shù)據(jù)的處理與分析[J].生物化學與生物物理進展,2010(8):834-846.
[20]Zhao X Y,Li S,Wang G X,et al.A long noncoding RNA transcriptional regulatory circuit drives thermogenic adipocyte differentiation[J].Mol Cell,2014,55(3):372-382.
Identification of long non-coding RNAs and their tissue-specific expression analysis in chickens
LI Hui,ZHANG Jiyang,DU Zhiqiang
(Key Laboratory of Chicken Genetics and Breeding,Ministry of Agriculture,Key Laboratory of Animal Genetics, Breeding and Reproduction,Education Department of Heilongjiang Province,School of Animal Science and Technology,Northeast Agricultural University,Harbin 150030,China)
Long non-coding RNAs(lncRNAs),one class of functional RNAs longer than 200 nucleotides,lack of protein coding potential,are involved in a diverse array of biological processes. LncRNA can affect the expression of phenotype,by regulating gene expression in multiple ways. Besides its great economical value,chicken is widely used as an excellent animal model,however, chicken lncRNA research was still lagging behind.Here,we collected public RNA-Seq data sets of chickens from the NCBI-SRA database.Bioinformatics pipeline and methods were then established for the identification and tissue-specific expression analysis of lncRNAs in chickens.In total 8 040 transcripts were identified as putative lncRNAs,and chicken lncRNAs tend to have higher expression levels in neuronal tissues than other tissues.The findings lay the foundation for the further functional analysis of chicken lncRNAs.
chicken;RNA-seq;lncRNA;tissue-specific expression
S831.2
A
1005-9369(2016)07-0040-08
2016-05-23
國家863計劃項目(2013AA102501);現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術體系建設專項資金資助項目(CARS-42);國家自然科學基金(31472088)作者簡介:李輝(1963-),男,教授,博士,博士生導師,研究方向為動物遺傳育種。E-mail:lihui@neau.edu.cn