楊陽(yáng)
摘要:高通量測(cè)序技術(shù)的出現(xiàn)帶來(lái)了大量可用的轉(zhuǎn)錄組數(shù)據(jù),評(píng)估進(jìn)化保守區(qū)域的編碼潛力成為轉(zhuǎn)錄數(shù)據(jù)分析中的核心任務(wù)。對(duì)轉(zhuǎn)錄本編碼潛力的預(yù)測(cè)可以用來(lái)鑒定長(zhǎng)非編碼RNA(long noncoding RNA, lncRNA)。lncRNA是一種長(zhǎng)度超過(guò)200個(gè)核苷酸的非編碼RNA,研究表明lncRNA在多種生物中都有重要作用,能夠在染色質(zhì)修飾、表觀遺傳、轉(zhuǎn)錄及轉(zhuǎn)錄后調(diào)控等多種層面發(fā)揮重要的調(diào)控作用。已經(jīng)有許多基于機(jī)器學(xué)習(xí)的工具被開(kāi)發(fā)用來(lái)區(qū)分編碼與非編碼轉(zhuǎn)錄本序列。不同的工具通常是針對(duì)不同的情況設(shè)計(jì)的,因此需要根據(jù)特定的情況選擇合適的方法。本文分析了幾種常用工具各自的特點(diǎn)和適用范圍,幫助研究人員選用合適的方法以獲得更可靠的結(jié)果。
關(guān)鍵詞: 轉(zhuǎn)錄組數(shù)據(jù); 編碼潛力; 長(zhǎng)非編碼RNA; 機(jī)器學(xué)習(xí)
【Abstract】 With the advent of high-throughput sequencing technologies, a large amount of available transcriptome data has been generated, and the evaluation of the coding potential of evolutionarily conserved regions has become a core in the analysis of transcripts. Prediction of the coding potential of transcripts can be used to identify long noncoding RNAs (lncRNAs). lncRNA is a kind of noncoding RNA with length more than 200 nucleotides, which plays an important role in many organisms. It can play an important regulatory role in various aspects such as chromatin modification, epigenetics, transcription and post-transcriptional regulation. Many machine learning tools have been developed to distinguish between coding and non-coding transcripts. Different tools are designed for different situations, so it is required to choose the suitable method for the specific situation. In this review, several popular tools and their advantages, disadvantages, and application scopes are summarised to assist people in employing a suitable method and obtaining a more reliable result.
【Key words】 ?transcriptome data; coding potential; long noncoding RNA; machine learning
0 引 言
非編碼RNA(noncoding RNA ,ncRNA)是所有從DNA轉(zhuǎn)錄但不編碼蛋白質(zhì)的功能性RNA的統(tǒng)稱。最初,人們將非編碼RNA基因分類為“垃圾基因”或轉(zhuǎn)錄“噪音”,然而在之后的研究中發(fā)現(xiàn),非編碼序列在生命體生命活動(dòng)中具有重要的調(diào)控作用[1]。這些非編碼序列中,最近研究較多的是長(zhǎng)非編碼RNA(long noncoding RNA, lncRNA),lncRNA是指長(zhǎng)度超過(guò)200個(gè)核苷酸且不編碼蛋白質(zhì)的轉(zhuǎn)錄物[2]。
為了系統(tǒng)研究lncRNA的功能,首要的工作是從基因中識(shí)別lncRNA。高通量測(cè)序數(shù)據(jù)大量涌現(xiàn)為學(xué)者們提供了更多有關(guān)lncRNA的有用信息。與此同時(shí),為了方便后續(xù)研究和分析,很多鑒定lncRNA的計(jì)算機(jī)方法被提出。本文對(duì)鑒定lncRNA的計(jì)算方法進(jìn)行了較為全面的回顧。
1 lncRNA鑒定工具介紹
lncRNA鑒定過(guò)程中的一個(gè)重要問(wèn)題是區(qū)分編碼與非編碼轉(zhuǎn)錄本序列,目前已經(jīng)有很多生物信息學(xué)的方法使用序列的內(nèi)部特征和結(jié)構(gòu)特點(diǎn)預(yù)測(cè)非編碼RNA[3]。本文中比較了幾種流行的基于機(jī)器學(xué)習(xí)的工具。對(duì)此可做闡釋分述如下。
1.1 CPAT[4]介紹
CPAT是基于邏輯回歸模型的蛋白質(zhì)編碼潛力評(píng)估工具。使用的特征包括:開(kāi)放閱讀框大小、開(kāi)放閱讀框覆蓋率、Fickett分?jǐn)?shù)和Hexamer分?jǐn)?shù)。
1.4 CPC2介紹
CPC2[7]是CPC的升級(jí),仍然使用支持向量機(jī)模型,CPC2能更加快速、準(zhǔn)確地評(píng)估RNA轉(zhuǎn)錄本的編碼能力。CPC2中使用了4個(gè)特征,包括:Fickett分?jǐn)?shù)、開(kāi)放閱讀框長(zhǎng)度、開(kāi)放閱讀框完整性以及預(yù)測(cè)肽的等電點(diǎn)。開(kāi)放閱讀框的完整性是指開(kāi)放閱讀框以起始密碼子開(kāi)始,以終止密碼子結(jié)束。等電點(diǎn)可以通過(guò)BioPython中的ProtParam模塊計(jì)算得到。
1.5 CPPred介紹
CPPred[8]的實(shí)現(xiàn)基于支持向量機(jī)分類器和多個(gè)序列特征, CPPred使用開(kāi)放閱讀框長(zhǎng)度、開(kāi)放閱讀框覆蓋率、Fickett分?jǐn)?shù)和Hexamer分?jǐn)?shù)、開(kāi)放閱讀框完整性、預(yù)測(cè)肽的等電點(diǎn)、預(yù)測(cè)肽的不穩(wěn)定指數(shù)、預(yù)測(cè)肽的親水性平均值Gravy以及30個(gè)CPPred中提出的CTD特征訓(xùn)練分類器。CTD特征用來(lái)描述全局轉(zhuǎn)錄本序列,核苷酸組成(特征C)描述了轉(zhuǎn)錄本序列中每個(gè)核苷酸的百分比組成;核苷酸轉(zhuǎn)換(特征T)描述了4個(gè)核苷酸在相鄰位置之間轉(zhuǎn)換的百分比;核苷酸分布(特征D)計(jì)算每個(gè)核苷酸在轉(zhuǎn)錄物序列的5個(gè)相對(duì)位置(0,25%,50%,75%,100%)來(lái)表示每個(gè)核苷酸在轉(zhuǎn)錄本序列中的分布。
2 lncRNA鑒定工具比較
本文所涉及的5個(gè)lncRNA鑒定工具包括最常用的CPAT、CNCI、PLEK,以及CPC的最新版本CPC2和最新發(fā)布的工具CPPred。其中,CPAT使用了邏輯回歸模型,其余四個(gè)工具都使用了支持向量機(jī)模型。本文總結(jié)每種工具的簡(jiǎn)要信息和使用細(xì)節(jié)見(jiàn)表1。
接著,本文更具體地對(duì)5種工具所選擇的特征進(jìn)行概述,見(jiàn)表2。
5種鑒定工具都是不包含比對(duì)過(guò)程的,適用于對(duì)未充分研究的物種的轉(zhuǎn)錄物分析。其中,CNCI和PLEK都可以用于有測(cè)序錯(cuò)誤的數(shù)據(jù)集,PLEK在這類數(shù)據(jù)上表現(xiàn)更好。與CPAT、CPC2和CPPred相比,PLEK在除人類以外的其他物種中表現(xiàn)不佳。5種鑒定工具在不同測(cè)試集上的表現(xiàn)見(jiàn)表3。
由于不同物種lncRNA、不同測(cè)序數(shù)據(jù)之間存在一定的差異性,不同的lncRNA鑒定工具設(shè)計(jì)上存在一定的針對(duì)性。CPAT和CPPred為小鼠轉(zhuǎn)錄本的鑒定提供了專門的模型。在分析其他物種時(shí),CPAT還提供了果蠅和斑馬魚(yú)的模型;CNCI和PLEK可以預(yù)測(cè)脊椎動(dòng)物和植物的序列;CPC2還可以預(yù)測(cè)果蠅、斑馬魚(yú)、擬南芥、蠕蟲(chóng);CPPred提供了適用于斑馬魚(yú)、果蠅、釀酒酵母、線蟲(chóng)和擬南芥的模型。不同工具在不同條件下的適用性見(jiàn)表4。
3 結(jié)束語(yǔ)
lncRNA的鑒定一直以來(lái)都是生物信息學(xué)研究的一個(gè)挑戰(zhàn),在2010年之前,以CPC軟件為代表的lncRNA鑒定工具會(huì)依賴比對(duì)過(guò)程,此后,大部分軟件通過(guò)提取序列的內(nèi)在特征來(lái)進(jìn)行分類。這篇綜述中,集中探討了常用的和最新的lncRNA鑒定工具,總結(jié)了其相應(yīng)的適用范圍,幫助研究人員來(lái)選擇使用適合的工具,同時(shí)獲得令人信服的結(jié)果。未來(lái)lncRNA鑒定工具的趨勢(shì)是針對(duì)不同類型的序列,開(kāi)放不同的工具來(lái)解決各種特定情況下的問(wèn)題。
參考文獻(xiàn)
[1] PALAZZO A F, LEE E S. Non-coding RNA:What is functional and what is junk? [J]. Frontiers in Genetics, 2015, 6: 2.
[2]SCHMITZ S U, GROTE P, HERRMANN B G. Mechanisms of long noncoding RNA function in development and disease[J]. Cellular and molecular life sciences, 2016, 73(13): 2491.
[3]HAN Siyu, LIANG Yanchun, LI Ying, et al. Long noncoding RNA identification: Comparing machine learning based tools for long noncoding transcripts discrimination[J]. BioMed Research International, 2016, 2016: 8496165.
[4]WANG Liguo, PARK H J, DASARI S, et al. CPAT: Coding-potential assessment tool using an alignment-free logistic regres-sion model[J]. Nucleic acids research, 2013,41(6): e74.
[5]SUN Liang, LUO Haitao, BU Dechao, et al. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts[J]. Nucleic acids research, 2013, 41(17): e166.
[6]LI Aimin, ZHANG Junying, ZHOU Zhongyin. PLEK:A tool for predicting long non-coding RNAs and messenger RNAs based on an improved k-mer scheme[J]. BMC bioinformatics, 2014, 15: 311.
[7]KANG Yujian, YANG Dechang, KONG Leilei, et al. CPC2: A fast and accurate coding potential calculator based on sequence intrinsic features[J]. Nucleic acids research, 2017, 45(W1): W12.
[8]TONG Xiaoxue, LIU Shiyong. CPPred: Coding potential prediction based on the global description of RNA sequence[J]. Nucleic Acids Research, 2019, gkz087:1