王 琮,趙 健,劉晶晶,宋曉峰
(南京航空航天大學(xué) 自動化學(xué)院,中國 南京 211106)
環(huán)形RNA的發(fā)現(xiàn)要追溯到20世紀(jì)70年代,1976年,人們首次在病毒中觀察到環(huán)形RNA的存在[1].環(huán)形RNA起初被認(rèn)為是轉(zhuǎn)錄過程中錯誤拼接而成的產(chǎn)物,是“轉(zhuǎn)錄垃圾”.隨著二代測序技術(shù)的快速發(fā)展和生物信息學(xué)工具的開發(fā),大量的環(huán)形RNA被發(fā)現(xiàn),環(huán)形RNA成為轉(zhuǎn)錄組研究領(lǐng)域的新熱點[2-3].2015年,Wang等[4]通過人工插入IRES序列構(gòu)造環(huán)形RNA,并發(fā)現(xiàn)環(huán)形RNA能夠翻譯特定的綠色熒光蛋白,這引起了研究者們的重視.2017年,Ivano等[5]通過northern blot、質(zhì)譜技術(shù)等方法驗證了環(huán)形RNA(circ-ZNF609)能夠編碼蛋白質(zhì),從而調(diào)控肌細(xì)胞增殖.Yang等[6]通過抗體檢測、質(zhì)譜鑒定發(fā)現(xiàn)Circ-FBXW7能夠翻譯與惡性膠質(zhì)瘤發(fā)病相關(guān)的蛋白FBXW7-185aa.Zhang等[7]驗證了circ-SHPRH能夠編碼新型蛋白質(zhì)SHPRH-146aa,該蛋白能夠抑制神經(jīng)膠質(zhì)瘤的發(fā)生.2018年Zhang等[8]還驗證了circ-PINT能夠編碼新型蛋白PINT87aa,抑制多種癌基因轉(zhuǎn)錄延伸.2019年Liang等[9]發(fā)現(xiàn)了circβ-catenin能夠編碼全新蛋白β-Catenin-370aa,調(diào)控Wnt/β連環(huán)蛋白信號通路.Heesch等人在心臟組織中發(fā)現(xiàn)40種環(huán)形RNA能夠翻譯.
越來越多的數(shù)據(jù)顯示環(huán)形RNA能夠編碼蛋白質(zhì),在細(xì)胞生命活動中發(fā)揮至關(guān)重要的作用.本文基于環(huán)形RNA的序列與結(jié)構(gòu)特征,計算環(huán)形RNA的開放閱讀框(ORF),預(yù)測環(huán)形RNA的內(nèi)部核糖體進(jìn)入位點(IRES)和N6甲基化修飾位點(m6A),并構(gòu)建機(jī)器學(xué)習(xí)模型預(yù)測環(huán)形RNA編碼蛋白的潛能.
開放閱讀框(open reading frame,ORF)指的是從起始密碼子(AUG)開始,結(jié)束于終止密碼子(UAA, UAG, UGA)的一段連續(xù)的RNA片段,其中每3個堿基(或3聯(lián)密碼子)能夠編碼一種對應(yīng)氨基酸.由于密碼子起始位置的不同,RNA序列可能有3種開放閱讀框(即Frame1, Frame2, Frame3).環(huán)形RNA編碼蛋白的先決條件是具有一定長度的開放閱讀框.然而現(xiàn)有計算開放閱讀框的工具都是針對線性RNA開發(fā)的,環(huán)形RNA呈封閉環(huán)狀結(jié)構(gòu),開放閱讀框可能跨越反向剪接位點,出現(xiàn)長度超過環(huán)形RNA自身的情況.考慮到上述情況,我們自編程序計算環(huán)形RNA的開放閱讀框,得出環(huán)形RNA中最大開放閱讀框的位置及序列信息.
我們應(yīng)用自編程序計算數(shù)據(jù)庫CircBase中所有環(huán)形RNA的最大開放閱讀框,其中剔除了長度大于 2 000 bp 的環(huán)形RNA.結(jié)果如圖1A所示,經(jīng)過統(tǒng)計得出,環(huán)形RNA開放閱讀框中位數(shù)為 234 bp,大多分布在99~573 bp 之間,其中43%的環(huán)形RNA的開放閱讀框大于 300 bp,具有編碼超過 100 aa 長度的蛋白質(zhì)的可能.
RNA的翻譯機(jī)制主要分為帽依賴起始機(jī)制和非帽依賴翻譯起始機(jī)制2種.前者基于5’帽子結(jié)構(gòu),招募核糖體起始翻譯,是大部分線性RNA翻譯起始的方式.而后者從RNA內(nèi)部起始翻譯,需要一些特殊元件的介入.IRES(internal ribosomal entry Site)即內(nèi)部核糖體進(jìn)入位點,是RNA內(nèi)部的一段序列.IRES能夠直接招募核糖體亞基與之結(jié)合,從而啟動翻譯.由于環(huán)形RNA呈封閉環(huán)狀結(jié)構(gòu),沒有5’末端帽子,所以環(huán)形RNA的翻譯只能通過非帽依賴的方式進(jìn)行.IRES是非帽依賴翻譯的必要元件,通過預(yù)測環(huán)形RNA中是否存在IRES,可判斷環(huán)形RNA能否編碼蛋白.
目前基于序列與結(jié)構(gòu)特征預(yù)測IRES元件的生物信息學(xué)工具主要有IRESfinder[11]和VIPS[12].其中IRESfinder基于邏輯回歸模型的方法,預(yù)測待測序列中是否存在IRES元件.而VIPS將待測序列與已知IRES進(jìn)行局部結(jié)構(gòu)比對,預(yù)測其是否具有IRES活性.IRESfinder與VIPS均被用于預(yù)測CircBase數(shù)據(jù)庫中環(huán)形RNA是否存在IRES元件,結(jié)果如圖1B、1C所示.在IRESfinder預(yù)測結(jié)果中,環(huán)形RNA具有IRES元件的得分中位數(shù)為0.592, 64.6%的環(huán)形RNA被預(yù)測存在IRES結(jié)構(gòu).VIPS預(yù)測得分中位數(shù)為1.57, 32.9%的環(huán)形RNA被預(yù)測存在IRES活性.對比2種IRES元件預(yù)測工具的結(jié)果,約20.3%的環(huán)形RNA被2種工具都預(yù)測為序列中存在IRES元件,如圖2所示.
RNA序列進(jìn)化保守性指的是相似或相同的RNA序列出現(xiàn)在各物種間,該序列在物種進(jìn)化過程中被保留下來.由于環(huán)形RNA是一類呈閉合環(huán)狀結(jié)構(gòu)的特殊RNA,特殊的結(jié)構(gòu)決定了具有穩(wěn)定性,它不被核糖核酸外切酶(RNase R)分解,相比線性RNA更為穩(wěn)定.由環(huán)形RNA編碼的蛋白也因此擁有更高的物種間的保守性.
PhastCons和Phylop被用于計算環(huán)形RNA的ORF區(qū)域、IRES區(qū)域、反向剪接位點附近區(qū)域)的進(jìn)化保守性.首先,獲取環(huán)形RNA指定區(qū)域在基因組上的坐標(biāo).接著,在UCSC下載人類基因組與其他物種多重序列比對結(jié)果文件(hg38.phastCons100way.bw和hg38.phyloP100way.bw).最后,使用BEDTools獲取環(huán)形RNA指定區(qū)域的序列保守性情況.
CircBase數(shù)據(jù)庫中所有環(huán)形RNA的最大開放閱讀框區(qū)域的PhastCons和Phylop得分如圖1D、1E所示.PhastCons預(yù)測得分的中位數(shù)為0.88,PhyloP預(yù)測得分的中位數(shù)為3.92,環(huán)形RNA的最大開放閱讀框區(qū)域較為保守.
m6A,即N6甲基化修飾,腺苷酸第6號N在相關(guān)酶的催化下發(fā)生甲基化修飾事件.m6A是真核生物中最普遍的一種轉(zhuǎn)錄后修飾.有研究報道,環(huán)形RNA中富含m6A基序,而單個m6A位點足以驅(qū)動環(huán)形RNA起始翻譯[13].
本文應(yīng)用基于序列特征預(yù)測m6A修飾位點的生物信息學(xué)工具SRAMP[14],預(yù)測環(huán)形RNA中m6A修飾位點存在的可能性.CircBase數(shù)據(jù)庫中環(huán)形RNA的m6A修飾得分情況和高置信度m6A修飾位點的個數(shù)如圖3所示.m6A修飾預(yù)測得分的中位數(shù)為9.16,環(huán)形RNA中高置信度m6A修飾位點個數(shù)的平均值為1.65個,60.8%的環(huán)形RNA中具有至少一個高置信度m6A修飾位點.
目前轉(zhuǎn)錄本編碼蛋白潛能預(yù)測工具主要有CPC[15]、CPAT[16]和CNCI[17],我們經(jīng)過一定的預(yù)處理,將其應(yīng)用于預(yù)測環(huán)形RNA編碼蛋白潛能.利用上述3種生物信息學(xué)工具,計算環(huán)形RNA中的編碼蛋白相關(guān)特征Fickett score、Hexamer score、PI等電點得分等.此外,還改進(jìn)了k-mer的計算方法,以此提取環(huán)形RNA內(nèi)部的序列特征.在改進(jìn)的k-mer計算方法中,非末端的堿基可用X替代,X表示任意1種堿基.例如,在k=3時,序列AGTTCG可匹配的k-mer有AGT、AXT、GTT、GXT、TTC、TXC、TCG和TXG.考慮到計算量,只取k=1~5,共提取 2 500 種改進(jìn)的k-mer特征.
利用機(jī)器學(xué)習(xí)方法,分別構(gòu)建邏輯回歸、支持向量機(jī)、隨機(jī)森林和XGBoost 4種分類模型,以此預(yù)測環(huán)形RNA編碼蛋白的潛能.
正樣本數(shù)據(jù)來源于4個部分,包括文獻(xiàn)中實驗驗證的可編碼蛋白的環(huán)形RNA、蛋白質(zhì)質(zhì)譜(MS)數(shù)據(jù)支撐的可編碼蛋白的環(huán)形RNA、翻譯組測序數(shù)據(jù)(Ribo-seq)驗證的可編碼蛋白的環(huán)形RNA和數(shù)據(jù)庫circRNAdb[18]中注釋為可編碼蛋白環(huán)形RNA.以上4類數(shù)據(jù)經(jīng)過去重復(fù),共同組成正樣本數(shù)據(jù)集,包含5 747個正樣本數(shù)據(jù).
由于目前尚無確鑿證據(jù)證明哪些環(huán)形RNA不能編碼蛋白,但是已有研究統(tǒng)計,大約只有10%的環(huán)形RNA能夠編碼蛋白質(zhì).因此從CircBase數(shù)據(jù)庫中隨機(jī)篩選正樣本之外的且與正樣本等量的環(huán)形RNA作為負(fù)樣本數(shù)據(jù),共5 747個負(fù)樣本.我們對隨機(jī)篩選為負(fù)樣本的環(huán)形RNA和數(shù)據(jù)庫中所有的環(huán)形RNA的染色體來源進(jìn)行了統(tǒng)計,結(jié)果如圖4所示.我們發(fā)現(xiàn)2個數(shù)據(jù)集在染色體分布上基本一致,來源于1號染色體的環(huán)形RNA最多,來源于Y染色體的環(huán)形RNA最少,證明了我們隨機(jī)挑選過程的科學(xué)性.
我們利用Python語言的sklearn庫,分別構(gòu)建了邏輯回歸、支持向量機(jī)、隨機(jī)森林和XGBoost分類模型.其中所用特征可大致分為7類,包括開放閱讀框相關(guān)特征、內(nèi)部核糖體進(jìn)入位點相關(guān)特征、保守性相關(guān)特征、轉(zhuǎn)錄本編碼蛋白相關(guān)特征、m6A修飾相關(guān)特征、特殊k-mer特征以及AUG含量和GC含量特征,詳見表1.
表1 環(huán)形RNA編碼蛋白特征匯總
以上7類特征,共計2 525個特征,其中改進(jìn)的k-mer特征2 500個.為防止模型的過擬合,對上述特征進(jìn)行嚴(yán)格的特征篩選.對于邏輯回歸模型,我們經(jīng)過特征縮放,根據(jù)模型中各個特征系數(shù)大小的絕對值,取排名前10的特征作為訓(xùn)練模型所要保留的特征,結(jié)果如圖5(a)所示.其中,VIPS預(yù)測的IRES得分值對于模型的貢獻(xiàn)最高, m6A修飾相關(guān)特征對于模型分類性能也極為重要.
對于支持向量機(jī)模型,采用sklearn標(biāo)準(zhǔn)庫中的RFE函數(shù)進(jìn)行遞歸特征消除,反復(fù)迭代去除最不重要的特征.最終,篩選出對模型貢獻(xiàn)最大的10種特征,如圖5(b)所示.結(jié)果顯示,VIPS預(yù)測的IRES得分值對模型貢獻(xiàn)度排名最高,另外還有4個改進(jìn)的k-mer特征對于支持向量機(jī)模型也很重要.
對于隨機(jī)森林模型,使用feature_importances函數(shù),對各個特征的重要性進(jìn)行評估.從中選出最重要的10個特征,結(jié)果如圖5(c)所示.同樣的,VIPS預(yù)測的IRES得分值貢獻(xiàn)度排名第一,m6A預(yù)測相關(guān)特征對于隨機(jī)森林模型也很重要.
對于XGBoost模型,則通過計算各個特征的F-score值,判斷特征的重要性.最終選出10個貢獻(xiàn)度最大的特征,結(jié)果如圖5(d)所示.排名前10的特征依次是開放閱讀框區(qū)域m6A得分、CPC預(yù)測編碼潛能得分、VIPS預(yù)測的IRES得分、IRES區(qū)域的m6A motif數(shù)量、CGNA(k-mer) 、Phastcons預(yù)測的環(huán)形RNA接頭位置保守性得分、CGNT、CPAT預(yù)測的編碼潛能得分、IRES區(qū)域的m6A得分和Fickett_score.
綜合分析上述特征篩選的結(jié)果,VIPS預(yù)測的得分值在3個模型中貢獻(xiàn)度最高,IRES區(qū)域的m6A修飾得分,m6A motif個數(shù)等參數(shù)對模型同樣重要.上述結(jié)果表明,IRES元件以及m6A修飾對于環(huán)形RNA編碼蛋白的調(diào)控機(jī)制尤為重要.
基于標(biāo)準(zhǔn)數(shù)據(jù)集,使用篩選后的最優(yōu)特征,分別構(gòu)建了邏輯回歸、支持向量機(jī)、隨機(jī)森林和XGBoost 4種分類模型.接下來對各個模型的分類性能進(jìn)行評估,性能評估的方法分為10倍交叉驗證和獨立測試集驗證2種方式.其中獨立測試集是由文獻(xiàn)驗證的能夠編碼蛋白的環(huán)形RNA數(shù)據(jù)和等量的負(fù)樣本組成.性能評估的指標(biāo)包括預(yù)測準(zhǔn)確率ACC、精確度PRE、ROC曲線下面積AUC等.
我們使用Python語言中的sklearn標(biāo)準(zhǔn)庫計算邏輯回歸模型分類結(jié)果的TP(真陽性值), TN(真陰性值), FN(假陰性值)和FP(假陽性值).將所有正負(fù)樣本用作訓(xùn)練集,進(jìn)行10倍交叉驗證,受試者工作曲線(ROC曲線)如圖6所示.
經(jīng)過特征篩選,邏輯回歸模型10倍交叉驗證的平均AUC提升了1.83%,證明進(jìn)行特征篩選防止模型過擬合的必要性.經(jīng)過特征篩選后,10倍交叉驗證的平均預(yù)測準(zhǔn)確率達(dá)到了81.56%,精確度達(dá)到了78.34%.然而,在獨立測試集上,邏輯回歸模型的預(yù)測準(zhǔn)確率僅有65%,效果并不理想.
采用十倍交叉驗證對高斯核(RF kernel)支持向量機(jī)模型進(jìn)行性能評估,特征篩選前和篩選后的10倍交叉驗證ROC曲線如圖7所示.支持向量機(jī)模型經(jīng)過特征篩選后平均AUC提升了1.55%,達(dá)到了87.76%;而10倍交叉驗證的平均預(yù)測準(zhǔn)確率達(dá)到80.71%,精確率達(dá)到75.78%.雖然10倍交叉驗證的結(jié)果略低于邏輯回歸模型,但在獨立測試集上,支持向量機(jī)模型的預(yù)測準(zhǔn)確率達(dá)到了70.6%,明顯好于邏輯回歸模型.
對于隨機(jī)森林模型,首先使用所有特征構(gòu)建分類模型,再對特征進(jìn)行篩選,基于篩選出的特征再次構(gòu)建模型.對先后構(gòu)建的2個模型,分別進(jìn)行10倍交叉驗證,結(jié)果如圖8所示.未經(jīng)特征篩選的隨機(jī)森林模型無論在AUC值上,還是在其它各類性能參數(shù)上均劣于邏輯回歸模型和高斯核支持向量機(jī)模型.這可能是由于訓(xùn)練所用特征過多,構(gòu)建的樹節(jié)點過多導(dǎo)致模型過擬合,反而使其對真正有區(qū)分度的特征不敏感.經(jīng)過特征篩選,隨機(jī)森林模型10倍交叉驗證性能提升明顯,平均AUC提升了7.65%,達(dá)到了89.87%,證明了特征篩選過程的必要性.10倍交叉驗證平均預(yù)測準(zhǔn)確率達(dá)到了83.61%,精確度82.64%,略優(yōu)于邏輯回歸模型和支持向量機(jī)模型.獨立測試集的測試結(jié)果顯示,隨機(jī)森林預(yù)測準(zhǔn)確率為73.53%,優(yōu)于邏輯回歸和支持向量機(jī).
XGBoost模型是梯度提升算法的改進(jìn),應(yīng)用于分類和回歸問題.利用Python語言xgboost.sklearn包中的XGBClassifier函數(shù)構(gòu)建分類模型.首先使用所有特征訓(xùn)練模型,接著篩選特征并根據(jù)篩選所得的特征訓(xùn)練模型,針對特征篩選前后的模型分別進(jìn)行10倍交叉驗證,結(jié)果如圖9所示.XGBoost模型經(jīng)過特征篩選,10倍交叉驗證AUC值提升了0.6%,達(dá)到93%.XGBoost在10倍交叉驗證上優(yōu)于其他所有模型.經(jīng)過特征篩選,10倍交叉驗證的平均預(yù)測準(zhǔn)確率為86.30%,精確度為80.98%,分類性能優(yōu)異.在獨立測試集上,XGBoost預(yù)測準(zhǔn)確率為73.53%,與隨機(jī)森林相同,優(yōu)于邏輯回歸和支持向量機(jī)模型.
3.1-3.4部分先后采用邏輯回歸、高斯核支持向量機(jī)、隨機(jī)森林和XGBoost4種機(jī)器學(xué)習(xí)方法,使用篩選后的最優(yōu)特征,分別在數(shù)據(jù)集上訓(xùn)練分類模型,并對其分類性能進(jìn)行了評估.我們將各個模型的各項性能指標(biāo)匯總?cè)鐖D10所示.
除了精確度略低于隨機(jī)森林模型,XGBoost分類模型的各類性能指標(biāo)均優(yōu)于邏輯回歸、支持向量機(jī)和隨機(jī)森林模型.其10倍交叉驗證的平均ROC曲線下面積達(dá)到了93.89%,分類準(zhǔn)確率為86.30%,精確度指標(biāo)為80.98%,分類性能明顯優(yōu)于其他模型.接著我們在獨立測試集(來源文獻(xiàn)驗證的編碼蛋白環(huán)形RNA)上對各類模型進(jìn)行分類性能測試,性能評價匯總結(jié)果如圖11所示,ROC曲線如圖12所示.
在獨立測試集上,支持向量機(jī)的預(yù)測結(jié)果偏向正樣本,而隨機(jī)森林的預(yù)測結(jié)果偏向負(fù)樣本.為了進(jìn)一步優(yōu)化模型的分類性能,將XGBoost模型、隨機(jī)森林模型和支持向量機(jī)模型融合,對環(huán)形RNA編碼蛋白的潛能做出最終的綜合評判,如圖13所示.3個模型分別根據(jù)各自特征篩選的結(jié)果從總特征中提取對于模型貢獻(xiàn)最大的10個特征,分別預(yù)測環(huán)形RNA是否能夠編碼蛋白,投票給出環(huán)形RNA編碼蛋白潛能的預(yù)測結(jié)果.
接著對這個綜合分類模型進(jìn)行性能評估,分別進(jìn)行10倍交叉驗證和獨立測試集上的驗證,ROC曲線結(jié)果如圖14所示.綜合分類模型10倍交叉驗證的平均AUC值達(dá)到了93.69%,只略微低于XGBoost10倍交叉驗證的AUC值(邏輯回歸88.19%、支持向量機(jī)87.76%、隨機(jī)森林89.87%、XGBoost 93.89%),而其它各項性能指標(biāo)均優(yōu)于XGBoost模型,其中10倍交叉驗證平均準(zhǔn)確率提高了0.15%,達(dá)到了86.66%,精確度提高了0.88%,達(dá)到了82.07%.相比邏輯回歸、支持向量機(jī)和隨機(jī)森林模型,綜合分類模型優(yōu)勢明顯.在獨立測試集上,綜合分類模型預(yù)測準(zhǔn)確率為73.53%,與XGBoost模型相同.
根據(jù)上述結(jié)果可以看出,綜合分類模型相較XGBoost在分類性能上有所提升,與邏輯回歸、支持向量機(jī)和隨機(jī)森林方法相比具有較大的優(yōu)勢.據(jù)此,我們將綜合分類模型用于構(gòu)建最優(yōu)的環(huán)形RNA編碼蛋白潛能的預(yù)測分類器.
本文首先分析了環(huán)形RNA的序列與結(jié)構(gòu)特征,從ORF、IRES元件、m6A修飾等方面研究環(huán)形RNA編碼蛋白的相關(guān)調(diào)控機(jī)制.其次,為預(yù)測環(huán)形RNA編碼蛋白潛能,收集正負(fù)樣本數(shù)據(jù),分別構(gòu)建了邏輯回歸、支持向量機(jī)、隨機(jī)森林和XGBoost分類模型.為避免模型的過擬合,對特征進(jìn)行了嚴(yán)格篩選.評估了各個模型的分類性能,發(fā)現(xiàn)XGBoost分類模型性能明顯優(yōu)于其它模型.最后,構(gòu)建由XGBoost、隨機(jī)森林和支持向量機(jī)組成的綜合分類模型,該模型優(yōu)于任一單獨預(yù)測模型.綜合分類模型10倍交叉驗證的平均AUC達(dá)到了93.69%,預(yù)測準(zhǔn)確率達(dá)到了86.66%,能夠較好的預(yù)測環(huán)形RNA編碼蛋白的潛能.
本文首創(chuàng)性地基于環(huán)形RNA序列與結(jié)構(gòu)特征,運用機(jī)器學(xué)習(xí)的方法預(yù)測環(huán)形RNA編碼蛋白的潛能.現(xiàn)有的環(huán)形RNA編碼蛋白預(yù)測工具(CircPro[19]、CircCode[20])都基于翻譯組測序(Ribo-seq)數(shù)據(jù),需要更高的實驗條件,不夠便利.然而,在獨立測試集上,綜合分類模型的預(yù)測準(zhǔn)確率依然不高.隨著越來越多的編碼蛋白環(huán)形RNA被發(fā)現(xiàn),高置信度訓(xùn)練集樣本量的擴(kuò)充可能對于模型的訓(xùn)練能夠提供一定的幫助.當(dāng)訓(xùn)練樣本足夠大時,還能將深度學(xué)習(xí)的方法應(yīng)用于環(huán)形RNA編碼蛋白的預(yù)測分類.此外,隨著環(huán)形RNA編碼蛋白機(jī)制的深入研究,相信會有更多更有效的編碼蛋白環(huán)形RNA相關(guān)生物信息學(xué)工具以及數(shù)據(jù)庫出現(xiàn),反過來進(jìn)一步促進(jìn)編碼蛋白環(huán)形RNA的發(fā)現(xiàn)及對其編碼機(jī)制的研究.