国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談深度學(xué)習(xí)在RNA亞細(xì)胞定位中的應(yīng)用

2021-12-25 00:54:26李星橋
科學(xué)與信息化 2021年20期
關(guān)鍵詞:基序特征提取神經(jīng)網(wǎng)絡(luò)

李星橋

武漢大學(xué) 生命科學(xué)學(xué)院 湖北 武漢 430072

引言

RNA亞細(xì)胞定位,是指RNA在細(xì)胞內(nèi)的空間分布情況。位于不同細(xì)胞區(qū)域的RNA通常具有不同的命運(yùn),而RNA在細(xì)胞內(nèi)的位置亦與其功能相聯(lián)系[1]。此外,細(xì)胞內(nèi)的RNA定位失調(diào)將會(huì)導(dǎo)致人體中許多疾病的發(fā)生[2]。因此,如果我們能準(zhǔn)確獲取RNA在細(xì)胞內(nèi)的定位信息,將有利于我們理解許多與RNA相關(guān)的生物學(xué)功能機(jī)制。

目前,已經(jīng)有許多實(shí)驗(yàn)手段可以獲取細(xì)胞內(nèi)的RNA定位信息,如CeFra-seq[3],APEX-RIP[4]等,但這些方法大多需要長(zhǎng)時(shí)間的投入以及復(fù)雜的操作流程,且單次實(shí)驗(yàn)所能提供的信息有限。為了提高研究效率,大量研究者嘗試使用深度學(xué)習(xí)算法對(duì)RNA亞細(xì)胞定位情況進(jìn)行預(yù)測(cè),其中DeepLncRNA[5],RNATracker[6],DM3Loc[7]等預(yù)測(cè)方法已經(jīng)取得了一些成果。然而,不同預(yù)測(cè)方法所使用的訓(xùn)練數(shù)據(jù)集不同,且特征提取方法各異,因此預(yù)測(cè)得到的RNA定位信息存在差異。根據(jù)具體的研究需求,我們應(yīng)該選取合適的方法用于RNA亞細(xì)胞定位預(yù)測(cè)。

1 DeepLncRNA預(yù)測(cè)方法介紹

長(zhǎng)鏈非編碼RNA(Long noncoding RNA,LncRNA)是指長(zhǎng)度大于200個(gè)核苷酸的非編碼RNA,通常分布在細(xì)胞核與細(xì)胞質(zhì)中,執(zhí)行著許多生物學(xué)功能[8]。DeepLncRNA嘗試?yán)胠ncRNA一級(jí)序列信息對(duì)其進(jìn)行定位預(yù)測(cè)。DeepLncRNA的訓(xùn)練數(shù)據(jù)來自于14種不同細(xì)胞系的93個(gè)RNA-seq實(shí)驗(yàn)。數(shù)據(jù)預(yù)處理時(shí),該方法首先計(jì)算了每一種細(xì)胞系中各種lncRNA轉(zhuǎn)錄本在細(xì)胞核與細(xì)胞質(zhì)內(nèi)的表達(dá)量,并根據(jù)二者比值大小,劃定閾值,將每一條lncRNA標(biāo)記為細(xì)胞核定位或者細(xì)胞質(zhì)定位。在特征提取時(shí),DeepLncRNA選擇了三種特征作為預(yù)測(cè)輸入:①lncRNA序列K-mers特征:每條lncRNA序列計(jì)算了K從2到5共計(jì)1360個(gè)特征;②lncRNA序列上的結(jié)合蛋白基序特征:由于RNA結(jié)合蛋白會(huì)對(duì)lncRNA定位造成影響,因此DeepLncRNA統(tǒng)計(jì)了每條lncRNA序列上各種結(jié)合蛋白基序的數(shù)量;③lncRNA所處的基因組位置特征:該特征包括了lncRNA所處的染色體編號(hào)以及基因起始與終止位置信息。在預(yù)測(cè)模型構(gòu)建時(shí),DeepLncRNA采用了全連接網(wǎng)絡(luò),對(duì)上述三種輸入的特征進(jìn)行融合并計(jì)算,最后輸出每條lncRNA在細(xì)胞核或細(xì)胞質(zhì)中定位的概率大小。

DeepLncRNA在驗(yàn)證數(shù)據(jù)集上取得了0.79的AUC,這說明該方法對(duì)lncRNA的亞細(xì)胞定位具有良好的預(yù)測(cè)效果。DeepLncRNA創(chuàng)新性地將RNA結(jié)合蛋白基序作為特征用于定位預(yù)測(cè),且由于其特征提取方法可以適應(yīng)于不同長(zhǎng)度的RNA序列,因此對(duì)于長(zhǎng)度差異較大的lncRNA序列,DeepLncRNA均可以給出預(yù)測(cè)結(jié)果,且計(jì)算效率不受序列長(zhǎng)度影響。但是DeepLncRNA也存在一些缺點(diǎn):在序列特征提取過程中,它采用了K-mers的辦法,并未考慮lncRNA序列內(nèi)部的聯(lián)系,這使得模型無(wú)法找到lncRNA上與細(xì)胞定位相關(guān)的基序,影響其預(yù)測(cè)結(jié)果的可解釋性;其次,DeepLncRNA僅針對(duì)lncRNA在細(xì)胞核、細(xì)胞質(zhì)內(nèi)的兩種情況進(jìn)行預(yù)測(cè),無(wú)法預(yù)測(cè)更精細(xì)的亞細(xì)胞區(qū)域,對(duì)于需要準(zhǔn)確預(yù)測(cè)lncRNA在細(xì)胞內(nèi)某個(gè)細(xì)胞器的定位任務(wù),該方法無(wú)法很好地給出答案。

2 RNATracker預(yù)測(cè)方法介紹

相比DeepLncRNA預(yù)測(cè)lncRNA亞細(xì)胞定位,RNATracker則關(guān)注于細(xì)胞內(nèi)的mRNA定位。RNATracker的訓(xùn)練數(shù)據(jù)主要來自于CeFra-seq與APEX-RIP實(shí)驗(yàn),這些數(shù)據(jù)中不僅有mRNA在細(xì)胞核、細(xì)胞質(zhì)內(nèi)的定位信息,還包括了內(nèi)質(zhì)網(wǎng)與細(xì)胞膜等細(xì)胞器內(nèi)的定位信息。RNATracker的數(shù)據(jù)預(yù)處理流程與DeepLncRNA相似,首先計(jì)算了每種mRNA轉(zhuǎn)錄本在各細(xì)胞區(qū)域中的表達(dá)量,并將表達(dá)量最大的區(qū)域作為其定位預(yù)測(cè)標(biāo)簽。特征提取方面,RNATracker將mRNA的一級(jí)序列與軟件計(jì)算得到的二級(jí)結(jié)構(gòu)進(jìn)行融合,并使用One-hot的方式進(jìn)行編碼,使得RNA的序列信息與結(jié)構(gòu)信息均轉(zhuǎn)化為矩陣,作為預(yù)測(cè)模型的輸入。RNATracker的計(jì)算模型較為復(fù)雜,其具體結(jié)構(gòu)如下:①輸入矩陣首先進(jìn)入一層卷積神經(jīng)網(wǎng)絡(luò),用于提取mRNA序列與二級(jí)結(jié)構(gòu)中與定位相關(guān)的特征;②卷積神經(jīng)網(wǎng)絡(luò)的輸出再經(jīng)過雙向循環(huán)神經(jīng)網(wǎng)絡(luò),用于找出這些與定位相關(guān)特征之間的聯(lián)系;③循環(huán)神經(jīng)網(wǎng)絡(luò)輸出結(jié)果傳遞到全局注意力層中,使模型更關(guān)注于mRNA序列中與定位強(qiáng)相關(guān)的特征;④最后,該模型通過一層全連接網(wǎng)絡(luò)輸出最終的預(yù)測(cè)結(jié)果。RNATracker的預(yù)測(cè)結(jié)果包括了4個(gè)值,其中最大值對(duì)應(yīng)的區(qū)域即為預(yù)測(cè)得到的mRNA亞細(xì)胞定位區(qū)域。

RNATracker在各細(xì)胞區(qū)域的驗(yàn)證數(shù)據(jù)集均取得0.7以上的AUC,這說明該方法可以很好地預(yù)測(cè)mRNA亞細(xì)胞定位。RNATracker有諸多創(chuàng)新點(diǎn),具體如下:①在特征提取方面,其融入了mRNA二級(jí)結(jié)構(gòu)信息,增加了信息維度,有助于模型從二級(jí)結(jié)構(gòu)的角度尋找mRNA定位特征;②在預(yù)測(cè)模型方面,RNATracker采用了卷積神經(jīng)網(wǎng)絡(luò),能有效提取mRNA序列中與定位相關(guān)的基序,這大大提升了模型的可解釋性;③RNATracker的預(yù)測(cè)范圍包括4個(gè)細(xì)胞區(qū)域,實(shí)用性有所提升。但是該方法也存在一些缺點(diǎn),首先RNATracker使用的訓(xùn)練數(shù)據(jù)較少,且僅含單一細(xì)胞系的數(shù)據(jù),預(yù)測(cè)結(jié)果魯棒性較差。最后,RNATracker只能接收定長(zhǎng)的mRNA序列用于預(yù)測(cè),過長(zhǎng)的序列需要經(jīng)過截?cái)嗖拍苓M(jìn)行預(yù)測(cè)。

3 DM3Loc預(yù)測(cè)方法介紹

DM3Loc亦關(guān)注于mRNA的亞細(xì)胞定位情況,與RNATracker預(yù)測(cè)結(jié)果僅為單一細(xì)胞區(qū)域不同的是,它的預(yù)測(cè)結(jié)果中包含mRNA在細(xì)胞內(nèi)多個(gè)區(qū)域同時(shí)存在的情況。在訓(xùn)練數(shù)據(jù)集構(gòu)建上,DM3Loc從RNALocate[9]數(shù)據(jù)庫(kù)中收集了17870條mRNA定位信息,覆蓋了RNATracker中4個(gè)以及額外的外泌體和核糖體等6個(gè)細(xì)胞區(qū)域。該方法將RNA序列補(bǔ)全到統(tǒng)一的8000長(zhǎng)度,并采用One-hot方式編碼。模型設(shè)計(jì)上,DM3Loc放棄了定位預(yù)測(cè)任務(wù)中常用的循環(huán)神經(jīng)網(wǎng)絡(luò),而是采用了自注意力模型,其模型具體結(jié)構(gòu)如下:①輸入矩陣通過多尺度卷積神經(jīng)網(wǎng)絡(luò)尋找mRNA序列上不同長(zhǎng)度的定位基序,并利用最大池化層提取特征;②使用自注意力層尋找上一步輸出的定位特征之間的聯(lián)系;③將自注意力層輸出結(jié)果合并,最后用一層全連接網(wǎng)絡(luò)輸出mRNA亞細(xì)胞定位預(yù)測(cè)結(jié)果。DM3Loc的預(yù)測(cè)結(jié)果包括6個(gè)數(shù)字,分別對(duì)應(yīng)著mRNA在細(xì)胞內(nèi)6個(gè)不同區(qū)域存在的概率。

從測(cè)試結(jié)果來看,DM3Loc在六個(gè)細(xì)胞區(qū)域中均達(dá)到了0.7以上的AUC,這說明該預(yù)測(cè)器確實(shí)能對(duì)mRNA在細(xì)胞內(nèi)多個(gè)區(qū)域的定位情況進(jìn)行很好的預(yù)測(cè)。相比之前的兩種方法,DM3Loc創(chuàng)新性地采用了多標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,使得其預(yù)測(cè)結(jié)果更接近于細(xì)胞內(nèi)mRNA分布的真實(shí)情況。在預(yù)測(cè)模型設(shè)計(jì)上,DM3Loc采用了自注意力層,該層能夠關(guān)注到mRNA序列中不同位置間的互作關(guān)系,相比雙向循環(huán)神經(jīng)網(wǎng)絡(luò),自注意力層大大縮短了計(jì)算時(shí)間。但是,DM3Loc依舊有值得改進(jìn)的地方,例如該方法的訓(xùn)練數(shù)據(jù)中缺少了不同類型細(xì)胞的實(shí)驗(yàn)數(shù)據(jù),且對(duì)于不同的細(xì)胞區(qū)域,DM3Loc設(shè)置了不同的損失權(quán)重,這不利于DM3Loc在新的數(shù)據(jù)集以及新的亞細(xì)胞區(qū)域上進(jìn)行拓展研究。

4 結(jié)束語(yǔ)

上述三種方法都是基于深度學(xué)習(xí)算法預(yù)測(cè)細(xì)胞內(nèi)的RNA定位,但這些方法卻各有特點(diǎn)。在預(yù)測(cè)種類上,DeepLncRNA可用于lncRNA亞細(xì)胞定位預(yù)測(cè),而RNATracker、DM3Loc則用于mRNA定位預(yù)測(cè)。特征提取上,DeepLncRNA利用lncRNA一級(jí)序列的K-mers特征,并創(chuàng)新性地融入序列上的RNA結(jié)合蛋白基序與基因組位置信息,而RNATracker則使用了RNA一級(jí)序列信息與二級(jí)結(jié)構(gòu)信息,DM3Loc則僅僅使用了一級(jí)序列信息。預(yù)測(cè)模型設(shè)計(jì)上,DeepLncRNA采用了基礎(chǔ)的全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算,而RNATracker則使用了卷積神經(jīng)網(wǎng)絡(luò)和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)RNA序列中的定位基序進(jìn)行提取,增加了模型的可解釋性。相比之下,DM3Loc的模型最為完善,將循環(huán)神經(jīng)網(wǎng)絡(luò)替換為了自注意力層,既加快了模型訓(xùn)練速度,又能夠獲取RNA序列內(nèi)部長(zhǎng)距離的交互信息。從預(yù)測(cè)效果上看,上述三種預(yù)測(cè)器均在對(duì)應(yīng)的測(cè)試集上達(dá)到了可靠的準(zhǔn)確率,其預(yù)測(cè)結(jié)果均可作為RNA細(xì)胞內(nèi)定位參考。

討論:RNA亞細(xì)胞定位對(duì)于其行使生物學(xué)功能有著至關(guān)重要的作用。目前,已經(jīng)有不少基于深度學(xué)習(xí)的方法針對(duì)不同種類的RNA進(jìn)行亞細(xì)胞定位預(yù)測(cè),且已經(jīng)取得了一些效果。然而細(xì)胞內(nèi)RNA定位是動(dòng)態(tài)變化的,不同種類的RNA功能各異,定位差異大,且不同組織和細(xì)胞中RNA定位也存在不同。另外,不同預(yù)測(cè)方法使用的特征提取與計(jì)算模型也各有不同,上述問題均會(huì)對(duì)預(yù)測(cè)方法的準(zhǔn)確性造成影響。因此,僅通過少量數(shù)據(jù)或簡(jiǎn)單的特征提取嘗試獲取極高的RNA定位預(yù)測(cè)準(zhǔn)確率,目前看來是十分困難的。所以開發(fā)多種不同計(jì)算方法嘗試解決上述問題,將會(huì)對(duì)RNA亞細(xì)胞定位問題有很大的幫助。

隨著RNA亞細(xì)胞定位實(shí)驗(yàn)方法的不斷改進(jìn),海量的數(shù)據(jù)將為RNA亞細(xì)胞定位預(yù)測(cè)提供支持。相信結(jié)合實(shí)驗(yàn)技術(shù)與深度學(xué)習(xí)算法,我們最終能開發(fā)出更好的計(jì)算模型準(zhǔn)確地預(yù)測(cè)RNA亞細(xì)胞定位信息,用于解釋各種生物學(xué)問題。

猜你喜歡
基序特征提取神經(jīng)網(wǎng)絡(luò)
EPIYA 基序與幽門螺桿菌感染相關(guān)胃病關(guān)系的研究進(jìn)展
帶TRS基序突變的新型冠狀病毒威脅更大
芥藍(lán)Aux/IAA家族基因生物信息學(xué)與表達(dá)分析
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
基于MED和循環(huán)域解調(diào)的多故障特征提取
北辰区| 威信县| 江津市| 霍林郭勒市| 大同县| 临西县| 湘潭市| 巴马| 额敏县| 浦县| 内丘县| 禹州市| 海原县| 南乐县| 兴文县| 盐山县| 荆州市| 新竹市| 朝阳区| 廊坊市| 平遥县| 河东区| 龙江县| 凤山县| 铁岭县| 德惠市| 滦南县| 浦县| 鄂托克旗| 石渠县| 浦东新区| 灵台县| 寿光市| 敦煌市| 呼玛县| 南丹县| 吴忠市| 基隆市| 达尔| 大兴区| 深水埗区|