国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

蛋白質二級結構預測服務器PSRSM

2020-07-09 01:28:00韓心怡劉毅慧
生物信息學 2020年2期
關鍵詞:識別率郵箱長度

韓心怡,劉毅慧

(齊魯工業(yè)大學(山東省科學院) 計算機科學與技術學院,濟南 250300)

蛋白質二級結構[1]預測是生物信息學領域一項非常重要的研究課題,蛋白質二級結構不僅是構成蛋白質穩(wěn)定構象的基礎,同時也是進一步研究蛋白質三級結構的重要環(huán)節(jié)[2]。隨著越來越多的蛋白質序列順利完成了結構測試,國際上也不斷有新的蛋白質二級結構預測方法被提出,同時也提供了多種在線預測服務器。試驗選取了七種在線預測服務器:PSRSM、Spider3、SPOT-1D、RaptorX、MUFOLD,Psipred和Jpred4,并將它們的預測結果從Q3、Sov、邊界識別率、內部識別率、轉角C識別率,折疊E識別率和螺旋H識別率七個方面進行了對比評估。上述七種在線預測服務器,均采用了各自不同的預測方法:PSRSM采用基于數(shù)據(jù)劃分和半隨機子空間的預測方法[3];Spider3使用長短時記憶網絡和雙向遞歸神經網絡的混合模型[4];SPOT-1D結合了殘余卷積網絡和雙向遞歸神經網絡[5];RaptorX使用了深度卷積神經場[6];MUFOLD采用了一種名為深度初始-內部-初始的網絡[7];Jpred4通過JNet[8]算法提供預測,還有使用前饋神經網絡的Psipred[9]。最新出現(xiàn)的PSRSM和SPOT-1D也增加了對大數(shù)據(jù)集的使用。

相比于文獻[10],增加了對最新發(fā)布的SPOT-1D服務器介紹和評估,對所有服務器的使用流程做出了說明,同時增加了對轉角C、折疊E和螺旋H、內部和邊界結構的預測準確率評估,為研究者提供更多的參考角度。其中,各服務器Q3結果從高到低分別為PSRSM:89.96%;SPOT-1:88.18%;MUFOLD:86.74%;SPIDER3:85.77%;RaptorX:83.61%;Psipred:79.72%;Jpred4:78.29%。結果表明PSRSM預測效果優(yōu)于其他服務器。

1 PSRSM-Server

PSRSM-Server是由齊魯工業(yè)大學智能信息處理團隊開發(fā)的蛋白質二級結構預測服務器,該服務器基于數(shù)據(jù)劃分和半隨機子空間(Partition and semi-random subspace, PSRSM)方法進行預測[3]。方法的主要流程為:首先根據(jù)蛋白質序列的長度將訓練集劃分為6種子集,然后用半隨機子空間方法生成子空間,將SVM作為基本分類器,在子空間中訓練基本分類器;最后通過多數(shù)投票規(guī)則把子集中的基本分類器結合,生成最終的分類器。網絡輸入為PSI-BLAST程序生成的20×L的PSSM矩陣,其中20為氨基酸個數(shù),L為蛋白質長度。輸入的蛋白質序列將會根據(jù)長度選擇合適的分類器進行預測。此服務器將預測結果根據(jù)“H、G、I轉為H”,“B、E轉為E”,“其他結構轉為C”的規(guī)則得出最終的3態(tài)結果。該方法在ASTRAL和CullPDB數(shù)據(jù)集上選取了15 696條去除較高相似度的數(shù)據(jù)上進行訓練,在測試集CASP10、CASP11、CASP12、CB513,25PDB和T100(2018年2月前的100條)上Q3識別率分別達到85.51%、85.89%、85.55%、84.53%,86.38%和85.09%的良好性能[3]。PSRSM-Server 網址為:http://210.44.144.20:82/protein_PSRSM/default.aspx。

該網站提供了單條序列預測和批量序列預測的功能,點擊“Sequence”,按照圖1所示,輸入郵箱,便可進行單條作業(yè)提交。所支持的蛋白質長度范圍為10~800。

提交成功后網站會分配一個Job ID,使用者可根據(jù)此Job ID、序列或者預留郵箱在網站左側“Predicted result”中根據(jù)不同的方式進行結果查詢,如圖2所示。

圖 1 PSRSM 服務器單條數(shù)據(jù)測試提交步驟Fig.1 Single data test submission step of PSRSM-Server

注:用戶可根據(jù)圖中標注1點擊“Sequence”然后輸入查詢郵箱,在標注3處輸入提交序列,最后點擊標注4處的“submit”完成單條數(shù)據(jù)提交.

圖2 PSRSM服務器根據(jù)預留郵箱結果查詢Fig.2 Query results based on email address in PSRSM-Server

注:用戶首先在“Predicted result”處點擊“by E-Mail”,然后在標注2處輸入圖1.2輸入的預留郵箱,最后點擊標注3處的 Search 即可查詢測試狀態(tài).

用戶可根據(jù)需要,選擇點擊“Download”下載結果或者點擊“Select”在網頁端查看結果,下載的結果將以txt格式保存。網站也同樣支持上傳Fasta格式文件進行預測,查詢結果方式同圖2。最后,該網站提供了查詢預測準確率的功能,在左側“Comparison”中,選中所需查詢的結果,輸入真實的DSSP,可直接查看Q3和Sov準確率。

2 其他方法介紹

2.1 Spider3

現(xiàn)有的機器學習方法在預測蛋白質二級結構時通常依賴于設置10到20個氨基酸殘基大小的滑動窗口來捕捉“短到中”距離的殘基相互作用,而該方法基于長短時記憶(Long short-term memory, LSTM)雙向遞歸神經網絡(Bidirectional recurrent neural network, BRNNs)[4],在不設置滑動窗口的情況下捕捉長距離的殘基交互,改善了蛋白質二級結構的預測效果。該方法模型使用了兩個節(jié)點數(shù)為256的雙向遞歸神經網絡層(BRNN),之后為兩層節(jié)點分別為1 024和512的隱藏層。在BRNN層中采用了LSTM細胞來學習遠距離和閉合序列內的依賴性。網絡輸入包括氨基酸的7種代表性理化性質(Physio-chemical properties, PP),PSI-BLAST的20維位置特異性評分矩陣(PSSM),以及來自HHBlits的30維隱馬爾可夫模型特征。該方法數(shù)據(jù)集包含5 789個蛋白質,序列相似性截斷值為25%,X射線分辨率低于2.0個?。從所有數(shù)據(jù)中,隨機選擇4 590種蛋白質作為訓練集(TR4590),其余1 199用作獨立測試集(TS1199)。文獻[4]中指出捕獲序列的長距離相互作用可以使三態(tài)二級結構預測準確率達84%。

Spider3提供單條蛋白質和批量蛋白質序列預測的功能,同時網站也提供了預測軟件下載的功能。在線提交測試序列過程中,由于服務器資源有限,同一個IP和郵箱下提交序列總數(shù)不可超過100條,注意提交序列過程中序列不要換行。Spider3網址為:http://sparks-lab.org/server/SPIDER3/。提交界面如圖3所示。提交成功后,可在郵箱接收到最終結果,或者在網頁端進行查看。

2.2 SPOT-1D

SPOT-1D是目前較新的一種蛋白質二級結構預測服務器。作為Spider3的改進方法,SPOT-1D在使用了雙向遞歸神經網絡的長短時記憶細胞(Long-Short-term memory Cells in Bidirectional recurrent neural networks, LSTM-BRNNs)基礎上,結合了殘余卷積網絡(Residual Convolutional Networks, ResNets)[5],用來識別和傳播整個序列中的短期和長期依賴關系,預測結果準確率得到了明顯的提升,網絡模型的描述在文獻[5]的補充部分有詳細的說明。該模型的特征輸入由氨基酸的7種代表性理化性質,SPOT-Contact的預測接觸圖信息,PSSM和隱馬爾科夫模型特征組成,共57維特征輸入。相比于Spider3,SPOT-1D的預測更加準確,除了模型的改進,SPOT-1D從PISCES服務器中選取了更多數(shù)量的10 029條蛋白質進行訓練。使用界面和操作方法同Spider3,但每次提交序列不可超過5條。SPOT-1D的網址為:http://sparks-lab.org/jack/server/SPOT-1D/。

圖3 Spider3提交測試序列Fig.3 Submission test sequence in Spider3

注:首先,用戶在圖中標注1處輸入預留郵箱,在標注2處輸入工作名稱,然后在下方標注3處根據(jù)圖中示例格式輸入序列,最后點擊標注4處的“Submit”完成序列提交.

2.3 RaptorX

RaptorX采用了名為深度卷積神經場(Deep convolutional neural fields, deepCNF)[6,11]的預測方法,該方法是深度卷積神經網絡(Deep convolutional neural networks, DCNN)和條件神經場(Conditional neural fields, CNF)相結合。它能以分層的方式對復雜序列的結構關系進行建模,而且可以根據(jù)相鄰殘基之間的相關性建模。在DeepCNF中使用DCNN替換CNF中的淺層神經網絡,以便捕獲輸入維度和輸出標簽之間的復雜關系,特別是對于在PDB中沒有緊密同源性或具有稀疏序列譜的蛋白質具有很好的預測效果。針對紊亂蛋白質序列的預測,RaptorX在網絡中增加了ROC曲線下面積最大化(Area under the ROC Curve , AUC)方法訓練[12]。該網絡的特征輸入由21維PSSM和具有21個元素的二進制向量(表示第i個位置上的氨基酸)組成,共42維。RaptorX使用了CullPDB中5 600條蛋白質用作訓練。該網站提供了批量預測的功能,提交方式如圖4所示。在“My Jobs”里輸入測試時提交的郵箱,等待結果鏈接。在線服務網址為: http://raptorx.uchicago.edu/StructurePrediction/predict/。

2.4 MUFOLD

MUFOLD采用名為Deep3I的網絡(Deep inception-inside-inception networks, Deep3I)[7]進行蛋白質二級結構預測。Deep 3I由兩個嵌套的可進行卷積操作的初始模塊、卷積以及完全聯(lián)通的致密層組成,有效地處理了氨基酸之間的局部和全局相互作用。MUFOLD對訓練集輸入特征有非常細致的設計,訓練集為由氨基酸理化性質,PSI-BLAST特征和HHBlits特征組成的維度為58的特征向量。隨機選取了CullPDB中的9 000條蛋白質用作訓練集。該團隊同時也利用初始膠囊網絡的深度神經網絡(Inception capsule networks)改善蛋白質γ-轉角預測[13]。測試過程如圖5所示:輸入郵箱和項目名稱后,在下方勾選 “Secondary Structure (3-states and 8-states)”,然后提交蛋白質序列,不允許序列字符斷開或換行,且最多允許提交10個序列,每條序列的長度范圍為30到700。該服務器網址為:http://mufold.org/mufold-ss-angle/。

圖4 RaptorX批量提交測試序列Fig.4 Batch submission test sequence in RaptorX

注:首先,用戶在圖中標注1處輸入預留郵箱,在標注2處輸入工作名稱,然后在下方標注3處根據(jù)圖中示例格式輸入序列,最后點擊標注4處的“Submit”完成序列提交.

圖5 MUFOLD提交測試序列Fig.5 Submission test sequence in MUFOLD

注:首先,用戶在圖中標注1處輸入預留郵箱,在標注2處輸入工作名稱,然后在下方標注3處選擇“Secondary Structure (3-states and 8-states)”,然后在標注4處的文本欄中輸入提交序列,最后點擊下方“Submit”完成序列提交.

2.5 Psipred

Psipred是常用的一種蛋白質二級結構預測服務器,該服務器聚合了多種蛋白質注釋工具,提供分析方法作為軟件下載。例如提供了序列和結構注釋方法:Psipred,GenTHREADER,pGENTHREADER等。在網絡結構方面,Psipred采用了兩層前饋神經網絡的體系,經交叉驗證對網絡性能進行評估。網絡的輸入是來自PSI-BLAST的20維特征矩陣。預測蛋白質二級結構的使用方法為:選擇好所使用二級結構預測服務,然后輸入序列,同樣需要注意序列字符串不要換行,最后在輸入的郵箱中接收結果。如圖6所示。該服務網址為:http://bioinf.cs.ucl.ac.uk/psipred/。

圖6 Psipred批量提交測試序列Fig.6 Batch submission test sequence in Psipred

注:首先,用戶在圖中標注1處選擇服務“PSIPRED V3.3”,在標注2處的文本欄中輸入提交序列, 在標注3和4處分別輸入預留郵箱和工作名稱,最后點擊下方“predict”完成序列提交.

2.6 Jpred4

Jpred4通過JNet[8]算法提供預測。在上個版本JPred3[14]中使用JNet2.0對蛋白質序列進行預測,JNet2.0不使用頻率文件,以PSSM和隱馬爾科夫特征作為輸入,使用兩層來自SNNS神經網絡包的人工神經網絡,將隱藏層單元從9增加到100。Jpred4則基于JNet2.0神經網絡的預測器進行了重新訓練,通過使用1 358個SCOPe/ASTRAL v.2.04超家族域序列中的每個序列的一個代表進行7倍交叉驗證來制作JNet2.3.1,通過搜索UniRef90v.2014_07生成PSI-BLAST構建了每個序列的多重比對。除了對JNet2.0重新訓練之外,JNet中的HMM構建步驟已更新為HMMer3。Jpred4最終在150個未用于訓練的超家族序列的盲測中評估其準確性,Q3準確率可達到82%。

該網站提供了批量預測的功能,如果只是提交單個序列則要在“Advanced options”中的“Select type of input”選項中,選中“Single Sequence”的“Raw/Fasta”模式;如果是批量在網頁中輸入蛋白質序列,則需要在“Single Sequence”下選中“Batch Mode”模式,然后輸入接收結果的郵箱以及項目名(其中命名方式只可以是由字母數(shù)字和“_”字符組成)。批量提交過程如圖7所示。最終結果將會發(fā)送到郵箱中,也可以在網頁端等待查看。Jpred4提供服務的網址為:http://www.compbio.dundee.ac.uk/jpred4/index.html。

圖7 Jpred4批量提交測試序列Fig.7 Batch submission test sequence in Jpred4

注:用戶首先在標注 1 處輸入需要提交的序列,如果同圖中一樣提交批量測試,則在標注2處選擇“Single Sequence”下的“Batch Mode”模式;如果是單個序列提交,則選擇“Raw/Fasta”模式,然后在標注3 和4處分別輸入預留郵箱和工作名稱,最后在標注5處點擊“Make Prediction”完成工作提交.

3 結果評估

對上述七種服務器進行了預測結果評估,為保證實驗數(shù)據(jù)量和公平性,測試集選取了PDB中2018年8、9、10、11月份發(fā)布的蛋白質[3,5,7],從中隨機選取了60條30%同源性,60條40%同源性和60條70%同源性的蛋白質分別進行實驗,最后又做出了這180條蛋白質的整體評估結果。實驗數(shù)據(jù)集見表1。

評估采用了七種衡量標準,分別為Q3[2-14],Sov[2-6],邊界識別率[3],內部識別率[3]和C、E、H每種獨立結構識別率[4-5]的衡量標準。

3.1 Q3

在8態(tài)DSSP[15]中,根據(jù) “G、H、I轉為H(螺旋)”,“B、E 轉為E(折疊)”,“其他結構轉為C(轉角)”將8態(tài)轉為3態(tài)結構。Q3為正確預測的氨基酸數(shù)占所有氨基酸的比例,計算公式如下:

其中,QC為正確預測的轉角數(shù),QE為正確預測的折疊數(shù),QH為正確預測的螺旋數(shù),S為總的氨基酸數(shù)。

3.2 Sov

Sov是一種基于重疊片段比值的度量方式,設觀測到的所有結構片段標記為Sab,所有預測到的片段則標記為Spr,而Sa是Sab和Spr狀態(tài)相同的片段。任何觀測到的殘基長度被定義為length(Sab),對于Sa中任意一對片段,實際長度為minov(Sab,Spr),至少有一個殘基的長度總限度為maxov(Sab,Spr)?;谝陨隙x,Sov的計算公式如下:

其中增設因子σ(Sab,Spr),允許蛋白質結構中的觀測片段邊界處的變化,其定義為:

表 1 180條數(shù)據(jù)集Table 1 180 data set

3.3 邊界識別率和內部識別率

假設在一條長度為N的蛋白質序列中,第n(1

根據(jù)蛋白質同源性分類的所有服務器Q3、Sov、邊界準確率和內部準確率見表2~表4,180條蛋白質的各項預測平均值見表5。

從表2可以看出,同源性30%的蛋白質數(shù)據(jù)集中,PSRSM在Q3、邊界識別率和內部識別率上取得了最好的結果,分別達到了89.49%,84.25%和90.91%,并且對轉角C和折疊E的識別率也是最好的,準確率分別達到了87.19%和90.27%。而SPOT-1D在Sov和螺旋H的識別率上結果要比PSRSM好一些,分別為83.16%和91.36%。

表2 30%同源性數(shù)據(jù)集Table 2 30% homology data set %

表3里40%同源性的數(shù)據(jù)下,PSRSM各項指標均為最好的結果,分別為Q3:90.53%;Sov:84.71%;邊界識別率:85.24%;內部識別率:91.25%;轉角C:87.34%;折疊E:88.46%;螺旋H:92.91%。SPOT-1D緊隨其后,Q3為88.52%,相差2.01%,但Sov的表現(xiàn)依舊很出色,比PSRSM低約0.5%。

在表4中,對于70%同源性的蛋白質,PSRSM除了內部識別率,其他指標均取得了最好的結果,分別為:Q3:89.87%;Sov:86.12%;邊界識別率:83.65%;轉角C:89.08%,折疊E:88.34%和螺旋H:89.64%。SPOT-1D的內部識別率為91.46%,其他指標同PSRSM的差距和在40%同源性數(shù)據(jù)集的結果沒有太大差別,約低1%~2%。

表5為全部數(shù)據(jù)集的評估結果,PSRSM各項指標全部取得了最好的結果:Q3:89.96%;Sov:84.52%;邊界識別率:84.37%;內部識別率:91.18%;轉角C:87.88%,折疊E:88.98%和螺旋H:91.25%。

表3 40%同源性數(shù)據(jù)集Table 3 40% homology data set %

表 4 70%同源性數(shù)據(jù)集Table 4 70% homology data set %

表 5 180條數(shù)據(jù)集Table 5 180 data set %

為了更加直觀的對評估結果進行觀察,將所有網站的Q3結果根據(jù)蛋白質長度做出了散點圖,所選180條數(shù)據(jù)集中,蛋白質的長度范圍為34-552,如圖8所示??梢钥闯鯬SRSM(黃色)相對于其他顏色的位置更偏向于頂部,大部分服務器的預測準確率在70%~90%,PSRSM結果是優(yōu)于其他服務器的。

表6對各服務器的預測方法、訓練集、模型輸入特征,Q3準確率和使用效率方面做了總結。本此測試從PDB中隨機選取了一條長度為235的蛋白質:5XNE_A,測試各服務器從提交序列到獲得結果的時間,結果為Jpred4最快,用時51 s;SPOT-1D所需時間最長,為16 m 42 s。然后又隨機選取了五條蛋白質:5WOV_A(長度34)、5YIO_A(長度121)、5YKU_A(長度125)、5YVK_A(長度225)、5Y5B_A(長度228)做進一步的測試,結果為Jpred4用時最短,為2 m 25 s,SPOT-1D用時最長,為27 m 45 s。在WEB使用體驗上,PSRSM、Spider3、RaptorX、Jpred4均提供了批量測試的功能;除了PSRSM,其他方法也提供了支持不同操作系統(tǒng)環(huán)境的軟件下載服務。

圖8 所有服務器的Q3散點圖Fig.8 Q3 scatter plot for all servers

表 6 各服務器方法總結
Table 6 Summary of methods for each server

ServersPSRSMSpider3SPOT-1DRaptorXMUFOLDPsipredJpred4方法原理分段特征提取+SVMsLSTM+BRNNsResNets+LSTM-BRNNsDCNN+CNFCNN前饋神經網絡SNNS神經網絡包訓練集數(shù)量(ASTRAL+CullPDB)15 696(PISCES服務器中選取)4 590(PISCES服務器中選取)10029(CullPDB)5 600(CullPDB)9 000———(SCOPe/ASTRAL)1 358特征輸入PSSM氨基酸7種理化性質+PSSM+隱馬爾可夫模型特征氨基酸7種理化性質+SPOT-Contact預測接觸圖信息+PSSM+隱馬爾可夫模型特征PSSM+21個元素的二進制向量氨基酸理化性質+PSSM+隱馬爾可夫模型特征PSSMPSSM+隱馬爾可夫模型特征Q3/%89.9685.7788.1883.6186.7479.7278.29是否支持批量預測是是是是否否是一條蛋白質(長度235)運算時間5 m 39 s3 m 40 s16 m 42 s3 m 19 s2 m 30 s1 m 46 s51 s五條蛋白質運算時間17 m 7 s12 m 39 s27 m 45 s7 m 5 s9 m 20 s6 m 30 s2 m 25 s

4 結 論

對PSRSM、Spider3、SPOT-1D、RaptorX、MUFOLD,Psipred和Jpred4七種在線服務的蛋白質二級結構預測效果進行了評估。整體來看,在多種比對方法下,PSRSM絕大多數(shù)指標都取得了最優(yōu)的結果。從方法選擇角度來看,PSRSM根據(jù)蛋白質長度劃分不同子集和基于大數(shù)據(jù)集的訓練方式,明顯有較好的成效,而緊隨其后的SPOT-1D多種深度學習方法和大數(shù)據(jù)集的訓練結合,Sov的準確率也是非常穩(wěn)定,效果出色??梢钥闯觯鞍踪|二級結構預測可以從結合多種深度學習方法,運用大數(shù)據(jù)進行模型訓練做進一步的研究。

猜你喜歡
識別率郵箱長度
1米的長度
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
計算機工程(2020年3期)2020-03-19 12:24:50
基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關系
沒問題郵箱
趣味(語文)(2018年10期)2018-12-29 12:28:30
提升高速公路MTC二次抓拍車牌識別率方案研究
愛的長度
怎樣比較簡單的長度
高速公路機電日常維護中車牌識別率分析系統(tǒng)的應用
關于停止使用dianxunjishu@china.com郵箱的通知
電訊技術(2016年1期)2016-03-13 23:44:01
不同長度
讀寫算(上)(2015年6期)2015-11-07 07:17:55
报价| 喜德县| 鄯善县| 鹰潭市| 佛冈县| 唐河县| 古田县| 光山县| 永清县| 泸西县| 蒙城县| 高台县| 敦煌市| 丹东市| 九龙坡区| 石狮市| 肇庆市| 普洱| 庆云县| 彭州市| 祁连县| 瑞昌市| 绥棱县| 青浦区| 宿州市| 大庆市| 进贤县| 宁安市| 永登县| 韶关市| 德化县| 嫩江县| 旅游| 师宗县| 昆明市| 长海县| 通海县| 顺义区| 五大连池市| 尚义县| 江永县|