国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

蛋白質(zhì)結(jié)構(gòu)域劃分方法及在線服務(wù)綜述

2019-05-07 01:33:26
關(guān)鍵詞:同源結(jié)構(gòu)域邊界

(華中科技大學(xué) a.生命學(xué)院; b.軟件學(xué)院, 湖北 武漢 430074)

隨著大量物種全基因組測(cè)序的完成,以測(cè)定蛋白質(zhì)結(jié)構(gòu)為目的的結(jié)構(gòu)基因組學(xué)和以研究蛋白質(zhì)功能為目的的蛋白質(zhì)組學(xué)成為當(dāng)前研究熱點(diǎn)之一.根據(jù)蛋白質(zhì)三級(jí)結(jié)構(gòu)的測(cè)定和功能研究,有利于增深對(duì)疾病發(fā)生的分子機(jī)制理解,從而有助于開(kāi)發(fā)新的手段與方法來(lái)預(yù)防、診斷疾病和新藥研發(fā)[1-2].

結(jié)構(gòu)域是蛋白質(zhì)的一個(gè)結(jié)構(gòu)層次, 可以看作是蛋白質(zhì)結(jié)構(gòu)、折疊、功能、進(jìn)化和設(shè)計(jì)的基本單位.根據(jù)PDB數(shù)據(jù)庫(kù)統(tǒng)計(jì)[3-4],已知結(jié)構(gòu)蛋白質(zhì)中約40%為多結(jié)構(gòu)域蛋白[5].結(jié)構(gòu)域的不同組合使多結(jié)構(gòu)域蛋白質(zhì)具有不同的三級(jí)結(jié)構(gòu)和功能.準(zhǔn)確識(shí)別蛋白質(zhì)結(jié)構(gòu)域?qū)Y(jié)構(gòu)基因組學(xué)選擇目標(biāo)序列、結(jié)構(gòu)解析至關(guān)重要,也是預(yù)測(cè)和理解蛋白質(zhì)功能關(guān)鍵的一步.自1973年以來(lái),若干研究者就蛋白質(zhì)結(jié)構(gòu)域劃分問(wèn)題進(jìn)行研究,可歸納為從實(shí)驗(yàn)測(cè)定三維結(jié)構(gòu)著手的結(jié)構(gòu)域劃分方法和不依賴三維結(jié)構(gòu)僅從序列出發(fā)的結(jié)構(gòu)域劃分方法.前者的代表性工作包括 Wetlaufer[6]首次提出的基于原子間接觸密度劃分結(jié)構(gòu)域的方法,以及后期Domain Parser[7-9]、PDP等方法[10];后者的代表性工作包括DROP[11-12]、Dompro[13]、DOBO[14]、ThreaDom等[15].

目前已建立一些結(jié)構(gòu)域數(shù)據(jù)和在線預(yù)測(cè)的服務(wù)系統(tǒng),例如,Pfam[16-17]、SMART[18-19]、SCOP[20-21]、CATH[22-23]、InterPro[24]、ThreaDomEx[25]等.據(jù)2016年2月份的數(shù)據(jù)統(tǒng)計(jì),當(dāng)前最完整的蛋白質(zhì)序列數(shù)據(jù)庫(kù)(UniProt)中去掉重復(fù)序列后有74 897 059條序列,該數(shù)據(jù)庫(kù)的結(jié)構(gòu)域注釋主要來(lái)自Pfam、SMART、SCOP、CATH以及InterPro等結(jié)構(gòu)域數(shù)據(jù)庫(kù),其中只有36 449 183(48.7%)的序列有結(jié)構(gòu)域注釋.其中被研究工作者熟知、并廣泛使用的Pfam結(jié)構(gòu)域數(shù)據(jù)庫(kù)注釋了33 529 428條序列.究其主要原因:已解析三級(jí)結(jié)構(gòu)的蛋白質(zhì)及其近同源蛋白質(zhì)序列只占有較小的比例,當(dāng)前技術(shù)還無(wú)法較大規(guī)模地從序列注釋遠(yuǎn)同源蛋白質(zhì)結(jié)構(gòu)域.本文從蛋白質(zhì)結(jié)構(gòu)域識(shí)別問(wèn)題的提出、結(jié)構(gòu)域邊界預(yù)測(cè)、不連續(xù)結(jié)構(gòu)域檢測(cè)及相關(guān)在線服務(wù)情況進(jìn)行介紹,供相關(guān)研究者參考.

1 結(jié)構(gòu)域識(shí)別問(wèn)題

蛋白質(zhì)結(jié)構(gòu)域識(shí)別問(wèn)題不僅要準(zhǔn)確識(shí)別蛋白質(zhì)結(jié)構(gòu)域劃分邊界,還要準(zhǔn)確檢測(cè)出組成蛋白質(zhì)結(jié)構(gòu)域的序列片段(即不連續(xù)結(jié)構(gòu)域).

以多結(jié)構(gòu)域蛋白4-α-葡聚糖轉(zhuǎn)移酶(PDB:1LWH)為例來(lái)說(shuō)明結(jié)構(gòu)域識(shí)別過(guò)程,從序列出發(fā)的結(jié)構(gòu)域識(shí)別過(guò)程包括結(jié)構(gòu)域邊界預(yù)測(cè)和不連續(xù)結(jié)構(gòu)域檢測(cè)2個(gè)步驟.圖1a 是4-α-葡聚糖轉(zhuǎn)移酶的蛋白質(zhì)結(jié)構(gòu)圖,圖1b是該蛋白結(jié)構(gòu)域示意圖.從圖1a可以看出該蛋白包含3個(gè)結(jié)構(gòu)域:[1~93(紫紅色)|159~391(紅色)]、[94~158(黃色)]、[392~441(藍(lán)色)].識(shí)別該蛋白的結(jié)構(gòu)域的過(guò)程:首先確定結(jié)構(gòu)域邊界HIS93、ASN158、ARG391,這3個(gè)殘基將該蛋白分為4段; 然后檢測(cè)不連續(xù)結(jié)構(gòu)域.對(duì)該蛋白, 第1段[1~93]與第3段[159~391]構(gòu)成不連續(xù)結(jié)構(gòu)域,這從圖1b中可以更清晰的看出,A1[1~93]和A2[159~391]在序列上不臨近,但在三級(jí)結(jié)構(gòu)上是一個(gè)結(jié)構(gòu)域(即不連續(xù)結(jié)構(gòu)域).

圖1 4-α-葡聚糖轉(zhuǎn)移酶結(jié)構(gòu)與結(jié)構(gòu)域示意圖Fig.1 Schematic diagram of structure and domain of 4-α-glucanotransferase

一個(gè)優(yōu)秀的結(jié)構(gòu)域劃分工具需要準(zhǔn)確的判斷出在氨基酸序列位置93(94)、158(159)、391(392)3個(gè)位置附近存在結(jié)構(gòu)域劃分邊界,即把序列劃分為(1~93))(94~158)(159~391)(392~441)4個(gè)片段;同時(shí)要應(yīng)該具有將片段(1~93)和片段(159~391)組裝成一個(gè)結(jié)構(gòu)域的能力(不連續(xù)結(jié)構(gòu)域檢測(cè)).對(duì)不具備這2種能力的結(jié)構(gòu)域劃分的工具來(lái)說(shuō),至少是不完美的.

結(jié)構(gòu)域劃分問(wèn)題又分為從結(jié)構(gòu)出發(fā)的結(jié)構(gòu)域劃分和從序列出發(fā)的結(jié)構(gòu)域劃分.對(duì)從結(jié)構(gòu)出發(fā)的結(jié)構(gòu)域劃分是根據(jù)序列對(duì)應(yīng)的3D結(jié)構(gòu)進(jìn)行空間上的結(jié)構(gòu)域劃分;對(duì)于從序列出發(fā)的結(jié)構(gòu)域劃分,則不使用3D結(jié)構(gòu),只根據(jù)序列信息進(jìn)行預(yù)測(cè)或檢測(cè),以進(jìn)行結(jié)構(gòu)域劃分.多數(shù)基于結(jié)構(gòu)的結(jié)構(gòu)域劃分空間考慮了不連續(xù)結(jié)構(gòu)域劃分,而只有少數(shù)幾個(gè)從序列出發(fā)的結(jié)構(gòu)域劃分工具考慮了不連續(xù)結(jié)構(gòu)域檢測(cè)問(wèn)題.

2 從結(jié)構(gòu)出發(fā)的蛋白質(zhì)結(jié)構(gòu)域劃分方法

從通過(guò)實(shí)驗(yàn)獲得蛋白質(zhì)三維結(jié)構(gòu)開(kāi)始,通過(guò)把蛋白質(zhì)分子劃分為小的域進(jìn)行研究,可以降低研究的復(fù)雜程度.而多數(shù)情況下,蛋白質(zhì)域的定義是指從結(jié)構(gòu)上講的域,即結(jié)構(gòu)域.結(jié)構(gòu)域是一個(gè)具有以下特征的蛋白質(zhì)結(jié)構(gòu)單元[26]:①是緊密的;②是穩(wěn)定的;③含有一個(gè)疏水核心;④可以獨(dú)立蛋白質(zhì)的其他部分進(jìn)行單獨(dú)折疊;⑤可以跟其它結(jié)構(gòu)域結(jié)合并出現(xiàn)在其他蛋白質(zhì)中;⑥行使特定的功能.根據(jù)這一定義,不僅有專家手工定義的結(jié)構(gòu)域劃分?jǐn)?shù)據(jù)庫(kù)如SCOP[20,27-28]、CATH[29]等,還有其他自動(dòng)劃分工具.Rossman等[30]根據(jù)給出結(jié)構(gòu)Cα-Cα距離圖進(jìn)行結(jié)構(gòu)域劃分;Crippen[31]采用聚類的方法進(jìn)行結(jié)構(gòu)域劃分;Rose[32]采用將3D空間投影到2D空間的方法進(jìn)行結(jié)構(gòu)域劃分;Wodak等[33]通過(guò)發(fā)現(xiàn)2個(gè)結(jié)構(gòu)域間最小接觸界面進(jìn)行結(jié)構(gòu)域劃分;Holm等[34]使用剛體震動(dòng)構(gòu)建的接觸矩陣開(kāi)發(fā)PUU方法;Swindells[35]通過(guò)構(gòu)建疏水核心進(jìn)行結(jié)構(gòu)域劃分;Islam等[36]采用發(fā)現(xiàn)結(jié)構(gòu)域間最小接觸進(jìn)行結(jié)構(gòu)域劃分;Siddiqui等[37]通過(guò)計(jì)算結(jié)構(gòu)域內(nèi)外最大比值進(jìn)行結(jié)構(gòu)域劃分;Sowdhamini等[38]通過(guò)二級(jí)結(jié)構(gòu)域聚類的方法進(jìn)行結(jié)構(gòu)域劃分;Taylor[39]采用殘基間空間接近度模型進(jìn)行劃分;Wernisch 等[40]利用Kernighan-lin圖啟發(fā)式算法,發(fā)現(xiàn)結(jié)構(gòu)域間最小接觸進(jìn)行結(jié)構(gòu)域劃分;Xu等[8]利用圖論中最大流和最小割方法,發(fā)現(xiàn)結(jié)構(gòu)域最小接觸進(jìn)行切割;Xuan等[41]使用模糊聚類對(duì)基礎(chǔ)片段組裝的方法進(jìn)行結(jié)構(gòu)域劃分;Alexandrov等[10]利用結(jié)構(gòu)域接觸最小數(shù)量進(jìn)行結(jié)構(gòu)域劃分;Berezovsky[42]使用原子間范德華接觸進(jìn)行聚類的方法進(jìn)行結(jié)構(gòu)域劃分;Kundu等[43]利用高斯網(wǎng)絡(luò)模型進(jìn)行結(jié)構(gòu)域劃分.這些方法可以歸納為自下向上的方法或自上向下的方法,指用從小的基本片段開(kāi)始組裝,或者總體進(jìn)行劃分,再由某種準(zhǔn)則判斷劃分.很明顯,通過(guò)原子間接觸作為量度,成為從結(jié)構(gòu)進(jìn)行結(jié)構(gòu)域劃分的主要手段.圖2 給出了Xu等[8]開(kāi)發(fā)的Domain Parser以原子間相互作用為量度的從上到下的一種方法,其將蛋白質(zhì)結(jié)構(gòu)用一個(gè)網(wǎng)絡(luò)表示,網(wǎng)絡(luò)的節(jié)點(diǎn)為氨基酸殘基,邊表示殘基間相互作用,然后用最大流最小割的方法進(jìn)行結(jié)構(gòu)域劃分.2個(gè)氨基酸相互作用的強(qiáng)度可以視為邊的容量,并是如下量的函數(shù):殘基間原子的接觸數(shù)量、殘基間主鏈接觸數(shù)、跨β折疊的相互作用、是否屬于同一個(gè)β折疊.

圖2 Domain Parser 蛋白質(zhì)圖表示
Fig.2 Protein representation based on graph in Domain Parser

采用最大流最小割的方法進(jìn)行的基本過(guò)程:給圖增加一個(gè)虛擬的源s和槽節(jié)點(diǎn)t,采用最大流最小割原理尋找將蛋白質(zhì)分成2個(gè)結(jié)構(gòu)域的瓶頸邊,然后刪除這些邊,網(wǎng)絡(luò)被表示為一個(gè)跟源s相連接的網(wǎng)絡(luò),一個(gè)跟槽t相連接的網(wǎng)絡(luò),并各自代表了被劃分出來(lái)的結(jié)構(gòu)域.重復(fù)此過(guò)程,直到滿足終止條件結(jié)束.

基于結(jié)構(gòu)的蛋白質(zhì)結(jié)構(gòu)域邊界劃分思路和方法,也可以結(jié)合預(yù)測(cè)特征應(yīng)用到從序列劃分結(jié)構(gòu)域問(wèn)題.

3 從序列預(yù)測(cè)結(jié)構(gòu)域邊界

從序列預(yù)測(cè)/劃分結(jié)構(gòu)域邊界主要包括基于同源比對(duì)、三級(jí)結(jié)構(gòu)預(yù)測(cè)和機(jī)器學(xué)習(xí)等3類方法.

同源比對(duì)方法是識(shí)別結(jié)構(gòu)域邊界的最基本方法.例如Pfam等采用多序列比對(duì),搜索序列間相似度高的蛋白質(zhì)結(jié)構(gòu)域家族,從而確定結(jié)構(gòu)域邊界.再如FIEFDOM通過(guò)PSI-blast搜索已知結(jié)構(gòu)近同源模板,推知結(jié)構(gòu)域邊界[44].該類方法在不存在已知結(jié)構(gòu)的近同源蛋白的情況下,無(wú)法完成結(jié)構(gòu)域識(shí)別.Xue等[15]開(kāi)發(fā)的ThreaDom,探索基于遠(yuǎn)同源比對(duì)方法進(jìn)行蛋白質(zhì)結(jié)構(gòu)域預(yù)測(cè)研究,取得較好的結(jié)果.

采用預(yù)測(cè)的三級(jí)結(jié)構(gòu)識(shí)別結(jié)構(gòu)域,是一種很直觀的方法,可以采用諸如Modeller[45-46]、I-Tasser[47]等三級(jí)結(jié)構(gòu)建模軟件進(jìn)行結(jié)構(gòu)建模,再使用諸如Domain parser等從結(jié)構(gòu)出發(fā)的結(jié)構(gòu)域劃分工具進(jìn)行結(jié)構(gòu)域劃分,如SnapDRAGON[48]、 RosettaDom[49]、 OPUS-DOM[50]等.此類方法不僅依賴于找到近同源模板,而且會(huì)受到目標(biāo)序列長(zhǎng)度的限制.況且,結(jié)構(gòu)域識(shí)別的重要應(yīng)用之一就是支持結(jié)構(gòu)預(yù)測(cè),因而這種方法也有諸多限制.

在沒(méi)有近同源模板的情況下,研究者主要使用基于統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)域的邊界.DGS根據(jù)序列長(zhǎng)度估計(jì)蛋白質(zhì)結(jié)構(gòu)域位置[51];DomCut利用結(jié)構(gòu)域邊界的連接區(qū)域的傾向性統(tǒng)計(jì)[52],判斷結(jié)構(gòu)域邊界;Armadillo利用氨基酸在結(jié)構(gòu)域及結(jié)構(gòu)域邊界出現(xiàn)的傾向性預(yù)測(cè)邊界[53].自2005年開(kāi)始,研究集中在采用機(jī)器學(xué)習(xí)的方法預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)域,如DROP[11-12]、DOMPro[13]、DOBO[14]、PPRODO[54]和DomNet[55]等.這些方法利用局部或整體的殘基的統(tǒng)計(jì)特征,及psi-blast序列比對(duì)的特異矩陣等構(gòu)成特征向量,再使用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、隨機(jī)森林等方法進(jìn)行學(xué)習(xí)分類.我國(guó)吉林大學(xué)Zou等[56-57]采用距離最大熵和支持向量機(jī)的方法,上海大學(xué)Li等[58]結(jié)合最大相關(guān)最小冗余特征選擇方法,同濟(jì)大學(xué)Zhang等[59]采用條件隨機(jī)場(chǎng)的開(kāi)發(fā)的DomHR方法等都屬于這一類.還有一些方法,組合多個(gè)或多種方法對(duì)蛋白質(zhì)結(jié)構(gòu)域進(jìn)行綜合預(yù)測(cè).例如DOMAC組合了基于同源比對(duì)方法和機(jī)器學(xué)習(xí)方法[60];Meta_DP使用了10 個(gè)預(yù)測(cè)器[61],根據(jù)“多數(shù)”的投票原則,給出一致性預(yù)測(cè).這些方法是對(duì)沒(méi)有近同源模板序列進(jìn)行結(jié)構(gòu)域預(yù)測(cè)有價(jià)值的探索.

這些從序列出發(fā)的方法中,通過(guò)高序列相似度的同源模板拷貝結(jié)構(gòu)域劃分邊界具有較高的可信度.ThreaDom是一個(gè)使用多個(gè)遠(yuǎn)同源比對(duì)的結(jié)構(gòu)域劃分方法[15],較以往方法有較大的性能優(yōu)勢(shì).經(jīng)過(guò)benchmark測(cè)試,在缺乏序列相似度>30%模板的情況下,ThreaDom的邊界預(yù)測(cè)準(zhǔn)確性較以往同源比對(duì)或機(jī)器學(xué)習(xí)方法均有明顯的提高.

ThreaDom流程及邊界劃分見(jiàn)圖3.

圖3 ThreaDom 流程及邊界劃分示意圖Fig.3 The flowchart and boundary decision of ThreaDom

從圖3a可見(jiàn),輸入序列通過(guò)LOMET進(jìn)行遠(yuǎn)同源比對(duì)后,得到多個(gè)已知3D結(jié)構(gòu)的蛋白質(zhì)序列模板,然后對(duì)這些模板與標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)進(jìn)行位置映射,再通過(guò)計(jì)算結(jié)構(gòu)域邊界或比對(duì)缺失懲罰分?jǐn)?shù)計(jì)算出結(jié)構(gòu)域保守分?jǐn)?shù),最后通過(guò)全局門檻值方法確定結(jié)構(gòu)域邊界的位置(圖3b).在對(duì)用戶提交的序列的預(yù)測(cè)結(jié)果分析發(fā)現(xiàn),ThreaDom在針對(duì)“Hard”類型、長(zhǎng)序列及包含不連續(xù)結(jié)構(gòu)域的結(jié)構(gòu)域預(yù)測(cè)方面存在不足,在方法的模板選擇、保守分?jǐn)?shù)的設(shè)計(jì)、決策規(guī)則設(shè)計(jì)等領(lǐng)域還有很多未解決的問(wèn)題.

4 從序列檢測(cè)不連續(xù)結(jié)構(gòu)域

根據(jù)PDB數(shù)據(jù)統(tǒng)計(jì),約45%的多結(jié)構(gòu)域蛋白質(zhì)包括一個(gè)或多個(gè)不連續(xù)結(jié)構(gòu)域.在基于結(jié)構(gòu)劃分結(jié)構(gòu)域的方法中,已經(jīng)有多個(gè)方法可以劃分不連續(xù)結(jié)構(gòu)域,如Domain Parser、PDP等.然而從序列出發(fā)的不連續(xù)結(jié)構(gòu)域檢測(cè)嚴(yán)重依賴于發(fā)現(xiàn)高序列相似度模板.三級(jí)結(jié)構(gòu)建模的方法,在沒(méi)有高序列相似度模板的情況下,很難完成對(duì)包含不連續(xù)結(jié)構(gòu)域的多結(jié)構(gòu)域蛋白的建模.基于統(tǒng)計(jì)與機(jī)器學(xué)習(xí)的方法更側(cè)重于結(jié)構(gòu)域邊界的預(yù)測(cè),很少涉及到不連續(xù)結(jié)構(gòu)域檢測(cè).目前,Sikder等[62]采用基于預(yù)測(cè)原子接觸方法、Xue等[5,15]的Threadom和DomEx,以及ThreaDomEx[25]是少數(shù)幾個(gè)具備從序列檢測(cè)不連續(xù)結(jié)構(gòu)域的方法.

Sikder等基于預(yù)測(cè)的原子間接觸間接預(yù)測(cè)不連續(xù)結(jié)構(gòu)域,只能對(duì)極少部分蛋白質(zhì)是否包含不連續(xù)結(jié)構(gòu)域進(jìn)行判斷,無(wú)法報(bào)告準(zhǔn)確的不連續(xù)結(jié)構(gòu)域及邊界.

ThreaDom具有檢測(cè)不連續(xù)結(jié)構(gòu)域的功能,是通過(guò)將LOMET返回模板的結(jié)構(gòu)域邊界聚類來(lái)實(shí)現(xiàn)的,該方法簡(jiǎn)單、直觀,但依然依賴于Threading程序給出的遠(yuǎn)同源模板的準(zhǔn)確性.ThreaDom檢測(cè)不連續(xù)結(jié)構(gòu)域的步驟如下:①檢測(cè)輸入序列是否含有不連續(xù)結(jié)構(gòu)域.如果LOMET返回的模板中有超過(guò)30%的模板包括1或多個(gè)不連續(xù)結(jié)構(gòu)域,則認(rèn)為該輸入序列含有1個(gè)不連續(xù)結(jié)構(gòu)域;②對(duì)不連續(xù)結(jié)構(gòu)域模板進(jìn)行聚類.對(duì)具有相同結(jié)構(gòu)域連續(xù)序列片段的數(shù)量和相似的邊界的模板聚成一類,以邊界誤差在5個(gè)氨基酸以內(nèi)為界定義邊界的相似性;③邊界優(yōu)化與邊界替換.根據(jù)結(jié)構(gòu)域保守分?jǐn)?shù)預(yù)測(cè)結(jié)構(gòu)域邊界和邊界聚類中的第一個(gè)聚類結(jié)果融合.如果預(yù)測(cè)結(jié)構(gòu)域的邊界與第一個(gè)聚類中的結(jié)構(gòu)域邊界誤差在20個(gè)殘基內(nèi),這個(gè)預(yù)測(cè)結(jié)構(gòu)域邊界將合并入第一類聚類相應(yīng)結(jié)構(gòu)域中;同時(shí),如果預(yù)測(cè)的邊界結(jié)構(gòu)域邊界與聚類邊界有很好的吻合度,且第一類結(jié)構(gòu)域數(shù)量多于預(yù)測(cè)的結(jié)構(gòu)域,將采用第一個(gè)聚類邊界替換預(yù)測(cè)的結(jié)構(gòu)域.

DomEx提出了組裝序列對(duì)稱比對(duì)的思想,以進(jìn)行不連續(xù)結(jié)構(gòu)域檢測(cè).可以使用任何結(jié)構(gòu)域邊界預(yù)測(cè)工具預(yù)測(cè)邊界,進(jìn)行不連續(xù)結(jié)構(gòu)域檢測(cè).DomEx有3個(gè)基本假設(shè): ?同源的蛋白結(jié)構(gòu)域可以使用profile-profile比對(duì)的方法檢測(cè)到; ?同源的結(jié)構(gòu)域之間應(yīng)該有相似的長(zhǎng)度;?組裝拼接的不連續(xù)結(jié)構(gòu)域,再拼接點(diǎn)的兩側(cè)有相似的比對(duì)長(zhǎng)度和序列相似性,即具有關(guān)于組裝點(diǎn)兩側(cè)的對(duì)稱性.

DomEx設(shè)計(jì)了模板相似分?jǐn)?shù)、對(duì)稱指數(shù)和profile-profile比對(duì)分?jǐn)?shù),用于不連續(xù)結(jié)構(gòu)域檢測(cè).DomEx結(jié)合ThreaDom邊界檢測(cè)的流程圖如圖4所示.其關(guān)鍵步驟包括:①利用ThreaDom或者其他結(jié)構(gòu)域邊界預(yù)測(cè)工具預(yù)測(cè)結(jié)構(gòu)域邊界,把序列分成多個(gè)片段;②將空間上不連續(xù)的序列片段組裝為候選的不連續(xù)結(jié)構(gòu)域;③使用psi-blast搜索候選不連續(xù)結(jié)構(gòu)域的同源結(jié)構(gòu)域;④利用模板相似分?jǐn)?shù)、對(duì)稱指數(shù)、長(zhǎng)度相似度評(píng)價(jià)組裝結(jié)構(gòu)域是一個(gè)不連續(xù)結(jié)構(gòu)域的可能性;⑤利用profile-profile 比對(duì)進(jìn)一步確認(rèn)不連續(xù)結(jié)構(gòu)域;⑥檢測(cè)沖突并給出最終結(jié)果.

DomEx在組裝候選不連續(xù)結(jié)構(gòu)域后,使用psi-blast搜索單結(jié)構(gòu)域nr數(shù)據(jù)庫(kù).該庫(kù)的結(jié)構(gòu)域主要來(lái)源于CATH、SCOP和PFam.對(duì)通過(guò)在PFam中找到的模板,還需要采用profile-profile比對(duì)方法進(jìn)行進(jìn)一步確認(rèn).通過(guò)實(shí)驗(yàn)觀測(cè),定義了一個(gè)參數(shù)b用于對(duì)不連續(xù)檢出率MCC進(jìn)行訓(xùn)練,具有較好的魯棒性.

DomEx方法在不連續(xù)結(jié)構(gòu)域檢測(cè)方面與ThreaDom有互補(bǔ)性.在ThreaDom不能檢測(cè)出的結(jié)果中,DomEx可以檢測(cè)出26.7%的不連續(xù)結(jié)構(gòu)域,且準(zhǔn)確率在72%以上.當(dāng)前基于對(duì)稱比對(duì)和序列組裝方法,需要在以下2方面重點(diǎn)突破:①在3個(gè)及3個(gè)以上序列片段組成的不連續(xù)結(jié)構(gòu)域檢測(cè)方面需要進(jìn)一步擴(kuò)展;②需要與Threading等遠(yuǎn)同源序列比對(duì)方法深度融合,提高不連續(xù)結(jié)構(gòu)域的檢出率和準(zhǔn)確性.

ThreaDomEx 則組合了ThreaDom及DomEx的優(yōu)點(diǎn),其不連續(xù)結(jié)構(gòu)域檢測(cè)能力比ThreaDom更為優(yōu)秀.

圖4 DomEx不連續(xù)結(jié)構(gòu)域檢測(cè)流程Fig.4 Discontinuous domain detection of DomEx

5 結(jié)構(gòu)域在線預(yù)測(cè)服務(wù)

蛋白質(zhì)結(jié)構(gòu)域的在線服務(wù)主要包括數(shù)據(jù)庫(kù)和在線預(yù)測(cè)網(wǎng)站2類.Pfam、SMART、SCOP、CATH、InetrPro 和PROSITE是常用的結(jié)構(gòu)域數(shù)據(jù)庫(kù)[63].

Pfam、SMART都是基于隱馬爾科夫模型進(jìn)行近同源序列比對(duì)方法構(gòu)建.PROSITE是使用profile和相關(guān)規(guī)則構(gòu)建的結(jié)構(gòu)域相關(guān)數(shù)據(jù),其與Pfam相比,更側(cè)重功能標(biāo)注.這類數(shù)據(jù)庫(kù)是建立在高序列相似度的近同源序列比對(duì)的基礎(chǔ)上,無(wú)法深層次識(shí)別遠(yuǎn)同源序列蛋白質(zhì)結(jié)構(gòu)域.主要的不足是無(wú)法對(duì)于找不到近同源模板的序列進(jìn)行結(jié)構(gòu)域識(shí)別.

SCOP、CATH等僅僅對(duì)已知結(jié)構(gòu)的蛋白質(zhì)數(shù)據(jù)庫(kù)進(jìn)行整理、分類、標(biāo)定等,不包含未知三級(jí)結(jié)構(gòu)的蛋白質(zhì)序列.這類數(shù)據(jù)庫(kù)不提供對(duì)未知結(jié)構(gòu)的蛋白質(zhì)序列的結(jié)構(gòu)域識(shí)別.InterPro通過(guò)整合多個(gè)結(jié)構(gòu)域數(shù)據(jù)庫(kù)的不同的結(jié)構(gòu)域特征,作為結(jié)構(gòu)域的預(yù)測(cè)模型,該數(shù)據(jù)庫(kù)自身并不生成結(jié)構(gòu)域的識(shí)別模型,只提供多個(gè)數(shù)據(jù)庫(kù)的整合信息.

與蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(kù)并存的是結(jié)構(gòu)域在線預(yù)測(cè)服務(wù),例如,DOBO、ThreaDom、ThreaDomEx等,提供了在線從序列預(yù)測(cè)結(jié)構(gòu)域邊界的能力.例如,ThreaDom自2013年7月上線以來(lái),已經(jīng)為來(lái)自世界各地的研究者提供9 600余次在線服務(wù).

ThreaDomEx繼承了ThreaDom和DomEx的優(yōu)勢(shì),是其中具有代表性的在線預(yù)測(cè)服務(wù).ThreaDomEx不僅能預(yù)測(cè)結(jié)構(gòu)域邊界、檢測(cè)序列中存在不連續(xù)結(jié)構(gòu)域,而且在線服務(wù)器用戶界面友好,允許用戶根據(jù)個(gè)人知識(shí)使用系統(tǒng)提供中間結(jié)果,進(jìn)行可視化交互修改、保存預(yù)測(cè)結(jié)果.圖5給出了ThreaDomEx在線服務(wù)預(yù)測(cè)界面的結(jié)果,用戶可以根據(jù)系統(tǒng)預(yù)測(cè)的結(jié)果用鼠標(biāo)進(jìn)行拖拽操作,可以參考預(yù)測(cè)二級(jí)結(jié)構(gòu)和溶液可及性進(jìn)行修改;可以在增加刪除結(jié)構(gòu)域片段后,提交服務(wù)器再次進(jìn)行不連續(xù)結(jié)構(gòu)域檢測(cè).

圖5 ThreaDomEx在線服務(wù)界面Fig.5 The oneline service page of ThreaDomEx

6 結(jié) 論

總之,以往的研究對(duì)蛋白質(zhì)結(jié)構(gòu)域識(shí)別做了積極而有意義的探索,但依然存在大于50%的非重復(fù)蛋白質(zhì)序列亟需標(biāo)注結(jié)構(gòu)域信息.在缺少近同源模板的情況下,通過(guò)基于Threading檢測(cè)遠(yuǎn)同源模板方法,成為提高結(jié)構(gòu)域標(biāo)注準(zhǔn)確性和標(biāo)注比例最為有效和可能的途徑.另外,由于基因插入、融合造成大量存在的不連續(xù)結(jié)構(gòu)域,也要求有新的方法和手段提高不連續(xù)結(jié)構(gòu)域的標(biāo)注比例.建議相關(guān)研究者在使用PFam、CATH、SCOP等數(shù)據(jù)庫(kù)無(wú)法得到滿意結(jié)果的情況下,使用ThreaDom、ThreaDomEx進(jìn)行常識(shí)性結(jié)構(gòu)域劃分;同時(shí),亟需開(kāi)發(fā)能從序列識(shí)別遠(yuǎn)同源蛋白質(zhì)結(jié)構(gòu)域的新方法及相應(yīng)的數(shù)據(jù)庫(kù),進(jìn)而注釋這些蛋白質(zhì)的家族與功能,為研究者提供更加豐富、便捷的蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(kù)系統(tǒng)和工具.

猜你喜歡
同源結(jié)構(gòu)域邊界
藥食同源
——紫 蘇
兩岸年味連根同源
拓展閱讀的邊界
以同源詞看《詩(shī)經(jīng)》的訓(xùn)釋三則
革蘭氏陽(yáng)性菌蛋白結(jié)構(gòu)域特征分析
論中立的幫助行為之可罰邊界
虔誠(chéng)書畫乃同源
重組綠豆BBI(6-33)結(jié)構(gòu)域的抗腫瘤作用分析
組蛋白甲基化酶Set2片段調(diào)控SET結(jié)構(gòu)域催化活性的探討
泛素結(jié)合結(jié)構(gòu)域與泛素化信號(hào)的識(shí)別
治县。| 礼泉县| 锡林郭勒盟| 驻马店市| 万全县| 东莞市| 江城| 屯留县| 得荣县| 陆丰市| 武强县| 阳谷县| 门源| 北宁市| 民县| 溧阳市| 南丹县| 石嘴山市| 泊头市| 南郑县| 陆河县| 信丰县| 龙江县| 安平县| 贞丰县| 南川市| 西平县| 板桥市| 长沙县| 土默特左旗| 安国市| 平昌县| 德安县| 盘锦市| 南宁市| 察雅县| 深泽县| 平和县| 城固县| 隆安县| 汝州市|