基于隨機(jī)序列的固有無(wú)序蛋白預(yù)測(cè)算法比較分析

2020-06-15 09:25:30董晴晴趙亞偉于家峰王芳華唐胡成

生物學(xué)雜志 2020年3期

董晴晴, 趙亞偉, 袁增, 于家峰, 王芳華, 唐胡成

(1. 德州學(xué)院生物物理研究院山東省生物物理重點(diǎn)實(shí)驗(yàn)室，德州 253023； 2. 淄博市第四人民醫(yī)院，淄博 255067)

近年來(lái)，人們發(fā)現(xiàn)許多具有重要功能的天然蛋白質(zhì)在生理?xiàng)l件下并沒有穩(wěn)定三級(jí)結(jié)構(gòu)，這類特殊蛋白質(zhì)通常被稱為固有無(wú)序蛋白(IDPs，Intrinsically disordered proteins)[1-2]。目前已有大量的研究表明，IDPs普遍存在于自然界中[3-4]。固有無(wú)序蛋白根據(jù)其結(jié)構(gòu)特征以兩種形式存在，一種是完全無(wú)序蛋白(IDPs)，另一種是序列中交替存在結(jié)構(gòu)有序區(qū)和固有無(wú)序區(qū)(IDRs)的蛋白質(zhì)。IDPs可以通過(guò)與多種分子類型結(jié)合、磷酸化等形式獲取不同結(jié)構(gòu)來(lái)發(fā)揮多種生物學(xué)功能，因而被認(rèn)為是蛋白質(zhì)功能多樣化的重要原因[5]。IDPs通常是蛋白質(zhì)作用網(wǎng)絡(luò)中的核心蛋白，在包括信號(hào)傳導(dǎo)、分子識(shí)別、細(xì)胞周期性調(diào)節(jié)等各種生命活動(dòng)中扮演了極為重要的角色，與人類重大疾病密切相關(guān)[6-7]，因而固有無(wú)序蛋白已成為蛋白質(zhì)科學(xué)增長(zhǎng)最快的研究領(lǐng)域之一[8]。IDPs的柔性結(jié)構(gòu)特征對(duì)傳統(tǒng)的“序列→結(jié)構(gòu)→功能”研究模式提出巨大挑戰(zhàn)，也為實(shí)驗(yàn)上研究該類蛋白提供了科學(xué)難題[9-10]。盡管通過(guò)NMR、X射線等多種實(shí)驗(yàn)手段已經(jīng)獲得了部分IDPs的序列結(jié)構(gòu)數(shù)據(jù)[11]，但與自然界中蛋白質(zhì)存在的廣泛程度和數(shù)量相比，對(duì)這類蛋白質(zhì)的認(rèn)識(shí)還相差甚遠(yuǎn)，人們對(duì)此類蛋白的認(rèn)識(shí)還極為有限，其實(shí)驗(yàn)研究也存在很大難度，能夠?qū)嶒?yàn)證實(shí)的IDPs數(shù)據(jù)少之又少。在這種情況下，通過(guò)計(jì)算方法精準(zhǔn)預(yù)測(cè)IDPs就成為研究此類蛋白質(zhì)的重要途徑[12]，也是進(jìn)一步認(rèn)識(shí)蛋白質(zhì)功能機(jī)制的必要先決條件，對(duì)了解相關(guān)疾病的致病機(jī)制、發(fā)現(xiàn)新抑制劑、開發(fā)新藥均有重要的理論意義和應(yīng)用價(jià)值。然而，盡管近幾年研究人員相繼提出一批基于不同原理的IDPs預(yù)測(cè)方法，但預(yù)測(cè)算法所需訓(xùn)練數(shù)據(jù)集來(lái)源有限，因此預(yù)測(cè)結(jié)果可靠性不高，且不同預(yù)測(cè)算法之間的結(jié)果也具有較為顯著的差異[13-15]。因此，如何設(shè)計(jì)有效方法來(lái)對(duì)現(xiàn)有IDPs預(yù)測(cè)算法進(jìn)行客觀評(píng)價(jià)分析，進(jìn)而提高IDPs預(yù)測(cè)效率是IDPs研究的重要工作基礎(chǔ)。在此背景下，本文通過(guò)人工設(shè)計(jì)隨機(jī)蛋白序列作為測(cè)試集，對(duì)不同類型IDPs預(yù)測(cè)算法進(jìn)行系統(tǒng)對(duì)比分析，更客觀地刻畫各算法預(yù)測(cè)結(jié)果差異特征，為今后IDPs研究提供可靠的理論支持。

1 材料與方法

1.1 數(shù)據(jù)集構(gòu)建

Disprot數(shù)據(jù)庫(kù)[11]是目前IDPs的主要數(shù)據(jù)來(lái)源，該數(shù)據(jù)庫(kù)最新版本中提供了800余條經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的IDPs，已廣泛應(yīng)用于IDPs預(yù)測(cè)算法的數(shù)據(jù)集中。此外，許多預(yù)測(cè)算法還會(huì)通過(guò)PDB數(shù)據(jù)庫(kù)提取IDPs相關(guān)數(shù)據(jù)作為訓(xùn)練集和測(cè)試集，然而這些數(shù)據(jù)集存在明顯的傾向性而無(wú)法客觀刻畫IDPs特征[14-15]。本文通過(guò)產(chǎn)生隨機(jī)序列作為獨(dú)立數(shù)據(jù)集來(lái)完善對(duì)不同IDPs預(yù)測(cè)算法的比較分析，這樣可以有效避免所使用數(shù)據(jù)集已在IDPs預(yù)測(cè)算法訓(xùn)練集中使用，這些沒有刻意的有序區(qū)/無(wú)序區(qū)人為設(shè)計(jì)偏好的序列可以相對(duì)更為客觀地展現(xiàn)不同算法的預(yù)測(cè)結(jié)果。從隨機(jī)角度來(lái)講，有3種常用的產(chǎn)生隨機(jī)序列的基本策略，一種是各氨基酸在序列中平均使用而排列順序隨機(jī)；另一種是完全隨機(jī)抽取氨基酸，因而各序列中氨基酸組成不同；第3種是基于天然蛋白隨機(jī)打亂進(jìn)而得到隨機(jī)序列。作者近期從二級(jí)結(jié)構(gòu)和動(dòng)力學(xué)模擬等角度對(duì)多種策略得到的隨機(jī)序列數(shù)據(jù)集及由天然蛋白打亂得到的隨機(jī)數(shù)據(jù)集進(jìn)行了研究[16]，其結(jié)果表明各種隨機(jī)序列對(duì)該論文最終的研究目的影響不大?？紤]到第一種策略產(chǎn)生的隨機(jī)序列中各序列氨基酸百分含量一致，整體上沒有任何氨基酸偏好特性，而序列局部區(qū)域會(huì)有不同的氨基酸使用偏好，會(huì)更好地避免數(shù)據(jù)集設(shè)計(jì)偏好帶來(lái)的預(yù)測(cè)結(jié)果偏差，因而本文就以第一種策略得到的隨機(jī)序列為例進(jìn)行了研究。通過(guò)等比例隨機(jī)取樣的策略從固定的20種氨基酸殘基的組合(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V)中隨機(jī)生成10 000條長(zhǎng)度均為60個(gè)殘基的隨機(jī)蛋白序列。為了去除數(shù)據(jù)集中可能的冗余序列，利用CD-HIT程序[17]對(duì)隨機(jī)生成的蛋白序列進(jìn)行去冗余操作，相似度閾值設(shè)為30%，結(jié)果顯示10 000條隨機(jī)生成的蛋白序列沒有冗余序列存在。

1.2 IDPs預(yù)測(cè)算法

目前實(shí)驗(yàn)研究IDPs難度大，因而針對(duì)IDPs的預(yù)測(cè)算法非常多，但由于缺少公平、可靠的獨(dú)立IDPs數(shù)據(jù)集，對(duì)這些算法預(yù)測(cè)效率的有效評(píng)價(jià)是當(dāng)前IDPs研究遇到的重要問(wèn)題。在MobiDB等IDPs數(shù)據(jù)庫(kù)中通過(guò)采用多種IDPs預(yù)測(cè)算法來(lái)共同判斷無(wú)序區(qū)/有序區(qū)，但從結(jié)果來(lái)看，各算法預(yù)測(cè)差異很大，最終反而會(huì)導(dǎo)致一些真正的無(wú)序區(qū)被排除掉，保留下來(lái)的IDRs區(qū)域很少，因此對(duì)IDPs預(yù)測(cè)算法的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析來(lái)指導(dǎo)IDPs預(yù)測(cè)算法的合理應(yīng)用具有重要參考意義。在諸多IDPs預(yù)測(cè)算法中，IUPred[18]是一款較為經(jīng)典的基于序列特征的IDPs預(yù)測(cè)算法，在許多研究中具有廣泛應(yīng)用，而SPINE-D[19]充分考慮了序列保守性特征，在近幾年CASP比賽中取得了不錯(cuò)的預(yù)測(cè)成績(jī)，因而兩種算法具有一定的代表性，本文采用了IUPred和SPINE-D算法來(lái)完成對(duì)比分析工作。其中SPINE-D算法需要調(diào)用PSI-BLAST程序?qū)r(非冗余)數(shù)據(jù)庫(kù)進(jìn)行同源搜索，所以該算法耗時(shí)長(zhǎng)。

1.3 氨基酸使用偏好分析

我們通過(guò)定義AAP值來(lái)表示IDPs中各種氨基酸的使用偏好，其計(jì)算方法如下：

(1)

(2)

1.4 IDPs預(yù)測(cè)結(jié)果比較

為了比較各種IDPs預(yù)測(cè)算法預(yù)測(cè)結(jié)果的相似程度，我們定義了公式(3)：

(3)

公式(3)中，SI+S、SI和SS分別表示兩種算法共同預(yù)測(cè)得到的無(wú)序區(qū)氨基酸數(shù)目(要具體對(duì)應(yīng)到每個(gè)殘基位點(diǎn))、IUPred得到的無(wú)序區(qū)殘基數(shù)目和SPINE-D得到的無(wú)序區(qū)殘基數(shù)目。顯然，0≤K≤1，K=0時(shí)表示兩種預(yù)測(cè)算法得到的結(jié)果完全不同，K=1時(shí)表示兩種算法得到的結(jié)果完全一致，值越大相符程度越高。

2 結(jié)果與討論

2.1 IDPs預(yù)測(cè)結(jié)果

利用IUPred和SPINE-D程序?qū)?0 000條隨機(jī)蛋白序列分別進(jìn)行了預(yù)測(cè)。利用IUPred算法預(yù)測(cè)時(shí)，全部序列均能夠返回預(yù)測(cè)結(jié)果；而利用SPINE-D算法時(shí)，有7013條序列能夠返回預(yù)測(cè)結(jié)果，造成SPINE-D不能預(yù)測(cè)的原因主要是由于該算法需調(diào)用PSI-BLAST程序?qū)r數(shù)據(jù)庫(kù)進(jìn)行同源搜索，當(dāng)查詢序列在nr數(shù)據(jù)庫(kù)中沒有同源序列時(shí)，就不能生成位置特異性得分矩陣(PSSM)，因而無(wú)法完成預(yù)測(cè)。表1中，我們對(duì)兩種程序的預(yù)測(cè)結(jié)果進(jìn)行了統(tǒng)計(jì)。IUPred預(yù)測(cè)的10 000條隨機(jī)序列中，并未發(fā)現(xiàn)有無(wú)序殘基連續(xù)長(zhǎng)度超過(guò)30的序列；然而，SPINE-D有預(yù)測(cè)結(jié)果返回的7013條隨機(jī)蛋白序列中，總的無(wú)序殘基個(gè)數(shù)超過(guò)30的有333條(4.75%)，無(wú)序殘基連續(xù)長(zhǎng)度超過(guò)30的有87條(1.24%)，并未存在全無(wú)序的序列。

圖1分析了兩種預(yù)測(cè)軟件對(duì)每條序列預(yù)測(cè)得到的無(wú)序區(qū)堿基數(shù)目，其中橫坐標(biāo)表示各隨機(jī)蛋白序列，縱坐標(biāo)表示每條序列中預(yù)測(cè)得到的無(wú)序區(qū)殘基個(gè)數(shù)。為了便于比較，圖1-a中豎線左邊的區(qū)域是SPINE-D程序能給出預(yù)測(cè)結(jié)果的7013條序列，可見由IUPred得到的預(yù)測(cè)結(jié)果中所有序列的無(wú)序區(qū)殘基個(gè)數(shù)都在30以下，主要集中在5～12之間；而SPINE-D預(yù)測(cè)大部分的無(wú)序殘基數(shù)在10～25之間，有333條序列的無(wú)序殘基數(shù)超過(guò)30(圖1-b)。盡管如此，圖1表明隨機(jī)產(chǎn)生的蛋白序列中有序區(qū)要多于無(wú)序區(qū)。為了進(jìn)一步說(shuō)明隨機(jī)序列中預(yù)測(cè)得到的無(wú)序區(qū)殘基與天然蛋白中無(wú)序區(qū)殘基的異同情況，對(duì)兩種程序預(yù)測(cè)得到的無(wú)序區(qū)和有序區(qū)進(jìn)行了氨基酸偏好分析(圖2)。

表1 IDPs預(yù)測(cè)結(jié)果統(tǒng)計(jì)

注：Ⅰ表示統(tǒng)計(jì)的隨機(jī)序列數(shù)目；Ⅱ表示兩種預(yù)測(cè)軟件成功預(yù)測(cè)的序列數(shù)目；Ⅲ表示預(yù)測(cè)結(jié)果中無(wú)序區(qū)殘基總數(shù)大于30個(gè)氨基酸的序列數(shù)目；Ⅳ表示預(yù)測(cè)結(jié)果中無(wú)序區(qū)連續(xù)長(zhǎng)度超過(guò)30個(gè)氨基酸的序列數(shù)目；Ⅴ表示是預(yù)測(cè)為全無(wú)序的序列數(shù)目

圖1各程序預(yù)測(cè)結(jié)果中無(wú)序殘基數(shù)量分布

圖2中對(duì)兩種預(yù)測(cè)軟件預(yù)測(cè)得到的有序區(qū)和無(wú)序區(qū)計(jì)算了相應(yīng)的AAP值，通過(guò)比較分析，可以發(fā)現(xiàn)兩種預(yù)測(cè)方法得到的結(jié)果在氨基酸的使用偏好方面是一致的：A、R、N、D、Q、E、G、H、K、P、S和T均偏好出現(xiàn)在無(wú)序區(qū)域，C、I、L、M、F、W、Y及V均偏好出現(xiàn)在有序區(qū)域。在最近工作中[20]，作者對(duì)基于Disprot數(shù)據(jù)庫(kù)構(gòu)建的一個(gè)較大的、實(shí)驗(yàn)驗(yàn)證的IDPs數(shù)據(jù)集進(jìn)行了深入的有序區(qū)/無(wú)序區(qū)氨基酸使用偏好分析。結(jié)果研究表明無(wú)序區(qū)偏好的氨基酸A、D、E、G、K、P、Q、S及T，有序區(qū)偏好的氨基酸是C、F、H、I、L、M、N、R、V、W和Y，這與圖2得到的結(jié)果是相符的。因此，基于這些隨機(jī)序列得到的無(wú)序區(qū)信息與天然蛋白中氨基酸組成相近。

圖2 IUPred(a)和SPINE-D(b)預(yù)測(cè)結(jié)果有序區(qū)/無(wú)序區(qū)氨基酸偏好分析

通常情況下，許多文獻(xiàn)中將IDPs中序列長(zhǎng)度超過(guò)30個(gè)連續(xù)氨基酸的區(qū)域稱為固有無(wú)序區(qū)。根據(jù)表1的統(tǒng)計(jì)結(jié)果，SPINE-D程序預(yù)測(cè)到了87條連續(xù)長(zhǎng)度超過(guò)30個(gè)氨基酸的無(wú)序區(qū)。為此，圖3進(jìn)一步計(jì)算了這些連續(xù)長(zhǎng)度超過(guò)30個(gè)氨基酸的無(wú)序區(qū)的氨基酸使用頻率。由圖3可見，SPINE-D預(yù)測(cè)結(jié)果中A、R、N、D、Q、E、G、H、K、P、S及T的頻率均超過(guò)5%，而C、I、L、M、F、W、Y和V的使用頻率均小于5%。本文所生成的每條隨機(jī)序列中各氨基酸頻率均為5%(1/20)，無(wú)序區(qū)中氨基酸的使用概率若超過(guò)5%，則表明該種氨基酸偏好在無(wú)序區(qū)出現(xiàn)。圖3的預(yù)測(cè)結(jié)果與圖2是一致的，進(jìn)一步表明隨機(jī)序列預(yù)測(cè)出的有序區(qū)/無(wú)序區(qū)氨基酸使用偏好與天然蛋白是相符的。

圖3 SPINE-D預(yù)測(cè)結(jié)果中連續(xù)長(zhǎng)度超過(guò)30個(gè)氨基酸的固有無(wú)序區(qū)的氨基酸使用頻率

2.2 IDPs預(yù)測(cè)結(jié)果比較

上述分析表明兩種預(yù)測(cè)程序得到的具體無(wú)序區(qū)殘基數(shù)目具有一定差別。為了進(jìn)一步分析各預(yù)測(cè)算法得到的無(wú)序區(qū)殘基在各序列中的位置分布特征，我們將每條序列分為6個(gè)區(qū)域，每個(gè)區(qū)域長(zhǎng)度為10個(gè)氨基酸，各區(qū)域無(wú)序區(qū)殘基所占比例表示該區(qū)域無(wú)序化程度，具體結(jié)果見表2?？梢钥闯鰞煞N軟件預(yù)測(cè)得到的無(wú)序殘基主要分布于序列兩端，而中間無(wú)序殘基相對(duì)較少。相比之下，SPINE-D預(yù)測(cè)得到的無(wú)序區(qū)殘基要明顯多于IUPred得到的結(jié)果。

表2 各序列分布區(qū)間無(wú)序區(qū)殘基比例

為了更加準(zhǔn)確地分析兩種IDPS預(yù)測(cè)軟件的預(yù)測(cè)結(jié)果異同特征，圖4給出了基于公式3得到的預(yù)測(cè)結(jié)果對(duì)比情況。需要說(shuō)明的是該圖分析了兩種軟件共同預(yù)測(cè)的7013條序列，橫坐標(biāo)表示K值的分布區(qū)間，縱坐標(biāo)表示各K值分布區(qū)間對(duì)應(yīng)的序列數(shù)目所占全部序列的百分比。可以看出，兩種程序預(yù)測(cè)相似度對(duì)應(yīng)的K值主要集中在0.65～0.80之間，峰值坐落在0.7附近，而兩種預(yù)測(cè)軟件得到的預(yù)測(cè)結(jié)果完全一致的情況很少，這進(jìn)一步表明IUPred和SPINE-D預(yù)測(cè)結(jié)果具有不同程度區(qū)別。

圖4 預(yù)測(cè)結(jié)果的相似度情況

3 結(jié)論

對(duì)IDPs的理論及實(shí)驗(yàn)研究還有較大難度，本文基于隨機(jī)蛋白序列比較系統(tǒng)地對(duì)比分析了兩種IDPs預(yù)測(cè)算法的預(yù)測(cè)結(jié)果。預(yù)測(cè)結(jié)果表明，就兩種預(yù)測(cè)算法預(yù)測(cè)得到的無(wú)序殘基在序列中位置而言，具有一致性，無(wú)序殘基大都分布于序列的兩端，而具體的對(duì)比分析表明這兩種預(yù)測(cè)軟件預(yù)測(cè)結(jié)果依然存在較大差異。因此，在今后的實(shí)際應(yīng)用中研究人員還需要進(jìn)一步整合多種預(yù)測(cè)算法來(lái)評(píng)估預(yù)測(cè)結(jié)果的可靠性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡