董晴晴, 趙亞偉, 袁 增, 于家峰, 王芳華, 唐胡成
(1. 德州學(xué)院 生物物理研究院 山東省生物物理重點(diǎn)實(shí)驗(yàn)室, 德州 253023; 2. 淄博市第四人民醫(yī)院, 淄博 255067)
近年來(lái),人們發(fā)現(xiàn)許多具有重要功能的天然蛋白質(zhì)在生理?xiàng)l件下并沒有穩(wěn)定三級(jí)結(jié)構(gòu),這類特殊蛋白質(zhì)通常被稱為固有無(wú)序蛋白(IDPs,Intrinsically disordered proteins)[1-2]。目前已有大量的研究表明,IDPs普遍存在于自然界中[3-4]。固有無(wú)序蛋白根據(jù)其結(jié)構(gòu)特征以兩種形式存在,一種是完全無(wú)序蛋白(IDPs),另一種是序列中交替存在結(jié)構(gòu)有序區(qū)和固有無(wú)序區(qū)(IDRs)的蛋白質(zhì)。IDPs可以通過(guò)與多種分子類型結(jié)合、磷酸化等形式獲取不同結(jié)構(gòu)來(lái)發(fā)揮多種生物學(xué)功能,因而被認(rèn)為是蛋白質(zhì)功能多樣化的重要原因[5]。IDPs通常是蛋白質(zhì)作用網(wǎng)絡(luò)中的核心蛋白,在包括信號(hào)傳導(dǎo)、分子識(shí)別、細(xì)胞周期性調(diào)節(jié)等各種生命活動(dòng)中扮演了極為重要的角色,與人類重大疾病密切相關(guān)[6-7],因而固有無(wú)序蛋白已成為蛋白質(zhì)科學(xué)增長(zhǎng)最快的研究領(lǐng)域之一[8]。IDPs的柔性結(jié)構(gòu)特征對(duì)傳統(tǒng)的“序列→結(jié)構(gòu)→功能”研究模式提出巨大挑戰(zhàn),也為實(shí)驗(yàn)上研究該類蛋白提供了科學(xué)難題[9-10]。盡管通過(guò)NMR、X射線等多種實(shí)驗(yàn)手段已經(jīng)獲得了部分IDPs的序列結(jié)構(gòu)數(shù)據(jù)[11],但與自然界中蛋白質(zhì)存在的廣泛程度和數(shù)量相比,對(duì)這類蛋白質(zhì)的認(rèn)識(shí)還相差甚遠(yuǎn),人們對(duì)此類蛋白的認(rèn)識(shí)還極為有限,其實(shí)驗(yàn)研究也存在很大難度,能夠?qū)嶒?yàn)證實(shí)的IDPs數(shù)據(jù)少之又少。在這種情況下,通過(guò)計(jì)算方法精準(zhǔn)預(yù)測(cè)IDPs就成為研究此類蛋白質(zhì)的重要途徑[12],也是進(jìn)一步認(rèn)識(shí)蛋白質(zhì)功能機(jī)制的必要先決條件,對(duì)了解相關(guān)疾病的致病機(jī)制、發(fā)現(xiàn)新抑制劑、開發(fā)新藥均有重要的理論意義和應(yīng)用價(jià)值。然而,盡管近幾年研究人員相繼提出一批基于不同原理的IDPs預(yù)測(cè)方法,但預(yù)測(cè)算法所需訓(xùn)練數(shù)據(jù)集來(lái)源有限,因此預(yù)測(cè)結(jié)果可靠性不高,且不同預(yù)測(cè)算法之間的結(jié)果也具有較為顯著的差異[13-15]。因此,如何設(shè)計(jì)有效方法來(lái)對(duì)現(xiàn)有IDPs預(yù)測(cè)算法進(jìn)行客觀評(píng)價(jià)分析,進(jìn)而提高IDPs預(yù)測(cè)效率是IDPs研究的重要工作基礎(chǔ)。在此背景下,本文通過(guò)人工設(shè)計(jì)隨機(jī)蛋白序列作為測(cè)試集,對(duì)不同類型IDPs預(yù)測(cè)算法進(jìn)行系統(tǒng)對(duì)比分析,更客觀地刻畫各算法預(yù)測(cè)結(jié)果差異特征,為今后IDPs研究提供可靠的理論支持。
Disprot數(shù)據(jù)庫(kù)[11]是目前IDPs的主要數(shù)據(jù)來(lái)源,該數(shù)據(jù)庫(kù)最新版本中提供了800余條經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的IDPs,已廣泛應(yīng)用于IDPs預(yù)測(cè)算法的數(shù)據(jù)集中。此外,許多預(yù)測(cè)算法還會(huì)通過(guò)PDB數(shù)據(jù)庫(kù)提取IDPs相關(guān)數(shù)據(jù)作為訓(xùn)練集和測(cè)試集,然而這些數(shù)據(jù)集存在明顯的傾向性而無(wú)法客觀刻畫IDPs特征[14-15]。本文通過(guò)產(chǎn)生隨機(jī)序列作為獨(dú)立數(shù)據(jù)集來(lái)完善對(duì)不同IDPs預(yù)測(cè)算法的比較分析,這樣可以有效避免所使用數(shù)據(jù)集已在IDPs預(yù)測(cè)算法訓(xùn)練集中使用,這些沒有刻意的有序區(qū)/無(wú)序區(qū)人為設(shè)計(jì)偏好的序列可以相對(duì)更為客觀地展現(xiàn)不同算法的預(yù)測(cè)結(jié)果。從隨機(jī)角度來(lái)講,有3種常用的產(chǎn)生隨機(jī)序列的基本策略,一種是各氨基酸在序列中平均使用而排列順序隨機(jī);另一種是完全隨機(jī)抽取氨基酸,因而各序列中氨基酸組成不同;第3種是基于天然蛋白隨機(jī)打亂進(jìn)而得到隨機(jī)序列。作者近期從二級(jí)結(jié)構(gòu)和動(dòng)力學(xué)模擬等角度對(duì)多種策略得到的隨機(jī)序列數(shù)據(jù)集及由天然蛋白打亂得到的隨機(jī)數(shù)據(jù)集進(jìn)行了研究[16],其結(jié)果表明各種隨機(jī)序列對(duì)該論文最終的研究目的影響不大??紤]到第一種策略產(chǎn)生的隨機(jī)序列中各序列氨基酸百分含量一致,整體上沒有任何氨基酸偏好特性,而序列局部區(qū)域會(huì)有不同的氨基酸使用偏好,會(huì)更好地避免數(shù)據(jù)集設(shè)計(jì)偏好帶來(lái)的預(yù)測(cè)結(jié)果偏差,因而本文就以第一種策略得到的隨機(jī)序列為例進(jìn)行了研究。通過(guò)等比例隨機(jī)取樣的策略從固定的20種氨基酸殘基的組合(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V)中隨機(jī)生成10 000條長(zhǎng)度均為60個(gè)殘基的隨機(jī)蛋白序列。為了去除數(shù)據(jù)集中可能的冗余序列,利用CD-HIT程序[17]對(duì)隨機(jī)生成的蛋白序列進(jìn)行去冗余操作,相似度閾值設(shè)為30%,結(jié)果顯示10 000條隨機(jī)生成的蛋白序列沒有冗余序列存在。
目前實(shí)驗(yàn)研究IDPs難度大,因而針對(duì)IDPs的預(yù)測(cè)算法非常多,但由于缺少公平、可靠的獨(dú)立IDPs數(shù)據(jù)集,對(duì)這些算法預(yù)測(cè)效率的有效評(píng)價(jià)是當(dāng)前IDPs研究遇到的重要問(wèn)題。在MobiDB等IDPs數(shù)據(jù)庫(kù)中通過(guò)采用多種IDPs預(yù)測(cè)算法來(lái)共同判斷無(wú)序區(qū)/有序區(qū),但從結(jié)果來(lái)看,各算法預(yù)測(cè)差異很大,最終反而會(huì)導(dǎo)致一些真正的無(wú)序區(qū)被排除掉,保留下來(lái)的IDRs區(qū)域很少,因此對(duì)IDPs預(yù)測(cè)算法的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析來(lái)指導(dǎo)IDPs預(yù)測(cè)算法的合理應(yīng)用具有重要參考意義。在諸多IDPs預(yù)測(cè)算法中,IUPred[18]是一款較為經(jīng)典的基于序列特征的IDPs預(yù)測(cè)算法,在許多研究中具有廣泛應(yīng)用,而SPINE-D[19]充分考慮了序列保守性特征,在近幾年CASP比賽中取得了不錯(cuò)的預(yù)測(cè)成績(jī),因而兩種算法具有一定的代表性,本文采用了IUPred和SPINE-D算法來(lái)完成對(duì)比分析工作。其中SPINE-D算法需要調(diào)用PSI-BLAST程序?qū)r(非冗余)數(shù)據(jù)庫(kù)進(jìn)行同源搜索,所以該算法耗時(shí)長(zhǎng)。
我們通過(guò)定義AAP值來(lái)表示IDPs中各種氨基酸的使用偏好,其計(jì)算方法如下:
(1)
(2)
為了比較各種IDPs預(yù)測(cè)算法預(yù)測(cè)結(jié)果的相似程度,我們定義了公式(3):
(3)
公式(3)中,SI+S、SI和SS分別表示兩種算法共同預(yù)測(cè)得到的無(wú)序區(qū)氨基酸數(shù)目(要具體對(duì)應(yīng)到每個(gè)殘基位點(diǎn))、IUPred得到的無(wú)序區(qū)殘基數(shù)目和SPINE-D得到的無(wú)序區(qū)殘基數(shù)目。顯然,0≤K≤1,K=0時(shí)表示兩種預(yù)測(cè)算法得到的結(jié)果完全不同,K=1時(shí)表示兩種算法得到的結(jié)果完全一致,值越大相符程度越高。
利用IUPred和SPINE-D程序?qū)?0 000條隨機(jī)蛋白序列分別進(jìn)行了預(yù)測(cè)。利用IUPred算法預(yù)測(cè)時(shí),全部序列均能夠返回預(yù)測(cè)結(jié)果;而利用SPINE-D算法時(shí),有7013條序列能夠返回預(yù)測(cè)結(jié)果,造成SPINE-D不能預(yù)測(cè)的原因主要是由于該算法需調(diào)用PSI-BLAST程序?qū)r數(shù)據(jù)庫(kù)進(jìn)行同源搜索,當(dāng)查詢序列在nr數(shù)據(jù)庫(kù)中沒有同源序列時(shí),就不能生成位置特異性得分矩陣(PSSM),因而無(wú)法完成預(yù)測(cè)。表1中,我們對(duì)兩種程序的預(yù)測(cè)結(jié)果進(jìn)行了統(tǒng)計(jì)。IUPred預(yù)測(cè)的10 000條隨機(jī)序列中,并未發(fā)現(xiàn)有無(wú)序殘基連續(xù)長(zhǎng)度超過(guò)30的序列;然而,SPINE-D有預(yù)測(cè)結(jié)果返回的7013條隨機(jī)蛋白序列中,總的無(wú)序殘基個(gè)數(shù)超過(guò)30的有333條(4.75%),無(wú)序殘基連續(xù)長(zhǎng)度超過(guò)30的有87條(1.24%),并未存在全無(wú)序的序列。
圖1分析了兩種預(yù)測(cè)軟件對(duì)每條序列預(yù)測(cè)得到的無(wú)序區(qū)堿基數(shù)目,其中橫坐標(biāo)表示各隨機(jī)蛋白序列,縱坐標(biāo)表示每條序列中預(yù)測(cè)得到的無(wú)序區(qū)殘基個(gè)數(shù)。為了便于比較,圖1-a中豎線左邊的區(qū)域是SPINE-D程序能給出預(yù)測(cè)結(jié)果的7013條序列,可見由IUPred得到的預(yù)測(cè)結(jié)果中所有序列的無(wú)序區(qū)殘基個(gè)數(shù)都在30以下,主要集中在5~12之間;而SPINE-D預(yù)測(cè)大部分的無(wú)序殘基數(shù)在10~25之間,有333條序列的無(wú)序殘基數(shù)超過(guò)30(圖1-b)。盡管如此,圖1表明隨機(jī)產(chǎn)生的蛋白序列中有序區(qū)要多于無(wú)序區(qū)。為了進(jìn)一步說(shuō)明隨機(jī)序列中預(yù)測(cè)得到的無(wú)序區(qū)殘基與天然蛋白中無(wú)序區(qū)殘基的異同情況,對(duì)兩種程序預(yù)測(cè)得到的無(wú)序區(qū)和有序區(qū)進(jìn)行了氨基酸偏好分析(圖2)。
表1 IDPs預(yù)測(cè)結(jié)果統(tǒng)計(jì)
注:Ⅰ表示統(tǒng)計(jì)的隨機(jī)序列數(shù)目;Ⅱ表示兩種預(yù)測(cè)軟件成功預(yù)測(cè)的序列數(shù)目;Ⅲ表示預(yù)測(cè)結(jié)果中無(wú)序區(qū)殘基總數(shù)大于30個(gè)氨基酸的序列數(shù)目;Ⅳ表示預(yù)測(cè)結(jié)果中無(wú)序區(qū)連續(xù)長(zhǎng)度超過(guò)30個(gè)氨基酸的序列數(shù)目;Ⅴ表示是預(yù)測(cè)為全無(wú)序的序列數(shù)目
圖1各程序預(yù)測(cè)結(jié)果中無(wú)序殘基數(shù)量分布
圖2中對(duì)兩種預(yù)測(cè)軟件預(yù)測(cè)得到的有序區(qū)和無(wú)序區(qū)計(jì)算了相應(yīng)的AAP值,通過(guò)比較分析,可以發(fā)現(xiàn)兩種預(yù)測(cè)方法得到的結(jié)果在氨基酸的使用偏好方面是一致的:A、R、N、D、Q、E、G、H、K、P、S和T均偏好出現(xiàn)在無(wú)序區(qū)域,C、I、L、M、F、W、Y及V均偏好出現(xiàn)在有序區(qū)域。在最近工作中[20],作者對(duì)基于Disprot數(shù)據(jù)庫(kù)構(gòu)建的一個(gè)較大的、實(shí)驗(yàn)驗(yàn)證的IDPs數(shù)據(jù)集進(jìn)行了深入的有序區(qū)/無(wú)序區(qū)氨基酸使用偏好分析。結(jié)果研究表明無(wú)序區(qū)偏好的氨基酸A、D、E、G、K、P、Q、S及T,有序區(qū)偏好的氨基酸是C、F、H、I、L、M、N、R、V、W和Y,這與圖2得到的結(jié)果是相符的。因此,基于這些隨機(jī)序列得到的無(wú)序區(qū)信息與天然蛋白中氨基酸組成相近。
圖2 IUPred(a)和SPINE-D(b)預(yù)測(cè)結(jié)果有序區(qū)/無(wú)序區(qū)氨基酸偏好分析
通常情況下,許多文獻(xiàn)中將IDPs中序列長(zhǎng)度超過(guò)30個(gè)連續(xù)氨基酸的區(qū)域稱為固有無(wú)序區(qū)。根據(jù)表1的統(tǒng)計(jì)結(jié)果,SPINE-D程序預(yù)測(cè)到了87條連續(xù)長(zhǎng)度超過(guò)30個(gè)氨基酸的無(wú)序區(qū)。為此,圖3進(jìn)一步計(jì)算了這些連續(xù)長(zhǎng)度超過(guò)30個(gè)氨基酸的無(wú)序區(qū)的氨基酸使用頻率。由圖3可見,SPINE-D預(yù)測(cè)結(jié)果中A、R、N、D、Q、E、G、H、K、P、S及T的頻率均超過(guò)5%,而C、I、L、M、F、W、Y和V的使用頻率均小于5%。本文所生成的每條隨機(jī)序列中各氨基酸頻率均為5%(1/20),無(wú)序區(qū)中氨基酸的使用概率若超過(guò)5%,則表明該種氨基酸偏好在無(wú)序區(qū)出現(xiàn)。圖3的預(yù)測(cè)結(jié)果與圖2是一致的,進(jìn)一步表明隨機(jī)序列預(yù)測(cè)出的有序區(qū)/無(wú)序區(qū)氨基酸使用偏好與天然蛋白是相符的。
圖3 SPINE-D預(yù)測(cè)結(jié)果中連續(xù)長(zhǎng)度超過(guò)30個(gè)氨基酸的固有無(wú)序區(qū)的氨基酸使用頻率
上述分析表明兩種預(yù)測(cè)程序得到的具體無(wú)序區(qū)殘基數(shù)目具有一定差別。為了進(jìn)一步分析各預(yù)測(cè)算法得到的無(wú)序區(qū)殘基在各序列中的位置分布特征,我們將每條序列分為6個(gè)區(qū)域,每個(gè)區(qū)域長(zhǎng)度為10個(gè)氨基酸,各區(qū)域無(wú)序區(qū)殘基所占比例表示該區(qū)域無(wú)序化程度,具體結(jié)果見表2??梢钥闯鰞煞N軟件預(yù)測(cè)得到的無(wú)序殘基主要分布于序列兩端,而中間無(wú)序殘基相對(duì)較少。相比之下,SPINE-D預(yù)測(cè)得到的無(wú)序區(qū)殘基要明顯多于IUPred得到的結(jié)果。
表2 各序列分布區(qū)間無(wú)序區(qū)殘基比例
為了更加準(zhǔn)確地分析兩種IDPS預(yù)測(cè)軟件的預(yù)測(cè)結(jié)果異同特征,圖4給出了基于公式3得到的預(yù)測(cè)結(jié)果對(duì)比情況。需要說(shuō)明的是該圖分析了兩種軟件共同預(yù)測(cè)的7013條序列,橫坐標(biāo)表示K值的分布區(qū)間,縱坐標(biāo)表示各K值分布區(qū)間對(duì)應(yīng)的序列數(shù)目所占全部序列的百分比。可以看出,兩種程序預(yù)測(cè)相似度對(duì)應(yīng)的K值主要集中在0.65~0.80之間,峰值坐落在0.7附近,而兩種預(yù)測(cè)軟件得到的預(yù)測(cè)結(jié)果完全一致的情況很少,這進(jìn)一步表明IUPred和SPINE-D預(yù)測(cè)結(jié)果具有不同程度區(qū)別。
圖4 預(yù)測(cè)結(jié)果的相似度情況
對(duì)IDPs的理論及實(shí)驗(yàn)研究還有較大難度,本文基于隨機(jī)蛋白序列比較系統(tǒng)地對(duì)比分析了兩種IDPs預(yù)測(cè)算法的預(yù)測(cè)結(jié)果。預(yù)測(cè)結(jié)果表明,就兩種預(yù)測(cè)算法預(yù)測(cè)得到的無(wú)序殘基在序列中位置而言,具有一致性,無(wú)序殘基大都分布于序列的兩端,而具體的對(duì)比分析表明這兩種預(yù)測(cè)軟件預(yù)測(cè)結(jié)果依然存在較大差異。因此,在今后的實(shí)際應(yīng)用中研究人員還需要進(jìn)一步整合多種預(yù)測(cè)算法來(lái)評(píng)估預(yù)測(cè)結(jié)果的可靠性。