Disprot無序蛋白數(shù)據(jù)庫分析與統(tǒng)計

2018-09-17 10:11李盤靖

山東理工大學(xué)學(xué)報（自然科學(xué)版） 2018年6期

張歡，李盤靖，王彤

(山東理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，山東淄博 255049)

蛋白質(zhì)在生物世界中扮演了各種各樣的角色.傳統(tǒng)思想認(rèn)為，氨基酸序列決定蛋白質(zhì)唯一的三維結(jié)構(gòu)，三維結(jié)構(gòu)則決定了蛋白質(zhì)的生物學(xué)功能[1]形成了蛋白質(zhì)科學(xué)的經(jīng)典研究范式“序列-結(jié)構(gòu)-功能”.20世紀(jì)90年代初，隨著實驗技術(shù)的發(fā)展，人們發(fā)現(xiàn)有些蛋白質(zhì)或蛋白質(zhì)序列中的一部分在天然狀態(tài)下并不具有一個確定的三維結(jié)構(gòu)，但依然具有正常的生物學(xué)活性.后來進(jìn)一步研究發(fā)現(xiàn)這類蛋白質(zhì)越來越多，并逐漸形成了一類與傳統(tǒng)蛋白質(zhì)范式不同的新的蛋白質(zhì)類型，稱為天然無序蛋白[2-3](intrinsically disordered proteins，簡稱為IDPs).根據(jù)無序蛋白中所含無序結(jié)構(gòu)的多少，可以將無序蛋白分為兩大類：完全無序蛋白(全序列無序)和部分無序蛋白(局部超過30～40個殘基的區(qū)域無序)；部分無序蛋白由結(jié)構(gòu)域(structured domains)和無序區(qū)域組成(disordered regions)[4].無序蛋白中的無序結(jié)構(gòu)與蛋白質(zhì)功能之間關(guān)系密切[5]，無序蛋白在諸如轉(zhuǎn)錄、翻譯、調(diào)控細(xì)胞信號轉(zhuǎn)導(dǎo)、蛋白質(zhì)磷酸化及小分子存儲等過程中發(fā)揮著重要的作用[2].另一方面，無序蛋白常與多種疾病聯(lián)系在一起.無序蛋白的無序特性使得它可以與多種伴侶分子結(jié)合從而在分子網(wǎng)絡(luò)中達(dá)到傳遞信號或是調(diào)節(jié)的作用，人類的許多疾病例如癌癥、心血管疾病、神經(jīng)性衰弱等不僅與相關(guān)功能性蛋白的誤折疊有關(guān)信號之間的誤傳導(dǎo)、誤表達(dá)有關(guān)[6].因此判定蛋白質(zhì)的無序區(qū)成為蛋白質(zhì)科學(xué)中的一個熱點問題.Romero等在1997年首次對蛋白質(zhì)無序區(qū)進(jìn)行預(yù)測，他們預(yù)測的準(zhǔn)確性達(dá)到70%[7].此后，無序蛋白質(zhì)的預(yù)測方法得到了迅速發(fā)展，目前應(yīng)用于無序蛋白質(zhì)序列預(yù)測的方法已經(jīng)超過50種，這些預(yù)測方法的準(zhǔn)確性普遍達(dá)到85%以上.隨著2012年深度學(xué)習(xí)方法在圖像分類預(yù)測上成功的應(yīng)用，近年來關(guān)于無序蛋白的研究又出現(xiàn)了新的熱度，從2006年hinton重新提出深度模型后[8]，無序蛋白的研究論文數(shù)快速增長.本研究基于序列分析的方法，以Disprot數(shù)據(jù)庫中的無序蛋白序列為研究對象，通過CD-HIT去冗余程序處理后建立數(shù)據(jù)集(無序區(qū)和有序區(qū))，然后將得到的數(shù)據(jù)集通過Python語言進(jìn)行統(tǒng)計分析，分別提取出無序區(qū)和有序區(qū)中的殘基進(jìn)行統(tǒng)計從而分析其偏好性.

1 Disprot數(shù)據(jù)庫簡介與使用方法

Disprot數(shù)據(jù)庫從已有文獻(xiàn)中搜集經(jīng)過實驗驗證的無序蛋白數(shù)據(jù)，每一條蛋白質(zhì)序列都標(biāo)注了無序片段的起始位置、判定方法、來源文獻(xiàn)，該無序片段行駛的生物學(xué)功能也進(jìn)行了標(biāo)注.網(wǎng)站中提供了csv、json兩種格式的數(shù)據(jù)格式文件.在進(jìn)行后期的無序片段標(biāo)注時，要組合蛋白質(zhì)與無序片段數(shù)據(jù)進(jìn)行下載.然后通過編程工具python進(jìn)行腳本標(biāo)注無序片段，分別建立數(shù)據(jù)集.數(shù)據(jù)庫現(xiàn)包含803條無序蛋白數(shù)據(jù)，所屬分類如圖1所示.

圖1 無序蛋白所屬的4個主要分類Fig.1 4 major superkingdoms of intrinsically disordered proteins

從圖1可以看出，無序蛋白主要分布在真核生物、細(xì)菌當(dāng)中，少部分存在于病毒與古生菌中.

2 數(shù)據(jù)集的創(chuàng)建與序列分析方法

2.1 數(shù)據(jù)集

本研究中固有無序蛋白序列數(shù)據(jù)取自固有無序蛋白數(shù)據(jù)庫[9].當(dāng)前版本中含有803條IDPs蛋白質(zhì)鏈，2167個無序區(qū).由于蛋白質(zhì)數(shù)據(jù)庫中含有大量的冗余序列，不利于數(shù)據(jù)的統(tǒng)計分析，我們利用去冗余程序CD-HIT[10]對數(shù)據(jù)進(jìn)行處理，將相似度閾值設(shè)為30%.結(jié)果顯示，去冗余前，該數(shù)據(jù)庫中共有803條序列；去冗余后，減少到708條序列.

2.2 序列分析方法

2.2.1 氨基酸分別在無序區(qū)與有序區(qū)中的分布

根據(jù)數(shù)據(jù)庫中的708條序列分析，氨基酸殘基總數(shù)為363575，其中有序區(qū)的氨基酸殘基總數(shù)為280852(占77.3%)，無序區(qū)的氨基酸殘基總數(shù)為82723(占22.7%).將無序區(qū)殘基與有序區(qū)殘基的分布繪制在圖2中.

圖2 20種氨基酸在無序與有序序列中的分布Fig.2 The distribution of 20 kinds of amimo acids in ordered and disordered region

由圖2可以看出20種氨基酸在無序區(qū)與有序區(qū)中的分布具有相似性，其相似性通過KL-散度定量得到.KL-散度的定義公式為

(1)

KL-散度值越接近0，說明兩種分布越相似.式中P代表無序區(qū)中氨基酸的分布；Q代表有序區(qū)中氨基酸的分布.

2.2.2 氨基酸的無序傾向性

定義氨基酸形成無序區(qū)的傾向性公式為

DP(x)=dp(x)-op(x)

(2)

式中：DP(x)(disorder propensity)表示氨基酸x在無序區(qū)出現(xiàn)的傾向性；dp(x)表示氨基酸x在無序區(qū)中出現(xiàn)的幾率；op(x)表示氨基酸x在有序區(qū)中出現(xiàn)的幾率.

根據(jù)DP(x)值的大小，可以判斷氨基酸形成無序區(qū)的偏好性.DP(x)>0，該氨基酸具有形成蛋白質(zhì)無序區(qū)的傾向性；DP(x)<0，該氨基酸具有形成蛋白質(zhì)有序區(qū)的傾向[11].

2.2.3 二元組氨基酸對統(tǒng)計

在上述單個氨基酸統(tǒng)計的基礎(chǔ)上，增加了二元組氨基酸對的統(tǒng)計.根據(jù)Disport數(shù)據(jù)庫對無序序列的標(biāo)注，抽取出無序序列，然后編程實現(xiàn)對每一條無序序列二元組的統(tǒng)計.

3 結(jié)果及討論

3.1 氨基酸在無序區(qū)與有序區(qū)中的分布

由圖2得到20種氨基酸的分布圖可以看出：有序區(qū)和無序區(qū)中Ala、Asp、Glu、Gly、Lys、Leu、Pro、Ser、Thr、Val都有很強的傾向性.通過式(1)與圖2的數(shù)據(jù)得到無序區(qū)和有序區(qū)氨基酸分布的KL-散度值為0.031，說明無序區(qū)和有序區(qū)中氨基酸的分布具有相似性，可以推斷隨著數(shù)據(jù)集的不斷擴(kuò)充，這種相似性會越來越高.20種氨基酸在無序區(qū)和有序區(qū)具有分布相似性，還需要接下來DP值的分析來判斷氨基酸的無序傾向性.

3.2 氨基酸形成無序區(qū)的傾向性分析

根據(jù)式(2)計算了20種氨基酸的DP值，如圖3所示.

根據(jù)DP值的大小，可以看出氨基酸Ala、Asp、Glu、Gly、Lys、Pro、Gln、Ser具有形成無序區(qū)的傾向.在第一步分析中氨基酸Leu、Thr、Val雖然在無序區(qū)和有序區(qū)中都具有傾向性，但在由DP值得到的分析中，Leu、Thr、Val不易于形成無序區(qū)；氨基酸Gln雖然在無序區(qū)和有序區(qū)中都不具有傾向性，但在DP值分析中卻易于形成無序區(qū).在表1中氨基酸各性質(zhì)的描述中可以看到，具有無序傾向的8種氨基酸用黑體標(biāo)出.8種氨基酸都屬于非芳香或脂肪族氨基酸，親水性氨基酸與疏水性氨基酸之比為3∶2，大部分疏水性氨基酸都不具有無序傾向性.在8種無序傾向氨基酸中極性與非極性氨基酸之別為5∶3.

圖3 20種氨基酸的無序傾向性DP值Fig.3 The DP(disorder propensity) values of 20 kinds of amino acids

表1 氨基酸的性質(zhì)
Tab. 1 Attributes of amino acids

縮寫全名中文譯名支鏈極性芳香或脂肪族GlyGlycine甘氨酸親水性--AlaAlanine丙氨酸疏水性--ValValine纈氨酸疏水性-脂肪性LeuLeucine亮氨酸疏水性-脂肪性IleIsoleucine異亮氨酸疏水性-脂肪性PhePhenylalanine苯丙氨酸疏水性-芳香性TrpTryptophan色氨酸疏水性-芳香性TyrTyrosine酪氨酸親水性X芳香性AspAspartate天冬氨酸酸性X-HisHistidine組氨酸堿性X芳香性AsnAsparagine天冬酰胺親水性X-GluGlutamate谷氨酸酸性X-LysLysine賴氨酸堿性X-GlnGlutamine谷氨酰胺親水性X-MetMethionine甲硫氨酸疏水性--ArgArginine精氨酸堿性X-SerSerine絲氨酸親水性X-ThrThreonine蘇氨酸親水性X-CysCysteine半胱氨酸親水性--ProProline脯氨酸疏水性--

3.3 二元組氨基酸對的分布

根據(jù)以下二元組抽取代碼為基礎(chǔ)，統(tǒng)計得到402對二元組氨基酸對.

# 從Disprot數(shù)據(jù)庫中抽取無序序列到disorder_seq

# 二元組氨基酸對統(tǒng)計結(jié)果保存在 bi_key 中

bi_key = dict()

for seq in disorder_seq:

keys = [ seq[i:i+2] for i in range(0, len(seq)-1) ]

for key in keys:

if key not in bi_key:

bi_key[key] = 1

else:

bi_key[key] = bi_key[key] + 1

統(tǒng)計得到使用最頻繁的20種氨基酸對如圖4所示.由之前DP值的分析中Asp、Glu、Ser易于形成無序區(qū)，在二元組統(tǒng)計中，由這3種氨基酸組成的二元組也最頻繁使用.在無序蛋白無序序列中偏向于使用簡單重復(fù)的氨基酸對Ala、Glu、Ser.

圖4 使用最頻繁的20種氨基酸對Fig.4 The most used 20 amino acids tuples

4 結(jié)束語

以蛋白質(zhì)序列信息為基礎(chǔ)，通過分析20種氨基酸在無序區(qū)與有序區(qū)中的分布和氨基酸的無序傾向性，為下一步開發(fā)無序序列預(yù)測算法[12]提供了特征準(zhǔn)備.本文只在序列的角度總體上統(tǒng)計了各氨基酸的分布，但是一個無序位點的形成不僅與它本身的特征有關(guān)，還與它的上下文位點存在關(guān)聯(lián).本文只討論了二元組的情況下氨基酸對的無序傾向性.在下一步工作中，多位點之間的聯(lián)合特征提取是一個重要的研究方向.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡