国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Disprot無序蛋白數(shù)據(jù)庫分析與統(tǒng)計

2018-09-17 10:11李盤靖
關(guān)鍵詞:傾向性無序親水性

張 歡,李盤靖,王 彤

(山東理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,山東 淄博 255049)

蛋白質(zhì)在生物世界中扮演了各種各樣的角色.傳統(tǒng)思想認(rèn)為,氨基酸序列決定蛋白質(zhì)唯一的三維結(jié)構(gòu),三維結(jié)構(gòu)則決定了蛋白質(zhì)的生物學(xué)功能[1]形成了蛋白質(zhì)科學(xué)的經(jīng)典研究范式“序列-結(jié)構(gòu)-功能”.20世紀(jì)90年代初,隨著實驗技術(shù)的發(fā)展,人們發(fā)現(xiàn)有些蛋白質(zhì)或蛋白質(zhì)序列中的一部分在天然狀態(tài)下并不具有一個確定的三維結(jié)構(gòu),但依然具有正常的生物學(xué)活性.后來進(jìn)一步研究發(fā)現(xiàn)這類蛋白質(zhì)越來越多,并逐漸形成了一類與傳統(tǒng)蛋白質(zhì)范式不同的新的蛋白質(zhì)類型,稱為天然無序蛋白[2-3](intrinsically disordered proteins,簡稱為IDPs).根據(jù)無序蛋白中所含無序結(jié)構(gòu)的多少,可以將無序蛋白分為兩大類:完全無序蛋白(全序列無序)和部分無序蛋白(局部超過30~40個殘基的區(qū)域無序);部分無序蛋白由結(jié)構(gòu)域(structured domains)和無序區(qū)域組成(disordered regions)[4].無序蛋白中的無序結(jié)構(gòu)與蛋白質(zhì)功能之間關(guān)系密切[5],無序蛋白在諸如轉(zhuǎn)錄、翻譯、調(diào)控細(xì)胞信號轉(zhuǎn)導(dǎo)、蛋白質(zhì)磷酸化及小分子存儲等過程中發(fā)揮著重要的作用[2].另一方面,無序蛋白常與多種疾病聯(lián)系在一起.無序蛋白的無序特性使得它可以與多種伴侶分子結(jié)合從而在分子網(wǎng)絡(luò)中達(dá)到傳遞信號或是調(diào)節(jié)的作用,人類的許多疾病例如癌癥、心血管疾病、神經(jīng)性衰弱等不僅與相關(guān)功能性蛋白的誤折疊有關(guān)信號之間的誤傳導(dǎo)、誤表達(dá)有關(guān)[6].因此判定蛋白質(zhì)的無序區(qū)成為蛋白質(zhì)科學(xué)中的一個熱點問題.Romero等在1997年首次對蛋白質(zhì)無序區(qū)進(jìn)行預(yù)測,他們預(yù)測的準(zhǔn)確性達(dá)到70%[7].此后,無序蛋白質(zhì)的預(yù)測方法得到了迅速發(fā)展,目前應(yīng)用于無序蛋白質(zhì)序列預(yù)測的方法已經(jīng)超過50種,這些預(yù)測方法的準(zhǔn)確性普遍達(dá)到85%以上.隨著2012年深度學(xué)習(xí)方法在圖像分類預(yù)測上成功的應(yīng)用,近年來關(guān)于無序蛋白的研究又出現(xiàn)了新的熱度,從2006年hinton重新提出深度模型后[8],無序蛋白的研究論文數(shù)快速增長.本研究基于序列分析的方法,以Disprot數(shù)據(jù)庫中的無序蛋白序列為研究對象,通過CD-HIT去冗余程序處理后建立數(shù)據(jù)集(無序區(qū)和有序區(qū)),然后將得到的數(shù)據(jù)集通過Python語言進(jìn)行統(tǒng)計分析,分別提取出無序區(qū)和有序區(qū)中的殘基進(jìn)行統(tǒng)計從而分析其偏好性.

1 Disprot數(shù)據(jù)庫簡介與使用方法

Disprot數(shù)據(jù)庫從已有文獻(xiàn)中搜集經(jīng)過實驗驗證的無序蛋白數(shù)據(jù),每一條蛋白質(zhì)序列都標(biāo)注了無序片段的起始位置、判定方法、來源文獻(xiàn),該無序片段行駛的生物學(xué)功能也進(jìn)行了標(biāo)注.網(wǎng)站中提供了csv、json兩種格式的數(shù)據(jù)格式文件.在進(jìn)行后期的無序片段標(biāo)注時,要組合蛋白質(zhì)與無序片段數(shù)據(jù)進(jìn)行下載.然后通過編程工具python進(jìn)行腳本標(biāo)注無序片段,分別建立數(shù)據(jù)集.數(shù)據(jù)庫現(xiàn)包含803條無序蛋白數(shù)據(jù),所屬分類如圖1所示.

圖1 無序蛋白所屬的4個主要分類Fig.1 4 major superkingdoms of intrinsically disordered proteins

從圖1可以看出,無序蛋白主要分布在真核生物、細(xì)菌當(dāng)中,少部分存在于病毒與古生菌中.

2 數(shù)據(jù)集的創(chuàng)建與序列分析方法

2.1 數(shù)據(jù)集

本研究中固有無序蛋白序列數(shù)據(jù)取自固有無序蛋白數(shù)據(jù)庫[9].當(dāng)前版本中含有803條IDPs蛋白質(zhì)鏈,2167個無序區(qū).由于蛋白質(zhì)數(shù)據(jù)庫中含有大量的冗余序列,不利于數(shù)據(jù)的統(tǒng)計分析,我們利用去冗余程序CD-HIT[10]對數(shù)據(jù)進(jìn)行處理,將相似度閾值設(shè)為30%.結(jié)果顯示,去冗余前,該數(shù)據(jù)庫中共有803條序列;去冗余后,減少到708條序列.

2.2 序列分析方法

2.2.1 氨基酸分別在無序區(qū)與有序區(qū)中的分布

根據(jù)數(shù)據(jù)庫中的708條序列分析,氨基酸殘基總數(shù)為363575,其中有序區(qū)的氨基酸殘基總數(shù)為280852(占77.3%),無序區(qū)的氨基酸殘基總數(shù)為82723(占22.7%).將無序區(qū)殘基與有序區(qū)殘基的分布繪制在圖2中.

圖2 20種氨基酸在無序與有序序列中的分布Fig.2 The distribution of 20 kinds of amimo acids in ordered and disordered region

由圖2可以看出20種氨基酸在無序區(qū)與有序區(qū)中的分布具有相似性,其相似性通過KL-散度定量得到.KL-散度的定義公式為

(1)

KL-散度值越接近0,說明兩種分布越相似.式中P代表無序區(qū)中氨基酸的分布;Q代表有序區(qū)中氨基酸的分布.

2.2.2 氨基酸的無序傾向性

定義氨基酸形成無序區(qū)的傾向性公式為

DP(x)=dp(x)-op(x)

(2)

式中:DP(x)(disorder propensity)表示氨基酸x在無序區(qū)出現(xiàn)的傾向性;dp(x)表示氨基酸x在無序區(qū)中出現(xiàn)的幾率;op(x)表示氨基酸x在有序區(qū)中出現(xiàn)的幾率.

根據(jù)DP(x)值的大小,可以判斷氨基酸形成無序區(qū)的偏好性.DP(x)>0,該氨基酸具有形成蛋白質(zhì)無序區(qū)的傾向性;DP(x)<0,該氨基酸具有形成蛋白質(zhì)有序區(qū)的傾向[11].

2.2.3 二元組氨基酸對統(tǒng)計

在上述單個氨基酸統(tǒng)計的基礎(chǔ)上,增加了二元組氨基酸對的統(tǒng)計.根據(jù)Disport數(shù)據(jù)庫對無序序列的標(biāo)注,抽取出無序序列,然后編程實現(xiàn)對每一條無序序列二元組的統(tǒng)計.

3 結(jié)果及討論

3.1 氨基酸在無序區(qū)與有序區(qū)中的分布

由圖2得到20種氨基酸的分布圖可以看出:有序區(qū)和無序區(qū)中Ala、Asp、Glu、Gly、Lys、Leu、Pro、Ser、Thr、Val都有很強的傾向性.通過式(1)與圖2的數(shù)據(jù)得到無序區(qū)和有序區(qū)氨基酸分布的KL-散度值為0.031,說明無序區(qū)和有序區(qū)中氨基酸的分布具有相似性,可以推斷隨著數(shù)據(jù)集的不斷擴(kuò)充,這種相似性會越來越高.20種氨基酸在無序區(qū)和有序區(qū)具有分布相似性,還需要接下來DP值的分析來判斷氨基酸的無序傾向性.

3.2 氨基酸形成無序區(qū)的傾向性分析

根據(jù)式(2)計算了20種氨基酸的DP值,如圖3所示.

根據(jù)DP值的大小,可以看出氨基酸Ala、Asp、Glu、Gly、Lys、Pro、Gln、Ser具有形成無序區(qū)的傾向.在第一步分析中氨基酸Leu、Thr、Val雖然在無序區(qū)和有序區(qū)中都具有傾向性,但在由DP值得到的分析中,Leu、Thr、Val不易于形成無序區(qū);氨基酸Gln雖然在無序區(qū)和有序區(qū)中都不具有傾向性,但在DP值分析中卻易于形成無序區(qū).在表1中氨基酸各性質(zhì)的描述中可以看到,具有無序傾向的8種氨基酸用黑體標(biāo)出.8種氨基酸都屬于非芳香或脂肪族氨基酸,親水性氨基酸與疏水性氨基酸之比為3∶2,大部分疏水性氨基酸都不具有無序傾向性.在8種無序傾向氨基酸中極性與非極性氨基酸之別為5∶3.

圖3 20種氨基酸的無序傾向性DP值Fig.3 The DP(disorder propensity) values of 20 kinds of amino acids

表1 氨基酸的性質(zhì)
Tab. 1 Attributes of amino acids

縮寫全名中文譯名支鏈極性芳香或脂肪族GlyGlycine甘氨酸親水性--AlaAlanine丙氨酸疏水性--ValValine纈氨酸疏水性-脂肪性LeuLeucine亮氨酸疏水性-脂肪性IleIsoleucine異亮氨酸疏水性-脂肪性PhePhenylalanine苯丙氨酸疏水性-芳香性TrpTryptophan色氨酸疏水性-芳香性TyrTyrosine酪氨酸親水性X芳香性AspAspartate天冬氨酸酸性X-HisHistidine組氨酸堿性X芳香性AsnAsparagine天冬酰胺親水性X-GluGlutamate谷氨酸酸性X-LysLysine賴氨酸堿性X-GlnGlutamine谷氨酰胺親水性X-MetMethionine甲硫氨酸疏水性--ArgArginine精氨酸堿性X-SerSerine絲氨酸親水性X-ThrThreonine蘇氨酸親水性X-CysCysteine半胱氨酸親水性--ProProline脯氨酸疏水性--

3.3 二元組氨基酸對的分布

根據(jù)以下二元組抽取代碼為基礎(chǔ),統(tǒng)計得到402對二元組氨基酸對.

# 從Disprot數(shù)據(jù)庫中抽取無序序列到disorder_seq

# 二元組氨基酸對統(tǒng)計結(jié)果保存在 bi_key 中

bi_key = dict()

for seq in disorder_seq:

keys = [ seq[i:i+2] for i in range(0, len(seq)-1) ]

for key in keys:

if key not in bi_key:

bi_key[key] = 1

else:

bi_key[key] = bi_key[key] + 1

統(tǒng)計得到使用最頻繁的20種氨基酸對如圖4所示.由之前DP值的分析中Asp、Glu、Ser易于形成無序區(qū),在二元組統(tǒng)計中,由這3種氨基酸組成的二元組也最頻繁使用.在無序蛋白無序序列中偏向于使用簡單重復(fù)的氨基酸對Ala、Glu、Ser.

圖4 使用最頻繁的20種氨基酸對Fig.4 The most used 20 amino acids tuples

4 結(jié)束語

以蛋白質(zhì)序列信息為基礎(chǔ),通過分析20種氨基酸在無序區(qū)與有序區(qū)中的分布和氨基酸的無序傾向性,為下一步開發(fā)無序序列預(yù)測算法[12]提供了特征準(zhǔn)備.本文只在序列的角度總體上統(tǒng)計了各氨基酸的分布,但是一個無序位點的形成不僅與它本身的特征有關(guān),還與它的上下文位點存在關(guān)聯(lián).本文只討論了二元組的情況下氨基酸對的無序傾向性.在下一步工作中, 多位點之間的聯(lián)合特征提取是一個重要的研究方向.

猜你喜歡
傾向性無序親水性
車身無序堆疊零件自動抓取系統(tǒng)
雙負(fù)載抗生素親水性聚氨酯泡沫的制備與表征
環(huán)境無序性對消費者多樣化尋求的影響及作用機制*
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測
張博庭:煤電不能再這么無序發(fā)展下去了
無序體系中的國際秩序
北京化工大學(xué)開發(fā)出親水性氨基化氫化丁腈橡膠制備方法
空氣中納秒脈沖均勻DBD增加聚合物的表面親水性
關(guān)于醫(yī)患沖突報道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
“沒準(zhǔn)兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
开化县| 河北区| 宝兴县| 阜平县| 哈尔滨市| 岫岩| 巧家县| 威海市| 太和县| 仁布县| 元江| 林州市| 彭阳县| 清水河县| 梁河县| 山阳县| 吴忠市| 门源| 宣汉县| 六枝特区| 大英县| 霞浦县| 平定县| 冕宁县| 辽源市| 锡林郭勒盟| 阿克| 永兴县| 手游| 高安市| 礼泉县| 玛纳斯县| 富锦市| 江油市| 高平市| 阿巴嘎旗| 双城市| 上虞市| 襄垣县| 陇西县| 曲麻莱县|