張 歡,李盤靖,王 彤
(山東理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,山東 淄博 255049)
蛋白質(zhì)在生物世界中扮演了各種各樣的角色.傳統(tǒng)思想認(rèn)為,氨基酸序列決定蛋白質(zhì)唯一的三維結(jié)構(gòu),三維結(jié)構(gòu)則決定了蛋白質(zhì)的生物學(xué)功能[1]形成了蛋白質(zhì)科學(xué)的經(jīng)典研究范式“序列-結(jié)構(gòu)-功能”.20世紀(jì)90年代初,隨著實驗技術(shù)的發(fā)展,人們發(fā)現(xiàn)有些蛋白質(zhì)或蛋白質(zhì)序列中的一部分在天然狀態(tài)下并不具有一個確定的三維結(jié)構(gòu),但依然具有正常的生物學(xué)活性.后來進(jìn)一步研究發(fā)現(xiàn)這類蛋白質(zhì)越來越多,并逐漸形成了一類與傳統(tǒng)蛋白質(zhì)范式不同的新的蛋白質(zhì)類型,稱為天然無序蛋白[2-3](intrinsically disordered proteins,簡稱為IDPs).根據(jù)無序蛋白中所含無序結(jié)構(gòu)的多少,可以將無序蛋白分為兩大類:完全無序蛋白(全序列無序)和部分無序蛋白(局部超過30~40個殘基的區(qū)域無序);部分無序蛋白由結(jié)構(gòu)域(structured domains)和無序區(qū)域組成(disordered regions)[4].無序蛋白中的無序結(jié)構(gòu)與蛋白質(zhì)功能之間關(guān)系密切[5],無序蛋白在諸如轉(zhuǎn)錄、翻譯、調(diào)控細(xì)胞信號轉(zhuǎn)導(dǎo)、蛋白質(zhì)磷酸化及小分子存儲等過程中發(fā)揮著重要的作用[2].另一方面,無序蛋白常與多種疾病聯(lián)系在一起.無序蛋白的無序特性使得它可以與多種伴侶分子結(jié)合從而在分子網(wǎng)絡(luò)中達(dá)到傳遞信號或是調(diào)節(jié)的作用,人類的許多疾病例如癌癥、心血管疾病、神經(jīng)性衰弱等不僅與相關(guān)功能性蛋白的誤折疊有關(guān)信號之間的誤傳導(dǎo)、誤表達(dá)有關(guān)[6].因此判定蛋白質(zhì)的無序區(qū)成為蛋白質(zhì)科學(xué)中的一個熱點問題.Romero等在1997年首次對蛋白質(zhì)無序區(qū)進(jìn)行預(yù)測,他們預(yù)測的準(zhǔn)確性達(dá)到70%[7].此后,無序蛋白質(zhì)的預(yù)測方法得到了迅速發(fā)展,目前應(yīng)用于無序蛋白質(zhì)序列預(yù)測的方法已經(jīng)超過50種,這些預(yù)測方法的準(zhǔn)確性普遍達(dá)到85%以上.隨著2012年深度學(xué)習(xí)方法在圖像分類預(yù)測上成功的應(yīng)用,近年來關(guān)于無序蛋白的研究又出現(xiàn)了新的熱度,從2006年hinton重新提出深度模型后[8],無序蛋白的研究論文數(shù)快速增長.本研究基于序列分析的方法,以Disprot數(shù)據(jù)庫中的無序蛋白序列為研究對象,通過CD-HIT去冗余程序處理后建立數(shù)據(jù)集(無序區(qū)和有序區(qū)),然后將得到的數(shù)據(jù)集通過Python語言進(jìn)行統(tǒng)計分析,分別提取出無序區(qū)和有序區(qū)中的殘基進(jìn)行統(tǒng)計從而分析其偏好性.
Disprot數(shù)據(jù)庫從已有文獻(xiàn)中搜集經(jīng)過實驗驗證的無序蛋白數(shù)據(jù),每一條蛋白質(zhì)序列都標(biāo)注了無序片段的起始位置、判定方法、來源文獻(xiàn),該無序片段行駛的生物學(xué)功能也進(jìn)行了標(biāo)注.網(wǎng)站中提供了csv、json兩種格式的數(shù)據(jù)格式文件.在進(jìn)行后期的無序片段標(biāo)注時,要組合蛋白質(zhì)與無序片段數(shù)據(jù)進(jìn)行下載.然后通過編程工具python進(jìn)行腳本標(biāo)注無序片段,分別建立數(shù)據(jù)集.數(shù)據(jù)庫現(xiàn)包含803條無序蛋白數(shù)據(jù),所屬分類如圖1所示.
圖1 無序蛋白所屬的4個主要分類Fig.1 4 major superkingdoms of intrinsically disordered proteins
從圖1可以看出,無序蛋白主要分布在真核生物、細(xì)菌當(dāng)中,少部分存在于病毒與古生菌中.
本研究中固有無序蛋白序列數(shù)據(jù)取自固有無序蛋白數(shù)據(jù)庫[9].當(dāng)前版本中含有803條IDPs蛋白質(zhì)鏈,2167個無序區(qū).由于蛋白質(zhì)數(shù)據(jù)庫中含有大量的冗余序列,不利于數(shù)據(jù)的統(tǒng)計分析,我們利用去冗余程序CD-HIT[10]對數(shù)據(jù)進(jìn)行處理,將相似度閾值設(shè)為30%.結(jié)果顯示,去冗余前,該數(shù)據(jù)庫中共有803條序列;去冗余后,減少到708條序列.
2.2.1 氨基酸分別在無序區(qū)與有序區(qū)中的分布
根據(jù)數(shù)據(jù)庫中的708條序列分析,氨基酸殘基總數(shù)為363575,其中有序區(qū)的氨基酸殘基總數(shù)為280852(占77.3%),無序區(qū)的氨基酸殘基總數(shù)為82723(占22.7%).將無序區(qū)殘基與有序區(qū)殘基的分布繪制在圖2中.
圖2 20種氨基酸在無序與有序序列中的分布Fig.2 The distribution of 20 kinds of amimo acids in ordered and disordered region
由圖2可以看出20種氨基酸在無序區(qū)與有序區(qū)中的分布具有相似性,其相似性通過KL-散度定量得到.KL-散度的定義公式為
(1)
KL-散度值越接近0,說明兩種分布越相似.式中P代表無序區(qū)中氨基酸的分布;Q代表有序區(qū)中氨基酸的分布.
2.2.2 氨基酸的無序傾向性
定義氨基酸形成無序區(qū)的傾向性公式為
DP(x)=dp(x)-op(x)
(2)
式中:DP(x)(disorder propensity)表示氨基酸x在無序區(qū)出現(xiàn)的傾向性;dp(x)表示氨基酸x在無序區(qū)中出現(xiàn)的幾率;op(x)表示氨基酸x在有序區(qū)中出現(xiàn)的幾率.
根據(jù)DP(x)值的大小,可以判斷氨基酸形成無序區(qū)的偏好性.DP(x)>0,該氨基酸具有形成蛋白質(zhì)無序區(qū)的傾向性;DP(x)<0,該氨基酸具有形成蛋白質(zhì)有序區(qū)的傾向[11].
2.2.3 二元組氨基酸對統(tǒng)計
在上述單個氨基酸統(tǒng)計的基礎(chǔ)上,增加了二元組氨基酸對的統(tǒng)計.根據(jù)Disport數(shù)據(jù)庫對無序序列的標(biāo)注,抽取出無序序列,然后編程實現(xiàn)對每一條無序序列二元組的統(tǒng)計.
由圖2得到20種氨基酸的分布圖可以看出:有序區(qū)和無序區(qū)中Ala、Asp、Glu、Gly、Lys、Leu、Pro、Ser、Thr、Val都有很強的傾向性.通過式(1)與圖2的數(shù)據(jù)得到無序區(qū)和有序區(qū)氨基酸分布的KL-散度值為0.031,說明無序區(qū)和有序區(qū)中氨基酸的分布具有相似性,可以推斷隨著數(shù)據(jù)集的不斷擴(kuò)充,這種相似性會越來越高.20種氨基酸在無序區(qū)和有序區(qū)具有分布相似性,還需要接下來DP值的分析來判斷氨基酸的無序傾向性.
根據(jù)式(2)計算了20種氨基酸的DP值,如圖3所示.
根據(jù)DP值的大小,可以看出氨基酸Ala、Asp、Glu、Gly、Lys、Pro、Gln、Ser具有形成無序區(qū)的傾向.在第一步分析中氨基酸Leu、Thr、Val雖然在無序區(qū)和有序區(qū)中都具有傾向性,但在由DP值得到的分析中,Leu、Thr、Val不易于形成無序區(qū);氨基酸Gln雖然在無序區(qū)和有序區(qū)中都不具有傾向性,但在DP值分析中卻易于形成無序區(qū).在表1中氨基酸各性質(zhì)的描述中可以看到,具有無序傾向的8種氨基酸用黑體標(biāo)出.8種氨基酸都屬于非芳香或脂肪族氨基酸,親水性氨基酸與疏水性氨基酸之比為3∶2,大部分疏水性氨基酸都不具有無序傾向性.在8種無序傾向氨基酸中極性與非極性氨基酸之別為5∶3.
圖3 20種氨基酸的無序傾向性DP值Fig.3 The DP(disorder propensity) values of 20 kinds of amino acids
表1 氨基酸的性質(zhì)
Tab. 1 Attributes of amino acids
縮寫全名中文譯名支鏈極性芳香或脂肪族GlyGlycine甘氨酸親水性--AlaAlanine丙氨酸疏水性--ValValine纈氨酸疏水性-脂肪性LeuLeucine亮氨酸疏水性-脂肪性IleIsoleucine異亮氨酸疏水性-脂肪性PhePhenylalanine苯丙氨酸疏水性-芳香性TrpTryptophan色氨酸疏水性-芳香性TyrTyrosine酪氨酸親水性X芳香性AspAspartate天冬氨酸酸性X-HisHistidine組氨酸堿性X芳香性AsnAsparagine天冬酰胺親水性X-GluGlutamate谷氨酸酸性X-LysLysine賴氨酸堿性X-GlnGlutamine谷氨酰胺親水性X-MetMethionine甲硫氨酸疏水性--ArgArginine精氨酸堿性X-SerSerine絲氨酸親水性X-ThrThreonine蘇氨酸親水性X-CysCysteine半胱氨酸親水性--ProProline脯氨酸疏水性--
根據(jù)以下二元組抽取代碼為基礎(chǔ),統(tǒng)計得到402對二元組氨基酸對.
# 從Disprot數(shù)據(jù)庫中抽取無序序列到disorder_seq
# 二元組氨基酸對統(tǒng)計結(jié)果保存在 bi_key 中
bi_key = dict()
for seq in disorder_seq:
keys = [ seq[i:i+2] for i in range(0, len(seq)-1) ]
for key in keys:
if key not in bi_key:
bi_key[key] = 1
else:
bi_key[key] = bi_key[key] + 1
統(tǒng)計得到使用最頻繁的20種氨基酸對如圖4所示.由之前DP值的分析中Asp、Glu、Ser易于形成無序區(qū),在二元組統(tǒng)計中,由這3種氨基酸組成的二元組也最頻繁使用.在無序蛋白無序序列中偏向于使用簡單重復(fù)的氨基酸對Ala、Glu、Ser.
圖4 使用最頻繁的20種氨基酸對Fig.4 The most used 20 amino acids tuples
以蛋白質(zhì)序列信息為基礎(chǔ),通過分析20種氨基酸在無序區(qū)與有序區(qū)中的分布和氨基酸的無序傾向性,為下一步開發(fā)無序序列預(yù)測算法[12]提供了特征準(zhǔn)備.本文只在序列的角度總體上統(tǒng)計了各氨基酸的分布,但是一個無序位點的形成不僅與它本身的特征有關(guān),還與它的上下文位點存在關(guān)聯(lián).本文只討論了二元組的情況下氨基酸對的無序傾向性.在下一步工作中, 多位點之間的聯(lián)合特征提取是一個重要的研究方向.