国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于線性神經(jīng)網(wǎng)絡(luò)和多參數(shù)的蛋白質(zhì)相似度算法

2017-04-07 01:30:42張建華師會(huì)譚張琳婧
關(guān)鍵詞:相似性原子氨基酸

劉 瑩, 張建華,2, 師會(huì)譚, 張琳婧

(1.鄭州大學(xué) 電氣工程學(xué)院 河南 鄭州450001;2.鄭州大學(xué) 醫(yī)學(xué)工程技術(shù)與數(shù)據(jù)挖掘研究所 河南 鄭州450001)

基于線性神經(jīng)網(wǎng)絡(luò)和多參數(shù)的蛋白質(zhì)相似度算法

劉 瑩1, 張建華1,2, 師會(huì)譚1, 張琳婧1

(1.鄭州大學(xué) 電氣工程學(xué)院 河南 鄭州450001;2.鄭州大學(xué) 醫(yī)學(xué)工程技術(shù)與數(shù)據(jù)挖掘研究所 河南 鄭州450001)

提出一種新的蛋白質(zhì)結(jié)構(gòu)相似度算法,目的在于通過比對(duì)蛋白質(zhì)的結(jié)構(gòu)尋找功能上的相似性.收集約1 000對(duì)蛋白質(zhì)的PDB結(jié)構(gòu)文件,采用RCSB PDB結(jié)構(gòu)比對(duì)工具獲取每一對(duì)蛋白的結(jié)構(gòu)匹配相似度,并計(jì)算每一對(duì)蛋白質(zhì)的9個(gè)參數(shù)的相似度.采用線性神經(jīng)網(wǎng)絡(luò)建立總體相似度和9個(gè)參數(shù)之間的數(shù)學(xué)模型.計(jì)算模型的仿真誤差,并選取若干蛋白質(zhì)對(duì)該算法模型進(jìn)行應(yīng)用驗(yàn)證.所建立模型仿真誤差為8.76%,驗(yàn)證結(jié)果與已有工具結(jié)果基本相同,但個(gè)別有一定差異.該算法可用于比較蛋白質(zhì)的結(jié)構(gòu)相似度,且比對(duì)結(jié)果可以對(duì)蛋白質(zhì)功能的相似性進(jìn)行提示.

蛋白質(zhì); 相似度; 多參數(shù); 算法模型; 線性神經(jīng)網(wǎng)絡(luò)

0 引言

生物學(xué)上一般采用BLAST(basic local alignment search tool)工具來獲取蛋白質(zhì)氨基酸序列的相似度[1].隨著相關(guān)研究工作的進(jìn)展,大量學(xué)者設(shè)計(jì)開發(fā)了其他序列匹配算法以改進(jìn)BLAST算法的不足[2].然而,氨基酸序列的相似性只能提示兩個(gè)蛋白是否具有足夠的同源性,并不能滿足學(xué)者對(duì)于功能表達(dá)相似性的研究.因此,現(xiàn)有研究中已出現(xiàn)了許多關(guān)于蛋白質(zhì)結(jié)構(gòu)相似度比對(duì)的工具.CE(combinatorial extension)和FATCAT(flexible structure alignment by chaining AFPs (aligned fragment pairs) with twists)算法是較早開始應(yīng)用的蛋白質(zhì)結(jié)構(gòu)比對(duì)方法[3],其中CE是采用增量式組合擴(kuò)展的方法逐段比較對(duì)齊的兩個(gè)蛋白結(jié)構(gòu)片段,最后將其組合起來評(píng)價(jià)蛋白質(zhì)相似度.FATCAT算法是CE算法的進(jìn)一步改進(jìn).DALI是L Holm等設(shè)計(jì)開發(fā)的蛋白質(zhì)對(duì)結(jié)構(gòu)相似度在線工具,其主要計(jì)算方法是計(jì)算一對(duì)蛋白中原子的均方根誤差(root-mean-square deviation, RMSD),但用戶在使用時(shí)需要上傳處理過的PDB文件(該方法只能計(jì)算ATOM/HETATM部分).文獻(xiàn)[4]結(jié)合TM得分旋轉(zhuǎn)矩陣和動(dòng)態(tài)調(diào)整方法設(shè)計(jì)出TM-align算法,該算法的計(jì)算速度大約是DALI 和SAL方法的20倍,CE算法的4倍.鑒于各算法的不同,比對(duì)結(jié)果往往也不一致.RCSB PDB比對(duì)工具是RCSB PDB(RCSB protein data bank)數(shù)據(jù)庫自主開發(fā)的一種用于匹配蛋白質(zhì)結(jié)構(gòu)相似度的Java web start 應(yīng)用程序,操作簡便,可以實(shí)時(shí)在線精確匹配PDB數(shù)據(jù)庫中的蛋白質(zhì)結(jié)構(gòu)文件,應(yīng)用相對(duì)較為廣泛.

現(xiàn)有蛋白質(zhì)相似度比較方法中,基本都是從蛋白質(zhì)三級(jí)結(jié)構(gòu)出發(fā),將其比對(duì)結(jié)果應(yīng)用于蛋白質(zhì)功能的相似性評(píng)價(jià)上.本文擬從多參數(shù)的角度評(píng)價(jià)蛋白質(zhì)的相似度,建立相似度和各參數(shù)之間的數(shù)學(xué)關(guān)系模型,并依此對(duì)蛋白質(zhì)功能的相似性進(jìn)行提示.并采用該算法計(jì)算并篩選出與新發(fā)現(xiàn)的胃癌蛋白p42.3相似的蛋白,成功找出了p42.3的功能調(diào)控路徑,從而證明了該算法的可用性.

1 材料和方法

1.1 數(shù)據(jù)收集

1.1.1 總體相似度和參數(shù)選擇 從PDB(http://www.rcsb.org/pdb/home/home.do)數(shù)據(jù)庫中先行收集相似蛋白質(zhì)共1 005對(duì),進(jìn)而下載其結(jié)構(gòu)數(shù)據(jù)PDB文件.然后通過RCSB PDB結(jié)構(gòu)比對(duì)工具(http://www.rcsb.org/pdb/workbench/workbench.do?action=menu)獲取每一對(duì)蛋白質(zhì)的結(jié)構(gòu)相似度作為標(biāo)準(zhǔn)相似度.在PDB文件中,只取ATOM及HETATM部分的數(shù)據(jù)進(jìn)行9個(gè)參數(shù)相似度的計(jì)算,分別為空間密度、原子個(gè)數(shù)、氨基酸個(gè)數(shù)、氨基酸種類、C元素比例、N元素比例、O元素比例、P元素位置、S元素位置[5-6],并分別標(biāo)記為S1~S9.參數(shù)的選擇標(biāo)準(zhǔn)均以與蛋白質(zhì)功能表達(dá)相關(guān)為出發(fā)點(diǎn).

1.1.2 密度相似度(S1) 首先在蛋白質(zhì)內(nèi)部以該蛋白中心原子為原點(diǎn)建立空間坐標(biāo)系,將其余原子的坐標(biāo)按統(tǒng)一位移向量變化.然后,計(jì)算每一個(gè)原子距原點(diǎn)的距離,根據(jù)距離將蛋白質(zhì)劃分為一層層的球殼.統(tǒng)計(jì)每一層球殼的原子數(shù)目,并比較兩個(gè)蛋白在每一層的原子個(gè)數(shù)相似度,而后加權(quán)求和.當(dāng)層數(shù)取得無窮大時(shí),每一層球殼的厚度便無窮小,此時(shí)所計(jì)算的參數(shù)便可視為蛋白質(zhì)的密度相似度.假設(shè)將蛋白質(zhì)平均劃分為n層,每一層相似度計(jì)算公式simi,每一層的相似度權(quán)值計(jì)算公式wi,n1i為其中為第一個(gè)蛋白第i層的原子個(gè)數(shù),n2i為第二個(gè)蛋白第i層的原子個(gè)數(shù),n1為第一蛋白質(zhì)的原子總數(shù),n2為另一個(gè)蛋白質(zhì)的原子總數(shù).

1.1.3 原子數(shù)目、氨基酸數(shù)目及氨基酸種類相似度(S2、S3、S4) 每一個(gè)蛋白分子所包含的原子數(shù)目決定了分子的大小和質(zhì)量,而氨基酸的數(shù)目和種類影響著蛋白質(zhì)的功能.

(1)

其中:n1、m1、k1分別為第一個(gè)蛋白質(zhì)的原子總數(shù)、氨基酸數(shù)目和氨基酸種類;n2、m2、k2分別為第二個(gè)蛋白質(zhì)的原子總數(shù)、氨基酸數(shù)目和氨基酸種類.

1.1.4 C、N、O元素比例相似度(S5、S6、S7)S5~S7計(jì)算方法相同,均按照公式(2)進(jìn)行計(jì)算,其中:ne1是第一個(gè)蛋白質(zhì)中的C/N/O元素個(gè)數(shù);ne2是第二個(gè)蛋白質(zhì)中的C/N/O元素個(gè)數(shù);n1和n2分別為兩個(gè)蛋白質(zhì)的原子總數(shù).

(2)

1.1.5P和S元素的相似度(S8、S9) P和S元素在蛋白質(zhì)中的含量相對(duì)較偏少,但其對(duì)蛋白質(zhì)作用的發(fā)揮起著關(guān)鍵的作用,因此,P、S元素的相似度也是評(píng)價(jià)兩個(gè)同源蛋白相似度的一個(gè)重要因素.其中,S8為P元素位置相似度,計(jì)算定義為:若兩個(gè)蛋白均不含P元素,則該相似度為1;若其中一個(gè)含有而另一個(gè)不含有,則相似度為0.如果兩個(gè)蛋白質(zhì)均含有P元素,查找P元素位置和其距原點(diǎn)原子的距離,并按照距離獲取其所在的層數(shù)(S1計(jì)算過程中的分層),如果兩個(gè)蛋白所含P原子位于相同層,則相似度為1;在相鄰層,則相似度為0.5,除此之外的情況則相似度為0.S9為S元素的位置相似度,計(jì)算方法同P元素.

因此,按照上述方法可以計(jì)算出每一對(duì)蛋白的9個(gè)參數(shù)的相似度,將其與總相似度S一起組成樣本數(shù)據(jù)用于之后的建模分析.所收集部分?jǐn)?shù)據(jù)如表1所示.

1.2 線性神經(jīng)網(wǎng)絡(luò)模型的建立

表1 所收集數(shù)據(jù)S及S1~S9的均值和標(biāo)準(zhǔn)差

圖1 訓(xùn)練過程

2 結(jié)果

所建立神經(jīng)網(wǎng)絡(luò)為單層感知器線性神經(jīng)網(wǎng)絡(luò),訓(xùn)練過程如圖1所示.該訓(xùn)練過程結(jié)束后,輸出各參數(shù)系數(shù)如表2所示.由此可得,所建立的數(shù)學(xué)模型為:S=0.319 8S1+0.034 3S2+0.027 9S3+0.061 8S4+0.065 3S5+0.106 2S6+0.103 2S7+0.147 7S8+0.148 0S9-0.014 2.仿真誤差如圖2所示,平均誤差ME計(jì)算結(jié)果為8.67%.分別用該算法模型和RCSB PDB比對(duì)工具及BLAST進(jìn)行相似度的計(jì)算,并比較其結(jié)果如表3所示.

3 討論

本文提出一種新的基于多參數(shù)和線性神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)相似度算法,建立了蛋白質(zhì)相似度和其9個(gè)參數(shù)之間的數(shù)學(xué)模型.該算法是從分析蛋白質(zhì)結(jié)構(gòu)相似度出發(fā),旨在對(duì)蛋白質(zhì)功能的相似性進(jìn)行提示,所選用參數(shù)也均與蛋白質(zhì)功能的表達(dá)相關(guān).

已有一些學(xué)者的研究證明,多參數(shù)評(píng)價(jià)蛋白質(zhì)相似度較單一參數(shù)更為合適[9-10,13],文獻(xiàn)[11]通過比較兩個(gè)蛋白的骨架碳原子曲線參數(shù)比較蛋白質(zhì)的相似度,例如曲率、扭力和翻轉(zhuǎn)變體等.文獻(xiàn)[12]通過對(duì)氨基酸以及蛋白質(zhì)多肽鏈中的特殊結(jié)構(gòu)的分析,綜合考慮了蛋白質(zhì)結(jié)構(gòu)中骨架碳原子數(shù)、突變?cè)訑?shù)、親水微粒數(shù)和螺旋數(shù)4個(gè)參數(shù),并依托模糊數(shù)學(xué)等價(jià)矩陣?yán)碚?,提出一種新的相似度算法,證明其性能比考慮單一參數(shù)更好.神經(jīng)網(wǎng)絡(luò)是近代應(yīng)用逐漸廣泛的人工智能算法[14],并且對(duì)神經(jīng)網(wǎng)絡(luò)采用單層感知器即可建立線性模型,在數(shù)據(jù)量較大時(shí),對(duì)數(shù)據(jù)進(jìn)行特征提取后,再利用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類會(huì)節(jié)省時(shí)間.因此,本文所采用的簡單線性神經(jīng)網(wǎng)絡(luò)模型,對(duì)其進(jìn)行的誤差分析及結(jié)果驗(yàn)證都表明了其良好的性能.從表3可以看出,本算法的計(jì)算結(jié)果同RCSB PDB比對(duì)工具的結(jié)果基本相同,但個(gè)別具有一定差異.如1AAX(酪氨酸激酶)和101M(抹香鯨肌紅蛋白)的相似度,3B94(人GITRL蛋白)和4DB5(家兔GITRL蛋白)的相似度相比較,RCSB PDB結(jié)構(gòu)比對(duì)工具的結(jié)果較高,而3WD5(人TNFα與阿達(dá)木抗體結(jié)合蛋白)和2TNF(小鼠TNFα蛋白)的相似度相對(duì)其較低.具體分析可知,1AAX和101M以及3B94和4DB5均含有S元素且所在位置非常接近,而S元素在蛋白質(zhì)中的作用一般是形成二硫鍵,以此來影響蛋白質(zhì)高級(jí)結(jié)構(gòu)的生物活性和蛋白質(zhì)的復(fù)性等功能特點(diǎn)[15].而3WD5和2TNF雖然也含有S元素,但其所在位置較為不同(一個(gè)在蛋白分子表面,而另一個(gè)在內(nèi)部靠近中心位置),另外,BLAST同源性也表明了二者的相似程度.

表2 各參數(shù)系數(shù)

圖2 誤差曲線

蛋白質(zhì)1蛋白質(zhì)2S1S2S3S4S5S6S7S8S9SRPTBLAST109L110L0.98610.98901.00001.00000.98890.99320.97231.01.00.99090.990.99101M102M0.98350.99300.99920.88000.98800.97920.96190.81.00.93420.990.991AAX101M0.67800.52230.46280.96300.99070.97870.98021.00.50.63680.180.321AAX102M0.68460.09900.16230.92000.99740.99950.98130.01.00.69010.120.323B942R320.85340.81470.98291.00000.99770.98640.99001.01.00.94370.940.983B942R300.70320.55210.99431.00000.98890.99880.96791.01.00.88540.870.703B944DB50.77130.66150.71430.15000.99740.97700.97931.01.00.85000.710.723WD52TNF0.57460.83510.75390.91670.96510.89370.80201.00.50.78450.920.793WD53IT80.98580.99751.00001.00000.99720.98790.97971.01.00.99180.990.99

注:RPT指RCSB PDB Tool

采用本文的算法,可以初步計(jì)算并篩選出與p42.3具有相同結(jié)構(gòu)域且總體相似度在80%以上的蛋白質(zhì)集,推測(cè)出p42.3的生物學(xué)功能和調(diào)控路徑與這些蛋白相似.在后期進(jìn)行的Weston Blot 及PCR生物學(xué)實(shí)驗(yàn)結(jié)果驗(yàn)證了這一預(yù)測(cè).本文中所采用的9個(gè)參數(shù)主要提取自蛋白質(zhì)的空間結(jié)構(gòu)PDB文件,在參數(shù)的選擇和計(jì)算方法方面尚需要進(jìn)一步改進(jìn).隨著研究的深入和樣本量的增多,算法將會(huì)得到進(jìn)一步的優(yōu)化.

[1] JOHNSON M, ZARETSKAYA I, RAYTSELIS Y, et al. NCBI blast: a better web interface[J]. Nucleic acids research,2008, 36(S2): 5-9.

[2] YE Y, CHOI J H, TANG H. RAP rearch: a fast protein similarity search tool for short reads[J]. BMC bioinformatics, 2011, 12(1): 159.

[3] SHINDYALOV I N,BOURNE P E. Protein structure alignment by incremental combinatorial extension (CE) of the optimal path[J]. Protein engineering, 1998, 11(9): 739-747.

[4] ZHANG J H, LU C L, SHANG Z G, et al. P42.3 gene expression in gastric cancer cell and its protein regulatory network analysis[J]. Theoretical biology and medical modelling, 2012, 11(9):53.

[5] 王昕,毛炳蔚,王福偉,等. 蛋白質(zhì)空間結(jié)構(gòu)的統(tǒng)計(jì)分析[J]. 山西大同大學(xué)學(xué)報(bào)(自然科學(xué)版), 2008, 24(5): 3-8.

[6] 章社生,何康,范寧,等. 蛋白質(zhì)空間結(jié)構(gòu)數(shù)字特性統(tǒng)計(jì)分析及應(yīng)用[J].武漢工程大學(xué)學(xué)報(bào), 2010, 32(5): 45-48.

[7] 何立群,占永平. 感知器神經(jīng)網(wǎng)絡(luò)模型研究[J]. 九江學(xué)院學(xué)報(bào)(自然科學(xué)版),2014(4): 37-43.

[8] ATLAS K. 神經(jīng)網(wǎng)絡(luò)的優(yōu)化與用于優(yōu)化的神經(jīng)網(wǎng)絡(luò)[D]. 大連:大連理工大學(xué),2013.

[9] 高華龍. 蛋白質(zhì)空間結(jié)構(gòu)相似性比較方法研究[D]. 大連:大連交通大學(xué),2012.

[10]HAO Y, FAN T, NAN K. Optimization and corroboration of the regulatory pathway of p42.3 protein in the pathogenesis of gastric carcinoma[J]. Computational and mathematical methods in medicine, 2015, 5(28): 1-9.

[11]KOTLOVYI V, NICHOLS W L, TEN EYCK LF. Protein structural alignment for detection of maximally conserved regions[J]. Biophysical chemistry,2003, 105(2/3):595-608.

[12]徐占,董洪偉. 多特征框架下的蛋白質(zhì)相似性比較與分類[J]. 圖學(xué)學(xué)報(bào), 2010, 31(1): 191-196.

[13]張萍萍,張建華,尹咪咪. 蛋白質(zhì)空間結(jié)構(gòu)相似度多參數(shù)算法模型的建立[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2016, 48(2): 105-109.

[14]張睿.計(jì)算智能方法及應(yīng)用研究[J]. 電腦開發(fā)與應(yīng)用, 2012, 25(10): 1-3.

[15]徐國恒. 二硫鍵與蛋白質(zhì)的結(jié)構(gòu)[J]. 生物學(xué)通報(bào), 2010, 45(5): 5-6.

University,Zhengzhou450001,China)

(責(zé)任編輯:方惠敏)

Protein Similarity Algorithm Based on a Linear NeuralNetwork and Multiparameter

LIU Ying1, ZHANG Jianhua1,2, SHI Huitan1, ZHANG Linjing1

(1.SchoolofElectricalEngineeringofZhengzhouUniversity,Zhengzhou450001,China;2.BiomedicalEngineeringTechnologyandDataMiningResearchInstitutionofZhengzhou

The study aimed to presented a new algorithm of proteins structure similarity.The aims of the algorithm was to find the similarity of function by proteins structure alignment.The data of more than 1 000 pairs of proteins were collected.Their similarities were obtained through RCSB PDB structure alignment tool, meanwhile, the similarity of nine parameters of every pairs of proteins were calculated. A linear neural network was adopted to establish the mathematical model between them and the simulation error of it was calculated.Several pairs protein were selected to verify the practicability.The mean error of the model is 8.76%. The result of the practicability verification was basically the same with existing tools except individual had some difference.The algorithm model can be used to evaluate the similarity of proteins structure and the result could signal the function similarity of proteins.

proteins; similarity; multiple parameter; algorithm model; linear neural network

2016-09-13

國家自然科學(xué)基金項(xiàng)目(813D3150).

劉瑩(1989—),女,河南南陽人,碩士研究生,主要從事多參數(shù)信息學(xué)研究,E-mail:1063251753@qq.com;通訊作者:張建華(1971—),男,河北唐山人,副教授,主要從事醫(yī)學(xué)工程技術(shù)與數(shù)據(jù)挖掘研究,E-mail:petermails@163.com.

TP301.6

A

1671-6841(2017)01-0103-05

10.13705/j.issn.1671-6841.2016230

猜你喜歡
相似性原子氨基酸
一類上三角算子矩陣的相似性與酉相似性
原子究竟有多?。?/a>
原子可以結(jié)合嗎?
帶你認(rèn)識(shí)原子
淺析當(dāng)代中西方繪畫的相似性
月桂酰丙氨基酸鈉的抑菌性能研究
UFLC-QTRAP-MS/MS法同時(shí)測(cè)定絞股藍(lán)中11種氨基酸
中成藥(2018年1期)2018-02-02 07:20:05
低滲透黏土中氯離子彌散作用離心模擬相似性
一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
氨基酸分析儀測(cè)定玉米漿中17種游離氨基酸的不確定度評(píng)定
嵊泗县| 宜川县| 定州市| 乌什县| 新宁县| 木兰县| 田林县| 定边县| 东乌珠穆沁旗| 秦皇岛市| 津市市| 克什克腾旗| 绵阳市| 建水县| 大名县| 尉犁县| 黄大仙区| 嘉定区| 邯郸市| 资阳市| 张家界市| 伊金霍洛旗| 和顺县| 赤水市| 沭阳县| 金昌市| 绍兴县| 奉节县| 开鲁县| 攀枝花市| 大庆市| 五华县| 伊宁县| 奈曼旗| 百色市| 离岛区| 哈巴河县| 潞城市| 晋州市| 砚山县| 南召县|