張春城 , 李曉琴
(北京工業(yè)大學(xué)生命科學(xué)與生物工程學(xué)院,北京 100124)
?
基于設(shè)計(jì)模板的BRD-like折疊類型綜合分類方法
張春城 , 李曉琴*
(北京工業(yè)大學(xué)生命科學(xué)與生物工程學(xué)院,北京 100124)
摘要:蛋白質(zhì)折疊規(guī)律研究是生命科學(xué)重大前沿課題,折疊類型分類是蛋白質(zhì)折疊研究的基礎(chǔ)。構(gòu)建BRD-like折疊類型模板數(shù)據(jù)庫,建立了基于多模板的綜合分類方法,并用于該折疊類型的分類。對實(shí)驗(yàn)集的12 117個樣本進(jìn)行檢驗(yàn),結(jié)果的敏感性、特異性分別為0.923和0.997,MCC值為0.72;對獨(dú)立檢驗(yàn)集2 260個樣本的檢驗(yàn),結(jié)果發(fā)現(xiàn):敏感性、特異性分別為0.941和0.998,MCC值為0.86. 結(jié)果表明:基于多模板的綜合分類方法可用于蛋白質(zhì)折疊類型分類。
關(guān)鍵詞:蛋白質(zhì)分類;折疊類型分類;模板數(shù)據(jù)庫;分類方法
蛋白質(zhì)折疊規(guī)律研究是生命科學(xué)重大前沿課題,折疊分類是蛋白質(zhì)折疊研究的基礎(chǔ)。圍繞蛋白質(zhì)折疊類型進(jìn)行系統(tǒng)化研究,將為蛋白質(zhì)的功能分類和預(yù)測[1]提供依據(jù),研究結(jié)果用于蛋白質(zhì)空間結(jié)構(gòu)預(yù)測,可縮小蛋白質(zhì)三級結(jié)構(gòu)預(yù)測的搜素范圍,加快搜索的速度[2]。
蛋白質(zhì)折疊類型是一種粗?;慕Y(jié)構(gòu),反映了蛋白質(zhì)核心結(jié)構(gòu)的拓?fù)淠J絒3-6]。蛋白質(zhì)折疊類型包括蛋白質(zhì)分子空間結(jié)構(gòu)的三個主要方面:二級結(jié)構(gòu)單元、二級結(jié)構(gòu)單元的相對排布位置以及蛋白質(zhì)多肽鏈的整個路由關(guān)系(即肽鏈走向)[7]。蛋白質(zhì)的空間結(jié)構(gòu)十分復(fù)雜,但它的框架結(jié)構(gòu)(折疊類型或拓?fù)浣Y(jié)構(gòu)或折疊子)卻相對簡單[8]?,F(xiàn)在一般認(rèn)為蛋白質(zhì)的折疊類型是有限的,只有數(shù)百到數(shù)千種[9-10],許多同源性很差的蛋白質(zhì)卻存在相同的骨架結(jié)構(gòu)——折疊子[11],進(jìn)一步的研究也表明,蛋白質(zhì)的折疊速率和折疊機(jī)制,在很大程度上是由天然狀態(tài)的拓?fù)渌鶝Q定的[12]。因此,對自然界存在的數(shù)百到數(shù)千種折疊類型進(jìn)行系統(tǒng)研究,探索構(gòu)建蛋白質(zhì)折疊類型模板的方法,建立蛋白質(zhì)折疊類型分類方法,為進(jìn)一步識別研究奠定基礎(chǔ)。
目前,SCOP[13]數(shù)據(jù)庫是蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫的典型代表,包括蛋白質(zhì)結(jié)構(gòu)類、折疊類型、超家族、家族等不同層次,其中蛋白質(zhì)折疊類型,由專家憑經(jīng)驗(yàn)指定,是手工分類的結(jié)果,伴隨PDB數(shù)據(jù)庫資料的迅速增長,專家人為指定存在的弊端日益突顯。2013年,SCOPe[14]數(shù)據(jù)庫建立,利用ASTRAL提供的幾個有助于蛋白質(zhì)結(jié)構(gòu)分類的工具,在SCOP已有分類的基礎(chǔ)上,對新的蛋白質(zhì)結(jié)構(gòu)樣本進(jìn)行自動管理并歸類,但依然有很多蛋白質(zhì)不能使用自動管理方法,需要通過手動選擇來完成。最近7年,SCOP數(shù)據(jù)中折疊層所包含的折疊類型總數(shù)基本保持在1 393種左右,折疊類型總數(shù)基本穩(wěn)定。如何利用并進(jìn)一步挖掘SCOP人工分類結(jié)果,并在此基礎(chǔ)上建立蛋白質(zhì)折疊類型分類方法,實(shí)現(xiàn)蛋白質(zhì)折疊類型的自動分類,是迫切需要解決的問題。
蛋白質(zhì)折疊類型分類方法的建立,首先需要解決的是折疊類型對應(yīng)的模板的選取問題。研究結(jié)果表明,模板的好壞直接影響了預(yù)測結(jié)果的好壞,即預(yù)測的結(jié)果傾向于模板的模型[15]。在折疊識別選擇模板時,第一步選通過序列比對在結(jié)構(gòu)數(shù)據(jù)庫中尋找同源性高、結(jié)構(gòu)上冗余小、分辨率高并且折疊核心清晰的天然蛋白質(zhì)作為原始模板,這些模板具有相似的二級結(jié)構(gòu)組成、數(shù)目和排列方式,第二步建立具體模板時,將目標(biāo)序列與第一步的天然模板進(jìn)行序列比對,是目標(biāo)氨基酸殘基和模板的殘基匹配,并確定保守區(qū)和可變區(qū),保留保守區(qū)中不連續(xù)的二級結(jié)構(gòu)片段作為過程模板,之后對過程模板進(jìn)行優(yōu)化并構(gòu)建側(cè)鏈和環(huán)區(qū)得到最優(yōu)模板。折疊類型分類的模板選擇方法和蛋白質(zhì)結(jié)構(gòu)預(yù)測中折疊識別的模板選擇的方法類似,折疊類型分類只是對已知結(jié)構(gòu)的蛋白進(jìn)行分類,在以往的蛋白質(zhì)折疊類型分類方法[16-17]中,通常會選取一個天然蛋白質(zhì)作為折疊類型模板,所選的天然蛋白質(zhì)在結(jié)構(gòu)上冗余少并且折疊核心清晰。但我們的研究發(fā)現(xiàn):在一個以結(jié)構(gòu)簡單的天然樣本作為模板的分類結(jié)果中,折疊類型內(nèi)部部分樣本的分類結(jié)果并不好,其原因是在一個蛋白質(zhì)折疊類型內(nèi)部,通常會包含多了家族和多個超家族,以結(jié)構(gòu)簡單的天然樣本為模板,該模板具有所在家族的個性化結(jié)構(gòu)特征,但不足以代表折疊類型所屬全部超家族樣本的共性特征,即普適性不夠;另外,蛋白質(zhì)折疊類型的模板應(yīng)該圍繞折疊核心的的規(guī)則二級結(jié)構(gòu)片段(保守區(qū)域結(jié)構(gòu))來構(gòu)建,這樣天然模板折疊核心以外的其它結(jié)構(gòu)(非保守結(jié)構(gòu)loop區(qū)域)會干擾折疊分類的結(jié)果,因此,需要通過設(shè)計(jì)反映折疊類型特征的無結(jié)構(gòu)冗余的多模板來解決上述問題。本文將利用前期我們給出了BRD-like折疊類型模板設(shè)計(jì)方法[18],設(shè)計(jì)生成該折疊類型模板,設(shè)計(jì)的模板具有普適性,能夠用于蛋白質(zhì)的分類,并用于本文的綜合分類方法的建立。
基于模板的分類方法需要建立一個量化的評判方法。通常,蛋白質(zhì)的折疊分類方法是將已知空間結(jié)構(gòu)的待測蛋白和折疊類型的模板進(jìn)行結(jié)構(gòu)比對,以結(jié)構(gòu)比對的量化打分函數(shù)來確定待測蛋白是否屬于某一折疊類型。結(jié)構(gòu)比對是蛋白質(zhì)結(jié)構(gòu)分類的基礎(chǔ),目前結(jié)構(gòu)比對算法如CE[19]、DALI[20]、SSM[21]、TM-align[22]、MUSTANG[23]、GOSSIP[24]。CE是基于組合擴(kuò)展的方法但發(fā)時間較早,DALI是在兩蛋白質(zhì)間尋找最佳的距離比對并生成距離矩陣得到Z-score,該方法忽略了結(jié)構(gòu)比對后建模的準(zhǔn)確性且很大程度上依賴于蛋白質(zhì)的序列長度,MUSTANG是在DALI 雙結(jié)構(gòu)比的基礎(chǔ)上發(fā)展的一種多結(jié)構(gòu)比對方法,對于空間折疊、殘基接觸模式有較強(qiáng)的識別能力,TM-align是一個基于TM-score結(jié)構(gòu)比對程序,其比對速度是CE比對的4倍,是DALI的20倍[22]。同時,TM-align利用比對結(jié)果計(jì)算待測蛋白與模板的α-碳原子坐標(biāo)距離生成打分函數(shù),得到兩個比對質(zhì)量的評估參數(shù)RMSD和TM-score,若TM-score>0.5,待測蛋白質(zhì)通常與模板屬于同一折疊類型,即以TM-score閾值0.5作為折疊類型分類的基礎(chǔ),TM-score克服了打分值與蛋白質(zhì)大小的冪率依賴[16],但是,TM-score是基于單模板比對的打分,僅利用TM-score來評判分類,無法克服單模板分類的弊端,并且以0.5作為TM-score閾值的分類結(jié)果并不理想。
利用多模板的TM-score結(jié)果,建立BRD-like折疊類型綜合分類方法。依據(jù)多模板打分的綜合分類方法的建立,利用多模板之間的互補(bǔ)性能夠解決單模板在結(jié)構(gòu)上的單一性問題,提高分類準(zhǔn)確性,此外,多模板的綜合分類方法將模板的分類閾值提高,從而進(jìn)一步提高分類的正確性。該綜合分類方法的建立,對其它蛋白質(zhì)折疊類型綜合分類方法的建立具有示范和借鑒作用,并為統(tǒng)一的蛋白質(zhì)折疊類型綜合分類方法的建立奠定基礎(chǔ)。
1材料和評估參數(shù)
1.1材料
1.1.1實(shí)驗(yàn)集和獨(dú)立檢驗(yàn)集
Bromodomain(BRD) 蛋白因其在基因轉(zhuǎn)錄過程中發(fā)揮重要的作用,并與腫瘤、神經(jīng)紊亂、炎癥、肥胖和心血管疾病發(fā)生相關(guān)[25]成為近年的研究熱點(diǎn)。BRD家族在人體內(nèi)能特異性識別蛋白中的乙?;嚢彼?KAc)[26],并具有辨別不同蛋白結(jié)合物的能力[27-29],是蛋白質(zhì)交互模塊中探索藥物發(fā)現(xiàn)領(lǐng)域的代表。
實(shí)驗(yàn)集:SCOPe astral 2.03數(shù)據(jù)庫序列相似度小于40%、分辨率高于0.25nm的全部12 117樣本。其中BRD-like折疊類型對應(yīng)Bromodomain(BRD)蛋白,樣本總數(shù)為52,記為Set-I,圖1為BRD蛋白結(jié)構(gòu)及其對應(yīng)的拓?fù)浣Y(jié)構(gòu)模型,該折疊類型在SCOPe Astral 2.03數(shù)據(jù)庫中其對應(yīng)編號為a.29,包含15個超家族、20個家族。數(shù)據(jù)集中非BRD-like折疊類型的樣本為12 065,記為Set-II。
圖1 BRD蛋白模型和拓?fù)浣Y(jié)構(gòu)模型
獨(dú)立檢驗(yàn)集:SCOPe astral 2.05中剔除SCOPe astral2.03所含樣本,余下的2 260樣本,記為Set-Ⅲ。
Set-Ⅲ中,17個樣本屬于BRD-like折疊類型,2 243個樣本屬于非BRD-like折疊類型樣本。
1.1.2模板信息及模板數(shù)據(jù)庫
在前期工作中[18],我們利用Set-I樣本,通過多結(jié)構(gòu)比對及數(shù)據(jù)分析,建立了折疊類型家族模板的設(shè)計(jì)方法,并結(jié)合家族模板的系統(tǒng)聚類圖,提出了蛋白質(zhì)折疊類型模板的設(shè)計(jì)方法。利用該方法對BRD-like折疊類型設(shè)計(jì)生成了4個模板,分別記為Model_1、Model_2、Model_3、Model_4,模板的文本信息見表1,其對應(yīng)的結(jié)構(gòu)信息以Model-ID為文件名,保存在相應(yīng)的PDB格式文件中,并形成模板數(shù)據(jù)庫。Model_1的ID號為a. 29. 2. 0_2. 1,其中α代表結(jié)構(gòu)類,即全α類,29代表SCOPe astral 2.03數(shù)據(jù)庫中BRD-like折疊類型的編號,2. 0_2. 1代表形成該模板的2. 0和2. 1超家族和家族,其它模板ID編號類同。
表1 BDR折疊類型蛋白質(zhì)的模板信息
1.2打分函數(shù)及評估參數(shù)
打分函數(shù)TM-score[16](Template Model Score,模板建模打分)定義為:
其中L是模板蛋白的長度,Lali是模板蛋白與待測蛋白中等價(jià)殘基的數(shù)量,di是模板蛋白與待測蛋白質(zhì)中第i個等價(jià)殘基之間的距離,d0[16]的定義是將TM-score標(biāo)準(zhǔn)化,使得打分值與蛋白質(zhì)大小不存在冪率的關(guān)系。TM-score的取值范圍為(0, 1],取值越大,表明待測蛋白與模板蛋白相似性越高。TM-score>0. 5,待測蛋白與模板蛋白屬于同一折疊類型,否則為不同折疊類型[16]。
利用敏感性、特異性、Matthew相關(guān)系數(shù)三個指標(biāo)對分類方法進(jìn)行評估,參數(shù)定義如下:
2分類方法與結(jié)果討論
2.1基于單模板的分類方法及結(jié)果討論
2.1.1TM-score計(jì)算及統(tǒng)計(jì)分析
對Set-I及Set-II數(shù)據(jù)集中任意樣本,分別與Model_1~ Model_4進(jìn)行TM-align比對,并計(jì)算TM-score,分別記為TM-score1~TM-score4,部分結(jié)果見表2。
根據(jù)表2的TM-score數(shù)據(jù),分別對Set-I、Set-II所屬的TM-score數(shù)據(jù),以模板為分組變量,進(jìn)行描述性統(tǒng)計(jì)分析,Set-I對應(yīng)的TM-score的分組直方圖見圖2,Set-II對應(yīng)的TM-score的分組直方圖見圖3。圖2和圖3中圈內(nèi)的部分分別代表TM-score小于0.5和TM-score大于0.5;各個模板的統(tǒng)計(jì)指標(biāo)見表3,其中mean代表均值,confidence interval為均值95%的置信區(qū)間,max代表Set-II的TM-score最大值,min代表Set-I的TM-score最小值。
由表3、圖2、圖3可知,Set-I中,Model_1對應(yīng)的TM-score最小值為0.37nm,均值為0.66nm;Set-II中,Model_1對應(yīng)的TM-score最大值為0.61nm,均值為0.33nm。Set-I和Set-II的TM-score均值相差較大,數(shù)值分布區(qū)間重疊部分較小,其它模板類同。說明設(shè)計(jì)模板的TM-score取值在所屬折疊類型內(nèi)部及非所屬折疊類型內(nèi)部具有良好的聚集性,而在兩者之間具有離散性,這與張揚(yáng)文章[16]中基于天然模板的TM-score分布是一致的,說明設(shè)計(jì)模板與天然模板具有相同的TM-score取值分布。
表2 實(shí)驗(yàn)集中樣本的TM-score
圖2 實(shí)驗(yàn)集Set-I的 TM-score直方圖 圖3 實(shí)驗(yàn)集Set-II的 TM-score直方圖
數(shù)據(jù)集模板均值(nm)95%置信區(qū)間標(biāo)準(zhǔn)差(nm)最大值|最小值Set-IModel_10.66[0.61,0.72]0.100.37Model_20.65[0.63,0.67]0.070.56Model_30.59[0.57,0.61]0.070.42Model_40.54[0.53,0.56]0.060.37Set-IIModel_10.33[0.32,0.33]0.070.61Model_20.36[0.35,0.36]0.080.76Model_30.35[0.34,0.35]0.070.67Model_40.33[0.32,0.33]0.070.62
由圖2不同模板對Set-I的TM-score數(shù)值分布圖可知:當(dāng)TM-score數(shù)值在0.5~0.7時,四個模板能夠識別本折疊類型的大多數(shù)樣本,說明不同模板具有相同折疊類型的屬性;當(dāng)TM-score數(shù)值大于0.8時,只有Model_1能夠識別的樣本數(shù)較多,為30%左右,其它三個模板識別數(shù)在10%以下,Model_1的TM-score分布與其它模板不同,出現(xiàn)兩級分化現(xiàn)象,Model_2與Model_3和Model_4的TM-score峰值位置也不同,說明模板間具有差異性。Set-II中,不同模板的TM-score分布基本一致,呈正態(tài)分布。
2.1.2基于單模板的分類結(jié)果
根據(jù)表2的計(jì)算結(jié)果,將TM-score取值0.5作為分類閾值,當(dāng)TM-score≥ 0.5時,待測蛋白與模板蛋白屬于同一折疊類型,否則為不同折疊類型[16]。分別計(jì)算Model_1~Model_4的敏感性、特異性及Mattew相關(guān)系數(shù),結(jié)果見表4。表中S表示BRD-like折疊類型樣本數(shù)量,S'表示打分在0.5以上的樣本數(shù)量。
表4 不同模板的敏感性、特異性以及MCC值
由表4可知,4個模板的敏感性均在80%以上,特異性在95%以上,說明設(shè)計(jì)模板本身抓住了折疊類型的基本特征,具有相同的折疊類型屬性,模板設(shè)計(jì)是合理的,但MCC值均未達(dá)到0.6,且敏感性高對應(yīng)的特異性會低,即敏感性、特異性是一對矛盾體。
對于單模板分類,提高TM-score的閾值,特異性會提高,但敏感性會降低,降低TM-score的閾值,敏感性會提高,特異性又會降低,矛盾無法解決。
2.2基于多模板的綜合分類方法及結(jié)果討論
如何使MCC值得到提高,同時特異性、敏感性也保持較高水平?需要綜合利用多模板打分,建立基于設(shè)計(jì)模板的綜合分類方法。
2.2.1模板的互補(bǔ)性分析
為進(jìn)一步檢驗(yàn)?zāi)0逯g的相似性和差異性,將任意兩模板進(jìn)行TM-align比對,獲得模板之間的RMSD和TM-score,見表5。
表5 各個模板之間的RMSD和TM-score
可知,模板間兩兩比對后的RMSD都在0.4nm以內(nèi),打分值都在0.5以上,說明各個模板具用相同折疊類型的屬性,即模板間具有相似性。但模板間的TM-score均小于0.61,說明各個模板間存在差異性。
在Set-I數(shù)據(jù)集內(nèi)部,對表2提供的TM-score1~TM-score4的4組數(shù)據(jù),利用SPSS軟件計(jì)算任意兩組間Pearson相關(guān)系數(shù),結(jié)果見表6。
表6 Pearson相關(guān)系數(shù)
表6中,Pearson相關(guān)系數(shù)的絕對值均在0.5以下。Pearson相關(guān)系數(shù)小說明:相同樣本不同模板打分值之間關(guān)聯(lián)度比較小,不同模板的TM-score數(shù)組間不存在共線性問題,模板彼此相對獨(dú)立;另外,Model_1 打分TM-score1與Model_2 ~Model_4打分的TM-score2~TM-score4數(shù)組間為負(fù)相關(guān),說明對相同樣本,對應(yīng)的打分值存在取值大小上的互補(bǔ)性。
2.2.2雙模板分類方法及結(jié)果討論
提高TM-score閾值,并采用雙模板組合對實(shí)驗(yàn)集Set-I和Set-II進(jìn)行分類,并按照以下原則搜索可能的雙模板閾值組合:能識別Set-I中95%以上樣本;每個模板的閾值大于0.5且能識別Set-I中50%(識別數(shù)為26)以上樣本。選取其中模板互補(bǔ)性良好的閾值組合,并對實(shí)驗(yàn)集樣本進(jìn)行分類,結(jié)果見表7。
表7 雙模板組合的敏感性、特異性以及MCC值
由表7可知,采用雙模板打分并且提高閾值以后,MCC值提高到0.63以上,分類結(jié)果的敏感性和特異性與單模板相應(yīng)結(jié)果比也均有提高。說明利用模板間的互補(bǔ)性進(jìn)行折疊類型分類,既提高了打分函數(shù)的閾值,也提高了敏感性、特異性及MCC值。
2.3綜合分類方法的建立
對BRD-like折疊類型,設(shè)計(jì)生成了4個模板,綜合利用四個模板的差異性及其在分類識別中的互補(bǔ)性,建立綜合分類方法,提高分類方法的有效性。
四模板最佳閾值組合尋找方法:
(1)假設(shè)Model_1~ Model_4模板的閾值分別為score1、score2、score3和score4,閾值以上能夠識別Set-I數(shù)據(jù)集樣本個數(shù)分別為M、N、P、Q,見圖4。
圖4 四個模板對于Set-I 實(shí)驗(yàn)集中樣本的識別個數(shù)
(2)根據(jù)集合的容斥原理,得到四模板綜合打分的識別總數(shù),M∪N∪P∪Q。根據(jù)四模板的閾值TM-score組合,得到四模板打分的最佳閾值的組合。
(3)集合的容斥原理如下:
M∪N∪P∪Q=M+N+P+Q-M∩N-M∩P-M∩Q-N∩P-N∩Q-P∩Q+M∩N∩P+M∩N∩Q+M∩P∩Q+N∩P∩Q-M∩N∩P∩Q利用最佳閾值組合方式篩選本折疊類型的52個樣本,得到正確識別50、51、52個樣本的閾值組合為分別為244 244、302 907、205 600,占閾值組合的比例分別為3.3%、4.1%、2.8% 。
從正確識別52個樣本的205 600種閾值組合中,選取每個模板正確識別數(shù)在13以上且對應(yīng)模板的閾值大于0.5的閾值組合,對Set-I及Set-II進(jìn)行分類,分類的敏感性均為100%,特異性在98.23%以上,但MCC值均低于0.62。且最佳閾值組合對表2中TM-score取值依賴性強(qiáng),閾值的普適性也比較差。
ScoreMin、ScoreMinor、ScoreLarge、ScoreMax分別代表待分類樣本與四模板打分值TM-score1~TM-score4的由小到大排序。
基于上述分析,建立綜合分類方法,對于任意待分類樣本,滿足以下閾值組合條件:
分類方法(1): ScoreMax≥0.60,且ScoreLarge≥0.55;
2.4分類方法的自洽檢驗(yàn)與獨(dú)立性檢驗(yàn)
2.4.1自洽性檢驗(yàn)
將分類方法對Set-I和Set-II樣本進(jìn)行分類,分類結(jié)果見表8。
表8 綜合分類方法的自洽性檢驗(yàn)
由表8可知:MCC值達(dá)到了0.7以上,特異性達(dá)到99.6%以上,敏感性也在92%以上,其真陽性個數(shù)差別在1之內(nèi),2種分類方法結(jié)果差別不大,但從綜合指標(biāo)MCC的結(jié)果看,方法2略好于方法1。
對方法2結(jié)果中的36個假陽性樣本的分析發(fā)現(xiàn):有3個樣本—d1sj8a2、d1u89a1、d2xola_的拓?fù)浣Y(jié)構(gòu)與BRD-like折疊類型相同,見圖5,對應(yīng)的SCOPe 分類編號為a.216、a.216和a.184;其它33個假陽性樣本中,8個樣本為4螺旋結(jié)構(gòu)但拓?fù)浜诵倪B接順序不同,10個樣本為5螺旋結(jié)構(gòu),15個樣本為7螺旋以上結(jié)構(gòu),這些樣本,當(dāng)其所屬折疊類型模板參與折疊類型分類時,可以通過競爭實(shí)現(xiàn)正確分類。
(a)d1sj8a2 (b)d1u89a1 (c)d2xola_
2.4.2獨(dú)立性檢驗(yàn)
綜合分類方法用于獨(dú)立性檢驗(yàn)集Set-Ⅲ所屬樣本的的分類結(jié)果見表9。
表9 綜合分類方法的獨(dú)立性檢驗(yàn)
對獨(dú)立驗(yàn)集,兩種分類方法的敏感性在88%以上,特異性在99.6%以上,MCC值在0.75以上,其中方法2的敏感性為94.12%,MCC值達(dá)到0.86,說明綜合分類方法具有普適性,用于BRD-like折疊類型分類是可行的。對獨(dú)立檢驗(yàn)集,方法2的分類結(jié)果比方法1的分類結(jié)果好,與自洽性檢驗(yàn)的結(jié)果吻合。綜合自洽性檢驗(yàn)及獨(dú)立性檢驗(yàn)的結(jié)果,確定方法2為基于多模板的BRD-like折疊類型的分類方法。
3結(jié)論
本文構(gòu)建了BRD-like折疊類型模板數(shù)據(jù)庫,利用基于單模板的方法進(jìn)行分類,綜合指標(biāo)MCC值范圍為0.34~0.59;利用基于雙模板的方法進(jìn)行分類,綜合指標(biāo)MCC值范圍為0.63~0.64;利用基于多模板的綜合分類方法,對實(shí)驗(yàn)集序列相似度小于40%的12 117個樣本進(jìn)行檢驗(yàn),檢驗(yàn)結(jié)果的敏感性、特異性分別為0.923和0.997,MCC值為0.72。將基于多模板的綜合分類方法對序列相似度小于40%的獨(dú)立檢驗(yàn)集的2 260個樣本進(jìn)行檢驗(yàn),結(jié)果為:敏感性、特異性分別為0.941和0.998、MCC值為0.86。結(jié)果表明:基于多模板的綜合分類方法可用于蛋白質(zhì)折疊類型分類,分類結(jié)果優(yōu)于單模板分類結(jié)果。
參考文獻(xiàn)
[1]VOLKAMER A, KUHN D, RIPPMANN F, et al. Predicting enzymatic function from global binding site descriptors[J].Proteins Structure Function & Bioinformatics, 2013, 81(3):479-489.
[2]ISIK Z, YANIKOGLU B,SEZERMAN U.Protein structural class determination using support vector machines.[C]//Proceedings of the 19th International Symposium on Computer and Information Sciences. Kemer-Antalya,Turkey,2004:82-89.
[3]VALERIE D, ALAN F. The present view of the mechanism of protein folding[J]. Nature Reviews Molecular Cell Biology, 2003, 4(6):497-502.
[4]DAGGETT V, FERSHT A R. Is there a unifying mechanism for protein folding[J]. Trends in Biochemical Sciences, 2003, 28(1):18-25.
[5]ONUCHIC J N, WOLYNES P G. Theory of protein folding[J]. Current Opinion in Structural Biology, 2004, 14(1):70-75.
[6]STEFANO G, GUYDOSH N R, FAAIZAH K, et al.Unifying features in protein-folding mechanisms[J].Proceedings of the National Academy of Sciences, 2003,100(23):13286-13291.
[7]閻隆飛. 蛋白質(zhì)分子結(jié)構(gòu)[M]. 北京:清華大學(xué)出版社, 1999.
YAN Longfei. Protein molecular structure[M].Beijing:Tsinghua University Press,1999.
[8]LUO L F, LI X. Recognition and architecture of the framework structure of protein[J]. Proteins Structure Function & Bioinformatics, 2000, 39(1):9-25.
[9]CHOTHIA C. One thousand families for the molecular biologist[J]. Nature, 1992, 357:543-544.
[10]WANG Z X. How many fold types of protein are there in nature?[J]. Proteins Structure Function & Bioinformatics, 1996, 26(2):186-191.
[11]BAKER D, SALI A .Protein structure prediction and structural genomics[J].Science, 2001, 294(5540):93--96.
[12]BAKER D. A surprising simplicity to protein folding[J]. Nature, 2000, 405(6782):39-42.
[13]ANTONINA A, DAVE H, JOHN-MARC C, et al. Data growth and its impact on the SCOP database: new developments[J].Cancer Research, 2006, 66(7):3688-3698.
[14]FOX N K, BRENNER S E, CHANDONIA J M. SCOPe: Structural classification of proteins-extended, integrating SCOP and ASTRAL data and classification of new structures[J]. Nucleic Acids Research, 2014, 42(Database issue):D304-309.
[15]KELLEY L A, MACCALLUM R M, STERNBERG M J. Enhanced genome annotation using structural profiles in the program 3D-PSSM[J].Journal of Molecular Biology, 2000, 299(2):499-520.
[16]JINRUI X, YANG Z. How significant is a protein structure similarity with TM-score = 0.5?[J]. Bioinformatics, 2010, 26(7):889-895.
[17]馬帥, 王勤, 李曉琴. α/β類蛋白質(zhì)折疊類型的分類方法研究[J]. 生物信息學(xué), 2014,12(2):123-132.
MA Shuai, WANG Qin, LI Xiaoqin. Research on the classification method of α/β protein fold type[J].Chinese Journal of Bioinformatics, 2014,12(2):123-132.
[18]孔令強(qiáng),李曉琴. 基于特征片段信息的PH domain-like barrel 蛋白質(zhì)折疊類型分類分析[J]. 生物信息學(xué), 2012,10(2):125-129.
KONG Lingqiang, LI Xiaoqin. A method of PH domin-like barrel protein fold classification based on characteristics fragments[J].Chinese Journal of Bioinformatics,2012, 10(2):125-129.
[19]SHINDYALOV I N, BOURNE P E. Protein structure alignment by incremental combinatorial extension (CE) of the optimal path[J]. Protein Engineering, 1998, 11(9):739-747.
[20]HOLM L, PARK J. DaliLite workbench for protein structure comparison[J]. Bioinformatics, 2000, 16(6):566-567.
[21]KRISSINEL E H K. Secondary-structure matching (SSM), a new tool for fast protein structure alignment in three dimensions. Acta Crystallogr[J]. Acta Crystallographica Section D: Biological,2004, 60(12-1):2256-2268.
[22]ZHANG Yang, SKOLNICK J. TM-align: a protein structure alignment algorithm based on the TM-score[J]. Nucleic Acids Research, 2005, 33(7):2302-2309.
[23]KONAGURTHU A S, WHISSTOCK J C, STUCKEY P J, et al. MUSTANG: A multiple structural alignment algorithm[J]. Proteins Structure Function & Bioinformatics, 2006, 64(3):559-74.
[24]KIFER I, NUSSINOV R, WOLFSON H J. GOSSIP: A method for fast and accurate global alignment of protein structure[J]. Bioinformatics, 2011, 27(7):925-32.
[25]VIDLER L R, PANAGIS F, OLEG F, et al. Discovery of novel small-molecule inhibitors of BRD4 using structure-based virtual screening[J]. Journal of Medicinal Chemistry, 2013, 56(20):8073-88.
[26]FILIPPAKOPOULOS P, KNAPP S. The bromodomain interaction module[J]. Febs Letters, 2012, 586(17):2692-2704.
[27]DHALLUIN C, CARLSON J E, ZENG L, et al. Structure and ligand of a histone acetyltransferase bromodomain[J]. Nature, 1999, 399(6735):491-496.
[28]CONWAY S J. Bromodomains: are readers right for epigenetic therapy?[J]. Acs Medicinal Chemistry Letters, 2012, 3(9):691-4.
[29]VOLLMUTH F, BLANKENFELDT W, GEYER M. Structures of the dual bromodomains of the P-TEFb-activating protein Brd4 at atomic resolution[J]. Journal of Biological Chemistry, 2009, 284(52):36547-36556.
Classification method of BRD-like folding type based on design templates
ZHANG Chuncheng,LI Xiaoqin*
(CollegeofLifeScienceandBioengineering,BeijingUniversityofTechnology,Beijing100124,China)
Abstract:The study on principle of protein folding is a cutting-edge topic in life science, and folding type classification is the basis of protein folding research. In this paper, we constructed a template database of BRD-like folding type, and established a comprehensive classification method based on multiple templates. Our method is used for the classification of BRD-like folding. We tested the training set of 12 117 samples,and found that the sensitivity,specificity and MCC were 0.923,0.997 and 0.72 respectively.Then we tested the 2 260 samples of the independent test, and found that the sensitivity,specificity and MCC were 0.941,0.998 and 0.86 respectively. These results indicated that the comprehensive classification method based on multiple templates could be used for the classification of protein folding.
Keywords:Protein classification; Classification of folding type; Template database; Classification method
收稿日期:2016-03-10;修回日期:2016-04-15.
基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(No.21173014)和北京市自然科學(xué)基金資助項(xiàng)目(No.4112010)。
作者簡介:張春城,男,碩士研究生,研究方向:生物信息學(xué);E-mail:634862747@qq.com. *通信作者:李曉琴,女,教授,碩士生導(dǎo)師,研究方向:生物信息學(xué);E-mail:lxq0811@bjut.edu.cn.
doi:10.3969/j.issn.1672-5565.2016.02.06
中圖分類號:Q518
文獻(xiàn)標(biāo)志碼:A
文章編號:1672-5565(2016)02-100-08