吳建盛,馬昕,周童,湯麗華,胡棟
1.南京郵電大學(xué)地理與生物信息學(xué)院,南京210046;
2.東南大學(xué)生物電子學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,南京210096
G蛋白偶聯(lián)受體及其類型的預(yù)測(cè)
吳建盛1,馬昕2,周童2,湯麗華1,胡棟1
1.南京郵電大學(xué)地理與生物信息學(xué)院,南京210046;
2.東南大學(xué)生物電子學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,南京210096
G蛋白偶聯(lián)受體是非常重要的信號(hào)分子受體,其功能失調(diào)會(huì)導(dǎo)致許多疾病的產(chǎn)生。在前期工作的基礎(chǔ)上,作者將序列特征分析與支持向量機(jī)技術(shù)結(jié)合起來,通過分析序列的特征差異,對(duì)G蛋白偶聯(lián)受體分子及其類型進(jìn)行識(shí)別。首次提取了G蛋白偶聯(lián)受體對(duì)應(yīng)的mRNA序列的絕對(duì)密碼子使用頻率作為特征,這主要因?yàn)樗劝嘶蛎艽a子使用偏性的信息,也包含了基因所編碼蛋白的氨基酸組成信息。結(jié)果顯示:在G蛋白偶聯(lián)受體序列及其類型預(yù)測(cè)的問題中,設(shè)計(jì)支持向量機(jī)分類器時(shí),最好選擇使用包含基因序列絕對(duì)密碼子使用頻率和蛋白序列雙聯(lián)氨基酸使用頻率兩部分信息的組合特征作為特征,同時(shí)采用徑向基核作為核函數(shù)。
G蛋白偶聯(lián)受體;支持向量機(jī);絕對(duì)密碼子使用頻率
G蛋白偶聯(lián)受體(G-protein coupled receptor,GPCR)是一類具有7個(gè)跨膜螺旋的跨膜蛋白受體,能結(jié)合并調(diào)節(jié)G蛋白活性,是一類非常重要的信號(hào)分子受體。GPCR的結(jié)構(gòu)特征及其在信號(hào)傳導(dǎo)中的重要作用,決定了其可以作為重要的藥物靶點(diǎn)。GPCR的功能失調(diào)會(huì)導(dǎo)致許多疾病的發(fā)生,如阿爾茨海默氏癥、帕金森癥、侏儒癥、色盲癥、色素性視網(wǎng)膜炎和哮喘等。通過調(diào)節(jié)有關(guān)GPCR介導(dǎo)的信號(hào)傳導(dǎo),可以治療抑郁癥、精神分裂癥、失眠、高血壓、虛弱、焦躁、緊張、腎功能衰竭、心腦血管疾病和炎癥等病癥。大部分藥物可通過靶向作用于GPCR而達(dá)到治療的效果,所以GPCR在制藥領(lǐng)域中占有極其重要的地位。根據(jù)GPCR的序列差異,GPCR蛋白超家族可分為5類,準(zhǔn)確地分類預(yù)測(cè)GPCR有著很重要的意義和作用。
G蛋白偶聯(lián)受體是重要的藥物靶標(biāo),很多藥物方面的研究瞄準(zhǔn)它們的結(jié)構(gòu)與功能的關(guān)系[1]。然而,大多數(shù)GPCR的三級(jí)結(jié)構(gòu)仍然是未知的,主要是由于這些蛋白難于結(jié)晶。同時(shí),這些蛋白在一般的溶劑中溶解度都不大,使得核磁共振也無法使用。相反,隨著人類基因組以及其它種類生物基因組計(jì)劃的開展,已經(jīng)獲得了大量的氨基酸序列數(shù)據(jù)。目前,如何利用這些已知的一級(jí)結(jié)構(gòu)信息,成為生物信息學(xué)的研究熱點(diǎn)之一,比如,如何從大量蛋白質(zhì)序列中找出GPCR,找到GPCR后,又如何判斷它的類型等。
近年來,許多識(shí)別算法已經(jīng)應(yīng)用于GPCR類型的預(yù)測(cè),如利用BLAST在數(shù)據(jù)庫(kù)中搜索相似序列[2]、基于氨基酸物理化學(xué)特性的統(tǒng)計(jì)方法[3]、基于進(jìn)化樹[4]以及基于隱馬爾科夫鏈[5]等方法。上述方法主要依賴于序列間的相似性,當(dāng)要判斷的序列與訓(xùn)練集樣本間缺乏相似性時(shí),預(yù)測(cè)結(jié)果受到限制;同時(shí),這些方法大多基于傳統(tǒng)的統(tǒng)計(jì)理論,對(duì)訓(xùn)練集樣本的數(shù)目有一定要求,而現(xiàn)有的已知類別樣本有限,這同樣影響了分類預(yù)測(cè)的準(zhǔn)確率。針對(duì)這種情況,Karchin等[6]開始嘗試?yán)弥С窒蛄繖C(jī)(support vector classification,SVM)的方法來識(shí)別GPCR超家族中各蛋白的類型,并取得了一定的效果。特別是,Bhasin等[7]在Karchin等思路的基礎(chǔ)上,還是利用支持向量機(jī),并結(jié)合蛋白質(zhì)一維序列的雙聯(lián)氨基酸使用頻率,對(duì)GPCR的蛋白質(zhì)類型進(jìn)行預(yù)測(cè),得到了很好的效果。
然而,上述的方法基本都是基于氨基酸序列的特征。目前,還很少有直接從編碼GPCR蛋白的核酸序列中提取特征進(jìn)行GPCR蛋白類型預(yù)測(cè)的方法。本文中,我們基于前期研究工作的基礎(chǔ)[8~10],將序列特征分析與支持向量機(jī)結(jié)合起來,首次提取GPCR蛋白對(duì)應(yīng)的mRNA基因序列中的絕對(duì)密碼子使用頻率信息,并加入蛋白質(zhì)雙聯(lián)氨基酸使用頻率信息,對(duì)GPCR蛋白序列及其類型進(jìn)行識(shí)別,取得了很好的效果,并且與基于單聯(lián)氨基酸使用頻率的方法,以及目前預(yù)測(cè)效果最好的Bhasin等的基于雙聯(lián)氨基酸使用頻率的方法[7]進(jìn)行了比較。
GPCRDB數(shù)據(jù)庫(kù)(http://www.gpcr.org/7tm/)[11]是一個(gè)專注于收集、整合G蛋白偶聯(lián)受體(GPCR)信息的數(shù)據(jù)庫(kù),其中的GPCR蛋白序列數(shù)據(jù)主要來源于SWISS-PROT數(shù)據(jù)庫(kù)。根據(jù)GPCRDB數(shù)據(jù)庫(kù),GPCR蛋白共分為5大類,與Structural Classification of Proteins (SCOP,http://www.bio.cam.ac.uk/scop/)數(shù)據(jù)庫(kù)中的分類一致。本文中,我們收集了SWISS-PROT數(shù)據(jù)庫(kù)中的GPCR蛋白序列數(shù)據(jù),其中,A類序列690個(gè),B類序列142個(gè),C類序列240個(gè),D類序列655個(gè),E類序列37個(gè)。為了衡量分類器對(duì)GPCR序列識(shí)別的效果,我們?cè)黾恿?9個(gè)非GPCR的欺騙序列(decoy),這些序列來源于Karchi等[6]的實(shí)驗(yàn)。
同時(shí),為了從核酸的角度提取序列特征,我們利用GPCR序列在SWISS-PROT的注釋信息,編寫了perl程序,從EMBL-EBI(http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession)獲得了每個(gè)GPCR蛋白對(duì)應(yīng)的mRNA序列。
對(duì)于GPCR的分類問題,本文提取序列特征的方法主要有三種:1)蛋白序列的單聯(lián)氨基酸使用頻率(single amino acid use frequency);2)為了和目前預(yù)測(cè)效果最好的Bhasin等的方法[7]進(jìn)行比較,我們提取了蛋白序列的雙聯(lián)氨基酸使用頻率信息;3)包含基因序列的絕對(duì)密碼子使用頻率和蛋白序列的雙聯(lián)氨基酸使用頻率兩部分信息的組合特征(hybridfeature)。
單聯(lián)氨基酸使用頻率(Fi)是氨基酸i在該段蛋白序列中的出現(xiàn)頻率,其計(jì)算方法如式(1),其中,n指整段蛋白序列中氨基酸的個(gè)數(shù),Ai是氨基酸i在該段蛋白序列中出現(xiàn)的次數(shù)。對(duì)于每條蛋白序列提取該特征,可轉(zhuǎn)化為一個(gè)20維的數(shù)字向量(20種氨基酸),向量的每個(gè)元素對(duì)應(yīng)一種氨基酸在該蛋白序列中出現(xiàn)的頻率。
雙聯(lián)氨基酸使用頻率(Fij)是雙聯(lián)氨基酸i和j在該段蛋白序列中的共同出現(xiàn)頻率,其計(jì)算方法如式(2),其中,m指整段蛋白序列中雙聯(lián)氨基酸的個(gè)數(shù)。Aij是雙聯(lián)氨基酸ij在該段蛋白序列中出現(xiàn)的次數(shù)。每條蛋白序列可轉(zhuǎn)化為一個(gè)400維的數(shù)字向量,向量的每個(gè)元素對(duì)應(yīng)一種雙聯(lián)氨基酸在蛋白序列中出現(xiàn)的頻率。
在本文中,我們提取GPCR蛋白對(duì)應(yīng)的mRNA序列的每種密碼子的絕對(duì)密碼子使用頻率(codon use frequency,F(xiàn)CU),作為密碼子使用偏性的衡量標(biāo)準(zhǔn),它的計(jì)算公式如下:
其中,obsi指某一特定的密碼子i在基因中出現(xiàn)的次數(shù);total指整段基因中的密碼子的個(gè)數(shù)。這種衡量方法的優(yōu)勢(shì)在于,它含有較多的序列信息。首先,它包含了基因的密碼子使用偏性信息。其次,它還含有基因所編碼蛋白的氨基酸組成信息。每個(gè)GPCR蛋白樣本可轉(zhuǎn)化為一個(gè)64維的數(shù)字向量,向量的每個(gè)元素代表一種密碼子在GPCR蛋白對(duì)應(yīng)的mRNA序列中出現(xiàn)的絕對(duì)密碼子使用頻率。這樣,本文中使用的包含基因序列的絕對(duì)密碼子使用頻率和蛋白序列的雙聯(lián)氨基酸使用頻率兩部分信息的組合特征,為一個(gè)464維的數(shù)字向量。
支持向量機(jī)(SVM)是Vapnik等[12]提出的一類新型機(jī)器學(xué)習(xí)方法。由于其出色的學(xué)習(xí)性能,在高維小訓(xùn)練樣本情況下有著很好的泛化能力,該技術(shù)已成為機(jī)器學(xué)習(xí)界的研究熱點(diǎn),并在很多領(lǐng)域都得到了成功應(yīng)用。它是以結(jié)構(gòu)化風(fēng)險(xiǎn)最小化(structural risk minimization,SRM)代替常用的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization,ERM)作為優(yōu)化準(zhǔn)則,其基本思想是,對(duì)于非線性可分樣本,將其輸入向量經(jīng)非線性變換映射到另一個(gè)高維空間Z中,在變換后的空間中尋找一個(gè)最優(yōu)的分界面(超平面),使其推廣能力最好。具體應(yīng)用SVM的步驟為:1)選擇適當(dāng)?shù)暮撕瘮?shù);2)求解優(yōu)化方程,獲得支持向量及相應(yīng)的Lagrange算子;3)寫出最優(yōu)分界面方程。在本文中,為了實(shí)現(xiàn)SVM算法,我們采用了R語(yǔ)言的e1071軟件包(version 1.5-16)[13]。
對(duì)于分類預(yù)測(cè)問題,所預(yù)測(cè)的樣本有4種情況:假陽(yáng)性(false positive,F(xiàn)P),真陽(yáng)性(true positive,TP),假陰性(false negative,F(xiàn)N),真陰性(true negative,TN)。其總體預(yù)測(cè)準(zhǔn)確率(accuracy,ACC),特異性(specificity,SP),敏感性(sensitivity,SE)和Mattew相關(guān)系數(shù)(Mattew’s correlation coefficient,MCC)[14]的定義如下:
本文中,對(duì)GPCR的分類可分為兩步來操作:第一步是用SVM從蛋白序列集中找出GPCR序列;第二步,對(duì)識(shí)別出的GPCR序列進(jìn)一步分類,確定其所屬的類別,共涉及6個(gè)SVM分類器。在第一步的GPCR序列識(shí)別中,我們把A、B、C、D、E 5類共1764條GPCR序列合并,作為機(jī)器學(xué)習(xí)的正類集,99條非GPCR的欺騙序列(decoy)作為機(jī)器學(xué)習(xí)的負(fù)類集。首先根據(jù)1.2節(jié)描述的特征提取的方法,將蛋白序列轉(zhuǎn)換為可供SVM軟件識(shí)別使用的數(shù)字向量序列,然后使用十倍交叉驗(yàn)證(ten-fold cross-validation)的方法來衡量分類器的性能。所謂十倍交叉驗(yàn)證是指,利用隨機(jī)數(shù)抽取的方法,將數(shù)據(jù)集隨機(jī)分成數(shù)量相等的10個(gè)數(shù)據(jù)集,將其中9個(gè)數(shù)據(jù)集作為訓(xùn)練集,剩下的一個(gè)作為測(cè)試集,通過分類器來進(jìn)行分類預(yù)測(cè),然后重新分配訓(xùn)練集與測(cè)試集,重復(fù)剛才的過程,如此這般,一共需要作10次訓(xùn)練及測(cè)試,利用這10次實(shí)驗(yàn)的結(jié)果來衡量分類器的性能。第二步中,我們需要對(duì)GPCR超家族在類別層次上進(jìn)行分類預(yù)測(cè)。這是一個(gè)多類的分類問題,我們可以將此多類問題轉(zhuǎn)化為兩類問題。設(shè)計(jì)5個(gè)SVM分類器。當(dāng)對(duì)A類進(jìn)行分類預(yù)測(cè)時(shí),將A類樣本作為機(jī)器學(xué)習(xí)的正類集,其余4類合并作為負(fù)類集,通過SVM來進(jìn)行分類預(yù)測(cè)。對(duì)于GPCR的其余類別,方法類似。通過對(duì)這5個(gè)分類器所有輸出結(jié)果的分析,得出最終的分類結(jié)果。
首先要做的是,測(cè)試我們的SVM模型從眾多序列中識(shí)別出GPCR的能力。我們將A、B、C、D和E 5類GPCR共1764條序列合并為正類集,然后以99個(gè)欺騙序列作為負(fù)類集,進(jìn)行十倍交叉驗(yàn)證,結(jié)果如表1所示。
表1中第一列核函數(shù)是在SVM學(xué)習(xí)過程中所采用的核函數(shù)類別,包括線性核函數(shù)、多項(xiàng)式核函數(shù)和徑向基核函數(shù)。第二列的特征指出了從序列中抽取特征時(shí)所采用的方法,包括單聯(lián)氨基酸頻率、Bhasin等的雙聯(lián)氨基酸使用頻率,以及我們提出的Hybrid feature。對(duì)于多項(xiàng)式核函數(shù),我們?cè)O(shè)定參數(shù)cost=1.0,并采用3階多項(xiàng)式核;對(duì)于徑向基核函數(shù),我們還是設(shè)定參數(shù)cost=1.0,而參數(shù)gamma在單聯(lián)氨基酸頻率、雙聯(lián)氨基酸使用頻率及Hybrid feature中分別取1/20、1/400和1/464。從表1中可以看出,使用各種核函數(shù)及利用3種序列特征都取得了非常好的結(jié)果,預(yù)測(cè)準(zhǔn)確率(ACC)都在98.50%以上。
表1 GPCR蛋白序列的預(yù)測(cè)結(jié)果Table 1Performance of identifying GPCR sequences from decoys by SVM classifiers
對(duì)于GPCR類型的預(yù)測(cè),我們?cè)O(shè)計(jì)了5個(gè)分類器。當(dāng)預(yù)測(cè)A類GPCR序列時(shí),我們把A類數(shù)據(jù)作為機(jī)器學(xué)習(xí)的正類集,其余4類歸為負(fù)類集,用同樣的十倍交叉驗(yàn)證的方法,使用不同的序列特征和不同的SVM核函數(shù),對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),對(duì)于B、C、D、E類序列的識(shí)別也采用類似方法。所有實(shí)驗(yàn)結(jié)果如表2至表6所示,SVM模型參數(shù)設(shè)定與2.1節(jié)相同。
當(dāng)預(yù)測(cè)A類GPCR序列時(shí),除了使用單聯(lián)氨基酸頻率作為分類器特征時(shí)的預(yù)測(cè)效果不是很理想之外,采用Bhasin等的雙聯(lián)氨基酸使用頻率和我們提出的Hybrid feature時(shí),分類器都得到了很好的預(yù)測(cè)效果,預(yù)測(cè)準(zhǔn)確率(ACC)都在99.60%以上(表2)。
從表3可以得知,當(dāng)對(duì)B類GPCR序列進(jìn)行預(yù)測(cè)時(shí),使用單聯(lián)氨基酸頻率作為分類器特征,其預(yù)測(cè)效果也不是很好,而采用Bhasin等的雙聯(lián)氨基酸使用頻率和我們提出的Hybrid feature構(gòu)建的分類器,都得到了非常不錯(cuò)的預(yù)測(cè)效果,且總的來說,Hybrid feature構(gòu)建的分類器要略優(yōu)于Bhasin等的方法。
表2 A類GPCR蛋白序列的預(yù)測(cè)結(jié)果Table 2Performance of recognizing class A of GPCR sequences by SVM classifiers
表3 B類GPCR蛋白序列的預(yù)測(cè)結(jié)果Table 3Performance of recognizing class B of GPCR sequences by SVM classifiers
當(dāng)對(duì)C類GPCR序列進(jìn)行預(yù)測(cè)時(shí),用單聯(lián)氨基酸頻率構(gòu)建的分類器,其預(yù)測(cè)效果也不是特別理想;而采用Bhasin等的雙聯(lián)氨基酸使用頻率得到了最好的預(yù)測(cè)效果,預(yù)測(cè)準(zhǔn)確率(ACC)均為99.89%。另外,我們也注意到,當(dāng)使用我們提出的Hybrid feature并利用徑向基核函數(shù)時(shí),分類器也得到了很好的預(yù)測(cè)效果,預(yù)測(cè)準(zhǔn)確率(ACC)為99.15%(表4)。
表4 C類GPCR蛋白序列的預(yù)測(cè)結(jié)果Table 4Performance of recognizing class C of GPCR sequences by SVM classifiers
表5中顯示,當(dāng)預(yù)測(cè)D類GPCR序列時(shí),使用Bhasin等的雙聯(lián)氨基酸使用頻率以及我們提出的Hybrid feature構(gòu)建分類器,其預(yù)測(cè)效果均要優(yōu)于單聯(lián)氨基酸頻率,且Hybrid feature的預(yù)測(cè)效果要略好于雙聯(lián)氨基酸使用頻率。
表5 D類GPCR蛋白序列的預(yù)測(cè)結(jié)果Table 5Performance of recognizing class D of GPCR sequences by SVM classifiers
當(dāng)預(yù)測(cè)E類GPCR序列時(shí),利用單聯(lián)氨基酸頻率作為分類器特征時(shí)預(yù)測(cè)效果不佳,而使用Bhasin等的雙聯(lián)氨基酸使用頻率和我們的Hybrid feature時(shí),分類器的預(yù)測(cè)效果有了明顯的提高,且Hybrid feature的預(yù)測(cè)效果同樣要略優(yōu)于雙聯(lián)氨基酸使用頻率(表6)。
表6 E類GPCR蛋白序列的預(yù)測(cè)結(jié)果Table 6Performance of recognizing class E of GPCR sequences by SVM classifiers
從表2至表6可以看出,對(duì)各類GPCR序列進(jìn)行預(yù)測(cè)時(shí),當(dāng)使用我們提出的Hybrid feature作為特征,且以徑向基核作為核函數(shù)時(shí),分類器都取得了非常不錯(cuò)的預(yù)測(cè)效果。因此,在設(shè)計(jì)基于SVM的GPCR類型分類器時(shí),建議使用Hybrid feature為序列特征,同時(shí)采用徑向基核核函數(shù)。但是,也應(yīng)該看到,Bhasin等提出的這種基于SVM并提取雙聯(lián)氨基酸使用頻率作為序列特征的分類器,也是一種很優(yōu)秀的GPCR分類預(yù)測(cè)工具[7],它在GPCR類型的識(shí)別上也有著重要的實(shí)用意義。
我們知道,基因的絕對(duì)密碼子使用頻率與基因的功能類型有關(guān)[15~17]。在本文中,我們正是在這一研究結(jié)果的基礎(chǔ)上,利用支持向量機(jī)對(duì)GPCR蛋白序列進(jìn)行識(shí)別和分類的。事實(shí)上,利用單聯(lián)或者雙聯(lián)氨基酸使用頻率對(duì)GPCR的蛋白序列進(jìn)行識(shí)別分類,也反映了氨基酸組成與蛋白功能類型的相關(guān)性,此前的很多研究報(bào)道已經(jīng)表明,功能相似的蛋白質(zhì)具有相似的氨基酸組成[15~17]。
為了進(jìn)一步說明本文中用到的單聯(lián)氨基酸使用頻率、雙聯(lián)氨基酸使用頻率和絕對(duì)密碼子使用頻率這3種序列特征與GPCR序列分類間的相關(guān)性,我們分別就3種特征作了主成分分析(圖1),其中的圖A、圖B和圖C分別對(duì)應(yīng)于單聯(lián)氨基酸使用頻率、雙聯(lián)氨基酸使用頻率以及絕對(duì)密碼子使用頻率,圖中的A、B、C、D、E對(duì)應(yīng)于5類GPCR序列,Decoy對(duì)應(yīng)于99條欺騙序列。
圖1 五種類型的GPCR蛋白質(zhì)序列及欺騙序列(decoy)的主成分分析圖(A)單聯(lián)氨基酸頻率作為序列特征;(B)雙聯(lián)氨基酸作為序列特征;(C)絕對(duì)密碼子使用頻率作為序列特征Fig.1Dot plot of the three most dominant axes generated with PCA analysis method for five kinds of GPCR sequences and decoys(A)Single amino acid use frequency as features; (B)Double amino acid use frequency proposed by Bhasin et al.as features;(C)Hybrid feature combining codon use frequencies of mRNA genes and double amino acid use frequencies
從圖1可以看出,99條欺騙序列在利用單聯(lián)氨基酸使用頻率(圖1A)、雙聯(lián)氨基酸使用頻率(圖1B)所作的主成分分析圖中聚集較為集中,與GPCR序列區(qū)分較為明顯,因此,對(duì)于GPCR序列的識(shí)別問題,在設(shè)計(jì)SVM分類器時(shí),提取各種特征和利用各種SVM核函數(shù)分類效果都十分理想(表1)。
對(duì)于GPCR序列分類的問題,從圖1可以看出,就單聯(lián)氨基酸使用頻率、雙聯(lián)氨基酸使用頻率,以及絕對(duì)密碼子使用頻率3種序列特征而言,5類GPCR序列之間顯然均是非線性可分的關(guān)系。因此,我們采用支持向量機(jī)的方法,將非線性可分的樣本提升到高維空間,對(duì)GPCR序列進(jìn)行分類。從表2至表6可知,當(dāng)聯(lián)合使用Bhasin等的雙聯(lián)氨基酸使用頻率及我們的Hybrid feature且利用線性核函數(shù)時(shí),分類器都得到了非常好的預(yù)測(cè)效果,這和圖1B和圖1C的主成分分析結(jié)果有些矛盾,這表明本文在使用線性核函數(shù)構(gòu)建分類器的過程中可能存在過度擬合的問題。從圖1B可以看出,在利用雙聯(lián)氨基酸使用頻率所作的主成分分析圖中,A、B和D類GPCR序列聚集較為集中,區(qū)分較為明顯,所以使用雙聯(lián)氨基酸使用頻率為特征構(gòu)建分類器時(shí),分類效果較好,而E類GPCR序列與其它GPCR序列區(qū)分不明顯,在分類預(yù)測(cè)時(shí)效果不佳。但當(dāng)我們使用絕對(duì)密碼子使用頻率進(jìn)行主成分分析時(shí),E類GPCR序列聚集集中,與其它的GPCR序列區(qū)分明顯,所以在分類預(yù)測(cè)時(shí),加入絕對(duì)密碼子使用頻率的信息,預(yù)測(cè)效果得到了提高(表6)。因此,綜合考慮所有類型分類器的識(shí)別效果,在GPCR序列類型預(yù)測(cè)的問題中,設(shè)計(jì)SVM分類器時(shí),最佳方案是選擇包含基因序列絕對(duì)密碼子使用頻率和蛋白序列雙聯(lián)氨基酸使用頻率兩部分信息的組合特征(Hybrid feature)作為SVM的輸入,同時(shí)使用徑向基核作為核函數(shù)。
致謝:感謝東南大學(xué)生物電子學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室的孫嘯教授對(duì)本工作的指導(dǎo)。
1.Bockaert J,Pin JP.Molecular tinkering ofGproteincoupled receptors:anevolutionary success.EMBOJ, 1999,18(7):1723~1729
2.Horn F,Mokrane M,Weare J,Vrien G.G-protein coupled receptors or the power of data.Genomics and proteomics: functional and computational aspects.New York:Kluwer Academic/Plenum,2000,192~214
3.Lapinsh M,Gutcaits A,Prusis P,Post C,Lundstedt T, Wikberg JE.Classification of G-protein-coupled receptors by alignment independent extraction of principal chemical properties of primary amino acid sequences.Protein Sci, 2002,11(4):795~805
4.Joost P,Methner A.Phylogenetic analysis of 277 human G-protein-coupled receptors as a tool for the prediction of orphan receptor ligands.Genome Biol,2002,3(11):1~16
5.候永豐,李通化.HMM用于G蛋白偶聯(lián)受體超家族的識(shí)別.同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,32(12):1696~1700 Hou YF,Li TH.Classifying G-protein coupled receptors with hidden Markov models.Journal ofTongji University (Natural Science),2004,32(12):1696~1700
6.Karchin R,Karplus K,Haussler D.Classifying G-protein coupledreceptorswithsupportvectormachines. Bioinformatics,2002,18(1):147~159
7.BhasinM,RaghavaGP.GPCRpred:anSVM-based methodforpredictionoffamiliesand subfamilies of G-protein coupled receptors.Nucleic Acids Res,2004,32: W383~W389
8.Zhou T,Weng JH,Sun X,Lu ZH.Support vector machine for classification of recombination hotspots and coldspots in Saccharomyces cerevisiaebased on codon composition. BMC Bioinformatics,2006,7:223
9.Wu JS,Hu MJ,Zhou T,Weng JH,Jiang P,Sun X. Support vector machine for prediction of siRNA silencing efficacy.Journal of Southeast University(English Edition),2006,22(4):501~504
10.吳建盛,謝建明,周童,翁建洪,孫嘯.基于支持向量機(jī)的細(xì)菌基因組水平轉(zhuǎn)移基因預(yù)測(cè).生物物理與生物化學(xué)進(jìn)展,2007, 34(7):724~731 Wu JS,Xie JM,Zhou T,Weng JH,Sun X.Support vector machineforpredictionofhorizontalgenetransfersin bacteria genomes.Prog Biochem Biophys,2007,34(7): 724~731
11.Horn F,Weare J,Beukers MW,Hrsch S,Bairoch A, Chen W,Edvardsen O,Campagne F,Vriend G.GPCRDB: aninformationsystemforGprotein-coupledreceptors. Nucleic Acids Res,1998,26(1):275~279
12.Vapnik V.The nature of statistical learning theory.New York:Springer-Verlag,1995.1~188
13.Dimitriadou E,Hornik K,Leisch F,Meyer D,Weingessel A. e1071:Miscfunctionsofthedepartmentofstatistics (e1071).TU Wien,R package,Version 1.5-16.Available from http://cran.R-project.org,2007
14.Matthews BW.Comparison of the predicted and observed secondarystructureofT4phagelysozyme.Biochim Biophys Acta,1975,405(2):442~451
15.Ma JM,Zhou T,Gu WJ,Sun X,Lu ZH.Cluster analysis of the codon use frequency of MHC genes from different species.Biosystems,2002,65(2-3):199~207
16.Zhou T,Gu WJ,Ma JM,Sun X,Lu ZH.Analysis of synonymouscodonusageinH5N1virusandother influenza A viruses.Biosystems,2005,81(1):77~86
17.Gu WJ,Zhou T,Ma JM,Sun X,Lu ZH.Analysis of synonymous codon usage in SARSCoronavirusand other virusesintheNidovirales.VirusRes,2004,101(2): 155~161
Abstract:G-protein coupled receptor is a very important signal molecule receptor and its dysfunction may lead to the emergence of many diseases.According to the previous studies,a method combining the feature analysis methods of sequences with support vector machine(SVM)technology was proposed for identifying GPCRs and their type by analyzing the characteristics of sequence differences.Especially,codon use frequencies of mRNA genes translating into GPCR proteins were first selected as the sequence feature,in respect that it is the inherently the fusion of both codon usage bias and amino acid composition signals. The results showed that the optimal SVM classifiers for predicting GPCR sequences and their type were designed by choosing the hybrid feature by combining codon use frequencies of mRNA genes and double amino acid use frequencies and using the RBF kernel as kernel function after considering the performance of all types of SVM classifiers.
Key Words:G-protein coupled receptor(GPCR);Support vector machine(SVM);Codon use frequency (FCU)
Prediction of G-Protein Coupled Receptors and Their Type
WU Jiansheng1,MA Xin2,ZHOU Tong2,TANG Lihua1,HU Dong1
1.School of Geography and Biological Information,Nanjing University of Posts and Telecommunications, Nanjing210046,China;
2.State Key Laboratory of Bioelectronics,Southeast University,Nanjing 210096,China
Q516
2009-11-03;接受日期:2010-01-24
南京郵電大學(xué)科研啟動(dòng)基金項(xiàng)目(NY209027),南京郵電大學(xué)青藍(lán)計(jì)劃項(xiàng)目(NY206060)
胡棟,電話:(025)85885169,E-mail:hud@njupt.edu.cn
This work was supported by grants from Research Start-up Funding by Nanjing University of Posts and Telecommunications (NY209027)and“QingLan”Project of Nanjing University of Posts and Telecommunications(NY206060)
Received:Nov 3,2009Accepted:Jan 24,2010
Corresponding author:HU Dong,Tel:+86(25)85885169,E-mail:hud@njupt.edu.cn