茹家康,袁 琳
(1.遼寧大學(xué) 生命科學(xué)院,遼寧 沈陽 110036; 2.河南省人民醫(yī)院 藥學(xué)部, 河南 鄭州 450003)
?
基因序列的搜索與相似性比對
茹家康1,袁琳2
(1.遼寧大學(xué) 生命科學(xué)院,遼寧 沈陽 110036; 2.河南省人民醫(yī)院 藥學(xué)部, 河南 鄭州 450003)
摘要:生物信息學(xué)的基本任務(wù)是對各種生物分析序列進行分析,也就是研究新的計算機方法,從大量的序列信息中獲取基因結(jié)構(gòu)、功能和進化等知識,并將其存儲于基因數(shù)據(jù)庫中.而在序列分析中,將未知序列同基因數(shù)據(jù)庫中已知序列進行相似性比較是一種強有力的研究手段,包括序列的片段測定、拼接,基因的表達分析,以及RNA和蛋白質(zhì)的結(jié)構(gòu)功能預(yù)測.
關(guān)鍵詞:序列比對;分析;預(yù)測
1序列比對的相關(guān)概念
1.1序列的相似性與同源性
相似性是指一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其他一些合適的度量.比如說,A序列和B序列的相似性是80%,這是個量化的關(guān)系.而同源性指從一些數(shù)據(jù)中推斷出的兩個基因或蛋白質(zhì)序列具有共同祖先的結(jié)論,屬于質(zhì)的判斷.就是說A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系.
序列的相似性和序列的同源性有一定的關(guān)系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相似性來推測序列是否同源.但實際上,只有序列是從一個不同祖先進化分歧而來,它們才是同源的;說序列共有50%的同源是沒有意義的,而正確的應(yīng)該是說它們有50%的相似度,并且可能是同源.
1.2序列比對
序列比對就是運用某種特定的數(shù)學(xué)模型或算法,找出兩個或多個序列之間的最大匹配堿基或殘基數(shù),比對的結(jié)果反映了序列之間的相似程度以及它們的生物學(xué)特征[1].
1.2.1序列相似性
來自一個共同祖先的序列傾向于在序列、結(jié)構(gòu)和功能上具有一定相似性,通過序列比對可以發(fā)現(xiàn)序列間的相似性,從而可以預(yù)測生物大分子的結(jié)構(gòu)和功能.
1.2.2序列間比對的對應(yīng)關(guān)系
在序列比對中可出現(xiàn)4種序列間比對的對應(yīng)關(guān)系:Match (a,a): 匹配;Replace (a,b):替代;Delete (a,-): 缺失;Insert (-,b): 插入.
圖1 gap舉例Fig.1 Example of gap
按照進化的原則,對齊一致的堿基代表它們是祖先序列的一部分且仍然保持沒有改變,對于沒有對齊的序列,代表它們是有突變產(chǎn)生的,但是在不知道祖先序列的情況下,并不能確定突變發(fā)生在哪個序列上,祖先序列產(chǎn)生插入或缺失突變都可以產(chǎn)生gap(圖1).
1.2.3序列比對模型分類
全局比對:從全局序列出發(fā),考慮序列的整體相似性;局部比對:考慮序列部分區(qū)域的相似性.局部比對往往比全局比對具有更高的靈敏度,其結(jié)果更具生物學(xué)意義.
兩個序列的聯(lián)配叫做雙序列比對,超過兩個序列的聯(lián)配叫做多序列比對,多序列比對可以更好地展示序列的保守性.
圖2 打分矩陣Fig.2 Scoring Matrices
基因序列比對的方法有點陣法、動態(tài)規(guī)劃算法,以及FASTA和BLAST等用于大數(shù)據(jù)的搜索程序.
1.2.4打分矩陣
要對兩個序列進行排比,必須首先打出其相似性的定量分值,于是需要一個打分矩陣(圖2).
打分矩陣的兩個性質(zhì):①一致性(identity):兩個蛋白質(zhì)有一定數(shù)量的氨基酸在聯(lián)配的位點上是相同的,即如果38個氨基酸的蛋白質(zhì)中15個位點相同,其identity為 39.4%;②相似性(similarity):通常在某些位點上有一些氨基酸被另外一些化學(xué)物理特性相近的氨基酸所代替,這種突變可稱為保守突變.將保守突變的因素考慮在內(nèi),就可以定義各種打分方案(scoring schemes)對兩序列的相似程度打分,所得分值即代表其相似的程度.
1.2.5序列比對的統(tǒng)計檢驗
序列比對數(shù)學(xué)模型一般用來描述序列中每一個子字符串之間的匹配情況[2].通過改變某些參數(shù)可以得到不同比對結(jié)果,例如空位罰分值大小.此外,序列長度差異和字母表復(fù)雜度也會影響比對結(jié)果.合理調(diào)節(jié)參數(shù),會減少空位數(shù)目,得到較好的結(jié)果,而放寬對空位罰分的限制,理論上任意序列都可以得到某個對比結(jié)果.因此序列比對的結(jié)果并不能作為兩者之間一定存在同源關(guān)系的依據(jù).
通常用序列比對程序給出一些統(tǒng)計值,用來表示結(jié)果的可信度.
2基因數(shù)據(jù)庫
2.1核酸序列數(shù)據(jù)庫GenBank
GenBank數(shù)據(jù)庫包含了所有已知的核酸序列,以及與它們相關(guān)的文獻著作和生物學(xué)注釋.它是由美國國立生物技術(shù)信息中心(National Center for Biotechnology Information)建立和維護的(圖3).GenBank數(shù)據(jù)以指數(shù)形式增長,核酸堿基數(shù)目大概每14個月就翻一倍.用戶可以通過NCBI的主頁使用GenBank.GenBank的宗旨是鼓勵科研團體對DNA(Deoxyribonucleic Acid)序列的獲取,從而促進數(shù)據(jù)庫中DNA序列的豐富和更新,所以NCBI對GenBank的數(shù)據(jù)使用與發(fā)送沒有任何限制.用戶可從GenBank主頁上下載Banklt(NCBI提供的WWW格式,用于便捷地提交DNA序列的數(shù)據(jù))、Sequin(NCBI獨立于操作系統(tǒng)的提交軟件,可用于MAC、PC和UNIX平臺,也可以通過FTP(File Transfer Protocol)遠程獲取)以及VecScreen(帶菌污染物的篩選工具)等便于提交和更新研究成果的應(yīng)用軟件.
圖3 GenBank界面Fig.3 Interface of GenBank
2.2蛋白質(zhì)數(shù)據(jù)庫
同一蛋白家族的多序列聯(lián)配可以用來推斷結(jié)構(gòu)、功能和家族關(guān)鍵氨基酸的信息.多序列聯(lián)配信息的表示方法有很多種,包括聯(lián)配本身、一致序列、保守序列和殘基模式、序列輪廓以及其他的序列家族的概率模型.
2.2.1PROSITE數(shù)據(jù)庫
PROSITE是與蛋白質(zhì)家族成員關(guān)系有關(guān)的序列模式數(shù)據(jù)庫(圖4).序列模式
[LIVM]-[ST]-A-[STAG]-H-C
代表有6個氨基酸殘基組成的序列,[LIVM]表示L、I、V、M中的一個殘基,[ST]表示S或T,接著是A,然后是S、T、A或G,再后是H,最后是C.
圖4 PROSITE界面Fig.4 Interface of PROSITE
PROSITE模式也有很多缺點.首先,它們長度較短,不相關(guān)序列中有假陽性出現(xiàn).其次,它們允許描述特定位置的變化,但無法計算該變化的概率.例如[LIVM]指某位點可能是L、I、V或M,但它沒有說明L在家族90%的序列中出現(xiàn),I、V、M僅出現(xiàn)在10%的序列中.
2.2.2PRINTS和BLOCKS
PRINTS和BLOCKS分別通過來自一組蛋白或蛋白家族中最高度保守區(qū)域的多序列聯(lián)配無空位片段的形式表示蛋白質(zhì)家族.這種多序列聯(lián)配無空位片段分別定義為blocks(在BLOCKS中)或motifs(在PRINTS中).
例如SH3家族(蛋白質(zhì)結(jié)構(gòu)域)在PRINTS中用4個motif 表示,每個motif表示一個保守區(qū)域,因此PRINTS模式可以覆蓋更大的序列區(qū)域,克服了PROSITE的部分缺點.與PROSITE不同,序列中motif的匹配通常要考慮氨基酸替換矩陣,不要求嚴格匹配.
3序列比對的應(yīng)用
3.1BLAST程序
BLAST程序[3]是由NCBI開發(fā)的一個基于序列相似性的數(shù)據(jù)庫搜索程序,其中包含了很多個獨立的程序,這些程序是根據(jù)查詢的對象和數(shù)據(jù)庫的不同來定義的.比如說查詢的序列為核酸,查詢數(shù)據(jù)庫亦為核酸序列數(shù)據(jù)庫,那么就應(yīng)該選擇BLASTN子程序.
BLAST 具有非常廣泛的應(yīng)用, 查詢序列可能具有某種功能,查詢序列可能是來源于某個物種,查詢序列可能是某種功能基因的同源基因,確定特定的蛋白質(zhì)或核酸序列有哪些已知的直系同源或旁系同源序列.
BLAST程序評價序列相似性的兩個數(shù)據(jù):Score使用打分矩陣對匹配的片段進行打分,這是對各對氨基酸殘基(或堿基)打分求和的結(jié)果,一般來說,匹配片段越長、 相似性越高則Score值越大.Evalue在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機排列的序列進行打分,得到上述Score值的概率的大小.E值越小表示隨機情況下得到該Score值的可能性越低.
3.2通過BLAST推測位置蛋白的功能
假如在一次實驗中獲得了一個蛋白質(zhì)分子,測定其序列如下:
>unknown protein
MSDKIIHLTDDSFDTDVIKADLAILVDF
WAEWCGPCKMVAPILDEIA
DEFQGKLTVAKLNIDQNPDTAPKYGIRGIPTLLLFKNGEVAANTVGALSKGQLKEFLDANLS
通過BLAST搜索數(shù)據(jù)庫,尋找與之相似的蛋白質(zhì)序列(圖5~圖11):1)選擇BLAST程序; 2) 輸入序列; 3) 選擇需要搜索的數(shù)據(jù)庫; 4)選擇BLAST程序并運行; 5) BLAST結(jié)果顯示.
圖5 BLAST主界面Fig.5 Main interface of BLAST
圖6 序列輸入界面Fig.6 Interface of entering query sequence
圖7 數(shù)據(jù)庫選擇界面Fig.7 Interface of selecting database
圖8 程序選擇界面Fig.8 Interface of selecting program
圖9 圖形表示的結(jié)果Fig.9 Graphical result
圖10 搜索到的序列及信息Fig.10 Sequences and their information
圖11 序列比對Fig.11 Sequence alignment
從BLAST搜索結(jié)果中發(fā)現(xiàn),未知蛋白與Thioredoxin序列相似性最高,搜索到的蛋白質(zhì)幾乎都是Thioredoxin.因此我們認為未知蛋白為Thioredoxin.其與Escherichia coli K-12的相似性最高(Identities=93%),而與其他物種的相似性都較低( Identities<70% ),因此我們認為未知蛋白可能來自于大腸桿菌,或近似的物種.
3.3利用MEGA軟件制作進化樹
3.3.1進化樹
圖12 進化樹Fig.12 Phylogenetic tree
系統(tǒng)發(fā)育進化樹(Phylogenetic tree)是用一種類似樹狀分支的圖形概括各種生物間的親緣關(guān)系的圖表.進化樹由結(jié)點(node)和進化分支(branch)組成,每一結(jié)點表示一個分類學(xué)單元(屬、種群、個體等),進化分支定義了分類單元(祖先與后代)之間的關(guān)系,一個分支只能連接兩個相鄰的結(jié)點.進化樹分支的圖像稱為進化的拓撲結(jié)構(gòu),其中分支長度表示該分支進化過程中變化的程度,標(biāo)有分支長度的進化分支叫標(biāo)度支(scaled branch).校正后的標(biāo)度樹(scaled tree)常常用年代表示,這樣的樹通常根據(jù)某一或部分基因的理論分析而得出.進化分支可以沒有分支長度的標(biāo)注(unscaled),沒有被標(biāo)注的分支其長度不表示變化的程度,雖然分支的有些地方用數(shù)點進行了注釋.
進化樹可以是有根的(rooted),也可以是無根的(unrooted),分為“有根樹”和“無根樹”兩類.在有根樹中,有一個叫根(root)的特殊結(jié)點,用來表示共同的祖先,由該點通過唯一途徑可產(chǎn)生其他結(jié)點;有根樹是具有方向的樹,包含唯一的根結(jié)點,沒有確認共同祖先或進化途徑(圖12).最常用的確定樹根的方法是使用一個或多個無可爭議的同源物種作為“外群”(outgroup),這個外群要足夠近,以提供足夠的信息,但又不能太近,以免和樹中的種類相混.把有根樹去掉根即成為無根樹.一棵無根樹在沒有其他信息(外群)或假設(shè)(如假設(shè)最大支長為根)時不能確定其樹根.無根樹是沒有方向的,向兩個演化方向都有可能.
進化樹的構(gòu)建步驟為:獲取序列,多序列比對,選擇建樹方法,建立進化樹,評估.
3.3.2MEGA軟件
MEGA軟件是一款功能強大的分子進化遺傳分析軟件,尤其是在計算遺傳距離、構(gòu)建分子系統(tǒng)樹方面.它包含許多統(tǒng)計學(xué)和遺傳學(xué)算法,其支持的文件格式很多,而且可以直接從測序圖譜中讀取序列(圖13).利用MEGA軟件可以對多個序列進行比對,繪制系統(tǒng)發(fā)育進化樹,同時可以根據(jù)未知物種的基因序列對它的大致分類進行預(yù)測.從GenBank等數(shù)據(jù)庫下載基因序列并導(dǎo)入MEGA軟件,通過比對可將序列對齊,便于進一步分析. 在程序主界面,點擊Analysis->Phylogeny,選擇Neighbor-Joining法構(gòu)建進化樹;設(shè)置好參數(shù)后即可得到進化樹(圖14).
圖13 MEGA界面Fig.13 Interface of MEGA
4結(jié)論
生物信息學(xué)的研究重點主要體現(xiàn)在基因組學(xué)和蛋白質(zhì)學(xué)兩方面,具體地說就是從核酸和蛋白質(zhì)序列出發(fā), 分析序列中表達結(jié)構(gòu)和功能的生物信息,并以此為基礎(chǔ)預(yù)測未知序列的結(jié)構(gòu)與功能.
本文從序列比對的基本概念出發(fā),圍繞基本性質(zhì)闡述序列比對的原理,并通過列舉序列比對中常用到的兩大工具:基因數(shù)據(jù)庫和計算機軟件,說明序列比對在當(dāng)今生物學(xué)研究中起到的重要作用[4].
圖14 分析結(jié)果Fig.14 Result of analysis
[1]ATTWOOD T K , PARRY-SMITH D J.生物信息學(xué)概論[M]. 羅靜初,譯.北京:北京大學(xué)出版社,2001:141-145.
[2]DAVID R POWELL, LLOYD ALLISON, TREVOR I DIX. A versatile divide and conquer technique for optimal string alignment[J]. Information Processing Letters, 1999;70:129-139.
[3]ALTSCHUL S F, CISH W M, W MYER E W, et al. Basic local alignment search tool[J]. Journal of Molecular Biology,1990,215:403-410.
[4]HAN JIAWEI, MICHELINE K.數(shù)據(jù)挖掘概念與技術(shù)[M]. 范明,孟曉峰,譯.北京:機械工業(yè)出版社,2001:301-302.
Search and Similarity Comparison of Gene Sequence
RU Jiakang1, YUAN Lin2
(1.InstituteofLifeSciences,LiaoningUniversity,Shenyang110036,China;2.DepartmentofPharmacy,People’sHospitalofHenanProvince,Zhengzhou450003,China)
Abstract:The basic task of bioinformatics is to analyze all kinds of biological sequences, that is, to study new methods using computers to obtain the knowledge of gene structure, function and evolution from a large amount of sequence information and store it in the database. In sequence analysis, it is a powerful study method to compare the similarity between the unknown sequence and the known sequence in the gene database, including fragment determination, splicing and gene expression analysis as well as the prediction of structure functions of RNA and protein.
Key words:sequence alignment; analysis; prediction
中圖分類號:Q31
文獻標(biāo)志碼:A
文章編號:1007-0834(2016)01-0025-07
doi:10.3969/j.issn.1007-0834.2016.01.007
作者簡介:茹家康(1994—),男,河南鄭州人,遼寧大學(xué)生命科學(xué)院.
基金項目:河南省科技發(fā)展計劃項目(142102310406)
收稿日期:2015-10-16