国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隱馬爾可夫模型的蛋白質(zhì)序列篩選算法

2011-07-13 06:02:50張毅梅挺
電子設(shè)計(jì)工程 2011年21期
關(guān)鍵詞:馬爾可夫同源權(quán)值

張毅,梅挺

(成都醫(yī)學(xué)院 人文信息管理學(xué)院,四川 成都 610083)

近年來,隨著人們對蛋白質(zhì)測序工作的快速發(fā)展,蛋白質(zhì)數(shù)據(jù)庫中的序列數(shù)量呈現(xiàn)指數(shù)級的增長速度,在這存儲(chǔ)有海量的蛋白質(zhì)數(shù)據(jù)庫中,存在著大量的冗余蛋白質(zhì)序列。雖然目前對冗余蛋白質(zhì)序列尚未有很明確和統(tǒng)一的定義,但是普遍認(rèn)為,在蛋白質(zhì)數(shù)據(jù)庫中,如果兩條蛋白質(zhì)序列的具有非常高的相似度,尤其是在整個(gè)序列中控制蛋白質(zhì)功能的特征序列具有很強(qiáng)的相似性時(shí),則認(rèn)為這兩條蛋白質(zhì)序列是互為冗余的序列。造成這種現(xiàn)象的原因很多,一個(gè)典型的原因即針對某一同源的蛋白質(zhì)序列進(jìn)行的測序,并將測量的結(jié)果存入數(shù)據(jù)庫中。

由于蛋白質(zhì)數(shù)據(jù)庫在醫(yī)學(xué)研究、物種研究等方面發(fā)揮著非常重要的作用,利用蛋白質(zhì)數(shù)據(jù)庫中的信息,有助于人們發(fā)現(xiàn)新物種,尋找物種之間的生物關(guān)系,研究針對某些特殊病毒的抗生藥物等。然而,如果在蛋白質(zhì)數(shù)據(jù)庫中存在大量的冗余序列,則可能導(dǎo)致對這些蛋白質(zhì)數(shù)據(jù)分析的誤差加大。比如在某一蛋白質(zhì)序列簇中,如果冗余序列過多,可能會(huì)夸大這一序列簇的某些功能特征,從而對蛋白質(zhì)序列間相互關(guān)系的研究產(chǎn)生誤導(dǎo)[1]。

目前,針對蛋白質(zhì)數(shù)據(jù)庫冗余的問題,國內(nèi)外有不少相關(guān)學(xué)者開展了研究,比較有代表性的有Hoblhm和Sander提出的CD-HIT去冗余算法,該算法的設(shè)計(jì)思想是在每個(gè)蛋白質(zhì)序列簇中選取一個(gè)序列作為特征序列,然后再將該簇中的其余序列進(jìn)行冗余檢測,如果某條序列與該序列的匹配程度超過某一閾值,則該序列被視為冗余序列。該算法是一種非常經(jīng)典的蛋白質(zhì)去冗余算法,目前也有很多算法是基于這一思想進(jìn)行變形實(shí)現(xiàn)。此外還有在2000年由Yona和Linial共同提出了蛋白質(zhì)序列聚類Protomap算法,Enright和Ouzounis提出了蛋白質(zhì)序列分級聚類Generage算法,2004年由Kawaji和Takenaka提出了基于圖論的蛋白質(zhì)序列分類算法??傮w而言,這些蛋白質(zhì)分類算法在分類的精確性和分類準(zhǔn)確性兩方面還有待提高。

1 模型的建立與參數(shù)估計(jì)

1.1 模型的建立

從蛋白質(zhì)序列數(shù)據(jù)庫中選擇一個(gè)蛋白質(zhì)序列作為研究對象,記為D=D1D2…Dn,該研究對象也被稱為觀測對象。一個(gè)數(shù)據(jù)庫中的蛋白質(zhì)序列也被視為隱馬爾可夫鏈的初始狀態(tài)的序列分布π,每一條蛋白質(zhì)序列作為一個(gè)狀態(tài)的遷移中的中間狀態(tài),觀測結(jié)果是初始狀態(tài)經(jīng)過一定的遷移變化,且和一些隨機(jī)過程共同作用的狀態(tài)結(jié)果。狀態(tài)的遷移概率P1和觀測得到某一特定狀態(tài)結(jié)果的概率P2在分析之前需要進(jìn)行確立,確立之后為隱馬爾可夫[2]可表示為 φ=(π,P1,P2)。

為了能夠?qū)Φ鞍踪|(zhì)數(shù)據(jù)庫中所有的序列進(jìn)行匹配篩選,因此需要將蛋白質(zhì)數(shù)據(jù)庫中的序列出現(xiàn)的概率進(jìn)行抽象和描述。然后才能在此基礎(chǔ)上設(shè)定篩選的規(guī)則,并按照篩選規(guī)則確定的權(quán)值,篩選出最具有代表性的蛋白質(zhì)序列。

假設(shè)在給定的隱馬爾可夫模型中,已經(jīng)有觀測到某一序列的部分值為:{D1D2…Dk},且在時(shí)刻k,序列的狀態(tài)為 w1的概率[3]為:

由于該概率的初始值可根據(jù)蛋白質(zhì)數(shù)據(jù)庫中的常量計(jì)算得到,因此,該計(jì)算式可以采用遞歸的方式計(jì)算得到[4]:

該式經(jīng)過遞歸化簡后可得:

1.2 模型參數(shù)的估計(jì)

模型參數(shù)建立起來之后,將考慮如何選取合適的參數(shù),使得對于一個(gè)給定的隱馬爾可夫模型φ=(π,P1,P2),如何得到其特定子序列的概率最大值,即P(D|φ)為最大。

假定對一個(gè)給定的隱馬爾可夫模型 φ=(π,P1,P2)和得到的觀測序列 D={D1,D2,…,Dn},在時(shí)刻 k 的狀態(tài)為 wi,時(shí)刻 k+1 的狀態(tài)為 wj,滿足這種特征的概率[5]記為 P(i,j),則有:

所以,通過上面的概率計(jì)算式,可以得到在模型確定的條件下,對于一個(gè)給定的觀測序列(即某一條蛋白質(zhì)序列)下,k時(shí)刻的狀態(tài)為wi的概率[6]:

其中 N≥i≥1, N≥d≥1。

2 同源蛋白質(zhì)序列篩選過程

蛋白質(zhì)序列篩選過程中最為關(guān)鍵的是找出每個(gè)蛋白質(zhì)序列的關(guān)鍵信息,這些信息直接決定了該蛋白質(zhì)序列的主要功能和特征。因此定位和篩選出每條蛋白質(zhì)序列中的關(guān)鍵信息是進(jìn)行同源蛋白質(zhì)序列篩選的重要前提。

蛋白質(zhì)數(shù)據(jù)庫中每條序列記為D=D1D2-Dm-1Dm,隱馬爾可夫鏈階梯步長記為spl,在一條完整的序列中定義一個(gè)子片斷記為d=d1d2-dr-1dr。則子片斷d出現(xiàn)的概率[8]為:

由此,可定義若存在子片斷d條件下,各個(gè)序列值的概率[9]:

按照這種條件概率計(jì)算式,可以進(jìn)一步得到子片斷d的詳細(xì)計(jì)算式[10]:

再定義整個(gè)蛋白質(zhì)序列中,每一種可能的子片斷xd出現(xiàn)的概率[11]:

根據(jù)如上定義,可以得到任意一個(gè)子片斷的重要度描述參數(shù)Weight[12]。

確定了任意一個(gè)子片斷的權(quán)值后,再按照序列的模式匹配,定位序列之間的匹配位置和匹配程度。若兩個(gè)對比的蛋白質(zhì)序列長度不等,記 D1中有 d[1:x]特征序列,記 D2中有 d[1:y]特征序列。通過調(diào)整特征序列的長度,記錄兩個(gè)蛋白質(zhì)序列中的最大匹配權(quán)值,該權(quán)值即為兩個(gè)蛋白質(zhì)序列的匹配程度描述參數(shù)。對于兩個(gè)特征序列d[1:x]和d[1:y]的最大匹配權(quán)值計(jì)算式為[7]:

如此遞歸計(jì)算,最后得到最終結(jié)果。

3 測試結(jié)果

采用文中設(shè)計(jì)的基于隱馬爾可夫模型的蛋白質(zhì)序列篩選算法SWISS-PROT對蛋白質(zhì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行了分類篩選測試,通過本文設(shè)計(jì)的算法,對蛋白質(zhì)數(shù)據(jù)庫中的蛋白質(zhì)序列特征進(jìn)行提取和匹配,當(dāng)匹配到兩條蛋白質(zhì)序列的關(guān)鍵信息是一致的,則將這兩條蛋白質(zhì)序列標(biāo)記為同源蛋白質(zhì)序列,同時(shí)將得到的篩選結(jié)果與目前公認(rèn)的同源序列結(jié)果進(jìn)行對比,得出篩選的正確率。測試結(jié)果如表1所示。

表1 基于隱馬爾可夫模型的蛋白質(zhì)序列篩選算法測試結(jié)果Tab.1 Hidden Markov Model-based protein sequence selection algorithm results

測試結(jié)果表明,文中所設(shè)計(jì)的蛋白質(zhì)篩選算法對蛋白質(zhì)數(shù)據(jù)庫中篩選出了大量的同源蛋白質(zhì)序列,根據(jù)與目前公認(rèn)的同源蛋白質(zhì)序列進(jìn)行結(jié)果對比表明,在篩選過程中篩選出了蛋白質(zhì)數(shù)據(jù)庫中的絕大多數(shù)的同源蛋白質(zhì)序列,且篩選結(jié)果的正確率達(dá)到了95%以上,從篩選的精度而言,本設(shè)計(jì)的算法具有較高的篩選正確率。

4 結(jié)束語

從蛋白質(zhì)數(shù)據(jù)庫中對蛋白質(zhì)序列進(jìn)行分類和篩選有著非?,F(xiàn)實(shí)的意義,尤其是面對指數(shù)級增長的蛋白質(zhì)數(shù)據(jù)庫,只有通過對蛋白質(zhì)數(shù)據(jù)庫進(jìn)行去冗余的處理,篩選出真正代表每個(gè)蛋白質(zhì)簇的特征序列,才能建立更有實(shí)用價(jià)值的蛋白質(zhì)數(shù)據(jù)庫。目前這一問題也是全球蛋白質(zhì)序列研究的一個(gè)熱點(diǎn)問題,本文通過引入隱馬爾可夫模型對蛋白質(zhì)序列進(jìn)行分析篩選,探索了蛋白質(zhì)數(shù)據(jù)庫特征序列篩選的新方法,已進(jìn)行的測試結(jié)果也表明該方面在篩選的精度上可以達(dá)到95%以上。

[1]張成崗,歐陽曙光,張紹文,等.基于PC/Linux的核酸序列分析系統(tǒng)的構(gòu)建及其應(yīng)用 [J].生物化學(xué)與生物物理進(jìn)展,2001(2):263-266.

ZHANG Cheng-gang, OU YANG Shu-guang, ZHANG Shaowen, et al.Based PC/Linux system, Construction and application of the nucleic acid sequence analysis system based on PC/Linux[J].Biochemistry and Biophysics,2001(2):263-266.

[2]陳英,彭心昭,樸英杰.自噬基因APG5基因結(jié)構(gòu)的生物信息學(xué)分析[J].遺傳學(xué)報(bào),2001,28(11):1077-1084.

CHEN Ying, PEN Xin-zhao, PU Ying-jie.Bioinformatics analysis of autophagy gene APG5 gene structure[J].Genetics,2001,28(11):1077-1084.

[3]齊建勛,肖奕.基于小波方法的蛋白質(zhì)非規(guī)則二級結(jié)構(gòu)預(yù)測[J].科學(xué)通報(bào),2002(6):425-430.

QI Jian-xun,XIAO Yi.Non-wavelet-based method of protein secondary structure prediction rules[J].Chinese Science Bulletin,2002(6):425-430.

[4]任力鋒,張波,劉輝.蛋白質(zhì)序列信息的提取與蛋白質(zhì)結(jié)構(gòu)預(yù)測[J].北京生物醫(yī)學(xué)工程,2005(3):237-238.

REN Li-feng, ZHANG Bo, LIU Hui.Protein sequence information extraction and protein structure prediction[J].Beijing Biomedical Engineering,2005(3):237-238.

[5]霍紅衛(wèi),肖智偉.基于最大權(quán)值路徑算法的DNA多序列比對方法[J].軟件學(xué)報(bào),2007,18(2):185-195.

HUO Hong-wei,XIAO Zhi-wei.A multiplealignment approachforDNA sequencesbasedonthemaximum weighted path algorithms[J].Journal of Software,2007,18(2):185-195.

[6]鄒權(quán),郭茂祖,王曉凱,等.基于關(guān)鍵字樹的DNA多序列星比對算法[J].電子學(xué)報(bào),2009,37(8):1764-1850.

ZOU Quan, GUO Mao-zu, WANG Xiao-kai, etal.Keyword-based tree of the DNA sequence star more than the algorithm[J].Electronics Technology,2009,37(8):1764-1850.

[7]王艷春,何東健.神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測中的應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2006(16):4172-4174.

WANG Yan-chun;HE Dong-jian,Neural network in protein secondary structure prediction in two[J].Anhui Agricultural Sciences,2006(16):4172-4174.

[8]阮曉鋼,孫海軍.編碼方式對蛋白質(zhì)二級結(jié)構(gòu)預(yù)測精度的影響[J].北京工業(yè)大學(xué)學(xué)報(bào),2005,31(3):227-235.

RUAN Xiao-gang,SUN Hai-jun.Researchon encode influencing protein secondary structure prediction[J].Journal of Beijing University of Technology,2005,31(3):227-235.

[9]劉帥,馬志強(qiáng),劉清雪,等.基于自適應(yīng)免疫遺傳算法的多序列比對[J].信息技術(shù),2007(2):15-17,111.

LIu Shuai, MA Zhi-qiang, LIU Qing-xue, et al.Adaptive immune genetic algorithm based on multiplesequence alignment[J].Information Technology,2007(2):15-17,111.

[10]郭衛(wèi)斌,施保昌,王能超.多重生物序列對準(zhǔn)及其算法綜述[J].高技術(shù)通訊,2001,11(6):96-102.

GUO Wei-bin, SHI Bao-chang, WANG Neng-chao.Multiple biological sequence alignment and its algorithm[J].High Technology,2001,11(6):96-102.

[11]關(guān)敏,辜華良,常雅萍,等.DNA核苷酸堿基序列分析軟件的編寫和應(yīng)用[J],白求恩醫(yī)科大學(xué)學(xué)報(bào),2001,27(5):467-469.

GUAN Min, GU Hua-liang, CHANG Ya-ping, et al.DNA nucleotide base sequence analysis software and application[J].BethuneUniversityofMedicalSciences,2001,27(5):467-469.

[12]杜世平.隱馬爾可夫模型在生物信息學(xué)中的應(yīng)用[J].大學(xué)數(shù)學(xué),2004,20(5):24-29.

DU Shi-ping. HMM in bioinformatics applications[J].University Mathematics,2004,20(5):24-29.

猜你喜歡
馬爾可夫同源權(quán)值
藥食同源
——紫 蘇
兩岸年味連根同源
一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
以同源詞看《詩經(jīng)》的訓(xùn)釋三則
CONTENTS
CONTENTS
基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
保費(fèi)隨機(jī)且?guī)в屑t利支付的復(fù)合馬爾可夫二項(xiàng)模型
虔誠書畫乃同源
基于SOP的核電廠操縱員監(jiān)視過程馬爾可夫模型
温泉县| 朝阳县| 将乐县| 临武县| 外汇| 临邑县| 鄂温| 永康市| 平远县| 顺平县| 南靖县| 嘉义县| 兴和县| 台州市| 奉新县| 禄丰县| 囊谦县| 涞源县| 鄂温| 全州县| 丹棱县| 五台县| 宾川县| 射阳县| 康马县| 鱼台县| 柘荣县| 石景山区| 新建县| 永宁县| 句容市| 宝兴县| 军事| 宜阳县| 资阳市| 农安县| 广丰县| 仙桃市| 阳东县| 新乡市| 泰安市|