国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

蛋白質(zhì)功能預(yù)測方法研究進(jìn)展

2016-09-26 11:28:56滕志霞郭茂祖
關(guān)鍵詞:結(jié)構(gòu)域蛋白質(zhì)

滕志霞 郭茂祖

摘 要:蛋白質(zhì)功能預(yù)測是后基因組時(shí)代生物信息學(xué)的研究熱點(diǎn)之一。利用計(jì)算方法預(yù)測蛋白質(zhì)的功能,可以彌補(bǔ)傳統(tǒng)生物實(shí)驗(yàn)方法周期長、效率低和成本高等方面不足。首先介紹蛋白質(zhì)功能預(yù)測的研究背景,并從計(jì)算角度定義蛋白質(zhì)功能預(yù)測問題;然后,對蛋白質(zhì)功能預(yù)測方法的研究現(xiàn)狀進(jìn)行分析與總結(jié),最后指出已有方法中存在的不足及未來的研究方向。

關(guān)鍵詞:蛋白質(zhì);功能預(yù)測;基因本體;結(jié)構(gòu)域;生物網(wǎng)絡(luò)

中國分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-2163(2016)01-

Abstract: protein function prediction is a hot spot of biological research in post-genomics. Compared to the traditional experimental methods, computational methods for predicting protein function performs more efficient. Firstly, the background and significance of protein function prediction are introduced, and protein function prediction is defined as a computational problem. And then, the latest progress in computational predicting of protein functions are summarized and analyzed. Finally, the limitations of the computational methods and the development trends in this field are presented.

Key words: Protein; Function Prediction; Gene Ontology; Domain; Biological Network

0 引言

蛋白質(zhì)(protein)是基因經(jīng)過轉(zhuǎn)錄和翻譯后在生物體中所表達(dá)的產(chǎn)物[1-2]。蛋白質(zhì)是生物體的重要組成部分,不僅種類繁多、而且功能各異,幾乎所有的生命活動都要通過蛋白質(zhì)來完成。比如,生物體的生長、發(fā)育、運(yùn)動、遺傳、繁殖等一切生命活動都離不開蛋白質(zhì)。毋庸置疑,蛋白質(zhì)是生物體的生理功能的執(zhí)行者,是生命現(xiàn)象的直接體現(xiàn)者,對蛋白質(zhì)結(jié)構(gòu)和功能的研究將直接闡明生物體在生理或病理?xiàng)l件下的變化機(jī)制。這對于疾病預(yù)防、藥物開發(fā)等醫(yī)學(xué)領(lǐng)域研究和農(nóng)牧業(yè)領(lǐng)域的發(fā)展都有十分重要的意義。

隨著大規(guī)模高通量測序技術(shù)的發(fā)展和應(yīng)用,蛋白質(zhì)序列數(shù)據(jù)呈指數(shù)級地增長。然而大量蛋白質(zhì)的功能仍然未被測定,蛋白質(zhì)的序列和功能信息之間的差距不斷擴(kuò)大。為縮小這種差距,尋找快速、高效且可靠的蛋白質(zhì)功能預(yù)測方法成為生物學(xué)研究領(lǐng)域一項(xiàng)迫切的任務(wù)。最初,生物學(xué)家研究蛋白質(zhì)功能主要通過生物實(shí)驗(yàn)的方法,包括微陣列分析、RNA干擾、免疫共沉淀法[3]、免疫交聯(lián)法[4]、酵母雙雜交法[5]等。然而,這類分子生物學(xué)實(shí)驗(yàn)方法比較費(fèi)時(shí)費(fèi)力,遠(yuǎn)不能滿足大規(guī)模蛋白質(zhì)功能預(yù)測的需要。隨后,在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和數(shù)理統(tǒng)計(jì)等多學(xué)科發(fā)展的共同推動之下,蛋白質(zhì)功能預(yù)測方法應(yīng)運(yùn)而生。這類方法主要通過機(jī)器學(xué)習(xí)和信息挖掘技術(shù)對蛋白質(zhì)的功能進(jìn)行預(yù)測,為進(jìn)一步的生物學(xué)實(shí)驗(yàn)驗(yàn)證提供啟發(fā)和指導(dǎo)。近年來,蛋白質(zhì)功能預(yù)測方法的研究在生物信息學(xué)領(lǐng)域得到了廣泛關(guān)注,并取得了很多有價(jià)值的研究成果。這些研究成果有力地推進(jìn)人類對蛋白質(zhì)功能的認(rèn)識進(jìn)程,縮小序列和功能信息之間的差距。本文將在后面的小節(jié)中介紹和分析已有的蛋白質(zhì)功能預(yù)測的典型方法,并指出其中存在的不足以及蛋白質(zhì)功能預(yù)測未來的研究趨勢。

1 蛋白質(zhì)功能

蛋白質(zhì)功能是一個(gè)比較寬泛的技術(shù)概念。一般來說,蛋白質(zhì)具有催化、能量轉(zhuǎn)運(yùn)和信號轉(zhuǎn)導(dǎo)等諸多功能,一個(gè)蛋白質(zhì)可以參與多個(gè)生物過程或功能通路。可以說,一切與蛋白質(zhì)有關(guān)的事務(wù)都可以被看作蛋白質(zhì)的功能[6]。為統(tǒng)一和規(guī)范對蛋白質(zhì)功能的描述,許多組織開始著手定義標(biāo)準(zhǔn)的詞匯去描述特定功能,比如:基因本體聯(lián)合會(Gene Ontology Consortium)建立的基因本體(Gene Ontology, GO)[7]和慕尼黑蛋白質(zhì)序列信息中心(Munich Information Center for Protein Sequences, MIPS)建立的基因分類標(biāo)準(zhǔn)(Function Categories, FunCat)[8]。目前GO已經(jīng)被廣泛地應(yīng)用于蛋白質(zhì)功能標(biāo)注,是比較主流的功能注釋術(shù)語集合。GO利用有向無環(huán)圖來組織術(shù)語(term),圖中每個(gè)節(jié)點(diǎn)表示一個(gè)標(biāo)準(zhǔn)術(shù)語,圖中的有向邊表示術(shù)語間的關(guān)系如is-a,part-of和regulates等。GO按照所描述的范疇不同,大致分為三個(gè)術(shù)語子圖:分子功能(Molecular Function, MF)、生物過程(Biological Process, BP)和細(xì)胞組件(Cellular Component, CC)。分子功能本體主要描述個(gè)體分子在生物學(xué)方面的活性,比如催化活性和結(jié)合活性;生物過程本體主要描述分子所參與的生物過程和扮演的角色;細(xì)胞組件本體主要描述分子在哪些細(xì)胞器中發(fā)揮作用。因此,可以把GO術(shù)語看作是功能標(biāo)簽,蛋白質(zhì)功能預(yù)測看作是為判定蛋白質(zhì)所擁有的標(biāo)簽的過程。

2蛋白質(zhì)功能預(yù)測方法

1961年Anfinsen[9]提出了蛋白質(zhì)的一級序列完全決定其三維結(jié)構(gòu)的著名論斷,同時(shí)又進(jìn)一步提出蛋白質(zhì)的高級結(jié)構(gòu)完全決定其功能的科學(xué)論斷。這種蛋白質(zhì)的序列——結(jié)構(gòu)——功能的決定關(guān)系稱為第二中心法則,也為蛋白質(zhì)功能預(yù)測奠定了理論基礎(chǔ)。因此,預(yù)測蛋白質(zhì)功能實(shí)質(zhì)就是判斷未知功能的蛋白質(zhì)與已知功能的蛋白質(zhì)在序列、結(jié)構(gòu)和功能方面的相似性計(jì)算問題。一般地,如果兩個(gè)蛋白質(zhì)的序列或結(jié)構(gòu)比較相似,則認(rèn)為彼此在功能上也比較相近。在此基礎(chǔ)上,學(xué)者們提出了大致三類研究方法:基于序列同源性的方法(Homology-based methods)、基于基因組上下文的方法(Genomic Context-based method)、基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的方法(Network-based method)。為此,本文將在下一節(jié)中具體介紹各類方法的研究進(jìn)展。

2.1 基于序列同源性的方法

分子生物學(xué)中大量的研究表明,序列水平上相似的兩個(gè)蛋白質(zhì)具有較高的同源性,并且兩者的功能也接近或相似[10]。因此,人們可以通過識別同源蛋白質(zhì)來預(yù)測蛋白質(zhì)的功能。這類方法被稱為基于序列同源性的方法,其實(shí)施的難點(diǎn)在于識別同源蛋白質(zhì)。一般地,可以通過以下兩種方式進(jìn)行識別。具體可做如下分析。

2.1.1 序列全局比對方法

首先通過FASTA,BLAST,PSI-BLAST等序列比對工具尋找與功能未知的蛋白質(zhì)有較高序列相似性的蛋白質(zhì),然后將這些蛋白質(zhì)的功能標(biāo)注為功能未知的蛋白質(zhì)的功能。這種方法簡單易用,然而,卻不能精確判定蛋白質(zhì)的功能,且受已有數(shù)據(jù)庫中噪聲數(shù)據(jù)的影響較大,容易產(chǎn)生功能信息的錯(cuò)誤傳播問題。Devos和Valencia[11-12]發(fā)現(xiàn)由序列比對得到的功能注釋中超過30%是錯(cuò)誤的。此外,研究表明:大約有20%~40%的蛋白質(zhì)序列不具有顯著的同源序列,特別是,還有一些獨(dú)特的“孤兒”蛋白質(zhì)(orphan protein)存在。這一事實(shí)限制了基于序列全局比對的方法的應(yīng)用范圍。

2.1.2 序列局部特征分析方法

序列局部特征分析方法又稱為從頭預(yù)測方法,該方法不依賴于蛋白質(zhì)序列的全局比對,而是通過統(tǒng)計(jì)一組已知的具有相同功能的蛋白質(zhì)序列的組成及生化特性等局部特征并建立分類模型,將具有相近或相似特征的序列看作同源序列再劃為同一類,從而進(jìn)行蛋白質(zhì)功能預(yù)測。這類方法一般可以分為四個(gè)階段:特征提取、特征選擇、訓(xùn)練模型和分類預(yù)測。其中,特征提取主要涉及序列特征的定義和提取,常用的特征有氨基酸組成、結(jié)構(gòu)域(domain)、序列模體(motif)、密碼子偏好、等電點(diǎn)和范德華體積以及翻譯后修飾等;特征選擇主要是對特征提取階段提取的特征集進(jìn)行去除噪聲和去冗余等操作;利用機(jī)器學(xué)習(xí)方法建立一個(gè)分類模型,并使用該模型對未知功能的蛋白質(zhì)序列進(jìn)行功能預(yù)測。2001年,英國威爾士大學(xué)Ross D.king[13]將氨基酸序列用三類序列信息來具體表示,利用數(shù)據(jù)挖掘的學(xué)習(xí)方法對Riley定義的E.Coli[14]蛋白質(zhì)進(jìn)行預(yù)測,準(zhǔn)確率達(dá)到60%~86%。2002年,丹麥科技大學(xué)生物序列分析中心L.J.Jensen[15]等人提取14種蛋白質(zhì)特征,利用神經(jīng)網(wǎng)絡(luò)方法進(jìn)行蛋白質(zhì)功能預(yù)測。結(jié)果表明,當(dāng)允許假陽性達(dá)到10%的情況下,預(yù)測敏感度可達(dá)到90%。2003年,新加坡大學(xué)C.Z.Cai[16]等人利用蛋白質(zhì)的組成、轉(zhuǎn)換及分布特征和SVM進(jìn)行蛋白質(zhì)功能預(yù)測。之后許多學(xué)者利用不同的機(jī)器學(xué)習(xí)方法如共學(xué)習(xí)[17]、樸素貝葉斯[18-19]以及隨機(jī)森林[20]進(jìn)行蛋白質(zhì)功能預(yù)測,也取得了不錯(cuò)的效果。Kim等人提出了一種基于樸素貝葉斯的基因功能相似度計(jì)算方法[21],可以整合多種不同基因相關(guān)數(shù)據(jù);英國Leeds大學(xué)的Bradford等人則相繼使用這種方法進(jìn)行基因功能預(yù)測[22];Troyanskaya等將貝葉斯網(wǎng)引入到功能關(guān)聯(lián)預(yù)測,用以表示多種不同數(shù)據(jù)間的依賴關(guān)系[23]。Lourdes等人給出了一種加權(quán)核的方法[24],首先為每種數(shù)據(jù)建立一個(gè)核,然后依質(zhì)量為每種數(shù)據(jù)賦予權(quán)值,最后通過加求和的方式獲得一個(gè)新核。Mostafavi[25]和Valentini[26-27]利用集成不同分類器的結(jié)果,按照投票原則產(chǎn)生最終的預(yù)測結(jié)果。

這類方法比基于序列全局比對的方法更加有效,主要是因?yàn)榛诰植刻卣鞯姆椒ǔ槿【哂猩飳W(xué)意義的序列局部特征能夠更顯完善地判斷序列同源性。然而這類方法也有一定的局限性,特征選取策略和正反例選取策略對分類模型的性能影響比較大,具體表現(xiàn)在:

(1)難以定義能夠有效區(qū)分目標(biāo)基因和其他基因的特征集合。

(2)在實(shí)際建立分類模型時(shí)發(fā)現(xiàn),已知的具有某一功能的蛋白質(zhì)序列較少(正例)、已知的不具有該功能的蛋白質(zhì)序列(反例)不確定,訓(xùn)練模型時(shí)正例和反例集不平衡對模型的性能的影響也比較大。

(3)蛋白質(zhì)可能同時(shí)具有多個(gè)功能,簡單將功能預(yù)測問題看成二分類問題,會忽略個(gè)體蛋白質(zhì)功能多樣性的特點(diǎn)。

2.2 基于基因組上下文方法

基于基因組上下文的方法通過識別蛋白質(zhì)之間的關(guān)聯(lián)關(guān)系來預(yù)測其可實(shí)現(xiàn)的功能。該方法認(rèn)為:如果兩個(gè)或多個(gè)蛋白質(zhì)在不同的基因組中表現(xiàn)出相同或相似的表達(dá)模式,則會有很大可能將執(zhí)行同一個(gè)功能[28-29]。這種方法這與依賴于序列同源性的方法是不同的。常用的基因組上下文特征有:基因融合(gene fusion)、基因共現(xiàn)(gene colocation)、基因共表達(dá)(gene co-expression)、種系發(fā)生樹(Phylogenetic profile)等。

1999年Marcotte[30]第一次提出利用基因融合來預(yù)測基因功能,該方法以發(fā)生基因融合的基因可能具有相同或相似的功能為依據(jù),可以有效預(yù)測基因功能,然而預(yù)測結(jié)果假陰性較高。實(shí)際上,運(yùn)用基因融合方法推測基因功能的關(guān)鍵在于識別真正的直系同源基因。如果待測基因與已知基因之間是旁系同源關(guān)系(paralogs)而非直系同源關(guān)系(orthologs),那么就很可能發(fā)生誤判。

1999年Overbeek[31-32]等人基于基因順序保守的基因所編碼的產(chǎn)物之間很可能存在功能互作或者物理互作這一假說,提出一個(gè)雙向最佳匹配方法(bidirectional best-hit method)在多個(gè)基因組上尋找位置相近的直系同源基因。該方法有效地發(fā)現(xiàn)了大量功能相關(guān)的基因。然而,受基因順序保守性發(fā)生頻率的限制,其應(yīng)用的覆蓋度和精確度依賴于已知測定的基因組數(shù)量。

近年來,Jiang等[33-34]提出了一些運(yùn)用進(jìn)化信息預(yù)測蛋白質(zhì)功能的方法,并取得了較好的結(jié)果。研究將每個(gè)基因或蛋白表示成一個(gè)n維特征串,n等于物種數(shù)目,“+”和“-”表示該基因是否在對應(yīng)的物種中出現(xiàn),通過這一設(shè)計(jì)方式就構(gòu)建了基因的系統(tǒng)發(fā)生譜,由此推測系統(tǒng)發(fā)生譜相同(近)的基因具有相同或相似的功能。當(dāng)兩個(gè)基因的系統(tǒng)發(fā)生譜正好相互互補(bǔ)時(shí),就認(rèn)為這兩個(gè)基因的功能類似,在基因進(jìn)化過程中將可以替代對方完成某一特定功能。然而系統(tǒng)發(fā)生譜沒有考慮系統(tǒng)進(jìn)化過程中的層次特性,不能夠充分利用進(jìn)化信息。相對于系統(tǒng)發(fā)生譜而言,系統(tǒng)發(fā)生樹包含了更豐富的遺傳和進(jìn)化信息。隨后一些學(xué)者提出一些方法整合系統(tǒng)發(fā)生樹信息進(jìn)行基因功能預(yù)測。然而,由于系統(tǒng)發(fā)生樹比系統(tǒng)發(fā)生譜要復(fù)雜,因此應(yīng)用算法要復(fù)雜得多;另外,由于系統(tǒng)發(fā)生樹的構(gòu)建強(qiáng)烈依賴于基因組序列,在一定程度上容易引入錯(cuò)誤信息。因此,系統(tǒng)發(fā)生樹的應(yīng)用迄今仍未達(dá)到如系統(tǒng)發(fā)生譜一樣具有優(yōu)勢廣泛發(fā)展空間。

根據(jù)比較基因組分析的結(jié)果,基因組中的雙向轉(zhuǎn)錄基因?qū)Ω鼉A向于具有很強(qiáng)的功能上的相關(guān)性,而且存在著潛在的調(diào)控作用關(guān)系。學(xué)者們[35-39] 據(jù)此提出一些方法應(yīng)用雙向轉(zhuǎn)錄基因?qū)Φ谋J匦匀ヮA(yù)測基因功能。通常認(rèn)為保守的雙向轉(zhuǎn)錄基因?qū)哂邢嗨频谋磉_(dá)模式,這兩個(gè)基因作為彼此的轉(zhuǎn)錄調(diào)控因子相互調(diào)控,如果通過同源的方法可以發(fā)現(xiàn)雙向轉(zhuǎn)錄基因?qū)χ械囊粋€(gè)基因是轉(zhuǎn)錄調(diào)控因子,那么雙向轉(zhuǎn)錄基因?qū)χ械牧硪粋€(gè)基因就受這個(gè)基因調(diào)控,并根據(jù)轉(zhuǎn)錄調(diào)控因子的功能,可以推測出被調(diào)控的基因的功能。然而,利用保守的雙向轉(zhuǎn)錄基因?qū)ν茰y基因功能的有效性卻將取決于已測定的基因組樣本的數(shù)目。

2.3基于蛋白質(zhì)相互作用網(wǎng)絡(luò)方法

與前兩類方法在蛋白質(zhì)分子個(gè)體水平研究蛋白質(zhì)功能不同,隨著蛋白質(zhì)相互作用數(shù)據(jù)的逐漸增多,一些學(xué)者開始借助于蛋白質(zhì)相互作用網(wǎng)絡(luò)從系統(tǒng)層面研究蛋白質(zhì)的功能。研究認(rèn)為蛋白質(zhì)通過相互協(xié)作共同執(zhí)行某種生物功能,蛋白質(zhì)之間通過協(xié)作關(guān)系形成蛋白質(zhì)相互作用(protein-protein interaction, PPI)網(wǎng)絡(luò),并根據(jù)蛋白質(zhì)之間相互作用關(guān)系設(shè)計(jì)蛋白質(zhì)預(yù)測方法。本文即將其稱為基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的方法?;诘鞍踪|(zhì)相互作用網(wǎng)絡(luò)的方法是進(jìn)行大規(guī)模、系統(tǒng)性蛋白質(zhì)功能預(yù)測的重要手段和有效途徑。按目前情況來看,這類方法可以大致分為兩類:直接方法(direct method)和基于網(wǎng)絡(luò)模塊的方法(module-assisted method)。在此,給出這兩類方法的概述分析。

直接方法認(rèn)為相互作用的蛋白質(zhì)之間的功能相近或相似,并據(jù)此設(shè)計(jì)功能信息傳播算法以預(yù)測蛋白質(zhì)功能。最典型有基于鄰居節(jié)點(diǎn)功能推測法[40-42],基于信息流傳播的方法[43-46]等。其中基于鄰居節(jié)點(diǎn)功能推測法篩選蛋白質(zhì)的鄰居節(jié)點(diǎn)的典型功能作為該蛋白質(zhì)的功能。然而,這種方法依賴于鄰居節(jié)點(diǎn)的功能注釋的準(zhǔn)確性和完整性。如果蛋白質(zhì)的鄰居節(jié)點(diǎn)功能信息不準(zhǔn)確或者大多數(shù)鄰居節(jié)點(diǎn)的功能未被注釋,則利用該方法的準(zhǔn)確性和效率都會比較低?;谛畔⒘鱾鞑サ姆椒▽⒌鞍踪|(zhì)相互作用網(wǎng)絡(luò)看作是功能信息流通網(wǎng)絡(luò),蛋白質(zhì)節(jié)點(diǎn)的功能信息可以沿著網(wǎng)絡(luò)中的邊傳播給其它蛋白質(zhì)。因此,學(xué)者們利用概率統(tǒng)計(jì)和圖論知識通過不同的方法計(jì)算蛋白質(zhì)具有某種功能的最大概率值,并據(jù)此判斷蛋白質(zhì)是否具有該功能。

隨著復(fù)雜網(wǎng)絡(luò)理論和技術(shù)的發(fā)展,一些學(xué)者開始通過挖掘蛋白質(zhì)網(wǎng)絡(luò)中的子模塊或網(wǎng)絡(luò)模體來預(yù)測蛋白質(zhì)的功能[47-52]。本文則將這一類方法統(tǒng)稱為基于網(wǎng)絡(luò)模塊的方法。這類方法認(rèn)為在PPI網(wǎng)絡(luò)中緊密聯(lián)系的子團(tuán)和頻繁出現(xiàn)的子團(tuán)都代表相互之間的協(xié)作模式,分別被稱為蛋白質(zhì)復(fù)合體(protein complex)和蛋白質(zhì)網(wǎng)絡(luò)模體(network motif)。一般地認(rèn)為,處于同一蛋白質(zhì)復(fù)合體或網(wǎng)絡(luò)模體的蛋白質(zhì)執(zhí)行相同或相近的功能。因此,這類方法的難點(diǎn)在于如何準(zhǔn)確地識別出蛋白質(zhì)相互作用網(wǎng)絡(luò)中的功能模塊。與此同時(shí),籠統(tǒng)地認(rèn)為處于同一模塊的蛋白質(zhì)具有相同功能,忽略蛋白質(zhì)在功能模塊中的具體分工,不利于精確預(yù)測蛋白質(zhì)的功能。此外,基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的蛋白質(zhì)功能預(yù)測方法對網(wǎng)絡(luò)的依賴性較強(qiáng),蛋白質(zhì)相互作用網(wǎng)絡(luò)的規(guī)模和可靠性對預(yù)測結(jié)果影響較大。

3 結(jié)束語

目前,蛋白質(zhì)功能預(yù)測的研究已經(jīng)引起了越來越多的關(guān)注,而機(jī)器學(xué)習(xí)和信息挖掘方法是預(yù)測蛋白質(zhì)的功能的重要途徑。對此,國內(nèi)外研究者已經(jīng)展開了細(xì)致與深入的研究,并取得了一些研究成果。本文歸納并總結(jié)了蛋白質(zhì)功能預(yù)測的計(jì)算方法,并分析了已有方法存在的問題和不足,希望借此能推動蛋白質(zhì)功能預(yù)測的進(jìn)展。從總體來看,未來蛋白質(zhì)功能預(yù)測研究可能考慮以下幾個(gè)方面:

(1) 一個(gè)蛋白質(zhì)可以同時(shí)擁有多個(gè)功能,這些功能之間存在一定的關(guān)聯(lián)性,如何將這些關(guān)聯(lián)關(guān)系應(yīng)用到功能預(yù)測過程中是一個(gè)重要的研究內(nèi)容。

(2) 如何有效地融合蛋白質(zhì)序列全局特征、局部特征、基因組上下文環(huán)境特征,多角度、準(zhǔn)確地預(yù)測蛋白質(zhì)功能。

(3) 如何利用蛋白質(zhì)的個(gè)體特征與蛋白質(zhì)網(wǎng)絡(luò)中的拓?fù)涮卣飨嘟Y(jié)合,提高蛋白質(zhì)復(fù)合體和網(wǎng)絡(luò)模體的識別精度,并確定蛋白質(zhì)在執(zhí)行過程中扮演的準(zhǔn)確的角色。

參考文獻(xiàn)

[1] BRANDEN C, TOOZE J. Introduction to Protein Structure[M]. New York: Garland Pub,1999.

[2] LODISH H, BERK A, KAISER C A, et al. Molecular Cell Biology[M] .7th ed. New York: WH Freeman and Company, 2012.

[3] ROSENBERG I M. Protein analysis and purification: benchtop techniques[M]. 2th ed. Boston: Birkh?user ,2005.

[4] ULE J, JENSEN K B, RUGGIU M, et al. CLIP identified Nova-regulated RNA networks in the brain[J]. Science,2003, 302(5648): 1212–1215.

[5] YOUNG K H. Yeast two-hybrid: so many interactions, (in) so little time[J]. Biology of Reproduction, 1998, 58 (2): 302–311.

[6] ROST B, LIU J, WRZESZCZYNSKI K O, et al. Automatic prediction of protein function[J]. Cellular & Molecular Life Sciences Cmls,2003, 60 (12): 2637–2650.

[7] ASHBURNER M. Gene ontology: tool for the unification of biology[J]. Nature Genetics, 2000, 25(1):25-29.

[8] TETKO I, RODCHENKOV I, WALTER M, et al. Beyond the "best" match: Machine learning annotation of protein sequences by integration of different sources of information[J]. Bioinformatics, 2008, 24(5):621-628.

[9] ANFINSEN C B, WHITE F H. The kinetics of formation of native ribonuclease during oxidation of the reduced polypeptide chain[J]. Proc Natl Acad Sci USA, 1961, 47(9):1309–1314.

[10] DOBSON P D, CAI Y B, DOIG A J, et al. Prediction of Protein Function in the Absence of Significant Sequence Similarity[J]. Current Medicinal Chemistry, 2004, 11(16):2135-2142.

[11] DEVOS D, VALENCIA A. Practical limits of function prediction [J]. Proteins Structure Function & Bioinformatics, 2000, 41(1): 98-107.

[12] DEVOS D, VALENCIA A. Intrinsic errors in genome annotation [J]. Trends in Genetics Tig, 2001,17(8):429-431.

[13] KING R, UK B A, KARWATH A, et al. The utility of different representations of protein sequence for predicting functional class[J]. Bioinformatics, 2001, 17(5): 445–454.

[14] JENSEN L J, GUPTA R, STRFELDT H H, et al. Prediction of human protein function according to Gene Ontology categories[J]. Bioinformatics, 2002, 19(5):635–642.

[15] SAMANTA M P, LIANG S. MANOJ P S, et al., Predicting protein functions from redundancies in large-scale protein interaction networks[J]. Proc Natl Acad Sci USA, 2003, 100(22): 12579-12583.

[16] CAI C Z, HAN L Y, JI Z L, et al. SVM-Prot: web-based support vector machine software for functional classification of a protein from its primary sequence[J].Nucleic Acids Research, 2003,31(13):3692–3697.

[17] NAM J W, SHIN K R, HAN J, et al. Human MicroRNA Prediction through a Probabilistic Co-Learning Model of Sequence and Structure[J]. Nucleic Acids Research, 2005, 33(11): 3570-3581.

[18] CAO D N, GARDINER K J, NGUYEN D. Prediction of Protein Functions from Protein Interaction Networks: A Na?ve Bayes Approach [C]//PRICAI. Hanoi, Vietnam:dblp, 2008: 788-798.

[19] Malik Y. et al. Learning from positive examples when the negative class is undetermined-microRNA gene identification, Algorithms for Molecular Biology[J].Algorithm for Molecular Biology, 2008, 3(2):393-395.

[20] CHEN X W, LIU M. Prediction of protein-protein interactions using random decision forest framework[J]. Bioinformatics, 2005, 21(24):4394-4400.

[21] WAN K K, KRUMPELMAN C, MARCOTTE E M. Inferring mouse gene functions from genomic-scale data using a combined functional network/classification strategy[J]. Genome Biology, 2008, 9 (2):1-19.

[22] BRADFORD J R. GO-At: in silico prediction of gene function in Arabidopsis thaliana by combining heterogeneous data[J]. Plant J, 2010, 61(4):713-21.

[23] TROYANSKAYA O G, DOLINSKI K, OWEN A B, et al. A Bayesian framework for combining heterogeneous data sources for gene function prediction (in Saccharomyces cerevisiae)[J]. PNAS, 2003, 100(14): 8348-8353.

[24] PE?A-CASTILLO L, TASAN M, MYERS C L, et al. A critical assessment of Mus musculus gene function prediction using integrated genomic evidence[J]. Genome Biology, 2008, 9(10):1-19.

[25] MOSTAFAVI S. Fast integration of heterogeneous data sources for predicting gene function with limited annotation[J]. Bioinformatics, 2010, (26) 14: 1759-1765.

[26] RE M, VALENTINI G. Simple ensemble methods are competitive with state-of-the-art data integration methods for gene function prediction[J]. Journal of Machine Learning Research, 2010, 8(5719): 204-205.

[27] VALENTINI G. True Path Rule Hierarchical Ensembles for Genome-Wide Gene Function Prediction[J]. IEEE TCBB, 2011,3(8): 832- 847.

[28] EISENBERG D, MARCOTTE E M, XENARIOS I, et al. Protein function in the post-genomic era[J]. Nature, 2000, 405 (6788): 823–826.

[29] SLEATOR R D, WALSH P. An overview of in silico protein function prediction[J]. Arch Microbiology, 2010, 192 (3): 151–155.

[30] MARCOTTE E M, PELLEGRINI M, NG H L, et al. Detecting protein function and protein-protein interactions from genome sequences[J]. Science, 1999, 285(5248):751-753.

[31] OVERBEEK R. Use of contiguity on the chromosome to predict functional coupling[J]. Silico Biol,1999, 1(2): 93-108.

[32] OVERBEEK R, FONSTEIN M, DSOUZA M, et al. The use of gene clusters to infer functional coupling[J]. Proc Natl Acad Sci USA. 1999, 96(6): 2896-2901.

[33] JIANG Z. Protein function predictions based on the phylogenetic profile method[J]. Critical Reviews in Biotechnology, 2008, 28(4): 233-238.

[34] LIBERLES D A, THOREN A, ELOFSSON A. The use of phylogenetic pro?les for gene function prediction[J]. Current Genomics. 2002, 3(7):131–137.

[35] RANEA J A, YEATS C, GRANT A. Predicting Protein Function with Hierarchical Phylogenetic Profiles: The Gene3D Phylo Tuner Method Applied to Eukaryotic Genomes[J]. PLoS Comput Biol, 2007, 3(11): e237.

[36] NICOTRA L, MICHELI A, STARITA A. Generative Kernels for Gene Function Prediction Through Probabilistic Tree Models of Evolution[M]// MASULLI F, MITRA S, PASI G. Applications of Fuzzy Sets Theory. Berlin Heidelberg: Springer , 2007,4578: 512–519.

[37] KORBEL J O, JENSEN L J, VON M C, et al. Analysis of genomic context: prediction of functional associations from conserved bi-directionally transcribed gene pairs[J]. Nature Biotechnology, 2004, 22(7): 911 - 917.

[38] OKUDA S, KAWASHIMA S, GOTO S, et al. Conservation of gene co-regulation between two prokaryotes: Bacillus subtilis and Escherichia coli[J]. Genome Inform, 2005, 16(1):116-124.

[39] LIU B C, CHEN J, SHEN B. Genome-wide analysis of the transcription factor binding preference of human bi-directional promoters and functional annotation of related gene pairs[J]. BMC Systems Biology, 2011,5(Suppl 1):172-176.

[40] SCHWIKOWSKI B, UETZ P, FIELDS S. A network of protein–protein interactions in yeast[J]. Nat Biotechnol, 2001, 18(12): 1257–1261.

[41] HISHIGAKI H, KENTA N, TOSHIHIDE O, et al. Assessment of prediction accuracy of protein function from protein–protein interaction data[J]. Yeast, 2001,18(6): 523–531.

[42] CHUA H N, SUNG W K, WONG L, et al. Exploiting indirect neighbours and topological weight to predict protein function from protein–protein interactions[J]. Bioinformatics, 2006, 22(13):1623-1630.

[43] VAZQUEZ A, FLAMMINI A, MARITAN A, et al. Global protein function prediction from protein–protein interaction networks[J]. Nat Biotechnol, 2003(21): 697–700.

[44] ULAS K, MURALI T M, STAN L, et al. Whole-genome annotation by using evidence integration in functional-linkage networks[J]. Proc Natl Acad Sci USA, 2004, 101(7):2888-2893.

[45] NABIEVA E, JIM K, AGARWAL A, et al. Whole proteome prediction of protein function via graph-theoretic analysis of interaction maps[J]. Bioinformatics, 2005, 21 (Suppl 1): i302–i310.

[46] DENG M, TU Z, SUN F,et al. Mapping Gene Ontology to proteins based on protein–protein interaction data[J]. Bioinformatics, 2004, 20(6):895-902.

[47] HARTWELL L H, HOPFIELD J J, LEIBLER S, et al. From molecular to modular cell biology[J]. Nature, 1999, 402(6761 Suppl):C47-52.

[48] Bader JS. Greedily building protein networks with confidence[J]. Bioinformatics, 2003, 19: 1869–1874.

[49] BADER G D, HOGUE C W. An automated method for finding molecular complexes in large protein interaction networks[J]. BMC Bioinformatics, 2003, 4(1): 2.

[50] ENRIGHT A J, DONGEN S V, OUZOUNIS C A, et al. An efficient algorithm for large-scale detection of protein families[J]. Nucleic Acids Res, 2002, 30(7): 1575–1584.

[51] SHARAN R, IDEKER T. Modeling cellular machinery through biological network comparison[J]. Nat Biotechnol, 2006, 24(4):427-433.

[52] SHARAN R, IDEKER T, KELLEY B P, et al. Identification of protein complexes by comparative analysis of yeast and bacterial protein interaction data[J]. J Comput Biol, 2005, 12(6):835-846.

猜你喜歡
結(jié)構(gòu)域蛋白質(zhì)
幼雞怎么喂蛋白質(zhì)飼料
細(xì)菌四類胞外感覺結(jié)構(gòu)域的概述
蛋白質(zhì)自由
肝博士(2022年3期)2022-06-30 02:48:48
人工智能與蛋白質(zhì)結(jié)構(gòu)
海外星云(2021年9期)2021-10-14 07:26:10
革蘭氏陽性菌蛋白結(jié)構(gòu)域特征分析
蛋白質(zhì)結(jié)構(gòu)域劃分方法及在線服務(wù)綜述
蛋白質(zhì)計(jì)算問題歸納
重組綠豆BBI(6-33)結(jié)構(gòu)域的抗腫瘤作用分析
組蛋白甲基化酶Set2片段調(diào)控SET結(jié)構(gòu)域催化活性的探討
泛素結(jié)合結(jié)構(gòu)域與泛素化信號的識別
汽车| 宝山区| 天峨县| 湛江市| 洛扎县| 永康市| 大新县| 济源市| 安阳县| 浙江省| 陆河县| 浮山县| 滕州市| 阜新| 河津市| 上林县| 黄大仙区| 邹平县| 晋宁县| 长岭县| 三门县| 南汇区| 长春市| 遂昌县| 钟祥市| 普兰店市| 大石桥市| 尚志市| 盘山县| 板桥市| 蒙山县| 兴化市| 凭祥市| 财经| 邵阳县| 台州市| 永靖县| 宁津县| 广宁县| 东安县| 梅州市|