国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于基因本體的語義相似度計(jì)算方法研究綜述

2016-03-02 08:47彭佳杰王亞東

彭佳杰 王亞東

摘 要:基因本體是一個(gè)被廣泛使用的生物數(shù)據(jù)資源,主要用于描述基因和基因產(chǎn)物的屬性,包括分子功能、生物過程和細(xì)胞組件三個(gè)方面。基于基因本體的術(shù)語相似度及基因功能相似度計(jì)算對(duì)基因功能分析、比較和預(yù)測(cè)等生物學(xué)研究熱門領(lǐng)域具有非常重要的意義。本文綜述了基于基因本體的語義相似度算法,主要包括基因本體同一分支中的術(shù)語相似度計(jì)算法和基因本體跨分支術(shù)語相似度算法兩大部分內(nèi)容,并對(duì)這些方法的優(yōu)缺點(diǎn)做了一定的分析總結(jié)。

關(guān)鍵詞:基因本體;語義相似度;術(shù)語相似度

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)號(hào):A 文章編號(hào):2095-2163(2015)06-

Abstract: Gene Ontology (GO) is a widely used resource to describe the attributes for gene and gene products, including three categories molecular function, biological process and cellular component. GO based term similarity and gene functional similarity calculation is of great benefit to gene function analysis, comparison and prediction. This article reviewes the common methods on semantic similarity based on gene ontology, including measures to calculate gene ontology term similarity in the same category and to compare gene ontology term in different categories. In the end, the paper summarizes some commonly used tools for analyzing gene ontology based semantic similarity calculation measurement.

Keywords: Gene Ontology; Semantic Similarity; Term Similarity

0 引言

基因本體是生物醫(yī)學(xué)領(lǐng)域最成功的本體之一,為描述基因(基因產(chǎn)物)的分子功能、生物過程等相關(guān)信息提供一個(gè)規(guī)范、準(zhǔn)確的術(shù)語集,目前被廣泛應(yīng)用于生物醫(yī)學(xué)相關(guān)研究領(lǐng)域[1]。1998年至2014年之間每年發(fā)表的與基因本體相關(guān)的論文數(shù)目,由在PubMed中按年搜索關(guān)鍵字“Gene Ontology”而獲得的統(tǒng)計(jì)數(shù)字。相關(guān)論文的數(shù)量由1998年的1篇開始,逐年增加到了2014年的1 388篇,增長(zhǎng)趨勢(shì)非常明顯?;虮倔w目前已經(jīng)廣泛應(yīng)用在基因功能比較與分析、蛋白質(zhì)相互作用預(yù)測(cè)、基因集合富集分析等諸多領(lǐng)域,由此而成為一個(gè)不可或缺的生物醫(yī)學(xué)本體。

基因本體最初由基因本體組織(Gene Ontology consortium)于1998年建立,最早的Gene Ontology consortium僅包含研究果蠅,老鼠和酵母的科學(xué)家[2]。隨著基因本體的發(fā)展,越來越多的模式生物數(shù)據(jù)庫加入了基因本體組織,包括大多數(shù)主要的植物數(shù)據(jù)庫,動(dòng)物數(shù)據(jù)庫和微生物數(shù)據(jù)庫,到2014年為止,基因本體已經(jīng)能夠?yàn)?5個(gè)物種提供注釋信息[3-4]。

1基因本體術(shù)語相似度計(jì)算的研究概述

基于本體計(jì)算兩個(gè)實(shí)體之間的語義相似度一直以來都是計(jì)算機(jī)科學(xué)領(lǐng)域的熱門問題[5],已經(jīng)有很長(zhǎng)的研究歷史[6],在自然語言處理[7]、音頻信號(hào)處理[8]、信息檢索[9]等諸多重要領(lǐng)域都有非常廣泛的運(yùn)用。隨著本體理論和技術(shù)的發(fā)展,在信息挖掘和數(shù)據(jù)整合領(lǐng)域,越來越多的研究試圖建立本體和語義相似度為基礎(chǔ)的機(jī)制來比較兩個(gè)對(duì)象,以實(shí)現(xiàn)檢索,數(shù)據(jù)集成等功能[10-13]。基于本體的相似度計(jì)算主要利用本體中節(jié)點(diǎn)之間的父子關(guān)系、兄弟關(guān)系等結(jié)構(gòu)關(guān)系來計(jì)算本體中節(jié)點(diǎn)之間的相似度。

根據(jù)比較對(duì)象的不同,可以把基于基因本體的術(shù)語相似度算法分成兩大類:一類是比較同一個(gè)基因本體分支中兩個(gè)術(shù)語之間的相似度;另一類是比較基因本體不同分支中(跨分支)的兩個(gè)術(shù)語之間的相似度。圖1是基因本體生物過程分支和分子功能分支示意圖,其中左圖為生物過程分支,右圖為分子功能分支。 前一類比較基因本體同一分支術(shù)語的相似度,比較的是圖1中實(shí)現(xiàn)框內(nèi)兩個(gè)術(shù)語的相似度,即術(shù)語axis specification和adaxial/abaxial axis specification;后一類比較基因本體不同分支中術(shù)語的相似度,比較的是圖1中虛線框內(nèi)的兩個(gè)術(shù)語的相似度,即術(shù)語adaxial/abaxial pattern formation和DNA binding。

2同分支術(shù)語相似度計(jì)算方法

在基因本體術(shù)語相似度計(jì)算相關(guān)研究領(lǐng)域,大部分研究者都關(guān)注同一基因本體分支中術(shù)語相似度的計(jì)算方法。具體地說,大部分研究者關(guān)注的是如何計(jì)算基因本體這一有向無環(huán)圖中,兩個(gè)節(jié)點(diǎn)之間的相似度,這些術(shù)語相似度計(jì)算方法可以分為兩類:一類是基于邊距離(Edge-based)的術(shù)語相似度計(jì)算,即利用基因本體中術(shù)語之間的關(guān)系作為術(shù)語相似度計(jì)算的基礎(chǔ);另一類是基于節(jié)點(diǎn)(Node-based)的術(shù)語相似度計(jì)算,即利用基因本體中節(jié)點(diǎn)和節(jié)點(diǎn)的注釋信息作為術(shù)語相似度計(jì)算的基礎(chǔ)[14]。

基于邊的術(shù)語相似度計(jì)算方法主要是考慮在基因本體這一有向無環(huán)圖中,連接兩個(gè)術(shù)語的路徑的長(zhǎng)度。在這一類算法中,最常用的方法是計(jì)算兩個(gè)術(shù)語在基因本體中的最短路徑[15],或者當(dāng)兩個(gè)術(shù)語之間存在多條路徑時(shí),考慮所有可能路徑長(zhǎng)度的平均值。另外,也可以通過兩個(gè)術(shù)語在有向無環(huán)圖中的公共祖先節(jié)點(diǎn)到根節(jié)點(diǎn)的距離來衡量?jī)蓚€(gè)術(shù)語時(shí)間的相似度。上述方法都是很直觀的,都是基于以下兩個(gè)假設(shè):本體中的節(jié)點(diǎn)和邊是均勻分布的;本體中同一個(gè)層次的邊所代表的語義距離是一致的。但是這兩個(gè)假設(shè)在基因本體中并不是完全正確的,因此加權(quán)的方法被提出來計(jì)算術(shù)語之間的相似度。

Pekar等人在2002年提出了一個(gè)基于邊的語義相似度算法[16],利用本體中兩個(gè)術(shù)語的最低公共祖先(lowest common ancestor,lca)節(jié)點(diǎn)到根節(jié)點(diǎn)的最長(zhǎng)路徑距離來衡量?jī)蓚€(gè)術(shù)語之間的相似度,并且考慮了每一個(gè)術(shù)語到最低公共祖先節(jié)點(diǎn)之間的距離,如公式(1)所示。

(1)

公式中,c1和c2?分別表示本體中的兩個(gè)術(shù)語,clca表示c1和c2的最低公共祖先節(jié)點(diǎn),root表示根節(jié)點(diǎn),L(x,y)表示兩個(gè)術(shù)語x和y在本體中的最長(zhǎng)路徑距離。2005年,Yu等人第一次使用這個(gè)方法計(jì)算基因本體術(shù)語之間的語義相似度[17]。

Cheng等人提出了一個(gè)加權(quán)的最大公共祖先深度算法,通過不同的權(quán)值來反映每一個(gè)邊在本體中的層次位置[18]。為了體現(xiàn)不同層次上的邊所反映的不同信息,定義了一個(gè)權(quán)重因子(weighting factor),記作wt,基因本體中屬于不同層次的邊對(duì)應(yīng)一個(gè)權(quán)重因子。給定兩個(gè)基因本體術(shù)語c1和c2?,其最低公共祖先到根節(jié)點(diǎn)的最長(zhǎng)路徑距離為p,c1和c2的相似度如公式(2)所示。

(1-2)

式中,p大于0,特別地,當(dāng)p等于0時(shí),術(shù)語c1和c2的相似度等于0。

Wu等人提出了一個(gè)非加權(quán)的基于邊的相似度算法[19]。給定兩個(gè)基因本體術(shù)語c1和c2該算法,首先分別得到兩個(gè)術(shù)語到根節(jié)點(diǎn)的所有可能路徑的集合,分別記為P1和P2,c1和c2的相似度如公式(3)所示。

(3)

式中,pi和pj分別表示c1和c2到根節(jié)點(diǎn)的一條路徑,Ti和Tj分別對(duì)應(yīng)于路徑pi和路徑pj經(jīng)過的術(shù)語的集合。

2007年,Wu Xiaomei等人改進(jìn)了Wu等人的算法,提出了一個(gè)既考慮公共祖先到根節(jié)點(diǎn)的路徑距離,又考慮了公共祖先到被比較的術(shù)語的路徑距離的算法[20]。和上述基于基因本體計(jì)算兩個(gè)術(shù)語之間的相似度不同,Pozo等人另辟奇徑,根據(jù)基因本體分子功能分支中術(shù)語在Interpro數(shù)據(jù)庫[21]中共同出現(xiàn)在相同集合中的次數(shù)構(gòu)建出了一個(gè)功能相關(guān)的樹結(jié)構(gòu),然后再計(jì)算兩個(gè)術(shù)語在這個(gè)樹結(jié)構(gòu)中的最低公共祖先的深度[22]。此方法不完全基于基因本體計(jì)算術(shù)語相似度,提出了一種全新的思路,同時(shí)也為衡量基因本體的準(zhǔn)確性提供了重要依據(jù)。

基于節(jié)點(diǎn)的術(shù)語相似度算法比較術(shù)語節(jié)點(diǎn)的屬性以及相關(guān)節(jié)點(diǎn)的父親節(jié)點(diǎn)、子孫節(jié)點(diǎn)等信息。在基于節(jié)點(diǎn)的術(shù)語相似度計(jì)算中被廣泛運(yùn)用的一個(gè)概念是信息量(Information Content),可以用其來衡量一個(gè)術(shù)語的特殊性和信息。給定一個(gè)術(shù)語t,對(duì)應(yīng)信息量的定義為對(duì)數(shù)似然度的負(fù)值[23],計(jì)算公式為:

(7)

公式中,Gt表示術(shù)語t注釋的所有基因的集合,G表示基因本體中包含的所有基因的集合,|X|表示集合X中元素的數(shù)量。

雖然這個(gè)算法可以有效地計(jì)算兩個(gè)術(shù)語的相似度,但是卻忽略了被比較的兩個(gè)術(shù)語到其最低公共祖先之間的距離。因此,Lin[24]和Jiang[25]基于信息量計(jì)算方法,分別提出了考慮被比較術(shù)語到其最低公共祖先距離的算法。

Lin和Jiang這兩個(gè)方法都是利用被比較的兩個(gè)術(shù)語和其最低公共祖先的信息量的不同來衡量?jī)蓚€(gè)術(shù)語的相似度,和只利用公共祖先的信息量的計(jì)算方法是獨(dú)立的,沒有充分考慮到最低公共祖先在基因本體中的絕對(duì)位置信息。

為了解決這一問題,Schlicker等人基于Lin等人的方法提出了關(guān)聯(lián)相似度方法[26]。給定兩個(gè)術(shù)語c1和c2,Schlicker方法利用相應(yīng)最低公共祖先所注釋的基因在整個(gè)基因本體分支中所有術(shù)語注釋的基因中所占的比例作為權(quán)值,用來衡量最低公共祖先在基因本體中的絕對(duì)層次位置信息。

以上方法存在一個(gè)共同的缺點(diǎn):雖然兩個(gè)術(shù)語可能有多個(gè)共同祖先,但是只考慮其中的一個(gè)。為了解決這個(gè)問題,Couto 等人提出了GraSM算法[27]。GraSM算法用所有共同祖先的信息量的平均值代替最低共同祖先的信息量,且GraSM算法可以運(yùn)用在以上幾種算法中。類似地,Wang等人也提出了一種考慮所有祖先術(shù)語的算法[28]。給定一個(gè)術(shù)語c1和其父親術(shù)語p,用Sc1,p表示p對(duì)c1的語義貢獻(xiàn),定義為從c1到p的所有路徑中,語義貢獻(xiàn)最大的路徑。

基因本體中,同一分支內(nèi)術(shù)語相似計(jì)算方法如上述介紹,主要分為基于基因本體中邊的計(jì)算模型和基于基因本體中節(jié)點(diǎn)的計(jì)算模型兩類,以上詳細(xì)介紹的幾個(gè)模型代表了該方向近幾年的研究趨勢(shì)和最新成果,是利用基因本體進(jìn)行基因功能分析的重要基礎(chǔ)之一。

3跨分支術(shù)語相似度計(jì)算方法

基因本體包含三個(gè)不同的分支:分子功能,生物過程和細(xì)胞組件。雖然三個(gè)分支在結(jié)構(gòu)上是三個(gè)獨(dú)立的本體,但是彼此之間的生物學(xué)關(guān)系(特別是生物過程術(shù)語和分子功能術(shù)語之間)可能為注釋基因提供更好的證據(jù)[29]。更重要的是,發(fā)現(xiàn)不同基因本體不同分支中術(shù)語之間的關(guān)聯(lián)關(guān)系可能幫助研究者解釋生物現(xiàn)象并做出生物假設(shè)。例如,如果一個(gè)具有相同分子功能的基因集合往往會(huì)參與到多個(gè)生物過程中,類似地,這些生物過程可能相互關(guān)聯(lián),相互作用,從而在代謝層實(shí)現(xiàn)了這一分子功能。盡管如此,當(dāng)前大多數(shù)研究者都致力于計(jì)算基因本體中同一分支內(nèi)的術(shù)語相似度,只有很少的研究是關(guān)于計(jì)算基因本體中不同分支間的術(shù)語相似度。目前,研究分支之間術(shù)語的語義相似度算法可以分為兩類:一種是基于關(guān)聯(lián)規(guī)則挖掘 (Association Rule Mining)方法;另一種是基于文本挖掘(Text Mining)的方法,例如向量空間模型(Vector Space Model)。

Bodenreider等人提出了基于關(guān)聯(lián)規(guī)則挖掘的算法來計(jì)算基因本體不同分支間的術(shù)語相似度[30]。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域最基本的方法之一,主要用于從海量數(shù)據(jù)中挖掘頻繁數(shù)據(jù)項(xiàng)之間的相互關(guān)聯(lián)關(guān)系,這一方法最早是為了研究購物籃分析問題(Market Basket Analysis)而提出的[31]。關(guān)聯(lián)規(guī)則挖掘可解決的問題例如:“如果一個(gè)顧客采購了商品A,那么這個(gè)顧客采購商品B的可能性是多大?如果一個(gè)顧客采購了商品A,那么這個(gè)顧客還會(huì)采購什么產(chǎn)品?”精確地,關(guān)聯(lián)關(guān)系挖掘的相關(guān)問題可以定義為:給定I = {i1,i2,…,in}為一組值為“1”或“0”的屬性集合,T={t1,t2,…,tn}為一組數(shù)據(jù)記錄的集合。T中的每一條記錄都是唯一的,且包含了I中的部分屬性。一條規(guī)則定義為:XY,其中X,Y滿足X,Y I且X∩Y為空集。為了從所有可能的規(guī)則中找出重要的規(guī)則,即可用支持度(Support score)和置信度(Confidence score)來衡量一個(gè)規(guī)則的重要程度。具體地,支持度可由公式(8)計(jì)算得到。數(shù)學(xué)公式為:

(8)

公式中,T表示所有數(shù)據(jù)記錄的集合,TX表示集合T中滿足屬性集X的所有數(shù)據(jù)記錄的集合,|T|表示集合T中包含的元素的個(gè)數(shù)。支持度主要用來衡量屬性集X在所有數(shù)據(jù)記錄中出現(xiàn)的頻率。置信度可由公式(9)計(jì)算得到。計(jì)算公式為:

(9)

置信度表示的是包含屬性集X的所有數(shù)據(jù)記錄中,同時(shí)包含Y的百分比。在挖掘關(guān)聯(lián)規(guī)則時(shí),通常給定最小的支持度閾值和置信度閾值,如果關(guān)聯(lián)規(guī)則XY在T中對(duì)應(yīng)的支持度和置信度都大于給定的最小閾值,那么則認(rèn)為此關(guān)聯(lián)規(guī)則是重要的。

給定兩個(gè)基因本體術(shù)語c1和c2,c1屬于分子功能分支,c2屬于生物過程分支,可以利用關(guān)聯(lián)規(guī)則挖掘算法發(fā)現(xiàn)兩者之間的關(guān)系。具體地,所有數(shù)據(jù)記錄集合T={g1,g2,…,gn},表示兩個(gè)基因本體分支中涉及到的所有基因的集合,X={ c1},Y={c2}。術(shù)語c1的基因注釋中包含g1,表示數(shù)據(jù)記錄g1滿足屬性集X。同理,術(shù)語c2的基因注釋中包含g1,表示數(shù)據(jù)記錄g1滿足屬性集Y。因此,可以利用公式(8)和公式(9)計(jì)算相應(yīng)的支持度和置信度,從而進(jìn)一步衡量基因本體術(shù)語c1和c2之間的關(guān)系。

當(dāng)前,和基因本體同一分支內(nèi)術(shù)語相似度計(jì)算方法相比,沒有太多研究者關(guān)注跨分支術(shù)語相似計(jì)算方法,這是一個(gè)新興的前沿方向。以上詳細(xì)介紹的兩個(gè)模型代表了該方向最近幾年的最新成果,對(duì)在該方向進(jìn)一步開展研究工作具有非常重要的借鑒意義,也是該方向未來研究工作的基礎(chǔ)。

4 結(jié)束語

本文綜述了基于基因本體的術(shù)語相似度算法的研究現(xiàn)狀,從基因本體同一分支中的術(shù)語相似度計(jì)算和基因本體跨分支術(shù)語相似度計(jì)算兩個(gè)方面,總結(jié)和分析了已有的術(shù)語相似度算法,并對(duì)這些方法的優(yōu)缺點(diǎn)做了一定的分析總結(jié)。當(dāng)前,基于基因本體的術(shù)語相似度算法的研究成果非常豐富,是一個(gè)熱門的研究領(lǐng)域。但是,目前的研究主要集中在相同基因本體分支的術(shù)語相似度方法上,對(duì)于跨基因本體分支術(shù)語相似度方法研究較少,因此,跨分支基因本體術(shù)語相似度計(jì)算可能是今后的熱點(diǎn)方向,需要進(jìn)一步的投入研究。

參考文獻(xiàn):

[1] GENE ONTOLOGY C. The Gene Ontology project in 2008 [J]. Nucleic acids research, 2008, 36(Database issue): D440-444.

[2] ASHBURNER M, BALL C A, BLAKE J A, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium [J]. Nature genetics, 2000, 25(1): 25-29.

[3] GENE ONTOLOGY C. Gene Ontology Consortium: going forward [J]. Nucleic acids research, 2015, 43(Database issue): D1049-1056.

[4] HARRIS M A, CLARK J, IRELAND A, et al. The Gene Ontology (GO) database and informatics resource [J]. Nucleic acids research, 2004, 32(Database issue): D258-261.

[5] COLLINS A M, LOFTUS E F. A spreading-activation theory of semantic processing [J]. Psychological review, 1975, 82(6): 407.

[6] MCCARTHY D. Relating WordNet senses for word sense disambiguation [J]. Making Sense of Sense: Bringing Psycholinguistics and Computational Linguistics Together, 2006: 17-24.

[7] INKPEN D, D?SILETS A. Semantic similarity for detecting recognition errors in automatic speech transcripts [C]//proceedings of the Human Language Technology Conference 2005, Vancouver, Canada:[s.n.], 2005: 49-56.

[8] HASSAN H, HASSAN A, EMAM O. Unsupervised information extraction approach using graph mutual reinforcement[C]//proceedings of the Conference on Empirical Methods in Natural Language Processing,[S.l.]: Association for Computational Linguistics.,2006.

[9] GUARINO N, MASOLO C, VETERE G. Ontoseek: Content-based access to the web [J]. Intelligent Systems and Their Applications, IEEE, 1999, 14(3): 70-80.

[10] HEARST M A. Automated discovery of WordNet relations [J]. WordNet: an electronic lexical database, 1998, 5: 131-151.

[11] SMEATON A F, QUIGLEY I. Experiments on using semantic distances between words in image caption retrieval[C]//Proceedings of the Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval 1996, Dublin, Ireland, 1996: 174-180 .

[12] LEE J H, KIM M H, LEE Y J. Information retrieval based on conceptual distance in IS-A hierarchies [J]. Journal of documentation, 1993, 49(2): 188-207.

[13] PESQUITA C, FARIA D, FALCAO A O, et al. Semantic similarity in biomedical ontologies [J]. PLoS computational biology, 2009, 5(7): e1000443.

[14] CHERKASSKY B V, GOLDBERG A V, RADZIK T. Shortest paths algorithms: Theory and experimental evaluation [J]. Math Program, 1996, 73(2): 129-174.

[15] WU Z B, PALMER M. Verb Semantics and Lexical Selection [C]// 32nd Annual Meeting of the Association for Computational Linguistics, 1994, New Mexico, USA:[s.n.], 1994: 133-138.

[16] PEKAR V, STAAB S. Taxonomy learning: factoring the structure of a taxonomy into a semantic classification decision[C]//Proceedings of the Proceedings of the 19th international conference on Computational linguistics 2002, Stroudsburg, USA:[s.n.], 2002: 1-7.

[17] YU H, GAO L, TU K, et al. Broadly predicting specific gene functions with expression similarity and taxonomy similarity [J]. Gene, 2005, 352:75-81.

[18] CHENG J, CLINE M, MARTIN J, et al. A knowledge-based clustering algorithm driven by gene ontology [J]. Journal of biopharmaceutical statistics, 2004, 14(3): 687-700.

[19] WU H, SU Z, MAO F, et al. Prediction of functional modules based on comparative genome analysis and Gene Ontology application [J]. Nucleic acids research, 2005, 33(9): 2822-2837.

[20] WU X, ZHU L, GUO J, et al. Prediction of yeast protein-protein interaction network: insights from the Gene Ontology and annotations [J]. Nucleic acids research, 2006, 34(7): 2137-2150.

[21] APWEILER R, ATTWOOD T K, BAIROCH A, et al. InterPro--an integrated documentation resource for protein families, domains and functional sites [J]. Bioinformatics, 2000, 16(12): 1145-1150.

[22] DEL POZO A, PAZOS F, VALENCIA A. Defining functional distances over gene ontology [J]. BMC bioinformatics, 2008, 9:50.

[23] RESNIK P. Using information content to evaluate semantic similarity in a taxonomy [C]// Int Joint Conf Artif 1995, Montreal, Canada:[s.n.], 1995: 448-453.

[24] LIN D. An information-theoretic definition of similarity[C]// proceedings of the ICML 1998, Madison, USA:IMLS, 1998: 296-304.

[25] JIANG J J, CONRATH D W. Semantic similarity based on corpus statistics and lexical taxonomy [J]. arXiv preprint cmp-lg/9709008, 1997,

[26] SCHLICKER A, DOMINGUES F S, RAHNENFUHRER J, et al. A new measure for functional similarity of gene products based on Gene Ontology [J]. BMC bioinformatics, 2006, 7:302.

[27] COUTO F M, SILVA M J, COUTINHO P M. Semantic similarity over the gene ontology: family correlation and selecting disjunctive ancestors[C]// Proceedings of the Proceedings of the 14th ACM international conference on Information and knowledge management 2005, Bremen, Germany:ACM, 2005: 343-344.

[28] WANG J Z, DU Z, PAYATTAKOOL R, et al. A new method to measure the semantic similarity of GO terms [J]. Bioinformatics, 2007, 23(10): 1274-1281.

[29] MYHRE S, TVEIT H, MOLLESTAD T, et al. Additional gene ontology structure for improved biological reasoning [J]. Bioinformatics, 2006, 22(16): 2020-2027.

[30] BODENREIDER O, AUBRY M, BURGUN A. Non-lexical approaches to identifying associative relations in the gene ontology[C]// Proceedings of the Pacific Symposium on Biocomputing Pacific Symposium on Biocomputing 2005, Hawaii, USA:[s.n.], 2005: 91-102.

[31] AGRAWAL R, IMIELI?SKI T, SWAMI A. Mining association rules between sets of items in large databases[C]// Proceedings of the ACM SIGMOD 1993, Washington, D. C:ACM, 1993: 207-216.

玉门市| 宝鸡市| 金秀| 威远县| 教育| 邻水| 万全县| 满城县| 安宁市| 涡阳县| 连南| 威宁| 稻城县| 伽师县| 日照市| 漠河县| 新乡县| 灵川县| 宝山区| 自贡市| 囊谦县| 昆山市| 怀远县| 繁昌县| 宿迁市| 手游| 临湘市| 琼海市| 合川市| 陆丰市| 大新县| 铅山县| 江城| 忻城县| 若尔盖县| 桐城市| 乐至县| 清苑县| 福州市| 乐昌市| 临颍县|