程亮 王亞?wèn)|
摘 要:本文研究了集成語(yǔ)義與基因功能關(guān)聯(lián)的疾病相似度方法。綜合的加權(quán)的人類(lèi)基因關(guān)聯(lián)網(wǎng)絡(luò)可用于衡量疾病相關(guān)的基因集之間的關(guān)聯(lián)分值;疾病術(shù)語(yǔ)對(duì)以及它們?cè)诩膊”倔w中的共同祖先相關(guān)的基因數(shù)可用于計(jì)算疾病術(shù)語(yǔ)的語(yǔ)義關(guān)聯(lián)分值。這兩類(lèi)關(guān)聯(lián)被用于計(jì)算集成的疾病相似度。通過(guò)從文獻(xiàn)中搜集相似的疾病對(duì)作為基準(zhǔn)集,對(duì)疾病相似度算法的性能進(jìn)行了有效的評(píng)價(jià),證實(shí)了集成的疾病相似度方法優(yōu)于已有的其他方法。
關(guān)鍵字:語(yǔ)義關(guān)聯(lián);基因功能關(guān)聯(lián);基因關(guān)聯(lián)網(wǎng)絡(luò);疾病本體;疾病相似度
中圖分類(lèi)號(hào):TP301 文獻(xiàn)標(biāo)識(shí)號(hào):A 文章編號(hào):2095-2163(2014)05-
Research on Method of Disease Similarity
CHENG Liang, WANG Yadong
(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)
Abstract: Semantic and gene functional associations between disease have been integrated for calculating disease similarity in this work. A comprehensive weighted human gene association network can be used to measure relative score between gene sets of diseases. A pair of disease terms and their common ancestors in disease ontology can be used to measure semantic association score. These two types of association are integrated to calculate diseases similarity. A benchmark set of similar diseases was explored from literature. And the performance of the integrated method has been evaluated based on the benchmark set. The result of experiment shows that the integrated method achieves a high true positive rate and a low false positive rate.
Key words: Semantic Association; Gene Functional Association; Gene Association Network; Disease Ontology;Disease Similarity
0引 言
近年來(lái),相似度的研究在生物醫(yī)學(xué)領(lǐng)域正受到各方的高度關(guān)注,如:基因序列相似度[1]、生物本體術(shù)語(yǔ)的相似度[2]、藥物相似度[3]等。而相似度就是指定量估算事物的相似性,事物間的相似性則主要由事物之間的共同屬性進(jìn)行決定并確定。一個(gè)具體的事物,總是有許許多多的性質(zhì)與關(guān)系,在此即將一個(gè)事物的性質(zhì)與關(guān)系都稱(chēng)做該事物的屬性。事物的形狀、顏色、氣味、美丑、善惡、優(yōu)劣、用途等都是事物的性質(zhì);而包含、被包含、整體、部分、大于、小于、壓迫、反抗、朋友、熱愛(ài)、同盟、矛盾、等則都是事物的關(guān)系。并且任何屬性都是屬于某種對(duì)象的。比較事物的相似度就是定量評(píng)估事物間的共同屬性。
疾病相似度則是對(duì)疾病與疾病之間相似性的量化過(guò)程。疾病相似性是疾病與疾病之間的共同屬性。疾病的屬性包括:疾病與疾病之間的共同關(guān)系、疾病與疾病之間共同的關(guān)聯(lián)因素。疾病與疾病之間的共同關(guān)系又包括:疾病與疾病之間的包含關(guān)系,如:‘乳腺癌包含‘男性乳腺癌和‘女性乳腺癌?!橄侔┡c‘男性乳腺癌及‘女性乳腺癌的關(guān)系是包含與被包含的關(guān)系?!行匀橄侔┡c‘女性乳腺癌即通過(guò)‘乳腺癌得到了關(guān)聯(lián)。疾病與疾病之間共同的關(guān)聯(lián)因素包括:共同的致病基因、共同的治療藥物、共同的代謝產(chǎn)物等。例如,基因‘NOS3和‘AGTR2是疾病‘乳腺癌和‘糖尿病的共同的致病基因;藥物‘caffeine和‘cisplatin都是疾病‘乳腺癌和‘卵巢癌的治療藥物;代謝產(chǎn)物‘D-Glucose和‘3-Methylhistidine都是疾病‘類(lèi)型2糖尿病和‘阿爾茨海默氏病共同相關(guān)的代謝產(chǎn)物。
1 疾病相似度發(fā)展現(xiàn)狀
如圖1所示,計(jì)算疾病相似度的方法通??梢詮膬蓚€(gè)角度考慮:基于語(yǔ)義關(guān)聯(lián)計(jì)算疾病相似度、基于疾病相關(guān)的基因計(jì)算疾病相似度。生物醫(yī)學(xué)領(lǐng)域經(jīng)常利用本體計(jì)算術(shù)語(yǔ)的語(yǔ)義相似度,如:基因本體[4]、人類(lèi)表型本體[5]等。盡管如此,這些方法中卻只有很少一部分已用于計(jì)算疾病相似度。Resnik設(shè)計(jì)的方法即是其中最為常見(jiàn)的方法[6],該方法更多是應(yīng)用于基因本體計(jì)算基因功能、細(xì)胞構(gòu)成、生物學(xué)過(guò)程術(shù)語(yǔ)的相似度,而且若與其它多種方法(union-intersection、longest shared path、JC)[7]相比,則具有明顯的優(yōu)勢(shì)[8]。Resnik的方法是利用本體中的‘is_a關(guān)系計(jì)算術(shù)語(yǔ)相似度,該方法計(jì)算疾病對(duì)之間的相似度主要依賴(lài)于疾病對(duì)信息量最大的共同祖先節(jié)點(diǎn)。而Lin的方法[9]則改進(jìn)了Resnik的方法中對(duì)信息熵的比較方法,從理論角度對(duì)Resnik的方法進(jìn)行了一定的完善。Resnik和Lin的方法最近已由研究人員寫(xiě)入R包[10],以方便計(jì)算疾病的相似度。Wang等人提出的方法對(duì)Resnik的方法進(jìn)行了更深層的優(yōu)化[11]。該方法在計(jì)算疾病對(duì)相似度時(shí),不僅考慮了疾病對(duì)的信息量最大的共同祖先節(jié)點(diǎn),還考慮了疾病對(duì)其它的共同祖先節(jié)點(diǎn)。該方法的優(yōu)越性在基因本體中得到了更好的體現(xiàn),并且已用于計(jì)算醫(yī)學(xué)主題詞中的疾病術(shù)語(yǔ)語(yǔ)義相似度。
疾病的關(guān)聯(lián)不僅體現(xiàn)在疾病相關(guān)的本體上,而且體現(xiàn)在共同的致病基因上。因此,研究人員同樣關(guān)注如何基于疾病的致病基因計(jì)算疾病的相似度。目前存在兩種基于基因計(jì)算疾病相似度的方法。第一種是基于共同的疾病基因(based on overlapping gene set - BOG)的方法[12]。該方法比較疾病之間共同相關(guān)的基因數(shù)目,由此而獲取疾病相似度。若與基于語(yǔ)義的角度計(jì)算相似度相比,該法從一個(gè)全新的角度發(fā)現(xiàn)相似的疾病對(duì)。因此,該方法能發(fā)現(xiàn)新的未知疾病關(guān)聯(lián)。盡管如此,在計(jì)算疾病相似度時(shí),該方法卻未考慮疾病基因之間的功能關(guān)聯(lián),而顯然可見(jiàn)的是這種關(guān)聯(lián)對(duì)疾病相似度卻有著一定影響。第二種方法則基于過(guò)程相似性(process similarity based - PSB)計(jì)算疾病相似度[13],其中,過(guò)程指的是致病基因相關(guān)的基因本體的生物學(xué)過(guò)程術(shù)語(yǔ)。該方法考慮了疾病基因的功能關(guān)聯(lián),因此對(duì)BOG方法有了很大的提高。PSB與Resnik、Lin、LC和JC的方法相比,也呈現(xiàn)了良好的性能?;蜷g的功能關(guān)聯(lián)包含很多方面,如:基因共表達(dá)、蛋白質(zhì)相互作用、基因本體術(shù)語(yǔ)等。另外,為了提高疾病相似度方法的性能,F(xiàn)unSim方法利用綜合加權(quán)的人類(lèi)基因關(guān)聯(lián)網(wǎng)絡(luò)[14]計(jì)算疾病相似度。
2 集成的疾病相似度算法
本文集成了疾病之間的基因關(guān)聯(lián)和語(yǔ)義關(guān)聯(lián),提出了集成的疾病相似度算法FunSimWang,計(jì)算公式如下:
(1)
其中, 和 是一對(duì)疾病, 和 分別是 和 相關(guān)的基因集, 和 則分別是 和 包含的基因數(shù); 表示 和 信息量最小的共同祖先節(jié)點(diǎn), 表示 的第i個(gè)祖先節(jié)點(diǎn), 表示了 和 之間的功能相似度,而 表示的是‘is_a關(guān)系表達(dá)的語(yǔ)義關(guān)聯(lián)參數(shù)?;赪ang等人的研究, =0.8。
3 驗(yàn)證過(guò)程
在圖2中,圓圈表示疾病本體[15]中的疾病術(shù)語(yǔ),圓圈之間的聯(lián)系表示疾病術(shù)語(yǔ)之間的‘is_a關(guān)系,其中箭頭指向?yàn)楦腹?jié)點(diǎn),另外一個(gè)則是子節(jié)點(diǎn)。相似的疾病基準(zhǔn)集包括兩個(gè)疾病集,并分別來(lái)自于兩篇文獻(xiàn)。具體地,一個(gè)疾病集來(lái)自于Suthram等人的研究[16]。該研究利用表達(dá)譜數(shù)據(jù)設(shè)計(jì)算法尋找到相似的疾病對(duì),再利用藥物進(jìn)行驗(yàn)證。另外一個(gè)疾病集則來(lái)自于Pakhomov等人的研究[15],該數(shù)據(jù)集通過(guò)兩個(gè)醫(yī)學(xué)專(zhuān)家的聯(lián)合驗(yàn)證而最終得到[17]。在此將這兩部分疾病集合并為基準(zhǔn)集,共有47個(gè)疾病,70個(gè)疾病對(duì)。以基準(zhǔn)集作為正例,同時(shí)從疾病本體中隨機(jī)的抽取700個(gè)疾病對(duì)作為反例。更利用五種相似度算法計(jì)算相似度,比較得到的相似度接受者操作特性曲線(xiàn)(receiver operating characteristic curve – ROC curve)[18]。該驗(yàn)證方法共產(chǎn)生了100個(gè)隨機(jī)的疾病對(duì),分別實(shí)驗(yàn)了100次,以提高實(shí)驗(yàn)的真實(shí)可靠性。
4實(shí)驗(yàn)結(jié)果與分析
圖3(a)給出了通過(guò)每種方法得到的ROC曲線(xiàn),圖的橫坐標(biāo)表示特異性,圖的縱坐標(biāo)表示敏感性。由圖可知,通過(guò)每種方法得到的ROC曲線(xiàn)下方的面積分別為:Resnik(63.14%)、Lin(66.17%)、Wang(68.04%)、BOG(78.10%)、PSB(89.52%)、FunSim(94.37)、FunSimWang(95.36%)。對(duì)于每種方法而言,ROC曲線(xiàn)下方的面積(AUC)越大,表名方法性能越好。而由圖3中ROC曲線(xiàn)下方的面積清楚顯示了Wang的方法比Resnik的方法有了一點(diǎn)提高,且Wang的方法和Resnik方法得到的面積非常接近。顯而易見(jiàn),在基于基因的方法中,BOG方法的性能是最差的。盡管通過(guò)PSB方法得到了很高的性能,F(xiàn)unSim仍然將PSB方法的性能提高了5%左右。在融合了基因功能和語(yǔ)義關(guān)聯(lián)后,F(xiàn)unSimWang方法已將性能提高到接近100%。
為了避免實(shí)現(xiàn)結(jié)果由于偶然的因素造成,研究中隨機(jī)生成了100份疾病對(duì)集合,并進(jìn)行了100次實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖3(b)所示。圖中橫坐標(biāo)是疾病相似度方法,縱坐標(biāo)是平均的AUC值。由該圖可知,平均的AUC值分別為:Resnik(0.6345)、Wang(67.84%)、BOG(76.57%)、PSB(89.84%)、FunSim(94.15%)、FunSimWang(0.9556)。所得結(jié)果與圖3(a)的結(jié)論亦保持了一致。
在七種疾病相似度方法中,Resnik的方法利用最大信息量共同祖先的信息熵識(shí)別疾病間的語(yǔ)義關(guān)聯(lián)。在基準(zhǔn)集中,有一些疾病對(duì)僅存一個(gè)共同的祖先節(jié)點(diǎn)(根節(jié)點(diǎn))。因此,根據(jù)Resnik方法,這些疾病對(duì)的疾病相似度即為0。例如:疾病對(duì)‘diabetes mellitus (DOID:9351)和‘Alzheimers disease (DOID:10652)的相似度為0,因?yàn)樵诩膊”倔w中,該疾病對(duì)的最大信息量共同祖先是根節(jié)點(diǎn),而根節(jié)點(diǎn)的信息量為0。為了避免錯(cuò)誤地理解相似的疾病對(duì),SemSim中就沒(méi)有使用信息量。如此一來(lái),發(fā)生以上的情況時(shí),疾病相關(guān)的基因功能關(guān)聯(lián)就能發(fā)揮應(yīng)有作用。圖3中的ROC曲線(xiàn)表明SemFunSim方法取得了最高的AUC值,這即充分驗(yàn)證了被集成進(jìn)來(lái)的語(yǔ)義關(guān)聯(lián)對(duì)識(shí)別真陽(yáng)性率和減少假陰性率已獲明顯提高。
5 結(jié)束語(yǔ)
本文提出了一種新的疾病相似度算法。該算法融合了語(yǔ)義關(guān)聯(lián)與基因功能關(guān)聯(lián)。語(yǔ)義關(guān)聯(lián)是指疾病與疾病之間通過(guò)疾病本體的‘is_a關(guān)系建立的關(guān)聯(lián)。基因功能關(guān)聯(lián)指的是疾病相關(guān)的基因之間存在的功能關(guān)聯(lián),包括:基因本體術(shù)語(yǔ)關(guān)聯(lián)、蛋白質(zhì)相互作用關(guān)聯(lián)、共表達(dá)關(guān)聯(lián)等。本文利用基準(zhǔn)集(70個(gè)相似的疾病對(duì))及100個(gè)來(lái)自疾病本體的隨機(jī)集(700個(gè)疾病對(duì)),對(duì)FunSimWang方法進(jìn)行了性能評(píng)估。而且,在ROC曲線(xiàn)之下的面積已經(jīng)達(dá)到了95.56%,該結(jié)果表明FunSimWang獲得了一個(gè)非常高的真陽(yáng)性率和非常低的假陰性率。
參考文獻(xiàn):
[1] FLETCHER C E, DART D A, SITA-LUMSDEN A, et al. Androgen-regulated processing of the oncomir miR-27a, which targets Prohibitin in prostate cancer [J]. Human molecular genetics, [2] PESQUITA C, FARIA D, FALCAO A O, et al. Semantic similarity in biomedical ontologies [J]. PLoS computational biology, 2009, 5(7): e1000443.
[3] PORTER M F. An algorithm for suffix stripping [J]. Program: electronic library and information systems, 1980, 14(3): 130-137.
[4] ASHBURNER M, BALL C A, BLAKE J A, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium [J]. Nature genetics, 2000, 25(1): 25-29.
[5] ROBINSON P N, MUNDLOS S. The human phenotype ontology [J]. Clinical genetics, 2010, 77(6): 525-534.
[6] RESNIK P. Using information content to evaluate semantic similarity in a taxonomy; proceedings of the 14th international joint conference on Artificial intelligence[C]// Morgan Kaufmann Publishers Inc,1995.
[7] JIANG J J, CONRATH D W. Semantic similarity based on corpus statistics and lexical taxonomy [J]. arXiv preprint cmp-lg/9709008, 1997.
[8] GUO X, LIU R, SHRIVER C D, et al. Assessing semantic similarity measures for the characterization of human regulatory pathways [J]. Bioinformatics, 2006, 22(8): 967-973.
[9] LIN D. An information-theoretic definition of similarity; proceedings of the Proceedings of the 15th international conference on Machine Learning[C]//San Francisco, CA: Morgan Kaufmann.
[10] LI J, GONG B, CHEN X, et al. DOSim: an R package for similarity between diseases based on Disease Ontology [J]. BMC bioinformatics, 2011, 12(2): 266-276.
[11] WANG J Z, DU Z, PAYATTAKOOL R, et al. A new method to measure the semantic similarity of GO terms [J]. Bioinformatics, 2007, 23(10): 1274-1281.
[12] MATHUR S, DINAKARPANDIAN D. Automated ontological gene annotation for computing disease similarity [J]. AMIA Summits on Translational Science proceedings AMIA Summit on Translational Science, 2010, 2010(2): 12-16.
[13] MATHUR S, DINAKARPANDIAN D. Finding disease similarity based on implicit semantic similarity [J]. Journal of biomedical informatics, 2012, 45(2): 363-371.
[14] CHENG L, LI J, JU P, et al. SemFunSim: a new method for measuring disease similarity by integrating semantic and gene functional association [J]. PloS one, 2014, Accept,
2012, 21(14): 3112-27.
[15] SCHRIML L M, ARZE C, NADENDLA S, et al. Disease Ontology: a backbone for disease semantic integration [J]. Nucleic acids research, 2012, 40(Database issue): D940-946.
[16] SUTHRAM S, DUDLEY J T, CHIANG A P, et al. Network-based elucidation of human disease similarities reveals common functional modules enriched for pluripotent drug targets [J]. PLoS computational biology, 2010, 6(2): e1000662.
[17] PAKHOMOV S, MCINNES B, ADAM T, et al. Semantic similarity and relatedness between clinical terms: an experimental study [C]//proceedings of the AMIA Annual Symposium Proceedings, American Medical Informatics Association,2010.
[18] HEAGERTY P J, ZHENG Y. Survival model predictive accuracy and ROC curves [J]. Biometrics, 2005, 61(1): 92-105.