閔慶凱,蔡松成
(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106)
蛋白質(zhì)是生物細胞最重要的組成成分,通過交互作用執(zhí)行著細胞內(nèi)多數(shù)重要的分子過程。蛋白質(zhì)交互作用(protein-protein interaction,PPI)的研究以及蛋白質(zhì)交互網(wǎng)絡(luò)的建立是生物信息學(xué)研究的重要內(nèi)容。目前,已有的交互關(guān)系數(shù)據(jù)庫,例如HPRD[1]、BIND[2]、DIP[3]、InAct[4]和MINT[5],均由生物醫(yī)學(xué)專家通過人工識別的方法從醫(yī)學(xué)文獻中搜集得到。然而,隨著生物醫(yī)學(xué)文獻的急劇增加,人工抽取的方法變得越來越不切實際,因此利用計算機信息抽取技術(shù)自動地從自然語言文本中抽取PPI成為一項重要的研究內(nèi)容。
目前,用于PPI抽取的技術(shù)主要包括基于詞共現(xiàn)的方法[6]、基于規(guī)則的方法[7]和基于統(tǒng)計機器學(xué)習的方法[8-9]?;谠~共現(xiàn)的方法通過統(tǒng)計兩個蛋白質(zhì)名稱在句子中共同出現(xiàn)的概率來判斷是否存在交互關(guān)系,這種方法召回率高但很難發(fā)現(xiàn)詞典外的PPI[10];基于規(guī)則的方法利用模式匹配的思想,可以取得較高的精確率,但泛化能力差,而且通過手動建立規(guī)則的方法需要大量的人力物力[11];基于統(tǒng)計機器學(xué)習的方法通過將關(guān)系抽取問題轉(zhuǎn)換為分類問題,同時結(jié)合自然語言處理方法,較好地解決了上述兩種方法存在的問題,目前廣泛用于PPI的抽取。這類方法又可分為基于特征的方法和基于核函數(shù)的方法。其中,基于特征的方法從句子中提取大量的語言學(xué)特征,包括詞法、語法和語義等特征來表示關(guān)系實例[12],能夠簡單有效地完成關(guān)系抽取任務(wù);而基于核函數(shù)的方法通過設(shè)計核函數(shù)代替特征向量內(nèi)積運算計算PPI間的相似度,具有良好的復(fù)合特性,在關(guān)系抽取領(lǐng)域也取得了不錯的效果[13]。
上述機器學(xué)習方法均基于有監(jiān)督的思想,語料庫中的句子所包含的實體對及其關(guān)系都由人工標注完成,其性能非常依賴于訓(xùn)練樣本的數(shù)量,當訓(xùn)練語料不足時,關(guān)系抽取效果就會大打折扣。但人工標注大規(guī)模文本需要耗費大量的人力物力,因此出現(xiàn)了基于遠監(jiān)督的方法:假設(shè)關(guān)系知識庫中的一對實體存在某種關(guān)系,那么包含這對實體的句子則表達了實體對的這種關(guān)系,通過將知識庫中的實體對與文本中的實體進行匹配,啟發(fā)式地產(chǎn)生大量的標記數(shù)據(jù)[14]。遠監(jiān)督很好地解決了標注數(shù)據(jù)不足的問題,利用遠監(jiān)督得到大規(guī)模標注文本結(jié)合基于特征的方法在PPI抽取上也取得了很好的效果[15-16]。然而,與有監(jiān)督下人工精確標注的方法相比,遠監(jiān)督采取的是相對粗糙的匹配方式,得到的標注數(shù)據(jù)并不總是正確的。如圖1所示,第一個句子確實表達了Michael Jackson和Gary之間的place_of_birth關(guān)系,而第二個句子并不能表達這種關(guān)系,這種實際上被錯誤標記的句子即被視為標注語料中的噪音,這種噪音會對最終的關(guān)系抽取效果造成很大的影響。針對訓(xùn)練數(shù)據(jù)中存在的噪音,提出一種交叉預(yù)測的方法,并通過人工標注數(shù)據(jù)進行驗證。
圖1 遠監(jiān)督的自動標注
該方法以遠監(jiān)督為基礎(chǔ),首先搜索大規(guī)模醫(yī)學(xué)文獻獲取包含目標蛋白質(zhì)對的句子作為原始訓(xùn)練數(shù)據(jù),從中提取特征,構(gòu)建向量空間模型(vector space model,VSM),將每個句子映射為一個n維的特征向量;然后采用交叉預(yù)測識別出訓(xùn)練數(shù)據(jù)中的噪音,消除噪音并重新形成訓(xùn)練數(shù)據(jù);最后利用訓(xùn)練得到的分類器對另一有人工標注的數(shù)據(jù)進行預(yù)測。
文中采用向量空間模型來表示文本,每一個句子表示向量空間中的一個向量,選取句子中重要的一元詞作為特征項,具體處理方法為:
(1)對句子進行分詞,去除無意義的標點符號以及停止詞;
(2)選取句子中兩個蛋白質(zhì)之間的單詞作為特征項;
(3)選取第一個蛋白質(zhì)左邊2個單詞和第二個蛋白質(zhì)右邊2個單詞,作為特征項。
所得到每一個不同的特征項對應(yīng)于向量空間中的一個維度,若句子中出現(xiàn)了該特征項,那么句子向量的對應(yīng)維設(shè)為1,否則為0。
遠監(jiān)督:如果兩個實體之間存在某種關(guān)系,那么包含這兩個實體的句子就表達了這種關(guān)系。文中采用的知識庫分為兩部分:有交互關(guān)系的蛋白質(zhì)對和無交互關(guān)系的蛋白質(zhì)對,基于遠監(jiān)督得到訓(xùn)練數(shù)據(jù)的步驟如下:
(1)將知識庫中的蛋白質(zhì)對與大規(guī)模醫(yī)學(xué)文本中的蛋白質(zhì)進行匹配,篩選出所有包含知識庫中蛋白質(zhì)對的句子;
(2)所有包含有交互關(guān)系的蛋白質(zhì)對的句子標注為訓(xùn)練數(shù)據(jù)中的正例即有交互關(guān)系;
(3)所有包含無交互關(guān)系的蛋白質(zhì)對的句子標注為訓(xùn)練數(shù)據(jù)中的負例即無交互關(guān)系。
將得到的訓(xùn)練數(shù)據(jù)中的句子通過向量空間模型構(gòu)建為特征向量,訓(xùn)練分類器,然后對人工標注的測試集進行測試。
交叉預(yù)測的方法是在遠監(jiān)督的基礎(chǔ)上,如圖2所示,將遠監(jiān)督得到的訓(xùn)練數(shù)據(jù)隨機分為k組,取1組數(shù)據(jù)作為預(yù)測集,其余k-1組數(shù)據(jù)作為訓(xùn)練集進行訓(xùn)練,依次輪換訓(xùn)練集和預(yù)測集k次,對每組數(shù)據(jù)進行預(yù)測并去噪,具體步驟如下:
(1)隨機將遠監(jiān)督得到的訓(xùn)練數(shù)據(jù)S劃分為k個不相交的子集,假設(shè)S中句子個數(shù)為m,那么每個子集中有m/k個句子,相應(yīng)的子集為{S1,S2,…,Sk};
圖2 交叉預(yù)測去噪音
將去噪后的訓(xùn)練數(shù)據(jù)S'中的句子通過向量空間模型構(gòu)建為特征向量,訓(xùn)練分類器,然后對人工標注的測試集進行測試。
文中采用的知識庫中包含578對有交互關(guān)系的蛋白質(zhì)對和576對無交互關(guān)系的蛋白質(zhì)對。有交互關(guān)系的蛋白質(zhì)對均直接來源于專業(yè)PPI數(shù)據(jù)庫HPRD,HPRD是現(xiàn)有國際上最大的人類PPI數(shù)據(jù)庫,數(shù)據(jù)可靠性高;而對于無交互關(guān)系的蛋白質(zhì)對,采用生物醫(yī)學(xué)領(lǐng)域常用方法,將HPRD中的蛋白質(zhì)進行隨機組合,去除其中已經(jīng)包含在HPRD中的蛋白質(zhì)對組合,剩余蛋白質(zhì)對作為知識庫中的無交互關(guān)系的蛋白質(zhì)對。
提取的大規(guī)模醫(yī)學(xué)文本來自PubMed數(shù)據(jù)庫,PubMed是生物醫(yī)學(xué)領(lǐng)域最具影響力的文獻檢索系統(tǒng),內(nèi)容豐富。通過將知識庫中的蛋白質(zhì)對與PubMed數(shù)據(jù)庫中的文本進行匹配,可得到去噪前訓(xùn)練數(shù)據(jù)共11 147個句子,其中有交互的句子5 477個,無交互的句子5 670個。
通過對實驗結(jié)果進行調(diào)整,采用五組交叉預(yù)測,即k=5,每組數(shù)據(jù)有2 229個句子,包括1 095個有交互的句子和1 134個無交互的句子。文中采用邏輯回歸分類器對每組訓(xùn)練數(shù)據(jù)中的句子進行預(yù)測分類,并對人工標注的測試集進行測試,邏輯回歸模型簡單高效,易于實現(xiàn),計算代價不高,在進行大規(guī)模線性分類時較為方便。
文中選取了AIMed語料中的1 000個標注作為測試數(shù)據(jù)。AIMed語料來自于PubMed摘要,是PPI實驗中最具代表性的專家標注語料。實驗采用的性能評價指標是當前PPI抽取系統(tǒng)主要使用的三個指標:精確度(Precision)、召回率(Recall)和F值。
Precision=TP/TP+FP
(1)
Recall=TP/(TP+FN)
(2)
F-Score=2×P×R/(P+R)
(3)
遠監(jiān)督與交叉預(yù)測去噪后得到的訓(xùn)練數(shù)據(jù)如表1所示。
表1 訓(xùn)練數(shù)據(jù)
從表1可以看出,相比于遠監(jiān)督得到的訓(xùn)練數(shù)據(jù),經(jīng)過五折交叉預(yù)測去噪后,訓(xùn)練數(shù)據(jù)中有交互的句子數(shù)量減少了38%,無交互的句子數(shù)量減少了34%,句子總數(shù)減少了36%。由此可得,交叉預(yù)測較好地識別出了訓(xùn)練數(shù)據(jù)中的噪音,且對于有交互和無交互的句子噪音數(shù)量識別相差不大,保證了訓(xùn)練數(shù)據(jù)的平衡性。
分別使用遠監(jiān)督和交叉預(yù)測去噪得到的訓(xùn)練數(shù)據(jù)去訓(xùn)練得到模型,然后對AIMed語料進行預(yù)測,結(jié)果如表2所示。
表2 測試結(jié)果對比
從表2可以看出,去噪后的模型在保持精確度的同時,召回率提高了8%,提升效果明顯,并且整體F-score也提高了2%。說明交叉預(yù)測的方法對訓(xùn)練集中的噪音消除的效果較為明顯,有效提高了模型的性能。
詳細分析了基于遠監(jiān)督產(chǎn)生大規(guī)模文本進行蛋白質(zhì)交互關(guān)系抽取的方法,針對訓(xùn)練數(shù)據(jù)存在噪音的問題,提出了一種交叉預(yù)測去噪的方法。通過對訓(xùn)練數(shù)據(jù)進行分組預(yù)測來清除其中的噪音,并通過人工標注語料進行測試。實驗結(jié)果表明,同遠監(jiān)督相比,交叉預(yù)測有效清除了訓(xùn)練數(shù)據(jù)中的噪音,提高了模型的識別效果。
參考文獻:
[1] PRASAD T S K,GOEL R,KANDASAMY K,et al.Human protein reference database-2009 update[J].Nucleic Acids Research,2009,37:767-772.
[2] BADER G D,DONALDSON I,WOLTING C,et al.BIND:the biomolecular interaction network database[J].Nucleic Acids Research,2001,29(1):242-245.
[3] SALWINSKI L,MILLER C S,SMITH A J,et al.The database of interacting proteins:2004 update[J].Nucleic Acids Research,2004,32:449-451.
[4] KERRIEN S,ALAMFARUQUE Y,ARANDA B,et al.Int Act-open source resource for molecular interaction data[J].Nucleic Acids Research,2007,35:561-565.
[5] CEOL A,ARYAMONTRI A C,LICATA L,et al.MINT,the molecular interaction database:2009 update[J].Nucleic Acids Research,2010,38:532-539.
[6] BUNESCU R, MOONEY R, RAMANI A,et al.Integrating co-occurrence statistics with information extraction for robust retrieval of protein interactions from Medline[C]//Proceedings of the workshop on linking natural language processing and biology:towards deeper biological literature analysis.[s.l.]:Association for Computational Linguistics,2006:49-56.
[7] KOIKE A, KOBAYASHI Y, TAKAGI T. Kinase pathway database:an integrated protein-kinase and NLP-based protein-interaction resource[J].Genome Research,2003,13(6a):1231-1243.
[8] 楊志豪,洪 莉,林鴻飛,等.基于支持向量機的生物醫(yī)學(xué)文獻蛋白質(zhì)關(guān)系抽取[J].智能系統(tǒng)學(xué)報,2008,3(4):361-369.
[9] 唐 楠,楊志豪,林鴻飛,等.基于多核學(xué)習的醫(yī)學(xué)文獻蛋白質(zhì)關(guān)系抽取[J].計算機工程,2011,37(10):184-186.
[10] GRIMES G R,WEN T Q,MEWISSEN M,et al.PDQ Wizard:automated prioritization and characterization of gene and protein lists using biomedical literature[J].Bioinformatics,2006,22(16):2055-2057.
[11] ANANIADOU S,KELL D B,TSUJII J.Text mining and its potential applications in systems biology[J].Trends in Biotechnology,2006,24(12):571-579.
[12] NIU Y,OTASEK D,JURISICA I.Evaluation of linguistic features useful in extraction of interactions from PubMed;application to annotating known, high-throughput and predicted interactions in I2D[J].Bioinformatics,2010,26(1):111-119.
[13] HAUSSLER D.Convolution kernels on discrete structures[R].California:University of California at Santa Cruz,1999.
[14] MINTZ M,BILLS S,SNOW R,et al.Distant supervision for relation extraction without labeled data[C]//Proceedings of the joint conference of the 47th annual meeting of the ACL and the 4th international joint conference on natural language processing of the AFNLP.[s.l.]:Association for Computational Linguistics,2009:1003-1011.
[15] 王宇偉,牛 耘.基于關(guān)系相似性的蛋白質(zhì)交互作用識別[J].計算機技術(shù)與發(fā)展,2015,25(2):42-46.
[16] 吳紅梅,牛 耘.基于特征加權(quán)的蛋白質(zhì)交互識別[J].計算機技術(shù)與發(fā)展,2016,26(2):114-117.