国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于最大期望算法的蛋白質交互關系識別

2018-08-21 01:59蔡松成
計算機技術與發(fā)展 2018年8期
關鍵詞:簽名檔分類器蛋白質

蔡松成,牛 耘

(南京航空航天大學 計算機科學與技術學院,江蘇 南京 211106)

0 引 言

隨著人們對文本中分子途徑和分子交互關系等信息需求的不斷增加,蛋白質交互作用關系(protein-protein interaction,PPI)的自動抽取在分子生物學領域變得越來越重要。PPI是指細胞內兩個蛋白質之間的交互作用,這種交互作用環(huán)環(huán)相扣,深刻影響著整個細胞生理作用的調節(jié)。起初生物醫(yī)學領域的專家手工地從醫(yī)學文獻中收集這些信息錄入統(tǒng)一格式的數(shù)據(jù)庫中,如HPRD[1]、IntAc[2]、MINT[3]和BIND[4]等。然而隨著生物醫(yī)學文獻的急劇增加,新的蛋白質之間的關系也在產生。手工錄入蛋白質之間的交互信息顯然遠不能滿足實際需要,因此自動地從醫(yī)學文獻中抽取PPI已經成為一項重要的研究內容。

在此背景下,基于自然語言處理的PPI自動識別技術正在快速發(fā)展并已取得了很大的進展。目前PPI識別是采用有監(jiān)督的機器學習方法,以單句為依據(jù)來識別句子之間的交互關系,需要大量人工標注的數(shù)據(jù),代價高昂,所以將遠監(jiān)督的思想運用到PPI識別上,解決了訓練數(shù)據(jù)不足的問題。但是由于遠監(jiān)督思想的缺陷,引入了大量噪音,影響現(xiàn)階段PPI識別的精度。針對這個問題,采用一種基于最大期望算法的多實例多標記學習(multi-instance multi-label,MIML)方法來進行蛋白質交互關系的識別,有效消除了簽名檔中噪音對交互關系識別的影響。

1 相關工作

目前,用于從生物醫(yī)學文獻中抽取PPI的技術主要包括:基于同現(xiàn)的方法[5]、基于規(guī)則的方法和基于機器學習[6-8]的方法?;谕F(xiàn)的方法通過統(tǒng)計兩個蛋白質在句子中的共現(xiàn)頻率來判斷是否存在交互關系,識別結果召回率高但精確度低;基于規(guī)則的方法可以取得較高的精確度但是召回率較低,而且通過手動建立規(guī)則的方法需要大量的人力物力,且制定的規(guī)則只適用于某些特定領域的數(shù)據(jù),無法普遍應用。

隨著機器學習的流行,研究者們越來越多地采用基于機器學習的方法進行PPI的識別?;跈C器學習的方法主要包括兩大類:基于特征的方法和基于核函數(shù)的方法?;谔卣鞯姆椒◤臉俗⒂薪换リP系的句子中抽取重要特征,包括詞匯特征、語法特征和語義特征,建立模型來判斷蛋白質之間的交互關系[9-10]?;诤撕瘮?shù)的方法首先深入研究句子結構,通過設計核函數(shù)進一步利用句子結構表示(如字符串序列、句法依賴或句法分析)上的隱含特征,然后使用支持核函數(shù)的分類器進行PPI關系的識別。Haussler D[11]提出了針對離散結構的卷積核;Lodhi H等[12]將特征空間特定長度詞語子序列的內積作為函數(shù)的計算方式,提出了字符串核;Bunescu R C等[13]提出了最短依賴路徑核,將句子以樹的形式表示,用兩個實體之間的最短路徑表示實體之間的關系。然而目前利用機器學習方法來進行PPI關系識別一般都是以句子為單位,分析一句話中出現(xiàn)的任意一對蛋白質對之間是否存在交互關系。這種方式能夠在句子級別上提供蛋白質對交互關系的描述和證據(jù),但是也存在一定的局限性。這種方式所需的訓練集要求對每一個句子中出現(xiàn)的每一對蛋白質是否存在交互關系進行標注,當訓練語料不足時,PPI關系識別的效果會大打折扣。但人工標注大規(guī)模文本需要耗費大量的人力物力。

針對這些不足,文中試圖采用遠監(jiān)督思想來進行PPI關系的抽取。遠監(jiān)督方法已經用于關系識別領域,遠監(jiān)督思想假設如果兩個實體之間存在某種關系,那么包含這兩個實體的所有句子都在一定程度上表達了這種關系?;谏鲜黾僭O,遠監(jiān)督通過將知識庫中的實體和訓練語料文本中的實體進行匹配,產生大量帶標注的訓練數(shù)據(jù),避免了人工標注數(shù)據(jù)的繁重勞動。對于PPI關系識別,同樣存在標注數(shù)據(jù)不足的問題,所以可以將遠監(jiān)督[14-15]方法運用到PPI關系抽取上。

但是基于遠監(jiān)督方法的PPI識別也存在一個問題。對于有交互關系的蛋白質對事實上并非其簽名檔中的所有句子都表達了該蛋白質對的交互關系,其中很多句子是不表達交互關系的,從而這部分數(shù)據(jù)成為了訓練過程中的噪音,最終會影響蛋白質對交互關系的識別結果。

針對遠監(jiān)督的PPI抽取方法存在的問題,文中采用一種基于最大期望算法的多實例多標記的學習方法。多實例多標記是一種新型的關系抽取的學習框架[16],在該框架中,每個對象由多個實例描述,同時對象可以擁有多個類別標記,這個框架尤其適用于多義性的對象。多實例多標記學習框架已被成功應用于圖像文本分類[17]、視頻標注[18]、基因圖像識別[19]等任務中,既充分利用了蛋白質對簽名檔的信息,同時又改善了利用遠監(jiān)督思想來標記簽名檔中的句子帶來的噪音問題。在此基礎上又對特征加以改進,有效消除了其他蛋白質對目標蛋白質對交互關系識別的影響。

2 基于最大期望算法的PPI識別

基于最大期望算法的多實例多標記學習方法,是在基于遠監(jiān)督方法的基礎上,從大規(guī)模生物醫(yī)學文獻中搜索得到的蛋白質對簽名檔中提取特征,構建向量空間模型(vector space model,VSM)。在此基礎上引入隱變量,將蛋白質對的簽名檔和標簽構建為多實例多標記的學習框架,利用最大期望算法迭代地消除噪音。最終采用監(jiān)督學習的方法來預測未知蛋白質對的交互關系。

2.1 關系提取

PubMed數(shù)據(jù)庫作為建立PPI網絡重要的數(shù)據(jù)來源,收錄了超過一千八百萬篇生物醫(yī)學文獻摘要。從PubMed數(shù)據(jù)中獲取蛋白質對簽名檔的過程包括:

(1)調用PubMed數(shù)據(jù)庫提供的接口,搜索包含目標蛋白質對的摘要。

(2)使用伊利諾州大學Urbana-Champaign分校認知計算研究組開發(fā)的句子識別工具來識別摘要集合中的句子,保留包含目標蛋白質對的句子作為簽名檔的內容。

最終每一個目標蛋白質對都會有一個包含多個句子的集合與之對應,這個句子集合即為蛋白質對的簽名檔,接下來將簽名檔作為蛋白質對交互關系的特征來源進行處理。

2.2 特征表示

實驗中使用到了兩個邏輯回歸分類器來進行PPI關系的識別。一個是對蛋白質對簽名檔中的句子進行交互關系判斷的句子級分類器,另一個是對蛋白質對進行分類的頂層分類器。兩個分類器的主要差別在于特征的表示上,句子級分類器利用提取得到的句子的語言學特征進行分類,而頂層分類器通過當前簽名檔中句子的分類結果形成特征進行分類。句子級分類器特征的形成主要是選取訓練集中所有句子中重要的單詞特征作為向量的每一維。具體處理過程為:首先對句子進行分詞,去除無意義的標點符號以及停用詞;然后選取句子中出現(xiàn)在兩個目標蛋白質之間的單詞,以及第一個目標蛋白質左邊2個單詞和第二個目標蛋白質右邊2個單詞;最終將這些單詞作為句子中蛋白質對的上下文特征來構建向量空間模型。若在句子的上下文特征中出現(xiàn)了某個特征詞,則在向量中對應于出現(xiàn)特征詞的某一維用1記錄,否則用0記錄。

對于頂層分類器中蛋白質對的實際交互關系,采取簽名檔中判斷為有交互關系的句子數(shù)占簽名檔中所有句子的比例作為特征構建一維向量。

2.3 多實例多標記學習模型

在該模型中,對于訓練集中的每一個蛋白質對,都有已知的唯一標記,即有無交互關系,但對于簽名檔中的每一個句子并不知道其真實的標記。所以,引入一個隱變量z來代表句子的標記。z=non-interactive表示在該句中目標蛋白質對之間沒有交互關系;z=interactive表示目標蛋白質對之間存在交互關系。對于PPI關系抽取中的關系是互補的,兩個蛋白質之間的關系就分為有交互和無交互兩種。在該模型中,如圖1所示,由兩層構成,包含一個對蛋白質對簽名檔中的句子進行分類的句子級二元分類器(z分類器)和一個對蛋白質對進行分類的頂層二元分類器(y分類器)。

圖1 多實例多標記學習框架

圖中,n表示蛋白質對的數(shù)目;Mi表示第i對蛋白質對簽名檔的數(shù)目;x表示輸入的一個句子;wz表示z分類器的權重向量;wy表示y分類器的權重向量。

2.3.1 訓 練

由于蛋白質對簽名檔中的句子標記是未知的,而最大期望算法是估計隱變量的有效方法,所以文中采用最大期望算法來訓練多實例多標記的學習框架。最大期望算法主要由M步和E步構成,M步訓練句子級分類器(z分類器)和頂層分類器(y分類器),E步根據(jù)得到的兩個分類器來更新句子的標記,經過多次迭代使句子的標記更加接近于真實的標記。

在以下的公式中,向量zi代表第i個蛋白質對所有句子的標記構成的一個向量;yi用來表示第i個蛋白質對的標記,用公式表示為:

(1)

其中,Pi為關系正例,表示第i對蛋白質對具有的關系;Ni是關系負例,表示第i對蛋白質對不具有的關系。

文中使用最大期望算法來最大化極大似然函數(shù)的下界,也就是說最大化數(shù)據(jù)庫中每個蛋白質對的聯(lián)合概率,得到:

(2)

E-step:在此步驟,對于每個蛋白質對的簽名檔,給定蛋白質對的標記集合,以及目前模型學習得到的z分類器和y分類器的權重向量,推斷出蛋白質對句子級別的分類結果。

(3)

通過近似化,將向量z進行拆分,分開考慮每個句子的分類結果。對于每個蛋白質對i=1,2,…,n中的每個句子m∈Mi,計算:

(4)

M-step:此步驟利用E-step得到的句子分類結果zi通過最大化似然函數(shù)的下界,得到對應的wz和wy。實際上就是通過學習來更新句子級和蛋白質對級權重參數(shù),具體公式如下:

(5)

(6)

2.3.2 預 測

(1)對于一個給定的蛋白質對,首先預測其簽名檔中句子的分類結果。

(7)

(2)利用頂層分類器來決定該蛋白質對是否具有交互關系。

(8)

2.3.3 實 現(xiàn)

初始化:由于最大期望算法并不是全局最優(yōu)算法,因此初始值的設置對最后的結果有著重要的影響。在該模型中,初始值為簽名檔中句子的類別分布zi。利用原始的簽名檔數(shù)據(jù)來訓練一個分類器,然后通過此分類器對簽名檔中的句子進行分類,將分類結果作為初始值zi。

2.4 特征改進

通過對目標蛋白質對簽名檔數(shù)據(jù)的觀察,發(fā)現(xiàn)在包含目標蛋白質對的同一個句子的描述中往往還存在其他蛋白質,這些蛋白質可能會對目標蛋白質交互關系的判斷造成影響?;谶@個原因,需要對句子級分類器原始的特征加以改進。

文中利用一個生物醫(yī)學文本命名實體識別工具ABNER來識別句子中其他蛋白質的名稱。ABNER在NLPBA和BioCreative語料庫上進行訓練,在兩個語料庫上識別的F值分別達到了72.6%和69.9%。

通過觀察蛋白質對的簽名檔,可以發(fā)現(xiàn)描述交互作用的句子中經常會出現(xiàn)bind、interact、activate、inhibit、down-regulate等表示蛋白質交互作用的單詞。這些單詞通常被認為是識別蛋白質交互關系的關鍵詞。關鍵詞對于蛋白質交互關系識別尤為重要,已經作為線索運用到基于模式匹配的PPI抽取方法中。文中選擇關鍵詞作為一維特征對原有特征加以改進,采用的關鍵詞集合利用了Joshua M.Temkin[20]提出的關鍵詞列表。

觀察以下描述蛋白質交互關系的句子:

#arnt# mRNA appeared to be slightly but significantly down-regulated by BaP as well as by flavonoids while expression of #aip# was not or only slightly modulated.

用##標注出來的是兩個目標蛋白質,而用標注的是利用ABNER工具識別出來的其他蛋白質,蛋白質全部由黑體顯示。在這個句子中,有一個關鍵詞“down-regulated”的出現(xiàn),很有可能說明目標蛋白質對(arnt,aip)之間存在交互關系,但由于在目標蛋白質之間出現(xiàn)了一個其他蛋白質Bap,這個關鍵詞事實上表達出來的是其他蛋白質Bap和目標蛋白質arnt之間的交互關系,所以有必要將包含目標蛋白質對的同一個句子中的其他蛋白質識別出來。

在保留2.1節(jié)所有特征的基礎上,又新增了5個特征來對句子級分類器進行改進。首先對簽名檔中的每一個句子,抽取出第一個蛋白質左邊的7個單詞和第二個蛋白質右邊的7個單詞以及兩個蛋白質中間的所有單詞。然后將第一個蛋白質左邊和第二個蛋白質右邊是否有關鍵字和其他蛋白質的名稱以及目標蛋白質中間有沒有其他蛋白質作為5維特征添加到原有特征中,權重采用二值權重,若有則置為1,否則置為0。增加了這5維特征后,以第一個蛋白質左邊的兩個特征為例,若出現(xiàn)了關鍵詞和其他蛋白質,則很有可能表示的是其他蛋白質和第一個目標蛋白質之間的交互關系。

3 實 驗

3.1 實驗數(shù)據(jù)及設置

采用的訓練數(shù)據(jù)來自于現(xiàn)有的PPI數(shù)據(jù)庫,無需額外的人工標注。將有交互關系的蛋白質對視為正樣例,無交互的視為負樣例。實驗中有交互關系的蛋白質對是直接從HPRD數(shù)據(jù)庫中查詢獲取,并且只保留被PubMed數(shù)據(jù)庫中一篇以上摘要包含的那些蛋白質對。而對于無交互關系的蛋白質對,采用生物醫(yī)學領域常用方法,將蛋白質隨機組合成蛋白質對,去除已被HPRD數(shù)據(jù)庫包含的蛋白質對以及未被PubMed數(shù)據(jù)庫記載的蛋白質對。以兩個待考察的蛋白質為查詢條件,通過PubMed數(shù)據(jù)庫的應用程序接口查詢目標蛋白質對的文獻摘要,然后對摘要文本集合進行處理,找出包含目標蛋白質對的句子,形成簽名檔。最終總共得到有交互關系和無交互關系的蛋白質對分別為576對和578對,合計1 154對。

實驗采用的結果性能評價指標是當前PPI抽取系統(tǒng)主要使用的三個指標:精確度(precision=TP/(TP+FP))、召回率(recall=TP/(TP+FN))和F值(F-Score=2P×R/(P+R))。為了避免簡單應用模型而產生過擬合問題,利用五折交叉驗證來評估模型的性能。將原始數(shù)據(jù)按照蛋白質對平均劃分為5折,將每個子集數(shù)據(jù)分別做一次驗證集,其余的4組子集數(shù)據(jù)作為訓練集,這樣會得到5個模型,用這5個模型最終驗證集的平均性能作為評價整個方法性能的指標。

3.2 實驗結果及分析

為了比較使用原始特征和改進后特征的實驗結果,以第一折數(shù)據(jù)為例,取最大期望算法迭代的前六次(迭代6次以后實驗結果基本趨向局部最優(yōu)解),結果如表1、表2所示。

表1 采用原始特征的識別結果

表2 采用改進特征的識別結果

從這兩張表可以發(fā)現(xiàn),隨著迭代次數(shù)的增加,采用改進以后的特征在精確度、召回率和F值上都有明顯提高。最終結果是要把五折數(shù)據(jù)識別的平均結果作為該模型PPI識別的性能,如表3所示。

表3 五折交叉驗證識別結果比較

從上述識別結果發(fā)現(xiàn),對特征加以改進后,識別的準確率雖然稍有下降,但是召回率提高了3.6%,整體F值提高1%。說明改進后,算法考慮了其他蛋白質對目標蛋白質識別的影響,使模型取得了更好的性能。

4 結束語

由于基于遠監(jiān)督的PPI抽取方法存在大量噪音問題,文中采用基于最大期望算法的多實例多標記學習框架,同時在此基礎上對特征加以改進,消除了簽名檔中其他蛋白質對目標蛋白質對交互關系判斷的影響。實驗結果表明,該方法取得了更高的識別精度。

下一步將利用蛋白質對簽名檔中包含的豐富信息對句子級分類器得到的結果進行改進,使句子級的分類更加準確,從而能進一步提高PPI識別的效果。

猜你喜歡
簽名檔分類器蛋白質
蛋白質自由
學貫中西(6):闡述ML分類器的工作流程
人工智能與蛋白質結構
基于樸素Bayes組合的簡易集成分類器①
基于特征選擇的SVM選擇性集成學習方法
無敵簽名檔
簽名檔
簽名檔
簽名檔
基于差異性測度的遙感自適應分類器選擇
积石山| 西乌| 湘潭县| 凯里市| 安仁县| 两当县| 桦川县| 合江县| 泽州县| 北安市| 无为县| 亚东县| 南开区| 广德县| 郁南县| 龙里县| 岳普湖县| 淄博市| 云龙县| 博白县| 名山县| 中牟县| 乾安县| 宁陕县| 新津县| 鄂伦春自治旗| 宁国市| 旬邑县| 靖江市| 灵台县| 磐安县| 加查县| 遵化市| 平远县| 广宗县| 湖南省| 左贡县| 精河县| 楚雄市| 华宁县| 平塘县|