李浩瑞,王 健,林鴻飛,楊志豪,張益嘉
(大連理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
基于混合模型的生物事件觸發(fā)詞檢測
李浩瑞,王 健,林鴻飛,楊志豪,張益嘉
(大連理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
語義歧義增加了生物事件觸發(fā)詞檢測的難度,為了解決語義歧義帶來的困難,提高生物事件觸發(fā)詞檢測的性能,該文提出了一種基于豐富特征和組合不同類型學(xué)習(xí)器的混合模型。該方法通過組合支持向量機(SVM)分類器和隨機森林(Random Forest)分類器,利用豐富的特征進行觸發(fā)詞檢測,從而為每一個待檢測詞分配一個事件類型,達到檢測觸發(fā)詞的目的。實驗是在BioNLP2009共享任務(wù)提供的數(shù)據(jù)集上進行的,實驗結(jié)果表明該方法有效可行。
觸發(fā)詞;生物事件;歧義;豐富特征;組合學(xué)習(xí)器
隨著新的生物醫(yī)學(xué)文獻的爆炸性增長,越來越多的關(guān)系抽取方法得以提出,用來從生物醫(yī)學(xué)文獻中抽取有用的信息。近幾年,事件抽取以其有表現(xiàn)力的結(jié)構(gòu)化呈現(xiàn)而流行,廣泛地應(yīng)用于系統(tǒng)生物學(xué),涉及到從對通路的產(chǎn)生和標注提供支持到數(shù)據(jù)庫自動產(chǎn)生母體數(shù)據(jù)和豐富數(shù)據(jù)庫數(shù)據(jù)等領(lǐng)域。生物醫(yī)學(xué)事件與蛋白質(zhì)-蛋白質(zhì)交互關(guān)系(PPI)等二元關(guān)系不同,它包含了生物實體以及實體之間的交互關(guān)系。這些生物事件能夠完整地代表原始關(guān)系的生物醫(yī)學(xué)意義,所以從文本中自動地識別生物事件變得非常有意義。生物醫(yī)學(xué)事件抽取就是一個在醫(yī)學(xué)研究文章中自動檢測分子交互關(guān)系描述的過程[1]。它的目的是從非結(jié)構(gòu)化的文本中抽取關(guān)于預(yù)先定義事件類型的結(jié)構(gòu)化信息。
生物醫(yī)學(xué)事件抽取在BioNLP2009共享任務(wù)(以下稱BioNLP’09)之后開始在領(lǐng)域內(nèi)流行。在BioNLP’09結(jié)束之后出現(xiàn)了許多事件抽取系統(tǒng)。一般來說這些系統(tǒng)可以分為兩類: 基于機器學(xué)習(xí)的系統(tǒng)和基于規(guī)則的系統(tǒng)。在BioNLP’09中性能最好的Uturku系統(tǒng)是泛化的系統(tǒng),并采用了支持向量機(SVM)來進行事件抽取[2-3]。Uturku系統(tǒng)把事件抽取的整個過程分成了觸發(fā)詞檢測和事件元素檢測兩個部分。該系統(tǒng)的特點是嚴重依賴高效、先進的機器學(xué)習(xí)技術(shù)和一系列從每個句子完全依存分析中產(chǎn)生的特征[4]。在BioNLP’09的任務(wù)1中排名第三的ConcordU系統(tǒng)是本次評測中最好的基于規(guī)則的系統(tǒng)[2]。另外,在BioNLP2011共享任務(wù)的四個大任務(wù)中獲得三個任務(wù)性能第一的FAUST系統(tǒng)探索使用了模型的組合,它使用的基礎(chǔ)模型是Umass對偶分解模型和斯坦福事件分析器。該系統(tǒng)的先進之處在于它使用了斯坦福事件分析系統(tǒng)的預(yù)測結(jié)果,并通過與對偶分解模型進行組合來求得最終的結(jié)果[5]。目前大多數(shù)的事件抽取系統(tǒng)關(guān)注的是整個事件抽取的過程,將觸發(fā)詞檢測作為一個單獨問題進行研究的比較少見。檢測生物事件觸發(fā)詞是事件抽取過程中一個非常重要的步驟,觸發(fā)詞檢測的性能對它之后的步驟的性能有很大的影響,它在事件抽取中起到了至關(guān)重要的作用。David等人提出了一種使用向量空間模型(VSM)和條件隨機場(CRF)相結(jié)合的方法,建立觸發(fā)詞檢測的語義消歧系統(tǒng)(WSD)[6]。該方法是將每個出現(xiàn)的歧義詞表示成一個向量,向量的每一維代表了一個特征的出現(xiàn)或者缺失,在該系統(tǒng)的訓(xùn)練過程中,系統(tǒng)為每個詞類型的每個含義產(chǎn)生一個單一的質(zhì)心向量。該系統(tǒng)在BioNLP’09的數(shù)據(jù)集上進行了實驗,并取得了較好的效果。
事件抽取通過識別文本中觸發(fā)詞和參與的實體來發(fā)現(xiàn)觸發(fā)詞和實體之間的關(guān)系。作為整個事件抽取流程中的基礎(chǔ)步驟,事件觸發(fā)詞檢測的性能對整個事件抽取過程的性能有著至關(guān)重要的影響。在觸發(fā)詞檢測過程當中,語義歧義使得觸發(fā)詞檢測有一定的難度。如下面的例1~例3中,單詞“expression”在例1和例3中是觸發(fā)詞,而在例2中不是觸發(fā)詞。而是觸發(fā)詞的情況下,該單詞在例1和例3標識的事件類型也是不同的類型。因此,很難判定諸如“expression”這類單詞是否是觸發(fā)詞或者在是觸發(fā)詞的情況下它們標識的觸發(fā)詞的類型。
例1 It activates Prot18 geneexpressionin T lymphocytes.
例2 ......, theexpressionwas enhanced at 30 min.
例3 theexpressionof c-fos mRNA was suppressed at 30 min
受到之前提及系統(tǒng)的啟發(fā),特別是FAUST系統(tǒng)的原理,本文利用組合學(xué)習(xí)器的方法,使用從原始句子和句子依存分析樹中產(chǎn)生的特征來進行觸發(fā)詞檢測。在實驗的過程中,除了使用一些常用的文本特征,如詞特征,還從依存分析樹中發(fā)掘了很多特征。把這些特征應(yīng)用到兩個判別原則完全不同的學(xué)習(xí)器中,即支持向量機(SVM)和隨機森林(Random Forest)。最終,根據(jù)每個學(xué)習(xí)器單獨預(yù)測性能的好壞指派權(quán)值,對兩個分類器輸出的結(jié)果進行線性加權(quán)組合得到最終的輸出結(jié)果。實驗結(jié)果表明,組合學(xué)習(xí)器能夠獲得比單獨使用任何一個學(xué)習(xí)器更好的效果。
2.1 依存句法分析器
依存分析樹是用來表示一個句子中詞與詞之間的語法關(guān)系。依存分析器用來構(gòu)建一個句子的依存關(guān)系樹。在依存分析樹中每一個節(jié)點代表一個詞,每一條邊代表了兩個詞之間的關(guān)系。本文使用的是GDep[7]依存分析器,圖1中是句子“AML and Ets proteins regulate the I alphal germtine promoter.”的依存分析樹。
圖 1
2.2 相關(guān)學(xué)習(xí)器
組合總是做出類似決策的學(xué)習(xí)器是毫無意義的[8]。將決策原則不同的分類器進行組合,分類器在決策時可以進行互補。本文采用了兩個基礎(chǔ)的分類器: 一個是支持向量機,它是基于線性判別的決策理論;另一個是隨機森林,它是基于決策樹的決策理論。這兩個分類器在決策原理上是不相同的。接下來簡要介紹一下本文中使用的分類器和它們的決策原理。
2.2.1 支持向量機
支持向量機是一種基于線性判別的方法,它使用Vapnik原則,即在解決實際問題之前總會把解決一個較為簡單的問題作為第一步[9]。支持向量機的目的是學(xué)習(xí)一個能夠?qū)⒂?xùn)練集里的正例和負例分開的超平面。超平面到任意一邊離超平面最近點的距離標為間隔。支持向量機的目的是找到能夠使得間隔最大化的最優(yōu)間隔超平面,同時又使得分類器的泛化誤差最小。
假設(shè)有訓(xùn)練樣本(xt,yt),xt是n維特征空間中的一個向量,yt是類別標簽-1代表負例,+1代表正例。圖2中超平面w*x+w0= 0將訓(xùn)練樣本正確的分離并且最大化超平面w*x+w0= 1 和w*x+w0= -1之間的間隔。超平面可以通過求解公式(1)而得到。
(1)
通過引入拉格朗日因子α,超平面可以最終表示為公式(2)。
(2)
式(2)中的K(xt,x)被稱為核函數(shù)。經(jīng)過計算,根據(jù)f(x)的符號給待預(yù)測點x分配相應(yīng)的類別標簽。
圖2 線性可分情況下支持向量機的最優(yōu)分離超平面
2.2.2 隨機森林
隨機森林(簡稱RF)是一種使用了一組未修剪的決策樹的分類算法。每一棵分類樹都是使用了數(shù)據(jù)的引導(dǎo)樣例,并且在每一個數(shù)據(jù)分割中變量的候選集是整體變量的一個隨機子集[10]。隨機森林使用兩種方法來構(gòu)建樹:一種是裝袋法,它是一種對于組合不穩(wěn)定學(xué)習(xí)器比較有效的方法[11-12];另一種是隨機變量選取法。假設(shè)給定一組分類器C1(x),C2(x),...,Ck(x)和從隨機向量的分布中隨機抽取的訓(xùn)練集X,Y,定義間距函數(shù)為公式(3)。
(3)
此處I(x)是指標函數(shù)。所謂間距,是用來衡量給一個樣本X,Y投票時,投它是正確類票數(shù)平均數(shù)超過投它是其他類票數(shù)平均數(shù)的程度。間距越大,學(xué)習(xí)器在分類時得到的結(jié)果就越可信。在隨機森林中,第k個分類器可以表示成另一種形式,即Ck(x) =C(X,Θk)。對于大多數(shù)的樹而言,隨機森林遵循強大數(shù)定理并遵循如下的結(jié)構(gòu): 隨著樹的數(shù)量增加,可以肯定的是對于所有的Θ序列,PE*收斂于H[13]。其中H可表示為公式(4)。
(4)
通過描述可以看到隨機森林的決策機制和之前選的第一個分類器(SVM)的決策機制是不同的。
除了決策機制,本文選用隨機森林作為第二個學(xué)習(xí)器的原因是在分類任務(wù)中隨機森林有非常優(yōu)秀的性質(zhì)。主要有以下兩點性質(zhì)促使了本文的實驗使用隨機森林。
首先,使用強大數(shù)定律表明了隨機森林是收斂的,所以過擬合不是問題;
其次,是隨機森林的泛化誤差,泛化誤差的形式為公式(5)。
(5)
此處X,Y標明了概率是在X,Y空間上的。泛化誤差的上限可以表示成兩個參數(shù)的形式,這兩個參數(shù)分別表示了每一個單獨分類器的準確性和各分類器之間的依賴性。
3.1 相關(guān)特征
本文使用一些常用的特征和一些從句子的依存分析樹中發(fā)掘的特征。主要包括下列幾種特征。
詞特征:詞特征主要包含詞本身以及由GDep產(chǎn)生的詞干和這個詞在句子中的詞性。
詞袋特征:詞袋特征是指候選詞周圍的詞,包括了候選詞前邊和后邊的N個詞??紤]到特征的維數(shù)和特征的表現(xiàn)能力,本文將N設(shè)定為8。
依存分析特征:依存分析特征主要來自于GDep解析器的解析結(jié)果,包括了候選詞的依存信息和候選詞在依存分析樹中的路徑信息以及候選詞在依存分析樹中的父節(jié)點和子節(jié)點的信息。
N元特征:N元特征主要包括以候選詞為中心的一個范圍內(nèi)的N元詞組,主要是三元組和二元組。這些N元特征豐富了詞袋特征的表現(xiàn)[14-15]。
距離特征:距離特征用來衡量候選詞和最近的蛋白質(zhì)之間的距離。觸發(fā)詞是和蛋白質(zhì)緊密相關(guān)的,一個距離蛋白質(zhì)近的候選詞比一個距離蛋白質(zhì)遠的候選詞更有可能是觸發(fā)詞。本文定義的距離指的是在原始語句中候選詞到最近蛋白質(zhì)所包含的單詞的個數(shù)(在距離統(tǒng)計時將蛋白質(zhì)包含在內(nèi))。統(tǒng)計發(fā)現(xiàn),在BioNLP’09的訓(xùn)練集中大部分的觸發(fā)詞是靠近蛋白質(zhì)的。圖3中表示的是在BioNLP’09的訓(xùn)練集中觸發(fā)詞和其距離最近的蛋白質(zhì)的分布圖,例如,有超過1 200個觸發(fā)詞與蛋白質(zhì)相鄰,距離定義為1,接近1 600個觸發(fā)詞與蛋白質(zhì)距離是2。
圖3 觸發(fā)詞個數(shù)與距離最近的蛋白質(zhì)的關(guān)系圖
依存路徑特征:相同的候選詞在一個句子里是觸發(fā)詞而在另一個句子里不是觸發(fā)詞。經(jīng)過研究,在例4和例5兩個句子中,expression在例4中是觸發(fā)詞而在例5中不是觸發(fā)詞。
例4 Prot24 can directly inhibit STAT-dependent early response gene expression induced by both IFNalpha and Prot25 in monocytes by suppressing the tyrosine phosphorylation of Prot23.
例5 IL-10 preincubation resulted in the inhibition of gene expression for sev-eral IFN-induced genes...
使用了依存分析器之后,在依存分析樹中構(gòu)建從蛋白質(zhì)到根節(jié)點的路徑。例4中的expression在該路徑上并且是觸發(fā)詞;而例5中的相同單詞沒有在這個路徑上并且不是觸發(fā)詞。經(jīng)過對訓(xùn)練集的驗證,發(fā)現(xiàn)有超過60%的觸發(fā)詞有這個特性,因此實驗中本文采用了這個特征來鑒別一個候選詞是否是觸發(fā)詞。
3.2 數(shù)據(jù)集和方法
大多數(shù)的BioNLP共享任務(wù)的事件抽取過程是分成兩個模塊的,包括觸發(fā)詞檢測和事件元素檢測。事件觸發(fā)詞的檢測在事件抽取中的作用至關(guān)重要,它的目的是識別出每一個事件觸發(fā)詞以及事件的類型。本文主要集中于觸發(fā)詞檢測的相關(guān)工作。
本文使用的數(shù)據(jù)集是BioNLP’09任務(wù)的數(shù)據(jù)集,它源于GENIA事件語料庫。語義消歧(WSD)系統(tǒng)[6]采用的同樣是該數(shù)據(jù)集,表1展示的是該數(shù)據(jù)集預(yù)定義的九種事件類型。
表1 九種事件類型
本文將觸發(fā)詞檢測看成一個給候選詞標注類別的問題[16]。目的是為觸發(fā)詞的候選詞分配一個事件類型,將非觸發(fā)詞的候選詞標記為非觸發(fā)詞。本文進行觸發(fā)詞檢測的方法是首先在訓(xùn)練集中建立觸發(fā)詞字典,在測試集中根據(jù)觸發(fā)詞字典尋找候選的觸發(fā)詞。采用組合學(xué)習(xí)器,將每一個候選詞單獨的進行事件類型的標注。本文將觸發(fā)詞看成單詞,多個單詞構(gòu)成的詞組觸發(fā)詞由短語中第一個非停用詞代替。因為詞組觸發(fā)詞不便于對測試集檢測時進行字典查詢。經(jīng)過統(tǒng)計,訓(xùn)練集中的6 376個觸發(fā)詞中只有489個觸發(fā)詞是詞組,約占7.6%。
本文使用了當前性能先進的多分類速度最快的分類器LibSVM[17]和不會過擬合且泛化誤差有上限的隨機森林。多分類支持向量機有一個正則化參數(shù),這個參數(shù)可權(quán)衡模型的復(fù)雜度和訓(xùn)練誤差。多分類支持向量機在訓(xùn)練樣本的數(shù)量和每一個訓(xùn)練樣本非零特征的平均數(shù)量上都是線性增長的,這個性質(zhì)使它成為更適合本文目的的學(xué)習(xí)方法。實驗采用了徑向基(RBF)核函數(shù),并且把shrinking和概率參數(shù)設(shè)為1。通常來說,在隨機森林中,隨著樹的數(shù)量的增加,隨機森林的精確率隨之提高,但模型的復(fù)雜度也隨之增加。另一個參數(shù)是用來隨機選擇屬性的個數(shù)。實驗將隨機森林的隨機數(shù)種子設(shè)為默認值。出于各方面考慮選擇了150棵樹和150個隨機特征來進行實驗。
實驗使用相同的特征對兩個模型進行單獨訓(xùn)練,并用訓(xùn)練好的模型對BioNLP’09的發(fā)展集進行預(yù)測。之所以使用發(fā)展集是因為BioNLP’09組織者沒有給出測試集的答案。在得到兩個模型的輸出結(jié)果后,根據(jù)模型的準確率將兩個模型的輸出結(jié)果進行線性加權(quán)組合。具體的方法是對每一個候選實例,通過把兩個模型的輸出概率進行加權(quán)相加重新計算候選實例屬于各個類別的概率。最終將候選實例標記為重新計算后概率最大的一類事件類型。
本文對組合模型和每個單獨的模型在Bio-NLP’09發(fā)展集上的輸出結(jié)果進行了分析。本文系統(tǒng)和語義消歧系統(tǒng)(以下簡稱WSD)的性能比較如表2所示,其中描述了本文與WSD方法在每一個事件類型的性能,以及系統(tǒng)總體性能上的對比。
從表2中可以看出,本文方法與WSD方法在準確率上幾乎相同,但是獲得了優(yōu)于WSD方法的召回率。
表2 本文方法與WSD方法的性能比較
通過表2和圖4可以發(fā)現(xiàn),regulation, positive regulation, negative regulation這三類事件相比于其他類型的事件是更難檢測的。這三個類型的F值都在55%以下,而其他類型的F值在60%以上。導(dǎo)致這種情況的主要原因是這三個類型是復(fù)雜的事件類型,它們包含了網(wǎng)狀的關(guān)系和更多的事件元素,因此更難檢測。本文系統(tǒng)性能最好的事件類型與WSD方法相同,是Protein_catabolism類型。值得注意的是,本文的系統(tǒng)在regulation, positive regulation, negative regulation這三類復(fù)雜事件的檢測上相比于WSD有較好的性能。正是由于在檢測這三類復(fù)雜事件中具有較高的性能,本文系統(tǒng)的整體性能超過了WSD系統(tǒng)。
圖4 本文系統(tǒng)和WSD系統(tǒng)在各個事件類型上的性能比較
表3所呈現(xiàn)的是每一個單獨的學(xué)習(xí)器和組合后的學(xué)習(xí)器的最好的性能。與WSD方法相比較,本文的支持向量機使用了訓(xùn)練集的全部實例來構(gòu)建模型,以及比較多的特征,并對參數(shù)和核函數(shù)進行了調(diào)整。在隨機森林模型中,使用30多組實驗來調(diào)整樹的數(shù)目和隨機屬性選取個數(shù)這兩個參數(shù)。最終,綜合考慮性能和時間消耗,實驗選取了150棵樹和150個隨機屬性的隨機森林模型,它的性能如表3所示。在組合了兩個學(xué)習(xí)器之后,實驗得到了比單獨使用任何一個學(xué)習(xí)器性能都好的結(jié)果。本文獲得了66.8%的F值,比單獨使用支持向量機的方法高出1%,比WSD方法高出了6.7%。
表3 單個學(xué)習(xí)器與組合學(xué)習(xí)器的性能比較
表4給出了比較詳細的錯誤分析。實驗的目的是找到每一個觸發(fā)詞并給它們標注一個事件類型,因此只對發(fā)展集上624個錯誤實例進行分析。首先,有113個實例是有多于一個單詞的詞組觸發(fā)詞構(gòu)成的,這種情況本文是做了簡化處理的,所以在檢測的過程中根本不能發(fā)現(xiàn)詞組觸發(fā)詞。另外,有18個觸發(fā)詞是包含“-”的,這些單詞在實驗中也是被忽略的。有198個觸發(fā)詞是在發(fā)展集中出現(xiàn)過,而沒有在訓(xùn)練集中出現(xiàn)過,這些詞就不會出現(xiàn)在觸發(fā)詞字典中,從而無法檢測到它們。還有295個觸發(fā)詞被錯誤的分類,包括將類型標注錯誤和將觸發(fā)詞標注成為非觸發(fā)詞。
表4 錯誤分析
最后,從表5中可以看到,雖然隨機森林在發(fā)展集中找到了比較少的觸發(fā)詞,但隨機森林仍然將支持向量機認為是觸發(fā)詞的25個詞正確的排除,使得在找到正確觸發(fā)詞個數(shù)相同的情況下,提高了組合學(xué)習(xí)器系統(tǒng)的召回率。
表5 各模型找到的觸發(fā)詞的個數(shù)
本文展示了一個使用豐富特征和組合學(xué)習(xí)器方法進行事件抽取觸發(fā)詞檢測的系統(tǒng)。使用的特征能夠充分利用句子的信息和句子的依存關(guān)系信息。選用的學(xué)習(xí)器是根據(jù)不同的決策原則進行組合,從而在決策時能夠互補。本文的方法與WSD方法以及單獨使用任何一個分類器相比都取得了較好的效果。
在后續(xù)工作中,將繼續(xù)使用本文的方法研究事件抽取的整個過程,希望能夠從理論方面找到更多的能夠決策互補的學(xué)習(xí)器加以利用。
[1] Bj?rne J, Salakoski T. Generalizing biomedical event extraction[C]//Proceedings of the BioNLP Shared Task 2011 Workshop. Association for Computational Linguistics, 2011: 183-191.
[2] Kim J D, Ohta T, Pyysalo S, et al. Overview of BioNLP′09 shared task on event extraction[C]//Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing: Shared Task. Association for Computational Linguistics, 2009: 1-9.
[3] Bj?rne J, Ginter F, Heimonen J, et al. Learning to extract biological event and relation graphs[C]//Proceedings of the 17th Nordic Conference on Computational Linguistics (NODALIDA′09). 2009: 18-25.
[4] Bj?rne J, Heimonen J, Ginter F, et al. Extracting complex biological events with rich graph-based feature sets[C]//Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing: Shared Task. Association for Computational Linguistics, 2009: 10-18.
[5] Riedel S, McClosky D, Surdeanu M, et al. Model combination for event extraction in BioNLP 2011[C]//Proceedings of the BioNLP Shared Task 2011 Workshop. Association for Computational Linguistics, 2011: 51-55.
[6] Martinez D, Baldwin T. Word sense disambiguation for event trigger word detection in biomedicine[J]. BMC bioinformatics, 2011, 12(Suppl 2): S4.
[7] Sagae K, Tsujii J. Dependency parsing and domain adaptation with LR models and parser ensembles[C]//Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007. 2007: 1044-1050.
[8] Alpaydin E. Introduction to Machine Learning[M]. London:The MIT Press Cambridge, Massachusetts, 2010: 419-445.
[9] Cortes C, Vapnik V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297.
[10] Díaz-Uriarte R, De Andres S A. Gene selection and classification of microarray data using random forest[J]. BMC bioinformatics, 2006, 7(1): 3.
[11] Hastie T, Tibshirani R, Friedman J. The elements of statistical learning[M]. New York: Springer, 2001.
[12] Breiman L. Bagging predictors[J]. Machine learning, 1996, 24(2): 123-140.
[13] Breiman L. Random forests[J]. Machine learning, 2001, 45(1): 5-32.
[15] Qi H, Li K, Shen Y, et al. An effective solution for trademark image retrieval by combining shape description and feature matching[J]. Pattern recognition, 2010, 43(6): 2017-2027.
[16] Vlachos A. Two strong baselines for the BioNLP 2009 event extraction task[C]//Proceedings of the 2010 Workshop on Biomedical Natural Language Processing. Association for Computational Linguistics, 2010: 1-9.
[17] Lafferty J, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning (ICML’01). 2001:282-289.
A Hybrid Approach to Trigger Detection in Biological Event Extraction
LI Haorui, WANG Jian, LIN Hongfei, YANG Zhihao, ZHANG Yijia
(School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning 116024, China)
Word sense ambiguity challenges the trigger detection in biological event extraction. This paper proposes a hybrid method combing different learners trained with rich features to deal with word sense ambiguation for trigger detection. Specifically, we address the trigger detection by assigning an event types to each token, adopting a multi-class SVM classifier and Random Forest. Experiments on the BioNLP 2009 shared task dataset show that this method achieved a good performance.
trigger detection; biological event; ambiguation; rich features; combination of learners
李浩瑞(1987—),碩士,主要研究領(lǐng)域為機器學(xué)習(xí)、生物醫(yī)學(xué)文本挖掘。E?mail:irlihr@163.com王健(1967—),博士,教授,主要研究領(lǐng)域為信息檢索、文本挖掘、自然語言處理。E?mail:wangjian@dlut.edu.cn林鴻飛(1962—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域為信息檢索、文本挖掘、情感分析、社會計算和自然語言處理。E?mail:hflin@dlut.edu.cn
1003-0077(2016)01-0036-07
2013-08-10 定稿日期: 2014-05-10
國家自然科學(xué)基金(61572098,61572102,61300088,61272373);遼寧省自然科學(xué)基金(2014020003)
TP391
A