国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

神經(jīng)網(wǎng)絡事件抽取技術(shù)綜述

2018-09-05 10:19秦彥霞張民鄭德權(quán)
智能計算機與應用 2018年3期
關(guān)鍵詞:神經(jīng)網(wǎng)絡實體分類

秦彥霞 張民 鄭德權(quán)

文章編號: 2095-2163(2018)03-0001-06中圖分類號: 文獻標志碼: A

摘要: 關(guān)鍵詞: (1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;

2 School of Computer Science & Technology, Soochow University, Suzhou Jiangsu 215006, China)

Abstract: Event extraction is one important research task in information extraction, which shows great value to information retrieval, question answering and opinion analysis. Traditional event extraction methods manually design features and use Maximum Entropy classifier or Support Vector Machine classifier for trigger classification and argument role identification. Recently, neural network-based methods have shown their effectiveness in image classification, speech recognition and natural language processing areas. The advantage of neural network-based methods is automatic feature learning, thus avoid laborious feature engineering. This article will introduce recent neural network-based methods proposed for event extraction and discuss future work in this area.

Key words:

基金項目:

作者簡介:

收稿日期: 引言

事件作為信息的一種表現(xiàn)形式,其定義為特定的人、物在特定時間和特定地點相互作用的客觀事實。事件抽取是從自由文本中識別事件的發(fā)生并抽取事件的各元素的任務。本文將會探討介紹基于ACE2005評測(http://projects.ldc.upenn.edu/ace/)的事件抽取任務及方法。根據(jù)ACE2005評測,組成事件的各元素包括:觸發(fā)詞、事件類型、論元及論元角色。事件抽取任務可分解為4個子任務:觸發(fā)詞識別、事件類型分類、論元識別和角色分類任務。其中,觸發(fā)詞識別和事件類型分類可合并成事件識別任務。論元識別和角色分類可合并成論元角色分類任務。事件識別判斷句子中的每個單詞歸屬的事件類型,是一個基于單詞的多分類任務。角色分類任務則是一個基于詞對的多分類任務,判斷句子中任意一對觸發(fā)詞和實體之間的角色關(guān)系。

傳統(tǒng)事件抽取方法[1-11]均采用人工構(gòu)建特征的方法表示每個候選觸發(fā)詞或每個觸發(fā)詞-實體對,然后借助基于統(tǒng)計的分類模型進行分類。以往方法重點在于研究有效的特征來捕捉候選觸發(fā)詞、候選論元的詞法、句法、語義信息,以及觸發(fā)詞-觸發(fā)詞之間的依賴關(guān)系、和同一觸發(fā)詞相關(guān)的多個實體之間的依賴關(guān)系、和同一實體相關(guān)的多個觸發(fā)詞之間的關(guān)系。此外,還有若干工作研究跨句子和跨文檔的事件一致性特征[9]、跨事件的一致性特征[10]和跨實體的事件一致性特征[11]來提高事件抽取的性能。

近年來興起的神經(jīng)網(wǎng)絡方法,能夠自動學習有效特征。不同于傳統(tǒng)的離散型特征,神經(jīng)網(wǎng)絡特征多是連續(xù)型向量特征,除了能夠建模語義信息外,還能自動組合構(gòu)建更上層的特征。這些特征的高效性已經(jīng)在自然語言處理眾多任務中屢獲驗證,并帶來突破性進展。在事件抽取任務中也陸續(xù)涌現(xiàn)出一些基于神經(jīng)網(wǎng)絡的事件抽取方法,使得研究人員免于繼續(xù)從事繁瑣的特征工程。本文將全面剖析論述已有的神經(jīng)網(wǎng)絡事件抽取方法,并對以后的研究方向給出預期展望。

1事件抽取定義

本節(jié)將圍繞自動內(nèi)容抽取(Automatic Content Extraction, ACE)評測中的英文事件抽取任務涉及的相關(guān)術(shù)語及任務,對其展開如下的研究闡釋。

(1)實體(Entity)。屬于某個語義類別的對象或?qū)ο蠹稀F渲邪ǎ喝耍≒ER)、地理政治區(qū)域名(GPE)、組織機構(gòu)(ORG)、地名(LOC)、武器(WEA)、建筑設施(FAC)和交通工具(VEH)。

(2)事件觸發(fā)詞(Event Trigger)。表示事件發(fā)生的核心詞,多為動詞或名詞。

(3)事件論元(Event Argument)。事件的參與者,主要由實體、值、時間組成。值是一種非實體的事件參與者,例如工作崗位(Job-Title)。和實體一樣,ACE05也標記出了句子中出現(xiàn)的值和時間。下文中,即將實體、值、時間統(tǒng)稱為實體。

(4)論元角色(Argument Role)。事件論元在事件中充當?shù)慕巧?。共?5類角色,例如,攻擊者(Attacker)、受害者(Victim)等。

ACE2005定義了8種事件類型和33種子類型。其中,大多數(shù)事件抽取均采用33種事件類型。事件識別是基于詞的34類(33類事件類型+None)多元分類任務,角色分類是基于詞對的36類(35類角色類型+None)多元分類任務。這里,參考文獻[8]可得如下例句:

In Baghdad, a cameraman died when an American tank fired on the Palestine hotel. (在Baghdad, 當一個美國坦克對著Palestine酒店開火時一個攝影師死去了)

以上例句中出現(xiàn)的事件解析可見表1。

作為一種有監(jiān)督多元分類任務,事件抽取方法包括2個步驟:特征選擇和分類模型。本文根據(jù)使用特征的范圍不同、模型學習方式不同和外部資源的使用與否對不同的事件抽取方法進行分類。各類方法的研究內(nèi)容可詳見如下。

(1)根據(jù)所使用特征的范圍,事件抽取方法可以分為句子級的事件抽取方法和篇章級的事件抽取方法??偟貋碚f,句子級的事件抽取方法只使用句子內(nèi)部獲取的特征。而篇章級的事件抽取方法則包含了跨句、跨文檔抽取的特征信息。一般情況下,句子級特征是所有事件抽取方法通用的特征,而篇章級特征則屬于面向?qū)嶋H任務挖掘的特效特征。

(2)根據(jù)學習方式不同,可以分為基于流水線模型的事件抽取方法和基于聯(lián)合模型的事件抽取方法。事件抽取任務分為事件識別和論元角色分類任務。其中,后者輸入依賴于前者輸出。論元角色分類任務的輸入是識別出的觸發(fā)詞和所有候選實體。大部分事件抽取方法都是流水線模型學習方式,先進行事件識別模型的學習,再轉(zhuǎn)入論元角色分類模型的學習。而經(jīng)仿真驗證基于聯(lián)合模型的學習方式的效果要優(yōu)于流水線模型學習方式,故而也隨即產(chǎn)生了基于聯(lián)合模型的事件抽取工作。

(3)ACE05數(shù)據(jù)是現(xiàn)有的為數(shù)不多的有標記事件數(shù)據(jù)之一,是在新聞、博客、訪談等數(shù)據(jù)上進行人工標注得到的。ACE數(shù)據(jù)的標注質(zhì)量不高以及規(guī)模較小的問題,也在很大程度上影響了事件抽取任務的發(fā)展。為此很多工作嘗試借助外部資源輔助事件抽取任務的功能達成。根據(jù)是否使用外部資源,可以分為基于同源數(shù)據(jù)(即ACE數(shù)據(jù))的事件抽取方法和融合外部資源的事件抽取方法。

2.1句子/篇章級的事件抽取方法

傳統(tǒng)方法中,句子級別的特征可以分為基于詞的特征和基于詞對的特征。其中,基于詞的傳統(tǒng)離散特征包括:

(1)詞法特征。例如當前詞及周邊詞的一元/二元語法、詞性標簽、詞干、同義詞等。

(2)句法特征。例如當前詞的依存詞和核心詞、涉及的依存關(guān)系、是否是未被引用的代詞、句法分析樹中路徑等。

(3)實體信息。例如實體類型、距離最近的實體類型、是否是相同類型論元候選中距離觸發(fā)詞最近的等等。

基于詞對的特征有:觸發(fā)詞-觸發(fā)詞之間的共現(xiàn)關(guān)系和觸發(fā)詞-論元的多種依賴關(guān)系等。

而篇章級事件抽取方法則額外考慮了跨句子或跨文檔的特征輔助任務實現(xiàn)。例如,相同/類似事件對應的論元一致性,同一文檔內(nèi)的相同單詞觸發(fā)的事件類型一致性特征,相同類型的實體參與的事件一致性特征。

本小節(jié)將主要討論現(xiàn)有的句子級神經(jīng)網(wǎng)絡事件抽取方法[12-16]。不同于傳統(tǒng)離散特征,神經(jīng)網(wǎng)絡方法以連續(xù)型向量為特征,并通過不同的神經(jīng)網(wǎng)絡模型學習更抽象的特征。以事件識別任務為例,神經(jīng)網(wǎng)絡事件抽取方法的流程為:首先用初始化的特征向量表示候選觸發(fā)詞,然后通過神經(jīng)網(wǎng)絡模型自動更新學習特征以及組合更高級別特征,最后通過Softmax模型來輸出分類。除了特征表示和學習方式的不同外,傳統(tǒng)方法和神經(jīng)網(wǎng)絡方法在分類模型上亦有不同。傳統(tǒng)方法使用不同的分類模型進行分類,例如常用的最大熵模型和支持向量機模型。神經(jīng)網(wǎng)絡方法則采用Softmax模型來設計確定分類。

Chen等人[12]和Nguyen等人[13]率先嘗試將神經(jīng)網(wǎng)絡方法分別應用于事件抽取、識別任務中,并取得了很好的效果,驗證了神經(jīng)網(wǎng)絡特征的有效性。初始特征表示方面,二者均采用了預訓練的詞向量作為每個單詞的初始表示,而且還融入了單詞的語義和語法信息的建模研究[17-18]。特殊而必要地,二者還都使用了位置信息來建模當前詞和候選觸發(fā)詞的距離。受傳統(tǒng)特征啟發(fā),常用的特征還包括當前詞的事件類型向量和實體類型向量。Nguyen等人利用實體類型特征來輔助事件識別任務,而Chen等人使用事件類型特征用于角色分類任務。

在上層特征學習模型方面,研究中均使用了卷積神經(jīng)網(wǎng)絡模型[19](Convolutional Neural Network, CNN)來自動抽取有效特征進行事件抽取或識別任務。更進一步地,Chen等人改進了傳統(tǒng)的CNN模型,增配了動態(tài)多池機制(dynamic multi-pooling)來提高事件抽取任務性能。研究認為,相比于最大池機制,通過候選觸發(fā)詞和候選實體位置分割成3部分的動態(tài)多池機制,能夠獲取更為精細、有效的特征用于角色分類。Nguyen等人[14]則提出了一種基于離散短語(skip-gram)的卷積神經(jīng)網(wǎng)絡模型來輔助事件識別。相比于傳統(tǒng)的連續(xù)詞袋模型,基于離散短語的卷積神經(jīng)網(wǎng)絡模型能夠獲取更豐富的非連續(xù)短語上特征,而無需再限定于局部連續(xù)短語特征。

除了基于卷積神經(jīng)網(wǎng)絡的特征學習模型外,還有研究者采用遞歸神經(jīng)網(wǎng)絡[20-21](Recurrent Neural Network, RNN)對文本中的序列信息進行建模,從而為事件抽取任務提供助益支持。Feng等人[15]采用一個基于RNN的模型來獲取文本中的序列信息,并采用一個卷積層來獲取文本中的短語塊信息,將2種信息合并后進行事件觸發(fā)詞識別。由于沒有使用額外特征,該混合模型是語言無關(guān)模型,在多種語言的事件識別任務中取得了良好效果。

以往的傳統(tǒng)事件抽取工作和上述神經(jīng)網(wǎng)絡事件抽取方法均嘗試了將觸發(fā)詞的相關(guān)特征,如事件類別信息、位置信息等用于輔助論元角色分類任務,但卻尚未探索論元的信息對觸發(fā)詞識別任務的作用。借助于注意力模型(Attention),Liu等人[16]獨家采用了有監(jiān)督的論元注意力模型將論元信息輸入至事件識別模型中,其效果驗證了論元信息能夠高效地輔助事件觸發(fā)詞識別任務。不同于聯(lián)合模型中觸發(fā)詞和論元信息相互輔助的間接方式,該方法提出的論元注意力模型最直接地將論元信息用于輔助識別觸發(fā)詞。

猜你喜歡
神經(jīng)網(wǎng)絡實體分類
基于人工智能LSTM循環(huán)神經(jīng)網(wǎng)絡的學習成績預測
基于圖像處理與卷積神經(jīng)網(wǎng)絡的零件識別
實體錢
基于自適應神經(jīng)網(wǎng)絡的電網(wǎng)穩(wěn)定性預測
2017實體經(jīng)濟領(lǐng)軍者
按需分類
教你一招:數(shù)的分類
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡與日本人口預測
說說分類那些事
重振實體經(jīng)濟