中文篇章關(guān)系任務(wù)分析及語料標(biāo)注

2016-11-19 06:10:36張牧宇秦兵劉挺

智能計算機(jī)與應(yīng)用 2016年5期

關(guān)鍵詞：語義分析

張牧宇秦兵劉挺

摘要：篇章關(guān)系（Discourse Relation）是篇章語義分析的重要內(nèi)容，本文在英文篇章關(guān)系研究的基礎(chǔ)上分析了中英文間的差異，總結(jié)了中文篇章語義分析的特點，并在此基礎(chǔ)上提出面向中文的層次化篇章關(guān)系體系，對其關(guān)系類型進(jìn)行詳細(xì)描述。在其基礎(chǔ)上，研究構(gòu)建包含1 096篇語料的中文篇章關(guān)系語料庫，為進(jìn)一步的篇章語義分析工作奠定基礎(chǔ)。

關(guān)鍵詞：語義分析；篇章關(guān)系；中文篇章關(guān)系體系；語料標(biāo)注；

中圖分類號：TP391 文獻(xiàn)標(biāo)識號：A 文章編號：2095-2163（2015）06-

Chinese discourse relation analysis and data annotation

ZHANG Muyu， QIN Bing1， LIU Ting1

（ School of Computer Science and Technology， Harbin Institute of Technology， Harbin 150001， China）

Abstract： Discourse Relation is an important part of discourse semantic analysis. This paper analyses the differences between Chinese and English， then presents the first Chinese discourse relation hierarchy based on the English discourse relation researches with explanation in details. Based on the analysis， the paper further construct a large-scale Chinese Discourse Relation corpus， which consists of 1 096 documents. The corpus together with the related analysis during the data annotation lays a foundation for the future discourse semantic analysis.

Keywords： semantic analysis； discourse relation； Chinese discourse relation system； data annotation

0 引言

隨著詞匯語義、句子語義研究的逐漸成熟，篇章語義逐漸成為學(xué)界熱點，作為篇章語義分析的重要內(nèi)容，篇章關(guān)系研究（Discourse Relation）也開始受到越來越多的關(guān)注。本文選擇篇章關(guān)系分析作為篇章分析研究的切入點，原因在于：文檔內(nèi)的各部分內(nèi)容并不是孤立存在的，而是通過某種關(guān)系與其上下文構(gòu)成聯(lián)系，從而更好地被讀者接受與理解[1]。因此，篇章分析領(lǐng)域中的焦點問題之一就是識別兩個文本塊之間的篇章關(guān)系。在前期的工作中，研究人員已經(jīng)證明篇章關(guān)系的有效識別可以顯著改善很多自然語言處理任務(wù)的性能，對自動文摘[2]、自動問答[3]、傾向性分析[4]以及文本質(zhì)量評價[5]、文本連貫性評價[6]等許多NLP任務(wù)均將起到重大的幫助補(bǔ)益作用。

近幾年來，這一任務(wù)引起了很多研究人員的興趣，一個重要的原因就是大規(guī)模篇章關(guān)系樹庫的發(fā)布，其中最具代表性的則是賓州篇章樹庫（Penn Discourse Treebank，PDTB）[7]和修辭結(jié)構(gòu)理論樹庫（Rhetorical Structure Theory Treebank，RST-DT）[8]。總地來說，RST-DT采用了基于修辭結(jié)構(gòu)理論的方法，將待分析文檔轉(zhuǎn)化為一棵完整的篇章修辭結(jié)構(gòu)樹。這種設(shè)置理論完善，表現(xiàn)力很強(qiáng)。但是無論是樹庫構(gòu)建過程，還是自動分析過程，都面臨明顯的歧義問題，操作難度較大。為了求解以上問題，提高理論的可操作性，PDTB隨即采用了一種基于詞匯的方法，以篇章關(guān)聯(lián)詞（例如：但是）為核心標(biāo)注篇章關(guān)系。這種設(shè)置使得篇章關(guān)系的標(biāo)注歧義減小，一致性提高，結(jié)果比較可靠。雖然不可避免地會丟失一部分信息，但相比于篇章完全結(jié)構(gòu)標(biāo)注過程中存在的歧義和困難，這種基于詞匯的設(shè)置不失為一個良好的選擇和有效的突破。

目前已有的PDTB相關(guān)研究大部分都集中在英文上，雖然也有一些討論中文篇章關(guān)系語料的研究陸續(xù)涌現(xiàn)，但迄今尚無大規(guī)模的中文篇章關(guān)系語料的成果問世，這也已然成為了限制中文相關(guān)研究發(fā)展的關(guān)鍵問題。目前，中文篇章關(guān)系語料的構(gòu)建嘗試大多聚焦于標(biāo)注顯式篇章關(guān)系方向，對隱式篇章關(guān)系也并未給予足夠關(guān)注。唯一的例外是Zhou和Xue在2012年開展的工作，嘗試進(jìn)行了中文篇章關(guān)系的標(biāo)注，其中包括相鄰句子之間的隱式篇章關(guān)系標(biāo)注。隨后，Zhou和Xue在前述分析的基礎(chǔ)上標(biāo)注了164篇文檔，包括顯式關(guān)系和隱式關(guān)系兩類。然而，這些工作在分析隱式關(guān)系時都僅局限在相鄰單元之間進(jìn)行，實際上隱式關(guān)系卻大量分布于不相鄰的文本單元之間。根據(jù)統(tǒng)計，不相鄰單元之間的隱式關(guān)系占到了所有隱式關(guān)系的46.66%，而這部分信息在已有的研究中都發(fā)生了丟失。另一方面，由于缺乏中文篇章關(guān)系語料庫，加之篇章分析問題本身的復(fù)雜性，使得中文篇章關(guān)系分析模型的相關(guān)研究僅是取得了緩慢進(jìn)展。

本文首次提出面向中文的篇章關(guān)系體系，將基于篇章關(guān)系的語義分析方法應(yīng)用在中文，通過分析中英文的差異指出中文體系的必要性，詳細(xì)介紹面向中文的關(guān)系體系并通過語料標(biāo)注證明了中文體系的一致性和完備性。余下內(nèi)容組織如下：第二部分論證了中英文的差異，說明中文體系的必要性；第三部分介紹本文提出的中文篇章關(guān)系體系；第四部分研究了中文篇章關(guān)系語料標(biāo)注及問題分析；第五部分給出結(jié)論。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

中文篇章關(guān)系任務(wù)分析及語料標(biāo)注