国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向中文的修辭結(jié)構(gòu)關(guān)系分類體系及無歧義標注方法

2019-08-05 02:28侯圣巒費超群張書涵
中文信息學(xué)報 2019年7期
關(guān)鍵詞:歧義英文衛(wèi)星

侯圣巒,費超群,張書涵

(1. 中國科學(xué)院 計算技術(shù)研究所 智能信息處理重點實驗室,北京 100190;2. 中國科學(xué)院大學(xué),北京 100190)

0 引言

篇章結(jié)構(gòu)理論認為: 一篇完整、連貫的文章中,其篇章內(nèi)容并不是孤立存在的,而是存在關(guān)系的,這些關(guān)系將篇章內(nèi)容組織在一起,構(gòu)成一篇內(nèi)容具有銜接性、結(jié)構(gòu)上存在起承轉(zhuǎn)合的完整語篇。篇章結(jié)構(gòu)分析作為篇章理解的基礎(chǔ),已廣泛應(yīng)用在文本自動摘要[1]、機器翻譯[2]、信息抽取[3]等自然語言處理任務(wù)中。研究高精度的篇章結(jié)構(gòu)分析方法不僅有利于對篇章的理解,更有利于基于此技術(shù)的自然語言處理應(yīng)用的性能提升。

在眾多篇章結(jié)構(gòu)理論中,Mann和Thomspon的修辭結(jié)構(gòu)理論(rhetorical structure theory, RST)[4]是被應(yīng)用最多且影響最深遠的。修辭結(jié)構(gòu)理論最初被提出時是應(yīng)用于英文的文章組織結(jié)構(gòu)描述,目前已被廣泛應(yīng)用到各種自然語言處理任務(wù)中,用于篇章內(nèi)容的結(jié)構(gòu)分析。修辭結(jié)構(gòu)理論將篇章描述為由文本片段根據(jù)修辭結(jié)構(gòu)關(guān)系逐層次組織而成的一棵樹形結(jié)構(gòu)。其中樹結(jié)構(gòu)的葉子節(jié)點是基本篇章單元(elementary discourse unit, EDU),葉子節(jié)點根據(jù)功能關(guān)系連接成高一層次節(jié)點,再由更大的語言單位之間的關(guān)系組成更高層次節(jié)點,以此類推,直至組成完整的修辭結(jié)構(gòu)關(guān)系樹[5]。

圖1是一棵面向英文的修辭結(jié)構(gòu)關(guān)系樹的示例,相鄰節(jié)點間通過修辭結(jié)構(gòu)關(guān)系連接。

圖1 面向英文的修辭結(jié)構(gòu)關(guān)系樹示例

根據(jù)修辭結(jié)構(gòu)理論,修辭結(jié)構(gòu)關(guān)系具有如下特點:

(1)修辭結(jié)構(gòu)關(guān)系存在于不同粒度的篇章單元中,描述它們之間的修辭關(guān)系。例如,圖1中“節(jié)點1”和“節(jié)點2”通過“原因”關(guān)系連接,它們的組合與“節(jié)點3”通過“結(jié)果”關(guān)系連接。

(2)組成篇章的文本單元都是不重復(fù)并且具有獨立語義的文本片段。文本片段的最小單位是基本篇章單元,可以是句子或者子句。長度較長的文本單元則是由相鄰的短文本組成的。

(3)就作者的寫作意圖而言,一些文本片段比其他片段發(fā)揮著更重要的作用。大部分修辭結(jié)構(gòu)關(guān)系是不對稱關(guān)系,重要部分稱為“核心(nucleus)”,輔助部分稱為“衛(wèi)星(satellite)”?!昂诵摹毕噍^于“衛(wèi)星”在語篇中發(fā)揮更重要的作用。部分修辭結(jié)構(gòu)關(guān)系則是多核關(guān)系,即關(guān)系中只有“核心”成分。圖1中,弧線的箭頭指向的是“核心”,另一端是“衛(wèi)星”。

修辭結(jié)構(gòu)關(guān)系存在于相鄰片段之間,并能體現(xiàn)作者的寫作意圖,進而反映作者的寫作目的。已有工作中,基于修辭結(jié)構(gòu)理論的英文篇章結(jié)構(gòu)分析方法較多,目前已有面向英文的修辭結(jié)構(gòu)關(guān)系分類體系及修辭結(jié)構(gòu)篇章樹庫RST-DT[6]。但是,當(dāng)我們將面向英文的修辭結(jié)構(gòu)理論體系用于中文文本標注時,發(fā)現(xiàn)存在歧義和不準確的問題。鑒于中英文的語言結(jié)構(gòu)特點,無法直接將面向英文的方法應(yīng)用到中文中。

經(jīng)過分析發(fā)現(xiàn),造成這些問題的原因主要有兩個方面: 一是標注者本身未正確理解修辭結(jié)構(gòu)關(guān)系的定義,導(dǎo)致標注過程中無法確定選擇何種關(guān)系,標注出不正確的結(jié)果,我們稱之為理解問題;二是由于中文語言的復(fù)雜性和表達多樣性,標注者對同一段文本從不同的角度去理解,導(dǎo)致標注出不同的結(jié)果,我們稱之為標注歧義問題。本文基于修辭結(jié)構(gòu)理論,根據(jù)中文文本的特點,結(jié)合復(fù)句等中文文本結(jié)構(gòu)理論,提出面向中文的修辭結(jié)構(gòu)關(guān)系分類體系和標注方法。對于理解問題,我們提出層次化的修辭結(jié)構(gòu)關(guān)系分類體系及多元定義方法,便于標注者去理解關(guān)系定義;對于標注歧義問題,我們采取約定的方法,約定一種在某種語法規(guī)則情況下應(yīng)選擇何種關(guān)系的原則。在此原則下,我們提出無歧義標注方法,標注者根據(jù)該方法可以標注出無歧義或者歧義相對較小的修辭結(jié)構(gòu)關(guān)系樹。同時,為了便于標注,我們設(shè)計并實現(xiàn)了基于Java圖形界面的標注工具RSTTagger,RSTTagger采用一種自底向上的逐級標注策略,最終標注成一棵完整的修辭結(jié)構(gòu)關(guān)系樹。為了解決自然語言文本到修辭結(jié)構(gòu)關(guān)系的語義鴻溝,我們采用全息詞法鏈[7]的思想,以句子的主謂結(jié)構(gòu)關(guān)鍵詞構(gòu)成的元組作為基本標注單位,其對應(yīng)的文本稱為基本篇章單元。

本文其他部分內(nèi)容組織結(jié)構(gòu)如下: 第1節(jié)介紹相關(guān)工作;第2節(jié)詳細描述面向中文的修辭結(jié)構(gòu)關(guān)系分類體系及關(guān)系的多元定義;第3節(jié)描述標注工具RSTTagger和無歧義標注方法;第4節(jié)是標注結(jié)果及其評價;最后一節(jié)對全文進行總結(jié),并提出未來研究工作方向。

1 相關(guān)工作

面向英文的修辭結(jié)構(gòu)關(guān)系根據(jù)連接的文本片段的重要程度將關(guān)系分為單核關(guān)系和多核關(guān)系兩種,單核關(guān)系是指關(guān)系連接的兩個文本片段具有核心性,即兩個文本片段根據(jù)語義功能分別作為“核心”和“衛(wèi)星”,“衛(wèi)星”部分作為“核心”部分的輔助;多核關(guān)系是指關(guān)系連接的文本片段都是“核心”,即它們就語義功能而言同等重要。單核關(guān)系都是二元關(guān)系,多核關(guān)系可以是二元關(guān)系,也可以是多元關(guān)系。

在修辭結(jié)構(gòu)理論中,根據(jù)作者的意圖目的,單核關(guān)系又分為“主題—素材關(guān)系(subject-matter relations)”和“表象關(guān)系(presentational relations)”[8]。其中,“主題—素材關(guān)系”是指讀者能識別的文字表達內(nèi)容本身的關(guān)系,即描述對象的幾個方面。而“表象關(guān)系”是指由表層的語句實現(xiàn)深層次的意義,是為了增加讀者的某種傾向,如可信度、積極傾向、對文字描述事物的接受度等。圖2是面向英文的修辭結(jié)構(gòu)分類。

圖2 面向英文的修辭結(jié)構(gòu)關(guān)系分類

隨著對面向英文的修辭結(jié)構(gòu)理論的研究不斷深入,修辭結(jié)構(gòu)關(guān)系種類及數(shù)量也在不斷調(diào)整,從最初修辭結(jié)構(gòu)理論文獻[4]中定義的23種到當(dāng)前最新的32種[注]http://www.sfu.ca/rst/01intro/definitions.html。在這32種最新的關(guān)系分類體系中,共有25種單核關(guān)系和7種多核關(guān)系,對每種關(guān)系,關(guān)系定義都包括關(guān)系名稱(relation name)、對“衛(wèi)星”或“核心”分別的約束(constraints on either S or N individually)、對“衛(wèi)星”和“核心”同時的約束(constraints on N + S)、作者的意圖(Intention of writer)等。表1是一個面向英文的修辭結(jié)構(gòu)關(guān)系示例。

表1 一個面向英文的修辭結(jié)構(gòu)關(guān)系示例

目前已有面向英文的基于修辭結(jié)構(gòu)關(guān)系的標注數(shù)據(jù)集。RST-DT(RST Discourse TreeBank)是由美國南加州大學(xué)等多單位聯(lián)合標注并由LDC[注]https://catalog.ldc.upenn.edu/LDC2002T07公開發(fā)布的英文RST標注語料庫[6],目前已經(jīng)成為基于修辭結(jié)構(gòu)理論的篇章結(jié)構(gòu)分析方法[9-10]的實驗語料庫。RST-DT以修辭結(jié)構(gòu)理論為理論支撐,共標注了385篇英文《華爾街日報》的文章,文章題材包括財經(jīng)報道、商業(yè)新聞等,文章包含的平均詞數(shù)為458。

RST-DT將標注粒度定義為從句,規(guī)定主語從句、賓語從句及充當(dāng)主要動詞補語的從句都不屬于基本篇章單元,狀語從句和起狀語作用的非謂語動詞詞組都屬于基本篇章單元。同時,RST-DT將英文修辭結(jié)構(gòu)關(guān)系進行了細化與擴充,關(guān)系包括16個大類共78種關(guān)系。標注者由有經(jīng)驗的專業(yè)語言學(xué)家組成,通過標注工具RSTTool[11]人工對文章進行基本篇章單元劃分,并逐層次標注修辭結(jié)構(gòu)關(guān)系,直至每篇文章生成一棵完整修辭結(jié)構(gòu)關(guān)系樹。標注一致性達到較高水平。在385篇已標注完成的語料庫中,共包括21 789個基本篇章單元,基本篇章單元的平均詞數(shù)為8.1。

除了基于修辭結(jié)構(gòu)理論的篇章語料庫之外,還有賓州篇章樹庫(Penn Discourse TreeBank, PDTB)[12-13]。PDTB是一種在篇章詞匯化樹型連接語法(lexicalized tree adjoining grammar for discourse, D-LTAG)理論[14]框架下,以詞法為基礎(chǔ),標注了篇章謂詞和論元關(guān)系來表示篇章結(jié)構(gòu)。但其只是標注了底層篇章文本之間的關(guān)系,并沒有完整的篇章層次結(jié)構(gòu)信息。

漢語篇章修辭結(jié)構(gòu)標注項目CJPL[15]是由浙江大學(xué)樂明等人根據(jù)修辭結(jié)構(gòu)理論,采用大陸主要媒體的財經(jīng)評論文章作為標注語料,是迄今為止較完整的中文篇章語料庫,已完成了對97篇中文文章的標注。CJPL將基本篇章單元定義為由句號、問號、嘆號、分號、冒號、破折號、省略號及段落結(jié)束標記所分隔的文字串,并由程序完成自動切分。CJPL共定義了12個大類47種關(guān)系,在定義和數(shù)量上與面向英文的修辭結(jié)構(gòu)關(guān)系基本一致。CJPL首先根據(jù)標點符號完成對基本篇章單元的自動切分,然后使用RSTTool軟件手工標注關(guān)系,自底向上構(gòu)建中文修辭結(jié)構(gòu)關(guān)系樹。

CJPL的問題在于僅僅是根據(jù)標點符號將文章進行自然切分,生成基本篇章單元,未考慮實際的語義特征。例如,切分的標點符號基本是句號、問號等劃分句子的標點,無法將復(fù)句中的各個分句切分出來,會導(dǎo)致切分的基本篇章單元粒度過大。其標注結(jié)果初步說明了現(xiàn)代漢語可以在修辭結(jié)構(gòu)理論框架下用樹結(jié)構(gòu)表示其篇章結(jié)構(gòu)。CJPL在無歧義問題上沒有針對性工作,標注一致性尚不理想。

面向中文的相關(guān)工作還包括哈工大中文篇章關(guān)系樹庫(HIT-CDTB)[16-17],類似于面向英文的PDTB,HIT-CDTB的規(guī)模較大,但其主要標注了相鄰段落、句群、句子或子句間的關(guān)系,并沒有完整的篇章層次結(jié)構(gòu)信息。對于標注歧義問題,他們進行了多種情況分析,并給出了嘗試性解決方案。王荀、李素建等提出了內(nèi)容標簽和關(guān)系標簽相結(jié)合的漢語篇章標注體系[18],他們提出了篇章語義關(guān)系的同時也對一些重要內(nèi)容進行單獨標注,同時兼顧了對文本的語義把握和對細節(jié)的分析理解。該方法的問題在于他們提出的關(guān)系標簽缺少了文本單元的“核心”和“衛(wèi)星”的內(nèi)容,同時,根據(jù)他們提供的示例,他們只是對篇章進行“分段分句”,即切分的基本篇章單元粒度過大。該工作并沒有解決標注歧義的問題。

綜上所述,目前對面向英文的修辭結(jié)構(gòu)理論及基于該理論的修辭結(jié)構(gòu)標注語料庫研究較為完善。已有工作對中文修辭結(jié)構(gòu)篇章標注工作進行了嘗試,并初步說明了修辭結(jié)構(gòu)理論框架下標注中文篇章結(jié)構(gòu)的可行性。針對普遍存在的標注歧義性問題,已有工作并沒有給出較好的解決方案。

2 面向中文的修辭結(jié)構(gòu)關(guān)系分類體系及關(guān)系的多元定義

現(xiàn)代漢語語法中,句群理論和復(fù)句理論是兩種最常用于分析漢語篇章的理論體系[19]。句群是指在結(jié)構(gòu)上前后連貫、具有一個明晰中心意思的一群句子的組合,句群具有如下特點:

(1) 句群是由句子組合而成的,是介于句子和段落之間的語法單位,同時也是漢語語法中最大的一級語法單位。

(2) 每個句群都表達一個相對完整、明晰而又復(fù)雜的中心意思,句群中的所有句子都要圍繞著這個中心意思來表述,不能橫生枝節(jié)。

(3) 構(gòu)成句群的句子通過語法手段相互結(jié)合,在意義上前后連貫、互相照應(yīng),句與句之間存在著嚴密的邏輯關(guān)系。

不同于句群理論,復(fù)句理論描述的是句子內(nèi)部各個分句之間的關(guān)系。復(fù)句是指由兩個或幾個意義上相關(guān)、結(jié)構(gòu)上互不作句子成分的分句組成的句子。所謂分句是指結(jié)構(gòu)上類似單句而沒有完整句調(diào)的語法單位。構(gòu)成復(fù)句的各個分句之間有著一定的邏輯關(guān)系,通常通過連詞、副詞等關(guān)聯(lián)詞語連接在一起。

修辭結(jié)構(gòu)理論與句群理論及復(fù)句理論的根本假設(shè)、主要性質(zhì)是一致的,即: 處理的篇章單元都是具有獨立語義的并大于從句的文本片段;都認為文本片段之間并不是孤立存在的,而是存在著語義關(guān)系的;都有一定的標記和圖示來表示其層次關(guān)系。

在句群理論和復(fù)句理論中,最重要的是文本單元之間的邏輯關(guān)系,句群中的句子之間及復(fù)句中的子句之間都存在著邏輯關(guān)系,并且關(guān)系種類基本一致,包括并列、選擇、承接、遞進、轉(zhuǎn)折、假設(shè)、因果、條件、解說、目的等。這些邏輯關(guān)系與修辭結(jié)構(gòu)關(guān)系的對應(yīng)關(guān)系如圖3所示。

圖3 復(fù)句和句群理論中的語義關(guān)系與面向英文的修辭結(jié)構(gòu)關(guān)系的對應(yīng)關(guān)系

根據(jù)圖3可以發(fā)現(xiàn),對于復(fù)句理論和句群理論中的每一種關(guān)系,基本上都有修辭結(jié)構(gòu)關(guān)系與之對應(yīng),并且有些修辭結(jié)構(gòu)關(guān)系更加細化。同時,經(jīng)過我們的前期標注實踐,我們發(fā)現(xiàn)面向英文的修辭結(jié)構(gòu)關(guān)系基本能覆蓋中文中出現(xiàn)的語義關(guān)系,只需要將英文修辭結(jié)構(gòu)理論中的某些關(guān)系定義進行擴展和更新,就能滿足處理中文篇章結(jié)構(gòu)的需求。

為此,我們基于面向英文的修辭結(jié)構(gòu)關(guān)系定義及分類體系,結(jié)合句群理論和復(fù)句理論,提出面向中文的修辭結(jié)構(gòu)關(guān)系分類體系。在本文中,我們結(jié)合中文文本特點及面向英文的修辭結(jié)構(gòu)關(guān)系的命名,對面向中文的修辭結(jié)構(gòu)關(guān)系進行重新定義。因此,面向中文的修辭結(jié)構(gòu)關(guān)系雖然與面向英文的修辭結(jié)構(gòu)關(guān)系同名,其定義可能有所不同。

如圖4所示,我們將面向中文的修辭結(jié)構(gòu)關(guān)系定義為3層體系結(jié)構(gòu),第一層分為6個大類,第二層共19類關(guān)系,每類關(guān)系中包含一種或多種詳細的修辭結(jié)構(gòu)關(guān)系,第三層共有29種關(guān)系。其中,并列大類中所有關(guān)系、對比類關(guān)系及因果類中的“原因—結(jié)果”關(guān)系為多核關(guān)系,其余都為單核關(guān)系。

圖4 面向中文的修辭結(jié)構(gòu)關(guān)系分類體系

對于一些修辭結(jié)構(gòu)關(guān)系,僅僅通過自然語言描述關(guān)系定義可能導(dǎo)致標注者不能正確理解關(guān)系定義,或者標注過程中不同標注者對同一段從不同的角度去理解,導(dǎo)致標注結(jié)果存在歧義。我們通過語法規(guī)則及例句的方式對關(guān)系進行了多元定義。

2.1 解證

2.1.1 解說類

包括三種關(guān)系,其中詳述關(guān)系的“衛(wèi)星”為核心提供額外細節(jié),包括集合的元素、抽象的具體、整體的部分、事物的例子等??偨Y(jié)關(guān)系的核心是描述事物的多個方面,“衛(wèi)星”為核心提供簡短總結(jié)或綜述。重述關(guān)系的“衛(wèi)星”是對核心的重述,“衛(wèi)星”與“核心”文本長度相當(dāng),并且在語義上信息量相同。

語法規(guī)則:

N [其中|例如|具體來看]S (詳述關(guān)系)

N [綜上所述|總之]S (總結(jié)關(guān)系)

N [換言之]S (重述關(guān)系)

其中,“N”表示“核心”,“S”表示“衛(wèi)星”,下同。

例1今年上半年全省對外貿(mào)易進出口總額392.5億元人民幣,其中,出口109.8億元、下降4.9%。 (詳述關(guān)系)

2.1.2 背景類

包括兩種關(guān)系,其中背景關(guān)系的“衛(wèi)星”是“核心”描述事件發(fā)生的背景,用于增加讀者對“核心”的理解能力。環(huán)境關(guān)系的“衛(wèi)星”是具體時間或是與“核心”同一時間發(fā)生的事件,用于解釋“核心”發(fā)生時的情況。背景關(guān)系與環(huán)境關(guān)系的區(qū)別在于背景關(guān)系中“衛(wèi)星”描述事件發(fā)生在“核心”之前,而環(huán)境關(guān)系中“衛(wèi)星”是具體時間或是與“核心”同時發(fā)生的事件。

語法規(guī)則:

隨著S N (環(huán)境關(guān)系)

例2隨著“一帶一路”戰(zhàn)略的發(fā)布,我國外貿(mào)面臨大好時機。 (環(huán)境關(guān)系)

2.1.3 評論解釋類

此處評論解釋類關(guān)系是對面向英文的修辭結(jié)構(gòu)關(guān)系的擴充。面向英文的修辭結(jié)構(gòu)關(guān)系中,兩種評論解釋關(guān)系只是表示作者的評價,此處擴充為作者或文中第三者的評價。評論關(guān)系與解釋關(guān)系的區(qū)別在于,評論關(guān)系是作者對“核心”描述內(nèi)容的評論,解釋關(guān)系是通過引述或數(shù)據(jù)事實對“核心”描述內(nèi)容的解釋。

語法規(guī)則:

N [數(shù)據(jù)顯示|據(jù)了解|據(jù)分析]S (解釋關(guān)系)

例3我國外貿(mào)出口累計降幅已連續(xù)4個月收窄。數(shù)據(jù)顯示,大型成套和高附加值產(chǎn)品的出口保證正增長,通信設(shè)備、集成電路等高附加值產(chǎn)品的出現(xiàn)增長較快。 (解釋關(guān)系)

2.1.4 證實類

證實關(guān)系表示“衛(wèi)星”是“核心”的證據(jù),“核心”所述內(nèi)容是一個事實或觀點,“衛(wèi)星”給出具體數(shù)字或其他證據(jù)來使讀者相信“核心”內(nèi)容是正確的。證明關(guān)系是“衛(wèi)星”給出一個陳述但留下了未說明的問題,“衛(wèi)星”則是讀者想知道的答案或結(jié)果。

例4但今年1月份,機電產(chǎn)品出口乏力,共出口11.3億美元,同比下降4.1%。 (證實關(guān)系)

張五是一個毒梟,應(yīng)該把他繩之以法。 (證明關(guān)系)

2.2 因果

因果類關(guān)系分為3種: 原因關(guān)系(cause)、結(jié)果關(guān)系(result)和原因—結(jié)果關(guān)系(cause-result),若“衛(wèi)星”導(dǎo)致“核心”,則是原因關(guān)系;反之若“衛(wèi)星”是由“核心”引起的,則是結(jié)果關(guān)系;若原因與結(jié)果同等重要,則是原因—結(jié)果關(guān)系。

2.3 條件

條件關(guān)系的“衛(wèi)星”是一個假設(shè)、未來或未實現(xiàn)的場景,“核心”的實現(xiàn)依賴于“衛(wèi)星”的實現(xiàn),如“只要……就……”、“只有……才……”。無條件關(guān)系的“衛(wèi)星”能影響“核心”實現(xiàn),但“核心”的實現(xiàn)并不完全依賴于“衛(wèi)星”。除非關(guān)系的“核心”實現(xiàn)的前提是“衛(wèi)星”未實現(xiàn),否則關(guān)系的“核心”的實現(xiàn)會阻止“衛(wèi)星”的實現(xiàn)。

語法規(guī)則:

如果S N (條件關(guān)系)

N除非S (除非關(guān)系)

例5如果全球經(jīng)濟繼續(xù)保持基本穩(wěn)定,下半年四川外貿(mào)進出口降幅將繼續(xù)收窄。 (條件關(guān)系)

毒梟否認販毒,但是警察用鐵證證明了他販毒。

(無條件關(guān)系)

2.4 對比轉(zhuǎn)折

2.4.1 對比類

對比關(guān)系表示兩個“核心”之間的對比,兩“核心”在多方面都相同,在某幾個方面不同,并比較這種不同。

例6大陸自香港進口同比暴增108.1%,而對香港出口同比則下降2.6%。 (對比關(guān)系)

2.4.2 轉(zhuǎn)折類

對立關(guān)系和讓步關(guān)系都表示轉(zhuǎn)折,都是通過對比“衛(wèi)星”與“核心”中的內(nèi)容來映襯對“核心”中內(nèi)容的積極傾向,二者的區(qū)別在于讓步關(guān)系中作者不贊成但不否認“衛(wèi)星”所描述內(nèi)容,而對立關(guān)系中作者否認“衛(wèi)星”所述內(nèi)容。

例7今年的政府工作報告中,對2016年外貿(mào)發(fā)展沒有提出具體數(shù)字指標,而是強調(diào)要推進新一輪高水平對外開放。 (讓步關(guān)系)

但我并不認為少花錢是一種攢錢的好方式,多賺錢才是攢錢的王道。 (對立關(guān)系)

2.5目的方式

目的關(guān)系的“衛(wèi)星”是一個未實現(xiàn)的場景,“核心”是一個動作或活動,“衛(wèi)星”是“核心”的目的。方式關(guān)系的“衛(wèi)星”通過“核心”部分來實現(xiàn)。解決關(guān)系的“衛(wèi)星”是一個問題,“核心”是該問題的解決方案。動機關(guān)系,即“衛(wèi)星”是“核心”的動機。鋪墊關(guān)系的“衛(wèi)星”是“核心”的鋪墊。當(dāng)前情況下,能使關(guān)系的“核心”未實現(xiàn),“衛(wèi)星”會增加“核心”實現(xiàn)的可能性。

語法規(guī)則:

為了S 應(yīng)當(dāng)N (目的關(guān)系)

S 將有助于N (能使關(guān)系)

例8上海自貿(mào)試驗區(qū)作為我國參與新一輪自由貿(mào)易區(qū)網(wǎng)絡(luò)構(gòu)建重要的突破點,要借助“一帶一路”戰(zhàn)略,積極探尋與“一帶一路”沿線的65個國家進行雙邊投資合作。 (方式關(guān)系)

政府實施“一帶一路”政策,將有利于外貿(mào)的發(fā)展。 (能使關(guān)系)

張三撬開了李四的房門,偷偷溜了進去。 (鋪墊關(guān)系)

2.6 并列

連接關(guān)系是一種多核關(guān)系,包括合取的連接和復(fù)句理論中的遞進關(guān)系。選擇關(guān)系的關(guān)系各元素分別描述事件,并且從中選擇一個事件。并列關(guān)系的各元素分別是幾種事物或觀點,元素之間是平行并列關(guān)系。承接關(guān)系的各元素是接連發(fā)生的幾個事件,存在時間或邏輯上的順序。接合關(guān)系是一種偽關(guān)系,其他關(guān)系都不合適的時候利用該關(guān)系。

語法規(guī)則:

N [并且|同時|此外] N (連接關(guān)系)

N [或者|要么] N (選擇關(guān)系)

N [一是|二是|三是] N (并列關(guān)系)

N [首先|其次|再次|第一|第二|第三] N (承接關(guān)系)

例9進口4億元,下降32%;貿(mào)易順差38.9億元,擴大40.3%。 (連接關(guān)系)

我們將某些面向英文的修辭結(jié)構(gòu)關(guān)系的定義進行了擴充,例如,評論關(guān)系原來表示作者對所描述事物的評價,此處擴充為作者或文中第三者的評價;面向英文的修辭結(jié)構(gòu)關(guān)系中將因果關(guān)系分為非意志性原因、非意志性結(jié)果、意志性原因和意志性結(jié)果4種關(guān)系,但就中文篇章結(jié)構(gòu)處理任務(wù)來說,計算機很難自動區(qū)分意志性還是非意志性,因此將上述4種關(guān)系合并成原因和結(jié)果兩種關(guān)系,同時加入新的多核關(guān)系: “原因—結(jié)果”關(guān)系表示原因和結(jié)果同等重要的情況;面向英文的修辭結(jié)構(gòu)關(guān)系中能使關(guān)系定義為讀者理解“衛(wèi)星”所描述內(nèi)容后增加了讀者執(zhí)行“核心”描述動作的潛在能力,常用語、廣告語中,此處將其意思擴展為能使關(guān)系。

例10政府實施“一帶一路”政策,將有利于外貿(mào)的發(fā)展。

3 標注工具及無歧義標注方法

3.1 標注工具RSTTagger

為了便于標注,我們設(shè)計并實現(xiàn)了基于Java GUI的標注工具RSTTagger。RSTTagger既可用于修辭結(jié)構(gòu)關(guān)系標注,也可用于瀏覽和檢索標注結(jié)果。圖5是RSTTagger的全面板視圖,共包括4個面板,分別是Article面板、RS Tree面板、HLC面板和KeyWords面板。

圖5 RSTTagger全面板視圖

Article面板用于瀏覽文章內(nèi)容,可以顯示待標注、已標注文檔目錄及當(dāng)前文章內(nèi)容。當(dāng)單擊文檔目錄中的文件名時,對應(yīng)的文章就會顯示在文章窗口中。

RS Tree面板用于標注當(dāng)前文章的RST樹結(jié)構(gòu),包括兩個窗口。上窗口用于添加樹節(jié)點或瀏覽選中文章的修辭結(jié)構(gòu)關(guān)系樹,當(dāng)單擊樹結(jié)構(gòu)的某個節(jié)點時,Article面板的文章窗口會跳轉(zhuǎn)并高亮顯示該節(jié)點所對應(yīng)的文本片段。下窗口用于檢索已標注文章中的修辭結(jié)構(gòu)關(guān)系。

HLC面板顯示及檢索所有全息詞法鏈及其名稱,可以將全息詞法鏈進行層次化命名,例如,“外貿(mào)進出口狀況—出口狀況—出口增長”。面板底部窗口用于搜索。

KeyWords面板是所有句子主謂結(jié)構(gòu)關(guān)鍵詞組成的詞串列表,此面板可以實現(xiàn)詞串列表的增刪改查。

利用RSTTagger進行修辭結(jié)構(gòu)標注的具體步驟如下:

① 配置參數(shù)文件,包括待標注文檔的位置、標注文件的存放位置等;

② 以命令行或者批處理方式啟動RSTTagger;

③ 單擊Article面板中的文件名,其他面板會顯示相應(yīng)的信息,可以在RS Tree面板中進行拖動,標注修辭結(jié)構(gòu)關(guān)系,直至標注完成一棵完整的修辭結(jié)構(gòu)關(guān)系樹。

3.2 無歧義標注方法

現(xiàn)代漢語語法中,根據(jù)句子結(jié)構(gòu),可以把句子分為主謂句和非主謂句兩類[19]。主謂句是由主語和謂語兩部分構(gòu)成的句子,是在中文語言表達中最常用的句式。由于自然語言結(jié)構(gòu)的復(fù)雜性及表達方式的靈活性,我們在標注的時候以句子的主謂結(jié)構(gòu)組成的全息詞法鏈作為標注基礎(chǔ),并假設(shè)任意領(lǐng)域語料的基本篇章單元都可以由有限條詞法鏈來覆蓋。

修辭結(jié)構(gòu)關(guān)系樹的葉子節(jié)點對應(yīng)子句或者簡單句,中間節(jié)點對應(yīng)由下一級相鄰節(jié)點組成的中間篇章片段,包括句子、段落、整篇文章。在面向中文的修辭結(jié)構(gòu)關(guān)系中,大部分是二元關(guān)系,只有多核關(guān)系可以是多元關(guān)系。為了便于處理,我們統(tǒng)一標注成二叉樹結(jié)構(gòu),對于連接關(guān)系或并列關(guān)系等多核關(guān)系,可通過如圖6所示的方式轉(zhuǎn)化成二元結(jié)構(gòu)[20]。

圖6 多元關(guān)系轉(zhuǎn)化成二元關(guān)系

由于中文語言的復(fù)雜性和表達多樣性,標注者對同一段文本從不同的角度去理解,標注出的結(jié)果是不同的,我們通過總結(jié)語法結(jié)構(gòu)特點并約定準則的方式,統(tǒng)一標注成某種關(guān)系,可以消除歧義。例如,表2中給出的是中文外貿(mào)領(lǐng)域文本的語法結(jié)構(gòu)對應(yīng)的關(guān)系類型。

表2 語法結(jié)構(gòu)對應(yīng)的關(guān)系類型

結(jié)合上節(jié)給出的面向中文的修辭結(jié)構(gòu)關(guān)系多元定義以及標注原則,具體的無歧義標注算法如算法1所示。

算法1 面向中文的篇章修辭結(jié)構(gòu)無歧義標注方法

注: 對于過程3中關(guān)系的標注,首先確定應(yīng)標注成單核關(guān)系還是多核關(guān)系,若是單核關(guān)系,通過刪除測試的方式來確定“核心”與“衛(wèi)星”部分。即當(dāng)去掉某一部分后,若剩余部分仍然能夠充當(dāng)文本中的角色,則去掉部分為“衛(wèi)星”,剩余部分為“核心”;若去掉某一部分后,文本變得不夠連貫,則去掉部分為“核心”,剩余部分為“衛(wèi)星”。具體關(guān)系的名稱則根據(jù)關(guān)系定義和約定準則來確定。

4 標注結(jié)果及評價

我們從互聯(lián)網(wǎng)上選擇中文外貿(mào)領(lǐng)域語料作為此次標注的實驗語料,從網(wǎng)上爬取該領(lǐng)域文章網(wǎng)頁后,程序自動解析網(wǎng)頁得到文章的正文,共得到261篇外貿(mào)評論性文章。鑒于標注工作量較大,基于上述面向中文的修辭結(jié)構(gòu)關(guān)系分類體系,我們隨機選取其中的160篇進行標注。表3是標注語料庫的屬性。

表3 160篇標注語料屬性

通過上述對面向中文的修辭結(jié)構(gòu)關(guān)系多元定義及無歧義標注方法對該160篇文章進行了標注。統(tǒng)計已標注文章的修辭結(jié)構(gòu)關(guān)系數(shù)量發(fā)現(xiàn),處于前5位的高頻關(guān)系及其頻度占比如表4所示,這恰恰符合所選領(lǐng)域語料的特點,連接關(guān)系居首說明語料中含有大量并列連接類的文本,例如,“出口9.2億元,同比增長60.4%;進口0.5億元,同比下降10.2%;貿(mào)易順差8.7億元,擴大67.8%?!保辉斒鲫P(guān)系次之也符合該類文章“先總括,后詳述”的特點;評論和證實關(guān)系的高頻次出現(xiàn)也同樣驗證了該領(lǐng)域文本評估性文字及舉證文字較多。

表4 前5位高頻關(guān)系

為了驗證標注一致性,我們從160篇文本語料庫中隨機選取50篇文本,兩人同時對該50篇文章進行獨立標注。標注過程分為兩個部分,一部分是在未定義面向中文的修辭結(jié)構(gòu)關(guān)系及無歧義方法時,直接利用面向英文的修辭結(jié)構(gòu)關(guān)系進行中文外貿(mào)領(lǐng)域語料的標注;另一部分是根據(jù)本文定義的關(guān)系及設(shè)計的標注方法進行標注。標注對比結(jié)果如圖7所示。此處我們采用通用的修辭結(jié)構(gòu)關(guān)系樹衡量標準[5,18],將整棵樹拆分成高度為1的子樹形式,其中,“結(jié)構(gòu)”表示具有相同結(jié)構(gòu)的子樹占所有子樹的比例;“核心”表示在“結(jié)構(gòu)”相同的基礎(chǔ)上,“核心”也相同(即都標注成“核心”或者都標注成“衛(wèi)星”)的子樹所占比例;“關(guān)系”表示在“核心”相同的基礎(chǔ)上,關(guān)系名稱也標注一致的子樹所占比例。由于我們利用RSTTagger自動標注基本篇章單元,所以我們計算得到的準確率和召回率相同。

圖7 標注結(jié)果對比

實驗結(jié)果表明,在我們提出的標注框架下,標注一致性達到理想結(jié)果,“關(guān)系”一致性結(jié)果為76.63%。相比較于直接利用面向英文的修辭結(jié)構(gòu)理論進行標注,在“關(guān)系”層面,我們的方法標注一致性提升了25.54%。

從上述實驗結(jié)果中可以看出我們方法的可行性,并且比直接利用面向英文的修辭結(jié)構(gòu)理論進行標注有了大幅提升。解決歧義問題是篇章標注的一個重要問題,標注得到數(shù)據(jù)的質(zhì)量將直接影響基于該數(shù)據(jù)的自然語言處理應(yīng)用的性能。結(jié)合我們的標注結(jié)果分析,我們已標注的語料可以作為篇章結(jié)構(gòu)分析的實驗語料庫。

5 結(jié)論

本文研究了面向中文的修辭結(jié)構(gòu)關(guān)系分類體系及無歧義標注方法,通過分析已有的篇章語料庫中的關(guān)系分類、基于面向英文的修辭結(jié)構(gòu)關(guān)系定義,結(jié)合中文句群理論和復(fù)句理論,提出了面向中文的修辭結(jié)構(gòu)關(guān)系分類體系。為了便于標注,設(shè)計并實現(xiàn)了標注工具RSTTagger。同時,針對標注過程中遇到的歧義問題,我們首先通過對面向中文的修辭結(jié)構(gòu)關(guān)系進行關(guān)系的多元定義,如增加語法結(jié)構(gòu)特征的方式,幫助標注者理解關(guān)系定義。然后通過總結(jié)語法結(jié)構(gòu)特征,根據(jù)語法準則來判定其關(guān)系,消除歧義。

選擇外貿(mào)領(lǐng)域語料作為測試語料,最終標注了160篇修辭結(jié)構(gòu)關(guān)系樹,兩位標注者同時標注其中的50篇來驗證標注一致性。同時,標注工具RSTTagger及標注方法可應(yīng)用到其他領(lǐng)域文本的修辭結(jié)構(gòu)標注上。已標注的樹庫可以作為篇章結(jié)構(gòu)分析的實驗語料庫。

下一步的工作重點是利用已標注語料作為實驗語料庫進行篇章結(jié)構(gòu)分析,將基于修辭結(jié)構(gòu)理論的篇章結(jié)構(gòu)分析應(yīng)用到文本摘要、文本生成等自然語言處理應(yīng)用中。

猜你喜歡
歧義英文衛(wèi)星
miniSAR遙感衛(wèi)星
現(xiàn)代漢語歧義類型的再討論
eUCP條款歧義剖析
靜止衛(wèi)星派
語文教學(xué)及生活情境中的歧義現(xiàn)象
英文摘要
英文摘要
Puma" suede shoes with a focus on the Product variables
英文摘要
英文摘要