吳云芳,徐藝峰,王愷然
(計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)) 北京 100871)
?
漢語(yǔ)篇章級(jí)小句關(guān)系的標(biāo)注體系
吳云芳,徐藝峰,王愷然
(計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)) 北京 100871)
句際關(guān)系自動(dòng)分析屬于篇章語(yǔ)義學(xué)研究的范疇,雖然英語(yǔ)句際關(guān)系的研究已有大量工作,但漢語(yǔ)句際關(guān)系的自動(dòng)分析還只是剛剛起步。該文在RST理論框架下,結(jié)合漢語(yǔ)特點(diǎn),提出了完整的漢語(yǔ)篇章級(jí)小句關(guān)系標(biāo)注體系。將漢語(yǔ)話題和邏輯關(guān)系置于同一個(gè)框架下進(jìn)行描述,將小句關(guān)系劃分為事件附屬關(guān)系和事件邏輯關(guān)系兩大類。邏輯關(guān)系又包括6個(gè)中類、15個(gè)小類。目前已在人民日?qǐng)?bào)語(yǔ)料上完成了8 000個(gè)句子的小句關(guān)系標(biāo)注。抽取出其中1 000個(gè)句子檢測(cè)了雙盲標(biāo)注的一致性,揭示了漢語(yǔ)意合性語(yǔ)言小句關(guān)系標(biāo)注的困難;并基于標(biāo)注數(shù)據(jù)對(duì)關(guān)系類型進(jìn)行了定量分析,指示了漢語(yǔ)句際關(guān)系自動(dòng)分析將面臨的重點(diǎn)和難點(diǎn)。
句際關(guān)系;小句關(guān)系;語(yǔ)料庫(kù)標(biāo)注
句際關(guān)系分析旨在探討句子之間存在的或并列、或因果、或轉(zhuǎn)折等多種邏輯關(guān)系,是實(shí)現(xiàn)文本內(nèi)容深層理解的必需環(huán)節(jié)。句際關(guān)系的研究屬于篇章分析(discourse analysis)的范疇。修辭結(jié)構(gòu)理論(Rhetorical Structure Theory, RST)[1]將篇章結(jié)構(gòu)劃分為兩個(gè)層級(jí): 高層是整篇文本的結(jié)構(gòu)框架(schema),基層是局部段落中句子與句子之間的連貫關(guān)系(coherence relations),篇章的整體關(guān)系就由這兩個(gè)層次搭建起來(lái)。廖秋忠[2]指出,篇章研究可以分為兩大類: 篇章連貫與篇章結(jié)構(gòu)的研究。句際關(guān)系自動(dòng)分析即是研究篇章微觀層面的意義連貫。從發(fā)展趨向看,中文信息處理研究由字、詞、句拓展到篇章層面,具有重要的理論意義。
句際關(guān)系自動(dòng)分析有著廣泛的實(shí)踐應(yīng)用價(jià)值,可應(yīng)用于文本摘要、語(yǔ)篇生成、智能問(wèn)答、情感分析、機(jī)器翻譯等,能顯著提升相關(guān)應(yīng)用系統(tǒng)的性能。Louis 和Nenkova[3]基于實(shí)例關(guān)系和闡釋關(guān)系來(lái)自動(dòng)判別概括句和具體句,應(yīng)用于文本摘要。Lin et al.[4]自動(dòng)識(shí)別出句際關(guān)系,利用句際關(guān)系的轉(zhuǎn)移矩陣對(duì)句子重新排序,比前人方法的錯(cuò)誤率下降了29%。Girju[5]基于WordNet的語(yǔ)義類,利用詞匯模式自動(dòng)識(shí)別因果關(guān)系,將其嵌入到一個(gè)問(wèn)答系統(tǒng)中,對(duì)因果類問(wèn)句的準(zhǔn)確率提升了25%。張志昌等[6]處理Why型問(wèn)題回答時(shí),利用關(guān)聯(lián)標(biāo)記、特定語(yǔ)義角色、詞間蘊(yùn)涵來(lái)識(shí)別句子之間的因果關(guān)系。Wang 和Wu[7]擬合不同句際關(guān)系的權(quán)值,使篇章級(jí)情感分析的性能得到了顯著提升。Guzman et al.[8]研究表明,句際結(jié)構(gòu)分析可以提升自動(dòng)機(jī)器翻譯評(píng)測(cè)的性能。
句際關(guān)系的自動(dòng)分析研究強(qiáng)烈依賴于句際關(guān)系標(biāo)注語(yǔ)料庫(kù),另一方面近年來(lái)句際關(guān)系標(biāo)注語(yǔ)料庫(kù)的建設(shè)大大刺激了句際關(guān)系的研究熱潮。面對(duì)國(guó)外語(yǔ)言信息處理篇章語(yǔ)義關(guān)系的研究熱潮,學(xué)界急切期待有廣泛影響的、全面系統(tǒng)的、信息處理用的漢語(yǔ)句際關(guān)系標(biāo)注語(yǔ)料庫(kù)。而高質(zhì)量語(yǔ)料庫(kù)建設(shè)的基礎(chǔ)和前提是科學(xué)的標(biāo)注體系和完善的標(biāo)注規(guī)范。
面向大規(guī)模高質(zhì)量漢語(yǔ)句際關(guān)系標(biāo)注語(yǔ)料庫(kù)的建設(shè),本文提出了信息處理用漢語(yǔ)篇章級(jí)小句關(guān)系的標(biāo)注體系,并報(bào)告了真實(shí)文本中小句關(guān)系的標(biāo)注實(shí)踐。第2節(jié)評(píng)述了國(guó)內(nèi)外句際關(guān)系標(biāo)注語(yǔ)料庫(kù)的建設(shè)狀況;第3節(jié)闡釋了小句關(guān)系的標(biāo)注原則;第4節(jié)設(shè)定了小句關(guān)系的關(guān)系類型;第5節(jié)描述了對(duì)1 000個(gè)句子的雙盲標(biāo)注及其一致性檢驗(yàn);第6節(jié)基于標(biāo)注語(yǔ)料對(duì)句際關(guān)系進(jìn)行了定量分析;第7節(jié)是本文總結(jié)和進(jìn)一步工作的展望。
2.1 句際關(guān)系語(yǔ)料庫(kù)的建設(shè)
近年來(lái),在篇章語(yǔ)義研究熱潮的帶動(dòng)下,英語(yǔ)等國(guó)外語(yǔ)言都紛紛建設(shè)句際關(guān)系語(yǔ)料庫(kù),漢語(yǔ)也曾有句際關(guān)系語(yǔ)料庫(kù)構(gòu)建的一些初期嘗試。
英語(yǔ)中的句際關(guān)系標(biāo)注語(yǔ)料庫(kù)主要有兩個(gè)。(1) 英語(yǔ)篇章標(biāo)注語(yǔ)料庫(kù)(RST-DT),是由Carlson et al.[9]依據(jù)修辭結(jié)構(gòu)理論RST構(gòu)建的,設(shè)定了78種修辭關(guān)系,標(biāo)注了賓州樹庫(kù)中的385篇華爾街日?qǐng)?bào)文檔。(2)賓州篇章樹庫(kù)(Penn Discourse TreeBank, PDTB),標(biāo)注了2 159篇共計(jì)100萬(wàn)詞的華爾街日?qǐng)?bào)文檔,先于2006年發(fā)布了第一版,后又于2008年發(fā)布了第二版[10]。另外,其他語(yǔ)言例如印地文、土耳其語(yǔ)、捷克語(yǔ)、哥本哈根語(yǔ)、阿拉伯語(yǔ)也紛紛仿效PDTB構(gòu)建了句際關(guān)系語(yǔ)料庫(kù)。
漢語(yǔ)中有關(guān)句際關(guān)系的語(yǔ)料庫(kù)主要如下: (1)清華大學(xué)構(gòu)建的漢語(yǔ)樹庫(kù)[11],描述了句際之間11種語(yǔ)義關(guān)系,是依附于句法樹庫(kù)的一個(gè)副產(chǎn)品。(2)Xue[12]依據(jù)PDTB的方法,提出了漢語(yǔ)句際關(guān)系樹庫(kù)建設(shè)的主要理念;Zhou and Xue[13]提出了類PDTB(PDTB-Style)的漢語(yǔ)篇章樹庫(kù)標(biāo)注方法,在參照PDTB方法的同時(shí)針對(duì)漢語(yǔ)特性作出了很多修正。(3)華中師范大學(xué)開發(fā)的“漢語(yǔ)復(fù)句語(yǔ)料庫(kù)”[14],全部收錄的是有關(guān)聯(lián)標(biāo)記的復(fù)句,共計(jì)658 447句,語(yǔ)料主要選摘自《人民日?qǐng)?bào)》和《長(zhǎng)江日?qǐng)?bào)》,但未收錄沒有關(guān)聯(lián)標(biāo)記的隱性句際關(guān)系。(4)浙江大學(xué)建設(shè)的漢語(yǔ)篇章修辭結(jié)構(gòu)標(biāo)注語(yǔ)料庫(kù)[15],借助RST的理論體系和標(biāo)注工具,自底向上構(gòu)建篇章關(guān)系樹,選取的語(yǔ)料主要是財(cái)經(jīng)文本,主要標(biāo)注句子間的語(yǔ)義關(guān)系而未標(biāo)注小句間的語(yǔ)義關(guān)系。(5)臺(tái)灣大學(xué)依據(jù)PDTB的標(biāo)注理念,在Sinica樹庫(kù)的81篇文檔上標(biāo)注了句際關(guān)系[16],但臺(tái)灣的報(bào)刊語(yǔ)言和大陸的規(guī)范漢語(yǔ)存在著很多詞匯和句法上的差別。(6)2013年底,哈工大構(gòu)建的漢語(yǔ)篇章關(guān)系語(yǔ)料(HIT-CDTB)[17]對(duì)外公開。選取了OntoNotes 4.0中的525篇文章。針對(duì)每一篇文本,標(biāo)注了三部分內(nèi)容: 分句篇章關(guān)系(篇章關(guān)系涉及到的兩個(gè)關(guān)系元素位于同一個(gè)句子內(nèi))、復(fù)句篇章關(guān)系(兩個(gè)關(guān)系元素是兩個(gè)獨(dú)立的句子)和句群篇章關(guān)系(篇章關(guān)系涉及的兩個(gè)關(guān)系元素都是句子集合)。但是在標(biāo)注體系上,哈工大語(yǔ)料庫(kù)更多依循了PDTB的標(biāo)注理念,有些方面并不能反映漢語(yǔ)的語(yǔ)言實(shí)際。
綜上,現(xiàn)有的漢語(yǔ)句際關(guān)系標(biāo)注語(yǔ)料庫(kù)還不能完全滿足中文信息處理的需求。因此,我們將致力于構(gòu)建一個(gè)大規(guī)模高質(zhì)量的漢語(yǔ)句際關(guān)系標(biāo)注語(yǔ)料庫(kù),力爭(zhēng)為漢語(yǔ)句際關(guān)系研究提供基礎(chǔ)資源和基準(zhǔn)語(yǔ)料。
2.2 漢語(yǔ)復(fù)句語(yǔ)義關(guān)系的研究
漢語(yǔ)語(yǔ)言學(xué)中有關(guān)句際關(guān)系的探討主要集中于復(fù)句研究,是描寫性的而非實(shí)證性的,是面向人的而非面向機(jī)器的。徐赳赳[18]比較分析了漢語(yǔ)語(yǔ)言學(xué)復(fù)句研究與修辭結(jié)構(gòu)理論RST的區(qū)別: 復(fù)句研究的理論不夠系統(tǒng),而后者理論較為完整;復(fù)句研究注重關(guān)聯(lián)詞語(yǔ)的形式標(biāo)記,而后者注重功能。
前人從不同的角度出發(fā)提出了多種不同的分類方法,主要有下面三種代表性的觀點(diǎn): (1) 呂淑湘和朱德熙[19]提出了直分法,劃分為并行、進(jìn)一步、交替、比例、比較得失、因果、條件、無(wú)條件、讓步、假設(shè)等十種關(guān)系。(2) 胡裕樹[20]主張“聯(lián)合-偏正”二分法,把復(fù)句分為聯(lián)合和偏正兩大類,聯(lián)合類又分為并列、連貫、遞進(jìn)、選擇四類,偏正類又分為因果、條件、讓步、轉(zhuǎn)折四類。這種二分法的影響很大,是很多語(yǔ)文教材所采用的分類體系。(3) 邢福義[21]主張“因果-并列-轉(zhuǎn)折”三分系統(tǒng),因果類復(fù)句又分為因果、推斷、假設(shè)、條件、目的五類;并列類復(fù)句又分為并列、連貫、遞進(jìn)、選擇四類;轉(zhuǎn)折類復(fù)句又分為轉(zhuǎn)折、讓步、假設(shè)三類。另外,吳為章和田小琳[22]區(qū)分了句子與句子組成句群時(shí)的12種語(yǔ)義關(guān)系,包括并列、連貫、遞進(jìn)、選擇、總分、解證、因果、目的、條件、轉(zhuǎn)折、假設(shè)、讓步等,由于漢語(yǔ)中逗號(hào)使用的靈活性使復(fù)句與句群的界限變得模糊,句群的關(guān)系類型一般也適用于描述復(fù)句的語(yǔ)義關(guān)系。
3.1 篇章理論支撐
句際關(guān)系可以從結(jié)構(gòu)關(guān)聯(lián)和語(yǔ)義關(guān)聯(lián)兩個(gè)方面來(lái)描述。
結(jié)構(gòu)關(guān)聯(lián)方面,我們選擇修辭結(jié)構(gòu)理論RST作為指導(dǎo)。RST理論將篇章結(jié)構(gòu)分為兩個(gè)層級(jí),目前我們只關(guān)注基層句與句之間的連貫關(guān)系。主要理論主張是: (1)關(guān)系性,小句之間存在著各種語(yǔ)義關(guān)系,絕大部分關(guān)系是不對(duì)稱的,可分為“核心成分(nucleus)”和“從屬成分(satellite)”兩類;(2)功能性,小句之間的語(yǔ)義關(guān)系是從功能的角度來(lái)考量的;(3)層次性,小句之間的關(guān)系不是一個(gè)扁平結(jié)構(gòu),而是一個(gè)層級(jí)結(jié)構(gòu)。RST理論和PDTB理念的最大區(qū)別是,RST要求整個(gè)文本塊形成一個(gè)完整的樹結(jié)構(gòu),而PDTB在一個(gè)局部上下文窗口內(nèi)來(lái)描述邏輯關(guān)系。我們?cè)赗ST框架下來(lái)構(gòu)建漢語(yǔ)篇章樹庫(kù),更符合漢語(yǔ)傳統(tǒng)語(yǔ)言學(xué)的理念;而前人所建漢語(yǔ)篇章語(yǔ)料庫(kù)大多依循了PDTB框架,并不能反映漢語(yǔ)的實(shí)際。
在表征形式上,句際關(guān)系形成一顆層級(jí)結(jié)構(gòu)樹。為了形式上的統(tǒng)一和處理的方便,我們將多核心的并列關(guān)系轉(zhuǎn)變成了右向的二叉樹結(jié)構(gòu)。例如對(duì)下面的例1句子,{n}表示逗號(hào)隔開的語(yǔ)言片段的序號(hào)),可用圖1的樹結(jié)構(gòu)來(lái)表示,其中,弧上的標(biāo)簽表示語(yǔ)義關(guān)系類型,弧的箭頭指向中心成分。
例1 {1}中國(guó)雖然面臨耕地少、人口多、糧食需求壓力大的現(xiàn)實(shí),[轉(zhuǎn)折,1,2-4]{2}但也存在著巨大的發(fā)展?jié)摿?[分述,2,3-4]{3}中國(guó)有解決糧食問(wèn)題的經(jīng)驗(yàn)和辦法,[并列,3,4]{4}農(nóng)民中蘊(yùn)藏著巨大的生產(chǎn)積極性,[因果,1-4,5-6]{5}完全有理由相信, [屬性,5,6]{6}中國(guó)政府和人民有能力依靠自己的力量解決糧食供給問(wèn)題。
圖1 句際關(guān)系樹示例
語(yǔ)義關(guān)聯(lián)方面,我們借鑒RST、PDTB以及漢語(yǔ)傳統(tǒng)語(yǔ)言學(xué)的分類體系,提出了事件附屬關(guān)系和事件邏輯關(guān)系兩大類關(guān)系類型,詳見下文的描述。
3.2 漢語(yǔ)語(yǔ)言理論支撐
前賢語(yǔ)言學(xué)家指出[23-24],漢語(yǔ)是話題優(yōu)先的語(yǔ)言(topic-prominent),是篇章取向的語(yǔ)言(discourse-oriented language);而英語(yǔ)是主語(yǔ)優(yōu)先的語(yǔ)言(subject-prominent),是句子取向的語(yǔ)言(sentence-oriented language)。漢語(yǔ)語(yǔ)言的這兩個(gè)特性對(duì)句際關(guān)系自動(dòng)分析和標(biāo)注有著重要的影響。
話題優(yōu)先意味著話題在漢語(yǔ)真實(shí)文本中頻繁出現(xiàn),其語(yǔ)義轄域可能覆蓋到后續(xù)的一個(gè)或多個(gè)句子。話題經(jīng)常由短語(yǔ)結(jié)構(gòu)(例如名詞短語(yǔ)或者介詞短語(yǔ))來(lái)充當(dāng), 而不是一個(gè)包含主謂結(jié)構(gòu)的句子。話題的廣泛存在使得基本篇章單元(elementary discourse unit, EDU)的切分成為漢語(yǔ)句際關(guān)系分析中一個(gè)相對(duì)困惑的問(wèn)題,而英語(yǔ)句際關(guān)系研究中EDU的識(shí)別是一個(gè)頗為容易的問(wèn)題。
篇章取向意味著漢語(yǔ)所謂的句子和篇章之間不存在明顯的界限,漢語(yǔ)的句子不等同于英語(yǔ)中的sentence。雖然形式上是以句點(diǎn)結(jié)束,但漢語(yǔ)句子可以包含多套完整的主謂結(jié)構(gòu),導(dǎo)致一個(gè)句子可以很長(zhǎng)很復(fù)雜。篇章取向混淆了漢語(yǔ)句子和篇章的嚴(yán)格區(qū)分,使得句子層面的篇章分析(sentence-level
discourse parsing)和文本層面的篇章分析(text-level discourse parsing)疊加在一起。也因此,在本文的行文中,小句關(guān)系和句際關(guān)系沒有作嚴(yán)格的區(qū)分。
上述兩個(gè)語(yǔ)言特征使?jié)h語(yǔ)句際關(guān)系分析一開始就遭遇兩個(gè)問(wèn)題: 如何確定一個(gè)句子以及如何確定一個(gè)基本單元。本文以一種實(shí)用的、直觀的方法來(lái)解決這兩個(gè)問(wèn)題,以句點(diǎn)顯性標(biāo)識(shí)的一個(gè)語(yǔ)言片段稱之為一個(gè)句子,其中以逗號(hào)分隔的語(yǔ)言片段稱之為小句,一個(gè)小句即對(duì)應(yīng)于一個(gè)句際關(guān)系的基本單元。本文目標(biāo)是處理句子層面的結(jié)構(gòu)和語(yǔ)義關(guān)系,但是漢語(yǔ)的句子有些時(shí)候其實(shí)就相當(dāng)于英語(yǔ)的文本級(jí)篇章,因此本文描述的小句關(guān)系體系可以便捷地遷移到宏觀的篇章層面。我們將逗號(hào)分隔的語(yǔ)言片段即看作是一個(gè)基本單元,用不同的關(guān)系標(biāo)簽來(lái)標(biāo)示,關(guān)于逗號(hào)的種種歧義問(wèn)題期待能在高層的篇章分析層面來(lái)聯(lián)合解決。
3.3 標(biāo)注原則
(1) 標(biāo)注單元
目前階段我們集中于句子范圍內(nèi)小句之間語(yǔ)義關(guān)系的識(shí)別和標(biāo)注。句子的認(rèn)定遵從“點(diǎn)號(hào)標(biāo)句”的從眾性原則,即以標(biāo)點(diǎn)符號(hào)“。?。?;……”等分隔開的語(yǔ)言片段。而更大單元的篇章語(yǔ)義關(guān)系識(shí)別,例如句群之間的語(yǔ)義關(guān)系留待將來(lái)的研究。根據(jù)我們前期的考察和預(yù)標(biāo)注,句子之間的關(guān)系松散且相對(duì)簡(jiǎn)單,而小句之間的關(guān)系緊密且豐富多樣。
小句關(guān)系的基本組成單元EDU是“小句”,即形式上以逗號(hào)“,”分隔開的語(yǔ)言片段,既可以是一個(gè)主謂結(jié)構(gòu)也可以是一個(gè)名詞性短語(yǔ)、介詞性短語(yǔ)等。
(2) 顯性和隱性關(guān)系
我們將對(duì)文本中任意相鄰的兩個(gè)小句均標(biāo)注句際關(guān)系,而不論是否有關(guān)聯(lián)標(biāo)記的連接。對(duì)于有關(guān)聯(lián)標(biāo)記的顯性關(guān)系,標(biāo)注者參考關(guān)聯(lián)標(biāo)記來(lái)標(biāo)注關(guān)系類型。而對(duì)于隱性關(guān)系,標(biāo)注者只能通過(guò)意義功能的理解來(lái)標(biāo)注關(guān)系類型,但不需要像PDTB那樣補(bǔ)充出關(guān)聯(lián)標(biāo)記。因?yàn)闈h語(yǔ)中隱性關(guān)系不是關(guān)聯(lián)標(biāo)記的簡(jiǎn)單省略,而是通過(guò)詞匯、句法語(yǔ)義來(lái)承載句際語(yǔ)義功能,在很多情形下無(wú)法加入一個(gè)合適的關(guān)聯(lián)標(biāo)記。
(3) 層級(jí)結(jié)構(gòu)
漢語(yǔ)小句關(guān)系形成一顆有層級(jí)結(jié)構(gòu)的樹,不允許有非樹結(jié)構(gòu)的存在,例如共享論元、嵌套論元、交叉論元和重疊論元。
(4) 關(guān)系類型
兩個(gè)語(yǔ)段之間只能標(biāo)注唯一的一種關(guān)系類型,且需要標(biāo)注到最細(xì)層次的關(guān)系類型。
(5) 論元標(biāo)示
聯(lián)合關(guān)系都是多核心結(jié)構(gòu),主從關(guān)系都是單核心結(jié)構(gòu)。為了處理上的統(tǒng)一和方便,聯(lián)合關(guān)系以最右向成分作為核心。這樣,任何一個(gè)小句關(guān)系都有且僅有兩個(gè)論元語(yǔ)段組成,核心論元和從屬論元。
小句關(guān)系的本旨在于描述事件之間的各種關(guān)系,我們將其分為事件附屬關(guān)系和事件邏輯關(guān)系兩大類。事件邏輯關(guān)系標(biāo)示了不同事件之間的各種邏輯關(guān)系,例如因果、轉(zhuǎn)折等;而事件附屬關(guān)系則交待了事件發(fā)生的時(shí)間、地點(diǎn)、發(fā)出者及其他話語(yǔ)成分。針對(duì)漢語(yǔ)特點(diǎn)提出了“事件附屬關(guān)系”,是本文體系與前人研究的顯著不同。
前人在研究復(fù)句語(yǔ)義關(guān)系時(shí),專注于描述事件之間并列、轉(zhuǎn)折、因果等多種邏輯關(guān)系,卻有意無(wú)意忽略了復(fù)句中存在的描述時(shí)間、地點(diǎn)、所屬等語(yǔ)義內(nèi)容的語(yǔ)言片段。另一方面,前人在研究漢語(yǔ)的話題結(jié)構(gòu)時(shí),專注于證明話題的存在以及說(shuō)明漢語(yǔ)的“話題-評(píng)述”結(jié)構(gòu),但對(duì)于評(píng)述結(jié)構(gòu)中又存在的各樣邏輯關(guān)系卻不關(guān)心。描述同一個(gè)語(yǔ)言對(duì)象,復(fù)句語(yǔ)義關(guān)系和話題結(jié)構(gòu)從不同的角度加以關(guān)照和描寫,卻像兩條不相交的平行線。而事實(shí)上,在實(shí)際的語(yǔ)料庫(kù)標(biāo)注過(guò)程中,要標(biāo)注一個(gè)完整的句子生成一棵完整的層級(jí)結(jié)構(gòu)樹,話題等成分的標(biāo)注和邏輯關(guān)系的標(biāo)注是缺一不可的。本文體系將話題結(jié)構(gòu)和邏輯關(guān)系置于同一個(gè)框架下進(jìn)行描述和標(biāo)注,充分照顧了漢語(yǔ)特點(diǎn),使標(biāo)注體系更加簡(jiǎn)潔、完整和有效。
4.1 事件附屬關(guān)系
根據(jù)對(duì)語(yǔ)料的考察,事件附屬關(guān)系進(jìn)一步可劃分為以下三類。
(1) 話題(topic)[TOP]
引出一個(gè)話題,或者闡述事件發(fā)生的時(shí)間地點(diǎn)即時(shí)域式話題(如例2),或者是事件的所屬施動(dòng)者即所屬式話題(如例3)。話題經(jīng)常將其轄域延伸至后面多個(gè)小句而形成話題鏈。話題是語(yǔ)言類型學(xué)上漢語(yǔ)的顯赫范疇之一,將其顯性標(biāo)示出來(lái),可以凸顯漢語(yǔ)特色。另一方面,話題在漢語(yǔ)真實(shí)文本中高頻出現(xiàn),如果不加標(biāo)注,則無(wú)以形成完整的層級(jí)結(jié)構(gòu)樹,人工標(biāo)注者將無(wú)所適從,最終將導(dǎo)致語(yǔ)料的標(biāo)注一致性非常低。
例2 {1}在未來(lái)的世界,[TOP,1,2-3]{2}各個(gè)國(guó)家和各個(gè)民族能夠始終和睦相處、友好合作、共同發(fā)展,{3}能夠建立起公正合理的國(guó)際政治經(jīng)濟(jì)新秩序。
例3 {1)吉林省梨樹縣女農(nóng)民蔡淑珍,[TOP,1,2-6]{2}過(guò)去不懂技術(shù),{3}養(yǎng)雞雞死,{4}養(yǎng)兔兔亡,{5}賠了幾萬(wàn)元,{6}險(xiǎn)些尋了短見。
(2) 屬性(attribute)[ATT]
表明言談內(nèi)容的發(fā)出者或者意見的持有者。這與PDTB語(yǔ)料是類似的。這樣的標(biāo)注信息對(duì)于有些應(yīng)用(例如情感計(jì)算)非常有用。
例4 {1}朱邦照說(shuō),[ATT,1,2-3]{2}中方認(rèn)為,[ATT,2,3]{3}葉利欽總統(tǒng)辭職是俄羅斯的內(nèi)部事務(wù)。
(3) 標(biāo)記(marker)[MAR]
話語(yǔ)標(biāo)記不參與命題意義的表達(dá),在言談當(dāng)中起組織結(jié)構(gòu)、建立關(guān)聯(lián)的作用,一般是由詞語(yǔ)性成分或者詞匯化的短語(yǔ)性成分充當(dāng)。同話題、屬性一樣,話語(yǔ)標(biāo)記的語(yǔ)義轄域也經(jīng)常延伸至后面多個(gè)小句。以往的研究中,將話語(yǔ)標(biāo)記常常附加于其后的第一個(gè)小句,但不能反映話語(yǔ)標(biāo)記真正的語(yǔ)義轄域。
例5 {1}同時(shí),[MAR,1,2-3]{2}也希望你們安全生產(chǎn)、經(jīng)濟(jì)調(diào)度,{3}實(shí)現(xiàn)經(jīng)濟(jì)增長(zhǎng)方式的轉(zhuǎn)變。
4.2 事件邏輯關(guān)系
在大量參考前人文獻(xiàn)的基礎(chǔ)上,通過(guò)考察真實(shí)文本語(yǔ)料,我們?cè)O(shè)定了表1所示的事件邏輯關(guān)系類型。表中“[ ]”內(nèi)表示英文標(biāo)記符。
表1 漢語(yǔ)小句邏輯關(guān)系類型
表1所示的小句關(guān)系包含大、中、小三種關(guān)系類型,顯示了不同粒度下的類型區(qū)分。大類上(CLASS)區(qū)分為“聯(lián)合”和“主從”,這符合漢語(yǔ)語(yǔ)言學(xué)的一般認(rèn)識(shí),也符合RST理論關(guān)于“核心”與“從屬”成分的論述。中類上劃分為六個(gè)類別,最細(xì)致的小類上劃分為15個(gè)類別。我們?cè)谠O(shè)定具體關(guān)系類型時(shí),密切考慮了智能問(wèn)答、情感計(jì)算等自然語(yǔ)言處理應(yīng)用系統(tǒng)的需求。在上述大、中、小三層語(yǔ)義關(guān)系下,進(jìn)行句際關(guān)系分析時(shí)可以根據(jù)實(shí)際應(yīng)用需求選擇不同的粒度。
(1) 等立 [COOR]
表示同類事物的并列,或者表示類似事件的并存。常用關(guān)聯(lián)標(biāo)記是“也”、“又”、“還”,“一方面……另一方面……”等。
例6 {1}舊西藏交通險(xiǎn)阻,[COOR,1,2]{2}行路艱辛,{3}貨物運(yùn)輸、郵件傳遞全靠人背畜馱。
(2) 時(shí)序 [TEMP]
表示相關(guān)的事件依時(shí)間序列先后發(fā)生。常用關(guān)聯(lián)標(biāo)記是“接著”、“然后”等。
例7 {1}穆罕默德塔拉爾1929年11月1日出生于旁遮普省,[TEMP,1,2-3]{2}1951年畢業(yè)于旁遮普大學(xué)法學(xué)院,[TEMP,2,3]{3}1974年供職于拉合爾高等法院。
(3) 選擇 [ALT]
表示在兩個(gè)事件中作出選擇。常用關(guān)聯(lián)標(biāo)記是“或者……或者……”等。
例8 {1}主要原因不在于英文或華文難學(xué),[ALT,1,2]{2}或教師教得好,{3}而在于缺少學(xué)習(xí)動(dòng)機(jī)與缺乏機(jī)會(huì)使用所學(xué)語(yǔ)文。
(4) 遞進(jìn) [PROG]
表示兩個(gè)事件在量上有增強(qiáng)遞進(jìn)的關(guān)系。常用關(guān)聯(lián)標(biāo)記是“不但……而且……”等。
例9 {1}可以肯定,{2}人類在未來(lái)仍將與科技為伍,[PROG,2,3]{3}并且會(huì)愈來(lái)愈依賴它,{4}科技之利與弊仍將伴隨我們進(jìn)入下一世紀(jì)。
(5) 順承 [SUCC]
一個(gè)接一個(gè)地說(shuō)出連續(xù)的動(dòng)作或者相關(guān)的事件。一般而言,當(dāng)不存在其他明顯的句內(nèi)關(guān)系時(shí),標(biāo)注“順承”。
例10 {1}本世紀(jì)初,{2}數(shù)萬(wàn)名華人勞工遠(yuǎn)涉重洋來(lái)到南非,[SUCC,2,3]{3}同當(dāng)?shù)厝嗣褚坏罏槟戏堑拈_發(fā)作出了貢獻(xiàn)。
(6) 轉(zhuǎn)折 [CONT]
說(shuō)明兩個(gè)事件在邏輯上有逆轉(zhuǎn)關(guān)系。常用關(guān)聯(lián)標(biāo)記是“但是……”等。
例11 {1}主要原因不在于英文或華文難學(xué),{2}或教師教得好,[CONT,1-2,3]{3}而在于缺少學(xué)習(xí)動(dòng)機(jī)與缺乏機(jī)會(huì)使用所學(xué)語(yǔ)文。
(7) 讓步 [CONC]
前一小句先做出讓步,后一小句作出轉(zhuǎn)折。常用關(guān)聯(lián)標(biāo)記是“即使……也……”等。
例12 {1}即使送出去了,[CONC,1,2]{2}收者也不一定領(lǐng)情。
(8) 因果 [CAUS]
說(shuō)明事物間的因果聯(lián)系,是典型的推論關(guān)系。常用關(guān)聯(lián)標(biāo)記是“因?yàn)椤浴钡取?/p>
例13 {1}孤兒是祖國(guó)的未來(lái),[CAUS,1,2]{2}也必須得到母愛。
(9) 結(jié)果 [RESU]
說(shuō)明因施行某種行為而產(chǎn)生的結(jié)果。常用的連接標(biāo)記是“導(dǎo)致”“使得”等。
例14 {1}可以肯定,{2}人類在未來(lái)仍將與科技為伍,{3}并且會(huì)愈來(lái)愈依賴它,[RESU,2-3,4]{4}科技之利與弊仍將伴隨我們進(jìn)入下一世紀(jì)。
(10) 目的 [PURP]
說(shuō)明施行某種行為的目的。常用關(guān)聯(lián)標(biāo)記是“為了……”等。
例15 {1}而應(yīng)當(dāng)繼續(xù)努力,[PURP,1,2]{2}促使經(jīng)濟(jì)進(jìn)一步回升。
(11) 假設(shè) [HYP]
以某種假設(shè)即某種虛擬性條件作為前提從而得出某種結(jié)論。常用關(guān)聯(lián)標(biāo)記是“如果……就……”等。
例16 {1}沒有法制保障人民主權(quán)和個(gè)人權(quán)利的實(shí)現(xiàn),[HYP,1,2]{2}人民就不會(huì)有當(dāng)家作主的意識(shí)。
(12) 條件 [COND]
以某種條件為依據(jù)推斷出某種結(jié)果。常用關(guān)聯(lián)標(biāo)記是“只有……才……”等。
例17 {1}不管遇到什么事情,[COND,1,2]{2}我們必須前進(jìn)。
(13) 解證 [EXPL]
前一小句說(shuō)明一個(gè)現(xiàn)象或者事實(shí),后面小句從某一角度來(lái)進(jìn)一步闡釋這個(gè)現(xiàn)象或者解釋事實(shí)。
例18 {1}中國(guó)的上海市與夸—納省開展了多領(lǐng)域的經(jīng)濟(jì)合作,[EXPL,1,2]{2}先后建立了家電、五金、搪瓷、文具等企業(yè)。
(14) 分述 [LIST]
前一小句是概括,后面的小句列舉其中包含的元素,一般包含兩個(gè)以上的元素。
例19 {1}出席茶話會(huì)的還有: [LIST,1,2-4]{2}中央軍委委員傅全有、于永波、王克、王瑞林,{3}全國(guó)人大常委會(huì)秘書長(zhǎng)曹志,{4}全國(guó)政協(xié)秘書長(zhǎng)朱訓(xùn)等有關(guān)方面負(fù)責(zé)人和各界人士共400多人。
(15) 總括 [GENE]
前面的小句陳述一系列相關(guān)事情,后面小句總括前面小句的意思。常用關(guān)聯(lián)詞語(yǔ)有“總而言之”、“一言以蔽之”等。
例20 {1}依法治國(guó)、建設(shè)法治國(guó)家的實(shí)質(zhì),{2}就是要確保黨和政府依法執(zhí)政和依法行政,{3}執(zhí)法司法部門依法辦事,{4}公民依法行使權(quán)利和履行義務(wù),[GENE,2-4,5-6]{5}一句話,{6}就是要從法律和制度上保障人權(quán)。
5.1 語(yǔ)料標(biāo)注
在上述標(biāo)注體系的指導(dǎo)下,我們?cè)O(shè)計(jì)開發(fā)了句際關(guān)系標(biāo)注的計(jì)算機(jī)輔助軟件。在這款軟件中,標(biāo)注者可以方便地進(jìn)行結(jié)構(gòu)的分析和關(guān)系的標(biāo)注,軟件可以對(duì)非樹結(jié)構(gòu)進(jìn)行自動(dòng)檢測(cè)和報(bào)錯(cuò)。實(shí)踐證明,計(jì)算機(jī)輔助標(biāo)注軟件大大提高了標(biāo)注速度,減少了人工的誤操作。
我們選取了2000年2月的人民日?qǐng)?bào)語(yǔ)料作為標(biāo)注文本,目前已完成了一個(gè)月語(yǔ)料的所有標(biāo)注。我們將精選一部分標(biāo)注語(yǔ)料在北大計(jì)算語(yǔ)言學(xué)研究所的網(wǎng)站上公布,供研究者免費(fèi)下載和使用。
語(yǔ)料庫(kù)人工標(biāo)注的一致性(inter-annotator agreement)是衡量語(yǔ)料庫(kù)標(biāo)注質(zhì)量的重要指標(biāo)。因此,我們抽取了1 000個(gè)句子進(jìn)行雙盲標(biāo)注(doubly blind),即兩個(gè)標(biāo)注者依據(jù)標(biāo)注規(guī)范分別獨(dú)立標(biāo)注語(yǔ)料,不可以交流討論,兩個(gè)標(biāo)注者不一致的數(shù)據(jù)再由第三者進(jìn)行仲裁,最后生成黃金標(biāo)注數(shù)據(jù)。三個(gè)標(biāo)注者均為語(yǔ)言學(xué)專業(yè)背景。
漢語(yǔ)句際關(guān)系的語(yǔ)料標(biāo)注是一件困難的工作。由于漢語(yǔ)是意合性語(yǔ)言,小句之間常常不用顯性的關(guān)聯(lián)標(biāo)記來(lái)連接,而是依靠上下文語(yǔ)境、詞匯語(yǔ)義等來(lái)承載邏輯關(guān)系,由此,不同標(biāo)注者在“揣測(cè)”小句之間的層級(jí)結(jié)構(gòu)和邏輯關(guān)系時(shí)會(huì)產(chǎn)生不一致。這些不一致暴露了漢語(yǔ)句際關(guān)系標(biāo)注的困難,有些情形下揭示了句際關(guān)系體系設(shè)定的不合理之處,提示了標(biāo)注體系改進(jìn)和完善的方向。
5.2 層級(jí)結(jié)構(gòu)的標(biāo)注一致性
雙盲標(biāo)注的1 000個(gè)句子中,小句數(shù)目大于等于3的句子數(shù)是528,即有528個(gè)句子包含兩層以上的小句關(guān)系,也即所謂“多重復(fù)句”。我們對(duì)這528個(gè)句子來(lái)檢測(cè)句際層級(jí)結(jié)構(gòu)的標(biāo)注一致性。評(píng)測(cè)中,使用寬式和嚴(yán)式兩種評(píng)價(jià)指標(biāo)。
嚴(yán)式一致性(strict agreement):
(1)
寬式一致性(looseagreement):
(2)
表2匯報(bào)了句際層級(jí)結(jié)構(gòu)的標(biāo)注一致性,嚴(yán)式和寬式一致性非常接近。68%的層級(jí)結(jié)構(gòu)一致性不是很高,這一方面是由于所選取的語(yǔ)料是人民日?qǐng)?bào)語(yǔ)料,政論性文體中的句子長(zhǎng)度普遍偏長(zhǎng)且句子結(jié)構(gòu)相對(duì)復(fù)雜,另一方面也說(shuō)明,漢語(yǔ)句子的層級(jí)結(jié)構(gòu)標(biāo)注是一件很困難的工作,一致性比較難以把握。
表2 層級(jí)結(jié)構(gòu)的標(biāo)注一致性
5.3 關(guān)系類型的標(biāo)注一致性
關(guān)系類型的標(biāo)注一致性建立在層級(jí)結(jié)構(gòu)標(biāo)注一致的基礎(chǔ)之上,即只有在兩個(gè)標(biāo)注者層級(jí)結(jié)構(gòu)標(biāo)注一致的前提下才能夠計(jì)算邏輯關(guān)系類型的一致性。由于小句關(guān)系是大、中、小三層的層次結(jié)構(gòu),因此我們?cè)谥蓄惡托☆悆蓚€(gè)不同的粒度上來(lái)評(píng)價(jià)邏輯關(guān)系的標(biāo)注一致性。我們將“話題、屬性、標(biāo)記”合并為“附屬關(guān)系”,看作是與“并列、對(duì)比、推論、條件、總分、分總”相平行的中類標(biāo)簽。句際關(guān)系類型一致性的計(jì)算公式如下:
(3)
表3 關(guān)系類型的標(biāo)注一致性
表3匯報(bào)了關(guān)系類型的標(biāo)注一致性。在小類層次上,語(yǔ)義關(guān)系的一致性不盡如人意;而在中類層次上,語(yǔ)義關(guān)系的一致性有了顯著提升。句際關(guān)系的研究大都集中在中類層次上,因此74.4%的一致性還是比較滿意的。
5.4 關(guān)系類型的混淆矩陣
標(biāo)注體系中關(guān)系類別的設(shè)定是否合理,某種程度上可以用真實(shí)文本標(biāo)注的實(shí)踐來(lái)驗(yàn)證。如果兩個(gè)類別混淆度很高,說(shuō)明這兩個(gè)類別界限不清晰,或許應(yīng)該加以合并;如果某個(gè)類別與其他諸多類別都有混淆,說(shuō)明這個(gè)類別定義不清晰、地位不明確,需要重新解釋重做定義。由此,關(guān)系類型的混淆矩陣提示了標(biāo)注體系進(jìn)一步完善的方向。
為了了解兩個(gè)標(biāo)注者之間不一致性較高的關(guān)系類型,我們基于雙盲標(biāo)注語(yǔ)料統(tǒng)計(jì)分析了不同句際關(guān)系之間的混淆程度,如表4、表5所示。
表4 中類標(biāo)注的混淆矩陣
根據(jù)表4, 在中類關(guān)系層次上,1)由于其中一個(gè)標(biāo)注者傾向于判定“并列”關(guān)系,使得“并列-推論”、“并列-附屬”的混淆程度較高;2)由于其中一個(gè)標(biāo)注者傾向于判定附屬關(guān)系,使得“附屬”與其他諸多類別都發(fā)生了混淆;3)從總體上看,“并列”和“附屬”這兩個(gè)類別在文本中出現(xiàn)頻度高,且易于別類發(fā)生混淆,因此在標(biāo)注規(guī)范中需要更為詳細(xì)的說(shuō)明。
根據(jù)表5,在小類關(guān)系層次上,1)由于其中一個(gè)標(biāo)注者傾向于判定“順承”關(guān)系,使得“順承-結(jié)果”、“順承-話題”、“順承-目的”的混淆程度高,因此對(duì)于“順承”關(guān)系,標(biāo)注規(guī)范中還需詳加描述;2) 由于其中一個(gè)標(biāo)注者傾向于判定“話題”關(guān)系,使得“話題-目的”、“話題-解證”、“話題-因果”的混淆程度高;3)“標(biāo)記-話題”的混淆程度較高;4)由于對(duì)“時(shí)序”關(guān)系的定義不清晰,“時(shí)序”語(yǔ)義類的一致性較差。
表5 小類標(biāo)注的混淆矩陣
在2000年2月的人民日?qǐng)?bào)語(yǔ)料上,已經(jīng)由一名語(yǔ)言學(xué)者標(biāo)注了所有句子的小句關(guān)系,其中抽取1 000個(gè)句子進(jìn)行了嚴(yán)格的雙盲標(biāo)注,又對(duì)其中2 000個(gè)句子進(jìn)行了多次的人工校對(duì),現(xiàn)一共有大于等于2個(gè)小句的黃金標(biāo)注數(shù)據(jù)2 100個(gè)句子?;谶@2 100個(gè)句子,我們統(tǒng)計(jì)分析了小句關(guān)系的不同分布,以期對(duì)漢語(yǔ)句際關(guān)系有較為全面的定量認(rèn)識(shí),提示進(jìn)一步研究的重點(diǎn)和難點(diǎn)。
6.1 不同關(guān)系類型的分布
在不同粒度的層面上,不同關(guān)系類型的分布如表6所示??梢钥闯?,在真實(shí)的新聞體語(yǔ)料中,不同關(guān)系的分布是極不平衡的。在小類關(guān)系層次上,分布頻率最高的是“等立”關(guān)系,其次是“話題”,兩者分布之和高達(dá)41.9%;而“讓步”、“選擇”、“分述”、“假設(shè)”、“條件”等關(guān)系出現(xiàn)的頻率非常低。在中類關(guān)系層次上,分布頻率最高的是“并列”關(guān)系,其次是“附屬”關(guān)系,然后是“推論”關(guān)系,三者分布之和高達(dá)85.8%,而“對(duì)比”、“條件”、“總分”、“分總”的分布都是比較低的?!霸掝}”的高頻出現(xiàn)驗(yàn)證了本文設(shè)置“事件附屬關(guān)系”的合理性和重要性,如果沒有這種關(guān)系類型,標(biāo)注者在標(biāo)注真實(shí)文本時(shí)將會(huì)無(wú)所適從。
表6 不同關(guān)系類型的分布
6.2 顯性和隱性關(guān)系的分布
關(guān)聯(lián)標(biāo)記對(duì)于句際關(guān)系的類型區(qū)分有重要提示作用,前人的復(fù)句研究中非常重視關(guān)聯(lián)標(biāo)記的作用。參考前賢的研究文獻(xiàn),我們列出了表征不同語(yǔ)義關(guān)系的139個(gè)連詞、80個(gè)副詞。據(jù)此關(guān)聯(lián)標(biāo)記詞表,對(duì)2 100個(gè)句子統(tǒng)計(jì)分析了有標(biāo)記顯性關(guān)系和無(wú)標(biāo)記隱性關(guān)系的分布,如表7所示。在統(tǒng)計(jì)時(shí)摒除了三種附屬關(guān)系。
表7顯示,顯性關(guān)系的比例僅為20.1%,而隱性關(guān)系的比例高達(dá)79.9%。漢語(yǔ)復(fù)句研究中非常重視關(guān)聯(lián)標(biāo)記的作用,而事實(shí)上在真實(shí)文本中,大量分布的是沒有關(guān)聯(lián)標(biāo)記的隱性關(guān)系。根據(jù)英語(yǔ)PDTB
表7 顯性和隱性關(guān)系的分布
語(yǔ)料的統(tǒng)計(jì)[25],40 600個(gè)句際關(guān)系中,顯性關(guān)系的比例為45.5%,隱性關(guān)系的比例為54.5%。與英語(yǔ)語(yǔ)言相比較,漢語(yǔ)隱性關(guān)系的分布比例高出許多。隱性關(guān)系的廣泛分布與漢語(yǔ)“意合型語(yǔ)言”的特性是相符合的,即小句之間的語(yǔ)義關(guān)系不是依據(jù)形式標(biāo)記而主要是依據(jù)內(nèi)部的邏輯語(yǔ)義來(lái)鏈接。因此,關(guān)聯(lián)標(biāo)記的作用在大規(guī)模漢語(yǔ)真實(shí)文本處理中是很受限制的,漢語(yǔ)句際關(guān)系自動(dòng)識(shí)別的重點(diǎn)和難點(diǎn)應(yīng)該是隱性關(guān)系而非顯性關(guān)系。
6.3 不同類型顯性和隱性關(guān)系的分布
進(jìn)一步地,我們統(tǒng)計(jì)了不同語(yǔ)義類型下有標(biāo)記和無(wú)標(biāo)記的分布,在統(tǒng)計(jì)時(shí)摒除了三種特殊的附屬關(guān)系以及出現(xiàn)次數(shù)極少的“讓步”關(guān)系,結(jié)果如表8 所示,顯示時(shí)按照無(wú)標(biāo)記隱性關(guān)系的出現(xiàn)頻率由高到低排列。
表8 不同關(guān)系顯性和隱性的分布
表8顯示,只有遞進(jìn)、轉(zhuǎn)折、選擇這三種邏輯關(guān)系顯性多于隱性關(guān)系,其余的邏輯關(guān)系都是隱性明顯多于顯性關(guān)系。順承、分述、結(jié)果、總括這四種關(guān)系,隱性類型占據(jù)的比例均高達(dá)90%以上。相比之下,假設(shè)、因果、條件這三種邏輯關(guān)系顯性和隱性的比例相對(duì)平衡。
漢語(yǔ)篇章級(jí)句際關(guān)系的研究才剛剛起步。本文綜述了國(guó)內(nèi)外篇章樹庫(kù)構(gòu)建的狀況,評(píng)述了漢語(yǔ)復(fù)句的有關(guān)研究成果。在此基礎(chǔ)上,我們提出了漢語(yǔ)小句關(guān)系的標(biāo)注體系,針對(duì)漢語(yǔ)話題優(yōu)先的語(yǔ)言特點(diǎn),明確提出了“事件附屬關(guān)系”和“事件邏輯關(guān)系”的分類規(guī)范。依據(jù)這個(gè)初步的標(biāo)注規(guī)范,對(duì)人民日?qǐng)?bào)語(yǔ)料進(jìn)行了人工標(biāo)注,現(xiàn)階段已經(jīng)標(biāo)注完成1個(gè)月的人民日?qǐng)?bào)語(yǔ)料,并抽取其中1 000個(gè)句子進(jìn)行了雙盲標(biāo)注檢測(cè)?;跇?biāo)注語(yǔ)料,統(tǒng)計(jì)分析了小句關(guān)系的不同分布,包括不同語(yǔ)義類型的分布和顯性隱性關(guān)系的分布,指出了漢語(yǔ)句際關(guān)系自動(dòng)分析將面臨的重點(diǎn)和難點(diǎn)。
進(jìn)一步的研究工作將沿三個(gè)方向來(lái)開展。其一,進(jìn)一步完善小句關(guān)系標(biāo)注規(guī)范,在更大的語(yǔ)料上、組織更多的人力來(lái)標(biāo)注小句關(guān)系。其二,將小句關(guān)系拓展到句子之間、句群之間甚或段落之間,形成更為全面完善的漢語(yǔ)句際關(guān)系標(biāo)注規(guī)范。其三,基于句際關(guān)系標(biāo)注語(yǔ)料庫(kù),開展句際關(guān)系自動(dòng)分析的研究,構(gòu)建漢語(yǔ)篇章分析器,初步滿足自動(dòng)文摘、智能問(wèn)答、情感計(jì)算等應(yīng)用系統(tǒng)的實(shí)際需求。
[1] Mann W,Thompson S. Rhetorical structure theory: towards a functional theory of text organization [J], Text, 1998, 8(3): 243-281.
[2] 廖秋忠. 廖秋忠文集[M]. 北京: 北京語(yǔ)言學(xué)院出版社,1992.
[3] Louis A, Nenkova A. Automatic identification of general and specific sentences by leveraging discourse annotations[C]//Proceedings of EMNLP, 2011.
[4] Lin Z, Ng H, Kan M. Automatically evaluating text coherence using discourse relations[C]//Proceedings of ACL, 2011.
[5] Girju R. Automatic detection of causal relations for question answering[C]//Proceedings of ACL workshop on multilingual summarization and question answering, 2003.
[6] 張志昌,張宇,劉挺,李生. 基于話題和修辭識(shí)別的閱讀理解Why型問(wèn)題回答[J]. 計(jì)算機(jī)研究與發(fā)展,2011, 48(2):216-223.
[7] Wang F, Wu Y. Exploiting discourse relations for sentiment analysis[C]//Proceedings of COLING, 2012.
[8] Guzman F, Joty S, Marquez L, Nakov P. Using Discourse Structure Improves Machine Translation Evaluation[C]//Proceedings of ACL, 2014.
[9] Carlson L, Marcu D, Okurowski M, Okurowski M. Building a discourse-tagged corpus in the framework of Rhetorical Structure Theory[C]//Proceedings of the 2nd SIGDIAL workshop on discourse and dialogue, 2001.
[10] Prasad R, Dinesh N, Lee A, et al. The Penn Discourse TreeBank 2.0[C]//Proceedings of LREC, 2008.
[11] 周強(qiáng). 漢語(yǔ)句法樹庫(kù)標(biāo)注體系[J]. 中文信息學(xué)報(bào),2004,18(4):1-8.
[12] Xue N. Annotating discourse connectives in the Chinese Treebank[C]//Proceedings of the Workshop on Frontiers in Corpus Annotations, 2005.
[13] Zhou Y, Xue N. PDTB-style discourse annotation of Chinese text[C]//Proceedings of ACL, 2012.
[14] 邢福義,姚雙云.漢語(yǔ)復(fù)句語(yǔ)料庫(kù)的建設(shè)與利用[C]//載朱小健主編《中文信息處理的探索與實(shí)踐》. 北京: 北京師范大學(xué)出版社, 2006.
[15] 樂明. 漢語(yǔ)篇章修辭結(jié)構(gòu)的標(biāo)注研究[J].中文信息學(xué)報(bào), 2008,22(4): 19-23,42.
[16] Huang H, Chen H. Chinese discourse relation recognition[C]//Proceedings of IJCNLP, 2011.
[17] 張牧宇,秦兵,劉挺.漢語(yǔ)篇章級(jí)句間語(yǔ)義關(guān)系體系及標(biāo)注[C]//Proceedings of CCIR 2012.
[18] 徐赳赳. 現(xiàn)代漢語(yǔ)篇章語(yǔ)言學(xué)[M]. 北京: 商務(wù)印書館, 2010.
[19] 呂淑湘,朱德熙. 語(yǔ)法修辭講話(第2版)[M]. 北京: 中國(guó)青年出版社, 1979.
[20] 胡裕樹(主編). 現(xiàn)代漢語(yǔ)(重訂本)[M]. 上海: 上海教育出版社, 1995.
[21] 邢福義. 漢語(yǔ)復(fù)句研究[M]. 北京: 商務(wù)印書館, 2001.
[22] 吳為章,田小琳. 漢語(yǔ)句群[M]. 北京: 商務(wù)印書館, 2000.
[23] Li N, Thompson A. Subject and topic: a new typology of languages[M]. Li N. (eds). Subject and Topic. New York: Academic Press.1976.
[24] 曹逢甫. 主題在漢語(yǔ)中的功能研究[M]. 北京: 語(yǔ)文出版社.1995.
[25] Prasad R, Miltsakaki E Dinesh, et al. The Penn discourse treebank 2.0 annotation manual[C]//Proceedings of IRCS Technical Reports Series, 2008.
Intra-Sentence Relationship Annotation Scheme for Chinese Discourse Analysis
WU Yunfang, XU Yifeng, WANG Kairan
(Key Laboratory of Computational Linguistics, Ministry of Education, Peking University, Beijing 100871, China)
Automatic discourse analysis has aroused strong interests in the recent years. Compared to the bulks of work on English discourse analysis, much less work has been done in Chinese discourse parsing. A non-negligible reason is that there is no well-annotated Chinese discourse corpus publically available. Under the RST-framework, this paper proposes an intra-sentence relationship annotation scheme for Chinese discourse analysis. We consider both the topic and the logic aspect, discriminating the attachment relationship and logic relationship in Chinese intra-sentence relationship. The logic relationship consists of 6 types and 15 subtypes. Up to now, we have annotated 8,000 sentences in thePeopleDailyNews. We check 1,000 sentences in a double-blind manner for the inter-annotator agreement, which may give a hint for the difficulties in this task. Based on the annotated data, we give some statistics analysis and demonstrate some challenges for Chinese automatic discourse analysis.
discourse relation; Intra-Sentence Relationship; corpus annotation
吳云芳(1973—),博士,副教授,主要研究領(lǐng)域?yàn)槠抡Z(yǔ)義分析,智能問(wèn)答系統(tǒng)。E?mail:wuyf@pku.edu.cn徐藝峰(1989—),碩士研究生,主要研究領(lǐng)域?yàn)槭瞧抡Z(yǔ)義學(xué)。E?mail:win1989@126.com王愷然(1988—),碩士研究生,主要研究領(lǐng)域?yàn)槠抡Z(yǔ)義學(xué)。E?mail:wangkairan@pku.edu.cn
1003-0077(2015)03-0071-11
2013-04-08 定稿日期: 2014-11-25
國(guó)家自然科學(xué)基金(61371129);國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(2014CB340504); 國(guó)家社科基金重大項(xiàng)目(12&ZD227);網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室開放課題(ICDD201402,ICDD201302)
TP391
A