国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

從句子圖到篇章圖

2025-01-26 00:00:00張藝璇李斌許智星
外語學刊 2025年1期
關鍵詞:語料庫

提 要:篇章級共指關系是語言學和計算語言學的研究難點之一。本文在梳理共指理論研究與趨勢的基礎上,回顧共指語料庫的構(gòu)建與自動解析方法,指出共指語料的構(gòu)建主要存在以下兩個問題:共指關系的標注較為粗疏,也基本不考慮與句子語義結(jié)構(gòu)本身的關系。本文在句子級語義標注體系(中文抽象語義表示)的基礎上,設計篇章共指的標注體系,以“概念同一性”為基本原則,從詞形的異同和概念的表述角度區(qū)分9種篇章共指關系,標注了500個篇章的共指信息。與已完整標注的52種句內(nèi)語義關系相結(jié)合,構(gòu)建出帶有篇章共指信息的篇章抽象語義圖庫。該語料庫選自CTB新聞語料,體裁涵蓋經(jīng)濟、體育及生活類,規(guī)模為6237句,16萬詞例。該語料庫的構(gòu)建為篇章級語義分析提供了新框架與數(shù)據(jù)資源。

關鍵詞:篇章共指;抽象語義表示;概念同一性;篇章語義結(jié)構(gòu);語料庫;中文信息處理

中圖分類號:H08 """"文獻標識碼:A """"文章編號:1000-0100(2025)01-0019-10

DOI編碼:10.16263/j.cnki.23-1071/h.2025.01.003

From Sentence Graphs to Discourse Graphs: Designing a Discourse-level

Coreference Annotation Framework" Based on Abstract Meaning Representation

Zhang Yi-xuan Li Bin Xu Zhi-xing

(School of" Chinese Language and Literature, Nanjing Normal University, Nanjing 210097, China;

Center for Language Big Data and Computational Humanities, Nanjing Normal University, Nanjing 210097, China)

Discourse-level coreference is a challenging research area in both linguistics and computational linguistics. This paper reviews coreference theories and their development trends, with a focus on the construction of coreference corpus and automatic resolution methods. We pointed out two main issues in the construction of coreference corpus: the annotation of coreference relationships tends to be coarse-grained, and the relationships between coreference and sentence-level semantic structures are largely neglected. To address these gaps, this study designs a discourse-level coreference annotation framework based on the sentence-level semantic annotation framework Chinese Abstract Meaning Representation. Guided by the principle of" “conceptual identity”, the framework categorizes nine types of discourse-level coreference relations from the perspectives of word type and concept consistency. Coreference information was annotated for 500 texts. By integrating 52 inner-sentence semantic relations already annotated, the study constructs a discourse abstract meaning graph enriched with discourse-level coreference information. The corpus is derived from the Chinese Treebank news corpus, covering economics, sports, and daily life, with a total size of 6,237 sentences and 163,227 word tokens. This corpus provides a novel framework and valuable data resources for discourse-level semantic analysis.

Key words:discourse coreference; abstract meaning representation; conceptual consistency; discourse semantic structure; corpus; Chinese information processing

1 引言

共指(Coreference)指在同一個句子和篇章中相同概念由不同或相同的詞語實例所指代的現(xiàn)象。共指不僅表現(xiàn)為語法上的替代關系或語義上的同指關系,還充當著話題轉(zhuǎn)換的銜接手段,對挖掘篇章概念轉(zhuǎn)移、推動語言教學和自然語言理解有重要意義,目前已成為理論語言學和計算語言學關注的熱點問題之一。

鑒于研究目的與分析方法的差異,目前理論語言學和計算語言學在指代領域的術(shù)語使用有所區(qū)別。理論語言學常使用“回指”(Anaphora)來表示指代現(xiàn)象,廣義的回指可分為直接回指和間接回指兩類(Ariel 1990)。直接回指指兩個語言成分之間的關系,對其中一個成分的解釋,取決于對另一個成分的解釋(Huang 1984);間接回指指回指語和先行語之間沒有明顯的指代關系,而需要經(jīng)過語用推理才能建立指稱關系(Erkü, Gundel 1987)。在計算語言學中,與“直接回指”相對應的是“共指”,與“間接回指”相對應的是“橋接關系”(Bridging)。但間接回指(橋接關系)由于其復雜性與模糊性,被學界研究長期排除在外,故相關研究發(fā)展緩慢。盡管理論語言學界已總結(jié)出常見的間接共指類別(Vieira, Poesio 2000;王軍 2004,2013),計算語言學界也構(gòu)建了一系列橋接關系語料庫,如ISNotes(Mar-kert et al. 2012)、BASHI(R?esiger" 2018)、ARRAU(Poesio, Artstein 2008;Uryupina et al. 2016)和 SciCorp(R?esiger 2016)等。但并未對該現(xiàn)象的界定和標注方法達成一致,故本文僅討論“直接回指”的共指標注問題。

計算語言學界對共指標注與自動消解的初步嘗試是MUC(Message Understanding Conference,Chinchor 1998),但直到OntoNotes(Weischedel et al. 2013)的建構(gòu),該領域才迎來飛躍,涌現(xiàn)出大量共指語料庫。OntoNotes打破歷來共指僅標注名詞、代詞及其短語的限制,將標注范圍擴大到動詞、數(shù)量短語、時間短語,甚至是貨幣金額。不過,OntoNotes僅使用相同的共指編號來連結(jié)先行詞與共指詞,并未深入分析先行詞與共指詞之間的具體共指關系,且尚未結(jié)合句子內(nèi)部的語義關系,無法形成篇章級語義關系的整體表示。

因此,本文將在句子級語義表示體系——中文抽象語義表示(Chinese Abstract Meaning Representation,簡稱CAMR)的基礎之上構(gòu)建篇章共指標注體系(Li et al. 2019)。CAMR是句子級語義標注的新體系,涵蓋5種核心語義角色關系和47種非核心語義角色關系。該體系基于框架語義學和依存語法理論,可標注出整句的語義結(jié)構(gòu)。目前,CAMR已經(jīng)建設了規(guī)模為2萬句的新聞語義庫、1562句小王子語義庫,在自動分析精度上已經(jīng)取得0.81的成績(Xu et al. 2023)。為此,本文將在CAMR的基礎上,進一步設計和標注出跨句的共指關系,不僅可以完成篇章級共指關系的標注,更可以結(jié)合句子內(nèi)部的語義關系,有效挖掘共指詞所擔任的語義角色,以及共指詞之間的語義關系,從而形成篇章級語義表示。本體系以形式相同或不同的詞語實例指稱相同概念的“概念同一性”為共指標注的基本原則,從詞語的形式差異和概念一致性角度區(qū)分9種共指關系。句內(nèi)語義關系與篇章共指關系可與先行詞、共指詞一同搭建篇章共指語義圖,以揭示篇章的概念轉(zhuǎn)移,從語義角度歸納共指規(guī)律。基于本體系所構(gòu)建的500篇共指語料庫,可為共指解析提供數(shù)據(jù)支持。

2 直接回指的理論研究

已有大量學者從句法、認知、功能和篇章等角度探索回指理論,其中影響深遠的是認知角度的可及性理論(Ariel 1990)與篇章角度的話題延續(xù)性模式(Givón" 1983)。在兩大理論提出的“可及性規(guī)律”與“話題延續(xù)性量表”的基礎之上,學界逐步確定了頻次、位置、間隔距離、語篇結(jié)構(gòu)、干擾數(shù)量和句法成分等回指計量指標,但這些指標大都是對表層信息的統(tǒng)計,尚未從較深的語義層次上標注和統(tǒng)計。

縱觀回指計量研究的發(fā)展歷程,研究焦點主要有三大趨勢變化:其一,逐漸從名詞和代詞等具體實體的標注與計量轉(zhuǎn)向概述回指等抽象類別(寇鑫 徐坤宇" 2023)。其二,逐漸跳出專研某種特定回指類型的局限,將回指現(xiàn)象放入句法、句式等宏觀視野中分析。如冉晨(2024)分析數(shù)量名回指語的指稱性質(zhì)與回指確認方式。其三,研究視角逐漸從本體研究擴展到語言教學與應用中。如楊永生和肖奚強(2020)基于回指確認考察韓國學生漢語“這/那”句的習得情況。

3 共指的計算資源構(gòu)建與自動解析研究

計算語言學借鑒現(xiàn)有理論標注名詞、代詞、零形式等常見體詞共指,并進一步探索動詞等謂詞共指,一定程度上推動了共指研究。但謂詞共指由于存在意義實虛難以界定等問題,仍處于探索階段,體詞共指的標注仍為研究主流。這些語料庫的標注信息相對粗疏,還需要深入地標注與分析。

3.1 共指相關的語料庫構(gòu)建

面向計算建模的共指語料庫可分為兩類:一類是以OntoNotes為代表的共指語料庫,一類是以AMR為代表的包含共指信息的句子語義語料庫(Banarescu et al. 2013)。前者細致標注共指現(xiàn)象,卻忽略了整句的語義表示;后者標注了整個句子的語義關系,對共指現(xiàn)象的標注卻仍待深化。這兩類語料庫只標注了表層的共指關系,沒有對共指鏈中共指詞與先行詞之間的具體關系作進一步分析。

3.1.1 共指語料庫

OntoNotes(Weischedel et al. 2013)語料庫是目前共指評測認可度最高的數(shù)據(jù)集。其標注規(guī)范成為眾多共指標注體系的范例,使共指語料庫邁向多語言數(shù)據(jù)時代。盡管語料庫的數(shù)量、規(guī)模以及語種均不斷擴大,但標注內(nèi)容和標注方法變化不大。該類語料庫除早期共指語料庫MUC、ACE(Automatic Content Extraction,Doddington et al. 2004)及OntoNotes系列語料庫之外,還有一些標注單一類型的共指語料庫,如漢語零指代語料庫(孔芳等 2021)、法漢指稱鏈條平行語料庫(胡霄欽 王秀麗 2021)。

MUC開創(chuàng)了語料庫的共指標注體系。盡管其標簽分類較為簡單,但研究學者已逐漸認識到共指的復雜性,并有了靈活表示共指詞的傾向性(如設置“MIN”標簽以表示包含在整詞之內(nèi)的部分字符串)。但其細則也存在值得商榷之處,如將人物與其頭銜等職位標注為共指關系、不補充標注零形式等問題。ACE對關系作細致標注,其中在MUC6的基礎之上進一步標注了共指關系。其語料不再局限于英語,而是擴展至多語言資源的構(gòu)建,ACE也是最早針對中文指代消解的國際評測語料資源。

OntoNotes的構(gòu)建打破MUC、ACE的局限,實現(xiàn)共指標注的變革。該體系取消對共指標注的限制,除名詞和代詞外,還可標注動詞、數(shù)字、時間等信息,對指代消解有新的推進。在共指層主要標注兩類信息,即同一性(IDENT)和同位語(APPOS)。同一性共指用于指代共指,意味著代詞、名詞性和特定所指對象的命名提及之間的聯(lián)系,不包括一般的、未指定的或抽象實體。同位語邏輯上代表屬性,因此被單獨處理。自OntoNotes問世之后,主要有3大研究趨勢:其一,在OntoNotes標注規(guī)范的基礎之上構(gòu)建許多大型語料庫。如Ghaddar和Langlais(2016)繼承OntoNotes標注方法,以維基百科為語料構(gòu)建了WikiCoref語料庫;Chen等(2018)在OntoNotes規(guī)范的基礎之上改良并構(gòu)建了目前最大規(guī)模的PreCo英語共指語料庫;Poesio等(2019)基于游戲化眾包的方法構(gòu)建了共指語料庫。其二,近三年的共指資源擴大到英語以外的語言,以實現(xiàn)跨語言共指解析。這些語料庫包括俄語共指語料庫RuCoCo(Dobrovolskii et al. 2022)、涵蓋英法德葡4種語言的多語言共指語料庫ParCorFull2.0(Lapshinova-Koltunski et al. 2022)等?;赨D(Universal Dependencies)構(gòu)建的多語言句子依存和共指消解的語料庫CorefUD(Nedoluzhko, Ferreira 2022)。其三,共指研究從單一篇章逐漸擴展為多篇章。如荷蘭語跨文本事件共指解析大型數(shù)據(jù)集(Langhe et al. 2023)等數(shù)據(jù)資源。

這類語料庫專注于共指標注與解析,極大推動共指研究的發(fā)展。但它們僅將詞匯語義納入標注范圍,未結(jié)合句子自身的語義結(jié)構(gòu)來探析共指的概念轉(zhuǎn)移,也沒有深入分析常見的共指關系。

3.1.2 包含共指信息的語料庫

以布拉格樹庫PDT(Prague Dependency Treebank,Mikulová 2006)、統(tǒng)一語義表示UMR(Uniform Meaning Representation,Van Gysel et al. 2021)和多句抽象語義表示MS-AMR(Multi-Sentence AMR,O’Gorman et al. 2018)為代表的語料庫是句子級語義標注的語料庫,自身帶有句子級的共指信息。

PDT中的共指信息有3種,即語法共指、文本共指和特殊類型共指,主要標注代詞、動詞、省略、概述共指等共指信息。UMR是建立在AMR基礎之上、具有跨語言特性的篇章級語義表示方法,在共指方面采用關系三元組的形式標注實體共指和事件共指,另外還標注概念之間的子集(Subset)關系。MS-AMR參考OntoNotes的標注方式在句子級AMR基礎之上擴展句間共指信息。該體系的共指信息參考OntoNotes的標注方法,標注了部分—整體、組織—成員兩類橋接關系。這類語料庫長于結(jié)構(gòu)化的句子語義分析,一定程度上彌補了共指語料庫缺乏整句語義信息的不足,但仍未對共指關系做出細致分類和深入分析。

3.2 共指關系的自動標注

從數(shù)學角度而言,共指關系實質(zhì)是一種等價關系,因此消解過程就是等價類劃分的過程(宋洋 王厚峰 2015)。隨著算力不斷提升,共指解析已經(jīng)從基于規(guī)則的方法發(fā)展到基于機器學習的方法。基于規(guī)則特征的泛化能力較差,理解和實現(xiàn)比較簡單(郎君等 2007),基于機器學習的方法開始引入開放知識作為額外特征,改善模型效果高度依賴特征工程的弊端。近年來采用深度學習算法,如多層感知器、循環(huán)神經(jīng)網(wǎng)絡方法、基于知識的方法等(Liu et al. 2023),逐漸突破人工標注語料庫規(guī)模的限制,大大增強模型的深層語義學習能力和泛化性能(陳遠哲等 2019)。

Liu等(2023)總結(jié)出共指自動標注的5點挑戰(zhàn)及發(fā)展方向,即:下游任務缺乏帶有共指標注的數(shù)據(jù)集;缺乏符號特征與子符號特征的組合;需結(jié)合現(xiàn)有語言研究及認知直覺;當前模型需壓縮所用資源以實現(xiàn)多任務學習;仍需超大規(guī)模語言模型的支撐。總之,盡管已有大量研究成果為數(shù)據(jù)標注和模型設計奠定了理論基礎,但這些語言和認知發(fā)現(xiàn)卻很少被納入基于深度學習的共指解析模型中,未來可結(jié)合符號特征(如語義特征和知識表示)和詞向量等方法(Mao et al. 2018;Mao et al. 2022),以解決共指數(shù)據(jù)稀疏問題,提高共指消解的精度。因此,亟需構(gòu)建結(jié)合句內(nèi)語義關系和篇章共指關系的標注框架和語言資源。

4 篇章級共指標注體系

本文基于句子級語義標注體系(中文抽象語義表示)構(gòu)建篇章共指標注體系,涵蓋句子語義信息與篇章共指信息,為共指消解提供新路徑。

4.1 句子級CAMR的標注體系

Abstract Meaning Representation(AMR)是一種句子級語義標注體系,采用單根有向無環(huán)圖的表示方法,圖中節(jié)點表示概念,邊表示概念之間的關系(Banarescu et al. 2013)。AMR忽略語義較虛的成分(如冠詞、單復數(shù)、時態(tài)等等)和形態(tài)變化,不拘泥于原句詞語,從原句中抽象出概念,允許對其進行增添、刪減和改動等操作以便表示語義關系。Li等(Li et al. 2019)在AMR的基礎之上結(jié)合漢語的語言特點繼承并發(fā)展出CAMR(Chinese AMR)。其中,共包括5種核心語義角色關系(arg0-arg4)、47種非核心語義角色關系。

句子級CAMR已經(jīng)提供了句子內(nèi)部的語義結(jié)構(gòu)關系,特別是已經(jīng)標注了句子內(nèi)部的共指關系,是篇章共指標注體系的構(gòu)建基礎。篇章級共指標注則提供了不同句子之間概念同指的關系,有利于在復雜的語言表達中確定先行詞與共指詞①,提供二者具體的共指關系。表1為句子級CAMR標注體系和篇章級共指標注體系比較。

4.2 共指標注原則

在前人研究中,共指大多被定義為“話語中表示相同特定實體或事件的語言表達”,并作為語料庫的基本標注原則。但事實上,許多共指語料庫除標注指代相同概念的情況外,還會標注實體—屬性、整體—部分等橋接關系,導致共指關系定義粗疏、橋接關系覆蓋面窄等問題。因此,為深入分析共指關系,本體系將以“概念同一性”為基本原則標注共指現(xiàn)象,暫不將橋接關系考慮在內(nèi)。

4.2.1 概念同一性

“概念同一性”指不同或相同的詞語實例在同一篇章中指代相同的概念。一般而言,相同的詞例或詞語實例更傾向于指代相同概念,但也存在指代不同概念的例外情況,典型代表便是代詞、普通名詞等。而不同的詞語實例也可能指代相同的概念。本體系遵守“概念同一性”原則,只標注指代相同概念的詞語實例。如表2文本中與“福利院”有關的詞語共出現(xiàn)7次,有6次(位于s3 、s6、s7、s8、s8、s11)指代“杭州市兒童福利院(位于s3)”,構(gòu)成共指鏈2;有一次(位于s4)指國內(nèi)的福利院,在本文中與“中國孤兒院(位于s1)”形成共指關系,構(gòu)成共指鏈1。

4.2.2 共指詞、共指鏈可嵌套

由于語言遞歸性,詞語嵌套是語言表達的常用方式,因此極易出現(xiàn)共指詞或共指鏈嵌套的情況。當多個共指鏈的每一個共指詞均存在嵌套現(xiàn)象時,則這些共指鏈存在嵌套現(xiàn)象。表3的例子共出現(xiàn)兩條共指鏈,下標相同即為同一條共指鏈。s17中的“其名”即存在共指詞的嵌套現(xiàn)象:“其”指代“小海龜”,為共指鏈2的共指詞;“其名”指代“卡洛塔”,為共指鏈1的共指詞。

4.2.3 區(qū)分概念同一性和概念相關性

一般而言,同一篇章提及的概念大多有相同或相關性。這些大量存在的、指代不同但關系密切的概念極易對共指鏈的標注造成混淆。因此,本體系僅標注基于概念同一性原則的共指現(xiàn)象。如表3中存在的兩條共指鏈,一條是實體鏈(“小海龜”鏈),一條是實體名稱鏈(“卡洛塔”鏈),即為指代不同但關系密切的共指鏈。

4.3 共指關系類型

本體系依據(jù)先行詞和共指詞的變化設計了9個類別標簽,分別為先行詞(:root)、同形(:homo)、增加(:add)、刪減(:reduce)、替換(:alias)、零形式(:zero)、代詞(:pro)、闡述(:illustrate)和概述(:encap)(見表4)。

4.4 語義關系類型

本體系繼承了句子級CAMR的句內(nèi)語義關系,以探析先行詞、共指詞在句中擔任的語義角色。句內(nèi)語義關系也可以和篇章共指關系相互連結(jié),成為篇章共指語義圖的基本骨架。CAMR共有5種核心語義角色關系和47種非核心語義角色關系。核心語義角色關系沿用OntoNotes體系的核心語義角色關系,標簽及其代表關系如表5所示。CAMR共有47種非核心語義關系,理論上均可在共指標注中使用,但常見的非核心語義角色關系主要有10種(見表6)。

5.1 語料選擇

我們從CAMR v2.0語料中選取500篇文本進行共指標注,該語料庫涵蓋經(jīng)濟、體育及生活類,在賓州中文樹庫(Chinese Treebank,簡稱CTB)的編號為chtb0001-chtb0659(chtb語料部分編號非連續(xù),chtb0045、chtb0205因篇幅過短不予標注),經(jīng)整理后共6,237句,163,227詞。由于該語料庫已經(jīng)標注了句法信息和CAMR語義信息,可為共指標注與后期的計量研究提供便利。主要是因為,其一,句法結(jié)構(gòu)信息為共指詞提供精確結(jié)構(gòu)定位;其二,CAMR在CTB基礎之上提供語義結(jié)構(gòu)信息,可揭示共指詞語義上的變化規(guī)律。

5.2 規(guī)范制定與標注過程

標注工作分為3個階段。(1)觀察語料階段。該階段的主要工作是分析大量生語料,觀察并標注出篇章中具有概念同一性的語言單位,在充分考慮語料質(zhì)量與標注信息可操作性的基礎之上,形成初步的標注規(guī)范。(2)預標注階段。該階段將通過實踐確認標注者對規(guī)范的理解,同時檢驗規(guī)范的通用性與可操作性,并在標注過程中及時調(diào)整規(guī)范,得到最終的標注規(guī)范。(3)正式標注階段。經(jīng)過前期的觀察與標注工作,正式標注階段采用了“編程粗提取+人工細校對”的方式,以相同詞形為依據(jù),在CAMR v2.0語料中提取潛在共指詞,建構(gòu)粗糙的依存三元組,然后人工調(diào)整修改,確保共指鏈標注基本無遺漏。最終形成完整的抽象語義表示篇章共指語料庫。

5.3 計量指標與計量信息

在這500篇文本中,共標注6,939條共指鏈。每篇平均13.88條共指鏈。共指鏈基本信息如表7所示。通過觀察表7的方差數(shù)據(jù)可知,共指鏈的長度、跨句情況等信息差異極大,分布不等且不均。

各共指關系的出現(xiàn)頻次見表8(已按頻次進行降序排列),由于“:root”代表根節(jié)點,在每條鏈中均出現(xiàn)1次,因此不列入統(tǒng)計。觀察表8可知:首先,在共指關系中,共指詞與先行詞同形的情況占比最高,共出現(xiàn)7,717次,但其方差也最高(4.69),說明這種共指關系出現(xiàn)次數(shù)最多,但在共指鏈中變化波動最大。其次,“:zero”關系次之,共出現(xiàn)5,971次,這與漢語多“無主句”的語言特點有關。再次“:reduce”關系排名第三,這可能與新聞語料的語言風格相關。即在論述某一概念時,新聞通常在首次提及時便提供最為詳細的信息,在后續(xù)提及中會逐漸壓縮修飾語;由于新聞語料論證嚴密的特點,該語料庫中代詞共指僅占4.36%。

6 篇章共指語義圖構(gòu)建示例

本體系構(gòu)建的篇章共指語義圖為單根有向無環(huán)圖,圖中節(jié)點為篇章中所出現(xiàn)的共指概念,邊表示共指概念之間的關系,即橫向的句內(nèi)語義關系和縱向的篇章共指關系。本文將從橫縱角度探討篇章共指語義圖結(jié)構(gòu),以揭示篇章結(jié)構(gòu)中共指鏈的動態(tài)變化。

我們選用CTB8.0中第0226篇新聞,該文本中含有共指鏈13條,共指鏈長度為2-7不等,跨句共指的情況為1-9句不等,共出現(xiàn)7次句內(nèi)共指和47次句間共指。我們依據(jù)共指關系類型與句內(nèi)語義關系,構(gòu)建出該文本的篇章共指語義圖③,如圖1所示。圖1以句子為基本單元,每一個虛線框都代表一個句子平面,框的左上部為文本原句,虛線框內(nèi)不同顏色的實線框為該文本中的共指詞,已用顏色高亮加以區(qū)別,且標注在文本原句中。圖1中的有向?qū)嵕€分為橫縱兩個方向,橫向表示共指詞的句內(nèi)語義關系(如“:arg0”標簽),縱向表示共指詞之間的共指關系(如“:homo”標簽)。下面將以該文本為示例,從橫縱角度探討篇章共指語義圖結(jié)構(gòu)。

第一,橫向揭示句子內(nèi)部共指信息。橫向以句子為基本單元,可揭示:(1)每句共指詞的數(shù)量及嵌套情況。如s1句共分布有5種共指現(xiàn)象,其中有3種存在層層嵌套關系。(2)每句的句內(nèi)共指情況。如s3中“兩軍兩國之間的合作”和“上述問題”具有概念同一性,為句內(nèi)共指。(3)共指詞的句內(nèi)語義關系。如在s1中,“遲浩田”的句內(nèi)語義關系為“:arg0(施事)”,“坦?!钡木鋬?nèi)語義關系為“:mod(修飾)”。

第二,縱向揭示句子之間共指信息??v向以共指鏈為基本單元,可以揭示:(1)共指鏈的起止、長度及其分布。如“會談”共指鏈,始于s1,終于s9,跨句情況為9句;共含有3個共指詞,分布于s1、s3、s9,盡管出現(xiàn)次數(shù)較少,但幾乎貫穿本篇始終。(2)共指詞之間的共指關系。如“會談”共指鏈內(nèi)部的共指關系均為“:homo(同形)”;如“兩國”共指鏈在全文中常通過零形和闡述共指形式交替出現(xiàn)。

7 結(jié)束語

本文為解決共指關系較為粗疏以及與句子內(nèi)部句法語義關系脫節(jié)的問題,在句子級語義表示CAMR的基礎上探索共指標注體系,利用整句語義結(jié)構(gòu)來探索篇章級共指現(xiàn)象。本體系區(qū)分9種共指關系類型,能夠有效表示出共指的內(nèi)部差異,構(gòu)建了500篇新聞共指語料庫。統(tǒng)計結(jié)果表明,同形共指和零形式占60%以上,形式增減約占17%。其次,結(jié)合句內(nèi)語義關系,構(gòu)建出篇章語義結(jié)構(gòu)圖。未來,我們將從以下3個方面開展工作:首先,將嘗試標注記敘文、小說等共指現(xiàn)象豐富的語料,完善共指標注方案并擴大語料庫規(guī)模;其次,綜合考慮句子語義結(jié)構(gòu)來探索篇章級共指語義的動態(tài)發(fā)展問題;最后,進一步探索更為復雜的篇章級句群關系和修辭關系,以建構(gòu)出完整的篇章語義結(jié)構(gòu)圖。

注釋

①在篇章中,共指現(xiàn)象往往以詞語而不只是單個詞的形式出現(xiàn)。但為與學界術(shù)語統(tǒng)一,本文仍然使用“先行詞”和“共指詞”的概念。

②在表1的文本示例中,句子級CAMR標注體系展示的是單句的語義結(jié)構(gòu),而篇章級共指標注體系的示例則展示了在同一個篇章中指代“杭州大學”的所有用例。左側(cè),形如“:arg0”的標簽為句內(nèi)語義關系;右側(cè),形如“:alias”的標簽為篇章共指關系。

③該圖高清版請查閱:https://www.camrp.tech/DAMR/

*李斌為本文的通訊作者。

參考文獻

陳遠哲 匡 俊 劉婷婷. 共指消解技術(shù)綜述[J]. 華東師范大學學報(自然科學版), 2019(5).‖Chen, Y.-Z., Kuang, J., Liu, T.-T. et al. A Survey on Coreference Resolution[J]. Journal of East China Normal University (Natural Science), 2019(5).

胡霄欽 王秀麗. 法漢指稱鏈條平行語料庫的建設與應用[J]. 語料庫語言學, 2021(1).‖Hu, X.-Q., Wang, X.-L. Construction and Application of a Parallel Corpus of French-Chinese Reference Chains[J]. Corpus Linguistics, 2021(1).

孔 芳 葛海柱 周國棟. 篇章視角的漢語零指代語料庫構(gòu)建[J]. 軟件學報, 2021(12).‖Kong, F., Ge, H.-Z., Zhou, G.-D. Corpus Construction for Chinese Zero Anaphora from Discourse Perspective[J]. Journal of Software, 2021(12).

寇 鑫 徐坤宇. 抽象回指的指稱內(nèi)容與可及性研究——以“這”和“這件事”為例[J]. 語言教學與研究, 2023(6).‖Kou, X., Xu, K.-Y. A Study on the Referential Contents and Accessibility of Abstract Anaphora: Using the “Zhe” and “Zhe Jian Shi”as Illustrations[J]. Language Teaching and Linguistic Studies, 2023(6).

郎 君 忻 舟 秦 兵等. 集成多種背景語義知識的共指消解[J]. 中文信息學報, 2009(23).‖Lang, J., Xin, Z., Qin, B. et al. Intra-document Coreference Resolution: The State of the Art[J]. Journal of Chinese Language and Computing. 2007(4).

冉 晨. 現(xiàn)代漢語中數(shù)量名回指語的指稱性質(zhì)與回指確認方式[J]. 語言教學與研究, 2024(1).‖Ran, C." The Referential Properties and Means of" Co-referring of‘Num-Cl-NP’ Anaphors[J]. Language Teaching and Linguistic Studies, 2024(1).

宋 洋 王厚峰. 共指消解研究方法綜述[J]. 中文信息學報, 2015(1).‖Song, Y., Wang, H.-F. A Survey of Coreference Resolution Research Methods[J]. Journal of Chinese Information Processing, 2015(1).

王 軍. 英語敘事篇章中間接回指釋義的認知研究[M]. 蘇州:蘇州大學出版社, 2004.‖Wang, J. A Cognitive Approach to Indirect Anaphora Resolution in English Narrative Discourses[M]. Suzhou: Soochow University Press, 2004.

王 軍. 英漢語篇間接回指[M]. 北京:商務印書館, 2013.‖Wang, J. Indirect Anaphora in English and Chinese[M]. Beijing: The Commercial Press, 2013.

徐赳赳. 現(xiàn)代漢語篇章回指研究[M]. 北京:中國社會科學出版社, 2003.‖Xu, J.-J. Anaphora in Chinese Texts[M]. Beijing: China Social Sciences Press, 2003.

楊永生 肖奚強. 韓國學生漢語“這/那”句習得考察[J]. 華文教學與研究, 2020(1).‖Yang, Y.-S., Xiao, X.-Q. An Investigation of Korean Students’ Acquisition of the “zhe/na”-clause in Chinese[J]. TCSOL Studies, 2020(1).

Ariel, M. Accessing Noun-Phrase Antecedents[M]. London: Routlege, 1990.

Banarescu, L., Bonial, C., Cai, S. et al. Abstract Meaning Representation for Sembanking[A]. Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse[C]. Sofia: Association for Computational Linguistics, 2013.

Chen, H., Fan, Z., Lu, H. et al. PreCo: A Large-scale Dataset in Preschool Vocabulary for Coreference Resolution[OL]. arXiv preprint arXiv:1810.09807, 2018.

Chinchor, N. Overview of" MUC-7[A]. Seventh Message Understanding Conference (MUC-7)[C]. Fairfax: Science Applications International Corporation, 1998.

Dobrovolskii," V., Michurina, M., Ivoylova, A. RuCoCo: A New Russian Corpus with Coreference Annotation[OL]. arXiv Preprint arXiv:2206.04925, 2022.

Doddington, G., Mitchell, A., Przybocki, M. et al. The Automatic Content Extraction (ACE) Program —" Tasks, Data, and Evaluation[A]. Proceedings of the 4th International Conference on Language Resources and Eva-luation[C]. Lisbon: European Language Resources Association, 2004.

Erkü, F., Gundel, J.K. The Pragmatics of Indirect Anaphors[A]. In: Verschueren, I., Bertuccelli, P.M.(Eds.), The Pragmatic Perspective[C]. Amsterdam: John Benjamins BV, 1987.

Ghaddar, A., Langlais, P. Wikicoref: An English Corefe-rence-annotated Corpus of Wikipedia Articles[A]. Proceedings of the 10th International Conference on Language Resources and Evaluation [C]. Paris: European Language Resources Association, 2016.

Givón, T. Topic Continuity in Discourse[M]. Amsterdam: John Benjamins BV, 1983.

Huang, C.T.J." On the Distribution and Reference of" Empty Pronouns[J]. Linguistic Inquiry, 1984(4).

Langhe, L.D., Clercq, O.D., Hoste, V. Constructing A Cross-document Event Coreference Corpus for Dutch[J]. Language Resources and Evaluation, 2023(2).

Lapshinova-Koltunski, E., Ferreira, P.A. ParCorFull2.0: A Parallel Corpus Annotated with Full Coreference[A]. Proceedings of the 13th Language Resources and Evaluation Conference[C]. Marseille: European Language Resources Association, 2022.

Li, B., Wen, Y., Song, L. et al. Building A Chinese AMR Bank with Concept and Relation Alignments[J]. Linguistic Issues in Language Technology, 2019(18).

Liu, R., Mao, R., Luu, A.T. et al. A Brief Survey on Recent Advances in Coreference Resolution[J]. Artificial Intelligence Review, 2023(12).

Mao, R., Li, X., Ge, M. et al. Metapro: A Computational Metaphor Processing Model for Text Pre-processing[J]. Information Fusion, 2022(86).

Mao, R., Lin, C., Guerin, F. Word Embedding and WordNet Based Metaphor Identification and Interpretation[A]. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)[C]. Melbourne: Association for Computational Linguistics, 2018.

Markert, K., Hou, Y., Strube, M. Collective Classification for Fine-grained Information Status[A]. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics[C]. Jeju Island: Association for Computational Linguistics, 2012.

Mikulová, M., Bémová, A., HajiAcˇG1, J. et al. Annotation on the Tectogrammatical Level in the Prague Dependency Treebank[OL]. Annotation Manual. Technical Report, 2006.

Nedoluzhko, A., Novák, M., Popel, M. et al. CorefUD 1.0: Coreference Meets Universal Dependencies[A]. Proceedings of the 13th Language Resources and Evaluation Conference[C]. Marseille: European Language Resources Association, 2022.

O’Gorman, T., Regan, M., Griffitt, K., et al. AMR Beyond the Sentence: the Multi-sentence AMR corpus[A]. Proceedings of the 27th International Conference on Computational Linguistics[C]. Santa Fe: Association for Computational Linguistics, 2018.

Poesio, M., Artstein, R. Anaphoric Annotation in the ARRAU Corpus[A]. Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC’08)[C]. Marrakech: European Language Resources Association, 2008.

Poesio, M., Chamberlain, J., Paun, S. A Crowdsourced Corpus of Multiple Judgments and Disagreement on Anaphoric Interpretation[A]. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)[C]. Minneapolis: Association for Computational Linguistics, 2019.

R?siger, I. BASHI: A Corpus of" Wall Street Journal Articles Annotated with Bridging Links[A]. Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018)[C]. Miyazaki: European Language Resources Association (ELRA), 2018.

R?siger, I. SciCorp: A Corpus of" English Scientific Articles Annotated for Information Status Analysis[A]. Procee-dings of the 10th International Conference on Language Resources and Evaluation[C]. Portoro: European Language Resources Association, 2016.

Uryupina, O., Artstein, R., Bristot, A. et al. ARRAU: Linguistically-motivated Annotation of" Anaphoric Descriptions[A]. Proceedings of the 10th International Confe-rence on Language Resources and Evaluation (LREC’16)[C]. Portoro: European Language Resources Association, 2016.

Van Gysel," J.E.L., Vigus M., Chun J., et al. Designing a Uniform Meaning Representation for Natural Language Processing[J]. KI - Künstliche Intelligenz, 2021(35).

Vieira, R., Poesio, M. An Empirically-based System for Processing Definite Descriptions[J]. Computational Linguistics, 2000(4).

Weischedel, R., Palmer, M., Marcus, M. et al. Ontonotes Release 5.0 LDC2013T19[OL]. https://catalog.ldc.upenn.edu/LDC2013T19, 2013.

Xu, Z., Zhang, Y., Li, B, et al. Overview of CCL23-Eval Task 2: The Third Chinese Abstract Meaning Representation Parsing Evaluation[A]. Proceedings of the 22nd Chinese National Conference on Computational Linguistics(Volume 3:Evaluations)[C]. Harbin: Chinese Information Processing Society of China, 2023.

定稿日期:2024-12-10【責任編輯 陳慶斌】

猜你喜歡
語料庫
《語料庫翻譯文體學》評介
基于語料庫的“はずだ”語義用法分析
基于語料庫“隱秘”的詞類標注初步探究
把課文的優(yōu)美表達存進語料庫
基于COCA語料庫的近義詞辨析 ——以choose和select為例
口譯不宜“任性”:基于語料庫的外事翻譯等效探索
語言與翻譯(2015年3期)2015-07-18 11:11:04
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
基于英漢雙語平行語料庫的無根回譯研究
外語學刊(2014年6期)2014-04-18 09:11:50
基于語料庫的近義詞辨析研究——以suspect和doubt為例
低碳經(jīng)濟英語語料庫建設與應用
淮安市| 河西区| 南宁市| 泾川县| 武威市| 佳木斯市| 开鲁县| 宜宾市| 汪清县| 比如县| 勃利县| 衡山县| 贡嘎县| 奇台县| 海安县| 雷山县| 石狮市| 新田县| 德安县| 曲靖市| 平山县| 抚顺县| 赞皇县| 道真| 西贡区| 明星| 深圳市| 宜黄县| 靖江市| 女性| 会理县| 宜兴市| 九龙县| 鹿泉市| 庐江县| 岳普湖县| 唐河县| 博乐市| 罗城| 高雄县| 马关县|