周 強,周驍聰
(1. 清華信息科學與技術國家實驗室(籌);2. 清華大學 信息技術研究院語音和語言技術中心,北京 100084)
對語篇內容的分析計算是自然語言理解研究的核心課題。經過50多年的發(fā)展,它在英語、德語等西方語言的篇章描述語料庫構建和篇章分析技術方面已經取得了長足的進步[1],開始在文本摘要、信息檢索、機器翻譯、情感分析和文本質量評估方面顯示出重要的應用潛力[2]。而在漢語等東方語言的篇章描述和分析理解方面還很薄弱,有許多研究空白亟待開拓和探索。
在篇章理解方面,修辭結構理論(Rhetorical Structure Theory,RST)[3]描述了篇章整體組織特點,主要強調句子之間各種連貫關系的分析在篇章理解中的重要作用。以RST為基礎,Marcu et al.構建了英語篇章標注庫RST-DT,以篇章中的小句為基本單位,自底向上組合形成二叉或多叉的修辭結構樹,形成對篇章意義的整體描述[4]。該成果推動了以基于統(tǒng)計和機器學習模型為主的RST自動篇章分析器的開發(fā)研究[5]。
賓州話語樹庫PDTB(Penn Discourse Teebank)[6]則選擇篇章連接詞作為“元”謂詞,通過分析和標注它所控制的兩個句子論元,形成對這兩個句子形成的篇章片段連貫性的初步理解。針對真實文本中大量存在的連接詞缺失現象,又設計了多層次標記和多重特征相結合的描述機制。在此標注庫上進行的評測實驗結果顯示[7],隱式連接詞發(fā)現和相應關系標記識別[8]是主要分析難點,具有很大的技術挑戰(zhàn)性。
針對英語篇章語境中某些事件核心塊的省略和缺失現象,Rappenhofer et al.設計了SemEval-2010評測任務,手工標注了兩篇小說體裁篇章中的所有事件缺失塊及其在篇章語境中可能的共指成分[9]。相關的進一步研究工作表明[10],對這個問題的分析研究還有很大的發(fā)展?jié)摿?。另一項重要評測是在CoNLL-2011中提出的指代消解評測任務[11],希望能充分利用最新發(fā)布的OntoNotes庫[12]中同步標注的句法、命題、詞義、命名實體和共指信息,提升自動指代消解系統(tǒng)的處理性能。評測結果顯示[11],要達到各層次標注信息互動提高的處理效果,還需要在學習建模技術上有新的創(chuàng)新。
以上研究工作從兩個不同途徑探索了語篇連貫性(coherence)的描述方法: 一類是基于關系的連貫,包括針對篇章整體的RST結構分析和針對篇章片段的PDTB分析。他們強調了對篇章中通過顯式和隱式關聯標記體現出來的連貫關系的分析和把握;另一類是基于實體的連貫,包括SemEval-2010任務中設計的隱含角色鏈和OntoNotes中標注的實體提及(mention)鏈。他們強調了對篇章中通過不同形式的指代引用關系體現出來的連貫片段的分析和把握。雖然兩者的研究對象和處理方法各不相同,但從總體上可以歸入Halliday 和Hasan 提出的廣義語篇連貫性描述框架[13]中的連貫和銜接(cohesion)兩個不同描述手段上。相對而言,英語語篇研究學者更關注從基于語義的修辭關系角度分析語篇的連貫性。
與英語相比,漢語篇章中的各種意義銜接手段的使用更為豐富靈活。漢語句子之間的意義連接一般很少或不使用關聯詞語,各個相鄰小句之間的核心角色承前和蒙后省略現象非常普遍,各個小句和句子之間完全通過其中的事件轉承變化關系連接起來。考慮下面幾個真實文本漢語句子描述實例:
(1) 供大于求,價格未能上揚。
(2) 你們年紀還小,(s1)還要成家立業(yè),(s2)不要虛度年華,(s3)更不要成為社會討厭的人。
(3) 她穿上那件舊花襖,(s1)走出窯來,(s2)解下門扇上的鐵鏈子,(s3)撥開了門閂。
(4) 我無意中碰到了身邊的一個什么東西,(s1)伸手一摸(o1),(s2)是他給我開的飯,兩個干硬的饅頭。
其中例句(1)描述了無標記的因果關系,兩個小句描述的事件之間的因果聯系需要通過使用經濟學常識推理得到。例句(2)隱含了一個勸誡性因果關系: 因為(你們年紀還小,…立業(yè)),所以(不要虛度年華,…的人);同時,后面三個小句的核心主語也承前省略,形成隱含角色共指鏈: 你們—s1—s2—s3。例句(3)描述了漢語中典型的時序連貫關系,順序發(fā)生的多個動作的主體承前省略,形成類似上句的隱含角色共指鏈。例句(4)的情況更為復雜,各個小句存在著多個核心角色承前蒙后省略隱含情況,但是通過考慮各個小句之間的不同事件關系: 小句1-2之間為連貫,小句3-4之間為解注,小句1-2和3-4組合之間為解注,還是可以計算推導出可能的隱含角色共指鏈: 我—s1,東西—o1—s2—饅頭。漢語的這種簡潔靈活的意合型篇章組合結構,對于人們日常理解交流沒有任何困難,但對漢語篇章連貫性描述計算模型則提出了很大的挑戰(zhàn)。
本文希望通過挖掘漢語語篇中的各種有效連貫描述形式,分析它們與不同連貫描述內容之間的內在聯系,在建立形式和內容相結合的漢語連貫性描述體系方面進行初步探索。在第2節(jié)中,我們首先對國內外的相關研究工作進行分析梳理;第3節(jié)提出我們的解決方案;第4節(jié)進行初步的實驗驗證;第5節(jié)給出相關結論分析。
近年來,通過引進和吸收英語方面的篇章分析理論,在基于關系的漢語語篇的分析標注方面研究人員進行了許多有益的探索。樂明基于RST開發(fā)了一個針對漢語財經評論文章的標注庫,加工規(guī)模為97個篇章[14]。Zhou針對漢語句子連接詞語缺乏的描述現狀,對PDTB體系中的顯性和隱性連接詞語區(qū)分標注方法進行了大幅度調整,直接在相鄰句子片段中標注PDTB中定義的各種連貫關系,取得了較好的實驗效果[15]。張牧宇等在PDTB體系上進行適當改良,提出了面向中文的層次化篇章關系體系,對大規(guī)模的漢語新聞語料進行了語篇關系標注實驗[16]。這些工作初步證實了基于關系的連貫描述在漢語語篇分析標注中的可行性。
從20世紀80年代開始,許多語言學家也開始從不同角度關注漢語語篇的分析研究。廖秋忠(1992)對漢語語篇中的時空表示、指代成分、指同表達、連接成分、管界問題、論證結構等進行了許多開拓性的研究[17]。邢福義對漢語復句問題進行了深入研究,提出了因果、并列、轉折三分的復句描述體系,并對每個類別下的常用關聯詞語的描述特點進行了深入分析[19]。另外,吳為章,田小琳對漢語句群內部組合結構的分析[18],徐赳赳對漢語語篇中的零形回指、代詞回指、名詞回指和聯想回指等多種指代描述形式內部關系的深入分析[20],也可以為我們提供許多有益的借鑒。
與篇章理解相關的另一項重要工作是語言學家對漢語話題和話題鏈的深入探索。在漢語研究方面,趙元任最先將話題(Topic)引入漢語結構分析研究中[21],他使用了“話題”和“說明”(Comment)這對概念來解釋漢語的主語和謂語結構。Li 和 Thompson進一步總結了漢語的話題凸顯語言描述特點[22]。曹逢甫則強調了話題的篇章本性[23]。在漢語篇章中,話題的語義范圍可以延伸到小句之外,控制相關話題的代詞化和省略形式。漢語話題的這種篇章銜接作用在話題鏈結構中得到了很好的體現。曹逢甫最早提出了漢語話題鏈(Topic Chain)的概念[24],細致地分析了話題在控制小句連接方面的作用。話題鏈的形成主要依賴各種指代回指(anaphor)形式,即零形回指(Zero Anaphor, ZA)、代詞回指(Pronoun Anaphora, PA)和名詞回指(Nominal Anaphor, NA)的選擇方法。曲承熹總結了前人的研究成果,提出了以下操作性較強的話題鏈定義“一組以零回指ZA形式的話題連接起來的小句”[25]。
話題鏈分析中另一個需要關注的是觀察者視域(perspective)問題。復雜語篇中往往會出現多個視域交叉的情況。其中有的視域只與個別的段落、句子發(fā)生關系,有的視域卻影響到了整個篇章的結構。劉大為初步總結了兩類進行視域描述的動詞: 言說動詞(說、告訴、講解、講述、宣稱等)和意向動詞(認為、相信、知道、希望、喜歡、害怕等)[26]。楊彬進一步總結形成了漢語中常用的言說動詞和意向動詞表[27]。通過對真實文本句子中這些動詞的管界內容[28]的深入分析,可以對語篇中描述的不同視域中的不同事件內容進行有序組織。
盡管許多語言學家都強調了話題鏈對漢語語篇描述的獨特作用,近年來的深入研究也發(fā)現英語中實際上也存在類似漢語話題鏈的篇章組織結構。孫坤對英漢篇章組織模式進行了對比研究[29]。王建國把話題鏈的描述作用從句子拓展到超句(句群)和篇章,重新定義話題鏈為“由同一話題引導的系列語句”,并深入分析了話題鏈在漢英語篇中的不同描述特點[30]。劉禮進使用人工標注的小規(guī)模漢英篇章對比語料庫,深入分析了話題鏈在漢英篇章的宏觀語義結構描述功能上的差異情況[31]。
在漢語語篇結構的計算分析研究方面,舒江波以邢福義提出的復句理論為指導,對漢語復句關聯詞的自動識別方法進行了研究和探索[32]。宋柔提出了漢語廣義話題結構模型,從標點句入手分析了漢語句子相鄰小句片段中的話題隱現情況,總結出了若干有效的基于堆棧結構的回指話題恢復策略[33]。張明堯提出了基于事件鏈的篇章語義表示模型,通過對篇章中共指實體鏈的分析標注,自動識別這些共指實體相關的事件鏈,初步構建了基于事件鏈的篇章連貫性計算模型[34]。
通過對以上漢語語篇研究工作的簡單綜述,我們發(fā)現: 1)以修辭關系描述為主體的RST可以很好地分析和標注漢英語篇的語義結構和交際功能,其開放關系標記集的設計理念使它更適合于篇章結構生成的研究,而形式描述手段的缺乏則制約了它在語篇連貫性分析計算方面的應用潛力;2) PDTB選擇的關聯詞語描述切入點很好地解決了連貫形式和內容的結合問題,語言學家在漢語復句和句群研究中積累的豐富關聯詞語描述信息可以與PDTB模型形成內容銜接,但漢語真實文本中關聯詞語使用范圍狹窄的現狀限制了這種描述體系在漢語語篇分析中的應用效果;3) 理論語言學家對漢語話題鏈的深入研究,已初步形成了一套可操作的漢語語篇連貫性描述框架。計算語言學家在漢語廣義話題結構分析和實體鏈、事件鏈上的計算探索又初步證明了其可計算性。把它引入漢語語篇連貫性分析計算模型中,應該可以為相關模型的改進和完善提供新的活力。
基于以上幾點考慮,我們希望能把話題鏈引入漢語語篇連貫性描述體系中,形成一套以話題鏈為主,融合關聯詞語和其他連貫形式描述機制,重構現有連貫關系描述集。
傳統(tǒng)的語篇研究對象包括書面文本和口語對話兩大部分。我們的研究對象則主要集中在其中的書面文本部分,重點探索對新聞、學術、文學和應用等體裁的敘事、說明、描寫等類型文本中的事件情景連貫特征的分析計算問題。
這里定義的EDC,基本上與宋柔定義的標點句相當,主要差別在于我們的EDC包含了由逗號分隔的體詞性并列成分,以避免相應的不完整標點句對后續(xù)的篇章結構分析的影響。從描述內容上看,EDC大部分又都可以歸入沈家煊定義的“零句”形式[35],其中通過標點劃分出的話題和狀語從句部分,可以很好地融入后續(xù)的連貫性分析計算框架中。
為便于后續(xù)的計算處理,進一步引入下面兩個中間處理層次: 1)事件句式(Event Construction, EC),把它作為EDC中描述基本事件內容的句法語義鏈接(Syntax-Semantics Linking, SSL)結合體。其中融合了淺層的主狀謂賓補等句法功能結構和深層的謂詞論元結構(Predicate-Argument Structure, PAS)[36]。雖然大多數簡單EDC中只包含一個EC,但漢語真實文本小句中也存在許多復雜的EDC組合,其中的多個EC會形成并列、連謂、兼語、述結、定語從句嵌套等復雜結構關系,與“小句句子”的組合關系有很強的相似性。因此,我們把它們作為語篇連貫性分析的基本單元;2) 句群(Sentence Group, SG),是漢語段落中多個句子組合形成的針對同一話題展開的、前后銜接、語義連貫、具有一定交際目的和功能的篇章描述單元。它們基本上與漢語語言學家定義的“句群”概念相當,只是更強調了句群片段描述意義的內部完整性和外部功能性。它們可以作為句子到段落分析的中間計算單元。
這樣,就可以把本文關注的漢語語篇連貫性描述體系分為以下處理階段: 1)“事件句式小句句子”;2) “句子句群段落”。每個階段的連貫性分析描述又有不同側重點:
為此,我們從前人的研究成果中,提煉出了如下幾種漢語連貫描述形式: 1) 話題鏈;2) 關聯詞語;3) 其他連貫形式。并以此為基礎,構建了我們的連貫關系描述體系。下面對相關內容進行簡要說明。
1) 話題鏈: 主要作用是連接各個小句或句子。綜合曲承熹和王建國的研究成果,我們提出了論文中使用的話題鏈概念的操作性定義: 一組以ZA、PA或NA形式的話題連接起來的小句或句子。在句子內部的各個小句之間形成的話題鏈,主要以ZA形式表示。而在句群內部的各個句子之間,則更多地會采用PA或NA形式。由于鏈首話題的不同導入方式,句子或句群內部的話題鏈會形成不同的內部結構,它們可以為不同的修辭關系內容解釋提供真實理據支撐[25]。
2) 關聯詞語: 主要作用是連接各個小句或句子,同時顯性標識其可能的修辭關系。因此在許多漢語真實文本句子中,關聯詞語會與話題鏈同時出現,用于凸顯話題鏈中描述的各個小句片段之間需要強調的修辭關系,特別是在話題鏈中描述的信息違反常規(guī)的后景到前景的變化流程時。
3) 其他連貫形式: 主要作用是提供話題鏈和關聯詞語之外的其他連貫性判據,包括:
a 實體鏈: 將漢語小句或句子中話題位置之外的其他具有共指關系的實體成分連接起來的共指實例鏈,類似張明堯中定義的實體鏈,顯示小句和句子描述內容之間的實體銜接關系;
b 平行結構: 多個內部結構相似的小句或句子并置在一起,體現其描述內容之間的對等或對比關系,一般使用頓號、逗號或分號等點號來分隔;
c 謂詞組合: 通過謂詞所帶的“了、著、過”等體標記的不同反映相應謂詞小句之間的前后景關系[25]。例如,持續(xù)體標記“-著”一般表示后景事件,而完成體標記“—了”則大多標識前景事件。
在以上幾種連貫形式中,我們認為話題鏈和關聯詞語是漢語語篇中使用的主要連貫形式,它們是建構漢語連貫性描述體系的基礎。而其他連貫形式則是輔助性的,它們通過與話題鏈和關聯詞形式配合使用或單獨使用,凸顯某些特殊的連貫表示結構。
以此為基礎,我們重新建構了新的連貫內容描述體系。它包括4大修辭關系描述: 1) 話題評述關系;2) 廣義并列關系;3) 廣義因果關系;4) 廣義轉折關系。其中話題評述關系主要對應于話題鏈形式,通過設置不同內部子關系層次對不同話題鏈體現的事件前后景分布特點進行詳細描述。有關內容將在下面進一步展開。廣義并列、因果和轉折關系主要對應關聯詞形式,基本上沿用了邢福義(2001)提出的復句三分體系,并基于我們的理解進行了適當調整,例如,將遞進關系從原來的廣義并列關系集移到廣義轉折關系集,共同與原有的轉折關系形成順轉和逆轉的對比描述集合。
在話題評述關系集中,根據不同話題鏈描述特點,又區(qū)分出以下幾種子關系描述。
1) 時空順序關系
針對同一話題描述的多個事件在時間軸和空間體上形成的事實理據順序關系。其話題鏈大多是由首句(小句)主語為基準話題形成的單一ZA鏈。這是漢語話題鏈的主要描述形式。
2) 解釋注解關系
對新導出的話題的描述內容進行進一步的解釋說明。其話題鏈主要是由話題導出句(小句)賓語為基準話題形成的單一ZA鏈。典型使用場景是在更大的主話題鏈中作為一條子話題鏈,對主話題鏈描述的前景主線中的某個特殊實體的相關背景進行介紹,形成后景描述。
3) 視域變換關系
通過視域動詞的使用,將句子(句群)描述的內容分成兩個不同視域,其中分別形成不同的話題鏈描述相應事件內容,兩者通過視域動詞建立起內在聯系。典型實例是由“說”、“宣布”等言說動詞引導的轉述結構。
至此,我們初步形成了一個形式和內容相結合的漢語連貫性描述模型: 在連貫形式方面,提取了話題鏈、關聯詞和實體鏈、平行結構、謂詞組合等其他形式;在連貫內容方面,構建了話題評述、廣義并列、廣義因果和廣義轉折等四大修辭關系描述集。下面通過第1節(jié)中列出的幾個實例的具體分析,對這個體系的形式內容結合描述特點進行簡要說明。
(1) 例句: 她穿上那件舊花襖,走出窯來,解下門扇上的鐵鏈子,撥開了門閂。
a. 連貫形式: 話題鏈“她-ZA-ZA-ZA”,完成體標記“-了”;
b. 連貫內容: 話題評述—時空順序,話題‘她’順序完成的多個動作;
(2) 例句: 你們年紀還小,還要成家立業(yè),不要虛度年華,更不要成為社會討厭的人。
a. 連貫形式: 話題鏈“你們-ZA-ZA-ZA”,關聯詞語“還、更”,平行結構“不要…,不要…”;
(3) 例句: 我無意中碰到了身邊的一個什么東西,伸手一摸,是他給我開的飯,兩個干硬的饅頭。
a. 連貫形式: 主話題鏈“我-ZA”,完成體標記“-了”,次話題鏈“Φ—ZA”,實體鏈“東西—Φ—飯—饅頭”;(Φ 表示不在此句子中出現的隱含話題)
b. 連貫內容: 主話題鏈描述時空順序關系,次話題鏈描述解釋注解關系
我們以清華句法樹庫TCT Ver 1.0[38]的全部標注句子作為實驗數據來驗證相關體系描述的可行性。TCT選擇了新聞、學術、文學和應用等四種體裁的漢語平衡語料文本進行了句法結構樹的分析和標注??倶俗⒁?guī)模為100萬詞,約4.7萬句。TCT除了標注小句層面的名詞短語(np), 動詞短語(vp)等句法結構信息外,還設計了包含11種關系標記的復句描述體系[38],對漢語復句內部的各種事件邏輯關系進行了詳細描述,并對一些特殊引述句中的復雜句群組合關系進行了初步描述,為我們進行漢語“小句句子句群”層面的連貫性分析描述打下了很好的基礎。
我們提取了TCT中所有標注了以下11種事件關系的復句(fj)成分: 并列(BL)、選擇(XZ)、連貫(LG)、遞進(DJ)、因果(YG)、目的(MD)、條件(TJ)、假設(JS)、轉折(ZE)、解注(JZ)、流水(LS)等。為了更有效獲取這些復句內部的連貫性表示形式,我們對它們進行了以下預處理:
首先,自頂向下提取復句控制的所有子成分,包括內部事件小句EDC和嵌套復句(i-fj),形成復句內部小句塊序列: EDC* + i-fj*;
對每個內部EDC,進一步提取其中的主狀謂賓塊等形成的事件句式SDPO*S—主語塊,D——狀語塊,P—謂語塊,O—賓語塊。;對內部嵌套復句,只提取其控制的第一個內部EDC的相應事件句式作為代表;
對每個復句內部子成分塊(EDC或i-fj),設計了如下簡單的內部連貫性判據:
? 如果該小句事件句式沒有主語塊,則判定為存在零形回指話題(ZAT)形式;
? 如果該小句句首和狀語塊中包含關聯詞語(CW),包括: 連詞(c)、連接語(l)和關聯副詞(d)*目前主要考慮了以下關聯副詞: "便","才","倒","都","非","就","馬上","卻","也","一","又","越","凡是","不論","盡管","即使","就是","雖然","早在","剛",”仍然”。等,則判定為存在關聯詞(CW)形式;
考慮到嵌套復句內部多個關聯詞語使用的歧義性,規(guī)定該復句句首的連詞和連接語只在嵌套復句層面起作用,在其內部EDC序列的連貫性狀態(tài)分析時不起作用。
據此,按照復句內部各個小句塊的連貫性判據值,可以把所有復句分成以下4類。
1. 只通過話題鏈連接: 內部小句包含一個以上ZAT,并且不包含任何CW;
2. 只通過關聯詞連接: 內部小句包含一個以上CW,并且不包含任何ZAT;
3. 同時通過話題鏈和關聯詞連接: 內部小句同時包含一個以上ZAT和CW;
4. 通過其他方式連接: 內部小句不包含任何ZAT和CW;
表 1列出了目前獲得的完整統(tǒng)計數據,從中可以看出目前論文關注的3種連貫形式在漢語真實文本句子中的大致分布特點。
1) ZA形式話題鏈是漢語復句的主要連貫形式,覆蓋75.92%的漢語句子(1類—36.10%,3類—39.82%);
2) 關聯詞語也是漢語復句的重要連貫形式,覆蓋49.67%的漢語句子(2類—9.85%,3類—39.82%);其中關聯副詞的貢獻達到了22.78%(2類—5.85%,3類—16.93%),顯示了它們在漢語句子連貫性描述方面的重要作用;
3) 漢語句子中關聯詞語與ZA話題鏈同時使用是其應用常態(tài),占其覆蓋句子的80%左右,初步證實了關聯詞語在凸顯話題鏈描述的不同事件關系中的重要作用[21];
4) 使用其他連貫形式的復句約占14.23%,主要分布在流水和并列復句中,其中的不同連貫形式描述特點需要在后續(xù)工作中進一步深入分析。
為了更好地顯示不同連貫形式與連貫內容之間的對應關系,我們按照TCT標注規(guī)范中給出的11類復句關系的描述特點,將它們初步映射到上節(jié)定義的4種主要修辭關系類, 形成以下4大類事件關系描述集合。
1) 話題評述關系: 映射連貫(LG)、 流水(LS)和解注(JZ)3種關系,分別對應時空順序、視域變換、解釋注解等關系小類;
2) 廣義因果關系: 映射因果(YG)、目的(MD)、條件(TJ)和假設(JS)4種關系,分別對應相應的描述小類;
3) 廣義轉折關系: 映射遞進(DJ) 和轉折 (ZE)
表1 包含不同連貫標記的TCT不同復句關系統(tǒng)計
2種關系,分別對應順轉和逆轉兩個小類;
4) 廣義并列關系: 映射并列(BL)和選擇(XZ) 2種關系,分別對應相應的描述小類。
這樣,我們可以把表 1內容歸并形成表 2數據。從中可以看出,在TCT數據集上,我們目前提出的3種連貫形式和4種修辭關系之間存在很強的對應聯系。
a. 話題鏈是話題評述關系的凸顯描述形式,覆蓋相應句子實例的77%以上;而該類句子在真實文本中的分布比例也達到了63.47%,因此研究話題鏈和話題評述關系的互動作用效果對理解真實文本中大部分句子的連貫性描述特點具有重要意義;
b. 關聯詞是廣義因果和轉折關系的凸顯描述形式,覆蓋相應句子實例的82%左右;但該類句子在真實文本中的分布比例只有20.89%,這就使其發(fā)揮作用的范圍受到了很大限制;
表2 包含不同連貫標記的4大類映射連貫關系復句統(tǒng)計
c. 相對而言,廣義并列關系句子中各種連貫手段的應用相對平均,話題鏈、并列連詞、平行結構等多種連貫形式都會在廣義并列關系的識別理解中發(fā)揮作用。而且其在真實文本中的分布比例也達到了15.64%,需要對其內部連貫特點進行進一步分析。
為了進一步分析話題鏈和關聯詞兩種連貫形式在不同體裁的漢語真實文本中的使用特點,我們分別統(tǒng)計了它們在不同體裁的文本句子中描述4類不同連貫關系時的分布比率,得到了圖 1和圖 2的數據結果。從中可以看出:
圖1 話題鏈在不同體裁的4大類連貫復句中的使用分布率
圖2 關聯詞在不同體裁的4大類連貫復句中的使用分布率
話題鏈在不同體裁的不同連貫關系復句中應用很均衡,在話題評述、廣義因果和廣義轉折復句中的應用比例都達到了75%以上,在廣義并列復句中的應用比例也達到了65%以上,顯示了其在漢語句子的連貫性描述計算中的重要作用。
關聯詞在不同體裁的不同連貫關系復句中的應用則不太均衡: 在不同體裁文本中,學術類句子使用相對較多,以適合學術類內容描述的嚴謹性要求;而側重事務描述的應用類句子中則使用較少。在不同連貫關系復句中,關聯詞在廣義因果、轉折和并列復句中使用較多,而在話題評述類復句中則使用較少,因為其中的話題鏈已經可以提供很好的連貫性描述支持。
表 3列出了從目前的自動分析結果中隨機抽出的8個復句片段的自動分類數據。從中可以看出,盡管我們目前只使用了簡單的連貫形式判據,但獲取到的分析數據基本上還是符合我們預期的。其中,例句3反映的廣義條件關系,需要通過對話題鏈描述內容推斷得到,這將是后續(xù)工作的一個研究重點。而例句7則是由于對嵌套復句句首關聯詞語的簡單排歧規(guī)則處理而導致的類別3漏判斷。據此,我們初步判斷目前得到的相關結論還是比較可靠的。
表3 各類體裁文本隨機選取的2個復句分析實例(關系=TCT復句關系;類別=自動識別類)
目前在漢語真實文本上的話題鏈和關聯詞使用統(tǒng)計數據還比較少。宋柔在40萬字左右的廣義話題結構標注庫上的統(tǒng)計結果顯示,漢語篇章中40%左右的標點句首部缺少話題[32]。Zhou對CTB標注庫中隨機抽取的20個語篇文件進行了分析,發(fā)現82%的復句使用了隱性關聯詞,與英語PDTB標注庫得到的54.5%的數據有很大差距[15]。這些數據從不同側面驗證了漢語文本中ZA話題使用頻繁、關聯詞語使用較少的分布特點,與我們的實驗結果可以互為驗證。
本文針對漢語篇章結構簡潔靈活、很少使用關聯詞語的描述特點,提出引入話題鏈描述形式,設計不同類型的話題評述關系集,構建了以話題鏈為主,融合關聯詞語和其他連貫形式描述機制,覆蓋話題評述、并列、因果、轉折四大類關系的漢語語篇連貫性描述體系。在清華句法樹庫TCT上進行的初步驗證實驗表明,話題鏈在不同體裁的漢語真實文本數據上都有很好的適用性,可以很好地解決顯性關聯詞不足導致的連貫性判據缺失問題。
在后續(xù)研究中,我們將在這個描述體系指導下,重構TCT標注庫中“小句句子”層面的標注信息,發(fā)現并標注句子中的不同話題鏈,據此確定合適的句子連貫關系標記。構建新的融合話題鏈、關聯詞和其他連貫形式的漢語復句連貫性標注庫,為進一步探索高效的漢語句子連貫性計算模型打下基礎。
[1] B.Webber, A Joshi. Discourse Structures and Computations: Past, Present and Future [C]//Proceedings of ACL-2012 Special Workshop on Rediscovering 50 Years of Discoveries, 2012: 42-54.
[2] B Webber, M Egg, V Kordoni. Discourse structure and language technology [J]. Natural Language Engineering. 2012,18(4): 437-439.
[3] Mann W C, Thompson S A. Rhetorical Structure Theory: Toward a functional theory of text organization [J]. Text, 1998,8(3):243-281.
[4] Carlson L, Marcu D, Okurowski M E. Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory [C]//Proceedings of the Annual Sigdial Meeting on Discourse and Dialogue, Morristown: Association for Computational Linguiscs, 2001: 30-39.
[5] DuVerle D A, Prendinger H. A Novel Discourse Parser Based on Support Vector Machine Classification[C]//Proceedings of ACL-IJCNLP 2009. Morristown: ACL, 2009: 665-673.
[6] Prasad R, Miltsakaki E,Dinesh N,et al. The Penn Discourse Treebank 2.0 Annotation Manual[R]. USA: University of Pennsylvania,2008.
[7] Lin ZH, Ng H T, Kan M Y. A PDTB-styled end-to-end discourse parser [D]. Singapore: National University of Singapore,2010.
[8] Zhou ZM, Xu Y, Niu ZY, et al. Predicting Discourse Connectives for Implicit Discourse Relation Recognition[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Morristown: Association for Computational Linguistics, 2010: 1507-1514.
[9] J Ruppenhofer, C Sporleder, R Morante, et al. SemEval-2010 Task 10: Linking Events and Their Participants in Discourse[C]//Proceedings of SemEval-2010, 2010: 45-50.
[10] Josef Ruppenhofer, Philip Gorinski, Caroline Sporleder. In Search of Missing Arguments: A Linguistics Approach[C]//Proceedings of RANLP-2011, 2011: 331-338.
[11] Sameer Pradhan, Lance Ramshaw, Mitch Marcus, et al. Modeling Unrestricted Coreference in OntoNotes[C]//Proceedings of CoNLL-2011. 2011: 1-27.
[12] Ralph Weischedel, Eduard Hovy, Martha Palmer, et al. OntoNotes: A Large Training Corpus for Enhanced Processing [A]. In Joseph Olive, Caitlin Christianson, and John McCary, editors, Handbook of Natural Language Processing and Machine Translation.
[13] Halliday, M A K, Hasan, R. Cohesion in English [M]. London: Longman.
[14] 樂明. 中文篇章修辭結構的標注研究[J]. 中文信息學報, 2008,22(4):19-23.
[15] Yuping Zhou, Nianwen Xue. PTDB-style Discourse Annotation of Chinese Text[C]//Proceedings of ACL-2012, 2012, 69-77.
[16] 張牧宇,秦兵,劉挺. 中文篇章級句間語義關系體系及標注[J]. 中文信息學報. 2014,28(2): 28-36.
[17] 廖秋忠. 廖秋忠文集 [M]. 北京: 北京語言學院出版社.
[18] 吳為章,田小琳. 漢語句群[M].北京: 商務印書館.
[19] 邢福義. 漢語復句研究[M]. 北京: 商務印書館.
[20] 徐赳赳. 現代漢語篇章語言學[M]. 北京: 商務印書館.
[21] Chao Yuan Ren (趙元任). A Grammar of Spoken Chinese [M]. Berkeley and Los Angeles: University of California Press.
[22] Li, Charles N, Sandra A Thompson. Subject and Topic [M]. New York: Academic Press.1976.
[23] Tsao Feng-fu (曹逢甫). A Functional Study of Topic in Chinese: the First Step toward Discourse Analysis [M]. Taipei: Student Book Co.
[24] Tsao Feng-fu (曹逢甫). Clause and Sentence Structure in Chinese: A Functional Perspective [M]. Taipei: Student Book Co.
[25] 曲承熹. 漢語篇章語法[M]. 北京: 北京語言大學出版社 (潘文國等譯),1998.
[26] 劉大為. 意向動詞、言說動詞與篇章的視域[J], 修辭學習,2004,6:28-35.
[27] 楊彬. 話題鏈語篇構建機制的多角度研究[D],上海: 復旦大學博士學位論文,2009.
[28] 廖秋忠. 篇章中的管界問題 [A]. 北京語言學院出版社: 《廖秋忠文集》 [C],1992: 92-115.
[29] 孫坤. 話題鏈視角下的漢英篇章組織模式對比研究[J],解放軍外國語學院學報,2013,36(3):12-20.
[30] 王建國. 論話題的延續(xù): 基于話題鏈的漢英篇章研究[M]. 上海: 上海交通大學出版社,2013.
[31] 劉禮進. 英漢篇章結構模式對比研究[A]. 劉禮進著《英漢語篇和語法問題研究》[C],中山大學出版社,2011: 166-178.
[32] 舒江波. 面向中文信息處理的復句關聯詞自動識別[D],2011,武漢: 華中師范大學博士學位論文.
[33] 宋柔. 漢語篇章廣義話題結構研究[R],北京語言文化大學內部資料, 2012.
[34] 張明堯. 基于事件鏈的語篇連貫研究[D],武漢: 武漢大學博士學位論文,2013.
[35] 沈家煊. “零句”和“流水句”[J]. 中國語文,2012,5:403-415.
[36] 邱晗. 漢語謂詞論元結構的分析標注研究[D]. 北京: 清華大學碩士論文,2014.
[37] 吳平. 漢語特殊句式的事件語義分析與計算[M]. 北京: 中國社會科學出版社.
[38] 周強. 漢語句法樹庫標注體系[J]. 中文信息學報,2004, 18(4): 1-8.