賈延延,程學(xué)旗,馮 鍵
(1. 中國(guó)再保險(xiǎn)(集團(tuán))股份有限公司 博士后科研工作站,北京 100033;2. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190;3. 中國(guó)再保險(xiǎn)(集團(tuán))股份有限公司 信息技術(shù)中心,北京 100033)
篇章是由詞、短語、句子和段落構(gòu)成的自然語言單位,是一個(gè)有組織和層級(jí)的整體,可以表達(dá)完整的思想和意圖。篇章具有連貫性(Coherence)、銜接性(Cohesion)、信息性(Informativity)、意圖性(Intentionality)、情景性(Situationality)、可接受性(Acceptability)和跨篇章性(Intertextuality)等7種特性[1]。
基于修辭結(jié)構(gòu)理論(Rhetorical Structure Theory, RST)[2]的篇章結(jié)構(gòu)分析是篇章連貫性分析中的一個(gè)重要分支。在RST理論中,基本篇章分析單元(Element Discourse Unit, EDU)之間存在修辭關(guān)系。篇章成分分析通過這種修飾關(guān)系自底向上地合并分析單元,形成中間節(jié)點(diǎn),直到建立包括整篇文章中所有EDU的篇章成分分析樹。目前,絕大多數(shù)篇章分析工作都采用成分分析模式。幾乎所有針對(duì)英語的篇章成分分析工作都基于經(jīng)典的修辭結(jié)構(gòu)理論篇章樹庫(kù)(RST DT)[3]。例如,Hernault等[4]提出了基于支持向量機(jī)的篇章成分分析器HILDA,他們采用二分類器進(jìn)行結(jié)構(gòu)分析,用多分類器預(yù)測(cè)修辭關(guān)系和核心附屬屬性,借助位置、長(zhǎng)度、距離、句法分析結(jié)果、支配集等特征自底向上地建立成分分析樹;Feng等[5]為提升HILDA的分析效果,引入豐富的語言學(xué)特征。例如,規(guī)則、依存結(jié)構(gòu)、語義相似度、支配節(jié)點(diǎn)、上下文信息等特征,構(gòu)造了多達(dá)21 410個(gè)特征模板,通過互信息評(píng)價(jià)特征的貢獻(xiàn)將其排序;Li等[6]借助斯坦福自然語言處理工具獲得句法樹結(jié)構(gòu),利用遞歸神經(jīng)網(wǎng)絡(luò)獲得EDU和中間分析單元的向量表示,再基于神經(jīng)網(wǎng)絡(luò)的分類器分別判斷篇章分析樹結(jié)構(gòu)和修飾關(guān)系。但是,上述無論傳統(tǒng)分析方法或是基于深度學(xué)習(xí)的篇章分析方法都無法避免人工特征提取。
雖然篇章成分分析較篇章依存分析[7]更受關(guān)注,但篇章依存分析的優(yōu)勢(shì)不容忽視。篇章成分分析通過引入中間節(jié)點(diǎn)的方式,緩解“長(zhǎng)距離依賴”這一性能瓶頸問題。然而,篇章依存分析無需增加中間節(jié)點(diǎn),就可以直接分析EDU之間的關(guān)系,水平建立分析樹。因此篇章依存分析便于直接判斷篇章中任意兩個(gè)分析單元之間是否存在依存關(guān)系,其分析結(jié)果更為直觀和便捷。典型的依存分析工作如Li等[7],選擇基于圖模型的Eisner算法和最大生成樹算法進(jìn)行篇章依存分析。首先,將RST篇章樹庫(kù)中的成分分析樹轉(zhuǎn)換為依存分析樹。然后,結(jié)合詞匯、詞性、長(zhǎng)度、位置、句法分析結(jié)果、語義信息等六類特征集進(jìn)行實(shí)驗(yàn),所生成的依存分析樹不包含額外引入的中間節(jié)點(diǎn)。然而,雖然基于圖模型的分析方法便于全局優(yōu)化,且實(shí)驗(yàn)效果通常優(yōu)于基于轉(zhuǎn)移的篇章分析器。但是,用圖模型進(jìn)行分析的算法時(shí)間復(fù)雜度較高。更重要的是,基于圖模型的分析方法依然無法克服篇章依存分析的兩大難點(diǎn)與挑戰(zhàn)問題: (1)在篇章依存分析中,長(zhǎng)距離依賴場(chǎng)景的分析效果差;(2)為提高分析效果,引入大量人工特征來輔助判斷。
在實(shí)際應(yīng)用場(chǎng)景,只有減少和規(guī)避特征提取才能提高篇章分析器的易用性和魯棒性,以避免人力浪費(fèi)。若要緩解長(zhǎng)距離依賴場(chǎng)景分析效果差這一瓶頸問題,單純從特征設(shè)計(jì)和后處理技巧入手勢(shì)必低效,應(yīng)該考慮篇章分析基礎(chǔ)框架和模式。
另一方面,分層次處理的篇章成分分析框架具有啟發(fā)性。Joty等[8]分別使用兩個(gè)動(dòng)態(tài)條件隨機(jī)場(chǎng)建立句子內(nèi)部的篇章成分分析樹和句子之間的篇章成分分析樹,選擇CKY算法進(jìn)行全局最優(yōu)解碼,并為句內(nèi)分析和句間分析分別引入豐富且有差異性的特征集進(jìn)行實(shí)驗(yàn)。Liu等[9]同樣分層次地進(jìn)行句子內(nèi)和句子間的篇章成分分析,分別用兩個(gè)線性鏈條件隨機(jī)場(chǎng)來建模篇章結(jié)構(gòu)和關(guān)系。采用貪心策略自底向上的建立篇章成分分析樹。他們利用長(zhǎng)短時(shí)記憶模型(Long Short-Term Memory, LSTM)[10]來建模EDU和句子的特征,并在句間篇章分析場(chǎng)景引入更能體現(xiàn)結(jié)構(gòu)化特征的遞歸神經(jīng)網(wǎng)絡(luò)來表達(dá)上下文信息。
上述兩個(gè)層次化的篇章成分分析工作都取得了不錯(cuò)的實(shí)驗(yàn)效果。因此,本文給出了層次化的篇章依存分析方法。這種分析方法不再一次性分析篇章中的所有分析單元,而是分層次地進(jìn)行篇章分析。首先,建立句子內(nèi)以EDU為葉子節(jié)點(diǎn)的篇章分析子樹;然后建立句子間以句子為葉子節(jié)點(diǎn)的篇章分析樹。最后,整合兩層分析結(jié)果,形成整篇文章的篇章依存分析樹。分層次的方式可以避免一次性分析篇章中的所有EDU,減少了篇章依存分析器所需面對(duì)長(zhǎng)距離依賴對(duì)的數(shù)目,從而緩解了長(zhǎng)距離依賴這一性能瓶頸問題。另一方面,該方式還帶來了可以根據(jù)不同層次的特點(diǎn)、設(shè)計(jì)更有針對(duì)性的分析策略的好處。與此同時(shí),本文選取改進(jìn)的長(zhǎng)短時(shí)記憶模型,結(jié)合注意力機(jī)制來獲得分析單元的表示,避免特征提取。在RST篇章樹庫(kù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明,本文基于LSTM的層次化篇章依存分析方法避免了耗時(shí)的特征設(shè)計(jì),且實(shí)驗(yàn)效果超越了同類深度學(xué)習(xí)模型。
本文利用層次化的依存分析方法,為整個(gè)篇章建立一棵篇章分析樹,其過程分為三個(gè)階段。
(1) 句內(nèi)層次篇章依存分析: 針對(duì)每個(gè)句子,將句子中的EDU依次輸入到B中,建立句子級(jí)別的、以EDU為葉子節(jié)點(diǎn)的篇章分析子樹,如圖1所示。
圖1 句內(nèi)篇章依存分析示例
(2) 句間層次篇章依存分析: 針對(duì)整個(gè)篇章,將句子作為一個(gè)篇章分析單元,將其向量表示依次輸入B中,建立以句子為葉子節(jié)點(diǎn)的篇章分析樹,如圖2所示。
圖2 句間篇章依存分析示例
(3) 整合分析結(jié)果: 用句內(nèi)層所預(yù)測(cè)的句子級(jí)別的篇章分析子樹的根節(jié)點(diǎn)標(biāo)號(hào)代表句間層中的句子節(jié)點(diǎn),整合兩層的預(yù)測(cè)結(jié)果,得到整個(gè)篇章以EDU為葉子節(jié)點(diǎn)的篇章分析樹,即最終篇章依存分析結(jié)果,如圖3所示。
圖3 整合句內(nèi)和句間篇章依存分析結(jié)果
Sepp Hochreiter于1997年設(shè)計(jì)了長(zhǎng)短時(shí)記憶模型(LSTM)緩解了長(zhǎng)期困擾循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[12-14]的梯度消失或梯度爆炸問題。經(jīng)典的LSTM包含輸入門、輸出門、遺忘門三種門控和一個(gè)記憶單元。長(zhǎng)短時(shí)記憶模型具有多種改進(jìn)形式。例如,雙向LSTM、樹形LSTM、多層LSTM等。本文選擇雙向LSTM來提供篇章分析單元的向量表示,具體表示方法在2.4節(jié)中詳述。
本文采用Arc-eager模式的基于轉(zhuǎn)移的篇章分析方法來生成篇章分析樹。Arc-eager轉(zhuǎn)移模式改進(jìn)了Arc-standard[15]轉(zhuǎn)移方法的限制條件。樹節(jié)點(diǎn)無需找到其所有子節(jié)點(diǎn)就可以連接其頭節(jié)點(diǎn)。該分析方法包括Shift、Left-Arc、Right-Arc、 Reduce等四種轉(zhuǎn)移動(dòng)作,動(dòng)作轉(zhuǎn)移過程如表1所示。以本文基于RST語料的篇章依存分析為例,表1中B、S和A分別用于保存輸入的篇章分析單元序列、轉(zhuǎn)移過程中形成的子樹表示以及轉(zhuǎn)移狀態(tài)。x和y表示B和S的頭節(jié)點(diǎn)。Shift操作將B的頭節(jié)點(diǎn)轉(zhuǎn)移到S的頭元素位置;Reduce操作將S中的頭節(jié)點(diǎn)彈出。Left-Arc根據(jù)所預(yù)測(cè)的依存關(guān)系在S和B的頭節(jié)點(diǎn)之間建立依存弧,其中B的頭節(jié)點(diǎn)為核心節(jié)點(diǎn),S的頭節(jié)點(diǎn)為附屬節(jié)點(diǎn)。動(dòng)作執(zhí)行后S中的頭節(jié)點(diǎn)被彈出,將轉(zhuǎn)移狀態(tài)保存到A中。相應(yīng)地,Right-Arc根據(jù)所預(yù)測(cè)的依存關(guān)系在S和B的頭節(jié)點(diǎn)之間建立依存弧,其中S的頭節(jié)點(diǎn)為核心節(jié)點(diǎn),B的頭節(jié)點(diǎn)為附屬節(jié)點(diǎn)。動(dòng)作執(zhí)行后B中的頭節(jié)點(diǎn)被推入S中,將轉(zhuǎn)移狀態(tài)保存到A中。
表1 Arc-eager模式分析方法轉(zhuǎn)移狀態(tài)
2.3.1 模型結(jié)構(gòu)
本文基于LSTM的Arc-eager模式篇章分析框架如圖4所示。將輸入的篇章分析單元依次存入B中。在初始狀態(tài)下,使篇章中的第一個(gè)分析單元處于B的頭元素位置,連接B中的前兩個(gè)元素來獲得輸入序列B的向量表示;將分析過程中產(chǎn)生的中間子樹結(jié)構(gòu)存入S中,用S的頭元素構(gòu)造其向量表示;對(duì)于S和B而言,這里的“元素”在句內(nèi)篇章分析層次為基本篇章分析單元,在句間篇章分析層次是指句子。A用于存放篇章分析過程中產(chǎn)生的歷史轉(zhuǎn)移狀態(tài),包括轉(zhuǎn)移動(dòng)作和元素對(duì)之間的依存關(guān)系。連接A中的前三個(gè)轉(zhuǎn)移狀態(tài)的向量表示來構(gòu)造模型的歷史轉(zhuǎn)移狀態(tài)表示。本文句內(nèi)層次的篇章依存分析和句間層次的篇章依存分析都依照此模型結(jié)構(gòu)進(jìn)行實(shí)驗(yàn),句內(nèi)和句間層次的篇章分析的輸入信息有所不同,將在2.4節(jié)中詳述。圖4中,SH代表轉(zhuǎn)移動(dòng)作為Shift,RA(Li)表示轉(zhuǎn)移動(dòng)作為Right-Arc,依存關(guān)系為L(zhǎng)ist。
整個(gè)樣品前處理過程不需要樣品轉(zhuǎn)移就能得到經(jīng)皂化、萃取、干燥、過濾后的待分析試液,大大簡(jiǎn)化了檢測(cè)操作過程中的樣品前處理步驟,有可能引入誤差的環(huán)節(jié)也相應(yīng)減少,分析結(jié)果的精密度得到明顯改善。在實(shí)際操作時(shí),可把樣品管放到配套的試管架上,將放置有樣品管的試管架一起放入超聲振蕩器中皂化、萃取,有利于批量樣品的處理。筆者等建立的煙草中茄尼醇高通量分析檢測(cè)方法和GB/T 31758-2015方法相比,日樣品處理量可提高5倍以上,大大提高了樣品分析檢測(cè)效率。
將S、B、A三部分的向量表示連接起來,經(jīng)過一個(gè)ReLU變換和兩個(gè)用ReLU作為激活函數(shù)的全連接層處理后,得到pt,即t時(shí)刻的篇章分析狀態(tài)。將pt進(jìn)行仿射變換后,輸入到softmax多分類器中,預(yù)測(cè)各個(gè)轉(zhuǎn)移狀態(tài)的概率,取概率最大的轉(zhuǎn)移狀態(tài)為當(dāng)前時(shí)刻的模型預(yù)測(cè)結(jié)果。本實(shí)驗(yàn)采用貪心策略進(jìn)行解碼,交叉熵作為損失函數(shù)。
圖4 篇章依存分析模型結(jié)構(gòu)
2.3.2 模型分析過程
本節(jié)以RST語料庫(kù)中的篇章wsj_0609為例,來說明本模型的篇章依存分析過程(這里以不分層次的傳統(tǒng)分析方法為例,即一次性處理篇章中的所有EDU,直接得到整篇文章以EDU為葉子節(jié)點(diǎn)的分析樹)。該篇章包含185個(gè)EDU。這里給出其中前4個(gè)EDU所構(gòu)成片段([PresidentBushinsists]E1[itwouldbeagreattool]E2[forcurbingbudgetdeficit]E3[andslicingthelardoutofgovernmentprograms.]E4)的依存分析過程。表2列出了執(zhí)行完每一個(gè)轉(zhuǎn)移狀態(tài)后,A、S和B中的內(nèi)容和狀態(tài)更新。狀態(tài)0代表篇章分析的初始狀態(tài),此時(shí)A和S為空,B中存放了所有輸入EDU,從第一個(gè)EDU開始順序分析。根據(jù)當(dāng)前S、B和A的狀態(tài)表示,預(yù)測(cè)轉(zhuǎn)移狀態(tài)并存入A中,即更新A的狀態(tài)。根據(jù)轉(zhuǎn)移狀態(tài)執(zhí)行相應(yīng)動(dòng)作,并建立依存關(guān)系(Arc-eager模式),從而更新S和B中的內(nèi)容;更新后的S、B和A構(gòu)成了下一次預(yù)測(cè)的狀態(tài)表示基礎(chǔ)。直到B為空,A包含了分析整篇文章的所有轉(zhuǎn)移狀態(tài),S中即為整篇文章的篇章依存分析樹。A中粗體轉(zhuǎn)移狀態(tài)即為根據(jù)前一狀態(tài)的向量表示所預(yù)測(cè)的轉(zhuǎn)移。
表2 模型狀態(tài)轉(zhuǎn)移過程
根據(jù)表2中的狀態(tài)轉(zhuǎn)移過程,篇章中的前4個(gè)EDU可以構(gòu)成圖5中的篇章依存分析子樹。在此基礎(chǔ)上,通過繼續(xù)進(jìn)行轉(zhuǎn)移預(yù)測(cè)和狀態(tài)更新得到整個(gè)篇章的依存分析樹。
圖5 篇章片段的依存分析子樹結(jié)構(gòu)
如圖4所示,采用雙向長(zhǎng)短時(shí)記憶模型結(jié)合注意力機(jī)制來表示B和S中的篇章分析單元。篇章分析單元在句內(nèi)層為EDU,在句間層為句子。
具體來說,本文將篇章分析單元中的單詞序列輸入到雙向LSTM中,使用注意力機(jī)制去捕捉詞序列中的重點(diǎn)單詞。將雙向LSTM的順序和逆序輸出連接起來,構(gòu)成篇章分析單元的詞匯信息表示。采用GloVe詞向量[16]初始化篇章分析單元中的單詞的向量表示。本文通過斯坦福自然語言處理工具(Stanford CoreNLP Toolkit)[17]來獲取篇章分析單元中單詞的詞性信息。與詞匯信息的建模方式類似,本文同樣采用雙向長(zhǎng)短時(shí)記憶模型結(jié)合注意力機(jī)制來獲得篇章分析單元的詞性信息表示。由于建模詞匯信息和詞性信息的網(wǎng)絡(luò)結(jié)構(gòu)相同,圖4中省略了建模詞性信息的網(wǎng)絡(luò)結(jié)構(gòu)。最后,將篇章分析單元的詞匯信息和詞性信息的向量表示連接起來構(gòu)成了S和B中的篇章分析單元的向量表示。
本文采用RST篇章樹庫(kù)進(jìn)行實(shí)驗(yàn),RST語料庫(kù)包含385篇來自《華爾街日?qǐng)?bào)》的新聞報(bào)道,包括超過176 000個(gè)單詞。最長(zhǎng)的篇章包括2 124個(gè)單詞,平均每篇文章包含458.14個(gè)單詞,56.59個(gè)EDU。平均每個(gè)EDU包含8.1個(gè)單詞[3]。雖然RST篇章樹庫(kù)所包含的篇章數(shù)目不多,但是語料庫(kù)中的篇章篇幅較長(zhǎng);并且包括財(cái)務(wù)報(bào)告、故事、商業(yè)新聞、文化評(píng)論和社論等多種題材,篇章結(jié)構(gòu)關(guān)系豐富且復(fù)雜。因此,幾乎所有針對(duì)英文的篇章成分分析和篇章依存分析工作都選用RST篇章樹庫(kù)進(jìn)行實(shí)驗(yàn)。這也帶來了實(shí)驗(yàn)結(jié)果公平、易于對(duì)比的優(yōu)點(diǎn)。
RST篇章樹庫(kù)建立在修辭結(jié)構(gòu)理論框架下,首先將篇章切分為基本篇章分析單元,然后通過修辭結(jié)構(gòu)來標(biāo)注EDU之間的結(jié)構(gòu)和修飾關(guān)系,并按照EDU的作用和重要性將其分為核心(Nucleus)和附屬(Satellite)兩種成分。其中表達(dá)中心思想和主要信息的EDU作為核心,起到補(bǔ)充說明和修飾作用的EDU作為附屬。本文選擇Li等[7]的方式,將RST語料庫(kù)中的成分分析樹轉(zhuǎn)換為依存分析樹,同樣選取其中380篇文章進(jìn)行實(shí)驗(yàn),包括訓(xùn)練集312篇,驗(yàn)證集30篇,測(cè)試集38篇。同時(shí)本文選取RST篇章樹庫(kù)中的111個(gè)細(xì)粒度關(guān)系進(jìn)行實(shí)驗(yàn)。
無標(biāo)記正確率(Unlabeled Attachment Score, UAS)[18-19]和有標(biāo)記正確率(Labeled Attachment Score, LAS)[20]是句法依存分析和篇章依存分析工作普遍采用的評(píng)測(cè)指標(biāo),便于比較各種同類工作的實(shí)驗(yàn)效果。本文即采用UAS和LAS作為篇章依存分析的評(píng)測(cè)標(biāo)準(zhǔn)。以RST篇章樹庫(kù)為例,無標(biāo)記正確率是指測(cè)試集中找到正確的支配節(jié)點(diǎn)的EDU數(shù)目占該篇章中總EDU數(shù)的比例;有標(biāo)記正確率是指測(cè)試集中找到正確的支配節(jié)點(diǎn),并且EDU對(duì)之間的修辭關(guān)系也預(yù)測(cè)正確的EDU數(shù)占該篇章中總EDU數(shù)的比例。其中,支配節(jié)點(diǎn)指在修辭關(guān)系中占據(jù)核心和主導(dǎo)地位的節(jié)點(diǎn)即核心節(jié)點(diǎn);相應(yīng)地,附屬節(jié)點(diǎn)指在修辭關(guān)系中充當(dāng)附屬成分的節(jié)點(diǎn)。
本文將層次化的篇章分析模型和表3中的幾種基線方法進(jìn)行對(duì)比。①Basic[21]: 該方法同樣為基于轉(zhuǎn)移的篇章依存分析器,使用深度學(xué)習(xí)模型(LSTM)獲得篇章分析單元的向量表示;但是,為達(dá)到較好的實(shí)驗(yàn)效果,該工作引入多種位置信息來獲得篇章分析單元的向量表示,并且采用一次性處理文章中所有基本分析單元的方式進(jìn)行篇章依存分析。②Hierarchical parser(no feature): 本文層次化的篇章分析法,在句內(nèi)和句間的篇章分析過程中都不引入任何特征和位置信息,采用2.4節(jié)介紹的篇章分析單元表示法來建模EDU或句子;③Refined[21]: 在Basic方法的基礎(chǔ)上,為緩解長(zhǎng)距離依賴的篇章分析單元對(duì)間的結(jié)構(gòu)和修飾關(guān)系難以捕捉的問題,該方法設(shè)計(jì)了一種記憶網(wǎng)絡(luò),自動(dòng)地捕獲篇章分析單元間的銜接性和話題線索,從而提高篇章依存分析效果。④Hierarchical parser: 本文層次化的篇章分析法。為發(fā)揮層次化的依存分析方法根據(jù)不同層次建模的優(yōu)勢(shì),在2.4節(jié)的篇章分析單元表示方法基礎(chǔ)上,在句間分析層次,引入待分析的句子對(duì)是否在同一段內(nèi)的信息來反應(yīng)篇章結(jié)構(gòu)特點(diǎn)。⑤MST-full[7]: 該方法是目前效果最好的基于圖模型的篇章依存分析器。
表3 篇章依存分析效果對(duì)比
本文在表3中列出了篇章依存分析結(jié)果。通過比較可以發(fā)現(xiàn),使用LSTM獲取篇章分析單元的向量表示的Basic方法依然無法避免各種特征提取。采用本文層次化的篇章分析方法(Hierarchical parser(no feature)),即使在不引入任何手工或外部工具提取的特征的前提下,實(shí)驗(yàn)效果在UAS和LAS上都高于Basic方法。這說明通過層次化的方式減少篇章分析器所需處理長(zhǎng)距離依賴的數(shù)目,確實(shí)能夠提升篇章分析效果。但是,和Refined方法相比,Hierarchical parser(no feature)效果稍遜。主要原因是Refined方法不僅需要抽取多種特征,而且該方法設(shè)計(jì)了一個(gè)記憶網(wǎng)絡(luò),將篇章中在向量空間上相似的篇章分析單元聚類到相同的記憶槽中,再將記憶槽的向量表示加入到篇章分析單元的向量表示中。這樣,為每一個(gè)篇章分析單元標(biāo)記了其話題線索,這種話題線索反應(yīng)了篇章的結(jié)構(gòu)信息和分析單元對(duì)間的依存關(guān)系。為此,在Hierarchical parser中,在句間層次,本文引入待分析的篇章分析單元對(duì)(句子對(duì))是否在同一段內(nèi)的簡(jiǎn)單位置信息來反應(yīng)篇章中淺層的結(jié)構(gòu)信息。雖然加入段落信息的方式比使用記憶槽捕捉話題線索的方式簡(jiǎn)單粗略,但是,Hierarchical parser的篇章依存分析效果依然在UAS和LAS上都超過了Refined分析方法。并且,Hierarchical parser只在句間層次引入句子對(duì)是否在同一段這一種位置信息來標(biāo)記篇章淺層結(jié)構(gòu),并沒有引入任何其他特征;而Refined方法中運(yùn)用了多種不同特征,例如,用EDU在句子內(nèi)、段落內(nèi)和文章中的位置來表示篇章分析單元;還引入了EDU之間是否在一句內(nèi)、是否在一段內(nèi)、以及距離信息來表示EDU對(duì)之間的位置關(guān)系。Hierarchical parser所引入的結(jié)構(gòu)信息遠(yuǎn)少于Refined方法??梢?,層次化的篇章依存分析模式本身較傳統(tǒng)的整篇文章一次性處理完成的篇章依存分析模式更有優(yōu)勢(shì)。
由于現(xiàn)存的篇章依存分析工作較少,依存分析樹又不能一一對(duì)應(yīng)的轉(zhuǎn)換為成分分析樹,因此本模型難以和其他篇章成分分析工作公平的對(duì)比實(shí)驗(yàn)結(jié)果。本實(shí)驗(yàn)采取同樣的實(shí)驗(yàn)設(shè)置和目前效果最好的篇章依存分析實(shí)驗(yàn)MST-full進(jìn)行對(duì)比,雖然效果還有差距,但是MST-full運(yùn)用了6個(gè)復(fù)雜特征集,包括詞匯、詞性、長(zhǎng)度信息、位置信息、語義相似度特征、句法分析結(jié)果等。其中語義相似度和句法分析結(jié)果等特征需要引入外部資源和工具才能獲得;另外,MST-full是基于圖模型的篇章分析方法,不需要按照某個(gè)順序去判斷篇章分析單元之間的結(jié)構(gòu)關(guān)系,可以搜索全局最優(yōu)解。但圖模型的篇章分析方法(O(n3))具有比本文基于轉(zhuǎn)移的分析法(O(n))更高的時(shí)間復(fù)雜度。
為更好地說明分層次的篇章依存分析模型在不同細(xì)粒度關(guān)系上的分析效果,本文對(duì)表3中的Hierarchical parser(ID 為4)的實(shí)驗(yàn)結(jié)果進(jìn)行細(xì)化,在表4中給出語料中數(shù)量最多的前8種細(xì)粒度關(guān)系和兩種數(shù)量較少的典型關(guān)系(example和background)的UAS和LAS分析結(jié)果,并標(biāo)記了這些關(guān)系在語料庫(kù)和測(cè)試集中出現(xiàn)的次數(shù)??梢园l(fā)現(xiàn),除了elaboration-additional和List兩種關(guān)系之外,語料庫(kù)中數(shù)量較多的關(guān)系,由于訓(xùn)練數(shù)據(jù)豐富,實(shí)驗(yàn)效果通常更好。關(guān)系elaborate-additional在語料庫(kù)中的總數(shù)量較多,但分析效果不理想的主要原因是: elaborate-additional(此關(guān)系表示附屬成分是核心成分的細(xì)化或附加詳盡說明)在關(guān)系含義上和elaboration-additional-e(當(dāng)附屬成分是嵌套結(jié)構(gòu)elaborate-additional變?yōu)閑laboration-additional-e)以及elaboration-object-attribute-e(不同于elaboration-additional-e之處在于附屬成分是其所修飾的核心成分的本質(zhì)屬性)十分相似,容易混淆。并且elaborate-additional在句內(nèi)和句間層次的分布不均勻,句內(nèi)層次分布較少。與其相似的elaboration-object-attribute-e在句內(nèi)篇章分析層次出現(xiàn)了超過 2 000 次,導(dǎo)致篇章分析器因?yàn)椤皬谋姟眱A向,做出誤判。List關(guān)系通常標(biāo)識(shí)并列語義或者結(jié)構(gòu),不同于其他關(guān)系,List關(guān)系的跨度通常較長(zhǎng),因此判斷難度更大。
表4 不同細(xì)粒度關(guān)系的分析效果
本文提出了一種層次化的篇章依存分析方法,該方法通過長(zhǎng)短時(shí)記憶模型處理篇章分析單元中的序列信息,獲得篇章分析單元的向量表示,避免了特征提取。在RST篇章樹庫(kù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明,層次化的篇章依存分析方法的實(shí)驗(yàn)效果超過了不分層次、但提取了必要特征的同類深度學(xué)習(xí)模型。這說明分層次建立依存分析樹的方式,通過減少篇章分析器所需處理長(zhǎng)距離依賴對(duì)的數(shù)量,緩解了長(zhǎng)距離依賴分析效果差這一依存分析的性能瓶頸問題。實(shí)驗(yàn)效果證明,這種層次化的篇章依存分析框架是一種提高篇章依存分析性能的有效途徑。