徐 凡,王明文,謝旭升,李茂西,萬劍怡
(江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)
基于主位-述位結(jié)構(gòu)理論的英文作文連貫性建模研究
徐 凡,王明文,謝旭升,李茂西,萬劍怡
(江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)
該文在研究了有監(jiān)督的基于實(shí)體和基于篇章關(guān)系網(wǎng)格的篇章連貫性模型的基礎(chǔ)上,提出了一個(gè)無監(jiān)督的基于主位-述位結(jié)構(gòu)理論的篇章連貫性模型。該模型通過引入詞語的詞干、上下位、近義和復(fù)述等語義方面的信息來計(jì)算相鄰句子中主位和述位的相似度,并利用此相似度值來描述篇章的連貫性。同時(shí),該文提出了一種簡單有效的基于篇章關(guān)系計(jì)數(shù)的連貫性模型,并采用線性組合方法將其與基于主位-述位結(jié)構(gòu)理論的連貫性模型加以集成。上述模型在國際基準(zhǔn)英文作文語料上進(jìn)行試驗(yàn),實(shí)驗(yàn)結(jié)果表明采用線性組合的連貫性模型后,作文連貫性檢測準(zhǔn)確率與目前基于實(shí)體和篇章關(guān)系網(wǎng)格的模型相比得到顯著提升。
銜接性;連貫性;主位-述位結(jié)構(gòu)理論;篇章關(guān)系;線性組合
眾所周知,作為主觀題形式的英文寫作更能考查出學(xué)生實(shí)際應(yīng)用英語的能力。相比較表層的英語語法、詞匯和句法等方面的錯(cuò)誤而言,位于底層的句子間的銜接性和連貫性方式的缺乏或誤用顯得更為難以發(fā)現(xiàn)。一般來說,語篇(也稱為篇章或文本)的銜接性和連貫性是句子構(gòu)成篇章的兩個(gè)最基本的特性。銜接性是連句成章的詞匯和語法方面的手段,是語篇中表層結(jié)構(gòu)上的粘著性,是語篇的有形網(wǎng)絡(luò);而連貫性是采用這些手段所產(chǎn)生的結(jié)果,是語篇中底層語義上的關(guān)聯(lián)性,是語篇的無形網(wǎng)絡(luò)[1]。由此可見,在篇章特性的刻畫和建模方面,連貫性比銜接性顯得更為重要。
篇章連貫性建模旨在對(duì)篇章中句子間的連貫性程度建立可計(jì)算模型,是自然語言處理的一個(gè)基礎(chǔ)和關(guān)鍵問題,并逐漸成為國內(nèi)外研究熱點(diǎn)。因?yàn)樗梢员粡V泛地應(yīng)用在統(tǒng)計(jì)機(jī)器翻譯[2]、篇章生成[3-4]、文本摘要[5-6]和學(xué)生寫作自動(dòng)評(píng)分[7-10]等許多與自然語言處理相關(guān)的應(yīng)用中。
現(xiàn)有的連貫性模型主要包括基于內(nèi)容的隱馬爾可夫模型[4]、基于潛在語義分析的模型[11]、基于句法結(jié)構(gòu)的模型[12]、基于實(shí)體的模型[13-16]、基于篇章關(guān)系的模型[17]、基于指代消解的模型[18-19]等。這些主流的篇章連貫性建模主要存在兩大不足: 其一,忽略了篇章銜接性理論對(duì)連貫性建模的指導(dǎo)作用。實(shí)際上,根據(jù)功能語言學(xué)家韓禮德的主位-述位結(jié)構(gòu)銜接性理論所述,人們認(rèn)識(shí)事物一般按照從已知信息(主位)到未知信息(述位)的認(rèn)知心理方式展開,主位部分對(duì)于信息傳遞和維護(hù)篇章的銜接性和連貫性有至關(guān)重要的作用,清晰而且合理的主位推進(jìn)方式是語篇銜接性和連貫性的重要保證之一[20]。文獻(xiàn)[21]認(rèn)為很多英語學(xué)習(xí)者的作文缺乏連貫性的最主要的原因在于他們沒有合理和有效地使用英語中的主位推進(jìn)方式。然而,主位-述位結(jié)構(gòu)理論僅在定性層面上分析了篇章的銜接性和連貫性,缺乏可計(jì)算性。為此,本文將主位-述位結(jié)構(gòu)理論從定性層面拓展到定量層面,研究其可計(jì)算性問題。其二,主流的篇章連貫性模型均采用有監(jiān)督的機(jī)器學(xué)習(xí)方法。它們一方面需要依賴于大規(guī)模而且高成本的人工標(biāo)注語料庫,另一方面與文本中抽取的平面或結(jié)構(gòu)化特征具有極大的相關(guān)性,并且面臨極其嚴(yán)峻的特征選擇工程問題,即如何從這些海量特征中選擇最為有效的特征集合。于是,本文著重研究無監(jiān)督(不需要人工標(biāo)注語料庫)的篇章連貫性模型。
鑒于此,本文提出了一個(gè)無監(jiān)督的基于主位-述位結(jié)構(gòu)理論的篇章連貫性模型。該模型通過引入詞語的詞干、上下位、近義和復(fù)述等語義方面的信息來計(jì)算相鄰句子中主位和述位的相似度,并利用此相似度來描述篇章的連貫性。同時(shí),本文提出了一種簡單有效的基于篇章關(guān)系計(jì)數(shù)的連貫性模型,并采用線性組合方法將其與基于主位-述位結(jié)構(gòu)理論的連貫性模型加以集成。上述模型在國際基準(zhǔn)英文作文語料上進(jìn)行試驗(yàn),實(shí)驗(yàn)表明采用線性組合的連貫性模型后,作文連貫性檢測準(zhǔn)確率與目前基于實(shí)體和篇章關(guān)系網(wǎng)格的模型相比得到顯著提升。
本文內(nèi)容組織如下: 第二節(jié)介紹篇章連貫性建模的相關(guān)工作;第三節(jié)重點(diǎn)闡述了本文提出的基于主位-述位結(jié)構(gòu)理論的篇章連貫性模型;第四節(jié)描述了本文提出的另外一種簡單并且有效的基于篇章關(guān)系計(jì)數(shù)的連貫性模型,并闡述了如何將它與基于主位-述位結(jié)構(gòu)理論的連貫性模型加以集成;第五節(jié)給出了實(shí)驗(yàn)設(shè)置及詳細(xì)的結(jié)果分析;第六節(jié)是本文的結(jié)論和將來工作部分。
代表性的篇章連貫性建模工作主要分為兩大類: 其一是無監(jiān)督的篇章連貫性模型[4,11];其二是有監(jiān)督的篇章連貫性模型[12-19]。
(1) 針對(duì)無監(jiān)督的篇章連貫性模型,文獻(xiàn)[4]基于隱馬爾可夫模型(Hidden Markov Model,HMM),將篇章中的話題看作隱狀態(tài),并把句子看作觀察,通過捕獲篇章中話題的轉(zhuǎn)換方式來指導(dǎo)篇章連貫性建模。Foltz等[11]利用文本中相鄰兩個(gè)句子的語義相關(guān)性來表示篇章的連貫性,并采用潛在語義分析(Latent Semantic Analysis,LSA)[22]計(jì)算相鄰句子的相關(guān)度。然而,此模型需要依賴較多的參數(shù)和額外的資源: 其一,如何設(shè)置一個(gè)適當(dāng)?shù)某跏颊Z義空間維度并如何對(duì)高維數(shù)據(jù)進(jìn)行降維;其二,如何選擇合適的語料去創(chuàng)建有效的語義空間。
(2) 針對(duì)有監(jiān)督的篇章連貫性模型,文獻(xiàn)[12]從句法結(jié)構(gòu)角度研究篇章連貫性建模,探索了文本中相鄰兩個(gè)句子的句法結(jié)構(gòu)轉(zhuǎn)換機(jī)制,并建立了基于句法樹產(chǎn)生規(guī)則的篇章連貫性模型。文獻(xiàn)[13-15]受中心理論[23]啟發(fā)提出了基于實(shí)體的篇章連貫性模型,利用篇章中出現(xiàn)的實(shí)體間的延續(xù)關(guān)系對(duì)篇章連貫性進(jìn)行建模。她們通過篇章實(shí)體及其實(shí)現(xiàn)的語法角色所構(gòu)成的篇章實(shí)體矩陣來捕獲文本中相鄰兩個(gè)句子的實(shí)體分布。文獻(xiàn)[16]對(duì)文獻(xiàn)[13-15]的工作進(jìn)行了擴(kuò)展,著重研究了訓(xùn)練語料中源文本和置換文本間的關(guān)系,并顯示了多重排序而非成對(duì)排序?qū)τ谄逻B貫性建模的有效性。文獻(xiàn)[17]則從篇章關(guān)系角度對(duì)篇章連貫性進(jìn)行建模,同時(shí)采用顯式和隱式四大類型的篇章關(guān)系(時(shí)序性Temporal、可能性Contingency、對(duì)比性Comparison和擴(kuò)充性Expansion)對(duì)文獻(xiàn)[13-15]的實(shí)體模型進(jìn)行擴(kuò)展。文獻(xiàn)[17]首先將基于實(shí)體模型中的語法角色替換成篇章關(guān)系,然后采用有監(jiān)督的排序?qū)W習(xí)技術(shù)對(duì)篇章的連貫性進(jìn)行建模。此外,文獻(xiàn)[18]和文獻(xiàn)[19]提出了基于名詞短語指代消解的篇章連貫性模型,并分別顯示了篇章中名詞短語的指代消解對(duì)于篇章連貫性建模存在著重要的指導(dǎo)作用。
主位-述位結(jié)構(gòu)理論是功能語言學(xué)上描述篇章銜接性方面的重要理論,僅從定性層面描述了篇章中句子間的銜接方式。本文將其從定性層面拓展到定量層面,研究其可計(jì)算性問題,并利用它指導(dǎo)篇章的連貫性建模。本節(jié)首先簡要介紹系統(tǒng)功能語法的主位-述位結(jié)構(gòu)理論,然后著重闡述基于此理論的篇章連貫性模型。
3.1 主位-述位結(jié)構(gòu)理論簡介
根據(jù)Halliday所述,主位是說話者表達(dá)思想的出發(fā)點(diǎn),而述位是圍繞主述展開的事實(shí)性內(nèi)容。一般來說,主位代表的是已知信息,即說話者和聽話者雙方都明確的信息,而述位代表的是未知信息,它往往是指說話者知道而聽話者不知道的信息。為了清晰起見,我們通過例1進(jìn)行更為詳細(xì)的解釋(主位部分采用下劃線表示,述位部分采用斜體表示)。
例1 The book you lent meisveryinteresting.
其中,例1的主位部分是雙方都預(yù)先明確的已知信息。相反,述位部分是未知信息,它一般圍繞主位部分而展開。如,例1中的“這本書怎么樣?”等。
同時(shí),Halliday認(rèn)為主位部分在語篇的組織結(jié)構(gòu)方面具有重要作用,清晰的主位推進(jìn)(thematic progression)保證了語篇的銜接性,把主位推進(jìn)定義為語篇中各個(gè)句子的主位部分構(gòu)成的一個(gè)主位序列,并提出了多種主位推進(jìn)模式。后來,很多學(xué)者都紛紛從事主位推進(jìn)模式研究,他們試圖概括出通用的主位推進(jìn)模式。出于主位推進(jìn)模式的計(jì)算機(jī)實(shí)現(xiàn)方面的考慮,本文采用文獻(xiàn)[24]提出的三種主位推進(jìn)模式: (a)前一句的主位部分推導(dǎo)出后一句的主位部分,即Ti—>Ti+1模式(這里i代表文本中句子的序號(hào),下同);(b)前一句的述位部分推導(dǎo)出后一句的主位部分,即Ri—>Ti+1模式;(c)前一句的主位和述位部分聯(lián)合推導(dǎo)出后一句的主位部分,即Ti+Ri—>Ti+1模式。為清晰起見,表1列出文獻(xiàn)[21]中的三種主位推進(jìn)模式實(shí)例。
表1 主位推進(jìn)模式實(shí)例
3.2 基于主位-述位結(jié)構(gòu)理論的篇章連貫性建模
本文將主位-述位結(jié)構(gòu)理論可計(jì)算化,把相鄰兩個(gè)句子的主位推進(jìn)程序模式的相似度作為篇章整體連貫性得分,并將其得分作為判斷篇章是否連貫的標(biāo)準(zhǔn)。篇章連貫性建模過程包括以下兩個(gè)步驟。
第1步 句子中主位和述位的識(shí)別
根據(jù)Halliday所述,句子中謂語部分是標(biāo)識(shí)主位和述位的臨界點(diǎn)。基于此,本文提出了圖1所示的主位和述位識(shí)別算法。
算法主要功能如下: 對(duì)于任意一篇文本,我們對(duì)文本中的每個(gè)句子進(jìn)行詞性標(biāo)記任務(wù),然后找出每句的首位動(dòng)詞,如果存在動(dòng)詞,則將動(dòng)詞前部分作為主位部分,將動(dòng)詞以及它的后面部分作為述位部分;否則將句子平均切分,前一部分作為主位部分,后一部分作為述位部分。
第2步 篇章連貫性得分計(jì)算
本文采用美國卡耐基梅隆大學(xué)提出的機(jī)器翻譯評(píng)測指標(biāo)METEOR(Metric for Evaluation of Translation with Explicit word ORdering)*http://www.cs.cmu.edu/~alavie/METEOR/計(jì)算相鄰句子的主位和述位部分的相似度。原因在于: 其一,METEOR采用單精度的加權(quán)調(diào)和平均數(shù)和單字召回率方法,能夠取得與人工判斷的具有較高相關(guān)性的機(jī)器翻譯評(píng)測結(jié)果;其二,METEOR在計(jì)算源句子和翻譯句子的相似度時(shí)引入了更多的語義方面信息(例如,單詞的詞干、WordNet中的同義詞、上下義詞、復(fù)述等),本文預(yù)期這些信息對(duì)于篇章連貫性建模將具有重要作用。
具體而言,對(duì)于給定一篇文檔,本文采用圖1所示的主位和述位識(shí)別算法對(duì)每一句進(jìn)行劃分,標(biāo)記出每個(gè)句子的主位和述位部分;然后,采用METEOR分別計(jì)算相鄰兩個(gè)句子的以上三種主位推進(jìn)程序的相似度;最后將相似度得分進(jìn)行求和取均值,分別作為三種主位推進(jìn)程序模式下的文本連貫性得分,如式(1)所示。
圖1 主位和述位識(shí)別算法
ThemeRhemeCohesionScore(Text)=
(1)
其中,N代表任意一篇作文的句子總數(shù),MeteorSim()代表采用機(jī)器翻譯評(píng)測指標(biāo)METEOR計(jì)算的相似度(式(2)),Uij代表相似度的計(jì)算單元,例如,i=1,j=1代表第1句的主位部分;i=1,j=2代表第1句的述位部分;i=1,j=3代表第1句的主位+述位部分(整個(gè)句子)。
(2)
其中,P=M/T用來計(jì)算句子相似度的精確度,R=M/R用來計(jì)算句子相似度的召回率。這里,M代表所述源句和所述目標(biāo)句中匹配的一元文法個(gè)數(shù),R代表所述源句的一元文法個(gè)數(shù),T代表所述目標(biāo)句的一元文法個(gè)數(shù),a是平衡因子,以權(quán)衡P和R值在計(jì)算相似度時(shí)的作用,滿足0≤a≤1。本文選擇Meteor的默認(rèn)a值(0.85)。
此外,出于模型的通用性考慮,本文將Ti—>Ti+1,Ti—>Ti+1和Ti—>Ti+1三者的相似度得分先取最大者,然后將其求和取均值(模型記作SumMax),如式(3)所示。
SumMaxThemeRhemeCohesionScore(Text)=
MeteorSim(Ri->Ti+1),
(3)
其中,MeteorSim(Ti—>Ti+1),MeteorSim(Ri—>Ti+1),MeteorSim(Ti+Ri—>Ti+1)分別代表三種主位推進(jìn)程序的相似度。
本節(jié)主要闡述篇章關(guān)系在連貫性建模中的應(yīng)用,并提出基于篇章關(guān)系計(jì)數(shù)的連貫性模型。同時(shí)介紹如何利用線性組合方式將其與基于主位-述位結(jié)構(gòu)理論的連貫性模型加以集成。
4.1 基于篇章關(guān)系計(jì)數(shù)的篇章連貫性建模
篇章關(guān)聯(lián)詞是一種典型的顯式篇章銜接手段,對(duì)于維護(hù)整個(gè)篇章的上下文連貫性具有重要的作用。一般來說,連貫的篇章中往往使用較多的篇章關(guān)聯(lián)詞。一般而言,篇章關(guān)聯(lián)詞是篇章關(guān)系(如: Temporal,Contingency,Comparison,Expansion等關(guān)系)的指示標(biāo)志。為清晰起見,本文采用例5和例6加以說明。
例5 Selling picked up as previous buyers bailed out of their positions and aggressive short sellers- anticipating further declines-moved in. (篇章關(guān)聯(lián)詞“and”指示“Expansion”篇章關(guān)系)
例6 My favorite colors are blue and green.
上述例5和例6中均具有關(guān)聯(lián)詞“and”。其中,例5中的“and”充當(dāng)篇章關(guān)聯(lián)詞連接兩個(gè)從句“Selling picked up as previous buyers bailed out of their positions”和“aggressive short sellers-anticipating further declines-moved in.”,而例6中的“and”卻不充當(dāng)篇章關(guān)聯(lián)詞。
基于上述分析,如何識(shí)別出篇章中所有的篇章關(guān)系便成為關(guān)鍵問題。不同于文獻(xiàn)[17]的工作,他們同時(shí)考慮了顯式和隱式篇章關(guān)系(不存在顯式的篇章關(guān)聯(lián)詞情形),但是隱式篇章關(guān)系識(shí)別性能僅為40%左右,而且同樣需要依賴于大規(guī)模的人工標(biāo)注語料。這些額外條件在一定程度上制約了文獻(xiàn)[17]方法在大規(guī)模數(shù)據(jù)環(huán)境中的適用性。由于文獻(xiàn)[25]已經(jīng)提出了高性能的顯式篇章關(guān)系識(shí)別的方案(AddDiscourse),利用篇章連接詞等詞匯、句法和語義等方面的特征,采用機(jī)器學(xué)習(xí)方法取得了96.26%的識(shí)別性能,因此本文直接采用文獻(xiàn)[25]的方法進(jìn)行顯式篇章關(guān)系識(shí)別。本文提出的基于篇章關(guān)系計(jì)數(shù)的連貫性建模過程包括以下兩個(gè)步驟。
第1步: 篇章關(guān)系識(shí)別
對(duì)任意一個(gè)文本中的每一句采用上述AddDiscourse工具識(shí)別出篇章關(guān)系。
第2步: 篇章連貫性得分計(jì)算
當(dāng)識(shí)別出篇章關(guān)系后,本文采用式(4)表示一篇文本的篇章連貫性評(píng)分。
(4)
其中,#disRel代表篇章關(guān)系的個(gè)數(shù),N代表篇章中句子總數(shù)。
4.2 篇章連貫性分析組合模型
為了驗(yàn)證基于主位-述位結(jié)構(gòu)理論的模型和基于篇章關(guān)系計(jì)數(shù)的模型是否具有協(xié)同性,本文利用兩者的線性組合方式,提出了一種組合模型,如式(5)所示。
SumMaxCompositeCoherenceScore(Text)=
α*SumMaxThemeRhemeCohesionScore(Text)+
(5)
其中,α和β代表主位-述位連貫性和篇章關(guān)系連貫性在學(xué)生作文連貫性評(píng)估中所占的比例,滿足α+β=1,α≥0和β≥0。
為了驗(yàn)證本文提出的篇章連貫性模型的有效性,我們采用國際基準(zhǔn)英文作文語料分別設(shè)計(jì)了三組篇章連貫性檢測實(shí)驗(yàn)。第一組實(shí)驗(yàn)用于驗(yàn)證基于主位-述位結(jié)構(gòu)理論的連貫性模型檢測性能;第二組實(shí)驗(yàn)用于驗(yàn)證基于篇章關(guān)系計(jì)數(shù)的連貫性模型檢測性能;第三組實(shí)驗(yàn)用于驗(yàn)證兩者線性組合下的連貫性模型檢測性能。本節(jié)首先簡要介紹實(shí)驗(yàn)設(shè)置,然后給出詳細(xì)的實(shí)驗(yàn)結(jié)果和分析。
5.1 實(shí)驗(yàn)設(shè)置
本文采用文獻(xiàn)[8]發(fā)布的ESOL(EnglishasaSecondorOtherLanguage)學(xué)生作文語料作為實(shí)驗(yàn)數(shù)據(jù)集。它是目前唯一可公開獲取的國際基準(zhǔn)英文作文語料。為清晰起見,圖2描述了一個(gè)ESOL學(xué)生作文測試語料實(shí)例。
圖2 ESOL學(xué)生作文測試語料實(shí)例
需要說明的是語料庫對(duì)整篇作文進(jìn)行了評(píng)分,包括了反應(yīng)作文質(zhì)量的多個(gè)方面,例如,措詞、連貫性、合乎語法性等。但是,一般來說,一篇作文的評(píng)分越高,它的連貫性程度也越高。相應(yīng)地,如果一篇作文的評(píng)分高于所有作文評(píng)分均值(人工評(píng)分或模型評(píng)分),本文認(rèn)為它是連貫性文本,否則將其作為非連貫性文本。為此,本文選用了語料ESOL下2000年的1 141篇學(xué)生作文作為訓(xùn)練語料,計(jì)算出來的得分平均值作為2001年1~6月份的97篇測試語料的門限值。之所以選擇此語料的2001年的97份文本作為測試數(shù)據(jù),原因在于語料發(fā)布人員僅發(fā)布了這97篇作文對(duì)應(yīng)的兩位標(biāo)注人員的人工評(píng)分值。于是,本文可以利用這些人工評(píng)分值與這97篇作文的人工平均分進(jìn)行對(duì)比,將大于人工平均分的作文作為連貫的作文,小于人工平均分的作文作為不連貫的作文,從而可以計(jì)算出作文的人工連貫性程度,作為篇章連貫性檢測性能上限。
此外,本文采用Brown大學(xué)所開發(fā)的通用篇章連貫性檢測工具M(jìn)elsner*https://bitbucket.org/melsner/browncoherence/downloads生成基于實(shí)體的篇章連貫性得分,采用SENNA*http://ml.nec-labs.com/senna/工具對(duì)作文進(jìn)行詞性標(biāo)記,采用Berkleyparser*http://code.google.com/p/berkeleyparser/對(duì)作文進(jìn)行短語句法分析。由于作文語法修訂工具的不可獲取性,我們直接采用作文中原始句子作為訓(xùn)練和測試語料,并采用準(zhǔn)確率(Accuracy)作為模型的性能評(píng)測指標(biāo),即模型能檢測出的正確和不正確的連貫性作文篇數(shù)占總作文篇數(shù)的比例。
5.2 實(shí)驗(yàn)結(jié)果分析
由于本文采用主位-述位結(jié)構(gòu)理論指導(dǎo)篇章連貫性建模,于是主位和述位的識(shí)別性能將至關(guān)重要。表2列出了主位和述位的算法識(shí)別性能和人工標(biāo)注性能。其中人工標(biāo)注過程為: 從文獻(xiàn)[13]發(fā)布的Earthquake和Accident語料中隨機(jī)選擇了100篇文本,首先請(qǐng)兩位高年級(jí)的研究生手工標(biāo)注出這100篇文本中每一個(gè)句子的主位和述位部分,然后將他們標(biāo)注一致的部分作為標(biāo)準(zhǔn)答案,并與圖1所示算法識(shí)別出的主位和述位部分進(jìn)行對(duì)比。根據(jù)表2的實(shí)驗(yàn)數(shù)據(jù),我們可以明確: 與人工標(biāo)注性能相比,本文提出的基于規(guī)則的主位和述位識(shí)別算法具有可行性。同時(shí),需要強(qiáng)調(diào)的是本文提出的主位和述位識(shí)別算法是以最先出現(xiàn)的動(dòng)詞作為主位和述位切分的標(biāo)準(zhǔn),另外我們也利用了Stanford句法分析器*http://nlp.stanford.edu/software/lex-parser.shtml對(duì)每個(gè)句子進(jìn)行依存句法分析,然后抽取出句子的主要謂詞(mainpredicate),并將其作為切分主位和述位的依據(jù),但并沒有帶來主位和述位識(shí)別性能的提升(對(duì)應(yīng)的主位和述位識(shí)別性能為81.90%)。這也從側(cè)面說明了本文提出的主位和述位識(shí)別算法的簡單有效性。
表2 主位-述位識(shí)別性能
表3列出了本文提出的單個(gè)模型和組合模型下的性能,并與代表性的篇章連貫性模型進(jìn)行了對(duì)比。同時(shí),為了驗(yàn)證相似度計(jì)算單元的影響,我們也給出了將相鄰的整個(gè)句子作為篇章連貫性的計(jì)算單元下的實(shí)驗(yàn)性能。由于Lin模型[17]僅報(bào)告了通用領(lǐng)域(新聞?lì)I(lǐng)域)下的篇章連貫性檢測性能,于是本文針對(duì)有噪音的ESOL語料重現(xiàn)了基于篇章關(guān)系網(wǎng)格的模型[17],并且采用文獻(xiàn)[17]和文獻(xiàn)[13]同樣的評(píng)價(jià)方法(accuracy)進(jìn)行作文連貫性評(píng)估,構(gòu)造ESOL中訓(xùn)練語料中成對(duì)的(連貫性強(qiáng)作文,連貫性弱作文)訓(xùn)練和測試數(shù)據(jù),采用五倍交叉驗(yàn)證進(jìn)行試驗(yàn)。實(shí)驗(yàn)結(jié)果表明:
(1) 直接采用完整句子作為相似度計(jì)算的單元明顯低于隨機(jī)方式50.00%的Accuracy,同時(shí)低于三種主位推進(jìn)程序模式所取得的檢測性能。它一方面說明了直接把整個(gè)句子作為處理單元時(shí)粒度太粗,從而導(dǎo)致區(qū)分度不高,另一方面也說明了主位-述位結(jié)構(gòu)理論對(duì)于學(xué)生作文連貫性評(píng)估的可行性,即將句子切分成主位和述位部分,然后再計(jì)算相似度這種形式更加有效。本文認(rèn)為原因在于學(xué)生作文的水平高低不等,有些作文存在大量的噪音(例如,錯(cuò)詞、錯(cuò)誤的表達(dá)等),從而導(dǎo)致了整個(gè)句子的相似度比較低。同時(shí),基于實(shí)體或篇章關(guān)系網(wǎng)格的模型所取得的性能略高于隨機(jī)方法。本文認(rèn)為原因在于基于實(shí)體或篇章關(guān)系網(wǎng)格的模型比較適合通用文體(新聞?lì)I(lǐng)域),因?yàn)檫@些新聞文本具有明顯的表示時(shí)序(Temporal)、可能性(Contingency)、對(duì)比(Comparison)和擴(kuò)充(Expansion)邏輯關(guān)系,但對(duì)于有噪音的學(xué)生作文語料卻不太適用。
(2) 在這三種不同的主位推進(jìn)程序中,Ti—>Ti+1模式取得了最好56.70%的Accuracy,其高于隨機(jī)方法所取得的性能。我們認(rèn)為原因在于作者往往采用主位擴(kuò)展主位或主位擴(kuò)展主位的寫作方式或習(xí)慣來展開全文。 同時(shí),本文提出的SumMax模型也取得了55.67%的Accuracy,這充分驗(yàn)證了SumMax具有通用性,這為模型合成提供了實(shí)驗(yàn)數(shù)據(jù)基礎(chǔ)。
(3) 本文提出的基于篇章連貫性的學(xué)生作文連貫性SumMax模型和基于篇章關(guān)系計(jì)數(shù)的模型均具有重要的作用,而且這兩種模型可以采用較為簡單的線性組合方式加以集成(取得了64.43%的檢測性能)。造成集成模型與單個(gè)模型性能存在較大差異的原因在于基于主位結(jié)構(gòu)的模型生成的作文連貫性分?jǐn)?shù)較低(平均分為0.031 06),相反基于篇章關(guān)系的模型生成的作文連貫性分?jǐn)?shù)較高(平均分為0.273 9),為了提升基于主位結(jié)構(gòu)的模型的分?jǐn)?shù),本文在計(jì)算平均分?jǐn)?shù)時(shí)增大了它的權(quán)重(α*主位結(jié)構(gòu)的平均分+α*篇章關(guān)系的平均分)),相應(yīng)地將集成后的分?jǐn)?shù)(α*主位結(jié)構(gòu)的平均分+β*篇章關(guān)系的平均分)與平均分進(jìn)行比較,從而提升了集成后系統(tǒng)的性能。相比人工連貫性,完整或切分句子方法下的學(xué)生作文連貫性評(píng)估任務(wù)性能都不太高,這也從側(cè)面說明了學(xué)生作文連貫性評(píng)估任務(wù)的挑戰(zhàn)性,因?yàn)閷W(xué)生在寫作時(shí)通常會(huì)采用多種復(fù)雜的形式,例如,缺省和指代(尤其是零指代現(xiàn)象)等。
表3 ESOL語料上實(shí)驗(yàn)結(jié)果及對(duì)比
此外,為了驗(yàn)證主位和述位識(shí)別精度對(duì)本文方法的性能影響如何,我們進(jìn)一步對(duì)有噪音的ESOL語料進(jìn)行了主位和述位識(shí)別實(shí)驗(yàn),經(jīng)過我們對(duì)ESOL語料的統(tǒng)計(jì),有近30%左右的動(dòng)詞存在形式錯(cuò)誤,導(dǎo)致詞性標(biāo)記的時(shí)候不能正確識(shí)別出它們的“VB”詞性,同時(shí)我們選擇了ESOL的200句由兩位標(biāo)注者進(jìn)行標(biāo)注,由于這些錯(cuò)誤的動(dòng)詞導(dǎo)致計(jì)算出來的標(biāo)注kappa值約為0.40,具有比較弱的一致性。我們將兩位標(biāo)注者認(rèn)為一致的約80句對(duì)應(yīng)的三篇作文進(jìn)行了連貫性實(shí)驗(yàn),一方面利用本文算法識(shí)別出來的主位和述位計(jì)算作文的連貫性得分(平均分0.031),另一方面利用人工切分的主位和述位計(jì)算作文的連貫性得分(平均分0.029),由于這兩者的連貫性得分非常相近,導(dǎo)致主位和述位識(shí)別算法對(duì)最終的連貫性評(píng)估性能沒有影響。所以,我們認(rèn)為本文的主要出發(fā)點(diǎn)還是在于探索了完整句和切分句后對(duì)于文本連貫性檢測的性能影響,其中完整句的連貫性識(shí)別性能為49.50%,切分后的連貫性識(shí)別性能為56.70%,對(duì)于切分之后的幾個(gè)單詞邊界帶來的錯(cuò)誤對(duì)于系統(tǒng)的最終連貫性得分影響極小。
不同于有監(jiān)督的基于實(shí)體和篇章關(guān)系網(wǎng)格的篇章連貫性模型,本文探索了功能語言學(xué)家Halliday提出的系統(tǒng)功能語法中主位-述位結(jié)構(gòu)理論驅(qū)動(dòng)下的新型無監(jiān)督的篇章連貫性模型。該模型通過引入詞語的詞干、上下位、近義和復(fù)述等世界知識(shí)方面的信息來計(jì)算句子中主位和述位的相似度,并利用此相似度值來描述篇章的連貫性。同時(shí),本文提出了一種簡單有效的基于篇章關(guān)系計(jì)數(shù)的連貫性模型,并采用線性組合方法將其與基于主位-述位結(jié)構(gòu)理論的連貫性模型加以集成。通過國際基準(zhǔn)英文作文語料上的實(shí)驗(yàn)結(jié)果表明主位-述位結(jié)構(gòu)理論和篇章關(guān)系信息能使篇章連貫性檢測準(zhǔn)確率得到顯著提升。
作為將來工作,我們一方面將此模型應(yīng)用于漢語作文環(huán)境,并針對(duì)漢語本身所具有特點(diǎn)進(jìn)行模型的修改和擴(kuò)充;另一方面,我們將基于此模型構(gòu)建一個(gè)完整學(xué)生作文自動(dòng)評(píng)分平臺(tái)。
[1] 黃國文. 語篇分析概要[M]. 長沙:湖南教育出版社,1987:1-221.
[2] Fox H J. Phrasal cohesion and statistical machine translation[C]//Proceedings of the Empirical Methods in Natural Language Processing (EMNLP). Philadelphia, U.S.A., Association for Computational Linguistics Press: 2002: 304-311.
[3] Soricut R, Marcu D. Discourse generation using utility-trained coherence models[C]//Proceedings of the Joint Conference of 44th Annual Meeting of the Association for Computational Linguistics and 21st International Conference on Computational Linguistics (ACL-COLING). Sydney, Australia, Association for Computational Linguistics Press: 2006: 803-810.
[4] Barzilay R, Lee L. Catching the drift: probabilistic content models, with applications to generation and summarization[C]//Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL). Boston, Massachusetts, U.S.A., Association for Computational Linguistics Press: 2004:113-120.
[5] Lin Z H, Liu C, Ng H W, et al. Combining coherence models and machine translation evaluation metrics for summarization evaluation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (ACL). Jeju Island, Korea, Association for Computational Linguistics Press: 2012:1006-1014.
[6] Bollegala D, Okazaki N, Ishizuka M. A bottom-up approach to sentence ordering for multi-document summarization[C]//Proceedings of the Joint Conference of 44th Annual Meeting of the Association for Computational Linguistics and 21st International Conference on Computational Linguistics (ACL-COLING). Sydney, Australia, Association for Computational Linguistics Press: 2006: 385-392.
[7] Yannakoudakis H, Briscoe T. Modeling coherence in ESOL learner texts[C]//Proceedings of the 7th Workshop on the Innovative Use of NLP for Building Educational Applications. Montreal, Canada, Association for Computational Linguistics Press: 2012:33-43.
[8] Yannakoudakis H, Briscoe T, Medlock B. A new dataset and method for automatically grading ESOL texts[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL). Portland, Oregon, Association for Computational Linguistics Press: 2011:180-189.
[9] Burstein J, Tetreault J, Andreyev S. Using entity-based features to model coherence in student essays[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL). Uppsala, Sweden, Association for Computational Linguistics Press: 2010: 681-684.
[10] Higgins D, Burstin J, Marcu D, et al. Evaluating multiple aspects of coherence in student essays[C]//Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics. (HLT-NAACL). Boston, Massachusetts, U.S.A., Association for Computational Linguistics Press: 2004: 185-192.
[11] Foltz P W, Walter K, Thomas K L. The measurement of textual coherence with latent semantic analysis[J]. Discourse Processes,1998,25(2&3):285-307.
[12] Louis A, Nenkova A. A coherence model based on syntactic patterns[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CNLL). Jeju Island, Korea, Association for Computational Linguistics Press: 2012: 1157-1168.
[13] Barzilay R, Lapata M. Modeling local coherence: an entity-based approach[J]. Computational Linguistics,2008,34(1):1-34.
[14] Barzilay R, Lapata M. Modeling local coherence: an entity-based approach[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL). Ann Arbor, Association for Computational Linguistics Press: 2005: 141-148.
[15] Lapata M, Barzilay R. Automatic evaluation of text coherence: models and representations[C]//Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI). Edinburgh, Scotland, U.K.: 2005: 1085-1090.
[16] Feng V W, Hirst G. Extending the entity-based coherence model with multiple ranks[C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics (EACL). Avignon, France, Association for Computational Linguistics Press: 2012: 315-324.
[17] Lin Z H, Ng H T, Kan M Y. Automatically evaluating text coherence using discourse relations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL). Portland, Oregon, Association for Computational Linguistics Press: 2011: 997-1006.
[18] Iida R, Tokunaga T. A metric for evaluating discourse coherence based on coreference resolution[C]//Proceedings of the 24th International Conference on Computational Linguistics (COLING). IIT Bombay, Mumbai, India: 2012:483-494.
[19] Elsner M, Charniak E. Coreference-inspired coherence modeling[C]//Proceedings of the Human Language Technology Conference of the 46th Association for Computational Linguistics (ACL: HLT). Columbus, Ohio, USA, Association for Computational Linguistics Press: 2008: 41-44.
[20] Halliday M A K. An Introduction to Functional Grammar[M]. New York: Oxford University Press Inc., 2004:1-700.
[21] 程曉堂. 從主位結(jié)構(gòu)看英語作文的銜接與連貫[J]. 山東師范大學(xué)學(xué)報(bào),2002,(2):94-98.
[22] Landauer T K, Dumais S T. A solution to plato’s problem: the latent semantic analysis theory of acquisition, induction and representation of knowledge[J]. Psychological Review, 1997,104(2):211-240.
[23] Grosz B J, Weinstein S, Joshi A K. Centering: a framework for modeling the local coherence of discourse[J]. Computational Linguistics, 1995,21(2):203-225.
[24] 胡壯麟. 語篇的銜接與連貫[M]. 上海:上海外語教育出版社,1994:1-235.
[25] Pitler E, Nenkova A. Using Syntax to Disambiguate Explicit Discourse Relations in Text[C]//Proceedings of the the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP (ACL-IJCNLP).Suntec, Singapore, Association for Computational Linguistics Press: 2009: 13-16.
Coherence Modeling for English Student Essay Based on Theme-rheme Structure Theory
XU Fan, WANG Mingwen, XIE Xusheng, LI Maoxi, WAN Jianyi
(School of Computer Information Engineering, Jiangxi Normal University, Nanchang, Jiangxi 330022, China)
This paper presents an unsupervised theme-rheme structure theory based discourse coherence model, in contrast to the current supervised entity based model and the discourse relation grid based model. Our model describes discourse coherence via calculating the similarity between theme or rheme of adjacent sentences through incorporating more semantic knowledge like word stem, hypernym, hyponym, synonym and paraphrase etc. Meanwhile, this paper also presents a simple and effective coherence model based on counting the number of discourse relations within a discourse, and integrates the theme-rheme-based model using linear combination method. Evaluation on benchmark English student essay dataset reveals the effectiveness of our linear combination discourse coherence model, significantly outperforming baselines the literature.
cohesion; coherence; theme-rheme structure theory; discourse relation; linear combination
徐凡(1979-),博士,講師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理和中文信息處理。E?mail:xufan@jxnu.edu.cn王明文(1964-),博士,教授,主要研究領(lǐng)域?yàn)樾畔z索、數(shù)據(jù)挖掘、自然語言處理。E?mail:mwwang@jxnu.edu.cn謝旭升(1963-),教授,主要研究領(lǐng)域?yàn)閿?shù)據(jù)庫技術(shù)及應(yīng)用、軟件設(shè)計(jì)及應(yīng)用。E?mail:xiexusheng@sina.com
1003-0077(2016)01-0115-09
2013-06-25 定稿日期: 2014-05-09
國家自然科學(xué)基金(61402208, 61462045,61562042),江西省教育廳項(xiàng)目(GJJ150351)
TP
A