周小佩,洪 宇,車婷婷,姚建民,朱巧明
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州215006)
隨著對(duì)單詞以及句子級(jí)別的分析研究日益深入和成熟,研究者們開始將重點(diǎn)轉(zhuǎn)移到更大的單位,即篇章的分析中,如篇章關(guān)系識(shí)別、篇章結(jié)構(gòu)分析等。其中,篇章關(guān)系是指同一篇章內(nèi)部,相鄰片段或跨度在一定范圍內(nèi)的兩個(gè)片段之間的語(yǔ)義連接關(guān)系,如條件關(guān)系、轉(zhuǎn)折關(guān)系、因果關(guān)系等。
篇章關(guān)系研究一方面有利于理解篇章文本內(nèi)容,如Lin等[1]借助篇章語(yǔ)義關(guān)系類型實(shí)現(xiàn)了篇章內(nèi)容的連貫性檢測(cè);另一方面,還有利于實(shí)現(xiàn)篇章文本結(jié)構(gòu)化,如基于修辭結(jié)構(gòu)理論(RST)構(gòu)建篇章結(jié)構(gòu)關(guān)系樹[2]。而結(jié)構(gòu)化關(guān)系樹可用于更深層次的篇章分析,如計(jì)算篇章之間語(yǔ)義級(jí)的相似度等。因此,篇章關(guān)系分析是自然語(yǔ)言處理領(lǐng)域中一項(xiàng)重要的基礎(chǔ)性研究。
在研究過程中,可將篇章關(guān)系分為顯式篇章關(guān)系和隱式篇章關(guān)系。顯式篇章關(guān)系如實(shí)例(1)所示:
(1)Arg1①Arg1和Arg2為Penn Discourse TreeBank 2.0篇章語(yǔ)料庫(kù)中指向具有連接關(guān)系句子對(duì)的標(biāo)簽:The federal govern ment suspended sales of U.S.savings bonds
(譯文:聯(lián)邦政府終止銷售美國(guó)存儲(chǔ)債券)
Arg2:because Congress hasn’t lifted t he ceiling on govern ment debt
(譯文:因?yàn)槊绹?guó)國(guó)會(huì)還沒有提高政府債券的上限)
Discourse Relation:Contingency.Cause.Reason(篇章關(guān)系:因果關(guān)系)
其中,because即為顯式連接詞,且表明由它連接的Arg1和Arg2之間屬于因果關(guān)系。隱式篇章關(guān)系是指片段之間未標(biāo)記顯式連接詞,但在語(yǔ)義層面上確實(shí)存在某種連接關(guān)系,如實(shí)例(2)所示:
(2)Arg1:This is an ol d stor y
(譯文:這是個(gè)老故事)
Arg2:[in f act]we are tal king about years ago bef ore anyone heard of asbestos having any questionable properties.
(譯文:[實(shí)際上]我們正討論數(shù)年前還沒有人聽說石棉有質(zhì)量問題)
Discourse Relation:Expansion.Restatement.Specification(篇章關(guān)系:擴(kuò)展關(guān)系)
其中,Ar g1和Arg2之間不存在顯式連接詞,但根據(jù)具體語(yǔ)義可以推斷出,Ar g2是對(duì)Ar g1的詳細(xì)闡述,方括號(hào)中in f act是人工添加的連接詞,稱為隱式連接詞。
另外,2008年發(fā)布的篇章語(yǔ)料庫(kù)PDTB(Penn Discourse Tree Bank)2.0中,將篇章關(guān)系類別由粗到細(xì)分為三層:第一層是四種主要的語(yǔ)義關(guān)系類別:Expansion(擴(kuò)展)、Contingency(因果)、Co mparison(轉(zhuǎn)折)和Temporal(時(shí)序);第二層和第三層分別針對(duì)上一層進(jìn)行細(xì)分,如實(shí)例(1)中關(guān)系“Contingency.Cause.Reason”除了表示前后句子之間屬于因果關(guān)系外,第三層Reason進(jìn)一步區(qū)分了包含連接詞的Arg2表原因,Arg1表結(jié)果。
本文的主要任務(wù)即是針對(duì)PDTB中的隱式篇章片段(語(yǔ)料中由Ar g1和Arg2組成的一個(gè)隱式關(guān)系實(shí)例),推理其具體語(yǔ)義關(guān)系類型。核心思想是基于無指導(dǎo)方法,將隱式篇章關(guān)系的分類問題轉(zhuǎn)化為檢索與排序問題,即通過搜索引擎,抽取與原隱式片段在結(jié)構(gòu)和語(yǔ)義層面上較相近的候選顯式片段;通過分析顯式片段,實(shí)現(xiàn)隱式片段之間的關(guān)系推理。
本文組織形式如下:第2節(jié)介紹相關(guān)工作;第3節(jié)簡(jiǎn)要概括基于無指導(dǎo)方法推理隱式篇章關(guān)系的動(dòng)機(jī)以及需要克服的困難;第4節(jié)詳細(xì)介紹無指導(dǎo)的隱式篇章關(guān)系推理方法以及如何解決上述困難;第5節(jié)檢驗(yàn)方法的可行性并給出了實(shí)驗(yàn)結(jié)果與分析;第6節(jié)進(jìn)行總結(jié)和展望。
由于早期篇章關(guān)系研究缺少統(tǒng)一規(guī)范的語(yǔ)料庫(kù),所以研究者們采用模板匹配的方法,從生語(yǔ)料中抽取顯式片段,且直接去除顯式片段中的連接詞,人為構(gòu)成隱式片段。Marcu等[3]即是通過此方法,獲得訓(xùn)練和測(cè)試數(shù)據(jù),然后選擇數(shù)據(jù)中的單詞信息(即詞共現(xiàn))作為基本特征進(jìn)行分類。實(shí)驗(yàn)證明,單詞特征對(duì)篇章關(guān)系的分類起相當(dāng)重要的作用。另外,Saito等[4]在單詞特征的基礎(chǔ)上結(jié)合短語(yǔ)特征,實(shí)現(xiàn)日文的隱式篇章關(guān)系分類。但Sporleder[5]和Blair-Goldensohn[6]均指出,采用 Marcu方法對(duì)自然隱式片段進(jìn)行分類時(shí),往往會(huì)導(dǎo)致性能下降。原因是,顯式片段中的連接詞是為了便于上下文理解,當(dāng)人為去除連接詞構(gòu)成隱式片段時(shí),若缺乏足夠上下文,很容易造成理解歧義。由此可見,人為構(gòu)造的隱式片段在一定程度上未能真實(shí)反映隱式關(guān)系的內(nèi)部特征。
PDTB語(yǔ)料的發(fā)布為篇章關(guān)系研究提供了有利條件。Pitler[7]等首次對(duì)PDTB 2.0進(jìn)行了統(tǒng)計(jì)和分析,結(jié)果表明,顯式關(guān)系實(shí)例中的大多數(shù)連接詞不存在歧義。而且,僅采用連接詞特征,顯式關(guān)系的分類精確率可達(dá)到93.09%。因此,目前篇章關(guān)系研究的主要任務(wù)是解決隱式篇章關(guān)系的分類問題。Pitler等[8]通過提取句子中相關(guān)特征,如上下文特征,情感詞極性,以及其他多種詞匯特征實(shí)現(xiàn)隱式篇章關(guān)系的自動(dòng)分類,并分析了不同特征對(duì)分類性能的影響。Lin等[9]實(shí)現(xiàn)了第二層篇章關(guān)系的分類,在單詞以及上下文特征的基礎(chǔ)上,選擇添加句法樹中的結(jié)構(gòu)特征、依存樹中詞與詞之間的關(guān)聯(lián)特征。Zhou等[10]首次借助顯式連接詞進(jìn)行隱式篇章關(guān)系識(shí)別,主要通過語(yǔ)言模型推測(cè)當(dāng)前隱式片段的連接詞,然后將預(yù)測(cè)出的連接詞作為附加特征。與本文最相關(guān)的是,Wang等[11]使用基于樹核函數(shù)的方法,自動(dòng)抽取句法樹中的結(jié)構(gòu)信息,并結(jié)合時(shí)序信息,實(shí)現(xiàn)第一層隱式篇章關(guān)系的分類,其精確率達(dá)到40.0%。
由上述相關(guān)工作可知,目前針對(duì)隱式篇章關(guān)系的研究均采用機(jī)器學(xué)習(xí)的方法,選擇各種有效特征對(duì)篇章關(guān)系進(jìn)行分類,但最終分類性能依然偏低。這主要是由篇章中句子結(jié)構(gòu)的復(fù)雜性、句子語(yǔ)義的歧義性以及上下文信息的不確定性造成的。因此,本文提出一種無指導(dǎo)的方法,將傳統(tǒng)的檢索與排序相結(jié)合,嘗試解決較復(fù)雜的分類問題。前提是Pitler等[12]通過實(shí)驗(yàn)證明,直接利用連接詞判別顯式篇章關(guān)系可獲得很好的性能。所以,本文把判別隱式關(guān)系的重點(diǎn)轉(zhuǎn)移到,如何獲得與隱式片段在句子結(jié)構(gòu)以及語(yǔ)義層面上都較相近的候選顯式片段。通過直接分析和應(yīng)用候選片段的顯式關(guān)系,達(dá)到對(duì)復(fù)雜隱式關(guān)系精確判別的目的。
為了使獲得的候選片段具有廣泛性和實(shí)時(shí)性,本文嘗試借助Google搜索引擎,通過海量檢索的方法獲得較相關(guān)的候選片段。例如,針對(duì)實(shí)例(2)中隱式片段“This is an ol d story.We are tal king about years ago?”,我們通過檢索,挖掘到如下候選顯式片段:
(3)There's an ol d story about being self-valuable,and it is about three ol d Jewish ladies in Miami Beach,and these old Jewish ladies are tal king about their personal self-esteem
(譯文:有個(gè)關(guān)于自我價(jià)值的古老故事,講述的是有關(guān)邁阿密海灘的三位猶太女士以及她們談?wù)搨€(gè)人自尊)
(4)This is a bit of an ol d stor y.But I just wanted to make sure you knew who I was tal king about.
(譯文:這是個(gè)有點(diǎn)古老的故事,但我只想確保你知道我在談?wù)撜l(shuí))
盡管通過這一方式可以獲得具有連接詞的顯式片段,但因?yàn)楝F(xiàn)有檢索系統(tǒng)對(duì)語(yǔ)義相關(guān)度的度量尚不完善,使得上述檢索過程往往會(huì)獲得多于一種的冗余語(yǔ)義連接關(guān)系,比如(3)中連接詞and表示并列,(4)中連接詞But表示轉(zhuǎn)折,兩者分別代表了兩種截然不同的候選關(guān)系。如何過濾冗余的連接關(guān)系,這往往取決于候選關(guān)系本身的質(zhì)量以及候選顯式片段與隱式片段的相似度等多個(gè)方面。鑒于此,本文提出對(duì)挖掘到的候選關(guān)系進(jìn)行更深層次的質(zhì)量評(píng)估,以賦予每個(gè)候選關(guān)系相應(yīng)質(zhì)量權(quán)重。依據(jù)權(quán)重較高的候選關(guān)系來推斷隱式關(guān)系,使結(jié)果更加合理和可信。
為實(shí)現(xiàn)此方法,必須解決兩個(gè)重要問題:1)如何從原隱式片段中提取關(guān)鍵信息構(gòu)成高質(zhì)量查詢關(guān)鍵詞,以便于在檢索過程中抽取相關(guān)候選顯式關(guān)系;2)如何構(gòu)建推理模型以合理評(píng)估候選關(guān)系質(zhì)量,進(jìn)而提高最終隱式關(guān)系的推理性能。本文將會(huì)在下面章節(jié)中針對(duì)這兩個(gè)關(guān)鍵問題給出相應(yīng)有效的解決辦法。
本文致力于探究一種無指導(dǎo)的方法,以實(shí)現(xiàn)隱式篇章關(guān)系的推理,圖1即為方法框架,主要包括以下三個(gè)模塊:
1)基于Google搜索引擎的候選關(guān)系抽取模塊。從隱式關(guān)系片段中提取關(guān)鍵信息,構(gòu)建高質(zhì)量查詢關(guān)鍵詞;并從檢索結(jié)果中按照一定規(guī)則抽取候選顯式關(guān)系。
2)隱式關(guān)系推理模塊。為了提高基于候選顯式關(guān)系推理隱式關(guān)系的性能,本文構(gòu)建了三種推理模型:當(dāng)前顯式片段與原隱式片段的相似度模型,查詢關(guān)鍵詞本身的關(guān)聯(lián)度模型,以及查詢關(guān)鍵詞與當(dāng)前候選關(guān)系的置信度模型。
3)基于排序?qū)W習(xí)的隱式關(guān)系判定模塊。依據(jù)三種推理模型評(píng)估當(dāng)前候選關(guān)系的質(zhì)量,并根據(jù)質(zhì)量進(jìn)行排序?qū)W習(xí);統(tǒng)計(jì)Top N個(gè)高質(zhì)量候選關(guān)系中的類別分布,占據(jù)比例最高的關(guān)系類別即為推理出的原隱式片段的關(guān)系類型。
下面依次介紹以上三個(gè)模塊的具體實(shí)現(xiàn)方法。
本節(jié)主要探索如何構(gòu)建查詢關(guān)鍵詞,使得更快更有效地抽取候選顯式關(guān)系,以及從檢索結(jié)果中抽取候選顯式關(guān)系的具體方法。
4.1.1 高質(zhì)量查詢關(guān)鍵詞構(gòu)建
對(duì)檢索而言,采用的查詢關(guān)鍵詞會(huì)直接影響檢索的效率及質(zhì)量,而且后續(xù)方法的展開完全依賴于檢索出的顯式片段。因此,為了驗(yàn)證實(shí)驗(yàn)的可行性進(jìn)而提升方法的性能,本文分別從單詞、二元組以及三元組的角度構(gòu)建查詢關(guān)鍵詞,并從效率和質(zhì)量?jī)蓚€(gè)方面進(jìn)行了分析和比較:
· 單詞(Unigram)
分別定義Ar g1:W1=<w11,w12,…,w1m>,Arg2:W2=<w21,w22,…w2n>,其中 W1和 W2分別表示Ar g1和Ar g2的單詞序列。因?yàn)锳r g1和Arg2中的詞匯特征為判斷篇章關(guān)系提供了重要信息,所以,優(yōu)先考慮采用單詞對(duì)的形式構(gòu)造查詢關(guān)鍵詞。本文先后使用了三種方法逐步篩選片段中的單詞,以構(gòu)成高質(zhì)量單詞對(duì):
1)所有單詞對(duì)集合:即按照笛卡爾積 W1×W2方式,構(gòu)造的查詢關(guān)鍵詞集合Q={w1i+w2j}(1≤i≤m,1≤j≤n),如例句“This is an old story,we have tal king about it years ago”中,“This we”和“story talking”等都作為查詢關(guān)鍵詞。按照這種窮舉方式,平均每個(gè)隱式片段構(gòu)造的查詢關(guān)鍵詞數(shù)量為243。
2)去除停用詞的單詞對(duì)集合:Pitler等[8]通過實(shí)驗(yàn)證明去除停用詞特征會(huì)降低分類的性能,但采用停用詞構(gòu)成的查詢關(guān)鍵詞進(jìn)行檢索時(shí),很難匹配得到相關(guān)的顯式片段。主要由于停用詞的出現(xiàn)頻率較高且未體現(xiàn)原片段的語(yǔ)義信息。因此去除Ar g1和Ar g2中的停用詞,再按照笛卡爾積的方式構(gòu)成單詞對(duì)集合。此時(shí)平均每個(gè)隱式片段構(gòu)造的查詢關(guān)鍵詞數(shù)量降為72。
3)tf×idf權(quán)重值較高的單詞對(duì)集合:分別計(jì)算Arg1和Arg2中單詞的tf×idf權(quán)重,選擇Arg1、Ar g2中權(quán)重Top5的單詞進(jìn)行任意組合。此方式一方面控制了查詢關(guān)鍵詞數(shù)量,另一方面保證了篩選出來的單詞普遍具有代表性,從而能夠提高查詢關(guān)鍵詞的質(zhì)量。
· 二元組(Bigram)
除了單詞信息外,查詢關(guān)鍵詞中的詞序信息同樣對(duì)提高檢索質(zhì)量起重要作用。所以,為了在單詞基礎(chǔ)上融入詞序信息,本文將查詢關(guān)鍵詞中單詞替換成語(yǔ)言模型中的二元組即Bigra m。重新定義Arg1:B1= <b11,b12,…,b1p>,Arg2:B2=<b21,b22,…,b2q>,其中B1和B2分別是 Ar g1和Ar g2的二元組序列。因此,由B1和B2生成的查詢關(guān)鍵詞集合 Q={b1i+b2j}(1≤i≤p,1≤j≤q),如圖2中“This is”+“We have”,“old story”+“hear d about”等。此時(shí)平均每個(gè)隱式片段將構(gòu)造230個(gè)查詢關(guān)鍵詞。而且實(shí)驗(yàn)表明,包含停用詞的二元組對(duì)往往能夠檢索到有效的顯式片段,例如“This is”+“We have”等。這類包含詞序信息的停用詞對(duì)在一定程度上體現(xiàn)了句式結(jié)構(gòu)信息,如“should have”表虛擬語(yǔ)氣,出現(xiàn)在句子中常隱含對(duì)比的關(guān)系,這對(duì)檢索相關(guān)顯式片段具有促進(jìn)作用。鑒于此,在采用二元組對(duì)方式構(gòu)造查詢關(guān)鍵詞時(shí)保留了停用詞。
圖2 采用二元組對(duì)方式構(gòu)建查詢關(guān)鍵詞
· 三元組(Trigram)
為了驗(yàn)證詞序信息對(duì)檢索質(zhì)量的影響,本文在二元組的啟發(fā)下又引入了三元組,以便進(jìn)行比較。如上例中“This is an”+“We have hear d”即可作為一個(gè)三元組對(duì)實(shí)例。雖然三元組對(duì)囊括了更多的詞義以及詞序信息,但能同時(shí)包含此類信息的文檔數(shù)目相當(dāng)有限,甚至只能檢索出原語(yǔ)料。因此,該現(xiàn)象嚴(yán)重限制了后續(xù)的候選關(guān)系挖掘。
由上述分析可知,若采用tf×idf權(quán)重較高的單詞對(duì)構(gòu)建查詢關(guān)鍵詞,其優(yōu)點(diǎn)在于可以控制每個(gè)隱式片段構(gòu)建的查詢關(guān)鍵詞數(shù)量。但檢索過程中發(fā)現(xiàn),單詞對(duì)中的兩個(gè)單詞在檢索文檔中常緊密相鄰,因此,不能構(gòu)成上下文語(yǔ)句之間的連接關(guān)系。而且挖掘到的片段存在較多的噪音,例如歌名、新聞報(bào)道的標(biāo)題等,這往往影響檢索的質(zhì)量。另一方面,若以二元組對(duì)的方式構(gòu)建查詢關(guān)鍵詞,平均每個(gè)隱式片段構(gòu)造的查詢關(guān)鍵詞數(shù)量偏多,造成檢索效率下降。但由于二元組對(duì)比單詞對(duì)包含更多的詞匯和詞序信息,所以,挖掘到的候選片段與原隱式片段更相關(guān)即質(zhì)量更高。鑒于此,本文為了驗(yàn)證總體方法的可行性,在權(quán)衡效率和質(zhì)量時(shí)優(yōu)先選擇了質(zhì)量,最終以二元組對(duì)的方式構(gòu)造高質(zhì)量查詢關(guān)鍵詞。
4.1.2 候選關(guān)系抽取
構(gòu)建高質(zhì)量查詢關(guān)鍵詞的目的是抽取候選關(guān)系。而且,考慮到檢索結(jié)果的摘要中包含了查詢關(guān)鍵詞及其相關(guān)上下文信息,如圖3即是采用查詢關(guān)鍵詞“this is”+“any questionable”進(jìn)行檢索時(shí)獲得的一個(gè)摘要示例。所以,本文選擇直接從檢索摘要中,按照自定義規(guī)則挖掘候選顯式片段。
圖3 查詢關(guān)鍵詞“this is”+“any questionable”的一個(gè)檢索結(jié)果摘要示例
· 挖掘候選片段
在挖掘候選片段過程中,連接詞起關(guān)鍵作用。為了確保候選片段與原隱式片段之間存在相關(guān)性,挖掘時(shí)必須同時(shí)滿足以下三個(gè)條件:
1)相鄰子句(句子)之間包含連接詞;
2)查詢關(guān)鍵詞中來自Ar g1的二元組整體出現(xiàn)在連接詞之前;
3)查詢關(guān)鍵詞中來自Ar g2的二元組整體出現(xiàn)在連接詞之后。
按照以上規(guī)則,從圖3的摘要示例中可挖掘出片段“While this is a public email address its tolerance for spam is extremely low.If you have any questionable ver biage,or large attach ments”。其中,if為連接詞,且構(gòu)成查詢關(guān)鍵詞的兩個(gè)二元組“this is”和“any questionable”分別出現(xiàn)在由if引導(dǎo)的前后句子中。因此,該片段即是滿足上述規(guī)則的候選顯式篇章片段。
需要指出的是,若檢索到相關(guān)的候選顯式片段,則認(rèn)為該顯式片段與隱式片段之間存在一定語(yǔ)義上的對(duì)應(yīng)關(guān)系。原因是,由以上匹配條件可知,顯式片段中必須包含查詢關(guān)鍵詞,而該查詢關(guān)鍵詞則來源于原隱式片段。因此,候選顯式片段與對(duì)應(yīng)的隱式片段之間必然存在句法或者語(yǔ)義程度上的相關(guān)性。
· 判別候選關(guān)系
通過統(tǒng)計(jì)PDTB語(yǔ)料庫(kù)中,各連接詞在四種顯式關(guān)系中的分布,證實(shí)了絕大多數(shù)連接詞確實(shí)不存在歧義[12]。在此基礎(chǔ)上,即可通過連接詞特征,實(shí)現(xiàn)候選顯式片段的關(guān)系判別。
表1 列舉PDTB語(yǔ)料中,部分連接詞在篇章關(guān)系中的分布比例/%
表1列舉了部分連接詞出現(xiàn)在四種篇章關(guān)系的比例,如and出現(xiàn)在Expansion類別中的比例高達(dá)96.83%,so甚至只出現(xiàn)在Contingency類別中。所以,針對(duì)某一連接詞,本文選擇其出現(xiàn)比例最高的關(guān)系類別作為與之對(duì)應(yīng)的篇章關(guān)系。如上述顯式片段“While this is public email address its tolerance for spam is extremely low.If you have any questionable...”中,連接詞if在Contingency類別中的出現(xiàn)概率最高(95.99%),由此推斷該顯式片段的候選關(guān)系類型為Contingency。
在推理隱式關(guān)系過程中,需要評(píng)估候選關(guān)系質(zhì)量以增強(qiáng)推理的可信度。因此,本文構(gòu)建如下三種推理模型:候選顯式片段與原隱式片段的相似度,查詢關(guān)鍵詞內(nèi)部的關(guān)聯(lián)度,查詢關(guān)鍵詞與候選關(guān)系之間的置信度。下面分別介紹這三種模型的運(yùn)行機(jī)理。
4.2.1 相似度
候選片段與隱式片段在句子結(jié)構(gòu)以及語(yǔ)義層面的相似度,能夠直接體現(xiàn)當(dāng)前候選片段的質(zhì)量。本文采用了兩種計(jì)算相似度的模型,具體方法如下:
· 向量空間模型
由于向量空間模型(VSM)具備利用空間相似性來逼近語(yǔ)義相似性的優(yōu)點(diǎn),所以常被用來計(jì)算文本之間的相似度。本文在用向量表示文本片段時(shí),單詞權(quán)重分別設(shè)置布爾值以及tf×idf值。tf×idf的計(jì)算方式如式(1)所示:
其中,fij表示單詞j在句子i中出現(xiàn)的次數(shù),mi是句子的長(zhǎng)度,n是句子總個(gè)數(shù),nj表示包含單詞j的句子數(shù)。
·n-gram語(yǔ)言模型
基于VSM計(jì)算相似度時(shí)假設(shè)詞與詞之間是相互獨(dú)立的,沒有包含任何詞序信息。而n-gra m語(yǔ)言模型[13]考慮了在自然語(yǔ)言中存在著后續(xù)單詞的出現(xiàn)條件依賴于前面單詞的現(xiàn)象,所以,本文嘗試?yán)胣-gram語(yǔ)言模型計(jì)算句子相似度。具體的計(jì)算如式(2)所示:
其中,S1和S2分別表示原隱式片段與顯式片段劃分成n-gram的集合,|S1∩S2|是兩集合中相同的n-gram 數(shù),|S1∪S2|則是兩集合去重后的 ngram總數(shù)。
4.2.2 關(guān)聯(lián)度
基于搜索引擎抽取候選關(guān)系時(shí)發(fā)現(xiàn),并非所有查詢關(guān)鍵詞都能抽取到相關(guān)候選關(guān)系。即采用同種方式構(gòu)造的查詢關(guān)鍵詞,在挖掘候選關(guān)系的能力方面仍然存在差異,這是由構(gòu)成查詢關(guān)鍵詞的二元組相互影響的結(jié)果。若某查詢關(guān)鍵詞未能挖掘到候選關(guān)系,則說明構(gòu)成當(dāng)前查詢關(guān)鍵詞的二元組對(duì)不能引發(fā)上下文語(yǔ)義上的連接關(guān)系。例如二元組對(duì)“is an”+“about it”作為關(guān)鍵詞檢索時(shí),兩個(gè)二元組在相鄰句子中共現(xiàn)的概率很小,導(dǎo)致在包含連接關(guān)系的相鄰句子中共現(xiàn)的概率幾乎為零。相反地,“anold”+“about it”作為關(guān)鍵詞檢索時(shí)卻能挖掘到相對(duì)較多的候選關(guān)系,也就是說“anold”和“about it”組合時(shí),引發(fā)上下文間連接關(guān)系的概率較高。
由此,我們定義查詢關(guān)鍵詞內(nèi)部關(guān)聯(lián)度,用于衡量當(dāng)前查詢關(guān)鍵詞能夠引發(fā)上下文連接關(guān)系的概率,間接體現(xiàn)查詢關(guān)鍵詞挖掘候選關(guān)系的能力。關(guān)聯(lián)度不僅僅體現(xiàn)了查詢關(guān)鍵詞中兩個(gè)二元組之間的相關(guān)程度,同時(shí)還體現(xiàn)了每個(gè)二元組內(nèi)部單詞之間的關(guān)聯(lián)度,如二元組“anold”中an與old之間的關(guān)聯(lián)度比二元組“is an”中is與an之間的關(guān)聯(lián)度更高,這是由單詞之間的共現(xiàn)概率決定的。
查詢關(guān)鍵詞q的內(nèi)部關(guān)聯(lián)度計(jì)算方法如式(3)所示:
其中,bi表示構(gòu)成當(dāng)前查詢關(guān)鍵詞的二元組,i=1表示查詢關(guān)鍵詞中來自Ar g1的二元組,i=2表示來自Ar g2的二元組。|S(bi)|指包含二元組bi且bi出現(xiàn)位置與q中位置相同的查詢關(guān)鍵詞個(gè)數(shù),|T(bi)|是|S(bi)|集合中能夠抽取到候選關(guān)系的查詢關(guān)鍵詞個(gè)數(shù),因此|T(bi)|/|S(bi)|體現(xiàn)了包含二元組bi的查詢關(guān)鍵詞抽取到候選關(guān)系的概率。
4.2.3 置信度
基于搜索引擎抽取候選關(guān)系的過程中還存在另一現(xiàn)象:某類查詢關(guān)鍵詞檢索時(shí),會(huì)挖掘到多個(gè)候選片段,相應(yīng)就可能出現(xiàn)多種候選關(guān)系。這一現(xiàn)象說明,對(duì)于此類查詢關(guān)鍵詞,構(gòu)成它的二元組能夠引發(fā)上下文產(chǎn)生不同的連接關(guān)系。如第3節(jié)中提到,采用查詢關(guān)鍵詞“ol d stor y”+“tal king about”抽取的候選關(guān)系中,除了連接詞and引導(dǎo)的擴(kuò)展關(guān)系,也有but引導(dǎo)的對(duì)比關(guān)系。因此,為了衡量當(dāng)前查詢關(guān)鍵詞與候選關(guān)系之間的可信程度,本文構(gòu)建了置信度模型。與關(guān)聯(lián)度類似,置信度也是由查詢關(guān)鍵詞內(nèi)部?jī)蓚€(gè)二元組共同影響的結(jié)果,計(jì)算見式(4):
(i=1,2且s=Ex p,Con,Com,Tem)
其中,bi表示構(gòu)成當(dāng)前查詢關(guān)鍵詞q的二元組,i=1,2的意義同式(3),p(s|bi)表示由包含二元組bi的查詢關(guān)鍵詞抽取的所有候選片段中,候選關(guān)系s的出現(xiàn)概率。
借助上節(jié)中構(gòu)建的三個(gè)隱式關(guān)系推理模型,可實(shí)現(xiàn)候選關(guān)系質(zhì)量的綜合評(píng)估。每個(gè)候選關(guān)系被賦予相應(yīng)的質(zhì)量值,計(jì)算方式如式(5)所示:
其中Si m即是相似度,Rel是關(guān)聯(lián)度,Con是置信度。分母Su m1,Sum2,Sum3是對(duì)三種推理模型各自的計(jì)算值進(jìn)行歸一化。α,β,γ即是累加三種模型計(jì)算值時(shí)對(duì)應(yīng)的權(quán)重,并滿足0≤α,β,γ≤1且α+β+γ=1。
針對(duì)一個(gè)隱式片段,可挖掘出多個(gè)相應(yīng)的候選顯式片段,但其中存在質(zhì)量的差別。本文依據(jù)它們的質(zhì)量值由高到低進(jìn)行排序,并統(tǒng)計(jì)Top N個(gè)高質(zhì)量候選關(guān)系中各篇章類別的分布,從而間接實(shí)現(xiàn)隱式篇章關(guān)系的推理。本文基于排序?qū)W習(xí)的方法,確定最終當(dāng)隱式關(guān)系推理性能達(dá)到最優(yōu)時(shí)的α,β,γ以及N值,計(jì)算見式(6):
其中,p(s)表示關(guān)系類別s在隱式數(shù)據(jù)集中所占的比例,即先驗(yàn)概率。k是候選關(guān)系依據(jù)質(zhì)量值排序后對(duì)應(yīng)的位置,j是當(dāng)前位置上的候選關(guān)系。bool(s,j)是判斷當(dāng)前位置候選關(guān)系j是否等于關(guān)系類別s,若是則bool(s,j)=1,否則為0。1/l og(k+1)是第k位置上的候選關(guān)系權(quán)重,可以看出排序位置k越靠后,對(duì)應(yīng)的候選關(guān)系權(quán)重越小。
本實(shí)驗(yàn)選擇Penn Discourse TreeBank 2.0①htt p://www.seas.upenn.edu/~pdtb/語(yǔ)料中23~24章節(jié)的所有隱式篇章關(guān)系實(shí)例作為數(shù)據(jù)集。表2列出數(shù)據(jù)集中四種篇章關(guān)系的分布,其中Expansion類別占據(jù)的比例最高。考慮若將數(shù)據(jù)集中所有隱式實(shí)例均判為Expansion類別,則精確率最高可達(dá)50.8%,本文將此作為Baseline系統(tǒng)。
表2 數(shù)據(jù)集中四種隱式篇章關(guān)系分布
為了有效評(píng)估四種篇章關(guān)系各自的推理性能,本文采用準(zhǔn)確率(Precision)、召回率(Recall)和 F值(F-value)三項(xiàng)指標(biāo)。另外,采用精確率(Accuracy)來衡量本文方法推理隱式篇章關(guān)系的整體性能。針對(duì)四種篇章關(guān)系推理結(jié)果,定義混淆矩陣A=其中,nij表示通過本文方法,將數(shù)據(jù)集中i類別的篇章關(guān)系推斷為j類別的實(shí)例個(gè)數(shù)。所以上述評(píng)價(jià)標(biāo)準(zhǔn)的計(jì)算公式見式(7)、式(8)、式(9)和式(10)。陣中每列的和,數(shù)值上等于本文方法推斷出的對(duì)應(yīng)類別個(gè)數(shù)表示矩陣中每行的和,數(shù)值上等于數(shù)據(jù)集中對(duì)應(yīng)類別的實(shí)例個(gè)數(shù)。
首先,由于本文方法是借助搜索引擎,通過挖掘候選顯式關(guān)系,從而推理相關(guān)的隱式關(guān)系類型。因此,必須確保通過搜索引擎能夠挖掘到相關(guān)顯式關(guān)系。經(jīng)分析,在所有的1192個(gè)測(cè)試實(shí)例中,僅有5個(gè)(0.4%)隱式實(shí)例未能檢索到顯式片段。造成此現(xiàn)象的主要原因有兩個(gè):1)該隱式篇章片段包含的信息量過少,如某些片段僅包含2~3個(gè)單詞,因此構(gòu)建的查詢關(guān)鍵詞數(shù)量有限,從而降低了基于搜索引擎挖掘顯式篇章片段的概率;2)由該隱式篇章片段構(gòu)建的查詢關(guān)鍵詞,不易引起上下文的語(yǔ)義連接關(guān)系。正如關(guān)聯(lián)度模型中所述,某些查詢關(guān)鍵詞的兩個(gè)二元組均未在顯式片段中共現(xiàn),因此挖掘不到相關(guān)顯式片段。本文在最終性能評(píng)估時(shí),若某隱式篇章片段檢索不到相關(guān)顯式片段,則認(rèn)為該隱式片段的關(guān)系推理錯(cuò)誤。但由于此現(xiàn)象的出現(xiàn)比例較小,因此,對(duì)本文方法的最終推理性能幾乎沒有影響。
下面主要分析三種推理模型(相似度、關(guān)聯(lián)度、置信度)對(duì)最終隱式篇章關(guān)系判別性能的影響。同時(shí),通過排序?qū)W習(xí),確定最終取得最佳性能時(shí)的參數(shù)值。表示矩
其中
圖4 采用相似度模型推理隱式關(guān)系的性能
圖4表示隨著Top N中N值的變化,相似度模型對(duì)最終隱式篇章關(guān)系判別性能的影響,其中包含了三種計(jì)算候選顯式片段與隱式片段相似度的方法?;赩SM計(jì)算相似度時(shí)分別設(shè)置兩種權(quán)重:bool值和tf×idf值。由圖中可知tf×idf值的方法在總體趨勢(shì)上略優(yōu)于bool值,這主要是由于前者相當(dāng)于后者的擴(kuò)展,計(jì)算的相似度值更精確。另外,基于n-gram模型計(jì)算相似度時(shí),選擇n=2。圖4表明,n-gra m模型的方法在整體性能上優(yōu)于VSM方法,主要由于前者包含了上下文信息。與構(gòu)造高質(zhì)量查詢關(guān)鍵詞類似,n-gram不僅包含了單詞特征還包含了詞序特征,所以它一方面能夠體現(xiàn)句子語(yǔ)義信息;另一方面也體現(xiàn)了句式結(jié)構(gòu)信息。因此,基于n-gram模型計(jì)算句子相似度具有優(yōu)勢(shì),直接導(dǎo)致隱式篇章關(guān)系的推理性能得到提升。
由圖4還可以看出,當(dāng)N值大于25時(shí),無論采用哪種推理方式,最終的隱式篇章關(guān)系判別性能不再變化。導(dǎo)致這一現(xiàn)象的原因有兩個(gè):一是排序位置較后的候選關(guān)系權(quán)重較低,累加時(shí)對(duì)結(jié)果產(chǎn)生的影響較小;二是由于候選片段的個(gè)數(shù)限制,某些隱式實(shí)例抽取到的相關(guān)候選片段偏少,所以當(dāng)N值增加到足夠大時(shí)統(tǒng)計(jì)結(jié)果不再發(fā)生變化。鑒于此,在排序?qū)W習(xí)時(shí)分別設(shè)置N=1,2,…,30,并且當(dāng)N=14時(shí)采用相似度模型推理隱式關(guān)系的精確率達(dá)到54.0%。
圖5 采用關(guān)聯(lián)度(Con)、置信度(Rel)以及綜合三種模型(All)推理隱式關(guān)系的性能
圖5 列出了采用關(guān)聯(lián)度、置信度以及將三種模型(相似度、關(guān)聯(lián)度、置信度)綜合后,推理隱式篇章關(guān)系的性能。由圖中可知,采用關(guān)聯(lián)度(Rel)模型推理隱式關(guān)系的性能明顯弱于相似度(圖4)模型以及置信度(Con)模型。因?yàn)樵跇?gòu)建模型評(píng)估當(dāng)前候選關(guān)系時(shí),候選片段與隱式片段的相似度、查詢關(guān)鍵詞與當(dāng)前候選關(guān)系的置信度都屬于直接評(píng)估方式。而關(guān)聯(lián)度體現(xiàn)查詢關(guān)鍵詞內(nèi)部二元組之間的相關(guān)程度,主要用來度量該查詢關(guān)鍵詞通過搜索引擎抽取到候選關(guān)系的概率,屬于間接評(píng)估方式,導(dǎo)致推理性能不及前兩者。圖5中All表示綜合三種模型推理隱式關(guān)系的性能,在總體趨勢(shì)上,略優(yōu)于三種模型各自推理隱式關(guān)系的性能。最終基于排序?qū)W習(xí)的方法,推理隱式篇章關(guān)系的精確率達(dá)到54.3%(N=21)。
表3列舉了當(dāng)最終隱式關(guān)系推理精確率達(dá)到54.3%時(shí),四種篇章關(guān)系類別分別對(duì)應(yīng)的準(zhǔn)確率、召回率和F值。從表中可以看出,擴(kuò)展(Expansion)類別的推理性能遠(yuǎn)高于其他三個(gè)類別。原因是,連接詞庫(kù)中表示擴(kuò)展類別的連接詞所占比例最高,達(dá)到41.6%,直接導(dǎo)致檢索抽取的全部候選關(guān)系中,擴(kuò)展類別占了37.4%,因此該類別最終召回率較高。與之相反,因果(Contingency)類別的連接詞所占比例最小,只有18.8%且該類別在抽取的所有候選關(guān)系中也僅占21.6%,所以因果類別最終的召回率較低。
另外,表3中時(shí)序(Temporal)類別的準(zhǔn)確率偏低主要是由連接詞的歧義性造成的,如連接詞while在語(yǔ)義上既可以表示時(shí)序關(guān)系(Temporal),又可表示轉(zhuǎn)折關(guān)系(Comparison),但根據(jù)while在顯式篇章關(guān)系語(yǔ)料中的分布,由于它在轉(zhuǎn)折類別中的出現(xiàn)概率較高(65.9%),所以當(dāng)候選片段由連接詞while引導(dǎo)時(shí),候選關(guān)系將被判為轉(zhuǎn)折類別。這直接導(dǎo)致候選關(guān)系中時(shí)序類別的判別精確率較低,從而影響了該類別的最終性能。
表3 各篇章關(guān)系的判別性能
表4中Baseline系統(tǒng)是已知數(shù)據(jù)集中篇章關(guān)系分布時(shí),利用先驗(yàn)概率所能達(dá)到的最優(yōu)性能(如表2)。System1是Wang等基于樹核函數(shù),抽取句法樹中結(jié)構(gòu)化信息以及句子之間的時(shí)序信息所達(dá)到的分類性能。由最終精確率可看出,采用機(jī)器學(xué)習(xí)方法達(dá)到的性能遠(yuǎn)低于Baseline。由此可見,針對(duì)隱式篇章關(guān)系這類較復(fù)雜的分類問題,采用有指導(dǎo)的方法不能顯現(xiàn)出優(yōu)勢(shì),因?yàn)閺?fù)雜性的句式結(jié)構(gòu)以及語(yǔ)義上下文之間的不確定性很難通過現(xiàn)有的特征進(jìn)行描述。
表4 系統(tǒng)性能對(duì)比/%
本文無指導(dǎo)方法的最終推理性能如System2所示,與Baseline系統(tǒng)相比,提高了約3.5%。雖然直觀上該性能仍然偏低,但與基于句法特征、依存特征、詞對(duì)特征等機(jī)器學(xué)習(xí)方法相比,本文方法提高了約14.3%。此外,由于隱式關(guān)系的判定存在一定主觀性,比如“I love you”與“I hate you”之間加上不同連接詞,會(huì)產(chǎn)生不同的語(yǔ)義和邏輯關(guān)系,比如,“I love you and I hate you”可同時(shí)表示擴(kuò)展關(guān)系和對(duì)比關(guān)系,“I l ove you so I hate you”又可表示因果關(guān)系。因此,主觀性往往造成隱式關(guān)系的實(shí)驗(yàn)數(shù)據(jù)本身即存在不確定性,而且現(xiàn)有PDTB的語(yǔ)料規(guī)模尚小,導(dǎo)致絕大部分研究性能難以達(dá)到70%~80%的近似實(shí)用化標(biāo)準(zhǔn),此屬正?,F(xiàn)象。
本文方法的主要優(yōu)勢(shì)在于,借助搜索引擎將較難的隱式篇章關(guān)系推理轉(zhuǎn)化為較簡(jiǎn)單的候選顯式關(guān)系的分析與判別。其中無論是構(gòu)建高質(zhì)量查詢關(guān)鍵詞,還是構(gòu)建隱式關(guān)系推理模型,都緊密結(jié)合句子結(jié)構(gòu)信息以及語(yǔ)義相似度等多個(gè)方面。最重要的是,與System1相比,本文基于無指導(dǎo)的方法,除了最終推理性能具有較好的優(yōu)越性外,方法本身還具有廣泛的擴(kuò)展性和可移植性。
本文提出一種無指導(dǎo)的方法,實(shí)現(xiàn)PDTB語(yǔ)料中隱式篇章關(guān)系類型的判別。由于顯式篇章關(guān)系可以直接根據(jù)片段中的連接詞推斷,且推斷性能很高,而隱式篇章關(guān)系判別仍然是相對(duì)較難的問題。鑒于此,本文嘗試借助搜索引擎抽取高質(zhì)量顯式關(guān)系,進(jìn)而由相關(guān)顯式關(guān)系推理隱式關(guān)系。方法主要分為三個(gè)模塊,首先解決如何從隱式片段中抽取關(guān)鍵信息構(gòu)建高質(zhì)量查詢關(guān)鍵詞,以便抽取相關(guān)候選關(guān)系;然后,構(gòu)建三種隱式關(guān)系推理模型,包括候選片段與原隱式片段的相似度,查詢關(guān)鍵詞內(nèi)部的關(guān)聯(lián)度以及查詢關(guān)鍵詞與候選關(guān)系之間的置信度,從這三個(gè)方面綜合評(píng)估候選關(guān)系質(zhì)量;最后,基于學(xué)習(xí)排序的方法,統(tǒng)計(jì)高質(zhì)量候選關(guān)系的分布比例,從而實(shí)現(xiàn)最終的隱式篇章關(guān)系判別。由實(shí)驗(yàn)結(jié)果可知,本文方法獲得了54.3%的精確率,較相關(guān)工作有顯著的提高。
在以后的工作中,我們將對(duì)目前方法進(jìn)行繼續(xù)深入和細(xì)化,為了提高查詢關(guān)鍵詞檢索候選關(guān)系的效率,我們將嘗試從大量查詢關(guān)鍵詞中提取特征(如本文中提及的關(guān)聯(lián)度信息)構(gòu)建分類器,過濾抽取候選關(guān)系能力較弱的查詢關(guān)鍵詞,從而提高檢索效率。另外,在進(jìn)一步提高第一層隱式篇章關(guān)系推理性能的基礎(chǔ)上,細(xì)化到關(guān)系的第二層,實(shí)現(xiàn)更細(xì)粒度的篇章關(guān)系推理。
[1]Z Lin,H T Ng,M Y Kan.Automatically Evaluating Text Coherence Using Discourse Relations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies,2011,Volu me 1:997-1006.
[2]樂明.漢語(yǔ)篇章修辭結(jié)構(gòu)的標(biāo)注研究[J].中文信息學(xué)報(bào),2008,22(4):19-23.
[3]D Marcu,A Echihabi.An Unsupervised Approach to Recognizing Discourse Relations[C]//Proceedings of the 40th Annual Meeting on Association for Co mputational Linguistics,2002:368-375.
[4]M Saito,K Yama moto,S Sekine.Using Phrasal Patterns to Identif y Discourse Relations[C]//Proceedings of the Human Language Technology Conference of the NAACL,2006,Co mpanion Volu me:133-136.
[5]C Sporleder,A Lascarides.Using Auto matically Labelled Examples to Classify Rhetorical Relations[J].An assess ment,Natural Language Engineering,2008,14(3):369-416.
[6]S Blair-Goldensohn,K R Mc Keown,O C Rambow.Building and Refining Rhetorical-Semantic Relation Models[C]//Proceedings of NAACL HLT,2007:428-435.
[7]E Pitler,M Raghupathy,H Mehta,et al.Easily identifiable discourse relations[R].Technical Reports(CIS),2008:884.
[8]E Pitler,A Louis,A Nenkova.Auto matic Sense Prediction for Implicit Discourse Relations in Text[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th Inter national Joint Conference on Natural Language Pr ocessing of the AFNLP,2009,2:683-691.
[9]Z Lin,M Y Kan,H T Ng.Recognizing Implicit Discourse Relations in the Penn Discourse Treebank[C]//Pr oceedings of the 2009 Conference on Empirical Methods in Natural Language Pr ocessing,2009,Volume 1:343-351.
[10]Z M Zhou,Y Xu,Z Y Niu,et al.Predicting Discourse Connectives f or Implicit Discourse Relation Recognition[C]//Proceedings of the 23rd Inter national Conference on Co mputational Linguistics:Posters,2010:1507-1514.
[11]W T Wang,J Su,C L Tan.Kernel Based Discourse Relation Recognition with Temporal Ordering Information[C]//Proceedings of the 48th Annual Meeting of the Association f or Co mputational Linguistics,2010:710-719.
[12]E Pitler,A Nenkova.Using Syntax to Disambiguate Explicit Discourse Connectives in Text[C]//Proceedings of the ACL-IJCNLP Conference Short Papers,2009:13-16.
[13]G Kondrak.N-gram Si milarity and Distance[C]//String Processing and Inf or mation Retrieval,2005:115-126.