劉茂福,李文捷,姬東鴻
(1.武漢科技大學 計算機科學與技術(shù)學院,湖北 武漢 430065;
2.香港理工大學 計算機系,香港;3.武漢大學 計算機學院,湖北 武漢 430072)
抽取式自動摘要方法著重于從文檔選取包含重要概念的句子。近年來,越來越多的研究者用事件代表概念并提出了基于事件的抽取式自動摘要方法[1-2]?;谑录某槿∈阶詣诱饕菑膯挝臋n或多文檔中抽取并重組那些描述重要事件的句子,因此,基于事件的句子重要性計算成為了當前的研究熱點。
對于事件的定義,不同領(lǐng)域有不同的看法,信息檢索領(lǐng)域?qū)⒅x在文檔級別上,而信息抽取卻在句子級別上定義事件[3-4]。但不同領(lǐng)域的一致觀點是事件應(yīng)包含一個或多個參與者、發(fā)生時間和地點,因此,在基于事件的自動摘要中,一般將事件形式化為“[Who] did [What] to [Whom] [When] and [Where]”;其中,“did [What]”指示行為,是事件的核心要素,其他的皆為補充成分。故而,我們將在句子級別上識別事件并重點研究“did [What]”,將文檔中的動詞和動名詞都看成事件項,這些事件項可以完全或部分標識事件的發(fā)生。
目前,基于事件的自動摘要方法主要強調(diào)源文檔中單個事件的統(tǒng)計特征,忽略了事件之間的關(guān)聯(lián)。而在自動摘要中,尤其是具有同一或相似主題的多篇文檔,多個事件肯定是相關(guān)的。對事件分布相似性的研究表明,在自動摘要中考慮事件統(tǒng)計關(guān)系特征會提高摘要的質(zhì)量[5]。這促使我們在基于事件的自動摘要中進一步研究事件語義關(guān)系,尤其是如何利用這些事件語義關(guān)系。在本文中,通過事件項語義關(guān)系來部分表示事件語義關(guān)系,事件項是指文檔中的動詞和動名詞;因此,本文的目的就是研究如何利用事件項之間的語義關(guān)系來提高多文檔自動摘要的質(zhì)量。
一旦從源文檔抽取了所有事件項后,根據(jù)外部動詞語義資源,可以獲取事件項之間的語義關(guān)系,從而基于這些語義關(guān)系生成事件項語義關(guān)系圖。在事件語義關(guān)系圖的基礎(chǔ)上,DBSCAN圖聚類算法被用來對事件項進行聚類,從而生成多個事件項類,同一類的事件項之間由事件語義關(guān)系相連。
我們假設(shè)多篇源文檔有一系列的事件組成,聚在同一類中的兩個或多個事件項描述了相似甚至相同的事件。在這種情況下,完全可以為每類事件項選擇一個代表項,只要保證這個代表項能出現(xiàn)在最終摘要中,就不失一般性。
我們也可以假設(shè)多篇源文檔具有同一個主題,而多個事件項類別中的最重要的那個事件項類恰好描述了這一主題。在這種情況下,可以把最重要的事件項類中的所有事件項作為代表項,在代表項的基礎(chǔ)上選擇句子生成最終摘要。
除上面提到的Filatova等人基于事件和事件關(guān)系研究自動摘要技術(shù)外,徐永東等人通過系統(tǒng)地描述不同層面的文本單元之間的相互關(guān)系以及文檔集合蘊含的事件在時間上的發(fā)生及演變,將多篇文檔在不損失文檔集合原有信息的前提下實現(xiàn)信息融合,并在此基礎(chǔ)上為多篇文檔生成摘要[6]。吳中勤等人基于語義關(guān)系三元組來完成問答式自動摘要系統(tǒng),語義關(guān)系三元組由一句中的實詞對以及表示該實詞對語義關(guān)系的關(guān)系詞組成[7]。
實際上,很多研究者已經(jīng)在自動摘要中嘗試過各種聚類方法。Hatzivassiloglou等人使用原子和組合特征將高度相似的不同文檔段落聚集到不同的類中,然后從每個段落類中選擇代表段落生成摘要[8-10]。Zha等人基于各種特征使用基于圖的聚類算法對句子進行聚類,然后從句子類中選擇句子生成摘要[11-15]。以上聚類的對象一般是段落或句子,進行聚類時使用粗粒度;而本文選擇事件項作為聚類單位并在事件項語義關(guān)系的基礎(chǔ)上執(zhí)行聚類算法。實際上,本文是在我們文獻[16]工作基礎(chǔ)上的擴展。
在基于事件項語義關(guān)系圖聚類的自動摘要(ESRCS)方法中,經(jīng)過源文檔集預(yù)處理、事件項語義圖創(chuàng)建、事件項聚類、類排序、事件項選擇與排序以及、句子重要性計算、句子抽取等六個階段的處理后,最終為包含多個文檔的源文檔集生成摘要。具體的框架模型如圖1所示。
圖1 ESRCS框架模型
在源文檔集預(yù)處理階段,首先對源文檔進行分句和詞性標注,然后從標注了詞性的文檔中抽取事件項,本文的事件項包括動詞和動名詞。根據(jù)從外部語義資源VerbOcean[17]中獲取的事件項語義關(guān)系創(chuàng)建事件項語義圖,本文主要關(guān)注VerbOcean中的stronger-than類型的動詞語義關(guān)系。在事件項語義圖表示的事件項語義關(guān)系的基礎(chǔ)上,使用改進的DBSCAN聚類算法對事件項進行聚類。
事件項的重要性計算可以從局部類和全局文檔集兩個不同角度來進行;然后根據(jù)類中包含的事件項的重要性對相應(yīng)的事件項類進行類排序。完成類排序后,有兩種代表項選擇方法,一種是選擇最重要的類來表示源文檔集的主題,而將最重要類中的所有事件項作為代表項;另一種則是選擇每類中最重要的事件項作為類代表項。一旦為每個事件項計算出重要性后,就可以為選擇的最重要類中的所有代表項排序,但為每個類選擇出的類代表項的排序卻取決于前面的類排序。
只為那些包含代表項的句子計算重要性,計算的依據(jù)是句子包含的代表項的重要性;然后為每個代表項選擇包含它們的最重要的句子組成最終摘要,被抽取的句子在最終摘要中的排序取決于它們所包含的代表項的排序。
本文在基于事件的自動摘要中引入動詞語義關(guān)系資源VerbOcean,與WordNet以及其他語義資源不同的是,它在更細粒度的級別上定義了五類動詞語義關(guān)系,這與我們要在摘要中研究事件項語義關(guān)系不謀而合。本文主要研究VerbOcean中的stronger-than關(guān)系,該類關(guān)系的含義是,當兩個動詞意思相近時,一個可能比另一個表示的含義更強烈。本文對VerbOcean進行相應(yīng)處理后,共有22 306條有效關(guān)系記錄,共包括3 072個動詞;在22 306條有效關(guān)系記錄中,stronger-than關(guān)系共有4 420條,涉及到1 794個動詞。
下面是stronger-than關(guān)系的例子。
“destroy” stronger-than “damage”
“kill” stronger-than “injure”
“harm” stronger-than “disturb”
事件項語義圖可以形式化定義為一個二元組G=(V,E),其中V是圖中非空節(jié)點集,這里的節(jié)點指事件項,E是連接圖中事件項之間的邊集,這里的連接使用事件項之間的語義關(guān)系。如果連接事件項的語義關(guān)系具有對稱性,則事件項語義圖就是一個無向圖;否則,事件項語義圖是有向圖。
圖2是源自DUC 2001測試語料庫某個多文檔集的stronger-than事件項語義關(guān)系圖的一部分,因stronger-than關(guān)系具有反對稱性,所以圖2是一個有向圖。在圖2中,“satisfy”表示“令人滿意”,而“please”的含義是“使人高興、討人喜歡”,明顯比“satisfy”強度大,“滿意”的程度深,故而有從“please”到“satisfy”的有向邊,表示“please stronger-than satisfy”。
圖2 stronger-than事件項語義關(guān)系圖示例
從圖2中可以看出,事件項之間經(jīng)由表示語義關(guān)系的有向弧連接。有了事件項語義圖,就可以利用圖中信息,例如節(jié)點度,來計算事件項的重要性;當然也可以根據(jù)句子包含的事件項的重要性來決定該句子是否應(yīng)出現(xiàn)在最終摘要中。
在圖2中,“exceed”、“reach”與“grow”等是語義相關(guān)的,它們可能在描述同一或相似主題,應(yīng)該歸為一類;而“exceed”同“destroy”、“harm”以及“devast”是明顯語義不相關(guān)的,應(yīng)該將“destroy”、“harm”以及“devast”等歸為另外一類。
本文使用DBSCAN聚類算法[18]來對語義相關(guān)的事件項進行歸類,DBSCAN是一種基于密度的空間聚類算法。使用該算法,關(guān)鍵要確定兩個參數(shù),即Eps和MinPts,其中Eps指示在空間中的搜索半徑,MinPts則表示節(jié)點領(lǐng)域中應(yīng)該包含的其他節(jié)點的最小數(shù)目,這兩個參數(shù)我們將在實驗階段給出。
除了兩個關(guān)鍵參數(shù)外,我們對DBSCAN算法做了一些改進,使之更適合本文的事件項語義關(guān)系圖。
(1) 如果使用DBSCAN算法給定的終止條件,事件項語義圖中的大多數(shù)事件項會被聚在一類中,這是因為詞的多義性會導(dǎo)致大多數(shù)的事件項都是語義相連的;在這種情況下,我們將DBSCAN的終止條件改為搜索步驟不超過3。實際上,隨著搜索步驟和圖中通路長度的增加,通路中兩個端點的語義相關(guān)度會變得越來越小。
(2) 事件項語義圖中存在只有入度沒有出度的節(jié)點,如圖2中的“acknowledge”和“hit”,我們將這些節(jié)點設(shè)置為為特殊事件項(SET:Special Event Term)。在搜索過程中,一旦到達了某個SET,便停止搜索。
(3) 同特殊事件項相連的節(jié)點可以分為兩類,一類是除該特殊事件項外還有其他節(jié)點與之相連,如圖2中相對與特殊事件項“hit”的“smash”;另一類是除該特殊事件項外沒有其他節(jié)點相連,如圖2中相對與特殊事件項“acknowledge”的“confirm”。對第一類節(jié)點不做任何處理,而將第二類節(jié)點同特殊事件項歸并為一類。
圖3是使用改進后的DBSCAN算法對圖2的事件項進行聚類的結(jié)果?!癱onfirm”和“acknowledge”在同一類,而“smash”和“hit”被聚在了不同類中。使用DBSCAN算法進行每類的搜索時,開始事件項都用粗體進行標示,本文使用開始事件項標示該類,如“warn”標示有“warn”、“advise”、“report”和“caution”組成的事件項類。
圖3 事件項語義關(guān)系圖的聚類結(jié)果
可以根據(jù)類重要性對使用DBSCAN算法獲取的每個事件項類進行排序。類重要性可以使用如下公式(1)計算得到。
(1)
其中,dt是事件項語義圖中指定事件項t的度(在有向圖中為節(jié)點入度與出度的和);C是所有的事件項類集合,而Ci是第i個事件項類。公式(1)從全局角度計算事件項類的重要性,也就是說使用某類中所有事件項的度數(shù)和與所有類中所有事件項度數(shù)和的商來表示。
我們可以依據(jù)事件項的重要性來選擇代表項并基于類排序結(jié)果對代表項進行排序,可以從局部(Local)和全局(Global)兩個角度來計算事件項重要性。
從局部事件項類的角度計算類中事件項的重要性,如公式(2)所示,用事件項在事件項語義圖中的度數(shù)除以該事件項所在類的所有事件項的總度數(shù)。
(2)
從全局事件項類的角度計算某個事件項類中事件項的重要性,如公式(3)所示,用事件項在事件項語義圖中的度數(shù)除以所有事件項類的所有事件項的總度數(shù)。
(3)
獲得事件項的重要性后,可以采用兩種策略從事件項類中選擇代表項,即OTAC(One Term All Cluster)和OCAT(One Cluster All Term);OTAC是指從每個事件項類中抽取該類中最重要的事件項,而OCAT則是指選取最重要的事件項類中的所有事件項。
在OTAC選擇策略中,從每個事件項類選擇其中最重要的事件項作為代表項。在此種選擇策略中,事件項類中每個事件項的重要性只用于在當前類中競爭,一旦為每類選擇了代表項,代表項排序與其類排序相同。例如,在圖3的類排序中,“render”類比“market”類靠前,在“market”類中選擇事件項“distribute”,而事件項“destroy”則在“render”類中勝出,雖然計算所得的重要性“distribute”比“destroy”高,但在最終的代表項排序中,仍然是事件項“destroy”在前。
在OCAT選擇策略中,在類排序結(jié)果中選擇最靠前的類,被選擇類的所有事件項都作為代表項,代表項按照它們在被選擇類中的競爭結(jié)果來排序。
代表項一般會出現(xiàn)在源文檔集的多個句子中,在這種情況下,需要評價這些句子并從中抽取最重要的,可以使用MAX和SUM這種方法來計算句子重要性。
在MAX方法中,把出現(xiàn)在句子中的最重要事件項的重要性作為整個句子的重要性。如果事件項重要性是使用公式(2)計算的,句子重要性則只在與代表項同類的事件項范圍內(nèi)進行計算,因為類別不同的事件項之間沒有可比性。若事件項重要性是使用公式(3)計算的,則類別不同的事件項之間具有可比性,句子重要性將在所有事件項范圍內(nèi)進行計算。
在SUM方法中,把出現(xiàn)在句子中的所有事件項的重要性的和作為整個句子的重要性。對事件項重要性計算公式的處理與MAX方法相同。
一旦得到句子重要性,就可以依據(jù)句子重要性對其進行排序并抽取包含代表項的最重要的句子,最后將這些句子進行重組成摘要。抽取的句子在重組摘要中的順序與其代表項的排序結(jié)果一致。仍然基于前面的例子進行說明,已經(jīng)為“render”類選擇了事件項“destroy”,為“market”類選擇了“distribute”,現(xiàn)在假設(shè)為“distribute”選擇了句子s1,為“destroy”選擇了句子s2,,那么在最終摘要中,句子s2在句子s1前。
使用DUC 2001多文檔摘要測試語料庫對本文提出的方法進行評價,DUC 2001測試語料庫共有30個文檔集。經(jīng)過分句、詞性標注、事件項抽取等預(yù)處理后,每個文檔集的事件項數(shù)目以及具有stronger-than關(guān)系的事件項數(shù)目如圖4所示。
使用改進的DBSCAN算法對DUC 2001測試語料庫的每個文檔集的stronger-than關(guān)系進行聚類后,得到的事件項類別個數(shù)信息如圖5所示。
使用自動評測工具ROUGE[19]對生成的摘要進行評測,觀察ROUGE-1、ROUGE-2和ROUGE-W三個評測值,本文實驗中生成的摘要長度為200字。
TF×IDF是自動摘要中常用的基于詞頻的統(tǒng)計特征,本文使用句子中所有非停用詞的TF×IDF特征值的和來評價句子的重要性。PageRank[20]是最著名的基于圖的排序算法,本文在生成事件項語義圖后,使用PageRank計算圖中事件項的重要性?;谠~頻的TF×IDF方法和PageRank方法的ROUGE結(jié)果如表1所示。
圖4 DUC 2001測試語料庫的每個文檔集事件項信息
圖5 每個文檔集事件項聚類后的事件項類別個數(shù)信息
表1 TF×IDF和PageRank的ROUGE結(jié)果
在改進的DBSCAN聚類算法中,考慮到事件項語義圖中沒有明確的距離概念,參數(shù)Eps的值給定為一個語義關(guān)系步,而參數(shù)MinPts賦值為經(jīng)驗值3。
如果基于公式(2)從局部事件項類角度計算事件項的重要性并采用OTAC策略來為每類選擇代表項,然后分別使用MAX和SUM方法來選擇句子,實驗結(jié)果如表2所示。
表2 局部角度(Local)和OTAC的ROUGE結(jié)果
從表2可以看出,SUM方法的結(jié)果好于MAX方法??赡茉蚴荕AX方法在計算句子重要性時只考慮了代表項的重要性,而SUM不僅考慮代表項,并且還考慮了出現(xiàn)在句子中與代表項同類的非代表項,因而與MAX方法相比,SUM方法利用了比較多的信息。
為了利用更多的信息,基于公式(3)從全局事件項類角度計算事件項的重要性,這樣句子的重要性不僅依賴于代表項所在類的所有事件項,并且還依賴于其他所有類中的事件項。實驗結(jié)果如表3所示。
表3 全局角度(Global)和OTAC的ROUGE結(jié)果
表3的結(jié)果比表2的結(jié)果差,可能原因是當使用句子中所有的事件項來計算句子重要性時,代表項的作用被削弱;同時,長句子可能包含更多的事件項,使其重要性遠遠高于短句子,最終摘要選中的都是長句子,從而導(dǎo)致最終摘要中包括了太多的冗余信息。
如果基于公式(2)從局部事件項類范圍內(nèi)計算事件項的重要性并采用OCAT策略來選擇最重要事件項類中的事件項作為代表項,然后分別使用MAX和SUM方法來選擇句子,實驗結(jié)果如表4所示。
表4 局部角度(Local)和OCAT的ROUGE結(jié)果
如果基于公式(3)從全局事件項類角度計算事件項的重要性并采用OCAT策略來選擇最重要事件項類中的事件項作為代表項,然后分別使用MAX和SUM方法來選擇句子,實驗結(jié)果如表5所示。
表5 全局角度(Global)和OCAT的ROUGE結(jié)果
表4和表5顯示采用OCAT策略來選擇最重要的事件項類并將該類的所有事件項作為代表項比OTAC策略的實驗結(jié)果要好,這表明DUC 2001多文檔摘要測試語料庫的每個文檔集中的每個文檔都在描述同一個主題。
無論是OTAC策略還是OCAT策略,實驗結(jié)果都遠遠好于基于詞頻TF×IDF方法。采用OCAT策略選擇代表項并使用SUM方法計算句子重要性,ROUGE-1實驗結(jié)果比基于PageRank的方法提高大概3.3%,而ROUGE-2實驗結(jié)果提高了4.6%;這表明在事件項語義圖的基礎(chǔ)上對事件項進行聚類是有效的。
通過對自動摘要語料庫文檔集的觀察和預(yù)處理,本文提出兩個假設(shè)。一個假設(shè)就是對于具有某類語義關(guān)系的兩個事件項,它們代表了相同或相似的事件;而另一個假設(shè)則是指語料庫的同一個文檔集應(yīng)該有一個代表性的主題事件。對于第一個假設(shè),從每一個聚類中選擇最重要的事件項作為該類的代表項;至于第二個假設(shè),選擇最重要的聚類并將該類的所有事件項作為代表項。針對每個代表項,則選擇包含了該代表項的最重要的句子作為摘要候選句。
在事件項語義關(guān)系圖上使用聚類算法獲得事件項類后,本文分別從局部和全局兩個角度基于策略O(shè)TAC和OCAT選擇代表項,并使用ROUGE對生成的最終摘要進行評測,實驗結(jié)果表明從全局范圍使用OCAT策略和SUM方法生成的摘要明顯好于基于詞頻TF×IDF和PageRank方法。
[1] Naomi Daniel, Dragomir Radev and Timothy Allison. Sub-event based Multi-document Summarization[C]//Proceedings of the HLT-NAACL Workshop on Text Summarization. 2003:9-16.
[2] Elena Filatova and Vasileios Hatzivassiloglou. Event-based Extractive Summarization[C]//Proceedings of ACL 2004 Workshop on Summarization, 2004:104-111.
[3] 吳平博,陳群秀,馬亮.基于時空分析的線索性事件的抽取與集成系統(tǒng)研究[J].中文信息學報,2006,20(1):21-28.
[4] 袁毓林.用動詞的論元結(jié)構(gòu)跟事件模板相匹配——種由動詞驅(qū)動的信息抽取方法[J].中文信息學報, 2005,19(5):37-43.
[5] Wenjie Li, Wei Xu, Mingli Wu, et al. Extractive Summarization using Inter- and Intra- Event Relevance[C]//Proceedings of ACL 2006:369-376.
[6] 徐永東,徐志明,王曉龍.基于信息融合的多文檔自動文摘技術(shù)[J].計算機學報,2007,30(11):2048-2054.
[7] 吳中勤,黃萱菁,吳立德. 基于語義關(guān)系三元組的問答式文摘[J].計算機工程,2008,34(6):194-196.
[8] Vasileios Hatzivassiloglou, Judith L. Klavans, Melissa L. Holcombe, et al. Simfinder: A Flexible Clustering Tool for Summarization[C]//Workshop on Automatic Summarization, NAACL, 2001.
[9] Yohei Seki, Koji Eguchi and Noriko Kando. User-Focused Multi-Document Summarization with Paragraph Clustering and Sentence-Type Filtering[C]//Proceedings of the Fourth NTCIR Workshop on Research in Information Access Technologies: Information Retrieval, QuestionAnswering, and Summarization, 2004:459-466.
[10] 劉海濤,老松楊,韓智廣.自動文摘系統(tǒng)中的段落自適應(yīng)聚類研究[J].微計算機信息,2006,22(6):288-291.
[11] 陳戈,段建勇,陸汝占.基于潛在語義索引和句子聚類的中文自動文摘[J].計算機仿真,2008,25(7):82-85.
[12] Hongyuan Zha. Generic Summarization and keyphrase Extraction using Mutual Reinforcement Principle and Sentence Clustering[C]//Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, 2002:113-120.
[13] Advaith Siddharthan, Ani Nenkova and Kathleen McKeown. Syntactic Simplification for Improving Content Selection in Multi-Document Summarization[C]//Proceedings of the 20th International Conference on Computational Linguistics (COLING 2004), 2004:896-902.
[14] Yi Guo and George Stylios. An Intelligent Summarization System Based on Cognitive Psychology[J]. Journal of Information Sciences, 2005, 174(1-2):1-36.
[15] 郭慶琳,吳克河,吳慧芳,李存斌.基于文本聚類的多文檔自動文摘研究[J].計算機研究與發(fā)展,2007,44(z2):140-144.
[16] Maofu Liu, Wenjie Li, Mingli Wu, et al. Extractive Summarization Based on Event Term Clustering[C]//Proceedings of ACL 2007, 185-188.
[17] Chklovski Timothy and Pantel Patrick. VerbOcean: Mining the Web for Fine-Grained Semantic Verb Relations[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing, 2004.
[18] Martin Ester, Hans-peter Kriegel, S. J?rg, et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise [C]//Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining, 1996:226-231.
[19] Chin-Yew Lin and Eduard Hovy. Automatic Evaluation of Summaries using N-gram Cooccurrence Statistics[C]//Proceedings of HLTNAACL 2003, 71-78.
[20] Page Lawrence, Brin Sergey, Motwani Rajeev and Winograd Terry. The PageRank CitationRanking: Bring Order to the Web[R]. Technical Report,Stanford University, 1998.