唐亞娟 張德賢 楊琳
【摘要】 文本自動(dòng)摘要技術(shù)目前已經(jīng)成為計(jì)算機(jī)語言學(xué)領(lǐng)域的一個(gè)研究熱點(diǎn)。本文討論了自動(dòng)摘要的定義和分類。針對自動(dòng)文摘中主題句的冗余現(xiàn)象,提出了一種新型的自動(dòng)摘要冗余處理的方法。該方法將初始文摘中的句子表示成句鏈.根據(jù)任意文摘句中所有特征詞的激活水平、初始化水平、影響因子以及語句相干性公式,計(jì)算其與其它初始文摘中句子的相干性.去除相干性比較大的冗余句子,從而得到最終的自動(dòng)摘要。
【關(guān)鍵詞】 自動(dòng)摘要 冗余處理 語句相干性
【Abstract】 Automatic Text Summarization technology has become a hot topic in the field of computational linguistics. This article discusses the definition and classification of automatic summary. Againsting the redundancy of the topic sentences in automatic summary, it puts forward a new method of automatic summarization, which automatically processes prolixity. This method represents sentences in initial abstract into sentence chains. Calculate its initial coherence with other sentences in initial abstract according to activation levels and initialization levels of all the feature words in every sentence in initial abstract, influence factor and statement coherence formula. Remove the sentences which have the relatively large coherence, thus get the final automatic summarization.
【Key words】 automatic text summarization prolixity processing Statement coherence
自動(dòng)摘要就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘,文摘是全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容地簡單連貫的短文。自動(dòng)摘要技術(shù)作為一種典型的文本抽取技術(shù),是信息檢索、自然語言處理、文本挖掘等文檔信息處理技術(shù)的有益補(bǔ)充。通過自動(dòng)文摘系統(tǒng)生成的主題句,并不一定能作為最終摘要提交給用戶。因?yàn)榻?jīng)過自動(dòng)摘要系統(tǒng)初步篩選出來的主題句,通常具有比較多的冗余信息。本文針對自動(dòng)文摘中的主題句冗余現(xiàn)象,提出了一種新型的自動(dòng)摘要冗余處理的方法。
一、相關(guān)工作
1.1 文本的自動(dòng)摘要方法
(1)基于統(tǒng)計(jì)的自動(dòng)摘要
基于統(tǒng)計(jì)的自動(dòng)摘要方法,即基于文本物理信息(文本中的詞語出現(xiàn)頻率、詞語出現(xiàn)位置以及句子出現(xiàn)位置等文本表層信息)分析的自動(dòng)摘要方法,是一種將詞語視為句子的線性序列,將句子視為文本的線性序列的方法。此方法步驟如下圖(圖1)所示:
計(jì)算詞權(quán)、句權(quán)、選擇文摘句的依據(jù)是文本的六種形式特征[2]:F詞頻(Frequency):一般情況下,中頻詞往往是指示文章主題的有效詞,根據(jù)句子中有效詞的個(gè)數(shù)計(jì)算句子的權(quán)值。T標(biāo)題(Title):即作者給出的提示文章內(nèi)容的短語。借助停用詞詞表,去除標(biāo)題中的功能詞和只具有一般意義的名詞,剩余的詞和文章內(nèi)容往往有密切的聯(lián)系,可以作為有效詞。L位置(Location):在文本信息中處于特殊位置(首段、末段、段首、段尾等)的句子的權(quán)值應(yīng)該提升。S句法結(jié)構(gòu)(Syntactic Structure):句式與句子重要性之間存在關(guān)聯(lián),例如,文摘句多為陳述句,疑問句、反問句、感嘆句等不能作為文摘句。C線索詞(Clue):句子中有些詞或者短語雖然不是有效詞,但是它們能起提示作用,告知讀者此句含有重要信息,例如“總的來說”、“綜上所述”等。
I指示性短語[3](Indicative Phrase):指具有主題的詞組,例如“我們認(rèn)為”、“本文提出”等。
上述各種特征從不同角度指示文章的主題,應(yīng)該將它們有機(jī)結(jié)合起來,以W=f(F,T,L,S,C,I)作為計(jì)算句子權(quán)重的公式。
(2)基于理解的自動(dòng)摘要
基于理解的自動(dòng)摘要[4]以自然語言理解技術(shù)為核心。對于某一特定領(lǐng)域的文章,利用利用語言學(xué)手段識(shí)別出讀者感興趣的內(nèi)容,用話語加以組織,從而形成文摘。此方法步驟如下圖(圖2)所示:
(3)基于信息抽取的自動(dòng)摘要
基于信息抽取的自動(dòng)摘要[5]僅對有用的文本片段進(jìn)行有限深度的分析。首先識(shí)別出文檔中的時(shí)間、地點(diǎn)、人物和事件等基本實(shí)體,并將之套用在事先定義好的模板或者框架中,接著經(jīng)由這些知識(shí)表示模型的推演得知文章內(nèi)容的主題,最終用模板生成摘要。在知識(shí)表示的選擇上,相對于不同領(lǐng)域、不同類型的文章,采用不同的知識(shí)表示模型表示文檔。此方法步驟如下圖(圖3)所示:
二、基于語句相干性的自動(dòng)摘要冗余處理
2.1 基本思想
首先對網(wǎng)頁過濾后的文本首先進(jìn)行分詞,根據(jù)句子中詞語的重要性以及句子的位置,抽取文本的初始文摘句,將初始文摘中的句子表示成句鏈,根據(jù)任意文摘句中所有特征詞的激活水平和初始化水平以及語句相干性公式,計(jì)算其與其它初始文摘中句子的相干性,去除相干性比較大的冗余句子,從而得到最終的自動(dòng)摘要。
2.2 算法描述
算法:基于相干性的文本摘要的自動(dòng)生成
輸入:一篇待提取摘要的文本;初始文摘占原文本的百分比;最終生成摘要的最小長度閾值
輸出:生成的摘要
(1)對輸入的待處理文本進(jìn)行預(yù)處理。將文本內(nèi)容切分成若干段落和句子,過濾掉無用鏈接,圖片信息以及不可能成為摘要句的反問句,感嘆句或者疑問句等語句。(2)統(tǒng)計(jì)抽取出來的預(yù)處理后的文本長度,對文本進(jìn)行切詞處理和特征選擇,計(jì)算詞權(quán),根據(jù)詞權(quán)由高到低抽取若干詞語作為特征詞。(3)根據(jù)特征詞詞權(quán)、標(biāo)題特征詞、提示詞、指示性短語、句子所處位置等信息計(jì)算句權(quán),將文本句子按照句權(quán)權(quán)值高低排序,根據(jù)初始文摘占原文本的百分比要求,選取權(quán)值最高的若干句子作為初始文摘句。(4)根據(jù)相干性公式,計(jì)算任意兩個(gè)初始文摘句的相干性,刪除相干性高的冗余句,直到文摘長度低于最終摘要的最小長度閾值,最后進(jìn)行潤色,從而得到原文本的最終摘要。
三、結(jié)束語
本文介紹了文本自動(dòng)摘要定義及其分類,并且根據(jù)語句相干性,針對初始文摘提出了一種新型的自動(dòng)摘要冗余處理的方法。該方法對自動(dòng)摘要中基于詞語共現(xiàn)的信息冗余處理提出了一個(gè)新思路,希望對這方面的深入研究做出一點(diǎn)貢獻(xiàn)。在下一步的工作中,將對此方法的完善做進(jìn)一步的研究。
參考文獻(xiàn)
[1] 江開忠,李子成,顧君忠.自動(dòng)文本摘要方法[J].計(jì)算機(jī)工程,2008,34(1):221 -223
[2] 劉挺,王開鑄.自動(dòng)文摘的四種主要方法.情報(bào)學(xué)報(bào) 1999(1)
[3] Mathis B A, Rush J E. Abstracting encyclopedia of computer and technology [M]. New York: Marcel Dekker Inc,1975:102 -142
[4] 崔長利,李輝,劉楨祥.自動(dòng)文摘技術(shù)的原理與應(yīng)用.黑龍江電子技術(shù).1999(17):7-9)
[5] 譚翀,陳躍新.自動(dòng)摘要方法綜述.情報(bào)學(xué)報(bào).2008(2)
[6] D. Shahaf and C. Guestrin. Connecting the dots between news articles. In Knowledge Discovery and Data Mining07,2010