国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自動文摘的關鍵技術

2015-05-15 10:13駱俊帆
現(xiàn)代計算機 2015年2期
關鍵詞:文摘文檔檢索

駱俊帆

(四川大學計算機學院,成都 610065)

自動文摘的關鍵技術

駱俊帆

(四川大學計算機學院,成都 610065)

隨著互聯(lián)網上信息爆炸性地增長,信息過載問題給人們造成了困擾,檢索過程中如何有效地命中所需信息成為一個亟待解決的問題。為了從互聯(lián)網上更加效率地瀏覽和吸收信息,自動文摘技術在保留原文主要內容的前提下,對文檔進行壓縮表示。探討自動文摘的概念和意義,并對當前自動文摘的關鍵技術做一個較為全面的綜述性介紹。

檢索;自動文摘;效率

0 引言

隨著信息時代的飛速發(fā)展,互聯(lián)網中累積了大量的文本信息,然而通常人們的興趣點只是其中極少的部分,如何迅速有效地從海量信息中找到它們是亟待解決的問題。信息檢索技術的出現(xiàn)緩解了這個問題帶來的壓力,但成千上萬的檢索結果與人們的實際需求還相差甚遠。

自動文摘技術[1]的目標是在保留原文核心內容的前提下,對原始文本進行信息壓縮表示。文摘準確全面地反映了某一文獻的核心內容,它是一種簡潔連貫的短文,而自動文摘技術則用于自動地從文檔中提取文摘。傳統(tǒng)的信息檢索技術在面對信息過載危機時并不能達到一個很好的效果,而自動文摘技術可以在一定程度上起到輔助作用[2]。首先,信息檢索過程中可以使用優(yōu)質的文摘替代原始文本進行檢索,極大提高了檢索信息的效率。其次,在檢索結果的可視化中利用優(yōu)質文摘,用戶不需要對大量的原始檢索結果進行瀏覽便能輕松取舍,不但能提高需求信息的命中率,用戶負擔也大大地降低了。因此自動文摘技術逐漸成為當前信息檢索領域的研究熱點之一。

自動文摘技術可被分為摘要(abstract)和摘錄(extract)兩類[3],摘要方法[4~5]試圖在對文本主要內容的理解基礎上,使用簡短連貫的自然語言將原文主要內容描述出來,即會使用新的句子組成摘要。而摘錄方法則首先從原始文檔中抽取出重要的句子,然后再將這些句子連貫到一起形成摘要。其中句子重要性由一些統(tǒng)計和語言學特征所決定。當前自動摘要技術大多都是基于摘錄的方法,通常自動文摘包含文本預處理、文本分析處理以及生成文摘三個步驟,并且存在一些不同的文摘評估方法。本文接下來將對自動文摘技術做一個概述性的介紹。

1 文本預處理

經過預處理,原始文本有結構化的表示。一般包括三步:

句子邊界識別。英文文本中,常常利用句點本身,再考慮句點上下文信息制訂一些規(guī)則進行句子邊界識別[6]。

去除停用詞。對于一個特定的目的,停用詞可以是任意類別的詞語。一般停用詞可分為兩類:人類語言常出現(xiàn)的功能詞和應用十分廣泛的詞。所謂功能詞是不包含任何實際意義的詞語,如“am”、“is”、“are”、“the”、“what”等。而對于第二類詞語,如“want”,廣泛地出現(xiàn)在各種文檔中。

還原詞根。詞根還原的目的是,獲取到能表達詞義的原始詞根形態(tài)。表1是一個詞根還原示例。

表1 詞根還原示例

2 文本分析處理

文本分析處理過程輸出一個涵蓋了原始文本主要內容的中間表示文本,并對文本中的每個句子賦以重要性得分,這里列舉一些常用的方法。

2.1 詞逆向文檔頻率(TF-IDF)方法

文獻[7]中使用詞頻和逆向句子頻率構建句子級別的詞袋子模型,其中逆向句子頻率就是文檔中包含給定單詞的句子的頻率。查詢相關的文摘系統(tǒng)中,構建好這些句子向量之后,通過計算和查詢的相似度,高相似度的句子可用作摘要。一般性的文摘系統(tǒng)中,可以將一些文檔中的高頻詞作為查詢詞集,因為這些高頻詞可以視作是文檔的一些主題詞。

2.2 基于聚類的方法

人們通常是一個主題接一個主題地組織一篇文檔,這些不同的主題會顯式或隱式地分布在不同的章節(jié)部分中,這種現(xiàn)象在自動文摘中也可以用到。直覺上,摘要涉及到文檔的每個主題,因此有自動文摘技術通過聚類的方法,將同一主題下的句子聚到一起,進而生成合適的摘要。這類自動文摘系統(tǒng)輸入的是經過聚簇的文檔,每個簇是文檔的一個主題,主題用簇中TFIDF[8]值高的詞匯集表示。句子重要性得分由句子和主題的相似度度量,另外句子在文檔中出現(xiàn)的位置信息也能考慮進去,例如在新聞文章中,開頭位置的句子就更重要一些。

2.3 基于圖論的方法

從前面的方法可以看出,識別文檔中主題是一個必要的環(huán)節(jié)。文獻[9]提出一個基于圖論的方法來識別這些主題,用一個無向圖表示文檔,圖中節(jié)點表示文檔中的句子。如果兩個句子有一定數(shù)量的相同詞匯,或者說它們的余弦相似度超過一定閾值,那么這兩個句子間存在一條邊。如圖1所示,不相連的子圖其實就是文檔的不同主題塊,而重要性越大的句子節(jié)點即有越多的邊連接。圖1中就包含有3~4個主題,大的實心黑圈則表示重要性大的句子。

圖1 基于圖論的方法示例

2.4 基于機器學習的方法

給定訓練文檔和相應摘要的集合,自動文摘可以看作是一個分類問題:基于一些語言學特征和上下文特征,文檔中的每個句子被分為摘要類句子和非摘要類句子。文獻[10]中,利用大規(guī)模訓練語料和貝葉斯分類器計算每個句子屬于摘要型句子的概率:

其中s表示文檔中的句子,S是最終生成的摘要,F(xiàn)1…FN是分類用到的特征。

3 生成文摘

最終文摘生成的復雜度取決于用戶不同的需求,目前實用系統(tǒng)所能生成的摘要是把從原文中抽取的片段和句子稍作潤色及修改得到的結果。如果只需要簡單地羅列出來原文的信息片段所包含的語義信息,那么幾乎可以省略掉生成摘要這步工作。而如果最終需要的是一篇語句連貫、內容完整的短文,達到與人工水平相提并論的程度,那這一步工作就非常復雜了。因為文摘的目的是提高信息檢索命中文獻的速度和效率,潤色及修改工作不會做出太大貢獻,反而檢索系統(tǒng)的處理時間會消耗更多。所以雖然語言學知識有利于增強文摘的可讀性,但自動文摘系統(tǒng)大多情況下并不需要它。

4 文摘評估

自動文摘的評估[12~14]也是一項非常重要的任務,一般來說文摘評估策略分為內部(intrinsic)評價和外部(extrinsic)評價兩種。內部評價要利用到人工主觀性感覺,語句通順、句間語義連貫并且不包含主語懸掛現(xiàn)象的文摘是優(yōu)質的文摘。而外部評價策略則是一種基于任務的評價方法,例如針對信息檢索任務設計評估策略,文檔正確檢索率就可以作為評價指標[15]。兩種評價方法各有利弊:內部評價方法需要人工評價,主觀性太強,并且評價結果可能因人而異,但是評價方法不局限于特定的任務;而外部評價方法雖然是客觀性的評價,易于對比不同的文摘系統(tǒng),但是評價方法局限于一個特定的任務。

5 結語

自動文摘技術可以將冗長的文檔內容進行精簡,并且不損失主要信息,在一定程度上能輔助檢索系統(tǒng)解決信息過載問題。挑戰(zhàn)在于從海量的文本信息中,針對特定的用戶需求能迅速地生成高準確率、低冗余的摘要。本文從文本預處理、文本分析處理、生成文摘和文摘評估四個方面對自動文摘技術進行了綜述。

[1] Mani I.,Maybury M.,eds.1999.Advances in Automatic Text Summarization[M].MIT Press

[2] 柴曉麗.自動文摘技術的研究與應用[D].長春理工大學,2007

[3] Vishal Gupta,Gurpreet Singh Lehal.A Survey of Text Summarization Extractive Techniques[J].Journal of Emerging Technologies in Web Intelligence,2010:258~268

[4] G Erkan,Dragomir R.Radev.LexRank:Graph-based Centrality as Salience in Text Summarization[J].Journal of Artificial Intelligence Research,2004:457~479

[5] Udo Hahn,Martin Romacker.The SYNDIKATE Text Knowledge Base Generator[C].Proceedings of the First International Conference on Human Language Technology Research,2001

[6] Read,Jonathon,Rebecca Dridan,Stephan Oepen,Lars Jrgen Solberg.Sentence Boundary Detection:A Long Solved Problem[C].In Proceedings of COLING,2012:985~994

[7] H.P.Luhn.The Automatic Creation of Literature Abstracts[R].Presented at IRE National Convention,1958:159~165

[8] Yong zheng,Nur,Evangelos.Narrative Text Classification for Automatic Key Phrase Extraction in Web Document Corpora[C].WIDM,2005:51~57

[9] Canasai Kruengkari,Chuleerat Jaruskulchai.Generic Text Summarization Using Local and Global Properties of Sentences[C].Proceedings of the IEEE/WIC International Conference on Web Intelligence(WI’03),2003

[10] Horacek H,ZockM,ed.New Concepts in Natural Language Generation:Planning,Realizations and Systems[M].London:Pinter Publishers,1985

[11] Salton G,Singhal A,Mitra M.,Buckley C.Automatic Text Structuring and Summarization[C].IP&M,1997:193~207

[12] Ani Nenkova,Rebecca Passonneau.Evaluating Content Selection in Summarization:The Pyramid Method[C].HLT-NAACL,2004: 145~152

[13] Chin-yew Lin.A Package for Automatic Evaluation of Summaries[C].in Proc.ACL Workshop on Text Summarization Branches Out, 2004

[14] Eduard Hovy,Chin-Yew Lin,Liang Zhou,Junichi Fukumoto.Automated Summarization Evaluation with Basic Elements[C].In Proceedings of the 5th International Conference on Language Resources and Evaluation(LREC),2006

[15] Kathleen Mackeown,Ani Nenkova,David Elson,Rebecca Passonneau,Julia Hirschberg.A Task Based Evaluation of Multidocument System[C].SIGIR,2005

作者簡介:駱俊帆(1990-),男,湖北黃岡人,在讀碩士研究生,研究方向為數(shù)據挖掘

The Key Technologies of Automatic Summarization

LUO Jun-fan
(College of Computer Science,SCU,Chengdu 610000)

With the explosive growth of the Internet information,the information overload problem trouble people.How to effectively hit the required information in retrieval has become a problem to be solved.In order to view and absorb information from the Internet more efficiently,automatic summarization technology can compress the document by keeping the original main content.Discusses the concept and significance of automatic summarization,and makes an introduction for the key technologies of the automatic summarization.

Retrieval;Automatic Summarization;Efficient

1007-1423(2015)02-0035-04

10.3969/j.issn.1007-1423.2015.02.009

2014-12-02

2014-12-16

四川省科技創(chuàng)新苗子工程(No.13-YCG058)

猜你喜歡
文摘文檔檢索
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
IAPA文摘
基于RI碼計算的Word復制文檔鑒別
專利檢索中“語義”的表現(xiàn)
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
國際標準檢索
國際標準檢索
臺港文摘
健康文摘
大埔县| 隆回县| 遵义县| 波密县| 米易县| 皋兰县| 南召县| 卓资县| 合山市| 京山县| 探索| 大埔县| 江西省| 海口市| 敦煌市| 林口县| 苍溪县| 澎湖县| 安阳市| 台东县| 黄大仙区| 南陵县| 德庆县| 绵竹市| 佛冈县| 桦川县| 镇赉县| 淳安县| 兰溪市| 鸡西市| 大名县| 武山县| 宣威市| 靖西县| 镶黄旗| 新宾| 文昌市| 高陵县| 沧源| 同江市| 白银市|