基于多重映射的自動中文短文摘提取方法

2016-12-21 11:06:37劉一波

電子技術(shù)與軟件工程 2016年20期

摘要中文短文摘提取時受其字?jǐn)?shù)限制，難以獲得均衡的提取性能。針對該問題，本文提出了一種基于多重映射的自動短文摘提取方法。

【關(guān)鍵詞】自動短文摘提取方法字?jǐn)?shù)限制提取性能

自動文摘技術(shù)是處理海量信息的重要手段，可以幫助人們高效地獲取信息。自動文摘用計算機(jī)自動生成全面反映文獻(xiàn)中心內(nèi)容的摘要。從其生成策略看，自動文摘分為生成式和抽取式兩類。生成式文摘基于自然語言理解和生成技術(shù)。抽取式文摘通過預(yù)定義的特征集，選取原文的句子形成文摘。

1 多重映射規(guī)則定義

本文采用抽取式方法進(jìn)行中文短文摘的提取。為抽取反映文本中心內(nèi)容的句子，需對句子進(jìn)行特征提取。由于單一特征難以獲得高召回率，本文基于傳統(tǒng)文摘的常用特征，提出了一種多重映射方法。

1.1 句子關(guān)聯(lián)度映射規(guī)則Hst

本文考慮文摘是最能表達(dá)文本主題的句子集，因此，可計算句子與文本的關(guān)聯(lián)度，提取關(guān)聯(lián)度高的句子作為文摘的候選句子集。

設(shè)有文本D={S1，S2，…，Sn}，其中Sk={tk1，tk2，…，tkn}為其任意句子，tkr為Sk的詞項。本文認(rèn)為句子Sk與D的關(guān)聯(lián)度越大，句子Sk對D的隸屬度越強(qiáng)，則Sk越具代表性。由此，將句子Sk與文本D的關(guān)聯(lián)度計算看成是分類問題。結(jié)合樸素貝葉斯多項式模型，本文將Sk與D的關(guān)聯(lián)度參數(shù)Wst（Sk，D）定義為：Sk相對于D的后驗概率，由此得到關(guān)聯(lián)度值計算如式（1）所示：

其中，P（Sk）為Sk在D中的先驗概率，tf（tkr，Sk）為詞項tkr在Sk中的頻度，P（tkr|D）為詞項tkr在D中的條件概率，其計算如式（2）所示：

考慮任一句子在文本中出現(xiàn)的概率均等，令P（sk）=1，由此將式（1）改寫為式（3）：

對任意Sk∈D，通過式（3）計算其與D的后驗概率，得到Sk與D的關(guān)聯(lián)度值Wst（Sk，D）。通過設(shè)定閾值α，選取Wst（Sk，D）大于α的句子作為候選文摘句子集。本文將長度小于或等于5的句子稱為特短句，長度大于110的句子稱為特長句，對文本D的句子Sk，通過式（4）計算其長度映射值：

其中，len是句子Sk中包含的字符數(shù)。通過設(shè)置閾值β，使長度小于β的較短句獲得較大映射值。

1.2 位置映射規(guī)則Hp

現(xiàn)有研究表明，文本的首段與尾段句往往蘊(yùn)含更多主題信息，人工摘要中85%的句子為段首句，7%為段尾句。結(jié)合現(xiàn)有文摘技術(shù)對位置特征的用法，本文對任意文本D，設(shè)置其句子Sk的位置映射值計算如式（6）所示：

由此定義位置映射規(guī)則Hp如下：

映射規(guī)則Hp：

令映射集

for each Sk in D

計算Wp（Sk）

if Wp（sk） > 0

endif

endfor

規(guī)則Hp拋棄了所有非段首、段尾句，對形成的映射集Hp（S），在后續(xù)多重映射階段，優(yōu)先選取位置映射值大的句子。

1.3 長度映射規(guī)則Hl

本文將長度小于或等于5的句子稱為特短句，長度大于110的句子稱為特長句，對文本D的句子Sk，通過式（4）計算其長度映射值：

其中，len是句子Sk中包含的字符數(shù)。通過設(shè)置閾值β，使長度小于β的較短句獲得較大映射值。由此定義長度映射規(guī)則Hl如下：

映射規(guī)則Hl：

令映射集

for each Sk in D

計算Wl（Sk）

if Wl（Sk） > 0

endif

endfor

1.4 標(biāo)題相似度規(guī)則Ht

本文用余弦夾角作為句子與標(biāo)題的相似度。以詞頻作為詞的權(quán)重，設(shè)句子向量 Sk={wk1，wk2，…，wkm}，標(biāo)題向量t={t1，t2，…，tm}，相似度計算如式（5）所示：

（5）

由此定義標(biāo)題相似度映射規(guī)則Ht如下：

映射規(guī)則Ht：

令映射集

for each Sk in D

計算sim（Sk，t）

if sim（Sk，t） >γ

endif

endfor

通過設(shè)置閾值γ，可獲得不同大小的映射集作為候選句子集。

2 多重映射方法

多重映射方法如圖1所示。

如圖1所示，對句子集S={s1，s2，…，sn}，多重映射（Multiple MAPPing，MM）包含4種映射：關(guān)聯(lián)度映射Hst，標(biāo)題相似度映射Ht，位置映射Hp，長度映射Hl，R為最終提取到的文摘句子集。以映射集為頂點(diǎn)，邊（Hm，Hn）表示映射集，由此得到圖2的映射關(guān)系圖。

映射關(guān)系可能為完全圖（圖2（a）），也可能非連通（圖2（b））。對此需在多重映射中運(yùn)用不同策略。

結(jié)合前述的多種映射規(guī)則，對任意文本，可得到其句子的多種映射值。在現(xiàn)有文摘提取方法中，有將映射值作為權(quán)重，通過多映射值加權(quán)求和給句子打分，再根據(jù)分?jǐn)?shù)排序來進(jìn)行句子提取。本文將這種方法作為Baseline，同時提出多重映射的方法，再通過多重映射從多個候選句子集中提取出文摘句子集。下面進(jìn)行了詳細(xì)描述：

設(shè)待提取文摘文本為d，S={s1，s2，…，sn}是d的句子集。構(gòu)造任意句子si的結(jié)構(gòu)如下：si（wst， wt， wp， wl， score）

其中，wst， wt， wp， wl分別表示si的幾種映射值，score表示si在各映射集中出現(xiàn)的總頻度。由此，分別計算S的多種映射值，得到：

S={si（wst， wt， wp， wl， score） }i=1…n

調(diào)整各映射值的閾值，對S應(yīng)用前述規(guī)則，生成多個映射集，分別為Hst（S），Ht（S），Hp（S），Hl（S）。再對S進(jìn)行聚類，得到中心句子集Hc（S）。設(shè)最終提取到的文摘句子集為R，多重映射的目標(biāo)是從上述多映射集中提取文摘句子集R。設(shè)LEN為待提取文摘的長度，多重映射算法如算法1所示：

算法1：

初始化，令句子序列SS為空

令文摘句子集：

令文摘長度summLen = 0

BEGIN

① for each si in Hst（S）or Ht（S）or Hp（S）or Hl（S）

SS = SS.add（si）

endfor

② for each si in SS

si.score = si在SS中重復(fù)出現(xiàn)的次數(shù)

endfor

③ 去除SS中的重復(fù)句

④ for each si in SS

if si.score == 4

summLen = summLen + lenof（si）

SS = SS.delete（si）

endif

endfor

⑤

⑥ 生成句子序列SK

SK = Sort SS on si.score， si.wt， si.wst， si.wp， si.wl

⑦ sen=1

⑧ while（sen <= lenof（SK））

si = SK.get（sen）

if（summLen + lenof（si） < LEN）

去除R的冗余句、進(jìn)行同義短詞替換

summLen = summLen + lenof（si）

endif

sen = sen + 1

endwhile

⑨ 對R按句子在文本中出現(xiàn)的位置排序，取總長度最接近LEN的前n個句子，作為文摘。

END

算法的第④步處理了映射關(guān)系為完全圖的情況。第⑥步處理了非完全圖的情況。在對SS排序時，按關(guān)鍵字為句子頻度、標(biāo)題相似度、文本關(guān)聯(lián)度、位置、句子長度的次序進(jìn)行排序。這種對關(guān)鍵字的排列順序，是本文根據(jù)單一映射規(guī)則下的文摘質(zhì)量排序所得。

3 結(jié)束語

針對中文自動短文摘抽取問題，本文提出了基于多重映射的提取方法。本文從特征值計算方法、多映射規(guī)則協(xié)同策略的角度，討論了如何提高短文摘的提取性能。實際上，短文摘的提取效果還極大地依賴于文本分詞及去冗余等操作。另外，本文方法很大程度依賴于多參數(shù)設(shè)置，盡管參數(shù)選取有一定規(guī)律可循，但總體來看，參數(shù)設(shè)置仍帶有強(qiáng)烈的啟發(fā)式特征。下一步將針對上述問題，結(jié)合短文摘的特征提取策略展開進(jìn)一步研究。

參考文獻(xiàn)

[1]蔣效宇.基于關(guān)鍵詞抽取的自動文摘算法[J].計算機(jī)工程，2012，38（03）：183-186.

[2]曹洋，成穎，裴雷.基于機(jī)器學(xué)習(xí)的自動文摘研究綜述[J].圖書情報工作，2014，58（18）：122-130.

[3]黃長偉.自動文摘技術(shù)研究現(xiàn)狀分析[J].科技之窗，2011（07）：150-151.

[4]傅間蓮，陳群秀.基于規(guī)則和統(tǒng)計的中文自動文摘系統(tǒng)[J].中文信息學(xué)報，2006， 20（05）：10-16.

作者簡介

劉一波（1975-），女，湖南省新邵縣人。大學(xué)本科學(xué)歷?，F(xiàn)為海軍南海工程設(shè)計院工程師。主要研究方向為計算機(jī)。

作者單位

海軍南海工程設(shè)計院廣東省湛江市 524000

電子技術(shù)與軟件工程2016年20期

電子技術(shù)與軟件工程的其它文章: 基于北斗衛(wèi)星導(dǎo)航的罪犯行為分析方法; 信息技術(shù)在電網(wǎng)運(yùn)維服務(wù)中的優(yōu)化應(yīng)用; 信息技術(shù)在電網(wǎng)運(yùn)維中的應(yīng)用; 電子信息機(jī)房綜合布線的綠色節(jié)能; 現(xiàn)代工業(yè)中電子信息的應(yīng)用現(xiàn)狀及發(fā)展; 人工智能的發(fā)展及其在醫(yī)學(xué)領(lǐng)域中的應(yīng)用

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于多重映射的自動中文短文摘提取方法