国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

神經(jīng)網(wǎng)絡(luò)自動生成漢語新聞標(biāo)題的應(yīng)用

2018-05-08 13:20黃鑫池
電子技術(shù)與軟件工程 2018年22期
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)

黃鑫池

摘要 隨著近些年的移動互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)中的新聞資源急速增長,而讀者希望能夠快速有效的獲取新聞中的關(guān)鍵信息,篩選適合自己喜好的新聞進行閱讀。因此為新聞生成一條簡潔全面并且有吸引力的標(biāo)題會極大的提升讀者的閱讀體驗,特別是在移動新聞客戶端中,用戶往往僅根據(jù)推送消息中的簡短的標(biāo)題中的內(nèi)容決定這條新聞是否符合他的喜好,從而決定是否閱讀,標(biāo)題直接影響了在移動新聞客戶端中的一條新聞的閱讀量。具體來說,新聞標(biāo)題是一則新聞的內(nèi)容的概括,旨在用最簡短的語言最大限度的呈現(xiàn)新聞中的關(guān)鍵信息,同時還要足夠新穎,能夠吸引讀者的注意,同時也應(yīng)該避免標(biāo)題內(nèi)容夸大事實引起讀者反感。

【關(guān)鍵詞】神經(jīng)網(wǎng)絡(luò) 生成摘要 漢語新聞標(biāo)題

1 新聞標(biāo)題生成技術(shù)的相關(guān)研究

1.1 新聞標(biāo)題生成技術(shù)

在實際應(yīng)用中,由于新聞資源過多,使用新聞標(biāo)題生成技術(shù)為新聞自動生成一個準確、流暢且有吸引力的標(biāo)題很有必要。事實上新聞標(biāo)題生成是自動文本摘要技術(shù)的一個分支,自動文本摘要技術(shù)是從一篇或多篇原始文本中提取出文本中的關(guān)鍵內(nèi)容,并且要求摘要的長度不大于或遠小于原始文本的長度,其廣泛應(yīng)用于自動報告生成,搜索結(jié)果預(yù)覽,論文摘要生成等。盡管實際應(yīng)用中對于自動文本摘要技術(shù)有著巨大的需求,但是自動文本摘要技術(shù)的發(fā)展仍然十分緩慢,其要求計算機能夠?qū)υ嘉谋局械年P(guān)鍵信息進行識別,篩選,重新組合,同時還要兼顧生成摘要的語義連貫性和流暢性,特別的對于新聞標(biāo)題生成任務(wù)而言還需要考慮標(biāo)題的新穎程度。

1.2 自動文本摘要技術(shù)

自動文本摘要技術(shù)種類按照實現(xiàn)的方式大致可分為抽取式和摘要式兩種。抽取式要求計算機根據(jù)原始文本中的句子或者其中的某些詞的重要程度,選取一些詞或句子將他們重新排序,生成一段流暢的摘要。摘要式并不要求生成的摘要中的句子或者詞完全來自于原始文本,而是要求計算機根據(jù)原始文本的語義信息通過復(fù)雜的自然語言處理技術(shù)產(chǎn)生一段能夠準確代表這段文本的語義信息摘要,這一過程更加接近人類對文本進行摘要的過程,同時也更加復(fù)雜。對于抽取式文本摘要由于其相對簡單,且易于理解。

人們很早就對抽取式自動文本摘要進行了研究。1958年,Luhn等人提出了一種基于特征得自動文本摘要方法他們加設(shè)原始文本中得高頻詞可以代表文本的主題因此選取涵蓋文本中高頻詞得句子并加以組合生成摘要,在此基礎(chǔ)上Edumdson等人綜合考慮了線索此,標(biāo)題詞和句子所在位置以及關(guān)鍵詞詞頻等因素,選取最有可能成為摘要的句子組合成為摘要。隨著統(tǒng)計自然語言處理技術(shù)的發(fā)展,Aone等人于1995年提出了一種基于統(tǒng)計的自動摘要生成系統(tǒng),該系統(tǒng)基于樸素貝葉斯模型計算原始文本中每個句子屬于摘要的概率,并根據(jù)概率排序選取概率較高的句子組合成為摘要。隨后Osbonre等人提出了一種基于對數(shù)線性模型的自動摘要生成系統(tǒng),相比較于樸素貝葉斯模型其性能有較大提升。以上這些工作都是只是局限于抽取式方法,而摘要式由于需要理解原始文本的語義,長久以來摘要式生成方法沒有得到較大的發(fā)展,然而今年來人工神經(jīng)網(wǎng)絡(luò)特別是循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域的廣泛應(yīng)用使得摘要式方法成為可能。

2015年Rush等人首先將人工神經(jīng)網(wǎng)絡(luò)和注意力機制應(yīng)用于自動文本摘要領(lǐng)域并在DUC-2004和Gigaword上取得了優(yōu)異的成績,隨后Chopra將循環(huán)神經(jīng)網(wǎng)應(yīng)用于這一問題在此基礎(chǔ)上Nallapati又引入了分層神經(jīng)網(wǎng)絡(luò),明顯的提升了自動文本摘要系統(tǒng)的性能思維。

2 模型的選取應(yīng)用與實驗

2.1 選取模型進行實驗

由Abigail See和Peter J Liu等人所提出的結(jié)合覆蓋機制的指針生成網(wǎng)絡(luò),在英語的自動文本摘要領(lǐng)域取得了很好的成績。所以實驗選取了以下幾個模型進行實驗:

(l)帶注意力機制的序列到序列網(wǎng)絡(luò)。

(2)指針生成網(wǎng)絡(luò)。

(3)覆蓋機制。

2.2 實驗具體實驗過程如下

實驗方面:由于時間有限,沒有基線系統(tǒng),只有一次實驗結(jié)果,并不一定是最佳結(jié)果。語料處理方面:本次實驗所使用的漢語新聞?wù)Z料來自于搜狗實驗室其包含了來自若干新聞?wù)军c2012年6月-7月期間國內(nèi),國際,體育,社會,娛樂等18個頻道的新聞數(shù)據(jù),提供URL和正文信息。獲取得到中文新聞?wù)Z料共計1143520條。在預(yù)處理時采用了Stanford Core NLP進行分詞。為了加快模型訓(xùn)練速度,本次實驗選取的詞表大小為50000,從訓(xùn)練數(shù)據(jù)的分詞結(jié)果中選取出現(xiàn)頻率最高的50000個詞作為詞表,其余詞標(biāo)記為UNK。模型參數(shù):模型采用服從正態(tài)分布的方式進行隨機初始化。模型使用Adam算法作為模型的優(yōu)化算法,學(xué)習(xí)率為0.15,初始累加器值為0.1。為了避免梯度梯度爆炸問題,這里采用了梯度裁剪技術(shù),正則項系數(shù)為2在訓(xùn)練時,我們將新聞內(nèi)容分為小段,每個小段不超過400個詞,每個標(biāo)題限定為不超過100個詞。模型訓(xùn)練迭代輪次為300000輪,批次大小設(shè)置為16。單次訓(xùn)練使用Titan Xp GPU訓(xùn)練需要3天10小時。

2.3 實驗結(jié)果分析

實驗結(jié)果測試數(shù)據(jù)為從測試集數(shù)據(jù)中隨機選取得到的100個生成摘要及其參考摘要。在隨機抽取的文章中提取一篇如下:“中廣網(wǎng)遂川6月13日消息(記者胡嘯、通訊員梁路峰、劉會平)6月11日,江西遂川縣公安局在開展打擊侵財性犯罪專項行動中,偵案民警通過千里追蹤,數(shù)夜蹲守,在南昌縣抓獲4名涉嫌詐騙的犯罪嫌疑人,繳獲作案車輛2輛,破獲系列“撿錢分錢”詐騙案。

2011年11月份以來,遂川縣發(fā)生多起“撿錢分錢”詐騙案,受害人達10余人,涉案金額近10萬余元,且受害人多為中老年人,受害人群中,不僅財物受到損失,精神也受到損傷,嚴重影響了人民群眾的安全感。

6月4日,遂川縣泉江鎮(zhèn)銀川大道發(fā)生一起“拾錢分錢”詐騙案,案件發(fā)生后,刑警大隊迅速展開偵查,發(fā)現(xiàn)一輛車牌號為“贛M83702”的五菱面包車和一輛車牌號為“贛M76903”的長安面包車納入偵查員的視線,該局情報信息研判科迅即跟蹤偵查,通過信息研判、調(diào)查取證,一個由幾名南昌縣八一鄉(xiāng)籍的犯罪分子組成的詐騙團伙浮出水面。

因這幾名犯罪嫌疑人都是南昌縣人.且該團伙人員大都是南昌縣八一鄉(xiāng)某村人,該村民風(fēng)彪悍,給抓捕工作造成巨大的困難。

6月5日,侵財性案件專項行動組民警不顧前一夜通宵工作未眠之勞累,由刑警大隊副大隊長劉會平立即帶領(lǐng)王強偉、劉海平、李晨三名刑警又前往南昌開展抓捕工作,經(jīng)過細致摸排數(shù)夜蹲守,在南昌市警方的大力協(xié)助下,于6月8日成功抓獲4名犯罪嫌疑人,并繳獲作案車輛2輛。

當(dāng)晚,專案組民警連夜將這4名犯罪嫌疑人帶回遂川突審。4名犯罪嫌疑人在鐵一般的證據(jù)和事實面前,主動交代其所犯下的犯罪事實。

目前,4名犯罪嫌疑人都已刑事拘留,案件在進一步審理中。

作者胡嘯梁路峰劉會平”

在此文中,生成的摘要為“江西、遂川縣、警方、破獲、系列、撿錢分錢、詐騙案”,而本文的參考摘要為:“江西、遂川、系列、撿錢分錢、詐騙案、警方、破獲”。通過對實驗結(jié)果的分析可以發(fā)現(xiàn)生成的摘要語義與參考摘要相近,并且生成摘要可以很好的概括輸入文本中的關(guān)鍵信息。

3 總結(jié)

通過運用不同的模型進行實驗,以及對其實驗結(jié)果的分析可以發(fā)現(xiàn)自動生成的摘要語義與人工摘要相近,并且系統(tǒng)生成的摘要相比人為摘要,更加省時省力,同時也可以很好的概括文章中的關(guān)鍵信息。

參考文獻

[1] Manning.

Chris topher D., MihaiSurdeanu, John Bauer, Jenny Finkel,Steven J. Bethard, and DavidMcClosky. The Stanford CoreNLPNatural Language, 2014.

[2] Abigail See, Peter J. Liu.Christopher D. Manning. Get To ThePoint: Summarization with Pointer-Generator Networks [C]. ACL. 2017.

[3]Marc' Aurelio Ranzato. SumitChopra, Michael Auli, WojciechZaremba. Sequence level trainingwith

recurrent

neural

ne tworks[C].International Conference on LearningRepresentations. 2016.

猜你喜歡
神經(jīng)網(wǎng)絡(luò)
基于遞歸模糊神經(jīng)網(wǎng)絡(luò)的風(fēng)電平滑控制策略
BP神經(jīng)網(wǎng)絡(luò)在路標(biāo)識別上的應(yīng)用研究
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
基于Alexnet神經(jīng)網(wǎng)絡(luò)的物體識別研究
基于BP神經(jīng)網(wǎng)絡(luò)的旋轉(zhuǎn)血泵生理控制
基于神經(jīng)網(wǎng)絡(luò)MRAS的速度辨識仿真研究
基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
基于神經(jīng)網(wǎng)絡(luò)分數(shù)階控制的逆變電源