国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學習的文本自動摘要方案

2019-08-01 01:57張克君李偉男錢榕史泰猛焦萌
計算機應用 2019年2期
關鍵詞:自然語言處理

張克君 李偉男 錢榕 史泰猛 焦萌

摘 要:針對自然語言處理(NLP)生成式自動摘要領域的語義理解不充分、摘要語句不通順和摘要準確度不夠高的問題,提出了一種新的生成式自動摘要解決方案,包括一種改進的詞向量生成技術和一個生成式自動摘要模型。改進的詞向量生成技術以Skip-Gram方法生成的詞向量為基礎,結合摘要的特點,引入詞性、詞頻和逆文本頻率三個詞特征,有效地提高了詞語的理解;而提出的Bi-MulRnn+生成式自動摘要模型以序列映射(seq2seq)與自編碼器結構為基礎,引入注意力機制、門控循環(huán)單元(GRU)結構、雙向循環(huán)神經(jīng)網(wǎng)絡(BiRnn)、多層循環(huán)神經(jīng)網(wǎng)絡(MultiRnn)和集束搜索,提高了生成式摘要準確性與語句流暢度?;诖笠?guī)模中文短文本摘要(LCSTS)數(shù)據(jù)集的實驗結果表明,該方案能夠有效地解決短文本生成式摘要問題,并在Rouge標準評價體系中表現(xiàn)良好,提高了摘要準確性與語句流暢度。

關鍵詞:自然語言處理;生成式文本自動摘要;序列映射;自編碼器;詞向量;循環(huán)神經(jīng)網(wǎng)絡

中圖分類號: TP181; TP391.1

文獻標志碼:A

Abstract: Aiming at the problems of inadequate semantic understanding, improper summary sentences and inaccurate summary in the field of Natural Language Processing (NLP) abstractive automatic summarization, a new automatic summary solution was proposed, including an improved word vector generation technique and an abstractive automatic summarization model. The improved word vector generation technology was based on the word vector generated by the skip-gram method. Combining with the characteristics of abstract, three word features including part of speech, word frequency and inverse text frequency were introduced, which effectively improved the understanding of words. The proposed Bi-MulRnn+ abstractive automatic summarization model was based on sequence-to-sequence (seq2seq) framework and self-encoder structure. By introducing attention mechanism, Gated Recurrent Unit (GRU) gate structure, Bi-directional Recurrent Neural Network (BiRnn) and Multi-layer Recurrent Neural Network (MultiRnn), the model improved the summary accuracy and sentence fluency of abstractive summarization. The experimental results of Large-Scale Chinese Short Text Summarization (LCSTS) dataset show that the proposed scheme can effectively solve the problem of abstractive summarization of short text, and has good performance in Rouge standard evaluation system, improving summary accuracy and sentence fluency.

Key words: Natural Language Processing (NLP); abstractive automatic text summarization; sequence to sequence (seq2seq); self-encoder; word vector;Recurrent Neural Network (RNN)

0 引言

在互聯(lián)網(wǎng)大數(shù)據(jù)時代,文本信息的數(shù)量已經(jīng)遠遠超出了人工處理的極限,自動摘要技術的研究顯得越發(fā)迫切和重要。自動摘要技術可應用在廣泛的領域內(nèi),如推薦系統(tǒng)、新聞行業(yè);特別是在信息安全領域,輿情監(jiān)控系統(tǒng)直接處理社交平臺的評論信息會給系統(tǒng)帶來極大的壓力,如果在保持原有主要信息不變的情況下,經(jīng)過信息壓縮后再交給監(jiān)控系統(tǒng),就能適當?shù)販p輕監(jiān)控系統(tǒng)的計算負擔。

自動摘要問題按照實現(xiàn)方式可以分為抽取式和生成式。抽取式是將原文中已存在的重要句子抽取出來拼湊在一起作為摘要;生成式則是要通過語義理解技術理解文章主旨,再使用自然語言技術生成新的句子作為摘要??梢姡槿∈秸奶攸c是實現(xiàn)難度低、摘要句的生成過程簡單,但摘要句可能出現(xiàn)上下文不匹配的問題;而生成式摘要雖然實現(xiàn)難度高,但其生成摘要句的過程更加擬人化,生成的摘要自然、質(zhì)量高、語句通順。

本文將深度學習的相關技術融入自動摘要問題中,提出一種新的生成式自動摘要問題的解決方案,以提高生成式自動摘要的質(zhì)量,完善生成式自動摘要在核心信息檢索領域的應用。

自動摘要任務的過程又可以被轉化成從一個輸入詞序列到另一個輸出詞序列的映射過程,這個過程被稱作序列映射,因此可以使用序列到序列建模的方法來解決。sequence-to-sequence(seq2seq)框架就是用來解決序列映射問題的,目前這個框架已經(jīng)很好地解決了一部分自然語言處理(Natural Language Processing, NLP)問題,如機器翻譯[1]、語音識別[2]和視頻字幕[3]。

Facebook公司的Rush等[4]率先將深度學習相關技術用于生成式自動摘要的研究,采用了卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)編碼原文信息,利用上下文相關的注意力前饋神經(jīng)網(wǎng)絡生成摘要。他們的分析表明采用序列映射框架來解決自動摘要問題是切實可行的。

IBM公司的Nallapati等[6]采用循環(huán)神經(jīng)網(wǎng)絡對原文進行編碼,同時對詞特征、停用詞、文檔結構等有用信息進行利用,實驗結果遠遠優(yōu)于單純使用深度神經(jīng)網(wǎng)絡的效果。這表明深度神經(jīng)網(wǎng)絡并沒有充分挖掘到文章的全部特征,如果能針對所研究的問題將相應的特征加入到研究范圍內(nèi),會極大地改善方案的效果。

谷歌公司在2016年開源了其自動摘要模塊的項目Textsum[7],該模塊同樣使用了RNN對原文進行編碼,并采用另一個RNN生成摘要,在摘要生成的最后階段還使用了集束搜索(beam-search)策略來提高摘要準確度。Britz等[8]對序列映射模型進行了一定的實驗與分析,結果表明集束搜索對摘要質(zhì)量的影響非常大。

2017年Facebook的AI實驗室公布了它的最新模型[9],該模型采用卷積神經(jīng)網(wǎng)絡作為編碼器,在詞向量中加入詞語的位置信息,采用線性門控單元(Gated Linear Unit, GLU)作為門結構,并在自動摘要數(shù)據(jù)集上刷新了記錄,但這并不能說明基于CNN的序列映射模型就一定要比RNN的好。雖然CNN效率高,但參數(shù)多,且CNN無法像RNN一樣對詞語的序列敏感,必須向詞向量中引入詞語的位置信息來模擬RNN的時序特性,可見RNN在處理序列化信息時有著其天生的優(yōu)勢。

以上工作已經(jīng)在自動摘要問題上取得了一定的成果,但還是有一些問題,例如:詞特征提取不充分、摘要句不準確、流暢度不夠高。本文針對以上情況進行了以下兩個方面的工作:1)引入注意力機制、門控循環(huán)單元(Gated Recurrent Unit, GRU)結構、雙向循環(huán)神經(jīng)網(wǎng)絡、多層循環(huán)神經(jīng)網(wǎng)絡和集束搜索,構建了一種新的模型Bi-MulRnn來處理生成式摘要問題;2)在詞特征提取方面,基于Skip-Gram方法生成詞向量,引入詞性(Part Of Speech, POS)、詞頻(Term Frequency, TF)和逆文本頻率詞特征(Inverse Document Frequency, IDF)以提高模型對詞語的理解能力。最后通過兩組基于大規(guī)模中文短文本摘要(Large-Scale Chinese Short Text Summarization, LCSTS)數(shù)據(jù)集的實驗,在Rouge標準評價體系下對方案生成的摘要作了一定的評估,結果表明該方案能夠有效提升摘要質(zhì)量。

1 基于深度學習的自動摘要模型的構建

本文設計的模型是基于自編碼器結構的。自編碼器結構是sequence-to-sequence框架中最常用的結構,它包括一個編碼器和一個解碼器。本文使用兩個獨立的RNN。

隨著深度學習的相關技術在自然語言處理方面的廣泛應用,開始有研究人員將注意力機制引入自編碼器結構。

注意力機制是一種聚焦的思想,使神經(jīng)網(wǎng)絡具備重組輸入信息的能力,即根據(jù)問題的需要,將原始數(shù)據(jù)的每一項做一個放大或縮小的變換,與問題無關的部分縮小,反之則放大。本文的設計也引入了這種注意力機制。任務處理流程如圖1所示,具體包括以下四個步驟:

1)文本預處理階段。通過將原文信息分詞后,再進行詞向量化處理,這個過程還包括詞性、詞頻、逆文本頻率的計算,最終形成一個詞向量序列作為下一個階段的輸入。然后統(tǒng)計語料中高頻詞匯的鄰近詞匯,并形成一個鄰近詞表,協(xié)助解碼器詞匯表的生成。

2)語義理解階段。循環(huán)神經(jīng)網(wǎng)絡具有記憶功能,將上一階段的詞向量序列依次輸入編碼器,編碼器會在每個時間步生成一個當前時間步的語義向量,最后將這些語義向量合并在一起形成全文的語義向量,并傳給下一個階段。

3)信息重組過程:注意力機制根據(jù)解碼器反饋的中間狀態(tài)(中間狀態(tài)即已經(jīng)生成的詞語)重組出最適合當前時間步的全文語義信息,并將重組后的中間語義信息傳回解碼器用于當前時間步的詞語預測。

4)摘要生成階段。在這個階段循環(huán)神經(jīng)網(wǎng)絡每個時間步預測出一個詞,并根據(jù)之前預測出的詞與概括全文的中間語義共同預測下一個詞語,最終形成一個詞序列即摘要句。

2 基于深度學習的自動摘要模型關鍵問題

2.1 基于雙向循環(huán)神經(jīng)網(wǎng)絡(BiRnn)的編碼器

本文編碼器的設計引入了雙向循環(huán)神經(jīng)網(wǎng)絡。傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡偏重于記憶最后時刻的信息,而對最開始的輸入信息不敏感。為了解決這一問題,本文采用雙向循環(huán)神經(jīng)網(wǎng)絡。在這種結構中,網(wǎng)絡分別從正向和反向閱讀原文,在每個時刻都會生成一個該方向下的隱層信息,結合該時刻下兩個方向的隱層信息就能得到該時刻下的語義向量。

在網(wǎng)絡的門結構中,我們使用了GRU結構。GRU比長短時記憶網(wǎng)絡(Long Short-Term Memory, LSTM)參數(shù)更少,并且更加不易過擬合,這一點在Chung等[11]的研究中可以得出結論,因此本文在循環(huán)神經(jīng)網(wǎng)絡的門結構中引入了GRU。

2.2 基于多層循環(huán)神經(jīng)網(wǎng)絡(MulRnn)的解碼器

解碼器的設計引入了多層循環(huán)神經(jīng)網(wǎng)絡,這種結構在Lopyrev[12]的論文中被單純地用以解決自動摘要問題,其結論表明該結構在一定程度上提高了摘要的準確度。本文使用了三層循環(huán)神經(jīng)網(wǎng)絡,期望提升模型的泛化能力,讓它更好地擬合原文到摘要的映射關系,使摘要更加準確。

圖3是多層循環(huán)神經(jīng)網(wǎng)絡示意圖,其中只有第三層會與注意力機制交互。在第i時刻下,解碼器接收注意力機制傳來的第i時刻下的原文語義向量ci與i時刻下隱層狀態(tài)向量si,第i-1時刻的輸出yi共同預測出i時刻的輸出yi+1與i+1時刻下的狀態(tài)向量si+1。

2.3 帶有注意力機制的自編碼器

注意力機制首先是在圖像處理領域嶄露頭角[13],其核心思想是,在處理圖像中的一小部分時,不再對整個圖片做處理,而是使用注意力機制,只集中資源在最關鍵的部分。實驗結果表明該方法可以有效提高程序的運行效率。

隨后注意力機制被引入自然語言處理領域。本文的循環(huán)神經(jīng)網(wǎng)絡自編碼器模型也引入了注意力機制。注意力機制對摘要任務的執(zhí)行效率有很大的幫助。摘要的生成是輸出一個詞序列形成摘要句的模式,注意力機制會在預測某個位置的詞匯時,偏向注意那些與該位置有緊密聯(lián)系的原文信息。如果沒有注意力機制,那么每次預測時,關注的內(nèi)容都是整個文章,而有些詞語可能因為出現(xiàn)頻率很高,導致關鍵性明顯高于其他詞語,最終連續(xù)預測出同一個詞,從而毀掉整個摘要。圖4是一個帶有注意力機制的循環(huán)神經(jīng)網(wǎng)絡自編碼器模型。

注意力機制:ci表示第i時刻下的原文語義向量。αij是表示解碼器當前時刻原文中的輸入詞與當前要預測的位置之間的關聯(lián)程度;eik是對解碼器當前時刻下某個編碼器隱層輸出的評分,評價標準是當前預測位置與該隱層輸出的關聯(lián)程度,具體評價方式由score函數(shù)確定。由于本文是針對短文本的摘要,所以使用全局注意力機制與局部注意力機制的區(qū)別不大,而且使用局部的方法更加復雜,所以本文使用了全局注意力機制的一般方法[14]。

2.4 解碼器詞匯表的構建

編碼器在使用softmax層計算每個詞的概率時非常消耗時間,也是整個任務計算速度的瓶頸。為了解決這個問題,可以重新劃定解碼器的詞匯表。傳統(tǒng)方法是使用目標語言的整個詞匯表,進一步的方法是僅僅使用待處理句子的詞匯與目標語言中的高頻詞匯,極大地減少了計算成本[15]。

本文在傳統(tǒng)方法的基礎上作了一定的改進,提出了鄰近詞表技術,加入了原文詞表中屬于高頻詞匯的鄰近詞匯,鄰近度是在詞向量空間中體現(xiàn)的,即余弦值越高相似度越低。即解碼器的詞匯表由三部分組成:原文詞匯、高頻詞匯和鄰近詞匯。自動摘要任務與機器翻譯任務有所不同,機器翻譯任務不需要過多的新詞匯,而自動摘要任務需要更多新穎有意義的詞匯來形成更優(yōu)的候選句,并且鄰近詞匯也能進一步提升句子的連貫程度。經(jīng)過修改,本文提出的鄰近詞表技術不僅能夠減少計算成本,提高收斂速度,還更加適應摘要任務。

2.5 改進的詞嵌入技術

傳統(tǒng)的詞嵌入技術主要采用兩種方法:連續(xù)詞袋模型(Continuous Bag-of-Words, CBOW)與Skip-Gram方法。CBOW是根據(jù)某個位置上下文的詞匯而推出這個位置的詞,Skip-Gram是根據(jù)某個詞推出該詞所在位置上下文的詞語??梢钥闯鲞@兩種方法都只關注詞語間的位置關系,而沒有關注詞的其他特性,例如詞性、詞頻和逆文本頻率。

本文將詞匯的POS、TF、IDF值離散化后樸素連接在原來的詞向量后端形成一個新的詞向量作為編碼器的輸入,用來生成語義編碼。

摘要往往是中性的句子,很少附帶情感詞匯,一般只描述事實,所以摘要任務的詞語選擇應該重點在名詞和動詞上,而不是形容詞和副詞。而詞頻與逆文本頻率能夠反映詞匯的重要性與代表性。詞頻表示詞匯在原文出現(xiàn)的次數(shù),逆文本頻率表示詞匯在語料庫中出現(xiàn)的頻率。詞語的關鍵性會隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。這些信息都是摘要任務所需要的重要信息,期望加入這些信息能夠提高摘要質(zhì)量。

3 實驗與分析

3.1 LCSTS數(shù)據(jù)集

本文實驗使用了LCSTS數(shù)據(jù)集,所采用數(shù)據(jù)的具體情況如表1所示,該數(shù)據(jù)集包含三個部分,其中:

3.2 實驗設置

將Part1作為訓練集,訓練樣例的選取是隨機的。通過jieba工具對文本進行分詞,之后,從中選取60000個高頻詞作為編碼器的詞匯表,不在詞匯表內(nèi)的詞語使用“UNK”表示。本文設計的解碼器詞匯表大小[16]為4000,先將原文詞匯加入詞匯表,然后取它們的鄰近詞匯,最后用編碼器詞匯表中的高頻詞匯填充剩下的位置。把鄰近度設定為3,即取余弦值最接近的3個詞為鄰近詞匯。詞向量維度為250,批尺寸大小為50,學習率初始化為1.0,其他參數(shù)均隨機初始化。本文采用Adadelta方法來更新學習率。在解碼器輸出端采用集束搜索(beam-search)方法,束大小設定為7。所有模型的訓練過程都在Tesla P4上完成,整個過程持續(xù)了將近一周的時間。

選取Part3中評分在3以及3以上的原文摘要組合作為測試集。摘要評價采用了Rouge評價體系[17]。該評價體系自提出以來被廣泛應用于自動摘要任務的評價當中,目前已成為世界公認的評價標準。該體系的思路是分析比較候選摘要集與專家摘要集的相似程度來評價摘要質(zhì)量。本文采用該體系中的Rouge-1、Rouge-2和Rouge-L三種方式對模型進行測試評價,這三種方式分別從字的相似度、詞的相似度和句子的流暢度三個方面來評價摘要質(zhì)量。

由于標準的Rouge工具包通常只能用來評價英文,所以將中文字符編碼成了英文字符串,這樣就可以把中文字符與英文單詞對應起來,可以說本文對系統(tǒng)的評價是基于“字”為單位進行的[18]。

3.3 實驗分析

從表2中可以看出,引入了雙向循環(huán)神經(jīng)網(wǎng)絡、多層神經(jīng)網(wǎng)絡、改進的詞嵌入技術與鄰近詞表技術后, Bi-MulRnn+模型在測試中的表現(xiàn)略優(yōu)于Bi-MulRnn模型與RNN context模型。這說明Bi-MulRnn+模型在生成摘要的正確性、連貫性和表達性上都有了一定的提升。

導致這種情況的原因有三個:

一是引入了雙向循環(huán)神經(jīng)網(wǎng)絡與多層循環(huán)神經(jīng)網(wǎng)絡,雙向循環(huán)神經(jīng)網(wǎng)絡能夠克服傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡注意力偏后的缺陷,多層循環(huán)神經(jīng)網(wǎng)絡能夠提升循環(huán)神經(jīng)網(wǎng)絡的泛化能力。從第二、三組的實驗對比中可以表明這兩者確實對摘要任務有所提升。

二是鄰近詞表技術,加入了鄰近詞。在一些情況下,標準摘要中有可能出現(xiàn)原文中不存在的詞匯,例如像在原文中可能出現(xiàn)“在排名中最高”這種表達,但在標準摘要中有可能是“居榜首”這種表達,兩者都表達了同一個意思,但后者明顯簡練一些。鄰近詞的擴充可以使解碼器詞匯表中出現(xiàn)這類意思相近的詞語,使得摘要句子的詞匯豐富性與準確性得以增強。

三是改進的詞嵌入技術,加入了POS、TF和IDF三個特征。這三個特征加強了模型對名詞、關鍵詞的認識,摘要句往往是陳述句,其中形容詞和副詞較少,經(jīng)過學習,模型會自動增強對動詞與名詞的選擇,進一步加強摘要的準確性。

4 結語

本文對生成式自動摘要技術進行了深入的分析與研究,提出了一種生成式自動摘要問題解決方案。該方案構建了一種新型自編碼器模型,并對詞義表示進行了改進。模型的編碼器與解碼器部分采用了一種新型的組合方式,編碼器采用雙層循環(huán)神經(jīng)網(wǎng)絡,解碼器采用多層循環(huán)神經(jīng)網(wǎng)絡,通過對比分析實驗結果可以得出結論:這種組合提高了模型對文章的理解能力和模型生成的摘要質(zhì)量。在詞義表示方面,本文采用了Skip-Gram方法生成詞向量,并引入了詞性、詞頻和逆文本頻率這三個特征,通過對比分析實驗結果可以得出結論:改進的詞向量技術能進一步地提高摘要質(zhì)量。在Rouge標準評價體系下,本文模型與單純使用深度神經(jīng)網(wǎng)絡的模型相比有更好的表現(xiàn)。

生成式自動摘要技術可應用于新聞行業(yè)、推薦系統(tǒng)以及信息檢索等領域,具有良好的應用價值。但是該模型在對一部分特有名詞處理時無法識別這些信息,最終會導致摘要生成不準確,所以在后續(xù)的研究中將針對這一問題作進一步的研究。

參考文獻:

[1] BAHDANAU D, CHO K H, BENGIO Y. Neural machine translation by jointly learning to align and translate [EB/OL]. [2018-03-20]. https://arxiv.org/pdf/1409.0473v7.pdf.

[2] BAHDANAU D, CHOROWSKI J, SERDYUK D, et al. End-to-end attention-based large vocabulary speech recognition [C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016: 4945-4949.

[3] VENUGOPALAN S, ROHRBACH M, DONAHUE J, et al. Sequence to sequence — video to text [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015:4534-4542.

[4] RUSH A M, CHOPRA S, WESTON J. A neural attention model for abstractive sentence summarization [EB/OL]. [2018-02-23]. https://arxiv.org/pdf/1509.00685.pdf.

[5] CHOPRA S, AULI M, RUSH A M. Abstractive sentence summarization with attentive recurrent neural networks [EB/OL]. [2018-03-21] http://aclweb.org/anthology/N/N16/N16-1012.pdf.

[6] NALLAPATI R, ZHOU B W, dos SANTOS C N, et al. Abstractive text summarization using sequence-to-sequence RNNs and beyond [C]// Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Stroudsburg, PA: ACL, 2016:280-290.

[7] ABADI M, BARHAM P, CHEN J M, et al. Tensor flow: a system for large-scale machine learning [C]// Proceedings of the 12th USENIX conference on Operating Systems Design and Implementation. Berkeley, CA: USENIX, 2016: 265-283.

[8] BRITZ D,GOLDIE A, LUONG M-T, et al. Massive exploration of neural machine translation architectures [EB/OL]. [2018-04-05]. https://arxiv.org/pdf/1703.03906.pdf.

[9] GEHRING J, AULI M, GRANGIER D, et al. Convolutional sequence to sequence learning [EB/OL]. [2018-04-23]. https://arxiv.org/pdf/1705.03122.pdf.

[10] LI P J, LAM W, BING L D, et al. Cascaded attention based unsupervised information distillation for compressive summarization [C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017:2081-2090.

[11] CHUNG J Y, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling [EB/OL]. [2018-04-23]. https://arxiv.org/pdf/1412.3555v1.pdf.

[12] LOPYREV K. Generating news headlines with recurrent neural networks [EB/OL]. [2018-03-20]. https://arxiv.org/pdf/1512.01712.pdf.

[13] MNIH V, HEESS N, GRAVES A. Recurrent models of visual attention[EB/OL]. [2018-04-08]. https://papers.nips.cc/paper/5542-recurrent-models-of-visual-attention.pdf.

[14] LUONG M-T, PHAM H, MANNING C D. Effective approaches to attention-based neural machine translation [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2015: 1412-1421.

[15] JEAN S, CHO K H, MEMISEVIC R, et al. On using very large target vocabulary for neural machine translation [C]// Proceedings of the 53rd Annual Meeting of the ACL and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: ACL, 2015:1-10.

[16] AYANA, SHEN S Q, ZHAO Y, et al. Neural headline generation with sentence-wise optimization [EB/OL]. [2018-03-23]. https://arxiv.org/pdf/1604.01904.pdf.

[17] LIN C Y, HOVY E. Automatic evaluation of summaries using n-gram co-occurrence statistics [C]// Proceedings of the 2003 Conference of the North American Chapter of the ACL on Human Language Technology. Stroudsburg, PA: ACL, 2003: 71-78.

[18] 戶保田.基于深度神經(jīng)網(wǎng)絡的文本表示及其應用[D].哈爾濱:哈爾濱工業(yè)大學,2016:91-94. (HU B T. Deep neural networks for text representation and application[D]. Harbin: Harbin Institute of Technology, 2016: 91-94.)

[19] HU B T, CHEN Q C, ZHU F Z. LCSTS: A large scale Chinese short text summarization dataset [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2015:1967-1972.

猜你喜歡
自然語言處理
基于LSTM自動編碼機的短文本聚類方法
自然語言處理與司法案例
國外基于知識庫的問答系統(tǒng)相關研究進展及其啟示
基于依存句法的實體關系抽取
基于組合分類算法的源代碼注釋質(zhì)量評估方法
面向機器人導航的漢語路徑自然語言組塊分析方法研究
詞向量的語義學規(guī)范化
漢哈機器翻譯中的文字轉換技術研究
HowNet在自然語言處理領域的研究現(xiàn)狀與分析
新龙县| 南岸区| 民勤县| 晋中市| 竹北市| 云龙县| 萝北县| 郁南县| 孝义市| 筠连县| 和硕县| 南开区| 沙河市| 张掖市| 湄潭县| 剑阁县| 灵山县| 醴陵市| 全南县| 巴彦淖尔市| 黄山市| 图木舒克市| 福建省| 沽源县| 垫江县| 湘西| 泰和县| 永平县| 宁德市| 美姑县| 建湖县| 蒙自县| 马边| 海林市| 壤塘县| 交城县| 固镇县| 宁乡县| 东宁县| 印江| 仲巴县|