国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于神經(jīng)網(wǎng)絡(luò)的文本標(biāo)題生成原型系統(tǒng)設(shè)計

2021-05-12 13:47:24張仕森孫憲坤李世璽
電子科技 2021年5期
關(guān)鍵詞:解碼器原型語義

張仕森,孫憲坤,尹 玲,李世璽

(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)

隨著近幾年互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)中的文本信息資源的數(shù)量呈現(xiàn)指數(shù)級增長。根據(jù)中國互聯(lián)網(wǎng)協(xié)會發(fā)布的《中國互聯(lián)網(wǎng)發(fā)展報告2019》,截至2018年底,我國網(wǎng)頁總數(shù)量已達到2 816億,這些網(wǎng)頁中所包含的信息覆蓋了社會生活的各個領(lǐng)域。然而這其中也包含了海量不規(guī)范的文本信息,例如市場上眾多移動客戶端中自媒體文章的“標(biāo)題黨”,以及互聯(lián)網(wǎng)中大量無標(biāo)題的評論、微博等,這些不規(guī)范的文本信息給人們帶來了巨大的信息過載壓力。為這些不規(guī)范的文本信息生成一條簡潔、切合原文表達的標(biāo)題可以緩解信息過載壓力,提高工作效率并為相關(guān)部門監(jiān)察社會輿論提供幫助。

實際工作中采用傳統(tǒng)的人工總結(jié)編寫標(biāo)題的方式在耗費大量時間、人力成本的同時難以應(yīng)對每天產(chǎn)生的海量不規(guī)范文本。標(biāo)題生成是以文本內(nèi)容作為輸入,以標(biāo)題作為輸出的一種文本摘要任務(wù)的變體,因此通過標(biāo)題生成技術(shù)可以高效、經(jīng)濟地解決這一問題。

文獻[1]通過詞頻、逆序文本頻率等文本特征來計算文章中每一個句子作為摘要的概率,研發(fā)出一種基于貝葉斯分類模型的自動文本摘要系統(tǒng)DimSim。但在自然語言中,特征與特征之間并不是相互獨立的,而是存在某些內(nèi)部聯(lián)系,因此文獻[2]使用決策樹替換樸素貝葉斯分類器來構(gòu)造新的摘要系統(tǒng)。文獻[3]在谷歌公司提出PageRank[4]算法的基礎(chǔ)上提出了TextRank算法來實現(xiàn)文本摘要的生成。這些方法都是通過判斷原始文本中各個單詞或句子的重要程度,對原文中語句進行重新排序,按照重要性的大小抽取原文中的語句來構(gòu)成摘要的抽取式技術(shù)。抽取式技術(shù)實現(xiàn)簡單、快速,但是無法滿足人們對于生成摘要準(zhǔn)確性和流暢性的要求。

隨著近年來深度學(xué)習(xí)技術(shù)的發(fā)展,對文本內(nèi)容進行整體的全面總結(jié)凝練,然后生成摘要的生成式技術(shù)逐漸成為文本摘要任務(wù)的主流方法。抽取式技術(shù)僅僅是抽取原文中的語句來構(gòu)成摘要,而生成式技術(shù)則更加符合人類的閱讀和思考習(xí)慣,生成出來的摘要也更符合人工撰寫摘要的規(guī)律。

文獻[5]在新聞標(biāo)題生成任務(wù)中應(yīng)用Seq2Seq(Sequence to Sequence)模型取得了良好的效果。文獻[6]在Seq2Seq模型的基礎(chǔ)上引入了注意力機制,完成了生成式的中文文本摘要生成。本文基于神經(jīng)網(wǎng)絡(luò)和生成式技術(shù)對中文文本標(biāo)題生成原型系統(tǒng)進行了設(shè)計與實現(xiàn)。

1 自然語言的文本表示

自然語言的文本表示是指由于計算機無法直接識別語言的符號文字[7],因此需要將這些符號文字轉(zhuǎn)換為文本向量這種計算機可以進行運算的數(shù)學(xué)表達形式。轉(zhuǎn)換之后得到的文本向量一般包含語言的語法、語義等重要特征[8]。自然語言處理技術(shù)經(jīng)過長久的發(fā)展,形成了兩種最主要的文本表示方法:離散表示與分布式表示。

1.1 離散表示

在離散表示方法中,對于詞典中的每一個詞一般使用一個長度和詞典總詞數(shù)大小相同的離散高維向量來表示詞語。這個離散的高維向量中每一個元素都對應(yīng)詞典中的某一個詞,其中只有一個元素的數(shù)值為1,其余均是0,元素為1的位置代表其對應(yīng)詞在詞典中的位置。

利用離散向量的方式對文本進行表示的方法有兩個弊端[9]:(1)離散表示方法向量的維度隨著詞的數(shù)量增大而増大,具有超高的維度和極大的稀疏性,高維度和稀疏性會產(chǎn)生自然語言處理中的“維數(shù)災(zāi)難”問題,占用較大的運算空間,增加了神經(jīng)網(wǎng)絡(luò)的計算代價;(2)離散表示方法會導(dǎo)致任意兩個詞之間是相對獨立的,相當(dāng)于給每個詞分配一個id,導(dǎo)致離散表示方式不能有效地表達詞與詞之間的語義關(guān)系,無法表示語言復(fù)雜的語義信息[10]。在一定程度上離散表示是假設(shè)了語義的單一性,即認(rèn)為語義僅僅是一維的,然而實際上語義應(yīng)該是多維的。例如對于詞語“家園”,有的人會聯(lián)想到“安全”、“溫馨”,有的人則會聯(lián)想到“地球”、“環(huán)境”。由于不同人對同一個詞的理解存在著較大的差異,因此僅通過給每個詞分配一個id很難將詞語放在合適的位置。此外,離散也無法衡量詞語的相似性,即使是同義詞在離散表示上也會被表示為完全不同的向量。

1.2 分布式表示

自然語言中的詞語并非是全部獨立的,例如“賓館”和“旅館”,“母?!焙汀按髮W(xué)”,它們具有一定的關(guān)聯(lián)性和相似性。離散表示將每一個詞看作一個完整獨立的個體,假設(shè)了語義的單一性,無法衡量詞語之間的相似性。為了解決傳統(tǒng)離散表示方法的這一缺點,文獻[11]提出了詞向量(Word Vector)的概念。詞向量又稱為詞嵌入(Word Embedding),是指用一種低維的、連續(xù)實值向量的形式來表示詞語[12]。通過用詞向量對詞語進行表示,可使每個詞語都變?yōu)樵~典的N維向量空間中的一個點。詞向量可以有效解決傳統(tǒng)離散表示的“維數(shù)災(zāi)難”問題。此外,不同詞語在N維向量空間對應(yīng)的點與點之間有距離的遠近關(guān)系,從而可以通過計算對應(yīng)點之間的距離得到詞與詞之間的語義關(guān)系。圖1展示的是部分中文詞向量空間示意圖。

圖1 部分詞向量空間示意圖

從圖1中可以看出,語義相關(guān)的詞在詞典向量空間中的相對位置較為接近,例如“健康”和“預(yù)防”、“需求”和“增加”等。可以看出,相對于假設(shè)語義單一性的離散表示,分布式表示可以有效地表達出詞與詞之間的聯(lián)系。

2 帶注意力機制的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)模型

標(biāo)準(zhǔn)的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)模型的結(jié)構(gòu)[13]如圖2所示。其是將整個輸入序列編碼為一個固定大小的上下文語義向量c,之后用這個固定大小的向量進行解碼操作,即標(biāo)題中每個輸出詞語yi的生成過程為

(1)

其中,f是解碼器Decoder的非線性變換函數(shù)。由式(1)可以看出,標(biāo)準(zhǔn)的序列到序列模型,在生成標(biāo)題中每個輸出詞語yi時使用的上下文語義向量c都是相同的,即無論生成y1,y2,…,yn時,輸入文本中任意詞語對于某個輸出詞語yi來說影響力都是相同的。

圖2 編碼器-解碼器模型網(wǎng)絡(luò)結(jié)構(gòu)圖

但在實際應(yīng)用中,編碼器Encoder將整個輸入序列的信息壓縮到一個固定長度的向量會導(dǎo)致這個固定長度的上下文語義向量c無法有效表示輸入文本的全部信息,導(dǎo)致文本信息的丟失。

在標(biāo)準(zhǔn)的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)模型中引入注意力機制可以減輕上下文語義向量c所承擔(dān)的信息壓力。其具體操作為:使用根據(jù)當(dāng)前生成詞而不斷變化的上下文向量ci來替換原來Encoder端固定長度的上下文語義向量c,并且在生成上下文向量ci的同時還會生成針對每個輸入的注意力權(quán)重參數(shù)ai。在解碼器端解碼時,隱藏層向量h′i不僅僅要與Encoder端編碼出來的上下文語義向量ci進行混合,還要與注意力權(quán)重參數(shù)ai進行混合,共同決定當(dāng)前時刻的輸出。

雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)可以對上下文同時進行建模計算[14],充分利用上下文語句之間的語義聯(lián)系,提高最終的文本生成效果。因此本文研究選取的模型在編碼階段采用了雙向長短期記憶神經(jīng)網(wǎng)絡(luò)[15]進行編碼建模,在解碼階段則采用了單向長短期記憶神經(jīng)網(wǎng)絡(luò)進行解碼操作。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 帶注意力機制的編碼器-解碼器模型結(jié)構(gòu)圖

圖3中注意力權(quán)重參數(shù)a′i及根據(jù)當(dāng)前生成詞而不斷變化的上下文向量ci的計算如下

(2)

(3)

式(2)和式(3)中,hj是編碼過程中j時刻的LSTM神經(jīng)網(wǎng)絡(luò)隱藏層向量,h′i是解碼過程中i時刻的LSTM神經(jīng)網(wǎng)絡(luò)隱藏層向量;w是注意力權(quán)重矩陣。

此時標(biāo)題中每個輸出詞語yi的生成過程變?yōu)槭?4)。

(4)

在每個時間步,解碼器會根據(jù)當(dāng)前解碼器的隱藏層向量來引導(dǎo)編碼器產(chǎn)生的上下文語義向量ci生成對應(yīng)的輸出序列。因此在生成標(biāo)題的每個詞語時,注意力機制將幫助生成模型選擇與此部分高度相關(guān)的原文信息,進而生成更貼合原文的相關(guān)標(biāo)題。

最終結(jié)合注意力機制的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)模型標(biāo)題生成詞的條件概率如式(5)所示。

(5)

3 標(biāo)題生成原型系統(tǒng)的設(shè)計

3.1 標(biāo)題生成原型系統(tǒng)的整體結(jié)構(gòu)

標(biāo)題生成原型系統(tǒng)主要由前端展示和后端算法兩部分組成,系統(tǒng)的整體結(jié)構(gòu)如圖4所示。

圖4 標(biāo)題生成系統(tǒng)的整體結(jié)構(gòu)

其中前端展示模塊主要的作用是進行人機交互,即用戶輸入想得到標(biāo)題的文本后,前端界面可以返回給用戶該文本在標(biāo)題生成原型系統(tǒng)中生成的對應(yīng)標(biāo)題。后端算法部分則在接收到用戶輸入的原始文本后,對用戶的輸入文本進行分詞、文本向量化表示、標(biāo)題生成等步驟,并將系統(tǒng)生成的標(biāo)題傳遞給前端界面并展示給用戶。

3.2 標(biāo)題生成原型系統(tǒng)的功能模塊

3.2.1 人機交互模塊

人機交互模塊在前端可視化界面中展示,主要用于負(fù)責(zé)接收用戶輸入的待生成標(biāo)題的原始文本,并將接收到的輸入文本傳遞到后端進行處理,最后再將后端生成的標(biāo)題展示在可視化界面中。

本文在人機交互模塊中使用Tkinter模塊來搭建標(biāo)題生成系統(tǒng)的可視化界面。Tkinter模塊是Python的標(biāo)準(zhǔn)Tk-GUI工具包的接口,可以在Windows和大多數(shù)的Unix平臺下使用,從而解決了跨平臺的兼容性問題[16]。

3.2.2 分詞模塊

分詞模塊使用jieba開源分詞工具對輸入的文本進行分詞操作,作為后續(xù)的文本向量化模塊的預(yù)處理操作。

例如輸入文本:近年來,一些社會培訓(xùn)機構(gòu)擅自招收適齡兒童、少年,以“國學(xué)”“女德”教育等名義開展全日制教育、培訓(xùn),替代義務(wù)教育學(xué)校教育,導(dǎo)致相關(guān)適齡兒童、少年接受義務(wù)教育的權(quán)利和義務(wù)不能依法實現(xiàn)。對此,教育部印發(fā)《禁止妨礙義務(wù)教育實施的若干規(guī)定》。該文本經(jīng)過分詞模塊后的輸出見表1。

表1 分詞模塊處理示例

3.2.3 文本向量化模塊

文本向量化模塊將分詞模塊的輸出文本通過詞向量模型轉(zhuǎn)變?yōu)橛嬎銠C可以識別的向量表示,之后將經(jīng)過向量化表示的文本信息傳遞進標(biāo)題生成模塊進行最終的標(biāo)題生成。

3.2.4 標(biāo)題生成模塊

標(biāo)題生成模塊基于上述模塊和帶注意力機制的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)來生成用戶輸入原始文本所對應(yīng)的標(biāo)題,并將生成結(jié)果傳遞回前端部分的人機交互模塊進行展示。

4 標(biāo)題生成原型系統(tǒng)的實現(xiàn)

4.1 標(biāo)題生成網(wǎng)絡(luò)模型的訓(xùn)練

4.1.1 訓(xùn)練數(shù)據(jù)的獲取

訓(xùn)練標(biāo)題生成任務(wù)的神經(jīng)網(wǎng)絡(luò)模型需要文本-標(biāo)題對結(jié)構(gòu)的大規(guī)模高質(zhì)量文本數(shù)據(jù)集?;诖?,本文研究主要使用了哈爾濱工業(yè)大學(xué)的LCSTS(Large Scale Chinese Short Text Summarization Dataset)[17]數(shù)據(jù)集。

LCSTS是一個大規(guī)模的中文短文本摘要數(shù)據(jù)集,其數(shù)據(jù)主要來源于一些具有影響力的機構(gòu)或者媒體在新浪微博平臺上向公眾發(fā)布的信息。LCSTS的數(shù)據(jù)內(nèi)容如圖5所示。

其中,human_label是志愿者對每條短文本與摘要的相關(guān)性程度的標(biāo)注,從1~5,數(shù)字越大代表短文本與摘要的相關(guān)性越高;summary則是這些具有影響力的機構(gòu)或者媒體在發(fā)布消息時所用的標(biāo)題;short_text則是發(fā)布的消息內(nèi)容。

圖5 LCSTS數(shù)據(jù)示例

LCSTS數(shù)據(jù)集共包含超過24萬條短文本摘要數(shù)據(jù),其數(shù)據(jù)長度分布如圖6所示。

圖6 LCSTS數(shù)據(jù)長度分布箱形圖

由圖6可以看出,LCSTS數(shù)據(jù)集中多數(shù)short_text的長度大于100,與之對應(yīng)summary的長度通常小于20,即可以使用summary的內(nèi)容作為輸出標(biāo)題,short_text的內(nèi)容作為輸入文本進行模型訓(xùn)練。

4.1.2 標(biāo)題生成網(wǎng)絡(luò)的訓(xùn)練參數(shù)設(shè)置

標(biāo)題生成網(wǎng)絡(luò)模型的訓(xùn)練環(huán)境主要為Intel CORE i7 9700,NVIDIA Tesla V100 32G TPU,Python3.6,Tensorflow1.4,Keras2.1.2,Numpy1.17,Pandas0.23,單次訓(xùn)練耗時約8 h。實驗參數(shù)設(shè)置如表2所示。

表2 TGMCN模型訓(xùn)練參數(shù)設(shè)置

4.2 原型系統(tǒng)的效果展示

標(biāo)題生成原型系統(tǒng)的可視化界面主要包括以下幾部分:(1)用戶文本輸入框。用戶文本輸入框用于輸入待生成標(biāo)題的原始文本;(2)標(biāo)題生成結(jié)果框。標(biāo)題生成結(jié)果框用于展示系統(tǒng)根據(jù)原始輸入文本而生成的標(biāo)題;(3)標(biāo)題生成按鈕。標(biāo)題生成按鈕用于啟動生成系統(tǒng);(4)清空界面按鈕。清空界面按鈕用于清空輸入的文本和系統(tǒng)輸出的標(biāo)題。標(biāo)題生成原型系統(tǒng)的可視化界面如圖7所示。

圖7 標(biāo)題生成原型系統(tǒng)的可視化界面

如果用戶輸入的原始文本為空,則系統(tǒng)無法生成對應(yīng)標(biāo)題,此時系統(tǒng)進行彈窗,提醒用戶原始輸入文本不能為空,點擊“確定”按鈕回主界面重新進行輸入,如圖8所示。

圖8 輸入文本錯誤時的系統(tǒng)界面

當(dāng)用戶輸入沒有錯誤的原始文本后,系統(tǒng)會調(diào)用后端算法模型來生成輸入文本對應(yīng)的標(biāo)題,并將生成結(jié)果展示在標(biāo)題生成結(jié)果框中,如圖9所示。

圖9 生成結(jié)果展示

4.3 原型系統(tǒng)的性能評價

4.3.1 ROUGE評價指標(biāo)

本文標(biāo)題生成原型系統(tǒng)的性能評價采用的評價指標(biāo)是基于召回率統(tǒng)計的ROUGE(Recalloriented Understudy for Gisting Evaluation)[18]指標(biāo)。ROUGE指標(biāo)由ISI的Lin和Hovy提出,是自動摘要研究領(lǐng)域基于機器摘要和人工摘要中N-gram匹配的情況來生成量化結(jié)果的一種評價方法。ROUGE-1、ROUGE-L的計算方法如式(6)和式(7)所示。

(6)

式(6)中,referencesummaries是人工編寫的摘要,Countmatch(gram)表示系統(tǒng)自動生成的摘要和人工摘要中相同N-gram的最大數(shù)量,Count(gram)表示人工摘要中出現(xiàn)的N-gram個數(shù)。

(7)

式中,X和Y分別代表模型自動生成的摘要和人工標(biāo)準(zhǔn)摘要;L(X,Y)是X和Y的最長公共子序列的長度;m和n分別表示人工標(biāo)準(zhǔn)摘要和系統(tǒng)自動生成的摘要的長度,即組成摘要的詞語個數(shù);Rl和Pl則分別表示召回率和準(zhǔn)確率;β被設(shè)置為一個趨向于正無窮的極大參數(shù),因此ROUGE-L在數(shù)值上約等于Rl。

4.3.2 原型系統(tǒng)的性能測試結(jié)果

由于LCSTS數(shù)據(jù)集中human_label標(biāo)簽數(shù)值為“5”的文本代表經(jīng)過志愿者標(biāo)注,認(rèn)為該條文本的標(biāo)題與文本內(nèi)容相似度較高。因此在測試原型系統(tǒng)性能時,在LCSTS數(shù)據(jù)集中所有human_label標(biāo)簽數(shù)值為“5”的文本中隨機選取了510條,并將該510條文本數(shù)據(jù)移出訓(xùn)練集來構(gòu)成測試集以避免訓(xùn)練過程中的數(shù)據(jù)泄露。

LexPageRank模型[19]是將PageRank算法應(yīng)用到文本句子關(guān)系表示的方法,是一種基于圖模型的標(biāo)題生成模型。MEAD模型[20]是通過聯(lián)合考慮句子的質(zhì)心、位置、公共子序列及關(guān)鍵詞這4種特征的標(biāo)題生成模型。為了驗證標(biāo)題生成原型系統(tǒng)的性能,本文選取了LexPageRank和MEAD模型作為基線模型。系統(tǒng)性能測試結(jié)果見表3。

表3 系統(tǒng)性能測試結(jié)果

5 結(jié)束語

隨著互聯(lián)網(wǎng)時代的快速發(fā)展,網(wǎng)絡(luò)中存在著大量不規(guī)范的文本信息。本文針對人工編寫標(biāo)題無法應(yīng)對每天產(chǎn)生的海量文本數(shù)據(jù)這一現(xiàn)象,基于生成式文本摘要技術(shù)對中文標(biāo)題生成原型系統(tǒng)進行了設(shè)計與實現(xiàn),并對系統(tǒng)功能進行了詳細(xì)的介紹和展示。通過在LCSTS數(shù)據(jù)集上的實驗表明,采用訓(xùn)練結(jié)合注意力機制的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)模型,可以使系統(tǒng)生成的標(biāo)題更符合人工撰寫摘要的規(guī)律,在一定程度上滿足人們對于生成標(biāo)題的流暢性和準(zhǔn)確性的要求。其中,ROUGE-1、ROUGE-L評價指標(biāo)的數(shù)值分別為29.91和24.68,均高于基線模型,證明了標(biāo)題生成原型系統(tǒng)的有效性。

但是,因為計算機硬件設(shè)備限制的客觀原因以及自身水平有限的主觀原因,本文仍然存在著有待完善優(yōu)化的地方,例如距離生成真正意義上的語義準(zhǔn)確、表述清晰、行文連貫的高質(zhì)量文章標(biāo)題仍有著不小的差距。此外,本文所設(shè)計并實現(xiàn)的標(biāo)題生成原型系統(tǒng)僅僅具備簡單的基礎(chǔ)功能,距離實際工業(yè)應(yīng)用還有一定距離。在今后的工作中,研究人員將會持續(xù)關(guān)注國內(nèi)外在文本生成領(lǐng)域的最新研究,從而繼續(xù)優(yōu)化和改進標(biāo)題生成系統(tǒng)的性能。

猜你喜歡
解碼器原型語義
科學(xué)解碼器(一)
科學(xué)解碼器(二)
科學(xué)解碼器(三)
包裹的一切
語言與語義
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
《哈姆雷特》的《圣經(jīng)》敘事原型考證
論《西藏隱秘歲月》的原型復(fù)現(xiàn)
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
原型理論分析“門”
人間(2015年20期)2016-01-04 12:47:08
深水埗区| 土默特右旗| 德格县| 德惠市| 镇巴县| 成武县| 丰宁| 海林市| 祁东县| 黄平县| 庄河市| 安吉县| 宣城市| 禹州市| 汨罗市| 信阳市| 尤溪县| 宁化县| 微博| 隆子县| 双柏县| 岳阳市| 漠河县| 措勤县| 玉山县| 涞水县| 永平县| 三门县| 咸阳市| 卢湾区| 红原县| 法库县| 德保县| 孟连| 广灵县| 浦江县| 阳东县| 青神县| 黎平县| 许昌市| 专栏|