陳瑞清,高盛祥**,余正濤,張迎晨,張 磊,楊 艦
(1.昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2.昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500)
隨著“一帶一路”倡議推進,中國與越南在政治、經(jīng)濟、文化等方面的交流日益密切.當今社會,互聯(lián)網(wǎng)新聞報道作為信息傳播的重要載體,成為人們了解越南國家的主要方式.面對互聯(lián)網(wǎng)每天產(chǎn)生數(shù)以百萬計的新聞,語言理解成為了艱巨挑戰(zhàn).如何從海量越南新聞報道中獲取關(guān)鍵信息,提高信息使用率,對面向越南新聞輿情分析、跨語言新聞事件檢索等領(lǐng)域具有重要研究價值.
在自然語言處理任務(wù)中,越南語關(guān)鍵詞通常作為多詞單元以簡短的文本總結(jié)了越南語文檔的基本思想,對文本摘要、信息檢索和文本分類等下游任務(wù)非常有利[1-2].越南語關(guān)鍵詞生成任務(wù)的主要目標是在給定源文檔的情況下自動生成簡潔凝練、代表文檔主要內(nèi)容的關(guān)鍵詞.根據(jù)關(guān)鍵詞的生成方式不同,可將關(guān)鍵詞生成的方法分為兩種類型:抽取式方法和生成式方法[3].目前越南語關(guān)鍵詞研究大多使用抽取式方法,首先利用詞匯特征(詞性標簽)、詞頻特征(Term Frequency-Inverse Document Frequency,TF-IDF)、外部信息特征(標題)等得到候選關(guān)鍵詞集合,然后通過排序算法對候選詞集進行排序,排名最高的候選詞最終選擇作為關(guān)鍵詞[4].文獻[4]基于本體論提出了針對特定領(lǐng)域的關(guān)鍵詞提取算法,該算法基于本體自動提取文檔的關(guān)鍵詞,并使用提取出的關(guān)鍵詞來計算兩篇文章的相似度,在越南勞工和就業(yè)報紙在線網(wǎng)站上取得了不錯的效果.文獻[5]提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的混合深度學習解決方案用于越南語文本中的關(guān)鍵字提取,提出的模型具有更高的準確性和F1 得分.文獻[6]利用基于規(guī)則的方法從越南單語文檔中自動提取英語?越南語雙語術(shù)語.抽取式方法在越南語上的研究取得了不錯的進展,但仍存在一定的局限性,例如,對于不存在于源文檔中的關(guān)鍵詞,抽取模型就無法預測這些詞語[1].
與抽取式方法相比,生成式方法不僅可以提取源文檔中出現(xiàn)的關(guān)鍵詞,還可以生成源文檔中不存在的關(guān)鍵詞.它與人類思考方式更接近,通過理解整個文檔后,重新組織語言生成源文檔中已出現(xiàn)的關(guān)鍵詞和不存在的關(guān)鍵詞.文獻[1]采用了編碼器?解碼器結(jié)構(gòu),注意力機制和復制機制相結(jié)合的CopyRNN 模型,并在大規(guī)模數(shù)據(jù)集上訓練關(guān)鍵詞生成模型.帶有門控循環(huán)單元的雙向RNN 在從大多數(shù)數(shù)據(jù)集中提取文檔已出現(xiàn)的關(guān)鍵詞時效果沒有非深度學習方法好,但是CopyRNN 也有不錯的性能.文獻[7]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的CopyCNN模型,提高了關(guān)鍵詞的生成速度.盡管如此,Copy-RNN 和CopyCNN 網(wǎng)絡(luò)將標題和正文平等對待,將標題和正文連接為唯一的源文本作為輸入,而忽略了標題和關(guān)鍵詞之間的語義相似性.文獻[8]將標題信息用于指導編碼,顯著提升了生成關(guān)鍵詞的質(zhì)量.文獻[9]通過引入主題模型使關(guān)鍵詞生成模型能夠挖掘文檔中的潛在主題,提高了關(guān)鍵詞與源文本的主題契合度.文獻[10]通過強化學習方法,增加了生成關(guān)鍵詞的多樣性.文獻[11]選擇transformer作為編碼器和解碼器,利用跨文檔注意力機制獲得相關(guān)文檔的潛在主題,以幫助在解碼器生成更好的關(guān)鍵詞.實驗證明,與基于CNN、RNN 的生成模型相比,基于transformer 的關(guān)鍵詞生成模型能夠產(chǎn)生高度準確和多樣的關(guān)鍵詞,說明了transfomer 在關(guān)鍵詞生成方面的強大能力.現(xiàn)有研究通常依賴大規(guī)模關(guān)鍵詞訓練數(shù)據(jù),在英文關(guān)鍵詞生成任務(wù)中取得的良好結(jié)果[8].
雖然英語關(guān)鍵詞生成已經(jīng)取得了很好的進展,但由于越南語高質(zhì)量關(guān)鍵詞新聞數(shù)據(jù)集稀少,遠低于英文訓練樣本規(guī)模,生成過程中考慮的特征信息不足,同樣的生成方法在越南語上效果卻不理想.在表1 利用CopyRNN 方法生成的present keyphrases中,信息)”在此篇新聞中并不屬于重要信息,不能作為關(guān)鍵詞.飛機)”與真實關(guān)鍵詞飛機制造商)”屬于不同實體,也不能作為準確的關(guān)鍵詞使用.此外,手機)”、“美國人)”等關(guān)鍵詞均與參考標準關(guān)鍵詞(ground truth)無關(guān),無關(guān)的關(guān)鍵詞占比53%.
表1 越南語關(guān)鍵詞生成舉例Tab.1 Example of Vietnamese keyphrase generation
越南語構(gòu)詞的主要特點是每一個音節(jié)作為獨立的單位,具有實際語義,又可作為構(gòu)成多音節(jié)詞的基礎(chǔ).越南語兼類詞具有多個詞性,主要集中在名詞、動詞、形容詞和量詞等詞性之間的轉(zhuǎn)化上[12],例如困難、困難的,名詞兼形容詞),鹽,名詞兼動詞),一斤鹽),腌菜);在某些詞前出現(xiàn)其他詞時,這些詞的詞性會發(fā)生轉(zhuǎn)變,例如動詞前有事)事情)”時,該動詞會變成名詞使用.兼類詞在不同語境下顯示的詞性不同,所表達的含義也不一樣,對越南語關(guān)鍵詞生成效果有重要影響.
越南語新聞與中文新聞結(jié)構(gòu)相似,由標題、新聞內(nèi)容等信息組成.越南語新聞標題表述完整,具有實際的語義,通常是主謂結(jié)構(gòu)或動賓結(jié)構(gòu)并且包含了能夠凸顯新聞核心內(nèi)容的關(guān)鍵詞語.新聞的正文通常在第一段交代新聞事件的時間、地點、人物、動作和對象等關(guān)鍵信息,后續(xù)段落則圍繞這些關(guān)鍵信息進行展開.
為了提升生成的越南語新聞關(guān)鍵詞與新聞文檔的相關(guān)性,本文提出了一種多特征融合的越南語生成模型.通過融入越南語詞性、新聞實體、詞匯位置、新聞標題等特征,模型能夠在生成關(guān)鍵詞的過程中考慮更多的特征信息,以提高生成越南語新聞關(guān)鍵詞的準確率.本文的主要貢獻有:
(1)利用越南語詞性、新聞實體、詞匯位置、新聞標題等特征進行越南語關(guān)鍵詞生成,有效緩解了越南語關(guān)鍵詞數(shù)據(jù)集稀缺,訓練樣本不足導致生成關(guān)鍵詞不準確的問題;
(2)通過雙向注意力機制對上下文和新聞標題的語義向量進行融合,有效增強了新聞標題在生成過程中的指導作用,保持新聞標題與生成關(guān)鍵詞語義上的一致性.
關(guān)鍵詞生成任務(wù)中的主要挑戰(zhàn)就是要確定文檔所圍繞的關(guān)鍵概念和關(guān)鍵實體.為了實現(xiàn)此目標,我們使用了基于詞嵌入的表示形式并融入了其他特征比如越南語詞性特征、新聞實體特征、詞匯位置特征[13]等.
1.1 越南語詞性特征詞性是詞匯基本的語法屬性,決定了詞匯的語義傾向性[14].詞性能夠提供詞語的抽象表示,對解決詞語歧義問題具有重要的作用.兼類詞的詞性會受到前后兩個詞的詞性影響,如果子)”有量(單位)詞和名詞兩種詞性,在一個球)”中,由于一)”是數(shù)詞,“bong”是名詞,從而可以判斷是量詞.與其他詞性的詞匯相比,在關(guān)鍵詞生成任務(wù)中名詞和動詞通常包含了文檔關(guān)鍵信息,對越南語新聞關(guān)鍵詞數(shù)據(jù)集詞性分布統(tǒng)計如圖1 所示.可以看出,越南語新聞關(guān)鍵詞數(shù)據(jù)集中的詞性組成不是均勻分布,而是主要集中在幾類詞性上,這說明詞性對關(guān)鍵詞生成具有較強的指示作用.本文采用VnCoreNLP 越南語自然語言處理工具包[15]對越南語新聞關(guān)鍵詞數(shù)據(jù)集進行詞性標注,共26 種詞性.以句子為例,詞性標注結(jié)果如圖2 所示.將詞性向量化表示后與詞向量拼接,使詞向量包含詞性特征.
圖1 越南語新聞關(guān)鍵詞數(shù)據(jù)集詞性分布Fig.1 Part-of-speech distribution of Vietnamese news keyphrases dataset
圖2 VnCoreNLP 解析結(jié)果Fig.2 The analysis results of VnCoreNLP
1.2 新聞實體特征實體是人們最關(guān)注的詞匯,往往是信息抽取的焦點,通常包括人名、地名、機構(gòu)名、時間、專有名詞等具有特定意義的實體[14].在關(guān)鍵詞生成任務(wù)中,新聞實體包含了代表新聞文檔主題的關(guān)鍵信息.本文用VnCoreNLP 越南語自然語言處理工具包對越南語新聞關(guān)鍵詞數(shù)據(jù)集進行新聞實體識別,標注的實體共計9 類:“B-LOC”,“I-LOC”,“B-MISC”,“I-MISC”,“B-ORG”,“IORG”,“B-PER”,“I-PER”,“O”,B 表示開始,I 表示內(nèi)部,O 表示非實體,如B/I-XXX,其中B/I 表示這個詞屬于實體的開始或內(nèi)部,XXX 表示實體的類型,分為人名PER、地名LOC、組織機構(gòu)名ORG、其他MISC 4 類.以句子為例,實體識別結(jié)果如圖2 所示.將實體向量化表示后與詞向量拼接,使詞向量包含新聞實體特征.
1.3 詞匯位置特征新聞文檔的第一句或第一段通常涵蓋整篇文章的主旨信息,文檔的前半部分內(nèi)容比后半部分內(nèi)容更重要[13].越南語新聞文檔采用倒金字塔寫作方式,最重要的信息在標題中就會體現(xiàn)出來,新聞主題在第一段出現(xiàn)的可能性最大,最后一段往往屬于對前面幾段內(nèi)容的總結(jié).因此計算詞匯的位置特征來表示不同位置詞匯的重要性,計算公式如下:
其中,l代表詞匯的位置特征,i代表新聞文本中第i個詞匯的位置,n代表該新聞文本中總的詞匯數(shù)目.l的值越大,說明該位置的詞匯越重要.
本文將詞轉(zhuǎn)化為原始詞向量,通過詞向量拼接的方式在原始詞向量后面添加向量化后的詞性、新聞實體、位置等特征,最終輸入編碼器的詞向量表示為:
其中,w、p、n、l 分別代表詞、詞性、命名實體、詞位置,rw代表原始詞向量,rp代表詞性標注后的詞向量,rn代表新聞實體識別后的詞向量,rl代表詞的 位置特征.
2.1 模型總體架構(gòu)關(guān)鍵詞生成模型將給定的上下文x=(x1,···,xn)作為輸入,得到一組關(guān)鍵詞序列y=(y1,···,yn)作為輸出.模型如圖3 所示,分為拼接層、編碼層、雙向注意力層、合并層和解碼層.首先將通過越南語詞性標注工具和命名實體工具得到對應(yīng)詞性標簽和新聞實體,并將詞性,新聞實體以及位置特征向量化表示后與詞向量拼接;然后雙向注意力層為每個上下文中的單詞收集相關(guān)的標題信息,以反映上下文的重要部分.該層的輸入是上下文X=(x1,x2,···,xi)和標題T=(t1,t2,···,tj)的上下文向量表示,輸出是上下文的標題感知向量表征G=(g1,g2,···,gi);最后,合并層將匯總的標題信息合并到每個上下文單詞中,從而產(chǎn)生最終的融合標題信息的上下文表征.在得到標題感知的上下文表征之后,我們使用基于注意力的解碼器[16]并結(jié)合了復制機制[17]來生成關(guān)鍵詞.
圖3 越南語關(guān)鍵詞生成框架Fig.3 The framework of Vietnamese keyphrase generation
2.2 融合越南語新聞特征的關(guān)鍵詞生成本模型在輸入層添加了一個拼接層,用于將原始詞向量與詞性、新聞實體、詞匯位置等語言特征拼接后生成最終輸入模型的詞向量.原始向量進入特征拼接層,拼接層根據(jù)式(1)計算該文章中詞匯的位置信息,將每個詞匯的詞性標記和新聞實體標記映射為詞性嵌入和新聞實體嵌入.將每個詞匯的詞性嵌入、新聞實體嵌入、詞匯位置l與原始詞向量拼接在一起,最終構(gòu)成一個512 維的向量
門控循環(huán)單元網(wǎng)絡(luò)(Gated Recurrent Unit networks,GRU)單元結(jié)構(gòu)[18]具有更新門和重置門,更新門決定是否使用候選隱藏狀態(tài)來更新隱藏狀態(tài),重置門決定前一層的隱藏狀態(tài)信息有多少被遺忘.計算公式如下:
其中,*表示元素乘積,Wz和Wr分別更新門zt和重置門rt的權(quán)重矩陣,Ws為輸出時的權(quán)重矩陣,xt為t時刻的輸入向量,s?t和st表示t時刻的候選狀態(tài)和輸出狀態(tài)bs、br、bz為常數(shù),δ 為sigmoid 激活函數(shù).
其中,G 表示GRU 網(wǎng)絡(luò),xi和tj是第i個上下文詞和第j個標題詞的詞向量,雙向GRU 對應(yīng)的最終隱狀態(tài)由兩個方向的隱狀態(tài)拼接表示為hi=
標題對于生成能夠準確描述文檔的關(guān)鍵詞提供了很好的參考信息.為了有效利用標題中的相關(guān)信息,我們采用了類似BIDAF[19]的雙向注意力機制來建模標題與上下文的交互.對于每一個上下文詞,標題可看作類似查詢的輸入.
雙向注意力層的輸入分別是上下文和標題的向量表征hi和qj.在這一層中,通過從上下文到標題以及從標題到上下文兩個方向計算注意力.首先計算相似度矩陣S,計算公式如下:
其中,Sij表示第i個上下文詞和第j個標題詞的相似度,α 是一個可訓練的標量函數(shù),對其兩個輸入向量相似性進行編碼,hi是H的第i個列向量,qj是Q的 第j個列向量.我們選擇 α(H,Q)=其中“;”表示向量拼接,“ ?”表示矩陣乘法,W(s)是可訓練參數(shù),T 表示轉(zhuǎn)置.
(1)從上下文到標題的注意力:上下文到標題的注意力表示哪一個標題詞與上下文詞最相關(guān).ai代表標題詞與第i個上下文詞的注意力權(quán)重,其中注意力的計算公式如下:
其中,softmax 為歸一化指數(shù)函數(shù),μi為歸一化后上下文文本第i個詞與標題文本中每一個詞的相似度,ai為標題相對于上下文最重要的詞加權(quán)求和后的注意力.
(2)從標題到上下文的注意力:標題到上下文的注意力表示哪一個上下文詞與標題詞最相關(guān).注意力權(quán)重的計算公式如下:
補機(重聯(lián)機車)自動制動手柄應(yīng)用銷子固定在重聯(lián)位,單獨制動手柄應(yīng)放置在運轉(zhuǎn)位。此位置為本機機車在運轉(zhuǎn)位時,補機(重聯(lián)機車)受機車間制動管軟管、總風軟管、平均軟管壓力控制,而發(fā)生作用的位置,其緩解應(yīng)和本機同步。
其中,col(S)為相似度矩陣中相似度最大的列,v為歸一化后標題詞與最相關(guān)上下文詞的相似度,hi為上下文向量,bi為上下文相對于標題最重要的詞加權(quán)求和后的注意力.
最后,將上下文詞向量和注意力向量組合在一起產(chǎn)生G=[g1,g2,···,gi],G的定義如下:
合并層對上下文向量hi和聚合相關(guān)標題信息的向量gi進行編碼,最后得到融合標題信息的上下文表示,計算公式如下:
解碼層使用了一個基于注意力的單向GRU[16]進行解碼,計算公式如下:
其中,t=1,2,···,Ly,Ly是生成的關(guān)鍵詞長度,et-1是第t-1 個預測關(guān)鍵詞的詞嵌入,e0是起始符的詞嵌入,attn 代表注意力權(quán)重計算,tanh 是雙曲正切激活函數(shù),為融合標題信息和上下文信息的向量,ht為時間步長t的隱狀態(tài)向量,為注意力向量,w為參數(shù)矩陣.
計算當前步驟在預定義詞匯表v上的預測概率分布的公式如下:
其中,Pv為關(guān)鍵詞生成的概率,x為上下文序列,t為標題序列,yt?1=[y1,···,yt?1] 是先前的預測單詞序列,bv∈R|v|是可訓練的參數(shù)向量.
其中,sigmoid 為激活函數(shù),wg和bg是可訓練的參數(shù).
接下來,gt用于確定是否將源文檔中的單詞復制為第t個目標關(guān)鍵詞.gt對詞匯分布和注意力分布進行加權(quán)平均,得到了擴展詞匯表上的以下概率分布,使用Pv(yt)和P(yt)來分別表示Pv(yt|yt?1,x,t)和P(yt|yt?1,x,t),計算公式如下:
2.3 訓練本模型選擇負對數(shù)似然損失作為損失函數(shù),計算公式如下:
其中,Ly是目標關(guān)鍵詞y的長度,yt是y中的第t個 詞語,θ 代表所有可訓練的參數(shù).
2.4 關(guān)鍵詞生成流程關(guān)鍵詞生成流程如圖4 所示,具體步驟如下:
圖4 越南語關(guān)鍵詞生成流程Fig.4 The process of Vietnamese keyphrase generation
步驟 1讀取越南語新聞文檔,分為上下文(標題+正文)和標題信息.
步驟 2預處理.對越南語新聞文檔進行分詞,得到分詞后的詞匯表vocab,并為詞匯表中的詞生成詞性標志和新聞實體標志.
步驟3 將詞匯表中的詞匯、詞性標志和新聞實體標志向量化,獲得原始詞向量rw、詞性標志向量rp和新聞實體向量rn,并根據(jù)式(1)計算詞的位置特征值rl并拼接語言特征向量
步驟 4計算編碼層、雙向注意力層、合并層的隱藏狀態(tài),根據(jù)式(18)計算輸出yt的概率,利用波束搜索算法選擇top10 分數(shù)迭代預測關(guān)鍵詞.
步驟 5輸出最終關(guān)鍵詞.
3.1 數(shù)據(jù)準備我們從3 個具有高質(zhì)量關(guān)鍵詞的越南語新聞網(wǎng)站爬取了20 000 篇越南語新聞文檔,新聞文檔中的關(guān)鍵詞由作者分配,但這樣的新聞文檔數(shù)量有限.經(jīng)過數(shù)據(jù)清洗后,選擇篇幅字數(shù)在200~450,關(guān)鍵詞數(shù)量大于4 個的新聞文檔,最終留下13 000 篇新聞.其中9 000 篇用作訓練集,2 000篇用作驗證集,2 000 篇用作測試集.驗證集和測試集是隨機選擇的.具體數(shù)據(jù)如表2 所示.數(shù)據(jù)以json 的格式儲存,每篇新聞包含3 個字段:{title,content,keyphrases}
表2 越南語新聞關(guān)鍵詞數(shù)據(jù)統(tǒng)計Tab.2 The statistics of Vietnamese news keyphrase dataset
參照文獻[1]的方法對數(shù)據(jù)進行相同的預處理,并將所有數(shù)字替換為
3.2 實驗設(shè)置在訓練階段,根據(jù)詞頻排序選擇前50 000 個單詞構(gòu)成詞表,詞嵌入維度設(shè)置為100,隱藏層維度設(shè)置為256,λ 設(shè)置為0.5.除了h0初始化為GRU 單元的初始狀態(tài)均為全零向量.標題、上下文和關(guān)鍵詞共享嵌入矩陣,包括嵌入矩陣在內(nèi)的所有可訓練變量均以[?0.1,0.1]的均勻分布隨機初始化.采用Adam 優(yōu)化器[20],設(shè)置訓練批次大小為64,初始學習率為0.001,dropout 率為0.1.最后使用波束搜索生成多個關(guān)鍵詞,波束大小設(shè) 置為50,最大序列長度設(shè)置為40.
3.3 評價指標給定一篇越南語新聞文檔,模型預測出n個關(guān)鍵詞,最重要的詞在第一位,按照重要性依次排列.本文采用準確率,召回率,F(xiàn)1 值作為評價指標.參與評估的關(guān)鍵詞數(shù)量對評估的質(zhì)量有著重要影響,通常選擇前k個預測的關(guān)鍵詞用于評估[21].F1 值是基于召回率和準確率來計算的,其中準確率定義為前k個預測正確的關(guān)鍵詞的數(shù)量(M)與前k個預測關(guān)鍵詞總數(shù)(K)的比值.召回率定義為前k個預測正確的關(guān)鍵詞的數(shù)量(M)與參考標準關(guān)鍵詞(ground truth)總數(shù)(N)的比值.預測得到的關(guān)鍵詞準確度與F1 值呈正相關(guān),如果模型預測出的關(guān)鍵詞與參考標準關(guān)鍵詞完全相同,F(xiàn)1值將接近1.
準確率P,召回率R和F1 值的計算公式如下:
3.4 實驗設(shè)計與結(jié)果分析我們選擇了具有復制機制的兩個編碼器?解碼器模型作為CopyRNN 和CopyCNN 以及TG-Net 作為關(guān)鍵詞生成任務(wù)的基準模型.
3.4.1 已出現(xiàn)的關(guān)鍵詞預測 在越南語新聞關(guān)鍵詞數(shù)據(jù)集上我們比較了不同基準模型在現(xiàn)有關(guān)鍵詞預測的能力.表3 列出了每個模型的前5 個和前10 個預測的F1 值.
表3 在測試數(shù)據(jù)集上已出現(xiàn)的關(guān)鍵詞預測結(jié)果Tab.3 Keyphrase prediction results that have appeared on the test dataset
本文提出的融合語言特征的模型與其他3 種模型相比,取得最佳性能.可以看出,融合詞匯特征的模型在基于Seq2Seq 框架的基礎(chǔ)上,增加詞匯特征融合要比不融合詞匯特征的模型在F1 值上的指標均有所提升.在越南語訓練數(shù)據(jù)規(guī)模遠小于原始實驗中英語數(shù)據(jù)規(guī)模的條件下,CopyRNN、Copy-CNN 和TG-Net 性能直線下降,性能遠低于在大規(guī)模英語數(shù)據(jù)集上訓練的模型.說明在訓練數(shù)據(jù)不足的情況下,普通RNN、CNN 網(wǎng)絡(luò)已不再適用于關(guān)鍵詞生成,由于TG-Net 利用標題等外部信息指導生成,一定程度上緩解了訓練數(shù)據(jù)不足造成的影響.我們的模型比TG-Net 模型提高了13.2%(F1@10分數(shù)).與CopyRNN 和CopyCNN 相比,我們的模型分別提高了22.1%和20.7%(F1@10 分數(shù)).實驗表明在標記數(shù)據(jù)不足的情況下,與不融合語言特征的模型相比,融合語言特征的模型能夠有效利用文檔中的特征信息,具有更好的關(guān)鍵詞提取能力.
3.4.2 未出現(xiàn)的關(guān)鍵詞預測 生成未出現(xiàn)的關(guān)鍵詞是生成模型的基本特征,預測未出現(xiàn)的關(guān)鍵詞需要理解上下文語義的能力.在這部分只考慮參考標準關(guān)鍵詞(ground truth)中未出現(xiàn)的關(guān)鍵詞和預測出的未出現(xiàn)的關(guān)鍵詞用作評估.一般將前20 和前50 個預測關(guān)鍵詞的召回率用于度量預測未出現(xiàn)的關(guān)鍵詞準確度.表4 列出了每個模型的前20 個和前50 個預測的召回率.
表4 在測試數(shù)據(jù)集上未出現(xiàn)的關(guān)鍵詞預測結(jié)果Tab.4 Keyphrase prediction results that did not appear on the test dataset
可以看出,我們的模型在越南語新聞關(guān)鍵詞數(shù)據(jù)集上始終優(yōu)于先前的序列到序列模型.與最佳模型TG-Net 相比,我們的模型性能提高了17.1%(R@50 分數(shù)).總體而言,結(jié)果表明我們的模型能夠捕獲上下文內(nèi)容的底層語義.類似于已出現(xiàn)的關(guān)鍵詞預測,融入詞性、新聞實體、位置、標題等特征為未出現(xiàn)的關(guān)鍵詞預測提供了顯著的提升,這些特征有助于在解碼過程選擇合適的單詞.刪除復制機制不會影響預測未出現(xiàn)關(guān)鍵詞的性能,這是因為復制機制只能選擇輸入文檔中的單詞,而這些單詞不可能包含在未出現(xiàn)的關(guān)鍵詞中.
3.4.3 消融實驗 為了驗證詞性特征、新聞實體特征、位置特征融入詞向量和利用雙向注意力機制融入標題的效果,設(shè)置了消融實驗.
從表5 中可以看出,與位置特征和新聞實體特征相比,融入詞性特征更能提升生成關(guān)鍵詞的準確率.相比較在詞向量中融入新聞實體、位置和詞性特征,利用雙向注意力機制引入標題信息,能夠使準確率更高.同時在詞向量中融入新聞實體特征、位置特征、詞性特征和通過雙向注意力機制利用標題特征的方法取得了最好的效果.實驗結(jié)果表明,對于像越南語等低資源語言訓練樣本不足的情況下,融入詞特征可以提高關(guān)鍵詞生成模型性能,而提出的融入多特征的越南語關(guān)鍵詞生成模型達到了最好的效果.
表5 融入不同特征生成關(guān)鍵詞效果對比Tab.5 The comparison of the effect of integrating different features for keyphrase generation
3.4.4 實例分析 為了說明我們所提出的模型與TG-Net 模型之間的生成關(guān)鍵詞差異,表6 展示了從越南語新聞文檔測試集中選擇的一個例子.在這個例子中,一共有12 個參考標準關(guān)鍵詞(ground truth).對于已出現(xiàn)的關(guān)鍵詞(present keyphrases)預測,可以發(fā)現(xiàn)兩個模型都能從標題中預測關(guān)鍵詞奧地利企業(yè))”,但是對于另外一個標題中的關(guān)鍵詞越南投資機會)”,我們的模型能夠成功預測,而TG-Net 只預測到該關(guān)鍵詞的一部分越南)”.阮春??偫?”作為人名實體,TG-Net 無法預測該關(guān)鍵詞.對于未出現(xiàn)的關(guān)鍵詞(absent keyphrases)預測,注意到TG-Net不能預 測未出 現(xiàn)的關(guān)鍵詞經(jīng)貿(mào)關(guān)系)”,但我們的模型可以利用經(jīng)濟商業(yè))”等名詞成功生成未出現(xiàn)的關(guān)鍵詞.總體來看,位于文章開始和結(jié)尾的關(guān)鍵詞,我們的模型都能夠成功預測,而TGNet 沒有預測到位于文章結(jié)尾的關(guān)鍵詞投資活動)”.這些結(jié)果表明了我們的模型能夠有效利用越南語新聞標題、越南語詞性、新聞實體、詞匯位置等相關(guān)信息生成關(guān)鍵詞,在已出現(xiàn)的關(guān)鍵詞預測和未出現(xiàn)的關(guān)鍵詞預測方面取得了更好的結(jié)果.但是由于本方法比較依賴詞性標注和命名實體識別準確率,對于詞性標注和命名實體識別方法準確度不高的其他小語種,例如泰語、老撾語、緬甸語,可能無法達到良好效果.
表6 越南語新聞關(guān)鍵詞數(shù)據(jù)集下模型預測關(guān)鍵詞結(jié)果對比Tab.6 The comparison of keyphrase prediction results of models under the Vietnamese news keyphrase dataset
為了解決樣本不足條件下生成越南語新聞關(guān)鍵詞的準確性不高的問題,提出一種多特征融合的越南語關(guān)鍵詞生成方法,提高了生成越南語關(guān)鍵詞的準確率以及與越南語新聞文檔的相關(guān)性.該方法在現(xiàn)有的標題指導的關(guān)鍵詞生成網(wǎng)絡(luò)中,利用雙向注意力機制融入越南語新聞標題,有效挖掘出越南語新聞標題中的關(guān)鍵信息.所提出的方法能夠結(jié)合越南語中越南語詞性、新聞實體、詞匯位置等特征以及越南語新聞標題中高度匯總的信息來指導關(guān)鍵詞的生成,在越南語新聞關(guān)鍵詞數(shù)據(jù)集上進行了實驗和驗證工作,結(jié)果表明,該方法對于生成已出現(xiàn)的關(guān)鍵詞和未出現(xiàn)的關(guān)鍵詞均具有顯著優(yōu)勢,所提模型在F1@10 和R@50 分數(shù)的預測上,最多比TG-Net 提高了13.2%和17.1%.未來的主要工作如下:①探索利用越南語句法結(jié)構(gòu)對關(guān)鍵詞生成的影響;②將本模型擴展到越南語其他領(lǐng)域,例如越南語學術(shù)文檔領(lǐng)域等;③考慮將該方法應(yīng)用在更多的低資源語言上.