柴 悅,趙彤洲,江逸琪,高佩東
武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205
新聞主題詞提取是將核心詞和短語(yǔ)從新聞文本中挖掘出來(lái)的過(guò)程。主題詞包含有助于人們理解文本內(nèi)容的主要信息,通過(guò)查看主題詞,用戶(hù)可以更輕松地找到他們需要的新聞。由于主題詞是對(duì)文本主題信息的高度凝練,人們還可以使用它們以較低的復(fù)雜度來(lái)計(jì)算文本相關(guān)性,因此為許多自然語(yǔ)言處理應(yīng)用帶來(lái)了便利[1-3]。
傳統(tǒng)的主題詞提取方法主要有兩種:一種是根據(jù)詞的統(tǒng)計(jì)信息對(duì)關(guān)鍵詞進(jìn)行排序,如詞頻-逆文檔頻率方法[4]和TextRank[5]等;另一種是應(yīng)用機(jī)器學(xué)習(xí)算法,提取各種特征來(lái)訓(xùn)練模型,如隱馬爾可夫模型[6]、支持向量機(jī)(support vector machine,SVM)[7]、樸素貝葉斯模型[8]等。詞頻-逆文檔頻率方法在進(jìn)行文檔主題詞提取時(shí),由于文檔主題結(jié)構(gòu)特征缺少的原因,導(dǎo)致該方法主題詞提取效果差。TextRank 考慮了部分文檔主題結(jié)構(gòu)特征,如文檔中詞與詞之間的關(guān)系,但仍然傾向于選取文檔中的高頻詞作為主題詞。應(yīng)用機(jī)器學(xué)習(xí)算法進(jìn)行主題詞提取,通過(guò)提取各種特征來(lái)訓(xùn)練其模型已被證明可以獲得出色的性能,但這種方法依賴(lài)人工定義的規(guī)則,沒(méi)有充分考慮詞的上下文信息且對(duì)特定的數(shù)據(jù)集敏感[9]。
近年來(lái),長(zhǎng)短期記憶(long short-term memory,LSTM)模型在多種NLP 問(wèn)題中被廣泛使用,如情感分析[10]、詞性標(biāo)注[11]、命名實(shí)體識(shí)別[12]、關(guān)鍵詞抽取[13]等問(wèn)題。但是LSTM 模型在進(jìn)行主題提取時(shí)從句子開(kāi)頭到中心詞建模,沒(méi)有考慮句子下文對(duì)該詞的影響。
為了更好地解決這些問(wèn)題,文中提出了一種雙向的LSTM 網(wǎng)絡(luò)模型,用于主題詞提取任務(wù)。文中將主題詞提取任務(wù)視為一個(gè)二分類(lèi)問(wèn)題,對(duì)于句子中給定的詞,訓(xùn)練一個(gè)分類(lèi)器來(lái)確定它是否為主題詞。具體而言,需要從兩個(gè)方面考慮信息,即中心詞的內(nèi)容及其上下文信息。通過(guò)雙向的LSTM 以從句子開(kāi)頭到中心詞和從結(jié)尾到中心詞兩個(gè)方向?qū)o定單詞及其上下文建模。通過(guò)這種方式,模型可以捕獲中心詞的句子級(jí)信息。通過(guò)利用中心詞的上下文的文本信息,模型則可以判斷其是否為主題詞。
此外,當(dāng)給定一句話(huà)時(shí),某些詞在主題中比其他詞更具有代表性。例如,在“目前,跳傘比賽一切正?!币痪渲?,如果想確定“跳傘”一詞是否為主題詞,“比賽”一詞的信息比其他詞對(duì)“跳傘”的判決有更大的影響。即,應(yīng)該明確每個(gè)單詞的重要性,然后生成給定詞的向量表示。因此,在雙向的LSTM 的基礎(chǔ)上引入了一種自注意力機(jī)制[14-15],通過(guò)自注意力機(jī)制考慮不同單詞的重要性來(lái)生成給定單詞的表示向量,從而更好地從文本中提取主題詞。
由于深度學(xué)習(xí)網(wǎng)絡(luò)模型需要大規(guī)模的訓(xùn)練數(shù)據(jù),并且人工標(biāo)注的訓(xùn)練數(shù)據(jù)的大小非常有限,無(wú)法滿(mǎn)足模型的訓(xùn)練要求。文中提出一種生成此任務(wù)的訓(xùn)練語(yǔ)料庫(kù)的方法,通過(guò)該方法獲得了大量粗?jǐn)?shù)據(jù)集。為了充分利用這些訓(xùn)練數(shù)據(jù),文中提出了一種兩階段訓(xùn)練方法來(lái)訓(xùn)練模型。首先,使用粗?jǐn)?shù)據(jù)集對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后使用人工標(biāo)注的數(shù)據(jù)重新訓(xùn)練模型。這樣,與僅使用人工標(biāo)注的數(shù)據(jù)相比,模型獲得了更好的性能。
LSTM 網(wǎng)絡(luò)模型屬于一種循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),通過(guò)在模型中引入控制門(mén)解決了一般的RNN 存在的長(zhǎng)期依賴(lài)問(wèn)題[16]。所有循環(huán)神經(jīng)網(wǎng)絡(luò)都具有神經(jīng)網(wǎng)絡(luò)的重復(fù)模塊鏈的形式,LSTM 也具有這種鏈?zhǔn)浇Y(jié)構(gòu),LSTM模型如圖1 所示。
圖1 LSTM 模型Fig.1 LSTM model
LSTM 模型的單個(gè)重復(fù)模塊是由t 時(shí)刻的輸入詞向量wt,細(xì)胞狀態(tài)Ct,臨時(shí)細(xì)胞狀態(tài),隱層狀態(tài)ht,遺忘門(mén)ft,記憶門(mén)it,輸出門(mén)ot組成。LSTM 的信息更新過(guò)程是一個(gè)遺忘無(wú)用信息并記憶新信息的過(guò)程,并在這個(gè)過(guò)程中的任意時(shí)刻t 均會(huì)輸出一個(gè)隱層狀態(tài)ht,其中遺忘ft,記憶it和輸出ot均與上個(gè)時(shí)刻的隱層狀態(tài)ht-1和當(dāng)前輸入wt有關(guān)。于是t時(shí)刻的LSTM 的狀態(tài)更新為[16]:式(1)~(6)中,Wf、Wi、Wc和Wo分別表示其下標(biāo)所對(duì)應(yīng)單元的權(quán)重矩陣,bf、bi、bc和bo為偏移向量。σ和tanh 為兩種激活函數(shù),如式(7)、式(8)所示。
則,t時(shí)刻隱含層狀態(tài)可以表示為:
Attention 模型結(jié)構(gòu)如圖2(a)所示。
圖2 模型結(jié)構(gòu):(a)Attention 模型,(b)iBi-LSTM 模型,(c)Att-iBi-LSTM 模型Fig.2 Structures of models:(a)Attention model,(b)iBi-LSTM model,(c)Att-iBi-LSTM model
通過(guò)Attention 機(jī)制獲得注意力權(quán)重αij,αij表示i 時(shí)刻詞wi的上文或下文中第j 個(gè)詞wj對(duì)wi的影響。為了使獲得的注意力權(quán)重發(fā)揮作用,將隱含層狀態(tài)hi通過(guò)配置注意力權(quán)重得到qi,如式(10)所示:
其中,αij的計(jì)算過(guò)程如式(11)所示:
k 為wi上文或下文中詞的數(shù)量,pij為目標(biāo)注意力權(quán)重,pij=tanh(hi'hj),tanh 是一種注意力學(xué)習(xí)函數(shù),ht是LSTM 網(wǎng)絡(luò)輸出的特征向量。
文中將主題詞提取看作一個(gè)二分類(lèi)問(wèn)題,采用LSTM 構(gòu)建分類(lèi)器。設(shè)當(dāng)前詞為中心詞,本文視中心詞及其上文具有相同重要性。但是,在傳統(tǒng)的LSTM 模型中,只能使用從句子開(kāi)頭到中心詞,從而忽略了中心詞的后續(xù)文本信息的影響,這樣有可能丟失重要信息。因此,為了充分利用中心詞的上下文信息,提出改進(jìn)的雙向LSTM 模型(iBi-LSTM)進(jìn)行詞分類(lèi),將中心詞的上下文本信息都輸入到模型中,并在兩個(gè)方向上將中心詞與其上下文信息一起建模,以便計(jì)算中心詞的概率并判斷其是否為主題詞,如圖2(b)所示。
在圖2(b)中,采用了兩個(gè)LSTM 對(duì)中心詞及其上下文信息進(jìn)行建模,一個(gè)以從左到右的方式對(duì)從句子開(kāi)頭到中心詞的詞進(jìn)行建模(LSTMl),另一個(gè)從句子結(jié)尾到中心詞的信息進(jìn)行建模(LSTMr)。wt表示文檔中的第t 個(gè)詞的詞向量,hlt為t 時(shí)刻LSTMl的隱藏層的輸出,hrt表示t 時(shí)刻LSTMr的隱藏層的輸出,則:
Attention 機(jī)制可以通過(guò)獲取的注意力權(quán)重來(lái)區(qū)分詞向量中各語(yǔ)義編碼的重要性,增強(qiáng)模型提取特征的能力,因此該方法可以提高模型分類(lèi)的準(zhǔn)確率。本文通過(guò)引入Self-Attention 來(lái)獲取句子中詞之間的語(yǔ)義或句法特征,如圖2(c)所示。
其中,W1是一個(gè)維度為da×u的參數(shù)矩陣,W2是一個(gè)維度為r×da的參數(shù)矩陣,u 為隱藏狀態(tài)向量hi的維度,r 是所采用的multi-hop 注意力機(jī)制的hop 數(shù)量,da為設(shè)置的權(quán)重矩陣的維度。注意力權(quán)重矩陣A是multi-hop 注意力矩陣,它有助于在對(duì)當(dāng)前單詞進(jìn)行建模時(shí)顯式捕獲語(yǔ)義信息。與傳統(tǒng)的single-hop 注意力機(jī)制相比,multi-hop 注意力機(jī)制使模型能夠?qū)W⒂谏舷挛牡牟煌糠郑瑥亩蓮亩喾矫娌东@句子信息。
將注意力矩陣A和隱藏狀態(tài)向量H相乘,以生成中心詞wt的加權(quán)向量表示:
最后,通過(guò)對(duì)Cl和Cr中的行向量求平均,得到兩個(gè)方向上中心詞的向量表示,然后將這兩個(gè)向量連接起來(lái)以生成中心詞的最終向量表示Vt。然后將Vt輸入softmax 層以生成中心詞是否為主題詞的概率分布,如式(16)所示:
主題詞提取實(shí)質(zhì)是一個(gè)二分類(lèi)問(wèn)題,即是主題詞或者不是關(guān)鍵詞。采用Adam 作為模型的優(yōu)化器,該模型將AdaGrad 和RMSProp 算法融合,可基于訓(xùn)練數(shù)據(jù)迭代更新網(wǎng)絡(luò)權(quán)重實(shí)現(xiàn)自適應(yīng)學(xué)習(xí)[17]。
分類(lèi)函數(shù)為softmax 函數(shù)。模型訓(xùn)練目標(biāo)就是最小化損失函數(shù),本文使用式(17)的交叉熵作為損失函數(shù):
其中,yt表示樣本t 的標(biāo)簽,正類(lèi)為1,負(fù)類(lèi)為0,Pt表示樣本t預(yù)測(cè)為正的概率。
為了更好地訓(xùn)練模型,本文提出一種兩階段訓(xùn)練方法:首先,使用粗?jǐn)?shù)據(jù)集對(duì)模型進(jìn)行第一階段的訓(xùn)練,然后,使用人工標(biāo)注的數(shù)據(jù)進(jìn)行第二階段的模型訓(xùn)練。
訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型需要大規(guī)模的訓(xùn)練數(shù)據(jù)。然而,對(duì)于主題詞提取的任務(wù),需要人工來(lái)標(biāo)注訓(xùn)練所需的語(yǔ)料。由于人工標(biāo)注的數(shù)據(jù)集的數(shù)量有限,所以本文提出了一種自動(dòng)標(biāo)注新聞文本中的主題詞并可生成大規(guī)模帶標(biāo)簽的數(shù)據(jù)集,用加權(quán)詞頻-逆文檔頻度值[Tidf,如式(22)所示]作為數(shù)據(jù)集中主題詞的判斷依據(jù)。但是,這種自動(dòng)標(biāo)注的主題詞不一定準(zhǔn)確,因此將生成的數(shù)據(jù)集作為第一階段(預(yù)訓(xùn)練階段)訓(xùn)練的數(shù)據(jù)集,即粗?jǐn)?shù)據(jù)集。
式(20)中,Tf表示加權(quán)詞頻,Idf表示逆文檔頻度,是某個(gè)詞在標(biāo)題中出現(xiàn)的次數(shù),s2是這個(gè)詞在文章正文中出現(xiàn)的次數(shù),通常1 ≥s1≥0,因此在實(shí)驗(yàn)中詞wi在標(biāo)題中出現(xiàn)則swi=2(s2+1)。式(21)中,M 是語(yǔ)料庫(kù)的總文檔數(shù),Mwi是包含該詞的文檔數(shù)。
本實(shí)驗(yàn)自建了一個(gè)小規(guī)模數(shù)據(jù)集,數(shù)據(jù)來(lái)源于新浪新聞的體育、娛樂(lè)和科技新聞共12 000 篇文章,其中體育新聞、娛樂(lè)新聞和科技類(lèi)新聞各4 000 篇。分別從體育、娛樂(lè)和科技新聞中隨機(jī)抽取1 000 篇新聞文本進(jìn)行人工標(biāo)注,然后根據(jù)2.3節(jié)的方法自動(dòng)標(biāo)注剩余的9 000 篇新聞文本,數(shù)據(jù)集如表1 所示。
表1 數(shù)據(jù)集Tab.1 Data sets
在實(shí)驗(yàn)過(guò)程中,使用預(yù)訓(xùn)練的詞向量,并在訓(xùn)練過(guò)程中使其保持不變。這些詞向量是通過(guò)在搜狗新聞數(shù)據(jù)集上使用Word2Vec的Skip-gram模型[18]進(jìn)行訓(xùn)練得到的,每個(gè)詞向量的維度設(shè)置為100。每個(gè)隱藏狀態(tài)的維度也設(shè)置為100,用于計(jì)算自注意力的參數(shù)da設(shè)置為128,batch_size 設(shè)置為128,Adam 的學(xué)習(xí)率設(shè)置為0.001。
采用精確度(precision,P)、召回率(recall,R)和F1值作為模型性能的評(píng)價(jià)指標(biāo)。將主題詞提取看作是一個(gè)二分類(lèi)問(wèn)題,主題詞為一類(lèi)A,非主題詞為一類(lèi)B。對(duì)于類(lèi)別A,預(yù)測(cè)結(jié)果與真實(shí)結(jié)果相同的樣本數(shù)為Nptrue,預(yù)測(cè)結(jié)果為A 但實(shí)際結(jié)果不是A 的樣本數(shù)為Npfalse,實(shí)際結(jié)果為A 但預(yù)測(cè)結(jié)果不為A 的樣本數(shù)為Nfalse,則:
將本文的iBi-LSTM 和Att-iBi-LSTM 方法與現(xiàn)有的SVM、TextRank 和LSTM 模型方法對(duì)比,其中數(shù)據(jù)集相同。
實(shí)驗(yàn)1:僅使用人工標(biāo)注的數(shù)據(jù)集作為模型訓(xùn)練的語(yǔ)料,在體育、娛樂(lè)和科技新聞上分別驗(yàn)證各種主題詞提取方法,各新聞?wù)Z料的80%作為訓(xùn)練集,20%作為測(cè)試集,從訓(xùn)練語(yǔ)料中隨機(jī)抽取10%作為驗(yàn)證集。在測(cè)試集上計(jì)算出P、R 和F1值,實(shí)驗(yàn)結(jié)果如表2 所示。每個(gè)評(píng)價(jià)指標(biāo)中的最優(yōu)值用粗體標(biāo)出。
從表2 可以看出,在體育和科技新聞數(shù)據(jù)集上iBi-LSTM 的精確度明顯高于其他對(duì)比方法,Att-iBi-LSTM 的召回率和F1值在所有方法中獲得了最優(yōu)值,在科技新聞數(shù)據(jù)集上Att-iBi-LSTM 的精確度、召回率和F1值都是最高的。
表2 主題詞提取結(jié)果Tab.2 Results of topic words extraction %
各方法在3 個(gè)數(shù)據(jù)上的平均結(jié)果如表3 所示,每個(gè)評(píng)價(jià)指標(biāo)中的最優(yōu)值用粗體標(biāo)出。
表3 各數(shù)據(jù)集上的平均實(shí)驗(yàn)結(jié)果Tab.3 Mean experimental results on datasets %
從表3 可以看出綜合3 種新聞數(shù)據(jù)集的主題詞提取結(jié)果,iBi-LSTM 模型的精確度值最高,Att-iBi-LSTM 的召回率和F1值高于其他對(duì)比方法。iBi-LSTM 模型與SVM 模型相比P、R 和F1值分別提高了17.77%、5.12%和12.46%,與TextRank 相比P、R 和F1值 分 別 提 高 了19.32%、26.59%和22.99%,與LSTM 模型相比P、R 和F1值分別提高了3.28%、0.39%和1.91%。引入Attention 機(jī)制的雙向LSTM 模型與iBi-LSTM 模型相比主題詞提取的召回率和F1值分別提高了2.80%和1.32%,與SVM、TextRank 和LSTM 相比F1值分別提高了13.78%、24.31%和3.32%。雖然在主題詞提取任務(wù)中,Att-iBi-LSTM 模型比iBi-LSTM 模型相比P 值沒(méi)有提升,但是F1值作為P 和R 的調(diào)和平均數(shù)更能說(shuō)明分類(lèi)效果,因此Attention 機(jī)制的引入對(duì)模型進(jìn)行該任務(wù)是有效的。
實(shí)驗(yàn)2:先使用自動(dòng)標(biāo)注的數(shù)據(jù)進(jìn)行模型的預(yù)訓(xùn)練,然后使用人工標(biāo)注數(shù)據(jù)集作為模型第二階段訓(xùn)練的語(yǔ)料,訓(xùn)練集、測(cè)試集和驗(yàn)證集的比例與實(shí)驗(yàn)1 相同,在所有新聞數(shù)據(jù)集上的總體實(shí)驗(yàn)結(jié)果如表4 所示,iBi-LSTM(2)和Att-iBi-LSTM(2)中的(2)表示模型使用兩階段訓(xùn)練方法。
表4 兩階段訓(xùn)練方法對(duì)主題詞提取的影響Tab.4 Influence of two-stage training methods on topic words extraction %
從表4 中可以看出,使用兩階段訓(xùn)練方法的iBi-LSTM(2)與iBi-LSTM 相比主題詞提取的P、R和F1值分別提高了3.31%、0.86%和2.12%,使用兩階段訓(xùn)練方法的Att-iBi-LSTM(2)與Att-iBi-LSTM相比P、R 和F1值分別提高了2.48%、0.53%和1.56%。表4 中的實(shí)驗(yàn)結(jié)果證明了兩階段訓(xùn)練方法對(duì)模型進(jìn)行主題詞提取的有效性。
本文采用雙向LSTM 引入Attention 的方法實(shí)現(xiàn)了新聞主題詞的提取,并且在不同領(lǐng)域新聞主題詞提取任務(wù)中均得到了較好的提取效果,說(shuō)明了該方法的泛化性。本方法構(gòu)建了一個(gè)雙向的LSTM 深度神經(jīng)網(wǎng)絡(luò)模型,對(duì)中心詞所在的句子建模,從兩個(gè)方向提取這個(gè)詞的上文和下文的信息,并在該網(wǎng)絡(luò)模型中引入注意力機(jī)制,與單獨(dú)的LSTM 模型相比可以獲取更多的文本信息。因此,該方法有利于文本分類(lèi)、文本聚類(lèi)等其他自然語(yǔ)言處理工作的進(jìn)行。此外,文中還提出了一種利用自動(dòng)標(biāo)注的粗?jǐn)?shù)據(jù)集的兩階段模型訓(xùn)練方法,從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)這種模型訓(xùn)練方法對(duì)主題詞提取的任務(wù)有效,所以在其他類(lèi)似的工作中也可以利用這種方法。Att-iBi-LSTM 結(jié)合了LSTM 模型和Attention 機(jī)制的優(yōu)點(diǎn),從而獲得了更好的主題詞提取效果,但是這種混合模型的網(wǎng)絡(luò)結(jié)構(gòu)與單一模型相比更復(fù)雜、計(jì)算量更大,所以模型訓(xùn)練的時(shí)間更長(zhǎng)。因此,需要在以后的工作中對(duì)模型進(jìn)行優(yōu)化以縮短模型的訓(xùn)練時(shí)間。
武漢工程大學(xué)學(xué)報(bào)2020年5期