国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于跨語言神經(jīng)主題模型的漢越新聞話題發(fā)現(xiàn)方法

2021-11-05 01:29楊威亞余正濤高盛祥
計(jì)算機(jī)應(yīng)用 2021年10期
關(guān)鍵詞:雙語聚類語義

楊威亞,余正濤,高盛祥*,宋 燃

(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,昆明 650500;2.云南省人工智能重點(diǎn)實(shí)驗(yàn)室(昆明理工大學(xué)),昆明 650500)

0 引言

隨著互聯(lián)網(wǎng)的發(fā)展,不同國家之間的聯(lián)系日益緊密,共同關(guān)注的事件也越來越多。漢越新聞話題發(fā)現(xiàn)就是將漢越新聞報(bào)道進(jìn)行聚類再發(fā)現(xiàn)相關(guān)的話題[1-2]。這幫助人們更容易了解同一事件中越兩國不同的話題討論。

漢越新聞話題發(fā)現(xiàn)任務(wù)可以看作是對(duì)雙語新聞聚類的問題,其主要難點(diǎn)在于克服中文與越南文新聞報(bào)道之間的語言差異,將兩種語言表征到同一語義空間下進(jìn)行新聞事件聚類。以往跨語言話題發(fā)現(xiàn)方法主要分為基于翻譯的方法和利用雙語詞典或平行語料訓(xùn)練雙語詞嵌入的方法。Leek 等[3]采用機(jī)器翻譯的方法將不同語言的文本翻譯成同一種語言進(jìn)行計(jì)算;Yang等[4]則是利用概率主題模型抽取文本的主題詞,通過翻譯主題詞的方法計(jì)算不同語言文本下的主題分布的相似度進(jìn)行聚類。但由于機(jī)器翻譯效果受翻譯工具性能影響巨大,在低資源語言場(chǎng)景下,跨語言話題發(fā)現(xiàn)相關(guān)模型的性能下降十分明顯。后續(xù)的研究中大多學(xué)者通過借助一些雙語資源進(jìn)行語義分析的方式來完成跨語言特征空間的構(gòu)建?;陔p語詞典翻譯的跨語言話題發(fā)現(xiàn)策略主要方法是把文本中的詞對(duì)譯成另一種語言的詞以此代替機(jī)器翻譯系統(tǒng),Mathieu 等[5]和Pouliquen 等[6]提出使用雙語詞典翻譯代替機(jī)器翻譯的方式,使用漢英詞典對(duì)譯的方式將新聞文本中的詞匯進(jìn)行翻譯,利用命名實(shí)體(人名、地名和組織機(jī)構(gòu)名)的對(duì)應(yīng)關(guān)系比較中英新聞文本的相似程度,系統(tǒng)檢測(cè)準(zhǔn)確率得到很大提升;Chang等[7]利用Wiki 百科構(gòu)建雙語詞典,挖掘中英新聞事件下的共現(xiàn)話題;Mimno 等[8]提出利用多語言可比語料庫主題分布近似的假設(shè),建立跨語言文本間的聯(lián)系,進(jìn)而實(shí)現(xiàn)跨語言話題任務(wù)的研究;Hao等[9]在傳統(tǒng)概率主題模型上引入硬鏈接與軟鏈接的思想,通過平行對(duì)齊文檔與雙語詞典建立雙語聯(lián)系實(shí)現(xiàn)話題聚類任務(wù);Hong 等[10]根據(jù)新聞特有的要素特征,通過雙語詞典建立新聞要素間的對(duì)齊關(guān)系,以圖聚類的方法對(duì)漢越新聞文本進(jìn)行聚類,得到了較好的聚類結(jié)果。

以上幾種方法都有效解決了雙語語言差異的問題,雙語詞典能很好地提高跨語言詞語語義的對(duì)齊效果,但由于雙語詞典受限于規(guī)模的大小,在低資源場(chǎng)景下,雙語詞典很難匹配新聞的所有特征詞,且無法解決一詞多義等問題。由此,Bianchi 等[11]使用多語言詞嵌入的方法,訓(xùn)練多語言BERT(Bidirectional Encoder Representations from Transformers),利用變分自編碼器融合多語言BERT,對(duì)多語言新聞篇章的話題進(jìn)行預(yù)測(cè),有效地解決了跨語言的語言差異問題。

上述方法在中英等資源豐富的語言場(chǎng)景下能夠取得良好的效果,但在漢越低資源場(chǎng)景中,由于平行語料的稀缺,構(gòu)建雙語詞典和訓(xùn)練高質(zhì)量的雙語詞嵌入變得十分困難,漢越新聞文本很難對(duì)齊到同一語義空間中。本文主要針對(duì)新聞長文本聚類,使用雙語詞嵌入對(duì)長文本進(jìn)行表示的方法不能很好地提取到長文本中重要的詞的信息,從而導(dǎo)致新聞長文本的聚類效果欠佳。針對(duì)新聞文本而言,通常類屬于同一事件的新聞報(bào)道大多都描述了相同或相近的主題,利用這種主題的關(guān)聯(lián)性能很好地發(fā)現(xiàn)文本間的關(guān)聯(lián)關(guān)系,這為漢越新聞的話題發(fā)現(xiàn)提供了新的途徑。使用新聞主題特征對(duì)新聞文本進(jìn)行表征后聚類,將漢越雙語的語義對(duì)齊任務(wù)轉(zhuǎn)化為新聞主題對(duì)齊,利用少量平行篇章主題在空間中的對(duì)齊構(gòu)建雙語語義空間,降低了對(duì)齊的難度,并對(duì)漢越新聞主題進(jìn)行聚類,抽取主題詞代表事件簇的話題,最終實(shí)現(xiàn)漢越新聞話題發(fā)現(xiàn)。

本文主要工作如下:

1)根據(jù)可比新聞具有近似主題分布的特性,提出通過訓(xùn)練主題分布的向量表示對(duì)齊的映射矩陣建立雙語聯(lián)系,降低了在低資源小語種場(chǎng)景下漢越雙語語義的對(duì)齊難度。

2)提出將神經(jīng)主題模型(Neural Topic Model,NTM)應(yīng)用于跨語言話題發(fā)現(xiàn)任務(wù)上,并取得了較好的效果。

3)提出了在神經(jīng)主題模型中融入主題語義信息的方法,增強(qiáng)了生成話題的語義一致性,該模型生成的話題詞有更好的可解釋性。

1 漢越跨語言話題發(fā)現(xiàn)流程

針對(duì)漢越跨語言話題發(fā)現(xiàn)存在的問題,本文提出了一種基于跨語言神經(jīng)主題模型(Cross-Language Neural Topic Model,CL-NTM)的漢越新聞話題發(fā)現(xiàn)方法,該方法主要流程如圖1 所示。首先,通過融入主題語義信息的變分自編碼器神經(jīng)主題模型分別得到漢越平行新聞篇章的主題向量,利用平行語料主題向量對(duì)齊的特性預(yù)訓(xùn)練出主題映射矩陣,將漢越新聞的主題向量表征到同一語義空間下;然后,對(duì)漢越可比新聞篇章處理得到各自的主題向量表示,通過映射將漢越新聞主題向量共同表征到漢越雙語語義空間中,進(jìn)行主題向量的聚類,提取每個(gè)簇的主題詞作為此類事件的相關(guān)話題。

圖1 CL-NTM流程Fig.1 Flowchart of CL-NTM

2 CL-NTM

本文針對(duì)漢越雙語詞嵌入訓(xùn)練困難的問題,提出使用NTM 抽取新聞的主題對(duì)文本進(jìn)行表征,建立漢越雙語聯(lián)系,其中NTM如圖2所示。

2.1 統(tǒng)計(jì)信息編碼層

本文爬取的國際新聞事件共包含D篇文檔,通過分詞工具對(duì)每篇新聞文本進(jìn)行了詞切分,將切分后的詞通過詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TFIDF)算法對(duì)統(tǒng)計(jì)信息特征進(jìn)行過濾,剔除影響較小的詞,共包含V個(gè)詞,wn∈(1,V)表示輸入文檔中的第n個(gè)詞。

本節(jié)主要描述圖2的NTM中統(tǒng)計(jì)信息編碼層對(duì)新聞文本統(tǒng)計(jì)信息進(jìn)行編碼的過程,首先輸入一篇新聞文檔X,將其進(jìn)行詞切分,對(duì)新聞文本編碼為詞袋表示Xs,由于詞袋表示存在向量稀疏問題,本文使用兩層多層感知機(jī)(Muti-Layer Perception,MLP)將文本輸入的詞袋表示Xs編碼為低維統(tǒng)計(jì)特征向量h:

圖2 NTMFig.2 NTM

其中:fbow(?)表示將新聞篇章表征為詞袋;X表示輸入的新聞文檔;Xs表示進(jìn)行詞切分后的新聞樣本。

為了能通過統(tǒng)計(jì)特征向量h得到新聞的主題向量,本文模型將傳統(tǒng)概率主題模型中的狄利克雷先驗(yàn)分布轉(zhuǎn)化為高斯先驗(yàn),假設(shè)每一篇新聞文本X的樣本分布δ都屬于正態(tài)分布,經(jīng)過線性變換后的h則同樣屬于正態(tài)分布:

然后通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到h的正態(tài)分布均值μ與方差σ參數(shù):

其中:w和b分別是權(quán)重矩陣和偏置矩陣。利用這種方式提取新聞文本X的統(tǒng)計(jì)特征并從中采樣出新聞的主題向量Z:

其中:ε通過采樣標(biāo)準(zhǔn)正態(tài)分布得到。本節(jié)主要目的為通過編碼器訓(xùn)練得到輸入新聞文本X的主題向量Z。

2.2 主題語義信息編碼層

本節(jié)主要介紹圖2的NTM中主題信息編碼層對(duì)新聞主題的語義信息特征進(jìn)行編碼的過程。當(dāng)模型對(duì)新聞?wù)Z料進(jìn)行詞切分后生成詞表ρ,使用文獻(xiàn)[12]中的Word2Vec 詞向量訓(xùn)練模型對(duì)詞表中的詞進(jìn)行預(yù)訓(xùn)練,得到詞向量矩陣ρ1:v=[w1,w2,…,wv]∈Rv×m,v表示詞表的長度,m表示詞向量的維度。模型對(duì)詞表中的詞進(jìn)行向量化后,將2.1 節(jié)中得到的主題向量Z作為錨點(diǎn),與詞向量矩陣ρ進(jìn)行點(diǎn)乘計(jì)算,通過計(jì)算每個(gè)詞與主題的相關(guān)性生成主題-詞的相關(guān)性矩陣α,在向量空間中與主題向量Z更相關(guān)的詞通常會(huì)在空間距離上接近它,計(jì)算式如下:

其中ρ代表詞表的嵌入矩陣。在這一步中,本文引用了連續(xù)詞袋(Continuous Bag-Of-Words,CBOW)[12]學(xué)習(xí)的思想,CBOW每個(gè)詞的計(jì)算過程如下:

其中:wdn是第d篇文檔中第n個(gè)目標(biāo)詞;αdn表示目標(biāo)詞wdn周圍窗口生成的上下文詞向量。在式(8)中,本文模型將主題向量Z作為詞的上下文向量,對(duì)詞表中的每個(gè)詞都與主題向量Z進(jìn)行一致性計(jì)算,再得到主題-詞的相關(guān)性矩陣α。

2.3 NTM解碼層及優(yōu)化函數(shù)

為得到更高質(zhì)量的主題向量,本文融合了主題語義信息和新聞詞頻統(tǒng)計(jì)信息,將主題向量Z與主題-詞相關(guān)性矩陣α相乘得到模型的變分向量β:

利用softmax(?)函數(shù)進(jìn)行歸一化操作后,對(duì)β進(jìn)行采樣重構(gòu)生成偽新聞文本

本文模型的解碼器目的在于將輸入的新聞文本X進(jìn)行編碼后,希望能夠利用模型學(xué)習(xí)到的變分向量β重構(gòu)生成出偽新聞文本盡可能與原文本X相似,因此引入重構(gòu)損失Lre:

其中使用了log_softmax(?)函數(shù)優(yōu)化模型損失的訓(xùn)練,避免梯度爆炸。

本文摒棄了概率主題模型中的狄利克雷先驗(yàn)假設(shè)與Gibbs 采樣方式,通過假設(shè)新聞文本服從正態(tài)分布,并從正態(tài)分布中采樣文本的特征,但這種采樣方式也引出一個(gè)問題,當(dāng)本模型對(duì)新聞樣本進(jìn)行采樣時(shí)并不能保證每個(gè)樣本都服從標(biāo)準(zhǔn)正態(tài)分布,導(dǎo)致模型的后續(xù)推斷很難進(jìn)行。因此引入KL(Kullback-Leibler)散度,利用調(diào)整KL 散度帶來的損失迫使每一個(gè)輸入X的正態(tài)分布都服從標(biāo)準(zhǔn)正態(tài)分布,KL 散度損失的目標(biāo)函數(shù)如下:

因此模型的總損失L為:

經(jīng)過優(yōu)化損失達(dá)到閾值收斂后,輸出新聞篇章的主題向量Z。

2.4 漢越主題向量的對(duì)齊

為實(shí)現(xiàn)漢越語義空間對(duì)齊,本文通過NTM 得到新聞主題向量Z后,調(diào)用Vecmap[13]的方法,使用少量的平行新聞對(duì),根據(jù)平行新聞文本對(duì)的主題向量在空間中位置對(duì)齊的關(guān)系,訓(xùn)練得到轉(zhuǎn)換矩陣W*。具體訓(xùn)練公式如下:

當(dāng)源語言i與目標(biāo)語言j對(duì)齊時(shí),Dij=1。通過最小化映射源語言主題向量與目標(biāo)語言主題向量之間的歐幾里得距離之和,訓(xùn)練得到最佳的映射矩陣W*,Zi*是中文語義空間中的第i個(gè)主題向量,Zj*是越南語義空間中的第j個(gè)主題向量,通過學(xué)習(xí)到的映射矩陣W*將漢越可比語料的新聞主題映射到同一語義空間下。

2.5 K-means聚類及話題抽取

本文通過主題對(duì)齊的方式將兩種語言映射到同一語義空間后,使用K-means[14]聚類的方法對(duì)漢越新聞的主題向量進(jìn)行聚類。預(yù)先設(shè)定了聚類的類別常數(shù)k并隨機(jī)選取k個(gè)初始點(diǎn)作為質(zhì)心{C1,C2,…,Ck},計(jì)算每一個(gè)主題向量Z與質(zhì)心C之間的歐氏距離:

其中:Zi表示第i個(gè)主題向量,Cj表示第j個(gè)聚類質(zhì)心。

通過依次計(jì)算每個(gè)主題向量Z與質(zhì)心之間的距離,將每一篇新聞文本的主題向量Z分配到歐氏距離最近的聚類簇S中S∈{S1,S2,…,Sk},分配完成后重新定義每個(gè)簇的聚類質(zhì)心:

重復(fù)上述過程,直到質(zhì)心不再改變,達(dá)到收斂條件后,得到聚類的新聞事件簇,選取每個(gè)簇離質(zhì)心距離最近的主題向量Z,發(fā)現(xiàn)該主題向量下的主題詞作為此類簇的話題:

其中:wt表示該類主題下的話題詞;argmax(?)表示選取在重構(gòu)文本的過程中概率最高的詞,并將其表示為此類新聞事件簇的相關(guān)話題,實(shí)現(xiàn)漢越新聞話題發(fā)現(xiàn)的最終目的。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

本文任務(wù)旨在發(fā)現(xiàn)不同事件下的新聞話題,爬取了“南海問題”“一帶一路”等四類漢越相關(guān)新聞事件,構(gòu)建漢越雙語新聞話題發(fā)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)集。首先,在越南語新聞網(wǎng)站上爬取了800 篇越南新聞文本;然后,根據(jù)新聞事件的主要報(bào)道在中文新聞網(wǎng)站中按1∶5 的比例獲取相關(guān)中文可比語料4 000 篇和少量平行新聞篇章對(duì)132 條;最后,漢越雙語新聞數(shù)據(jù)集分布情況如表1所示。

表1 漢越雙語新聞話題發(fā)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)集Tab.1 Chinese-Vietnamese bilingual news topic discovery experimental dataset

本文使用jieba 分詞和Vncorenlp 工具包分別對(duì)中文和越南文的新聞?wù)Z料進(jìn)行分詞和去停用詞,過濾中文語料中出現(xiàn)頻率不超過4 次的詞,越南語中濾除出現(xiàn)頻率不超過2 次的詞。將變分自編碼器中詞嵌入維度設(shè)置為300,主題向量設(shè)置為20 維,訓(xùn)練批次大小設(shè)置為100,使用Adam 作為優(yōu)化函數(shù),學(xué)習(xí)率設(shè)置為0.002,運(yùn)用梯度裁剪的方式防止梯度爆炸,并對(duì)輸入詞袋(Bag of Words,BoW)模型進(jìn)行歸一化處理,在K-means聚類中K值設(shè)置為4。

3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

本文的實(shí)驗(yàn)指標(biāo)主要為Macro-F1(用變量名MF1 表示)值與主題一致性。Macro-F1值通常作為評(píng)價(jià)基線模型聚類結(jié)果好壞的實(shí)驗(yàn)指標(biāo),包含宏精確率(Macro-Precision,Macro-P用變量名MP表示)與宏召回率(Macro-Recall,Macro-R 用變量名MR表示),Macro-F1 是宏精確率和宏召回率的調(diào)和均值(用變量名MF1表示)。具體定義分別如下:

其中:TPi表示被正確劃分為第i類簇的文檔數(shù),即聚類的正確文檔數(shù);FPi表示被錯(cuò)誤劃分為第i類簇的文檔數(shù);FNi表示屬于i類簇的樣本被錯(cuò)誤劃分到其他簇的文檔數(shù);Macro-F1是對(duì)所有簇聚類性能的總體評(píng)價(jià)。

主題一致性(Topic-coherence)評(píng)價(jià)指標(biāo)是為了評(píng)估主題模型能否產(chǎn)生語義一致、易于理解的話題。評(píng)價(jià)基線模型主題一致性的方法通常采用平均點(diǎn)對(duì)互信息(Normalized Pointwise Mutual Information,NPMI)[15]進(jìn)行計(jì)算,計(jì)算式如下:

其中:K是給定的主題數(shù),每個(gè)主題由T個(gè)最相關(guān)的詞組成;p(wi,wj)是詞對(duì)(wi,wj)在一篇文檔中共現(xiàn)的概率,p(wi)是詞wi在文檔中出現(xiàn)的概率。對(duì)出現(xiàn)概率最大的前25 個(gè)詞進(jìn)行互信息熵計(jì)算。

3.3 對(duì)比方法

為驗(yàn)證本文所提方法的有效性,選取以下幾種跨語言新聞話題發(fā)現(xiàn)方法進(jìn)行對(duì)比實(shí)驗(yàn):

1)面向中英文的隱狄利克雷分配主題改進(jìn)模型(Improved Chinese-English Latent Dirichlet Allocation model,ICE-LDA)[16]:使用Bi-LDA 概率主題模型得到新聞的主題,對(duì)新聞主題進(jìn)行向量化處理,通過翻譯的形式映射到同一語義空間。

2)基于潛在語義分析的跨語言文本聚類算法(Cross-Language Text Clustering algorithm based on Latent Semantic Analysis,CLTC-LSA)[17]:使用潛在語義分析的方法挖掘新聞的特征詞,利用特征詞的相關(guān)性構(gòu)建漢越雙語語義空間,實(shí)現(xiàn)漢越新聞文本聚類。

3)CL-NTM*:為證明利用文檔主題對(duì)齊的方法能更好地提升模型聚類效果,CL-NTM*將CL-NTM模型中利用主題對(duì)齊訓(xùn)練映射矩陣的過程進(jìn)行替換,直接使用漢越雙語詞典對(duì)新聞文檔詞嵌入的對(duì)齊矩陣進(jìn)行預(yù)訓(xùn)練。

4)廣義向量空間模型(Generalized Vector Space Model,GVSM)[10]:利用漢越新聞實(shí)體的對(duì)齊與上下文共現(xiàn)關(guān)系根據(jù)二分圖計(jì)算元素之間的相似性,對(duì)文本進(jìn)行聚類。

3.4 結(jié)果分析

3.4.1 漢越新聞聚類對(duì)比實(shí)驗(yàn)

為驗(yàn)證本文所提方法對(duì)新聞文本聚類的有效性,首先比較了本文方法與不同基線方法的F1值,如表2所示。

表2 不同方法的漢越雙語新聞聚類實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Comparison of experimental results of Chinese-Vietnamese bilingual news clustering by different methods

通過表2對(duì)比可知,上述幾種模型中CLTC-LSA 方法是非概率的主題模型,它主要通過計(jì)算詞之間的語義相似度衡量新聞文本之間的相似程度進(jìn)行文檔的聚類。在漢越低資源話題發(fā)現(xiàn)任務(wù)中,翻譯效果較差,不能很好地計(jì)算中文與越南文之間詞的相似度,漢越語義空間的對(duì)齊效果欠佳,從而導(dǎo)致新聞聚類效果不夠理想。從表2 中觀察發(fā)現(xiàn),ICE-LDA 的聚類效果優(yōu)于CLTC-LSA,ICE-LDA 使用的是概率主題模型,能更好地對(duì)新聞文本進(jìn)行主題的抽取,但由于該方法是將得到的新聞主題詞通過翻譯的方式建立雙語聯(lián)系,在漢越低資源條件下同樣受翻譯工具性能的影響較大,導(dǎo)致新聞聚類效果較差。CL-NTM*的實(shí)驗(yàn)結(jié)果表明,在漢越低資源場(chǎng)景下,直接訓(xùn)練漢越新聞文本詞嵌入對(duì)齊的方式受困于雙語詞典的規(guī)模大小,容易出現(xiàn)大量未登錄詞的情況,難以實(shí)現(xiàn)新聞文本間較好的對(duì)齊。GVSM(EUB)方法的聚類效果取決于新聞實(shí)體的標(biāo)注數(shù)量,且僅僅適用于對(duì)文本的聚類,不能很好地表達(dá)該類文本的核心話題。通過本組實(shí)驗(yàn)證明,本文方法利用漢越新聞主題對(duì)齊的方式取得的聚類效果更好,且受到漢越資源稀缺的影響更小。

為進(jìn)一步驗(yàn)證本文方法的有效性,還將本文方法與上述方法進(jìn)行了主題一致性的比較,觀察聚類后新聞簇的話題質(zhì)量,從表2 中主題一致性實(shí)驗(yàn)指標(biāo)中可知,本文模型相較于ICE-LDA與CLTC-LSA具有更好的主題一致性,具體原因分析如下:CLTC-LSA 使用奇異值分解的方法提取新聞的主題詞,但這種方法只是一種數(shù)學(xué)變換,很難與現(xiàn)實(shí)中的概念形成對(duì)應(yīng),導(dǎo)致生成的主題詞可理解性差,而ICE-LDA具有詞袋模型共有的缺點(diǎn),只考慮新聞文本的統(tǒng)計(jì)信息,忽略了詞的上下文語義信息,這使得模型生成的主題詞容易出現(xiàn)高頻無意義的詞,從而影響模型主題一致性。本文方法使用融入主題語義信息的變分自編碼器神經(jīng)主題模型生成新聞主題,既考慮了新聞的統(tǒng)計(jì)信息,又考慮了新聞的上下文語義信息。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文所提方法十分有效,生成的主題詞具有更好的主題一致性。

3.4.2 消融實(shí)驗(yàn)

漢越新聞話題發(fā)現(xiàn)旨在對(duì)漢越兩種語言的新聞文本進(jìn)行聚類,發(fā)現(xiàn)事件的主要話題,為得到更容易理解的話題,本文融入了主題語義信息增強(qiáng)話題的主題一致性,使新聞話題更加容易被理解。為驗(yàn)證融入主題語義信息對(duì)增強(qiáng)新聞話題主題一致性的有效性,設(shè)計(jì)了一組消融實(shí)驗(yàn),對(duì)融入主題語義信息前后的CL-NTM進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。

表3 融入主題語義信息的影響Tab.3 Impact of incorporating topic semantic information

通過消融實(shí)驗(yàn)結(jié)果對(duì)比證明,本文方法融入主題語義信息的方法相較于不融入主題語義信息,能生成在語義上更緊密相關(guān)的主題,從而對(duì)聚類結(jié)果產(chǎn)生正影響并提升了模型的主題一致性,使新聞主題更容易被理解。

3.4.3 實(shí)例分析

為進(jìn)一步體現(xiàn)本文模型漢越新聞話題發(fā)現(xiàn)的效果,本文抽取每類漢越新聞事件的前5個(gè)話題進(jìn)行展示,如圖3所示。

圖3 漢越新聞話題發(fā)現(xiàn)示例展示Fig.3 Example display of Chinese-Vietnamese news topic discovery

從圖3 可以看出,CL-NTM 對(duì)3 個(gè)不同的新聞事件集都能生成較為直觀的話題詞,且大多新聞都圍繞事件主題生成了相近或相同的話題詞。例如,在一帶一路的相關(guān)新聞報(bào)道中,漢越都緊密圍繞著“經(jīng)濟(jì)”“合作”等方面進(jìn)行了熱切的討論;從新冠肺炎的新聞報(bào)道中可以發(fā)現(xiàn)漢越兩國都對(duì)此次疫情的防護(hù)與患者的關(guān)注方面十分重視。綜合上述幾組實(shí)驗(yàn)證明,本文提出的CL-NTM 模型在漢越跨語言新聞話題發(fā)現(xiàn)任務(wù)中,對(duì)漢越平行資源的需求更低,聚類效果和主題語義一致性明顯優(yōu)于ICE-LDA 和CLTC-LSA 兩種模型,生成的話題詞可理解程度高,從Macro-F1 值與主題一致性的評(píng)價(jià)指標(biāo)上可以看出本文模型相較于對(duì)比的基線模型在新聞話題聚類效果與新聞話題語義可解釋性上都取得了更好的提升。

4 結(jié)語

本文提出了一種基于跨語言神經(jīng)主題模型的漢越新聞話題發(fā)現(xiàn)方法,采用融入主題語義信息的變分自編碼器神經(jīng)主題模型得到高質(zhì)量的新聞主題向量,利用新聞的主題向量建立漢越兩種語言之間的聯(lián)系,根據(jù)新聞主題的相似性對(duì)新聞文本進(jìn)行聚類,抽取主題詞作為新聞事件的話題。實(shí)驗(yàn)結(jié)果表明,在漢越新聞話題發(fā)現(xiàn)任務(wù)中,本文提出的利用主題對(duì)齊的方法明顯優(yōu)于訓(xùn)練雙語詞嵌入對(duì)齊的方法,相較于其他幾種基線模型在Macro-F1 值與主題一致性評(píng)價(jià)指標(biāo)上分別提升4 個(gè)百分點(diǎn)與7 個(gè)百分點(diǎn);但由于越南語資源的稀缺,本文方法與單語新聞話題發(fā)現(xiàn)效果仍存在較大差距,下一步將考慮融入更多新聞主要特征提升模型性能。

猜你喜歡
雙語聚類語義
真實(shí)場(chǎng)景水下語義分割方法及數(shù)據(jù)集
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
基于知識(shí)圖譜的k-modes文本聚類研究
基于數(shù)據(jù)降維與聚類的車聯(lián)網(wǎng)數(shù)據(jù)分析應(yīng)用
基于模糊聚類和支持向量回歸的成績預(yù)測(cè)
漢語依憑介詞的語義范疇
快樂雙語
快樂雙語
快樂雙語
雙語秀