鄭靜 馮道鵬
摘? 要:傳統(tǒng)主題模型LDA使用詞袋建模文檔,無法建模詞語之間的語義關(guān)系。雖然隨后提出的ETM利用詞嵌入的方法來建模詞語之間的相似度,但是它們都無法處理一詞多義現(xiàn)象。針對(duì)以上問題提出一種消歧主題模型。采用基于BERT的消歧方法并結(jié)合ETM對(duì)大型詞表的魯棒性,使得主題模型建模一詞多義成為可能。通過在通用數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了所提出模型在精確主題含義,增強(qiáng)主題可理解性上的優(yōu)越性能,該模型能夠挖掘出含義精確的主題,提高了主題建模的應(yīng)用范圍。
關(guān)鍵詞:主題模型;詞義消歧;詞嵌入
中圖分類號(hào):TP391.1? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)19-0083-06
Research on Disambiguation Theme Model Based on ETM
ZHENG Jing, FENG Daopeng
(Hangzhou Dianzi University, Hangzhou? 310018, China)
Abstract: The traditional theme model LDA uses word bags to model documents, which cannot model the semantic relationships among words. Although the ETM proposed later uses word embedding method to model the similarity among words, they are unable to handle the phenomenon of polysemy. Propose a disambiguation theme model to address the above issues. The use of BERT-based disambiguation method and combined with ETM's robustness to large word lists makes it possible to model polysemy in theme models. By conducting experiments on a universal dataset, the superior performance of the proposed model in precise theme meanings and enhancing theme comprehensibility are verified. The model can mine theme with precise meanings and improve the application range of theme modeling.
Keywords: theme model; word sense disambiguation; word embedding
0? 引? 言
潛在狄利克雷分配(Latent Dirichlet Allocation, LDA)[1],是一種基于貝葉斯學(xué)習(xí)的話題模型。它的無監(jiān)督學(xué)習(xí)的特性,免除了代價(jià)高昂的人工標(biāo)注工作。又因?yàn)樗錾膽?yīng)用表現(xiàn),使它在文本分析,文本挖掘領(lǐng)域獲得廣泛應(yīng)用。如文獻(xiàn)[2]直接應(yīng)用LDA對(duì)語料庫進(jìn)行訓(xùn)練,得到文本背后隱含的主題,挖掘文本背后的信息。在深度學(xué)習(xí)方面,LDA可以生成文本的主題作為其他任務(wù)的輸入特征[3]。
LDA使用一種分層結(jié)構(gòu)。文檔由隱含主題的多項(xiàng)分布表示,而話題則由單詞的多項(xiàng)分布表示。這使得LDA具有優(yōu)秀的可解釋性,這也是其受到歡迎的原因之一。但是LDA模型在大型詞匯表上—即大型語料庫上的表現(xiàn)則不夠優(yōu)秀。在這種情況下,LDA生成的主題的質(zhì)量會(huì)下降,一個(gè)顯而易見的證據(jù)是困惑度的上升。因此在實(shí)際應(yīng)用中,使用者將進(jìn)行一些預(yù)處理工作,即過濾掉出現(xiàn)次數(shù)很低(通常只有幾次)和出現(xiàn)次數(shù)過高的詞匯(通常是定為一個(gè)較大的頻率)。盡管這樣使得詞表的大小得到了控制,但是伴隨而來的是遺漏重要信息的風(fēng)險(xiǎn)將增加。
嵌入式主題模型[4](Embedded TopicModel, ETM)將傳統(tǒng)主題模型與詞嵌入相結(jié)合。ETM將詞設(shè)置為詞嵌入向量,主題也相應(yīng)地成為一個(gè)向量,而在一個(gè)主題下生成一個(gè)單詞的概率由它們之間的相似性決定,比如它們的內(nèi)積。這樣做的好處在于,當(dāng)我們使用ETM加載已經(jīng)訓(xùn)練好的詞向量時(shí),即使出現(xiàn)訓(xùn)練語料庫中未出現(xiàn)的詞,ETM仍能通過詞向量矩陣獲得這個(gè)詞與主題之間的聯(lián)系。在ETM中,加載訓(xùn)練好的詞向量的ETM,稱為Labeled ETM, 其在主題質(zhì)量(用主題的一致性和多樣性來衡量)方面表現(xiàn)最優(yōu),且對(duì)停詞具有魯棒性,能夠生成主要包含停止詞的主題。這樣即使不過濾停詞,Labeled ETM仍能生成高度一致性的主題。
Labeled ETM使用Word2vec[5]來獲取固定的詞嵌入。隨著近年來BERT模型[6]在眾多領(lǐng)域取得最佳的成績。一個(gè)自然的想法就是將BERT模型的詞向量應(yīng)用于ETM中。這樣做的出發(fā)點(diǎn)是,BERT模型能夠根據(jù)輸入文本的上下文動(dòng)態(tài)的構(gòu)建詞向量。這樣就為解決一詞多義問題提供了一個(gè)新的方向。但這與ETM要求靜態(tài)詞嵌入相矛盾。因?yàn)榘岩粋€(gè)詞在每個(gè)上下文中的動(dòng)態(tài)表示都加入詞表是不可能的。
利用BERT獲得不同詞義下的靜態(tài)詞向量,有兩種解決方案。一種是直接對(duì)獲得的動(dòng)態(tài)詞向量進(jìn)行處理。聚類是一種首先想到的方法。然而根據(jù)實(shí)驗(yàn),同一單詞在表達(dá)一種意思時(shí),受句子長短,上下文詞的影響很大,聚類的效果通常很差[7]。
第二種方案是先對(duì)文本進(jìn)行消歧,再根據(jù)消歧后的文本獲得詞向量。Loureiro[8]使用WordNet的注釋得到每個(gè)詞的詞義的標(biāo)準(zhǔn)向量,將具體上下文中的目標(biāo)詞匯的向量與之進(jìn)行比對(duì),將相似度最高的標(biāo)準(zhǔn)向量對(duì)應(yīng)的釋義作為消歧結(jié)果,這種基于特征提取的1-NN方法被證明在詞義消歧方面具有高效性和穩(wěn)健性。為了控制詞表大小,提高消歧精度。選擇使用WordNet劃分的25個(gè)獨(dú)立起始概念進(jìn)行標(biāo)記。例如,對(duì)于“this mouse has no battery”中的mouse而言,mouse表示鼠標(biāo),其起始概念是artifact。
據(jù)此,本文提出了基于BERT的詞義消歧嵌入式主題模型,稱為消歧主題模型。在能挖掘到高質(zhì)量主題的同時(shí),還能根據(jù)詞義標(biāo)記提高主題的可理解性。本文首先介紹了模型的構(gòu)建方法,然后為了找出最佳方案,比較了直接訓(xùn)練獲得詞向量、Word2vec詞向量、WordNet詞向量三種詞向量獲取途徑下的主題一致性和多樣性,發(fā)現(xiàn)WordNet詞向量表現(xiàn)更好;為了驗(yàn)證消歧主題模型能增強(qiáng)主題質(zhì)量,分析了在不同詞向量下的主題和可視化圖像差異,發(fā)現(xiàn)使用WordNet詞向量效果更好。
1? 相關(guān)工作
1.1? ETM
ETM是基于詞嵌入的主題模型。它在完成主題模型的主題建模這一功能外,使用詞嵌入作為單詞的表示,同時(shí)主題也是計(jì)算為嵌入空間中的一個(gè)點(diǎn)。這樣,一個(gè)詞在特定主題下的分布與它們之間的內(nèi)積成正比,即詞嵌入向量越相似,可能性越高。也正因?yàn)槿绱?,?duì)于停詞而言,ETM能夠通過形成“停詞主題”,將停詞分配到這種主題下,這增加了主題的質(zhì)量,適合大型詞匯表和語言數(shù)據(jù)的長尾情況。
ETM可以使用已經(jīng)訓(xùn)練好的詞嵌入輸入,也可以在模型擬合的過程中學(xué)習(xí)。從實(shí)驗(yàn)結(jié)果上來看,使用預(yù)先訓(xùn)練好的詞向量性能更好。
1.2? BERT
BERT起源于Transformer[9],使用Self-Attention架構(gòu),通過Attention機(jī)制來計(jì)算詞語之間的聯(lián)系,并且使用掩蔽語言模型進(jìn)行訓(xùn)練,從而生成深度的雙向語言特征。BERT在許多子任務(wù)上都取得了全新的成績,因此被廣泛應(yīng)用于各種自然語言處理任務(wù)中。
通常將BERT的使用方法分為兩類。第一類是基于微調(diào)的方法,根據(jù)目標(biāo)任務(wù)設(shè)計(jì)對(duì)應(yīng)的下游分類器,替換原來的softmax層。在這之后在目標(biāo)任務(wù)的領(lǐng)域數(shù)據(jù)集上繼續(xù)預(yù)訓(xùn)練。如Areej Jaber[10]根據(jù)醫(yī)療縮略語含義預(yù)測(cè)這一任務(wù),設(shè)計(jì)了一個(gè)347類的分類器,并在醫(yī)療領(lǐng)域預(yù)料上繼續(xù)預(yù)訓(xùn)練。另一類是基于特征提取的方法,除最后一層外將模型的網(wǎng)絡(luò)作為一個(gè)特征提取器,提取出學(xué)習(xí)到的特征輸入另一個(gè)模型。Loureiro[11]研究討論了基于BERT的WSD任務(wù)在微調(diào)和特征提取上的表現(xiàn)(后者主要是K-NN)。發(fā)現(xiàn)后一種方法在感知偏差方面更加穩(wěn)健,并且可以更好地利用有限的數(shù)據(jù)。
2? 基于詞義消歧的詞嵌入主題模型
基于詞義消歧的詞嵌入主題模型同時(shí)利了ETM對(duì)大型詞表的魯棒性和基于BERT的1-NN消歧方法的高效性,這使得詞義消歧能夠應(yīng)用于主題模型。消歧主題模型的流程圖如圖1所示。
其關(guān)鍵步驟為:
1)對(duì)原始數(shù)據(jù)集進(jìn)行預(yù)處理,包括分詞、刪除特殊符號(hào)等。
2)將原始文本切分以適應(yīng)BERT的輸入長度要求。輸入BERT獲得動(dòng)態(tài)詞向量,并與WordNet標(biāo)準(zhǔn)詞向量進(jìn)行1-NN比較,將詞打上對(duì)應(yīng)的詞義標(biāo)記。
3)拼接打上標(biāo)記后的文本,統(tǒng)計(jì)詞頻。
4)選擇WordNet詞向量或者Word2vec詞向量,輸入消歧主題模型,得到文檔—主題矩陣和主題—詞矩陣。
2.1? WordNet詞義標(biāo)記方法
將處理后的句子構(gòu)造成BERT所需要的格式。得到每個(gè)詞對(duì)應(yīng)的動(dòng)態(tài)詞向量,同時(shí)使用spacy的spatial包對(duì)句子的每個(gè)token進(jìn)行處理,得到每個(gè)詞的lemma和pos。其中l(wèi)emma是指詞的基本形式,如liking將被還原成like。pos是指詞性標(biāo)記,如動(dòng)詞、名詞。輸入已經(jīng)訓(xùn)練得到的WordNet詞向量中根據(jù)1-NN進(jìn)行匹配。匹配后對(duì)詞語進(jìn)行標(biāo)記。例如意義為鼠標(biāo)的mouse將被標(biāo)記為mouse#artifact,表示其含義為人造物。
2.2? 文檔-主題結(jié)構(gòu)及訓(xùn)練過程
具體而言,設(shè)詞嵌入空間為RL,第k個(gè)主題是在此空間上的向量ak,即主題嵌入。和LDA一樣,ETM是生成式的模型。它通過計(jì)算詞嵌入和主題嵌入之間的相似性來計(jì)算主題生成單詞的概率。
設(shè)ρ是L×V維的詞嵌入矩陣,每一列ρv為詞的詞嵌入,詞表大小為L,詞嵌入可以輸入WordNet詞向量也可以訓(xùn)練得到Word2vec詞向量。對(duì)第d個(gè)文檔的生成過程為:
計(jì)算主題概率:θd~LN(0,1)
對(duì)文檔d中的每一個(gè)詞n:
計(jì)算主題概率:zdn~Cat(θd)
計(jì)算詞概率:
其中LN(·)為logistic-normal分布。
δd~N(0,1);θd = softmax(δd)? ? ? ? ? (1)
模型的擬合采用最大化文檔的邊際似然:
(2)
然而文檔的邊際似然函數(shù)計(jì)算的困難性,使用方程(2)來轉(zhuǎn)化為:
(3)
生成每個(gè)單詞的條件分布來邊際化主題概率zdn。
(4)
其中θdk為式(1)中變換后的文檔主題分布參數(shù),βkv為主題詞的分布參數(shù)。可由詞嵌入ρ和主題嵌入ak得到。
由于上述的積分還是難以計(jì)算,因此使用變分推斷構(gòu)造一個(gè)后驗(yàn)分布的近似分布來擬合后驗(yàn)分布,用以最大化生成每個(gè)文檔的對(duì)數(shù)邊際似然的總和。假設(shè)文檔—主題比例分布簇q(δd; wd, v),然后使用這個(gè)變分布簇來約束對(duì)數(shù)邊際似然。對(duì)數(shù)邊際似然的證據(jù)下界如式(5):
(5)
3? 實(shí)驗(yàn)結(jié)果與分析
3.1? 實(shí)驗(yàn)數(shù)據(jù)集及預(yù)處理
本次實(shí)驗(yàn)首先選取20newsgroups數(shù)據(jù)集來對(duì)提出的消歧ETM模型進(jìn)行實(shí)驗(yàn),驗(yàn)證所提出模型的可行性。20newsgroups數(shù)據(jù)集是用于文本分類、數(shù)據(jù)挖掘等自然語言處理研究的國際標(biāo)準(zhǔn)數(shù)據(jù)集之一。它涵蓋了大約20 000個(gè)新聞文檔,包括大概20個(gè)新聞主題。如摩托車、音樂,等等。
為了適配設(shè)置的BERT詞向量長度。將長度超過512的文章切分為長度小于512的子文章。同時(shí),為了保留句子的完整性。被切分的句子是一個(gè)整句,即每個(gè)輸入子文章是若干完整句子的組合,且長度不超過512。
通過預(yù)訓(xùn)練模型獲取詞向量并對(duì)詞義進(jìn)行標(biāo)注后,將各個(gè)子文章再進(jìn)行拼接,得到可供ETM使用的數(shù)據(jù)集。
本實(shí)驗(yàn)選取數(shù)據(jù)集的80%作為訓(xùn)練集,20%作為測(cè)試集。
3.2? 參數(shù)設(shè)置
本文選取的batch_size為32,學(xué)習(xí)率選擇0.002,使用adam優(yōu)化器,使用L2正則化防止過擬合,參數(shù)為1.2×10-6。
主題數(shù)的選取以困惑度為指標(biāo)。如果模型對(duì)主題的預(yù)測(cè)有較好的效果,最后會(huì)得到較低的困惑度。同時(shí),隨著主題數(shù)的增加,困惑度會(huì)相應(yīng)降低。困惑度的計(jì)算公式為:
(6)
其中,D為文檔集合,共M篇,Nd為每篇文檔d中的單詞數(shù),wd為文檔d中的詞,p(wd)為文檔中詞wd產(chǎn)生的概率。
首先本文設(shè)置主題數(shù)范圍為20~100,步長為10。選擇對(duì)應(yīng)的主題數(shù)進(jìn)行訓(xùn)練,并計(jì)算對(duì)應(yīng)的困惑度。得到主題數(shù)—困惑度曲線圖,如圖2所示,因此設(shè)定主題數(shù)為50。
3.3? 評(píng)價(jià)指標(biāo)
目前比較流行的主題模型評(píng)價(jià)指標(biāo)一般是主題多樣性(topic diversity)和主題一致性(topic coherence)兩個(gè)指標(biāo)。其中主題多樣性是描述生成的主題之間不相似程度,主題越多樣越好;主題一致性是描述生成的某個(gè)主題的詞的聯(lián)系緊密程度,主題的一致性越高越好。
兩種指標(biāo)的計(jì)算公式為:
主題一致性:
(7)
(8)
主題一致性衡量的是主題中出現(xiàn)的詞在文章中貢獻(xiàn)的可能性。如果這些詞經(jīng)常同時(shí)在文章中出現(xiàn),這說明主題的一致性更強(qiáng),聚合程度更高。其中, 為在主題k中,第i個(gè)概率最大的單詞,f (·,·)為標(biāo)準(zhǔn)化點(diǎn)互信息。p(wi,wj)為wi和wj在文檔中共現(xiàn)的概率,p(wi)為詞wi的邊際概率。
主題多樣性:
(9)
主題多樣性衡量的是在主題中概率排名前N個(gè)單詞中不同單詞的百分比,百分比越大表示主題更豐富。
最后,使用主題一致性與主題多樣性的乘積作為模型主題質(zhì)量的衡量標(biāo)準(zhǔn)。
3.4? 結(jié)果分析
3.4.1? 主題模型指標(biāo)分析
在進(jìn)行詞義標(biāo)注后,有三種可選的ETM訓(xùn)練方式。第一種是直接進(jìn)行訓(xùn)練,第二種是應(yīng)用Word2vec模型訓(xùn)練詞向量,第三種是使用在消歧過程中獲得的詞向量。對(duì)這三種模型產(chǎn)生的結(jié)果采用前述的指標(biāo)進(jìn)行計(jì)算,得到結(jié)果如表1所示。
可見,在進(jìn)行消歧標(biāo)注后,三種方法中,直接訓(xùn)練的主題多樣性很低,而輸入Word2vec或者WordNet
詞向量的模型均表現(xiàn)出不錯(cuò)的主題多樣性。這主要是由于經(jīng)過消歧后,詞匯變得稀疏,模型很難提煉出多樣的主題出來。WordNet詞向量的表現(xiàn)又優(yōu)于Word2vec詞向量。后面所做出的分析僅針對(duì)Word2vec和WordNet詞向量。
3.4.2? 主題模型主題質(zhì)量分析
如表2所示,wn_topic和wv_topic分別呈現(xiàn)了輸入WordNet詞向量或Word2vec詞向量后生成的主題示例。由圖可見,消歧主題模型至少有3個(gè)好處。
第一,注釋了含義的詞使得模型生成的主題更容易被理解,歸納,形成有價(jià)值的主題。例如auto標(biāo)注了artifact會(huì)提示這是指“汽車”的意思而不是“自動(dòng)”,drink標(biāo)注了food會(huì)提示這是指“飲料”而不是動(dòng)詞“喝”。這些含義更清晰的詞使得主題1意義更加清晰,它們都指向了關(guān)于酒精、暴力、犯罪等線索。在關(guān)于計(jì)算機(jī)的主題37中這種作用更加明顯,chip、driver、memory、server、mouse這些詞語都被標(biāo)注了與計(jì)算機(jī)組件更相關(guān)的含義。分別指向了“芯片”“驅(qū)動(dòng)程序”“存儲(chǔ)器”“服務(wù)器”和“鼠標(biāo)”,這些標(biāo)注清楚的含義使得主題的含義變得非常清晰。
第二,含義更清晰的詞使得主題的含義更確切,主題之間的邊界更清晰。例如,在主題9中,driver標(biāo)注了person,而在主題37中,driver標(biāo)注了communication。這是因?yàn)橹黝}9指向的是汽車而主題37指向的是計(jì)算機(jī)組件。因此它的兩種含義,“駕駛員”和“驅(qū)動(dòng)程序”使得兩個(gè)主題之間的界限更加清晰。
第三,標(biāo)注了含義的詞會(huì)反過來提供一個(gè)能粗略的衡量模型效果的途徑。簡(jiǎn)而言之,如果有某一主題下的詞語標(biāo)注的含義非常零碎,沒有什么關(guān)聯(lián),那么這可能暗示模型的訓(xùn)練效果可能比較差。而在使用其他主題模型的情況下,人腦將自動(dòng)地將詞語的含義猜測(cè)出來去配合其他的詞語。這不利于探知模型主題生成的效果。
3.4.3? 詞向量可視化分析
圖3中包含三個(gè)主題,分別用方塊、叉、三角呈現(xiàn)。其中方塊是犯罪主題,包含汽車、槍支、犯罪、酒精等詞語;叉是汽車主題,包含汽車、駕駛員、引擎等詞語;三角是計(jì)算機(jī)主題,包含了計(jì)算機(jī)的各零部件。其中auto#artifact和automobile#artifact實(shí)際上同時(shí)是犯罪主題和汽車主題的詞語。
在圖中,很容易注意到driver這個(gè)詞語。當(dāng)它被標(biāo)記為communication時(shí),它與計(jì)算機(jī)相關(guān)概念更加接近,而被標(biāo)記為person時(shí),它與汽車相關(guān)概念更加接近。這說明這種消歧主題模型在區(qū)分詞義方面是有效的,它也使得主題之間的耦合程度降低。同時(shí)也能觀察到一些詞嵌入與現(xiàn)實(shí)世界聯(lián)系的有趣特性,例如酒精、酒吧與犯罪聯(lián)系緊密。而dock#artifact既有泊位的意思,因此在汽車主題下出現(xiàn),同時(shí)dock的另一個(gè)意思“程序的側(cè)邊欄”又與計(jì)算機(jī)有一定的聯(lián)系。因此在圖中,dock#artifact相比其他詞語更靠近計(jì)算機(jī)主題一些。
Word2vec詞向量下的可視化結(jié)果散布不太均勻,如圖4所示??梢杂^察到計(jì)算機(jī)主題之間結(jié)合地的比較緊密,而另外兩個(gè)主題內(nèi)部則呈現(xiàn)比較稀疏的結(jié)果,它們的散布遠(yuǎn)遠(yuǎn)高于計(jì)算機(jī)主題。在這一點(diǎn)上,WordNet詞向量下的結(jié)果更好一些,圖3中的3個(gè)主題的緊密程度相似。另外,在主題之間的邊界上,圖3更容易辨認(rèn)出3個(gè)不同而又相互關(guān)聯(lián)的主題,主題之間的邊界由兩個(gè)主題之間共有的詞或相關(guān)程度高的詞組成。而圖4中,主題之間的邊界比較模糊,不容易辨識(shí)主題之間的關(guān)系。
綜合而言,在主題內(nèi)部的詞語散布和主題之間的關(guān)聯(lián)性上面,使用WordNet詞向量的性能優(yōu)于Word2vec詞向量。
4? 結(jié)? 論
本文提出的消歧主題模型將消歧模型融入詞嵌入主題模型中。通過利用詞嵌入主題型的魯棒性和限制了消歧的粒度。使得詞嵌入主題模型含有消歧詞有較好的表現(xiàn)。經(jīng)過直接訓(xùn)練、Word2vec詞嵌入和WordNet詞嵌入輸入三種模式下的一致性、多樣性的對(duì)比實(shí)驗(yàn),證明了WordNet詞向量在消歧詞嵌入模型下運(yùn)用的優(yōu)越性。通過對(duì)消歧模型產(chǎn)生主題的仔細(xì)討論和可視化分析,證明消歧模型能夠增強(qiáng)主題的可理解性,和準(zhǔn)確性??紤]到目前的劃分粒度還是會(huì)產(chǎn)生大型的詞表,某些劃分方式并不盡合理,對(duì)于詞義的辨識(shí)方面具有較小的價(jià)值。未來,將在詞義消歧的粒度和角度方面進(jìn)行進(jìn)一步研究,例如領(lǐng)域角度。領(lǐng)域角度的詞義消歧能夠提供更有價(jià)值的視角,并使得詞表的大小得到進(jìn)一步控制。在領(lǐng)域角度的詞義消歧將對(duì)推進(jìn)詞義消歧研究發(fā)展、提高主題建模質(zhì)量、為海量文本分析提供創(chuàng)新視角產(chǎn)生現(xiàn)實(shí)意義。
參考文獻(xiàn):
[1] BLEI D M,NG A Y,JORDAN M I. Latent dirichlet allocation [J].Journal of machine Learning research,2003,3(Jan):993-1022.
[2] BASTANI K,NAMAVARI H,SHAFFER J. Latent Dirichlet allocation (LDA) for topic modeling of the CFPB consumer complaints [J].Expert Systems with Applications,2019,127:256-271.
[3] 張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法 [J].計(jì)算機(jī)應(yīng)用,2013,33(6):1587-1590.
[4] DIENG A B,RUIZ F J R,BLEI D M. Topic modeling in embedding spaces [J].Transactions of the Association for Computational Linguistics,2020,8:439-453.
[5] MIKOLOV T,CHEN K,CORRADO G,et al. Efficient Estimation of Word Representations in Vector Space [J/OL].arXiv:1301.3781 [cs.CL].[2023-03-06].https://arxiv.org/abs/1301.3781v1.
[6] DEVLIN J,CHANG M W,LEE K,et al. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].[2023-03-06].https://arxiv.org/abs/1810.04805.
[7] YENICELIK D,SCHMIDT F,KILCHER Y. How does BERT capture semantics? A closer look at polysemous words [C]//Proceedings of the Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP.BlackboxNLP:Association for Computational Linguistics,2020:156-162.
[8] LOUREIRO D,JORGE A. Language modelling makes sense:Propagating representations through WordNet for full-coverage word sense disambiguation [J/OL].arXiv:1906.10007 [cs.CL].[2023-03-06].https://arxiv.org/abs/1906.10007.
[9] VASWANI A,SHAZEER N,PARMAR N,et al. Attention Is All You Need [J/OL].arXiv:1706.03762[cs.CL].[2023-03-06].https://arxiv.org/abs/1706.03762v4.
[10] JABER A,MART?NEZ P. Disambiguating Clinical Abbreviations Using a One-Fits-All Classifier Based on Deep Learning Techniques [J].Methods of Information in Medicine,2022,61(S1):28-34.
[11] LOUREIRO D,REZAEE K,PILEVAR M T,et al. Analysis and Evaluation of Language Models for Word sense Disambiguation [J].Computational Linguistics,2021,47(2):387-443.
作者簡(jiǎn)介:鄭靜(1970—),女,漢族,安徽慶市人,教授,碩士生導(dǎo)師,博士,研究方向:隱馬爾可夫模型、隨機(jī)過程、文本挖掘;馮道鵬(1998—),男,漢族,湖北仙桃人,碩士研究生在讀,研究方向:文本挖掘。
收稿日期:2023-04-04
基金項(xiàng)目:國家社會(huì)科學(xué)項(xiàng)目(21BTJ071)