国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自監(jiān)督學習的委婉語識別方法

2024-01-20 05:29:12胡玉雪吳明民張瑜琦
中文信息學報 2023年10期
關(guān)鍵詞:掩碼集上含義

胡玉雪,吳明民,沙 灜,曾 智,張瑜琦

(1. 華中農(nóng)業(yè)大學 信息學院,湖北 武漢 430070;2. 農(nóng)業(yè)農(nóng)村部智慧養(yǎng)殖技術(shù)重點實驗室,湖北 武漢 430070;3. 湖北省農(nóng)業(yè)大數(shù)據(jù)工程技術(shù)研究中心,湖北 武漢 430070;4. 農(nóng)業(yè)智能技術(shù)教育部工程研究中心,湖北 武漢 430070)

0 引言

委婉語(Euphemism)是指通過溫和、含蓄的措辭來表達不直接、不得體的信息,是語言交際中的一種重要形式[1]。在內(nèi)容審核[2-3]和暗網(wǎng)交易市場[4-6]等領(lǐng)域中,委婉語被廣泛應(yīng)用以掩蓋不良信息的真實含義,如歧視、仇恨、非法交易等。這些委婉語看似普通,實則晦澀難懂,使得地下交易過程難以追蹤。因此,委婉語識別,即識別出委婉語具體指代的目標詞對幫助內(nèi)容審核、打擊地下交易具有重大意義。

目前,針對委婉語識別的研究較少,Zhu等人[2]對訓練集語句構(gòu)建詞典,使用詞袋模型提取句子級特征,最后通過多項邏輯回歸來識別委婉語;Yuan等人[3]將委婉語識別到一個泛類別,而不是具體的目標詞。例如,他們將“horse”識別為“drug”(毒品類)而不是直接識別為“heroin”(海洛因)。Sha等人[7]基于字詞和部首聯(lián)合訓練詞向量,根據(jù)語義相似度對候選目標詞進行排序以實現(xiàn)委婉語的識別。You等人[8]融合全局范圍內(nèi)的新詞發(fā)現(xiàn)詞片段信息,根據(jù)跨文檔語料相似性度量對目標詞進行排序以獲得委婉語指代的具體目標詞。

目前委婉語識別面臨的主要挑戰(zhàn)在于: ①缺乏委婉語與其目標詞之間有準確映射關(guān)系的數(shù)據(jù)集; ②委婉語既可用作表面含義,也可表示潛在含義,且委婉語潛在含義和表面含義相差甚遠,例如,“weed”表面含義是雜草,但在用作毒品類委婉語時,表示“Marijuana”(大麻)。而當前的方法主要使用詞袋模型,普遍采用靜態(tài)詞嵌入方法[9-10],這樣丟失了委婉語在不同上下文中的語境信息。

針對上述問題,本文提出了一種雙層自監(jiān)督學習方法(DSLM)。為了解決缺乏有效標注數(shù)據(jù)集的問題,DSLM在委婉語語料庫上預(yù)訓練委婉語BERT[11]模型,基于此模型構(gòu)建一個自監(jiān)督學習框架,將掩碼掉目標詞的句子作為樣本、掩碼掉的目標詞作為標簽,這樣自動構(gòu)建了一個帶標簽數(shù)據(jù)集;為了解決委婉語表面含義和潛在含義不一致的問題,DSLM使用語境對比學習方法,采用兩階段對比學習,首先疏遠委婉語上下文和委婉語表面含義的語義距離,然后拉近委婉語上下文和目標詞的語義距離,以加強委婉語上下文到目標詞的映射關(guān)系。在三個委婉語數(shù)據(jù)集[2](Drug、Weapon、Sexuality)上進行了實驗驗證,本文方法得到的結(jié)果比當前最先進的方法高24%~35%,且我們的模型更穩(wěn)定、收斂更快。本文的主要貢獻如下:

(1) 提出了基于BERT的雙層自監(jiān)督學習框架,自動構(gòu)建帶標注的訓練數(shù)據(jù)集,以解決缺乏有效標注數(shù)據(jù)集的問題。

(2) 提出了語境對比學習方法,該方法使用兩階段對比學習,可以加強委婉語上下文到目標詞的映射關(guān)系,有效緩解委婉語表面含義和潛在含義不一致的問題。

(3) 實驗證明了我們模型的有效性,本文提出的DSLM方法在三個數(shù)據(jù)集上的性能都優(yōu)于當前最佳方法。且隨機多批次測試結(jié)果表明,DSLM模型置信度高、收斂更快。

1 相關(guān)工作

本文所涉及的主題主要包括委婉語識別、自監(jiān)督學習、對比學習。本節(jié)將分別介紹這三個方面的相關(guān)研究進展。

1.1 委婉語識別

在自然語言處理領(lǐng)域中,委婉語識別是一項具有重要應(yīng)用價值的任務(wù),它在社交媒體、內(nèi)容審核、情感分析等領(lǐng)域得到廣泛應(yīng)用。目前,現(xiàn)有的委婉語識別方法較少,其中最為相關(guān)的是Zhu等人[2]的工作。他們首次提出了委婉語識別任務(wù),開發(fā)了一種自監(jiān)督學習的算法,利用詞袋模型在句子層面分析委婉語的上下文以對應(yīng)目標詞。Yuan等人[3]的工作主要是識別委婉語的上位詞,而不是直接識別出委婉語的具體含義。他們生成一組上位詞(如“毒品”是“海洛因”的上位詞),使用二元隨機森林分類器和遞歸查找方法,將給定的委婉語分類到特定上位詞。他們的方法將“horse”識別為一種毒品,而不是直接解釋為海洛因。這些方法使用靜態(tài)詞嵌入、詞袋模型,難以區(qū)分同一詞的不同含義,無法捕捉委婉語的潛在含義。

從委婉語的社交用途來看,變體詞是委婉語的一種形式,委婉語識別任務(wù)與變體詞解析相關(guān)[7-8]。Sha等人[7]提出基于字詞和部首聯(lián)合訓練的詞向量的方法,根據(jù)語義相似度對候選目標詞進行排序,以獲得委婉語的目標詞。You等人[8]提出了聯(lián)合詞片段信息的BiLSTM-CRF模型來實現(xiàn)委婉語的發(fā)現(xiàn),再使用CRF對文檔中的委婉語進行標注,最后根據(jù)跨文檔語料相似性度量對目標實體進行排序。這些方法主要針對中文特有屬性,其中的委婉語多數(shù)基于娛樂等目的,具有一定的時間性、事件性。

1.2 自監(jiān)督學習

自監(jiān)督學習是一種機器學習方法,它利用無標簽數(shù)據(jù)進行訓練,通過生成偽標簽或注釋來學習模型[12]。例如,要訓練一個文本預(yù)測模型,可以取一個文本語料庫,掩碼句子的一部分,然后訓練模型預(yù)測被掩碼的部分,這樣可以從未標注的數(shù)據(jù)創(chuàng)建監(jiān)督學習任務(wù)。自監(jiān)督學習主要分為兩類: 生成模型和對比模型[13]。典型的模型有GPT[14]、BERT[11]、VQ-VAE[15]、MoCo[16]等。

自監(jiān)督學習方法在標簽數(shù)據(jù)稀缺或獲取成本高昂的情況下非常有用。在自然語言處理(Nature Language Processing,NLP)領(lǐng)域,自監(jiān)督學習被廣泛應(yīng)用于上游語言模型,如預(yù)測中心詞和相鄰詞[9-10]、自回歸語言建模[14]、掩碼語言模型和下一句預(yù)測[11]、句子重排和文檔旋轉(zhuǎn)[17]等。進而應(yīng)用于機器翻譯[18]、問答系統(tǒng)[19]、情感分析[20]等下游任務(wù)。

1.3 對比學習

對比學習是一種有效的自監(jiān)督學習方法,通過比較不同樣本之間的相似性和差異性,學習到樣本的內(nèi)在特征,并將其應(yīng)用于下游任務(wù)。對比學習最早在計算機視覺領(lǐng)域被引入[21],主要使用孿生神經(jīng)網(wǎng)絡(luò)[22]進行訓練,旨在拉近同類圖像的特征之間的距離、推遠不同類圖像之間的特征之間的距離,以獲得更好的特征提取模型,典型的模型有SimCLR[23]、MoCo[16]等。近年來,對比學習在NLP領(lǐng)域也受到了廣泛關(guān)注,如SimCSE[24]、SimCTC[25]等。

近年的研究表明,對比學習在NLP任務(wù)中具有廣泛的通用性和潛力。例如,Xie等人[26]提出了一種基于全局和局部特征對比學習的文本分類方法;Nguyen等人[27]提出了一種主題建模的對比學習方法;Zhou等人[28]提出了一種零樣本跨語言遷移的跨語言對比學習方法,在沒有任何并行數(shù)據(jù)的情況下將知識從源語言遷移到目標語言。從文本分類到主題建模再到跨語言遷移,對比學習是一種具有發(fā)展?jié)摿Φ姆椒?可以學習文本的魯棒表示,并將其推廣到新的自然語言處理任務(wù)。

2 問題描述

本文研究的問題是: 已知含有委婉語的句子s=[w1,…,euph,…,wi,…,wm](其中已知euph是委婉語),目標詞集T={t1,…,tg,…,tj,…,tn}。我們的目標是確定委婉語euph實際指代的目標詞tg。以表1為例,我們希望能確定“pot”指的是目標詞集中的“marijuana”。

表1 部分委婉語句子和目標詞示例

3 DSLM模型

本文提出了一種雙層自監(jiān)督學習方法(DSLM),架構(gòu)如圖1所示。DSLM主要由外層自監(jiān)督學習框架和內(nèi)層自監(jiān)督學習模塊組成。

訓練時,外層自監(jiān)督學習框架,基于BERT預(yù)訓練模型,提取了所有含有目標詞的句子,對目標詞進行掩碼,將掩碼后的句子作為訓練樣本,對應(yīng)的目標詞作為標簽,這樣,自動構(gòu)造了一個帶標簽數(shù)據(jù)集。內(nèi)層自監(jiān)督學習模塊,用于學習掩碼掉目標詞處的上下文語義表示,最大化其與目標詞語義表示的一致性。測試時,輸入掩碼掉委婉語的句子,經(jīng)過外層和內(nèi)層自監(jiān)督學習微調(diào)好的模型,預(yù)測掩碼掉委婉語處對應(yīng)的目標詞。

訓練過程中,DSLM模型一共分為三個階段: 預(yù)處理、語境對比學習、分類預(yù)測。首先,在委婉語語料[2]上進行增量預(yù)訓練,得到一個委婉語BERT模型(記為“Euph_BERT”),分別提取掩碼掉委婉語和目標詞處的上下文語義。其次,采用語境對比學習模塊疏遠委婉語上下文和委婉語表面含義的語義距離,拉近目標詞上下文和目標詞的語義距離。最后,將多個表示組合起來,通過分類模塊預(yù)測掩碼掉目標詞處對應(yīng)的目標詞。

3.1 預(yù)處理模塊

為了充分利用委婉語上下文信息,DSLM在委婉語語料庫上繼續(xù)預(yù)訓練得到委婉語BERT模型(Euph_BERT),然后基于此模型對數(shù)據(jù)集進行處理。

首先,將掩碼掉委婉語的句子s(s∈S,S是掩碼掉委婉語的句子集)轉(zhuǎn)化為BERT模型的輸入序列seqe={[CLS],toke1,…,tokei,[MASK],…, tokep,[SEP]}。同樣地,將掩碼掉目標詞的句子s′(s′∈S′,S′是掩碼掉目標詞的句子集)轉(zhuǎn)化為BERT模型的輸入,得到seqt={[CLS],tokt1,…,toktj,[MASK],…,toktq,[SEP]}。tokei和toktj分別是seqe的第i個詞條、seqt的第j個詞條。[MASK]是掩碼掉委婉語或目標詞處的標記,特殊標記[CLS]和[SEP]是用作引導和結(jié)束輸入通道序列的邊界標記。經(jīng)過BERT Encoder層編碼,分別取seqe和seqt掩碼處的最后一層隱藏向量hme和hmt作為掩碼委婉語處上下文表示和掩碼目標詞處上下文表示,如式(1)、式(2)所示,其中,me和mt分別是序列seqe和seqt中[MASK]處的索引值。

然后,將委婉語集Euph={euph1,euph2,…,euphm}和目標詞集T={t1,t2,…,tn}分別轉(zhuǎn)換為BERT模型的輸入,經(jīng)過Euph_BERT嵌入層[式(3)、式(4)],分別得到委婉語表面含義表示heuphi和目標詞表示htj(在絕大多數(shù)上下文情況下,委婉語體現(xiàn)的都是其表面含義,所以可以將heuphi用作委婉語表面含義表示)。

3.2 語境對比學習模塊

針對委婉語表面含義和潛在含義不一致的問題。DSLM使用語境對比學習模塊,該模塊包含兩階段對比學習: 第一階段疏遠委婉語上下文和委婉語表面含義的語義距離;第二階段拉近目標詞上下文和對應(yīng)目標詞的語義距離,疏遠和其他目標詞的語義距離。通過兩階段對比學習可以最大化委婉語上下文和其潛在含義的語義一致性。

第一階段正樣本對由掩碼掉委婉語處上下文表示hmei和其對應(yīng)的委婉語表面含義表示heuphi組成(euphi是掩碼掉的委婉語),負樣本對則可表示為{hmei,heuphj}(i≠j)。與SimCSE[24]不同的是,這里我們要疏遠正樣本對,以強化其語義之間的差別,而不是拉近它們,因此對第一階段對比學習損失進行取反操作,以疏遠正樣本對,具體計算如式(5)、式(6)所示。

其中,N是訓練集中正樣本對數(shù)量,b是批次內(nèi)正樣本對數(shù)量,τ是溫度超參數(shù),sim(h1,h2)是余弦相似度。

第二階段正樣本對由掩碼掉目標詞處上下文表示hmti和其對應(yīng)的目標詞表示hti組成(ti是掩碼掉的目標詞),負樣本對由掩碼掉目標詞處上下文表示和其他目標詞表示組成。使用負數(shù)的交叉熵作為訓練目標,第二階段對比學習損失計算如式(7)所示。

(7)

語境對比學習模塊聯(lián)合第一階段和第二階段對比學習代價進行訓練,損失為:

ls=λls1+ls2

(8)

這里,λ是超參數(shù),是為了調(diào)整兩個階段對比學習對最終委婉語識別任務(wù)的權(quán)重。

3.3 分類模塊

分類模塊用來預(yù)測掩碼處上下文對應(yīng)的目標詞,基于上述得到的掩碼掉目標詞處上下文表示hmt,對每一個候選目標詞打分,計算出給定掩碼處上下文得到選擇的目標詞的概率,如式(9)所示。

(9)

其中,s∈S訓練句子集,w∈d、b∈是模型參數(shù),⊙是逐位相乘。訓練的目標是最小化預(yù)測結(jié)果和真實值的交叉熵,如式(10)所示。

(10)

其中,n是目標詞候選集中目標詞的所屬類別數(shù)(同一類別下的目標詞,表示同一事物),tg是真實目標詞的單熱向量。預(yù)測損失ls和對比學習的損失lc之和就是我們整個委婉語識別任務(wù)訓練損失,最終的損失函數(shù)loss表示如式(11)所示。

loss=lc+ls

(11)

訓練時,DSLM模型通過聯(lián)合地計算對比學習損失和分類損失來微調(diào)、優(yōu)化模型參數(shù)。測試時,DSLM可以動態(tài)提取委婉語上下文語義特征,有效識別語料中的委婉語。

4 實驗

本節(jié)在三個基準數(shù)據(jù)集[2](Drug、Weapon、Sexuality)上對我們提出的模型(DSLM)進行了實驗評估,并將其與一組基線模型進行了比較。

4.1 數(shù)據(jù)集

本文在數(shù)據(jù)集Drug、Weapon、Sexuality上進行了模型實驗,這些數(shù)據(jù)集來源于毒品市場帖子、Gab社交網(wǎng)絡(luò)服務(wù)平臺、在線俚語詞典等,包含三種類別的句子: 含有目標詞的句子、含有委婉語的句子、不含委婉語和目標詞的句子。各個數(shù)據(jù)集的概覽情況如表2所示,其中Drug、Weapon、Sexuality三個數(shù)據(jù)集對應(yīng)的目標詞候選集分別有33、9、12個類別(每個類別下的目標詞,表示同一事物)。

表2 數(shù)據(jù)集概覽

DSLM采用了自監(jiān)督學習框架以解決缺乏含委婉語到目標詞映射的數(shù)據(jù)集問題。在訓練模型時,使用掩碼掉目標詞的句子作為訓練數(shù)據(jù),并將對應(yīng)的目標詞作為標簽;測試時,輸入掩碼掉委婉語的句子,并使用已訓練好的模型來預(yù)測委婉語對應(yīng)的目標詞。因此,需要兩種輸入: ①從原始文本語料庫中提取掩碼掉目標詞的句子(用于訓練)、掩碼掉委婉語的句子(用于測試); ②目標詞列表。為了評估DSLM測試結(jié)果的準確性,需要依賴委婉語及其目標詞對應(yīng)的真實列表,該列表應(yīng)包含從每個委婉語到其潛在含義的一對一映射。值得注意的是,該真實列表并沒有參與整個模型的訓練過程,只用于評估模型對委婉語的識別準確性。

4.2 實驗設(shè)置

為了排除其他因素對結(jié)果與基線對比的影響,同當前最佳模型[2]一樣,本文在各個數(shù)據(jù)集上獨立進行訓練,并保持數(shù)據(jù)集劃分的一致性。在訓練過程中,將掩碼掉目標詞的句子劃分為80%訓練集和20%驗證集;在測試階段,則使用全部掩碼掉委婉語的句子作為測試數(shù)據(jù)。

在進行訓練之前,使用基于bert-base-uncased(1)https://huggingface.co/bert-base-uncased模型的MLM[11]任務(wù)分別在上述三個數(shù)據(jù)集上繼續(xù)預(yù)訓練,得到預(yù)訓練的委婉語BERT模型(Euph_BERT)。然后,我們使用此模型進行微調(diào),來訓練委婉語識別任務(wù)。在預(yù)訓練階段,我們設(shè)定輸入序列最大長度為512,批量大小為64,迭代次數(shù)為3。在微調(diào)過程中,設(shè)定輸入序列最大長度為128,批量大小為32,初始學習率為5e-5,溫度超參數(shù)τ設(shè)置為0.05,超參數(shù)λ設(shè)置為1e-3,預(yù)熱步驟為1 000,采用優(yōu)化器AdamW[29]基于預(yù)熱線性計劃進行訓練。

同當前最佳模型[2]一樣,本文采用Acc@k作為評價指標: 對于每個檢測到的委婉語,根據(jù)生成的目標詞的概率對其排序,然后評估topK準確率(Acc@k),即真實標簽值落在我們生成的排序列表中前k個值的頻率。

4.3 實驗結(jié)果和分析

為了進一步評估DSLM的有效性,我們將其與其他方法進行了比較,并在三個數(shù)據(jù)集上進行了測試。

4.3.1 對比方法

本文分別與當前最佳方法[2](記為“SelfEDI”)、Word2Vec方法,以及我們建立的4個基線模型進行比較。

?Word2Vec[2]: 在數(shù)據(jù)集上訓練Word2vec算法,通過得到所有單詞的詞嵌入(100維),來使用余弦相似度來選擇最接近它的目標關(guān)詞。

?SelfEDI[2]: 采用詞袋模型在句子級別的語境中提取句子特征,通過訓練一個多項邏輯回歸分類器來識別委婉語。

?BERT: 在數(shù)據(jù)集上預(yù)訓練得到一個BERT預(yù)訓練模型,提取句子的特征表示(768維),通過訓練一個多項邏輯回歸分類器來識別委婉語。

?DSLM: 本文提出的模型,在委婉語數(shù)據(jù)集上預(yù)訓練得到一個委婉語BERT模型,來獲取上下文表示,然后引入語境對比學習模塊,使用第一階段和第二階段對比學習方法來學習委婉語上下文表示,最終微調(diào)識別委婉語。

?DSLM_base:DSLM的基礎(chǔ)方法,不使用語境對比學習模塊,直接基于委婉語BERT模型微調(diào)識別委婉語。

?DSLM_ls1: 在DSLM_base的基礎(chǔ)上,引入第一階段對比學習方法。

?DSLM_ls2: 在DSLM_base的基礎(chǔ)上,引入第二階段對比學習方法。

4.3.2 實驗結(jié)果和分析

為了公平地比較模型性能,參考Zhu等人[2],所有結(jié)果均來自于模型的最佳性能表現(xiàn)。表3總結(jié)了基線模型和我們模型在委婉語識別上的結(jié)果,其中基線模型Word2Vec和SelfEDI的結(jié)果直接取自Zhu等人[2]的研究。我們的算法在所有三個數(shù)據(jù)集上都達到了最佳性能。

表3 委婉識別結(jié)果

實驗結(jié)果分析從表3可以看出,我們的方法DSLM比當前最佳模型SelfEDI的Acc@1準確率提升了7%~11%,所有模型結(jié)果取自Acc@1最佳的結(jié)果。Word2Vec性能表現(xiàn)較差,原因在于其無法捕捉同一詞的不同含義。相比于SelfEDI使用詞袋模型提取句子特征進行識別,我們創(chuàng)建的DSLM_base使用BERT編碼,其來自Transformer的Encoder既保留了句子中詞的先后順序,又考慮了詞之間的語義聯(lián)系,提取的句子特征語義更為豐富。在三個數(shù)據(jù)集上,DSLM_base結(jié)果明顯優(yōu)于BERT,前者使用微調(diào)的方法,而后者基于特征方法,將BERT當作特征提取器,顯然微調(diào)方法優(yōu)于基于特征的方法。模型不使用語境對比學習模塊后的Acc@1準確率降低了3%~5%。經(jīng)過預(yù)訓練后,委婉語上下文和其表面含義表示之間的距離會拉開,因此第一階段對比學習DSLM_ls1效果不明顯;而第二階段對比學習DSLM_ls2直接拉近掩碼處上下文表示和目標詞語義表示之間的距離,顯然其效果更好,結(jié)果表明DSLM_ls2對模型貢獻更高,比DSLM_ls1提升了1%~2%的準確率。相較于DSLM_base,DSLM_ls1和DSLM_ls2在Acc@1準確率上提升最多,在Acc@2上略有提升,但在Acc@3上出現(xiàn)下降。與Acc@1不同,Acc@3指的是候選目標詞中前三個正確的占比,這樣擴大了結(jié)果目標詞范圍。由于目標詞之間的語義差異較小,例如“Marijuana”“Cocaine”和“Heroin”等,這樣,相似的目標詞更容易被納入擴大的結(jié)果目標詞中,從而引起準確率的波動。尤其是在Sexuality數(shù)據(jù)集上,該數(shù)據(jù)集中目標詞種類較少且分布極度不均衡(約72%的訓練數(shù)據(jù)屬于“Sex”類別,而其他類別僅占約2.5%),因而導致較差的Acc@3準確率。相比Acc@3,Acc@2和Acc@1結(jié)果范圍有限,僅涉及前兩個或者一個目標詞,因此受到目標詞語義相似和分布不均衡的影響較小。然而,DSLM通過聯(lián)合對比學習的第一階段和第二階段,能夠?qū)W習到更加準確的委婉語表示,并加強委婉語與目標詞之間的映射關(guān)系。這在一定程度上克服了準確率的波動,最終展現(xiàn)出最佳的整體結(jié)果。

圖2展示了模型在三個數(shù)據(jù)集上隨機運行100次得到的Acc@1、Acc@2、Acc@3準確率箱型圖和小提琴圖。由圖2可以看出,模型DSLM的結(jié)果穩(wěn)定、方差小。相比之下,當前最佳模型SelfEDI結(jié)果方差大,結(jié)果分布不集中,模型置信度低。值得注意的是,DSLM_ls2相比基礎(chǔ)模型DSLM_base而言,不僅提升了模型準確度,還改變了結(jié)果的密度分布,使其集中在高精度區(qū)。由此可見,第二階段對比學習方法有利于模型結(jié)果和置信度的提升。

圖2 委婉語識別結(jié)果圖

為了進一步驗證模型的收斂速度,本文繪制了各方法在三個數(shù)據(jù)集上訓練過程中的Acc@1準確率隨迭代步數(shù)變化的曲線,如圖3所示。從圖中可以看出,DSLM、DSLM_ ls1和DSLM_ls2方法收斂速度最快;而DSLM_base和SelfEDI收斂較慢。這表明,使用對比學習可以有效縮小掩碼詞和目標詞之間的語義距離,從而提高模型的學習效率,加快收斂速度。

圖3 各模型在三個數(shù)據(jù)集上的準確率變化曲線

可視化分析為了更加直觀地呈現(xiàn)DSLM模型對于委婉語識別的影響,本文使用t-SNE[30]算法對模型訓練前后的掩碼掉委婉語處上下文表示和目標詞表示進行可視化處理。如圖4所示,我們隨機選取了96個(3個批次,批次大小是32)掩碼掉委婉語處上下文表示和目標詞表示(33個類別),并進行了二維展示。從圖中可以看出,經(jīng)過模型訓練后,掩碼處上下文表示和目標詞表示更加接近,模型成功解決了委婉語上下文表示和目標詞表示不一致問題。

圖4 DSLM模型訓練前后掩碼詞和目標詞的表示分布左邊是訓練前的表示分布,右邊是訓練后的表示分布。藍色點狀代表掩碼詞上下文表示,隨機取了96個;橙色十字代表目標詞表示,共計33個。

綜上所述,DSLM方法采用基于BERT的自監(jiān)督學習方法和兩階段對比學習,可以有效獲取委婉語上下文語義,解決缺乏有效標注的數(shù)據(jù)集問題和委婉語表面含義和潛在含義不一致的問題。該方法在三個數(shù)據(jù)集上的識別結(jié)果均超過當前最佳模型SelfEDI,且具有更小的結(jié)果方差和更穩(wěn)定的性能表現(xiàn),模型收斂速度更快。

5 總結(jié)

本文提出了一種雙層自監(jiān)督學習方法DSLM,用于委婉語識別。DSLM使用基于BERT的自監(jiān)督學習框架來解決缺乏有效標注的數(shù)據(jù)集問題;使用語境對比學習模塊,拉大委婉語上下文和委婉語表面含義的語義距離,縮小委婉語上下文和目標詞的語義距離,以使模型可以在委婉語上下文的語義特征空間學習到委婉語潛在含義的特征,從而緩解委婉語表面含義和潛在含義不一致的問題。在三個數(shù)據(jù)集上的實驗結(jié)果表明,DSLM模型性能最佳。此外,本文使用可視化技術(shù)展示了模型訓練前后委婉語上下文和目標詞表示的分布情況,證明DSLM能夠有效緩解委婉語表面含義和潛在含義不一致的問題。未來,我們計劃新增其他類型的委婉語數(shù)據(jù)集,如暴力、歧視等,以更好地幫助監(jiān)管社交媒體言論和地下交易市場。

猜你喜歡
掩碼集上含義
Union Jack的含義和由來
英語世界(2022年9期)2022-10-18 01:11:46
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
低面積復(fù)雜度AES低熵掩碼方案的研究
通信學報(2019年5期)2019-06-11 03:05:56
基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計*
復(fù)扇形指標集上的分布混沌
虛榮的真正含義
學生天地(2016年16期)2016-05-17 05:45:55
基于掩碼的區(qū)域增長相位解纏方法
關(guān)于“獲得感”之含義
基于掩碼的AES算法抗二階DPA攻擊方法研究
上饶县| 延安市| 河间市| 巴林右旗| 建昌县| 精河县| 汕头市| 海兴县| 金沙县| 涟水县| 英山县| 仪陇县| 周口市| 淳安县| 郓城县| 云浮市| 兴宁市| 西昌市| 凉山| 嫩江县| 新绛县| 辽宁省| 乡宁县| 沁源县| 阿勒泰市| 阿合奇县| 甘德县| 连平县| 淮南市| 靖边县| 海南省| 鹤岗市| 万全县| 东莞市| 翁牛特旗| 新田县| 高碑店市| 广饶县| 江油市| 长沙市| 石门县|