国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合語言知識的神經(jīng)網(wǎng)絡(luò)中文詞義消歧模型

2020-08-25 06:56穆玲玲程曉煜昝紅英韓英杰
關(guān)鍵詞:例句詞義準(zhǔn)確率

穆玲玲, 程曉煜, 昝紅英, 韓英杰

(鄭州大學(xué) 信息工程學(xué)院 河南 鄭州 450001)

0 引言

詞義消歧是自然語言處理中的基礎(chǔ)任務(wù)之一,用于確定目標(biāo)詞在特定上下文語境的詞義[1],是信息抽取、機(jī)器翻譯和閱讀理解等任務(wù)的基礎(chǔ)。詞義消歧主要有3種方法:基于知識庫的方法、有監(jiān)督方法和無監(jiān)督方法。其中有監(jiān)督詞義消歧通常使用傳統(tǒng)機(jī)器學(xué)習(xí)模型實(shí)現(xiàn),如支持向量機(jī)[2]、最大熵[3]和貝葉斯分類器[4]等,其準(zhǔn)確率高于另外2種方法。

目前在有監(jiān)督詞義消歧任務(wù)中大量使用了神經(jīng)網(wǎng)絡(luò)模型[5],并取得了優(yōu)于傳統(tǒng)統(tǒng)計(jì)模型的結(jié)果。例如,文獻(xiàn)[6-7]分別使用雙向長短時記憶網(wǎng)絡(luò)和多任務(wù)學(xué)習(xí)方法成功實(shí)現(xiàn)了詞義消歧。基于神經(jīng)網(wǎng)絡(luò)的詞義消歧方法雖然取得了較好的效果,但其存在以下兩個問題:① 需要大規(guī)模的標(biāo)注語料,否則將導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率下降。② 沒有使用相關(guān)的語言知識,忽略了語言學(xué)家已建立的豐富資源。有研究表明,在神經(jīng)網(wǎng)絡(luò)中融合語言知識有助于提高模型的有效性,可以在保證準(zhǔn)確率的前提下,降低模型訓(xùn)練對大規(guī)模標(biāo)注語料的需求。文獻(xiàn)[8]在循環(huán)神經(jīng)網(wǎng)絡(luò)中使用外部語言知識,提高了機(jī)器閱讀的準(zhǔn)確率。文獻(xiàn)[9]在神經(jīng)網(wǎng)絡(luò)中使用了WordNet的釋義信息,利用記憶網(wǎng)絡(luò)[10-12]建模目標(biāo)詞上下文和釋義的內(nèi)在聯(lián)系,在英文數(shù)據(jù)集上取得了非常高的準(zhǔn)確率。文獻(xiàn)[13-14]分別利用釋義和WordNet[15]中的語義增強(qiáng)了詞義向量的表示,并將其作為SVM分類器的特征,使得詞義消歧的準(zhǔn)確率提高了1%以上。文獻(xiàn)[16]將WordNet的詞根向量化后與GloVe詞向量拼接,作為雙向長短時記憶網(wǎng)絡(luò)的輸入用于詞義消歧。上述研究均是針對英文詞義消歧,而中文的神經(jīng)網(wǎng)絡(luò)詞義消歧中融合語言知識的研究文獻(xiàn)尚未被發(fā)現(xiàn)。本文在文獻(xiàn)[9]基礎(chǔ)上,利用外部記憶機(jī)制將目標(biāo)詞的釋義和例句信息融入神經(jīng)網(wǎng)絡(luò)詞義消歧模型中,通過注意力機(jī)制構(gòu)建目標(biāo)詞的上下文與由釋義和例句表示的詞義之間的語義關(guān)系。在SemEval-2007中英文詞義消歧數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,本文模型的宏平均準(zhǔn)確率和微平均準(zhǔn)確率均比基線模型有所提高。

1 詞義消歧模型

通過雙向長短時記憶網(wǎng)絡(luò)[17]分別實(shí)現(xiàn)目標(biāo)詞的上下文表示和目標(biāo)詞的詞義表示,目標(biāo)詞詞義由釋義+例句聯(lián)合表示,通過注意力機(jī)制構(gòu)建目標(biāo)詞的上下文與詞義之間的語義關(guān)系。

融合釋義、例句信息的詞義消歧模型如圖1所示,該模型包括上下文表示模塊、詞義表示模塊、記憶模塊和打分模塊4個部分。

圖1 融合釋義、例句信息的詞義消歧模型Figure 1 A word sense disambiguation model leveraging glosses and example sentences

1.1 上下文表示模塊

1.2 詞義表示模塊

1.3 記憶模塊

記憶模塊用于建模目標(biāo)詞的上下文向量與詞義表示向量的語義關(guān)系,提取與上下文相關(guān)的詞義信息,詞義表示由釋義、例句聯(lián)合向量表示。該模塊的輸入為目標(biāo)詞的上下文向量c及其詞義向量集合{g_s1,g_s2,…,g_sN}(N為目標(biāo)詞的詞義個數(shù)),包括注意力計(jì)算和記憶向量更新2個部分,注意力計(jì)算建模上下文向量c與詞義向量g_s之間的語義信息。為了提高模型對釋義、例句以及上下文語義的理解,記憶模塊采用多輪注意力計(jì)算。在每輪計(jì)算后,根據(jù)當(dāng)前計(jì)算結(jié)果更新記憶向量。

(1)

式中:mk-1是第k-1輪的記憶向量,初始記憶向量m0使用上下文向量c。第一輪計(jì)算中,注意力反映的是詞義向量和上下文向量的相似度,在以后每一輪的計(jì)算中,注意力反映的是詞義向量與上一輪記憶向量的相似度。

為了突出正確詞義,在每一輪的注意力計(jì)算時都加入詞義向量。通過計(jì)算詞義向量的加權(quán)累加和來保存記憶狀態(tài)uk,可以表示為

(2)

根據(jù)上一輪的記憶向量mk-1、上下文向量c以及記憶狀態(tài)uk,采用文獻(xiàn)[10]和文獻(xiàn)[13]中效果最好的方法更新記憶向量mk,可以表示為

mk=Relu(W[mk-1:uk:c]+b),

(3)

其中“:”為拼接操作。

1.4 打分模塊

打分模塊根據(jù)記憶模塊和上下文表示模塊的輸出,計(jì)算目標(biāo)詞各個詞義的分布概率。目標(biāo)詞w的第i個詞義的分?jǐn)?shù)由記憶模塊最后一輪的注意力確定,可以表示為

(4)

上下文分?jǐn)?shù)由上下文向量經(jīng)過全連接層得到,可以表示為

scorec=Wwc+bw,

(5)

式中:Ww和bw是全連接層的權(quán)重矩陣和偏置向量。對于每個目標(biāo)詞wt,都有其對應(yīng)的權(quán)重和偏置。

(6)

2 實(shí)驗(yàn)數(shù)據(jù)和方法

2.1 數(shù)據(jù)集和詞典

實(shí)驗(yàn)使用的數(shù)據(jù)集是SemEval-2007 中英文詞義消歧數(shù)據(jù)集[18],該數(shù)據(jù)集包含2 686條訓(xùn)練語料和935條測試語料,40個用于詞義消歧的目標(biāo)詞中包括21個動詞和19個名詞,平均每個目標(biāo)詞有3個詞義。SemEval-2007中文消歧語料的詞義來自《漢語語義詞典》(CSD)[19]。CSD是北京大學(xué)構(gòu)建的語義詞典,其中的“釋義”字段為該詞語的解釋,“備注”字段為用法示例,“word”字段為對應(yīng)的英文單詞或短語。SemEval-2007中詞義描述為英文,并且和CSD中的“word”字段對應(yīng)。本文以“word”字段為詞義對齊標(biāo)記,將CSD中的“釋義”和“備注”字段分別作為詞義的解釋和例句。對于CSD中缺失的釋義和例句,根據(jù)《現(xiàn)代漢語詞典》(DCC)[20]進(jìn)行補(bǔ)充和完善。補(bǔ)充的釋義和例句,使用中科院分詞系統(tǒng)NLPIR(https:∥github.com/NLPIR-team/NLPIR)進(jìn)行分詞。

2.2 實(shí)驗(yàn)方法

為了驗(yàn)證本文模型的效果,以雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)為基線模型,對本文模型進(jìn)行了消融實(shí)驗(yàn),評價指標(biāo)使用微平均準(zhǔn)確率和宏平均準(zhǔn)確率[18]。實(shí)驗(yàn)中選用文獻(xiàn)[21]訓(xùn)練的300維詞向量,在模型訓(xùn)練中隨著模型迭代更新詞向量。

本文模型以詞語作為基本單位,在上下文表示模塊中,以目標(biāo)詞為中心,前后窗口分別設(shè)置為30個單位;在詞義表示模塊中,釋義+例句的詞語長度設(shè)置為40個單位。長短時記憶網(wǎng)絡(luò)設(shè)置為1層,包括300個隱藏單元,損失函數(shù)為交叉熵。

學(xué)習(xí)參數(shù)設(shè)置如下:Batch size為100,droupout為0.5,迭代次數(shù)為100,學(xué)習(xí)率為0.001,學(xué)習(xí)方法為Momentum。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)結(jié)果

Bi-LSTM模型將目標(biāo)詞的上下文作為輸入,利用Bi-LSTM+釋義、Bi-LSTM+例句、Bi-LSTM+釋義+例句方法分別表示Bi-LSTM模型中融合目標(biāo)詞釋義、例句以及釋義+例句信息。不同方法的實(shí)驗(yàn)結(jié)果如表1所示。從表1可以看出,本文提出的方法準(zhǔn)確率最高。融合語言知識的神經(jīng)網(wǎng)絡(luò)模型比僅使用上下文信息的神經(jīng)網(wǎng)絡(luò)方法在微平均準(zhǔn)確率和宏平均準(zhǔn)確率方面均有超過1%的提高。單獨(dú)使用例句比單獨(dú)使用釋義在兩種準(zhǔn)確率上均有提高,說明例句的作用比釋義更大。

對本文方法和基線方法的消歧結(jié)果進(jìn)行成對樣本t檢驗(yàn),P值為0.013,說明本文方法與基線方法的消歧結(jié)果存在顯著差異。

表1 不同方法的實(shí)驗(yàn)結(jié)果Table 1 Results of different methods

Bi-LSTM方法與本文方法對每個目標(biāo)詞的消歧準(zhǔn)確率對比結(jié)果表明,本文提出的消歧模型提高了40%目標(biāo)詞(16/40)的準(zhǔn)確率,40%目標(biāo)詞(16/40)的準(zhǔn)確率沒有變化,20%目標(biāo)詞(8/40)的準(zhǔn)確率有所下降??梢?,本文方法對大多數(shù)目標(biāo)詞的消歧結(jié)果有正面的影響。

3.2 釋義和例句的作用分析

表2 列舉了詞義消歧準(zhǔn)確率提升或下降幅度較大的目標(biāo)詞。從表2可以看出,Bi-LSTM模型融合釋義和例句對名詞、動詞的詞義消歧準(zhǔn)確率均有影響。

本文的模型更容易識別出用釋義和例句表示的詞義與目標(biāo)詞上下文的語義相似度,從而提高了模型的準(zhǔn)確率。例如,目標(biāo)詞“叫”在語料中的詞義分別為“ask”“name”“call”和“cry”,其對應(yīng)的釋義分別為“使;讓,命令”、“稱為;是”、“招呼,呼喚;雇”和“人或動物的發(fā)音器官發(fā)出較大的聲音”,對應(yīng)的例句分別為“~他早點(diǎn)回家/~人操心”、“~他老李/他沒~過你/這~聰明/這~莽撞不~勇敢”、“有人~你/~他去睡午覺/你~老何/車子~了”和“~下去/小鳥~著/小雞會~了/~壞了嗓子可不好”。在例句“去了三天,蚊香廠卻停機(jī)三天,叫廠里開機(jī)一試,卻說機(jī)器壞了,所以無法檢驗(yàn)”中,Bi-LSTM模型將“叫”的詞義錯誤地識別為“name”,而本文模型則正確地識別出其詞義為“ask”,這是由于本文方法識別出詞義“ask”的釋義和例句與該句中目標(biāo)詞的上下文有更高的語義相似度。

表2 消歧準(zhǔn)確率提升或下降幅度較大的目標(biāo)詞Table 2 Target words with higher disambiguation accuracy increase or decrease

外部信息的加入也降低了一些動詞和名詞的消歧準(zhǔn)確率,造成這種情況的主要原因是例句和釋義的不完善降低了模型理解詞義的能力。例如目標(biāo)詞“出”共有8個詞義,其中4個詞義缺少例句。目標(biāo)詞“動搖”的第2個詞義的釋義用其自身解釋為“使動搖”,語義信息不明顯。這種例句和釋義的不完善使模型不能很好地發(fā)現(xiàn)釋義和例句與目標(biāo)詞上下文的關(guān)系。

3.3 注意力計(jì)算輪次的影響

對比了記憶模塊中注意力計(jì)算輪次對消歧準(zhǔn)確率的影響,結(jié)果如表3所示。從表3可以看出,在3種語言知識添加的方法中,隨著注意力計(jì)算輪次的增加,準(zhǔn)確率大都有所提升。這是因?yàn)殡S著注意力計(jì)算輪次的增加,模型提高了正確詞義的注意力。當(dāng)更新輪次達(dá)到3次時,3種語言知識添加的方法大都取得了最高的準(zhǔn)確率;隨后消歧準(zhǔn)確率有所下降,說明多輪注意力雖然能更好地反映目標(biāo)詞上下文與其用釋義和例句表達(dá)的詞義之間的語義關(guān)系,但是計(jì)算輪次并不是越高越好,需要通過實(shí)驗(yàn)確定。

表3 注意力計(jì)算輪次對消歧準(zhǔn)確率的影響Table 3 The effect of attention calculation rounds on disambiguation accuracy

4 小結(jié)

本文在神經(jīng)網(wǎng)絡(luò)中文詞義消歧模型中融合了釋義和例句信息,實(shí)驗(yàn)結(jié)果表明,相對于僅利用上下文信息的神經(jīng)網(wǎng)絡(luò)方法,本文模型的宏平均準(zhǔn)確率和微平均準(zhǔn)確率均提高了約2%,說明在知識指導(dǎo)下的神經(jīng)網(wǎng)絡(luò)模型在詞義消歧任務(wù)中有明顯的作用。下一階段的工作主要包括以下3個方面:第一,利用搜索引擎和已標(biāo)注的詞義語料庫[22]擴(kuò)充例句來提高模型的準(zhǔn)確率。第二,改善知識融合方法。本文只是將目標(biāo)詞釋義和例句進(jìn)行簡單的拼接,后續(xù)的工作可以嘗試將釋義和例句進(jìn)行多種方式的結(jié)合,把更多的外部知識以及上下文的詞性、句法等特征加入到神經(jīng)網(wǎng)絡(luò)詞義消歧中。第三,完善語言資源的建設(shè)。雖然融入語言知識提高了詞義消歧的準(zhǔn)確率,但是如何解決未登錄詞以及語言知識不完備的問題還需要進(jìn)一步的研究。

猜你喜歡
例句詞義準(zhǔn)確率
“誅”的詞義演變及其在古籍中的釋義
如何學(xué)習(xí)掌握古代漢語詞義*——何九盈先生《古漢語詞義叢談》評介
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗(yàn)分析
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
西夏語“頭項(xiàng)”詞義考
根據(jù)認(rèn)知語義學(xué)淺談英語單詞記憶法
好詞好句
好詞好句