国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融入注意力機制的越南語組塊識別方法

2019-12-30 04:37:44王聞慧畢玉德雷樹杰
中文信息學(xué)報 2019年12期
關(guān)鍵詞:越南語組塊特征向量

王聞慧,畢玉德,雷樹杰

(1. 信息工程大學(xué) 洛陽校區(qū),河南 洛陽 471003;2. 復(fù)旦大學(xué) 外國語言文學(xué)學(xué)院,上海 200433)

0 引言

句法分析在自然語言處理任務(wù)中占據(jù)著重要位置,是機器翻譯(machine translation)、自動問答(automatic question answering)等更復(fù)雜任務(wù)的基礎(chǔ)。由于語言自身的復(fù)雜性,尤其對于像越南語這樣缺乏形態(tài)標(biāo)記、以字為單位的孤立語而言,實現(xiàn)完全的句法分析十分困難。為此,Abney[1]提出了組塊分析理論,該理論采取先將句子中的組塊識別出,再尋找組塊之間關(guān)系的方法,降低了句法分析的復(fù)雜度。自此,組塊識別成為研究者長期關(guān)注的重要課題。

對于越南語組塊識別而言,其主要面臨著以下三大難題: 一是越南語缺乏形態(tài)標(biāo)記,并與漢語一樣主要通過虛詞和詞序來表示語法信息,這使得在越南語組塊識別中可利用的標(biāo)記信息較少;二是越南語存在定語后置的現(xiàn)象,這增加了越南語名詞組塊內(nèi)部構(gòu)成的復(fù)雜性,同時也加大了越南語名詞組塊識別的難度;三是在越南語中,動詞作定語與動詞作謂語在形式上完全一樣,這增加了名詞組塊與動詞組塊之間的辨識難度。

對于組塊識別而言,早期的識別方法主要基于規(guī)則,如基于有限狀態(tài)機的方法[2]、基于轉(zhuǎn)換學(xué)習(xí)與錯誤驅(qū)動的方法[3-4]等。從21世紀(jì)初開始,基于MBL[5]、SVM[6]、CRF[7]等傳統(tǒng)統(tǒng)計模型以及規(guī)則與統(tǒng)計模型相結(jié)合的方法[8-10]被廣泛應(yīng)用在組塊識別任務(wù)中。近年來,隨著深度學(xué)習(xí)的興起,該方法也開始應(yīng)用于組塊識別任務(wù)中[11]。而對于越南語的組塊識別而言,主要有Lê Minh Nguyên等[12]采用CRF、SVM、Online Passive-Aggressive Learning(在線被動攻擊學(xué)習(xí),一種增量學(xué)習(xí)算法)等模型對越南語名詞組塊進(jìn)行識別,實驗結(jié)果顯示CRF模型的識別效果最好。Nguyen Thi Huong Thao等[13]將詞性特征融入到CRF模型中對越南語名詞短語進(jìn)行識別,實驗結(jié)果顯示詞性對越南語名詞短語的識別效果有提升作用。郭劍毅等[14]分析總結(jié)出了越南語名詞組塊詞性組合特征,并將其作為約束條件融入到CRF模型中,得到了較好的識別效果。李佳[11]使用字符級的詞向量作為輸入,并將詞性特征融入到Bi-LSTM+CRF模型中對越南語組塊進(jìn)行識別,取得了較好的識別效果。

綜合來看,目前對越南語組塊識別的研究還較少,識別效果還有很大的提升空間,所使用的模型也主要集中在CRF等傳統(tǒng)統(tǒng)計模型上。而在深度學(xué)習(xí)方法的應(yīng)用方面,目前所采用的模型也較為單一,主要為Bi-LSTM+CRF模型,缺乏對如注意力機制等深度學(xué)習(xí)技術(shù)最新發(fā)展的應(yīng)用。此外,在深度學(xué)習(xí)方法中,當(dāng)前研究所采用的融入特征的方法也較為機械,大多采用向量之間直接串聯(lián)拼接的方法,不能夠根據(jù)輸入靈活確定詞向量與特征向量各自的權(quán)重,這些都限制了對越南語組塊的識別效果。為此,本文主要針對深度學(xué)習(xí)方法進(jìn)行改進(jìn): 一是將注意力機制引入神經(jīng)網(wǎng)絡(luò)的輸入層,使得模型能夠靈活決定詞向量與特征向量各自的權(quán)重;二是將注意力機制融入到Bi-LSTM+CRF模型中,從而使模型能夠有選擇地聚焦于對識別有效的信息上。

1 越南語組塊內(nèi)部結(jié)構(gòu)

1.1 越南語組塊

關(guān)于越南語組塊的界定,從目前來看并沒有形成統(tǒng)一的標(biāo)準(zhǔn),本文以越南語及語音處理會議(Vietnamese language and speech processing,VLSP)網(wǎng)站公布的越南語組塊語料為調(diào)查語料庫,將越南語組塊定義為內(nèi)部可以嵌套同類型組塊的詞語序列。在VLSP語料中,涉及到的組塊類型共有八類,如表1所示。

表1 本文組塊類型及示例

1.2 越南語組塊內(nèi)部詞性組合模式

以VLSP公布的組塊標(biāo)注語料(語料已經(jīng)進(jìn)行了詞性標(biāo)注)為調(diào)查語料庫,本文對各類型組塊的內(nèi)部詞性組合模式進(jìn)行了統(tǒng)計。表1所示的八種越南語組塊類型中,名詞組塊、動詞組塊、介詞組塊和形容詞組塊所占比率最高,共占到了語料中全部組塊的99.94%,為此本文主要對調(diào)查語料庫中的名詞組塊、動詞組塊、介詞組塊和形容詞組塊四種類型組塊的內(nèi)部詞性組合模式進(jìn)行調(diào)查統(tǒng)計。其中,對名詞組塊、動詞組塊、介詞組塊與形容詞組塊頻數(shù)排名前十位的內(nèi)部詞性組合模式的統(tǒng)計結(jié)果分別如表2~表5所示。

表2~表5中,以“+”作為詞性之間的連接符。從四種組塊類型的內(nèi)部詞性組合模式來看,介詞組塊內(nèi)頻數(shù)排名前十位的詞性組合模式所對應(yīng)的組塊占到了全部介詞組塊的99%以上,動詞組塊與形容詞組塊在該項統(tǒng)計指標(biāo)上也分別達(dá)到了93.56%與96.06%,而名詞組塊中頻數(shù)排名前十位的詞性組合模式所對應(yīng)的組塊占全部名詞組塊的比例最低,為81.36%。

從以上數(shù)據(jù)可看出,越南語組塊內(nèi)部詞性構(gòu)成模式規(guī)律性明顯且分布較為集中,因此將詞性特征融入到組塊識別任務(wù)中能夠為組塊識別提供更多的信息。這是本文在模型中融入詞性特征的語言學(xué)依據(jù)。

從模型的角度講,由于多頭注意力機制能夠更好地捕獲輸入序列中各輸入值之間的內(nèi)在聯(lián)系[15],因此將多頭注意力機制應(yīng)用于越南語組塊識別任務(wù)能夠使模型更有效地利用組塊的內(nèi)部構(gòu)成信息,并通過賦予其相應(yīng)的權(quán)重,有效提升模型對組塊的識別效果。這是本文將多頭注意力機制融入 Bi-LSTM+CRF模型的語言學(xué)基礎(chǔ)。

表2 名詞組塊詞性組合模式統(tǒng)計

表3 動詞組塊詞性組合模式統(tǒng)計

表4 介詞組塊詞性組合模式統(tǒng)計

表5 形容詞組塊詞性組合模式統(tǒng)計

從對未登錄越南語組塊識別的角度講,使模型能夠在遇到未登錄越南語組塊時相應(yīng)地增加詞性特征信息的權(quán)重,并相應(yīng)地減少詞匯信息的權(quán)重,則能夠提升模型對未登錄越南語組塊的識別效果。這是本文在深度學(xué)習(xí)模型輸入層融入注意力機制的語言學(xué)依據(jù)。

2 融入注意力機制的Bi-LSTM+CRF模型

2.1 越南語詞向量與詞性特征向量獲取

詞的分布式表示[16]是一種將詞向量化的有效方法,能夠在一定程度上表示詞的語義信息,是深度學(xué)習(xí)技術(shù)應(yīng)用于自然語言處理領(lǐng)域的基礎(chǔ)。本文通過Word2Vec開源工具獲取詞向量,其包含有CBOW與Skip-gram兩種模型,其中CBOW模型通過上下文來預(yù)測當(dāng)前詞,Skip-gram模型則通過當(dāng)前詞來預(yù)測上下文。本文選取CBOW模型作為詞向量的訓(xùn)練模型,對于CBOW模型而言,其訓(xùn)練目標(biāo)是最大化如下函數(shù),如式(1)所示。

其中,C表示語料中所有詞的集合,w表示屬于C的某個詞,Context(w)表示詞w的上下文。

本文使用VnCoreNLP[17]工具對來自維基百科的大規(guī)模無監(jiān)督越南語語料進(jìn)行分詞和詞性標(biāo)注,分別形成與維基百科語料相對應(yīng)的分詞語料與詞性語料。其中,分詞語料為維基百科語料所對應(yīng)的詞序列,而詞性語料為分詞語料所對應(yīng)的詞性序列。通過使用Word2Vec模型分別對分詞語料與詞性語料進(jìn)行訓(xùn)練,獲取預(yù)訓(xùn)練的越南語詞向量與詞性特征向量。

2.2 注意力機制

自2017年Bahdanau等[18]在英法機器翻譯任務(wù)中應(yīng)用注意力機制以來,注意力機制被廣泛使用在自然語言處理的各項任務(wù)中。雖然注意力機制通常使用在Seq2Seq模型中,并作為Encoder-Decoder的一種機制來使用,但注意力機制作為一種思想,可以用來支持各種類型的自然語言處理任務(wù)。注意力機制的核心思想在于通過計算權(quán)重矩陣使得模型有選擇地聚焦于重要信息上,其本質(zhì)是一個查詢到一系列(鍵-值)對的映射,計算如式(2)~式(4)所示。

其中,Q表示查詢,K與V組成(鍵—值)對。式(2)用來計算Q與K的相似度,相似度的獲取除了式(2)中所示的點乘法以外,還可以通過余弦相似性或引入額外的神經(jīng)網(wǎng)絡(luò)來獲取。一般而言,式(2)~式(4)中的K與V相等,而在自注意力機制中,Q、K、V均相等。

作為一種較為成熟的序列標(biāo)注模型,Bi-LSTM+CRF被廣泛地應(yīng)用在各種自然語言處理任務(wù)中。針對Bi-LSTM+CRF模型,本文使用了兩種融入注意力機制的方法: 一是在Bi-LSTM層上添加了一層多頭注意力機制,詳見2.3;二是將注意力機制融入到Bi-LSTM+CRF模型的輸入層中,以獲取加入了相應(yīng)權(quán)重的聯(lián)合向量表示,詳見2.4。

2.3 Bi-LSTM+Multi-Head Attention+CRF

長短時記憶網(wǎng)絡(luò)(long-short-term memory,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的一種變體,其通過加入門限機制在一定程度上緩解了RNN面臨的梯度彌散和梯度爆炸問題。Bi-LSTM層利用了LSTM正向與反向兩個序列方向上的信息來對輸入信息進(jìn)行處理,而CRF層則通過計算輸出值之間的轉(zhuǎn)移概率,進(jìn)而將輸出值間的轉(zhuǎn)移信息融入到模型中,從而提升模型的效果。Bi-LSTM+CRF模型的整體架構(gòu)如圖1所示。

圖1 Bi-LSTM+CRF模型框架

多頭注意力機制由Vaswani等[15]在2017年提出,其由多個放縮點積注意力機制(scaled dot-product attention)組成,內(nèi)部結(jié)構(gòu)如圖2所示。

圖2 多頭注意力機制內(nèi)部結(jié)構(gòu)

由圖2可知,在放縮點積注意力機制中,通過對查詢Q與(鍵—值)對中的鍵K進(jìn)行相似度運算等一系列操作,可以獲得權(quán)重矩陣,進(jìn)而使模型有選擇地聚焦于重要信息上。而在多頭注意力機制中,在對輸入進(jìn)行線性變換以后,要進(jìn)行h次放縮點積注意力操作。之后,將h次放縮點積注意力操作后的向量進(jìn)行串聯(lián)拼接,并進(jìn)行線性變換后作為多頭注意力機制的輸出。根據(jù)Vaswani等人的研究成果,進(jìn)行多次放縮點積操作的好處在于可以使模型在不同的表示子空間里學(xué)到更多的信息[15]。

由1.2節(jié)可知,越南語組塊內(nèi)部構(gòu)成的規(guī)律性較為明顯, 而多頭注意力機制有著較強的利用輸入序列中各輸入值間規(guī)律和關(guān)系的能力,因此將多頭注意力機制加入識別模型可以增強模型利用其內(nèi)部構(gòu)成信息的能力。為此,本文在Bi-LSTM+CRF模型的基礎(chǔ)上加入了多頭注意力機制。融入了多頭注意力機制的Bi-LSTM+CRF模型的整體架構(gòu)如圖3所示。

圖3中,模型由輸入層、Bi-LSTM層、Attention層與CRF層組成。其中,輸入層將輸入的詞與詞性特征轉(zhuǎn)化為相應(yīng)的向量表示,并采用首尾串聯(lián)拼接的方式組合為聯(lián)合向量輸入到Bi-LSTM層中。Attention層在接收Bi-LSTM層的輸出后,通過計算權(quán)重矩陣,增強了模型利用重要信息的能力,從而獲得識別效果的提升。

2.4 融入注意力機制的聯(lián)合向量表示

在以往基于深度學(xué)習(xí)的序列標(biāo)注任務(wù)中,特征向量的加入一般通過與詞向量的首尾串聯(lián)拼接獲得,如圖4所示。

圖3 Bi-LSTM+Multi-Head Attention+CRF模型

圖4中,通過將預(yù)訓(xùn)練的詞向量與預(yù)訓(xùn)練的詞性特征向量首尾串聯(lián)拼接,得到了融入詞性信息的聯(lián)合向量表示,并作為模型的輸入層參與到序列標(biāo)注任務(wù)中。但這種獲取聯(lián)合向量表示的方式較為機械, 且不能夠?qū)υ~向量與特征向量在聯(lián)合向量中的權(quán)重進(jìn)行靈活調(diào)整。受Rei等[19]工作的啟發(fā),本文提出了融入注意力機制的聯(lián)合向量表示方法,計算方法如式(5)~式(7)所示。

圖4 直接串聯(lián)的聯(lián)合向量表示

通過在輸入層加入注意力機制, 可以使 模型靈活地調(diào)整輸入的詞向量與詞性特征向量的權(quán)重,進(jìn)而能夠更好地處理序列標(biāo)注任務(wù),如圖5所示。

圖5中,預(yù)訓(xùn)練的詞向量與預(yù)訓(xùn)練的詞性特征向量被分別輸入一層神經(jīng)網(wǎng)絡(luò),并在激活函數(shù)的激活下獲得各自的權(quán)重(詞向量的權(quán)重為α,詞性特征向量的權(quán)重為β)。之后,詞向量與詞性特征向量分別與各自的權(quán)重相乘,相乘獲得的兩個向量通過首尾串聯(lián)拼接的方式組合為聯(lián)合向量輸入Bi-LSTM+CRF模型。與Rei等人的方法不同,本文的方法不要求詞性特征向量的維度必須與詞向量相同,也不要求α與β的和為1,這進(jìn)一步增強了本文模型的靈活性。

圖5 基于注意力機制的聯(lián)合向量表示

3 實驗及結(jié)果分析

3.1 實驗數(shù)據(jù)

本文使用VLSP網(wǎng)站公布的組塊標(biāo)注語料為實驗數(shù)據(jù),語料總規(guī)模超過70萬詞。語料中包含8種類型的組塊,其中名詞組塊215 620個、動詞組塊120 733個、介詞組塊41 492個、形容詞組塊29 208個,其余4種組塊共641個。本文按照5∶1的比例將語料劃分為訓(xùn)練集與測試集。在測試語料中,含有各類型組塊 68 988個,其中未登錄組塊14 108個,未登錄組塊占比為20.45%。

本文使用IOB2標(biāo)注規(guī)范,每一類型組塊包含“B-組塊類型”與“I-組塊類型”兩種標(biāo)注類別,其中“B-組塊類型”用來標(biāo)注該類型組塊的開頭部分,“I-組塊類型”則用來標(biāo)注該類型組塊的中間部分與結(jié)尾部分,而對于非組塊組成成分,統(tǒng)一標(biāo)注為“O”。本文所使用語料共包含8種組塊類型,共計17種標(biāo)注類別。

3.2 評測指標(biāo)

為了全面評價模型對組塊識別的情況,本文設(shè)置了6個評價指標(biāo),如表6所示。

表6 評測指標(biāo)

續(xù)表

表6中,準(zhǔn)確率P是指標(biāo)簽標(biāo)注準(zhǔn)確率,用來評價整體識別情況;越南語組塊識別準(zhǔn)確率PC是指對越南語組塊整體的識別準(zhǔn)確率,只有對整個越南語組塊內(nèi)的所有組成詞標(biāo)注正確才算對該組塊識別正確;越南語組塊識別召回率RC是對越南語組塊整體識別的召回率;越南語組塊識別F值則綜合評價對越南語組塊整體的識別效果;未登錄越南語組塊識別召回率RUKC則用來評價模型對未登錄組塊的識別效果,是評價模型泛化能力的重要指標(biāo),由于對越南語組塊的識別難點和關(guān)鍵點都在于對未登錄組塊的識別,所以指標(biāo)也是反映模型識別效果的重要指標(biāo);未登錄越南語組塊類別召回率RUKTC則排除了對同一未登錄越南語組塊的反復(fù)識別造成的RUKC虛高的情況,從類別的角度評價模型對未登錄越南語組塊的識別效果,該指標(biāo)同樣也是評價模型泛化能力的重要指標(biāo)。

此外,本文還分別對測試語料中含有的名詞組塊、動詞組塊、介詞組塊和形容詞組塊的識別情況進(jìn)行了統(tǒng)計。為了在文中更加清晰直觀地反映模型對不同類型組塊的識別情況,并對識別情況進(jìn)行全面的評價,本文對各類型組塊識別情況的評價指標(biāo)設(shè)為F值,以名詞組塊為例,其評價指標(biāo)表示為FNP。在計算各類型組塊的相應(yīng)指標(biāo)時,只有對組塊整體包含的各個組成詞都標(biāo)注正確才算作對組塊識別正確。

3.3 模型設(shè)置

本文的模型在訓(xùn)練過程中全部使用自適應(yīng)學(xué)習(xí)率優(yōu)化函數(shù)Adam作為模型用優(yōu)化函數(shù)。為了避免學(xué)習(xí)率過高導(dǎo)致的損失值loss出現(xiàn)大幅度的震蕩,本文在多次實驗調(diào)整后將模型的learning rate設(shè)置為0.001。此外,本文也多次調(diào)整batch size的大小以達(dá)到效果的最優(yōu),最終將batch size設(shè)置為128。為防止模型出現(xiàn)過擬合現(xiàn)象,本文采用了Dropout的方法,并將dropout值設(shè)置為0.5,即在每一個迭代訓(xùn)練過程中隨機去除50%的數(shù)據(jù)量。

為了避免參數(shù)設(shè)置不同對模型識別效果造成的影響,在本文進(jìn)行的實驗中,模型的上述超參數(shù)設(shè)置完全一致,從而驗證本文提出的兩種將注意力機制融入Bi-LSTM+CRF模型方法的有效性。

3.4 實驗設(shè)計

本文使用了VLSP網(wǎng)站公布的VietChunker[13]作為本文實驗的基準(zhǔn)模型,使用其在本文測試集上的測試結(jié)果作為本文實驗的基線標(biāo)準(zhǔn)。

本文的實驗分為五個部分,第一部分使用VietChunker進(jìn)行測試;第二部分使用Bi-LSTM+CRF模型,并采用預(yù)訓(xùn)練的詞向量作為輸入;第三部分使用Bi-LSTM+CRF模型,并采用預(yù)訓(xùn)練的詞向量與詞性特征向量首尾串聯(lián)拼接形成的聯(lián)合向量作為模型輸入;第四部分使用Bi-LSTM+Multi-Head Attention+CRF模型,采用預(yù)訓(xùn)練的詞向量與詞性特征向量首尾串聯(lián)拼接形成的聯(lián)合向量作為模型輸入;第五部分使用Bi-LSTM+CRF模型,并采用融入注意力機制的聯(lián)合向量作為模型輸入,形成Attention-over-Input Layer+Bi-LSTM+CRF架構(gòu)。

通過五部分實驗結(jié)果的對比,可以驗證本文提出的兩種融入注意力機制方法的有效性。

3.5 實驗結(jié)果與分析

本文在五種實驗條件下對全部越南語組塊的識別情況如表7所示。

由表7可知,本文使用的模型絕大多數(shù)評測指標(biāo)上都要優(yōu)于VietChunker(雖然以詞向量為輸入的Bi-LSTM+CRF模型在PC上低于VietChunker 0.83%,但其在RC上高出VietChunker 4.69%),這體現(xiàn)了本文方法的有效性。

表7 全部越南語組塊識別情況統(tǒng)計

在Bi-LSTM+CRF內(nèi)部,在加入詞性特征向量后,模型對越南語組塊的識別效果有了顯著提升。其中,在準(zhǔn)確率P上提升了5.54%,在越南語組塊識別準(zhǔn)確率PC上提升了6.97%,在越南語組塊識別召回率RC上提升了7.91%,在FC上提升了7.48%,可以看出詞性特征對越南語組塊識別的提升作用非常明顯。

相對于加入詞性特征向量的Bi-LSTM+CRF模型,在加入多頭注意力機制后,模型的識別效果得到了進(jìn)一步的提升,在準(zhǔn)確率P上提升了2.89%,在越南語組塊識別準(zhǔn)確率PC上提升了2.69%,在越南語組塊識別召回率RC上提升了6.25%,在FC上提升了4.56%。這些數(shù)據(jù)表明,多頭注意力機制的加入顯著提升了模型對越南語組塊的識別效果。

而對于Attention-over-Input-Layer+Bi-LSTM+CRF方法而言,相對于加入詞性特征向量的Bi-LSTM+CRF模型,其在準(zhǔn)確率P上提升了2.16%,在越南語組塊識別準(zhǔn)確率PC上提升了1.67%,在越南語組塊識別召回率RC上提升了4.35%,在FC上提升了3.08%,這證實了在輸入層融入注意力機制方法的有效性。但相對于融入多頭注意力機制的方法而言,在輸入層融入注意力機制的方法在越南語組塊的識別效果上要相對差一些,其在準(zhǔn)確率P上要低于前者0.73%,在FC上低于前者1.48%。

本文在五種實驗條件下對越南語名詞組塊、動詞組塊、介詞組塊與形容詞組塊的識別效果如表8所示。

表8 各類型越南語組塊識別情況統(tǒng)計

由表8可知,在五種實驗條件下,模型對四種越南語組塊的識別情況與表7中所示的對全部越南語組塊的識別情況大體一致。而從四種組塊類別的角度分析,在五種實驗條件下,模型對介詞組塊的識別效果最好,對名詞組塊的識別效果最差,這一定程度上反映出這四種不同組塊類別內(nèi)部構(gòu)成的復(fù)雜性不同。其中,名詞組塊因其內(nèi)部構(gòu)成最為復(fù)雜、歧義性最為顯著,從而使得模型對其識別效果最差。從統(tǒng)計學(xué)的角度分析,由1.2節(jié)可知,在這四種越南語組塊類型中,內(nèi)部詞性組合模式規(guī)律性最為明顯的就是介詞組塊,其前十位詞性組合模式所對應(yīng)的組塊就占到了全部介詞組塊的99.38%,而名詞組塊的前十位內(nèi)部詞性組合模式所對應(yīng)的組塊僅占到全部名詞組塊的81.36%,這在一定程度上解釋了表8所示的實驗結(jié)果。

作為評價模型識別效果的重要指標(biāo),未登錄組塊識別召回率能夠在一定程度上反映模型的泛化能力,本文在五種實驗條件下對未登錄越南語組塊的識別效果如表9所示。

表9 未登錄越南語組塊識別情況統(tǒng)計

續(xù)表

從表9可以看到,相對于VietChunker,本文所使用模型在對未登錄越南語組塊識別方面的表現(xiàn)要更加優(yōu)異。而在Bi-LSTM+CRF內(nèi)部,在加入詞性特征向量后,Bi-LSTM+CRF模型對未登錄越南語組塊的識別效果有了極大的提升,其在未登錄越南語組塊識別召回率RUKC上提升了26.89%,在未登錄越南語組塊類型識別召回率RUKTC上提升了27.68%,這反映了詞性信息對未登錄越南語組塊識別的重要性。

相對于加入詞性特征向量的Bi-LSTM+CRF模型,在加入多頭注意力機制后,模型對未登錄越南語組塊的識別效果有了進(jìn)一步提升,其在未登錄越南語組塊識別召回率RUKC上提升了7.19%,在未登錄越南語組塊類型識別召回率RUKTC上提升了3.98%,這些數(shù)據(jù)表明多頭注意力機制能夠提升模型的泛化能力。

與表7和表8中所示的識別效果不同,Attention-over-Input-Layer+Bi-LSTM+CRF模型在對未登錄越南語組塊的識別效果方面要優(yōu)于Bi-LSTM+Multi-Head Attention+CRF模型,其在未登錄越南語組塊識別召回率RUKC上高于后者0.02%,在未登錄越南語組塊類型識別召回率RUKTC上高于后者2.42%。這表明,在輸入層融入注意力機制的方法能夠更好地調(diào)整詞向量與詞性特征向量在識別過程中所占的比重,使得模型在遇到未登錄越南語組塊時能夠加大詞性特征向量所占的權(quán)重??紤]到詞性信息在模型對未登錄組塊的預(yù)測上的重要作用,這樣可以使得模型更好地處理未登錄越南語組塊,從而增強模型的泛化能力。

5 結(jié)論

針對越南語組塊識別任務(wù),本文在前期對越南語組塊內(nèi)部詞性構(gòu)成模式進(jìn)行統(tǒng)計調(diào)查的基礎(chǔ)上,發(fā)現(xiàn)其內(nèi)部詞性構(gòu)成模式具有很強的規(guī)律性,因此提出了融入注意力機制的思路,從而使得模型能夠更多地聚焦于組塊的內(nèi)部構(gòu)成信息。在Bi-LSTM+CRF模型的基礎(chǔ)上,本文使用了兩種融入注意力機制的方法,一是在Bi-LSTM之上加入多頭注意力機制,二是在輸入層融入注意力機制。實驗結(jié)果表明,兩種融入注意力機制方法都能夠有效提升模型對越南語組塊的識別效果,且兩種方法有著各自的優(yōu)勢和特點。其中,在對越南語組塊的整體識別情況上,加入多頭注意力機制的方法要好于在輸入層融入注意力機制的方法,但在對未登錄越南語組塊的識別情況上,在輸入層融入注意力機制的方法要好于在Bi-LSTM之上加入多頭注意力機制的方法。

猜你喜歡
越南語組塊特征向量
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
納蘇彝語越南語親屬稱謂特征及其文化內(nèi)涵異同研究
橫浪作用下大型上部組塊雙船浮托安裝動力響應(yīng)特性試驗研究
一類特殊矩陣特征向量的求法
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
漢語經(jīng)歷體標(biāo)記“過”及其在越南語中的對應(yīng)形式
陸豐7-2油田導(dǎo)管架平臺上部組塊低位浮托安裝關(guān)鍵技術(shù)
現(xiàn)代漢語與越南語存在句否定形式與情態(tài)特征的比較研究
英語詞匯組塊學(xué)習(xí)路徑研究——組塊法
阿城市| 大田县| 武宁县| 湘潭市| 义马市| 兴城市| 修水县| 青神县| 浦城县| 剑河县| 仙居县| 察哈| 庆云县| 凤山市| 长乐市| 剑河县| 毕节市| 城固县| 易门县| 黔西| 清徐县| 鸡西市| 鄂托克前旗| 电白县| 苍山县| 宝应县| 抚顺县| 曲阳县| 莫力| 百色市| 汕头市| 苏尼特右旗| 黄龙县| 新干县| 榕江县| 吉隆县| 平度市| 鄢陵县| 曲阜市| 济源市| 孝昌县|