国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合詞性句法位置特征的漢老雙語句子相似度計(jì)算

2023-02-04 09:26:48周蘭江周蕾越
中文信息學(xué)報(bào) 2023年12期
關(guān)鍵詞:雙語標(biāo)簽語義

郭 雷,周蘭江,周蕾越

(1. 昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué)津橋?qū)W院 電氣與信息工程學(xué)院,云南 昆明 650500)

0 引言

老撾語是老撾人民民主共和國的通用語言,譜系上屬于漢藏語系壯侗語族壯傣語支,使用人口約400多萬。隨著時代的發(fā)展,中國與老撾等國家交流日益緊密,老撾語等低資源語言的研究顯得越來越重要。漢老雙語句子相似度計(jì)算可衡量漢老兩個句子語義的相似程度,是漢老平行句對抽取、漢老雙語機(jī)器翻譯、漢老雙語問答系統(tǒng)等研究領(lǐng)域的基石。傳統(tǒng)的句子相似度計(jì)算方法有基于語義詞典(《同義詞詞林》《知網(wǎng)》及WordNet等)的方法[1-3]、基于主題模型的方法[4-5]、基于句子語法結(jié)構(gòu)特征的方法[6-8]等。以上這些傳統(tǒng)的方法只能提取到句子的淺層特征,而且針對老撾語的研究缺乏句法分析、大規(guī)模語義詞典等工具。基于傳統(tǒng)向量空間模型的方法[9-11]則是用向量的形式來表征文本的特征,再通過計(jì)算向量的余弦距離、曼哈頓距離等得到句子相似度分?jǐn)?shù)。這種方法表征文本特征,其向量是非常稀疏的,而且忽略了句子中詞語的位置信息。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,神經(jīng)網(wǎng)絡(luò)能自動提取出特征向量表征句子語義,并得到許多學(xué)者的廣泛應(yīng)用[12-17]。

本文針對老撾語與漢語表達(dá)相同句子時,句子成分中名詞、形容詞、數(shù)詞、量詞等詞序的差異性,構(gòu)建了詞性句法位置特征標(biāo)簽。通過構(gòu)造特征詞標(biāo)簽和特征詞性標(biāo)簽,并給特征詞性標(biāo)簽和普通詞性賦值計(jì)算得到句子的特征標(biāo)簽向量,然后與句子的分布式表示拼接來減小漢老雙語句子表達(dá)上的詞序差異性,提高句子相似度計(jì)算正確率。為了更好地提取出句子的詞序表達(dá)特征,本文采用三種不同尺寸的濾波器來提取特征,并通過線性門控單元(GLU)篩選卷積層提取的特征后,利用自注意力機(jī)制對句子中的單詞賦予不同的權(quán)重。同時,通過帶有自注意力機(jī)制的雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)來獲得句子中單詞的上下文信息,然后將兩個神經(jīng)網(wǎng)絡(luò)的語義特征向量進(jìn)行拼接,最后計(jì)算漢老雙語句子間的相似度分?jǐn)?shù)。本文方法在語料稀缺的情況下取得了顯著效果,F1值達(dá)到了77.19%。

本文的主要貢獻(xiàn)如下:

(1) 根據(jù)老撾語名詞、形容詞、數(shù)詞、量詞等在句法表達(dá)上與漢語的位置差異性,提出一種構(gòu)建特征詞標(biāo)簽和特征詞性標(biāo)簽的方法,使句子的分布式表示包含更多的語義信息。

(2) 通過添加包含常見的1 500對漢老詞對的詞典進(jìn)行漢語和老撾語的跨語言詞嵌入映射,減少因語言不同帶來的詞向量上的差異。

(3) 根據(jù)漢老雙語的詞序差異特征,本文采用含有自注意力機(jī)制的不同尺度卷積核的門控卷積神經(jīng)網(wǎng)絡(luò),提取漢老雙語句子中不同詞性組合的句法位置特征,再與含有自注意力機(jī)制的雙向長短時記憶網(wǎng)絡(luò)提取的上下文語義信息特征向量拼接,并計(jì)算句子相似度分?jǐn)?shù)。此方法有效提高了漢老雙語句子相似度計(jì)算的準(zhǔn)確率。

本文組織結(jié)構(gòu)如下: 引言介紹本文研究對象的背景、意義、方法。第1節(jié)為相關(guān)工作,綜述了目前句子相似度計(jì)算的方法與成果。第2節(jié)介紹漢語與老撾語在句子表達(dá)上的差異性。第3節(jié)介紹本文使用的模型結(jié)構(gòu)。第4節(jié)介紹實(shí)驗(yàn)參數(shù)設(shè)置、實(shí)驗(yàn)效果以及與其他模型的對比實(shí)驗(yàn)、本文模型不同特征下的實(shí)驗(yàn)對比和不同卷積核尺度的實(shí)驗(yàn)效果對比。第5節(jié)為總結(jié)與展望。

1 相關(guān)工作

傳統(tǒng)的同類語言文檔相似度或跨語言文檔相似度計(jì)算方法主要有基于語義詞典的方法、基于主題模型的方法、基于句子語法結(jié)構(gòu)特征的方法和基于傳統(tǒng)的向量空間模型方法。

在基于語義詞典的方法中,石杰等人[1]利用多語言版本詞典WordNet,將中、泰雙語文本特征詞轉(zhuǎn)換成英語,最后在英語版WordNet詞典上計(jì)算特征詞的相似度來得到文本相似度;程傳鵬等人[2]利用《知網(wǎng)》來計(jì)算詞語之間的相似度以此求得句子之間的相似度;周艷平等人[3]借助同義詞詞林來計(jì)算句子詞形相似度以此得到句子的相似度。

在基于主題模型的方法中,程蔚等人[4]利用雙語LDA模型預(yù)測新語料的主題分布,并結(jié)合主題分布使用余弦相似度計(jì)算雙語文檔的相似度;Preiss[5]翻譯源主題模型中的每個單詞并替換成目標(biāo)語言的單詞映射,創(chuàng)建目標(biāo)主題語言模型來計(jì)算不同語言的相似度。

在基于句子語法結(jié)構(gòu)特征的方法中,李彬等人[6]通過語義依存樹計(jì)算句子中的核心關(guān)鍵詞來計(jì)算兩個句子的相似度;李茹等人[7]利用多框架語義對句子語義進(jìn)行刻畫,并利用框架的重要程度來計(jì)算句子間的語義相似度;黃洪等人[8]改進(jìn)基于語義依存的句子相似度算法,計(jì)算兩個句子中核心詞、關(guān)鍵詞和其他詞的相似度分?jǐn)?shù),并精確分配其權(quán)重來計(jì)算句子的相似度。

在基于傳統(tǒng)的向量空間模型方法中,殷耀明等人[9]分別給表達(dá)兩個句子語義的關(guān)鍵詞元組中的關(guān)鍵詞向量賦予不同的權(quán)重,以此表達(dá)句子語義特征,計(jì)算句子的相似度;Li等人[10]利用兩個句子的語義向量和詞序向量分別計(jì)算語義相似度和詞序相似度,最后得到兩個句子的相似度;張俊飛[11]改進(jìn)TF-IDF算法,結(jié)合余弦定理計(jì)算中文語句相似度。

雖然傳統(tǒng)的句子相似度計(jì)算方法取得了不錯的效果,但是對于跨語言句子相似度計(jì)算還有很多局限性。例如,基于語義詞典的方法無法解決未登錄詞的語義問題,針對本文的研究對象老撾語,則缺乏大規(guī)模雙語語義詞典;基于主題模型的方法對每個詞的表征不夠,僅僅屬于這個主題范圍;基于句子語法結(jié)構(gòu)特征的方法依賴于人工提取特征的效果;基于傳統(tǒng)的向量空間模型的方法的向量維度十分小,向量表征的句子語義有限,TF-IDF模型中句子語義向量表示十分稀疏,不具有任何語義信息,也無法表達(dá)詞序信息等。目前大多數(shù)學(xué)者是利用神經(jīng)網(wǎng)絡(luò)的方法提取句子語義特征向量。李曉等人[12]利用Word2Vec得到的詞向量計(jì)算句子中主語成分、謂語成分、賓語成分的相似度,最后得到句子的相似度;Yin等人[13]利用CNN獲取句子局部信息得到語義特征向量來計(jì)算句子的相似度;Mueller等人[14]提出并利用孿生LSTM模型獲取句子中上下文的語義信息,得到語義特征向量,最后采用曼哈頓距離計(jì)算句子間的相似度分?jǐn)?shù);李霞等人[15]采用融合了自注意力機(jī)制的門控線性卷積神經(jīng)網(wǎng)絡(luò)提取句子的局部和全局語義信息,最后輸入Softmax函數(shù)得到兩個句子的語義相似度概率;江燕等人[16]采用CNN和BiLSTM相結(jié)合的方法獲取句子語義信息,并結(jié)合門控機(jī)制給語義信息賦予不同的權(quán)重,最后通過曼哈頓距離計(jì)算兩個句子的相似度分?jǐn)?shù);郭浩等人[17]采用CNN和BiLSTM相結(jié)合的方式,并結(jié)合Attention機(jī)制給語義信息賦予不同的權(quán)重,最后通過余弦相似度方法計(jì)算兩個句子的相似度分?jǐn)?shù)。

2 漢語-老撾語句子詞序差異

在漢語和老撾語中,名詞、形容詞、數(shù)詞、量詞都是很重要的詞性。名詞一般充當(dāng)句子的主語或者賓語,表示人或事物等實(shí)體存在的詞。形容詞一般修飾名詞或代詞,用來修飾人或事物的性質(zhì)、狀態(tài)、屬性等。而數(shù)詞常被用來表示名詞和代詞的數(shù)目、順序,尤其在新聞、經(jīng)濟(jì)等領(lǐng)域,數(shù)詞的作用表現(xiàn)得更加明顯。量詞一般用來修飾名詞,傳統(tǒng)的量詞,如點(diǎn)、粒、顆、滴、條、串、堆、疊等有明顯的表形作用,用來區(qū)分本質(zhì)相同而外部形態(tài)有區(qū)別的事物,且使用廣泛,成為句法結(jié)構(gòu)中不可缺少的因素。通過漢語和老撾語對比,發(fā)現(xiàn)兩者在形容詞和名詞的表達(dá)順序上有很大的差異[18],同時量詞、數(shù)詞的語法規(guī)律也比較復(fù)雜,存在許多不同之處[19]。主要表現(xiàn)在以下幾個方面:

(1) 漢語中的表達(dá)如“大蘋果”“美麗的風(fēng)景”“大碗米飯”,在老撾語里面的表達(dá)則是“蘋果大”“風(fēng)景美麗的”“米飯碗大”。與漢語常用表達(dá)不同,漢語里面形容詞一般放在被修飾名詞所處位置的前面,而老撾語中形容詞一般放在被修飾名詞所處位置的后面。

(2) 當(dāng)數(shù)詞是“一”時,漢語中的表達(dá)如“一本書”,在老撾語里面的表達(dá)則是“書本一”或“書一本”。與漢語常用表達(dá)不同,老撾語中的名詞一般是放在量詞所處位置前面,而數(shù)詞“一”的位置放在量詞所處位置前面或者后面都行。而當(dāng)數(shù)詞是“二”或“二”以上時,如漢語中表達(dá)“兩個人”,在老撾語里面的表達(dá)則是“人兩個”。與漢語常用表達(dá)不同,老撾語中名詞一般是放在量詞所處位置前面,而量詞一般是在數(shù)詞所處位置之后。其具體表達(dá)示例如表1所示。

表1 漢語-老撾語句子示例

3 融合詞性句法位置特征的漢老雙語句子相似度計(jì)算模型

3.1 模型結(jié)構(gòu)

本文首先對漢老雙語平行句對進(jìn)行分詞和詞性標(biāo)注的預(yù)處理,分別得到老撾語和漢語的詞性標(biāo)簽。其次根據(jù)漢老雙語句子的詞性句法位置特征構(gòu)造特征詞標(biāo)簽和特征詞性標(biāo)簽,并給特征詞性標(biāo)簽賦值,計(jì)算得到該句子的特征標(biāo)簽向量后與該句子的分布式表示進(jìn)行拼接。然后將漢老雙語句子分布式表示輸入到均含自注意力機(jī)制的門控卷積神經(jīng)網(wǎng)絡(luò)和雙向長短時記憶網(wǎng)絡(luò)中,將提取到的特征語義向量進(jìn)行融合后分別計(jì)算其相對差和相對積。最后將得到的結(jié)果拼接并輸入到全連接網(wǎng)絡(luò)層,得到漢老雙語句子的相似度分?jǐn)?shù),模型結(jié)構(gòu)如圖1所示。

圖1 融合詞性句法位置特征的漢老雙語句子相似度計(jì)算模型圖

如圖1所示,該模型框架圖由以下幾部分構(gòu)成:

(1)預(yù)處理層: 對漢老雙語句子進(jìn)行分詞和詞性標(biāo)注,根據(jù)詞性句法位置添加特征詞標(biāo)簽和特征詞性標(biāo)簽。

(2)嵌入層: 通過嵌入層獲得含有特征詞標(biāo)簽向量和特征詞性標(biāo)簽向量的漢老雙語句子的分布式表示。

(3)網(wǎng)絡(luò)層: 利用不同大小卷積核的CNN層獲得句子的局部詞性組合語義信息,然后利用GLU層和池化層對CNN提取到的信息進(jìn)行篩選并拼接得到局部語義信息特征向量,最后通過自注意力機(jī)制獲得句子長距離的語義信息。同時,利用BiLSTM網(wǎng)絡(luò)層得到句子的上下文語義信息后,再通過自注意力機(jī)制對句子中的單詞進(jìn)行加權(quán)獲得語義信息。最后將兩個網(wǎng)絡(luò)層得到的特征向量進(jìn)行拼接,作為該句子最后的特征語義向量表示。

(4)相似度計(jì)算層: 將網(wǎng)絡(luò)層得到的語義特征向量進(jìn)行按位減、按位乘后,將結(jié)果拼接輸入到全連接層,得到漢老雙語句子相似度分?jǐn)?shù)。

3.2 詞性句法特征標(biāo)記

通過與老撾語專家討論和相關(guān)文獻(xiàn)的研讀,為了減小漢老雙語句子表達(dá)時的詞序差異,本文對漢語和老撾語的詞性(名詞、形容詞、數(shù)詞、量詞等)在句子中的位置特征進(jìn)行標(biāo)記。老撾語利用實(shí)驗(yàn)室工具進(jìn)行分詞[20]和詞性標(biāo)注[21],漢語利用中國科學(xué)院研發(fā)的NLPIR工具進(jìn)行分詞和詞性標(biāo)注,得到“名詞/n、形容詞/a、數(shù)詞/m、量詞/q”等詞性,并去除影響特征標(biāo)記且不影響句意的助詞“的/u”。具體標(biāo)記樣式如下:

表2 漢老詞性句法位置特征標(biāo)記示例

3.3 嵌入層3.3.1 基于漢老雙語詞典的雙語詞向量映射

詞向量作為自然語言處理任務(wù)中的核心表征技術(shù),其質(zhì)量在很大程度上影響著下游任務(wù)的質(zhì)量。雖然Conneau等人[22]和Mikolov等人[23]的研究表明,不同語言在詞向量表征上有相似之處,但本文為了得到高質(zhì)量的漢老雙語詞向量,采用與Artetxe[24]相同的方法,預(yù)先訓(xùn)練好漢語詞嵌入矩陣X和含有特征標(biāo)簽詞的老撾語詞嵌入矩陣Z,利用只需要少量人工標(biāo)注數(shù)據(jù)(種子詞典)的半監(jiān)督跨語言詞向量模型訓(xùn)練得到高質(zhì)量的跨語言詞向量。

本文使用1 500對漢老常見單詞的種子詞典D,在漢老雙語字典條目Dij=1(第i個漢語言單詞和第j個老撾語單詞對齊)的情況下,通過式(1)利用SVD方法求解得到最優(yōu)映射矩陣W*,使得映射漢語詞嵌入矩陣Xi*W和老撾語詞嵌入矩陣Zj*之間的平方歐幾里得距離之和最小。得到最優(yōu)映射矩陣以后,將漢語詞嵌入矩陣X和老撾語詞嵌入矩陣Z通過式(2)和式(3)映射到共享語義空間中。

3.3.2 漢老雙語特征標(biāo)簽向量表示

ei+1×1+…+en×0

(4)

3.4 網(wǎng)絡(luò)層

通過嵌入層獲得漢老雙語句子的分布式表示后,將其輸入到網(wǎng)絡(luò)層以獲得包含更多信息的語義特征向量。模型的網(wǎng)絡(luò)層由含有自注意力機(jī)制的門控卷積神經(jīng)網(wǎng)絡(luò)和雙向長短時記憶神經(jīng)網(wǎng)絡(luò)構(gòu)成。

3.4.1 門控卷積神經(jīng)網(wǎng)絡(luò)(GCN)

門控卷積神經(jīng)網(wǎng)絡(luò)是Dauphin等人[25]在2016年提出來的,使用CNN卷積網(wǎng)絡(luò)層和門控線性單元(Gated Linear Units,GLU)組成的網(wǎng)絡(luò)結(jié)構(gòu),門控卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。

圖2 門控卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

門控卷積的計(jì)算如式(5)~式(7)所示,一個普通卷積的計(jì)算結(jié)果和一個Sigmoid函數(shù)運(yùn)算的卷積結(jié)果點(diǎn)乘。

A=Ex*Wi+b

(5)

B=Ex*Vi+c

(6)

h(Ex)=A?σB

(7)

其中,Ex為句子Sx的分布式表示,有兩組參數(shù)矩陣W={W1,W2,W3,…,Wm/2}和V={V1,V2,V3,…,Vm/2}也就是使用的卷積核,m是卷積核個數(shù),Wi,Vi∈Rk×d,b,c∈Rd是參數(shù)矩陣,其中,k是卷積核的大小,d是詞向量維度,*表示滑動卷積。在式(5)和式(6)中,Ex經(jīng)過m個卷積核后得到數(shù)量各為m/2的特征圖A和特征圖B,卷積核之間的訓(xùn)練參數(shù)不共享。通過式(7)(門控線性單元(GLU))篩選卷積層特征得到最后的語義特征矩陣h,σ是Sigmoid函數(shù),?是矩陣間的元素點(diǎn)積。最后池化層對線性門控卷積計(jì)算得到的特征矩陣h進(jìn)行采樣,得到新的特征矩陣H。特征矩陣H保留主要特征,減小了模型參數(shù),增加了模型的的泛化能力。為了縱向提取句子的局部語義信息,采用不同尺度大小的卷積核,將3個不同大小卷積核窗口的輸出結(jié)果經(jīng)過GLU和池化層提取特征后,將其拼接得到句子Sx的語義向量表示Vx=[H1⊕H2⊕H3],⊕表示向量拼接。本文將GCN網(wǎng)絡(luò)層得到的漢老雙語句子向量分別表示為VC_GCN和VL_GCN。

3.4.2 雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)

長短時記憶網(wǎng)絡(luò)(LSTM)是RNN的衍生網(wǎng)絡(luò),針對梯度消失和梯度爆炸問題,在RNN的基礎(chǔ)上加入門控機(jī)制。但是LSTM模型無法編碼從后到前的信息,本文采用前向的LSTM與后向的LSTM結(jié)合成BiLSTM的方法來提取文本特征。其結(jié)構(gòu)如圖3所示。

圖3 BiLSTM結(jié)構(gòu)示意圖

3.4.3 自注意力(Self-Attention)層

在句子中,不同的單詞對整個句子的語義貢獻(xiàn)不同,使用自注意力(Self-Attention)機(jī)制來給每個單詞分配權(quán)重,以此得到句子的全局信息。句子Sx在經(jīng)過BiLSTM和GCN網(wǎng)絡(luò)層輸出的句子語義特征向量Hx、Vx,再通過式(8)~式(10)對句子Sx中不同單詞賦予不同的權(quán)重,最終得到該句子新的語義特征向量Z。

本文將漢語和老撾語句子經(jīng)過GCN網(wǎng)絡(luò)層和BiLSTM得到的輸出狀態(tài)向量VC_GCN、VL_GCN和HC_Bi、HL_Bi分別輸入到自注意力層,得到含有各單詞權(quán)重信息的漢老雙語句子特征語義向量,分別表示為ZC_GCN、ZL-GCN和ZC_Bi、ZL_Bi,然后對此輸出進(jìn)行拼接,得到漢老雙語句子的最終語義特征向量SC=[ZC_GCN⊕ZC_Bi]、SL=[ZL_GCN⊕ZL_Bi]。

3.5 相似度計(jì)算層

通過網(wǎng)絡(luò)層獲取到漢老雙語句子最終語義表示SC、SL后,類似于Shao[26]的工作,對其執(zhí)行按位減操作(取絕對值)和按位乘操作,然后將其結(jié)果進(jìn)行拼接獲得兩個句子的語義相似度的表示。計(jì)算如式(11)所示。

P1=(|SC?SL|)⊕(SC?SL)

(11)

其中,?表示漢老元素對應(yīng)相減,?表示漢老元素對應(yīng)相乘,⊕表示將結(jié)果進(jìn)行拼接。

最后將漢、老句子的語義相似度的表示輸入全連接層進(jìn)行計(jì)算,得到漢老句子的相似度分?jǐn)?shù)。其計(jì)算如式(12)、式(13)所示。

其中,W1、W2和b、c均為模型參數(shù),P為模型最后輸出的相似度分?jǐn)?shù),其輸出值在0~1之間。

4 實(shí)驗(yàn)及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文使用的數(shù)據(jù)集分為兩部分。第一部分用于預(yù)訓(xùn)練雙語詞向量的數(shù)據(jù)集: 漢語部分采用Li等人[27]已經(jīng)預(yù)訓(xùn)練好的詞向量(1.68 GB),老撾語部分通過老撾語維基百科爬取的150.4 MB單語語料訓(xùn)練得到。在分別得到漢老單語詞向量的基礎(chǔ)上,采用與Artetxe等人相同的方法,加入漢老詞語在計(jì)數(shù)單位、月份等方面表達(dá)差異性較大的1 500單詞對作為種子詞典,并利用半監(jiān)督跨語言詞向量模型訓(xùn)練得到高質(zhì)量的漢語詞向量和老撾語詞向量。第二部分?jǐn)?shù)據(jù)為模型訓(xùn)練數(shù)據(jù)集: 在老撾語維基百科和中文維基百科爬取的篇章級對齊語料上,經(jīng)過老撾語留學(xué)生人工對齊和校對后得到95 100條平行句對。本文以每個平行句對的負(fù)樣本數(shù)為7的比例來構(gòu)建非平行語料庫,最終得到665 800條非平行句對,如表3所示。

表3 漢老雙語句對數(shù)據(jù)集

將數(shù)據(jù)集按照9∶1進(jìn)行訓(xùn)練集和測試集的劃分。本文實(shí)驗(yàn)在固定隨機(jī)種子數(shù)下使用10折交叉驗(yàn)證,輪流將訓(xùn)練集中9份作為訓(xùn)練數(shù)據(jù)、1份作為驗(yàn)證數(shù)據(jù)進(jìn)行實(shí)驗(yàn),取10次實(shí)驗(yàn)結(jié)果的均值。每次訓(xùn)練使用的數(shù)據(jù)集劃分如表4所示。

表4 訓(xùn)練模型數(shù)據(jù)集劃分結(jié)果

4.2 實(shí)驗(yàn)參數(shù)設(shè)置

模型實(shí)現(xiàn)使用Python語言及Keras框架。實(shí)驗(yàn)中每個句子的長度設(shè)定為25,在線性門控卷積神經(jīng)網(wǎng)絡(luò)中,使用不同尺寸的卷積核來提取文本特征,其卷積核大小為2、3、4,卷積核長度為詞向量維度300,卷積核個數(shù)各128個。經(jīng)過門控線性層和池化層的特征提取后將其輸出拼接,為了防止過擬合,加入dropout,參數(shù)值設(shè)為0.2。BiLSTM的隱節(jié)點(diǎn)數(shù)量設(shè)置為64。采用Adam算法對模型進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)為0.01。Batch size的大小設(shè)置為1 024,Epoch為50。實(shí)驗(yàn)采用交叉熵作為損失函數(shù),如式(14)所示。

Loss(pi,yi)=

(14)

其中,pi為模型預(yù)測的分值,yi為人工評定的分值,N為樣本的個數(shù)。

4.3 評價指標(biāo)

本文對實(shí)驗(yàn)結(jié)果評測采用常用的評價指標(biāo)精確率P(Precision)、召回率R(Recall)和F1值。將漢、老平行句對的標(biāo)簽設(shè)置為1,將漢、老非平行句對的標(biāo)簽設(shè)置為0。本文采用數(shù)值0.5作為漢老句子相似度分?jǐn)?shù)的判別閾值,當(dāng)漢老句子的相似度分?jǐn)?shù)大于數(shù)值0.5時,即將其分為相似句子對。準(zhǔn)確率、召回率和F1值計(jì)算如式(15)~式(17)所示。

4.4 模型對比實(shí)驗(yàn)

本文使用均含有自注意力機(jī)制的門控卷積神經(jīng)網(wǎng)絡(luò)和雙向長短時記憶網(wǎng)絡(luò)的模型框架來分別提取漢老句子特征,將兩個網(wǎng)絡(luò)層提取到的特征進(jìn)行融合,在此基礎(chǔ)上融合本文提出的詞性句法位置特征來提高模型的準(zhǔn)確率。為了探索本文方法的有效性,設(shè)置了以下幾個對比實(shí)驗(yàn):

(1) 將門控線性卷積網(wǎng)絡(luò)(GCN)和雙向長時期記憶網(wǎng)絡(luò)(BiLSTM)組合的模型作為本文的基準(zhǔn)模型(Base Model)。

(2) 將自注意力機(jī)制加入模型驗(yàn)證其有效性。

(3) 加入特征詞標(biāo)簽(A-TAG、B-TAG)和特征詞性標(biāo)簽向量(為了表達(dá)方便,本文將其記作“V-TAG”)的模型,即本文方法(Ours)。

為了驗(yàn)證本文方法的有效性,本文與目前主流的計(jì)算跨語言句子(文本)相似度的計(jì)算模型做了對比: 分別為Yin等人[13]提出的將CNN用來提取句子特征,并將特征用來計(jì)算文本相似度;Mueller等人[14]提出的Siamese LSTM模型來提取句子的深層語義特征,通過比較兩個句子向量間的曼哈頓距離來計(jì)算兩個句子的相似度;郭浩等人[17]提出的CNN+BiLSTM+Self-Attention模型,分別利用CNN和BiLSTM網(wǎng)絡(luò)層提取的句子結(jié)構(gòu)特征來計(jì)算文本的相似度;李霞等人[15]提出的CNN+GLU+Self-Attention模型利用卷積提取的局部特征和自注意力機(jī)制提取的全局特征來計(jì)算跨語言句子的相似度。以上7個模型均在同一語料下采用10折交叉驗(yàn)證法進(jìn)行實(shí)驗(yàn)。最終實(shí)驗(yàn)結(jié)果如表5所示。

表5 不同模型實(shí)驗(yàn)結(jié)果 (單位: %)

由表中結(jié)果可知,模型(1)為本文的基準(zhǔn)模型,模型(2)加入了自注意力機(jī)制,其F1值提高了2.74%。說明自注意力機(jī)制給句子中的單詞加以不同的權(quán)重以區(qū)分句子中每個單詞的重要性的方法使模型學(xué)到了更多的語義信息。模型(3)加入了詞性句法位置特征標(biāo)簽,其F1值在此基礎(chǔ)上又提高了2.56%。這是因?yàn)闈h老雙語在名詞、形容詞、量詞、數(shù)詞語序表達(dá)上有較大的差異,通過詞性句法位置特征標(biāo)注后求得句子的特征標(biāo)注詞向量,將其拼接在漢老句子的分布式表示的最后,使得模型能學(xué)到更加豐富的語義信息。

另一方面,在與前人的模型實(shí)驗(yàn)對比上面,通過模型(2)與模型(6)比較,模型(2)的F1值提高了1.09%。此結(jié)果表明門控線性單元(GLU)對卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取到的特征進(jìn)行了有效的篩選,更好地捕獲了句子的局部語義信息。通過模型(2)與模型(4)、模型(5)、模型(7)的比較,本文提出的模型方法效果最好。因?yàn)楸疚哪P徒Y(jié)合了門控卷積神經(jīng)網(wǎng)絡(luò)(GCN)和雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)的優(yōu)勢,并融合自注意力機(jī)制,使得網(wǎng)絡(luò)提取到的漢老雙語句子語義特征向量含有更加豐富的語義信息。

4.5 特征詞和詞性標(biāo)簽添加對比

漢老句子在名詞+形容詞、名詞+量詞+形容詞、數(shù)詞+量詞+名詞等詞性組合下存在表達(dá)的差異。為了提高句子相似度計(jì)算的準(zhǔn)確性,本文給句子中的詞性組合后面添加特征詞標(biāo)簽(A-TAG、B-TAG)、句末添加特征詞性標(biāo)簽向量(V-TAG)來豐富句子的語義信息。以下是添加不同特征詞標(biāo)簽和是否添加特征詞性標(biāo)簽向量的對比實(shí)驗(yàn),其結(jié)果如表6所示。

表6 不同特征對比實(shí)驗(yàn) (單位: %)

由以上實(shí)驗(yàn)可知,加入特征詞標(biāo)簽(A-TAG、B-TAG)和特征詞性標(biāo)簽向量(V-TAG)對實(shí)驗(yàn)效果有較大的提升。其中加入特征詞標(biāo)簽(A-TAG)的F1值提升了0.69%,對比加入特征詞標(biāo)簽(B-TAG)的F1值提升的0.47%效果要好,是因?yàn)闈h老雙語句子中的形容詞+名詞或形容詞+量詞+名詞的詞性組合較多,能提供的語義信息更多,模型學(xué)習(xí)效果更好。在句末添加特征詞性標(biāo)簽向量(V-TAG)的方式相比于不加特征的實(shí)驗(yàn)效果,其F1值提升了0.83%。相比于單獨(dú)添加特征詞標(biāo)簽的實(shí)驗(yàn)效果要好,是因?yàn)榇朔椒ǜ_地表達(dá)了漢老句子中的詞性組合。將這兩種融合特征的方式加入實(shí)驗(yàn)中,其F1值提高了2.55%,對實(shí)驗(yàn)效果提升明顯。

4.6 不同卷積核大小對比

漢老句子在名詞+形容詞、名詞+量詞+形容詞、數(shù)詞+量詞+名詞等詞性組合下存在表達(dá)的差異。為了提高句子相似度計(jì)算的準(zhǔn)確性,依據(jù)不同詞性組合中詞的數(shù)量,本文使用卷積核大小為2、3、4,卷積核長度為詞向量維度的三種不同尺度的卷積核來提取句子中詞性組合特征向量,以減少漢老雙語句子詞序表達(dá)的差異性。在本文模型下,不同尺度的卷積核對漢老雙語句子相似度計(jì)算的實(shí)驗(yàn)結(jié)果如表7所示。

表7 不同尺度卷積核大小實(shí)驗(yàn) (單位: %)

從以上實(shí)驗(yàn)可知,不同的卷積核尺度大小對實(shí)驗(yàn)結(jié)果有影響。根據(jù)老撾語和漢語的表達(dá)特征,當(dāng)卷積核尺度為2時,能提取到名詞+形容詞詞性組合特征向量;當(dāng)卷積核尺度為3時,能提取到名詞+形容詞+特征詞標(biāo)簽(A-TAG)、名詞+量詞+形容詞、數(shù)詞+量詞+名詞的詞性組合特征向量;當(dāng)卷積核尺度為4時,能提取到名詞+量詞+形容詞+特征詞標(biāo)簽(A-TAG)、數(shù)詞+量詞+名詞+特征詞標(biāo)簽(B-TAG)的特征向量。通過實(shí)驗(yàn)可知,卷積核尺度為4的實(shí)驗(yàn)效果最好,是因?yàn)槿谌肓溯^多特征詞標(biāo)簽而增加了向量的語義信息,而且?guī)缀鯇h老句子中全部詞序差異的特征都提取出來了。由實(shí)驗(yàn)可知,當(dāng)三個不同尺度的卷積核同時使用時效果最好,能分別提取句子在縱向詞語上的詞序信息,相比于單個尺度的卷積核,效果分別提升了3.20%、2.68%、1.62%。

5 結(jié)論

本文針對漢語和老撾語中名詞、形容詞、量詞、數(shù)詞等詞性在句子語序表達(dá)上的差異,為了提高句子相似度計(jì)算的準(zhǔn)確性,提出了融合詞性句法位置特征的漢老雙語句子相似度計(jì)算的模型。通過此差異性構(gòu)造了特征詞標(biāo)簽和特征詞性標(biāo)簽,以此降低漢老句子分布式表示的差異性。在此基礎(chǔ)上,分別使用均含有自注意力機(jī)制的門控卷積神經(jīng)網(wǎng)絡(luò)和雙向長短時記憶網(wǎng)絡(luò)來提取句子的詞性位置特征向量、上下文語義特征向量和全局語義特征向量。最后將經(jīng)過網(wǎng)絡(luò)層得到的漢老句子語義特征向量進(jìn)行按位乘和按位減的操作,并將結(jié)果拼接輸入到全連接層得到句子語義相似度概率分值。與目前主流方法相比,本文提出的方法實(shí)驗(yàn)效果更好,取得了77.19%的F1值。下一步考慮利用該方法做漢老雙語問答系統(tǒng)的研究。

猜你喜歡
雙語標(biāo)簽語義
語言與語義
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
標(biāo)簽化傷害了誰
基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
認(rèn)知范疇模糊與語義模糊
快樂雙語
新晨(2013年5期)2014-09-29 06:19:50
快樂雙語
新晨(2013年7期)2014-09-29 06:19:50
快樂雙語
新晨(2013年10期)2014-09-29 02:50:54
都昌县| 梅河口市| 武穴市| 福鼎市| 门源| 原阳县| 沁水县| 惠州市| 石林| 界首市| 县级市| 健康| 清水河县| 珠海市| 竹溪县| 巫山县| 贺兰县| 民丰县| 兴安县| 武城县| 齐河县| 通州市| 闸北区| 巴林左旗| 康马县| 阳东县| 崇义县| 读书| 荣昌县| 东乌珠穆沁旗| 双鸭山市| 历史| 崇阳县| 永仁县| 土默特左旗| 柳州市| 贵州省| 蓬安县| 堆龙德庆县| 霍山县| 清徐县|