郭 雷,周蘭江,周蕾越
1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650550)2(昆明理工大學(xué) 津橋?qū)W院,昆明 650160) E-mail:2432948148@qq.com
中老兩國(guó)雙邊經(jīng)貿(mào)關(guān)系密切,兩國(guó)政府和民間交往日益密切,老撾和中國(guó)都是社會(huì)主義國(guó)家,在彼此的發(fā)展道路上相互幫助和學(xué)習(xí),這種兄弟般的關(guān)系給中老關(guān)系注入了親情色彩.而語言是中老兩國(guó)交流的重要工具,因此對(duì)老撾語的研究有著重大的意義.文本相似度計(jì)算是文本匹配任務(wù)的一個(gè)特殊形式,返回文本之間相似程度的具體數(shù)值.跨語言文本相似度計(jì)算更是具有廣泛的應(yīng)用前景,例如跨語言的信息檢索系統(tǒng),跨語言的文本改寫剽竊檢測(cè)系統(tǒng),機(jī)器翻譯等等.跨語言文本相似度計(jì)算目前主要有基于機(jī)器翻譯的方法、基于LDA主題模型的方法、基于神經(jīng)網(wǎng)絡(luò)的方法等.
由于本文研究研究的對(duì)象老撾語屬于低資源語言,缺乏大規(guī)模語義詞典,現(xiàn)有的機(jī)器翻譯系統(tǒng)還不足以生成高質(zhì)量的譯文,不適合利用機(jī)器翻譯的方法在目標(biāo)語言層或中間語言層進(jìn)行文本相似度計(jì)算.而LDA模型是一種詞袋模型,忽略了文本中詞語的位置信息,對(duì)文本具體語義性表征不足,實(shí)驗(yàn)效果一般.隨著神經(jīng)網(wǎng)絡(luò)不斷發(fā)展,目前采用神經(jīng)網(wǎng)絡(luò)計(jì)算文本相似度得到許多學(xué)者的廣泛應(yīng)用.
本文從最具有語義表達(dá)的單位詞語出發(fā),從詞語形態(tài)學(xué)、詞性、詞性權(quán)重的角度出發(fā),首先將漢語詞語拆分成筆畫的形式,老撾語詞語拆分成音符的形式,利用BiLSTM和3種不同尺度的CNN提取詞語的形態(tài)學(xué)特征、漢字內(nèi)部結(jié)構(gòu)特征,如偏旁部首等,并拼接上詞性特征向量,詞性權(quán)重向量,接著利用BiLSTM和CNN對(duì)嵌入層編碼的詞語特征向量進(jìn)一步提取漢老短文本語義特征,采用ESIM交互注意力機(jī)制讓漢老短文本的語義信息進(jìn)行交互,最后計(jì)算漢老短文本的相似度分?jǐn)?shù).本文提出的方法在語料稀缺的情況下取得了更好的效果,F1值達(dá)到了78.67%.
本文的主要貢獻(xiàn)如下:
1)根據(jù)漢語和老撾語的語言特點(diǎn),通過對(duì)其詞的研究,在漢老短文本分布式表示上融入了漢老詞語的形態(tài)學(xué)特征、詞性特征、詞性權(quán)重,使得漢老短文本的分布式表示含有更多的語義信息,提高了模型的效果.
2)利用弱監(jiān)督跨語言詞向量模型,對(duì)齊漢老雙語詞向量,在同一語義空間里面表征漢老短文本.并利用ESIM交互型注意力機(jī)制對(duì)漢老短文本的語義信息進(jìn)行交互,提高模型效果.
文本相似度計(jì)算是通過一定方法計(jì)算兩個(gè)文本(句子、短文本、文檔),得到具體的數(shù)值.相比于單語言文本相似度計(jì)算,跨語言文本相似度計(jì)算在語序等方面存在較大的差異,使得跨語言文本相似度計(jì)算更具有挑戰(zhàn)性.目前跨語言文本相似度計(jì)算主要有以下幾種:
1)基于機(jī)器翻譯的方法,石杰[1]等人利用早期的機(jī)器翻譯方法,即通過語義詞典Wordnet將中文和泰文翻譯為中間層語言,再在中間層語言的平臺(tái)上進(jìn)行文本相似度計(jì)算模型的構(gòu)建.Erdmann[2]等人將維基百科上的文本翻譯成另一篇文章的語言,再使用機(jī)器翻譯的評(píng)估指標(biāo)計(jì)算文本的相似度;Wu[3]和Tian[4]等人通過機(jī)器翻譯系統(tǒng)將不同語言轉(zhuǎn)換為英語,在目標(biāo)語言英語上進(jìn)行語義相似度衡量.此方法針對(duì)老撾語來說并不是最優(yōu)的選擇,老撾語屬于資源貧乏型語言,種子詞典的規(guī)模較小,數(shù)量較少并不足以覆蓋所要測(cè)試的中文文本,此方法正確率較低.
2)基于LDA主題模型的方法,利用LDA主題模型訓(xùn)練文檔語料,得到文檔在各個(gè)主題空間上的概率分布情況.程蔚[5]等人利用雙語平行語料訓(xùn)練出雙語LDA模型,然后利用該模型預(yù)測(cè)新語料的主題分布,結(jié)合主題分布概率,利用余弦相似度計(jì)算新的雙語文檔的相似度;李訓(xùn)宇[6]等人利用單語LDA模型分別抽取漢語和緬甸語的主題,并將主題下的主題詞通過雙語詞典映射到同一空間進(jìn)行表征,得到漢緬雙語主題詞向量.最后結(jié)合主題詞向量和主題分布概率,利用余弦相似度計(jì)算雙語文檔的相似度,然后獲取漢緬雙語可比文檔.Ni[7]等人提出ML-LDA(Multilingual Topics-Latent Dirichlet Allocation)模型來提取維基百科平行語料中的“通用”主題,該“通用”主題能被多種語言表示,使得不同語言的文檔的主題能在一個(gè)空間表示.
3)基于神經(jīng)網(wǎng)絡(luò)的方法,通過神經(jīng)網(wǎng)絡(luò)建模,提取文本語義特征來計(jì)算文本相似度是目前比較主流的方法.對(duì)于單語言文本相似度計(jì)算,郭浩[8]等人利用BiLSTM和CNN相結(jié)合的孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算短文本相似度分?jǐn)?shù).對(duì)于跨語言文本相似度計(jì)算,由于不同語言文本之間帶來的差異性,很多學(xué)者將其翻譯成中間語言來進(jìn)行文本相似度計(jì)算,如李霞[9]等人采用谷歌翻譯將不同語言的文本翻譯成英語,并提出將門控卷積神經(jīng)網(wǎng)絡(luò)結(jié)合自注意力機(jī)制實(shí)現(xiàn)了對(duì)多種語言句子級(jí)別的相似度計(jì)算.這種方法并不適用于老撾語等低資源語言,因?yàn)槟壳胺g系統(tǒng)還不足以生成高質(zhì)量的譯文,翻譯不準(zhǔn)確會(huì)形成累積誤差,影響模型效果.針對(duì)低資源語言,趙小兵[10]等人用不同規(guī)模的藏漢文本語料訓(xùn)練了siames LSTM藏漢跨語言文本相似度計(jì)算模型,實(shí)驗(yàn)表明語料規(guī)模對(duì)模型效果影響較大.
由于機(jī)器翻譯的方法需要大規(guī)模的語義詞典或者效果較好的翻譯系統(tǒng),但對(duì)于目前研究基礎(chǔ)較為薄弱的老撾語來說此方法還不可行,而LDA模型是詞袋模型,缺乏具體語義的表征,模型效果較差.目前多數(shù)學(xué)者采用神經(jīng)網(wǎng)絡(luò)提取跨語言文本特征的方法來計(jì)算文本相似度.
表1 漢-老詞語形態(tài)學(xué)特征對(duì)應(yīng)表(部分)Table 1 Correspondence table of morphologicalcharacteristics of Chinese-Lao words (part)
本文利用jieba工具對(duì)漢語短文本語料進(jìn)行分詞和詞性標(biāo)注,利用昆明理工大學(xué)實(shí)驗(yàn)室開發(fā)的老撾語分詞[13]和詞性標(biāo)注[14]工具對(duì)老撾語短文本語料進(jìn)行處理,并去除停用詞.考慮到詞或字本身的形態(tài)或內(nèi)部結(jié)構(gòu)可以幫助人們直觀地獲取部分語義信息,本文采用BiLSTM和CNN提取漢老詞語的形態(tài)學(xué)特征或漢字的內(nèi)部結(jié)構(gòu)特征,并將此特征向量拼接到原有的詞向量上.其次由于每個(gè)詞的詞性不同,導(dǎo)致該詞對(duì)短文本語義信息貢獻(xiàn)程度的差異,本文將詞語的詞性向量拼接到該詞的詞向量上,并將每個(gè)詞的詞性權(quán)重也融入到短文本分布式表示里,使得漢老短文本的分布式表示含有更豐富的語義信息,模型效果更佳.
嵌入層編碼完成后,本文采用BiLSTM和CNN共同對(duì)漢老雙語短文本提取特征,然后采用ESIM模型的交互注意力機(jī)制,讓漢老短文本的語義信息進(jìn)行交互,最后通過全連接層計(jì)算漢老短文本相似度分?jǐn)?shù).其結(jié)構(gòu)如圖1所示.
圖1 融合詞語多特征的漢老短文本相似度計(jì)算模型圖Fig.1 Similarity calculation model of Chinese and Laotexts fused with multi-features of words
4.2.1 漢老詞向量對(duì)齊
詞向量是文本語義表征的基礎(chǔ),其質(zhì)量對(duì)實(shí)驗(yàn)效果有較大的影響.針對(duì)跨語言文本相似度計(jì)算的任務(wù),如果能使得漢語語詞語和老撾語詞語能映射在同一空間下,將大大提高漢老跨語言短文本相似度計(jì)算的準(zhǔn)確率.
Artetxe[15]等人提出僅使用25對(duì)單詞或簡(jiǎn)單的數(shù)字作為種子詞典,將種子詞典表示為二進(jìn)制矩陣D,假設(shè)字典中第i個(gè)源語言單詞與第j個(gè)目標(biāo)語言單詞對(duì)齊,則Dij=1,通過公式(1)利用SVD方法求解得到最優(yōu)映射矩陣W*,使得目標(biāo)語言詞嵌入矩陣Xi*和源語言單詞詞嵌入矩陣Zj*之間的平方歐幾里得距離之和最小.然后再利用求解出來的最優(yōu)線性變換矩陣W*對(duì)源語言詞嵌入矩陣X進(jìn)行線性變換、即X′=XW*,實(shí)現(xiàn)源語言到目標(biāo)語言的語義空間映射,其實(shí)驗(yàn)結(jié)果證明半監(jiān)督的跨語言詞向量模型也可以得到高質(zhì)量的跨語言詞向量.
(1)
由于有監(jiān)督跨語言詞向量模型對(duì)種子詞典的數(shù)量和質(zhì)量都有較高的要求,老撾語屬于低資源語言,比較適用于使用半監(jiān)督方法.效仿Artetxe等人的實(shí)驗(yàn),使用半監(jiān)督跨語言詞向量模型得到了漢老跨語言詞向量.
4.2.2 漢-老詞語形態(tài)學(xué)特征提取
詞或字本身的形態(tài)或內(nèi)部結(jié)構(gòu)可以幫助人們直觀地獲取部分語義信息,Cao[16]等人提出利用筆畫的n-gram特征提取中文詞語內(nèi)部語義信息,并取得了較好地實(shí)驗(yàn)效果.Wieting[17]等人提出使用字符級(jí)的n-gram向量來表示英語中的單詞,以捕獲包括前綴、后綴、詞根等語義特征.這對(duì)本文開展?jié)h語形態(tài)學(xué)研究和老撾語形態(tài)學(xué)研究有著重要的指導(dǎo)意義.考慮到漢語詞語最小組成單位為筆畫、老撾語詞語的最小組成單位為音符,本文采用BiLSTM提取筆畫(音符)順序特征,然后利用不同卷積核大小的CNN,卷積核尺度為6、7、8,提取漢、老詞語筆畫(音符)的詞根、詞綴或偏旁部首特征,其結(jié)構(gòu)如圖2所示.該方法也從詞語形態(tài)學(xué)特征的角度解決了未登錄詞無法用詞向量表征的問題,使得未登錄詞能在其形態(tài)學(xué)上得到表達(dá),增強(qiáng)了文本語義信息.
圖2 提取詞語形態(tài)學(xué)特征結(jié)構(gòu)圖Fig.2 Extracted word morphological feature structure diagram
4.2.3 漢-老詞語詞性和權(quán)重特征
詞性分為名詞、動(dòng)詞、形容詞、數(shù)詞等等,不同詞性對(duì)文本語義構(gòu)成有著不同程度的貢獻(xiàn),利用分詞和詞性標(biāo)注工具對(duì)漢老雙語語短文本進(jìn)行分詞和詞性標(biāo)注.然后參照Petrov[18]等人開發(fā)的谷歌通用詞性標(biāo)簽(Universal POS tags)對(duì)詞性標(biāo)注進(jìn)行統(tǒng)一化,并統(tǒng)計(jì)語料中對(duì)短文本表達(dá)貢獻(xiàn)較大的詞性(名詞(NOUN)、動(dòng)詞(VERB)、形容詞(ADJ))在所有詞性中所占比重來確定其詞性權(quán)重,把每個(gè)詞的詞性特征和其權(quán)重特征融入到漢老短文本語義表征里面,提升模型效果.其權(quán)重如表2所示.
表2 詞性權(quán)重表Table 2 Part of speech weight table
本文采用BiLSTM和CNN神經(jīng)網(wǎng)絡(luò)在嵌入層的基礎(chǔ)上進(jìn)一步對(duì)漢老短文本進(jìn)行編碼,使用BiLSTM提取短文本上下文語義特征,考慮到漢語和老撾語在表達(dá)上的語序差異,通過CNN提取短文本的局部語義信息特征,以此減小不同語言語序帶來的差異.最后將兩個(gè)網(wǎng)絡(luò)提取到的特征進(jìn)行拼接,提高模型效果.
4.3.1 BiLSTM提取特征
4.3.2 CNN提取特征
由于漢老短文本語序存在差異性,本文利用CNN提取漢老短文本的局部語義特征.假設(shè)某個(gè)文本有n個(gè)單詞,詞向量維度為k,每個(gè)單詞的詞向量為xi∈Rk.卷積核窗口大小為h,通過公式(2)計(jì)算卷積核窗口每一次滑動(dòng)的輸出值ci,最后卷積輸出向量為:
c=[c1,c2,…,cn-h+1]ci=f(WTxi:i+h-1+b)(i≤n-h+1)
(2)
式中,f為非線性激活函數(shù),本文使用的是“relu”函數(shù);W為卷積核輸入節(jié)點(diǎn)的權(quán)重矩陣;b為偏置項(xiàng).將卷積后的向量c再通過一個(gè)最大池化層,其中pool_size為4的時(shí)候,實(shí)驗(yàn)效果最好.并使用Padding對(duì)其進(jìn)行補(bǔ)齊,其公式如(3)所示.
(3)
當(dāng)漢語短文本和老撾語短文本通過CNN和BiLSTM特征提取后后,得到了文本單詞之間的上下文語義信息和文本局部語義信息,為了更加充分的利用好語義信息,本文采用Chen Q[19]等人中提出的ESIM交互注意力層,盡早的讓漢語短文本和老撾語短文本進(jìn)行語義信息的交互、對(duì)比,以此得到各文本強(qiáng)化后的向量表征.本文首先將CNN和BiLSTM提取到的漢老短文本特征特征進(jìn)行拼接:
(4)
(5)
參照ESIM模型的工作,根據(jù)(6)式按位計(jì)算漢語短文本中的每個(gè)向量與老撾語短文本中的每個(gè)向量的數(shù)值關(guān)系eij,將計(jì)算得到的所有數(shù)值關(guān)系進(jìn)行求和,然后將每個(gè)數(shù)值關(guān)系在求和后的數(shù)值關(guān)系中所占的比重作為權(quán)重.
(6)
(7)
(8)
(9)
(10)
拼接所有信息得到最后的漢老短文本的分布式表示ma、mb后,類似于shao[20]的工作,對(duì)其進(jìn)行按位減(取絕對(duì)值)和按位乘的操作,并將兩個(gè)結(jié)果進(jìn)行拼接.
P1=(|ma○-mb|)⊕(ma?mb)
(11)
式中,○-表示漢老元素對(duì)應(yīng)相減,?表示漢老元素對(duì)應(yīng)相乘,⊕表示將結(jié)果進(jìn)行拼接.
最后將漢老短文本的語義相似度表示輸入全連接層進(jìn)行計(jì)算,使用更具有魯棒性的“elu”作為激活函數(shù),最后得到漢老短文本的相似度分?jǐn)?shù).其計(jì)算公式如下:
P2=elu(W1P1+b)
(12)
p=sigmoid(W2P2+c)∈(0~1)
(13)
式中,W1、W2和b、c均為模型參數(shù),p為模型最后輸出的相似度分?jǐn)?shù),其輸出值在0至1之間.本文采用交叉熵?fù)p失函數(shù)評(píng)估模型的魯棒性,其公式如下:
(14)
式中pi為樣本i被模型預(yù)測(cè)為正樣本的分值,yi為人工評(píng)定的分值,N為每一批次樣本的個(gè)數(shù).
本文使用的數(shù)據(jù)集分為3部分,第1部分是用來預(yù)訓(xùn)練詞向量的數(shù)據(jù)集:漢語從漢語維基百科上獲得了1.27G的單語語料,并利用開源工具進(jìn)行數(shù)據(jù)清洗、繁簡(jiǎn)轉(zhuǎn)換,借助jieba分詞工具對(duì)語料進(jìn)行分詞處理并去除停用詞.然后利用斯坦福開發(fā)的Glove詞向量訓(xùn)練工具得到約55.2萬個(gè)漢語單詞詞向量(約1.54G),詞向量維度為300維.老撾語從老撾語維基百科得到265M的單語語料,對(duì)數(shù)據(jù)進(jìn)行清洗后,利用昆明理工大學(xué)實(shí)驗(yàn)室開發(fā)的分詞工具對(duì)其進(jìn)行分詞處理.同樣利用斯坦福開發(fā)的Glove詞向量訓(xùn)練工具得到約7.3萬詞語詞向量(約0.27G),詞向量維度為300維.
第2部分?jǐn)?shù)據(jù)集為漢老雙語平行短文本:來源于漢語維基百科和老撾語維基百科,以及以中國(guó)國(guó)際廣播電臺(tái)老撾語部為依托的CRI悅生活公眾號(hào).經(jīng)過老撾留學(xué)生校對(duì)后,共得到5798篇漢老平行短文本,本文以1∶7的比例構(gòu)造了40586篇漢老非平行短文本.如表3所示.
將數(shù)據(jù)集按照9∶1進(jìn)行訓(xùn)練集和測(cè)試集的劃分.本文實(shí)驗(yàn)在固定隨機(jī)種子數(shù)下使用10折交叉驗(yàn)證,輪流將訓(xùn)練集中9份作為訓(xùn)練數(shù)據(jù),1份作為驗(yàn)證數(shù)據(jù)進(jìn)行實(shí)驗(yàn),每一次訓(xùn)練好的模型在測(cè)試集上進(jìn)行驗(yàn)證,取10次實(shí)驗(yàn)結(jié)果的均值.每次訓(xùn)練使用的數(shù)據(jù)集劃分如表4所示.
表3 漢老雙語短文本數(shù)據(jù)集Table 3 Chinese-Lao bilingual short text data set
表4 訓(xùn)練模型數(shù)據(jù)集劃分結(jié)果Table 4 Data set division results of the training model
第3部分?jǐn)?shù)據(jù)集為漢語詞語的筆畫構(gòu)成和老撾語詞語的音符構(gòu)成:本文從漢典字詞查詢網(wǎng)站獲得了28503個(gè)簡(jiǎn)體字的筆畫構(gòu)成,筆畫種類有25種.第2部分語料中漢語實(shí)驗(yàn)語料分詞后,將每個(gè)詞語拆分成字,將字拆分成分成筆畫,然后組合成詞的筆畫.第2部分語料中的老撾語語料分詞后,將其按照老撾語的音符匹配規(guī)則對(duì)老撾語詞語進(jìn)行音符拆分,音符種類有69種.
本文實(shí)驗(yàn)環(huán)境為Windows10操作系統(tǒng),顯卡使用NVIDIA公司生產(chǎn)的GeForce RTX 2060S,使用python3.6作為開發(fā)語言,開發(fā)平臺(tái)為PyCharm,以TensorFlow_gpu-1.13.1作為后端運(yùn)行,使用Keras框架實(shí)現(xiàn)本文相似度計(jì)算方法.
在提取筆畫(音符)特征的神經(jīng)網(wǎng)絡(luò)中,組成漢語單詞的筆畫數(shù)和老撾語單詞的音符數(shù)不同,本文將漢語單詞的筆畫數(shù)和老撾語單詞音符數(shù)設(shè)置為25,維度設(shè)置為50,并對(duì)其進(jìn)行隨機(jī)初始化,LSTM的隱節(jié)點(diǎn)數(shù)為25,老撾語音符CNN中設(shè)置4、5、6共3種不同尺度的卷積核,漢語筆畫CNN中設(shè)置6、7、8共3種不同尺度的卷積核,卷積核數(shù)量各50個(gè),步長(zhǎng)設(shè)置為1,提取漢、老詞語的形態(tài)學(xué)特征.
在提取漢老短文本詞語間特征的神經(jīng)網(wǎng)絡(luò)中,本文將漢、老短文本的長(zhǎng)度均設(shè)置為150個(gè)詞語,詞向量維度為300,詞性向量維度為50,并對(duì)其進(jìn)行隨機(jī)初始化.LSTM的隱節(jié)點(diǎn)數(shù)量為50,CNN中的卷積核尺度為3,卷積核數(shù)量為50,步長(zhǎng)為1.采用 Adam算法對(duì)模型進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)為0.01.Batch size 的大小設(shè)置為 64,Epoch為60.
本文采用常用的評(píng)測(cè)指標(biāo):準(zhǔn)確率、召回率和F1值.將漢老對(duì)齊短文本的標(biāo)簽設(shè)置為1,將漢老非對(duì)齊短文本的標(biāo)簽設(shè)置為0.采用0.5作為相似度閾值,當(dāng)模型預(yù)測(cè)的漢老短文本相似度分?jǐn)?shù)大于0.5時(shí),判斷為該漢老短文本為平行文本對(duì).召回率、準(zhǔn)確率、F1值計(jì)算方式如下所示.
(15)
(16)
(17)
本文利用BiLSTM和CNN分別提取漢語詞語筆畫特征與老撾語詞語音符特征,還將詞語的詞性向量和詞性權(quán)重向量與原有的詞向量進(jìn)行拼接.為了能充分利用這些語義信息向量,本文使用BiLSTM和CNN提取漢老短文本上下文語義信息和局部語義信息,然后將提取到的語義特征向量進(jìn)行拼接,利用ESIM交互注意力機(jī)制將漢老短文本的語義信息進(jìn)行交互,并分析新舊序列的差異性,最后將所有的信息拼接到一個(gè)新的序列中.為了探索本文方法的有效性,設(shè)置了以下幾個(gè)對(duì)比實(shí)驗(yàn):
1)將雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)作為本文的基準(zhǔn)模型(Base Model).
2)在基準(zhǔn)模型上加入CNN,驗(yàn)證實(shí)驗(yàn)效果.
3) 在2)實(shí)驗(yàn)基礎(chǔ)上加入ESIM交互注意力機(jī)制,驗(yàn)證實(shí)驗(yàn)效果.
4)在3)實(shí)驗(yàn)基礎(chǔ)上加入Word-feature(Our),驗(yàn)證實(shí)驗(yàn)效果.
本文除了探索利用不同方法計(jì)算漢老短文本相似度的實(shí)驗(yàn)效果,還與其他學(xué)者在文本(句子)相似度的工作做了對(duì)比:分別為郭浩[8]等人利用BiLSTM和CNN提取文本特征并與注意力機(jī)制相結(jié)合的孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);李霞[9]等人提出的將門控卷積神經(jīng)網(wǎng)絡(luò)結(jié)合自注意力機(jī)制,實(shí)現(xiàn)句子級(jí)別的相似度計(jì)算;趙小兵[10]等人的基于注意力機(jī)制的siames LSTM相似度計(jì)算模型.以上7個(gè)模型均在相同實(shí)驗(yàn)環(huán)境下采用10折交叉驗(yàn)證法進(jìn)行實(shí)驗(yàn).最終實(shí)驗(yàn)結(jié)果如表5所示.
表5 不同模型實(shí)驗(yàn)結(jié)果Table 5 Experimental results of different models
模型(2)對(duì)比模型(1)的實(shí)驗(yàn)結(jié)果其F1值提高了0.51%,表明在漢老短文本特征提取的模型中加入CNN,確實(shí)能減小漢老語序差異,提升模型效果.模型(3)、模型(5)與模型(2)的實(shí)驗(yàn)結(jié)果對(duì)比其F1值分別提高了0.63%和0.43%,表明加入交互注意力機(jī)制或自注意力機(jī)制能使模型學(xué)到更多的語義信息.模型(3)對(duì)比模型(5)的實(shí)驗(yàn)結(jié)果其F1值提高了0.20%,說明交互注意力機(jī)制比注意力機(jī)制的效果更好,這是因?yàn)榻换プ⒁饬C(jī)制對(duì)比自注意力機(jī)制的孿生網(wǎng)絡(luò)模型,其能讓漢老短文本進(jìn)行更多的信息交互,提升模型的效果.模型(4)的結(jié)果與模型(3)的實(shí)驗(yàn)結(jié)果其F1值提高了0.62%,表明添加詞語的形態(tài)學(xué)特征、詞性特征、權(quán)重特征能提升模型的學(xué)習(xí)效果.
本文采用BiLSTM和CNN提取漢老詞語的形態(tài)學(xué)特征,并加入了詞語的詞性特征、詞性權(quán)重特征.為了驗(yàn)證不同特征對(duì)實(shí)驗(yàn)效果的影響,設(shè)置了以下6個(gè)特征對(duì)比實(shí)驗(yàn).特征對(duì)比實(shí)驗(yàn)均在相同實(shí)驗(yàn)環(huán)境下采用10折交叉驗(yàn)證法進(jìn)行.最終實(shí)驗(yàn)結(jié)果如表6所示.
表6 特征對(duì)比實(shí)驗(yàn)Table 6 Feature comparison experiment
對(duì)表6中的實(shí)驗(yàn)結(jié)果分析,模型(2)對(duì)比模型(1)的實(shí)驗(yàn)結(jié)果其F1值提高了0.25%,表明CNN能較好地提取到詞語的形態(tài)學(xué)特征,且該特征有利于模型效果的提升.模型(3)對(duì)比模型(1)的實(shí)驗(yàn)結(jié)果其F1值降低了0.37%,可能是單獨(dú)利用BiLSTM對(duì)字符形態(tài)提取特征效果不佳,給模型帶來了噪聲數(shù)據(jù).模型(4)對(duì)比模型(1)、模型(2)的實(shí)驗(yàn)結(jié)果其F1值分別提高了0.36%、0.11%,表明在CNN提取詞語形態(tài)學(xué)特征之前,如果能結(jié)合BiLSTM網(wǎng)絡(luò)提取的漢語詞語中漢字筆畫順序的語義信息和老撾語詞語音符順序的語義信息,模型效果會(huì)更佳.模型(5)對(duì)比模型(4)的實(shí)驗(yàn)結(jié)果其F1值提升了0.14%,表明詞性向量在文本語義的表征上也有貢獻(xiàn).模型(6)對(duì)比模型(5)的實(shí)驗(yàn)結(jié)果其F1值提高了0.12%,表明不同詞性在文本語義貢獻(xiàn)上不同,形容詞、名詞、動(dòng)詞對(duì)語義貢獻(xiàn)較大.
考慮到漢語詞根、詞綴或字的偏旁部首的筆畫組成與老撾語詞根、詞綴等形態(tài)學(xué)特征的音符組成數(shù)量不同,利用含有相同尺寸卷積核的CNN提取漢語詞語和老撾語詞語的形態(tài)學(xué)特征有限.本文分別設(shè)置4種不同尺寸的卷積核(漢語卷積核尺寸(6、7、8、9),老撾語卷積核尺寸(4、5、6、7))對(duì)漢語和老撾語提取形態(tài)學(xué)特征提取,其卷積核尺度對(duì)比實(shí)驗(yàn)均在相同實(shí)驗(yàn)環(huán)境下采用10折交叉驗(yàn)證法進(jìn)行.最終實(shí)驗(yàn)結(jié)果如表7所示.
表7 不同卷積核尺度對(duì)比Table 7 Comparison of different convolution kernel scales
通過對(duì)表中的實(shí)驗(yàn)數(shù)據(jù)分析可知,利用不同卷積核尺度的CNN提取漢老詞語的形態(tài)學(xué)特征對(duì)實(shí)驗(yàn)?zāi)P托Ч杏绊?模型(6)對(duì)比模型(4)、模型(5)的實(shí)驗(yàn)結(jié)果其F1值分別提高了0.09%、0.16%,而模型(4)、模型(5)對(duì)比單個(gè)CNN模型(1)、模型(2)、模型(3)的實(shí)驗(yàn)效果也都有提高,說明不同卷積核尺度的CNN能提取到更多漢老詞語的形態(tài)學(xué)特征.但是模型(7)對(duì)比模型(6)的實(shí)驗(yàn)結(jié)果其F1值降低了1.93%,可能是實(shí)驗(yàn)數(shù)據(jù)較少,參數(shù)過多,使得模型較早過擬合化.通過實(shí)驗(yàn)對(duì)比,本文選擇模型(6)中老撾語和漢語的卷積核尺寸作為本模型的設(shè)置.
本文針對(duì)漢老短文本跨語言相似度計(jì)算,提出利用BiLSTM和CNN共同提取漢老詞語的形態(tài)學(xué)特征,并利用漢老詞語詞性和詞性權(quán)重的語義信息,進(jìn)行聯(lián)合嵌入,然后將聯(lián)合嵌入層作為BiLSTM和CNN的輸入,進(jìn)一步對(duì)語義信息編碼,提取文本的上下文語義信息和局部語義信息,以此作為交互層的輸入,利用ESIM交互注意力機(jī)制對(duì)編碼層提取到的漢老短文本語義信息進(jìn)行交互,最后利用相似度計(jì)算層計(jì)算漢老短文本的相似度分?jǐn)?shù).與目前主流方法相比較,本文提出的方法實(shí)驗(yàn)效果更佳,其F1值達(dá)到了78.67%.下一步考慮利用該方法做漢老雙語問答系統(tǒng)的研究.