蔣亞芳,嚴 馨,李思遠,徐廣義,周 楓
1.昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650504
2.云南南天電子信息產(chǎn)業(yè)股份有限公司,昆明 650051
在自然語言處理領(lǐng)域,目前構(gòu)建單語詞向量模型的方法已經(jīng)較為成熟,對于跨語言詞向量模型的構(gòu)建也取得了一些進展。如何將單語之間的詞向量轉(zhuǎn)換進而形成跨語言詞向量是該模型構(gòu)建過程中的一個重要因素。
雙語詞向量構(gòu)建一般是兩類方式:第一是基于第三方中間語言構(gòu)建雙語詞向量,借助某種流行語言(一般采用英語)當作中間語言,利用當前源語言-中間語言-目標語言來實現(xiàn)源語言-目標語言的雙語詞向量[1]。例如Tanaka等[2]指出使用英語當作第三方中間語言,實現(xiàn)日文-法文雙語詞向量構(gòu)建,具體思想為當使用第三方語言來構(gòu)造雙語詞向量時,根據(jù)計算雙語詞典中詞義匹配相似度,通過中間語言為橋梁得到的一個新的源語言詞到目標語言詞的雙語詞典,進而對雙語詞典中的詞分別進行詞向量訓(xùn)練得到雙語詞向量。與之相似的,Bond等[3]采用日文-英文雙語詞向量以及英文-馬來西亞文雙語詞向量使用英語作為中間語言實現(xiàn)日文-馬來西亞文雙語詞向量,Bond 提出的方法主要是在Tanaka 的基礎(chǔ)上對中間語言匹配的規(guī)范化方面進行了優(yōu)化;基于第三方中間語言構(gòu)建雙語詞向量中較為典型的思想方法是由Ruder[4]提出,該方法通過機器翻譯實現(xiàn)雙語詞向量的構(gòu)建,且不需要實際翻譯樣本,將其樣本投影到一個子空間中,最終訓(xùn)練學(xué)習(xí)一個共享的嵌入空間,該模型適用于訓(xùn)練所有種類的詞向量。
另一類方式為借助源語言以及目標語言的平行語料庫,根據(jù)詞語之間的語義和上下文信息提取意義接近的詞語實現(xiàn)雙語詞向量表征[5-8]。Klementiev等[9]研究學(xué)者率先關(guān)注跨語言詞向量問題,將跨語言詞向量構(gòu)建視為一個多任務(wù)學(xué)習(xí)問題,通過平行句對的共現(xiàn)統(tǒng)計使多任務(wù)之間產(chǎn)生相關(guān)性,實現(xiàn)跨語言詞向量的構(gòu)建。Mikolov 等[10]采用單語各自訓(xùn)練,然后直接進行轉(zhuǎn)換的方式構(gòu)建雙語詞向量模型。根據(jù)詞語語義間的關(guān)聯(lián)性對平行文本進行線性轉(zhuǎn)換,源語言的詞向量可以直接轉(zhuǎn)換為目標語言的詞向量,但是該研究在模型訓(xùn)練中需要使用資源豐富的雙語詞典或雙語平行文本資源。Faruqui等[11]提出了一種利用典型相關(guān)性分析的方法,獲取雙語詞向量。但是該模型在構(gòu)建初始需要在大量的雙語平行語料庫中去尋找互譯或者對齊的雙語詞匯,然而對于柬-漢雙語而言,雙語平行語料資源極為缺乏,因此采用該類模型將會面臨這個關(guān)鍵問題。
典型相關(guān)分析CCA 算法在自然語言處理中也應(yīng)用廣泛,尤其在機器翻譯中得到很好的實用效果。Haghighi 等[12]使用CCA 在兩種不同語言的單詞之間繪制翻譯詞匯,僅僅使用的是單語語料庫。Paramveer等[13]提出了一種新的基于CCA的多視角學(xué)習(xí)方法LR-MVL,通過相關(guān)的詞向量來構(gòu)建單語詞表示,這些詞向量捕獲了詞義的各個方面以及詞的不同類型的分布概況。Li等[14]提出一種基于KCCA(Kernel Canonical Correlation Analysis)的機器學(xué)習(xí)算法,利用了非線性相關(guān)映射將該算法應(yīng)用于日英跨語言信息檢索和文檔分類,取得了較好的效果,但是該方法計算復(fù)雜度比較高,不適用于大型數(shù)據(jù)集,因此,本文使用CCA 算法得出雙語詞向量,它能很好地衡量漢柬詞匯之間的語義相關(guān)性,減少了計算的復(fù)雜度。
當前現(xiàn)有的跨語言詞向量模型研究中,以第三方語言為中間語言進行研究的方法只考慮到多種語言詞語之間的對應(yīng)關(guān)系,而忽略了詞語本身的上下文語義關(guān)系以及多種語言詞語間的相關(guān)關(guān)系;在根據(jù)詞語之間的語義和上下文信息提取意義接近的詞語實現(xiàn)雙語詞向量模型構(gòu)建方法中,雖然更多地考慮到了詞語之間的相關(guān)信息,但在模型構(gòu)建初始需要使用到大量的平行文本或豐富的雙語詞典互譯語料,然而目前柬漢雙語平行資源稀缺,且獲取難度較大,因此該類方法只適用于使用人數(shù)較多、平行文本資源豐富的語種,不適用于平行語料稀缺的柬埔寨語語言處理工作中。
本文將以上兩種方法相結(jié)合,并在Faruqui 等[11]提出的經(jīng)典跨語言詞向量模型上針對柬埔寨語語料稀缺的問題做出進一步改進,加入中間語言作為橋梁,以英語作為中間語言,利用漢英以及柬英的語料資源豐富性,將其和現(xiàn)有的跨語言詞向量模型相結(jié)合,可以更好地解決小語種語言平行語料缺乏的問題。因此本文對文獻[11]中提出的雙語詞向量模型進行改進后得到了以英語作為中間語言基于多重典型相關(guān)分析算法的柬漢雙語詞向量模型構(gòu)建方法。該方法對詞語之間的相關(guān)關(guān)聯(lián)有了更深的考慮,同時通過加入第三方中間語言英語以及部分實驗室構(gòu)建的柬漢雙語電子詞典在一定程度上解決了柬漢平行文本資源不足的問題。
在基于多重典型相關(guān)分析算法(CCA)且以英語作為橋梁語言的雙語詞向量模型構(gòu)建方法中,以大量英、柬、漢三語單語語料為基礎(chǔ)進行訓(xùn)練,得到三種語言的單語詞向量,其次將英語、漢語詞向量投影至英漢向量空間(該向量空間為第三方向量空間,投影后該向量空間中只包含英語詞向量以及漢語詞向量),將英語、柬語詞向量投影至英柬特征向量空間(該向量空間為一個新的第三方向量空間,投影后該向量空間中只包含英語詞向量以及柬語詞向量),根據(jù)CCA算法分別得到英-漢、英-柬雙語詞向量;然后以英語作為中間詞并結(jié)合部分實驗室構(gòu)建的柬漢雙語電子詞典將上一步得到的英-柬、英-漢雙語詞向量投影至第三方同一向量空間中(該向量空間依然是一個全新的第三方向量空間,投影后該向量空間中包含英語詞向量、漢語詞向量以及柬語詞向量),再次根據(jù)CCA 算法得到柬語和漢語在新向量空間中的投影轉(zhuǎn)換矩陣;最后得到柬漢雙語詞向量。
典型相關(guān)分析的實質(zhì)就是在兩組隨機變量中選取若干個有代表性的綜合指標(變量的線性組合),用這些指標的相關(guān)關(guān)系來表示原來的兩組變量的相關(guān)關(guān)系[15-17]。這在兩組變量的相關(guān)性分析中,可以起到合理的簡化變量的作用。CCA 使用的方法是將多維的X和Y都用線性變換為一維的X′和Y′,然后再使用相關(guān)系數(shù)來看X′和Y′的相關(guān)性。將數(shù)據(jù)從多維變到一位,也可以理解為CCA是在進行降維,將高維數(shù)據(jù)降到一維,然后再用相關(guān)系數(shù)進行相關(guān)性的分析。
給定兩組變量X和Y,X為n1×m的樣本矩陣,Y為n2×m的樣本矩陣。其中m為樣本個數(shù),而n1,n2分別為X和Y的特征維度。對于X矩陣,將其投影到一維,對應(yīng)的投影向量為a,對于Y矩陣,將其投影到一維,對應(yīng)的投影向量為b,這樣X,Y投影后得到的一維向量分別為X',Y',且:
CCA算法的優(yōu)化目標是最大化ρ(X′Y′),得到對應(yīng)的投影向量a,b,即:
式中,C為協(xié)方差,D為方差。
通過對上式求解得到投影矩陣X′,Y′,但會獲得若干個結(jié)果,即有若干個特征向量。事實上,存在min(m,n)種結(jié)果,但對應(yīng)最大的相關(guān)系數(shù)有一組相應(yīng)的a和b。所以在應(yīng)用中只取最大的相關(guān)系數(shù),由此便可獲得所要求的兩組變量的相關(guān)系數(shù)。
由于可直接獲得的柬漢雙語語料資源稀缺,導(dǎo)致通過以大量雙語平行文本為基礎(chǔ)的詞向量構(gòu)建模型所獲得的詞向量效果其實是不佳的,但由于漢英以及柬英語料資源豐富,所以在這里提出了以英語作為中間語言的基于典型相關(guān)分析雙語詞向量構(gòu)建模型,能夠解決現(xiàn)有的語料缺乏問題,同時利用典型相關(guān)分析算法將三種語言有效地聯(lián)系在一起,使得到的雙語詞向量更有效,同時該模型不僅適用于雙語,也能擴展到多語任務(wù)中。因此本文提出的以英語作為中間語言的基于多重典型相關(guān)分析雙語詞向量構(gòu)建模型能夠?qū)色@取到的柬漢語料進行向量化。本文的框架圖如圖1所示。
圖1 雙語詞向量模型流程圖
圖1 的主要步驟如下:首先應(yīng)用現(xiàn)有的成熟技術(shù)Word2vec 對英、柬、漢三種單語語料進行詞向量訓(xùn)練,得到三種語料對應(yīng)的單語詞向量;其次將柬、英詞向量投影至柬英向量空間,將漢、英詞向量投影至漢英向量空間,根據(jù)CCA 算法分別得到各自的投影轉(zhuǎn)換矩陣后計算得到對應(yīng)雙語詞向量;然后以英語作為中間詞并結(jié)合部分實驗室構(gòu)建的柬漢雙語電子詞典將上一步得到的英-柬、英-漢雙語詞向量投影至第三方同一向量空間中,再次根據(jù)CCA 算法得到柬語和漢語在新向量空間中的投影轉(zhuǎn)換矩陣,最后計算得到柬英漢多語詞向量,多語詞向量中包含有柬漢雙語詞向量。該模型主要可分為三個步驟進行,具體過程如下:
收集相同領(lǐng)域柬語、英語、漢語單語語料,對收集到的三種語言的單語語料進行分詞處理,并將三種單語語料通過Word2vec進行詞向量訓(xùn)練,分別獲得柬語、英語以及漢語的詞向量。
將柬語和英語詞向量投影至英柬特征向量空間中,對應(yīng)得到英語詞向量和柬語詞向量在該向量空間中的投影轉(zhuǎn)換矩陣及英柬雙語詞向量;將漢語和英語詞向量投影至英漢向量空間,對應(yīng)得到英語詞向量和漢語詞向量在該向量空間中的投影轉(zhuǎn)換矩陣及柬漢雙語詞向量。英-漢雙語詞向量模型結(jié)構(gòu)如圖2所示。
圖2 英-漢雙語詞向量模型
由于所收集到的單語語料規(guī)模不同,因此經(jīng)過第一步后得到的英語、漢語、柬語詞向量規(guī)模大小并不相同,將其分別記為Σ、Ω以及Φ,Σ為英語詞向量集,Ω為漢語詞向量集,Φ為柬語詞向量集;且Σ∈Rd1×n1,Ω∈Rd1×n2,Φ∈Rd1×n3,其中d1為三種語言詞向量集矩陣的行數(shù),表示詞向量的維度,三種語言詞向量的維度相同;n1,n2,n3分別為英語、漢語、柬語詞向量集矩陣的列數(shù),n1表示英語詞匯集單詞的數(shù)量,n2表示漢語詞匯集單詞的數(shù)量,n3表示柬語詞匯集單詞的數(shù)量,由于初始單語語料規(guī)模的不同,因此在Ω中可能不存在Σ中每個詞的對應(yīng)翻譯詞,同理,在Φ中可能也不存在Σ中每個詞的對應(yīng)翻譯詞,因此首先令Σ′?Σ,Ω′?Ω,根據(jù)英漢雙語詞典使英語詞向量空間Σ′中的每一個英語詞都能在漢語詞向量空間Ω′中找到具有互譯關(guān)系的中文詞,令x和y分別為Σ′和Ω′中的互為翻譯詞的詞向量,并將x和y投影到英漢特征向量空間后得到投影詞向量x'和y'分別為:
其中,v和w是Σ′和Ω′的投影向量。
將英語詞向量x和與其詞義對應(yīng)的漢語詞向量y映射至英漢特征向量空間后,根據(jù)CCA 算法對含有x'和y'之間的相關(guān)關(guān)系進行計算:
其中,ρ(x',y')為相關(guān)系數(shù),cov[x',y']為x'和y'的協(xié)方差,Var[x']和Var[y']分別為x'和y'的方差。
CCA 算法將映射至該向量空間的英語和漢語詞向量之間的相關(guān)系數(shù)ρ最大化,并輸出投影向量v和w,表示為:
得到Σ'和Ω'的投影向量v和w的表示之后,根據(jù)以上方法獲取英語詞向量Σ與漢語詞向量Ω兩種語言的全部詞匯詞向量映射至漢英同一向量空間后所得到的英語、漢語投影轉(zhuǎn)換矩陣分別為V、W,以及對應(yīng)雙語詞向量,表示為:
其中,V∈Rd×d,W∈Rd×d,Σ?、Ω?為具有相關(guān)關(guān)系的英漢雙語詞向量。d的取值為投影轉(zhuǎn)換矩陣V與W的秩中的較小值,由于根據(jù)相關(guān)性投影向量所得到d取值較大,因此僅通過對前d1個相關(guān)維度進行原始單詞詞向量的投影進行工作,且令d=d1,d1的可設(shè)置范圍值100~300。
同理,令Σ″?Σ,Φ′?Φ,根據(jù)柬英雙語詞典使英語詞向量空間Σ″中的每一個英語詞都能在柬語詞向量空間Φ′中找到具有互譯關(guān)系的柬語詞,與以上過程類似,得到Σ″和Φ′的投影向量P、Z以及對應(yīng)英柬雙語詞向量,表示為:
其中,P∈Rd×d,Z∈Rd×d,Σ??、Φ?為具有相關(guān)關(guān)系的英柬雙語詞向量。
通過上一步的工作可以獲取英漢、英柬雙語詞向量,所獲得英漢雙語詞向量個數(shù)為n4,n4=n1+n2,英柬雙語詞向量個數(shù)為n5,n5=n1+n3;分別構(gòu)建包含英漢雙語詞向量的向量集Γ以及包含英柬雙語詞向量的向量集Π,令?!?Γ,Π′?Π,Γ'與Π'分別為向量集Γ和Π的子集,Γ'與Π'中存在相同的英語詞所對應(yīng)的詞向量,數(shù)量為n1,此外Γ'中還包含部分實驗室構(gòu)建的柬漢雙語電子詞典中漢語詞的詞向量,數(shù)量為n6;Π'中還包含部分實驗室構(gòu)建的柬漢雙語電子詞典中柬語詞的詞向量,數(shù)量為n6;Γ'與Π'中相同英語詞之間具有互譯關(guān)系,部分由實驗室構(gòu)建的柬漢雙語電子詞典中的柬漢詞對同樣具有互譯關(guān)系,因此向量集Γ'與向量集Π'中的詞向量所代表的詞之間滿足互譯對應(yīng)關(guān)系;Γ∈Rd×n4,Π∈Rd×n5;d為向量集的行數(shù),表示詞向量的維度,n4、n5分別為向量集Γ和向量集Π的列數(shù)。然后再次根據(jù)CCA 算法將Γ和Π映射至第三方同一向量空間中,該過程的模型如圖3所示。
在第三方向量空間中得到Γ和Π投影轉(zhuǎn)換矩陣M和N,根據(jù)進一步計算得到包含柬英漢三種語言的多語詞向量,表示為:
其中,M∈Rd×d,N∈Rd×d,Γ*、Π*為具有相關(guān)關(guān)系的多語詞向量。
圖3 柬、英、漢多語言詞向量模型
本文所采用的實驗語料為柬漢英三種語言單語語料,其中主要來源為分別從柬語語言網(wǎng)站、漢語語言網(wǎng)站、英語語言網(wǎng)站中爬取獲得,例如從中國新聞網(wǎng)(https://www.chinanews.com/)、中國日報網(wǎng)(http://www.chinadaily.com.cn/)、柬埔寨日報網(wǎng)(http://www.cambodiadailykhmer.com/)等網(wǎng)站進行爬取得到三種語言的新聞?wù)Z料,并根據(jù)新聞主題的不同,將爬取到的語料進行標記分類,獲得三種語言的語料;此外實驗所使用的語料中還包括一些網(wǎng)絡(luò)上可以直接下載得到的中文語料庫以及漢語語料庫。目前,通過以上方法獲取到的三種語言的單語語料庫覆蓋了經(jīng)濟、政治、旅游、體育等多個領(lǐng)域,包含1 016 455個英文單詞、927 496個漢語詞以及752 895 個柬語詞,本文中所使用的英漢詞典為郭世英[18]編著的現(xiàn)代英漢詞典(https://www.xiaobd.net/t/4162315/),收錄了42 000 詞條;所使用的英柬詞典為SBBIC英柬詞典,包含27 500詞條。
本文中所介紹的雙語詞向量模型以典型相關(guān)分析算法為核心,根據(jù)不同語言的詞向量之間的相關(guān)關(guān)系進行分析計算,實現(xiàn)雙語詞向量的構(gòu)建。因此使用斯皮爾曼等級相關(guān)系數(shù)來評測通過本文所提出雙語詞向量模型得到的雙語詞向量所對應(yīng)的雙語詞之間的相關(guān)度與人工標注詞對之間相關(guān)度的一致程度。
斯皮爾曼等級相關(guān)系數(shù)由Spearman根據(jù)積差相關(guān)的概念推導(dǎo)而來,是積差相關(guān)的特殊形式。它是一個非參數(shù)性質(zhì)的秩統(tǒng)計參數(shù),用來衡量兩個變量之間關(guān)聯(lián)關(guān)系的大小。斯皮爾曼等級相關(guān)系數(shù)用ρ表示,可由下式計算得到:
其中,n代表等級個數(shù),即測試集中包含的詞語對的數(shù)量。d代表二列成對變量的等級差數(shù),di表示第i個元素的等級差,即所使用模型對第i個詞語對的相關(guān)度評價結(jié)果和人工標注結(jié)果在各自的排序列表中排序位置的差。
在自然語言處理任務(wù)中,WS-353 測試集常被用來訓(xùn)練和測試計算機實現(xiàn)的語義相關(guān)度算法。其包含兩個英文數(shù)據(jù)集,第一組數(shù)據(jù)集包含13個主題共153個詞語對和由13 個評價者對詞語對做出的相似度的評價;第二組數(shù)據(jù)集包含16個主題共200個詞語對和由16個評價者對詞語對做出的相似度的評價,并給出一個0~10 的評分,0 表示兩個詞語完全不相關(guān),10 表示兩個詞語很相關(guān)或者是同義詞。本文根據(jù)需求把WS-353測試集進行人工翻譯,構(gòu)建了英-漢測試集Ten-ch,英-柬測試集Ten-kh,漢-柬測試集Tch-kh。并且用這三個測試集分別對本文所改進的模型與Faruqui等[11]所提出的多語言典型相關(guān)分析模型進行測試,作為對比實驗。
在本節(jié)實驗中,設(shè)置詞向量維度d為200 進行計算。通過Word2vec工具包對三種語言語料進行單語詞向量訓(xùn)練,分別得到52 947 個英語單語詞向量、44 805個漢語單語詞向量以及39 054 個柬語單語詞向量。以文獻[8]中多語言典型相關(guān)分析模型作為baseline,將單語詞向量分別放入多語言典型相關(guān)分析模型和本章所提出模型中進行訓(xùn)練,得到雙語詞向量,并將通過多語言典型相關(guān)分析模型訓(xùn)練得到的英-漢、英-柬、漢-柬雙語詞向量所表示的詞對與英-漢測試集Ten-ch、英-柬測試集Ten-kh、漢-柬測試集Tch-kh進行分析比較;而后將通過本章模型訓(xùn)練得到的多語詞向量所表示的詞對與英-漢測試集Ten-ch、英-柬測試集Ten-kh、漢-柬測試集Tch-kh進行分析比較,得到詞對之間的相關(guān)系數(shù),將本章所提模型的實驗結(jié)果與基準實驗的結(jié)果進行對比分析。CCA 算法通過Matlab 工具實現(xiàn),斯皮爾曼相關(guān)系數(shù)越大,所測試的模型得到的雙語詞向量對應(yīng)的雙語詞對相關(guān)度越高,實驗結(jié)果如表1所示。
表1 測試集在不同模型上的訓(xùn)練結(jié)果
由表1中可以看出,與多語言典型相關(guān)分析模型相對比,本文在其模型基礎(chǔ)上針對柬漢雙語語料稀缺問題進行改進之后,提出了以英語為中間語言的基于多重CCA 算法的雙語詞向量構(gòu)建模型,通過該模型得到的英漢雙語詞向量所對應(yīng)的雙語詞對在語義相關(guān)度方面與原模型雖有差距但相差甚微,但在英-柬以及漢-柬雙語詞向量所對應(yīng)的雙語詞對語義相關(guān)度方面有較為明顯的提升,分別提升了6.2 個百分點以及5.5 個百分點。實驗結(jié)果表明,經(jīng)過改進之后的多重CCA 算法模型在針對包含柬語詞向量的任務(wù)處理中效果優(yōu)于原模型。
本文介紹了一種以英語為中間語言基于多重CCA算法的雙語詞向量模型,該模型改進了當前大多數(shù)模型針對柬語等小語種語言獲取雙語詞向量質(zhì)量較低、需要大量平行初始語料進行訓(xùn)練的缺點。首先對典型相關(guān)分析算法做出簡單闡述,然后介紹本文所提出模型的改進方法及模型構(gòu)建過程,最后與Faruqui 所提出的多語言關(guān)聯(lián)模型進行對比實驗,分別用多個測試集對模型所獲取雙語詞向量進行測試,選擇斯皮爾曼相關(guān)系統(tǒng)作為評價標注對實驗結(jié)果進行分析。實驗結(jié)果表明本文提出的模型對于含有柬語的雙語詞向量在語義相關(guān)度方面有較為明顯的提升。下一步的工作,對于雙語詞向量模型的構(gòu)建方法中,以英語作為橋梁語言連接漢語與柬語,存在一詞多義的情況,即一個英文單詞包含多個詞義,例如英文單詞bank,包含銀行與河岸兩個詞義,然而該單詞訓(xùn)練得到的詞向量卻只有一個表征,可能會出現(xiàn)其中一個詞義對應(yīng)相關(guān)中文詞向量,另一個詞義對應(yīng)相關(guān)柬文單詞詞向量的情況,這樣會將兩個并不相關(guān)的漢語詞與柬語詞匯聯(lián)系在一起,從而影響到雙語詞向量的質(zhì)量,由于使用的初始語料為可比語料,具有相關(guān)主題性,因此該情況出現(xiàn)的可能性已經(jīng)大大減小,但依然會存在一小部分,因此需要對此做出進一步改進,例如加入雙語詞典等方法。