基于雙判別器對抗模型的半監(jiān)督跨語言詞向量表示方法

2023-09-22 06:21:52張玉紅植文武李培培胡學(xué)鋼

計算機研究與發(fā)展 2023年9期

張玉紅植文武李培培胡學(xué)鋼

（大數(shù)據(jù)知識工程教育部重點實驗室（合肥工業(yè)大學(xué)）合肥 230009）

（合肥工業(yè)大學(xué)計算機與信息學(xué)院合肥 230601）

（zhangyh@hfut.edu.cn）

詞向量是將單詞表示為多維、連續(xù)的實數(shù)向量數(shù)學(xué)嵌入，由于其能較好地表示語義、語法和結(jié)構(gòu)等特征信息，在自然語言處理（natural language processing,NLP）任務(wù)中得到了廣泛應(yīng)用[1].然而詞向量的訓(xùn)練需要豐富的語料庫，這使得小語種如阿拉伯語、葡萄牙語等的詞向量訓(xùn)練受到限制.為此，研究者提出了跨語言詞向量表示方法[2-4]，即利用資源豐富的大語種詞向量表示來輔助資源相對匱乏的小語種詞向量表示，該問題的研究已廣泛應(yīng)用于跨語言詞性標(biāo)注[5]、跨語言信息檢索[6]、跨語言實體連接和分類[7]等領(lǐng)域.

近年來，跨語言詞向量表示的研究取得了很大的進步，已有方法主要分為2 類：一類是聯(lián)合訓(xùn)練方式[8]，即在不同語言中使用單詞對齊的平行語料庫同時訓(xùn)練跨語言詞向量；另一類是映射方式[2-3,9]，即在預(yù)訓(xùn)練的不同語言詞向量空間之間學(xué)習(xí)一個線性映射矩陣.由于平行語料庫的構(gòu)造需要昂貴的代價，因此目前研究主要集中在后者.

文獻[3]發(fā)現(xiàn)，不同語言的詞向量空間具有相似的幾何結(jié)構(gòu)，即同構(gòu)性假設(shè).基于這一發(fā)現(xiàn)，通過最小化種子字典對的距離來學(xué)習(xí)線性映射關(guān)系，從而對齊詞對.后續(xù)的研究[2,9]主要從減小字典規(guī)模等角度對文獻[3]改進.隨著生成對抗模型的廣泛應(yīng)用，研究者們提出了基于對抗的無監(jiān)督跨語言詞向量表示方法[10-12].文獻[10]將生成對抗模型引入跨語言詞向量表示，構(gòu)建了不需要平行語料庫的無監(jiān)督跨語言詞向量學(xué)習(xí)方法.隨后的工作致力于提升無監(jiān)督方法的穩(wěn)定性和準(zhǔn)確性.文獻[11]通過在判別器中加入噪音提高對抗的穩(wěn)定性.文獻[12]引入對抗訓(xùn)練的后處理步驟，迭代更新學(xué)習(xí)到的映射矩陣.

盡管基于對抗訓(xùn)練的無監(jiān)督方法在近距離語言對上取得了一定的成功，但在遠距離語言對上效果卻不盡人意.比如，在英語到西班牙語和英語到德語的近語言對上，其平均結(jié)果在80%左右，但在英語到土耳其語、普什圖語等遠語言對上的平均結(jié)果不足30%，有些語言對上甚至小于3%.顯然該類方法在遠距離語言對上效果難以令人滿意[13].造成這一結(jié)果的原因可能有2 個：1）遠距離語言對上同構(gòu)性假設(shè)的不成立導(dǎo)致這種線性映射關(guān)系難以成立[14].一般情況下，不同語系的語言由于在單詞語義、句法結(jié)構(gòu)等方面存在較大差異被認(rèn)為是遠語言對，其詞向量空間之間的同構(gòu)性也較弱.2）無監(jiān)督方法從全局角度最小化源語言空間與目標(biāo)語言空間的距離來求解映射關(guān)系，僅能實現(xiàn)詞向量空間的全局對齊，是一種粗粒度的對齊，而這種粗粒度對齊條件下可能存在多種細粒度的映射關(guān)系，從而難以保證細粒度詞的對齊精度.如圖1 所示，中文和英文2 個空間在全局對齊的條件下，可能產(chǎn)生“cat”與“貓”對齊，也可能產(chǎn)生“cat”與“車”對齊.

Fig.1 The possible mapping in unsupervised methods圖1 無監(jiān)督方法產(chǎn)生的多種可能映射

綜上可見，跨語言詞向量表示方法的效果大多依賴于同構(gòu)假設(shè)和監(jiān)督信號，無監(jiān)督方法應(yīng)用于非同構(gòu)語言對時難以實現(xiàn)高質(zhì)量對齊.因此，如何在遠語言對上學(xué)習(xí)較好的映射關(guān)系是當(dāng)前跨語言詞向量表示中的挑戰(zhàn)性問題.

現(xiàn)實應(yīng)用中盡管監(jiān)督信息是昂貴的，但獲取少量監(jiān)督信息在多數(shù)場景下仍是可行的.此外，在映射關(guān)系的迭代學(xué)習(xí)過程中產(chǎn)生的預(yù)對齊詞對對學(xué)習(xí)映射關(guān)系也具有一定的監(jiān)督作用.鑒于此，提出基于雙判別器對抗的半監(jiān)督跨語言詞向量映射學(xué)習(xí)方法.首先，為了緩解遠語言對上非同構(gòu)性對映射關(guān)系學(xué)習(xí)的影響，使用自動編碼器分別將源語言詞向量空間與目標(biāo)語言詞向量空間映射到隱空間，使其在隱空間上具有相對較好的同構(gòu)性.其次，在已有對抗模型生成的全局初始映射基礎(chǔ)上增加一個細粒度判別器，并引入負(fù)樣本字典和預(yù)對齊字典等信息進行半監(jiān)督學(xué)習(xí)，通過計算初始生成字典與負(fù)樣本字典、預(yù)對齊字典之間的距離進一步判斷初始生成字典的正確性，消減詞對映射的多種可能，提高初始字典對齊精度.本文的創(chuàng)新點有3 個方面：

1）設(shè)計了一個雙向映射共享的細粒度判別器以構(gòu)成包含雙判別器的對抗模型，對原判別器生成的映射關(guān)系進行優(yōu)化，以提升方法的性能.

2）提出引入負(fù)樣本字典，并將其和預(yù)對齊字典一起進行半監(jiān)督對抗學(xué)習(xí)，通過計算兩者與初始生成字典的距離來判別初始生成字典的有效性，從而在全局對齊基礎(chǔ)上提高細粒度的單詞對齊精度.

3）多個數(shù)據(jù)集上的實驗結(jié)果表明本文方法能通過半監(jiān)督方式進一步優(yōu)化全局對齊，提高詞語對齊的精度.

1 相關(guān)工作

基于映射的跨語言詞向量表示方法將不同語言的詞向量空間映射到一個共同空間，使得共同空間中不同語言具有相同語義的詞盡可能接近.根據(jù)種子字典的數(shù)量與作用，已有方法大致分為3 類：監(jiān)督方法、無監(jiān)督方法和半監(jiān)督方法.

1.1 監(jiān)督方法

監(jiān)督方法主要是借助部分對齊的詞對來學(xué)習(xí)映射關(guān)系.

文獻[3]發(fā)現(xiàn)不同語言的詞向量空間具有相似幾何結(jié)構(gòu)，通過最小化5 000 個種子字典的歐式距離學(xué)習(xí)1 個線性映射矩陣，將源語言詞向量空間映射到目標(biāo)語言詞向量空間.隨后的工作對其進一步完善和改進.文獻[15]使用典型關(guān)聯(lián)分析（canonical correlation analysis，CCA），將源與目標(biāo)映射到第三方共享空間，實現(xiàn)雙向映射關(guān)系學(xué)習(xí).在映射學(xué)習(xí)任務(wù)中經(jīng)常出現(xiàn)1 個詞同時被認(rèn)為是多個詞的映射，這種現(xiàn)象被稱作為Hubness 問題，該問題是影響映射學(xué)習(xí)性能的主要因素之一.文獻[16]通過優(yōu)化正確映射對與錯誤映射對之間的最大邊界解決Hubness 問題，提高映射學(xué)習(xí)性能.為解決不一致問題，文獻[17]從歸一化詞向量、對線性映射施加正交約束、最大化詞與詞向量間的相似度3 個角度避免映射矩陣學(xué)習(xí)陷入局部最優(yōu).文獻[18]引入CSLS（cross-domain similarity local scaling）距離作為字典間的優(yōu)化函數(shù)學(xué)習(xí)映射關(guān)系，提高了跨語言詞向量表示性能.

相對來說，監(jiān)督方法取得了較為滿意的效果，但其效果很大程度依賴于種子字典是否充分.

1.2 無監(jiān)督方法

無監(jiān)督方法中映射關(guān)系的學(xué)習(xí)不需要平行語料庫，具體可分為基于啟發(fā)性規(guī)則和基于生成對抗模型2 個子類.

1）基于啟發(fā)式規(guī)則.文獻[19]使用主成分分析對齊2 種語言單詞分布的二階矩，再利用計算機視覺中的迭代最近點（iterative closest point,ICP）方法迭代細化對齊.文獻[20]通過探索詞向量空間之間的結(jié)構(gòu)相似性學(xué)習(xí)初始矩陣，然后使用具有魯棒性的自學(xué)習(xí)步驟改進映射矩陣.文獻[21]將詞向量對齊看作是最優(yōu)傳輸（optimal transport，OT）問題，使用GW（Gromov-Wasserstein）距離衡量詞對間的相似度.

2）基于生成對抗模型.文獻[10]提出使用對抗訓(xùn)練來構(gòu)造雙語字典，采用線性映射矩陣作為生成器，二元分類器作為判別器，該方法在雙語詞典構(gòu)建任務(wù)上取得了突破性的成果，但存在難以收斂問題.文獻[11]將高斯噪音注入判別器以提高對抗訓(xùn)練的穩(wěn)定性.文獻[12]在對抗訓(xùn)練基礎(chǔ)上引入后處理步驟，迭代更新對抗訓(xùn)練學(xué)習(xí)到的映射矩陣，同時使用CSLS 尋找最鄰近詞以緩解Hubness 問題.文獻[22]引入自動編碼器構(gòu)建隱空間后再進行對抗訓(xùn)練，緩解了跨語言向量空間非同構(gòu)假設(shè)帶來的影響.

目前無監(jiān)督方法的性能與監(jiān)督方法具有明顯差距，尤其是在遠語言對上.

1.3 半監(jiān)督方法

半監(jiān)督方法借助少量的字典或者其他弱監(jiān)督信息學(xué)習(xí)映射關(guān)系.

文獻[2]借助自學(xué)習(xí)框架，僅使用 25 個詞對學(xué)習(xí)線性映射，獲得與監(jiān)督方法相當(dāng)?shù)男阅?文獻[23]使用少量對齊的種子字典和未對齊的嵌入空間進行半監(jiān)督學(xué)習(xí)，并利用過濾技術(shù)緩解Hubness 問題.此外，文獻[24]在沒有種子詞典情況下，將2 種語言中出現(xiàn)的少量相同字符串作為弱監(jiān)督信號學(xué)習(xí)線性映射.文獻[9]利用相同拼寫的字符串作為弱監(jiān)督信號學(xué)習(xí)映射關(guān)系.

盡管半監(jiān)督方法利用監(jiān)督信息提高了跨語言詞向量表示學(xué)習(xí)的精度，但這種提升大多表現(xiàn)在近距離語言對上，在遠距離語言上的表現(xiàn)仍難以令人滿意.

2 基于雙判別器的跨語言詞向量表示方法

給定預(yù)訓(xùn)練的源語言詞向量空間X={x1,x2,…,xn}和目標(biāo)語言詞向量空間Y={y1,y2,…,yn}，n為向量空間中的單詞數(shù)，本文的任務(wù)是學(xué)習(xí)一個雙向映射關(guān)系，將2 個向量空間映射到1 個公共空間，使得2個互為翻譯的詞在該空間上彼此距離最近，從而實現(xiàn)跨語言詞向量表示.

2.1 方法框架

為提高遠語言對上詞向量對齊效果，提出半監(jiān)督的雙判別器對抗詞向量表示方法.圖2 展示了本文方法框架，分為2 個模塊：1）基于自編碼器構(gòu)建隱空間X′和Y′，以緩解遠語言對上同構(gòu)性假設(shè)不成立的影響；2）在學(xué)習(xí)到的隱空間上，利用負(fù)樣本字典Dng和預(yù)對齊種子字典Dal進行半監(jiān)督對抗訓(xùn)練，學(xué)習(xí)雙向映射關(guān)系以對齊2 個隱空間中的詞對.其中負(fù)樣本字典Dng是在映射關(guān)系訓(xùn)練過程中產(chǎn)生的，將在2.3 節(jié)詳細介紹.

Fig.2 The framework of our method圖2 本文方法框架

隱空間構(gòu)建的具體方法為：首先，使用2 個編碼器Encx與Ency分別將源語言與目標(biāo)語言詞向量空間X和Y映射到2 個獨立的隱空間X′和Y′；其次，利用解碼器Decx，Decy對隱空間解碼得到與，通過最小化2 個空間的重構(gòu)誤差，即?=X,=Y，以保證編碼后的隱空間能代表原空間的信息.

下面重點介紹基于2 個隱空間X′和Y′，半監(jiān)督學(xué)習(xí)雙向線性映射Gx和Gy的過程，如圖3 所示.圖3 中生成器Gx和判別器Dx構(gòu)成初始對抗模型，從全局角度學(xué)習(xí)X′到Y(jié)′的初始映射.在此基礎(chǔ)上，引入細粒度判別器D和字典信息（包括負(fù)樣本字典Dng和預(yù)對齊字典Dal）半監(jiān)督地對初始映射關(guān)系進行細粒度優(yōu)化，從而得到較為準(zhǔn)確的X′到Y(jié)′的詞語對齊映射.同樣地，生成器Gy、判別器Dy以及細粒度判別器D用于學(xué)習(xí)Y′到X′的映射.為保證雙向映射后的詞對能相互對齊，提高對齊精度，雙向映射學(xué)習(xí)過程共享細粒度判別器D.

Fig.3 The bidirectional mapping learning based on double discriminators圖3 基于雙判別器的雙向映射學(xué)習(xí)

雙向映射關(guān)系學(xué)習(xí)過程中，需要考慮雙向的損失函數(shù)，可具體表示為

由于雙向映射學(xué)習(xí)過程類似，下面以源語言到目標(biāo)語言的映射學(xué)習(xí)Lx為例進行說明.X到Y(jié)的映射學(xué)習(xí)過程分為初始映射關(guān)系學(xué)習(xí)和共享細粒度優(yōu)化2 個步驟.

2.2 初始映射關(guān)系學(xué)習(xí)

初始對抗模型包含1 個生成器和1 個判別器.生成器Gx用于生成X′到Y(jié)′的初始映射，基于該映射生成的詞對盡可能地混淆判別器Dx；而Dx則用于識別輸入是X′的生成空間Gx(x′) 還是Y′空間.通過Gx和Dx不斷地對抗訓(xùn)練形成初始映射關(guān)系Gx和基于該關(guān)系生成的初始對齊字典

在這一過程中，判別器Dx的損失函數(shù)可定義為

其中Ex和Ey分別表示對源語言空間X′和目標(biāo)語言空間Y′的采樣，通過最小化LDx使判別器Dx能最大程度地鑒別出Gx(x′)和y′.

而生成器Gx的損失函數(shù)表示為

2.3 共享細粒度優(yōu)化

2.2 節(jié)所述的初始對抗模型僅基于全局距離度量生成一個初始的映射關(guān)系，由于缺乏必要的監(jiān)督信號引導(dǎo)，導(dǎo)致其生成的詞對映射存在多種可能，難以保證正確性.為此，在原有對抗模型基礎(chǔ)上引入負(fù)樣本字典和預(yù)對齊字典 (Xal,Yal)作為監(jiān)督信號，利用雙向映射共享的細粒度判別器D識別是真實翻譯對還是通過生成器生成的初始映射對，從而識別初始映射對中的正確翻譯對，提升對齊精度.

在細粒度判別器判別過程中，需要考慮2 個主要問題.

在預(yù)對齊字典 (Xal,Yal)基礎(chǔ)上進一步引入負(fù)樣本

對抗訓(xùn)練的成功依賴于如何有效區(qū)分真實樣本和偽樣本，而預(yù)對齊字典和負(fù)樣本分別提供了正、負(fù)樣本的監(jiān)督信號，有利于提高判別器D的判別能力.本文設(shè)計了隨機負(fù)采樣和基于鄰近相似度2 種負(fù)樣本字典生成方法.

①隨機負(fù)采樣方法.初始映射生成后，一般采用最近鄰方法尋找初始翻譯對，從而使初始翻譯對的2 個詞具有一定的相關(guān)性.本文面向所有的初始翻譯對，采用隨機采樣策略獲取負(fù)樣本，具體可表示為

②基于相似度的負(fù)采樣方法.隨機負(fù)采樣策略在全局范圍內(nèi)隨機選擇負(fù)樣本，其選擇的負(fù)樣本與正樣本具有較強差異性但相關(guān)性不足.為此提出基于相似度的負(fù)樣本采樣方法.首先，從所有初始翻譯對中選擇最接近Gx(x′) 的前k個目標(biāo)詞；其次，排除第1 個目標(biāo)詞以及監(jiān)督種子對，以避免其與真實對齊的樣本重復(fù)；然后，從前2～k個中進行采樣.與隨機負(fù)采樣方法相比，這種策略具有2 方面優(yōu)勢：一方面，將負(fù)樣本范圍確定在基于近似度的前k個樣本中，確保選擇的負(fù)樣本與真實對齊樣本具有一定的語義相關(guān)性；另一方面，排除了第1 個目標(biāo)詞和監(jiān)督種子，從前2～k個中采樣.這種方案即使在第1 個目標(biāo)詞為正樣本不滿足時，從前2～k個中排除監(jiān)督種子字典后再采樣，能大概率排除真實對齊被采樣為負(fù)樣本的情況，確保兩者的語義差異性.因此，本方案所選的負(fù)樣本與真實對齊樣本既有語義相關(guān)性又有語義差異性，達到負(fù)樣本的參照作用.這里k＝5，相似度計算采用余弦函數(shù)，記為

2）如何進行判別

共享細粒度判別器D的任務(wù)是利用監(jiān)督的負(fù)樣本和對齊字典，通過判別初始映射生成的詞對與字典間的距離，從初始映射對中進一步篩選出更靠近監(jiān)督詞對的翻譯對.因此，共享細粒度判別器D的損失函數(shù)可被定義為

此外，需要說明的是，為了對齊種子字典的空間分布，式（6）中判別器D不是從整個詞向量空間中采樣，而是從種子字典中采樣.

在上述方法的基礎(chǔ)上，為保證映射關(guān)系的準(zhǔn)確性，引入循環(huán)一致性約束，即源空間被映射到目標(biāo)空間后可以準(zhǔn)確地再映射回源空間，源語言的循環(huán)一致性損失函數(shù)表示為

綜上，從源到目標(biāo)的半監(jiān)督對抗訓(xùn)練損失函數(shù)可表示為

類似地，從目標(biāo)到源的半監(jiān)督對抗訓(xùn)練損失函數(shù)表示為

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集與對比實驗

采用Muse[12]與Vecmap[20]這2 個數(shù)據(jù)集來驗證方法的有效性.數(shù)據(jù)集和源代碼見https://github.com/joyce99/ZhiWenwu/tree/master/MUSE-master.

Muse 數(shù)據(jù)集包含30 種語言，詞向量維度為300，是使用FastText 方法基于維基語料庫訓(xùn)練所得，包含110 個語言對的種子字典.種子字典分為訓(xùn)練集與測試集，分別包含5 000 個和1 500 個翻譯對.本文從中選擇了9 個語言對，分別是英語（En）、西班牙語（Es）、意大利語（It）、法語（Fr）、阿根廷語（Ar）、土耳其語（Tr）、南非荷蘭語（Af）、普什圖語（Fa）、奧羅語（Et）.根據(jù)GH（Gromov-Hausdorff）距離[23]（記為dGH）計算語言對之間的空間分布相似度，dGH<0.3 表示2個空間為近語言對，dGH≥0.3 表示2 個空間為遠語言對.

Vecmap 數(shù)據(jù)集包含英語（En）、西班牙語（Es）、意大利語（It）、芬蘭語（Fi）、德語（De）等單語詞向量.由于該數(shù)據(jù)集是基于網(wǎng)絡(luò)爬取的語料庫，其訓(xùn)練所得詞向量質(zhì)量不高，導(dǎo)致其同構(gòu)性較弱.現(xiàn)有方法在該數(shù)據(jù)集上的效果普遍不理想.該數(shù)據(jù)集僅提供英語到西班牙語、意大利語、芬蘭語、德語的單向字典.為完成雙向映射學(xué)習(xí)，額外補充了反向字典.具體做法是將英語到其他語種的字典反轉(zhuǎn)和去重，以確保測試集為1 500 個翻譯對.

對比實驗包括無監(jiān)督方法、監(jiān)督方法和半監(jiān)督方法.無監(jiān)督方法包括：1）文獻[12]基于生成對抗網(wǎng)絡(luò)對齊2 個空間以獲得初始詞典，并引入后處理步驟，迭代更新對抗學(xué)習(xí)的映射矩陣；2）文獻[20]利用詞向量的結(jié)構(gòu)空間相似性獲得初始映射矩陣，并利用自學(xué)習(xí)算法迭代更新初始映射矩陣；3）文獻[22]利用自動編碼器將詞向量空間映射到隱空間以緩解同構(gòu)假設(shè)的約束，然后利用對抗訓(xùn)練來對齊隱空間.監(jiān)督方法包括：1）文獻[12]通過最小化翻譯詞對間的距離學(xué)習(xí)正交映射，并使用CSLS 距離尋找最近鄰；2）文獻[25]將映射到共享空間的步驟簡化為訓(xùn)練單個正交轉(zhuǎn)換.半監(jiān)督方法則使用對齊的雙語詞典和未對齊的嵌入進行半監(jiān)督映射矩陣學(xué)習(xí)，并用過濾技術(shù)緩解Hubness 問題[23].

3.2 實驗設(shè)置

針對預(yù)訓(xùn)練的詞向量空間，在Muse 和Vecmap數(shù)據(jù)集中選擇詞頻最高的前20 萬個詞向量作為訓(xùn)練樣本來學(xué)習(xí)跨語言詞向量表示.在學(xué)習(xí)隱空間過程中，自編碼器設(shè)置類似于文獻[22]，設(shè)置隱空間維度為400.在半監(jiān)督對抗訓(xùn)練中，判別器Dx，Dy，D都使用包含204 個隱藏層的多層感知器，其激活函數(shù)為Leaky-ReLU 函數(shù).其中判別器Dx和Dy使用詞頻前75 000 個詞向量作為輸入，判別器D從種子字典中進行采樣，種子字典的初始數(shù)量為5 000 對，會隨著迭代訓(xùn)練不斷擴大數(shù)量.參照文獻[12]的做法，每更新5 次判別器后更新1 次生成器.在對抗訓(xùn)練過程中，采用隨機梯度下降方法，其中批大小為32，學(xué)習(xí)率為0.01，衰減率為0.98.采用CSLS 檢索方法搜索最近鄰種子字典，參數(shù)k＝10.

實驗采用P@1 作為評估指標(biāo)來驗證方法的精度，其計算方法為：

其中ti為方法學(xué)習(xí)到的映射空間中距離源空間單詞si最近的單詞.如果 (si,ti)為正確翻譯對，則 (si,ti)=1，否則 (si,ti)=0.

3.3 實驗結(jié)果與分析

3.3.1 近語言對的結(jié)果

表1 展示了各方法在Muse 數(shù)據(jù)集上近語言對的實驗結(jié)果，由表1 可知：

Table 1 P@1 Comparison of All Methods on Similar Language Pairs in Muse Dataset表1 各方法在Muse 數(shù)據(jù)集上近語言對的P@1 對比 %

1）各個方法在近語言對上的結(jié)果總體差異較小.

2）文獻[23]方法與本文方法是2 個半監(jiān)督方法，與其他方法相比，其性能平均提高了1%.半監(jiān)督方法在學(xué)習(xí)過程中不斷生成預(yù)對齊翻譯詞對，這些翻譯對作為監(jiān)督信號來輔助下一次迭代學(xué)習(xí)過程.當(dāng)算法收斂時，所得的監(jiān)督信號數(shù)量總體大于監(jiān)督方法中給定的翻譯詞對數(shù)量，尤其是近語言對.因此，半監(jiān)督方法比預(yù)先僅給定部分監(jiān)督信號的監(jiān)督方法更有效.

3）本文方法超越了大多數(shù)基準(zhǔn)方法，在4 種語言對上略勝于文獻[23]的半監(jiān)督方法，說明了本文方法具有一定的優(yōu)越性.

3.3.2 遠語言對的結(jié)果

表2 和表3 分別展示了各方法在Muse 數(shù)據(jù)集的遠語言對和Vecmap 數(shù)據(jù)集上各語言對的表現(xiàn).

Table 2 P@1 Comparison of All Methods on Dissimilar Language Pairs in Muse Dataset表2 各方法在Muse 數(shù)據(jù)集上遠語言對的P@1 對比 %

Table 3 P@1 Comparison of All Methods on All Language Pairs in Vecmap Dataset表3 各方法在Vecmap 數(shù)據(jù)集上各語言對的P@1 對比 %

1）與近語言對相比，半監(jiān)督方法和監(jiān)督方法在遠語言對上的性能差異較大，一定程度上表明了種子字典等監(jiān)督信號對于遠語言對的映射學(xué)習(xí)具有重要作用.

2）半監(jiān)督方法和監(jiān)督方法性能好于無監(jiān)督方法，而半監(jiān)督方法和監(jiān)督方法性能相差不大，表明了半監(jiān)督方法僅利用少量種子字典就達到了監(jiān)督方法的性能.

3）與監(jiān)督方法相比，本文方法在2 個數(shù)據(jù)集上都具有一定的優(yōu)勢，表明了在訓(xùn)練過程中，利用前一次迭代預(yù)訓(xùn)練的種子字典和負(fù)樣本字典輔助下一輪種子字典的生成是有效的.

4）本文方法優(yōu)于無監(jiān)督方法.由表2 可見，3 個無監(jiān)督方法[12,20,22]在多個語言對上無法收斂.而本文方法P@1 在所有語言對上的結(jié)果有明顯提升.與文獻[20]方法相比，本文方法的P@1 分別提升了5.3%和2.2%.與文獻[22]的方法相比，其P@1 也提升了27.6%和20.2%.實驗性能的提升表明引入細粒度判別器進行半監(jiān)督學(xué)習(xí)能進一步提高2 個空間的對齊精度.

5）本文方法好于其他半監(jiān)督方法.與文獻[23]的半監(jiān)督方法相比，本文方法的P@1 平均提高了2.9%.這主要得益于自動編碼器與多判別器的引入.通過自動編碼器構(gòu)建隱空間，一定程度上緩解同構(gòu)假設(shè)的約束，而引入細粒度判別器能進一步提高對齊精度.

3.3.3 不同種子字典數(shù)量的影響

為進一步評估本文方法的有效性，在Muse 數(shù)據(jù)集的2 個近語言對（En-Es,En-Fr）和2 個遠語言對（En-Tr,En-Et）上討論了各個方法性能隨種子字典個數(shù)（500，1 000，2 500，5 000）的變化趨勢，結(jié)果如圖4 所示.

Fig.4 P@1 varying with the number of dictionary圖4 P@1 隨種子字典數(shù)量的變化

1）近語言對（En-Es,En-Fr）上，隨著種子字典數(shù)量的增加，文獻[12]方法、文獻[23]方法與本文方法的性能相比變化不大.可見同構(gòu)條件下，利用線性映射關(guān)系能較好地對齊2 個空間，不需要過多的監(jiān)督信號引導(dǎo).而對于遠語言對（EN-Tr，EN-Et）來說，文獻[22-23]的性能隨種子字典數(shù)目的增加而增加，而本文方法隨種子字典數(shù)目的增加相對穩(wěn)定，說明種子字典在非同構(gòu)條件下對于詞向量對齊具有重要作用.

2）在遠語言對（En-Tr,En-Et）上，與其他方法相比，本文方法性能較優(yōu)，且隨種子字典數(shù)量的增加，其表現(xiàn)相對穩(wěn)定.由此可見，本文方法的良好性能不過度依賴種子字典是否充分，即使在種子字典較少情況下也能達到較好效果.

3）值得注意的是，無論近語言對還是遠語言對，文獻[22]方法的性能隨種子字典數(shù)量變化較大.在En-Es 上，字典數(shù)量為500 時其精度約為66%，當(dāng)字典數(shù)量為2 500 時其精度達到了81%.原因可能是該方法沒有使用生成的新種子字典更新映射矩陣.

3.3.4 消融實驗

為進一步分析本文方法中不同部分的作用和有效性，設(shè)計了消融實驗，分別分析了自動編碼器、細粒度判別器D、種子字典和負(fù)樣本字典對算法性能的影響.在Muse 數(shù)據(jù)集上選取En-Es（近語言對）、En-Tr 和 En-Et（遠語言對）進行了實驗.結(jié)果如表4 所示.

Table 4 Ablation Experiment in Muse Dataset表4 在Muse 數(shù)據(jù)集上的消融實驗 %

1）“w/o 隱空間”即去除自編碼機構(gòu)建隱空間的過程.與本文的全模型相比，“w/o 隱空間”在2 個遠語言對上精度都有所下降，表明隱空間能在一定程度緩解遠語言對不滿足同構(gòu)假設(shè)的影響.

2）“w/o 半監(jiān)督”不使用監(jiān)督信號訓(xùn)練模型，即去掉種子字典和細粒度判別器.與全模型相比，“w/o半監(jiān)督模塊”在遠語言對上的精度小于3%，不能實現(xiàn)收斂.這是由于沒有種子字典的誘導(dǎo)，無監(jiān)督對抗模型在遠距離語言對上難以實現(xiàn)高質(zhì)量的對齊.

3）“w/oD”保留種子字典但去掉細粒度判別器.與全模型相比，“w/oD”在2 個語言對上的精度都有下降.由此可見，本文方法中的細粒度判別器D能進行細粒度的對齊，從而生成更高質(zhì)量的映射矩陣.

4）“固定字典數(shù)”即在訓(xùn)練迭代過程中，不將上一輪迭代的預(yù)對齊字典加入種子字典中.與全模型相比，“固定字典數(shù)”的實驗結(jié)果稍有所下降，說明在訓(xùn)練過程中利用預(yù)對齊字典不斷擴大種子字典數(shù)量具有一定的有效性.

5）與全模型相比，“w/o 負(fù)采樣”的實驗性能在3 個語言對上平均下降0.53%.這說明負(fù)采樣在對抗訓(xùn)練學(xué)習(xí)中具有一定的監(jiān)督作用，能提高判別器D的判別能力，從而提高生成器的學(xué)習(xí)能力.

6）隨機負(fù)樣本是在本文方法基礎(chǔ)上將相似度負(fù)樣本生成方法替換為隨機負(fù)樣本生成方法.與全模型相比，隨機負(fù)樣本的性能略微下降，平均精度下降了0.7%.這是由于全模型在前k個最近鄰范圍內(nèi)進行負(fù)采樣，使得負(fù)樣本與真實對齊詞較為接近.因此，基于最近鄰生成負(fù)樣本的策略使得細粒度判別器D的訓(xùn)練更好地反映了翻譯詞對與最近鄰詞之間的關(guān)系，從而促使生成器盡可能地生成靠近其正確翻譯詞而遠離其k最鄰近的詞向量.

4 總結(jié)與展望

本文提出了基于雙判別器對抗的半監(jiān)督跨語言詞向量映射學(xué)習(xí)方法，在已有對抗模型生成的初始映射基礎(chǔ)上，增加了一個雙向映射共享的細粒度判別器，并引入負(fù)樣本字典和預(yù)對齊字典進行半監(jiān)督學(xué)習(xí)，在全局空間距離最小化基礎(chǔ)上進一步判斷初始生成字典的正確性，從而提高初始字典的對齊精度.在2 個跨語言數(shù)據(jù)集上的實驗效果表明，本文方法能夠有效提升跨語言詞向量表示性能.

未來，我們將會研究如何在遠距離語言對上生成高質(zhì)量的種子字典，進一步削弱種子字典的約束.同時，我們也將進一步探索如何在自動編碼器中引入監(jiān)督信號，從而更好地構(gòu)建高語義隱空間.

作者貢獻聲明：張玉紅提出論文想法、方法設(shè)計，負(fù)責(zé)實驗指導(dǎo)、論文的寫作與修改；植文武參與實驗設(shè)計與探究、代碼實現(xiàn)、實驗數(shù)據(jù)整理與分析、論文的寫作與修改；李培培負(fù)責(zé)部分實驗數(shù)據(jù)分析、論文的修改；胡學(xué)鋼指導(dǎo)實驗設(shè)計和論文的修改.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡