王玉榮,林 民,李艷玲
內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特 010022
隨著互聯(lián)網(wǎng)多語(yǔ)言信息的發(fā)展,不同語(yǔ)言的知識(shí)共享與聯(lián)系日益緊密,如何有效地表示不同語(yǔ)言文本所隱含的動(dòng)態(tài)特征信息,已成為當(dāng)下的研究熱點(diǎn)。文本詞向量能夠表示文本語(yǔ)義、語(yǔ)法和結(jié)構(gòu)等特征信息,跨語(yǔ)言詞向量是單語(yǔ)文本詞向量在多語(yǔ)言環(huán)境下的一種自然擴(kuò)展。它認(rèn)為具有相同概念的不同語(yǔ)言的詞向量在向量空間中的距離非常接近,使得跨語(yǔ)言詞向量可以在不同語(yǔ)言間進(jìn)行詞義推理和特征共享[1]。通過(guò)多語(yǔ)言的知識(shí)可以構(gòu)建動(dòng)態(tài)的共享特征空間,使得有利于發(fā)現(xiàn)跨語(yǔ)言相關(guān)知識(shí)的對(duì)齊效果,增強(qiáng)相關(guān)但不同的分類知識(shí)域間的聯(lián)系。
近年來(lái),跨語(yǔ)言詞向量被應(yīng)用于多個(gè)自然語(yǔ)言處理(natural language processing,NLP)任務(wù)中,如面向任務(wù)的對(duì)話系統(tǒng)[2-3]、詞性標(biāo)注[4-6]、命名實(shí)體識(shí)別[7-8]、信息檢索[9]、依存分析[10]和個(gè)性化對(duì)話代理[11]。與其他跨語(yǔ)言模型相比,如基于多語(yǔ)言本體的跨語(yǔ)言模型[12],跨語(yǔ)言詞向量模型有兩大優(yōu)勢(shì)。第一,跨語(yǔ)言詞向量模型能夠?qū)缯Z(yǔ)言語(yǔ)義信息進(jìn)行建模,準(zhǔn)確計(jì)算跨語(yǔ)言詞語(yǔ)相似度等信息,是跨語(yǔ)言詞典構(gòu)建[13]、跨語(yǔ)言信息管理[14]、跨語(yǔ)言信息檢索[15]等多種跨語(yǔ)言應(yīng)用的基礎(chǔ)[16]。第二,跨語(yǔ)言詞向量支持語(yǔ)言之間的模型轉(zhuǎn)移,為遷移學(xué)習(xí)提供了橋梁。例如,跨語(yǔ)言遷移學(xué)習(xí)的一個(gè)重要研究方向是[17-20],通過(guò)提供公共的表示空間,實(shí)現(xiàn)資源豐富的語(yǔ)言和資源貧乏的語(yǔ)言之間的模型轉(zhuǎn)移[1]。
大多數(shù)跨語(yǔ)言詞向量模型都使用單語(yǔ)詞向量模型,并將其擴(kuò)展到雙語(yǔ)以及多語(yǔ)言環(huán)境中。單語(yǔ)詞向量模型成為很多跨語(yǔ)言詞向量模型的一個(gè)重要的初步工作。
早在Bengio等[21]提出的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(neural network language model,NNLM)及Mikolov[22]提出的Word2Vec 特征表示學(xué)習(xí)模型,將文本訓(xùn)練成為用分布式詞向量表示的詞向量,能有效捕捉隱含在單詞上下文的語(yǔ)法、語(yǔ)義信息,在許多需要這些語(yǔ)言特征建模的應(yīng)用任務(wù)中取得了較好的效果,如情感分析[23]、依存分析[24]、機(jī)器翻譯[25]等任務(wù)。但該模型的缺陷是:(1)只考慮固定大小窗口內(nèi)的單詞,在獲取句子上下文語(yǔ)義信息方面存在困難;(2)獲得的詞向量具有聚義現(xiàn)象,將處于不同語(yǔ)境的詞匯多種語(yǔ)義綜合表示成一個(gè)詞向量,不能表達(dá)一詞多義,是一種靜態(tài)的詞向量。為了有效學(xué)習(xí)詞匯的多重含義,Peters等[26]提出基于雙向LSTM(long short-term memory)的深度語(yǔ)境化詞向量模型ELMo(embedding from language models),對(duì)單詞的復(fù)雜特征,以及單詞使用時(shí)語(yǔ)境中的變化進(jìn)行建模。Devlin等[27]提出了BERT(bidirectional encoder representations from transformers)模型。它摒棄了雙向LSTM 的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),把Transformer[28]編碼器當(dāng)作模型的主體結(jié)構(gòu),并利用注意力機(jī)制對(duì)句子進(jìn)行建模。BERT 模型的突出優(yōu)勢(shì)是通過(guò)海量語(yǔ)料的訓(xùn)練,得到了一組適用性十分廣泛的詞向量,同時(shí)還能在具體任務(wù)中進(jìn)一步動(dòng)態(tài)優(yōu)化(fine-tuning),生成上下文語(yǔ)境敏感的動(dòng)態(tài)詞向量,解決了以往Word2Vec、Glove(global vectors for word representation)等模型的聚義問(wèn)題。BERT 預(yù)訓(xùn)練模型的出現(xiàn),使靜態(tài)的跨語(yǔ)言特征共享空間走向了動(dòng)態(tài)的跨語(yǔ)言特征共享空間,解決了在多語(yǔ)言環(huán)境中一詞多義的問(wèn)題。例如,“蘋(píng)果”這個(gè)詞的向量在英漢跨語(yǔ)言詞向量空間中,可以根據(jù)不同的上下文與英文的“fruits”類詞匯或“enterprises”類詞匯向量接近。
因而本文重點(diǎn)分析基于BERT 的跨語(yǔ)言詞向量學(xué)習(xí)方法,按照訓(xùn)練方式的不同分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),并對(duì)各類訓(xùn)練方法的原理進(jìn)行分析和比較。結(jié)合闡述的文獻(xiàn),以構(gòu)建基于BERT 的蒙漢文跨語(yǔ)言詞向量進(jìn)行展望。
BERT 模型通過(guò)預(yù)訓(xùn)練和微調(diào)的方式得到語(yǔ)義更豐富的詞向量表示,能夠克服傳統(tǒng)詞向量的聚義現(xiàn)象,通過(guò)微調(diào)的方法將模型應(yīng)用到特定的下游任務(wù),提升泛化能力[29]。在預(yù)訓(xùn)練方面,通過(guò)堆疊Transformer模型的編碼器部分構(gòu)建基礎(chǔ)模型,如圖1 所示。通過(guò)掩蔽語(yǔ)言模型(masked language model,MLM)和預(yù)測(cè)下一句(next sentence prediction,NSP)兩個(gè)任務(wù)聯(lián)合訓(xùn)練達(dá)到捕獲詞級(jí)和句子級(jí)上下文語(yǔ)義向量表示的目的,其中掩蔽語(yǔ)言模型真正實(shí)現(xiàn)了雙向語(yǔ)言模型的效果[30]。在遷移到下游任務(wù)方面,BERT 借鑒了OpenAI 的GPT(generative pre-training)預(yù)訓(xùn)練模型的做法,設(shè)計(jì)了比GPT 更通用的輸入層和輸出層[30]。
Fig.1 Model structure of BERT圖1 BERT 模型結(jié)構(gòu)
Mikolov 等[22]觀察發(fā)現(xiàn),不同語(yǔ)言的詞向量在向量空間中有著相似的幾何排列,如圖2 所示,左圖為英語(yǔ),右圖為西班牙語(yǔ)。不論是數(shù)字詞匯還是動(dòng)物詞匯,英語(yǔ)和西班牙語(yǔ)詞向量的分布非常相似?;谶@一發(fā)現(xiàn),提出一種線性映射的方法實(shí)現(xiàn)源語(yǔ)言向量空間到目標(biāo)語(yǔ)言向量空間的轉(zhuǎn)換。后續(xù),學(xué)者們通過(guò)雙語(yǔ)詞典學(xué)習(xí)該轉(zhuǎn)換[31],又通過(guò)自學(xué)習(xí)減少詞典的規(guī)模[32],最終通過(guò)無(wú)監(jiān)督初始化啟發(fā)式學(xué)習(xí)[33-34]和對(duì)抗性學(xué)習(xí)[35-36]實(shí)現(xiàn)源語(yǔ)言詞向量到目標(biāo)語(yǔ)言詞向量的映射。此外,通過(guò)從單語(yǔ)設(shè)置轉(zhuǎn)換到雙語(yǔ)設(shè)置[23]構(gòu)建共享的雙語(yǔ)向量空間,可以在不同語(yǔ)言間進(jìn)行擴(kuò)展和概括語(yǔ)義任務(wù)[37],例如,語(yǔ)義相似性[38]計(jì)算、同義詞檢測(cè)或單詞類比計(jì)算[39]等。
Ruder 等[1]將跨語(yǔ)言詞向量按照語(yǔ)料對(duì)齊方式分為基于詞對(duì)齊、基于句子對(duì)齊、基于文檔對(duì)齊的學(xué)習(xí)方法。其中基于詞對(duì)齊的方法是所有方法的核心和基礎(chǔ)。為方便理解,圖3 分別給出了不同對(duì)齊語(yǔ)料的示例,其中圖3(a)是詞對(duì)齊的平行語(yǔ)料示例,圖3(b)是句對(duì)齊的平行語(yǔ)料示例,圖3(c)是類似于文檔對(duì)齊的語(yǔ)料示例。
Fig.2 English and Spanish word embedding representation圖2 英語(yǔ)、西班牙語(yǔ)詞向量表示
Fig.3 Examples of alignment of different types of corpus圖3 不同類型語(yǔ)料對(duì)齊示例
有監(jiān)督的學(xué)習(xí)方法一般需要大量的標(biāo)注數(shù)據(jù),對(duì)于英文和中文而言,存在各種任務(wù)的標(biāo)注數(shù)據(jù)集,而對(duì)于資源缺乏的語(yǔ)言,獲取這樣大量的數(shù)據(jù)比較困難。半監(jiān)督的學(xué)習(xí)方法可以緩解這一問(wèn)題,使用較少的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。無(wú)監(jiān)督學(xué)習(xí)不需要任何人工標(biāo)注的數(shù)據(jù)。本文將有監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法一起進(jìn)行分析,對(duì)所需的語(yǔ)料單獨(dú)進(jìn)行歸納總結(jié)。下面分別從有監(jiān)督學(xué)習(xí)及無(wú)監(jiān)督學(xué)習(xí)兩方面對(duì)基于BERT 的跨語(yǔ)言詞向量學(xué)習(xí)方法的主要研究展開(kāi)詳述。
2.1.1 基于共享空間映射的方法
跨語(yǔ)言詞向量映射是學(xué)習(xí)雙語(yǔ)詞向量的有效方法[22]。其基本思想是利用單語(yǔ)語(yǔ)料庫(kù)獨(dú)立訓(xùn)練不同語(yǔ)言的詞向量,通過(guò)線性變換將它們映射到同一個(gè)共享空間。Mikolov 等[22]提出的映射方法包含一個(gè)雙語(yǔ)詞典和對(duì)應(yīng)的向量,其中xi∈X是源語(yǔ)言詞向量,yi∈Y是目標(biāo)語(yǔ)言詞向量。學(xué)習(xí)任務(wù)是找到一個(gè)變換矩陣W,使Wxi無(wú)限接近yi。訓(xùn)練優(yōu)化公式如式(1)所示:
為提高模型的性能,研究者們?cè)诰仃嚭拖蛄可霞恿嗽S多約束。Xing 等[40]提出源語(yǔ)言和目標(biāo)語(yǔ)言的詞向量長(zhǎng)度需要先進(jìn)行歸一化操作。Faruqui 等[41]使用典型相關(guān)分析(canonical correlation analysis,CCA)將源語(yǔ)言和目標(biāo)語(yǔ)言的向量映射到共享空間,最大限度地提高兩種單語(yǔ)向量空間映射的相關(guān)性。之后,在跨語(yǔ)言詞向量學(xué)習(xí)過(guò)程中,為了降低種子詞典的規(guī)模,許多研究者提出采用自學(xué)習(xí)的策略在迭代中擴(kuò)充詞典。
為了解決不同語(yǔ)言、不同領(lǐng)域的詞匯分布差異問(wèn)題,樊艷[42]提出了基于多個(gè)矩陣的軟分段映射模型(soft piecewise mapping model,SPMM),其中每個(gè)矩陣對(duì)源語(yǔ)言向量空間中的每個(gè)主題分布進(jìn)行建模。在SPMM 中,訓(xùn)練集中的每個(gè)實(shí)例(xi,yi)∈D(雙語(yǔ)訓(xùn)練的詞典),對(duì)應(yīng)著一組權(quán)重值構(gòu)成的向量
其中,W1,W2,…,WR代表R個(gè)映射矩陣,每個(gè)實(shí)例(xi,yi)對(duì)應(yīng)著一個(gè)用于學(xué)習(xí)第r個(gè)映射矩陣Wr的權(quán)重值ai,r。并提出一種自動(dòng)詞典擴(kuò)充算法,在迭代中提升詞典數(shù)量。在每一次迭代中,首先在源語(yǔ)言和目標(biāo)語(yǔ)言詞匯中進(jìn)行采樣,得到集合DS(源語(yǔ)言詞匯集)和DT(目標(biāo)語(yǔ)言詞匯集)。DS和DT中的每個(gè)詞是以概率正比于它在語(yǔ)料庫(kù)中的頻率進(jìn)行采樣得到的。在維基百科的可比語(yǔ)料上相比前人的方法有了一定的提高,在非同一語(yǔ)系英文-中文、低資源的越南語(yǔ)-英語(yǔ)跨語(yǔ)言術(shù)語(yǔ)翻譯下游任務(wù)中有明顯的提升。并證明在跨領(lǐng)域知識(shí)體系遷移任務(wù)中,預(yù)訓(xùn)練模型BERT 的效果最好。該方法適用于語(yǔ)言差距較大的跨語(yǔ)言任務(wù)中,非同一語(yǔ)系的詞匯在向量空間中的分布差異較大,需要多個(gè)矩陣進(jìn)行細(xì)粒度的映射。利用源語(yǔ)言向量空間的詞向量分布信息,可以學(xué)習(xí)到每個(gè)聚類的權(quán)重,使得細(xì)粒度的映射可以在跨語(yǔ)言、跨領(lǐng)域中進(jìn)行知識(shí)的遷移。該方法能夠緩解雙語(yǔ)詞典語(yǔ)料缺乏問(wèn)題,但需要高質(zhì)量的初始詞典,文中主要采用了公開(kāi)的詞典[43],并在維基百科的可比語(yǔ)料上做了自動(dòng)詞典擴(kuò)充。
用雙語(yǔ)詞典生成法來(lái)學(xué)習(xí)跨語(yǔ)言詞向量,克服了需要大規(guī)模語(yǔ)料的問(wèn)題,但是對(duì)種子詞典的要求比較高,需要高質(zhì)量的種子詞典。Wang 等[44]提出了基于詞對(duì)齊的跨語(yǔ)言BERT 映射,在學(xué)習(xí)上下文跨語(yǔ)言詞向量時(shí)在單詞級(jí)別上進(jìn)行監(jiān)督而不再是詞典級(jí)別上。其主要思想是:首先,通過(guò)無(wú)監(jiān)督的詞對(duì)齊工具獲得一組包含上下文信息的詞對(duì);然后,用預(yù)訓(xùn)練好的BERT 模型獲得詞向量表示;最后,找到一個(gè)合適的線性映射矩陣W,使得源語(yǔ)言詞向量空間與目標(biāo)語(yǔ)言詞向量空間的距離盡可能接近。在依存分析的下游任務(wù)中,該方法遠(yuǎn)超過(guò)了之前使用靜態(tài)跨語(yǔ)言嵌入的模型,平均增益為2.91%,相比其他跨語(yǔ)言模型,所需的訓(xùn)練數(shù)據(jù)、計(jì)算資源和訓(xùn)練時(shí)間要少得多,但實(shí)現(xiàn)了極具競(jìng)爭(zhēng)力的結(jié)果。該方法能夠在有限的雙語(yǔ)語(yǔ)料上較快地獲取跨語(yǔ)言上下文相關(guān)的詞向量。但只是單一地解決了資源稀少語(yǔ)言學(xué)習(xí)詞向量的問(wèn)題,沒(méi)有很好地體現(xiàn)跨語(yǔ)言語(yǔ)義融合的詞向量。因?yàn)樵摲椒ㄖ皇前涯繕?biāo)語(yǔ)言詞向量映射到源語(yǔ)言詞向量,使得目標(biāo)語(yǔ)言的詞向量盡量與源語(yǔ)言詞向量對(duì)齊,而對(duì)于學(xué)習(xí)跨語(yǔ)言語(yǔ)義融合詞向量模型的貢獻(xiàn)還是較少。
2.1.2 基于聯(lián)合學(xué)習(xí)方法
Klementiev 等[45]將跨語(yǔ)言表征的學(xué)習(xí)視為一個(gè)多任務(wù)學(xué)習(xí)問(wèn)題。聯(lián)合優(yōu)化源語(yǔ)言和目標(biāo)語(yǔ)言模型以及跨語(yǔ)言正則化術(shù)語(yǔ),使得在并行語(yǔ)料庫(kù)中對(duì)齊單詞的詞向量在向量空間中更加相近。Castellucci等[46]提出BERT-Joint 模型,在多語(yǔ)言BERT 模型上設(shè)計(jì)了一種聯(lián)合學(xué)習(xí)方法,應(yīng)用于多語(yǔ)言聯(lián)合文本分類和序列標(biāo)注工作。通過(guò)多語(yǔ)言BERT(multilingual BERT,Multi-BERT)模型的[CLS]詞項(xiàng)的最終隱狀態(tài)h0的固定維數(shù)序列來(lái)實(shí)現(xiàn)文本分類,通過(guò)詞項(xiàng)對(duì)應(yīng)的最終隱狀態(tài)對(duì)該詞項(xiàng)進(jìn)行標(biāo)注。為實(shí)現(xiàn)該目標(biāo),作者在模型上添加了句子級(jí)分類矩陣,分別實(shí)現(xiàn)了文本分類和序列標(biāo)注功能。該方法在英文基準(zhǔn)數(shù)據(jù)上得到了較好的結(jié)果。在跨語(yǔ)言方面,用翻譯器實(shí)現(xiàn)源語(yǔ)言詞匯和目標(biāo)語(yǔ)言詞匯對(duì)齊,在有少量標(biāo)注的意大利語(yǔ)數(shù)據(jù)集上得到了較好的效果。但該模型的跨語(yǔ)言詞向量學(xué)習(xí)完全依賴Multi-BERT 模型,通過(guò)機(jī)器翻譯源語(yǔ)言的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)多語(yǔ)言的任務(wù),實(shí)質(zhì)上訓(xùn)練數(shù)據(jù)的意圖標(biāo)簽和語(yǔ)義槽填充值并沒(méi)有改變,因此并沒(méi)有實(shí)現(xiàn)真正意義上的任務(wù)遷移。此外,利用機(jī)器翻譯會(huì)丟失源語(yǔ)言本身的語(yǔ)法等內(nèi)部信息,翻譯結(jié)果需花費(fèi)大量的時(shí)間去矯正,這也不利于該方法的訓(xùn)練。
Multi-BERT 雖然能夠?qū)W習(xí)跨語(yǔ)言詞向量,但其訓(xùn)練過(guò)程仍是一種語(yǔ)言接著另一種語(yǔ)言的訓(xùn)練,源語(yǔ)言和目標(biāo)語(yǔ)言單獨(dú)進(jìn)行編碼,二者之間沒(méi)有交互,產(chǎn)生的句子表示之間關(guān)聯(lián)性差,擬合后得到的分?jǐn)?shù)也會(huì)低。陸金梁等[47]提出一種基于Multi-BERT 跨語(yǔ)言聯(lián)合編碼的詞向量學(xué)習(xí)方法。在預(yù)訓(xùn)練好的Multi-BERT 模型基礎(chǔ)上使用少量的平行語(yǔ)料進(jìn)行二次訓(xùn)練,將其應(yīng)用到譯文質(zhì)量估計(jì)任務(wù)中,并分析了該模型在句子級(jí)跨語(yǔ)言任務(wù)上的效果,如圖4 所示。該模型預(yù)訓(xùn)練的任務(wù)與BERT 一樣,包括掩蔽詞匯預(yù)測(cè)和是否為互譯文句的預(yù)測(cè)兩個(gè)任務(wù)。在預(yù)訓(xùn)練過(guò)程中與BERT 模型不同的是,源語(yǔ)言句子中沒(méi)有掩蔽詞匯,掩蔽詞匯都在目標(biāo)語(yǔ)言句子中,即在知道源語(yǔ)言句子的情況下預(yù)測(cè)目標(biāo)語(yǔ)言句子中掩蔽的詞匯。該方法在德語(yǔ)->英語(yǔ)、中文->英文的譯文質(zhì)量估計(jì)上都得到了較好的效果。在跨語(yǔ)言詞向量學(xué)習(xí)方面,以中文單詞和英文單詞為例,用平行語(yǔ)料進(jìn)行二次訓(xùn)練的Multi-BERT 得到的詞向量在向量空間中的相似度遠(yuǎn)高于用單語(yǔ)語(yǔ)料二次訓(xùn)練的Multi-BERT 得到的詞向量。他們通過(guò)觀察從源語(yǔ)言句子到目標(biāo)語(yǔ)言句子的注意力權(quán)重分配,發(fā)現(xiàn)該方法使得在兩種語(yǔ)言中具有相似語(yǔ)義的單詞注意力分布基本一致。通過(guò)聯(lián)合編碼的預(yù)訓(xùn)練方法,可以幫助相互注意在不同語(yǔ)言間具有關(guān)系的單詞,尤其是具有相似語(yǔ)義的單詞。
Fig.4 Multi-BERT quadratic training method using parallel corpus圖4 使用平行語(yǔ)料的Multi-BERT 二次訓(xùn)練方法
Fig.5 Pre-training cross-lingual models圖5 跨語(yǔ)言模型預(yù)訓(xùn)練
Lample 等[48]將平行數(shù)據(jù)的跨語(yǔ)言監(jiān)督納入到學(xué)習(xí)跨語(yǔ)言的語(yǔ)言模型(cross-lingual language model pretraining,XLM)中。結(jié)合掩蔽語(yǔ)言模型(masked language modeling,MLM)和翻譯語(yǔ)言模型(translation language modeling,TLM)實(shí)現(xiàn)半監(jiān)督的跨語(yǔ)言詞向量學(xué)習(xí),如圖5 所示。掩蔽語(yǔ)言模型基本與Devlin 等[27]提出的想法一樣,類似于完形填空任務(wù)。與其不同的是,掩蔽語(yǔ)言模型使用由任意數(shù)量的句子組成的文本流代替成對(duì)的句子。翻譯語(yǔ)言模型的輸入是平行的翻譯句子,并隨機(jī)掩蔽源語(yǔ)言句子和目標(biāo)語(yǔ)言句子中的一些詞匯。在訓(xùn)練中,預(yù)測(cè)源語(yǔ)言句子中掩蔽的詞匯時(shí),該模型不僅能注意到源語(yǔ)言詞匯上下文信息,還能夠注意到目標(biāo)語(yǔ)言的上下文信息。該方法以高出4.9%的準(zhǔn)確率刷新了XNLI(cross-lingual natural language inference)[49]的記錄。該方法的翻譯語(yǔ)言模型,在預(yù)測(cè)掩蔽詞匯的時(shí)候不僅捕獲了該語(yǔ)言詞匯的語(yǔ)義、語(yǔ)法信息,而且捕獲了另一種語(yǔ)言的深層次信息。
2.1.3 基于偽雙語(yǔ)語(yǔ)料的方法
基于偽雙語(yǔ)語(yǔ)料的詞向量學(xué)習(xí)方法使用雙語(yǔ)詞典,隨機(jī)替換源語(yǔ)言語(yǔ)料庫(kù)中的單詞來(lái)構(gòu)建偽雙語(yǔ)語(yǔ)料庫(kù)。Xiao 等[50]首次提出該方法,使用初始種子詞典,創(chuàng)建一個(gè)聯(lián)合跨語(yǔ)言詞匯表,其中每個(gè)翻譯對(duì)占據(jù)相同的向量表示。他們通過(guò)提供源語(yǔ)言和目標(biāo)語(yǔ)言語(yǔ)料庫(kù)的上下文窗口使用最大邊界損失(max-margin loss,MML)[51]對(duì)這個(gè)模型進(jìn)行訓(xùn)練。Qin 等[52]在該方法的基礎(chǔ)上,提出跨語(yǔ)言零樣本學(xué)習(xí)的多語(yǔ)言文本混合(code-switching)數(shù)據(jù)增強(qiáng)方法(multi-lingual codeswitching data augmentation for zero-shot cross-lingual,CoSDA-ML),實(shí)現(xiàn)更好地微調(diào)Multi-BERT。該模型通過(guò)混合上下文信息來(lái)一次性對(duì)齊源語(yǔ)言和多目標(biāo)語(yǔ)言的詞表示。如圖6 所示,首先使用數(shù)據(jù)增強(qiáng)的多語(yǔ)言文本混合對(duì)Multi-BERT 進(jìn)行微調(diào),即將“It's a very sincere work”數(shù)據(jù),變化成“It's a 非常aufrichtig work”。微調(diào)結(jié)束后,直接將其應(yīng)用到零樣本遷移測(cè)試。其中,數(shù)據(jù)增強(qiáng)方法包括選句子、選詞和替換已選詞三個(gè)步驟。經(jīng)過(guò)CoSDA-ML 微調(diào)后在多語(yǔ)言環(huán)境中語(yǔ)義相近詞的向量變得更接近并相互重疊。但該方法的局限在于需要高質(zhì)量的多語(yǔ)言的雙語(yǔ)詞典,對(duì)于資源稀少的語(yǔ)言還是有一定的困難。
Fig.6 Training and zero-shot transfer圖6 訓(xùn)練和零樣本遷移過(guò)程
Table 1 Comparison of supervised cross-lingual word embedding learning methods based on BERT表1 基于BERT 的有監(jiān)督跨語(yǔ)言詞向量學(xué)習(xí)方法對(duì)比
基于共享空間映射的跨語(yǔ)言詞向量學(xué)習(xí)方法通過(guò)利用豐富的雙語(yǔ)詞典或詞對(duì)齊語(yǔ)料實(shí)現(xiàn)有效的跨語(yǔ)言詞向量學(xué)習(xí)。但該方法存在一個(gè)缺點(diǎn),一次只考慮一對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言,因此導(dǎo)致每種目標(biāo)語(yǔ)言要有單獨(dú)的模型。近年來(lái),隨著多語(yǔ)言BERT 的盛行,基于聯(lián)合學(xué)習(xí)的跨語(yǔ)言詞向量學(xué)習(xí)方法頗受研究者的青睞。通過(guò)預(yù)訓(xùn)練和微調(diào),實(shí)現(xiàn)多語(yǔ)言詞向量的語(yǔ)義對(duì)齊,并且克服了共享空間映射方法的缺點(diǎn),成為目前較為流行的跨語(yǔ)言詞向量學(xué)習(xí)方法。在實(shí)際應(yīng)用中,偽雙語(yǔ)語(yǔ)料方法的成本較高,在大型單語(yǔ)語(yǔ)料上從頭開(kāi)始訓(xùn)練。相比之下,基于共享空間映射方法的計(jì)算效率高,因?yàn)樗昧祟A(yù)訓(xùn)練的單語(yǔ)詞向量?;诠蚕砜臻g映射的方法、基于聯(lián)合學(xué)習(xí)的方法和基于偽雙語(yǔ)語(yǔ)料的方法看起來(lái)非常不同,但它們有時(shí)非常相似,事實(shí)上,它們是等價(jià)的[1],等價(jià)性證明這里不做贅述。根據(jù)上文的論述,表1 是對(duì)基于BERT 的有監(jiān)督跨語(yǔ)言詞向量學(xué)習(xí)方法的大致歸納總結(jié)。
上文介紹的基于BERT 跨語(yǔ)言詞向量學(xué)習(xí)方法需要一些平行語(yǔ)料或雙語(yǔ)詞典,但這對(duì)資源稀缺的語(yǔ)言還是比較難獲得。Multi-BERT 在完全無(wú)監(jiān)督的情況下能進(jìn)行跨語(yǔ)言遷移,改變了跨語(yǔ)言詞向量學(xué)習(xí)方法。通過(guò)聯(lián)合訓(xùn)練Transformer 模型來(lái)執(zhí)行多種語(yǔ)言的掩蔽語(yǔ)言建模,然后在下游任務(wù)上進(jìn)行微調(diào)。Wu 和Dredze[53]發(fā)現(xiàn),Multi-BERT 的跨語(yǔ)言泛化能力基于三個(gè)因素:(1)種子詞典的共享詞匯;(2)多種語(yǔ)言語(yǔ)料的聯(lián)合訓(xùn)練;(3)深度的跨語(yǔ)言表征。Artetxe 等[54]提出單語(yǔ)言的跨語(yǔ)言遷移模型(crosslingual transfer of monolingual model,MONOTRANS),通過(guò)將單語(yǔ)種模型遷移到詞匯級(jí)別的新語(yǔ)言中的方法來(lái)反駁此假設(shè)。首先,使用L1未標(biāo)注的語(yǔ)料訓(xùn)練BERT 模型,訓(xùn)練任務(wù)為掩蔽的語(yǔ)言模型和下一句話的預(yù)測(cè);然后,凍結(jié)訓(xùn)練好的BERT模型的Transformer主體結(jié)構(gòu)(embedding 層和softmax 層除外),用L2未標(biāo)注數(shù)據(jù)訓(xùn)練新的BERT 模型,訓(xùn)練任務(wù)與上一步相同;其次,使用L1的標(biāo)注數(shù)據(jù)在下游任務(wù)中,微調(diào)第一步訓(xùn)練好的模型,微調(diào)過(guò)程中凍結(jié)embedding 層;最后,使用第二步得到的embedding 層替換第三步的embedding 層,得到新的模型,應(yīng)用于L2中相同的下游任務(wù),如圖7 所示。在標(biāo)準(zhǔn)的跨語(yǔ)言分類基準(zhǔn)和新的跨語(yǔ)言問(wèn)答數(shù)據(jù)集上,該方法與Multi-BERT 有一定的競(jìng)爭(zhēng)力。該方法中的詞匯表是在各自的單語(yǔ)語(yǔ)料庫(kù)上訓(xùn)練的,沒(méi)有為每種語(yǔ)言構(gòu)建單獨(dú)的詞匯表,即沒(méi)有共享子詞匯的概念,成功地反駁了Multi-BERT 跨語(yǔ)言泛化能力的三個(gè)因素。他們還發(fā)現(xiàn),在跨語(yǔ)言預(yù)訓(xùn)練的模型中貢獻(xiàn)較大的是每種語(yǔ)言的有效詞匯,而不是有一個(gè)聯(lián)合的詞匯表或多種語(yǔ)言的共享詞匯表。無(wú)需共享詞匯只需要單語(yǔ)語(yǔ)料,對(duì)資源信息缺乏的語(yǔ)言是個(gè)較好的方法,是無(wú)監(jiān)督學(xué)習(xí)跨語(yǔ)言詞向量的一個(gè)新臺(tái)階。
Fig.7 Zero-shot cross-lingual transfer圖7 零樣本跨語(yǔ)言遷移
跨語(yǔ)言模型,在大量的跨多種語(yǔ)言的單語(yǔ)或雙語(yǔ)資源上進(jìn)行了預(yù)先訓(xùn)練,并對(duì)它們進(jìn)行微調(diào)以適應(yīng)下游的跨語(yǔ)言任務(wù),取得了良好的效果[55]。然而在微調(diào)過(guò)程中可能會(huì)改變模型參數(shù),削弱跨語(yǔ)言的泛化能力。為了緩解這一問(wèn)題,Liu 等[56]提出一種持續(xù)學(xué)習(xí)的方法,在微調(diào)下游的跨語(yǔ)言任務(wù)時(shí),能夠保持預(yù)先訓(xùn)練過(guò)模型的原始跨語(yǔ)言能力。假設(shè):模型已經(jīng)學(xué)習(xí)了n-1 個(gè)任務(wù),并且需要學(xué)習(xí)第n個(gè)任務(wù)。梯度情景記憶(gradient episodic memory,GEM)的主要特性是情景記憶Mk,它存儲(chǔ)觀察到示例的一個(gè)子集任務(wù)k(k∈[1,n])。第k個(gè)任務(wù)的內(nèi)存損失定義為:
為了在學(xué)習(xí)第n個(gè)任務(wù)的同時(shí)保持模型在前n-1 個(gè)任務(wù)中的性能,GEM 將前n-1 個(gè)任務(wù)的損失作為不等式約束。在觀察第n個(gè)任務(wù)的訓(xùn)練樣本(x,y) 時(shí),GEM 的作用是最小 化L(fθ(x,n),y),其中,Mk),k 此外,在少數(shù)民族語(yǔ)言跨語(yǔ)言詞向量學(xué)習(xí)方面,孔祥鵬等[57]提出了一種基于遷移學(xué)習(xí)的聯(lián)合深度神經(jīng)網(wǎng)絡(luò)模型,通過(guò)共享權(quán)重的方法學(xué)習(xí)跨語(yǔ)言詞向量表示,應(yīng)用于維吾爾語(yǔ)命名實(shí)體識(shí)別。首先用中文訓(xùn)練BERT 語(yǔ)言模型獲得中文的語(yǔ)義詞向量表示,將詞向量輸入到空洞卷積神經(jīng)網(wǎng)絡(luò)減少神經(jīng)元層數(shù)和參數(shù),再通過(guò)雙向門(mén)控循環(huán)單元進(jìn)行上下文語(yǔ)義信息提取,最后通過(guò)條件隨機(jī)場(chǎng)(conditional random fields,CRF)得到最優(yōu)標(biāo)簽序列。中文實(shí)體識(shí)別模型訓(xùn)練好后,采用共享深度神經(jīng)網(wǎng)絡(luò)隱藏層的方法捕捉維吾爾語(yǔ)字符之間的語(yǔ)義依賴關(guān)系,從而提高命名實(shí)體識(shí)別的性能,其準(zhǔn)確率為91.39%,召回率為90.11%,F(xiàn)1 值達(dá)到了90.75%。該方法中跨語(yǔ)言詞向量學(xué)習(xí)主要依賴于BERT 的語(yǔ)義學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)權(quán)重的共享。模型在中文信息上學(xué)到的表示信息遷移到維吾爾語(yǔ)上,實(shí)現(xiàn)了從維吾爾語(yǔ)詞向量到中文詞向量的對(duì)齊。 對(duì)于資源缺乏的語(yǔ)言來(lái)說(shuō),獲取大量的標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練是比較困難的,因此如何從已訓(xùn)練好的高資源語(yǔ)言遷移到一個(gè)低資源的語(yǔ)言,并且不需要標(biāo)注數(shù)據(jù)成為一個(gè)新的挑戰(zhàn)。無(wú)監(jiān)督的跨語(yǔ)言學(xué)習(xí)方法無(wú)需人工標(biāo)注數(shù)據(jù)且具有領(lǐng)域無(wú)關(guān)性,適合有大規(guī)模開(kāi)放的無(wú)結(jié)構(gòu)化數(shù)據(jù)的語(yǔ)言,但這種訓(xùn)練方法對(duì)硬件的消耗也比較大。表2 是對(duì)以上各種基于BERT 的無(wú)監(jiān)督跨語(yǔ)言詞向量方法給出的其適用范圍和資源消耗情況。 Table 2 Comparison of unsupervised cross lingual word embedding learning methods based on BERT表2 基于BERT的無(wú)監(jiān)督跨語(yǔ)言詞向量學(xué)習(xí)方法對(duì)比 基于BERT 的有監(jiān)督跨語(yǔ)言詞向量學(xué)習(xí)方法通過(guò)豐富的對(duì)齊語(yǔ)料,實(shí)現(xiàn)從源語(yǔ)言詞向量到目標(biāo)語(yǔ)言詞向量的遷移。但需要大量的標(biāo)注數(shù)據(jù)或高質(zhì)量的種子詞典。而基于BERT 的無(wú)監(jiān)督的跨語(yǔ)言詞向量學(xué)習(xí)方法不需要任何監(jiān)督數(shù)據(jù),并證明部分無(wú)監(jiān)督方法能獲得與有監(jiān)督方法相媲美的結(jié)果,從而得到了許多研究者的青睞。表3 是對(duì)基于BERT 的有監(jiān)督和無(wú)監(jiān)督跨語(yǔ)言詞向量學(xué)習(xí)方法的大致歸納總結(jié),表4 是按照訓(xùn)練語(yǔ)料多少排序的跨語(yǔ)言詞向量模型。 Table 3 Comparison of cross-lingual word embedding learning methods based on BERT表3 基于BERT 的跨語(yǔ)言詞向量學(xué)習(xí)方法對(duì)比 Table 4 Cross-lingual word embedding model sorted according to the number of training corpus表4 按照訓(xùn)練語(yǔ)料多少排序的跨語(yǔ)言詞向量模型 跨語(yǔ)言詞向量的質(zhì)量評(píng)估,通常分為兩類:內(nèi)在評(píng)估方法和外在評(píng)估方法[1]。內(nèi)在評(píng)估是度量?jī)煞N語(yǔ)言詞向量的相似性,直接評(píng)估詞之間的語(yǔ)法、語(yǔ)義關(guān)系。其方法是:先用詞向量計(jì)算兩個(gè)詞對(duì)的余弦相似性值,然后計(jì)算其與人工標(biāo)注的相似性值的斯皮爾曼等級(jí)相關(guān)系數(shù)。該方法雖然簡(jiǎn)單、快速,但是存在幾個(gè)明顯的缺點(diǎn):(1)人為標(biāo)注的相似性值過(guò)于主觀;(2)數(shù)據(jù)集評(píng)估的是語(yǔ)義相似性而不是基于某個(gè)任務(wù)上的相似性;(3)沒(méi)有標(biāo)準(zhǔn)的分割;(4)詞向量在下游任務(wù)上的相關(guān)度不高;(5)沒(méi)有考慮詞匯的聚義現(xiàn)象[16]。外在評(píng)估是將訓(xùn)練好的跨語(yǔ)言詞向量作為NLP 下游任務(wù)的輸入特征,通過(guò)下游任務(wù)的表現(xiàn)來(lái)評(píng)估跨語(yǔ)言詞向量的質(zhì)量。 本文主要對(duì)基于BERT 的跨語(yǔ)言詞向量學(xué)習(xí)方法進(jìn)行了介紹。按照詞向量訓(xùn)練方法的不同,將其分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩類。在有監(jiān)督的學(xué)習(xí)方法中,重點(diǎn)概述了基于詞對(duì)齊的跨語(yǔ)言詞向量學(xué)習(xí)方法,分為基于映射的學(xué)習(xí)方法、基于聯(lián)合學(xué)習(xí)方法、基于偽雙語(yǔ)語(yǔ)料學(xué)習(xí)方法。在無(wú)監(jiān)督的方法中主要論述基于多語(yǔ)言BERT 的跨語(yǔ)言詞向量學(xué)習(xí)的方法和一些無(wú)需共享詞典和聯(lián)合學(xué)習(xí)的學(xué)習(xí)方法。在無(wú)監(jiān)督跨語(yǔ)言詞向量學(xué)習(xí)方法中,一個(gè)典型的辦法是利用對(duì)抗性訓(xùn)練[34]映射共享語(yǔ)義空間,但作者并沒(méi)有找到先用BERT 預(yù)訓(xùn)練模型學(xué)習(xí)單語(yǔ)詞向量,再用對(duì)抗性訓(xùn)練學(xué)習(xí)跨語(yǔ)言詞向量的方法。此外,跨語(yǔ)言詞向量映射的自學(xué)習(xí)[33]方法也是一種無(wú)監(jiān)督的跨語(yǔ)言詞向量學(xué)習(xí)方法,但學(xué)習(xí)單語(yǔ)詞向量時(shí)并沒(méi)有用到BERT 模型。 跨語(yǔ)言詞向量將不同的語(yǔ)言映射到一個(gè)共享語(yǔ)言特征低維度稠密的向量空間,在不同語(yǔ)言間進(jìn)行知識(shí)轉(zhuǎn)移,從而在多語(yǔ)言環(huán)境中能有效捕捉隱含在單詞上下文中的語(yǔ)法、語(yǔ)義信息。對(duì)于資源信息缺乏的語(yǔ)言,跨語(yǔ)言詞向量模型是一種研究方向,它能很好地學(xué)習(xí)跨語(yǔ)言詞向量表示。 蒙古文帶標(biāo)注數(shù)據(jù)資源稀少,屬于低資源語(yǔ)言,無(wú)法構(gòu)建成熟的動(dòng)態(tài)蒙古文詞向量模型,構(gòu)建基于BERT 的蒙漢文跨語(yǔ)言詞向量模型是一種研究方向,但同時(shí)伴隨著新的挑戰(zhàn),需要進(jìn)一步探索和研究,重點(diǎn)有如下問(wèn)題亟待解決: (1)一詞多義的表達(dá)。蒙古文與土耳其文、日文、朝鮮文一樣,是一種粘著性語(yǔ)言,具有復(fù)雜的形態(tài)變化結(jié)構(gòu)。在實(shí)際應(yīng)用中常會(huì)有一詞多義現(xiàn)象。例 如,“這一句中兩個(gè)的含義不同,第一個(gè)是“頂”的意思,第二個(gè)是“頭”的意思,這句話的中文意思為“到了山頂后我頭疼了”。因而必須要考慮如何構(gòu)建上下文語(yǔ)境敏感的動(dòng)態(tài)詞向量模型和蒙古文復(fù)雜的形態(tài)變化結(jié)構(gòu)。 (2)子詞的融合。BERT 模型的出現(xiàn),將子詞級(jí)的信息納入跨語(yǔ)言詞匯表征的學(xué)習(xí)中,但學(xué)習(xí)蒙古文詞向量需要將這些子詞進(jìn)行融合,需要考慮用什么樣的融合方法才能表達(dá)單詞的真實(shí)語(yǔ)義。 (3)多音詞。蒙古文有一些多音詞,一種形式對(duì)應(yīng)多種拼寫(xiě)、發(fā)音、意義,如這個(gè)詞有“hvta”“hvda”“hqta”“hqda”“hvte”“hvde”“hqte”“hqde”等8種不同拼寫(xiě)方式,其中“hqta”(意思:城市)和“hvda”(意思:親家)是正確的拼寫(xiě)(微軟輸入法鍵盤(pán)映射),但輸入者往往只關(guān)注它的形式而不關(guān)心其正確的鍵盤(pán)映射。“”這句話也會(huì)因這個(gè)的多義性產(chǎn)生歧義句“我來(lái)到市里的家了”和“我來(lái)到親家的家里了”兩個(gè)意思。這些問(wèn)題在蒙古文中較常見(jiàn),構(gòu)建蒙漢文跨語(yǔ)言詞向量模型時(shí)需考慮進(jìn)去。 (4)功能詞的表述。跨語(yǔ)言詞向量模型與其他單語(yǔ)詞向量模型一樣,對(duì)功能詞不太敏感,例如“給我一支筆”和“給我這支筆”。這種功能詞對(duì)跨語(yǔ)言對(duì)話系統(tǒng)中尤為重要,需要考慮進(jìn)去。 (5)數(shù)據(jù)集的獲取。目前大多數(shù)跨語(yǔ)言詞向量模型都基于雙語(yǔ)詞典或平行數(shù)據(jù),蒙古文屬于低資源語(yǔ)言,獲取這樣的數(shù)據(jù)集比較困難。一個(gè)重要的相關(guān)研究方向是在多語(yǔ)言預(yù)訓(xùn)練模型的基礎(chǔ)上,用少量的平行數(shù)據(jù)進(jìn)行微調(diào)。 (6)語(yǔ)言差異性。蒙古文和中文不屬于同一個(gè)語(yǔ)系,差異性較大。將兩種語(yǔ)言映射到一個(gè)共享語(yǔ)義空間還需要考慮語(yǔ)內(nèi)翻譯和語(yǔ)際翻譯。語(yǔ)內(nèi)翻譯多指詞對(duì)應(yīng)翻譯,比較嚴(yán)謹(jǐn),準(zhǔn)確復(fù)現(xiàn)了原文本內(nèi)容,語(yǔ)際翻譯偏向于意譯,更加靈活,也能體現(xiàn)出語(yǔ)言文化和語(yǔ)言表達(dá)方式的不同。因此模型的約束條件中,既要體現(xiàn)語(yǔ)內(nèi)翻譯中詞匯的對(duì)應(yīng)正確性,也要涵蓋語(yǔ)際翻譯中的文本語(yǔ)義一致性。3.2 基于BERT 的有監(jiān)督和無(wú)監(jiān)督的跨語(yǔ)言詞向量學(xué)習(xí)方法的對(duì)比與分析
4 跨語(yǔ)言詞向量學(xué)習(xí)的評(píng)估方法
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望