陸曉蕾 王凡柯
摘 要:過去幾年,自然語言處理(NLP)技術(shù)飛速發(fā)展,文本表征成了計算語言學(xué)的核心。其中,分布式詞向量表征在語義表達(dá)方面展現(xiàn)出巨大的潛力與應(yīng)用效果。文章從語言學(xué)理論基礎(chǔ)出發(fā),介紹了計算語言學(xué)的重要術(shù)語——詞向量。探討了詞向量的兩種表示方式:離散式與分布式;介紹了詞向量在語義變遷等歷時語言學(xué)領(lǐng)域的應(yīng)用。在此基礎(chǔ)上,指出詞向量語義計算法存在的局限性,并總結(jié)了兩種詞義消歧方法:無監(jiān)督與基于知識庫。最后,文章提出大規(guī)模知識庫與詞向量的結(jié)合可能是未來文本表征研究的重要方向之一。
關(guān)鍵詞:自然語言處理;文本表征;詞向量
中圖分類號:H083;TP391.1文獻(xiàn)標(biāo)識碼:ADOI:10.3969/j.issn.1673-8578.2020.03.004
Abstract: This article focuses on the study of word embedding, a feature-learning technique in natural language processing that maps words or phrases to low-dimensional vectors. Beginning with the linguistic theories concerning contextual similarities — “distributional hypothesis” and “context of situation”, this article introduces two ways of numerical representation of text: one-hot and distributed representation. In addition, this article presents statistical-based language models (such as co-occurrence matrix and singular value decomposition) as well as neural network language models (NNLM, such as continuous bag-of-words and skip-gram). This article also analyzes how word embedding can be applied to the study of word-sense disambiguation and diachronic linguistics.
Keywords: natural language processing;text representation;word embedding
收稿日期:2020-01-02修回日期:2020-05-17
基金項目:教育部人文社科基金青年項目“‘一帶一路戰(zhàn)略下涉外法律機器翻譯云平臺的構(gòu)建及應(yīng)用研究”(18YJCZH117);福建省中青年教師教育科研項目“基于語料庫的法律英語教學(xué)云平臺的構(gòu)建”(JZ180061);中央高?;究蒲许椖俊盎谡Z義模型的機器翻譯研究”(20720191053)
作者簡介:陸曉蕾(1988—),女,博士,廈門大學(xué)助理教授,主要研究方向為計算語言學(xué)。通信方式:luxiaolei@xmu.edu.cn。
引 言
隨著人工智能與大數(shù)據(jù)研究的興起,自然語言處理(natural language processing,NLP)作為一門集語言學(xué)、計算機科學(xué)于一體的跨學(xué)科研究,獲得了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。自然語言處理的前提是文本表示(representation),即如何將人類符號化的文本轉(zhuǎn)換成計算機所能“理解”的表征形式。早期的自然語言表征主要采用離散表示。近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的分布式詞向量技術(shù)在對海量語料進(jìn)行算法訓(xùn)練的基礎(chǔ)上,將符號化的句詞嵌入到低維的稠密向量空間中,在解析句法與分析語義等方面都顯示出強大的潛力與應(yīng)用效果。
本文述介了詞向量的概念、訓(xùn)練及應(yīng)用,厘定了這一重要術(shù)語,以期為傳統(tǒng)語言學(xué)者了解計算語言學(xué),使用詞向量進(jìn)行相關(guān)研究提供參考。
一 詞向量概念:詞的表征
作為表達(dá)語義的基本單位之一,詞是自然語言處理的主要對象。詞向量的基本概念便是將人類符號化的詞進(jìn)行數(shù)值或向量化表征。目前的詞表征方式主要有離散式和分布式兩種。
1.離散表示(one-hot representation)
傳統(tǒng)的基于規(guī)則的統(tǒng)計方法通常將詞用離散的方式表示。這種方法把每個詞表示為一個長向量①,這個向量的維度由詞表②大小確定,并且該向量中只有一個維度的值為1,其余維度的值都為0。例如,一個語料庫A中有三個文本,如下:
文本1: never trouble trouble until trouble troubles you.
文本2: trouble never sleeps.
文本3: trouble is a friend.
那么,該語料庫的詞表便由[never, trouble, until, you, sleep, is, a, friend]八個單詞組成。每個單詞可以分別表示成一個維度為八的向量,根據(jù)單詞在詞表中所處的位置來計算,具體如下:{“never”: [1 0 0 0 0 0 0 0]}、{“trouble”: [0 1 0 0 0 0 0 0]}、……、{“a”: [0 0 0 0 0 0 0 1 0]}、{“friend”: [0 0 0 0 0 0 0 0 1]}??梢园l(fā)現(xiàn),隨著語料庫的變大,詞表也隨之增大,每個詞維度也會不斷變大,每個詞都將成為被大量0所包圍的1。因此,這種稀疏的表示方式又被形象地稱為“獨熱表示”。離散表示相互獨立地表示每個詞,忽略了詞與詞在句子中的相關(guān)性,這與傳統(tǒng)統(tǒng)計語言學(xué)中的樸素貝葉斯假設(shè)③不謀而合。然而,越來越多的實踐表明,離散表示存在兩大缺陷。首先是“語義鴻溝”現(xiàn)象,由于獨熱表示假定詞的意義和語法是互相獨立的,這種獨立性顯然是不適合詞匯語義的比較運算,也不符合基本的語言學(xué)常識,因此,整篇文本中容易出現(xiàn)語義斷層現(xiàn)象。例如我們知道“端午節(jié)”與“粽子”是有聯(lián)系的——端午節(jié)通常應(yīng)該吃粽子。但是這兩個詞對應(yīng)的離散向量是正交的,其余弦相關(guān)度為0,表示兩者在相似度上沒有任何關(guān)系。其次是“維度災(zāi)難”,隨著詞表規(guī)模的增加(視語料大小,一般會達(dá)到十萬以上),詞向量的維度也會隨之變大,向量中的0也會越來越多,這種維度的激增會使得數(shù)據(jù)過于稀疏,計算量陡增,并對計算機的硬件和運算能力提出更高的要求。
2.分布式表示(distributed representation)
為解決離散表示的兩大局限性,機器需要通過分布式表示來獲得低維度、具有語義表達(dá)能力的詞向量[1-2]。分布式詞向量表征的核心思路是通過大量的上下文語料與算法學(xué)習(xí),使得計算機能夠自動構(gòu)建上下文與目標(biāo)詞之間的映射關(guān)系。其主要思想是詞與上下文信息可以單獨構(gòu)成一個可行的語義向量,這種假設(shè)具有深刻的語言學(xué)理論根源。澤利格·哈里斯(Zellig S. Harris)提出分布假說(distributional hypothesis)[3],認(rèn)為分布相似的詞,其語義也相似,這成為早期詞向量表征的理論淵源之一。倫敦學(xué)派奠基人弗斯(John Rupert Firth)繼承并發(fā)揚了人類學(xué)家布羅尼斯拉夫·馬林諾夫斯基(Bronislaw Malinowski)的“情景語境”(context of situation)理論,提出語境對詞義的重要作用[4],為詞向量的分布式表示與語義計算提供了思想基礎(chǔ)。在分布假說與情景理論的基礎(chǔ)上,詞向量通過神經(jīng)網(wǎng)絡(luò)對上下文,以及上下文和目標(biāo)詞之間的關(guān)系進(jìn)行語言建模,自動抽取特征,從而表達(dá)相對復(fù)雜的語義關(guān)系并進(jìn)行語義計算。
分布式表示一般有兩種方法:基于統(tǒng)計學(xué)和基于神經(jīng)網(wǎng)絡(luò)(詳見后文)。早期,分布式詞向量的獲取主要通過統(tǒng)計學(xué)算法,包括共現(xiàn)矩陣、奇異值分解等。近年來,隨著深度學(xué)習(xí)技術(shù)的不斷成熟,神經(jīng)網(wǎng)絡(luò)開始被用于訓(xùn)練分布式詞向量,取代了早期的統(tǒng)計方法。目前分布式詞向量通常特指基于神經(jīng)網(wǎng)絡(luò)獲取的低維度詞向量。分布式表示通過統(tǒng)計或神經(jīng)網(wǎng)絡(luò)的方法構(gòu)建語言模型并獲取詞向量,具體方法為利用詞和上下文的關(guān)系,通過算法將原本離散式的詞向量嵌入到一個低維度的連續(xù)向量空間中,最終把詞表達(dá)成一個固定長度④的短向量。因此,這種表示方法也被稱為“詞嵌入”(word embedding)。此外,根據(jù)分布假設(shè),詞嵌入利用上下文與目標(biāo)詞的聯(lián)合訓(xùn)練,可以獲取詞語的某種語義表達(dá)。例如,通過Python程序引入Word2Vec包并加載訓(xùn)練好的60維詞向量模型,獲得的詞嵌入的形式如下:
二 詞向量訓(xùn)練:基于統(tǒng)計與神經(jīng)網(wǎng)絡(luò)的語言模型
訓(xùn)練詞向量時,一般會使用不同類別的語言模型。訓(xùn)練詞向量的語言模型主要有兩種:基于統(tǒng)計的語言模型和基于神經(jīng)網(wǎng)絡(luò)的語言模型。
1.基于統(tǒng)計的語言模型
(1)共現(xiàn)矩陣(co-occurrence matrix)
與離散表示不同,共現(xiàn)矩陣通過統(tǒng)計詞表中單詞共同出現(xiàn)的次數(shù),以單詞周圍(可以設(shè)置上下文窗口大小)出現(xiàn)的詞頻作為目標(biāo)詞的向量表示。表1是語料庫A的共現(xiàn)矩陣單詞統(tǒng)計結(jié)果,上下文窗口長度取2,共現(xiàn)詞匯為(never,trouble)、(trouble,trouble)、(trouble,until)……,以此類推。
可以發(fā)現(xiàn):never與trouble共同出現(xiàn)的頻次為
2,與until共同出現(xiàn)的頻次為0;這樣,經(jīng)過統(tǒng)計語料庫A中的所有文本單詞,“never”的詞向量可以表示為[0 2 0 0 0 0 0 0],以此類推,“trouble”可以表示為[2 2 2 1 0 1 0 0]。我們可以發(fā)現(xiàn),基于詞頻統(tǒng)計結(jié)果的共現(xiàn)矩陣沒有忽視語義關(guān)系,這在一定程度上緩和了“語義鴻溝”的問題,但是由于共現(xiàn)矩陣的維數(shù)等于詞表的詞匯總數(shù),因此,矩陣依然十分稀疏,“維度災(zāi)難”和計算量大的問題仍然存在。
(2) 奇異值分解(singular value decomposition, SVD)
共現(xiàn)矩陣的“維度災(zāi)難”與數(shù)據(jù)稀疏等問題,可以通過降低向量維度來解決,即通過算法將共現(xiàn)矩陣降成低維度的稠密(dense)矩陣。奇異值分解是目前使用最為廣泛的一種矩陣分解方法,可以將多維的復(fù)雜矩陣M分解成矩陣U、Σ、VT的乘積,如M=UΣVT。根據(jù)奇異值的大小截取矩陣U后獲取U′作為降維矩陣,再經(jīng)過歸一化后得到詞語的詞向量。共現(xiàn)矩陣經(jīng)過奇異值分解后變?yōu)榈途S度的稠密矩陣,該矩陣可使得語義相近的詞在向量空間上相近,有時甚至能夠反映詞與詞之間的線性關(guān)系。然而,奇異值分解算法基于簡單的矩陣變換,可解釋性不強;同時,由于截斷操作,向量表示可能會丟失一些重要信息;另外,奇異值分解算法的計算量隨語料庫與詞典的增長而急劇擴(kuò)展,新加入的詞會導(dǎo)致統(tǒng)計結(jié)果發(fā)生變化,矩陣必須重新統(tǒng)計和計算。
2.基于神經(jīng)網(wǎng)絡(luò)的語言模型
傳統(tǒng)的詞向量模型主要基于統(tǒng)計學(xué),由于近年來人工智能的快速發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的語言模型愈加成熟。Xu和Alex最早利用神經(jīng)網(wǎng)絡(luò)構(gòu)建二元(bigram⑤)語言模型的方法訓(xùn)練詞向量[6]。Bengio等提出了一種三層神經(jīng)網(wǎng)絡(luò)語言模型[2]。該模型不需要人工標(biāo)注語料,主要根據(jù)上文語境預(yù)測下一個詞,能夠從單語語料庫中自動獲取豐富的語義信息。該模型的提出為著名的Word2Vec的誕生提供了堅實的算法理論基礎(chǔ)。
Word2Vec是一款開源詞向量工具包[7],該工具包在算法理論上參考了Bengio設(shè)計的神經(jīng)網(wǎng)絡(luò)模型,在處理大規(guī)模、超大規(guī)模的語料時,可以簡單并且高效地獲取高精度的詞向量,在學(xué)術(shù)界和業(yè)界都獲得了廣泛的關(guān)注。Word2vec的實現(xiàn)主要有連續(xù)詞袋模型(continuous bag-of-words,CBOW)和跳躍元語法模型(skip-gram)兩種算法(圖1)。
(1) 連續(xù)詞袋模型(continuous bag-of-words,CBOW)
連續(xù)詞袋模型的核心思想是利用目標(biāo)詞的上下文來預(yù)測目標(biāo)詞出現(xiàn)的概率。該模型主要通過將文本視為一個詞集合來訓(xùn)練語言模型,在運算過程中,主要考慮目標(biāo)詞周圍出現(xiàn)的單詞,忽略其詞序和語法。因其思路類似將文字裝入袋子中,這種模型也被稱為“詞袋模型”[3]。連續(xù)詞袋模型運算/運行的具體步驟為:將目標(biāo)詞的上下文若干個詞對應(yīng)的離散詞向量輸入模型,輸出詞表中所有詞出現(xiàn)的概率,再通過哈夫曼樹⑥查找目標(biāo)詞并通過BP算法⑦更新網(wǎng)絡(luò)參數(shù)使輸出為目標(biāo)詞的概率最大化,最終將神經(jīng)網(wǎng)絡(luò)中的參數(shù)作為目標(biāo)詞的詞向量。如圖1(a)所示,輸入為he、walked、the、bank四個詞的離散詞向量,輸出為目標(biāo)詞to的詞向量。為了使得輸出為to的概率最大,連續(xù)詞袋模型通過BP算法不斷更新神經(jīng)網(wǎng)絡(luò)參數(shù)Θ1和Θ2。經(jīng)過多次迭代運算后,模型最終收斂并將運算參數(shù)(Θ1)作為單詞“to”的理想詞向量。
(2) 跳躍元語法模型(skip-gram)
跳躍元語法模型和詞袋模型的思路相反:利用特定詞語來預(yù)測其上下文。該模型接受指定詞的離散詞向量,輸出該詞所對應(yīng)的上下文詞向量,并且通過BP算法更新網(wǎng)絡(luò)參數(shù)。如圖1(b)所示,輸入為特定詞to的離散向量,輸出為其上下文he、walked、the、bank四個詞的離散向量。同樣,為了實現(xiàn)模型輸出這四個詞的(即目標(biāo)詞的上下文)概率最大化,skip-gram通過BP算法更新Θ1和Θ2,并在多次迭代運算后,模型最終收斂并將獲得運算參數(shù)(Θ1)作為單詞“to”的理想詞向量。
三 詞向量應(yīng)用:語義計算、消歧與變遷
1. 語義計算和語義消歧
基于詞的分布式表征以及連續(xù)詞袋模型/跳躍元語法模型等神經(jīng)網(wǎng)絡(luò)模型得出的詞向量,可以用于語義計算和語義消歧。傳統(tǒng)語義計算和語義消歧主要采用語法結(jié)構(gòu)分析和人工標(biāo)注等消歧方法,過程復(fù)雜,人工量大。詞向量技術(shù)主要通過計算機自主學(xué)習(xí)來達(dá)到消歧目的,大幅度減少了人工的投入。
(1)語義(相關(guān)度)計算
語義計算,即詞語間的距離計算,主要用于反映語義相關(guān)度。語料經(jīng)過神經(jīng)網(wǎng)絡(luò)模型運算向量化后,構(gòu)成了可計算的多維向量空間。每個詞在該空間內(nèi)都可以表示為多維度的向量。語義計算主要的方法有兩種:①通過語義詞典(如著名的WordNet和HowNet等),把有關(guān)詞語的概念或意義組織在一個基于語義的樹形結(jié)構(gòu)中,通過計算其節(jié)點(詞)間的距離來反映語義的遠(yuǎn)近;②通過提取詞語上下文信息,運用統(tǒng)計的方法進(jìn)行自動計算。基于詞向量空間模型的語義計算屬于后者。其中,利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的詞向量技術(shù)將文本表示為低維空間向量,通過計算向量夾角(如余弦相似度)的方式來獲取詞語的語義相關(guān)度。相似度取值一般為0~1。
表2是基于跳躍元語法模型獲取的與“語言學(xué)”相近的詞,通過引入Word2Vec包,加載預(yù)訓(xùn)練的60維詞向量模型,獲得的結(jié)果按照語義相關(guān)度大小排序如下:
通過跳躍元語法模型訓(xùn)練出詞向量后,通過類似聚類的相關(guān)度計算,可以快速(毫秒級)獲取與指定詞匯語義相關(guān)的詞匯。結(jié)果顯示,“語言文學(xué)”“語義學(xué)”等與“語言學(xué)”的相關(guān)度較高,在空間位置上較為接近;“竺可楨”“分配律”等與“語言學(xué)”的相關(guān)度較低。這類語義計算對于語義聚類以及語義挖掘有一定的價值。值得注意的是,分布式詞向量技術(shù)對語料的依賴程度較高,因此,需要精選語料進(jìn)行大規(guī)模學(xué)習(xí)以實現(xiàn)偏差最小化。
通過計算向量相關(guān)度,基于詞向量的自然語言處理技術(shù)能夠從海量的語料中快速獲取詞語語義的相對位置,并查找出與之相似的詞。多維的詞向量經(jīng)過降維后,可以在二維平面上清晰地看出語義關(guān)系。例如,圖2中,在詞匯關(guān)系類比中,king與man之間的距離和queen與woman之間的相對位置非常接近。在句法類比中,slow-slower-slowest三詞之間的相對距離和fast-faster-fastest以及l(fā)ong-longer-longest等的相對位置也十分相似。
以上可以發(fā)現(xiàn)詞向量在語義相關(guān)度計算與句法分析上可以做到定量分析與可視化,這對語義挖掘具有十分重要的應(yīng)用價值。
(2)語義消歧
詞向量技術(shù)雖然可以表征語義,然而在面對多義詞的時候,單個向量很難表達(dá)詞語的多個意義,依然存在詞義模糊以及“多義消失”(meaning conflation)等問題。因此,在使用詞向量時,需要考慮歧義對結(jié)果的影響。傳統(tǒng)的語義消歧主要通過語法結(jié)構(gòu)[9],建立特定領(lǐng)域的語義庫以減少語義數(shù)[10],通過人工標(biāo)注的語料學(xué)習(xí)消歧規(guī)則建立詞匯專家系統(tǒng)[11]等,大多依賴人工建立的語義網(wǎng)絡(luò)與語義角色。在深度學(xué)習(xí)領(lǐng)域,消歧主要根據(jù)目標(biāo)詞的上下文信息來進(jìn)行。目前,語義消歧方法基本上可以分為兩類:無監(jiān)督式和基于知識庫的方式。無監(jiān)督的方式直接從文本語料中學(xué)習(xí)意義,而基于知識庫的方式則在計算機深度學(xué)習(xí)的基礎(chǔ)上,利用人類專家制作的外部語言知識庫作為意義來源,將機器學(xué)習(xí)與專家知識相結(jié)合。前者可解釋性較差,后者融合專家歸納整理的知識庫,解釋性較好,但也因受限于知識庫,對知識庫以外的詞匯和意義泛化性不足。
1) 無監(jiān)督消歧
無監(jiān)督的方式主要有語境聚類式[12]、混合式[13]和語篇主題嵌入式[14]等方法。語境聚類式(clustering-based)消歧的主要思想是通過收集單詞出現(xiàn)的語境,利用聚類算法對其詞義進(jìn)行自動分類。混合式(joint-training)消歧主要通過在訓(xùn)練的過程中加入詞義比對更新模式,自動生成詞義組來實現(xiàn)。語篇主題嵌入式主要通過在局部信息(local context)的基礎(chǔ)上引入全局信息(global context)來實現(xiàn)消歧。相對而言,語篇主題嵌入的方法能夠獲得更為精準(zhǔn)的語義消歧效果。
在詞向量訓(xùn)練過程中,一般不考慮整個篇章,僅利用句子上下文幾個窗口的詞提供的信息來訓(xùn)練模型。然而,有些具有歧義的詞義無法僅憑單句上下文幾個詞的信息來判斷。如圖3的英文句子“he walks to the bank”中,bank可以被理解為“銀行”或者“河岸”。此時,語篇主題嵌入式消歧會在詞向量訓(xùn)練中加入全局信息和“多種詞義原型”(multiple word prototypes),具體如下:
第一,全局信息模型將整個篇章的詞向量做加權(quán)平均(weighted average,權(quán)重是tf-idf)計算后作為全局語義向量(global semantic vector),再和正常訓(xùn)練的局部語義向量相加,這樣訓(xùn)練出來的加強型詞向量能更好地捕捉語義信息。例如,篇章里出現(xiàn)的諸如river、play、shore、water等詞,可以使得當(dāng)前bank的語義為“河岸”的概率大大提升。
第二,使用多個詞向量代表多義詞。通過對上下文的詞向量進(jìn)行加權(quán)平均(代表目標(biāo)詞語義)后進(jìn)行K均值聚類,根據(jù)聚類結(jié)果作為目標(biāo)詞的意義類別,如bank1、bank2和bank3。顯然,這種方式將詞根據(jù)語義的不同來分別訓(xùn)練詞向量,在某種程度上突破了多義消失的問題。然而,調(diào)查發(fā)現(xiàn)這種方法的效果強烈依賴于聚類算法的可靠性,也不可避免地存在誤差。
2) 基于知識的方法
所謂基于知識的方法,即在詞向量的訓(xùn)練過程中,加入其他結(jié)構(gòu)化的知識作為監(jiān)督。隨著以WordNet與HowNet為代表的語言知識庫的不斷完善,基于其網(wǎng)絡(luò)結(jié)構(gòu)的圖模型方法也逐漸用于語義消歧中。監(jiān)督學(xué)習(xí)借助有標(biāo)注的訓(xùn)練語料,在特定領(lǐng)域已經(jīng)獲得了較好的消歧性能。
Yu等在訓(xùn)練連續(xù)詞袋模型的同時,引入PPDB數(shù)據(jù)庫⑧和WordNet等外部知識,抽取語義相似詞對作為約束條件,使得對應(yīng)的詞向量能夠?qū)W習(xí)到這些詞義相似的信息[15]。Bian等在連續(xù)詞袋模型中加入詞的形態(tài)、句法和語義信息[16]。Nguyen等在跳躍元語法模型基礎(chǔ)上加入詞匯對比信息共同訓(xùn)練,使得訓(xùn)練得到的詞向量能有效識別同義詞和反義詞[17]。Niu等將HowNet知識融入詞向量連續(xù)詞袋模型與跳躍元語法模型中,訓(xùn)練詞義的最基本粒度——義原(sememe)⑨,在訓(xùn)練過程中加入上下文–單詞–意義–義原的聯(lián)合訓(xùn)練,有效地提升詞向量表達(dá)多義詞的效果[18]。
以上,無監(jiān)督消歧單純依靠語料挖掘意義,極大地減少了人工的投入,而基于知識的方式則引入了外部語料知識,有效地克服了因缺乏足夠信息導(dǎo)致的語義不完整等困難。
2. 語義變遷
詞匯作為語言的基本單位,其語義變遷是研究語言模型和反映社會歷史文化演變的重要手段。傳統(tǒng)的語義變遷研究主要通過從歷史文本中搜索目標(biāo)詞,統(tǒng)計詞匯的使用頻次,根據(jù)語言和歷史知識對其進(jìn)行人工描述。Michel等利用Google Books五百多萬種出版物,建立語料庫,通過詞頻統(tǒng)計研究人類文化的演變與特點[19]。Bamman等則通過觀測與目標(biāo)詞匯共現(xiàn)的其他詞匯的頻度變化來間接地探索詞匯語義變化[20]。Mihalcea等通過收集19—21世紀(jì)特定術(shù)語的使用變化來考察社會現(xiàn)象[21]。以上工作大多通過搜索和統(tǒng)計的方法,從海量的文獻(xiàn)中捕捉到了各個歷史時期的詞匯語義,費時費力,且難以直觀獲取語義內(nèi)涵。而詞向量表征將文本轉(zhuǎn)換為空間向量,用向量的夾角代表其語義相似度,能夠定量地從海量歷時文本中獲取語義相近的詞。通過研究詞匯的語義相近詞,能夠比較直觀地看出語義的歷時變化。
劉知遠(yuǎn)等基于1950—2003年的《人民日報》文本訓(xùn)練詞向量模型,對詞匯語義變化進(jìn)行了定量觀測,探究了詞匯變化反映出來的社會變遷[22]。Hamilton等在多語言大規(guī)模語料庫的基礎(chǔ)上,利用Word2Vec的跳躍元語法模型建立歷時詞向量空間來揭示語義變遷規(guī)律[23]。如圖4a中,gay在20世紀(jì)初與tasteful、cheerful等詞匯在空間位置上較為接近,到了20世紀(jì)中葉,gay與witty、bright等詞的語義相關(guān)度高。到了20世紀(jì)末,gay與lesbian與homosexual等詞在語義計算上結(jié)果相近。圖4b顯示,隨著報紙、電視、廣播、網(wǎng)絡(luò)等多種媒體的興起,broadcast的相似詞也從19世紀(jì)中期的seed、sow等,逐漸演變?yōu)閚ewspapers、television、radio、bbc等。圖4c揭示了awful的語義從19世紀(jì)中期的solemn逐漸向terrible、appalling等演變的過程。Hamilton等通過動態(tài)建模,將靜態(tài)的詞向量擴(kuò)展到動態(tài)的時間序列場景中,定量地觀測與剖析了語義更迭與社會文化的變遷[23]。
四 結(jié) 語
本文深入探討了計算語言學(xué)中的重要術(shù)語——詞向量在表達(dá)語義方面的表現(xiàn),介紹了兩種詞向量表達(dá)的形式以及獲取方式,證明了詞向量技術(shù)為語義消歧與語義變遷等研究提供了定量手段,在語義表達(dá)方面顯示出強大的潛力與應(yīng)用效果。
分布式詞向量模型是基于海量語料的監(jiān)督學(xué)習(xí),充分利用語料庫中詞的上下文相關(guān)信息,通過神經(jīng)網(wǎng)絡(luò)優(yōu)化訓(xùn)練語言模型,在此過程中獲得詞語的向量化形式。這種向量化的分布式表征以“情景語境”為理論基礎(chǔ),通過向量間的夾角余弦相似度來度量詞匯的相似度。但是,我們也發(fā)現(xiàn)現(xiàn)階段的詞向量僅僅從海量的語料庫中學(xué)習(xí)到部分語義表達(dá),在其歧義性和不常用詞的弱表達(dá)上尚不盡人意,單從海量數(shù)據(jù)中學(xué)到的語義表達(dá)還是存在偏差。另外,詞向量對于訓(xùn)練語料庫中未出現(xiàn)的詞也很難去表達(dá)其語義。針對這種情況,本文認(rèn)為在文本以外,應(yīng)該引入更加強大的人類專家知識庫的支持,獲取更加強大的語義表達(dá)。為此,詞向量的研究,乃至整個自然語言處理系統(tǒng)需要探索數(shù)據(jù)與知識共同驅(qū)動的方法,不斷完善語義表征算法,擴(kuò)充與優(yōu)化語言專家知識體系。
注釋
① 這里的長向量是維度較大的向量。在數(shù)學(xué)中,向量指具有大小和方向的量。它可以形象化地表示為帶箭頭的線段,空間數(shù)學(xué)可表達(dá)為[數(shù)值1,數(shù)值2,…,數(shù)值n]。
② 語料庫中的所有詞構(gòu)成一個詞表。
③ 樸素貝葉斯假設(shè)文本屬性之間是相互獨立的。
④ 一般為60/150/300維。
⑤ gram:粒度、元。N-gram表示多元,是計算機語言學(xué)和概率論領(lǐng)域內(nèi)的概念,是指給定的一段文本中多個連續(xù)單位的序列。N可以是任意正整數(shù),如unigram(N=1),bigram(N=2),trigram(N=3),以此類推。
⑥ 哈夫曼樹,又稱“最優(yōu)樹”,是一種數(shù)據(jù)壓縮與查找算法。
⑦ BP(back propagation)算法,即反向傳播算法,通過結(jié)果誤差的反向傳播來更新神經(jīng)網(wǎng)絡(luò)參數(shù),是深度學(xué)習(xí)的核心算法。
⑧ PPDB為一種基于農(nóng)藥特性的專業(yè)數(shù)據(jù)庫。
⑨ 義原在語言學(xué)中是指最小的不可再分的語義單位,知網(wǎng)(HowNet)是最著名的義原知識庫。
參考文獻(xiàn)
[1] Hinton G E. Learning Distributed Representations of Concepts[C/OL]. [2020-05-17].http://www.cs.toronto.edu/~hinton/absps/families.pdf.
[2] Bengio Y, Ducharme R, Vincent P, et al. A Neural Probabilistic Language Model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.
[3] Harris Z S. Distributional Structure[J]. Word, 1954, 10(2-3): 146-162.
[4] Firth J R. A Synopsis of Linguistic Theory, 1930—1955[J]. Studies in Linguistic Analysis, 1957,168-205.
[5] Li S, Zhao Z, Hu R, et al. Analogical reasoning on Chinese morphological and semantic relations[C/OL]. [2020-05-17].https://arxiv.org/pdf/1805.06504.pdf.
[6] Xu W, Rudnicky A. Can Artificial Neural Networks Learn Language Models?[C/OL]. [2020-05-17].https://kilthub.cmu.edu/articles/Can_Artificial_Neural_Networks_Learn_Language_Models_/6604016/files/12094409.pdf.
[7] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and Their Compositionality[C/OL]. [2020-05-17].https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf.
[8] Akhtar S S. Robust Representation Learning for Low Resource Languages[M]. INDIA: International Institute of Information Technology, 2018.
[9] Reifler E. The Mechanical Determination of Meaning[J]. Readings in Machine Translation, 1955: 21-36.
[10] Weaver W. Translation[J]. Machine Translation of Languages, 1955, 14: 15-23.
[11] Weiss S F. Learning to disambiguate[J]. Information Storage and Retrieval, 1973, 9(1): 33-41.
[12] Liu P, Qiu X, Huang X. Learning Context-sensitive Word Embeddings with Neural Tensor Skip-gram Model[C/OL]. [2020-05-17].https://www.aaai.org/ocs/index.php/IJCAI/IJCAI15/paper/viewFile/11398/10841.
[13] Li J, Jurafsky D. Do Multi-sense Embeddings Improve Natural Language Understanding?[C/OL]. [2020-05-17]. https://arxiv.org/pdf/1506.01070.
[14] Huang E H, Socher R, Manning C D, et al. Improving Word Representations Via Global Context and Multiple Word Prototypes [C/OL]. [2020-05-17].https://dl.acm.org/doi/pdf/10.5555/2390524.2390645?download=true.
[15] Yu M, Dredze M. Improving Lexical Embeddings with Semantic Knowledge[C/OL]. [2020-05-17].https://www.aclweb.org/anthology/P14-2089.pdf.
[16] Bian J, Gao B, Liu T Y. Knowledge-powered Deep Learning for Word Embedding[C/OL]. [2020-05-17].https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/5BECML20145D20Knowledge-Powered20Word20Embedding.pdf.
[17] Nguyen K A, Walde S S, Vu N T. Integrating Distributional Lexical Contrast into Word Embeddings for Antonym-synonym Distinction [C/OL]. [2020-05-17].https://arxiv.org/pdf/1605.07766.pdf.
[18] Niu Y, Xie R, Liu Z, et al. Improved Word Representation Learning with Sememes[C/OL]. [2020-05-17].https://www.aclweb.org/anthology/P17-1187.pdf.
[19] Michel J B, Shen Y K, Aiden A P, et al. Quantitative Analysis of Culture Using Millions of Digitized Books[J]. Science, 2011, 331(6014): 176-182.
[20] Bamman D, Crane G. Measuring Historical Word Sense Variation[C/OL]. [2020-05-17].https://dl.acm.org/doi/pdf/10.1145/1998076.1998078.
[21] Mihalcea R, Nastase V. Word Epoch Disambiguation: Finding How Words Change Over Time[C/OL]. [2020-05-17].https://www.aclweb.org/anthology/P12-2051.pdf.
[22] 劉知遠(yuǎn),劉揚,涂存超,等.詞匯語義變化與社會變遷定量觀測與分析[J].語言戰(zhàn)略研究,2016,1(6): 47-54.
[23] Hamilton W L, Leskovec J, Jurafsky D. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change[C/OL]. [2020-05-17].https://arxiv.org/pdf/1605.09096.pdf.