融合語義信息的矩陣分解詞向量學(xué)習(xí)模型

2017-12-05 11:21陳培景麗萍

智能系統(tǒng)學(xué)報(bào) 2017年5期

關(guān)鍵詞：知識(shí)庫正確率語料庫

陳培，景麗萍

(北京交通大學(xué) 交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室，北京 100044)

融合語義信息的矩陣分解詞向量學(xué)習(xí)模型

陳培，景麗萍

(北京交通大學(xué) 交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室，北京 100044)

詞向量在自然語言處理中起著重要的作用，近年來受到越來越多研究者的關(guān)注。然而，傳統(tǒng)詞向量學(xué)習(xí)方法往往依賴于大量未經(jīng)標(biāo)注的文本語料庫，卻忽略了單詞的語義信息如單詞間的語義關(guān)系。為了充分利用已有領(lǐng)域知識(shí)庫(包含豐富的詞語義信息)，文中提出一種融合語義信息的詞向量學(xué)習(xí)方法(KbEMF)，該方法在矩陣分解學(xué)習(xí)詞向量的模型上加入領(lǐng)域知識(shí)約束項(xiàng)，使得擁有強(qiáng)語義關(guān)系的詞對(duì)獲得的詞向量相對(duì)近似。在實(shí)際數(shù)據(jù)上進(jìn)行的單詞類比推理任務(wù)和單詞相似度量任務(wù)結(jié)果表明，KbEMF比已有模型具有明顯的性能提升。

自然語言處理；詞向量；矩陣分解；語義信息；知識(shí)庫

詞向量是單詞在實(shí)數(shù)空間所表示的一個(gè)低維連續(xù)向量，它能夠同時(shí)捕獲單詞的語義信息和語法信息。近年來，詞向量已被廣泛地應(yīng)用于各種各樣的自然語言處理任務(wù)中[1-5]，如命名實(shí)體識(shí)別、情感分析、機(jī)器翻譯等。在處理上述任務(wù)的過程中通常需要用到更大單位級(jí)別(如短語、句子、段落、篇章)的向量表示,這些向量則可以由詞向量組合獲得。因此學(xué)習(xí)優(yōu)質(zhì)的詞向量非常重要。

現(xiàn)有的詞向量學(xué)習(xí)方法是利用單詞的上下文信息預(yù)測(cè)該單詞含義，并且使上下文信息相似的單詞含義也相似，因此對(duì)應(yīng)的詞向量在空間距離上更靠近。現(xiàn)有的詞向量學(xué)習(xí)方法大致可以分為基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞向量和基于矩陣分解學(xué)習(xí)詞向量?；谏窠?jīng)網(wǎng)絡(luò)學(xué)習(xí)詞向量是根據(jù)上下文與目標(biāo)單詞之間的關(guān)系建立語言模型，通過訓(xùn)練語言模型獲得詞向量[6-12]。但有效詞向量的獲取是建立在訓(xùn)練大規(guī)模文本語料庫的基礎(chǔ)上，這無疑使計(jì)算成本很高。近年來提出的 CBOW和skip-gram模型[11]去除了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中非線性隱層，使算法復(fù)雜度大大降低，并且也獲得了高效的詞向量。CBOW根據(jù)上下文預(yù)測(cè)目標(biāo)單詞，skip-gram根據(jù)目標(biāo)單詞預(yù)測(cè)上下文單詞?；诰仃嚪纸獾脑~向量學(xué)習(xí)模型[13-15]是通過分解從文本語料庫中提取的矩陣(如共現(xiàn)矩陣或由共現(xiàn)矩陣生成的PMI矩陣)得到低維連續(xù)的詞向量，并且文獻(xiàn)[13]和文獻(xiàn)[14]證明了矩陣分解的詞向量學(xué)習(xí)模型與skip-gram完全等價(jià)。

上述模型學(xué)習(xí)的詞向量已被有效地應(yīng)用于自然語言處理任務(wù)中，然而這些模型在學(xué)習(xí)詞向量的過程中僅使用了文本語料庫信息，卻忽略了單詞間的語義信息。一旦遇到下列情形很難保證所得詞向量的質(zhì)量：1)含義不同甚至完全相反的單詞(good/bad)往往出現(xiàn)在相似的上下文中，那么它們的詞向量必然十分相似，這明顯與現(xiàn)實(shí)世界相悖；2)對(duì)于兩個(gè)含義相似的單詞，其中一個(gè)出現(xiàn)在語料庫中的次數(shù)極少，另外一個(gè)卻頻繁出現(xiàn)，或者它們出現(xiàn)在不同的上下文中，那么最終它們學(xué)得的詞向量會(huì)有很大差別；3)大量上下文噪音的存在使學(xué)得的詞向量不能準(zhǔn)確反映出單詞間的真實(shí)關(guān)系，甚至?xí)`導(dǎo)整個(gè)詞向量的訓(xùn)練過程。

為解決上述問題，本文考慮從領(lǐng)域知識(shí)庫提取語義信息并融入到詞向量學(xué)習(xí)的過程中。這會(huì)給詞向量的學(xué)習(xí)帶來下列優(yōu)勢(shì)。

首先，知識(shí)庫明確定義了單詞的語義關(guān)系(knife/fork都屬于餐具，animal/dog具有范疇包含關(guān)系等)，引入這些語義關(guān)系約束詞向量的學(xué)習(xí)，使學(xué)到的詞向量具有更準(zhǔn)確的關(guān)系。另外，相似單詞出現(xiàn)在不同的上下文中或者出現(xiàn)頻次存在較大差異帶來的詞向量偏差問題，都可以通過知識(shí)庫豐富的語義信息予以修正。再者，知識(shí)庫是各領(lǐng)域的權(quán)威專家構(gòu)建的，具有更高的可靠性。因此，引入語義信息約束詞向量的學(xué)習(xí)是很有必要的。

目前融合語義信息學(xué)習(xí)詞向量已有一些研究成果。Bian 等[16]利用單詞結(jié)構(gòu)信息、語法信息及語義信息學(xué)習(xí)詞向量，并取得了良好的效果。Xu等[17]分別給取自于知識(shí)庫的兩類知識(shí)信息(R-NET和C-NET)建立正則約束函數(shù)，并將它們與skip-gram模型聯(lián)合學(xué)習(xí)詞向量，提出了RC-NET模型。Yu 等[18]將單詞間的語義相似信息融入到CBOW的學(xué)習(xí)過程中，提出了高質(zhì)量的詞向量聯(lián)合學(xué)習(xí)模型RCM。Liu 等[19]通過在訓(xùn)練skip-gram模型過程中加入單詞相似性排序信息約束詞向量學(xué)習(xí)，提出了SWE模型，該模型通過單詞間的3種語義關(guān)系，即近反義關(guān)系、上下位關(guān)系及類別關(guān)系獲取單詞相似性排序信息。Faruqui 等[20]采用后處理的方式調(diào)整已經(jīng)預(yù)先訓(xùn)練好的詞向量，提出了Retro模型，該模型可以利用任意知識(shí)庫信息調(diào)整由任意詞向量模型訓(xùn)練好的詞向量，而無需重新訓(xùn)練詞向量。

以上研究都是通過拓展神經(jīng)網(wǎng)絡(luò)詞向量學(xué)習(xí)模型構(gòu)建的。與之不同，本文提出的KbEMF模型是基于矩陣分解學(xué)習(xí)詞向量。該模型以Li 等[13]提出的EMF模型為框架加入領(lǐng)域知識(shí)約束項(xiàng)，使具有較強(qiáng)語義關(guān)系的詞對(duì)學(xué)習(xí)到的詞向量在實(shí)數(shù)空間中的距離更近，也就是更加近似。與Faruqui 等采用后處理方式調(diào)整訓(xùn)練好的詞向量方式不同，KbEMF是一個(gè)同時(shí)利用語料庫和知識(shí)庫學(xué)習(xí)詞向量的聯(lián)合模型，并且在單詞類比推理和單詞相似度量?jī)蓚€(gè)實(shí)驗(yàn)任務(wù)中展示了它的優(yōu)越性。

1 矩陣分解詞向量學(xué)習(xí)模型相關(guān)背景

KbEMF模型是通過擴(kuò)展矩陣分解詞向量學(xué)習(xí)模型構(gòu)建的，本節(jié)介紹有關(guān)矩陣分解學(xué)習(xí)詞向量涉及的背景知識(shí)。

共現(xiàn)矩陣對(duì)于一個(gè)特定的訓(xùn)練語料庫T，V是從該語料庫中提取的全部單詞生成的詞匯表，當(dāng)上下文窗口設(shè)定為L(zhǎng)時(shí)，對(duì)任意的wi∈V，它的上下文單詞為wi-L,…,wi-1,wi+1,…，wi+L，則共現(xiàn)矩陣X的每個(gè)元素值#(w,c)表示w和c的共現(xiàn)次數(shù)，即上下文單詞c出現(xiàn)在目標(biāo)單詞w上下文中的次數(shù)，#(w)=∑c∈V#(w,c)表示出現(xiàn)在w上下文中全部c的次數(shù)。同樣地，#(c)=∑w∈V#(w,c)表示c作為上下文出現(xiàn)在語料庫中的次數(shù)。

EMF模型skip-gram模型學(xué)得的詞向量在多項(xiàng)自然語言處理任務(wù)中都取得了良好的表現(xiàn)，卻沒有清晰的理論原理解釋。由此，EMF從表示學(xué)習(xí)的角度出發(fā)，重新定義了skip-gram模型的目標(biāo)函數(shù)，將其精確地解釋為矩陣分解模型，把詞向量解釋為softmax損失下顯示詞向量dw關(guān)于表示字典C的一個(gè)隱表示，并直接顯式地證明了skip-gram就是分解詞共現(xiàn)矩陣學(xué)習(xí)詞向量的模型。這一證明為進(jìn)一步推廣及拓展skip-gram提供了堅(jiān)實(shí)理論基礎(chǔ)。EMF目標(biāo)函數(shù)用(1)式表示：

2 融合語義信息的矩陣分解詞向量學(xué)習(xí)模型

2.1 提取語義信息并構(gòu)建語義矩陣

本文選擇WordNet做先驗(yàn)知識(shí)庫。WordNet是一個(gè)覆蓋范圍較廣的英語詞匯語義網(wǎng)，它把含義相同的單詞組織在同義詞集合中，每個(gè)同義詞集合都代表一個(gè)基本的語義概念，并且這些集合之間也由各種關(guān)系(例如整體部分關(guān)系、上下文關(guān)系)連接。

本文基于同義詞集合及集合間的關(guān)系詞構(gòu)建一個(gè)語義關(guān)系矩陣S∈V×V,它的每一個(gè)元素Sij=S(wi,wj)表示詞匯表V中第i個(gè)單詞wi與第j個(gè)單詞wj之間的語義相關(guān)性。如果Sij=0表示單詞wi與wj沒有語義相關(guān)性，反之Sij≠0則表示單詞wi與wj具有相關(guān)性。簡(jiǎn)單起見，本文將語義關(guān)系矩陣S構(gòu)建成0-1矩陣，如果單詞wi與wj具有上述語義關(guān)系則令Sij=1，否則Sij=0。

2.2 構(gòu)建語義約束模型

tr(WTSrowW)+tr(WTScolW)-2tr(WTSW)=

tr(WT(Srow+Scol-2S)W)

最終所得語義約束模型為

式中：tr(·)表示矩陣的跡；Si表示語義矩陣S第i行全部元素值的加和，即S的第i行和；Sj表示語義矩陣S第j列全部元素值的加和，即S的第j列和；Srow表示以Si為對(duì)角元素值的對(duì)角矩陣，Scol表示以Sj為對(duì)角元素值的對(duì)角矩陣。

2.3 模型融合

將語義約束模型R與EMF相結(jié)合，得到融合語義信息的矩陣分解詞向量學(xué)習(xí)模型KbEMF：

式中γ是語義組合權(quán)重，表示語義約束模型在聯(lián)合模型中所占的比重大小。γ在詞向量學(xué)習(xí)過程中扮演相當(dāng)重要的角色，該參數(shù)設(shè)置值過小時(shí)會(huì)弱化先驗(yàn)知識(shí)對(duì)詞向量學(xué)習(xí)的影響，若過大則會(huì)破壞詞向量學(xué)習(xí)的通用性，無論哪種情況都不利于詞向量的學(xué)習(xí)。該模型目標(biāo)在于最小化目標(biāo)函數(shù)O，采用變量交替迭代策略求取最優(yōu)解。當(dāng)γ=0時(shí)表示沒有融合語義信息，即為EMF模型。

2.4 模型求解

目標(biāo)函數(shù)，即式(3)不是關(guān)于C和W的聯(lián)合凸函數(shù)，但卻是關(guān)于C或W的凸函數(shù)，因此本文采用被廣泛應(yīng)用于矩陣分解的變量交替迭代優(yōu)化策略求取模型的最優(yōu)解。分別對(duì)C、W求偏導(dǎo)數(shù)，得到

在一次循環(huán)中先對(duì)W迭代更新，直到目標(biāo)函數(shù)O對(duì)W收斂為止，然后對(duì)C迭代更新，再次使目標(biāo)函數(shù)O對(duì)C收斂，至此一次循環(huán)結(jié)束，依此循環(huán)下去直到最終目標(biāo)函數(shù)關(guān)于C和W都收斂為止。

算法KbEMF算法的偽代碼

輸入共現(xiàn)矩陣X，語義關(guān)系矩陣S，學(xué)習(xí)率η，最大迭代次數(shù)K，k；

輸出WK,CK。

1)隨機(jī)初始化：W0,C0

2)fori= 1 toK，執(zhí)行

3)Wi=Wi-1

4)forj= 1 tok, 執(zhí)行

6)j=j+1

7)Ci=Ci-1

8)forj=1 tok, 執(zhí)行

10)j=j+1

11)i=i+1

3 實(shí)驗(yàn)與結(jié)果

本節(jié)主要展示融合語義信息后獲取的詞向量在單詞類比推理和單詞相似度量任務(wù)上的性能表現(xiàn)。首先介紹實(shí)驗(yàn)數(shù)據(jù)集及實(shí)驗(yàn)設(shè)置，然后分別描述每個(gè)實(shí)驗(yàn)的任務(wù)和結(jié)果，并分析實(shí)驗(yàn)結(jié)果。

3.1 數(shù)據(jù)集

本實(shí)驗(yàn)選擇Enwik91作為訓(xùn)練語料庫，經(jīng)過去除原始語料庫中HTML元數(shù)據(jù)、超鏈接等預(yù)處理操作后，得到一個(gè)詞匯量將近13億的訓(xùn)練數(shù)據(jù)集。然后通過設(shè)置單詞過濾詞頻限制詞匯表的大小，把低于設(shè)定過濾詞頻的單詞剔除詞匯表，因此，不同過濾詞頻產(chǎn)生不同大小的詞匯表。

本實(shí)驗(yàn)選用WordNet2作為知識(shí)庫，WordNet2有120 000同義詞集合，其中包含150 000單詞。本文借助JWI3從WordNet2中抽取單詞間的語義關(guān)系：同一個(gè)同義詞集合內(nèi)單詞對(duì)的同義關(guān)系，以及不同集合間單詞對(duì)的上下位關(guān)系。

不同的實(shí)驗(yàn)任務(wù)所用的測(cè)試數(shù)據(jù)集也不相同。

在單詞類比推理任務(wù)中，本文使用的測(cè)試集為谷歌查詢數(shù)據(jù)集(Google query dataset4)，該數(shù)據(jù)集包含19 544個(gè)問題，共14種關(guān)系類型，其中5種語義關(guān)系，9種語法關(guān)系。在單詞相似度量任務(wù)中，本文使用下列3個(gè)數(shù)據(jù)集：Luong 等[24]使用的稀有單詞，F(xiàn)inkelstein 等[25]使用的Wordsim-353 (WS353)數(shù)據(jù)集(RW)，Huang等[6]發(fā)布的上下文單詞相似數(shù)據(jù)集(SCWS)。它們分別包含2003、2034、353個(gè)單詞對(duì)及相應(yīng)的人工標(biāo)注的相似度分值。

3.2 實(shí)驗(yàn)設(shè)置

下列實(shí)驗(yàn)展示了由KbEMF獲取的詞向量在不同任務(wù)中的性能表現(xiàn)。為保持實(shí)驗(yàn)效果的一致性，所有模型設(shè)置相同的參數(shù)。詞向量維數(shù)統(tǒng)一設(shè)置為200，學(xué)習(xí)率設(shè)置為6×10-7，上下文窗口為5，迭代次數(shù)設(shè)置為300。

另外，語義組合權(quán)重的大小也對(duì)實(shí)驗(yàn)有重要影響。對(duì)于單詞類比推理和單詞相似度量任務(wù)本文均采取相同的實(shí)驗(yàn)策略尋找最佳語義組合權(quán)重，下面以單詞類比推理任務(wù)為例詳細(xì)說明最佳語義組合權(quán)重找尋的實(shí)驗(yàn)過程。設(shè)定γ∈[0.01,100]，首先實(shí)驗(yàn)γ=0.01，0.1，1，10，100的單詞推理正確率，如圖1 (b)所示，γ=0.01，0.1，1時(shí)KbEMF沒有提升實(shí)驗(yàn)效果，因?yàn)檎Z義信息所起作用太??；在γ=100時(shí)KbEMF實(shí)驗(yàn)效果反而更差，這是過分強(qiáng)調(diào)語義信息破壞了詞向量的通用性；只有在γ=10時(shí)KbEMF效果較好，則最佳語義組合權(quán)重在γ=10附近的可能性最大。然后在γ∈[1,10]和γ∈[10,100]采取同樣的策略繼續(xù)尋找下去，最終會(huì)得到最佳組合權(quán)重。實(shí)驗(yàn)結(jié)果表明，不同任務(wù)在不同詞頻下的最優(yōu)語義組合權(quán)重也不同。

3.3 單詞類比推理

給出一個(gè)問題a∶b∶∶c∶d，a、b、c、d各表示一個(gè)單詞其中d是未知的，類比推理任務(wù)的目標(biāo)在于找到一個(gè)最合適的d使得a,b,c,d的詞向量滿足vec(d)與vec(b)-vec(a)+vec(c)的余弦距離最近。例如，語義推理Germary∶Berlin∶∶France∶d,則需要找出一個(gè)向量vec(d)，使它與vec(Berlin)-vec(Germary)+vec(France)最近似,如果vec(d)對(duì)應(yīng)的d是Paris則推理正確。同理，又如語法推理quick:quickly∶∶slow∶d,如果找到d是slowly則推理正確。該實(shí)驗(yàn)任務(wù)的評(píng)價(jià)指標(biāo)是推理出單詞d的正確率，正確率越高，則KbEMF學(xué)得的詞向量越好。

本實(shí)驗(yàn)評(píng)估了不同參數(shù)設(shè)置對(duì)KbEMF 模型影響，圖1是詞頻為6 000次時(shí)，分別改變模型中詞向量維度及語義組合權(quán)重所繪制的。

從圖1 (a)可以看出，詞向量維度小于200時(shí)，隨著詞向量維度增加單詞推理正確率在提升，詞向量維度在200～350之間實(shí)驗(yàn)效果趨向于穩(wěn)定，因此在同時(shí)兼顧實(shí)驗(yàn)速度與效果的情況下，本文選擇學(xué)習(xí)200維度的詞向量。

(a)向量維度

(b)語義組合權(quán)重圖1 KbEMF在不同向量維度和語義組合權(quán)重的正確率Fig.1 Performance when incorporating semantic knowledge related to word analogical reasoning for different vector sizes and semantic combination weights

圖1 (b)中隨著語義組合權(quán)重增大，單詞推理正確率在提升，繼續(xù)增大正確率反而減小，說明過大或過小的語義組合權(quán)重都不利于學(xué)習(xí)詞向量。從該實(shí)驗(yàn)還可以看出，語義組合權(quán)重在[5,20]之間單詞推理正確率最高，詞向量在該任務(wù)中表現(xiàn)最優(yōu)。

圖2展示了在不同過濾詞頻下，KbEMF的單詞推理正確率均在不同程度上高于EMF，尤其在詞頻為3 500時(shí)效果最佳。對(duì)于不同詞頻，該實(shí)驗(yàn)均設(shè)置語義組合權(quán)重γ=10，盡管該參數(shù)值在某些詞頻下不是最優(yōu)的，卻在一定程度上說明本文模型的普遍適用性。

圖2 不同過濾詞頻下EMF與KbEMF的正確率對(duì)比Fig.2 Performance of KbEMF compared to EMF for different word frequencies

下面通過將KbEMF與EMF、Retro(CBOW)、 Retro(Skip-gram)5、SWE進(jìn)行比較來說明KbEMF的優(yōu)越性。Retro根據(jù)知識(shí)庫信息對(duì)預(yù)先訓(xùn)練好的詞向量進(jìn)行微調(diào)，該模型的缺點(diǎn)在于無法在語料庫學(xué)習(xí)詞向量階段利用豐富的語義信息。雖然SWE同時(shí)利用了語義信息和語料庫信息學(xué)習(xí)詞向量，但該模型的基礎(chǔ)框架skip-gram只考慮了語料庫的局部共現(xiàn)信息。本文提出的KbEMF則克服了上述模型的弱點(diǎn)，同時(shí)利用語料信息和語義信息學(xué)習(xí)詞向量，并且它所分解的共現(xiàn)矩陣覆蓋了語料庫的全局共現(xiàn)信息。表1展示了詞頻為3 500時(shí)KbEMF與EMF、Retro(CBOW)、 Retro(Skip-gram)5、SWE的單詞推理正確率。

表1 KbEMF與其他方法的單詞推理正確率

表1中KbEMF對(duì)應(yīng)的單詞推理正確率最高，這說明該模型所獲取的詞向量質(zhì)量最優(yōu)。

3.4 單詞相似度量

單詞相似度量是評(píng)估詞向量?jī)?yōu)劣的又一經(jīng)典實(shí)驗(yàn)。該實(shí)驗(yàn)把人工標(biāo)注的詞對(duì)相似度作為詞對(duì)相似度的標(biāo)準(zhǔn)值，把計(jì)算得到的詞對(duì)向量余弦值作為詞對(duì)相似度的估計(jì)值，然后計(jì)算詞對(duì)相似度的標(biāo)準(zhǔn)值與估計(jì)值之間的斯皮爾曼相關(guān)系數(shù)(spearman correlation coefficient)，并將它作為詞向量?jī)?yōu)劣的評(píng)價(jià)指標(biāo)。斯皮爾曼相關(guān)系數(shù)的值越高表明單詞對(duì)相似度的估計(jì)值與標(biāo)準(zhǔn)值越一致，學(xué)習(xí)的詞向量越好。

由于單詞相似度量希望相似度高或相關(guān)度高的詞對(duì)間彼此更靠近，語義信息的融入使具有強(qiáng)語義關(guān)系的詞對(duì)獲得更相似的詞向量。那么計(jì)算所得的關(guān)系詞對(duì)向量的余弦值越大，詞對(duì)相似度的標(biāo)準(zhǔn)值與估計(jì)值之間的斯皮爾曼相關(guān)系數(shù)就越高。

與單詞類比推理實(shí)驗(yàn)過程類似，通過調(diào)整KbEMF模型參數(shù)(詞向量維度、語義組合權(quán)重以及單詞過濾詞頻)，獲得單詞相似度量實(shí)驗(yàn)中表現(xiàn)優(yōu)異的詞向量。

本實(shí)驗(yàn)比較了KbEMF與SWE、Retro在單詞相似度量任務(wù)中的性能表現(xiàn)，結(jié)果展示在表2中。由于不同數(shù)據(jù)集下最佳語義組合權(quán)重不同，該實(shí)驗(yàn)針對(duì)數(shù)據(jù)集WS353/SCWS/RW分別設(shè)置語義組合權(quán)重為γ=1，γ=1，γ=15。

表2不同數(shù)據(jù)集下KbEMF與其他方法的斯皮爾曼相關(guān)系數(shù)

Table2SpearmancorrelationcoefficientsofKbEMFcomparedtootherapproachesondifferentdatasets

方法數(shù)據(jù)集WS353SCWSRWEMF0．79180．64740．6786Retro(CBOW)0．78160．66850．6071Retro(Skip?gram)0．69300．64490．7143SWE0．79650．65930．6429KbEMF0．79990．67400．7500

表2中KbEMF在上述3個(gè)數(shù)據(jù)集的斯皮爾曼相關(guān)系數(shù)均有所提升，因?yàn)镵bEMF相比較Retro在語料庫學(xué)習(xí)詞向量階段就融入了語義知識(shí)庫信息，相較于SWE則運(yùn)用了語料庫全局的共現(xiàn)信息，因此表現(xiàn)最好。尤其KbEMF在RW上的斯皮爾曼相關(guān)系數(shù)提升顯著，這說明語義知識(shí)庫信息的融入有助于改善學(xué)習(xí)稀有單詞的詞向量。

4 結(jié)束語

學(xué)習(xí)高效的詞向量對(duì)自然語言處理至關(guān)重要。僅依賴語料庫學(xué)習(xí)詞向量無法很好地體現(xiàn)單詞本身的含義及單詞間復(fù)雜的關(guān)系，因此本文通過從豐富的知識(shí)庫提取有價(jià)值的語義信息作為對(duì)單一依賴語料庫信息的約束監(jiān)督，提出了融合語義信息的矩陣分解詞向量學(xué)習(xí)模型，該模型大大改善了詞向量的質(zhì)量。在實(shí)驗(yàn)中將Enwik9作為訓(xùn)練文本語料庫并且將WordNet作為先驗(yàn)知識(shí)庫，將學(xué)到的詞向量用于單詞相似度量和單詞類比推理兩項(xiàng)任務(wù)中，充分展示了本文模型的優(yōu)越性。

在后續(xù)的研究工作中，我們將繼續(xù)探索結(jié)合其他知識(shí)庫(如PPDB、WAN等)，從中抽取更多類型的語義信息(如部分整體關(guān)系、多義詞等)，進(jìn)而定義不同更有針對(duì)性的語義約束模型，進(jìn)一步改善詞向量。并將它們用于文本挖掘和自然語言處理任務(wù)中。

[1]TURIAN J, RATINOV L, BENGIO Y. Word representations: a simple and general method for semi-supervised learning[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden, 2010: 384-394.

[2]LIU Y, LIU Z, CHUA T S, et al. Topical word embeddings[C]//Association for the Advancement of Artificial Intelligence. Austin Texas, USA, 2015: 2418-2424.

[3]MAAS A L, DALY R E, PHAM P T, et al. Learning word vectors for sentiment analysis[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Portland Oregon, USA, 2011: 142-150.

[4]DHILLON P, FOSTER D P, UNGAR L H. Multi-view learning of word embeddings via cca[C]//Advances in Neural Information Processing Systems. Granada, Spain,2011: 199-207.

[5]BANSAL M, GIMPEL K, LIVESCU K. Tailoring continuous word representations for dependency parsing[C]//Meeting of the Association for Computational Linguistics. Baltimore Maryland, USA, 2014: 809-815.

[6]HUANG E H, SOCHER R, MANNING C D, et al. Improving word representations via global context and multiple word prototypes[C]//Meeting of the Association for Computational Linguistics. Jeju Island, Korea, 2012: 873-882.

[7]MNIH A, HINTON G. Three new graphical models for statistical language modelling[C]//Proceedings of the 24th International Conference on Machine Learning. New York, USA, 2007: 641-648.

[8]MNIH A, HINTON G. A scalable hierarchical distributed language model[C]//Advances in Neural Information Processing Systems. Vancouver, Canada, 2008:1081-1088.

[9]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3(02): 1137-1155.

[10]COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of machine learning research, 2011, 12(8): 2493-2537.

[11]MIKOLOV T, CHEN K, CORRADO G, ET AL. Efficient estimation of word representations in vector space[C]//International Conference on Learning Representations. Scottsdale, USA,2013.

[12]BAIN J, Gao B, Liu T Y. Knowledge-powered deep learning for word embedding[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, Berlin, Heidelberg, 2014: 132-148.

[13]LI Y, XU L, TIAN F, ET AL. Word embedding revisited: a new representation learning and explicit matrix factorization perspective[C]//International Conference on Artificial Intelligence. Buenos Aires, Argentina, 2015: 3650-3656.

[14]LEVY O, GOLDBERG Y. Neural word embedding as implicit matrix factorization[C]//Advances in Neural Information Processing Systems. Montreal Quebec, Canada, 2014: 2177-2185.

[15]PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]//Conference on Empirical Methods in Natural Language Processing. Doha, Qatar, 2014: 1532-1543.

[16]BIAN J, GAO B, LIU T Y. Knowledge-powered deep learning for word embedding[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin, Germany, 2014: 132-148.

[17]XU C, BAI Y, BIAN J, et al. Rc-net: a general framework for incorporating knowledge into word representations[C]//Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. Shanghai, China,2014: 1219-1228.

[18]YU M, DREDZE M. Improving lexical embeddings with semantic knowledge[C]//Meeting of the Association for Computational Linguistics. Baltimore Maryland, USA,2014: 545-550.

[19]LIU Q, JIANG H, WEI S, et al. Learning semantic word embeddings based on ordinal knowledge constraints[C]//The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference of the Asian Federation of Natural Language Processing. Beijing, China, 2015: 1501-1511.

[20]FARUQUI M, DODGE J, JAUHAR S K, et al. Retrofitting word vectors to semantic lexicons[C]//The 2015 Conference of the North American Chapter of the Association for Computational Linguistics. Colorado, USA, 2015: 1606-1615.

[21]LEE D D, SEUNG H S. Algorithms for non-negative matrix factorization[C]//Advances in Neural Information Processing Systems.Vancouver, Canada, 2001: 556-562.

[22]MNIH A, SALAKHUTDINOV R. Probabilistic matrix factorization[C]//Advances in Neural Information Processing Systems. Vancouver, Canada, 2008: 1257-1264.

[23]SREBRO N, RENNIE J D M, JAAKKOLA T. Maximum-margin matrix factorization [J]. Advances in neural information processing systems, 2004, 37(2):1329-1336.

[24]LUONG T, SOCHER R, MANNING C D. Better word representations with recursive neural networks for morphology[C]//Seventeenth Conference on Computational Natural Language Learning. Sofia, Bulgaria,2013: 104-113.

[25]FINKELSTEIN R L. Placing search in context:the concept revisited[J]. ACM transactions on information systems, 2002, 20(1): 116-131.

陳培，女，1990年生，碩士研究生，主要研究方向?yàn)樽匀徽Z言處理、情感分析。

景麗萍,女，1978年生，教授，博士，主要研究方向?yàn)閿?shù)據(jù)挖掘、文本挖掘、生物信息學(xué)、企業(yè)智能。

Wordrepresentationlearningmodelusingmatrixfactorizationtoincorporatesemanticinformation

CHEN Pei, JING Liping

(Beijing Key Lab of Traffic Data Analysis and Mining, Beijing Jiaotong University, Beijing 100044, China)

Word representation plays an important role in natural language processing and has attracted a great deal of attention from many researchers due to its simplicity and effectiveness. However, traditional methods for learning word representations generally rely on a large amount of unlabeled training data, while neglecting the semantic information of words, such as the semantic relationship between words. To sufficiently utilize knowledge bases that contain rich semantic word information in existing fields, in this paper, we propose a word representation learning method that incorporates semantic information (KbEMF). In this method, we use matrix factorization to incorporate field knowledge constraint items into a learning word representation model, which identifies words with strong semantic relationships as being relatively approximate to the obtained word representations. The results of word analogy reasoning tasks and word similarity measurement tasks obtained using actual data show the performance of KbEMF to be superior to that of existing models.

natural language processing; word representation; matrix factorization; semantic information; knowledge base

10.11992/tis.201706012

http://kns.cnki.net/kcms/detail/23.1538.TP.20170831.1051.002.html

TP391

1673-4785(2017)05-0661-07

中文引用格式：陳培，景麗萍.融合語義信息的矩陣分解詞向量學(xué)習(xí)模型J.智能系統(tǒng)學(xué)報(bào)， 2017, 12(5): 661-667.

英文引用格式：CHENPei,JINGLiping.WordrepresentationlearningmodelusingmatrixfactorizationtoincorporatesemanticinformationJ.CAAItransactionsonintelligentsystems, 2017, 12(5): 661-667.

2017-06-06. < class="emphasis_bold">網(wǎng)絡(luò)出版日期

日期：2017-08-31.

國(guó)家自然科學(xué)基金項(xiàng)目(61370129，61375062，61632004);長(zhǎng)江學(xué)者和創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃資助項(xiàng)目(IRT201206).

景麗萍.E-mial: lpjing@bjtu.edu.cn.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

融合語義信息的矩陣分解詞向量學(xué)習(xí)模型

1 矩陣分解詞向量學(xué)習(xí)模型相關(guān)背景

2 融合語義信息的矩陣分解詞向量學(xué)習(xí)模型

3 實(shí)驗(yàn)與結(jié)果

4 結(jié)束語