孫 燕,孫茂松,趙海興,冶忠林
(1.青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810016;2.清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084; 3.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008; 4.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;5.青海民族大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810007)
表示學(xué)習(xí)是機(jī)器進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)推薦的基礎(chǔ)。表示學(xué)習(xí)可以通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)數(shù)據(jù)特征,并將數(shù)據(jù)及其關(guān)系映射到低維度向量空間中。目前表示學(xué)習(xí)有詞表示和網(wǎng)絡(luò)表示學(xué)習(xí),分別應(yīng)用于自然語(yǔ)言處理和社交網(wǎng)絡(luò)的研究中。詞表示學(xué)習(xí)是通過(guò)算法學(xué)習(xí)建模句子中當(dāng)前詞語(yǔ)及其上下文詞語(yǔ)之間的關(guān)聯(lián)關(guān)系,而網(wǎng)絡(luò)表示學(xué)習(xí)是通過(guò)算法建模當(dāng)前節(jié)點(diǎn)與鄰居節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系。
詞表示學(xué)習(xí)中經(jīng)典的方法是word2vec詞向量[1],word2vec是2013年由Google的Mikolov團(tuán)隊(duì)提出的用來(lái)生成語(yǔ)言模型的工具。它是用淺層的神經(jīng)網(wǎng)絡(luò)訓(xùn)練并重構(gòu)語(yǔ)言學(xué)的詞和上下文關(guān)系的語(yǔ)言模型。
Mikolov等[1]提出word2vec語(yǔ)言模型可以用 CBOW和Skip-Gram 2個(gè)淺層的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,并有2個(gè)優(yōu)化方法Hierarchical Softmax和 Negative Sampling加速詞向量訓(xùn)練速度。
Levy等在文獻(xiàn)[2]中證明了word2vec中負(fù)采樣Skip-Gram模型SGNS(Skip-Gram with Negative-Sampling)[1]是對(duì)移位正定(非負(fù))互信息SPPMI(Shifted Positive Pointwise Mutual Information)[2]的隱式分解,其中SPPMI矩陣是統(tǒng)計(jì)詞和上下文共同出現(xiàn)概率的矩陣,它是對(duì)PMI(Pointwise Mutual Information)矩陣的改進(jìn)。因?yàn)榛バ畔⑹且粋€(gè)比值,還要進(jìn)行對(duì)數(shù)運(yùn)算,分母不能為零,所以計(jì)算互信息時(shí)需使PMI 矩陣正定,即PPMI矩陣,如果節(jié)點(diǎn)采樣時(shí)用負(fù)采樣,互信息矩陣改進(jìn)為SPPMI矩陣,進(jìn)一步加快計(jì)算速度。
網(wǎng)絡(luò)表示學(xué)習(xí)中經(jīng)典的算法是DeepWalk算法,該算法是Perozzi等[3]提出的網(wǎng)絡(luò)表示學(xué)習(xí)模型,將網(wǎng)絡(luò)節(jié)點(diǎn)關(guān)系映射到低維度的向量中,以便人們更好地研究各種復(fù)雜網(wǎng)絡(luò)。DeepWalk算法可使用Skip-Gram模型建模網(wǎng)絡(luò)節(jié)點(diǎn)之間的關(guān)系,并可采用Negative Sampling方法優(yōu)化和加速網(wǎng)絡(luò)建模過(guò)程。但是,與word2vec不同的是,DeepWalk用隨機(jī)游走獲取了網(wǎng)絡(luò)上節(jié)點(diǎn)的關(guān)系序列,所以Perozzi等認(rèn)為隨機(jī)游走序列等同于語(yǔ)言模型中的句子。
文獻(xiàn)[4]證明DeepWalk算法本質(zhì)是一種隱式的矩陣分解算法,其通過(guò)分解矩陣M=(A+A2)/2代替DeepWalk算法中被分解的矩陣Mij,即Mij是網(wǎng)絡(luò)隨機(jī)游走矩陣A組成的,A表示網(wǎng)絡(luò)隨機(jī)游走轉(zhuǎn)移概率矩陣,矩陣A的每個(gè)元素的物理意義是頂點(diǎn)vi和隨機(jī)游走到其他頂點(diǎn)vj的概率, 定義矩陣A的每一個(gè)元素為Aij=1/di,其中di是節(jié)點(diǎn)的度[4]。
有趣的是文獻(xiàn)[2]證明了word2vec中的SGNS框架是隱式矩陣分解SPPMI矩陣;文獻(xiàn)[4]證明了DeepWalk算法是在網(wǎng)絡(luò)表示中利用了word2vec中負(fù)采樣Skip-Gram框架(SGNS框架), 而word2vec中的SGNS框架是被Levy等在文獻(xiàn)[2]中證明了隱式分解矩陣的框架,所以基于上述事實(shí),顯然可以得出2個(gè)結(jié)論:
第1,由于自然語(yǔ)言處理的詞可以看作是復(fù)雜網(wǎng)絡(luò)表示學(xué)習(xí)網(wǎng)絡(luò)中的節(jié)點(diǎn),所以在自然語(yǔ)言處理中基于詞向量的SGNS模型既可以訓(xùn)練語(yǔ)言模型,也可以訓(xùn)練網(wǎng)絡(luò)表示學(xué)習(xí)模型。
第2,SGNS框架在復(fù)雜網(wǎng)絡(luò)表示學(xué)習(xí)學(xué)科和自然語(yǔ)言處理的詞表示學(xué)習(xí)中都被證明是隱式的矩陣分解,只是SGNS框架分解的目標(biāo)矩陣不同。詞表示學(xué)習(xí)中SGNS模型分解的是互信息SPPMI矩陣,其中SPPMI矩陣是表示詞和上下文之間關(guān)系的矩陣。網(wǎng)絡(luò)表示學(xué)習(xí)中SGNS分解的是隨機(jī)游走M(jìn)矩陣,其中M矩陣是表示網(wǎng)絡(luò)隨機(jī)游走序列中節(jié)點(diǎn)之間關(guān)系的矩陣。
Perozzi等[2]在文獻(xiàn)中提到了網(wǎng)絡(luò)隨機(jī)游走序列等同語(yǔ)言中的句子(移位正定互信息),他從以下2方面說(shuō)明:(1)網(wǎng)絡(luò)節(jié)點(diǎn)無(wú)標(biāo)度,大多數(shù)復(fù)雜網(wǎng)絡(luò)研究者認(rèn)為無(wú)標(biāo)度網(wǎng)絡(luò)節(jié)點(diǎn)具有冪律分布特性,即網(wǎng)絡(luò)中度大的節(jié)點(diǎn)比較少,度小的節(jié)點(diǎn)比較多;(2)語(yǔ)料中的單詞詞頻符合Zipf規(guī)律(冪律),即語(yǔ)言中常用詞很少,很多詞不常被使用,并給出了2個(gè)數(shù)據(jù)實(shí)例:
第1個(gè)是YouTube網(wǎng)絡(luò)。YouTube是社交網(wǎng)絡(luò),社交網(wǎng)絡(luò)是無(wú)標(biāo)度網(wǎng)絡(luò)[2],無(wú)標(biāo)度網(wǎng)絡(luò)的節(jié)點(diǎn)是符合冪律分布的;
第2個(gè)是維基百科的語(yǔ)料庫(kù),并統(tǒng)計(jì)了語(yǔ)料庫(kù)中單詞出現(xiàn)的頻率,結(jié)果發(fā)現(xiàn)詞頻符合Zipf冪律規(guī)則。
但是,基于詞頻和節(jié)點(diǎn)頻率符合冪律從而證明隨機(jī)游走序列等同于句子是不充分的,原因有下面3點(diǎn):
(1)僅從基于網(wǎng)絡(luò)節(jié)點(diǎn)度服從冪律與自然語(yǔ)言中詞頻服從冪律,就將網(wǎng)絡(luò)中隨機(jī)游走序列等同于自然語(yǔ)言中的句子[3],理論上并沒(méi)有嚴(yán)格的證明,這樣的類(lèi)比是牽強(qiáng)的;
(2)這種類(lèi)比沒(méi)有比較實(shí)驗(yàn)做支撐;
(3)到目前沒(méi)有其他文獻(xiàn)比較過(guò)2者是否等同。
那么,語(yǔ)言模型中分解SPPMI矩陣和網(wǎng)絡(luò)表示學(xué)習(xí)中分解的M矩陣是否存在等價(jià)關(guān)系?即句子是否等同隨機(jī)游走序列?本文旨在通過(guò)實(shí)驗(yàn)驗(yàn)證隨機(jī)游走序列和句子的等同性。
本文用奇異值分解SVD(Singular Value Decomposition)方法[5 - 7]和誘導(dǎo)矩陣補(bǔ)全I(xiàn)MC(Inductive Matrix Completion)方法驗(yàn)證句子和游走序列的等同性。
(1)用SVD方法分解SPPMI矩陣與M矩陣。
(2)用IMC方法也分解SPPMI矩陣與M矩陣。
基于以上2個(gè)對(duì)比實(shí)驗(yàn),本文從理論上基于自然語(yǔ)言處理方面和網(wǎng)絡(luò)表示學(xué)習(xí)方面的相關(guān)文獻(xiàn),設(shè)計(jì)了2個(gè)實(shí)驗(yàn)進(jìn)行命題實(shí)證,如果網(wǎng)絡(luò)節(jié)點(diǎn)分類(lèi)準(zhǔn)確率幾乎相等或近似,則認(rèn)為網(wǎng)絡(luò)隨機(jī)游走序列等同于句子。如果實(shí)驗(yàn)結(jié)果差異較大,則2者不等同。這種等價(jià)可以作為自然語(yǔ)言表示學(xué)習(xí)和網(wǎng)絡(luò)表示學(xué)習(xí)的橋梁,也為學(xué)習(xí)潛在的表示時(shí)提供相互借鑒。
word2vec是自然語(yǔ)言處理中語(yǔ)言建模及語(yǔ)言特征學(xué)習(xí)的模型和技術(shù)。從語(yǔ)料庫(kù)中將單詞映射到實(shí)數(shù)空間的向量被稱(chēng)為詞向量。word2vec用大文本語(yǔ)料作為其輸入,將語(yǔ)料庫(kù)上千萬(wàn)維的單詞映射到幾百維的實(shí)數(shù)向量空間中。這樣語(yǔ)料庫(kù)中語(yǔ)義相近的單詞,其詞向量也會(huì)很接近。word2vec的SGNS模型目標(biāo)函數(shù)[1]如式(1)所示。
(1)
(2)
其中,σ是激活函數(shù),k是采樣率,W是詞矩陣,w為W中的詞向量,Wc是上下文矩陣,c是Wc樣本單詞的上下文向量,|D|是詞典大小,·是向量的點(diǎn)積。
對(duì)目標(biāo)函數(shù)求導(dǎo)并極值優(yōu)化,由互信息的概念:
得到
(3)
式(3)說(shuō)明PMI是一對(duì)離散結(jié)果(詞和上下文)之間的信息理論關(guān)聯(lián)度量,PMI值取了詞和上下文共同出現(xiàn)的聯(lián)合概率與它們獨(dú)立出現(xiàn)的概率之間的比值的對(duì)數(shù),計(jì)算PMI矩陣是挑戰(zhàn)性的工作,如果考慮一個(gè)單詞和這個(gè)詞的上下文沒(méi)有共同出現(xiàn)的概率(如考慮的詞是“數(shù)據(jù)”,“大數(shù)據(jù)會(huì)議”是數(shù)據(jù)的上下文),則矩陣MPMI的行包含許多從未觀察到的詞對(duì)或者只出現(xiàn)1次的詞對(duì),那么在語(yǔ)料庫(kù)中只出現(xiàn)1次的詞對(duì)(如“大數(shù)據(jù)會(huì)議”),這樣做會(huì)導(dǎo)致PMI值為負(fù),而對(duì)于未觀察到的1對(duì)單詞(如“數(shù)據(jù)結(jié)構(gòu)”),PMI值會(huì)出現(xiàn)PMI(w,c)=log 0=-∞的情況,這種情況下的PMI矩陣定義不明確,大的語(yǔ)料庫(kù)不僅密集且尺寸|VW|×|VC|很大,|VW|是詞矩陣的維數(shù),|VC|是上下文矩陣的維數(shù),文獻(xiàn)[2]將PMI構(gòu)造為正定的PMI(PPMI)并取最大,得到:
PPMIk(w,c)=max(PMI(w,c),0)
(4)
利用移位的負(fù)采樣可以顯著改善由PMI矩陣得到的嵌入詞的表示向量,k為構(gòu)造PMI值的采樣窗口值,所以如果設(shè)k>1,式(4)得到的矩陣將不包含任何無(wú)限值,從而使文檔中所有的單詞和上下文對(duì)被觀察到,這樣移位非負(fù)逐點(diǎn)互信息矩陣SPPMI為:
SPPMIk(w,c)=max(PMI(w,c),-logk,0)
(5)
DeepWalk使用隨機(jī)游走來(lái)獲取網(wǎng)絡(luò)的結(jié)構(gòu),即假設(shè)網(wǎng)絡(luò)采樣是從網(wǎng)絡(luò)中任意一個(gè)節(jié)點(diǎn)隨機(jī)游走到另一個(gè)節(jié)點(diǎn),DeepWalk算法是將網(wǎng)絡(luò)節(jié)點(diǎn)及上下文的關(guān)系映射到實(shí)數(shù)空間的算法,其中網(wǎng)絡(luò)節(jié)點(diǎn)在算法中表示為網(wǎng)絡(luò)節(jié)點(diǎn)的表示向量。如果網(wǎng)絡(luò)空間中節(jié)點(diǎn)彼此接近,則網(wǎng)絡(luò)節(jié)點(diǎn)向量也會(huì)很近似。DeepWalk的SGNS模型目標(biāo)函數(shù)[4]為:
(6)
(7)
其中,σ是激活函數(shù),k是采樣率,v是網(wǎng)絡(luò)節(jié)點(diǎn)的表示向量,c是網(wǎng)絡(luò)節(jié)點(diǎn)的上下文向量,|D|是節(jié)點(diǎn)集合的大小,·是向量的點(diǎn)積??梢钥闯鍪?7)與式(1)中word2vec的SGNS目標(biāo)函數(shù)是一致的。
文獻(xiàn)[4]證明了DeepWalk本質(zhì)上是對(duì)矩陣Mij的分解。作者將誘導(dǎo)矩陣補(bǔ)全的優(yōu)化函數(shù)變換為式式(8):
(8)
其中,矩陣A是隨機(jī)游走矩陣[8],t為隨機(jī)游走步數(shù)。
(9)
其中,Aij表示一步轉(zhuǎn)移矩陣的元素,(i,j)是從i到j(luò)點(diǎn)的邊,(i,j)∈E。
假設(shè)di是頂點(diǎn)i的度,隨機(jī)游走從節(jié)點(diǎn)i開(kāi)始,ei表示頂點(diǎn)i的初始狀態(tài),式(8)相當(dāng)于[eiA]j,該項(xiàng)表示從頂點(diǎn)i的初始狀態(tài)走一步到頂點(diǎn)j的概率,[eiAt]j項(xiàng)表示頂點(diǎn)i從初始狀態(tài)恰好以t步游走到頂點(diǎn)j的概率,其中At是隨機(jī)游走概率矩陣,于是隨機(jī)游走的過(guò)程可用式(10)表示:
[ei(A+A2+…+At)]j
(10)
從式(10)發(fā)現(xiàn),精確計(jì)算Mij矩陣,計(jì)算代價(jià)高,Yang等[4]用近似矩陣M代替Mij實(shí)現(xiàn),如式(11)所示:
(11)
這樣的替代對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)分類(lèi)[9]的正確率影響不是很大,而且可以加快計(jì)算速度。
實(shí)際上DeepWalk也可以使用word2vec的CBOW模型和Hierarchical Softmax優(yōu)化方法,底層的模型如圖1所示。
Figure 1 Model of word2vec and DeepWalk圖1 word2vec和DeepWalk的共同底層模型
窗口滑動(dòng)用于詞或節(jié)點(diǎn)對(duì)采樣。word2vec的2個(gè)神經(jīng)網(wǎng)絡(luò)模型CBOW和Skip-Gram實(shí)現(xiàn)訓(xùn)練的思路是不一樣的,Skip-Gram神經(jīng)網(wǎng)絡(luò)模型是根據(jù)當(dāng)前詞出現(xiàn)的概率預(yù)測(cè)與它對(duì)應(yīng)的上下文詞語(yǔ)概率的模型。CBOW神經(jīng)網(wǎng)絡(luò)模型是一種根據(jù)上下文詞語(yǔ)預(yù)測(cè)當(dāng)前詞語(yǔ)出現(xiàn)的概率的模型。Hierarchical Softmax優(yōu)化方法是詞向量訓(xùn)練時(shí)將神經(jīng)網(wǎng)絡(luò)的輸出Softmax層的概率計(jì)算,用一棵霍夫曼樹(shù)替代,那么Softmax概率計(jì)算只需要沿著樹(shù)形結(jié)構(gòu)進(jìn)行統(tǒng)計(jì)訓(xùn)練。在霍夫曼樹(shù)中,隱藏層到輸出層的Softmax映射不是直接一步完成的,而是沿著霍夫曼樹(shù)一步一步完成的,因此這種Softmax取名為Hierarchical Softmax。使用霍夫曼樹(shù)編碼方法,既可以提高模型訓(xùn)練的效率,也可以減少詞向量存儲(chǔ)空間。但是,如果訓(xùn)練樣本里的中心詞w是一個(gè)很生僻的詞,那么會(huì)使得霍夫曼樹(shù)的訓(xùn)練時(shí)間變得很長(zhǎng)。于是Negative Sampling優(yōu)化方法摒棄了霍夫曼樹(shù),采用了負(fù)采樣的方法來(lái)加速詞向量訓(xùn)練。
而文獻(xiàn)[3]中證明了word2vec中的SGNS相當(dāng)于分解SPPMI矩陣,文獻(xiàn)[4]中證明了DeepWalk中的SGNS相當(dāng)于分解M矩陣,在網(wǎng)絡(luò)表示學(xué)習(xí)中,DeepWalk算法采用了Skip-Gram模型和 Negative Sampling優(yōu)化方法,它是自然語(yǔ)言處理word2vec詞向量里的模型用在網(wǎng)絡(luò)表示學(xué)習(xí)DeepWalk算法里了,所以也可以使用word2vec模型中訓(xùn)練模型和優(yōu)化方法的其他組合。工程和研究人員可以根據(jù)不同目的去選擇訓(xùn)練模型和優(yōu)化方法。
本文設(shè)計(jì)了2個(gè)實(shí)驗(yàn),實(shí)驗(yàn)流程如圖2所示。
Figure 2 Flow chart of comparative experiment圖2 對(duì)比實(shí)驗(yàn)流程圖
文獻(xiàn)[3]和文獻(xiàn)[4]都用到了矩陣的隱式分解,但是它們使用的矩陣分解方法是不同的,1種方法是奇異值分解(SVD),另1種方法是誘導(dǎo)矩陣補(bǔ)全(IMC)[10]。
第1種方法:奇異值分解SVD。文獻(xiàn)[3]使用SVD將SPPMI矩陣分解如下:
MSPPMI=U·Σ·VT?
(12)
第2種方法:誘導(dǎo)矩陣補(bǔ)全(IMC)[10,12],它使用了基因特征輔助矩陣X∈Rd1×m和疾病特征輔助矩陣Y∈Rd2×m分解基因-疾病目標(biāo)矩陣M∈Rm×n,它的優(yōu)化目標(biāo)函數(shù)如式(13)所示:
(13)
文獻(xiàn)[12]中利用了誘導(dǎo)矩陣補(bǔ)全(IMC)算法,將文本信息加入到誘導(dǎo)矩陣中,文獻(xiàn)[4]用簡(jiǎn)化的矩陣M代替了DeepWalk算法中的矩陣Mij,從而得到了準(zhǔn)確率更高的網(wǎng)絡(luò)節(jié)點(diǎn)表示向量,他的算法名為T(mén)ADW(Text-Associated DeepWalk),TADW算法相當(dāng)于IMC方法分解隨機(jī)游走矩陣。而采用誘導(dǎo)矩陣補(bǔ)全,可將網(wǎng)絡(luò)節(jié)點(diǎn)的文本屬性構(gòu)造成文本特征矩陣,讓網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)包含更多的網(wǎng)絡(luò)節(jié)點(diǎn)信息[12],使分類(lèi)任務(wù)準(zhǔn)確率更高。本文基于TADW算法進(jìn)行了改進(jìn),用誘導(dǎo)矩陣補(bǔ)全對(duì)SPPMI矩陣進(jìn)行分解,并與分解M矩陣[13 - 18]進(jìn)行對(duì)比。
本文設(shè)計(jì)了2個(gè)實(shí)驗(yàn)用于驗(yàn)證本文的命題:
(1)用SVD分解SPPMI矩陣和網(wǎng)絡(luò)隨機(jī)游走構(gòu)造M矩陣,并在數(shù)據(jù)集上進(jìn)行網(wǎng)絡(luò)節(jié)點(diǎn)分類(lèi)性能測(cè)試。
(2)用IMC方法分解矩陣W和H,具體實(shí)現(xiàn)時(shí)本文針對(duì)文獻(xiàn)[12]進(jìn)行改進(jìn),用誘導(dǎo)矩陣補(bǔ)全方法對(duì)M矩陣和SPPMI矩陣分解(本文將改進(jìn)對(duì)比的算法標(biāo)為STADW),并在數(shù)據(jù)集上進(jìn)行網(wǎng)絡(luò)節(jié)點(diǎn)分類(lèi)性能測(cè)試。
實(shí)驗(yàn)設(shè)置:對(duì)于3個(gè)社交網(wǎng)絡(luò)的數(shù)據(jù)集Citeseer,Cora和Wiki[16 - 18],實(shí)驗(yàn)設(shè)置的參數(shù)為:表示向量維數(shù)為128,數(shù)據(jù)集的數(shù)據(jù)訓(xùn)練比例是10%,30%,50%,70%,90%,負(fù)采樣率為5。實(shí)驗(yàn)結(jié)果如表1~表3所示。表中的M和SPPMI分別代表只分解M和SPPMI矩陣后分類(lèi)算法。
Table 1 Classification experiment by various methods on Citeseer data set表1 數(shù)據(jù)集Citeseer上各種方法分類(lèi)實(shí)驗(yàn)
Table 2 Classification experiment by various methods on Cora data set 表2 數(shù)據(jù)集Cora上各種方法分類(lèi)實(shí)驗(yàn)
Table 3 Classification experiment by various methods on Wiki data set 表3 數(shù)據(jù)集Wiki上各種方法分類(lèi)實(shí)驗(yàn)
對(duì)比實(shí)驗(yàn)是在3個(gè)公開(kāi)的社交網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行的,數(shù)據(jù)集的類(lèi)別已分好,對(duì)比實(shí)驗(yàn)為奇異值分解(SVD)和誘導(dǎo)矩陣補(bǔ)全(IMC)2種方法對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)集的網(wǎng)絡(luò)節(jié)點(diǎn)的進(jìn)行分類(lèi)。使用的3個(gè)數(shù)據(jù)集為Citeseer,Cora和Wiki。 其中引文數(shù)據(jù)集Citeseer是有6個(gè)類(lèi)別的3 312種出版物,共有4 732條邊的數(shù)據(jù)集; 引文數(shù)據(jù)集Cora集有7個(gè)類(lèi)別的2 708篇機(jī)器學(xué)習(xí)論文,共有5 429條鏈接的邊。Wiki數(shù)據(jù)集包含來(lái)自19個(gè)類(lèi)2 405篇文檔共有17 981條邊。
比較表1~表3的數(shù)據(jù),可以看出在3個(gè)數(shù)據(jù)集上,奇異值分解SVD方法的2行數(shù)據(jù)相差0.01,在誘導(dǎo)矩陣補(bǔ)全方法上,TADW 和STADW的2行數(shù)據(jù)相差0.03。
本文還研究了不同向量維數(shù)的IMC方法和SVD方法網(wǎng)絡(luò)節(jié)點(diǎn)分類(lèi)的正確性,如圖3~圖5所示。
Figure 3 Comparison of classification accuracy on Citeseer data set圖3 數(shù)據(jù)集Citeseer上分類(lèi)準(zhǔn)確率對(duì)比
Figure 4 Comparison of classification accuracy on Cora data set圖4 數(shù)據(jù)集Cora上分類(lèi)準(zhǔn)確率對(duì)比
Figure 5 Comparison of classification accuracy on Wiki data set圖5 數(shù)據(jù)集Wiki上分類(lèi)準(zhǔn)確率對(duì)比
圖3~圖5 分別表示在3個(gè)數(shù)據(jù)集上用2種方法(SVD和IMC)分解M矩陣和SPPMI矩陣的結(jié)果。實(shí)驗(yàn)設(shè)置為:表示向量維數(shù)為30,50,70,90,110和130,需要注意的是,在TADW與STADW算法中學(xué)習(xí)得到的網(wǎng)絡(luò)表示向量維數(shù)需要在上述表示向量維數(shù)上乘以2,為了直觀表示,在圖3~圖5中對(duì)這2種算法并沒(méi)有乘以2,實(shí)驗(yàn)數(shù)據(jù)集的數(shù)據(jù)訓(xùn)練比例取0.9,負(fù)采樣率k為5。
從圖5~圖7可知,SVD方法和IMC方法準(zhǔn)確率差距浮動(dòng)值為1%,一般的準(zhǔn)確率差距浮動(dòng)值不超過(guò)5%,準(zhǔn)確率是可信的,直觀地從圖3~圖5的上半部分的實(shí)線和虛線及圖3~圖5的下半部分的帶圈線和帶三角形線可觀察到。
實(shí)驗(yàn)用2種方法(即SVD和IMC)對(duì)M矩陣和SPPMI矩陣分解,并在不同的表示向量的維數(shù)下研究句子和隨機(jī)游走的等同性,從表1~表3和圖3~圖5都能明顯觀察出隨機(jī)游走和句子等同,證明了本文提出的命題。
本文在對(duì)詞表示學(xué)習(xí)[19 - 22]和網(wǎng)絡(luò)表示學(xué)習(xí)理論研究基礎(chǔ)上,發(fā)現(xiàn)它們可以采用相同的SGNS模型。而 SGNS模型在詞表示學(xué)習(xí)[22 - 30]領(lǐng)域和網(wǎng)絡(luò)表示學(xué)習(xí)領(lǐng)域都已經(jīng)被證明是隱式地分解目標(biāo)特征矩陣,只是在這2個(gè)領(lǐng)域中分解的目標(biāo)特征矩陣不同,即詞表示學(xué)習(xí)中SGNS模型分解的是SPPMI矩陣,分解SPPMI矩陣相當(dāng)于神經(jīng)網(wǎng)絡(luò)建模語(yǔ)句中詞語(yǔ)之間關(guān)系的過(guò)程,網(wǎng)絡(luò)表示學(xué)習(xí)中SGNS分解的是M矩陣,相當(dāng)于神經(jīng)網(wǎng)絡(luò)建模網(wǎng)絡(luò)隨機(jī)游走序列中節(jié)點(diǎn)之間關(guān)系的過(guò)程,但是對(duì)分解的目標(biāo)特征矩陣沒(méi)有研究結(jié)果。為此,本文提出了一種新的證明方法,通過(guò)設(shè)計(jì)2個(gè)對(duì)比實(shí)驗(yàn),分別在3個(gè)公開(kāi)的網(wǎng)絡(luò)數(shù)據(jù)集上做節(jié)點(diǎn)分類(lèi)任務(wù),實(shí)驗(yàn)結(jié)果證明了句子和隨機(jī)游走序列的等同性。實(shí)驗(yàn)涉及網(wǎng)絡(luò)表示學(xué)習(xí)和自然語(yǔ)言處理2個(gè)學(xué)科,為更深層次地理解語(yǔ)言本質(zhì)和網(wǎng)絡(luò)表示學(xué)習(xí)的本質(zhì)研究提供了實(shí)驗(yàn)依據(jù)。