国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法

2022-09-16 01:19:50祝婷
情報工程 2022年3期
關(guān)鍵詞:相似性向量學(xué)術(shù)

祝婷

西安工業(yè)大學(xué)圖書館 西安 710021

引言

學(xué)術(shù)文獻(xiàn)作為學(xué)者在科學(xué)研究過程中必不可少的知識源,對于輔助學(xué)術(shù)研究具有重要意義。然而隨著互聯(lián)網(wǎng)與科學(xué)技術(shù)的快速發(fā)展,學(xué)術(shù)科研領(lǐng)域中的文獻(xiàn)數(shù)量與日俱增,一方面,面對海量的學(xué)術(shù)文獻(xiàn),學(xué)者很難從中獲取自己所需的文獻(xiàn);另一方面,部分學(xué)術(shù)文獻(xiàn)被淹沒,沒有展現(xiàn)給學(xué)者的機(jī)會,造成了資源浪費(fèi)的現(xiàn)象。在這種場景下,如何快速有效的幫助學(xué)者獲取自己感興趣的文獻(xiàn)已成為目前廣泛關(guān)注的研究課題。而學(xué)術(shù)文獻(xiàn)推薦方法可以緩解這種“信息過載”問題,它是從海量的學(xué)術(shù)文獻(xiàn)中挖掘?qū)W者可能感興趣的文獻(xiàn),然后展現(xiàn)給學(xué)者,進(jìn)而實現(xiàn)學(xué)術(shù)文獻(xiàn)個性化推薦的過程。

常見的文獻(xiàn)推薦方法有基于內(nèi)容的文獻(xiàn)推薦,基于協(xié)同過濾的文獻(xiàn)推薦以及混合文獻(xiàn)推薦?;趦?nèi)容的文獻(xiàn)推薦是指分別獲取用戶興趣和文獻(xiàn)內(nèi)容的向量空間模型,通過匹配兩者的相似度,向用戶推薦相似度較高的文獻(xiàn)。陳長華等[1]利用Word2Vec 方法對論文進(jìn)行向量化表示,同時引入論文發(fā)表時間權(quán)重計算論文間相似性進(jìn)行推薦。耿立校等[2]使用余弦值r與匹配度值Sim 相結(jié)合的方法對傳統(tǒng)的基于內(nèi)容的推薦進(jìn)行改進(jìn)?;趦?nèi)容的推薦方法具備較強(qiáng)的直觀性和可解釋性,但是該方法只能推薦與用戶歷史閱讀文獻(xiàn)相似的文獻(xiàn),缺乏多樣性,并且沒有考慮用戶對文獻(xiàn)的評價等信息。基于協(xié)同過濾的文獻(xiàn)推薦是目前應(yīng)用最為廣泛且成功的推薦方法,它是通過計算用戶之間的相似性獲取近鄰用戶,將近鄰用戶感興趣的文獻(xiàn)推薦給目標(biāo)用戶。陳浩[3]在計算用戶相似性時融合了用戶點(diǎn)擊和搜索詞的相似度,進(jìn)一步改進(jìn)了基于用戶的協(xié)同過濾方法。顧明星等[4]對用戶屬性進(jìn)行聚類,然后將時間因素引入至評分相似性中,同時將新人誤差引入至信任關(guān)系中計算用戶相似性,提出了一種改進(jìn)的協(xié)同過濾推薦。基于協(xié)同過濾的文獻(xiàn)推薦可以在一定程度上緩解基于內(nèi)容推薦的單一性,但是該方法仍舊存在一些問題,例如稀疏性和冷啟動問題。為了彌補(bǔ)上述兩種推薦方法的缺點(diǎn)同時結(jié)合其優(yōu)點(diǎn),進(jìn)而形成了混合推薦方法。王妍等[5]將基于內(nèi)容的推薦和協(xié)同過濾推薦相結(jié)合,提出了一種混合論文推薦方法,有效的解決了冷啟動問題。王永貴等[6]針對基于內(nèi)容的推薦和協(xié)同過濾算法中存在的問題,提出了一種融合內(nèi)容與協(xié)同矩陣分解技術(shù)的混合推薦方法?;旌贤扑]算法框架較為復(fù)雜,且推薦效果受單一推薦方法選擇的影響。

綜上所述,以上方法分別從不同角度對學(xué)術(shù)文獻(xiàn)進(jìn)行了推薦,并產(chǎn)生了良好的推薦效果,但是忽略了文獻(xiàn)間引用關(guān)系在推薦過程中的重要性,進(jìn)而影響推薦的準(zhǔn)確性。在學(xué)術(shù)文獻(xiàn)推薦過程中,最直接的方法是對文獻(xiàn)的文本信息進(jìn)行挖掘從而進(jìn)行推薦,文本信息包含長文本內(nèi)容和短文本標(biāo)簽。內(nèi)容信息是以非結(jié)構(gòu)化的長文本形式描述文獻(xiàn)的內(nèi)容,如文獻(xiàn)的摘要、正文等,具有直觀性、具體性等特點(diǎn)。標(biāo)簽信息是以結(jié)構(gòu)化的短文本形式描述文獻(xiàn)的特征,可以準(zhǔn)確的反映用戶的喜好,具有規(guī)范化、易處理等特點(diǎn)。但是僅僅使用文本信息的推薦方法仍具有局限性,如信息單一,未考慮文獻(xiàn)間的交互關(guān)系等。除了文獻(xiàn)自身的文本信息外,從文獻(xiàn)間的引用關(guān)系圖中可以挖掘更深層次的語義信息,但是由于爆炸式增長的文獻(xiàn)數(shù)量使得引用關(guān)系圖中的節(jié)點(diǎn)和邊往往非常龐大,進(jìn)而導(dǎo)致文獻(xiàn)向量表示出現(xiàn)高維稀疏的問題,網(wǎng)絡(luò)表示學(xué)習(xí)方法可以將復(fù)雜網(wǎng)絡(luò)圖中的節(jié)點(diǎn)表示為低維稠密的向量表示,同時保留原有的網(wǎng)絡(luò)結(jié)構(gòu)。因此,本文提出一種融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法,分別從文獻(xiàn)引用網(wǎng)絡(luò)、長文本內(nèi)容和短文本標(biāo)簽這三個方面對學(xué)術(shù)文獻(xiàn)進(jìn)行特征表示,在此基礎(chǔ)上計算文獻(xiàn)間的綜合相似性,進(jìn)而提高學(xué)術(shù)文獻(xiàn)推薦的質(zhì)量。

1 相關(guān)工作

1.1 網(wǎng)絡(luò)表示學(xué)習(xí)

在互聯(lián)網(wǎng)時代,爆炸式增長的信息資源之間構(gòu)成了復(fù)雜的信息網(wǎng)絡(luò),如何將復(fù)雜信息網(wǎng)絡(luò)進(jìn)行準(zhǔn)確的網(wǎng)絡(luò)表示是目前科學(xué)研究的重要過程。網(wǎng)絡(luò)表示學(xué)習(xí)(Network Representation Learning, NRL),又稱網(wǎng)絡(luò)嵌入(Network Embedding, NE)或者圖嵌入(Graph Embedding,GE),它可以將復(fù)雜信息網(wǎng)絡(luò)中的節(jié)點(diǎn)表示為低維、稠密、實值的向量表示[7],從而解決傳統(tǒng)的網(wǎng)絡(luò)表示使用稀疏高維的向量需要花費(fèi)大量計算空間和運(yùn)行時間的問題。

網(wǎng)絡(luò)表示學(xué)習(xí)方法一般分為基于矩陣分解的方法、基于隨機(jī)游走的方法以及基于深度神經(jīng)網(wǎng)絡(luò)的方法[8]?;诰仃嚪纸獾姆椒ㄊ轻槍Ω呔S的原始矩陣進(jìn)行特征值分解、奇異值分解等操作獲取節(jié)點(diǎn)的低維向量表示。由于該方法的時間復(fù)雜度和空間復(fù)雜度較高,在大規(guī)模的數(shù)據(jù)應(yīng)用上并不理想?;陔S機(jī)游走的方法思想來源于Word2vec[9-10]模型,它將節(jié)點(diǎn)類比為單詞,隨機(jī)序列類比為句子,進(jìn)而獲取網(wǎng)絡(luò)嵌入,代表性的算法有DeepWalk[11]、LINE[12](Largescale Information Network Embedding)、Node-2vec[13]等。DeepWalk 使用網(wǎng)絡(luò)中節(jié)點(diǎn)間的共現(xiàn)關(guān)系來學(xué)習(xí)節(jié)點(diǎn)的向量表示,首先采用隨機(jī)游走算法獲取網(wǎng)絡(luò)中的節(jié)點(diǎn)序列,這些節(jié)點(diǎn)序列可以看作自然語言處理中的語句,節(jié)點(diǎn)序列中的節(jié)點(diǎn)可以看作自然語言處理中的單詞。其次通過Word2vec 中的Skip-Gram 模型對隨機(jī)游走中的節(jié)點(diǎn)進(jìn)行概率建模,最大化隨機(jī)游走序列的似然概率。最后使用隨機(jī)梯度下降法獲取節(jié)點(diǎn)的向量表示。該方法避免了鄰接矩陣需要將所有信息存儲在內(nèi)存而影響到計算效率的問題。其中隨機(jī)游走策略采用的是一種可重復(fù)訪問已訪問節(jié)點(diǎn)的深度優(yōu)先遍歷算法(Depth First Search, DFS)。LINE 是一種基于節(jié)點(diǎn)與鄰居間關(guān)系的大規(guī)模信息網(wǎng)絡(luò)表示學(xué)習(xí)算法,通過結(jié)合一階相似性和二階相似性來保存網(wǎng)絡(luò)結(jié)構(gòu)信息,獲取節(jié)點(diǎn)嵌入。其中一階相似性是指節(jié)點(diǎn)與直接相連的相鄰節(jié)點(diǎn)間的相似性,由于一階相似性不能代表節(jié)點(diǎn)的全局網(wǎng)絡(luò)結(jié)構(gòu),因此引入具有共同鄰居節(jié)點(diǎn)的節(jié)點(diǎn)間的相似性,即二階相似性,通過最小化一階和二階相似的損失函數(shù)獲取網(wǎng)絡(luò)中節(jié)點(diǎn)的向量表示。該方法采用了廣度優(yōu)先遍歷算法(Breadth First Search,BFS)的思想。Node2vec 對DeepWalk 進(jìn)行了改進(jìn),同時考慮了廣度優(yōu)先遍歷算法和深度優(yōu)先遍歷算法,形成了有偏的隨機(jī)游走,按照廣度優(yōu)先遍歷算法進(jìn)行游走趨向于節(jié)點(diǎn)周圍采樣序列,按照深度優(yōu)先遍歷算法進(jìn)行游走趨向于朝更遠(yuǎn)方向采樣序列。因此將兩者結(jié)合可以獲得反應(yīng)網(wǎng)絡(luò)全局信息及局部信息的節(jié)點(diǎn)序列,然后使用Skip-Gram模型輸出節(jié)點(diǎn)的向量表示,同時保證了網(wǎng)絡(luò)的同質(zhì)性與結(jié)構(gòu)性。基于深度神經(jīng)網(wǎng)絡(luò)的方法是利用深層神經(jīng)網(wǎng)絡(luò)模型對網(wǎng)絡(luò)中節(jié)點(diǎn)的非線性結(jié)構(gòu)進(jìn)行建模,進(jìn)而獲取網(wǎng)絡(luò)節(jié)點(diǎn)表示。以上網(wǎng)絡(luò)表示學(xué)習(xí)方法在復(fù)雜網(wǎng)絡(luò)上的成功應(yīng)用,對于學(xué)術(shù)文獻(xiàn)推薦具有重要啟示作用。

1.2 文本向量化表示模型

文本向量化表示是將自然語言轉(zhuǎn)化為實數(shù)向量,即計算機(jī)可以處理的格式。常見的文本向量表示模型有詞袋模型(bag of words)、Word2vec 和Doc2vec 等。詞袋模型僅考慮了詞頻,忽略了語序和語法信息,且易造成詞向量的稀疏性和高維性。Word2vec 的基本思想是使用上下文詞語預(yù)測當(dāng)前詞語或者使用當(dāng)前詞語預(yù)測上下文詞語,分別對應(yīng)Word2vec 中的CBOW 和Skip-gram 模型,使用Word2vec 進(jìn)行文本向量表示是在Word2vec 模型生成詞向量的基礎(chǔ)上,對文本包含的詞向量進(jìn)行加權(quán)平均等操作,該方法可以有效解決稀疏問題和維度災(zāi)難,但是同樣忽略了語序信息。Doc2vec 是Le等[14]于2014 年在Word2vec 的基礎(chǔ)上提出來的,區(qū)別在于增加了一個與詞向量維數(shù)相同的段落向量,該模型包含PV-DM(Distributed Memory version of Paragraph Vector)和PV-DBOW(Distributed Bag of Words version of Paragraph Vector)。PV-DM 模型與Word2vec 中的CBOW 模型相對應(yīng),是通過上下文的詞向量和段落向量來預(yù)測目標(biāo)詞語,PV-DBOW 模型與Word2vec中的Skip-gram 模型相對應(yīng),是以段落向量作為輸入,輸出其段落中詞向量的概況分布。與Word2vec 相比,Doc2vec 不僅考慮了語序信息,而且可以直接將文本向量化,訓(xùn)練過程方便簡單。以上文本向量化本質(zhì)上是一種靜態(tài)表示方法,不能表達(dá)自然語言中的一詞多義,也不能獲取全局文本語義信息。針對上述問題,Devlin等[15]提出了BERT 模型,該模型以Transformer編碼器為主要框架,通過大量通用語料庫對預(yù)訓(xùn)練獲取通用語義信息,并針對專業(yè)語料庫進(jìn)行微調(diào),進(jìn)而更好的實現(xiàn)文本特征表示。

2 研究思路與方法

本文首先根據(jù)學(xué)術(shù)文獻(xiàn)庫中的引用關(guān)系構(gòu)建學(xué)術(shù)文獻(xiàn)引用網(wǎng)絡(luò),使用網(wǎng)絡(luò)表示學(xué)習(xí)模型Node2vec 獲取學(xué)術(shù)文獻(xiàn)的向量表示,同時利用Bert 模型獲取學(xué)術(shù)文獻(xiàn)的向量表示。其次對網(wǎng)絡(luò)表示學(xué)習(xí)與Bert 模型生成的向量進(jìn)行一次特征融合,采用余弦相似性算法分別獲取特征融合后向量及基于標(biāo)簽對應(yīng)的學(xué)術(shù)文獻(xiàn)相似度矩陣,并對其進(jìn)行二次相似度矩陣融合,獲取文獻(xiàn)綜合相似度矩陣。最后在文獻(xiàn)綜合相似度矩陣的基礎(chǔ)上,根據(jù)其相似性大小實現(xiàn)學(xué)術(shù)文獻(xiàn)推薦。整個推薦流程如圖1 所示。

圖1 融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦流程圖

2.1 基于網(wǎng)絡(luò)表示學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)向量表示

在學(xué)術(shù)文獻(xiàn)庫中,文獻(xiàn)并不是單獨(dú)存在,一篇文獻(xiàn)通常包含多個引文文獻(xiàn),這些引文文獻(xiàn)與該文獻(xiàn)在研究內(nèi)容上有著密切的關(guān)系,而引文文獻(xiàn)也有下一層的引文文獻(xiàn),這樣層層關(guān)聯(lián)便組成了引文網(wǎng)絡(luò)。網(wǎng)絡(luò)表示學(xué)習(xí)方法可以將引文網(wǎng)絡(luò)中的節(jié)點(diǎn)通過非線性模型轉(zhuǎn)化為更高層次的低維稠密的文獻(xiàn)向量表示,主要分為以下兩個步驟:

(1)構(gòu)建學(xué)術(shù)文獻(xiàn)引文網(wǎng)絡(luò)

學(xué)術(shù)文獻(xiàn)引文網(wǎng)絡(luò)反映了文獻(xiàn)間的引 用 關(guān) 系, 可 將 其 表 示 為G=(D,E),其中D 表示頂點(diǎn)集合,即學(xué)術(shù)文獻(xiàn)集合D={d1,d2,d3,d4,d5,…},集合中每一個頂點(diǎn)di對應(yīng)不同的文獻(xiàn);E 表示邊集合,即文獻(xiàn)間的引用關(guān)系集合E={e12,e13,e23,e24,e25,…},集合中每一條邊eij表示文獻(xiàn)di和文獻(xiàn)dj存在引用關(guān)系。若一篇文獻(xiàn)的引文列表中包含另一篇文獻(xiàn),則兩者構(gòu)成一條邊,通過上述規(guī)則可構(gòu)建學(xué)術(shù)文獻(xiàn)引文網(wǎng)絡(luò)。

(2)基于網(wǎng)絡(luò)表示學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)向量表示

基于學(xué)術(shù)文獻(xiàn)引用關(guān)系構(gòu)建的學(xué)術(shù)文獻(xiàn)引用網(wǎng)絡(luò),通過對比DeepWalk、LINE 以及Node-2vec 等網(wǎng)絡(luò)表示學(xué)習(xí)模型。本文選擇Node2vec對文獻(xiàn)引用網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以文獻(xiàn)引用網(wǎng)絡(luò)作為輸入,通過調(diào)整相關(guān)參數(shù),獲取每個文獻(xiàn)對應(yīng)的低維向量表示。

Node2vec 是在DeepWalk 網(wǎng)絡(luò)表示學(xué)習(xí)模型的基礎(chǔ)上,綜合廣度優(yōu)先搜索和深度優(yōu)先搜索思想,通過引入?yún)?shù)p、q 進(jìn)行有偏的隨機(jī)游走,獲取隨機(jī)游走序列,實現(xiàn)通過廣度優(yōu)先搜索獲取文獻(xiàn)在數(shù)據(jù)集的微觀局部信息以及深度優(yōu)先搜索獲取文獻(xiàn)在數(shù)據(jù)集的宏觀全局信息。

如圖2[13]所示,根據(jù)Node2vec 網(wǎng)絡(luò)表示學(xué)習(xí)模型,若游走路徑為(t,v),定義p 為游走至前一文獻(xiàn)鄰居的概率,則p 越大,已游走過的文獻(xiàn)被再次游走到的概率越低;定義q 為游走至前一文獻(xiàn)非鄰居的概率,則當(dāng)q>1 時,隨機(jī)游走將局限于文獻(xiàn)t 附近,反之當(dāng)q<1 時,隨機(jī)游走將遠(yuǎn)離文獻(xiàn)t;定義d 為從文獻(xiàn)t 到文獻(xiàn)x 的最短路徑,則按照Node2vec 游走思想,從文獻(xiàn)t 到文獻(xiàn)x 的概率計算方法如公式1[13]所示:

圖2 Node2vec 算法游走示意圖

基于上述算法獲取隨機(jī)游走序列,選用Skip-gram 模型對游走序列建模,實現(xiàn)隨機(jī)游走似然概率最大化,利用隨機(jī)梯度下降方法獲取文獻(xiàn)的向量表示。

2.2 基于內(nèi)容的學(xué)術(shù)文獻(xiàn)向量表示

文獻(xiàn)內(nèi)容是個性化推薦過程中需要關(guān)注的重點(diǎn)文本信息,如文獻(xiàn)的標(biāo)題、摘要等。因此,通過文獻(xiàn)內(nèi)容獲取特征向量表示,然后在此基礎(chǔ)上進(jìn)行相似性計算是實現(xiàn)學(xué)術(shù)文獻(xiàn)推薦的重要環(huán)節(jié)?;趦?nèi)容的學(xué)術(shù)文獻(xiàn)向量表示主要分為以下兩個步驟:

(1)數(shù)據(jù)預(yù)處理。主要包括分句、分詞和去停用詞,對學(xué)術(shù)文獻(xiàn)庫中的文獻(xiàn)進(jìn)行預(yù)處理的主要目的是生成結(jié)構(gòu)化的文本數(shù)據(jù),并且去除無意義的詞語,這些是對文獻(xiàn)進(jìn)行特征提取和表示的基礎(chǔ)。對于由m 個文獻(xiàn)組成的文獻(xiàn)數(shù)據(jù)集合D={d1,d2,d3,…,dm},首先將文獻(xiàn)的題目和摘要進(jìn)行合并,選取Stanford Tokenizer 英文分詞系統(tǒng)將合并后的文本切分為單獨(dú)且具有語義的詞,其次剔除沒有實際含義的詞,如介詞、語氣詞等,最后將所有文獻(xiàn)轉(zhuǎn)化為這些詞的集合di={w1,w2,w3,…,wn}。

(2)學(xué)術(shù)文獻(xiàn)向量化表示。Bert 模型以多層Transformer 編碼器為主要框架,基于其注意力機(jī)制獲取詞的表征信息,該表征信息包含了該詞本身語義和該詞與文本其他詞的關(guān)系,進(jìn)而獲得該詞的上下文語義信息。另外,Bert 模型利用掩蔽語言模型(Masked Language Model,MLM)和下一句預(yù)測(Next Sentence Prediction, NSP)技術(shù)進(jìn)行預(yù)訓(xùn)練,并針對具體任務(wù)進(jìn)行微調(diào),從而獲得較好的特征提取和分類表現(xiàn)。對于學(xué)術(shù)文獻(xiàn)推薦領(lǐng)域,由于文獻(xiàn)標(biāo)題、摘要等信息從整體上實現(xiàn)了對文獻(xiàn)的描述,因此計算文獻(xiàn)標(biāo)題、摘要等文獻(xiàn)內(nèi)容的特征向量有助于實現(xiàn)文獻(xiàn)推薦。本文數(shù)據(jù)集為英文數(shù)據(jù)集,且不區(qū)分大小寫,故選用BERT-Base-Uncased 生成學(xué)術(shù)文獻(xiàn)向量表示。

2.3 基于標(biāo)簽的學(xué)術(shù)文獻(xiàn)相似性計算

除了文獻(xiàn)中以長文本形式存在的文獻(xiàn)內(nèi)容外,標(biāo)簽也是描述一篇學(xué)術(shù)文獻(xiàn)的重要信息,它以不同粒度反應(yīng)了文獻(xiàn)的主題特征,同時也包含了文獻(xiàn)中可能未提及的重要關(guān)鍵詞或詞組,是學(xué)術(shù)文獻(xiàn)推薦方法中重要的數(shù)據(jù)源之一,被廣泛應(yīng)用于推薦系統(tǒng)中。標(biāo)簽數(shù)據(jù)一方面可以規(guī)范且直觀的揭示文獻(xiàn)的特征,另一方面具備易抽取性和語義性,因此將標(biāo)簽作為學(xué)術(shù)文獻(xiàn)的特征表示來計算其相似性,對于提高學(xué)術(shù)文獻(xiàn)推薦的準(zhǔn)確性具有重要意義。

由于標(biāo)簽通常是由簡短的詞語或詞組組成,不需要像處理長文本那樣進(jìn)行語義分析。因此本章節(jié)選擇Jaccard 系數(shù)即文獻(xiàn)對應(yīng)標(biāo)簽集合間的共現(xiàn)關(guān)系來計算文獻(xiàn)間的相似性,設(shè)定文獻(xiàn)d1由m 個標(biāo)簽組成,文獻(xiàn)d2由n 個標(biāo)簽組成,文獻(xiàn)d1和文獻(xiàn)d2的標(biāo)簽集合分別表示為Tagd1={a1, a2, …, am}和Tagd2={b1, b2, …, bn}。在此基礎(chǔ)上獲取基于標(biāo)簽的文獻(xiàn)相似度矩陣,其中文獻(xiàn)di和文獻(xiàn)dj間相似性計算方法如公式2 所示:

2.4 融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦

通過上述方法獲取兩種學(xué)術(shù)文獻(xiàn)向量表示與基于標(biāo)簽的學(xué)術(shù)文獻(xiàn)相似度矩陣后,如何融合這些信息成為學(xué)術(shù)文獻(xiàn)推薦的關(guān)鍵?;诰W(wǎng)絡(luò)表示學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)向量體現(xiàn)了文獻(xiàn)引用網(wǎng)絡(luò)結(jié)構(gòu)中的語義信息,基于內(nèi)容的學(xué)術(shù)文獻(xiàn)向量體現(xiàn)了文獻(xiàn)描述的內(nèi)容信息,將兩者進(jìn)行特征融合可以充分挖掘文本信息,同時保留文獻(xiàn)間的引用關(guān)系。因此本文首先使用向量拼接的方法對基于網(wǎng)絡(luò)表示學(xué)習(xí)及內(nèi)容的學(xué)術(shù)文獻(xiàn)向量進(jìn)行一次特征融合,然后計算特征融合后向量的學(xué)術(shù)文獻(xiàn)相似度矩陣,常用的相似性算法包含余弦相似性算法、Jaccard 系數(shù)與歐氏距離相似度等。本文選擇余弦相似性算法獲取文獻(xiàn)相似度矩陣,其中文獻(xiàn)di和文獻(xiàn)dj間相似性計算方法如公式3 所示,其中k 代表文獻(xiàn)向量的維數(shù)。

基于網(wǎng)絡(luò)表示學(xué)習(xí)及Bert 模型的學(xué)術(shù)文獻(xiàn)向量進(jìn)行特征融合,并計算出相似度矩陣后,考慮到不同方法計算出的相似度矩陣代表了不同的意義,其重要程度不同。因此,本文將基于特征融合的學(xué)術(shù)文獻(xiàn)相似度矩陣與基于標(biāo)簽的學(xué)術(shù)文獻(xiàn)相似度矩陣以一定的權(quán)值加權(quán)求和獲取文獻(xiàn)的綜合相似度矩陣,其中文獻(xiàn)di和文獻(xiàn)dj間綜合相似性計算方法如公式4 所示。

在獲取文獻(xiàn)的綜合相似度矩陣后,接下來將待推薦的文獻(xiàn)與用戶喜好或已發(fā)表文獻(xiàn)進(jìn)行匹配,按照相似性大小對其排序,最終選取相似性最高的Top-N 個文獻(xiàn)推薦給用戶。

3 實驗設(shè)計與評價

3.1 數(shù)據(jù)集

本文選擇CiteUlike 數(shù)據(jù)集作為實驗數(shù)據(jù)源,該數(shù)據(jù)集是由施普林格出版社 (Springer)提供的免費(fèi)的在線科研平臺,科研人員可以在該平臺上發(fā)現(xiàn)、存儲、組織和管理學(xué)術(shù)文獻(xiàn)等,最終形成個人文獻(xiàn)庫,數(shù)據(jù)集的具體內(nèi)容信息及統(tǒng)計數(shù)據(jù)如表1、表2 所示。為了保證實驗數(shù)據(jù)的準(zhǔn)確性,并將其轉(zhuǎn)化為計算機(jī)可識別的數(shù)據(jù),需要對其進(jìn)行預(yù)處理操作,具體步驟如表3 所示。

表1 CiteUlike 數(shù)據(jù)集

表2 CiteUlike 數(shù)據(jù)集統(tǒng)計

表3 數(shù)據(jù)預(yù)處理

3.2 對比實驗

為了客觀分析融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法的效果,本文選擇以下模型產(chǎn)生的推薦方法作為對比實驗進(jìn)行評價。

(1)DeepWalk:在文獻(xiàn)引用網(wǎng)絡(luò)中,采用隨機(jī)游走算法獲取網(wǎng)絡(luò)中的節(jié)點(diǎn)序列,通過Skip-Gram 模型學(xué)習(xí)節(jié)點(diǎn)的向量表示。

(2)Line:利用一階相似性和二階相似性來保存網(wǎng)絡(luò)結(jié)構(gòu)信息,學(xué)習(xí)節(jié)點(diǎn)的向量表示。

(3)Node2vec:對DeepWalk 隨機(jī)游走的方式進(jìn)行改進(jìn),綜合考慮基于深度優(yōu)先搜索和廣度優(yōu)先搜索的隨機(jī)游走策略,進(jìn)而獲取節(jié)點(diǎn)的網(wǎng)絡(luò)嵌入表示。

(4)Tag:使用Jaccard 系數(shù)即文獻(xiàn)對應(yīng)標(biāo)簽集合間的共現(xiàn)關(guān)系來計算文獻(xiàn)間的相似性。

(5)Bert:使用Bert 模型中BERT-Base-Uncased 版本對文獻(xiàn)內(nèi)容進(jìn)行向量表示。

在以上模型的基礎(chǔ)上,獲取文獻(xiàn)相似度矩陣,將與目標(biāo)文獻(xiàn)相似的前N 個文獻(xiàn)推薦給用戶。

3.3 評價標(biāo)準(zhǔn)

為了評價融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦的效果,本文選擇準(zhǔn)確率(Precision)、召回率(Recall)和F-measure 值作為評價標(biāo)準(zhǔn)。

(1)Precision

準(zhǔn)確率可以衡量推薦文獻(xiàn)的精準(zhǔn)性,它是指在推薦列表中用戶真實喜好的文獻(xiàn)所占的比例,計算方法如公式5 所示,針對所有用戶推薦的準(zhǔn)確率求平均值可以獲取整體準(zhǔn)確率。

其中,R(u)為給用戶u 推薦的文獻(xiàn)集合,T(u)為測試集中用戶u 喜好的文獻(xiàn)集合。

(2)Recall

召回率可以衡量推薦文獻(xiàn)的全面性,它是指用戶真實喜好的文獻(xiàn)被推薦的概率,即推薦列表中用戶真實喜好的文獻(xiàn)與測試集中用戶所有喜歡的文獻(xiàn)比例,計算方法如公式6 所示,針對所有用戶推薦的召回率求平均值可以獲取整體召回率。

(3)F-measure

隨著準(zhǔn)確率的增加,而召回率會減小,兩者是相互矛盾又統(tǒng)一的指標(biāo)。F-measure 值綜合考慮了兩者,對準(zhǔn)確率和召回率進(jìn)行加權(quán)調(diào)和平均,可以綜合體現(xiàn)推薦結(jié)果的準(zhǔn)確性和全面性,計算方法如公式7 所示。

3.4 實驗結(jié)果與討論

3.4.1 實驗分析

在學(xué)術(shù)文獻(xiàn)推薦的過程中,由于針對每篇目標(biāo)文獻(xiàn)的推薦個數(shù)n、綜合相似性權(quán)值α 以及不同融合方式對推薦結(jié)果有著重要影響。因此本節(jié)將討論n 和α 這兩個參數(shù)在不同數(shù)值設(shè)置下以及不同融合方式對實驗的影響。

(1)推薦個數(shù)對實驗結(jié)果的影響

為了分析推薦個數(shù)對學(xué)術(shù)文獻(xiàn)推薦效果的影響,在保持其他參數(shù)不變的情況下,分別設(shè)置推薦個數(shù)為120、140、160、180、200,計算 對 應(yīng) 的Precision、Recall 和F-measure 值,實驗結(jié)果如圖3—圖5 所示。從圖3—圖5 可以看出,總體上,隨著推薦個數(shù)的增加,大部分推薦方法的Precision 值呈略微下降趨勢,Recall 及F-measure 值呈上升趨勢。這是因為隨著推薦文獻(xiàn)數(shù)的增多,排名靠后的文獻(xiàn)與用戶的偏好相差較大,但是可以提升推薦文獻(xiàn)的全面性。當(dāng)推薦個數(shù)分別等于120、140、160、180、200 時,本文推薦方法的Precision、Recall 和F-measure 值均高于其他對比方法;當(dāng)推薦個數(shù)等于120 時,各方法的Precision 達(dá)到最大值,但是與其他推薦個數(shù)對應(yīng)的Precision 值差別不大;當(dāng)推薦個數(shù)等于200 時,Recall 和F-measure 值達(dá)到最大值,與其他推薦個數(shù)對應(yīng)的Recall 和F-measure 值差別較大,同時考慮到F-measure 值可以綜合體現(xiàn)推薦結(jié)果的準(zhǔn)確性和全面性,因此本文選取n=200 為最優(yōu)推薦個數(shù)。

圖3 不同推薦個數(shù)下各推薦方法的準(zhǔn)確率對比

圖4 不同推薦個數(shù)下各推薦方法的召回率對比

圖5 不同推薦個數(shù)下各推薦方法的F-measure 對比

(2)綜合相似性權(quán)重對實驗結(jié)果的影響

針對本文提出的推薦方法,在計算綜合相似度矩陣時,為了分析網(wǎng)絡(luò)表示學(xué)習(xí)、文本內(nèi)容、標(biāo)簽這三個角度對應(yīng)的相似度權(quán)重分配對推薦結(jié)果的影響,在保持其他參數(shù)不變的情況下,分別設(shè)置α 值為0、0.2、0.4、0.6、0.8、1,計算對應(yīng)的Precision、Recall 和F-measure 值,實驗結(jié)果如圖6 所示。從圖6 可以看出,隨著α 值的上升,Precision、Recall 和F-measure 值均呈現(xiàn)先上升后下降的變化趨勢;當(dāng)α=0 或1時,表示未對相似度矩陣進(jìn)行融合,Precision、Recall 和F-measure 值達(dá)到最低和次低,說明將文獻(xiàn)引用關(guān)系、文本內(nèi)容和標(biāo)簽進(jìn)行融合可以提高推薦的效果;當(dāng)α=0.4 時,本文推薦方法取得最優(yōu)值,因此本文選取α=0.4 為最優(yōu)權(quán)值。

圖6 不同權(quán)值下本文推薦方法的準(zhǔn)確率、召回率及F-measure 對比

(3)不同融合方式對實驗結(jié)果的影響

為了進(jìn)一步分析文獻(xiàn)引用關(guān)系與文本信息融合過程中,不同融合方式對文獻(xiàn)推薦效果的影響,本文分別計算以下兩種融合方法對應(yīng)的Precision、Recall 和F-measure 值,結(jié)果如圖7所示。

①特征與相似度融合。將node2vec 與bert模型生成的文獻(xiàn)特征向量拼接獲取融合后的特征向量,計算其相似度矩陣,然后與基于標(biāo)簽的文獻(xiàn)相似度矩陣進(jìn)行加權(quán)二次融合。

②相似度融合。將node2vec、tag 與bert 模型對應(yīng)的三種文獻(xiàn)相似度矩陣以一定的權(quán)值加權(quán)求和獲取文獻(xiàn)的綜合相似度矩陣。

通過圖7 可以看出,特征與相似度融合方法對應(yīng)的Precision、Recall 和F-measure 值較高,因此本文選擇先進(jìn)行特征融合、后進(jìn)行相似度融合的方法進(jìn)行學(xué)術(shù)文獻(xiàn)推薦。

圖7 不同融合方式下準(zhǔn)確率、召回率及F-measure 對比

3.4.2 實驗結(jié)果

根據(jù)上述實驗分析,本文最終選取推薦個數(shù)n=200,綜合相似性權(quán)重α=0.4,以及特征與相似度融合方法進(jìn)行實驗,得到本文推薦方法與對比方法對應(yīng)的Precision、Recall、F-measure以及相比對比方法本文推薦方法的提升率,實驗結(jié)果如表4 所示。從表4 可以看出,本文推薦 方 法 的Precision、Recall 和F-measure 均 高于其他5 種對比方法,且平均提升率分別為31.05%、28.51%和29.70%,說明本文提出的融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法具有更好的推薦效果。除此之外,在網(wǎng)絡(luò)表示學(xué)習(xí)的推薦方法中,基于Node2vec 的方法優(yōu)于基于DeepWalk、Line 的方法,這是因為Node2vec 綜合考慮了廣度優(yōu)先遍歷算法和深度優(yōu)先遍歷算法,可以同時保證文獻(xiàn)在數(shù)據(jù)集上的局部信息和全局信息。在基于本文信息的推薦方法中,基于Bert 的方法優(yōu)于基于Tag 的方法,說明使用Bert 對標(biāo)題摘要進(jìn)行特征提取比文獻(xiàn)的標(biāo)簽更能準(zhǔn)確表示文獻(xiàn)內(nèi)容信息。綜上所述,本文使用Node2vec、Bert 模型、Tag 從文獻(xiàn)間的引用關(guān)系、內(nèi)容信息和標(biāo)簽三個角度進(jìn)行融合,進(jìn)而實現(xiàn)學(xué)術(shù)文獻(xiàn)推薦,對于提高推薦方法的質(zhì)量具備一定的優(yōu)勢。

表4 本文方法與對比方法推薦結(jié)果對比

4 結(jié)語

針對傳統(tǒng)的學(xué)術(shù)文獻(xiàn)推薦忽略了文獻(xiàn)間引用關(guān)系的重要性,以及文獻(xiàn)向量表示維數(shù)過大進(jìn)而影響推薦效果的問題,本文提出了融合文獻(xiàn)引用網(wǎng)絡(luò)、長文本內(nèi)容和短文本標(biāo)簽的學(xué)術(shù)文獻(xiàn)推薦方法。首先,分別利用Node2vec、Bert 模型生成文獻(xiàn)向量表示,并對其進(jìn)行特征融合,計算特征融合和標(biāo)簽對應(yīng)的文獻(xiàn)相似度矩陣;其次,加權(quán)兩種文獻(xiàn)相似度矩陣獲取文獻(xiàn)綜合相似度矩陣,根據(jù)與目標(biāo)文獻(xiàn)的相似性大小實現(xiàn)學(xué)術(shù)文獻(xiàn)推薦;最后,在CiteUlike數(shù)據(jù)集上進(jìn)行實驗驗證,結(jié)果表明本文方法在Precision、Recall 和F-measure 上均有一定的提升,驗證了網(wǎng)絡(luò)表示學(xué)習(xí)融入至基于文本信息的推薦方法中的有效性。由于本文僅在單一數(shù)據(jù)集上進(jìn)行了驗證,因此具有一定局限性。除了文獻(xiàn)間引用關(guān)系外,用戶間的社交關(guān)系、文獻(xiàn)包含的多種特征信息以及用戶與文獻(xiàn)間的評分關(guān)系也是學(xué)術(shù)文獻(xiàn)推薦過程中需要關(guān)注的重點(diǎn)信息,如何將這些信息引入至文獻(xiàn)引用關(guān)系網(wǎng)絡(luò)中進(jìn)行推薦將是本文下一步的研究重點(diǎn)。

猜你喜歡
相似性向量學(xué)術(shù)
一類上三角算子矩陣的相似性與酉相似性
向量的分解
聚焦“向量與三角”創(chuàng)新題
淺析當(dāng)代中西方繪畫的相似性
河北畫報(2020年8期)2020-10-27 02:54:20
如何理解“Curator”:一個由翻譯引發(fā)的學(xué)術(shù)思考
中國博物館(2019年2期)2019-12-07 05:40:44
對學(xué)術(shù)造假重拳出擊
商周刊(2019年2期)2019-02-20 01:14:22
低滲透黏土中氯離子彌散作用離心模擬相似性
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
學(xué)術(shù)
清新县| 乌拉特前旗| 同江市| 罗山县| 昔阳县| 安宁市| 社会| 丹江口市| 白沙| 田阳县| 阜新市| 十堰市| 沙湾县| 寿光市| 澄江县| 平远县| 荆门市| 潼南县| 贵德县| 临洮县| 神木县| 南充市| 宜黄县| 锡林浩特市| 宁晋县| 中方县| 昌平区| 昌都县| 扶余县| 马尔康县| 昌邑市| 三江| 舞钢市| 威宁| 东山县| 荆门市| 蕉岭县| 聂拉木县| 额敏县| 拉孜县| 青岛市|