熊回香 唐明月 葉佳鑫等
關(guān)鍵詞: 異質(zhì)信息網(wǎng)絡(luò); 學(xué)術(shù)信息推薦; Node2vec; 語義相似度
DOI:10.3969 / j.issn.1008-0821.2023.05.003
〔中圖分類號(hào)〕G252.6 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 05-0023-12
隨著計(jì)算機(jī)的發(fā)展, 以及Web2 0 時(shí)代的到來,互聯(lián)網(wǎng)絡(luò)用戶逐漸從信息接受者轉(zhuǎn)變?yōu)樾畔⒅圃煺吆蛡鞑フ摺?jù)CNNIC 發(fā)布的第50 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示, 截至2022 年6 月,中國網(wǎng)民數(shù)量已達(dá)10 51 億, 互聯(lián)網(wǎng)普及率已達(dá)74.4%[1] 。在Web2.0 模式下, 用戶可以自由、便捷地分享自己的各種觀點(diǎn), 用戶信息產(chǎn)出的門檻變低, 網(wǎng)絡(luò)信息量因此大幅增長(zhǎng), 導(dǎo)致用戶在面對(duì)大量信息時(shí)無法從中快速準(zhǔn)確地獲取自身所需信息,對(duì)信息的使用效率反而降低[2] 。學(xué)術(shù)信息亦是如此, 隨著學(xué)術(shù)研究者以及研究成果的不斷增多, 學(xué)術(shù)資源的爆炸式增長(zhǎng)給學(xué)術(shù)研究者帶來了更大的壓力, 面對(duì)龐大的學(xué)術(shù)信息資源, 學(xué)術(shù)研究者難以從中找到與其相關(guān)的學(xué)術(shù)資源。個(gè)性化推薦是能夠有效處理信息超載問題的方法之一, 學(xué)術(shù)信息的個(gè)性化推薦也逐漸得到了學(xué)者的廣泛關(guān)注。
若要實(shí)現(xiàn)準(zhǔn)確的學(xué)術(shù)信息個(gè)性化推薦, 首先就需要能夠準(zhǔn)確地描述學(xué)者興趣特征。目前, 國內(nèi)外關(guān)于學(xué)者興趣特征表示主要包括基于向量[3-5] 、基于主題模型[6-7] 和基于網(wǎng)絡(luò)結(jié)構(gòu)[8-10] 3 種興趣特征表示方法。其中, 基于網(wǎng)絡(luò)結(jié)構(gòu)的興趣特征表示主要是通過網(wǎng)絡(luò)中的節(jié)點(diǎn)來描述用戶的興趣特征, 如用戶—電影網(wǎng)絡(luò)、學(xué)者—關(guān)鍵詞網(wǎng)絡(luò)等, 該類網(wǎng)絡(luò)包含了非常豐富的結(jié)構(gòu)和語義關(guān)系, 而學(xué)術(shù)信息包含了作者、單位、文獻(xiàn)、期刊等多種實(shí)體, 基于學(xué)術(shù)網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)者興趣表征方法在一定程度上有助于解決信息推薦過程中論文低產(chǎn)量學(xué)者的數(shù)據(jù)“稀疏性” 問題。鑒于此, 本文基于現(xiàn)有的網(wǎng)絡(luò)表示學(xué)習(xí)方法, 將文獻(xiàn)時(shí)間因子與文獻(xiàn)語義關(guān)系融入學(xué)者—文獻(xiàn)異質(zhì)信息網(wǎng)絡(luò)中進(jìn)行學(xué)術(shù)信息推薦研究。
1相關(guān)研究
目前, 國內(nèi)外關(guān)于學(xué)者興趣特征挖掘研究主要從基于向量、基于主題模型和基于網(wǎng)絡(luò)結(jié)構(gòu)3 個(gè)方面進(jìn)行學(xué)術(shù)用戶建模, 從而挖掘?qū)W術(shù)用戶的興趣特征。基于向量模型的學(xué)者興趣特征表示是用一系列特征詞向量來代表學(xué)者的興趣, Guan P 等[11] 使用標(biāo)題、關(guān)鍵詞、摘要和引用等數(shù)據(jù), 利用TF-IDF對(duì)文獻(xiàn)進(jìn)行建模, 最后利用不同權(quán)值的主題詞向量進(jìn)行用戶興趣表示; 耿立校等[12] 使用TF-IDF 技術(shù)和Word2vec 技術(shù)提取文獻(xiàn)特征和用戶興趣中權(quán)重較大的前N 個(gè)特征詞向量, 根據(jù)特征詞向量和權(quán)重來計(jì)算文獻(xiàn)和用戶的匹配度, 從而實(shí)現(xiàn)文獻(xiàn)推薦。在以主題建模為基礎(chǔ)的興趣挖掘方面, Malho?tra R 等[13] 基于LDA 主題模型, 依據(jù)相似作者的興趣以及作者自身的長(zhǎng)期和短期興趣, 并利用LSA方法計(jì)算興趣的語義相似度, 從而將高相似度的主題推薦給作者, 該研究表明此種類型的融合提高了主題預(yù)測(cè)的準(zhǔn)確性; 尹麗玲等[14] 從資源類型、學(xué)科分布、關(guān)鍵詞分布和LDA 主題分布4 個(gè)特征,整合學(xué)術(shù)資源興趣值和質(zhì)量值作為推薦值, 以實(shí)現(xiàn)優(yōu)質(zhì)推薦?;诰W(wǎng)絡(luò)結(jié)構(gòu)的興趣特征表示是通過網(wǎng)絡(luò)中的節(jié)點(diǎn)來描述用戶興趣特征, 網(wǎng)絡(luò)特征學(xué)習(xí)已成為網(wǎng)絡(luò)分析中的重要任務(wù)。網(wǎng)絡(luò)表示學(xué)習(xí)[15] 旨在從網(wǎng)絡(luò)中學(xué)習(xí)一系列低維向量, 如網(wǎng)絡(luò)節(jié)點(diǎn)、邊、子圖等, 從而在分類、鏈路預(yù)測(cè)、信息推薦等下游任務(wù)中用于特征表示。Perozzi B 等[16] 首次將深度學(xué)習(xí)與網(wǎng)絡(luò)分析相結(jié)合并提出了DeepWalk 算法,該算法利用隨機(jī)游走的方式來對(duì)網(wǎng)絡(luò)進(jìn)行序列化,以及將Word2vec 引入算法中實(shí)現(xiàn)節(jié)點(diǎn)特征表示;Node2vec[17] 則是在DeepWalk 算法的基礎(chǔ)上對(duì)序列采集策略進(jìn)行優(yōu)化, 引入有偏參數(shù)來引導(dǎo)漫步的下一個(gè)節(jié)點(diǎn), 該過程包含廣度優(yōu)先與深度優(yōu)先兩種采樣策略, 提高了游走生成路徑的質(zhì)量; Meta?path2Vec[18] 算法是基于元路徑來控制隨機(jī)游走的過程, 在此過程中保留了異質(zhì)網(wǎng)絡(luò)中的結(jié)構(gòu)和節(jié)點(diǎn)語義關(guān)系。在現(xiàn)有研究中, 不少學(xué)者利用網(wǎng)絡(luò)表示學(xué)習(xí)進(jìn)行學(xué)術(shù)信息推薦研究, 如朱祥等[19] 將學(xué)科異構(gòu)知識(shí)網(wǎng)絡(luò)應(yīng)用于作者—文獻(xiàn)的相關(guān)性研究中,利用元路徑理論和DPRel 相關(guān)性算法構(gòu)建作者—文獻(xiàn)相關(guān)性矩陣, 最終依據(jù)該相關(guān)性得到文獻(xiàn)推薦列表; Li Y 等[20] 綜合考慮論文、地點(diǎn)、作者、術(shù)語和用戶以及這些實(shí)體之間的關(guān)系, 在這些元路徑上應(yīng)用隨機(jī)游動(dòng)來測(cè)量候選論文對(duì)目標(biāo)用戶的推薦分?jǐn)?shù), 提出基于異構(gòu)網(wǎng)絡(luò)的論文推薦方法, 依據(jù)用戶的歷史偏好實(shí)現(xiàn)有效的論文推薦; 張金柱等[21]則以學(xué)者合著網(wǎng)絡(luò)為基礎(chǔ), 利用LINE 方法進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí), 最終通過計(jì)算向量相似度來進(jìn)行科研合作預(yù)測(cè)。
綜上所述, 雖然目前學(xué)術(shù)界對(duì)于學(xué)術(shù)信息推薦的研究已有較大進(jìn)展, 但仍存在以下問題亟待解決: 首先, 現(xiàn)有學(xué)術(shù)信息推薦大多只針對(duì)學(xué)者靜態(tài)興趣, 以學(xué)者動(dòng)態(tài)興趣為基礎(chǔ)的學(xué)術(shù)信息推薦研究較少, 但在現(xiàn)實(shí)情況中, 學(xué)者的研究興趣往往具有階段性的特點(diǎn), 因?yàn)殡S著時(shí)代不斷發(fā)展, 科學(xué)研究需求也會(huì)相應(yīng)發(fā)生變化, 學(xué)者往往會(huì)根據(jù)時(shí)代背景與研究需求進(jìn)行一系列研究, 所以捕捉學(xué)者動(dòng)態(tài)興趣特征更有利于提高學(xué)術(shù)信息的推薦質(zhì)量, 從而為學(xué)者提供更好的信息服務(wù); 其次, 從方法的選擇來看, 現(xiàn)有針對(duì)學(xué)者的學(xué)術(shù)信息推薦研究主要利用單一的節(jié)點(diǎn)類型來構(gòu)建網(wǎng)絡(luò), 無法推薦多粒度的學(xué)術(shù)信息。基于異質(zhì)網(wǎng)絡(luò)的網(wǎng)絡(luò)表示學(xué)習(xí)不僅能極大程度地保留圖結(jié)構(gòu)數(shù)據(jù)節(jié)點(diǎn)的結(jié)構(gòu)和語義信息, 還能在一定程度上解決數(shù)據(jù)稀疏問題, 從而提升對(duì)少產(chǎn)量作者的推薦效果。然而, 現(xiàn)有應(yīng)用于學(xué)術(shù)信息推薦的網(wǎng)絡(luò)表示學(xué)習(xí)主要依賴于網(wǎng)絡(luò)結(jié)構(gòu)信息, 而未考慮節(jié)點(diǎn)的外部語義信息?;诖?, 本文提出了融合加權(quán)異質(zhì)網(wǎng)絡(luò)與網(wǎng)絡(luò)表示學(xué)習(xí)的學(xué)術(shù)信息推薦模型, 以實(shí)現(xiàn)有效的學(xué)術(shù)信息推薦。
2基于加權(quán)異質(zhì)信息網(wǎng)絡(luò)的學(xué)術(shù)信息推薦模型構(gòu)建
該模型綜合考慮了文獻(xiàn)節(jié)點(diǎn)的時(shí)間特征與語義特征來構(gòu)建加權(quán)異質(zhì)網(wǎng)絡(luò), 其中時(shí)間特征體現(xiàn)了學(xué)者興趣的動(dòng)態(tài)性, 而語義特征則利用了文獻(xiàn)節(jié)點(diǎn)的摘要語義信息幫助建立文獻(xiàn)節(jié)點(diǎn)關(guān)系, 從而可以更好地挖掘潛在的推薦項(xiàng)目。通過該異質(zhì)網(wǎng)絡(luò)節(jié)點(diǎn)表示學(xué)習(xí), 最終完成了包括學(xué)者和文獻(xiàn)在內(nèi)的學(xué)術(shù)信息資源推薦。本文構(gòu)建的學(xué)術(shù)信息推薦模型如圖1所示, 該模型包含了數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理、異質(zhì)網(wǎng)絡(luò)構(gòu)建、網(wǎng)絡(luò)關(guān)系加權(quán)、節(jié)點(diǎn)向量生成以及推薦模塊五大模塊。首先, 構(gòu)建了包含學(xué)者以及文獻(xiàn)的異質(zhì)信息網(wǎng)絡(luò); 其次, 根據(jù)文獻(xiàn)發(fā)表時(shí)間計(jì)算時(shí)間因子加權(quán)來反映用戶動(dòng)態(tài)興趣, 同時(shí)利用文獻(xiàn)摘要文本的相似度來進(jìn)行文獻(xiàn)之間的語義加權(quán); 第三,在該加權(quán)異質(zhì)信息網(wǎng)絡(luò)上進(jìn)行節(jié)點(diǎn)學(xué)習(xí), 得到每個(gè)節(jié)點(diǎn)的向量表示; 最后, 進(jìn)行余弦相似度計(jì)算得到節(jié)點(diǎn)間的相似度, 并以此作為最終推薦值, 從而得到推薦結(jié)果。
2.1異質(zhì)網(wǎng)絡(luò)構(gòu)建
本研究定義的異質(zhì)社交網(wǎng)絡(luò)包含兩種類型的節(jié)點(diǎn): 學(xué)者S(Scholar)和文獻(xiàn)L(Literature), 實(shí)體之間包含兩種類型的關(guān)系, 即邊: SL(學(xué)者與文獻(xiàn)的關(guān)系)、LL(文獻(xiàn)與文獻(xiàn)之間的關(guān)系)。若文獻(xiàn)L 由學(xué)者S 參與撰寫, 則學(xué)者S 與文獻(xiàn)L 存在SL 關(guān)系;若文獻(xiàn)L 與文獻(xiàn)L 具有較高的相似度, 則文獻(xiàn)L與文獻(xiàn)L 之間存在LL 關(guān)系, 得到如圖2 所示的異質(zhì)網(wǎng)絡(luò)圖。
2.2網(wǎng)絡(luò)關(guān)系加權(quán)
近期發(fā)表的內(nèi)容比早期發(fā)表的內(nèi)容更能體現(xiàn)學(xué)者目前的研究興趣, 其對(duì)于推薦任務(wù)起到了更為重要的作用。所以本文將用戶發(fā)表時(shí)間引入推薦算法中, 通過給近期文獻(xiàn)賦予更高的時(shí)間權(quán)重, 以得到不同時(shí)間段的時(shí)間權(quán)重, 從而更好地表示用戶興趣主題。設(shè)共有M 位學(xué)者, 學(xué)者i(0<i≤M)發(fā)表文獻(xiàn)數(shù)量為Ni, 時(shí)間權(quán)重函數(shù)[22] 如式(1) 所示:
其中, A、B 代表文本的TF-IDF 向量, 設(shè)向量長(zhǎng)度為n, ai(0<i≤n)與bi(0<i≤n)代表向量A與B 中的元素。
將構(gòu)建的異質(zhì)信息網(wǎng)絡(luò)進(jìn)行邊加權(quán)后, 得到了一個(gè)包含時(shí)間特征與語義特征的加權(quán)異質(zhì)信息網(wǎng)絡(luò), 如圖3 所示。其中S 代表學(xué)者節(jié)點(diǎn), L代表文獻(xiàn)節(jié)點(diǎn), 二者的節(jié)點(diǎn)集合表示為G, wij代表節(jié)點(diǎn)i(i∈G)與節(jié)點(diǎn)j(j∈G)之間的邊權(quán)值。
2.3節(jié)點(diǎn)向量生成
節(jié)點(diǎn)表示學(xué)習(xí)的特征質(zhì)量由采樣序列的質(zhì)量決定, 本文采用文獻(xiàn)[17]中的有偏隨機(jī)游走對(duì)異質(zhì)網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行采樣, 具體采樣過程如下:
τij=eγ(t0 -tn) (1)
其中, τij(0<i≤M, 0<j≤Ni)是從文獻(xiàn)發(fā)表時(shí)間的角度用來衡量文獻(xiàn)j 對(duì)學(xué)者i 興趣偏好的影響程度參數(shù), γ 為時(shí)間衰減因子, t0為學(xué)者i 的文獻(xiàn)j的發(fā)表時(shí)間, tn為學(xué)者i 最近的研究發(fā)表時(shí)間。由公式可以看出, 當(dāng)文獻(xiàn)發(fā)表時(shí)間與最近一次發(fā)表時(shí)間越近, 時(shí)間權(quán)重系數(shù)越大, 反之越小。
為了將語義信息融入異質(zhì)圖中, 本文將學(xué)術(shù)文獻(xiàn)與學(xué)術(shù)文獻(xiàn)之間的相似性作為異質(zhì)圖中文獻(xiàn)節(jié)點(diǎn)與文獻(xiàn)節(jié)點(diǎn)之間的權(quán)重值, 主要過程為計(jì)算數(shù)據(jù)集內(nèi)所有文獻(xiàn)摘要的相似度, 為了避免摘要中的通用詞匯對(duì)語義加權(quán)造成影響, 將TF-IDF 的閾值設(shè)置為0.1, 若文獻(xiàn)與文獻(xiàn)之間的TF-IDF 相似度小于0.1, 則表明文獻(xiàn)節(jié)點(diǎn)之間語義相似度低, 文獻(xiàn)和文獻(xiàn)之間不存在LL 關(guān)系。在文本相似度的度量中, 本文使用TF-IDF 進(jìn)行文本向量表示, TF-IDF是一種統(tǒng)計(jì)方法, 用于評(píng)價(jià)一個(gè)單詞在一個(gè)語料庫中的重要性。單詞的重要程度與其出現(xiàn)在文本中的頻次成正比, 但也與其在語料文檔中出現(xiàn)的次數(shù)是反比的關(guān)系, 計(jì)算方法如式(2) 所示。在得到文本TF-IDF 向量后, 利用余弦值代表文本之間的相似度, 如式(3) 所示。
對(duì)網(wǎng)絡(luò)G中的每一個(gè)節(jié)點(diǎn)進(jìn)行采樣, 捕捉每個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)特征。給定最初始的節(jié)點(diǎn)c0(c0∈G), 其中G 的數(shù)量為m+z, 設(shè)置游走的步長(zhǎng)為l,讓ci表示隨機(jī)游走中的第i(0≤i≤m +z)個(gè)節(jié)點(diǎn),則在給定的節(jié)點(diǎn)ci-1中, 下一節(jié)點(diǎn)ci被訪問的可能性如式(4) 所示。
對(duì)于如何針對(duì)所得的節(jié)點(diǎn)序列進(jìn)行學(xué)習(xí), 在本研究中, 將概率隨機(jī)游走得到的序列類比作語料庫中的句子, 序列中的節(jié)點(diǎn)類比作句子中的單詞, 游走序列中節(jié)點(diǎn)共現(xiàn)的情況類似于詞匯的共現(xiàn)情況。使用基于Skip -gram 模型學(xué)習(xí)節(jié)點(diǎn)的嵌入表示,Skip-gram 是一種嵌入詞語的方法, 通過學(xué)習(xí)到的節(jié)點(diǎn)表示, 可以計(jì)算每個(gè)節(jié)點(diǎn)之間的相似性。Skipgram的原理為序列中的中心節(jié)點(diǎn)與周圍的節(jié)點(diǎn)共同出現(xiàn)的概率更大。設(shè)中心節(jié)點(diǎn)wc在詞典中的索引為c, 上下文詞wo索引為o, Skip-gram 訓(xùn)練過程中存在兩個(gè)大小為V ×n 的矩陣, 分別為上下文矩陣與中心詞矩陣, 其中V 表示詞庫大小, n 表示訓(xùn)練出來詞向量的維度, 每個(gè)詞都被表示成作為序列中的中心節(jié)點(diǎn)時(shí)的向量v 存放在中心詞矩陣中與作為上下節(jié)點(diǎn)的向量c 存放在上下文矩陣中, 給定中心節(jié)點(diǎn)得到上下節(jié)點(diǎn)的條件概率, 如式(6) 所示, 其中i 為節(jié)點(diǎn)在詞典中的索引, vi是它為中心節(jié)點(diǎn)時(shí)的表示向量, ui為它是上下節(jié)點(diǎn)時(shí)的表示向量。
最終獲得所有節(jié)點(diǎn)嵌入表示, 即節(jié)點(diǎn)向量表示, 如圖5所示。
2.4學(xué)術(shù)信息推薦
在進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí)的過程中, 本文將序列中的節(jié)點(diǎn)類比作句子中的單詞, 在進(jìn)行推薦值計(jì)算的過程中, 同樣利用空間向量模型的思想來進(jìn)行節(jié)點(diǎn)相似度計(jì)算。向量空間模型(VSM)是Salton G[23]在1970年提出的一種文本代數(shù)模型, 在向量空間中以空間相似性來表達(dá)語義相似, 最常用的是余弦相似性。在獲得所有節(jié)點(diǎn)嵌入表示后, 通過計(jì)算節(jié)點(diǎn)向量之間的余弦相似性來獲取學(xué)術(shù)信息的推薦值, 節(jié)點(diǎn)pi和pj的相似度計(jì)算如式(7) 所示。
3實(shí)證及結(jié)果分析
3.1數(shù)據(jù)采集與預(yù)處理
3.1.1數(shù)據(jù)采集
本文主要使用Python 的工具包Selenium, 并結(jié)合CNKI 的導(dǎo)出文獻(xiàn)功能來進(jìn)行數(shù)據(jù)采集, CNKI自定義的導(dǎo)出文獻(xiàn)字段有文獻(xiàn)標(biāo)題、作者、單位、關(guān)鍵詞、摘要、發(fā)表時(shí)間。以華中師范大學(xué)的研究學(xué)者“熊回香” 為初始學(xué)者, 獲得該學(xué)者在CNKI收錄的所有文獻(xiàn)信息, 再以其合作學(xué)者為查找條件, 獲得其合作學(xué)者在CNKI 上被收錄的文獻(xiàn)信息, 以此反復(fù)3輪, 最終得到學(xué)者1077位, 學(xué)術(shù)文獻(xiàn)1831篇。去除初始數(shù)據(jù)中重復(fù)的文獻(xiàn)632篇后, 得到保留文獻(xiàn)1199篇, 如表1所示。
3.1.2數(shù)據(jù)預(yù)處理
首先對(duì)學(xué)位論文、教學(xué)相關(guān)論文和會(huì)議紀(jì)要,如“情報(bào)學(xué)與情報(bào)工作發(fā)展論壇(2017)隆重召開并凝聚形成《南京共識(shí)》” “在‘第七屆科學(xué)計(jì)量學(xué)與大學(xué)評(píng)價(jià)國際研討會(huì) 上的致辭”“2021 ‘?dāng)?shù)據(jù)分析與應(yīng)急情報(bào) 系列學(xué)術(shù)活動(dòng)紀(jì)要” 等文獻(xiàn)進(jìn)行刪除, 只保留與學(xué)者研究有關(guān)的文獻(xiàn), 最終得到實(shí)證文獻(xiàn)1199篇, 并對(duì)其進(jìn)行編號(hào)。然后, 將學(xué)者—文獻(xiàn)—合作學(xué)者的關(guān)系統(tǒng)一處理為學(xué)者—文獻(xiàn)關(guān)系, 并將日期保留至年份。同時(shí), 為了方便下一步文獻(xiàn)摘要的向量空間模型計(jì)算, 在數(shù)據(jù)預(yù)處理階段也對(duì)文獻(xiàn)摘要進(jìn)行分詞、去除停用詞等操作,本文主要使用Python 工具包Jieba 的精確分詞模式進(jìn)行分詞, 最終得到的數(shù)據(jù)結(jié)果如表2所示。
3.2異質(zhì)網(wǎng)絡(luò)構(gòu)建與加權(quán)
3.2.1異質(zhì)網(wǎng)絡(luò)構(gòu)建
將表2中的學(xué)者節(jié)點(diǎn)S與文獻(xiàn)節(jié)點(diǎn)L進(jìn)行整理, 得到如表3所示的邊列表, 該表可作為后續(xù)關(guān)系加權(quán)的初始表格。
3.2.2時(shí)間因子加權(quán)
式(1) 中的時(shí)間衰減因子γ 是計(jì)算時(shí)間權(quán)重時(shí)的重要參數(shù), 它是衡量時(shí)間差對(duì)時(shí)間權(quán)重的影響程度, 在式中有著重要的作用。根據(jù)經(jīng)驗(yàn)將γ 值設(shè)定為{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1},本文采用數(shù)據(jù)離散度的指標(biāo)———方差, 來進(jìn)行時(shí)間因子γ 的分析。以文獻(xiàn)發(fā)表年份{2011,2012,2013……2021,2022}為例, 得到不同γ 值下的該組數(shù)據(jù)離散程度, 如圖6 所示。當(dāng)離散程度越大, 隨機(jī)游走概率越大, 即偏向性越強(qiáng), 也就代表著游走的節(jié)點(diǎn)更能表征學(xué)者當(dāng)前興趣, 所以最終選擇γ =0. 4進(jìn)行后續(xù)實(shí)證研究。
利用式(1) 中的時(shí)間加權(quán)函數(shù), 結(jié)合表2 中的學(xué)者、文獻(xiàn)與發(fā)表時(shí)間可計(jì)算出每位學(xué)者—文獻(xiàn)的時(shí)間權(quán)重, 如表4 所示。
3.2.3文獻(xiàn)語義關(guān)系加權(quán)
語義加權(quán)主要關(guān)注文獻(xiàn)摘要與文獻(xiàn)摘要之間的語義相似度, 該相似度即代表文獻(xiàn)—文獻(xiàn)之間的權(quán)重。將上一節(jié)中進(jìn)行分詞后的摘要作為語料庫, 得到每個(gè)詞的TF-IDF值, 然后抽取出每個(gè)文本的TFIDF向量, 再利用式(3) 計(jì)算得到每一篇文獻(xiàn)與語料庫中文獻(xiàn)的余弦相似度, 得到最終的文獻(xiàn)—文獻(xiàn)相似度結(jié)果, 如表5 所示。
將學(xué)者—文獻(xiàn)的時(shí)間權(quán)重與文獻(xiàn)—文獻(xiàn)的語義加權(quán)添加在異質(zhì)信息網(wǎng)絡(luò)中, 得到如下包含邊權(quán)值的邊列表, 如表6 所示, 該表數(shù)據(jù)作為隨機(jī)游走的基礎(chǔ)數(shù)據(jù)。
3.3節(jié)點(diǎn)向量生成
由于在數(shù)據(jù)采集階段, 主要收集了以“熊回香”學(xué)者為初始節(jié)點(diǎn)的數(shù)據(jù), 從學(xué)者—文獻(xiàn)—學(xué)者, 進(jìn)行了3 輪采集, 最長(zhǎng)的節(jié)點(diǎn)數(shù)為9, 所以本文將隨機(jī)游走的游走長(zhǎng)度設(shè)置為10, 即walk_length=10。在進(jìn)行游走的過程中采用偏深度優(yōu)先的游走來生成序列, 即q<1、p>max(q,1), 經(jīng)過參數(shù)測(cè)試, 令q =0.5、p =1.1。最終, 進(jìn)行概率隨機(jī)游走所得到的元路徑節(jié)點(diǎn)序列如表7 所示。
以第一次游走生成的節(jié)點(diǎn)序列為例, [‘李陽,‘1025,‘721, ‘1014, ‘徐健, ‘722,‘1021,‘1139, ‘王賢文,‘1140], 節(jié)點(diǎn)序列為學(xué)者節(jié)點(diǎn)“李陽”, 學(xué)術(shù)文獻(xiàn)節(jié)點(diǎn)1025, 再游走到其高相似度文獻(xiàn)“應(yīng)急專家發(fā)現(xiàn)路徑融合模型探究”, 到“應(yīng)急知識(shí)庫系統(tǒng)構(gòu)建的關(guān)鍵問題與模塊劃分研究”, …, 概率游走到學(xué)者王賢文, 最終到達(dá)文獻(xiàn)節(jié)點(diǎn)“全文引文分析視角下的造假論文學(xué)術(shù)影響研究”。通過對(duì)游走路徑1 進(jìn)行分析可以發(fā)現(xiàn), 第5 個(gè)節(jié)點(diǎn)是從文獻(xiàn)1014 游走到學(xué)者徐健, 文獻(xiàn)1014 與721 主題上雖然都是應(yīng)急決策,但是1014 的主題包含知識(shí)庫系統(tǒng)構(gòu)建, 從1014 到學(xué)者節(jié)點(diǎn)“徐建” 產(chǎn)生了一定的偏差。從上述可以發(fā)現(xiàn), 路徑長(zhǎng)度大于3 之后, 其所反映的關(guān)聯(lián)關(guān)系較弱, 所以本文在后續(xù)進(jìn)行節(jié)點(diǎn)采樣的過程中將這一特點(diǎn)納入考慮范圍。
序列生成之后, 將生成的序列當(dāng)作句子輸入Skip-gram 進(jìn)行訓(xùn)練集采集與模型訓(xùn)練。為了簡(jiǎn)化損失函數(shù)的計(jì)算過程, 本文將采用負(fù)采樣的方式進(jìn)行訓(xùn)練集采集。根據(jù)上述對(duì)游走路徑的分析示例,在進(jìn)行訓(xùn)練采樣時(shí)將采樣窗口確定為3。經(jīng)過Skipgram訓(xùn)練后, 可得到每一個(gè)節(jié)點(diǎn)的向量表示, 如表8所示。
3.4學(xué)術(shù)信息推薦
在本節(jié)中, 以“熊回香” 學(xué)者為推薦目標(biāo)進(jìn)行學(xué)術(shù)信息推薦, 將推薦目標(biāo)節(jié)點(diǎn)向量作為輸入值, 經(jīng)過式(7) 的向量相似度計(jì)算, 可得到目標(biāo)節(jié)點(diǎn)與所有節(jié)點(diǎn)之間的相似度, 然后將相似度高的節(jié)點(diǎn)根據(jù)文獻(xiàn)、學(xué)者兩種類別進(jìn)行分類, 并從中剔除與目標(biāo)學(xué)者直接相關(guān)聯(lián)的文獻(xiàn)以及已合作的學(xué)者。在推薦結(jié)果展示的過程中, 本文將推薦學(xué)者的發(fā)表文獻(xiàn)關(guān)鍵詞與CNKI 中的關(guān)注領(lǐng)域作為該名學(xué)者的關(guān)鍵詞, 即表8 中的關(guān)鍵詞字段, 同時(shí)以發(fā)表文獻(xiàn)的關(guān)鍵詞作為表9中的關(guān)鍵詞字段, 以便進(jìn)行后續(xù)的結(jié)果分析。由于學(xué)者與文獻(xiàn)之間數(shù)量的差異, 推薦了學(xué)者相似度前8名, 如表9所示; 學(xué)術(shù)文獻(xiàn)相似度前10名, 如表10所示。
3.5推薦結(jié)果分析
根據(jù)表9的推薦學(xué)者與表10推薦的相關(guān)論文,可以發(fā)現(xiàn)本模型取得了良好的推薦結(jié)果。通過檢索目標(biāo)學(xué)者單位的官方網(wǎng)站介紹與其所發(fā)表文章可知, 目標(biāo)學(xué)者熊回香近期研究主要圍繞其課題項(xiàng)目“融合知識(shí)圖譜和深度學(xué)習(xí)的在線學(xué)術(shù)資源挖據(jù)與推薦研究” 開展。而從表9 中可以發(fā)現(xiàn), 本模型所推薦的學(xué)者許鑫、范濤、王賢文、張寶隆、鄧三鴻的關(guān)注領(lǐng)域有知識(shí)圖譜、自然語言處理以及數(shù)據(jù)挖掘與深度學(xué)習(xí)領(lǐng)域, 而推薦學(xué)者許鑫、王賢文、鄧衛(wèi)華、楊建林、劉友華均在個(gè)性化推薦、用戶興趣與用戶畫像領(lǐng)域有所涉及。從整體上看, 推薦模型所推薦的學(xué)者與本文目標(biāo)學(xué)者熊回香的現(xiàn)研究方向相同或相似。從表10 可知, 為目標(biāo)學(xué)者推薦的文獻(xiàn)有較強(qiáng)的針對(duì)性, 時(shí)間維度上價(jià)值較高, 目標(biāo)學(xué)者的現(xiàn)研究方向大多與“個(gè)性化推薦” 有關(guān),而推薦文獻(xiàn)均與信息推薦有著較大的關(guān)聯(lián)。
為了評(píng)價(jià)模型的有效性, 本文選取準(zhǔn)確率(P)、召回率(R)與F 值(F)來評(píng)估推薦模型效果, 評(píng)價(jià)指標(biāo)公式如式(8) ~式(10)所示。
其中, K 表示推薦列表長(zhǎng)度, 將推薦成功的資源數(shù)量記作Nrl, 推薦資源中符合推薦興趣的資源數(shù)量記作Nl 。由于本文是基于網(wǎng)絡(luò)表示學(xué)習(xí)的推薦改進(jìn)模型, 故選取基于網(wǎng)絡(luò)表示學(xué)習(xí)[21] 的推薦模型進(jìn)行對(duì)比。以CNKI 的作者關(guān)注領(lǐng)域代表作者的興趣特征詞, 若目標(biāo)學(xué)者與推薦學(xué)者之間的特征詞向量相似度大于0.25, 則說明推薦成功。以目標(biāo)學(xué)者近兩年發(fā)表文獻(xiàn)關(guān)鍵詞作為作者最新興趣特征, 若目標(biāo)學(xué)者最新研究與推薦文獻(xiàn)之間的相似度大于0.25, 則說明推薦成功。本文從資源列表中隨機(jī)選?。常皸l推薦資源, 以30條推薦資源中推薦值排名前15條作為推薦列表, 以此來判斷推薦效果, 結(jié)果如表11 所示。由表11 可知, 本文模型推薦效果優(yōu)于基于未加權(quán)的網(wǎng)絡(luò)表示學(xué)習(xí)推薦模型。
綜上所述, 本研究提出的推薦方法中推薦學(xué)者與目標(biāo)學(xué)者的研究方向高度匹配, 推薦模型推薦的學(xué)術(shù)文獻(xiàn)與目標(biāo)學(xué)者近期研究興趣相近, 目標(biāo)學(xué)者可以從推薦文獻(xiàn)中得到啟發(fā), 迅速找到與自己研究方向相近的研究主題。本研究提出的推薦模型輸出的結(jié)果符合目標(biāo)學(xué)者的科研興趣需求, 通過推薦潛在的同方向的研究學(xué)者和研究文獻(xiàn), 可以為研究者提供更加廣闊的視野來開展研究。
4結(jié)語
本文提出了一種結(jié)合時(shí)間與語義加權(quán)的異質(zhì)網(wǎng)絡(luò)推薦方法, 該方法既考慮了學(xué)者的動(dòng)態(tài)興趣, 又考慮了文獻(xiàn)之間的語義關(guān)系, 很大程度上緩解了推薦過程中的數(shù)據(jù)稀疏問題。在構(gòu)建異質(zhì)網(wǎng)絡(luò)的過程中, 針對(duì)文獻(xiàn)節(jié)點(diǎn), 利用文本向量空間模型與余弦相似度計(jì)算得到文獻(xiàn)之間的語義相似度, 將該相似度作為異質(zhì)網(wǎng)絡(luò)中的邊權(quán)重, 最終構(gòu)建了包含語義的異質(zhì)網(wǎng)絡(luò), 從而在此異質(zhì)網(wǎng)絡(luò)上進(jìn)行學(xué)術(shù)信息推薦。通過采集在線學(xué)術(shù)平臺(tái)信息的相關(guān)數(shù)據(jù), 對(duì)本文提出的推薦方法進(jìn)行實(shí)證研究, 驗(yàn)證結(jié)果表明了該推薦方法的有效性。該推薦方法的意義在于, 在對(duì)學(xué)者進(jìn)行信息推薦的過程中, 首先, 考慮了學(xué)者的動(dòng)態(tài)興趣, 為學(xué)者推薦其當(dāng)前最感興趣的內(nèi)容;其次, 利用到文獻(xiàn)節(jié)點(diǎn)的文本語義信息, 加強(qiáng)了學(xué)術(shù)—文獻(xiàn)異質(zhì)網(wǎng)絡(luò)中節(jié)點(diǎn)表示的強(qiáng)度和效果, 提高了信息推薦的精準(zhǔn)度; 最后, 由于異質(zhì)網(wǎng)絡(luò)存在多種節(jié)點(diǎn)類型, 在推薦過程中可為學(xué)者推薦學(xué)者以及文獻(xiàn)兩類學(xué)術(shù)信息。但本文仍存在一定的局限性,由于實(shí)證研究部分只使用了學(xué)者所發(fā)表的中文文獻(xiàn), 并未涉及學(xué)者所發(fā)表的外文文獻(xiàn), 一定程度上降低了推薦的準(zhǔn)確度, 未來研究可考慮加入學(xué)者已發(fā)表的外文文獻(xiàn), 增加異質(zhì)網(wǎng)絡(luò)的豐富性, 從而提供更為豐富的推薦內(nèi)容。