国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦方法

2021-08-24 06:53張燕平
關(guān)鍵詞:異質(zhì)信息網(wǎng)絡(luò)節(jié)點(diǎn)

段 震,余 豪,趙 姝,陳 潔,張燕平

(安徽大學(xué) 計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230601)

(安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601)

1 引 言

引文推薦是指根據(jù)查詢者提供的信息,推薦與之相關(guān)的文獻(xiàn),如論文、專利等.引文推薦在領(lǐng)域調(diào)研、論文撰寫(xiě)、專利分析等科研學(xué)術(shù)活動(dòng)中具有重要的應(yīng)用價(jià)值.例如,當(dāng)研究人員進(jìn)入一個(gè)新的研究領(lǐng)域時(shí),需要閱讀大量與之相關(guān)的文獻(xiàn) 資料,從中了解該領(lǐng)域的主要研究方法和最新進(jìn)展.專利審查人員可以借助引文推薦的手段鑒定專利的新穎性和創(chuàng)造性.但通過(guò)人工從浩如煙海的文獻(xiàn)資料中快速找到相關(guān)的文獻(xiàn),是一個(gè)艱巨的任務(wù).如何使用機(jī)器學(xué)習(xí)方法,自動(dòng)高效準(zhǔn)確的查詢相關(guān)領(lǐng)域的出版物并智能化地推薦一組文獻(xiàn)集合,節(jié)約查找時(shí)間,是一個(gè)值得研究的課題.

近年來(lái),引文推薦的研究主要可分為兩類方法,即基于內(nèi)容的引文推薦[1-3]和基于圖的引文推薦[4-7].在基于內(nèi)容的引文推薦方法中,主要依據(jù)文獻(xiàn)的文本屬性進(jìn)行推薦,如標(biāo)題、關(guān)鍵字、摘要、主題等.但是在學(xué)術(shù)研究領(lǐng)域,一種普遍的現(xiàn)象是新的名詞被不斷創(chuàng)造出來(lái),從而會(huì)面臨一些語(yǔ)義混淆的問(wèn)題[6],使得僅依賴內(nèi)容進(jìn)行引文推薦的方法準(zhǔn)確率相對(duì)較低.

很多研究學(xué)者認(rèn)為,可以將引文推薦任務(wù)視作鏈路預(yù)測(cè)的問(wèn)題來(lái)解決.引文網(wǎng)絡(luò)包含了多種類型的節(jié)點(diǎn),如論文、作者、關(guān)鍵字、期刊等.不同類型的節(jié)點(diǎn)構(gòu)成一個(gè)異質(zhì)信息網(wǎng)絡(luò),使用異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)方法可以更好地獲得引文網(wǎng)絡(luò)中的節(jié)點(diǎn)信息.對(duì)于異質(zhì)信息網(wǎng)絡(luò)中節(jié)點(diǎn)特征的獲取,目前主要采用元路徑(metapath)和隨機(jī)游走(random walk)兩類方法.元路徑可以捕獲特定的網(wǎng)絡(luò)結(jié)構(gòu)特征,但是會(huì)忽略節(jié)點(diǎn)周?chē)牟糠粥従有畔?;隨機(jī)游走可以對(duì)網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行采樣,但是不能有效地反應(yīng)節(jié)點(diǎn)之間存在的關(guān)系.如果能有效地將文獻(xiàn)節(jié)點(diǎn)的屬性內(nèi)容和網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,對(duì)節(jié)點(diǎn)進(jìn)行采樣時(shí)可以更好的獲取節(jié)點(diǎn)的特征.

為了解決上述問(wèn)題,本文提出一種基于異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦算法(A Citation Recommendation Method based on Heterogeneous Information Network Representation Learn,CRM-HIN),通過(guò)利用網(wǎng)絡(luò)中的結(jié)構(gòu)信息以及文本信息,構(gòu)建一個(gè)包含語(yǔ)義鏈接的異質(zhì)信息網(wǎng)絡(luò).為了獲得每個(gè)節(jié)點(diǎn)之間的網(wǎng)絡(luò)結(jié)構(gòu)特征,使用混合元路徑的方式對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行采樣.如圖1所示,定義元路徑PAP(Paper-Author-Paper),在對(duì)節(jié)點(diǎn)進(jìn)行采樣游走的時(shí)候,首先按照元路徑PAP進(jìn)行游走,當(dāng)元路徑采樣結(jié)束之后再使用隨機(jī)游走,通過(guò)兩種不同的游走方式相結(jié)合,獲得每個(gè)節(jié)點(diǎn)的游走序列.對(duì)游走序列使用skip-gram模型進(jìn)行訓(xùn)練,獲得每個(gè)節(jié)點(diǎn)的向量表示,通過(guò)計(jì)算網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的相似性,獲得推薦的論文列表.本文提出的算法可以更好地學(xué)習(xí)節(jié)點(diǎn)的特征表示,有效地捕獲論文之間的語(yǔ)義關(guān)系.在兩個(gè)真實(shí)的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的算法與其它引文推薦方法在效果上有顯著提升.

圖1 混合隨機(jī)游走采樣

本文的主要貢獻(xiàn)如下:

1)提出一種新的引文推薦框架,通過(guò)構(gòu)建一個(gè)包含語(yǔ)義鏈接的異質(zhì)信息網(wǎng)絡(luò),更好地融合節(jié)點(diǎn)屬性信息及網(wǎng)絡(luò)結(jié)構(gòu)信息.

2)給出一種新的混合元路徑采樣算法,該算法所生成的節(jié)點(diǎn)序列,能更好的表示網(wǎng)絡(luò)中的節(jié)點(diǎn)特征.

3)將算法應(yīng)用于兩個(gè)真實(shí)引文網(wǎng)絡(luò)數(shù)據(jù)集,與其他方法相比,獲得了更好的準(zhǔn)確率.

2 相關(guān)工作

本節(jié)首先介紹基于內(nèi)容的引文推薦算法研究現(xiàn)狀,然后介紹基于圖的引文推薦算法研究現(xiàn)狀.

2.1 基于內(nèi)容的引文推薦算法

基于內(nèi)容的引文推薦方法通常結(jié)合文本語(yǔ)義[8,9]和潛在的主題來(lái)比較論文之間的相似性.此類方法可以使用單詞或者主題特征,利用數(shù)據(jù)挖掘技術(shù)對(duì)其進(jìn)行建模.作為文本的高維度表示,可以將主題分布作為論文之間相似度的一個(gè)衡量標(biāo)準(zhǔn),很多研究工作通過(guò)集成文本信息來(lái)擴(kuò)展主題模型.例如,Tang等人提出了一種基于主題的方法[2],該方法可以基于引文關(guān)系和論文文本內(nèi)容的相關(guān)性,通過(guò)訓(xùn)練兩層受限的玻爾茲曼機(jī)來(lái)學(xué)習(xí)主題分布.Dai等人不僅利用文本內(nèi)容的相似性,還利用作者之間的社交關(guān)系來(lái)進(jìn)行有效的引文推薦[10].近期一些基于內(nèi)容的引文推薦方法,通過(guò)利用引文中的局部或者全局上下文信息對(duì)論文進(jìn)行推薦排名[11,12].但是基于內(nèi)容的引文推薦方法還是存在傳統(tǒng)信息檢索的一些缺陷,如語(yǔ)義歧義等問(wèn)題.

2.2 基于圖的引文推薦方法

基于圖的引文推薦算法主要分為兩種,一種是基于同構(gòu)圖的引文推薦算法,另一種是基于異構(gòu)信息網(wǎng)絡(luò)[13]的引文推薦算法.

在基于同構(gòu)圖的引文推薦算法中,Ren等人提出一種基于聚類的引文推薦框架[4],按照將同一種類型的論文聚成一個(gè)興趣群的原則,獲得多個(gè)聚類,根據(jù)相關(guān)的興趣組預(yù)測(cè)每篇待查詢的引文.

為了更加有效的進(jìn)行引文推薦,很多基于圖的方法都考慮將多種關(guān)系建模為異構(gòu)圖,然后將該任務(wù)看作為鏈路預(yù)測(cè)問(wèn)題[12,14],使用圖的方法生成相應(yīng)的引文推薦列表.為了更好的利用網(wǎng)絡(luò)的結(jié)構(gòu)特征以及節(jié)點(diǎn)的屬性信息,很多學(xué)者提出了如何將網(wǎng)絡(luò)中的結(jié)構(gòu)特征和文本信息融合在一起的方法[1,3,15-18].Chen等人提出一種包含語(yǔ)義鏈接的加權(quán)異質(zhì)信息網(wǎng)絡(luò),通過(guò)多模式相似性之間的線性組合來(lái)推薦相關(guān)論文[19].Deng等人構(gòu)建一種新的基于異構(gòu)圖的推薦方法[20],其中既包括引文又包括內(nèi)容,使用圖的相似性學(xué)習(xí)算法進(jìn)行引文推薦.

3 算法描述

3.1 相關(guān)定義

本小節(jié)首先給引文推薦設(shè)計(jì)的符號(hào)進(jìn)行了定義,然后給出了問(wèn)題的形式化描述.

3.1.1 符號(hào)定義

表1給出本文所涉及的符號(hào)及其含義.

表1 符號(hào)含義

3.1.2 問(wèn)題定義

引文推薦問(wèn)題:給定一個(gè)論文的集合P,P=CP∩TP,CP是候選論文的集合,CP=(cp1,cp2,…,cpm);TP是目標(biāo)論文的集合,TP=(tp1,tp2,…,tpn)引文推薦問(wèn)題可以被描述為:輸入帶有屬性信息的目標(biāo)論文集合TP,從候選論文集合CP中返回一個(gè)論文的推薦列表Pr.

異質(zhì)信息網(wǎng)絡(luò):給定一個(gè)有向網(wǎng)絡(luò)G=(V,E),其中V代表所有實(shí)體節(jié)點(diǎn)的集合,E代表所有關(guān)系邊的集合.存在一個(gè)節(jié)點(diǎn)類型的映射函數(shù)φ:V→A和一個(gè)邊類型的映射函數(shù)ψ:E→R,每個(gè)對(duì)象v∈V都屬于一個(gè)特定的對(duì)象類型,每個(gè)鏈接e∈E都屬于一種特定的關(guān)系類型,這種網(wǎng)絡(luò)稱為信息網(wǎng)絡(luò).當(dāng)對(duì)象類型數(shù)量|A|>1或關(guān)系類型數(shù)量|R|>1時(shí),這樣的信息網(wǎng)絡(luò)被稱為異質(zhì)信息網(wǎng)絡(luò),反之為同質(zhì)信息網(wǎng)絡(luò)[18].圖1給出的是一個(gè)異質(zhì)信息引文網(wǎng)絡(luò),其中包含論文、作者、期刊、關(guān)鍵字等4種類型的節(jié)點(diǎn).

在一個(gè)異質(zhì)信息引文網(wǎng)絡(luò)中,兩個(gè)對(duì)象之間會(huì)存在多種不同路徑的連接.例如,引文網(wǎng)絡(luò)中的兩篇論文可以通過(guò)“論文—作者—論文”進(jìn)行連接,也可以通過(guò)“論文—作者—作者—論文”進(jìn)行連接.不同路徑下的語(yǔ)義意味著不同的相似性,這些路徑在形式上被稱為元路徑.

本文定義元路徑PAP(Paper-Author-Paper),在引文網(wǎng)絡(luò)中論文和作者的關(guān)系比較大,同一個(gè)作者,所發(fā)表的論文,研究方向較為接近,對(duì)于同類型的論文,引用的可能性也更高,因此將元路徑設(shè)置為PAP.對(duì)節(jié)點(diǎn)進(jìn)行采樣游走時(shí),首先按照元路徑PAP進(jìn)行游走,元路徑采樣結(jié)束之后再使用隨機(jī)游走,通過(guò)兩個(gè)不同的游走方式相結(jié)合,獲得每個(gè)節(jié)點(diǎn)的游走序列.此時(shí),混合隨機(jī)游走的一條路徑P可以表示為p=p+,其中p為元路徑,為隨機(jī)游走產(chǎn)生的路徑.具體的混合隨機(jī)游走的實(shí)例如圖1所示,元路徑p=PAP,隨機(jī)游走的路徑為=KPVPAP,所以混合隨機(jī)游走的路徑為P=PAPKPVPAP.

3.2 基于異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦算法

算法框架如圖2所示,整體算法框架分為3個(gè)模塊.第1個(gè)模塊主要是通過(guò)BERT和Word2vec獲得關(guān)鍵詞和摘要的向量,從而重新建立包含語(yǔ)義鏈接的異質(zhì)信息網(wǎng)絡(luò);第2個(gè)模塊使用元路徑和隨機(jī)游走獲得節(jié)點(diǎn)的游走序列;第3個(gè)模塊對(duì)模型進(jìn)行訓(xùn)練,從而獲得推薦的結(jié)果.

圖2 基于異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦算法框架

3.2.1 包含語(yǔ)義鏈接的異質(zhì)信息網(wǎng)絡(luò)的構(gòu)建

(1)

最終選擇top-ka個(gè)最相似的論文構(gòu)建語(yǔ)義鏈接.

(2)

最后選擇最相似的top-kk個(gè)最相似的關(guān)鍵詞構(gòu)建語(yǔ)義鏈接.

將論文中的一些語(yǔ)義信息(摘要,關(guān)鍵詞等)融合到網(wǎng)絡(luò)結(jié)構(gòu)中,對(duì)原始的異質(zhì)信息網(wǎng)絡(luò)G進(jìn)行重構(gòu),獲得一個(gè)新的異質(zhì)信息網(wǎng)絡(luò)G′,重構(gòu)之后的網(wǎng)絡(luò)包含了節(jié)點(diǎn)的語(yǔ)義信息.

3.2.2 混合隨機(jī)游走

節(jié)點(diǎn)采樣序列的好壞,決定了表示學(xué)習(xí)之后節(jié)點(diǎn)的特征好壞,本文使用混合隨機(jī)游走對(duì)網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行采樣,具體的采樣過(guò)程如下.

對(duì)于網(wǎng)絡(luò)G′中的每一個(gè)節(jié)點(diǎn)vi,需要對(duì)其進(jìn)行采樣,捕獲每個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)特征.定義游走長(zhǎng)度l,設(shè)定元路徑P的長(zhǎng)度為lp,其中l(wèi)>lp,以根節(jié)點(diǎn)vi進(jìn)行隨機(jī)游走的一個(gè)游走序列為Wvi,混合隨機(jī)游走的過(guò)程可以描述為:從節(jié)點(diǎn)vi開(kāi)始,按照元路徑P進(jìn)行元路徑游走,從節(jié)點(diǎn)vi的鄰居節(jié)點(diǎn)開(kāi)始,選擇一條元路徑進(jìn)行游走,當(dāng)游走的長(zhǎng)度等于lp時(shí),從當(dāng)前停止的節(jié)點(diǎn)開(kāi)始進(jìn)行隨機(jī)游走,直到游走序列的長(zhǎng)度為l時(shí),停止節(jié)點(diǎn)vi的隨機(jī)游走;依次遍歷網(wǎng)絡(luò)G′中的所有節(jié)點(diǎn).

3.2.3 模型訓(xùn)練

網(wǎng)絡(luò)表示學(xué)習(xí)可以從網(wǎng)絡(luò)中學(xué)習(xí)節(jié)點(diǎn)的特征,并且可以獲得節(jié)點(diǎn)的低維向量表示,在分類、鏈路預(yù)測(cè)、聚類等下游任務(wù)中用于特征表示.給定一個(gè)低維空間Rd,d?|N|,網(wǎng)絡(luò)表示學(xué)習(xí)的目的就是學(xué)習(xí)一個(gè)映射函數(shù)f:N→Rd,Θ=(θ1,θ2,…,θ|N|)表示學(xué)習(xí)得到的低維空間向量,Θ應(yīng)該盡可能的保留原始網(wǎng)絡(luò)的拓?fù)湫畔?

(3)

算法的詳細(xì)描述如下:

算法1.基于異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦算法

輸入:Heterogeneous citation network

G=(V,E),metapath:Ppath,walk lengthl,walk numberr.

1.Pre-processing:Use word2vec to get a vector of abstracts ?p;Use BERT to get a vector of keywords ?k

2.Use ?p、?kto Reconstructing heterogeneous information citation networkG′=(V,E)

3.Initializewalksto Empty

4.fori=0 to r do:

5.O=shuffle(v)

6.foreachvi∈Odo:

7.walk=mixRandomWalk(G′,vi,l)

《意見(jiàn)》明確要求,各級(jí)財(cái)政部門(mén)要始終把解決好“三農(nóng)”問(wèn)題作為工作重中之重,堅(jiān)持優(yōu)先發(fā)展、壓實(shí)責(zé)任,堅(jiān)持綜合施策、系統(tǒng)推進(jìn),堅(jiān)持改革創(chuàng)新、激發(fā)活力,把農(nóng)業(yè)農(nóng)村作為財(cái)政支出的優(yōu)先保障領(lǐng)域,公共財(cái)政更大力度向“三農(nóng)”傾斜,確保投入力度不斷增強(qiáng)、總量持續(xù)增加,確保財(cái)政投入與鄉(xiāng)村振興目標(biāo)任務(wù)相適應(yīng),堅(jiān)持績(jī)效導(dǎo)向、加強(qiáng)管理,將財(cái)政資金的分配和使用管理與支持鄉(xiāng)村振興工作的實(shí)際成效緊密結(jié)合起來(lái),加快推進(jìn)鄉(xiāng)村治理體系和治理能力現(xiàn)代化,加快推進(jìn)農(nóng)業(yè)農(nóng)村現(xiàn)代化,堅(jiān)持走中國(guó)特色鄉(xiāng)村振興之路。

8. Appendwalktowalks

9.endfor

10.endfor

11.fv=skipgram(walks)

12.forvi∈Gpdo

13.forvj∈Gcdo

14. calculate CosSim(fvi,fvj)by Equation(3)

15.endfor

16.Ktop-k most similar paper forvi

17.endfor

1.mixRandomWalkG′=(V,E)start nodevi,walk lengthl

2.walk=[u]

3.forwalk_iter=1 toldo

4. curr=walk[-1]

5.iflength(curr)

6.lmetapath=metpath(curr)

7. else

8.lrandom=randomwalk(curr)

9.walk=lmetapath+lrandom

10.endfor

11.returnwalk

4 實(shí)驗(yàn)與結(jié)果分析

4.1 數(shù)據(jù)集

為了評(píng)估算法性能,選取了兩個(gè)常用于驗(yàn)證引文推薦方法性能的數(shù)據(jù)集:DBLP(1)https://www.aminer.cn/citation和PubMed(2)https://pubmed.ncbi.nlm.nih.gov/.數(shù)據(jù)集描述如表2所示.

表2 實(shí)驗(yàn)所用的數(shù)據(jù)集

DBLP是一個(gè)著名的在線數(shù)字圖書(shū)館,包含了計(jì)算機(jī)科學(xué)和相關(guān)學(xué)科領(lǐng)域的文章和書(shū)籍的書(shū)目條目.本文從中DBLP v9版本中抽取了一個(gè)子集,里面有50227篇文章,26593名作者,11個(gè)期刊,按照年份劃分?jǐn)?shù)據(jù)集,其中2010年以前的論文作為訓(xùn)練集,2010年-2013年的論文作為測(cè)試集,平均每篇論文的引文數(shù)量為4個(gè).

PubMed 數(shù)據(jù)集包含了47347篇醫(yī)學(xué)領(lǐng)域的科學(xué)文獻(xiàn),共有42441名作者,11個(gè)期刊,平均每篇文獻(xiàn)有17個(gè)引用關(guān)系,數(shù)據(jù)集中包含了標(biāo)題、摘要、地點(diǎn)(文獻(xiàn)發(fā)布的期刊或者會(huì)議)、作者、引文(文獻(xiàn)中引用其他的文獻(xiàn))和關(guān)鍵詞.2010年以前的論文作為訓(xùn)練集,2010年-2013年的論文作為測(cè)試集.

4.2 評(píng)估方法

本文使用Precision、Recall和MRR來(lái)評(píng)估算法效果,k表示給目標(biāo)論文推薦k個(gè)候選文章:

(4)

(5)

Q是目標(biāo)論文的數(shù)量,k是推薦的論文數(shù)量,Rp是基于目標(biāo)論文p推薦的前k個(gè)引文論文列表,Tp是論文p真實(shí)引用的集合.

MRR(Mean Reciprocal Rank):對(duì)于信息檢索系統(tǒng)(如問(wèn)答系統(tǒng)或推薦系統(tǒng)),只關(guān)心第一個(gè)標(biāo)準(zhǔn)答案返回的位置(Rank),越靠前越好,這個(gè)位置的倒數(shù)稱為RR,對(duì)問(wèn)題集合求平均,則得到MRR.

(6)

F1分?jǐn)?shù)(F1-score)是分類問(wèn)題的一個(gè)衡量指標(biāo).一些多分類問(wèn)題的機(jī)器學(xué)習(xí)競(jìng)賽,常常將F1-score作為最終測(cè)評(píng)的指標(biāo).它是精確率和召回率的調(diào)和平均數(shù),最大為1,最小為0.

(7)

4.3 對(duì)比算法

ClusCite[4]:ClusCite將異構(gòu)圖中的論文、作者、期刊的相似節(jié)點(diǎn)聚集在一起,用來(lái)查找應(yīng)該被引用的論文.

BM25[25]:BM25是一種基于文本的方法,可以計(jì)算僅使用文字信息的相似度得分.

NNSelect[16]:是一種基于內(nèi)容推薦引文的方法.將給定的查詢文檔嵌入到向量空間中,然后使用其最近的鄰居作為候選對(duì)象,使用判別模型對(duì)候選論文進(jìn)行排序.

Doc2vec[21]:是一種非監(jiān)督式算法,可以獲得句子/段落/文檔的向量表達(dá),是 word2vec算法的拓展.

DeepWalk[23]:DeepWalk是一種學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)表示的方法,將語(yǔ)言模型中的方法應(yīng)用在社會(huì)網(wǎng)絡(luò)分析中,從而可以應(yīng)用深度學(xué)習(xí)的方法,不僅能表示節(jié)點(diǎn)特征,還能表示出節(jié)點(diǎn)之間的拓?fù)潢P(guān)系.

Metapath2vec[26]:是對(duì)異構(gòu)信息網(wǎng)絡(luò)進(jìn)行特征表示學(xué)習(xí)的一種方法,具體的做法是基于元路徑的隨機(jī)游走來(lái)獲得節(jié)點(diǎn)游走序列,之后使用異構(gòu)的skip-gram模型來(lái)獲得節(jié)點(diǎn)的向量表示.

4.4 實(shí)驗(yàn)結(jié)果及分析

在本節(jié)中,首先將本文提出的CRM-HIN算法與其他6種基于內(nèi)容的引文推薦算法以及基于圖的引文推薦算法相比較;然后分析不同參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響.

實(shí)驗(yàn)環(huán)境操作系統(tǒng)為Windows10 64位,語(yǔ)言為python3.6;本文算法設(shè)置的元路徑為PAP,每個(gè)節(jié)點(diǎn)的隱維數(shù)(representation_size)為256,游走次數(shù)為80;ClusCite算法中參數(shù)的設(shè)置為:K=200,cp=10-6,cw=10-7;NNSelect、BM25參數(shù)和算法原文保持一致,Doc2vec的實(shí)現(xiàn)方法參考gensim(3)https://radimrehurek.com/gensim/庫(kù),deepwalk算法的實(shí)現(xiàn)采用了清華大學(xué)OpenNE(4)https://github.com/thunlp/OpenNE的工具包;metapaht2vec算法中,元路徑參數(shù)設(shè)置為PAP.

表3、表4分別顯示了本文算法和其他對(duì)比算法在DBLP和PubMed數(shù)據(jù)集上的推薦結(jié)果.通過(guò)分析實(shí)驗(yàn)數(shù)據(jù)可知,CRM-HIN算法在recall、precision、NDCG上面有很好的推薦結(jié)果.對(duì)于只使用文本相似度進(jìn)行推薦的算法(BM25、Doc2vec),效果沒(méi)有基于圖的推薦算法效果好,主要是因?yàn)閷?duì)于引文網(wǎng)絡(luò),由于引文中不僅存在文本信息,更重要的是還存在作者、出版社、文獻(xiàn)之間的引用等關(guān)系,而B(niǎo)M25和Doc2vec只使用文本信息,沒(méi)有將網(wǎng)絡(luò)中的結(jié)構(gòu)信息考慮進(jìn)去.本文提出的基于異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦算法,使用了網(wǎng)絡(luò)中的結(jié)構(gòu)以及文本信息,通過(guò)節(jié)點(diǎn)序列,獲得不同類型節(jié)點(diǎn)之間的關(guān)系,從而可以獲得更好的推薦效果.

表3 DBLP上的實(shí)驗(yàn)結(jié)果對(duì)比

表4 PubMed上的實(shí)驗(yàn)結(jié)果對(duì)比

DeepWalk使用隨機(jī)游走獲取節(jié)點(diǎn)序列;Metapath2vec使用元路徑獲取節(jié)點(diǎn)序列,圖3和圖4分別對(duì)比了在兩個(gè)數(shù)據(jù)集上使用混合游走、元路徑和隨機(jī)游走3種方式對(duì)節(jié)點(diǎn)進(jìn)行采樣時(shí)的效果.可以發(fā)現(xiàn),基于元路徑獲得節(jié)點(diǎn)序列,只對(duì)路徑上的各種節(jié)點(diǎn)進(jìn)行了游走,忽略了節(jié)點(diǎn)周?chē)钠渌愋凸?jié)點(diǎn).CRM-HIN對(duì)于節(jié)點(diǎn)序列的采樣,首先按照元路徑獲得節(jié)點(diǎn)序列,從而獲得與該節(jié)點(diǎn)最相關(guān)的結(jié)構(gòu)信息;隨后使用隨機(jī)游走,獲得高階鄰居節(jié)點(diǎn)的信息;為了使文本信息可以融合到網(wǎng)絡(luò)結(jié)構(gòu)中,在獲取節(jié)點(diǎn)序列的時(shí)候,考慮了節(jié)點(diǎn)本身的文本相似性.從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),CRM-HIN要比其他算法推薦效果好.因此,結(jié)合網(wǎng)絡(luò)中的文本信息和異構(gòu)網(wǎng)絡(luò)的結(jié)構(gòu)信息可以獲得更好的結(jié)果.

圖3 使用不同節(jié)點(diǎn)采樣方法在DBLP上的實(shí)驗(yàn)效果

圖4 使用不同節(jié)點(diǎn)采樣方法在PubMed上的實(shí)驗(yàn)效果

本節(jié)分析超參數(shù)采樣長(zhǎng)度的敏感性對(duì)實(shí)驗(yàn)結(jié)果的影響.對(duì)節(jié)點(diǎn)進(jìn)行采樣時(shí),選擇不同的采樣長(zhǎng)度,結(jié)果如圖5所示,我們使其游走長(zhǎng)度依次遞增,觀察實(shí)驗(yàn)結(jié)果的變化,從實(shí)驗(yàn)結(jié)果中我們可以分析出,當(dāng)游走長(zhǎng)度為6的時(shí)候,效果最好.由于本文設(shè)置的元路徑為PAP,獲取節(jié)點(diǎn)序列的時(shí)候,里面包含了元路徑,兩篇論文有共同的作者,這兩篇論文很可能是同一個(gè)作者研究的內(nèi)容,兩篇論文有一定的相關(guān)性.元路徑之后的隨機(jī)游走,可以獲得與論文相關(guān)的一些信息,比如論文和出版社之間的關(guān)系,論文之間的引用關(guān)系.適當(dāng)長(zhǎng)度的游走,可以有效的提升推薦的效果,但是當(dāng)游走長(zhǎng)度過(guò)長(zhǎng)的時(shí)候,游走序列后半部分的節(jié)點(diǎn)序列,與前半部分的節(jié)點(diǎn)序列,相關(guān)性減輕,對(duì)這些節(jié)點(diǎn)序列進(jìn)行訓(xùn)練,會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生一定的影響.因此,選擇合適的游走長(zhǎng)度,可以有效地提升推薦的效果.

圖5 不同游走長(zhǎng)度對(duì)實(shí)驗(yàn)結(jié)果的影響

5 總 結(jié)

本文提出一種基于異質(zhì)信息網(wǎng)絡(luò)的引文推薦算法,通過(guò)將論文的文本內(nèi)容融合到網(wǎng)絡(luò)的結(jié)構(gòu)中,使用元路徑和隨機(jī)游走相結(jié)合的方式來(lái)提取節(jié)點(diǎn)的特征,從而訓(xùn)練獲取更好的推薦效果.獲取真實(shí)論文推薦列表的實(shí)驗(yàn)結(jié)果表明,和基準(zhǔn)方法相比,本文提出的引文推薦算法可以有效地結(jié)合網(wǎng)絡(luò)中的結(jié)構(gòu)信息和文本信息,從而獲得更好的推薦結(jié)果.

猜你喜歡
異質(zhì)信息網(wǎng)絡(luò)節(jié)點(diǎn)
基于RSSI測(cè)距的最大似然估計(jì)的節(jié)點(diǎn)定位算法
分區(qū)域的樹(shù)型多鏈的無(wú)線傳感器網(wǎng)絡(luò)路由算法
基于異質(zhì)分組的信息技術(shù)差異化教學(xué)
一種基于能量和區(qū)域密度的LEACH算法的改進(jìn)
晉能科技半導(dǎo)體尖端技術(shù)喜獲突破
碳排放對(duì)綠色全要素生產(chǎn)率的影響與地區(qū)異質(zhì)效應(yīng)
基于點(diǎn)權(quán)的混合K-shell關(guān)鍵節(jié)點(diǎn)識(shí)別方法
基于CuO/ZnO異質(zhì)結(jié)納米花的薄膜型丙酮傳感器研究
信息網(wǎng)絡(luò)條件下黨員教育工作問(wèn)題與策略研究
國(guó)內(nèi)教育微課發(fā)展與建設(shè)的初步探索
虹口区| 临邑县| 南平市| 舒城县| 舟山市| 黑河市| 禄劝| 吉隆县| 阿坝县| 潮安县| 新泰市| 东至县| 凉城县| 陵水| 宿松县| 龙江县| 华池县| 招远市| 永定县| 枣阳市| 遂昌县| 巨野县| 闻喜县| 洪洞县| 昆山市| 类乌齐县| 广河县| 乃东县| 六安市| 香格里拉县| 奉节县| 砀山县| 台山市| 本溪市| 阿巴嘎旗| 石狮市| 唐海县| 柳林县| 张家口市| 南陵县| 扎鲁特旗|