許卓明,張 巖,林莉莉
(河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇南京 210098)
文獻(xiàn)推薦的目的是在一個(gè)文獻(xiàn)庫(kù)中向用戶推薦滿足用戶興趣的文獻(xiàn),以減少用戶(尤其是領(lǐng)域初學(xué)者)搜索、瀏覽與篩選海量文獻(xiàn)的巨大工作量。用戶興趣最普遍的表達(dá)方式是說(shuō)明所需文獻(xiàn)的主題。目前文獻(xiàn)推薦主要有兩類典型方法:內(nèi)容過(guò)濾和協(xié)同過(guò)濾。內(nèi)容過(guò)濾法是根據(jù)文獻(xiàn)內(nèi)容與用戶興趣的相似性來(lái)進(jìn)行文獻(xiàn)推薦,協(xié)同過(guò)濾法則是先找到與用戶興趣最相似的用戶,然后根據(jù)最相似用戶感興趣的文獻(xiàn)向當(dāng)前用戶推薦文獻(xiàn)。
基于內(nèi)容過(guò)濾的文獻(xiàn)推薦代表性研究成果包括:Sugiyama等[1]假設(shè)某個(gè)研究者所發(fā)表的所有文獻(xiàn)代表其研究興趣,利用引文網(wǎng)絡(luò)生成增強(qiáng)型的用戶描述文件,并在實(shí)驗(yàn)中對(duì)初學(xué)者和資深研究者進(jìn)行不同處理,獲得了較高的推薦精度。由于傳統(tǒng)基于內(nèi)容過(guò)濾的推薦算法無(wú)法反映用戶對(duì)文獻(xiàn)的需求變化,曾春等[2]提出一種基于內(nèi)容過(guò)濾的個(gè)性化推薦算法,利用領(lǐng)域分類模型上的概率分布來(lái)表達(dá)用戶興趣的模型,然后給出相似性計(jì)算和用戶興趣模型的更新算法。實(shí)驗(yàn)表明相對(duì)于傳統(tǒng)矢量空間模型,這種概率模型能更好地表達(dá)用戶的興趣變化。
傳統(tǒng)協(xié)同過(guò)濾算法的核心問(wèn)題是計(jì)算用戶興趣相似度矩陣,但隨著用戶數(shù)目增長(zhǎng),這種矩陣計(jì)算將越來(lái)越困難,算法時(shí)空復(fù)雜度的增長(zhǎng)和用戶數(shù)的增長(zhǎng)近似成平方關(guān)系。為緩解這個(gè)性能瓶頸,Sarwar等[3]提出了基于項(xiàng)的協(xié)同過(guò)濾算法,通過(guò)分析文獻(xiàn)矩陣來(lái)確定不同文獻(xiàn)之間的關(guān)系,并據(jù)此進(jìn)行間接文獻(xiàn)推薦。為避免傳統(tǒng)協(xié)同過(guò)濾推薦中臨近算法可能會(huì)引入噪音數(shù)據(jù)的問(wèn)題,Naak等[4]在其研發(fā)的研究論文管理系統(tǒng)Papyres中提出了基于項(xiàng)的多準(zhǔn)則協(xié)同過(guò)濾方法,允許用戶在評(píng)價(jià)文獻(xiàn)時(shí)針對(duì)文獻(xiàn)的特定部分指定興趣,增加了文獻(xiàn)推薦的精度。
盡管以上傳統(tǒng)文獻(xiàn)推薦方法得到較廣泛的應(yīng)用,但仍存在以下不足:(a)基于內(nèi)容過(guò)濾和協(xié)同過(guò)濾都需要在具有用戶描述信息的情況下才能有效地推薦文獻(xiàn),但對(duì)于領(lǐng)域初學(xué)者,往往不存在用戶描述信息;(b)未充分利用文獻(xiàn)的主題概率分布和引文網(wǎng)絡(luò)中文獻(xiàn)間引用關(guān)系等重要信息,難以針對(duì)文獻(xiàn)的主題向用戶推薦與其興趣主題相關(guān)的高質(zhì)量文獻(xiàn)。
針對(duì)現(xiàn)有方法的不足,筆者提出一種基于因子圖[5]的文獻(xiàn)推薦新方法。該方法將引文網(wǎng)絡(luò)和文獻(xiàn)的主題概率分布相結(jié)合,構(gòu)造主題文獻(xiàn)推薦的因子圖模型;在該因子圖模型上運(yùn)用循環(huán)最大和(loopy maxsum)算法進(jìn)行近似推理。該方法能發(fā)揮因子圖簡(jiǎn)化概率圖模型及其推理的優(yōu)勢(shì),可在缺少用戶描述信息的情況下向用戶有效地推薦若干個(gè)主題下的高相關(guān)度文獻(xiàn)。
采用Tang等[6]提出的ACT(author-conference-topic)模型計(jì)算文獻(xiàn)的主題概率分布。ACT模型中的conference可泛指文獻(xiàn)發(fā)表刊物,包括會(huì)議論文集或期刊[6]。ACT模型是一個(gè)能綜合建模文獻(xiàn)、作者、發(fā)表刊物的主題概率模型,它利用主題分布來(lái)表示作者、文獻(xiàn)和發(fā)表刊物之間的相互依賴關(guān)系;通過(guò)吉布斯采樣(Gibbs sampling)進(jìn)行參數(shù)估計(jì),并計(jì)算給定作者的主題概率分布、給定主題的詞概率分布以及給定主題的發(fā)表刊物概率分布。
根據(jù)ACT模型的特點(diǎn),筆者將引文網(wǎng)絡(luò)(包含文獻(xiàn)標(biāo)題、摘要、作者和發(fā)表刊物等信息)和主題數(shù)目(例如30)作為ACT模型的輸入,在因子圖建模時(shí)自動(dòng)生成給定數(shù)目的主題并計(jì)算引文網(wǎng)絡(luò)中每篇文獻(xiàn)的主題概率分布p(divi)。
文獻(xiàn)推薦的目標(biāo)是針對(duì)輸入的引文網(wǎng)絡(luò)(含計(jì)算好的文獻(xiàn)主題概率分布),推理產(chǎn)生各主題下按主題相關(guān)度從大到小排序的前k個(gè)文獻(xiàn)(本文設(shè)k=50),以便用戶從中選取文獻(xiàn),此問(wèn)題可作如下描述。
輸入:引文網(wǎng)絡(luò) G(V,E,C,D),其中,V={vi}(i=1,2,…,n)代表文獻(xiàn) vi的集合,n 為引文網(wǎng)絡(luò)中文獻(xiàn)總數(shù);E={eij}(j=1,2,…,n)代表引文網(wǎng)絡(luò)的邊集合,eij代表文獻(xiàn)vi引用文獻(xiàn)vj;C={ci}為文獻(xiàn)被引頻次的集合,ci為文獻(xiàn) vi被引文網(wǎng)絡(luò)中其他文獻(xiàn)引用的頻次;D={di}為文獻(xiàn)主題概率分布的集合,di=(α1,i,α2,i,…,αm,i)為文獻(xiàn)vi在全部m個(gè)主題下的主題概率分布,m為引文網(wǎng)絡(luò)中主題數(shù)(根據(jù)引文網(wǎng)絡(luò)覆蓋的領(lǐng)域主題寬窄來(lái)設(shè)定,例如可設(shè) m=30),主題變量 z=1,2,…,m,αz,i表示文獻(xiàn) vi屬于主題 z的概率,顯然
處理:針對(duì)輸入建立文獻(xiàn)推薦因子圖模型,并在該因子圖模型上進(jìn)行近似推理(approximate inference)。
輸出:m個(gè)主題下按主題相關(guān)度從大到小排序的相關(guān)文獻(xiàn)列表,從中獲取前k個(gè)文獻(xiàn)(k=50)。
因子圖是一個(gè)二部圖,用來(lái)描述某個(gè)變量集上的一個(gè)全局函數(shù)如何因式分解為若干變量子集上的局部函數(shù)的乘積[5]:
式中:J——離散索引集;Xj——{x1,x2,…,xn}的子集,即 Xj?{x1,x2,…,xn};fj(Xj)——以 Xj中元素為自變量的局部函數(shù)。
因子圖有兩類節(jié)點(diǎn):每個(gè)變量xi對(duì)應(yīng)一個(gè)變量節(jié)點(diǎn)(用小圓圈表示),每個(gè)fj(Xj)對(duì)應(yīng)一個(gè)因子節(jié)點(diǎn)(用小方塊表示)。當(dāng)且僅當(dāng)xi是函數(shù)fj(Xj)的自變量時(shí),相應(yīng)變量節(jié)點(diǎn)與相應(yīng)因子節(jié)點(diǎn)之間才有一條無(wú)向邊相連。
筆者構(gòu)建的因子圖模型包含觀察變量集合{vi}、隱含變量集合{yz,i}以及特征函數(shù)(包括節(jié)點(diǎn)函數(shù)gz,i(yz,i)和邊特征函數(shù) fz,ij(yz,i,yz,j)),其中 yz,i∈{0,1},是觀察變量 vi在主題 z下對(duì)應(yīng)的隱含變量,yz,i=0 表示文獻(xiàn)vi與主題z不相關(guān),yz,i=1表示文獻(xiàn)vi與主題z相關(guān)。
圖1是包含4個(gè)變量節(jié)點(diǎn)的文獻(xiàn)推薦因子圖模型。在該模型中,節(jié)點(diǎn)特征函數(shù)gz,i(yz,i)代表文獻(xiàn)自身特點(diǎn)對(duì)該文獻(xiàn)成為被推薦文獻(xiàn)的影響程度。由于每篇文獻(xiàn)屬于某個(gè)主題z的概率不同,概率較大的更易于成為主題z下的被推薦文獻(xiàn)。當(dāng)概率大于給定閾值時(shí),被引頻次越大的文獻(xiàn)就越有可能成為主題z下的被推薦文獻(xiàn);反之,當(dāng)概率小于給定閾值時(shí),被引頻次越大的文獻(xiàn)就越有可能成為其他主題下的被推薦文獻(xiàn)。基于以上思想,可定義gz,i(yz,i)為
圖1 文獻(xiàn)推薦因子圖模型Fig.1 Factor graph model for literature recommendation
其中
式中:β,μ——權(quán)重系數(shù),β,μ∈[0,1],β + μ =1;λz——文獻(xiàn)的主題概率閾值。
可依據(jù)ci(用β表示)和αz,i(用μ表示)的相對(duì)重要程度進(jìn)行調(diào)整。例如,當(dāng) ci占80%權(quán)重,αz,i占20%權(quán)重,則 β=0.8,μ =0.2。
fz,ij(yz,i,yz,j)代表文獻(xiàn)之間引用關(guān)系對(duì)文獻(xiàn)成為被推薦文獻(xiàn)的影響程度。由于di可看作向量,因此采用余弦相似度來(lái)度量文獻(xiàn)之間的主題相似度,相似度值越大,表明文獻(xiàn)之間的主題相似度越高,反之亦然。基于以上思想,可定義 fz,ij(yz,i,yz,j)為
其中
式中:θij——文獻(xiàn)vi與 vj的主題相似度;φ——向量 di與 dj間的夾角。
為了簡(jiǎn)化模型,可假設(shè)主題之間是相互獨(dú)立的[7]?;谔卣骱瘮?shù)以及概率建模的特點(diǎn),考慮到因子圖與概率圖模型的對(duì)應(yīng)關(guān)系[8],可認(rèn)為因子圖模型對(duì)應(yīng)的概率圖模型是一個(gè)馬爾可夫網(wǎng)絡(luò)。根據(jù)概率論中馬爾科夫網(wǎng)絡(luò)的因式分解特性原理[8],概率圖中所有節(jié)點(diǎn)的聯(lián)合概率分布 p(yz,1,yz,2…,yz,n)是圖中所有最大團(tuán)上勢(shì)函數(shù)的乘積;而局部最大團(tuán)上的勢(shì)函數(shù)可定義為該團(tuán)所包含的全部節(jié)點(diǎn)特征函數(shù)與邊特征函數(shù)的乘積,因此可得出主題z下的聯(lián)合概率分布為
其中
式中:Δ——?dú)w一化常數(shù),亦稱配分函數(shù);1/Δ——在變量空集上的一個(gè)因子,為常數(shù)。
基于因子圖的推理問(wèn)題屬于動(dòng)態(tài)規(guī)劃問(wèn)題,即針對(duì)式(4)定義的目標(biāo)函數(shù)p(yz,1,yz,2…,yz,n)找到一個(gè)隱含變量配置空間(yz,1,yz,2…,yz,n),使得聯(lián)合概率值達(dá)到最大。
因子圖模型是一個(gè)有環(huán)因子圖,由于傳統(tǒng)的和-積算法[5]不能有效解決有環(huán)因子圖的推理問(wèn)題,因此筆者選用循環(huán)最大和算法[8]。為保證推理算法收斂,選用串行消息調(diào)度機(jī)制[8],并給定循環(huán)最大和算法推理算法中兩類消息函數(shù)為
式中:ne(fz,ij(yz,i,yz,j))yz,i——與 fz,ij(yz,i,yz,j)相鄰的除 yz,i外的其余變量節(jié)點(diǎn)的集合;ne(yz,i)fz,ij(yz,i,yz,j)——與 yz,i相鄰的除 fz,ij(yz,i,yz,j)外的其余因子節(jié)點(diǎn)的集合。
當(dāng) yz,i和 fz,ij(yz,i,yz,j)作為葉子節(jié)點(diǎn)時(shí),需要初始化消息:μyz,i→fz,ij(yz,i,yz,j)(yz,i)=0,μfz,ij(yz,i,yz,j)→yz,i(yz,i)=ln fz,ij(yz,i,yz,j)。當(dāng)算法收斂時(shí),可得節(jié)點(diǎn) yz,i的邊緣概率為
推理任務(wù)包括:利用式(5)、式(6)進(jìn)行迭代計(jì)算,使式(4)定義的聯(lián)合概率值達(dá)到最大,得到此時(shí)的隱含變量配置空間(yz,1,yz,2,…,yz,n)以及式(7)定義的每個(gè)隱含變量的邊緣概率 p(yz,i)。根據(jù)節(jié)點(diǎn)特征函數(shù)定義(式(2)),在某個(gè)主題z下,文獻(xiàn)的邊緣概率值越大,表明該文獻(xiàn)與主題z越相關(guān)。完成推理計(jì)算后,根據(jù)聯(lián)合概率值最大時(shí)的(yz,1,yz,2,…,yz,n)選取所有滿足 yz,i=1 (i∈{1,2,…,n})的文獻(xiàn) vi構(gòu)成與主題 z相關(guān)的文獻(xiàn)列表,對(duì)該列表中文獻(xiàn)按其邊緣概率值降序排序,從中選擇前k個(gè)文獻(xiàn)(k=50)構(gòu)成主題z下的被推薦文獻(xiàn)。
實(shí)驗(yàn)數(shù)據(jù)集由筆者訪學(xué)和合作研究的機(jī)構(gòu)——美國(guó)印第安納大學(xué)圖書館與信息科學(xué)學(xué)院提供。數(shù)據(jù)集是該學(xué)院學(xué)者已發(fā)表文獻(xiàn)[9]中實(shí)驗(yàn)數(shù)據(jù)集的一部分,來(lái)自于Thomson Reuters公司出版的2008年版期刊引證報(bào)告(Journal Citation Reports,JCR)。筆者從該JCR報(bào)告中選取“信息科學(xué)和圖書館學(xué)”類屬中共計(jì)59個(gè)SCI期刊從2006年1月到2010年3月的全部引文數(shù)據(jù)構(gòu)成一個(gè)引文網(wǎng)絡(luò),其中包含10 508篇文獻(xiàn)和20221個(gè)文獻(xiàn)引用關(guān)系。
2.2.1 主題概率分布計(jì)算
采用清華大學(xué)提供的ACT原型建模工具[6]進(jìn)行實(shí)驗(yàn)。根據(jù)文獻(xiàn)計(jì)量學(xué)領(lǐng)域的研究經(jīng)驗(yàn),一般將文獻(xiàn)庫(kù)(即引文網(wǎng)絡(luò))劃分為30~50個(gè)主題,本文指定主題數(shù)目為30(即m=30,主題編號(hào)為1~30)。對(duì)實(shí)驗(yàn)數(shù)據(jù)集文件進(jìn)行預(yù)處理,轉(zhuǎn)換為滿足ACT模型輸入格式要求的文獻(xiàn)庫(kù)文件。將預(yù)處理后的文獻(xiàn)庫(kù)連同主題數(shù)目(30)一起輸入到ACT原型建模工具中,從該原型建模工具的輸出結(jié)果中選取需要的計(jì)算結(jié)果,即文獻(xiàn)庫(kù)中給定數(shù)目的主題(其編號(hào)為1,2,…,30)以及每篇文獻(xiàn)在這些主題上的概率分布。例如,表1為其中8個(gè)主題及其條件概率值排序前10的詞。
表1 8個(gè)主題及其條件概率值排序前10的詞Table 1 Eight topics and their top-ten words ordered by conditional probability value
2.2.2 因子圖建模及文獻(xiàn)推薦推理
a.因子圖建模的實(shí)現(xiàn)。按經(jīng)驗(yàn)選取β=0.8,μ=0.2;β=μ=0.5;β=0.2,μ=0.8共3組不同參數(shù)值。通過(guò)Java編程讀入引文網(wǎng)絡(luò),根據(jù)文獻(xiàn)間的引用關(guān)系計(jì)算引文網(wǎng)絡(luò)中每篇文獻(xiàn)的被引頻次。基于已計(jì)算獲得的文獻(xiàn)主題概率分布,每組參數(shù)值下的因子圖文件生成過(guò)程如下:(a)利用式(2)計(jì)算節(jié)點(diǎn)特征函數(shù)值;(b)利用式(3)的θij計(jì)算文獻(xiàn)間的主題相似度,并計(jì)算閾值θ,再由閾值θ和文獻(xiàn)間的主題相似度用式(3)計(jì)算邊特征函數(shù)值;(c)利用計(jì)算得到的節(jié)點(diǎn)特征函數(shù)值和邊特征函數(shù)值,建立滿足循環(huán)最大和推理算法要求的因子圖文件。
b.基于因子圖的文獻(xiàn)推薦推理的實(shí)現(xiàn)。選用libDAI軟件包[10-11]中已實(shí)現(xiàn)的循環(huán)最大和推理算法來(lái)完成推理任務(wù)。libDAI軟件包是一個(gè)免費(fèi)的開源C++庫(kù),能實(shí)現(xiàn)由離散值變量構(gòu)成的各種概率圖模型——包括有向圖模型(貝葉斯網(wǎng)絡(luò))、無(wú)向圖模型(馬爾可夫網(wǎng)絡(luò)、因子圖)的多種精確和近似推理算法。將已建立的因子圖文件作為輸入,在Ubuntu系統(tǒng)下運(yùn)行l(wèi)ibDAI軟件包中的循環(huán)最大和算法。為了保證算法收斂,設(shè)定算法最大迭代次數(shù)為10 000次,選擇串行消息調(diào)度機(jī)制。在該算法的每次迭代中,不斷更新式(5)(6)兩類消息。當(dāng)算法收斂時(shí),獲得的推理結(jié)果包括式(4)定義的聯(lián)合概率最大值、隱含變量配置空間、式(7)定義的隱含變量的邊緣概率值。
2.3.1 對(duì)比方法
為比較本文所提因子圖算法與傳統(tǒng)算法的優(yōu)劣,選擇了2個(gè)對(duì)比方法。由于協(xié)同過(guò)濾方法在沒(méi)有用戶歷史描述信息的情況下無(wú)法進(jìn)行文獻(xiàn)推薦,因此本文選擇了沒(méi)有利用引文網(wǎng)絡(luò)中文獻(xiàn)間引用關(guān)系和文獻(xiàn)主題概率分布的基于內(nèi)容過(guò)濾方法,以及僅利用引文網(wǎng)絡(luò)中文獻(xiàn)主題概率分布的樸素方法作為2個(gè)對(duì)比方法。
a.基于內(nèi)容過(guò)濾方法。方法思想:通過(guò)計(jì)算引文網(wǎng)絡(luò)中每篇文獻(xiàn)與用戶興趣主題的相似性,向用戶推薦相似性較高的文獻(xiàn)。
方法實(shí)現(xiàn):由于缺少用戶興趣主題,假設(shè)每個(gè)主題下條件概率值排名前10的詞代表用戶的興趣主題。通過(guò)ACT模型輸入引文網(wǎng)絡(luò)和主題數(shù)目,計(jì)算給定每個(gè)主題下的詞的條件概率分布p(dw)(dw為詞的主題概率分布),對(duì)每個(gè)主題下的詞按照該條件概率值進(jìn)行降序排序,得到排序前10的詞集合(見表1)。利用Java編程計(jì)算引文網(wǎng)絡(luò)中每個(gè)主題條件概率值排名前10的詞在每篇文獻(xiàn)上的TF-IDF值,按照TF-IDF值對(duì)文獻(xiàn)進(jìn)行降序排名,選取前k(k=50)個(gè)文獻(xiàn)組成文獻(xiàn)推薦列表。
b.樸素方法。方法思想:基于主題概率分布和文獻(xiàn)被引頻次進(jìn)行文獻(xiàn)推薦,在文獻(xiàn)主題概率值大于給定閾值λz的情況下,按照文獻(xiàn)被引頻次從高到低向用戶推薦文獻(xiàn)。
方法實(shí)現(xiàn):依據(jù)上述ACT模型生成的文獻(xiàn)主題概率分布,利用Java編程將主題概率值大于λz的文獻(xiàn)加入候選文獻(xiàn)列表,再按照文獻(xiàn)被引頻次對(duì)候選文獻(xiàn)列表進(jìn)行降序排名,選取前k(k=50)個(gè)文獻(xiàn)組成文獻(xiàn)推薦列表。
2.3.2 有效性評(píng)價(jià)基準(zhǔn)
選擇歸一化折扣增益值(normalized discounted cumulative gain,nDCG)[12]作為方法有效性評(píng)價(jià)基準(zhǔn)。nDCG值是信息檢索領(lǐng)域中衡量搜索算法或相關(guān)應(yīng)用有效性的常用度量。由于基于主題的文獻(xiàn)推薦可以看作是一種給定主題的文獻(xiàn)檢索,因此nDCG值可作為評(píng)價(jià)基準(zhǔn)來(lái)衡量文獻(xiàn)推薦方法獲得主題高相關(guān)性文獻(xiàn)的能力(nDCG值越高表明方法的有效性越高)。
在計(jì)算nDCG值之前必須首先計(jì)算折扣增益值(discounted cumulative gain,DCG)。通過(guò)對(duì)排在文獻(xiàn)推薦列表前k個(gè)文獻(xiàn)的分級(jí)相關(guān)度累計(jì)加權(quán)計(jì)算,可得到DCG值。用τ表示DCG值,τk的計(jì)算公式[12]為
式中rε(ε=1,…,k)為排在文獻(xiàn)推薦列表中第ε位的文獻(xiàn)的分級(jí)相關(guān)度。
完成DCG值計(jì)算后,還需計(jì)算理想折扣增益值(ideal discounted cumulative gain,IDCG)。IDCG值是指對(duì)文獻(xiàn)推薦列表中k個(gè)文獻(xiàn)按照它們的分級(jí)相關(guān)度rε(ε=1,…,k)降序排列后,重新計(jì)算得到的DCG值。用η表示nDCG值,用ω表示IDCG值,得到ηk計(jì)算公式[12]為
采用Java編程實(shí)現(xiàn)nDCG值的計(jì)算。通過(guò)ACT模型設(shè)定λz,獲得每個(gè)主題的綜述文獻(xiàn),文獻(xiàn)的分級(jí)相關(guān)性定義為其被綜述文獻(xiàn)引用的頻次。
圖2是因子圖方法與基于內(nèi)容過(guò)濾方法及樸素方法在30個(gè)主題下分別推薦前50篇文獻(xiàn)所得到nDCG值的比較。如圖2(a)所示,在因子圖方法中,當(dāng)參數(shù)取值為β=0.8,μ=0.2時(shí),得到的nDCG值優(yōu)于另外2組參數(shù)的nDCG值,表明此參數(shù)值下因子圖方法的文獻(xiàn)推薦效果最佳。由于β代表文獻(xiàn)被引頻次所占權(quán)重,μ代表文獻(xiàn)主題概率所占權(quán)重,因此實(shí)驗(yàn)結(jié)果進(jìn)一步說(shuō)明因子圖方法中文獻(xiàn)被引頻次對(duì)文獻(xiàn)成為被推薦文獻(xiàn)的影響比文獻(xiàn)主題概率分布的影響要大。如圖2(b)所示,與樸素方法相比,因子圖方法(β=0.8,μ=0.2)在30個(gè)主題上的nDCG值均大于樸素方法;由于樸素方法沒(méi)有使用引文網(wǎng)絡(luò),進(jìn)一步表明引文網(wǎng)絡(luò)的引入可以提高文獻(xiàn)推薦效果。與基于內(nèi)容過(guò)濾方法相比,因子圖方法在其中29個(gè)主題上完全優(yōu)于基于內(nèi)容過(guò)濾方法,說(shuō)明因子圖方法綜合考慮了文獻(xiàn)本身特點(diǎn)以及引文網(wǎng)絡(luò),對(duì)推薦效果有很大提升;其中一個(gè)主題(編號(hào)為17)下的推薦效果差于基于內(nèi)容過(guò)濾的方法,說(shuō)明文獻(xiàn)內(nèi)容因素對(duì)文獻(xiàn)成為被推薦文獻(xiàn)也有一定影響。
圖2 nDCG值計(jì)算結(jié)果比較Fig.2 Comparison of calculated nDCG values
實(shí)驗(yàn)結(jié)果表明,在缺少用戶描述信息時(shí),因子圖方法總體上明顯優(yōu)于傳統(tǒng)的基于內(nèi)容過(guò)濾方法和樸素方法。
為了克服傳統(tǒng)文獻(xiàn)推薦方法在缺少用戶描述信息(如用戶歷史興趣或當(dāng)前興趣主題)時(shí)無(wú)法有效地向用戶推薦文獻(xiàn)的缺陷,筆者提出一種基于因子圖模型的文獻(xiàn)推薦新方法。該方法通過(guò)將引文網(wǎng)絡(luò)信息(包括文獻(xiàn)發(fā)表信息、文獻(xiàn)引用關(guān)系及被引頻次等)及文獻(xiàn)本身特點(diǎn)(文獻(xiàn)的主題概率分布)進(jìn)行統(tǒng)一建模,實(shí)現(xiàn)利用主題概率模型自動(dòng)生成引文網(wǎng)絡(luò)中給定數(shù)目的主題,并計(jì)算出各主題下按主題相關(guān)度從大到小排序的若干個(gè)相關(guān)文獻(xiàn),供用戶選擇。該方法還能充分發(fā)揮因子圖簡(jiǎn)化概率圖模型及推理的優(yōu)勢(shì),提高主題文獻(xiàn)推薦的效果?;跈?quán)威引文網(wǎng)絡(luò)(Thomson Reuters公司出版的2008年版期刊引證報(bào)告)的實(shí)驗(yàn)結(jié)果表明,在缺少用戶描述信息的情況下,因子圖方法的推薦效果明顯優(yōu)于基于內(nèi)容過(guò)濾方法和樸素方法等傳統(tǒng)方法,從而為文獻(xiàn)推薦研究提供了新思路。因子圖方法涉及多個(gè)參數(shù)(β,μ),為了簡(jiǎn)化實(shí)驗(yàn),筆者根據(jù)經(jīng)驗(yàn)選擇了幾組不同的參數(shù)值進(jìn)行實(shí)驗(yàn),下一步可考慮通過(guò)參數(shù)學(xué)習(xí)的方法來(lái)訓(xùn)練出具有最佳文獻(xiàn)推薦效果的最優(yōu)參數(shù)值組合。
致謝:感謝美國(guó)印第安納大學(xué)圖書館與信息科學(xué)學(xué)院博士研究生Yan Erija為本文研究提供了實(shí)驗(yàn)數(shù)據(jù)集;感謝清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系唐杰副教授為本文實(shí)驗(yàn)提供了ACT原型建模工具。
[1]SUGIYAMA K,KAN M Y.Scholarly paper recommendation via user's recent research interests[C]//HUNTER J,CARL L,GILESCL,et al.Proceedings of the 10th annual joint conference on digital libraries.New York:ACM,2010:29-38.
[2]曾春,邢春曉,周立柱.基于內(nèi)容過(guò)濾的個(gè)性化搜索算法[J].軟件學(xué)報(bào),2003,14(5):999-1004.(ZENG Chun,XING Chunxiao,ZHOU Lizhu.Personalized search algorithm using content-based filtering[J].Journal of Software,2003,14(5):999-1004.(in Chinese))
[3]SARWAR B M,KARYPISG,KONSTAN J A,et al.Item-based collaborative filtering recommendation algorithms[C]//SHENV Y,SAITO N,LYU M R,et al.Proceedings of the 10th international world wide web conference.New York:ACM,2001:285-295.
[4]NAAK A,HAGE H,A?MEUR E.A multi-criteria collaborative filtering approach for research paper recommendation in Papyres[C]//BABIN G,KROPF P,WEISS M.Proceedings of the 4th International MCETECH Conference on E-technologies,as Lecture Notes in Business Information Processing(LNBIP)vol.26.Heidelberg:Springer Berlin Heidelberg,2009:25-39.
[5]KSCHISCHANG F R,F(xiàn)REY B J,LOELIGER H-A.Factor graphs and the sum-product algorithm[J].IEEE Transactions on Information Theory,2001,47(2):498-519.
[6]TANG Jie,JIN Ruoming,ZHANG Jing.A topic modeling approach and its integration into the random walk framework for academic search[C]//GIANNOTTI F,GUNOPULOSD,TURINI F,et al.Proceedings of the 2008 Eighth IEEE International Conference on Data Mining.Los Alamitos:IEEE Computer Society,2008:1055-1060.
[7]TANG Jie,SUN Jimeng,WANG Chi,et al.Social influence analysis in large-scale networks[C]//ELDER J,F(xiàn)OGELMAN F S,F(xiàn)LACH P,et al.Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2009:807-816.
[8]BISHOPC M.Pattern recognition and machine learning[M].Berlin:Springer,2006:359-422.
[9]YAN Erjia,DING Ying.Library and information science(LIS)as we see it:an overview at the state and country level from 1965-2010[C]//Proceedings of the American Society for Information Science and Technology.Malden MA,USA:Wiley Subscription Services,Inc,2011:1-8.
[10]MOOIJJM.libDAI:A free and open source C++library for discrete approximate inference in graphical models[J].Journal of Machine Learning Research,2010,11:2169-2173.
[11]MOOIJ JM.libDAI-A free and open source C++library for discrete approximate inference in graphical models[EB/OL].[2013-01-14].http://cs.ru.nl/~jorism/libDAI/.
[12]J?RVELIN K,KEK?L?INEN J.Cumulated gain-based evaluation of IR techniques[J].ACM Transactions on Information Systems,2002,20(4):422-446.