郭苗苗,吳了,郭晨睿
融合讀者、相似度和位置信息的圖書推薦系統(tǒng)模型研究*
郭苗苗1,吳了1,郭晨睿2
(1.長(zhǎng)沙學(xué)院,湖南 長(zhǎng)沙 410022;2.洛陽(yáng)師范學(xué)院,河南 洛陽(yáng) 471934)
“新書推薦”“借閱排行榜”等圖書推薦簡(jiǎn)單地將特定書目推薦給所有讀者,忽略了讀者之間的個(gè)體差異性。個(gè)性化圖書推薦采用大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù),預(yù)測(cè)讀者的借閱行為,有針對(duì)性地向讀者推薦圖書,實(shí)現(xiàn)個(gè)性化服務(wù)。開發(fā)個(gè)性化圖書推薦系統(tǒng)需要對(duì)影響圖書推薦的各種因素進(jìn)行數(shù)學(xué)建模。在現(xiàn)有技術(shù)的基礎(chǔ)上,結(jié)合圖書館的應(yīng)用背景,提出了一種融合讀者、相似度和位置信息的圖書推薦系統(tǒng)模型,該模型的建立有助于新一代圖書推薦系統(tǒng)的開發(fā)。
圖書推薦;系統(tǒng)模型;讀者;位置信息
圖書館作為高校教學(xué)、科研的知識(shí)資源提供者,是在校大學(xué)生和教學(xué)科研人員獲取知識(shí)的主要途徑。但大多圖書管理系統(tǒng)(ILAS、金盤等)一般不具備圖書推薦功能,導(dǎo)致讀者在面對(duì)海量信息資源時(shí),如果采用傳統(tǒng)的圖書查找方法很難精準(zhǔn)找到所需的圖書;另一方面,當(dāng)圖書館在新采購(gòu)一批圖書或數(shù)字資源后,感興趣的讀者并不能及時(shí)獲取這一方面的信息,在一定程度上造成了圖書資源的浪費(fèi)。因此,圖書館需要綜合考慮讀者特性,利用數(shù)據(jù)挖掘技術(shù),通過(guò)收集和分析讀者的借閱習(xí)慣、喜好等信息,獲取讀者的閱讀偏好,精準(zhǔn)地向讀者推薦圖書,實(shí)現(xiàn)個(gè)性化推薦,提高圖書的借閱率。個(gè)性化圖書推薦系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 個(gè)性化圖書推薦系統(tǒng)結(jié)構(gòu)框圖
在進(jìn)行個(gè)性化圖書推薦時(shí),需要在讀者基本數(shù)據(jù)和后臺(tái)知識(shí)的基礎(chǔ)上建立讀者模型,然后根據(jù)匹配規(guī)則對(duì)讀者模型和圖書館的館藏圖書進(jìn)行匹配,利用數(shù)據(jù)挖掘技術(shù)形成個(gè)性化推薦結(jié)果。由圖1可以看出,在個(gè)性化圖書推薦系統(tǒng)中,建立讀者模型對(duì)推薦結(jié)果有較大的影響,因此,模型的建立至關(guān)重要。
模型的建立離不開圖書推薦算法。目前主要的圖書推薦算法有:①基于內(nèi)容的推薦算法,即根據(jù)讀者過(guò)去的借閱習(xí)慣,為讀者推薦與他過(guò)去借閱的圖書內(nèi)容相似的圖書;②基于關(guān)聯(lián)規(guī)則的推薦算法,即同一個(gè)讀者借閱的不同圖書可認(rèn)為之間存在著某種關(guān)聯(lián),可以從借閱歷史中搜索關(guān)聯(lián)度最高的圖書(圖書集合)作為推薦的主要參考;③基于協(xié)同過(guò)濾的算法,即通過(guò)尋找當(dāng)前讀者借閱行為最相似的鄰近讀者,推薦鄰近讀者借閱的圖書給當(dāng)前讀者[1-4]。
協(xié)同過(guò)濾算法是個(gè)性化推薦中較成熟的推薦算法之一。協(xié)同推薦算法一般分為基于用戶的協(xié)同過(guò)濾推薦、基于模型的協(xié)同過(guò)濾推薦和基于項(xiàng)目的協(xié)同過(guò)濾推薦[5],其中“以用戶為中心”的基于用戶的協(xié)同過(guò)濾算法在推薦系統(tǒng)中獲得了廣泛的應(yīng)用。傳統(tǒng)的基于用戶的協(xié)同過(guò)濾算法將兩個(gè)用戶之間的影響當(dāng)作對(duì)稱的影響,也就是說(shuō)對(duì)于任意的兩個(gè)讀者,彼此的影響是相當(dāng)量的。然而,在現(xiàn)實(shí)借閱中這種影響并不一定當(dāng)量對(duì)稱,例如教師可能會(huì)對(duì)新生讀者產(chǎn)生較大的影響,但是新生讀者對(duì)教師的影響卻較小。因此,傳統(tǒng)協(xié)同過(guò)濾算法還有改進(jìn)空間。
協(xié)同過(guò)濾的另一個(gè)好處是可以通過(guò)聚合類似讀者的行為來(lái)發(fā)現(xiàn)讀者的隱含偏好[6]。假設(shè)有個(gè)讀者和本圖書,讀者集合可以表示為={1,2,…,m},圖書集合可以表示為={1,2,…,n},ij=1為讀者i借閱過(guò)圖書j,否則ij=0,則在推薦系統(tǒng)中,讀者對(duì)圖書的歷史借閱數(shù)據(jù)就構(gòu)成讀者圖書借閱矩陣∈mn。這樣計(jì)算任意兩位讀者之間的相似性,就可以采用余弦相似度、Jacarrd相似度和Pearson相似度等方法。在上述3種方法中,當(dāng)數(shù)據(jù)僅僅為0或1時(shí),余弦相似度計(jì)算效果最佳。采用余弦相似度來(lái)計(jì)算讀者之間的相似度,讀者i與讀者k之間的相似度ki計(jì)算如公式為:
傳統(tǒng)的基于用戶(讀者)的協(xié)同過(guò)濾算法計(jì)算讀者i對(duì)圖書j借閱的概率為:
圖書館的藏書數(shù)量很大,一個(gè)普通高校的藏書就有上百萬(wàn)冊(cè),由于學(xué)科分布廣泛,大量跨專業(yè)、跨學(xué)科以及新型學(xué)科和邊緣學(xué)科圖書的存在,造成傳統(tǒng)的圖書推薦系統(tǒng)模型的數(shù)據(jù)稀疏,降低了推薦質(zhì)量。因此,本文綜合考慮讀者、相似度和位置信息,提出了一種改進(jìn)的基于協(xié)同過(guò)濾算法的圖書推薦系統(tǒng)模型。
要想提高推薦的準(zhǔn)確性,使得推薦的書目盡可能地滿足讀者的借閱傾向,不僅僅要考慮讀者的借閱歷史,還要考慮讀者的興趣愛好等個(gè)體信息,本文在前人已有工作的基礎(chǔ)上,給出一種融合讀者、相似度和位置信息的圖書推薦[7]。使用一種改進(jìn)的基于讀者的協(xié)同過(guò)濾算法——讀者影響模型考慮并計(jì)算兩個(gè)讀者間的非對(duì)稱影響,利用PageRank算法生成讀者的全局影響因子;考慮讀者間的專業(yè)和興趣愛好等的相似度;利用圖書、閱覽桌等的位置信息,挖掘讀者的實(shí)際借閱的位置特征,生成位置模型;將改進(jìn)的讀者影響、相似度影響和位置影響綜合以建立圖書推薦模型。
融合讀者、相似度和位置信息的圖書推薦系統(tǒng)結(jié)構(gòu)如圖2所示。
圖2 融合讀者、相似度和位置信息的圖書推薦系統(tǒng)結(jié)構(gòu)示意圖
圖2中最左邊虛線框中的內(nèi)容為每位讀者錄入的數(shù)據(jù)來(lái)源,包括一卡通、教務(wù)系統(tǒng)、圖書管理系統(tǒng)的數(shù)據(jù)庫(kù)等,反映了讀者的專業(yè)、就業(yè)創(chuàng)業(yè)傾向、個(gè)人喜好、借閱歷史等信息。第二個(gè)虛線框?qū)ψx者間的非對(duì)稱影響、相似度、借閱歷史(閱覽歷史)的位置信息信息等進(jìn)行分析,以提高圖書推薦的精準(zhǔn)度。
給定讀者和圖書的借閱關(guān)系矩陣:
=[ul]mn(2)
式(2)中:矩陣的第行、第列的ul為讀者對(duì)圖書的借閱次數(shù)(含續(xù)借);為讀者的人數(shù);為圖書的數(shù)量。因?yàn)樽x者借閱圖書的時(shí)長(zhǎng)有限,當(dāng)讀者往往不能在一次借閱時(shí)間內(nèi)完成圖書的閱讀與理解,會(huì)存在續(xù)借行為,在這里,圖書的逾期未還行為視為一次續(xù)借。借閱(續(xù)借)次數(shù)越高,表明讀者越喜歡圖書,如果讀者沒(méi)有借閱過(guò)圖書,則ul的值設(shè)置為0。
式(3)中:u為讀者借閱過(guò)的圖書的數(shù)量。
根據(jù)計(jì)算公式獲得的布爾矩陣′構(gòu)建非對(duì)稱讀者影響矩陣:
=[uv]mn(4)
式(4)中:uv為讀者對(duì)讀者的影響因子。
傳統(tǒng)的基于讀者的協(xié)同過(guò)濾算法中的讀者關(guān)系矩陣是對(duì)稱的,而本文中的讀者影響矩陣是不對(duì)稱的。
假設(shè)讀者可以影響的其他讀者越多,則讀者在圖書推薦系統(tǒng)中讀者的全局重要性越高;如果有多個(gè)讀者可以對(duì)讀者產(chǎn)生影響,則讀者更容易受到讀者全局重要性越高的讀者的影響。
式(5)(6)中:()為一個(gè)函數(shù),如果>0,則()=1;否則()=0。
使用隨機(jī)生成的值來(lái)初始化讀者的PageRank值,并使用迭代模型得到最終的每位讀者PageRank值。在每次迭代中,PageRank的值計(jì)算方法為:
式(7)中:∈[0,1]為阻尼系數(shù),表示其他讀者對(duì)讀者的貢獻(xiàn)的縮放因子;()為可以影響讀者的所有讀者的集合。
在式(7)中,影響更多其他讀者的讀者,并受到更少其他讀者影響的讀者擁有更小的PageRank值,即具有越小PageRank值的讀者越重要。
式(8)中:vu為讀者對(duì)讀者的影響值。
讀者的借閱行為可能會(huì)受到有其他讀者的影響,例如共同考研、找工作的讀者等。本模型使用專業(yè)、共同興趣愛好、考研和創(chuàng)業(yè)就業(yè)傾向等來(lái)計(jì)算讀者間的相似性??梢圆捎胹igmoid函數(shù)將擁有相似專業(yè)、共同興趣愛好或創(chuàng)業(yè)就業(yè)傾向轉(zhuǎn)換為規(guī)范的相似性。同時(shí),使用Jaccard相似度描述每對(duì)讀者之間的相似性。然后使用超參數(shù)來(lái)平衡上述兩種相似性。使用u表示與讀者有關(guān)系的讀者集,(,)表示讀者和讀者之間的相似度。讀者∈u,則讀者與讀者之間的相似性定義如下:
式(9)中:(,)為讀者和讀者之間的相似性;超參數(shù)∈[0,1]?;谏鲜鲎x者之間的相似性,可以通過(guò)傳統(tǒng)的基于讀者的協(xié)同過(guò)濾算法預(yù)測(cè)讀者借閱其未借閱過(guò)的圖書的概率,計(jì)算公式為:
在圖書館讀者更愿意借閱自己附近的感興趣的圖書。因此,為了將讀者實(shí)時(shí)位置信息融入到圖書推薦系統(tǒng)中,本文使用冪律分布來(lái)模擬讀者從借閱一本圖書到借閱同一個(gè)書庫(kù)(書架)的另一本圖書的距離函數(shù)作為讀者可能借閱的概率,公式為:
式(11)中:(l)為讀者借閱不同于l的書架(書庫(kù))的圖書的意愿;l為兩本圖書的距離;和為冪律函數(shù)的參數(shù)。
使用最大似然估計(jì)來(lái)計(jì)算兩個(gè)參數(shù)和。具體方法是:在式(11)的兩邊取對(duì)數(shù),即ln[(l)]=ln()+ln(l)。通過(guò)最小二乘法獲得上的ln(l)線性函數(shù)。從而得到式(11)中的兩個(gè)參數(shù)和。
假設(shè):讀者在借閱圖書i,圖書j是他將要借閱的候選圖書,圖書i與圖書j之間的距離為l(i,j)。對(duì)讀者的借閱概率進(jìn)行建模,讀者借閱圖書j的概率與讀者借閱在距離l(i,j)處的圖書的意愿(l)成比例。
計(jì)算概率的公式為:
隨著兩本圖書之間距離的增加,讀者借閱的概率隨之降低,表明讀者不太可能借閱距離較遠(yuǎn)的圖書。
根據(jù)預(yù)測(cè)的借閱概率,可得到相應(yīng)的分?jǐn)?shù),計(jì)算公式為:
式(13)(14)(15)中:為所有圖書集合;u為讀者借閱過(guò)的圖書集合。
在對(duì)讀者進(jìn)行圖書推薦時(shí),可以根據(jù)ij的值,向讀者推薦可能感興趣圖書,不同于單單基于讀者和單單基于內(nèi)容的圖書推薦系統(tǒng),本文模型綜合考慮了讀者借閱歷史、讀者之間的相似性以及讀者借閱產(chǎn)生的實(shí)時(shí)位置信息等,以向讀者推薦其可能更加感興趣的圖書。
在海量的圖書中,形成對(duì)讀者的個(gè)性化推薦,需要綜合考慮多種因素的影響,降低數(shù)據(jù)的稀疏性,本文綜合考慮讀者、相似度、位置信息等,提出了一種個(gè)性化圖書推薦模型,提高推薦的準(zhǔn)確度。圖書館館員可以根據(jù)模型的推薦結(jié)果對(duì)藏書進(jìn)行排架、倒架、下架等操作,為讀者提供更好的服務(wù),提高圖書的利用率。
[1]黃立威,江碧濤,呂守業(yè),等.基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2018,41(7):1619-1647.
[2]孫魯平,張麗君,汪平.網(wǎng)上個(gè)性化推薦研究述評(píng)與展望[J].外國(guó)經(jīng)濟(jì)與管理,2016,38(6):82-99.
[3]冷亞軍,陸青,梁昌勇.協(xié)同過(guò)濾推薦技術(shù)綜述[J].模式識(shí)別與人工智能,2014,27(8):720-734.
[4]李默,梁永全.基于標(biāo)簽和關(guān)聯(lián)規(guī)則挖掘的圖書組合推薦系統(tǒng)模型研究[J].計(jì)算機(jī)應(yīng)用研究,2014,31(8):2390-2393.
[5]郭淑紅,劉釗,徐玉梅.基于用戶特征的高校圖書館個(gè)性化圖書推薦研究[J].無(wú)線互聯(lián)科技,2017(4):115-116.
[6]田磊,任國(guó)恒,王偉.基于聚類優(yōu)化的協(xié)同過(guò)濾個(gè)性化圖書推薦[J].圖書館學(xué)研究,2017(8):75-80.
[7]郭晨睿,李平.基于社交和地理信息的興趣點(diǎn)推薦[J/OL].計(jì)算機(jī)工程與應(yīng)用[2019-08-19].http://kns.cnki.net/ kcms/detail/11.2127.TP.20190705.1724.034.html.
TP391.3
A
10.15913/j.cnki.kjycx.2019.18.016
2095-6835(2019)18-0041-04
長(zhǎng)沙學(xué)院人才引進(jìn)項(xiàng)目和湖南省自然科學(xué)基金(編號(hào):2019JJ50691)
郭苗苗(1987—),女,主要研究方向?yàn)閳D書館現(xiàn)代化。吳了(1986—),男,主要研究方向?yàn)槿斯ぶ悄?。郭晨睿?992—),男,主要研究方向?yàn)閿?shù)據(jù)挖掘。
〔編輯:張思楠〕