融合讀者、相似度和位置信息的圖書推薦系統(tǒng)模型研究＊

2019-10-15 03:27郭苗苗吳了郭晨睿

科技與創(chuàng)新 2019年18期

郭苗苗，吳了，郭晨睿

郭苗苗1，吳了1，郭晨睿2

（1.長(zhǎng)沙學(xué)院，湖南長(zhǎng)沙 410022；2.洛陽(yáng)師范學(xué)院，河南洛陽(yáng) 471934）

“新書推薦”“借閱排行榜”等圖書推薦簡(jiǎn)單地將特定書目推薦給所有讀者，忽略了讀者之間的個(gè)體差異性。個(gè)性化圖書推薦采用大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)，預(yù)測(cè)讀者的借閱行為，有針對(duì)性地向讀者推薦圖書，實(shí)現(xiàn)個(gè)性化服務(wù)。開發(fā)個(gè)性化圖書推薦系統(tǒng)需要對(duì)影響圖書推薦的各種因素進(jìn)行數(shù)學(xué)建模。在現(xiàn)有技術(shù)的基礎(chǔ)上，結(jié)合圖書館的應(yīng)用背景，提出了一種融合讀者、相似度和位置信息的圖書推薦系統(tǒng)模型，該模型的建立有助于新一代圖書推薦系統(tǒng)的開發(fā)。

圖書推薦；系統(tǒng)模型；讀者；位置信息

圖書館作為高校教學(xué)、科研的知識(shí)資源提供者，是在校大學(xué)生和教學(xué)科研人員獲取知識(shí)的主要途徑。但大多圖書管理系統(tǒng)（ILAS、金盤等）一般不具備圖書推薦功能，導(dǎo)致讀者在面對(duì)海量信息資源時(shí)，如果采用傳統(tǒng)的圖書查找方法很難精準(zhǔn)找到所需的圖書；另一方面，當(dāng)圖書館在新采購(gòu)一批圖書或數(shù)字資源后，感興趣的讀者并不能及時(shí)獲取這一方面的信息，在一定程度上造成了圖書資源的浪費(fèi)。因此，圖書館需要綜合考慮讀者特性，利用數(shù)據(jù)挖掘技術(shù)，通過(guò)收集和分析讀者的借閱習(xí)慣、喜好等信息，獲取讀者的閱讀偏好，精準(zhǔn)地向讀者推薦圖書，實(shí)現(xiàn)個(gè)性化推薦，提高圖書的借閱率。個(gè)性化圖書推薦系統(tǒng)結(jié)構(gòu)如圖1所示。

圖1 個(gè)性化圖書推薦系統(tǒng)結(jié)構(gòu)框圖

在進(jìn)行個(gè)性化圖書推薦時(shí)，需要在讀者基本數(shù)據(jù)和后臺(tái)知識(shí)的基礎(chǔ)上建立讀者模型，然后根據(jù)匹配規(guī)則對(duì)讀者模型和圖書館的館藏圖書進(jìn)行匹配，利用數(shù)據(jù)挖掘技術(shù)形成個(gè)性化推薦結(jié)果。由圖1可以看出，在個(gè)性化圖書推薦系統(tǒng)中，建立讀者模型對(duì)推薦結(jié)果有較大的影響，因此，模型的建立至關(guān)重要。

1 常見的圖書推薦算法

模型的建立離不開圖書推薦算法。目前主要的圖書推薦算法有：①基于內(nèi)容的推薦算法，即根據(jù)讀者過(guò)去的借閱習(xí)慣，為讀者推薦與他過(guò)去借閱的圖書內(nèi)容相似的圖書；②基于關(guān)聯(lián)規(guī)則的推薦算法，即同一個(gè)讀者借閱的不同圖書可認(rèn)為之間存在著某種關(guān)聯(lián)，可以從借閱歷史中搜索關(guān)聯(lián)度最高的圖書（圖書集合）作為推薦的主要參考；③基于協(xié)同過(guò)濾的算法，即通過(guò)尋找當(dāng)前讀者借閱行為最相似的鄰近讀者，推薦鄰近讀者借閱的圖書給當(dāng)前讀者[1-4]。

協(xié)同過(guò)濾算法是個(gè)性化推薦中較成熟的推薦算法之一。協(xié)同推薦算法一般分為基于用戶的協(xié)同過(guò)濾推薦、基于模型的協(xié)同過(guò)濾推薦和基于項(xiàng)目的協(xié)同過(guò)濾推薦[5]，其中“以用戶為中心”的基于用戶的協(xié)同過(guò)濾算法在推薦系統(tǒng)中獲得了廣泛的應(yīng)用。傳統(tǒng)的基于用戶的協(xié)同過(guò)濾算法將兩個(gè)用戶之間的影響當(dāng)作對(duì)稱的影響，也就是說(shuō)對(duì)于任意的兩個(gè)讀者，彼此的影響是相當(dāng)量的。然而，在現(xiàn)實(shí)借閱中這種影響并不一定當(dāng)量對(duì)稱，例如教師可能會(huì)對(duì)新生讀者產(chǎn)生較大的影響，但是新生讀者對(duì)教師的影響卻較小。因此，傳統(tǒng)協(xié)同過(guò)濾算法還有改進(jìn)空間。

協(xié)同過(guò)濾的另一個(gè)好處是可以通過(guò)聚合類似讀者的行為來(lái)發(fā)現(xiàn)讀者的隱含偏好[6]。假設(shè)有個(gè)讀者和本圖書，讀者集合可以表示為={1，2，…，m}，圖書集合可以表示為={1，2，…，n}，ij=1為讀者i借閱過(guò)圖書j，否則ij=0，則在推薦系統(tǒng)中，讀者對(duì)圖書的歷史借閱數(shù)據(jù)就構(gòu)成讀者圖書借閱矩陣∈mn。這樣計(jì)算任意兩位讀者之間的相似性，就可以采用余弦相似度、Jacarrd相似度和Pearson相似度等方法。在上述3種方法中，當(dāng)數(shù)據(jù)僅僅為0或1時(shí)，余弦相似度計(jì)算效果最佳。采用余弦相似度來(lái)計(jì)算讀者之間的相似度，讀者i與讀者k之間的相似度ki計(jì)算如公式為：

傳統(tǒng)的基于用戶（讀者）的協(xié)同過(guò)濾算法計(jì)算讀者i對(duì)圖書j借閱的概率為：

圖書館的藏書數(shù)量很大，一個(gè)普通高校的藏書就有上百萬(wàn)冊(cè)，由于學(xué)科分布廣泛，大量跨專業(yè)、跨學(xué)科以及新型學(xué)科和邊緣學(xué)科圖書的存在，造成傳統(tǒng)的圖書推薦系統(tǒng)模型的數(shù)據(jù)稀疏，降低了推薦質(zhì)量。因此，本文綜合考慮讀者、相似度和位置信息，提出了一種改進(jìn)的基于協(xié)同過(guò)濾算法的圖書推薦系統(tǒng)模型。

2 融合讀者、相似度和位置信息的圖書推薦模型

要想提高推薦的準(zhǔn)確性，使得推薦的書目盡可能地滿足讀者的借閱傾向，不僅僅要考慮讀者的借閱歷史，還要考慮讀者的興趣愛好等個(gè)體信息，本文在前人已有工作的基礎(chǔ)上，給出一種融合讀者、相似度和位置信息的圖書推薦[7]。使用一種改進(jìn)的基于讀者的協(xié)同過(guò)濾算法——讀者影響模型考慮并計(jì)算兩個(gè)讀者間的非對(duì)稱影響，利用PageRank算法生成讀者的全局影響因子；考慮讀者間的專業(yè)和興趣愛好等的相似度；利用圖書、閱覽桌等的位置信息，挖掘讀者的實(shí)際借閱的位置特征，生成位置模型；將改進(jìn)的讀者影響、相似度影響和位置影響綜合以建立圖書推薦模型。

融合讀者、相似度和位置信息的圖書推薦系統(tǒng)結(jié)構(gòu)如圖2所示。

圖2 融合讀者、相似度和位置信息的圖書推薦系統(tǒng)結(jié)構(gòu)示意圖

圖2中最左邊虛線框中的內(nèi)容為每位讀者錄入的數(shù)據(jù)來(lái)源，包括一卡通、教務(wù)系統(tǒng)、圖書管理系統(tǒng)的數(shù)據(jù)庫(kù)等，反映了讀者的專業(yè)、就業(yè)創(chuàng)業(yè)傾向、個(gè)人喜好、借閱歷史等信息。第二個(gè)虛線框?qū)ψx者間的非對(duì)稱影響、相似度、借閱歷史（閱覽歷史）的位置信息信息等進(jìn)行分析，以提高圖書推薦的精準(zhǔn)度。

2.1 非對(duì)稱讀者影響分析

給定讀者和圖書的借閱關(guān)系矩陣：

=[ul]mn（2）

式（2）中：矩陣的第行、第列的ul為讀者對(duì)圖書的借閱次數(shù)（含續(xù)借）；為讀者的人數(shù)；為圖書的數(shù)量。因?yàn)樽x者借閱圖書的時(shí)長(zhǎng)有限，當(dāng)讀者往往不能在一次借閱時(shí)間內(nèi)完成圖書的閱讀與理解，會(huì)存在續(xù)借行為，在這里，圖書的逾期未還行為視為一次續(xù)借。借閱（續(xù)借）次數(shù)越高，表明讀者越喜歡圖書，如果讀者沒(méi)有借閱過(guò)圖書，則ul的值設(shè)置為0。

式（3）中：u為讀者借閱過(guò)的圖書的數(shù)量。

根據(jù)計(jì)算公式獲得的布爾矩陣′構(gòu)建非對(duì)稱讀者影響矩陣：

=[uv]mn（4）

式（4）中：uv為讀者對(duì)讀者的影響因子。

傳統(tǒng)的基于讀者的協(xié)同過(guò)濾算法中的讀者關(guān)系矩陣是對(duì)稱的，而本文中的讀者影響矩陣是不對(duì)稱的。

假設(shè)讀者可以影響的其他讀者越多，則讀者在圖書推薦系統(tǒng)中讀者的全局重要性越高；如果有多個(gè)讀者可以對(duì)讀者產(chǎn)生影響，則讀者更容易受到讀者全局重要性越高的讀者的影響。

式（5）（6）中：（）為一個(gè)函數(shù)，如果＞0，則（）=1；否則（）=0。

使用隨機(jī)生成的值來(lái)初始化讀者的PageRank值，并使用迭代模型得到最終的每位讀者PageRank值。在每次迭代中，PageRank的值計(jì)算方法為：

式（7）中：∈[0，1]為阻尼系數(shù)，表示其他讀者對(duì)讀者的貢獻(xiàn)的縮放因子；（）為可以影響讀者的所有讀者的集合。

在式（7）中，影響更多其他讀者的讀者，并受到更少其他讀者影響的讀者擁有更小的PageRank值，即具有越小PageRank值的讀者越重要。

式（8）中：vu為讀者對(duì)讀者的影響值。

2.2 讀者相似性的影響分析

讀者的借閱行為可能會(huì)受到有其他讀者的影響，例如共同考研、找工作的讀者等。本模型使用專業(yè)、共同興趣愛好、考研和創(chuàng)業(yè)就業(yè)傾向等來(lái)計(jì)算讀者間的相似性?？梢圆捎胹igmoid函數(shù)將擁有相似專業(yè)、共同興趣愛好或創(chuàng)業(yè)就業(yè)傾向轉(zhuǎn)換為規(guī)范的相似性。同時(shí)，使用Jaccard相似度描述每對(duì)讀者之間的相似性。然后使用超參數(shù)來(lái)平衡上述兩種相似性。使用u表示與讀者有關(guān)系的讀者集，（，）表示讀者和讀者之間的相似度。讀者∈u，則讀者與讀者之間的相似性定義如下：

式（9）中：（，）為讀者和讀者之間的相似性；超參數(shù)∈[0，1]?；谏鲜鲎x者之間的相似性，可以通過(guò)傳統(tǒng)的基于讀者的協(xié)同過(guò)濾算法預(yù)測(cè)讀者借閱其未借閱過(guò)的圖書的概率，計(jì)算公式為：

2.3 圖書位置信息的影響分析

在圖書館讀者更愿意借閱自己附近的感興趣的圖書。因此，為了將讀者實(shí)時(shí)位置信息融入到圖書推薦系統(tǒng)中，本文使用冪律分布來(lái)模擬讀者從借閱一本圖書到借閱同一個(gè)書庫(kù)（書架）的另一本圖書的距離函數(shù)作為讀者可能借閱的概率，公式為：

式（11）中：（l）為讀者借閱不同于l的書架（書庫(kù)）的圖書的意愿；l為兩本圖書的距離；和為冪律函數(shù)的參數(shù)。

使用最大似然估計(jì)來(lái)計(jì)算兩個(gè)參數(shù)和。具體方法是：在式（11）的兩邊取對(duì)數(shù)，即ln[（l）]=ln（）+ln（l）。通過(guò)最小二乘法獲得上的ln（l）線性函數(shù)。從而得到式（11）中的兩個(gè)參數(shù)和。

假設(shè)：讀者在借閱圖書i，圖書j是他將要借閱的候選圖書，圖書i與圖書j之間的距離為l（i，j）。對(duì)讀者的借閱概率進(jìn)行建模，讀者借閱圖書j的概率與讀者借閱在距離l（i，j）處的圖書的意愿（l）成比例。

計(jì)算概率的公式為：

隨著兩本圖書之間距離的增加，讀者借閱的概率隨之降低，表明讀者不太可能借閱距離較遠(yuǎn)的圖書。

2.4 圖書推薦模型建立

根據(jù)預(yù)測(cè)的借閱概率，可得到相應(yīng)的分?jǐn)?shù)，計(jì)算公式為：

式（13）（14）（15）中：為所有圖書集合；u為讀者借閱過(guò)的圖書集合。

在對(duì)讀者進(jìn)行圖書推薦時(shí)，可以根據(jù)ij的值，向讀者推薦可能感興趣圖書，不同于單單基于讀者和單單基于內(nèi)容的圖書推薦系統(tǒng)，本文模型綜合考慮了讀者借閱歷史、讀者之間的相似性以及讀者借閱產(chǎn)生的實(shí)時(shí)位置信息等，以向讀者推薦其可能更加感興趣的圖書。

3 結(jié)束語(yǔ)

在海量的圖書中，形成對(duì)讀者的個(gè)性化推薦，需要綜合考慮多種因素的影響，降低數(shù)據(jù)的稀疏性，本文綜合考慮讀者、相似度、位置信息等，提出了一種個(gè)性化圖書推薦模型，提高推薦的準(zhǔn)確度。圖書館館員可以根據(jù)模型的推薦結(jié)果對(duì)藏書進(jìn)行排架、倒架、下架等操作，為讀者提供更好的服務(wù)，提高圖書的利用率。

［1］黃立威，江碧濤，呂守業(yè)，等.基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述［J］.計(jì)算機(jī)學(xué)報(bào)，2018，41（7）：1619-1647.

［2］孫魯平，張麗君，汪平.網(wǎng)上個(gè)性化推薦研究述評(píng)與展望［J］.外國(guó)經(jīng)濟(jì)與管理，2016，38（6）：82-99.

［3］冷亞軍，陸青，梁昌勇.協(xié)同過(guò)濾推薦技術(shù)綜述［J］.模式識(shí)別與人工智能，2014，27（8）：720-734.

［4］李默，梁永全.基于標(biāo)簽和關(guān)聯(lián)規(guī)則挖掘的圖書組合推薦系統(tǒng)模型研究［J］.計(jì)算機(jī)應(yīng)用研究，2014，31（8）：2390-2393.

［5］郭淑紅，劉釗，徐玉梅.基于用戶特征的高校圖書館個(gè)性化圖書推薦研究［J］.無(wú)線互聯(lián)科技，2017（4）：115-116.

［6］田磊，任國(guó)恒，王偉.基于聚類優(yōu)化的協(xié)同過(guò)濾個(gè)性化圖書推薦［J］.圖書館學(xué)研究，2017（8）：75-80.

［7］郭晨睿，李平.基于社交和地理信息的興趣點(diǎn)推薦［J/OL］.計(jì)算機(jī)工程與應(yīng)用［2019-08-19］.http://kns.cnki.net/ kcms/detail/11.2127.TP.20190705.1724.034.html.

TP391.3

10.15913/j.cnki.kjycx.2019.18.016

2095－6835（2019）18－0041－04

長(zhǎng)沙學(xué)院人才引進(jìn)項(xiàng)目和湖南省自然科學(xué)基金（編號(hào)：2019JJ50691）

郭苗苗（1987—），女，主要研究方向?yàn)閳D書館現(xiàn)代化。吳了（1986—），男，主要研究方向?yàn)槿斯ぶ悄?。郭晨睿?992—），男，主要研究方向?yàn)閿?shù)據(jù)挖掘。

〔編輯：張思楠〕

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

融合讀者、相似度和位置信息的圖書推薦系統(tǒng)模型研究＊

1 常見的圖書推薦算法

2 融合讀者、相似度和位置信息的圖書推薦模型

2.1 非對(duì)稱讀者影響分析

2.2 讀者相似性的影響分析

2.3 圖書位置信息的影響分析

2.4 圖書推薦模型建立

3 結(jié)束語(yǔ)

融合讀者、相似度和位置信息的圖書推薦系統(tǒng)模型研究＊

2 融合讀者、相似度和位置信息的圖書推薦模型