基于用戶畫像的高校圖書館個性化圖書推薦研究

2022-04-14 14:14王大阜鄧志文賈志勇安計勇

河南師范大學(xué)學(xué)報（自然科學(xué)版） 2022年3期

王大阜,鄧志文,賈志勇,安計勇

(中國礦業(yè)大學(xué) a.圖書館;b.計算機科學(xué)與技術(shù)學(xué)院,江蘇徐州 221116)

隨著高校圖書館的館藏紙本文獻(xiàn)、期刊數(shù)據(jù)庫、特色數(shù)據(jù)庫等多樣、異構(gòu)資源的持續(xù)建設(shè)發(fā)展，資源的規(guī)模、體量呈現(xiàn)爆炸性增長態(tài)勢，豐富的資源為讀者學(xué)習(xí)、科研、生活提供了極大輔助作用的同時也暴露出“信息過載”的問題，讀者從海量資源中找到與其興趣匹配的、高質(zhì)量的資源變得十分困難.以O(shè)PAC系統(tǒng)為例，讀者通過書名、主題、關(guān)鍵詞等條件進(jìn)行檢索，并從中選擇感興趣的圖書.這種主動式服務(wù)的前提條件是讀者有明確的檢索需求，然而更多時候，讀者并沒有明確的需求，或是缺乏良好的檢索技能，從而更傾向于被動式的個性化服務(wù)，希望系統(tǒng)“智慧地”向讀者推薦、呈現(xiàn)有可能感興趣的優(yōu)質(zhì)資源，如此，圖書館的閱讀推廣工作更見成效，同時提升了讀者的服務(wù)體驗.以讀者為中心，為讀者提供智慧服務(wù)，是智慧圖書館建設(shè)的根本宗旨，個性化推薦系統(tǒng)作為典型的智慧服務(wù)應(yīng)用之一，已成為圖書館領(lǐng)域近年來的研究熱點，然而真正實施技術(shù)研發(fā)并成功落地的案例并不多，多數(shù)還是采用傳統(tǒng)的“熱門圖書”或 “閱讀清單”這種無差異化的、寬泛的閱讀推薦模式[1].事實上，推薦系統(tǒng)的理念、算法用于精準(zhǔn)營銷、個性推薦、廣告投放等場景，在電子商務(wù)(Amazon、京東、淘寶等)、影音網(wǎng)站(愛奇藝、網(wǎng)易云音樂)、社交網(wǎng)站(微博、豆瓣、今日頭條等)領(lǐng)域均有廣泛的應(yīng)用.

1 相關(guān)研究

1.1 用戶畫像

“用戶畫像”(Persona)最早由交互之父Alan Cooper于1998年提出，他表示用戶畫像是“基于用戶真實數(shù)據(jù)的虛擬代表”[2].用戶畫像是在用戶真實數(shù)據(jù)的基礎(chǔ)上，用來勾勒用戶特征，描述用戶興趣、需求的重要技術(shù)手段，能夠全面細(xì)致地刻畫用戶的信息全貌，從而為向用戶實施精準(zhǔn)營銷、個性化推薦服務(wù)奠定基礎(chǔ).換言之，用戶畫像的核心工作是為用戶“打標(biāo)簽”.標(biāo)簽具有3個主要特征：(1)語義化，讓人快速理解每個標(biāo)簽的含義；(2)短文本，每個標(biāo)簽通常只表示一種含義；(3)動態(tài)性，用戶的興趣偏好隨時間推移、情境改變而變化，用戶畫像模型也隨之需要動態(tài)修正和調(diào)整.

用戶畫像在圖書館學(xué)界已經(jīng)受到廣泛關(guān)注，汪強兵等[3]通過利用在移動端的用戶手勢行為數(shù)據(jù)與關(guān)鍵詞權(quán)重，挖掘用戶閱讀興趣，由此構(gòu)建用戶興趣畫像.韓梅花等[4]根據(jù)抑郁情感詞典分析微博文本，計算抑郁情感指數(shù)，獲取用戶畫像，進(jìn)而推送閱讀治療資源.王順箐[5]以讀者需求為核心，在數(shù)據(jù)采集基礎(chǔ)上構(gòu)建用戶畫像，構(gòu)建智慧閱讀推薦系統(tǒng)，提高閱讀推廣的成功率.胡媛等[6]基于讀者用戶畫像，構(gòu)建圖書館知識發(fā)現(xiàn)服務(wù)模型，實現(xiàn)圖書館的個性化、精準(zhǔn)化知識服務(wù)，提升讀者服務(wù)體驗.劉海鷗等[7]構(gòu)建融合情境、內(nèi)容偏好、互動、會話等多維標(biāo)簽的用戶畫像模型，并以此為基礎(chǔ)提出情境化推薦方法，為讀者精準(zhǔn)推薦個性化知識服務(wù).以上研究表明推薦系統(tǒng)引入用戶畫像從理論和技術(shù)角度來說都是可行的.

1.2 推薦系統(tǒng)

推薦系統(tǒng)的經(jīng)典算法有兩種:協(xié)同過濾(Collaborative Filtering，CF)算法和基于內(nèi)容(Content Based，CB)的推薦算法，其中CF算法又分為基于用戶的協(xié)同過濾(UserCF)算法、基于物品的協(xié)同過濾(ItemCF)算法，CF算法原理是推薦與用戶有相似興趣的鄰居用戶喜歡的其他Top-N物品或是推薦與用戶喜歡的物品相似的其他Top-N物品.CF算法能夠向用戶推薦豐富的長尾物品，激發(fā)用戶潛在的興趣.與此同時，容易面臨數(shù)據(jù)稀疏的問題，該問題對高校圖書館而言格外突出.高校圖書館的館藏紙本書副本少，讀者想借的書可能被他人借閱，造成不同讀者之間借閱同一本書的共現(xiàn)數(shù)據(jù)稀疏，此外讀者不太熱衷于對圖書的評分、評論，造成評分?jǐn)?shù)據(jù)也同樣稀疏.CB算法原理是構(gòu)造物品特征，推薦與用戶喜歡的物品特征相似的其他Top-N物品，物品特征的表現(xiàn)方式可以是結(jié)構(gòu)化的屬性或非結(jié)構(gòu)化的標(biāo)簽、關(guān)鍵詞.CB算法更適用于這種非結(jié)構(gòu)化的新聞、文獻(xiàn)等文本資源推薦，通過中文分詞、TF/IDF算法、LDA模型等自然語言處理技術(shù)挖掘讀者的興趣關(guān)鍵詞及權(quán)重，構(gòu)造讀者興趣空間向量模型.推薦系統(tǒng)的冷啟動問題在推薦領(lǐng)域中普遍存在，包括用戶冷啟動、物品冷啟動兩個層面，起因是新用戶或新物品沒有相關(guān)歷史行為數(shù)據(jù)，造成無法為新用戶推薦物品或?qū)⑿挛锲吠扑]給用戶.綜上所述，任何一種推薦算法都有各自優(yōu)缺點及適用場景，表1做了全面的歸納總結(jié).

表1 不同推薦算法的特點及適用場景

圖書館學(xué)界關(guān)于推薦系統(tǒng)的研究有：常有學(xué)等[1]基于Spark大數(shù)據(jù)計算技術(shù)實現(xiàn)高效率、高準(zhǔn)確度的圖書推薦，提高用戶體驗.鄧志文等[8]通過社交網(wǎng)提取用戶候選興趣標(biāo)簽，結(jié)合用戶-物品、物品-標(biāo)簽關(guān)系模型，運用樸素貝葉斯算法為用戶推送信息.尹婷婷等[9]在深度學(xué)習(xí)視角下提出了以讀者用戶興趣值為基礎(chǔ)的圖書館館藏資源推薦模型，分別從數(shù)據(jù)關(guān)聯(lián)、情景分析和協(xié)同過濾技術(shù)方面進(jìn)行探討，為資源精準(zhǔn)推薦提供參考.王仲鈺等[10]采用協(xié)同過濾算法、關(guān)聯(lián)算法，從用戶相似性和書籍關(guān)聯(lián)性兩個角度探索圖書推薦服務(wù)策略.王連喜[11]通過挖掘用戶的興趣特征及隱含的需求模式，研究UserCF,CB和基于標(biāo)簽多種推薦方法，實現(xiàn)用戶與圖書相互關(guān)聯(lián)的個性化圖書推薦服務(wù).以上學(xué)者均將推薦算法成功應(yīng)用于圖書推薦服務(wù)，但都是基于有評分?jǐn)?shù)據(jù)的公開數(shù)據(jù)集或用戶打的標(biāo)簽數(shù)據(jù)進(jìn)行建模，沒有考慮圖書館評分、標(biāo)簽稀疏的現(xiàn)實情況.李澎林等[12]提出基于讀者興趣度與類型因子算法，建立讀者興趣度模型，解決了評分及借閱關(guān)系稀疏的問題，有很大的借鑒意義，但是選取的讀者興趣特征粒度較粗，且沒有考慮讀者下載行為因素.筆者結(jié)合中國礦業(yè)大學(xué)實際情況，當(dāng)前在校師生人數(shù)(約7萬)遠(yuǎn)少于圖書種類數(shù)(約67萬)，如果采用ItemCF算法，(67萬)2的物品高維矩陣在內(nèi)存空間、計算復(fù)雜度上過高，因此更適合用UserCF算法.此外，為解決推薦系統(tǒng)中的冷啟動問題，筆者綜合采用了CB算法、屬性相似度算法.

2 用戶畫像構(gòu)建

2.1 標(biāo)簽分類

標(biāo)簽按照產(chǎn)生和計算方式不同可分為屬性標(biāo)簽、統(tǒng)計標(biāo)簽、算法標(biāo)簽3種類型，屬性標(biāo)簽是對實體基本性質(zhì)的刻畫，如性別、年齡、專業(yè)；統(tǒng)計標(biāo)簽是特定場景下，維度和度量的組合,如某個讀者月均借閱、下載圖書的頻次；算法標(biāo)簽是不能直接獲取的，需要通過數(shù)據(jù)挖掘或計算推理得到，如讀者對不同圖書類別的偏好程度或感興趣的主題.

2.2 標(biāo)簽維度

本文從用戶、圖書兩個層面建立標(biāo)簽，并構(gòu)建畫像，數(shù)據(jù)來源于圖書館OPAC系統(tǒng)以及豆瓣讀書的評分?jǐn)?shù)據(jù).用戶標(biāo)簽從用戶屬性標(biāo)簽、用戶行為、用戶興趣3個維度構(gòu)建.1)用戶屬性標(biāo)簽，是對用戶屬性的描述.包括性別、年齡、專業(yè)、身份類型(本科生、碩士生、博士生、教師)、是否為新讀者等基本屬性.2)用戶行為標(biāo)簽，是對用戶活躍程度的描述.包括讀者學(xué)年內(nèi)月均紙質(zhì)書借閱頻次、電子書下載頻次、續(xù)借頻次及活躍度，其中活躍度是對前3種頻次數(shù)值Sum求和，根據(jù)閾值判定結(jié)果，如當(dāng)Sum≥10時為高，當(dāng)5≤Sum<10時為中，當(dāng)Sum<5時為低.3)用戶興趣標(biāo)簽，是對用戶圖書類別偏好的描述.豆瓣網(wǎng)站在用戶注冊賬號時，會讓用戶選擇關(guān)于電影、書籍的風(fēng)格喜好，以此作為用戶的興趣標(biāo)簽.圖書館OPAC系統(tǒng)沒有類似功能，可以從用戶學(xué)年內(nèi)紙本書借閱、電子書下載的歷史行為數(shù)據(jù)中分析挖掘.圖書標(biāo)簽從圖書屬性、圖書類型兩個維度構(gòu)建.1)屬性標(biāo)簽.包括圖書ID、書名、ISBN號、作者、是否為新書(近3個月上架圖書)等.2)圖書類型標(biāo)簽,對應(yīng)圖書的中圖法二級分類號.用戶、圖書標(biāo)簽體系見表2和表3，圖1是某讀者的用戶畫像示例.

表2 用戶標(biāo)簽維度表

表3 圖書標(biāo)簽維度表

3 混合推薦算法

3.1 劃分讀者類型

不同身份類型的讀者由于學(xué)歷背景、認(rèn)知能力有所區(qū)別，他們感興趣的書籍是有差異性的，如本科生傾向與課程相關(guān)的參考工具書，研究生傾向與某個研究主題相關(guān)的學(xué)術(shù)性書籍，教師傾向與有關(guān)學(xué)科前沿的書籍.基于此，本文首先將讀者按以上3種身份類型進(jìn)行劃分，其次再結(jié)合混合推薦算法進(jìn)行圖書推薦.

3.2 UserCF算法

3.2.1特征構(gòu)造與K近鄰搜尋

《中圖法》目前出版第五版，中圖書分類號是一種樹狀結(jié)構(gòu)，其中大類22種，往下逐層擴展，分類號格式上由字母、數(shù)字、小數(shù)點等構(gòu)成，如TP391屬于第五級分類，對應(yīng)分類名信息處理，TP391.1屬于TP391的子類，對應(yīng)分類名文字信息處理.為解決讀者之間借閱共現(xiàn)數(shù)據(jù)稀疏的問題，本文使用讀者學(xué)年內(nèi)對不同分類紙質(zhì)圖書的借閱(含續(xù)借)頻次及電子書的下載頻次之和作為讀者的興趣向量特征，分類層級選取的粒度太粗體現(xiàn)不出讀者喜好圖書的類別，太細(xì)導(dǎo)致維度過大，計算耗時長，權(quán)衡考慮，本文選取粒度為二級層級，總計222種小類.

假定讀者的興趣特征向量U=(u1,u2,…,un)，首先利用離差標(biāo)準(zhǔn)化(Min-Max)方法對特征做歸一化處理，接著采用余弦相似公式計算讀者之間的相似度，

不同讀者間相似度矩陣如表4所示.最后從中可以搜尋與讀者相似度最大的K個近鄰讀者集合，用Uk表示，

表4 不同讀者間相似度矩陣(3個讀者為例)

3.2.2興趣度計算

UserCF算法需要結(jié)合鄰居用戶對某物品的評分，預(yù)測用戶對該物品的評分.該評分作為用戶的顯式反饋(點贊、喜歡/不喜歡或打分)，反映了用戶對某物品的興趣度.用戶-物品評分矩陣R=U×I，行向量表示某用戶的評分集合，列向量表示某物品的被評分集合.然而，高校圖書館缺乏甚至沒有讀者對圖書的評分?jǐn)?shù)據(jù)，借鑒文獻(xiàn)[12]的方法，使用借閱持續(xù)時間、續(xù)借次數(shù)，并增加電子書下載頻次、豆瓣讀書欄目評分作為興趣度提取的因子，通過多個因子綜合獲取讀者對圖書的興趣度.

3.2.2.1借閱時長與續(xù)借

讀者對某本圖書借閱時間越長表明對該該圖書越感興趣，某本圖書的借閱時長百分比為：

式中，Ta(u,i)表示讀者u歸還圖書i的時間，Tb(u,i)表示讀者借閱圖書i的時間，Tc為圖書館規(guī)定的超期有效期.此外，當(dāng)讀者對圖書非常喜歡時，會對圖書進(jìn)行續(xù)借，限制續(xù)借1次，此時p=5.最后將p映射成1～5興趣度值，公式如下：

3.2.2.2電子書下載

當(dāng)前，高校圖書館的資源建設(shè)部門對紙本圖書的采購副本量逐漸減少，轉(zhuǎn)化為以電子書為主導(dǎo)資源.以中國礦業(yè)大學(xué)圖書館為例，目前全館館藏書籍60余萬種，230萬余冊，基本實現(xiàn)全覆蓋數(shù)字化.新采購的圖書編目后不久，對紙本圖書掃描加工成電子書，同時將電子書嵌入到OPAC系統(tǒng)中，方便讀者下載閱讀.由于讀者試讀電子書后，興趣度很高才會產(chǎn)生下載行為，所以該因素分值設(shè)置相對較高.興趣度公式如下：

3.2.2.3豆瓣評分

以上借閱時長、電子書下載存在不確定因素，譬如讀者借閱了某本書，可能忙于學(xué)業(yè)，沒時間還書，造成有效的借閱時間有偏差，電子書下載可能出現(xiàn)試讀時滿意，待整本書閱讀后卻不滿意的情況.鑒于此，本文引入豆瓣評分，豆瓣網(wǎng)中讀書欄目中關(guān)于圖書的星級評分、評論是來自興趣相投的網(wǎng)友們真實反饋，較為公正、準(zhǔn)確，最終根據(jù)算法計算得出綜合評分(1～10分)，本文將評分除以2，作為圖書的評分pref3(u,i).豆瓣網(wǎng)每本圖書的書目、評分信息通過編寫python爬蟲腳本采集.

最終讀者u對圖書i的綜合平均興趣度值pref(u,i)=[pref1(u,i)+pref2(u,i)+pref3(u,i)]/3.

接著使用UserCF算法計算用戶u對圖書i的興趣度pref(u,i)，公式如下：

3.2.2.4時間衰減因子

讀者的學(xué)習(xí)、研究興趣具有時間效應(yīng)，會隨著時間上下文的推移而有所變化，如計算機專業(yè)的本科生借閱《機器學(xué)習(xí)》入門書，該學(xué)生進(jìn)入研究生階段時，可能會借閱《機器學(xué)習(xí)》進(jìn)階書.本文在計算兩個用戶相似度時，增加“時間衰減函數(shù)”.∝為時間衰減因子，tui,tvi分別為用戶u和v借閱圖書i的時間.

最終用戶u對圖書i的興趣度為

3.3 冷啟動問題

用戶冷啟動解決如何為新讀者推薦合適圖書的問題，新讀者類型包括：新入學(xué)的學(xué)生、新入職的教師以及尚未借閱過圖書的讀者；物品冷啟動解決如何為新書找到受眾讀者的問題，圖書館每年花費大量資金購置新書，致力于第一時間向讀者推薦新書，從而提高圖書資源利用率.

3.3.1用戶冷啟動

用戶冷啟動可以根據(jù)用戶性別、年齡、年級、職稱、學(xué)院/單位自然屬性計算用戶與用戶的相似度，將相似度高的用戶借閱圖書推薦給目標(biāo)用戶.具體方法是：首先提取所有讀者相關(guān)屬性，作為讀者的向量特征，其中性別離散型屬性使用0、1表示，年齡連續(xù)型屬性采用Min-Max方法歸一成[0,1]數(shù)值，年級、職稱、學(xué)院等離散型屬性可用One-Hot編碼表示.接著找出與新讀者相似度高的K個近鄰老讀者集合.當(dāng)為新讀者推薦舊書時，采用UserCF算法中計算興趣度的公式，預(yù)測新讀者對舊書的興趣度，評選TOP-N舊書推薦給讀者.當(dāng)為新讀者推薦新書時，獲取為老讀者推薦的新書集合，進(jìn)行去重處理后向新讀者進(jìn)行TOP-N推薦.

3.3.2物品冷啟動

3.4 算法流程圖

1)舊書推薦算法流程：

步驟1 根據(jù)讀者登錄OPAC系統(tǒng)的ID號，即學(xué)工號，識別讀者的身份類別；

步驟2 判斷讀者是否是新讀者，即是否曾經(jīng)借閱、下載過圖書，如果是老讀者，按照步驟3至步驟5順序執(zhí)行，如果是新用戶，按照步驟6、7順序執(zhí)行；

步驟3 提取與讀者身份類型相同群體的讀者-圖書類型興趣向量，計算讀者之間相似度，獲取相似度較高的近鄰老讀者集合；

步驟4 提取讀者-圖書興趣度矩陣，根據(jù)近鄰讀者對所借閱書籍的隱式興趣度，預(yù)測目標(biāo)讀者對這些圖書的興趣度，并進(jìn)行興趣度排序；

步驟5 過濾預(yù)測興趣度低及目標(biāo)讀者已借閱過的圖書，并向目標(biāo)讀者推薦TOP-N圖書列表；

步驟6 提取新讀者性別、年齡、年級(學(xué)生)、職稱(教師)、學(xué)院特征屬性，并與老讀者進(jìn)行相似度計算；

步驟7 獲取與新讀者特征向量距離相近的近鄰老讀者集合，按照步驟4、5順序執(zhí)行.

2)新書推薦算法流程：

步驟1 判斷讀者是否是新用戶，如果是老讀者，按照步驟2至步驟3順序執(zhí)行，如果是新讀者，按照步驟4至步驟6順序執(zhí)行；

步驟2 提取目標(biāo)讀者的興趣特征向量，提取新書的特征向量，計算兩者之間相似度，并進(jìn)行相似度排序；

步驟3 過濾相似度低且目標(biāo)讀者已借閱過的圖書，并向目標(biāo)讀者推薦TOP-N圖書列表；

步驟4 提取新讀者相關(guān)特征屬性，并與老讀者進(jìn)行相似度計算；

步驟5 獲取與新讀者特征向量距離相近的近鄰老讀者集合，獲取老讀者新書推薦集合；

步驟6 對新書推薦集合進(jìn)行去重處理，并向目標(biāo)讀者推薦TOP-N圖書列表.

具體如圖2所示.

4 推薦系統(tǒng)架構(gòu)

推薦系統(tǒng)體系架構(gòu)如圖3所示，分為數(shù)據(jù)層、處理層、邏輯層、表現(xiàn)層.為避免推薦系統(tǒng)數(shù)據(jù)量龐大造成性能瓶頸，本文設(shè)計的推薦系統(tǒng)體系架構(gòu)在Hadoop分布式環(huán)境下進(jìn)行部署實現(xiàn)，Hadoop版本選擇Cloudera公司的集成化的發(fā)行版本CDH5.Hadoop是目前流行的針對大規(guī)模數(shù)據(jù)分析的開源分布式系統(tǒng)基礎(chǔ)架構(gòu)，由提供分布式文件存儲(HDFS)和并行計算框架MapReduce組成，能夠以高可靠、高性能、高擴展性的優(yōu)勢處理海量數(shù)據(jù).

1)數(shù)據(jù)層的元數(shù)據(jù)來源于OPAC系統(tǒng)(讀者、圖書、借閱數(shù)據(jù))、電子書平臺(下載數(shù)據(jù))、豆瓣讀書評分?jǐn)?shù)據(jù)3個方面，其中豆瓣評分是通過爬蟲技術(shù)采集并輸出至SQL Server數(shù)據(jù)庫.ETL(抽取、轉(zhuǎn)換、裝載)是構(gòu)建數(shù)據(jù)倉庫關(guān)鍵步驟，實現(xiàn)數(shù)據(jù)源到目標(biāo)數(shù)據(jù)倉庫的遷移，并在遷移過程數(shù)據(jù)完成了必要的數(shù)據(jù)清洗.具體做法是：通過Sqoop數(shù)據(jù)導(dǎo)入/導(dǎo)出工具將各種數(shù)據(jù)庫數(shù)據(jù)導(dǎo)入到Hive數(shù)據(jù)倉庫，再通過HQL語句實現(xiàn)數(shù)據(jù)清洗.數(shù)據(jù)清理主要從以下幾個方面著手：①格式不規(guī)范的數(shù)據(jù)，如單詞存在空格、數(shù)值數(shù)據(jù)中有字母或者輸成全角數(shù)字字符、日期格式不正確，可以通過HSQL語句修正.②缺失值填充，如讀者性別、專業(yè)、學(xué)院等信息缺失等，通過編寫特定的語句從抽取的數(shù)據(jù)中過濾出這些數(shù)據(jù)，然后人工補全再寫入數(shù)據(jù)庫.③噪聲數(shù)據(jù)，指源業(yè)務(wù)系統(tǒng)沒有嚴(yán)格的數(shù)據(jù)校驗造成的數(shù)據(jù)錄入錯誤，比如日期越界、年齡巨高等.這些噪聲數(shù)據(jù)可通過正態(tài)分布檢測、基于模型檢測方式檢測出異常，并在數(shù)據(jù)源中進(jìn)行修正再抽取[9].

2)處理層負(fù)責(zé)建立用戶、圖書畫像模型，畫像數(shù)據(jù)存儲于面向列的、適合大數(shù)據(jù)實時查詢的HBase分布式數(shù)據(jù)庫.讀者借閱、下載數(shù)據(jù)以及圖書數(shù)據(jù)會動態(tài)更新，用戶畫像、圖書畫像也會相應(yīng)產(chǎn)生變化，因此設(shè)定計時器，每隔24小時更新畫像.

3)邏輯層是整個體系架構(gòu)的核心，綜合了UserCF,CB和屬性相似度算法，形成多元化推薦引擎，實現(xiàn)為新讀者與老讀者分別推薦新圖書與舊圖書.推薦引擎基于Mahout實現(xiàn)，Mahout是Hadoop生態(tài)圈的一個開源項目，提供分類、聚類、推薦引擎等機器學(xué)習(xí)算法，與MapReduce開發(fā)相比，非常簡單便捷[13].

4)表現(xiàn)層調(diào)用邏輯層的API，為讀者提供可視化界面，向其展示推薦的新圖書、舊圖書.可視化推薦基于Diango框架實現(xiàn)，Diango是基于Python語言開發(fā)的、采用MVC模式的 Web應(yīng)用框架，通過Python程序調(diào)用Mahout的接口返回圖書推薦列表，接著根據(jù)列表中的圖書ID，讀取Hbase數(shù)據(jù)庫中的圖書信息，并向讀者展示推薦結(jié)果.

5 實驗論證

在本文的實驗中，提取2018-2019學(xué)年師生讀者的紙本書借閱數(shù)據(jù)以及電子書下載數(shù)據(jù)，其中讀者73 978人，圖書671 095種，借閱數(shù)據(jù)量268 145條，下載數(shù)據(jù)量38 212條.在建立用戶畫像模型和推薦系統(tǒng)模型后，利用讀者數(shù)據(jù)對模型進(jìn)行訓(xùn)練，選取30名讀者做TOP-10圖書推薦，并對推薦結(jié)果做問卷評估，最后針對不同的K值，使用精確率(Precision,P)和平均絕對誤差(MAE)評估推薦結(jié)果的準(zhǔn)確度.精確率和平均絕對誤差定義、計算公式如下：

精確率，表示正確預(yù)測(TP)用戶喜歡的圖書在所有預(yù)測(TP+FP)用戶喜歡的圖書中所占比例,

平均絕對誤差，表示預(yù)測評分值和真實評分值之間的差值取絕對值再求和之后的平均值,

實驗結(jié)果如表5所示，結(jié)果表明，當(dāng)K≤20時，精確率逐漸提升，平均絕對誤差逐漸降低；當(dāng)K>20時，精確率逐漸降低，平均絕對誤差逐漸平穩(wěn).因此K=20時，精確率和平均絕對誤差是最優(yōu)化的.

表5 圖書推薦準(zhǔn)確度評價指標(biāo)值

6 結(jié) 語

用戶畫像作為大數(shù)據(jù)時代的產(chǎn)物，在電子商務(wù)領(lǐng)域已經(jīng)成功應(yīng)用于精準(zhǔn)營銷、廣告投放，本文將用戶畫像應(yīng)用于圖書推薦服務(wù)，通過對讀者的基本特征、行為、興趣進(jìn)行精準(zhǔn)刻畫，洞悉掌握讀者的用戶特征及需求.在此基礎(chǔ)上，采用混合推薦算法，實現(xiàn)向讀者進(jìn)行個性化、精準(zhǔn)化的圖書推薦.未來將從以下3個方面進(jìn)行探索、優(yōu)化：1)高校圖書館擁有龐大豐富的資源，如論文數(shù)據(jù)庫、學(xué)術(shù)視頻庫、特色資源庫等，研究如何將各種資源融合，形成圖書館本地化的知識發(fā)現(xiàn)系統(tǒng)，并為讀者推薦多樣化的資源;2)高校學(xué)者作為推動學(xué)校學(xué)科發(fā)展的中堅力量，更希望獲取與研究主題相匹配的、高品質(zhì)的圖書，而不追求推薦效果的多樣化，可以將研究主題作為學(xué)者的興趣特征，通過聚類算法，構(gòu)建不同學(xué)科學(xué)者的群體用戶畫像[2]，從而為其推薦適配的優(yōu)質(zhì)圖書資源;3)針對高活躍度學(xué)者用戶，通過學(xué)科館員介入，對圖書推薦資源進(jìn)行人工干預(yù)提取，通過郵箱主動推送，鞏固并維持用戶活躍度；針對活躍度為中或低的學(xué)者用戶，通過關(guān)聯(lián)推薦算法拓展圖書推薦資源，激發(fā)并提高用戶活躍度.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡