国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶畫像的圖書館推薦服務(wù)初探

2019-07-16 09:18:38高建忠
圖書館 2019年7期
關(guān)鍵詞:畫像圖書圖書館

李 丹 高建忠

(西安交通大學(xué)圖書館 西安 710049)

隨著信息技術(shù)的快速發(fā)展,讀者群體日益龐大,信息資源過載,如何讓讀者找到自己感興趣的圖書資源,同時將大量的館藏紙質(zhì)圖書和電子書有針對性地推薦給讀者,是圖書館面臨的重大挑戰(zhàn)?;谟脩舢嬒竦耐扑]系統(tǒng)已經(jīng)成為應(yīng)對這一挑戰(zhàn)的重要手段。

用戶畫像(Users’Profile)由Alan Cooper 最早提出,是建立在一系列真實數(shù)據(jù)上的目標(biāo)用戶模型[1],對同一類用戶進行不同維度的刻畫,旨在通過海量用戶行為數(shù)據(jù)挖掘有用信息,全面展現(xiàn)用戶的信息全貌。

推薦系統(tǒng)用來 “分析用戶畫像、內(nèi)容項和它們之間的關(guān)系,并試圖預(yù)測未來的用戶行為”[2],是基于日志系統(tǒng),采用一定的推薦算法,幫助用戶從無目的的查找中發(fā)現(xiàn)自己感興趣的內(nèi)容,給用戶提供不同的個性化頁面展示的一種自動化工具。

圖情領(lǐng)域?qū)D書推薦進行了深入研究,提出了很多方法,引入了很多應(yīng)用系統(tǒng)[3-4],但是隨著圖書數(shù)據(jù)和種類增多,推薦方式的局限性和圖書零借閱率現(xiàn)象日益嚴重,信息迷航問題日益嚴峻。構(gòu)建讀者行為畫像,提升推薦效率是圖書館開展個性化服務(wù)的關(guān)鍵。

本文通過廣泛的定性研究,結(jié)合調(diào)查和流通日志分析,為讀者提供個性化資源推送,給出了推薦系統(tǒng)技術(shù)的簡要概述,討論了為讀者推薦圖書過程中的關(guān)鍵問題。首先,分析個性化推薦的應(yīng)用現(xiàn)狀;其次,提出讀者用戶畫像構(gòu)建方法,通過顯式和隱式方式相結(jié)合獲取讀者信息,構(gòu)建讀者畫像;再次,將具有相同特征的用戶劃歸成一類,分析用戶借閱等行為信息,給出個性化推薦方案,采用協(xié)同過濾算法進行TopN 推薦,向讀者推薦興趣度排名前N的內(nèi)容項,其中用戶興趣度是用來描述用戶對某本圖書的興趣程度;最后給出該推薦策略在實踐中的探索和思考。

1 研究現(xiàn)狀分析

傳統(tǒng)的信息檢索模型通常無法最大程度地連接圖書館用戶和圖書資源。正如Baez等人指出,面對數(shù)量巨大的可用資源,用戶通常要求檢索系統(tǒng)縮小搜索范圍以識別其真正需要的資源,而不是擴大檢索范圍,呈現(xiàn)給讀者可能有用但不明確的檢索結(jié)果[5]。推薦系統(tǒng)應(yīng)運而生,它廣泛應(yīng)用于電子商務(wù)中。同樣,面對日益增長的讀者需求和過載的信息資源,館員也應(yīng)該意識到引入推薦功能的必要性。圖書館的推薦服務(wù)系統(tǒng)應(yīng)當(dāng)在外觀和功能上盡量滿足讀者的期望,通過獲取讀者偏好信息來調(diào)整推薦內(nèi)容,提高客戶忠誠度。

基于用戶畫像的推薦系統(tǒng)在國外圖書館領(lǐng)域?qū)嵺`應(yīng)用廣泛,哈德斯菲爾德大學(xué)Dave Pattern 2011年基于文氏圖,主要針對圖書館紙本館藏,提出在圖書館集成系統(tǒng)(Horizon系統(tǒng))中利用流通數(shù)據(jù)推薦讀書的方法。2012年,基于同樣的算法,他探索了把電子資源也納入推薦系統(tǒng)的可行方法[6],給出了針對學(xué)科/課程做限定的設(shè)想[7],探索過濾推薦結(jié)果的方法,使得在學(xué)術(shù)型大學(xué)中推薦結(jié)果更接近于學(xué)生的需求,甚至更接近于讀者的特定課程,而不需要讀者二次篩選。Dave Pattern指出那些流通次數(shù)不多的物品(非暢銷書)更應(yīng)該推薦[8],這正是長尾理論(Long Tail Theory )所不斷倡導(dǎo)的。2002—2007年間, 德國卡爾斯魯厄大學(xué)圖書館基于OPAC 使用數(shù)據(jù),分析讀者不同時間段內(nèi)的檢索行為開發(fā)了BibTip推薦系統(tǒng)[4],此外,其他機構(gòu)推出了優(yōu)秀的推薦系統(tǒng)如MyMedia、基于SFX的BX推薦系統(tǒng)等。除了上述主要采用隱性推薦方式的系統(tǒng)外,還有需要用戶參與的典型推薦應(yīng)用LTFL(Library Thing For Libraries)[3],斯旺西大學(xué)已將其納入圖書館服務(wù)中。學(xué)者Cherry J M,Clinton M基于多倫多大學(xué)圖書館OPAC構(gòu)建用戶畫像,通過探討讀者培訓(xùn)方式和OPAC設(shè)計[9],提升圖書的借閱率。

國內(nèi)圖書館領(lǐng)域針對基于用戶畫像的推薦策略研究還處于初探期。研究發(fā)現(xiàn),推薦系統(tǒng)滲透到圖書館環(huán)境并納入圖書館服務(wù)的程度并不高,即使應(yīng)用了推薦系統(tǒng),讀者體驗也不夠好。部分原因可能在于系統(tǒng)限制、預(yù)算限制,加上讀者的接納度和信任度不夠。在OPAC中提供推薦功能的圖書館非常少。北京大學(xué)圖書館引入了SirsiDynix作為圖書管理系統(tǒng),可以根據(jù)檢索詞向讀者推薦“同作者作品”“同主題作品”以及“書架上鄰近館藏”。一些學(xué)者從本科生、研究生、教師的角度構(gòu)建特征群體的用戶畫像,使圖書館服務(wù)趨勢、模式與讀者需求相匹配。圖書館領(lǐng)域的推薦不應(yīng)局限于OPAC流通數(shù)據(jù),還可整合其他應(yīng)用系統(tǒng)甚至圖書館外部對讀者活動產(chǎn)生影響的數(shù)據(jù),但由于數(shù)據(jù)格式的復(fù)雜性,數(shù)據(jù)所有權(quán)和用戶隱私等方面的研究才剛剛起步。同時,一些學(xué)者提出了圖書推薦模型,但對于如何將用戶畫像構(gòu)建、隱式和顯式協(xié)作獲取數(shù)據(jù)、TopN推薦策略結(jié)合起來,針對用戶開展個性化推薦服務(wù),仍需進一步探討。

2 用戶畫像構(gòu)建及圖書個性化推薦方案

2.1 讀者用戶畫像數(shù)據(jù)來源

推薦算法依賴于用戶行為數(shù)據(jù),推薦系統(tǒng)設(shè)計人員需要考慮的一個關(guān)鍵因素是用戶畫像基礎(chǔ)數(shù)據(jù)的選取標(biāo)準(zhǔn),以及推薦系統(tǒng)獲取數(shù)據(jù)的方法,它可以大致分為“隱含”或“明確”兩種[10]。隱式方法的優(yōu)點是對用戶沒有任何要求,顯式方法需要用戶參與,如對圖書館的服務(wù)進行評價(Prekopcsák,2007)[11]。本文采用顯式(用戶調(diào)查問卷)和隱式(系統(tǒng)日志分析)相結(jié)合的方式獲得基礎(chǔ)數(shù)據(jù)。

基礎(chǔ)數(shù)據(jù)一方面來源于調(diào)查問卷。作為處理圖書超期罰款的一種途徑,西安交通大學(xué)圖書館要求超期讀者填寫圖書超期調(diào)查問卷,由館員簽字監(jiān)督,方案實施不到一年便收到了近萬份問卷。問卷不僅包含讀者個人信息(姓名、學(xué)號、聯(lián)系方式等),讀者超期圖書信息,還包括讀者推薦圖書名稱、作者、索書號等信息。另一方面,數(shù)據(jù)來源于圖書館各類應(yīng)用系統(tǒng),如圖書館自動化系統(tǒng)(INNOPAC)、圖書館門戶網(wǎng)站、座位管理系統(tǒng)、讀者借閱記錄、座位使用記錄、門禁記錄等。其中,INNOPAC系統(tǒng)中包含讀者對所借圖書的評分選項,但在實踐中很少有讀者去點擊反饋評分。不過圖書推薦的關(guān)注點是找到讀者最有可能感興趣的圖書,而不是讀者對所借圖書的評分。

通過調(diào)查問卷的方式雖然可以獲得很多用戶主觀感受的指標(biāo),然而存在一些缺點,如:組織成本高,需要有大規(guī)模的測試用戶群,同時需花費用戶大量時間;存在錄入有誤的現(xiàn)象;用戶在測試環(huán)境下的行為和真實環(huán)境下的行為可能存在偏差,因而測試環(huán)境下得到的數(shù)據(jù)可能和真實環(huán)境有所差別。故本文通過廣泛的定性研究,結(jié)合用戶調(diào)查問卷、INNOPAC系統(tǒng)、座位管理系統(tǒng)、門禁系統(tǒng)中流通日志分析,獲取讀者基本信息、圖書基本信息、空間服務(wù)信息、讀者行為信息等四類信息,經(jīng)過數(shù)據(jù)清洗去除數(shù)據(jù)中的噪聲,構(gòu)建用戶畫像。

2.2 用戶畫像構(gòu)建

獲取原始數(shù)據(jù)后,我們需要對其進行整理、歸并和電子化,但此時數(shù)據(jù)量大,格式復(fù)雜,數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系不明確,需要從知識工程[12]的角度出發(fā),基于讀者信息構(gòu)建用戶畫像,方便計算機理解和處理,從而實現(xiàn)快速及個性化的推薦。

用戶畫像構(gòu)建組成見圖1,其中,“用戶信息”類包含“用戶人口統(tǒng)計學(xué)信息”“用戶興趣描述”和“用戶INNOPAC系統(tǒng)外行為數(shù)據(jù)”3個子類。其中“用戶人口統(tǒng)計學(xué)信息”包含“學(xué)號”“姓名”“專業(yè)”“學(xué)院”“性別”和“聯(lián)系方式”,通過調(diào)用圖書館INNOPAC系統(tǒng)讀者API接口獲取個人信息。“用戶興趣描述”類對應(yīng)的屬性為“專業(yè)研究方向”“圖書借閱反饋”,其屬性數(shù)據(jù)來自于調(diào)查問卷。“用戶INNOPAC系統(tǒng)外行為數(shù)據(jù)”對應(yīng)的屬性為“入館等級”,“入館等級”根據(jù)調(diào)查問卷中讀者罰款的金額、超期天數(shù)確定。“圖書信息”包含的屬性為“書名”“作者”“出版社”和“ISBN”?!翱臻g服務(wù)信息”包含的屬性為“座位ID”“座位位置”“進入通道ID”“進館時間”“出館時間”,其屬性數(shù)據(jù)來自于座位管理系統(tǒng)、圖書館門禁系統(tǒng)等。描述用戶軌跡的“用戶行為信息”包括“圖書借閱”“圖書預(yù)約”“圖書超期”“選座”“進出門禁”5個子類,“用戶行為信息”的數(shù)據(jù)由“用戶信息”“圖書信息”和“空間服務(wù)信息”數(shù)據(jù)產(chǎn)生關(guān)聯(lián)。表1給出了“用戶行為信息”5個子類的統(tǒng)一屬性表示方式,可以分為5部分:產(chǎn)生行為的用戶唯一標(biāo)識、行為對象的唯一標(biāo)識、行為的種類、產(chǎn)生行為上下文、行為的權(quán)重。以“圖書借閱”子類為例,它的屬性見表1。

圖1 用戶畫像構(gòu)建

表1 “圖書借閱”子類統(tǒng)一屬性表示

2.3 個性化推薦策略

面對圖書館日益增長的紙質(zhì)圖書資源,讀者利用傳統(tǒng)檢索功能尋找自己感興趣的圖書,往往費時費力。圖書館工作人員如何充分利用海量的圖書資源,準(zhǔn)確高效地向讀者推送高品質(zhì)圖書,提高讀者黏性和圖書利用率,是本文研究的重點和難點。

構(gòu)建用戶畫像為讀者個性化服務(wù)打下良好基礎(chǔ),用戶數(shù)據(jù)來源以及格式,決定著采用的推薦策略、推薦內(nèi)容及其呈現(xiàn)形式,又會直接影響用戶對推薦內(nèi)容的關(guān)注程度以及接納度。本文擬根據(jù)數(shù)據(jù)源的特征,利用時間上下文信息改進基于用戶的協(xié)同過濾算法(UserCF),設(shè)計基于特征的讀者行為個性化推薦策略,一方面引入時間衰減因子改進讀者興趣相似度的計算方法,另一方面向讀者推薦與其興趣相似的讀者最近喜歡的內(nèi)容:①利用讀者注冊信息解決讀者冷啟動問題,新注冊的用戶沒有行為數(shù)據(jù),無法根據(jù)其歷史行為推薦圖書。為解決用戶冷啟動問題,可以利用讀者注冊時的人口統(tǒng)計學(xué)信息、讀者興趣描述信息等,提取特征進行粗粒度的個性化推薦。老用戶可進一步根據(jù)其行為信息生成特征,從數(shù)據(jù)庫中分析用戶行為數(shù)據(jù),生成用戶的特征向量。②基于用戶特征,計算讀者間的興趣相似度,找出最相似讀者的鄰域,即找到和當(dāng)前讀者興趣相似的讀者集合,找到集合內(nèi)讀者最近喜歡但是當(dāng)前讀者沒有關(guān)注的圖書,生成特征—項目相關(guān)表。特征—項目相關(guān)表一般都不止一張,對于每個特征,在相關(guān)表中都存儲和它最相關(guān)的N個項目的ID。將這些相關(guān)表按照權(quán)重統(tǒng)籌管理,生成不同特征的推薦列表,這樣就實現(xiàn)了將讀者的特征向量通過特征—項目表轉(zhuǎn)化為讀者推薦列表。③根據(jù)推薦列表進行用戶行為評估,調(diào)整推薦策略。

2.3.1 基于讀者特征的用戶畫像相似度計算

高校圖書館的讀者在查找學(xué)習(xí)資料時一般會詢問高一級的學(xué)長或同一個專業(yè)、上過同一課程的讀者,因為他們之間有共同的需求。根據(jù)讀者相似度進行推薦是非常合理的。為提取讀者共同的興趣特征,筆者采用的方法是基于用戶畫像,分析讀者間的相似度,將相似度高且具有相同特征的用戶劃歸成同一類,把圖書館大量的讀者群劃分為合作讀者、基礎(chǔ)學(xué)習(xí)型讀者、研究型讀者、文藝型讀者,僅考慮為當(dāng)前讀者推薦具有相同特征鄰域內(nèi)的其他讀者可能感興趣的資源(包括圖書資源和空間資源)。

計算讀者間興趣相似度時需要考慮讀者特征。讀者特征包括兩種,一種是讀者注冊信息中可以提取出來的,包括人口統(tǒng)計學(xué)特征,還有一種重要特征是讀者行為特征,包括讀者借閱的圖書信息,讀者使用的座位信息等。我們在提取用戶特征時,需要考慮:①上下文信息,時間是一種重要的上下文信息,讀者的興趣是變化的,為了準(zhǔn)確地預(yù)測讀者當(dāng)前的興趣,需要關(guān)注讀者最近的行為。同時,圖書也是有生命周期的,如果一本圖書在進入二線書庫中仍然經(jīng)常被借閱,說明其價值很高。一些圖書的借閱率會受到重大事件或者學(xué)校特征的影響,比如有關(guān)錢學(xué)森精神和西遷歷史的書籍在特定階段非常熱門。當(dāng)為讀者推薦圖書時要充分考慮該書是否已經(jīng)過時。此外,圖書推薦還要考慮學(xué)期效應(yīng),開學(xué)首月、學(xué)期中、考試月讀者需要借閱的圖書種類不同。比如小學(xué)期時,很多研究讀者被導(dǎo)師要求做項目,此時探索性的研究性圖書很熱門。因為讀者的興趣會隨時發(fā)生變化,加入時間因素,讀者在學(xué)期中、學(xué)期末、假期中等時間段的行為會有不同的特點。考慮到實時性,往往讀者近期的行為比較重要,讀者近期借閱過的圖書對應(yīng)的特征將會具有比較高的權(quán)重。②讀者行為的次數(shù),讀者對同一本書反復(fù)借閱的次數(shù)或讀者對同一座位反復(fù)預(yù)約的次數(shù)反映了讀者的興趣度。③熱門程度,在關(guān)注讀者借閱熱門圖書的同時,更要關(guān)注讀者對非熱門圖書的借閱行為,這恰恰反映了讀者的個性需求和圖書的價值所在。

2.3.2 基于讀者特征的個性化推薦策略關(guān)鍵公式

給定讀者a和讀者b,令N(a)表示讀者a發(fā)生過行為的項目集合,N(b)表示讀者b發(fā)生過行為的項目集合,考慮時間信息后計算讀者a和讀者b興趣相似度的計算公式為:

公式中讀者b最近的興趣顯然比讀者b很久之前的興趣更接近讀者a 最近的興趣。對于大數(shù)據(jù)集,對同樣的物品都產(chǎn)生過行為的用戶很少,即,為了不把時間浪費在計算這種讀者之間的相似度,建立物品—讀者的倒排表,建立讀者相似度矩陣,使得矩陣值。之后代入公式1經(jīng)計算可以得到讀者興趣相似度根據(jù)值確定讀者興趣相似集合后,針對集合中其他讀者感興趣而當(dāng)前讀者未發(fā)生過行為的內(nèi)容項,通過下方公式計算當(dāng)前讀者對各內(nèi)容項的興趣度p,實現(xiàn)為讀者推薦資源的目的。

S(a, K )為和讀者a興趣最接近的K個讀者,wab表示讀者a和讀者b的興趣相似度,rbi表示讀者b是否對內(nèi)容項i產(chǎn)生過行為,如果產(chǎn)生過值為1,否則為0。

3 圖書館個性化推薦應(yīng)用

3.1 推薦策略舉例

按照讀者行為畫像構(gòu)成,生成對應(yīng)的數(shù)據(jù)庫字段,同時把清洗過的讀者基本信息、圖書基本信息、空間服務(wù)類信息、讀者行為信息導(dǎo)入數(shù)據(jù)庫對應(yīng)的表中。我們可以從數(shù)據(jù)庫查詢到讀者的信息如:性別、學(xué)院、讀者類型(本科生、研究生、教工),生成讀者特征表,計算讀者相似度,生成如性別—圖書相關(guān)表,表示不同性別讀者喜歡閱讀的圖書;讀者類型—圖書相關(guān)表,表示不同年級的讀者喜歡閱讀的圖書;學(xué)院—圖書相關(guān)表,表示不同專業(yè)的讀者經(jīng)常借閱的圖書等特征—圖書相關(guān)表。將相關(guān)表中的圖書列表按照一定權(quán)重統(tǒng)籌管理,得到給讀者的最終推薦表。經(jīng)反復(fù)計算可以把不同特征加以組合,特征條件越多,利用的讀者統(tǒng)計學(xué)特征越多,越能準(zhǔn)確地預(yù)測讀者興趣。

以2018年6月份隨機抽取5位本科、男讀者圖書借閱記錄為例:表2為讀者—圖書借閱表,表示每位讀者借閱的圖書;表3為圖書—讀者倒排表,表示每一本圖書都有哪些讀者借閱。

表2 讀者—圖書借閱表

表3 圖書—讀者倒排表

建立5*5的讀者相似度矩陣,初始值為

針對每一本書為W矩陣對應(yīng)位置賦值,使得矩陣W第i行第j列表示讀者i發(fā)生過行為的物品集合和讀者j發(fā)生過行為的物品集合的交集的物品數(shù)目。如圖書《數(shù)學(xué)建模競賽論文》,借閱過該圖書的讀者ID分別為001和002,對應(yīng)矩陣W對應(yīng)位置和加1,以此類推,可以得到最終W矩陣:

對應(yīng)值代入公式2得到最終的讀者興趣相似度p。如對讀者001進行推薦,選取K=3,根據(jù)公式2計算,讀者001對《圖書雙城記》《放學(xué)后》《活著》的興趣度分別是0.741581,0.741581,0.333333,分別把他們推薦給讀者001。

3.2 基于上下文的讀者行為信息推薦程序生成與評估

3.2.1 讀者相似度對比分析

不考慮具體偏好值,通過曼哈頓距離(CityBlockSimilarity)、對數(shù)似然相似度(LogLikelihoodSimilarity)、谷本系數(shù)(TanimotoCoefficientSimilarity)計算讀者相似度。谷本系數(shù)表示用戶之間發(fā)生過行為的物品集合的交集與并集大小的比值。由兩個用戶共同發(fā)生過行為的物品數(shù)目除以至少一個用戶發(fā)生過行為的物品數(shù)目?;趯?shù)似然比[13]關(guān)注的是發(fā)生行為的物品中重疊占的比重,反映的是兩個用戶由于機緣巧合發(fā)生重疊的不可能性,即兩個相似用戶之間發(fā)生同樣行為不太可能是出于巧合,值越大,兩個用戶的相似度越高。曼哈頓距離也稱為城市街區(qū)距離,用于多維數(shù)據(jù)空間距離的度量。

圖2 不同相似度方法下的推薦算法相似度對比

隨機抽取數(shù)據(jù)集中6個用戶數(shù)據(jù),分別采用基于對數(shù)似然比相似度、曼哈頓距離相似度和谷本系數(shù)相似度進行相似性度量對比,見圖2。圖2顯示了用戶2與其他用戶的相似度值,實驗結(jié)果表明基于對數(shù)似然比要比其他兩種相似性度量性能更優(yōu)、更智能、可以更好地計算相似度。

3.2.2 推薦程序評估

在構(gòu)建的讀者畫像數(shù)據(jù)中,只包含讀者和物品之間的關(guān)聯(lián),很少有讀者的評分信息。事實上,我們主要關(guān)心的是存不存在行為,即讀者是否借閱了這本書或者讀者是否使用了這個座位?;谧x者特征的個性化信息推薦,根據(jù)讀者的行為數(shù)據(jù)進行深入挖掘,基于Mahout,采用基于布爾型輸入數(shù)據(jù)的推薦程序,根據(jù)數(shù)據(jù)的特征,將多個推薦引擎混搭,作出對讀者未來感興趣圖書的預(yù)測,提供理想的推薦。

我們無法準(zhǔn)確知道讀者未來會借閱哪些圖書,引入經(jīng)典的信息檢索度量標(biāo)準(zhǔn)查準(zhǔn)率和召回率作為評估推薦算法的重要指標(biāo)。查準(zhǔn)率表示TopN結(jié)果中相關(guān)結(jié)果的比例。召回率表示所有相關(guān)結(jié)果出現(xiàn)在TopN推薦中的比例。采用清洗、整理后的圖書館讀者行為數(shù)據(jù)作為測試源數(shù)據(jù),其中,讀者行為數(shù)據(jù)包括讀者ID(PatronNum)和圖書ID(ItemNum), 共六萬余條數(shù)據(jù)。

由于數(shù)據(jù)源不同,沒有一個標(biāo)準(zhǔn)的方法指導(dǎo)如何構(gòu)建推薦程序,我們需要進行數(shù)據(jù)清洗、實驗和評估,反復(fù)進行嘗試性測試,尋找好的配置參數(shù)和方案。為了探討如何在推薦程序中高效地部署布爾型數(shù)據(jù),配置并調(diào)整最相似用戶領(lǐng)域,我們把源數(shù)據(jù)分為測試集和訓(xùn)練集,把訓(xùn)練數(shù)據(jù)導(dǎo)入推薦程序中預(yù)測讀者行為,把測試數(shù)據(jù)進行仿真,之后把預(yù)測結(jié)果和真實值進行對照。預(yù)測結(jié)果和真實結(jié)果的對照采用預(yù)測值和真實值的平均差值(函數(shù)AverageAb soluteDifferenceRecommenderEvaluator)或者差值的均方根(RMSRecommenderEvaluator)進行計算,值越低意味著估計值和實際偏好值的差別越小。

以下實驗采用谷本系數(shù)相似度和對數(shù)似然相似度分別測試了引入特征的基于用戶的協(xié)同過濾推薦算法的性能,分析讀者相似度時涉及一個當(dāng)前讀者行為最相似用戶鄰域K參數(shù),即給當(dāng)前讀者推薦K個讀者感興趣的圖書或者座位。

圖3 不同相似度下推薦算法查準(zhǔn)率對比

圖3、圖4顯示了在不同相似度下推薦算法的性能指標(biāo)評測結(jié)果,給出了TopN 中N=10時即為當(dāng)前讀者推薦10個結(jié)果時的查準(zhǔn)率和召回率對比?;诠缺鞠禂?shù)的推薦算法中, K=83時,性能最好,查準(zhǔn)率約19.49%,表示給當(dāng)前讀者推薦的10個推薦結(jié)果中平均有約1/5推薦結(jié)果是好的。K=83時召回率約19.49%,表示約有1/5好的推薦包含在10個推薦結(jié)果中?;趯?shù)似然相似度的推薦算法中,K=2時性能最好,查準(zhǔn)率和召回率都約為20.31%,K值為85時,性能次之,查準(zhǔn)率和召回率都約為19.07%??傊?,當(dāng)K值在80左右,推薦程序性能良好。

同時,考慮預(yù)測值和真實值的平均差異,相似用戶鄰域包含的用戶數(shù)太少的情況下,性能不是很好,而當(dāng)選擇k值為83左右會獲得比較高的查準(zhǔn)率和召回率,故綜合權(quán)衡,我們采用引入時間特征,結(jié)合基于用戶的推薦算法、谷本系數(shù)相似性度量以及最相似讀者鄰域為83的方法作為推薦最佳方案。

圖4 不同相似度下推薦算法召回率對比

4 結(jié)語

從海量的數(shù)據(jù)中挖掘信息,快速而準(zhǔn)確地反饋給讀者感興趣的信息,并為之進行有針對性的服務(wù),是提升圖書館服務(wù)的主要手段。本文借鑒了電子商務(wù)領(lǐng)域的用戶畫像概念,應(yīng)用于圖書館服務(wù),通過用戶畫像構(gòu)建和讀者特征提取,深入挖掘讀者在圖書館的行為,向讀者推薦感興趣的信息。這種圖書館領(lǐng)域的數(shù)據(jù)分析和信息推薦,比泛泛的理論分析更具有實際研究意義。未來,推薦的構(gòu)建需考慮讀者數(shù)據(jù)私密性因素,探討如何在推薦的同時更好地生成和展示推薦理由,進一步提高讀者對推薦信息的信任度和忠誠度。

(來稿時間:2018年12月)

猜你喜歡
畫像圖書圖書館
威猛的畫像
“00后”畫像
畫像
圖書推薦
南風(fēng)(2020年22期)2020-09-15 07:47:08
歡迎來到圖書借閱角
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
班里有個圖書角
飛躍圖書館
去圖書館
潛行與畫像
方正县| 滦南县| 彰化市| 彰武县| 安平县| 潼南县| 凤庆县| 凤城市| 沙坪坝区| 灵石县| 双峰县| 九江市| 千阳县| 柯坪县| 环江| 新巴尔虎左旗| 永平县| 莫力| 三江| 渭南市| 来宾市| 阳江市| 福清市| 霸州市| 金塔县| 内江市| 江门市| 龙江县| 简阳市| 鸡泽县| 涞源县| 邵阳县| 奇台县| 洞头县| 进贤县| 夹江县| 永宁县| 西宁市| 应城市| 漳平市| 溧水县|