鄒婧琳 范煒
(四川大學(xué)公共管理學(xué)院,成都 610064)
基于網(wǎng)絡(luò)讀書社區(qū)閱讀行為的書目推薦模型研究*
鄒婧琳 范煒
(四川大學(xué)公共管理學(xué)院,成都 610064)
書目推薦旨在建立圖書與讀者之間的雙向連接。新興網(wǎng)絡(luò)讀書社區(qū)中用戶的參與互動(dòng)過(guò)程積累了大量用戶行為數(shù)據(jù),為書目推薦提供了豐富的數(shù)據(jù)依據(jù)。文章針對(duì)網(wǎng)絡(luò)讀書社區(qū)中的主要用戶閱讀行為,綜合考慮用戶評(píng)分、閱讀狀態(tài)、標(biāo)簽、時(shí)間信息對(duì)用戶閱讀偏好的體現(xiàn),提出用戶閱讀偏好程度和偏好方向相結(jié)合的用戶偏好模型,形成了個(gè)性化書目推薦。采集豆瓣讀書數(shù)據(jù)進(jìn)行模型檢驗(yàn),結(jié)果表明,該模型有效地提高書目推薦的準(zhǔn)確性和多樣性,對(duì)網(wǎng)絡(luò)讀書社區(qū)實(shí)施個(gè)性化書目推薦具有參考價(jià)值。
網(wǎng)絡(luò)讀書社區(qū);閱讀行為;書目推薦
閱讀是中國(guó)自古以來(lái)的優(yōu)良傳統(tǒng),愛(ài)讀書、會(huì)讀書已成為當(dāng)代公民基本文化素養(yǎng)的重要組成部分。隨著圖書出版行業(yè)的繁榮發(fā)展與互聯(lián)網(wǎng)信息傳播的快速便捷,讀者在面對(duì)海量的圖書資源時(shí)陷入了選擇的困境。如何幫助讀者選擇適合他們的圖書,并關(guān)注他們的個(gè)性化閱讀需求,有效的引導(dǎo)和推薦手段必不可少。
圖書情報(bào)領(lǐng)域的書目推薦又稱書目導(dǎo)讀,是引導(dǎo)和影響讀者閱讀行為的重要服務(wù)形式。傳統(tǒng)的圖書館書目推薦服務(wù)主要借助于讀者的借閱記錄、書目榜單等信息,不能很好地反映讀者真實(shí)的閱讀意愿。新興的網(wǎng)絡(luò)讀書社區(qū)是由用戶主導(dǎo)的讀書交流和知識(shí)發(fā)現(xiàn)的虛擬社區(qū)之一,其中所有的內(nèi)容、分類、篩選,都由用戶產(chǎn)生和決定。這些閱讀行為數(shù)據(jù)是用戶貢獻(xiàn)內(nèi)容(UGC)的一個(gè)重要類型,也為書目推薦提供了客觀的數(shù)據(jù)依據(jù)。
本文關(guān)注網(wǎng)絡(luò)讀書社區(qū)中的主要閱讀行為,從用戶閱讀偏好程度和偏好方向兩個(gè)角度構(gòu)建用戶偏好模型,繼而形成書目推薦。
書目推薦可視為現(xiàn)代推薦系統(tǒng)的一種類型?,F(xiàn)代推薦系統(tǒng)通過(guò)用戶的歷史行為數(shù)據(jù)來(lái)預(yù)測(cè)用戶的需求,為特定用戶推薦針對(duì)性的信息資源[1]。推薦系統(tǒng)在互聯(lián)網(wǎng)服務(wù)業(yè)得到廣泛應(yīng)用,關(guān)注個(gè)性化小眾需求帶來(lái)利基經(jīng)濟(jì)效益,長(zhǎng)尾理論給出了最好的詮釋。以電子商務(wù)網(wǎng)站Amazon為例,它為我們展現(xiàn)了豐富的推薦服務(wù)形式,其中基于用戶的購(gòu)買和瀏覽記錄,Amazon會(huì)為其推薦購(gòu)買了此商品的用戶也經(jīng)常或同時(shí)購(gòu)買的其他商品,及瀏覽了此商品的其他用戶還查看或購(gòu)買過(guò)的商品。以在線影片租賃網(wǎng)站Netflix為例,它根據(jù)用戶的評(píng)分和反饋,為用戶推薦相似的電影,其宣稱有60%的用戶能通過(guò)其推薦找到自己感興趣的電影視頻。
隨著數(shù)字圖書館的建設(shè)發(fā)展,現(xiàn)代推薦系統(tǒng)融入書目導(dǎo)讀服務(wù)之中?;趦?nèi)容特征的書目推薦,斯坦福大學(xué)的Fab[2]、麻省理工學(xué)院的Letizia[3]等系統(tǒng)利用資源內(nèi)容進(jìn)行信息過(guò)濾,自動(dòng)為用戶提供與檢索內(nèi)容相似的資源;基于讀者基本信息的書目推薦,中國(guó)人民大學(xué)的KingBase DL系統(tǒng)[4]通過(guò)用戶的注冊(cè)信息,如專業(yè)、研究方向等,為用戶提供推薦服務(wù);基于讀者的借閱歷史信息的書目推薦,趙麟[5]利用圖書館用戶的借閱數(shù)據(jù)分析用戶的行為模式,基于最大頻繁模式挖掘算法進(jìn)行書目的關(guān)聯(lián)推薦。景民昌等[6]利用圖書借閱時(shí)間構(gòu)建用戶興趣模型,并基于協(xié)同過(guò)濾算法的推薦實(shí)現(xiàn)說(shuō)明了模型的有效性。從現(xiàn)有研究看,圖書館的書目推薦系統(tǒng),對(duì)用戶的借閱歷史記錄數(shù)據(jù)的挖掘進(jìn)行了一定的探索,但圖書館資源的低利用率和用戶行為的稀疏性對(duì)其推薦造成了一定的局限性。
以Web2.0為特征的網(wǎng)絡(luò)讀書社區(qū),如豆瓣讀書[7]、LibraryThing[8]、Goodreaders[9]等,充分利用大眾參與,帶來(lái)了豐富的用戶閱讀行為數(shù)據(jù),如評(píng)分、打標(biāo)簽、分享、評(píng)論等。針對(duì)社交網(wǎng)絡(luò)中豐富的用戶行為數(shù)據(jù),Nan Zheng等[10]在社會(huì)化標(biāo)簽系統(tǒng)中融合標(biāo)簽和時(shí)間信息來(lái)預(yù)測(cè)用戶偏好,并實(shí)驗(yàn)證實(shí)了標(biāo)簽和時(shí)間信息的結(jié)合能提高推薦的準(zhǔn)確性。Zi-Ke Zhang等[11]針對(duì)“用戶-項(xiàng)目”和“項(xiàng)目-標(biāo)簽”之間的信息關(guān)聯(lián)提出基于擴(kuò)散的資源分配推薦策略,并實(shí)驗(yàn)證明了該方法可以明顯提升推薦結(jié)果的準(zhǔn)確性、多樣性和驚喜性。Heung-Nam Kim等[12]綜合評(píng)分和標(biāo)簽信息進(jìn)行用戶主題發(fā)現(xiàn),并實(shí)驗(yàn)證明其方法在冷啟動(dòng)和準(zhǔn)確性方面的推薦效果。
從現(xiàn)有研究看,學(xué)者們主要針對(duì)網(wǎng)頁(yè)、電影、論文等領(lǐng)域的用戶行為數(shù)據(jù)進(jìn)行混合推薦的探索,并在一定程度上提升了推薦的準(zhǔn)確性,這為書目推薦提供了一種重要的研究思路。網(wǎng)絡(luò)讀書社區(qū)的興起及其API的數(shù)據(jù)開(kāi)放性,使用戶閱讀行為數(shù)據(jù)更加容易獲取。因此,本文利用網(wǎng)絡(luò)讀書社區(qū)中的用戶行為數(shù)據(jù),采用混合推薦的思路,對(duì)多個(gè)推薦要素進(jìn)行集成,構(gòu)建用戶偏好模型,來(lái)提升書目推薦效果。
網(wǎng)絡(luò)讀書社區(qū)中,人們通過(guò)集體智慧(Collective Intelligence)來(lái)獲得滿足他們興趣的圖書推薦。集體智慧主要是指為創(chuàng)造新的想法,將一群人的行為、偏好或思想組合在一起,從中對(duì)數(shù)據(jù)進(jìn)行搜索、組合和分析[13]。根據(jù)用戶的交互行為,一般通過(guò)用戶的顯性反饋行為和隱性反饋行為來(lái)預(yù)測(cè)用戶的閱讀興趣偏好。顯性反饋行為是指用戶明確表示對(duì)物品喜好的行為,在網(wǎng)絡(luò)讀書社區(qū)中的主要方式就是對(duì)圖書進(jìn)行評(píng)分、收藏、打標(biāo)簽、評(píng)論等。隱性反饋行為與其相對(duì)應(yīng),是指那些不能明確反應(yīng)用戶喜好的行為,在網(wǎng)絡(luò)讀書社區(qū)中較為典型的是瀏覽、點(diǎn)擊等行為。相比于隱性反饋行為,顯性反饋行為產(chǎn)生的數(shù)據(jù)量雖然較少,但能明確反映用戶興趣,并具有實(shí)時(shí)讀取性和正負(fù)反饋性。
用戶評(píng)分、閱讀狀態(tài)、標(biāo)簽信息、時(shí)間信息是四種常見(jiàn)的顯性反饋行為數(shù)據(jù),能夠較為明顯地體現(xiàn)用戶的閱讀興趣。
用戶評(píng)分是獲得用戶閱讀興趣最直接的方法,一般采用五分制反饋量表,從“非常不喜歡”到“非常喜歡”,分別對(duì)應(yīng)分值1-5。通過(guò)調(diào)節(jié)評(píng)分尺度,從不同的粒度刻畫用戶對(duì)圖書的偏好程度,但這種顯式評(píng)分需要用戶額外投入,獲得的可用圖書評(píng)分信息可能比較少。
閱讀狀態(tài)主要分為“想讀、正在讀、已讀”三種,反映用戶當(dāng)前所處的閱讀階段和整體的閱讀狀況,可以將此數(shù)據(jù)作為用戶對(duì)圖書的隱式評(píng)分。根據(jù)閱讀狀態(tài)的不同,對(duì)各狀態(tài)賦予不同的權(quán)值,將此數(shù)據(jù)與評(píng)分?jǐn)?shù)據(jù)綜合,可在一定程度上緩解數(shù)據(jù)稀疏性的問(wèn)題。
標(biāo)簽是一種無(wú)層次化結(jié)構(gòu)的、用來(lái)描述信息的自然語(yǔ)詞。用戶對(duì)圖書進(jìn)行打標(biāo)簽的行為時(shí),一方面表達(dá)了用戶的閱讀興趣,另一方面也表達(dá)了對(duì)圖書的語(yǔ)義理解。標(biāo)簽作為一種重要的多維特征表現(xiàn)形式[14],聯(lián)系著讀者與圖書。通過(guò)標(biāo)簽?zāi)茌^全面了解用戶多方面的閱讀興趣,并且標(biāo)簽使用的頻繁程度也能反映用戶對(duì)其相關(guān)領(lǐng)域圖書的感興趣程度,而用戶也更傾向于關(guān)注標(biāo)注了其個(gè)人常用標(biāo)簽的圖書。
時(shí)間信息對(duì)書目推薦而言也是一種非常重要的上下文信息。用戶的閱讀興趣不是一成不變的,隨著時(shí)間的遷移,用戶所處年齡段、身份等情景的變化會(huì)影響其當(dāng)前的閱讀興趣與圖書選擇;而且圖書本身也具有其生命周期。一般而言,用戶近期的閱讀行為能反映出其當(dāng)前的主要閱讀興趣,而當(dāng)前的閱讀興趣比很久之前的閱讀興趣更值得關(guān)注,通過(guò)時(shí)間信息來(lái)了解用戶閱讀興趣的階段性變化,能保證實(shí)時(shí)性的推薦圖書與用戶閱讀興趣的一致性。
用戶評(píng)分和閱讀狀態(tài)信息側(cè)重于表達(dá)用戶對(duì)書籍的感興趣程度,標(biāo)簽信息側(cè)重于表達(dá)用戶具體的閱讀興趣方向,而時(shí)間信息則在上述兩個(gè)方面體現(xiàn)了用戶閱讀興趣的一種遷移,這四種閱讀行為數(shù)據(jù)為預(yù)測(cè)用戶閱讀偏好提供了數(shù)據(jù)基礎(chǔ)。用戶閱讀偏好的預(yù)測(cè)主要從深度和廣度兩個(gè)方面進(jìn)行考慮。閱讀偏好的深度體現(xiàn)用戶對(duì)圖書感興趣的程度,即用戶偏好程度;閱讀偏好的廣度體現(xiàn)用戶閱讀圖書的多樣性,即用戶偏好方向。
因此,本文從用戶閱讀偏好程度和偏好方向兩個(gè)角度,將評(píng)分、閱讀狀態(tài)、標(biāo)簽和時(shí)間四種閱讀行為數(shù)據(jù)作為書目推薦要素,形成集成推薦模式,如圖1所示。其中,將用戶評(píng)分和閱讀狀態(tài)信息進(jìn)行處理,統(tǒng)一其度量基準(zhǔn),獲得用戶的閱讀偏好程度;對(duì)標(biāo)簽信息進(jìn)行處理,獲得用戶的閱讀偏好方向;將時(shí)間因子分別引入,從而獲得最終的用戶偏好程度指標(biāo)和用戶偏好方向指標(biāo)。對(duì)兩個(gè)指標(biāo)進(jìn)行加權(quán)處理,獲得聯(lián)系用戶與圖書之間關(guān)系的總偏好值,構(gòu)成用戶偏好模型。
(1)用戶偏好程度指標(biāo)集成
設(shè)用戶對(duì)圖書的原始評(píng)分ru,i,用戶的閱讀狀態(tài)為Su,i。用戶對(duì)圖書的原始評(píng)分ru,i,采用五分制反饋量表,取值范圍為1-5的整數(shù)。一般將低于3分的評(píng)分值視為負(fù)向評(píng)分,表示用戶不喜歡此圖書。因此,將原始評(píng)分?jǐn)?shù)據(jù)分為正負(fù)反饋數(shù)據(jù),以原始區(qū)間「1,2,3,4,5」中的分值3為中心映射到以分值1為中心、以t為間距的區(qū)間「1-2t,1-t,1,1+t,1+2t」上,變換后的評(píng)分值用r'u,i表示。
用戶的閱讀狀態(tài)Su,i分為“想讀(wish),在讀(reading),已讀(read)”三種,閱讀狀態(tài)的選定相當(dāng)于用戶對(duì)圖書的隱性評(píng)分,且屬于正反饋數(shù)據(jù)。考慮用戶評(píng)分與閱讀狀態(tài)的關(guān)聯(lián),對(duì)不同的閱讀狀態(tài)賦予相應(yīng)的權(quán)值來(lái)表現(xiàn)用戶的閱讀偏好,通過(guò)將兩個(gè)度量指標(biāo)統(tǒng)一在同一個(gè)基準(zhǔn)上討論。不同閱讀狀態(tài)的取值函數(shù)yu,i表示為
用戶處于“想讀”狀態(tài),對(duì)圖書本身并不是十分了解,此時(shí)不能給圖書進(jìn)行評(píng)分。該狀態(tài)只是表達(dá)其模糊的閱讀意愿,并沒(méi)有明確體現(xiàn)偏好,對(duì)用戶的閱讀偏好程度影響較小,但它的正向反饋性可作為評(píng)分?jǐn)?shù)據(jù)的補(bǔ)充。用戶“正在讀”或“已讀完”的狀態(tài),表明用戶已經(jīng)將書籍與自身的興趣進(jìn)行了匹配,結(jié)合評(píng)分?jǐn)?shù)據(jù)在一定程度上能反映用戶的閱讀偏好程度。而“正在讀”狀態(tài)最能體現(xiàn)用戶當(dāng)前的閱讀偏好,“已讀完”狀態(tài)次之。根據(jù)當(dāng)前的評(píng)分量表機(jī)制,t取值最好為5以內(nèi)的正整數(shù),本文取t=2。
時(shí)間信息體現(xiàn)用戶閱讀興趣的動(dòng)態(tài)變化,也是用戶歷史行為數(shù)據(jù)可靠性的指標(biāo)。根據(jù)用戶閱讀興趣的衰減性確定其生命周期,時(shí)間衰減值f(tu,i)服從指數(shù)衰減,可表示為
其中:T為系統(tǒng)給定的近期時(shí)間,tu,i為用戶對(duì)圖書產(chǎn)生閱讀行為的時(shí)間,α為時(shí)間衰減參數(shù)。根據(jù)不同讀書社區(qū)中的具體情況對(duì)α進(jìn)行取值。α取較大的值時(shí),默認(rèn)該群體中用戶的閱讀興趣變化較快,反之α取較小的值。
將用戶評(píng)分和閱讀狀態(tài)兩個(gè)指標(biāo)進(jìn)行集成,并引入時(shí)間衰減值,最終用戶偏好程度指標(biāo)r″u,i表示為
圖1 四種閱讀行為數(shù)據(jù)集成模式
(2)用戶偏好方向指標(biāo)集成
標(biāo)簽信息是對(duì)圖書內(nèi)容的多角度揭示,也是對(duì)用戶閱讀興趣偏好細(xì)分的體現(xiàn)。利用標(biāo)簽在用戶和圖書之間的使用次數(shù),并借鑒TF-IDF(term frequencyinverse document frequency)的思想,對(duì)熱門標(biāo)簽和熱門圖書進(jìn)行了一定程度的修正,防止其對(duì)推薦圖書新穎性的影響,可獲得用戶閱讀偏好方向上的預(yù)測(cè)值du,i,表示為
其中:G(u)為用戶u使用過(guò)的標(biāo)簽集合,G(i)為圖書i被標(biāo)注過(guò)的標(biāo)簽集合,nu,g為用戶使用標(biāo)簽g的次數(shù),ni,g為圖書i被標(biāo)簽g所標(biāo)注的次數(shù),ng(u)為使用過(guò)標(biāo)簽g的用戶人數(shù),ni(u)為對(duì)圖書i進(jìn)行過(guò)標(biāo)注行為的用戶人數(shù)。
一般而言,用戶當(dāng)前的閱讀偏好與近期的興趣方向關(guān)系更大,因此要考慮到時(shí)間信息對(duì)用戶閱讀偏好方向的影響,在du,i中引入時(shí)間的衰減值f(tu,i),最終的用戶偏好方向指標(biāo)pu,i表示為
(3)總偏好值計(jì)算
綜合考慮將用戶偏好程度指標(biāo)r″u,i和用戶偏好方向指標(biāo)pu,i進(jìn)行整合,獲得用戶u對(duì)圖書i的總偏好值A(chǔ)u,i,可表示為
其中:λ∈[0,1]λ為調(diào)節(jié)因子,用于調(diào)整r″u,i和pu,i之間的權(quán)重,其具體取值根據(jù)網(wǎng)絡(luò)讀書社區(qū)的具體運(yùn)行情況而定。通過(guò)調(diào)整λ值,可使總偏好值發(fā)揮出最佳的推薦效果。
(4)書目推薦形成
協(xié)同過(guò)濾算法是推薦系統(tǒng)中運(yùn)用最廣泛的技術(shù)之一,它的基本思想是利用用戶-物品評(píng)分矩陣計(jì)算相似度,基于相似用戶或相似物品形成推薦[15]。本文采用基于用戶的協(xié)同過(guò)濾算法,利用用戶u對(duì)圖書i的總偏好值,形成針對(duì)不同用戶的個(gè)性化書目推薦。
a.確定鄰居集
設(shè)所有用戶的集合為U={u1,u2…um},所有物品的集合為I={i1,i2…in},用戶-圖書偏好矩陣為
根據(jù)給定的矩陣Rm×n,計(jì)算用戶之間的相似度,來(lái)發(fā)現(xiàn)用戶之間閱讀興趣的相似性。推薦系統(tǒng)中常用的相似度計(jì)算方法有Jaccard系數(shù)、余弦相似度、Pearson相關(guān)系數(shù)等。本文采用余弦相似度度量指標(biāo),用戶u與用戶v之間的相似度Sim(u,v)表示為
Sim(u,v)值越大,表示兩個(gè)用戶的閱讀興趣偏好越相近。根據(jù)Sim(u,v)值確定與目標(biāo)用戶閱讀興趣相似的前K個(gè)鄰居,構(gòu)成目標(biāo)用戶的鄰居集S(u,k)。
b.形成書目推薦列表
得到與目標(biāo)用戶閱讀興趣相似的鄰居集后,計(jì)算目標(biāo)用戶對(duì)該集合中的用戶感興趣的圖書的偏好程度,通過(guò)過(guò)濾、排名形成推薦。用戶對(duì)其鄰居喜歡圖書的偏好程度pred(u,i)表示為
其中:S(u,k)表示與用戶u閱讀興趣最相似的前K個(gè)用戶,U(i)表示對(duì)圖書i有過(guò)閱讀行為的用戶集合。對(duì)pred(u,i)值進(jìn)行排序,向目標(biāo)用戶推薦其沒(méi)有閱讀行為且pred(u,i)值高的前n本圖書。
(1) 實(shí)驗(yàn)數(shù)據(jù)集獲取
實(shí)驗(yàn)數(shù)據(jù)采集自豆瓣網(wǎng)。豆瓣網(wǎng)是一個(gè)以生活、文化為內(nèi)容的創(chuàng)新網(wǎng)絡(luò)服務(wù)平臺(tái),它的核心用戶群是具有良好教育背景的都市青年,2012年月度其覆蓋用戶數(shù)已超過(guò)1億。在“豆瓣讀書”中,用戶可以給圖書打分、寫評(píng)價(jià)、為圖書添加標(biāo)簽分類等,所有的內(nèi)容都通過(guò)用戶參與產(chǎn)生。同時(shí),其提供的豆瓣圖書API能以用戶或圖書為中心獲取相應(yīng)的用戶行為數(shù)據(jù)。較大的用戶基礎(chǔ)與活躍的用戶參與使其數(shù)據(jù)具有一定的可行性和實(shí)驗(yàn)的客觀性。
通過(guò)調(diào)用豆瓣圖書API,以用戶為參數(shù),采集用戶對(duì)圖書產(chǎn)生的行為數(shù)據(jù)。每條記錄包括用戶ID、圖書ID、用戶評(píng)分、閱讀狀態(tài)、標(biāo)簽和時(shí)間六個(gè)數(shù)據(jù)項(xiàng)。原始數(shù)據(jù)集包括了500個(gè)用戶對(duì)5873本圖書的閱讀行為數(shù)據(jù)。其中,存在行為數(shù)據(jù)過(guò)少的用戶及大量同義、近義的標(biāo)簽,為減少這些噪音,對(duì)其進(jìn)行預(yù)處理:
· 剔除閱讀行為數(shù)據(jù)過(guò)少的用戶。保證每個(gè)用戶至少對(duì)5本圖書進(jìn)行過(guò)評(píng)分,且每個(gè)用戶對(duì)其所有標(biāo)注過(guò)的圖書至少使用過(guò)10個(gè)標(biāo)簽。
· 統(tǒng)一標(biāo)簽中相同語(yǔ)詞的繁簡(jiǎn)形式。比如將標(biāo)簽“東野圭吾”、“東野圭吾”統(tǒng)一為簡(jiǎn)寫形式。
· 統(tǒng)一標(biāo)簽中因詞義或分隔符造成的同義、近義標(biāo)簽。比如將“數(shù)據(jù)挖掘”、“DM”等標(biāo)簽統(tǒng)一表示為“數(shù)據(jù)挖掘”;將“夏洛蒂?勃朗特”、“夏洛蒂.勃朗特”、“夏洛蒂勃朗特”等標(biāo)簽統(tǒng)一為“夏洛蒂?勃朗特”。
經(jīng)處理后,最終的實(shí)驗(yàn)數(shù)據(jù)集包括120個(gè)用戶對(duì)867本圖書的2488條閱讀行為數(shù)據(jù)記錄。實(shí)驗(yàn)數(shù)據(jù)片斷如表1所示。
(2) 實(shí)驗(yàn)分析及結(jié)果
以用戶為分割標(biāo)準(zhǔn),采用隨機(jī)化抽樣的方法將實(shí)驗(yàn)數(shù)據(jù)集均勻分為10份。輪流將其中9份數(shù)據(jù)作為訓(xùn)練集,其中1份作為測(cè)試集。在訓(xùn)練集上訓(xùn)練用戶偏好模型,在測(cè)試集上對(duì)用戶行為進(jìn)行預(yù)測(cè),統(tǒng)計(jì)出相應(yīng)的離線實(shí)驗(yàn)評(píng)測(cè)指標(biāo)。將10次實(shí)驗(yàn)的平均值作為最終的評(píng)測(cè)結(jié)果,通過(guò)評(píng)測(cè)指標(biāo)值來(lái)判斷推薦效果。
評(píng)測(cè)推薦結(jié)果的優(yōu)劣有很多指標(biāo)。本文選用預(yù)測(cè)準(zhǔn)確率、多樣性作為評(píng)價(jià)依據(jù)。預(yù)測(cè)準(zhǔn)確率采用文獻(xiàn)[16]提出的F1指標(biāo)綜合準(zhǔn)確率和召回率進(jìn)行度量。準(zhǔn)確率是指推薦列表中用戶喜歡的圖書與測(cè)試集中推薦的所有圖書的比率;召回率是指推薦列表中用戶喜歡的圖書與測(cè)試集中用戶喜歡的所有圖書的比率。多樣性主要是評(píng)測(cè)用戶內(nèi)部的多樣性[17],即推薦書目列表對(duì)用戶閱讀興趣的覆蓋面的大小,通過(guò)推薦列表中圖書之間的相似度來(lái)度量。
實(shí)驗(yàn)中,對(duì)每組數(shù)據(jù)集中的每個(gè)用戶推薦前10本圖書??紤]到用戶偏好模型中的要素集成調(diào)節(jié)因子λ和用戶的鄰居數(shù)K可能會(huì)對(duì)推薦效果產(chǎn)生影響,實(shí)驗(yàn)中,在5—100的區(qū)間中以5為間距調(diào)整不同的K值,在0—1的區(qū)間中以0.1為間距調(diào)整不同的λ值,分別進(jìn)行實(shí)驗(yàn)。為驗(yàn)證本文書目推薦模型的有效性,將本文的要素集成推薦模型與傳統(tǒng)基于評(píng)分的推薦模型進(jìn)行實(shí)驗(yàn)比較。先設(shè)定λ為0.5,調(diào)整鄰居數(shù)量,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 預(yù)測(cè)準(zhǔn)確率結(jié)果對(duì)比
表1 用戶閱讀行為數(shù)據(jù)片斷
從圖2的顯示結(jié)果可以看出,對(duì)于不同數(shù)量的鄰居,評(píng)分推薦模型與本文要素集成推薦模型的預(yù)測(cè)準(zhǔn)確率的變化趨勢(shì)大體相同。但本文要素集成推薦模型所對(duì)應(yīng)的預(yù)測(cè)準(zhǔn)確度相比于利用傳統(tǒng)的用戶評(píng)分的推薦模型有了明顯的提高。F1值越大表明推薦的效果越好。F1值的提高,說(shuō)明在傳統(tǒng)的評(píng)分?jǐn)?shù)據(jù)中,通過(guò)集成用戶的閱讀狀態(tài)、標(biāo)簽和時(shí)間信息,能夠更準(zhǔn)確地把握用戶的閱讀興趣偏好。
此外,實(shí)驗(yàn)結(jié)果也顯示,當(dāng)鄰居數(shù)目小于30時(shí),F(xiàn)1值波動(dòng)較大,推薦效果受到了鄰居數(shù)量的影響。而當(dāng)鄰居數(shù)目大于30時(shí),F(xiàn)1值趨于穩(wěn)定。由此可知,在鄰居數(shù)足夠多的情況下,與目標(biāo)用戶有著相似閱讀興趣的用戶群體對(duì)推薦結(jié)果有一定的影響。本文取鄰居數(shù)為K=30,來(lái)調(diào)整用戶偏好模型中的要素集成調(diào)節(jié)因子λ,觀測(cè)預(yù)測(cè)準(zhǔn)確度和多樣性的變化情況。實(shí)驗(yàn)結(jié)果如圖3、圖4所示。
圖3、圖4的實(shí)驗(yàn)結(jié)果表明,對(duì)本文用戶偏好模型中要素集成的權(quán)重進(jìn)行調(diào)節(jié),推薦結(jié)果的預(yù)測(cè)準(zhǔn)確性和多樣性都受到影響。在λ取值為0.5-0.8之間時(shí),推薦效果較佳;取值在0.2-0.4之間時(shí),推薦效果較差;單獨(dú)考慮用戶閱讀的偏好程度或方向(取值為0或1),推薦效果適中。但從整體來(lái)看,預(yù)測(cè)準(zhǔn)確率都高于圖2中所示的評(píng)分模型所得的預(yù)測(cè)準(zhǔn)確度。λ所對(duì)應(yīng)的F1值的變化分布與實(shí)驗(yàn)數(shù)據(jù)集的特征及實(shí)際運(yùn)行需求關(guān)聯(lián)較大,就本文實(shí)驗(yàn)數(shù)據(jù)集而言,在λ取值為0.7左右能獲得較為準(zhǔn)確的推薦效果。在實(shí)際的運(yùn)用情況下,可根據(jù)不同的讀書社區(qū)的狀況進(jìn)行調(diào)整。λ值使推薦結(jié)果的多樣性有小幅度的波動(dòng),但基本上能在0.6左右。該值越大,表明推薦列表的多樣性越好,用戶發(fā)現(xiàn)自己感興趣圖書的概率越大。本實(shí)驗(yàn)的多樣性評(píng)測(cè)值說(shuō)明書目推薦列表在一定程度上滿足用戶廣泛的閱讀興趣,但是否考慮到用戶的主要興趣,還有待于通過(guò)實(shí)際的用戶問(wèn)卷調(diào)查來(lái)觀測(cè)用戶的滿意度進(jìn)行證明。
以用戶1255061為例,為其推薦前10本圖書,結(jié)果如表2所示。
綜合以上實(shí)驗(yàn)結(jié)果可知,將四種閱讀行為數(shù)據(jù)作為推薦要素進(jìn)行集成,構(gòu)建用戶偏好模型,能在一定程度上較為準(zhǔn)確地把握用戶多樣化的閱讀偏好,并形成針對(duì)不同用戶的個(gè)性化書目推薦列表。
圖3 預(yù)測(cè)準(zhǔn)確度變化情況
圖4 多樣性變化情況
相較于傳統(tǒng)的圖書館書目推薦形式,虛擬讀書社區(qū)的多交互性,豐富了用戶的閱讀行為數(shù)據(jù),帶來(lái)了更好的書目推薦的可能。本文綜合考慮用戶評(píng)分、閱讀狀態(tài)、標(biāo)簽和時(shí)間信息對(duì)用戶閱讀偏好的影響,從用戶偏好程度和用戶偏好方向兩個(gè)角度出發(fā),考慮閱讀興趣的時(shí)間偏移狀況,對(duì)四個(gè)閱讀行為數(shù)據(jù)進(jìn)行處理,構(gòu)建書目推薦集成模型。通過(guò)實(shí)驗(yàn)證明該用戶偏好模型在一定程度上能提高推薦結(jié)果的準(zhǔn)確性,并能較為廣泛地覆蓋用戶的閱讀興趣。該推薦模型對(duì)于當(dāng)前網(wǎng)絡(luò)讀書社區(qū)有一定的分析應(yīng)用性,有助于把握用戶閱讀興趣的遷移,發(fā)現(xiàn)用戶當(dāng)前主要的閱讀興趣,形成較準(zhǔn)確的書目推薦。
表2 用戶1255061 TOP10推薦圖書列表
由于豆瓣API數(shù)據(jù)獲取存在一定技術(shù)限制,實(shí)驗(yàn)數(shù)據(jù)集相對(duì)較小。隨著用戶參與度的提升,不同維度與層次的更多閱讀行為數(shù)據(jù)集成,未來(lái)進(jìn)一步探討體現(xiàn)用戶閱讀興趣的多種深層閱讀行為,有助于擴(kuò)充和修正書目推薦模型,更準(zhǔn)確地把握用戶的閱讀興趣。
[1]SHAPIRA B. Recommender systems handbook [M]. Springer, 2011.
[2]BALABANOVIC M, SHOHAM Y. Fab: content-based, collaborative recommendation [J]. Communications of the ACM, 1997, 40(3): 66-72.
[3]LIEBERMAN H. Letizia: An agent that assists web browsing [J]. IJCAI, 1995(1): 924-929.
[4]中國(guó)人民大學(xué)數(shù)字圖書館個(gè)性化服務(wù)系統(tǒng)[DB/OL]. [2010-03-25]. http://202.12.18.49/.
[5]趙麟.基于最大頻繁模式挖掘算法進(jìn)行書目推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2010(5):23-28.
[6]景民昌,于迎輝.基于借閱時(shí)間評(píng)分的協(xié)同圖書推薦模型與應(yīng)用[J].圖書情報(bào)工作,2012,56(3):117-120.
[7]豆瓣讀書[EB/OL]. [2013-11-24]. http://book.douban.com.
[8]LibraryThing [EB/OL]. [2013-11-24]. http://www.librarything. com/.
[9]Goodreads [EB/OL]. [2013-11-24]. https://www.goodreads.com/.
[10]ZHENG N, LI Q. A recommender system based on tag and time information for social tagging systems [J]. Expert Systems with Applications, 2011, 38(4): 4575-4587.
[11]ZHANG Z K, ZHOU T, ZHANG Y C. Personalized recommendation via integrated diffusion on user -item -tag tripartite graphs [J]. Physica A: Statistical Mechanics and its Applications, 2010, 389(1): 179-186.
[12]KIM H N, ALKHALDI A, EL SADDIK A, et al. Collaborative user modeling with user-generated tags for social recommender systems [J]. Expert Systems with Applications, 2011, 38(7): 8488-8496.
[13]SEGARAN T. Programming collective intelligence: building smart web 2.0 applications [M]. O'Reilly Media, 2007.
[14]VIG J, SEN S, RIEDL J. Tagsplanations: explaining recommendations using tags [C]// Proceedings of the 14th international conference on Intelligent user interfaces. ACM, 2009: 47-56.
[15]SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative fi ltering recommendation algorithms [C]// Proceedings of the 10th international conference on World Wide Web. ACM, 2001: 285-295.
[16]PAZZANI M, BILLSUS D. Learning and revising user pro fi les: The identi fi cation of interesting web sites [J]. Machine learning, 1997, 27(3): 313-331.
[17]ZHOU T, SU R Q, LIU R R, et al. Accurate and diverse recommendations via eliminating redundant correlations [J]. New Journal of Physics, 2009, 11(12): 123008.
鄒婧琳,女,四川大學(xué)公共管理學(xué)院信息管理技術(shù)系本科生。
范煒,男,1981年生,管理學(xué)博士,四川大學(xué)公共管理學(xué)院信息管理技術(shù)系講師,研究方向:信息組織與信息檢索。通訊作者, E-mail: fanwscu@163.com。
Bibliography Recommendation Model Derived from Reading Behaviors of Online Social Book Community
ZOU JingLin FAN Wei
(Department of Information Management Technology, School of Public Administration, Sichuan University, Chengdu 610064, China)
Bibliography recommendation aims to build a two-direction connection between books and readers. Due to users' participation in the online social reading community, huge data is newly created every day, which provides many references for bibliography recommendation. This paper analyzes users' primary reading behaviors and studies how users' rating, reading state, tag and action time present their reading preferences. Then it proposes a bibliography recommendation model, combining with users' reading preference intentions and levels. Finally, it uses the dataset from douban.com to evaluate the recommendation model. The experimental results show that the model achieves better recommendation in terms of accuracy and diversity, and the model could provide an action reference for online social reading community.
Online social book community; Reading behaviors; Bibliography recommendation
G252
10.3772/j.issn.1673—2286.2014.04.007
2014-04-01)
*本研究得到四川大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目“大學(xué)生書目導(dǎo)讀與互動(dòng)推薦系統(tǒng)”(編號(hào):20131241)資助。