王連喜
(廣東外語(yǔ)外貿(mào)大學(xué)圖書(shū)館,廣東廣州510420)
一種面向高校圖書(shū)館的個(gè)性化圖書(shū)推薦系統(tǒng)
王連喜
(廣東外語(yǔ)外貿(mào)大學(xué)圖書(shū)館,廣東廣州510420)
〔摘要〕個(gè)性化圖書(shū)推薦主要是以用戶特征和借閱行為為挖掘?qū)ο?,通過(guò)獲取用戶的興趣特征及隱含的需求模式,實(shí)現(xiàn)用戶與圖書(shū)相互關(guān)聯(lián)的個(gè)性化圖書(shū)推薦服務(wù)。本文通過(guò)挖掘用戶的背景信息構(gòu)建用戶特征模型,然后在設(shè)計(jì)喜好值計(jì)算、用戶相似度計(jì)算和內(nèi)容相似度計(jì)算以及標(biāo)簽信息獲取方法的基礎(chǔ)上,研究多種不同的圖書(shū)推薦方法,以挖掘用戶的潛在信息需求。最后利用圖書(shū)館的真實(shí)數(shù)據(jù)設(shè)計(jì)面向高校圖書(shū)館的個(gè)性化圖書(shū)推薦系統(tǒng),同時(shí)以標(biāo)準(zhǔn)網(wǎng)絡(luò)數(shù)據(jù)集通過(guò)實(shí)驗(yàn)驗(yàn)證來(lái)評(píng)估推薦方法的有效性。
〔關(guān)鍵詞〕高校圖書(shū)館;推薦系統(tǒng);個(gè)性化需求;圖書(shū)推薦
隨著網(wǎng)絡(luò)技術(shù)與社交媒體的發(fā)展和普及,人們逐漸從信息匱乏的狀態(tài)陷入了信息過(guò)載的困境。在這個(gè)信息爆炸的環(huán)境中,圖書(shū)館的信息消費(fèi)者與信息生產(chǎn)者都在不同程度上出現(xiàn)了新的挑戰(zhàn):對(duì)于用戶而言,如何從大量的館藏資源中找到適合自己的圖書(shū)資源是一件非常困難的事情;而對(duì)于圖書(shū)館從業(yè)人員以及電子資源的信息生產(chǎn)者而言,如何讓其所擁有的資源找到合適的用戶也是一件亟待解決問(wèn)題。個(gè)性化推薦系統(tǒng)就是解決上述兩種問(wèn)題的重要工具。個(gè)性化圖書(shū)推薦系統(tǒng)的最重要任務(wù)就是將用戶興趣和圖書(shū)信息關(guān)聯(lián)起來(lái),一方面幫助用戶發(fā)現(xiàn)對(duì)自己有價(jià)值的圖書(shū)資源;另一方面讓圖書(shū)資源最大程度地展現(xiàn)在有需求或有潛在需求的用戶面前,從而使用戶和圖書(shū)館達(dá)到雙贏的狀態(tài)[1]。
目前流行的推薦系統(tǒng)大致是以3種方式實(shí)現(xiàn)用戶與圖書(shū)的關(guān)聯(lián)。第一種方式是分析用戶的借閱歷史,為用戶推薦與其借閱記錄中相類似的圖書(shū)。第二種方式是挖掘用戶的借閱行為,通過(guò)建立興趣模型為用戶推薦具有相似借閱行為用戶的借閱信息;第三種是關(guān)聯(lián)用戶與圖書(shū)的特征信息,通過(guò)發(fā)現(xiàn)用戶與圖書(shū)之間的有趣關(guān)聯(lián)特征或模式并生成關(guān)聯(lián)規(guī)則,從而為用戶推薦其可能感興趣的圖書(shū)。從技術(shù)層面來(lái)看,學(xué)者們針對(duì)3種關(guān)聯(lián)方式提出了一些個(gè)性化的推薦技術(shù),包括基于內(nèi)容的個(gè)性化推薦、基于用戶的個(gè)性化推薦、基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦以及混合推薦等[2-4]。雖然目前已經(jīng)有多種推薦方法被應(yīng)用到各個(gè)領(lǐng)域,但是不同的推薦技術(shù)有著不同的特性和不足:(1)基于內(nèi)容和用戶的推薦方法主要依靠目標(biāo)特征的關(guān)系親密度(興趣度)來(lái)進(jìn)行衡量目標(biāo)之間的相似度。兩種方法的推薦效果比較顯著,但是容易受到稀疏問(wèn)題和冷啟動(dòng)問(wèn)題的影響[5];(2)基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦方法的核心是發(fā)現(xiàn)并建立內(nèi)容與用戶之間實(shí)際或潛在的關(guān)聯(lián)規(guī)則[6]。該方法也會(huì)受到稀疏性問(wèn)題和冷啟動(dòng)問(wèn)題的影響,而且還需要消耗大量的建模時(shí)間,所以算法的復(fù)雜性比較高。
隨著辦學(xué)規(guī)模的擴(kuò)大和辦學(xué)水平的提高,國(guó)家對(duì)高校的支持力度越來(lái)越大,尤其重視高校學(xué)子的人均資源擁有量,所以使得當(dāng)前高校的館藏資源十分豐富,從而導(dǎo)致圖書(shū)館的部分圖書(shū)的借閱量偏低,甚至出現(xiàn)零借閱現(xiàn)象。由于高校圖書(shū)館的服務(wù)對(duì)象主要是高校教職工和學(xué)生,其基本信息相對(duì)簡(jiǎn)單、容易獲取且比較準(zhǔn)確,所以高校的圖書(shū)推薦與電子商務(wù)領(lǐng)域的個(gè)性化推薦有所不同。個(gè)性化圖書(shū)推薦是以圖書(shū)和用戶的特征及行為為挖掘?qū)ο?,通過(guò)分析用戶對(duì)圖書(shū)的喜好程度、用戶之間的興趣相似度、圖書(shū)內(nèi)容之間的相似的度以及用戶的喜好標(biāo)簽等信息,研究并設(shè)計(jì)適合高校圖書(shū)館的個(gè)性化圖書(shū)推薦系統(tǒng)。
根據(jù)高校圖書(shū)館的圖書(shū)及其用戶的特點(diǎn),從用戶背景信息與知識(shí)結(jié)構(gòu)識(shí)別、用戶對(duì)圖書(shū)的偏愛(ài)、用戶的相似興趣計(jì)算、內(nèi)容相似度計(jì)算以及用戶對(duì)喜好標(biāo)簽標(biāo)注等入手,研究基于用戶的協(xié)同過(guò)濾推薦、基于內(nèi)容的協(xié)同過(guò)濾推薦、基于標(biāo)簽的推薦以及基于用戶背景信息的圖書(shū)推薦。
1.1基于用戶的協(xié)同過(guò)濾推薦方法
基于用戶的協(xié)同過(guò)濾推薦方法的主要思路是,首先計(jì)算用戶之間的相似度并找到與目標(biāo)用戶興趣相似的用戶,然后選擇與其最相似的前M個(gè)用戶,最后從M個(gè)用戶的借閱圖書(shū)集合中依據(jù)“喜好值”找到用戶喜歡的且目標(biāo)用戶并沒(méi)有借閱過(guò)的圖書(shū),并將其推薦給目標(biāo)用戶。
為了能夠更好的反映出用戶對(duì)借閱圖書(shū)的偏好程度,通常用喜好值來(lái)度量。假設(shè)某用戶u所借閱的圖書(shū)序列為BOOK={book1,book2,L,bookn},借閱起始時(shí)間為TB={TB1,TB2,L,TBn},每本圖書(shū)的借閱時(shí)間為T={T1,T2,L,Tn},用戶首次借閱圖書(shū)的時(shí)間為TF,用戶借閱圖書(shū)的最短時(shí)間Tmin,用戶借閱圖書(shū)的最長(zhǎng)時(shí)間Tmax,當(dāng)前時(shí)間為TC,則用戶u對(duì)圖書(shū)booki的喜好值衰減率計(jì)算方式如下:
用戶u對(duì)圖書(shū)booki的喜好值計(jì)算方式如下:
基于用戶的協(xié)同過(guò)濾推薦方法就是在已給定的喜好值計(jì)算方法之上,利用修正的余弦相似性公式計(jì)算與目標(biāo)用戶最為相似的Top-N用戶作為與其在借閱興趣上具有較大相似性的最近鄰用戶。任意兩個(gè)用戶u1和u2的相似度計(jì)算方法如下:
根據(jù)用戶的相似性計(jì)算可以得出與用戶ui具有近似相同興趣的Top-N用戶,記Top-N用戶集合為SUi?;谟脩舻膮f(xié)同過(guò)濾推薦方法就是在匯總SUi中每個(gè)用戶借閱圖書(shū)序列的喜好值的基礎(chǔ)上,根據(jù)喜好值總和進(jìn)行降序排列后得到推薦圖書(shū)集合RBi,然后根據(jù)用戶ui的圖書(shū)借閱集合BBi產(chǎn)生圖書(shū)推薦集合FRBi。FRBi的計(jì)算如式(4)表示:
1.2基于內(nèi)容的協(xié)同過(guò)濾推薦方法
基于內(nèi)容的協(xié)同過(guò)濾推薦方法根據(jù)用戶對(duì)相似圖書(shū)的喜好值為用戶進(jìn)行圖書(shū)推薦。該方法首先通過(guò)計(jì)算圖書(shū)之間的相似度,并找到與目標(biāo)圖書(shū)相似的若干最近鄰居,然后綜合圖書(shū)相似度和用戶的歷史借閱行為為用戶生成圖書(shū)推薦列表。在電子商務(wù)領(lǐng)域中,許多基于內(nèi)容的協(xié)同過(guò)濾算法都是從內(nèi)容角度以余弦相似度或皮爾森相關(guān)系數(shù)等作為相似度計(jì)算的依據(jù),本文從圖書(shū)館用戶的借閱行為特點(diǎn)及其與圖書(shū)的關(guān)系特點(diǎn)出發(fā),以用戶對(duì)圖書(shū)的喜好值作為相似度計(jì)算的依據(jù),故而將圖書(shū)之間的相似度表示為ri,j:
由式(5)可知,ri,j主要反映是圖書(shū)的共現(xiàn)程度。在得到兩本圖書(shū)之間的相似度之后,根據(jù)用戶的歷史借閱記錄,查找與用戶所借閱過(guò)的圖書(shū)最相似的Top-N本圖書(shū)向用戶進(jìn)行推薦。
1.3基于標(biāo)簽的圖書(shū)推薦方法
標(biāo)簽是一種無(wú)層次化結(jié)構(gòu)的、用以描述信息的關(guān)鍵字。在社交網(wǎng)絡(luò)平臺(tái)上,用戶可以根據(jù)自己的喜好為自己或物品打上合適的標(biāo)簽(用戶的顯式標(biāo)簽),系統(tǒng)就會(huì)根據(jù)用戶的標(biāo)簽為用戶推薦好友或其他事物。對(duì)于圖書(shū)網(wǎng)站而言,系統(tǒng)會(huì)將用戶對(duì)圖書(shū)所標(biāo)注的標(biāo)簽作為用戶的喜好標(biāo)簽(用戶的隱式標(biāo)簽),并根據(jù)此標(biāo)簽為用戶推薦圖書(shū)。但是對(duì)于圖書(shū)館來(lái)說(shuō),大部分圖書(shū)都沒(méi)有被用戶標(biāo)注標(biāo)簽,所以需要通過(guò)外部數(shù)據(jù)獲取圖書(shū)的隱式標(biāo)簽?;跇?biāo)簽的推薦方法主要是在獲取用戶的隱式標(biāo)簽的基礎(chǔ)上,借鑒TFIDF方法計(jì)算用戶對(duì)圖書(shū)的喜好程度(如式(6)所示),選取喜好值高且目標(biāo)用戶沒(méi)有借閱過(guò)的Top-N圖書(shū)向目標(biāo)用戶推薦。
在公式(6)中,UB表示用戶u的隱式標(biāo)簽集合,nu,b表示用戶u使用標(biāo)簽b的次數(shù),nb,i表示圖書(shū)i被標(biāo)注為標(biāo)簽b的次數(shù),nb表示使用標(biāo)簽b的用戶數(shù)量,ni表示圖書(shū)i被標(biāo)注的用戶數(shù)量。
1.4基于用戶背景信息的圖書(shū)推薦方法
高校用戶由于背景信息的不同,用戶對(duì)圖書(shū)的借閱偏好也可能會(huì)不一樣。一般來(lái)說(shuō),相同或相近專業(yè)的用戶,其借閱的圖書(shū)類型會(huì)比較類似,而且可能更多地是偏向與專業(yè)相關(guān)的圖書(shū)?;谟脩舯尘靶畔⒌膱D書(shū)推薦方法的基本思路是先獲取相似背景信息的所有用戶的借閱記錄,然后計(jì)算用戶對(duì)圖書(shū)的喜好值總和,并根據(jù)喜好值總和進(jìn)行排序,選取喜好值總和最大的且沒(méi)有被目標(biāo)用戶借閱過(guò)的圖書(shū)向目標(biāo)讀者進(jìn)行推薦。
由于當(dāng)前圖書(shū)館的數(shù)據(jù)基本上沒(méi)有被規(guī)范處理過(guò),也沒(méi)有被評(píng)測(cè)過(guò),所以不能利用標(biāo)準(zhǔn)的數(shù)據(jù)集來(lái)評(píng)估推薦方法的效果。為了方便測(cè)試,采用來(lái)自互聯(lián)網(wǎng)上的MovieLens數(shù)據(jù)集和CiteULike數(shù)據(jù)集對(duì)推薦方法進(jìn)行測(cè)試與評(píng)估。
MovieLens是GroupLens項(xiàng)目組開(kāi)發(fā)的一個(gè)基于Web的研究型推薦系統(tǒng),用于接收用戶對(duì)電影的評(píng)分并提供相應(yīng)的電影推薦列表。該數(shù)據(jù)集中包含了943個(gè)用戶對(duì)1 682部電影的100 000條評(píng)分?jǐn)?shù)據(jù),其中每個(gè)用戶至少對(duì)20部電影進(jìn)行了評(píng)分。
CiteULike數(shù)據(jù)集包含了網(wǎng)站從2004年11月-2010年3月所有的用戶操作數(shù)據(jù),每條數(shù)據(jù)都包括文章號(hào)、用戶名(MD5值)、收藏時(shí)間、收藏時(shí)用的標(biāo)簽等4個(gè)字段(如表1所示)。若用戶在標(biāo)注一篇文章時(shí)使用了多個(gè)標(biāo)簽,則這些標(biāo)簽分別存入多條數(shù)據(jù)中,如表1中的前3行。
表1 CiteULike 數(shù)據(jù)(部分)
由兩個(gè)數(shù)據(jù)集的具體描述可知,MovieLens數(shù)據(jù)集可用于測(cè)試基于用戶的協(xié)同過(guò)濾推薦方法和基于內(nèi)容的協(xié)同過(guò)濾推薦方法,CiteULike數(shù)據(jù)集可用于測(cè)試基于標(biāo)簽的推薦方法。在實(shí)驗(yàn)測(cè)試過(guò)程中,采用五折交叉驗(yàn)證方式對(duì)3種推薦算法進(jìn)行測(cè)試,評(píng)估指標(biāo)包括準(zhǔn)確度、召回率、覆蓋率及平均熱門程度。
表2 基于用戶的協(xié)同過(guò)濾推薦方法測(cè)試結(jié)果
表3 基于內(nèi)容的協(xié)同過(guò)濾推薦方法測(cè)試結(jié)果
表2和表3分別給出了基于用戶的協(xié)同過(guò)濾推薦方法和基于物品的協(xié)同過(guò)濾推薦方法測(cè)試結(jié)果。在兩個(gè)表中,N和M分別為每個(gè)用戶選出相似用戶的數(shù)量和為每本圖書(shū)推薦的圖書(shū)數(shù)量。從表2可以看出,N值只與流行度指標(biāo)成正相關(guān)。當(dāng)N取80時(shí),基于用戶的協(xié)同過(guò)濾推薦方法達(dá)到較為理想的效果。從表3的結(jié)果可以看出,M值與準(zhǔn)確度、召回率、流行度既不成正相關(guān),也不成負(fù)相關(guān),但是與覆蓋率成負(fù)相關(guān)。當(dāng)M取10時(shí),基于內(nèi)容的協(xié)同推薦方法的各項(xiàng)指標(biāo)達(dá)到最佳。
從表4給出的基于標(biāo)簽的推薦方法測(cè)試結(jié)果可以看出,該方法也可以得到較好的效果。
表4 基于標(biāo)簽的推薦方法測(cè)試結(jié)果
3.1數(shù)據(jù)來(lái)源
以廣東某高校圖書(shū)館所提供的2010年4月至5月的39 544條借閱記錄(讀者ID,ISBN、借閱時(shí)間、實(shí)際歸還時(shí)間等)以及437 623本圖書(shū)的信息(書(shū)名、作者、出版社、出版年、ISBN、單價(jià)、索書(shū)號(hào)等)作為實(shí)驗(yàn)數(shù)據(jù)。經(jīng)初步統(tǒng)計(jì)發(fā)現(xiàn),實(shí)驗(yàn)數(shù)據(jù)中有借閱行為的用戶有1 978人,詳細(xì)的用戶借閱情況及圖書(shū)被借閱情況分別如圖1和圖2所示。
圖1 讀者借閱書(shū)籍情況
圖2 圖書(shū)被借閱情況
由圖1和圖2所示,該圖書(shū)館中借閱頻次較高的圖書(shū)數(shù)量呈遞減趨勢(shì),而且有大部分圖書(shū)沒(méi)有被借閱過(guò)。
3.2數(shù)據(jù)預(yù)處理
由于原始數(shù)據(jù)中有許多臟數(shù)據(jù),不方便用戶理解和建模。為了增強(qiáng)數(shù)據(jù)的可理解性和降低系統(tǒng)的時(shí)間開(kāi)銷,有必要對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行清理和預(yù)處理使其能夠滿足推薦方法的數(shù)據(jù)要求,并提高其效率和性能。由于基于用戶和內(nèi)容的協(xié)同過(guò)濾推薦方法以及基于用戶背景信息的推薦方法都是重點(diǎn)分析用戶和圖書(shū)的基本特征與行為特征,而基于標(biāo)注的推薦算法則重點(diǎn)挖掘圖書(shū)的內(nèi)容信息、書(shū)評(píng)信息、購(gòu)買信息以及標(biāo)簽記錄等。為此,我們手動(dòng)編寫(xiě)爬蟲(chóng)算法從豆瓣讀書(shū)網(wǎng)上全自動(dòng)抓取了實(shí)驗(yàn)數(shù)據(jù)中20 574本圖書(shū)的內(nèi)容信息、20 055條書(shū)評(píng)信息、57 643條圖書(shū)購(gòu)買信息及89 632條圖書(shū)標(biāo)簽記錄。
與此同時(shí),由于該實(shí)驗(yàn)數(shù)據(jù)所提供的特征信息比較復(fù)雜,所以在實(shí)現(xiàn)推薦算法之前需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括提取用戶借閱信息和獲取用戶的隱式標(biāo)簽(如表5和表6所示)。在獲取用戶的隱式標(biāo)簽時(shí)主要基于以下假設(shè):用戶只對(duì)其感興趣的圖書(shū)打標(biāo)簽,所以其預(yù)處理過(guò)程即獲取用戶使用過(guò)的標(biāo)簽及使用的次數(shù)。
3.3系統(tǒng)邏輯結(jié)構(gòu)設(shè)計(jì)
本系統(tǒng)使用PHP與MYSQL實(shí)現(xiàn)。在PHP的應(yīng)用方面采用MVC設(shè)計(jì)模式,其目的是更好地實(shí)現(xiàn)系統(tǒng)的功能。MVC設(shè)計(jì)模式將系統(tǒng)分為3層:Model層實(shí)現(xiàn)系統(tǒng)中的業(yè)務(wù)邏輯;View層用于與用戶的交互;Controller層是Model與View之間溝通的橋梁,它可以響應(yīng)用戶的請(qǐng)求并選擇恰當(dāng)?shù)囊晥D以用于顯示,同時(shí)它也可以理解用戶的輸入并將它們映射為模型層可執(zhí)行的操作。
表5 用戶借閱信息表
表6 用戶標(biāo)簽表
在功能設(shè)計(jì)方面,本系統(tǒng)主要包括圖書(shū)模塊、用戶模塊、搜索模塊和推薦模塊4個(gè)部分。圖書(shū)模塊主要負(fù)責(zé)完成與圖書(shū)相關(guān)的業(yè)務(wù)邏輯,需要從各個(gè)與圖書(shū)相關(guān)的表中通過(guò)模型的操作來(lái)提取信息,并將信息提交給控制器,然后在由控制器補(bǔ)充必要的信息之后再傳遞數(shù)據(jù)給視圖,最后再將信息展示給用戶。
用戶模塊主要負(fù)責(zé)完成與用戶相關(guān)的業(yè)務(wù)邏輯,包括用戶的登陸、關(guān)注、查看粉絲、查看書(shū)評(píng)、查看其它用戶的信息以及個(gè)人信息管理等功能。用戶模塊是一個(gè)非常核心的模塊。
搜索模塊主要負(fù)責(zé)完成與搜索相關(guān)的業(yè)務(wù)邏輯,主要包括圖書(shū)搜索、用戶搜索及其結(jié)果排序和搜索關(guān)鍵詞的優(yōu)化。
推薦模塊負(fù)責(zé)從數(shù)據(jù)庫(kù)的推薦表中提取推薦的信息進(jìn)行組織和排序,并按照不同的要求將數(shù)據(jù)傳遞給控制器。
3.4系統(tǒng)實(shí)現(xiàn)關(guān)鍵技術(shù)
本系統(tǒng)主要實(shí)現(xiàn)基于用戶的協(xié)同過(guò)濾推薦算法(User -Based Collaborative Filter Algorithm)、基于內(nèi)容的協(xié)同過(guò)濾推薦算法(Item-Based Collaborative Filter Algorithm)、基于標(biāo)簽的推薦算法(Tag-Based Recommend Algorithm)、基于用戶背景信息的推薦算法(Major Feature-Based Recommend Algorithm)。根據(jù)前面描述的推薦算法過(guò)程可知,本系統(tǒng)主要在實(shí)現(xiàn)用戶對(duì)圖書(shū)的喜好值計(jì)算、用戶相似度計(jì)算和圖書(shū)相似度計(jì)算的基礎(chǔ)上產(chǎn)生推薦結(jié)果列表。表7~表9分別是基于內(nèi)容的協(xié)同過(guò)濾推薦、基于用戶的協(xié)同過(guò)濾推薦和基于標(biāo)簽的推薦算法的主要數(shù)據(jù)庫(kù)表設(shè)計(jì)。
表7 基于內(nèi)容的協(xié)同過(guò)濾推薦表
表8 基于用戶的協(xié)同過(guò)濾推薦表
表9 基于標(biāo)簽的推薦表
3.5系統(tǒng)效果展示
本系統(tǒng)自用戶登陸開(kāi)始,從目標(biāo)搜索到圖書(shū)查看的過(guò)程中都會(huì)產(chǎn)生推薦結(jié)果。具體來(lái)說(shuō),在用戶通過(guò)身份識(shí)別登陸后,系統(tǒng)根據(jù)用戶的專業(yè)、年級(jí)、學(xué)習(xí)身份等背景信息以及用戶的隱式標(biāo)簽和相似用戶等信息通過(guò)基于用戶的協(xié)同過(guò)濾推薦方法、基于用戶背景信息的推薦方法和基于標(biāo)簽的推薦方法產(chǎn)生推薦結(jié)果(如圖3和圖4所示)。
圖3 登陸后推薦頁(yè)面(上)
圖4 登陸后推薦頁(yè)面(下)
如果登陸用戶在搜索框內(nèi)通過(guò)目標(biāo)關(guān)鍵詞進(jìn)行檢索后(如圖5所示),并在得到的返回結(jié)果中查看任何一本圖書(shū)的信息(如圖6所示),系統(tǒng)將會(huì)通過(guò)基于內(nèi)容的協(xié)同過(guò)濾推薦方法在頁(yè)面下方產(chǎn)生相應(yīng)的推薦結(jié)果(如圖7所示)。
圖5 搜索結(jié)果返回頁(yè)面(部分)
圖6 圖書(shū)詳細(xì)信息頁(yè)面(基本信息及購(gòu)買信息)
圖7 圖書(shū)的詳細(xì)信息頁(yè)面(基于內(nèi)容的協(xié)同過(guò)濾推薦)
本文首先介紹當(dāng)前圖書(shū)推薦系統(tǒng)的基本情況及其各自的特性的不足,然后對(duì)喜好值計(jì)算、相似度計(jì)算以及四種推薦方法的思路及原理進(jìn)行詳細(xì)闡述,最后構(gòu)建系統(tǒng)實(shí)現(xiàn)面向高校圖書(shū)館的個(gè)性化圖書(shū)推薦系統(tǒng)。
當(dāng)然,本系統(tǒng)還有很大的完善空間,例如:可以改進(jìn)基于標(biāo)簽的推薦算法以提高推薦的效率;實(shí)現(xiàn)基于圖的推薦算法、如Random Walk等,使本系統(tǒng)的推薦方式實(shí)現(xiàn)多樣化。
參考文獻(xiàn)
[1]Hwang S Y,Lim E P.A data mining approach to new library book recommendations[J].Digital Libraries:People,Knowledge,and Technology,2002:229-240.
[2]丁雪.基于數(shù)據(jù)挖掘的圖書(shū)智能推薦系統(tǒng)研究[J].情報(bào)理論與實(shí)踐,2010,(5):107-110.
[3]安德智,劉光明,章恒.基于協(xié)同過(guò)濾的圖書(shū)推薦模型[J].圖書(shū)情報(bào)工作,2011,55(1):35-38.
[4]邵志峰,李榮陸,胡運(yùn)發(fā).基于中圖分類法的用戶興趣模型研究[J].計(jì)算機(jī)應(yīng)用與軟件,2007,(8):85-87.
[5]羅喜軍,王韜丞,杜小勇,等.基于類別的推薦——一種解決協(xié)同推薦中冷啟動(dòng)問(wèn)題的方法[J].計(jì)算機(jī)研究與發(fā)展,2007,(3).
[6]蘇玉召,趙妍.個(gè)性化關(guān)鍵技術(shù)研究綜述[J].圖書(shū)與情報(bào),2011,137(1):59-65.
(本文責(zé)任編輯:孫國(guó)雷)
Personalized Books Recommender System for University Library
Wang Lianxi
(Library,Guangdong University of Foreign Studies,Guangzhou 510420,China)
〔Abstract〕Personalized books recommend methods are worked by getting the user's interest features and implicit demand patterns,so as to mining users'borrowing behaviors and achieving the personalized book recommendation service by associating the user and the books.This paper built a profile of the user model with the background information,and then designed the methods of user preference,user similarity and content similarity,as well as the acquisition of label information,to tap the latent user information demand.Finally,a personalized book recommendation system for Univerity library was developed,and the experimental results with the standard network data sets showed that the proposed recommend methods are effective.
〔Key words〕university library;recommend system;personalized demand;books recommender
作者簡(jiǎn)介:王連喜(1985-),男,館員,碩士,研究方向:數(shù)據(jù)挖掘與自然語(yǔ)言處理,發(fā)表論文20余篇。
基金項(xiàng)目:教育部人文社會(huì)科學(xué)研究青年項(xiàng)目“微博熱點(diǎn)事件發(fā)現(xiàn)及其內(nèi)容自動(dòng)摘要研究”(項(xiàng)目編號(hào):14YJC870021)、廣東省科技計(jì)劃項(xiàng)目“廣東省企業(yè)競(jìng)爭(zhēng)情報(bào)信息提取及態(tài)勢(shì)推理機(jī)制研究——以汽車行業(yè)為例”(項(xiàng)目編號(hào):2015A030401093)、廣東外語(yǔ)外貿(mào)大學(xué)校級(jí)教學(xué)研究項(xiàng)目“英語(yǔ)學(xué)習(xí)平臺(tái)的個(gè)性化資源推薦研究”(項(xiàng)目編號(hào):GWJYQN14010)的研究成果。
收稿日期:2015-10-15
〔中圖分類號(hào)〕G252.62
〔文獻(xiàn)標(biāo)識(shí)碼〕B
〔文章編號(hào)〕1008-0821(2015)12-0041-06
DOI:10.3969/j.issn.1008-0821.2015.12.007