国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談基于內容過濾的數(shù)字圖書館推薦系統(tǒng)研究

2013-04-29 00:44:03車毅光陳澤波
網(wǎng)友世界 2013年9期
關鍵詞:推薦系統(tǒng)數(shù)字圖書館

車毅光 陳澤波

【摘 要】隨著管理系統(tǒng)的廣泛應用,信息數(shù)據(jù)在飛速增長,一方面人們擁有了海量的信息資源,另一方面人們尋找合適信息的時間成本和難度也增加了。目前廣泛采用的信息檢索技術只能夠向用戶提供數(shù)量巨大的、缺乏個性化的檢索結果。推薦系統(tǒng)是一個由人、計算機軟硬件和數(shù)據(jù)資源共同組成的系統(tǒng),它把用戶對目標對象的使用、評價等相關數(shù)據(jù)按照特定算法模型進行處理,根據(jù)處理的結果形成推薦列表,進而為用戶選擇決策時提供推薦參考。本文就基于內容過濾的數(shù)字圖書館推薦系統(tǒng)展開研究和探討。

【關鍵詞】內容過濾;數(shù)字圖書館;推薦系統(tǒng)

1.基于內容過濾的推薦方法的特點

1.1 基于內容過濾的圖書推薦系統(tǒng)的原理

基于內容的推薦系統(tǒng)(Content-based

Recommendation)也被一些學者稱為“Fea-

turebased Recommendation”,其技術方法主要源于“信息檢索(Information Retrieval,IR)”。最初的基于內容的推薦系統(tǒng)根據(jù)用戶對內容的偏好,自動檢索過濾眾多內容,選擇一些與用戶偏好匹配度高的信息推薦給用戶。

基于內容過濾的圖書推薦系統(tǒng)根據(jù)讀者的興趣向量在圖書特征向量中自動尋找與之匹配的產(chǎn)品,并依據(jù)相似度的高低順序,產(chǎn)生推薦圖書序列表,進而主動向讀者推薦產(chǎn)品。讀者興趣向量主要包括讀者的專業(yè)、學歷、導師等身份信息和歷史借閱、查詢數(shù)據(jù)等信息,據(jù)此建立讀者模型。圖書特征向量主要是指經(jīng)過人工著錄的圖書書目數(shù)據(jù)庫,包含了書名、責任者、主題詞、出版社、ISBN、出版日期等信息。當某本圖書的特征向量與讀者的興趣特征向量產(chǎn)生較大交集(即較大效用值)時,系統(tǒng)就把該圖書作為讀者的備選推薦產(chǎn)品。系統(tǒng)再依據(jù)效用值的大小對備選產(chǎn)品進行排序,最后向用戶推薦。

基于內容過濾的圖書推薦系統(tǒng)的主要分為以下四個步驟:(1)讀者興趣向量的建模與表達,圖書特征向量的建模與表達;(2)在同一向量空間下,計算讀者興趣特征向量與圖書特征向量的相似度;(3)根據(jù)相似度的大小對結果進行排序,取前幾位圖書產(chǎn)生推薦列表;(4)若讀者興趣特征模型產(chǎn)生更新,或增加新的圖書特征向量模型則返回步驟1。

1.2 基于內容過濾的推薦系統(tǒng)的優(yōu)點和存在問題

基于內容過濾的推薦系統(tǒng)利用資源和用戶興趣的相似性來過濾信息,它的關鍵問題是相似性計算,優(yōu)點是簡單、有效,缺點是難以區(qū)分資源內容的品質和風格,而且不能為用戶發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和用戶已有興趣相似的資源?;趦热葸^濾的推薦系統(tǒng)根據(jù)用戶查詢內容而進行推薦,其推薦結果具有短期效應,適合電子購物系統(tǒng)。而對于擁有長期用戶的系統(tǒng)來說,則沒有充分利用用戶的歷史數(shù)據(jù)尤其是相似用戶的相關數(shù)據(jù),缺乏推薦潛在興趣產(chǎn)品的功能。

1.3 內容過濾推薦系統(tǒng)有利于充分開發(fā)數(shù)字圖書館資源

數(shù)字圖書館的建設不應該僅考慮組織眾多的數(shù)字化資源,被動地等待用戶前來選擇,而應以用戶為中心,整合數(shù)字資源,提供主動的信息服務。構建一個融多種技術為一體的信息推薦系統(tǒng)。在數(shù)字圖書館的環(huán)境下,圖書文獻信息的種類和數(shù)量都非常多,用戶不可能像在實際的圖書館那樣直接選取所需的文獻資料。因此,數(shù)字圖書館應該充分揭示有關信息,自動推薦用戶可能感興趣的圖書文獻,實現(xiàn)數(shù)字資源的深層次挖掘分析,提高其使用價值。

1.4 基于內容過濾推薦是數(shù)字圖書館環(huán)境下的基本需要

數(shù)字圖書館具有信息量龐大、內容繁雜、形式多樣、數(shù)據(jù)對象異構、分布式存儲等特征,用戶選擇和利用所需信息比較困難。數(shù)字化圖書館雖然提供服務的方式與傳統(tǒng)圖書館有些不同,但為用戶提供高質量的服務的職能卻沒有改變。通過對信息資源的推薦有助于用戶作出正確的評價和選擇,使價值高的信息資源能夠充分被利用。

2.基于讀者文件的內容推薦算法

為了計算讀者與推薦圖書的相似度,首先需要將讀者的興趣表達出來以供系統(tǒng)識別和計算。讀者的興趣在系統(tǒng)中表示成讀者興趣文件,文件應該包括讀者興趣的內容并用系統(tǒng)可以理解的形式表達出來。讀者興趣文件是圖書推薦系統(tǒng)的重要組成部分,是推薦算法的重要依據(jù)。

讀者的興趣主要受到讀者的專業(yè)、身份、借閱行為等信息影響。根據(jù)系統(tǒng)建模工程方法,本文將讀者的信息抽象為屬性和操作。讀者的屬性主要指讀者的專業(yè)、身份、職稱、研究方向等較為固定的靜態(tài)信息。這些可以從圖書館管理系統(tǒng)的讀者數(shù)據(jù)庫中獲取,也可以通過讀者自行修改完善個人信息而獲得。讀者的操作主要是指借閱、查詢等行為信息。該信息可以從圖書館管理系統(tǒng)中的流通數(shù)據(jù)庫中獲得。本文假定讀者在圖書管理系統(tǒng)中的操作行為都因興趣動機而起,因此操作行為可以反映讀者的興趣特征。于是本文通過對操作行為的研究揭示讀者興趣。

根據(jù)興趣的時效性,將用戶的興趣模型概括為近期興趣和長期興趣。近期興趣主要依據(jù)讀者的近期借閱、查詢行為而產(chǎn)生,具有高效用性、亟需性和短期性等特性。長期興趣主要依據(jù)讀者的專業(yè)、身份等靜態(tài)屬性而產(chǎn)生,具有高匹配性、穩(wěn)定性和長期性等特性。

與讀者的操作行為產(chǎn)生關聯(lián)的讀者屬性通常為讀者的專業(yè)、課程、研究方向、身份、職稱、年齡、性別、興趣愛好等。

表1 讀者屬性列表

專業(yè) 課程 研究方向 職稱 年齡 性別 興趣愛好

教師

學生

其他

讀者屬性可以通過讀者個人ID信息自動抽取或通過讀者主動填寫個人資料獲取。

讀者的操作信息主要記錄了讀者的外借圖書信息,檢索、下載的文獻信息。

表2 讀者操作信息列表

外借 圖書信息

借閱時長

評價

檢索下載 內容主題

評價

在基于內容過濾的圖書推薦系統(tǒng)中,從讀者的屬性列表和操作信息列表中提取若干興趣特征詞,形成讀者興趣特征向量。因此采用讀者的興趣向量模型來表示讀者興趣文件。在介紹圖書特征向量的表示之前,本文先對向量空間模型加以說明。向量空間模型(Vector Space Model,VSM)是由康奈爾大學G.Salton教授提出的,把文本簡化為以向量分量的權重為分量的向量表示,把文本處理過程簡化為空間向量的運算,使問題復雜性大大降低,關鍵是基于空間向量模型的。

在讀者興趣特征向量建立后,需要對此進行定量化表達,以便推薦系統(tǒng)能夠進行精確計算。在圖書推薦系統(tǒng)中,采用對不同的興趣特征賦予不同的權重,以達到對特征向量的量化處理。權重值依據(jù)喜愛程度從低到高表示為-1分到1分不等。未曾獲得讀者評價的特征值表示為0分。讀者的近期興趣特征值和長期興趣特征值應該賦予較高的權重。當讀者的操作信息表更新,讀者的近期興趣特征值就相應變化。而讀者的長期興趣特征值則應保持穩(wěn)定的權重值,除非讀者的屬性表中更新了讀者的研究方向、專業(yè)、興趣愛好等信息。

3.基于讀者文件和圖書文件相似度計算

在讀者文件和圖書文件建立之后,需要將二者進行相似度計算。通過計算,可以精確計算讀者與圖書的匹配度,從大量圖書中迅速過濾出與讀者興趣匹配值高的圖書,進而形成推薦列表,幫助讀者選擇圖書。

3.1 幾種常見的相似度計算方法

計算相似度的方法比較多,常見的有余弦相似性計算法、皮爾森相關系數(shù)法和改進的余弦相似性法。如今許多計算方法都是基于這三種方法做出的修正和改進。下面對這三種方法分別簡要介紹。

(1)余弦相似性(Cosine):在信息檢索領域,兩篇文檔之間的相似度往往通過把文檔看作是一個詞頻矢量,然后計算兩詞頻矢量的夾角余弦來表示。同樣,也可以將這種方法用于圖書推薦系統(tǒng),將讀者對圖書的評分看作為n維圖書空間上的向量,如果讀者對圖書沒有進行評分,則將讀者對該圖書的評分設為0,讀者間的相似性通過矢量間的夾角余弦來度量。設讀者i和讀者j在n維圖書空間上的評分分別表示成,則讀者i和讀者j之間的相似性sim(i,j)為:

其中,分子為兩個讀者評分向量的內積,分母為兩個讀者評分向量模的乘積。

(2)皮爾森相關系數(shù)(Pearson):也稱為相似相關性(Correlation)。假設讀者i和讀者j共同評分過的圖書集合用Ii,j表示,則讀者i和讀者j之間的相似性sim(i,j)可以通過Pearson相關系數(shù)來度量:

其中,Ri,c表示讀者i對圖書c的評分,分別代表讀者i和讀者j的平均評分。

3.2 形成推薦列表,幫助讀者選擇圖書

讀者文件與圖示文件的相似度值計算出來以后,重復N次計算,得到讀者文件與所有圖書文件的相似度值。按照值的大小,從高到低依次排序。選取前幾項,查檢對應的圖書,形成推薦列表,推薦給讀者。

4.結語

隨著信息網(wǎng)絡的廣泛應用,信息數(shù)據(jù)在飛速增長,一方面為人們提供了極為豐富的信息資源,另一方面也增加了人們尋找合適資源的時間成本和難度。人們在信息領域的個性化需求,必將推動推薦系統(tǒng)的快速發(fā)展。當推薦系統(tǒng)進一步成熟并在現(xiàn)實網(wǎng)絡中得到廣泛深入的應用,人們將享受到推薦系統(tǒng)所帶來的人性化的推薦服務。

參考文獻:

[1]謝琳惠.推薦系統(tǒng)在高校數(shù)字圖書館的應用[J].現(xiàn)代情報,2006(11):72-74.

[2]黃希全.數(shù)字圖書館推薦系統(tǒng)中用戶偏好的建模方法[J].情報雜志,2006(1):28-30.

[3]張俊,黃水清.國內外數(shù)字圖書館個性化信息服務系統(tǒng)的功能與特征比較研究[J].情報理論與實踐,2005,28(6):609-612.

[4]陸覺民,鄭宇.數(shù)據(jù)挖掘技術的改進在圖書館個性化服務中的應用[J].現(xiàn)代圖書情報技術,2006,140(8):65-68.

[5]高鳳榮.個性化推薦系統(tǒng)關鍵技術研究[D].人民大學博士論文,2003,11.

猜你喜歡
推薦系統(tǒng)數(shù)字圖書館
數(shù)據(jù)挖掘在選課推薦中的研究
軟件(2016年4期)2017-01-20 10:09:33
基于用戶偏好的信任網(wǎng)絡隨機游走推薦模型
基于個性化的協(xié)同過濾圖書推薦算法研究
個性化推薦系統(tǒng)關鍵算法探討
高校圖書館的未來發(fā)展模式芻議
淺析“互聯(lián)網(wǎng)+”時代的圖書館管理
資治文摘(2016年7期)2016-11-23 01:00:24
高校數(shù)字圖書館資源整合的初探
商情(2016年39期)2016-11-21 09:27:10
淺談Mahout在個性化推薦系統(tǒng)中的應用
基于云計算的數(shù)字圖書館建設與服務模式研究
從谷歌案析數(shù)字圖書館對作品的使用行為
卫辉市| 如皋市| 巴南区| 蓝山县| 全州县| 灵石县| 虹口区| 淮安市| 贵州省| 利津县| 同仁县| 汤阴县| 四子王旗| 嵊州市| 电白县| 昌江| 江孜县| 洪雅县| 内黄县| 饶河县| 滦平县| 阳原县| 军事| 永仁县| 嘉善县| 迭部县| 乐昌市| 平原县| 淳化县| 将乐县| 吉木萨尔县| 图木舒克市| 庆阳市| 夏邑县| 和田市| 唐山市| 二连浩特市| 双柏县| 翁牛特旗| 安徽省| 镇赉县|