国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究

2016-12-15 19:41:16肖斌徐佳慶張宇洋
電腦知識與技術 2016年27期
關鍵詞:個性化推薦協(xié)同過濾

肖斌+徐佳慶+張宇洋

摘要:針對高校數(shù)字圖書館對讀者需求信息挖掘不足,無法主動為讀者提供個性化圖書推薦服務的問題。該文引入所羅門學習風格量表,多維度、全方位的構建讀者特征模型,并提出基于隨機算法與協(xié)同過濾推薦算法的混合推薦算法。首先,讀者通過數(shù)據(jù)量表測試得到其學習風格,然后根據(jù)讀者的瀏覽矩陣,在同種學習風格的用戶群體中進行用戶之間的相似度計算,最后采用Top-N的策略向用戶進行圖書推薦,為讀者提供符合其個性特征的圖書。實驗結果表明,應用該算法能有效提高系統(tǒng)的推薦質量,達到良好的推薦效果。

關鍵詞:協(xié)同過濾;圖書推薦系統(tǒng);個性化推薦;混合算法;學習風格量表

中圖分類號:TP301 文獻標識碼:A 文章編號:1009-3044(2016)27-0155-04

Abstract:Aiming at the problem of digital library in Colleges and universities lack of reader demand information mining, unable to provide personalized book recommendation service for readers. In this paper, we introduce the Solomon learning style scale, multiform dimension, construction of a full range of readers feature model, and puts forward a hybrid recommen-dation algorithm based on the random algorithm and user based collaborative filtering . Firstly, the reader by amount of data scale test get their learning style, then according to the readers browsing matrix, in the same learning style of the user groups of users between similarity calcu-lation, finally adapt the top-N strategies to recommend books to users, provide the reader with the book that satisfies their personalized need.Experimental results show that the proposed algo-rithm can effectively improve the quality of the recommend system and perform significantly better.

Key words:collaborative filtering; book recommendation system; personalized recommendation; hybrid algorithm; learning style scale

1 概述

如今,高校圖書館的圖書儲量非常豐富,但是,讀者想要準確快速找到符合自己個性化需要的圖書資源卻比較困難。一方面,信息資源過于龐大,檢索信息需要花費很大的時間和精力,另一方面,用戶的個性化需求也不盡相同,難以滿足所有用戶的實際需求。如何利用現(xiàn)代信息技術滿足讀者在學習生活中的個性化需求是當前高校圖書館一個亟待解決的問題。通過對海量的信息進行數(shù)據(jù)挖掘,同時基于挖掘出的知識開展個性化的圖書推薦是當前高校轉變服務方式,提高服務質量的有效手段之一。

目前,主流的非結構化文本數(shù)據(jù)推薦服務分為基于內容的推薦,基于關聯(lián)規(guī)則的推薦和基于協(xié)同過濾的推薦等三類。其中,基于內容的推薦,是在沒有足夠的數(shù)據(jù)下,可以向具有不同興趣偏好的用戶推薦非流行的項目。LIBRA是很早的基于內容的圖書推薦系統(tǒng),由每位用戶提供的訓練例子,使用貝葉斯學習算法,從Web提取圖書的標題等信息,推薦圖書[1]。其特點是,算法簡單,查準率和查全率較高。但是內容提取的能力有限,面對高校的數(shù)量龐大,內容復雜的信息資源難以準確全面進行內容挖掘。而基于關聯(lián)規(guī)則的推薦是根據(jù)用戶瀏覽或者購買的日志生成規(guī)則,通過生成的規(guī)則來推算用戶可能還會對哪些商品感興趣[2],最早的基于關聯(lián)規(guī)則的推薦系統(tǒng)有IBM的Websphere,ILOG和BroadVision等等。在圖書推薦領域,引用關聯(lián)規(guī)則是為了發(fā)現(xiàn)借閱記錄中不同圖書之間的關聯(lián)規(guī)則,當多本書存在一定的置信度,支持度,則存在一定的關聯(lián)[3]。其特點是,算法復雜,查準率較高,但同時它無法發(fā)現(xiàn)讀者的新的或者隱含的閱讀興趣,容易生成無效的規(guī)則。基于協(xié)同過濾的推薦思想是認為用戶的興趣偏好是可以通過具有類似行為或偏好的用戶群進行分析和預測得出的,利用最近鄰預測技術,預測當前用戶可能感興趣的項目[4]。它適用于在有足夠的用戶數(shù)據(jù)的時候,可以向具有相同興趣偏好的用戶推送受歡迎的推薦,但是數(shù)據(jù)往往是稀疏的[5]。

在高校的特定的信息環(huán)境中,館藏資源數(shù)量龐大,類型各異且學科覆蓋廣泛,大量的跨學科,跨專業(yè)乃至新型學科和邊緣學科圖書的存在,造成基于內容的圖書推薦系統(tǒng)所構建的模型很難全面準確表征圖書資源的內容,因此推薦質量比較低,難以滿足高校師生對推薦資源的個性化的需求。高校圖書館讀者較高的借閱頻次,相似的知識結構以及共同的知識背景,使得高校圖書館存在著大量相似度較高的借閱記錄,基于規(guī)則的推薦難以提供產(chǎn)生合適的關聯(lián)性規(guī)則,最終難以推薦符合讀者個性化需求的圖書資源。

基于以上的研究,為了達到更好的推薦效果,可以將讀者進行分類,構建出讀者的學習風格模型,根據(jù)讀者表現(xiàn)出的具體的學習風格,推薦符合其學習特征的圖書,并依據(jù)該模型采用改進的協(xié)同過濾算法開展個性化的圖書推薦,以較低的計算復雜度,挖掘包含讀者潛在興趣在內的個性化信息需求,達到為高校讀者提供高質量的個性化的圖書推薦服務的目的。

2 基于協(xié)同過濾的個性化圖書推薦模型

傳統(tǒng)的基于項目評分的協(xié)同過濾算法僅依據(jù)用戶的信息獲取行為及評分情況進行預測,缺乏對觸發(fā)用戶信息需求動因的深層次的分析,因此無法從本質上保證預測結果的準確性,而且容易造成數(shù)據(jù)稀疏。本文提出一種改進的基于協(xié)同過濾的個性化圖書推薦模型如圖1所示:

在該模型中,當讀者登錄系統(tǒng)時,首先引導用戶進行數(shù)據(jù)量表的數(shù)據(jù)測試,顯式地將用戶進行分類,并構建出讀者的模型庫。當新的讀者登錄系統(tǒng)并已經(jīng)擁有了自己的學習特征風格時,就在讀者模型庫中找到其候選的最近鄰集,再根據(jù)最近鄰集構建User-Item矩陣,并產(chǎn)生目標讀者的最近鄰,最后根據(jù)目標讀者最近鄰的閱讀行為挖掘出與讀者個性化需求相匹配的圖書,實現(xiàn)對目標讀者的個性化推薦。

2.1 讀者特征模型的構建以及候選最近鄰的生成

Felder-Silverman量表(也稱所羅門學習風格量表)是由Felder和Solo-man于1997年開發(fā)。它從信息加工,感知,輸入和理解四個方面將學習風格劃分為4組,分為8個維度,包括:活躍型與沉思型,感悟型和直覺型,視覺型和言語型,序列型和綜合型。用于系統(tǒng)前測推斷用戶學習風格,已經(jīng)得到越來越多的研究者的認可,其具有良好的實用性和信效度,能夠比較全面反應學習者的學習風格。

學習者的學習風格是依據(jù) Felder-Silverman 學習風格問卷(Index of Learning Styles Questionnaire,ILS) 推斷出的,該問卷由 44道題目 (每道題有 a,b 兩個選項) 組成,學習風格每種維度都對應 11 道題(如表1所示)。當用戶登錄系統(tǒng)時,首先進行問卷量表的數(shù)據(jù)測試,即進行自我評價的調查。通過問卷的手段,利用文本挖掘技術,建立用戶的學習風格模型。

上表中,當用戶登錄系統(tǒng)時,通過問卷調查,針對系統(tǒng)給出的44道問題開始自我評價,針對每道問題,若符合自己實際情況,則標記對應的a或b為數(shù)字1,最終計算每個維度的總計值,方法為:(較大數(shù)-較小數(shù))+較大數(shù)的字母。若存在某個用戶User1,在第一維度的評分如表1所示,它的第一維度的最終得分為7a,再根據(jù)風格評價指標圖2所示,則User1第一維度上的類型為活躍型,類似地在其他維度上,可以測出其他類型,最終形成了該用戶在四個維度上的學習特征模型。

由此可見,F(xiàn)elder-Silverman 學習風格問卷是一種多方位,多維度的分類標準,以這種標準,用戶的特征可以得到最大限度的確定,方便了系統(tǒng)根據(jù)其學習風格模型進行圖書的推薦,同時由于基于用戶的協(xié)同過濾算法需要和樣本數(shù)據(jù)中的每一個學習者進行興趣相似度的計算,所以存在計算量大的弊端。通過這種顯式的分類,計算用戶間的相似度便集中在了同種學習風格的用戶之間,在一定程度上降低了算法的時間復雜度。因此,通過每位讀者登錄系統(tǒng)前的自測,便給不同的讀者賦予了不同的學習風格特征,每一種特定的學習風格特征集合即為一種候選最近鄰集合UserList,對已登錄讀者的分類結果如讀者分類結果表2所示:

2.2 讀者最近鄰生成

對于每個候選最近鄰集合中的讀者Ui,Ui∈UserList(i),先得到Ui和目標讀者在一定的期限內借閱圖書的瀏覽矩陣BrowseMatrix,利用修正的余弦相似度計算公式計算與讀者最相似的Top-N個讀者作為目標讀者的最近鄰。公式如下:

其中,sim(u1,u2)表示讀者u1和u2的相似度,book表示讀者u1,u2共同產(chǎn)生評分的圖書。

2.3 產(chǎn)生推薦的書目

采用的混合推薦算法包括隨機推薦算法和基于用戶的協(xié)同過濾算法。其中,隨機推薦算法主要可以解決冷啟動和稀疏矩陣問題,挖掘用戶的潛在興趣,提高系統(tǒng)的泛化能力?;谟脩舻膮f(xié)同過濾推薦則是根據(jù)用戶之間的相似度,最大限度地挖掘目標用戶感興趣的圖書。系統(tǒng)設定一個啟用基于用戶協(xié)同過濾算法的閾值TR,當達到此閾值時啟用基于用戶的協(xié)同過濾算法。

基于目標用戶瀏覽矩陣的不同狀態(tài),在初始階段有三種不同的典型特征:1)圖書瀏覽矩陣為空。2)登錄用戶的瀏覽矩陣為空 3)登錄用戶所瀏覽的圖書的數(shù)目不足以達到啟用Users—CF算法進行推薦。此時系統(tǒng)滿足這三種狀態(tài)特征即采用隨機推薦。

在過渡階段主要兩個主要的特征:1)圖書瀏覽矩陣不為空。2)登錄用戶所瀏覽的圖書的數(shù)目不為空,但是達不到要啟用User—CF算法的閾值。過渡階段的推薦仍然需要采用隨機推薦算法進行。

在平穩(wěn)階段,用戶的瀏覽的圖書的數(shù)目足以達到啟用Users-CF算法,此時便可以主要使用Users-CF算法進行推薦,同時,可以在推薦的總數(shù)中設定一定數(shù)目的以隨機推薦算法推薦得到的圖書,從而提高推薦的多樣性,提高系統(tǒng)的泛化能力。

基于用戶的協(xié)同過濾的推薦方法的主要思路是,在某讀者user(i)最近鄰集合User-List(i)中,遍歷每一本存儲在數(shù)據(jù)庫中且用戶已經(jīng)評分過的圖書booki,如果目標用戶沒有瀏覽過該圖書booki,并且讀者最近鄰集合中任意一用戶Ui喜歡該圖書,則將該圖書推薦給目標用戶。算法1顯示了基于用戶協(xié)同過濾算法的改進后的一種混合推薦算法,輸入?yún)?shù)包括用戶的Id,推薦的書目Tn,啟用協(xié)同過濾算法的閾值TR;輸出參數(shù)為通過混和算法最終推薦后的圖書矩陣Tr。

3 圖書資源特征庫的構建

如果新用戶第一次登錄系統(tǒng),進行問卷量表的數(shù)據(jù)測試,根據(jù)其顯式的學習風格特征,并結合候選最近用戶的已有的瀏覽圖書記錄,為新用戶隨機推薦n本圖書,保證該新的用戶有過瀏覽圖書瀏覽的記錄,在新用戶瀏覽圖書時,新用戶可以對隨機推薦的圖書進行顯式或者隱式的打分。所謂顯示的打分,意味著新的學習者,在瀏覽該圖書后主動地給該圖書進行評分,我們在實驗中假定評分的最高分值為5分,如果其打分的分值不小于3分,則代表喜歡該圖書,則在其興趣喜好矩陣中對該圖書標記為1,否則標記為0;所謂隱式的打分,即根據(jù)新的學習者在該圖書瀏覽上停留的時間,進行打分,我們設定一個時間的閾值,如果學習者閱讀的時間達到該閾值,則代表其對這本書感興趣,同樣,在圖書資源特征庫中,對該圖書的瀏覽喜好矩陣中,標記為1,否則,標記為0。

4 實驗結果及分析

實驗數(shù)據(jù)來自西南石油大學數(shù)字圖書館,針對計算機科學學院,理學院,化工院,法學院四個學院,借閱時間在2015年9月1日至2016年3月1日的共計101721條借閱記錄進行清理和處理,借閱記錄中讀者信息包括(讀者ID、借閱時間、實際歸還時間等),同時,圖書信息包括(書名、作者,出版社、出版年、單價和索引號等)。在實驗中基于用戶的協(xié)同過濾算法是基于已有的數(shù)據(jù)集進行的,在本實驗中,我們將實驗數(shù)據(jù)分為兩部分來處理,用經(jīng)過我們清洗和整理的前5000條數(shù)據(jù)作為實驗數(shù)據(jù),后5000條數(shù)據(jù)作為測試數(shù)據(jù),用于驗證該模型的擬合效果和推薦效果。事實上,在初始階段,所有的新的用戶的瀏覽矩陣為空,但是隨著推薦的數(shù)目越來越多,新的瀏覽過的圖書又會被記錄到已有的用戶瀏覽矩陣當中,最終,我們則可以基于用戶的瀏覽矩陣和興趣矩陣計算該推薦模型的召回率和多樣性。

在實驗中,根據(jù)算法中所需要的不同參數(shù),調整參數(shù)值的大小,根據(jù)其之間的相互影響,通過反復實驗,達到最佳的推薦效果。經(jīng)過在相同條件下的反復多次實驗,在實驗1中,我們依次將啟用基于用戶的協(xié)同過濾算法的閾值設置為1,2,3,4,分別實驗了在推薦書目為10,20,30本情況下的召回率。圖-3不同閾值下的召回率實驗結果圖顯示了在推薦書目數(shù)量為20本,最相似的鄰居個數(shù)為40個時,召回率Recall達到峰值0.675。

在實驗2中,設定了用戶的興趣相似度最近鄰為40人,隨著推薦書目的增多,算法多樣性值呈遞增趨勢,當推薦時的書目為40本時,推薦效果的多樣性Diversity達到峰值0.85.最后實驗結果如圖-4不同推薦書目下的多樣性實驗結果圖所示。

實驗的推薦查準率如圖5,推薦差準率結果圖顯示,在推薦20本圖書,并且選擇40個最近鄰時,達到系統(tǒng)的最佳推薦查準率73%,已經(jīng)達到良好的推送質量。

5 結束語

本文提出了一種對讀者學習風格模型的構建的策略,并結合改進后的基于用戶協(xié)同過濾的混合推薦算法,有效地提高了推薦的質量,達到了為讀者提供個性化圖書資源的目的。通過反復多次的仿真實驗,有效地解決了原有的基于用戶協(xié)同過濾算法的稀疏矩陣和冷啟動問題,達到了良好的推薦。

參考文獻:

[1]Raymond J.Mooney, Loriene Roy. Content-Based Book Recommending Using Learning for Text Categorization. In Proceedings of the Fifth ACM Conference on Digital Libraries, 2000: 195-204.

[2]王靜.基于關聯(lián)規(guī)則的圖書銷售網(wǎng)站個性化推薦系統(tǒng)設計與實現(xiàn)[D]. 電子科技大學,2012.6.

[3]陳定權,朱維鳳.關聯(lián)規(guī)則與圖書館書目推薦. 情報理論與 實踐,2009,32(6):81-84.

[4]安德智,劉光明,章恒.基于協(xié)同過濾的圖書推薦模型 圖書情報工作,2011,54(1):35-38.

[5]董坤.基于協(xié)同過濾算法的高校圖書館圖書推薦系統(tǒng)研究. 現(xiàn)代圖書情報技術, 2011(11).

猜你喜歡
個性化推薦協(xié)同過濾
基于用戶評分和項目類偏好的協(xié)同過濾推薦算法
軟件導刊(2016年12期)2017-01-21 14:49:10
基于遠程教育的個性化知識服務研究
東方教育(2016年8期)2017-01-17 19:47:27
圖書推薦算法綜述
改進的協(xié)同過濾推薦算法
基于鏈式存儲結構的協(xié)同過濾推薦算法設計與實現(xiàn)
軟件導刊(2016年11期)2016-12-22 21:40:40
基于相似傳播和情景聚類的網(wǎng)絡協(xié)同過濾推薦算法研究
個性化推薦系統(tǒng)關鍵算法探討
混合推薦算法在電影推薦中的研究與評述
文本數(shù)據(jù)挖掘在電子商務網(wǎng)站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
無線定位個性化導覽關鍵技術在博物館中的運用
永福县| 会昌县| 阳东县| 鹤壁市| 安平县| 改则县| 涡阳县| 青海省| 太和县| 白银市| 嘉善县| 大姚县| 惠水县| 邢台县| 浮山县| 通化县| 大厂| 旺苍县| 大冶市| 象州县| 永州市| 龙江县| 富顺县| 鸡泽县| 麻栗坡县| 马山县| 白山市| 灵川县| 青铜峡市| 织金县| 铁力市| 乌什县| 昌江| 溧阳市| 射洪县| 定边县| 汉沽区| 沿河| 南皮县| 丹凤县| 定西市|