黃瑩
【摘 要】互聯(lián)網(wǎng)的飛速普及使數(shù)字圖書館變成現(xiàn)代圖書館建設(shè)的一個重要維度,為用戶供給越發(fā)優(yōu)秀的圖書加工和組織方法成為了數(shù)字圖書館前進的一個重要方向。數(shù)字圖書推薦能夠結(jié)合讀者的歷史閱讀信息,個人的興趣喜好等數(shù)據(jù),為讀者推薦他應(yīng)該有興趣的書籍。數(shù)字圖書推薦能夠增加圖書資源的使用率,增多閱讀書籍的讀者。本文利用兩種半監(jiān)督聚類算法,改進了一種數(shù)字圖書推薦系統(tǒng)模型。
【關(guān)鍵詞】數(shù)字圖書;推薦系統(tǒng)
0 引言
數(shù)字圖書推薦系統(tǒng)一般分為三個基本模塊:數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊和數(shù)字圖書推薦模塊[1]。數(shù)字圖書推薦系統(tǒng)的簡要推薦過程一般可以歸為五步:(1)采集圖書信息,得到圖書數(shù)據(jù)。(2)通過讀者的個性化界面獲得讀者的行為日志,采集讀者的信息數(shù)據(jù)。(3)將書籍?dāng)?shù)據(jù)和讀者數(shù)據(jù)進行數(shù)據(jù)預(yù)處理。(4)將預(yù)處理之后的數(shù)據(jù)用于數(shù)字圖書推薦模塊,得到最終推薦。(5)把最終推薦結(jié)果在用戶個性化界面進行顯示。本文主要改進的是數(shù)字圖書推薦模塊。
1 數(shù)字圖書推薦模塊
本文主要用基于熵理論的馬氏距離與高斯模型的半監(jiān)督混合聚類算法(SSCMG)和基于馬氏距離與主動學(xué)習(xí)成對約束的半監(jiān)督模糊聚類(SSFCMAP)相結(jié)合,實現(xiàn)數(shù)字圖書的個性化推薦。
數(shù)字圖書推薦模塊的基本步驟為:
Step 1:將讀者行為數(shù)據(jù)采用數(shù)據(jù)預(yù)處理操作,獲得讀者的數(shù)據(jù)矩陣Si;
Step 2:使用SSCMG算法將讀者聚類處理,得到讀者類C;獲得和目標(biāo)讀者同在一個類的其他讀者閱讀圖書的集合矩陣;將書籍矩陣按照借閱次數(shù)進行排序,得到矩陣B;
Step 3:將B矩陣中目標(biāo)讀者已經(jīng)閱讀過的書籍進行過濾,得到矩陣R1,則該矩陣就是第一種聚類圖書推薦集合;
Step 4:對讀者數(shù)據(jù)矩陣Si進行分析,判斷目標(biāo)讀者是否有借閱或點擊圖書的歷史記錄,如果有則繼續(xù)Step 7,否則直接輸出R1,并退出算法。
Step 5:獲得目標(biāo)讀者借閱或點擊圖書的集合列表Li;通過SSCFMAP算法對Li集合中的所有圖書進行聚類,得到和Li集合里圖書同處一類的所有書籍b;按照一定規(guī)則(例如相似度計量)對書籍b采取排序操作;得到矩陣bk;
Step 6:將bk矩陣中目標(biāo)讀者已然閱覽過的圖書進行過濾,得到矩陣R2;則該矩陣就是第二種聚類圖書推薦集合;
Step 7:將矩陣R1和矩陣R2進行線性疊加,然后進行處理,包括去除重復(fù)書籍和按照閱讀量進行排序。最后得到最終推薦結(jié)果矩陣R。
2 推薦系統(tǒng)評估方法
推薦系統(tǒng)的評估指標(biāo)主要有:準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)、E值和覆蓋率[2-3]。
準(zhǔn)確率(Precision)是產(chǎn)生的推薦結(jié)果中讀者喜愛的書籍?dāng)?shù)與推薦結(jié)果的總圖書數(shù)的比例,度量的是推薦系統(tǒng)的查準(zhǔn)率。
其中,Np為推薦結(jié)果里用戶喜歡的物品數(shù)目,L指的是推薦結(jié)果的總數(shù)目。
召回率(Recall)是推薦結(jié)果里用戶喜愛的圖書數(shù)目和所有書籍里用戶喜愛的圖書數(shù)目的比例,衡量的是推薦系統(tǒng)的查全率。
當(dāng)中,Np為推薦結(jié)果里用戶喜歡的圖書個數(shù),B指的是所有圖書中讀者偏愛的圖書個數(shù)。
F值(F-Measure)則是結(jié)合了準(zhǔn)確率和召回率這兩種指標(biāo),是用來反應(yīng)整個推薦系統(tǒng)的綜合質(zhì)量的評估指標(biāo)。
其中,P指的是準(zhǔn)確率,R指的是召回率,α是加權(quán)值。
E值表示的是準(zhǔn)確率和召回率的加權(quán)平均值,也是推薦系統(tǒng)的一個綜合指標(biāo)。
其中,P指的是準(zhǔn)確率,R指的是召回率,b是加權(quán)值。當(dāng)b越大的時候,表示查準(zhǔn)率占的比重越大。當(dāng)P和R中有一個為0時,E值等于1。
覆蓋率是用于衡量是不是所有的商品都有被推薦的機會。
當(dāng)F1值越高的時候,產(chǎn)生的推薦結(jié)果越準(zhǔn)確,推薦系統(tǒng)的機能越高。所以本節(jié)采用F1值這一個評估指標(biāo)對數(shù)字圖書推薦模型進行測試,評估推薦模型的準(zhǔn)確性以及有效性。
3 實驗結(jié)果
本節(jié)實驗數(shù)據(jù)是在Book-Crossing數(shù)據(jù)集[3]里面選擇前五百條評分當(dāng)作訓(xùn)練數(shù)據(jù)。然后從用戶評分集合中隨機選擇十條記錄,包含十位用戶以及他們的一條評分記錄。十條記錄的具體情況見表1。
本文使用式6作為推薦系統(tǒng)的測試指標(biāo),記為F1。那么表1中的十位用戶的F1值如圖1所示。
當(dāng)B值越大的時候,F(xiàn)1值也相應(yīng)的比較高。B值越大說明讀者的信息越多,F(xiàn)1值越大表示推薦系統(tǒng)的推薦質(zhì)量越好,精度越好。由圖1可以看出,相較于EM算法及T-SVM算法,本文構(gòu)建的推薦系統(tǒng)模型的質(zhì)量較好。從圖1中我們還可以發(fā)現(xiàn)當(dāng)用戶有少量的信息之后,的值基本超過百分之六十。其他傳統(tǒng)算法的F1值基本不超過百分之六十。說明本章所提出的數(shù)字圖書推薦模型的推薦效果以及精度相較于其他算法,已經(jīng)得到了一定的提高。綜上所述,本節(jié)提出的數(shù)字圖書推薦模型經(jīng)過仿真實驗,驗證了模型的有效性,該模型是切實(下轉(zhuǎn)第132頁)(上接第152頁)可行的方案。
4 結(jié)語
本章提出了基于半監(jiān)督聚類的數(shù)字圖書推薦系統(tǒng)模型,而且采取了仿真實驗。該模型主要包括三個模塊:數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊與數(shù)字圖書推薦模塊,主要介紹了數(shù)字圖書推薦模塊,它是核心模塊。針對數(shù)字圖書推薦模塊,使用Book-Crossing數(shù)據(jù)集進行了仿真實驗,驗證該模塊的可行性以及有效性。
【參考文獻】
[1]劉瑩.數(shù)字圖書館應(yīng)用模型設(shè)計[J].商情,2010(23):42-45.
[2]王立才,孟祥武,張玉潔.上下文感知推薦系統(tǒng)[J].軟件學(xué)報,2012,23(1):1-20.
[3]孟祥武,胡勛,王立才,等.移動推薦系統(tǒng)及其應(yīng)用[J].軟件學(xué)報,2013,24(1):91-108.
[4]徐敏.高校圖書館采訪管理系統(tǒng)的設(shè)計與實現(xiàn)[D].重慶:重慶大學(xué),2009.
[責(zé)任編輯:朱麗娜]