杜煒威,衛(wèi) 恒
(河南經貿學院 電子工程系,河南 鄭州 450008)
基于關聯規(guī)則個性化推薦系統(tǒng)的工作原理是利用web日志,為每個用戶群建立相應的事務數據庫,并利用關聯規(guī)則技術挖掘出用戶訪問圖書之間的關聯規(guī)則,根據該規(guī)則來建立用戶興趣模型。當用戶再次訪問站點時,推薦系統(tǒng)先對用戶進行識別,得到用戶所屬的用戶聚類,并根據興趣模型向用戶推薦一些他們可能感興趣的尚未訪問的圖書。
利用用戶在訪問Web時的交互性,在用戶和站點之間增加—個推薦過程是關聯規(guī)則的中心思想,它根據用戶的特點先找到匹配用戶群,從而獲得用戶當前的訪問模式,然后由關聯規(guī)則庫對所對應圖書進行推薦,整個操作過程分為在線和離線兩個部分。
1.在線推薦:系統(tǒng)根據用戶訪問特征首先找到匹配用戶群并獲得用戶當前的訪問模式,得到用戶訪問的前n-1個頁面 p1,p2,p3,…,pi,構成規(guī)則的前項,然后由關聯規(guī)則庫對所對應的圖書進行推薦。
2.離線部分:包括對原始數據的預處理、聚類、分類和關聯規(guī)則挖掘算法。在線部分則通過推薦引擎在用戶會話期間根據用戶當前的瀏覽提供動態(tài)的個性化Web頁面推薦,應用于個性化推薦的關聯規(guī)則具有這樣的形式:p1,p2,…,pi=>pc(i=l,2,…,n)。
我們可以這樣理解:當站點的用戶訪問了p1,p2,…,pi圖書后,該站點的推薦引擎為其推薦pc圖書。
用戶的興趣描述就是用戶的個性化信息,它的作用是為了準確描述用戶的興趣,那么我們需要給每個用戶建立一個用戶興趣描述文件(useprofile)后再利用正確的關聯規(guī)則。
挖掘算法可以挖掘出用戶所訪問頁面之間的關聯規(guī)則,并準確地表示用戶興趣。
假設 S 為用戶挖掘到的所有規(guī)則,則 s=(r1,r2,…,rn),ri代表一條挖掘到的規(guī)則,每條規(guī)則又包括前項和后項,ri=(bi,ai),bi表示規(guī)則 ri的前項,ai表示規(guī)則 ri的后項。
定義1:用戶興趣模型描述為三元組組成的集合,即:
Ui={(b1,P1,c1),(b2,p2,c2),…,(bn,pn,cn)}
其中ui表示第i個用戶,bi為該用戶第i條規(guī)則的前項,pi={p1,p2,…,pn}為該用戶規(guī)則集S中所有具有前項為bi的規(guī)則的后項頁面所組成的頁面集合,ci={c1,c2,…,cm},其中 ci為 Pi中 pi(pi=>Pi)頁面的置信度。
定義2:c為被推薦頁面的置信度,它可以確定若干個候選推薦頁面的優(yōu)先級。對于任一用于推薦的關聯規(guī)則:P1,P2,…,pi=>pc(i=l,2,…n),所有推薦的后項 pc 按規(guī)則的置信度降序排列。
首先是源數據的收集過程。以鶴壁職業(yè)技術學院圖書網站2008年5月份第一個星期的日志為例進行分析,日志格式如下:
以上是IP為172.18.9.16的用戶瀏覽了圖書編號為sjs486的1~3頁的內容。
有了源數據后,我們可以對用戶瀏覽和下載的圖書日志進行預處理。
根據IP地址和瀏覽內容對用戶進行分類、聚類,發(fā)現IP地址為172.18.5.1~253的用戶,瀏覽圖書為醫(yī)學類圖書;172.18.6.1~251的用戶,瀏覽圖書為計算機類圖書;172.18.7.1~253的用戶,瀏覽圖書為計算機類圖書等。
然后我們?yōu)槊款愑脩羧航祿?,在此以瀏覽計算機類圖書用戶為例,部分記錄如表1。
表1 瀏覽事務數據
表2 部分圖書編號與名稱對照表
預處理后得到的數據集有2771條會話記錄,共包含99個頁面。我們把數據集的2/3作為訓練集設定最小支持度為40%,進行挖掘以生成推薦的關聯規(guī)則如下:
對于瀏覽計算機類圖書用戶,推薦的第一本書的順序為:
S={英語(B)輔導;support=80%
三級網絡技術教程;support=80%
高數習題集;support=60%;
C語言上機指導;support=40%}
對于瀏覽計算機類圖書用戶,推薦的第二本書的順序為:
S={英語 (B)輔導=>高數習題集;support=40%;confidence=50%;
英語 (B)輔導=>三級網絡技術教程;support=60%;confidence=75%;
高數習題集=>線性代數習題集;support=40%;confidence=67%
高數習題集=>英語(B)輔導;support=40%;confidence=67%
高數習題集=>三級網絡技術教程;support=40%;confidence=67%}等,其他不再贅述。
總結具體推薦步驟如下:
第一步:識別用戶所屬用戶群。
第二步:獲得用戶的訪問模式,也就是獲得用戶訪問的當前圖書和前n-1本圖書p1,p2,…,pi構成規(guī)則的前項。
第三步:在所有規(guī)則集中查找前項和用戶的訪問模式相匹配的,也就是{p1,p2,…,pi}={pa1,pa2,…,pa1}的規(guī)則pa1,pa2,…,pa1=>pc(k 條),規(guī)則的后項所對應的圖書 pc就是在當前訪問模式下所要推薦的圖書。
第四步:把k條規(guī)則的后項所對應的圖書按置信度降序排列,然后按照從大到小的順序選取前m個圖書進行推薦。
第五步:當前窗口下不但顯示用戶當前的訪問的圖書頁面,還顯示被推薦圖書的書目及網址,點擊即可鏈接到對應頁面的URL,該URL對應的頁面成為下一個窗口的當前頁面。
[1]馬文峰,高鳳榮,王珊.論數字圖書館個性化信息推薦系統(tǒng)[J].現代圖書情報技術,2003,2(9):58~59.
[2]張俊,黃水清.國內外數字圖書館個性化信息服務系統(tǒng)的功能與特征比較研究[J].情報理論與實踐,2005,28(6):21~24.
[3]鮑靜.關聯規(guī)則在圖書館個性化服務中的應用[J].科教文匯,2007(9):221~222.
[4]許珂.關聯挖掘在圖書借閱數據庫中的應用[J].福建電腦,2006,7(9):26~27.
[5]李衛(wèi)華,盧雨民,梅紅.淺談數字圖書館個性化信息推薦系統(tǒng)[J].科技廣場,2007,9(2):109~110.
[6]連瑞梅.電子商務中Web頁面?zhèn)€性化推薦系統(tǒng)的架構[J].中國管理信息化,2007,9(9):8~586.
[7]何典,梁英.動態(tài)網頁環(huán)境下的Web使用記錄挖掘研究[J].微計算機信息,2006,2(8):55~56.
[8]鄒麗霞,楊建強.基于關聯規(guī)則挖掘的Web個性化推薦研究[J].內江科技,2007,28(10).
[9]李歌維.Web日志挖掘數據預處理與數字圖書館個性化服務[J].現代情報雜志,2007,5(8):90~91.
[10]金花,黃明,梁旭.基于Frame頁面過濾的Web日志挖掘中的數據預處理方法[J].大連鐵道學院學報,2006,7(2):80~81.