黃麗 石松芳
摘 要:傳統(tǒng)推薦系統(tǒng)存在不以用戶關(guān)注度為導(dǎo)向、推薦信息分散、推薦效率低等弊端,針對(duì)該問題,通過深入挖掘用戶的關(guān)注度特征及瀏覽行為特征,分析用戶的潛在需求,以此為基礎(chǔ),綜合基于類別關(guān)注度的信息推薦、基于主題詞的長期關(guān)注度推薦以及基于協(xié)同過濾的個(gè)性化推薦算法,采用模塊化的設(shè)計(jì)方法,提出一種基于用戶關(guān)注度的個(gè)性化推薦系統(tǒng)。實(shí)踐應(yīng)用表明,該系統(tǒng)能夠幫助用戶從海量信息中快速、準(zhǔn)確地找到自己關(guān)注的內(nèi)容,對(duì)互聯(lián)網(wǎng)個(gè)性化信息服務(wù)具有一定的應(yīng)用價(jià)值。
關(guān)鍵詞:個(gè)性化推薦;用戶關(guān)注度;信息數(shù)據(jù)
DOI:10.11907/rjdk.172779
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)005-0090-03
Abstract:The traditional recommendation system bears the disadvantages of lack of users attention, recommendation information dispersion,low recommendation efficiency, etc.In view of the problems, the system analyzes users potential requirements through in-depth mining of user attention characteristics and browsing behavior characteristics. Information recommendation based on category concern degree, long-term attention recommendation based on keywords and personalized recommendation algorithm based on collaborative filtering are integrated;the personalized recommendation system based on user attention in modular designing is proposed. It is proved that the system can help users find their own contents quickly and accurately from massive information and has application value in Internet personalized information service.
Key Words:personalized recommendation; user attention; information data
0 引言
互聯(lián)網(wǎng)進(jìn)入大數(shù)據(jù)時(shí)代,如何從龐大的數(shù)據(jù)信息中獲取有用信息是當(dāng)前互聯(lián)網(wǎng)研究的重點(diǎn)。搜索引擎通常根據(jù)用戶輸入的關(guān)鍵字返回搜索結(jié)果呈現(xiàn)給用戶,返回的結(jié)果往往是一個(gè)與關(guān)鍵字相關(guān)的巨大信息集合[1]。為了改善移動(dòng)用戶瀏覽體驗(yàn),建立基于用戶關(guān)注度的個(gè)性化推薦系統(tǒng)尤為重要。本系統(tǒng)通過深入挖掘用戶信息、關(guān)注度特征、閱讀內(nèi)容相似度及瀏覽行為特點(diǎn),分析用戶的潛在需求和關(guān)注度偏好,建立推薦模型,從而幫助用戶快速、準(zhǔn)確地找到自己感興趣的信息[2]。
1 基于用戶關(guān)注度的推薦算法
目前比較流行的推薦算法主要有基于內(nèi)容的推薦[3]、基于關(guān)聯(lián)規(guī)則的推薦[4]和協(xié)同過濾推薦[5]。本系統(tǒng)綜合以上推薦算法,并在此基礎(chǔ)上進(jìn)行改進(jìn),主要采用三種推薦算法,分別是基于類別關(guān)注度的信息推薦[6]、基于主題詞的長期關(guān)注度推薦以及基于協(xié)同過濾的個(gè)性化推薦[7]。綜合運(yùn)用這些推薦算法,系統(tǒng)能夠完成用戶信息收集,為推薦提供依據(jù),推薦算法流程如圖1所示。
用戶特征的生成主要分為用戶特征、用戶特征計(jì)算、用戶特征更新頻次以及用戶畫像修正。在基于類別關(guān)注度的信息推薦算法中,用戶特征計(jì)算是對(duì)用戶瀏覽的信息進(jìn)行KL分類處理,通過類別設(shè)置分類標(biāo)簽及類別權(quán)重。通過用戶信息瀏覽記錄可計(jì)算出用戶單日特征向量,這要求獲取用戶點(diǎn)擊過的相同類別文章數(shù)、點(diǎn)擊過文章的總數(shù),以及各個(gè)類別占整體類別的分布。用戶特征更新的計(jì)算方式,主要是將用戶已有歷史的特征向量進(jìn)行衰減(衰減系數(shù)設(shè)為0.85),最后再將單日特征向量同歷史特征向量進(jìn)行疊加。
基于主題詞的長期關(guān)注度推薦模塊,主要是進(jìn)行主題詞提取,提取方法采用基于TextRank的關(guān)鍵詞抽取方法[8]。數(shù)據(jù)源主要來自于用戶行為數(shù)據(jù),既有批量數(shù)據(jù)又有實(shí)時(shí)數(shù)據(jù)。用戶特征主要是指用戶信息、用戶瀏覽列表、新聞主題詞以及特征權(quán)重。特征更新頻次及用戶畫像修正采取實(shí)時(shí)更新的模式,通過用戶瀏覽記錄,得到相應(yīng)的特征向量,同時(shí)將得到的主題詞及相應(yīng)的權(quán)重同用戶已有的歷史特征進(jìn)行疊加。
基于協(xié)同過濾的個(gè)性化推薦[9]是根據(jù)用戶最近關(guān)注的信息進(jìn)行興趣分類,提取用戶最近瀏覽的100條(或者最近72小時(shí))訪問日志,完成用戶相似性計(jì)算,然后對(duì)不同興趣類別用戶進(jìn)行聚類,從聚類結(jié)果中生成最近鄰,并按照用戶興趣在每類項(xiàng)目中所占的權(quán)重分配信息推薦數(shù)目。
2 系統(tǒng)功能模塊設(shè)計(jì)
系統(tǒng)功能模塊主要包括數(shù)據(jù)封裝、推薦引擎、短地址生成、容災(zāi)處理、日志記錄、實(shí)例化推薦引擎調(diào)度、參數(shù)校驗(yàn)和用戶處理等,下面對(duì)其中幾個(gè)主要功能模塊的實(shí)現(xiàn)作簡單介紹。
(1)數(shù)據(jù)封裝。數(shù)據(jù)封裝的主要功能是將推薦的結(jié)果轉(zhuǎn)化成為XML或者JSON兩類,方便后期進(jìn)行調(diào)用。對(duì)于一些固定內(nèi)容,比如ID、Name、短地址或者其它相關(guān)內(nèi)容,都可以采取封裝的形式進(jìn)行處理。數(shù)據(jù)封裝是一個(gè)技術(shù)優(yōu)化的過程,可以有效地避免很多重復(fù)計(jì)算,也是對(duì)數(shù)據(jù)進(jìn)行加密的過程,可確保用戶的隱私以及相關(guān)信息不會(huì)被泄露。
(2)推薦引擎。推薦引擎是系統(tǒng)的核心,該模塊根據(jù)用戶行為特征,得到相應(yīng)的信息推薦列表,提供給用戶查詢以及瀏覽信息,從而進(jìn)行相關(guān)信息的推薦。通過線程池中引擎模塊的使用,獲取引擎的計(jì)算結(jié)果,對(duì)黑白用戶名單進(jìn)行處理,對(duì)信息進(jìn)行整合過濾,并進(jìn)行最終排序,從而獲取數(shù)據(jù)的具體內(nèi)容。候選信息主要是通過調(diào)用接口獲取,如果獲取的信息沒有用,則對(duì)數(shù)據(jù)進(jìn)行放棄;而有用信息,則考慮是否存在限制問題,有限制則按照限制進(jìn)行遍歷,沒有就對(duì)審核的信息進(jìn)行推薦、調(diào)用內(nèi)容整合之后的信息,再將信息存入推薦信息庫中并返回。推薦引擎整體流程圖如圖2所示。
(3)短地址生成。為了方便系統(tǒng)內(nèi)部與外部網(wǎng)站URL的統(tǒng)一,系統(tǒng)專門設(shè)立了短地址生成模塊,方便URL管理。通過短地址可以直接獲取推薦平臺(tái)的相關(guān)信息,包括:推薦引擎、調(diào)用模塊、推薦位、時(shí)間等。短地址生成的主要作用是能夠方便用戶更好地進(jìn)行頁面跳轉(zhuǎn),更快捷地獲取熱點(diǎn)信息,或者用戶關(guān)注的信息,是一種系統(tǒng)優(yōu)化功能,具體流程如圖3所示。
(4)日志記錄。日志記錄也是個(gè)性化推薦系統(tǒng)的關(guān)鍵點(diǎn)。其中,沖浪WAP日志通過WAP日志手機(jī)號(hào)、訪問URL等字段,識(shí)別用戶標(biāo)識(shí)ID以及根據(jù)用戶行為標(biāo)注系統(tǒng)識(shí)別;GN日志是通過GN日志的手機(jī)號(hào)、IMEI號(hào)、URL等字段,識(shí)別用戶標(biāo)識(shí)ID以及根據(jù)用戶行為標(biāo)注系統(tǒng)識(shí)別;客戶端業(yè)務(wù)日志通過客戶端同步用戶標(biāo)識(shí)ID、手機(jī)號(hào)、IMEI號(hào)、訪問內(nèi)容ID、瀏覽時(shí)長、關(guān)注、評(píng)論、轉(zhuǎn)發(fā)等行為日志,識(shí)別用戶標(biāo)識(shí)ID以及根據(jù)用戶的瀏覽和行為特征識(shí)別;推薦接口日志則通過寫本地緩存,根據(jù)接口調(diào)用,將數(shù)據(jù)優(yōu)先寫入到當(dāng)天目錄的rec.log中。通過各種各樣的日志能夠準(zhǔn)確地反映出用戶真實(shí)的關(guān)注度偏好,從而有助于個(gè)性化推薦系統(tǒng)的使用。
(5)實(shí)例化引擎調(diào)度執(zhí)行。在實(shí)例化引擎模塊中,首先讀取推薦引擎配置,這個(gè)過程優(yōu)先從緩存中讀取。如果緩存中不存在或緩存失效,那么就從數(shù)據(jù)庫表t_postmoduleconfig中讀取,然后寫入緩存,有效期為1小時(shí)。接下來讀取用戶個(gè)性化權(quán)重配置,這時(shí)需要查詢表Hbase user_module_weight。將以上參數(shù)匯總,同時(shí)調(diào)用引擎的類,實(shí)例化引擎,并且將引擎放到線程池中。對(duì)引擎進(jìn)行實(shí)例化時(shí),需要讀取ID對(duì)應(yīng)的具體JAVA類,該數(shù)據(jù)記錄在properties配置文件moduleConfig.properties中,并且將各引擎放入線程池調(diào)度執(zhí)行。最后收集引擎執(zhí)行結(jié)果,匯總并返回,具體執(zhí)行流程如圖4所示。
另外,參數(shù)校驗(yàn)對(duì)于系統(tǒng)運(yùn)行是一項(xiàng)基礎(chǔ)性的工作,只有獲取到有效正確的參數(shù),才能對(duì)推薦系統(tǒng)作進(jìn)一步的研究。用戶處理模塊則是對(duì)整個(gè)系統(tǒng)起到用戶前期驗(yàn)證的作用,可以避免一些無效操作,對(duì)于信息采集、系統(tǒng)優(yōu)化也有一定的幫助。
3 部分功能測試結(jié)果
系統(tǒng)以新聞信息個(gè)性化推薦為實(shí)例,功能測試部分統(tǒng)
計(jì)數(shù)據(jù)如表1所示。
對(duì)系統(tǒng)各功能的測試表明,所有用例均達(dá)到預(yù)設(shè)的效果,滿足系統(tǒng)設(shè)計(jì)的目標(biāo)。
4 結(jié)論
個(gè)性化推薦應(yīng)用領(lǐng)域非常廣泛,無論是電子商務(wù)應(yīng)用,還是個(gè)人信息檢索,個(gè)性化推薦服務(wù)都有巨大的應(yīng)用價(jià)值和研究價(jià)值[10]。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,推薦系統(tǒng)各個(gè)模塊的功能也將得到補(bǔ)充和完善??紤]到用戶的需求具有多變性、復(fù)雜性特點(diǎn)[11],可以在后續(xù)研究中不斷改進(jìn)和優(yōu)化。
參考文獻(xiàn):
[1] 彭菲菲,錢旭.基于用戶關(guān)注度的個(gè)性化新聞推薦系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2012,29(3):1005-1007.
[2] 陶俊, 張寧.基于用戶興趣分類的協(xié)同過濾推薦算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(5):55-59.
[3] 張俊杰.基于用戶興趣模型的推薦算法及系統(tǒng)實(shí)現(xiàn)[D].上海大學(xué),2014.
[4] ZHAO Z D, SHANG M S. User-based collaborative-filtering recommendation algorithms on hadoop[A]. Knowledge Discovery and DataMining, WKDD10 Third International Conference on IEEE[C].2010:478-481.
[5] KRZYWICKI A, WOBCKE W, CAI X. Interaction-based collaborative filtering methods for recommendation in online dating[A]. Web Information Systems Engineering-WISE 2010[C]. Springer BerlinHeidelberg,2010:342-356.
[6] PAZZANI M J, BILLSUS D. Content-based recommendation systems[J]. Lecture Notes in Computer Science,2007:325-341.
[7] 韋素云,業(yè)寧.基于項(xiàng)目類別和興趣度的協(xié)同過濾推薦算法[J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2013,49(2):142-148.
[8] SARWAR B M, KARYPIS G, KONSTAN J, et al. Item based collaborative filtering recommendation algorithms[C].Proceedings of the 10th Conference on World Wide Web.New York:ACM Press,2001:285-295.
[9] DESHAPANDE M, KARYPIS G. Item-based top-n recommendation algorithms[J]. ACM Transactions on Information Systems,2004,22(1):143-177.
[10] ZHANG J Y, PEARL P. A recursive prediction algorithm for collaborative filtering recommender systems[A]. Proceedings of the 2007ACM Conference on Recommender Systems[C].ACM, 2007:57-64.
[11] 司書勇.基于用戶興趣模型的精準(zhǔn)信息推薦技術(shù)研究與實(shí)現(xiàn)[D].北京:北京工業(yè)大學(xué),2015.
(責(zé)任編輯:江 艷)