陳傳敬 陳琳
摘? 要:本文在基于現(xiàn)有的個性化推薦研究基礎(chǔ),提出了用戶情境和文本內(nèi)容組合推薦的方法,并構(gòu)建了用戶興趣矩陣模型,設(shè)計了一套個性化推薦系統(tǒng)。本系統(tǒng)可以依據(jù)移動用戶的偏好為用戶提供推送服務(wù)。該系統(tǒng)由移動端及云平臺服務(wù)器構(gòu)成,移動端對用戶信息進行采集,并展示推薦數(shù)據(jù);服務(wù)器端收集來自移動端的數(shù)據(jù),展開數(shù)據(jù)分析,構(gòu)建用戶興趣模型,結(jié)合文本處理技術(shù)獲取推薦內(nèi)容,推送給移動用戶。
關(guān)鍵詞:文本處理;個性化推薦;情景;興趣矩陣
中圖分類號:TP311? ? ?文獻標識碼:A
Abstract:Based on the previous studies of personalized recommendation,this paper proposes a combined recommendation method of user context and text content,constructs a user interest matrix model,and designs a personalized recommendation system.This system can provide push service for users according to their preferences.The system is composed of mobile terminal and cloud platform server,in which the mobile terminal collects user information and displays recommendation data.The server collects data from mobile terminal,launches data analysis,builds user interest model,obtains recommendation content with text processing technology,and pushes it to mobile users.
Keywords:text processing;personalized recommendation;scenario;interest matrix
1? ?引言(Introduction)
隨著移動用戶需求的不斷提升,現(xiàn)有的個性化推薦逐漸不能滿足用戶。因此,將個性化推薦與移動網(wǎng)絡(luò)技術(shù)的結(jié)合成為優(yōu)化的選擇,研究個性化推薦,提取用戶偏好及個人信息、推算服務(wù)矩陣模型、文本相似度匹配、優(yōu)化相似度算法有助于提高用戶認可度。
與桌面計算機相比,在移動環(huán)境中工作的移動電話,PAD等設(shè)備有著高實時性和方便性的特點,但局限于屏幕尺寸、網(wǎng)絡(luò)傳輸及信息處理能力。移動用戶的位置和周邊的環(huán)境都有可能在隨時間變化。因此需要提取移動用戶情景信息數(shù)據(jù)學(xué)習,深入探索移動用戶興趣點,并過濾不符合用戶需求的信息,提高服務(wù)移動用戶的質(zhì)量。
Kbaier[1]等人采用混合推薦方法;LeiShi[2]等使用決策樹創(chuàng)建用戶組,向用戶提供推薦;Chiliguano[3]等提出卷積神經(jīng)網(wǎng)絡(luò)提取事物特征; Qiudan Li等人提出了基于協(xié)同過濾的移動商務(wù)服務(wù),采用了多維矩陣模型;基于Android平臺開發(fā)的AppBrain通過Android API接口來檢測用戶近期安裝的應(yīng)用,并查找同類應(yīng)用向用戶推薦;基于iPhone平臺開發(fā)的一款應(yīng)用AppsFire,采用了基于社會化信息流的方法進行推薦。
本文研究提出了移動環(huán)境下個性化推薦矩陣模型系統(tǒng)(Personalized Recommendation Matrix Model System),并對該系統(tǒng)的結(jié)構(gòu)、框架、核心技術(shù)等進行研究。系統(tǒng)獲取位置等情景信息,混合內(nèi)容推薦個性化推薦技術(shù)分析客戶行為,構(gòu)建用戶偏好矩陣模型,提高智能化推薦的性能。
2? ?相關(guān)工作(Related research)
個性化推薦系統(tǒng)是智能化的用于挖掘有效數(shù)據(jù)的平臺。推薦系統(tǒng)可分為三個部分[4],用戶模型構(gòu)建、推薦矩陣模型構(gòu)建、推薦運用。用戶模型構(gòu)建中,采集信息方式有隱式瀏覽信息、顯式瀏覽信息、關(guān)鍵字和行為屬性、用戶評分、用戶書面評價、用戶歷史關(guān)注。推薦矩陣模型構(gòu)建可采用多種推薦算法,常用的推薦算法有基于內(nèi)容的推薦、基于協(xié)同過濾的推薦及多種推薦技術(shù)結(jié)合的推薦等技術(shù)。
基于內(nèi)容的推薦[5],根據(jù)瀏覽歷史構(gòu)建用戶興趣模型,對項目內(nèi)容特征提取構(gòu)建項目特征模型,分析得出用戶興趣模型和項目特征模型之間的匹配度,根據(jù)匹配程度做出推薦。其特征集是文本關(guān)鍵詞的集合,進行文本詞頻率及其逆文檔頻率的數(shù)據(jù)統(tǒng)計。其優(yōu)點是效率高,不存在數(shù)據(jù)稀疏性或冷啟動。缺點是不利于特征集提取,無法處理復(fù)雜的文本特征,對音頻、視頻信息無法特征推薦。
基于協(xié)同過濾的推薦[6],有相同興趣的用戶或物品構(gòu)成集合,根據(jù)相似程度進行推薦。如果一個物品是和當前用戶有著很大興趣相似度的用戶所喜歡的物品,那么當前用戶也往往會喜歡該物品;如果用戶想購買某件物品,而另一件物品和這一物品有很大相似性,那用戶也會購買另一物品。
協(xié)同過濾算法的優(yōu)點是,可以用于文字內(nèi)容推薦,也可以用于視頻、音樂、相片等非文本內(nèi)容,用途廣。缺點是存在數(shù)據(jù)稀疏性、冷啟動及擴展性問題。
針對上述問題本文提出了基于移動用戶情境和文本內(nèi)容組合推薦的方式,彌補上述缺點,提高推薦系統(tǒng)精確性、穩(wěn)定性。
3? 信息的收集處理(Information collection and processing)
移動信息收集處理包括用戶信息、項目信息、情景信息。用戶信息可以是用戶的喜好或特征;項目信息是系統(tǒng)中待推薦項目附加的各種屬性;情景信息綜合了用戶的周圍環(huán)境,如當前位置、天氣、時間。通過提取用戶的個人信息、項目信息和周圍情景,并交服務(wù)器模型處理,對用戶潛在喜好推測,達到推薦目的。
移動用戶信息包括基本信息和行為信息。每個用戶基本信息可以用一維矩陣表示,,代表第i個用戶的信息矩陣,矩陣中存儲用戶編碼、姓名、性別、年齡、教育程度、婚否、描述、移動終端碼。行為信息是指用戶對項目的瀏覽次數(shù)、點擊趨勢、地理坐標。用戶行為信息一維矩陣表示為 代表第i個用戶的行為矩陣,矩陣中存儲用戶編碼、點擊次數(shù)、是否收藏、是否分享、查閱時間、經(jīng)度、維度,行為信息能體現(xiàn)用戶興趣。
項目信息是將要被推薦的項目的特征屬性的信息,覆蓋面廣,可以是文本、歌曲、視頻或者是一件商品。項目屬性會因項目而異,如餐廳的推薦,項目信息是指餐廳的種類、菜系、價格等因素;如旅游地點,項目信息是門票價格、景點地點、優(yōu)惠時間、開放時間等;如音樂推薦,項目信息是作曲家名稱、歌手名稱、歌曲風格等。本文以旅游項目為例建立項目特征矩陣模型。
項目信息模型矩陣為用戶二維空間矩陣,橫軸i表不同的興趣領(lǐng)域,如吃、住、娛、游、購;數(shù)軸j代表i領(lǐng)域下不同的實體項目,實體項目又包含眾多特征屬性。
實體特征矩陣包括,實體編碼、名稱、圖片信息、價位、交通狀態(tài)、開放時間、聯(lián)系方式、描述,實體項目矩陣將項目信息模型延伸為三維矩陣模型,作為項目特征集。
情境是用戶附近環(huán)境的相關(guān)信息的集合體,可以是時間、天氣、用戶位置、服務(wù)的網(wǎng)絡(luò)、移動終端,且能對用戶決策造成影響。本文采用時間、位置情景信息構(gòu)建情境模型。
情境模型為一維矩陣模型,包括編碼信息、用戶編碼、時間、經(jīng)度、維度??捎涗浻脩魹g覽信息時間、位置等信息。本文采用移動蜂窩網(wǎng)絡(luò)基站定位來確定用戶的位置,時間信息和終端狀況可直接通過移動用戶終端獲取,將這些情景信息通過移動網(wǎng)絡(luò)傳遞給服務(wù)器端。
4? ?用戶模型的構(gòu)建(Construction of user model)
本文的用戶模型綜合考慮了用戶、文本和情景三個要素,采用矩陣、用戶興趣度及向量空間模型方式結(jié)合表示。該模型能夠分析用戶的歷史情景,得到個體行為模型,對歷史瀏覽項目學(xué)習,將其文本信息作為訓(xùn)練語料,提取項目文本特征詞并建立特征詞矩陣,用以標識特征詞及其對應(yīng)的概率關(guān)系,通過建立的特征詞矩陣計算用戶與待推薦項目文本的相似概率,進行相似度計算得到用戶對待推薦項目的興趣度,從待推薦項目中找到合適的推薦項目。綜合分析情景和用戶的興趣度,二者結(jié)合構(gòu)成本模型。
4.1? ?情境計算
情景可以認為由n個情景屬性構(gòu)成,定義成:
上式中分別對應(yīng)著情景的屬性值。
用戶當前狀態(tài)的情景和歷史情景的相似值可定義成:
代表在用戶以往的情景信息里,情景屬性值的數(shù)目。
4.2? ?文本特征提取
每個實體項目都有對應(yīng)的文本內(nèi)容,可對其特征提取獲取特征詞和特征詞權(quán),并重構(gòu)成的向量空間的模型。
一篇文檔可以表示成:
文檔是第個項目的文本內(nèi)容,是第個項目文本中的第個特征詞,是第個項目中的第個特征詞在當前文本中所占權(quán)重值,是文檔中的所含有的特征詞的數(shù)目。
采用TF-IDF方法統(tǒng)計特征詞權(quán)重的式子定義為:
其中,是文本,是一個詞語,為在中的所占的權(quán)重,為在里的詞頻,N是所有應(yīng)用到的訓(xùn)練文本的總的數(shù)目,為所有文本中有出現(xiàn)的文本數(shù)目,也可以說成是的文檔頻度。
用戶在多次使用移動旅游客戶端后,其瀏覽過的項目文本的集合可以定義為:
用戶瀏覽或點擊過的第個項目文本為記為,其中用來表示第個項目文本中出現(xiàn)的第個特征關(guān)鍵詞,表示第個特征關(guān)鍵詞在項目文本中所占有的權(quán)重,還有代表在項目文本的特征關(guān)鍵詞的總數(shù)。
項目文本集合的的特征詞權(quán)重矩陣可以表示成:
上述矩陣中,代表第i個文本中的第j個特征詞的權(quán)重值的大小。
4.3? ?興趣度計算
為與、相關(guān)的隨機變量,和分別代表用戶對項目的瀏覽次數(shù)和評分的多少,、、是和、不相干的參數(shù),代表著隨機產(chǎn)生的誤差,該方程為一個多線的正態(tài)線性回歸方程。
將用戶興趣度運用到文本權(quán)重矩陣:
上式中,為移動手機用戶對第i個文本的興趣度。將用戶興趣度和特征詞的權(quán)重相關(guān)聯(lián),可計算用戶對各項目興趣度,得到最佳推薦。
5? ?結(jié)論(Conclusion)
本文采用情景構(gòu)建移動用戶模型,作為為個性化推薦依據(jù)。計算用戶當前情景和歷史情景的相似值,和當前情景相似值最高的歷史情景下的項目信息優(yōu)先推薦給用戶。運用自然語言處理知識,對項目文本內(nèi)容作分詞處理,提取特征關(guān)鍵詞并計算各個特征詞在文本中的權(quán)重值,建立特征詞矩陣。根據(jù)用戶行為信息,分析用戶瀏覽、分享、收藏項目的情況,結(jié)合特征詞矩陣構(gòu)建用戶的興趣特征集合。將用戶興趣集合中的文本和待推薦項目作相似性的計算,根據(jù)得出相似度值做順序排序,向用戶推薦。
參考文獻(References)
[1] Kbaier M E B H,Masri H,Krichen S.A personalized hybrid tourism recommender system[C].International Conference on Computer Systems and Applications.Hammamet:IEEE,2018:244-250.
[2] Shi L,Zhao WX,Shen YD.Local representative-based matrix factorization for cold-start recommendation[J].ACM Transactions on Information Systems,2017,36(2):1-28.
[3] CHILIGUANO P,F(xiàn)AZEKAS G.Hybrid music recommender using content-based and social information[C].IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2016:2618-2622.
[4] Bobadilla J,Ortega F,Hernando A,et al.Recommender systems survey.Knowledge-Based Systems,2013(46):109-132.
[5] SHI Y,LARSON M,HANJALIC A.Collaborative filtering beyond the user-item matrix:A survey of the state of the art and future challenges[J].ACM Computing Surveys(CSUR),2014,47(1):1-45.
[6] Breese J S,Heckerman D,Kadie C.Empirical analysis of predictive algorithms for collaborative filtering[J].Uncertainty in Artificial Intelligence,2013,98(7):43-52.
作者簡介:
陳傳敬(1989-),男,碩士,助教.研究領(lǐng)域:計算機應(yīng)用.
陳? ? 琳(1992-),男,碩士,助教.研究領(lǐng)域:圖形圖像處理.