楊靜 河南大學(xué)軟件學(xué)院
基于用戶特征屬性和云模型的協(xié)同過濾推薦算法
楊靜 河南大學(xué)軟件學(xué)院
互聯(lián)網(wǎng)迅速發(fā)展,用戶之間的互動(dòng)聯(lián)系越來越緊密。但正由于用戶數(shù)量的急劇增長,導(dǎo)致互聯(lián)網(wǎng)信息呈爆炸性增長,信息泛濫是信息時(shí)代的特點(diǎn)之一。有時(shí),這種“信息過載”的問題給用戶帶來了很多干擾,使得他們難以迅速的獲取自身需要的信息。信息檢索技術(shù)中的推薦技術(shù)由此應(yīng)運(yùn)而生并被廣泛的用戶接納認(rèn)可,因?yàn)檫@種技術(shù)能根據(jù)用戶的偏好自動(dòng)推薦與推送相關(guān)的所需要的信息,因此,這種技術(shù)目前已經(jīng)成為當(dāng)前研究的熱點(diǎn)。
用戶特征屬性 云模型 協(xié)同過濾推薦算法
協(xié)同過濾推薦算法是通過對(duì)用戶歷史行為數(shù)據(jù)的挖掘并建立模型進(jìn)行分析,發(fā)現(xiàn)用戶信息的偏好,并在偏好基礎(chǔ)上對(duì)用戶進(jìn)行群組劃分,推薦與用戶偏好相類似的商品。該算法又細(xì)分為兩種算法,一是基于用戶的協(xié)同過濾算法,二是基于物品的協(xié)同過濾算法。
基于用戶的協(xié)同過濾算法是基于相同喜好用戶之間的商品推薦。它通過分析總結(jié)用戶歷史的行為數(shù)據(jù)發(fā)現(xiàn)用戶對(duì)商品或內(nèi)容的喜好程度(如內(nèi)容評(píng)論或分享,商品收藏購買等),并用制定好的分?jǐn)?shù)標(biāo)準(zhǔn)將其數(shù)據(jù)化并度量化。
基于物品的協(xié)同過濾算法是將基于用戶的協(xié)同過濾算法中的用戶替換成物品,兩種算法基本相類似。它通過度量不同的用戶對(duì)不同物品的偏好獲得物品間的關(guān)系,然后通過物品間的關(guān)系判斷,繼而對(duì)用戶推薦相似的物品。
中國工程院院士李德毅最早提出云模型的概念,主要用來處理定性概念與定量描述之間的轉(zhuǎn)換問題。云模型能通過模擬人類的思維方式來劃分事物的屬性,將低概念層的屬性映射的高概念層的屬性數(shù)值,完成定量與定性的相互轉(zhuǎn)化。并且云模型能兼容相鄰屬性值和語言的重疊性,這樣能使發(fā)現(xiàn)的知識(shí)更具有穩(wěn)定性。由于云模型具有較強(qiáng)的隨機(jī)不確定數(shù)據(jù)處理能力,因而能彌補(bǔ)計(jì)算機(jī)系統(tǒng)行為的隨機(jī)性和不確定性,所以將云模型引入入侵檢測(cè)系統(tǒng)中,能增強(qiáng)入侵檢測(cè)系統(tǒng)的檢測(cè)能力和適應(yīng)能力。
云模型是云計(jì)算、云控制、云推理、云聚類等方法的基礎(chǔ),它是云的具體實(shí)現(xiàn)。正向云發(fā)生器是一個(gè)從定性概念到定量表示的過程。反過來,將定量表示到定性概念的過程稱作為逆向云發(fā)生器。不同云的實(shí)現(xiàn)方法可擴(kuò)展到多維云模型,也可構(gòu)成不同類型的云,諸如半云模型、組合云模型、對(duì)稱云模型等。
用戶的消費(fèi)行為是動(dòng)態(tài)的,不同的人生階段對(duì)應(yīng)不同商品和服務(wù)的消費(fèi)行為。比如,幼年時(shí)期,服飾的尺碼購買需求常常變化,針對(duì)營養(yǎng)健康食品的需求也是較大;而在成年階段,服飾尺碼基本不再變化,但是受時(shí)尚引領(lǐng),對(duì)服飾的追求方向發(fā)生變化,而對(duì)于食品的要求有較寬松;等到老年階段,服飾的樣式無足輕重,食物也以易消化為主。這就是用戶的特征屬性,要具體的分析,同一用戶不同階段也會(huì)有不同的特征屬性。同樣,個(gè)人職業(yè)對(duì)消費(fèi)行為模式的影響也比較顯著。職業(yè)水平的高低一定程度上能反映消費(fèi)水平,推薦系統(tǒng)必須對(duì)適宜人群推薦適宜產(chǎn)品,消費(fèi)水平低的用戶提供相對(duì)較低的消費(fèi)產(chǎn)品,對(duì)于高消費(fèi)能力的用戶,主打高端產(chǎn)品。在協(xié)同過濾的算法中考慮用戶特征對(duì)消費(fèi)行為影響的話,能增強(qiáng)協(xié)同過濾算法的推薦效果。
基于用戶特征屬性和云模型的CF算法主體思想:首先通過分析用戶特征屬性,構(gòu)成用戶的行為矩陣,然后進(jìn)行云模型計(jì)算。將計(jì)算的單個(gè)評(píng)分作為“云”,再將每個(gè)用戶的所有“云”構(gòu)成“云滴”,根據(jù)這個(gè)關(guān)系來計(jì)算用戶之間的相似性。算法流程如下:
算法的輸入:用戶的歷史行為分析評(píng)分?jǐn)?shù)據(jù)集合Data、加權(quán)因子以及由用戶屬性信息構(gòu)成的user文件。
算法的輸出:Ru對(duì)Ii的預(yù)測(cè)分?jǐn)?shù)。
Step1數(shù)據(jù)預(yù)處理
對(duì)用戶的行為數(shù)據(jù)進(jìn)行預(yù)處理。得到源輸入矩陣Ru和i,即:
根據(jù)用戶屬性信息描述user文件采集得到用戶特征屬性矩陣
Step2計(jì)算用戶評(píng)分特征向量
根據(jù)所得的源評(píng)分矩陣,統(tǒng)計(jì)每個(gè)用戶所給出的對(duì)應(yīng)等級(jí)的評(píng)分次數(shù)u1-u5。Step3計(jì)算用戶相似度
用戶的綜合相似度矩陣sim ,計(jì)算公式如下
Step4產(chǎn)生推薦集
通過Step3得出的用戶相似度矩陣找出矩陣的最近鄰居,然后獲得最近鄰居集合Fu={F1,F2,…,FK},以F1與目標(biāo)用戶的相似度為最大,F(xiàn)2次之,以此類推到FK。然后通過使用以下公式預(yù)測(cè)得到最終的評(píng)分結(jié)果。
用戶特征屬性和云模型的協(xié)同過濾推薦算法利用了云模型計(jì)算用戶間的相似程度,解決了傳統(tǒng)算法因缺少數(shù)據(jù)對(duì)象屬性而無法計(jì)算的問題。然后通過使用影響因子解決了新用戶加入造成的影響。協(xié)同過濾推薦算法的局限性是無法緩解傳統(tǒng)算法數(shù)據(jù)的稀疏性問題。
互聯(lián)網(wǎng)的發(fā)展引發(fā)了信息量的爆炸式產(chǎn)生。供應(yīng)商為了增強(qiáng)互聯(lián)網(wǎng)用戶的信息精準(zhǔn)獲取的體驗(yàn),滿足用戶及時(shí)獲取需求信息的要求,從而給自己帶來更多的收益,研究開發(fā)出了針對(duì)用戶需求的個(gè)性化定制系統(tǒng)。通過搜集用戶的互聯(lián)網(wǎng)活動(dòng)的信息數(shù)據(jù),分析挖掘用戶的偏好,然后針對(duì)不同的互聯(lián)網(wǎng)用戶推薦并提供針對(duì)性的產(chǎn)品,滿足用戶需求。
[1]趙文濤,成亞飛,王春春.基于Logistic時(shí)間函數(shù)和用戶特征的協(xié)同過濾算法[J].計(jì)算機(jī)應(yīng)用與軟件,2017,(02):285-289+312.
[2]張星,劉帥.感知用戶的Item-based協(xié)同過濾算法[J].信陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,(01):125-128.
[3]張莉,秦桃,滕丕強(qiáng).一種改進(jìn)的基于用戶聚類的協(xié)同過濾算法[J].情報(bào)科學(xué),2014,(10):24-27+32.
楊靜(1997-),河南開封人,河南大學(xué),本科,研究方向:大數(shù)據(jù)、計(jì)算機(jī)算法。