楊倩 梁艷 王艷娥 司海峰 張拓
摘要:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息也呈指數(shù)級(jí)增長(zhǎng),用戶(hù)面臨著信息過(guò)載(information overload)的難題。如何能夠從海量信息中幫助用戶(hù)找到有價(jià)值的信息,這使得個(gè)性化推薦系統(tǒng)具有越來(lái)越重要的作用。本文首先簡(jiǎn)要概述了用戶(hù)偏好,然后分析了用戶(hù)偏好的建模過(guò)程及方法,最后對(duì)基于用戶(hù)偏好的個(gè)性化推薦算法進(jìn)行了重點(diǎn)分類(lèi)闡述,并分析了不同推薦算法的優(yōu)勢(shì)與不足,對(duì)推薦系統(tǒng)更好地挖掘用戶(hù)的興趣偏好,提升個(gè)性化用戶(hù)服務(wù)起到促進(jìn)作用。
關(guān)鍵詞:推薦系統(tǒng);用戶(hù)偏好;用戶(hù)偏好建模;個(gè)性化推薦算法
中圖分類(lèi)號(hào):TP391.3 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)13-0279-02
1引言
如今,我國(guó)的域名規(guī)模已超過(guò)千萬(wàn),網(wǎng)頁(yè)數(shù)量數(shù)以?xún)|計(jì),互聯(lián)網(wǎng)應(yīng)用在生活中的方方面面,如QQ,微信方面的通信服務(wù);直播、短視頻等娛樂(lè)服務(wù);滴滴、共享單車(chē)等外出服務(wù);各種手機(jī)支付的金融服務(wù)等。那么對(duì)于用戶(hù)來(lái)說(shuō),如何在能夠快速地找到自己所需要的信息,這是一個(gè)非常重要的問(wèn)題,也是近年來(lái)學(xué)術(shù)界的研究熱點(diǎn)。以往解決信息過(guò)載有兩種方法:第一種是分類(lèi)目錄展示,第二種是搜索引擎。但是操作非常耗時(shí),且效果不理想。而個(gè)性化推薦系統(tǒng)是一種解決信息過(guò)載的有效方法。它將傳統(tǒng)的“人找信息”變?yōu)椤靶畔⒄胰恕保瑢?duì)人實(shí)現(xiàn)了“按需服務(wù)”。通過(guò)對(duì)用戶(hù)的行為數(shù)據(jù)進(jìn)行分析和整理,進(jìn)而能對(duì)用戶(hù)的偏好進(jìn)行定位,最終滿(mǎn)足對(duì)用戶(hù)的需求。對(duì)于提取用戶(hù)偏好是來(lái)說(shuō),方法是不一樣的,有的是根據(jù)統(tǒng)計(jì)學(xué)理論相關(guān)知識(shí),有的根據(jù)關(guān)聯(lián)規(guī)則的挖掘知識(shí),有的是根據(jù)聚類(lèi)相關(guān)數(shù)據(jù)挖掘技術(shù)。盡管方法各式各樣,但思想基本是相同的:都是通過(guò)收集整理用戶(hù)以往的行為數(shù)據(jù),再對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作后,進(jìn)而找到用戶(hù)的偏好信息,為用戶(hù)提供更快速精準(zhǔn)的體驗(yàn)。
2相關(guān)研究
個(gè)性化服務(wù)系統(tǒng)的關(guān)鍵問(wèn)題是用戶(hù)偏好提取技術(shù),用戶(hù)體驗(yàn)質(zhì)量的好壞取決于它。于歡研究了用戶(hù)偏好模型和用戶(hù)偏好提取技術(shù),并且對(duì)基于用戶(hù)偏好特征的驚喜度評(píng)估準(zhǔn)則和推薦策略問(wèn)題進(jìn)行了分析。何慧嘲針對(duì)目前推薦算法中的數(shù)據(jù)稀疏性問(wèn)題,基于商品類(lèi)別屬性和用戶(hù)評(píng)分矩陣,建立了一種混合推薦算法。陳云峰從顯式(用戶(hù)的評(píng)論)和隱式(用戶(hù)的瀏覽行為)來(lái)分析用戶(hù)的偏好,進(jìn)而給用戶(hù)提供所需信息。姜書(shū)浩針對(duì)不同人對(duì)多樣性偏好的不同,提出一種能夠在尋優(yōu)精度和多樣性之間權(quán)衡的個(gè)性化多樣性?xún)?yōu)化方法。胡川根據(jù)傳統(tǒng)的用戶(hù)偏好融合方法,提出另一種融合方法,此方法不但包含了用戶(hù)偏好融合方法,同時(shí)也包含了推薦融合與模型融合的特點(diǎn)。這些研究成果,對(duì)本文研究基于用戶(hù)偏好的個(gè)性化推薦系統(tǒng)具有良好的指導(dǎo)作用。
3用戶(hù)偏好概述
用戶(hù)偏好也就是相比較而言用戶(hù)更喜歡某一個(gè)事物,這是一種心理傾向,和用戶(hù)的興趣、思維等有很大的關(guān)系。近年來(lái)對(duì)用戶(hù)偏好的研究已經(jīng)滲入到經(jīng)濟(jì)學(xué)、計(jì)算機(jī)科學(xué)等領(lǐng)域。如當(dāng)當(dāng)網(wǎng)等網(wǎng)絡(luò)平臺(tái)通過(guò)收集用戶(hù)的瀏覽和購(gòu)買(mǎi)記錄,進(jìn)而給用戶(hù)推薦圖書(shū);美團(tuán)推薦服務(wù)基于用戶(hù)評(píng)分記錄,向用戶(hù)推薦所需的商品。這些都是根據(jù)收集和分析用戶(hù)的偏好信息,給用戶(hù)推薦所需商品,既提高了用戶(hù)的購(gòu)買(mǎi)效率,也為公司帶來(lái)更大的利益。而用戶(hù)偏好并非是一成不變的,它伴隨著時(shí)間而發(fā)展變化,類(lèi)似于拋物線的變化關(guān)系,可將用戶(hù)偏好分為兩類(lèi),一類(lèi)是長(zhǎng)期偏好,另一類(lèi)是短期偏好。而短期偏好在一定的條件下會(huì)發(fā)展為長(zhǎng)期偏好。如當(dāng)用戶(hù)由于某種原因?qū)σ患挛锂a(chǎn)生了偏好,這種由于一定刺激產(chǎn)生的偏好為短期偏好,此時(shí)其處于活躍狀態(tài),用戶(hù)會(huì)連續(xù)收集與此事物相關(guān)的信息,因此短期偏好會(huì)慢慢地發(fā)展為長(zhǎng)期偏好。
4偏好建模方法
用戶(hù)偏好建模是通過(guò)對(duì)收集到用戶(hù)行為信息進(jìn)行分析,構(gòu)建出數(shù)據(jù)偏好模型的過(guò)程,目的是為了了解用戶(hù)的需求。它是一種利用數(shù)據(jù)來(lái)表達(dá)用戶(hù)不同偏好的模型,并且此模型會(huì)根據(jù)用戶(hù)偏好的變化而更新。建模過(guò)程分為兩個(gè)階段:第一階段:獲取用戶(hù)信息。用戶(hù)有大量的數(shù)據(jù),包括顯式數(shù)據(jù)和隱式數(shù)據(jù)。顯式數(shù)據(jù)一般指用戶(hù)在系統(tǒng)中注冊(cè)或者提交的數(shù)據(jù)信息;隱式數(shù)據(jù)不是用戶(hù)主動(dòng)提交的信息,比如瀏覽痕跡、購(gòu)買(mǎi)記錄等。第二階段:建立用戶(hù)偏好模型:根據(jù)收集到的用戶(hù)信息,分析并研究其偏好,并且將數(shù)據(jù)用適當(dāng)?shù)慕Y(jié)構(gòu)模型來(lái)表示,并且根據(jù)用戶(hù)的數(shù)據(jù)變化而更新模型。
建模方法可分為兩種:定性分析和定量分析。所謂定性分析是指通過(guò)構(gòu)建候選集的排序關(guān)系來(lái)構(gòu)建用戶(hù)偏好模型;而定量分析是指用賦予各個(gè)候選項(xiàng)一個(gè)確定的數(shù)值來(lái)構(gòu)建用戶(hù)的偏好模型。用戶(hù)偏好是一種用戶(hù)的個(gè)人感受,讓計(jì)算機(jī)能夠感知并了解用戶(hù)的情感,從而做出相應(yīng)的操作,進(jìn)而使用戶(hù)獲得自己所需要的東西,提升個(gè)性化服務(wù)水平。
5用戶(hù)偏好的個(gè)性化推薦分析
個(gè)性化服務(wù)系統(tǒng)的代表就是推薦系統(tǒng),它根據(jù)收集到的用戶(hù)行為數(shù)據(jù),分析用戶(hù)的偏好,生成能夠供其選擇的信息排列。這種過(guò)濾系統(tǒng)與傳統(tǒng)的檢索系統(tǒng)的區(qū)別是:其所有的結(jié)果都是根據(jù)用戶(hù)偏好而產(chǎn)生的,同時(shí)根據(jù)反饋結(jié)果快速更新。由于不同的推薦策略,所以對(duì)應(yīng)不同的推薦算法,大致可分為三類(lèi):
(1)根據(jù)內(nèi)容進(jìn)行推薦的算法
根據(jù)內(nèi)容推薦也稱(chēng)為基于內(nèi)容的過(guò)濾系統(tǒng)(Content-BasedFiltering,CBF)。其思想是:對(duì)某個(gè)個(gè)人而言,對(duì)以前感興趣的事物會(huì)表現(xiàn)出更大的興趣偏向。它主要是衡量備選內(nèi)容與個(gè)人偏好的相近程度,進(jìn)而預(yù)測(cè)用戶(hù)對(duì)備選內(nèi)容偏好的程度,二者采用一致的方式,可以是向量空間、貝葉斯模型或者神經(jīng)網(wǎng)絡(luò)模型。根據(jù)內(nèi)容進(jìn)行推薦的模型,方法簡(jiǎn)易,并且結(jié)果的解釋性較強(qiáng),但是由于用戶(hù)偏好模型和項(xiàng)目模型的表征具有局限性,因此產(chǎn)生某種效果后不會(huì)有提升的空間,所以用戶(hù)新的偏好就很難被收集到,也很難產(chǎn)生新的推薦信息。
(2)協(xié)同過(guò)濾推薦算法
協(xié)同過(guò)濾推薦算法(Collaborative Filtering,CB)是一種非常通用的方法。它基于“物以類(lèi)聚,人以群分”的觀點(diǎn),認(rèn)為:如果興趣一致的用戶(hù)都選擇了某個(gè)商品,那么和大家興趣一致的用戶(hù)大概也可能會(huì)對(duì)該商品有較強(qiáng)的偏好;如果用戶(hù)對(duì)某個(gè)商品產(chǎn)生了一定的興趣,那么他也會(huì)更傾向于選擇和該商品相近的商品。協(xié)同過(guò)濾推薦有不同的實(shí)現(xiàn)方式,因此分為:根據(jù)用戶(hù)產(chǎn)生、根據(jù)項(xiàng)目產(chǎn)生和基于模型產(chǎn)生。
根據(jù)用戶(hù)產(chǎn)生指的是:給定一個(gè)用戶(hù),評(píng)分?jǐn)?shù)據(jù),評(píng)分項(xiàng)目。有的項(xiàng)目用戶(hù)沒(méi)有產(chǎn)生評(píng)分,而此時(shí)可以利用和該用戶(hù)有相近的其他用戶(hù)的評(píng)分結(jié)果來(lái)進(jìn)行預(yù)測(cè)。如用戶(hù)a和用戶(hù)b的相似度用函數(shù)表示為:
根據(jù)項(xiàng)目產(chǎn)生的算法思路和根據(jù)用戶(hù)產(chǎn)生的思路是相同的。但隨著時(shí)間的推遲,用戶(hù)偏好會(huì)發(fā)生相應(yīng)的變動(dòng),所以根據(jù)用戶(hù)的算法會(huì)產(chǎn)生推薦結(jié)果不精確。而根據(jù)項(xiàng)目的相似性算法則有較高的準(zhǔn)確度,并且較穩(wěn)定。當(dāng)獲得相似性時(shí),由于每個(gè)用戶(hù)的思維不用,評(píng)價(jià)標(biāo)準(zhǔn)也不同,有的傾向于打較高的分?jǐn)?shù),有的則打的分?jǐn)?shù)較低,所以根據(jù)項(xiàng)目的算法利用余弦相似性來(lái)進(jìn)行分析,項(xiàng)目a和項(xiàng)目b的相似性計(jì)算如下:
根據(jù)用戶(hù)產(chǎn)生的算法和根據(jù)項(xiàng)目產(chǎn)生的算法,都會(huì)采用選近鄰的方法。通常根據(jù)用戶(hù)的算法和根據(jù)項(xiàng)目的算法計(jì)算量都較大,但是評(píng)分只來(lái)自其中一小部分,因此又導(dǎo)致了數(shù)據(jù)稀疏問(wèn)題,使準(zhǔn)確度非常低,效果非常差。再者如果有新的用戶(hù)進(jìn)來(lái),但是之前沒(méi)有相應(yīng)的評(píng)分,所以無(wú)法使用根據(jù)近鄰的方法進(jìn)行處理,這就是所謂的“冷啟動(dòng)”,這個(gè)問(wèn)題也會(huì)影響推薦結(jié)果。而根據(jù)模型的算法則利用和根據(jù)近鄰的算法不同的思想,根據(jù)內(nèi)存中原來(lái)的評(píng)分,采用公式計(jì)算、預(yù)估評(píng)分進(jìn)而得出結(jié)果,這屬于全局推薦。它利用離線計(jì)算收集用戶(hù)一項(xiàng)目的評(píng)分結(jié)果,然后用此模型對(duì)候選項(xiàng)目實(shí)施預(yù)測(cè)。但需消耗大量的資源進(jìn)行訓(xùn)練,而且要經(jīng)常對(duì)模型進(jìn)行更新。
(3)混合推薦算法
不同的推薦算法都有其優(yōu)缺點(diǎn)?;旌夏P蛣t是一種融合了內(nèi)容過(guò)濾方法和協(xié)同過(guò)濾方法的優(yōu)點(diǎn),如果有大量數(shù)據(jù)的前提下,混合模型的推薦結(jié)果更好。它的設(shè)計(jì)形式可以分為三種,分別是整體混合、并行混合及流水線混合。其中,整體混合又包含特征組合混合和特征補(bǔ)充混合兩種方法,并行式混合設(shè)計(jì)又包含交叉混合、加權(quán)混合和切換混合,流水線混合設(shè)計(jì)又包含串聯(lián)混合和分級(jí)混合。這些都是不同的混合算法,在不同的情況下,采用不同的方法。
6結(jié)束語(yǔ)
本文首先對(duì)用戶(hù)偏好作了簡(jiǎn)要概述,然后分析了用戶(hù)偏好的建模過(guò)程及方法,最后重點(diǎn)對(duì)基于用戶(hù)偏好的個(gè)性化推薦算法進(jìn)行了分類(lèi)闡述,并分析了不同推薦算法的優(yōu)勢(shì)與不足,幫助推薦系統(tǒng)更好地挖掘用戶(hù)的興趣偏好,對(duì)提升個(gè)性化用戶(hù)服務(wù)起到促進(jìn)作用。