国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶協(xié)同過濾的電子商務(wù)推薦算法

2015-12-28 12:44
北方經(jīng)貿(mào) 2015年11期
關(guān)鍵詞:相似性關(guān)聯(lián)協(xié)同

楊 登

(吉林化工學(xué)院經(jīng)濟管理學(xué)院,吉林吉林 132022)

一、研究背景

現(xiàn)今正從信息時代邁向推薦時代。明尼蘇達大學(xué)教授John Riedl提出“推薦系統(tǒng)將成為未來十年里最重要的變革,社會化網(wǎng)站將由推薦系統(tǒng)所驅(qū)動”。作為電子商務(wù)先驅(qū)者,Amazon實現(xiàn)了35%的銷售額來自其推薦系統(tǒng)。美國ChoiceStream公司調(diào)查顯示:普通消費者中的45%、高端消費者中的69%更更愿意選擇有推薦功能的網(wǎng)站;消費者購物前平均查看的商品個數(shù)在推薦系統(tǒng)幫助下由11.7下降到6.6;有推薦系統(tǒng)時選擇更優(yōu)的產(chǎn)品的消費者占比從65%上升到93%;有推薦系統(tǒng)的幫助消費者將更改初始選擇的比率從60%下降到2l%。

二、電子商務(wù)個性化推薦系統(tǒng)

(一)定義

Resnick和Varian在1997年提出了個性化推薦系統(tǒng)定義:“個性化推薦系統(tǒng)是利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程”。

(二)用戶偏好數(shù)據(jù)

推薦系統(tǒng)要想推薦結(jié)果能夠反映出用戶的偏好,需要用戶偏好數(shù)據(jù)的支撐。收集用戶偏好數(shù)據(jù)是個性化推薦系統(tǒng)的重要工作,用戶偏好數(shù)據(jù)的質(zhì)量決定推薦的質(zhì)量。用戶偏好數(shù)據(jù)可分為顯式數(shù)據(jù)和隱性數(shù)據(jù)兩類。

1.顯式數(shù)據(jù)。顯式數(shù)據(jù)要求用戶主動地向系統(tǒng)提供本人的各種信息包括偏好信息,主要是通過特定的網(wǎng)頁直接請求用戶顯式輸入一些個人信息,包括對某些商品的數(shù)值評分,也包括用戶注冊的個人基本信息,如姓名、性別、年齡、生日、背景等。用戶不情愿的輸入個人信息數(shù)據(jù)導(dǎo)致用戶評分數(shù)據(jù)的極為稀疏,這是顯式評分方式的明顯缺點。稀疏的評分數(shù)據(jù)導(dǎo)致推薦系統(tǒng)推薦質(zhì)量的下降。

2.隱性數(shù)據(jù)。隱性數(shù)據(jù)的收集方式主要是從系統(tǒng)的服務(wù)器上收集訪問日志和各類網(wǎng)絡(luò)資源的過程,數(shù)據(jù)的獲取過程其實是采用網(wǎng)絡(luò)數(shù)據(jù)挖掘的方法,以網(wǎng)絡(luò)內(nèi)容挖掘和網(wǎng)絡(luò)使用挖掘為主,然后進行數(shù)據(jù)的預(yù)處理。

用戶興趣偏好的收集過程是學(xué)習(xí)、分析、明確用戶的需求的過程。用戶的的需求會表現(xiàn)在與系統(tǒng)進行交互的瀏覽行為,比如用戶經(jīng)常訪問的頁面集,用戶的點擊,收藏歷史,瀏覽時間,拉動滾動條的次數(shù),鼠標點擊區(qū)域,鍵盤輸入輸出等有關(guān)操作等,推薦系統(tǒng)將這些用戶行為信息記錄并轉(zhuǎn)化為反映用戶興趣偏好的數(shù)據(jù)模型,再應(yīng)用于推薦生成。隱式數(shù)據(jù)依靠行為科學(xué)的研究結(jié)論,其優(yōu)勢在于:①數(shù)據(jù)獲取的自動化程度高,用戶在訪問系統(tǒng)時不需要做其額外的事情,降低了用戶與系統(tǒng)交互的工作量。②數(shù)據(jù)收集的“成本”較低。③各種隱式數(shù)據(jù)能結(jié)合起來生成更精確的偏好信息。

但是相對于顯式數(shù)據(jù),隱性數(shù)據(jù)的缺點也非常明顯,就是對它的獲取難度大、對用戶偏好進行模型化的可信程度偏低。一般情況下,用戶的興趣偏好表現(xiàn)的多樣性和動態(tài)性,所以為了提高收集數(shù)據(jù)的質(zhì)量,在很多實際應(yīng)用中都采用混合式,即顯示數(shù)據(jù)和隱性數(shù)據(jù)混合收集,優(yōu)勢互補,目的是為了更加真實、全面地獲取用戶的偏好信息。

三、電子商務(wù)推薦算法的研究

(一)基于內(nèi)容的推薦算法

基于內(nèi)容的推薦算法需要分析電子商務(wù)網(wǎng)站的資源內(nèi)容信息,根據(jù)用戶興趣建立用戶檔案,用戶檔案中包含了用戶的品位、偏好和需求信息。然后根據(jù)資源內(nèi)容與用戶檔案之間的相似性向用戶提供推薦服務(wù)。在一個這樣的系統(tǒng)中,通常采用相關(guān)特征來定義所要推薦的物品。

(二)基于規(guī)則的推薦算法

隨著數(shù)據(jù)挖掘的興起,關(guān)聯(lián)規(guī)則被應(yīng)用于推薦系統(tǒng),形成了一種新的推薦技術(shù)基于規(guī)則的推薦技術(shù)。基于規(guī)則的推薦技術(shù)在評價表上挖掘項目間的關(guān)聯(lián)規(guī)則(項目關(guān)聯(lián))和用戶間的關(guān)聯(lián)規(guī)則為當(dāng)前用戶進行推薦。使用項目關(guān)聯(lián)進行推薦時,每條項目關(guān)聯(lián)的前件相當(dāng)于一個興趣組,而規(guī)則的后件則相當(dāng)于這個興趣組的推薦。如果當(dāng)前用戶對該規(guī)則前件中的所有項目都喜歡,那么就把規(guī)則的后件以一定可信度推薦給當(dāng)前用戶。而使用用戶關(guān)聯(lián)進行推薦時,用戶關(guān)聯(lián)的后件必須是當(dāng)前用戶,使用用戶關(guān)聯(lián)的前件中的用戶的共同興趣模擬當(dāng)前用戶的興趣,模擬的可信度就是用戶關(guān)聯(lián)的可信度,以此作為推薦的依據(jù)。

(三)協(xié)同過濾推薦算法

協(xié)同過濾主要是以屬性或興趣相近的用戶經(jīng)驗與建議作為提供個性化推薦的基礎(chǔ)。透過協(xié)同過濾,有助于搜集具有類似偏好或?qū)傩缘挠脩?,并將其意見提供給同一集群中的用戶作為參考,以滿足人們通常在決策之前參考他人意見的心態(tài)。協(xié)同過濾推薦是迄今為止最成功的個性化推薦技術(shù),被應(yīng)用到很多領(lǐng)域中,協(xié)同過濾相當(dāng)突出的優(yōu)點是其決策基礎(chǔ)是“人”而不是“內(nèi)容的分析”,能針對任何形態(tài)的內(nèi)容進行過濾,更能處理相當(dāng)復(fù)雜和艱難的概念呈現(xiàn),以獲得意料之外的結(jié)論。

四、基于用戶的協(xié)同過濾

基于用戶的協(xié)同過濾推薦根據(jù)相似用戶群的觀點來產(chǎn)生對目標用戶的推薦。基本思想是如果某些用戶對部分項目的評分趨于一致或是很接近,可以認為他們對其他項目的評分差異就比較小,進一步,可以使用這些相似用戶的項目評分值對目標用戶的未評分項目進行估計。

基于用戶的協(xié)同過濾使用數(shù)理統(tǒng)計的方法來尋找與目標用戶有相似興趣偏好的最近鄰居用戶集合,再以最近鄰居用戶對特定項目的評分為基礎(chǔ)使用一定的數(shù)學(xué)方法來預(yù)測目標用戶對該特定項目的評分,而預(yù)測評分最高的前N個商品可以看作是用戶最有可能感興趣top-N商品返回給目標用戶(這就是所謂的top-N推薦)。

基于用戶的協(xié)同過濾推薦算法的核心思想是利用數(shù)理統(tǒng)計的方法為目標用戶尋找他的最近鄰居用戶集,再以最近鄰居用戶對特定項目的評分為基礎(chǔ)使用一定的數(shù)學(xué)方法來預(yù)測目標用戶對該特定項目的評分,最終產(chǎn)生推薦結(jié)果。通過最近鄰居用戶對目標用戶未評分項目的評分值進行加權(quán)平均來逼近,這是該算法思想的關(guān)鍵?;谟脩舻膮f(xié)同過濾推薦算法的主要工作有:用戶之間相似性的衡量、最近鄰居集的查找和評分預(yù)測值的計算。

由上引入,這里對基于用戶的協(xié)同過濾推薦算法過程進行分析,該過程大致可以劃分成以下三個階段。

(一)數(shù)據(jù)表示

按用戶對項目的評分情況進行建模,有效度量用戶之間的相似性。在基于用戶的協(xié)同過濾推薦算法中,數(shù)據(jù)源是用戶對商品的評分信息。算法必須在所有的用戶對每一種商品的評分信息的數(shù)據(jù)基礎(chǔ)上產(chǎn)生推薦結(jié)果,用一個m×n階矩陣,Rmn來表示用戶評分數(shù)據(jù)。這里,m行代表m個用戶,n列代表n個項目,矩陣中的第i行第j列的元素Rij代表用戶i對項目j的評分。

表用戶評分數(shù)據(jù)矩陣

(二)查找目標用戶的最近鄰居用戶集

最近鄰居用戶的意思就是若干個在購買行為或評分行為上與當(dāng)前用戶比較一致的用戶。整個基于用戶的協(xié)同過濾推薦算法的核心部分就是最近鄰居的查詢。最近鄰居查詢本質(zhì)上是對評分數(shù)據(jù)進行建模,然后計算用戶模型的相似度,相似度高的用戶就是鄰居用戶。計算過程就是先收集用戶i和j評分過的項目集合,再計算他們之間的相似性程度,相似性程度記為sim(i,j)。相似性程度主要有以下三種計算方法。

余弦相似性(Cosine):將用戶對所有項目的評分看作為n維項目空間上的向量,用這些用戶評分向量構(gòu)建用戶的數(shù)據(jù)模型,用戶間的相似度就是通過向量間的余弦夾角來度量,設(shè)用戶i和用戶j在n維項目空間上的評分向量分別表示為,則用戶i和用戶j之間的相似性sim(i,j)可按下面公式一計算。

相關(guān)相似性:設(shè)用Iij表示用戶i和用戶j共同評分過的項目集合,則用戶i和用戶j之間的相似性sim(i,j)可以采用Pearson相關(guān)系數(shù)計算,如公式二所示。

修正的余弦相似性:由于沒有考慮不同用戶的評分尺度的問題,余弦相似性方法存在缺陷。對余弦相似性方法的修正,主要通過減去用戶對項目的平均評分來實現(xiàn)。用Iij表示用戶i和j都評分的用戶集合,用Ii、Ij分別表示用戶i和用戶j評分的項目集合,則修正的余弦相似性計算sim(i,j)方法可用公式三表示。

最近鄰用戶查詢的目標就是對每一個用戶u,在整個用戶空間中查找與他相似的用戶集合 U={u1,u2,...,uk},并且u1到uk按相似度由高到低排序。

(三)推薦產(chǎn)生

根據(jù)目標用戶的最近鄰居用戶對項目的評分信息通過相應(yīng)的數(shù)學(xué)公式計算目標用戶對未評分項目的評分,取評分最高的N個項目進行推薦(Top-N商品推薦)。

根據(jù)過程2的相似性度量方法計算得到目標用戶的最近鄰居用戶集,然后需要根據(jù)這些鄰居用戶的項目評分數(shù)據(jù)通過一定的算法產(chǎn)生相應(yīng)的推薦結(jié)果。設(shè)用戶u的最近鄰居用戶集合用U表示,則用戶u對未評分項目i的預(yù)測評分Pui,可以通過用戶u對最近鄰居用戶對該項目的評分得到,計算方法如下公式。

通過上面的計算方法預(yù)測用戶對所有未評分項目的評分,然后再選擇預(yù)測評分數(shù)值最高的N個項目(top-N)作為推薦結(jié)果反饋給目標用戶。

一般情況下,電子商務(wù)網(wǎng)站的交易數(shù)據(jù)量是比較大,而且利用價值較高。當(dāng)使用交易數(shù)據(jù)作為輸入數(shù)據(jù)時,基于用戶的協(xié)同過濾推薦算法就無法計算出用戶對項目的評分,進而算法就不能進行下去,為解決這個問題。可以把問題簡化,即只掃描目標用戶最近鄰集合中每個用戶的購買數(shù)據(jù),統(tǒng)計這些最近鄰用戶所購商品的購買次數(shù),然后將購買次數(shù)最高且目標用戶還未購買過的前N項商品作為推薦結(jié)果,這就是最頻繁項推薦。

猜你喜歡
相似性關(guān)聯(lián)協(xié)同
輸入受限下多無人機三維協(xié)同路徑跟蹤控制
家校社協(xié)同育人 共贏美好未來
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
淺析當(dāng)代中西方繪畫的相似性
“一帶一路”遞進,關(guān)聯(lián)民生更緊
“四化”協(xié)同才有出路
奇趣搭配
京津冀協(xié)同發(fā)展
12個毫無違和感的奇妙動物組合
基于隱喻相似性研究[血]的慣用句