国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電子商務(wù)網(wǎng)站的個(gè)性化“混合”推薦服務(wù)

2017-08-01 00:14:00蔡銀英
關(guān)鍵詞:關(guān)聯(lián)個(gè)性化協(xié)同

蔡銀英

(重慶第二師范學(xué)院 數(shù)學(xué)與信息工程學(xué)院,重慶 400067)

?

電子商務(wù)網(wǎng)站的個(gè)性化“混合”推薦服務(wù)

蔡銀英

(重慶第二師范學(xué)院 數(shù)學(xué)與信息工程學(xué)院,重慶 400067)

隨著電子商務(wù)網(wǎng)站的快速發(fā)展,網(wǎng)絡(luò)商品銷售數(shù)量急劇增加,要提升用戶網(wǎng)購的體驗(yàn)度,就必須為用戶提供個(gè)性化的推薦服務(wù)。目前常用的個(gè)性化推薦算法有:基于內(nèi)容的推薦算法、基于關(guān)聯(lián)規(guī)則的推薦算法和基于協(xié)同過濾的推薦算法。在實(shí)際應(yīng)用中,各算法都存在一定的局限,為了發(fā)揮各算法的優(yōu)勢(shì),可以采用個(gè)性化的“混合”推薦服務(wù)。

電子商務(wù)網(wǎng)站;個(gè)性化推薦算法;混合推薦服務(wù)

中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《第38次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2016年6月,中國網(wǎng)民總規(guī)模達(dá)7.1億,人均周上網(wǎng)時(shí)長26.5小時(shí);網(wǎng)絡(luò)購物用戶規(guī)模達(dá)到4.48億,較2015年底增加3448萬,增長率為8.3%。2015年發(fā)布的同期數(shù)據(jù)顯示,當(dāng)年的網(wǎng)絡(luò)購物用戶較2014年增長3.5%。從這些數(shù)據(jù)可以看出,越來越多的網(wǎng)民喜歡通過網(wǎng)絡(luò)購物平臺(tái)采購所需商品,究其原因無非就是因?yàn)榫W(wǎng)絡(luò)的便捷性與選擇的多樣性。而有需求就有發(fā)展,隨著電子商務(wù)網(wǎng)站的急速發(fā)展,網(wǎng)絡(luò)購物平臺(tái)的商品數(shù)量呈現(xiàn)爆炸式增長,商品數(shù)量的急劇增加在為用戶提供更多選擇的同時(shí),也增加了用戶選到心儀商品的難度。如何幫助用戶快速找到自己喜歡的物品,提升用戶的使用感受就成了電子商務(wù)網(wǎng)站關(guān)注的熱點(diǎn)。目前普遍采用的方法為搜索引擎,搜索引擎可以根據(jù)用戶的搜索過濾大量的信息,但是返回結(jié)果是大眾化的,仍然需要用戶花費(fèi)大量時(shí)間對(duì)返回結(jié)果進(jìn)行瀏覽辨別。為了提高用戶的搜索效率,就需要對(duì)用戶進(jìn)行個(gè)性化的推薦。

一、個(gè)性化推薦服務(wù)的流程

個(gè)性化推薦服務(wù)主要是基于用戶的歷史行為記錄以及用戶的原始信息,預(yù)測(cè)用戶感興趣的產(chǎn)品,并為用戶的購買行為或網(wǎng)頁瀏覽提供建議的服務(wù)。個(gè)性化推薦服務(wù)一般包含三個(gè)模塊:歷史信息采集模塊、推薦算法模塊、用戶尋求推薦模塊。其通用流程如圖1所示。從流程圖可以看出,推薦算法模塊是個(gè)性化推薦服務(wù)的核心。推薦算法其實(shí)就是從用戶的歷史行為記錄以及用戶的原始信息中深層次挖掘出用戶的偏好信息、個(gè)性化信息,并從中提取用戶的潛在興趣因素。

圖1 個(gè)性化推薦服務(wù)的流程

二、常用的三種推薦算法

常用的推薦算法主要包含基于內(nèi)容的推薦算法、基于關(guān)聯(lián)規(guī)則的推薦算法與基于協(xié)同過濾的推薦算法。

(一)基于內(nèi)容的推薦算法

基于內(nèi)容的推薦算法,是利用用戶的興趣偏好屬性與待推薦項(xiàng)目的特征屬性的相似度進(jìn)行推薦。該推薦算法首先建立用戶與項(xiàng)目的特征屬性集,采用向量空間模型得到用戶與項(xiàng)目特征屬性的稀疏矩陣集,再依據(jù)余弦相似度為用戶提供推薦結(jié)果。假設(shè)第k個(gè)用戶的特征屬性集為Ck={wk1,wk2,…,wkr},第t個(gè)項(xiàng)目的特征屬性集為Dt={dt1,wt2,…,wtr},這里的r是指項(xiàng)目與用戶特征屬性集中的關(guān)鍵詞個(gè)數(shù)。余弦相似度就為

cos(Ck,Dt)值越高說明第k個(gè)用戶與第t個(gè)項(xiàng)目的相似度就越高,共同屬性就越多。也就是說,第k個(gè)用戶也就越喜歡第t個(gè)項(xiàng)目,據(jù)此可以得到用戶與所有待推薦項(xiàng)目的余弦相似度,采用TOP—N的方法進(jìn)行推薦即可。

基于內(nèi)容的推薦算法,其優(yōu)點(diǎn)為可解釋性強(qiáng);不需要用戶的評(píng)分?jǐn)?shù)據(jù),只需建立特征屬性集;對(duì)于項(xiàng)目而言不存在冷啟動(dòng)的問題(不存在新項(xiàng)目無法獲得推薦的問題)。其缺點(diǎn)為特征屬性集需要從用戶的描述與項(xiàng)目的表述中提取關(guān)鍵詞,并不是所有項(xiàng)目都可以提取關(guān)鍵詞,比如音樂、影視等項(xiàng)目是無法通過分詞的辦法提取關(guān)鍵詞的;對(duì)于沒有任何記錄的新用戶,因?yàn)闆]有數(shù)據(jù)可用,也就無法推薦;不可挖掘用戶新的興趣點(diǎn)(因?yàn)樗型扑]項(xiàng)目都與用戶的已有資料相匹配)。

(二)基于關(guān)聯(lián)規(guī)則的推薦算法

基于關(guān)聯(lián)規(guī)則的推薦算法,是從大量的數(shù)據(jù)中挖掘出項(xiàng)目間有意義的聯(lián)系,再通過這種聯(lián)系對(duì)用戶進(jìn)行推薦。項(xiàng)目間的這種聯(lián)系可以用關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集的形式來表示。該推薦算法的關(guān)鍵就是要發(fā)現(xiàn)頻繁項(xiàng)集,建立關(guān)聯(lián)規(guī)則?!捌【婆c尿布”就是關(guān)聯(lián)規(guī)則的推薦算法中非常經(jīng)典的實(shí)例。

設(shè)待推薦項(xiàng)目總數(shù)為N,待推薦項(xiàng)目表示為ti,i為1到N中的正整數(shù),表示各個(gè)項(xiàng)目的編號(hào)。用戶的一次瀏覽或購買構(gòu)成一個(gè)條目記為Sj,j表示該網(wǎng)站的瀏覽或者購買累計(jì)次數(shù),取值為正整數(shù),則Sj={ti|i為所購項(xiàng)目的編號(hào)}。由此構(gòu)建所有歷史條目的二元數(shù)據(jù)矩陣M,即以待推薦項(xiàng)目為列,以每個(gè)購買條目為行,交叉處的元素cij為0或者1,0表示第i個(gè)條目沒有購買第j個(gè)貨物,1表示第i個(gè)條目購買了第j個(gè)貨物。

顯然,基于關(guān)聯(lián)規(guī)則的推薦算法不需要分析用戶的興趣偏好、物品的特征屬性,僅通過用戶的瀏覽與購買行為即可進(jìn)行推薦,但是其推薦為共性推薦,忽略了用戶的個(gè)性特點(diǎn);隨著數(shù)據(jù)量的累積,運(yùn)算開銷太大;對(duì)于新的物品,因?yàn)闆]有用戶的購買數(shù)據(jù),所以無法進(jìn)行推薦,即存在冷啟動(dòng)的問題。

(三)基于協(xié)同過濾的推薦算法

基于協(xié)同過濾的推薦算法,是目前應(yīng)用最多的推薦算法,其基本思想是利用群智對(duì)信息進(jìn)行過濾篩選,分為基于近鄰的協(xié)同過濾推薦算法與基于模型的協(xié)同過濾推薦算法?;诮彽膮f(xié)同過濾推薦算法建立在用戶以前有相同的愛好,以后也有相同的愛好這一假設(shè)之上,主要是利用用戶的歷史信息(注冊(cè)信息、瀏覽信息、評(píng)分?jǐn)?shù)據(jù)等)分析用戶的興趣愛好,并尋找與用戶興趣愛好相似的用戶群,再根據(jù)相似用戶群的選擇對(duì)用戶進(jìn)行推薦,目前有基于用戶的協(xié)同過濾推薦算法與基于項(xiàng)目的協(xié)同過濾推薦算法。

基于用戶的協(xié)同過濾推薦算法是根據(jù)用戶對(duì)項(xiàng)目的評(píng)價(jià)信息,計(jì)算用戶間的相似性,并依據(jù)相似性尋找用戶相似群即用戶鄰居群,再根據(jù)用戶鄰居群對(duì)項(xiàng)目的評(píng)價(jià)信息預(yù)測(cè)用戶的偏好,并為用戶進(jìn)行推薦。該推薦算法有三個(gè)關(guān)鍵步驟:用戶評(píng)價(jià)信息描述、用戶鄰居群構(gòu)建、生成推薦。

用戶對(duì)項(xiàng)目的評(píng)價(jià)信息可以通過用戶—項(xiàng)目矩陣進(jìn)行描述,設(shè)用戶集合為U={u1,u2,…,um},

項(xiàng)目集合為

I={i1,i2,…,in},

rij,(i=1,2,…,m;j=1,2,…n),

表示用戶ui對(duì)項(xiàng)目ij的評(píng)價(jià),由rij所生成的m×n的矩陣就是對(duì)用戶評(píng)價(jià)信息的描述。用戶鄰居群的構(gòu)建主要依賴于用戶間的相似性,用戶的相似性可以采用余弦相似度與皮爾森相似度來衡量,皮爾森相似度為

利用預(yù)測(cè)的評(píng)分進(jìn)行TOP—N推薦。

基于項(xiàng)目的協(xié)同過濾推薦算法根據(jù)用戶對(duì)項(xiàng)目的評(píng)價(jià)信息,計(jì)算項(xiàng)目間的相似性,并依據(jù)用戶的偏好(已購買的物品或點(diǎn)擊過的頁面)預(yù)測(cè)用戶對(duì)各項(xiàng)目感興趣的程度,再根據(jù)用戶的興趣度為用戶進(jìn)行推薦。該推薦算法主要依賴于項(xiàng)目的相似度與用戶的興趣度計(jì)算。

項(xiàng)目相似度的計(jì)算有多種方法,項(xiàng)目i,j的相似度較為直觀的一種算法為

Ruj表示用戶對(duì)項(xiàng)目j的興趣度,可以將其簡化為1。最后依據(jù)Pui對(duì)用戶進(jìn)行TOP-N的推薦。

基于協(xié)同過濾的推薦算法與基于關(guān)聯(lián)規(guī)則的推薦算法一樣,都不依賴于項(xiàng)目屬性與用戶自身的數(shù)據(jù)信息,不會(huì)對(duì)用戶的推薦體驗(yàn)帶來負(fù)面影響。但是基于協(xié)同過濾的推薦算法需要利用用戶的歷史數(shù)據(jù)或評(píng)價(jià)信息來推薦,若用戶的歷史數(shù)據(jù)較少或與其他用戶的重疊數(shù)據(jù)較少時(shí)會(huì)影響評(píng)價(jià)的準(zhǔn)確性,同時(shí)基于協(xié)同過濾的推薦算法對(duì)新用戶與新項(xiàng)目是沒有辦法進(jìn)行推薦的。

三、個(gè)性化的混合推薦算法

(一)個(gè)性化的混合推薦算法及應(yīng)用

為了提高推薦的準(zhǔn)確性,改進(jìn)各個(gè)算法中的缺陷,建議依據(jù)歷史數(shù)據(jù)的多少將用戶分為老用戶(有較多的歷史數(shù)據(jù))、次新用戶(有少量的歷史數(shù)據(jù))、新用戶(沒有歷史數(shù)據(jù))三類,分別適用不同的推薦算法。對(duì)老用戶采用基于協(xié)同過濾的推薦算法進(jìn)行個(gè)性化推薦,次新用戶采用基于關(guān)聯(lián)規(guī)則的推薦算法進(jìn)行推薦,只要數(shù)據(jù)積累到一定數(shù)量即可轉(zhuǎn)為老用戶進(jìn)行個(gè)性化推薦;新用戶采用基于內(nèi)容的推薦算法,主要是熱點(diǎn)推薦,只要新用戶有所選擇便是次新用戶,采用關(guān)聯(lián)規(guī)則推薦算法對(duì)其進(jìn)行推薦。對(duì)用戶的推薦流程如圖2所示。新項(xiàng)目的推薦采用簡化的基于內(nèi)容的推薦算法,根據(jù)用戶的歷史數(shù)據(jù)都可以為用戶設(shè)定標(biāo)簽,計(jì)算新項(xiàng)目與用戶的相似性,選擇相似性較高的項(xiàng)目,作為TOP-N中的待選項(xiàng)目推薦給用戶。

圖2 混合推薦流程圖

利用此混合推薦算法對(duì)某網(wǎng)站的客戶進(jìn)行推薦,主要分析步驟為:獲取用戶訪問網(wǎng)站的原始記錄;對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)去重、數(shù)據(jù)變換、屬性規(guī)約、屬性變換等;對(duì)比多種推薦算法,采用混合推薦算法對(duì)用戶進(jìn)行個(gè)性化推薦,即第一次登陸網(wǎng)站的用戶采用內(nèi)容相關(guān)的熱點(diǎn)推薦,一旦用戶有點(diǎn)擊則采用基于關(guān)聯(lián)規(guī)則的推薦對(duì)用戶進(jìn)行推薦;老用戶采用基于協(xié)同過濾的推薦算法對(duì)其進(jìn)行推薦。分析流程如圖3所示。

在對(duì)數(shù)據(jù)的探索過程中,發(fā)現(xiàn)約有1/4的網(wǎng)站用戶只登陸了網(wǎng)站的首頁,而沒有瀏覽其他頁面,這部分用戶應(yīng)該是通過搜索引擎進(jìn)入網(wǎng)站,在網(wǎng)站的導(dǎo)航頁面沒有找到所需要的內(nèi)容而退出網(wǎng)站的;同時(shí)也說明網(wǎng)站原有的基于內(nèi)容的新品推薦不能滿足用戶的需求。采用混合推薦算法中的對(duì)待新用戶的推薦策略,利用基于內(nèi)容的熱點(diǎn)推薦與現(xiàn)有的社會(huì)熱點(diǎn)或時(shí)事熱點(diǎn)結(jié)合,可以留存部分用戶。一旦用戶瀏覽推薦頁面,即為次新用戶,可以采用關(guān)聯(lián)規(guī)則的推薦算法對(duì)其進(jìn)行較為個(gè)性化的推薦。因?yàn)殛P(guān)聯(lián)規(guī)則模型中的最小支持度與最小置信度取值越大,事物之間的聯(lián)系也就越密切;滿足條件的頻繁項(xiàng)集也就越少。當(dāng)然頻繁項(xiàng)集的多少也與數(shù)據(jù)量的大小有關(guān),對(duì)于次新用戶的推薦經(jīng)過多次調(diào)整,最后選取模型最小支持度為0.6%,最小置信度為65%的頻繁項(xiàng)集給出推薦結(jié)果。

圖3 混合推薦算法流程圖

對(duì)于老用戶采用協(xié)同過濾推薦算法進(jìn)行個(gè)性化的推薦,因?yàn)樵摼W(wǎng)站的網(wǎng)頁數(shù)明顯少于用戶數(shù),所以采用基于項(xiàng)目的協(xié)同過濾推薦算法。豐富的歷史數(shù)據(jù)可以提高推薦準(zhǔn)確度,利用協(xié)同過濾推薦算法對(duì)老用戶進(jìn)行推薦時(shí),發(fā)現(xiàn)部分用戶沒有推薦結(jié)果,主要是因?yàn)橛脩舻臑g覽量較少所致,對(duì)這部分用戶仍然采用次新用戶的推薦結(jié)果進(jìn)行推薦。

(二)推薦算法評(píng)價(jià)

為了對(duì)比個(gè)性化推薦算法與非個(gè)性化推薦算法的結(jié)果,通過兩種非個(gè)性化的算法:隨機(jī)推薦算法、熱點(diǎn)推薦算法和個(gè)性化的算法:基于項(xiàng)目的協(xié)同過濾算法來對(duì)數(shù)據(jù)進(jìn)行建模并對(duì)模型進(jìn)行評(píng)價(jià)與分析。

數(shù)據(jù)中用戶行為是二元選擇(有瀏覽、無瀏覽),對(duì)用戶的推薦也就是一個(gè)二分問題。二分問題中,常將實(shí)例分為正類(positive)與負(fù)類(negative),預(yù)測(cè)中會(huì)出現(xiàn)四種情況,即正類被預(yù)測(cè)為正類(真正類Truepositive)、負(fù)類被預(yù)測(cè)為正類(假正類Falsepositive)、負(fù)類被預(yù)測(cè)為負(fù)類(真負(fù)類Truenegative)、正類被預(yù)測(cè)為負(fù)類(假負(fù)類Falsenegative)??捎帽?來表示。

表1 二分問題的分類

二分問題的預(yù)測(cè)常用準(zhǔn)確率(P)、召回率(R)、真正率(TPR)、假正率(FPR)作為評(píng)測(cè)指標(biāo),其中

由公式可以看出準(zhǔn)確率就是預(yù)測(cè)正確的實(shí)例占總實(shí)例的比例;召回率是正類中預(yù)測(cè)正確的實(shí)例占預(yù)測(cè)為正類實(shí)例的比例;真正率又稱為靈敏度,是正類中預(yù)測(cè)正確的實(shí)例占正類實(shí)例的比例;假正率是負(fù)類中預(yù)測(cè)為正類的實(shí)例占負(fù)類實(shí)例的比例;除了假正率外,其余的準(zhǔn)確率、召回率、真正率都是值越大越好,假正率是越小越好。

對(duì)于推薦算法的評(píng)價(jià)采用離線測(cè)試的方法來獲取,選擇準(zhǔn)確率(P)、召回率(R)、真正率(TPR)、假正率(FPR)作為評(píng)測(cè)指標(biāo)。

對(duì)三種推薦算法,選擇不同K值(推薦個(gè)數(shù),K取3、5、10、15、20)的情況下進(jìn)行模型構(gòu)造,得到評(píng)測(cè)指標(biāo)準(zhǔn)確率、召回率、真正率(TPR)、假正率(FPR),并繪制出ROC(真正率-假正率)曲線如圖4所示。從ROC曲線可以看出,不管K取何值時(shí)基于項(xiàng)目的協(xié)同過濾推薦其真正率比其他兩種非個(gè)性化推薦取值都要高,假正率比非個(gè)性化推薦的取值都低,這說明個(gè)性化的推薦基于項(xiàng)目的協(xié)同過濾推薦優(yōu)于隨機(jī)推薦與熱點(diǎn)推薦。同時(shí)又注意到隨機(jī)推薦與熱點(diǎn)推薦的假正率取值接近,但是隨機(jī)推薦的真正率要比熱點(diǎn)推薦的真正率低得多,所以熱點(diǎn)推薦優(yōu)于隨機(jī)推薦。

圖4 ROC曲線

四、結(jié)語

綜上所述,個(gè)性化的“混合”推薦算法具有一定的優(yōu)勢(shì),它能夠改進(jìn)協(xié)同過濾推薦算法中的數(shù)據(jù)稀疏性問題,同時(shí)可以利用協(xié)同過濾推薦的個(gè)性化及精準(zhǔn)性為用戶進(jìn)行推薦;可以有效改進(jìn)冷啟動(dòng)問題,使每一位用戶都有推薦項(xiàng)目;有效利用特征屬性的提取對(duì)新項(xiàng)目進(jìn)行推薦,使特征屬性的提取最小化。

但是,該算法不能改善協(xié)同過濾算法的可擴(kuò)展性的問題。

[1]中國互聯(lián)網(wǎng)信息中心.第38次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[DB/OL].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201608/t20160803_54392.htm,2016-10-6.

[2]何佳知.基于內(nèi)容和協(xié)同過濾的混合算法在推薦系統(tǒng)中的應(yīng)用研究[D].上海:東華大學(xué),2016.

[3]張同啟.基于關(guān)聯(lián)規(guī)則及用戶喜好程度的綜合電子商務(wù)推薦系統(tǒng)的研究[D].北京:北京郵電大學(xué),2014.

[4]Pang-NingTan,MichaelSteinbach,VipinKumar.數(shù)據(jù)挖掘?qū)д揫M].范明,范宏建,譯.北京:人民郵電出版社,2011.

[5]博客頻道.基于物品的協(xié)同過濾算法[DB/OL].http:∥blog.csdn.net/yeruby/article/details/44154009,2017-2-17.

[責(zé)任編輯 文 川]

2017-03-24

重慶第二師范學(xué)院“青年教師成長支持計(jì)劃”(201605);重慶市教委科研項(xiàng)目(KJ1501414)

蔡銀英(1976— ),女,山西運(yùn)城人,副教授,研究方向:概率論與數(shù)理統(tǒng)計(jì)。

O244

A

1008-6390(2017)04-0122-05

猜你喜歡
關(guān)聯(lián)個(gè)性化協(xié)同
蜀道難:車與路的協(xié)同進(jìn)化
堅(jiān)持個(gè)性化的寫作
文苑(2020年4期)2020-05-30 12:35:12
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
“四化”協(xié)同才有出路
汽車觀察(2019年2期)2019-03-15 06:00:50
新聞的個(gè)性化寫作
新聞傳播(2018年12期)2018-09-19 06:27:10
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
上汽大通:C2B個(gè)性化定制未來
三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
滿足群眾的個(gè)性化需求
西乌珠穆沁旗| 沅陵县| 靖州| 西乡县| 浦北县| 健康| 湖口县| 噶尔县| 香河县| 哈尔滨市| 西林县| 湟源县| 锡林郭勒盟| 丘北县| 靖州| 尼勒克县| 武川县| 额济纳旗| 卢湾区| 巨鹿县| 安图县| 宜川县| 恩施市| 平谷区| 类乌齐县| 邻水| 凌源市| 元阳县| 海原县| 平果县| 靖宇县| 安化县| 金坛市| 黎平县| 乌审旗| 荣成市| 陵水| 个旧市| 罗田县| 浏阳市| 黄山市|