王鵬飛,郭嘉豐,蘭艷艷,晏小輝,程學(xué)旗
(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國(guó)科學(xué)院大學(xué),北京 100049)
基于概率交易模型的線下百貨推薦
王鵬飛1,2,郭嘉豐1,蘭艷艷1,晏小輝1,程學(xué)旗1
(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國(guó)科學(xué)院大學(xué),北京 100049)
該文提出了一種新穎的概率交易模型PTM,針對(duì)線下百貨進(jìn)行個(gè)性化的推薦。傳統(tǒng)的推薦模型,如K-近鄰算法、矩陣分解等,或者僅利用局部的數(shù)據(jù),使得模型面臨線下數(shù)據(jù)極大的稀疏性挑戰(zhàn),或者忽略百貨數(shù)據(jù)中的交易維度,使得模型損失了同一交易中多商品共現(xiàn)的強(qiáng)相關(guān)信息,最終導(dǎo)致它們?cè)诿鎸?duì)線下百貨推薦問題時(shí)性能低下。針對(duì)以上的問題,本模型從交易的維度出發(fā),建模交易記錄中的共現(xiàn)模式,并利用全局的交易數(shù)據(jù)來學(xué)習(xí)商品的相關(guān)分量,在此基礎(chǔ)上推斷出用戶的興趣分布,實(shí)現(xiàn)個(gè)性化的推薦。在真實(shí)的線下百貨交易數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,該模型能夠極大地提高線下百貨領(lǐng)域個(gè)性化推薦的準(zhǔn)確性。
PTM;概率交易模型;品牌共現(xiàn)
隨著電子商務(wù)的迅猛發(fā)展,傳統(tǒng)的線下百貨交易面臨極大的沖擊,商家迫切需要找到新的途徑刺激用戶的線下消費(fèi)行為,提高自身的競(jìng)爭(zhēng)力。由于會(huì)員卡、購(gòu)物卡等機(jī)制的普遍應(yīng)用,線下百貨商家積累了大量的用戶消費(fèi)數(shù)據(jù),一種重要的方式就是對(duì)消費(fèi)數(shù)據(jù)進(jìn)行挖掘和分析,在獲取了用戶的興趣后,通過手機(jī)短信、移動(dòng)客戶端等實(shí)現(xiàn)對(duì)用戶的精準(zhǔn)營(yíng)銷,完成個(gè)性化推薦。與電子商務(wù)領(lǐng)域相比,線下百貨消費(fèi)數(shù)據(jù)具有兩個(gè)主要特點(diǎn): (1)數(shù)據(jù)交易記錄中“購(gòu)物籃”特性顯著[1],如果將同一個(gè)用戶在一天內(nèi)的消費(fèi)行為看作一個(gè)交易記錄(Transaction),線下交易數(shù)據(jù)中多個(gè)品牌共現(xiàn)的比例顯著高于線上的情況。例如,我們分別隨機(jī)采樣了某實(shí)體商場(chǎng)和天貓的2 000筆交易數(shù)據(jù)做了對(duì)比,發(fā)現(xiàn)線下交易數(shù)據(jù)中多商品交易記錄占30.88%,而天貓數(shù)據(jù)中僅占12.66%。(2)單個(gè)用戶的記錄更加稀疏,不同于線上交易的便捷性和及時(shí)性,線下百貨消費(fèi)的頻度和密集程度顯著降低。例如,我們分別對(duì)線上線下數(shù)據(jù)隨機(jī)采樣了400個(gè)用戶,并分析其三個(gè)月的交易記錄,發(fā)現(xiàn)線上用戶平均有2.28筆交易,線下用戶僅有1.12筆交易。這些特點(diǎn)給推薦系統(tǒng)帶來了全新的挑戰(zhàn)。
早期研究人員對(duì)線下消費(fèi)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,提出了Apriori、FP-growth等經(jīng)典的挖掘算法,并發(fā)現(xiàn)了“啤酒—尿布”這樣的頻繁項(xiàng)集使得商品銷售量大幅增加。這類算法的優(yōu)點(diǎn)是從全局的角度對(duì)交易記錄進(jìn)行挖掘,建模了交易記錄內(nèi)商品的相關(guān)性,有效避免了單個(gè)用戶消費(fèi)數(shù)據(jù)的稀疏性問題。然而,由于僅從全局挖掘,不考慮單個(gè)用戶的行為特性,這些方法難以實(shí)現(xiàn)對(duì)用戶的個(gè)性化推薦。
為了應(yīng)對(duì)用戶的個(gè)性化需求,近年來人們提出了很多個(gè)性化推薦算法,其中一類重要的方法是協(xié)同過濾算法,如K-近鄰算法,矩陣分解等。上述方法在很多在線應(yīng)用如Amazon、NetFlix上取得了巨大的成功。此類算法的核心思想基于用戶的歷史記錄來查找相似的用戶,并利用相似用戶的行為來產(chǎn)生推薦。這些算法在單個(gè)用戶的歷史記錄非常稀疏時(shí)性能低下,同時(shí)這些算法通常都不建模交易信息,僅僅關(guān)注用戶層面粗粒度的商品相關(guān)性,而忽略了交易層面所包含的商品間的強(qiáng)相關(guān)性。
針對(duì)以上的問題,本文提出了一種新穎的概率交易模型,簡(jiǎn)稱為PTM(ProbabilisticTransactionModel)。該模型從全局的角度對(duì)百貨交易記錄進(jìn)行建模,學(xué)習(xí)潛在的相關(guān)分量(CorrelationComponent),并基于學(xué)得的相關(guān)分量推斷出用戶的興趣分布,實(shí)現(xiàn)個(gè)性化的推薦。相對(duì)于已有的模型,PTM具有如下的優(yōu)勢(shì): (1)模型直接建模交易中共現(xiàn)信息,充分利用了百貨交易記錄中所包含的商品間強(qiáng)相關(guān)性;(2)PTM從全局的角度學(xué)習(xí)交易數(shù)據(jù)中所隱含的相關(guān)分量,有效地避免單個(gè)用戶的數(shù)據(jù)稀疏性問題;(3)模型基于學(xué)得的相關(guān)分量推斷用戶興趣,可以有效地實(shí)現(xiàn)個(gè)性化的推薦。我們通過使用一個(gè)實(shí)際的線下百貨消費(fèi)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)評(píng)估,實(shí)驗(yàn)結(jié)果表明,相對(duì)于基準(zhǔn)方法,PTM可以更好地學(xué)得百貨數(shù)據(jù)中所包含的相關(guān)分量,并且顯著地提高個(gè)性化推薦的準(zhǔn)確性。
在本部分,我們對(duì)已有的基于商品消費(fèi)數(shù)據(jù)的挖掘與推薦系統(tǒng)進(jìn)行簡(jiǎn)要的回顧。
2.1 關(guān)聯(lián)規(guī)則挖掘
傳統(tǒng)的數(shù)據(jù)挖掘算法如Apriori、FP-growth等算法,基于關(guān)聯(lián)規(guī)則去挖掘數(shù)據(jù)中的頻繁項(xiàng)集,并將數(shù)據(jù)中頻繁共現(xiàn)的商品推薦給用戶。Apriori通過迭代的方式構(gòu)建從低維到高維的頻繁項(xiàng)集,獲取數(shù)據(jù)庫(kù)中有意義的關(guān)聯(lián)。但這種方法在挖掘數(shù)據(jù)庫(kù)中的長(zhǎng)模式時(shí)會(huì)產(chǎn)生大量的項(xiàng)集,并且需要重復(fù)地掃描數(shù)據(jù)庫(kù)。JiaweiHan對(duì)算法進(jìn)行了改進(jìn),提出了基于模式增長(zhǎng)的FP-growth算法,該算法在內(nèi)存中構(gòu)建了FP-tree的數(shù)據(jù)結(jié)構(gòu)進(jìn)行數(shù)據(jù)項(xiàng)集的存儲(chǔ)。但這兩種方法主要從全局的角度去挖掘交易數(shù)據(jù)中的頻繁項(xiàng)集,缺乏個(gè)性化的因素。
2.2 基于內(nèi)容的推薦模型
基于內(nèi)容的推薦模型主要借助用戶過去購(gòu)買、點(diǎn)評(píng)過的商品的描述來構(gòu)造用戶的興趣輪廓,并通過計(jì)算用戶的興趣輪廓和商品描述之間的相關(guān)性,推薦給用戶相類似的商品[2-3]。模型的關(guān)鍵在于如何對(duì)商品進(jìn)行描述,以及商品特征如何選取。例如Gemmis[4]將商品的描述,和用戶對(duì)商品標(biāo)注的標(biāo)簽信息聯(lián)合起來去描述用戶的興趣輪廓,并在實(shí)驗(yàn)中取得了很好的效果。但通常情況下,此類模型獲取到的商品特征是有限的,這使得模型缺乏足夠的信息去識(shí)別用戶對(duì)商品的喜好。例如此類模型無法區(qū)分兩個(gè)描述相同,但用戶喜好不同的商品。
2.3 協(xié)同過濾推薦模型
基于協(xié)同過濾的推薦系統(tǒng)是當(dāng)今較為流行的方式。與基于內(nèi)容的推薦方式不同,該模型不需要借助商品的描述,僅通過用戶對(duì)商品的評(píng)分即可完成對(duì)用戶的商品推薦。這種模型可以分成兩類[5]:K-近鄰算法,矩陣分解。
2.2.1 基于K-近鄰算法的推薦模型
K-近鄰算法(KNN)是一種非參數(shù)的分類算法,該算法認(rèn)為相似的環(huán)境下,同一個(gè)群組的人可能興趣也相似[6]。在對(duì)用戶U進(jìn)行推薦時(shí),算法試圖找出與該用戶距離最接近的K個(gè)用戶,然后將這K個(gè)用戶所感興趣的商品推薦給用戶U。但K-近鄰算法主要有兩個(gè)缺點(diǎn)[5]: (1)該算法假設(shè)用戶共同感興趣的商品越多,用戶的興趣便越相近。這種假設(shè)過于局限,其忽略了那些歷史數(shù)據(jù)較少,但興趣仍相近的用戶。此外,推薦只能選取鄰近用戶購(gòu)買過的商品,這使得推薦的范圍受到了限制。(2)用戶數(shù)據(jù)的稀疏性問題會(huì)給算法的準(zhǔn)確性造成很大的影響。比如在電影推薦領(lǐng)域,假如用戶僅對(duì)有限的電影進(jìn)行了評(píng)分,這會(huì)導(dǎo)致用戶之間幾乎沒有共同感興趣的電影,算法只能借助有限的幾個(gè)用戶進(jìn)行推薦。
2.2.2 基于矩陣分解的推薦模型
基于矩陣分解的推薦模型應(yīng)用十分廣泛[7-8]。此類模型在Netflix競(jìng)賽、Tag推薦上取得了很好的效果。該模型將用戶i和物品j分別用一個(gè)K維的向量來表示:U.i∈RK代表用戶i的偏好,V.j∈RK表示物品j的屬性向量[2]。
Rij表示為用戶i和物品j的相似程度,也就是用戶對(duì)該物品的偏好程度。Vi.代表一個(gè)潛在相關(guān)分量,對(duì)應(yīng)于一組相關(guān)的商品。矩陣分解的方式將用戶和商品放在同一個(gè)低維的空間。但矩陣分解模型有兩個(gè)缺點(diǎn): (1)模型的可解釋性差,得到的低維空間很難用明確的物理意義去描述[9];(2)傳統(tǒng)的矩陣分解模型一般忽略交易的維度,僅僅關(guān)注用戶層面粗粒度的商品相關(guān)性,而忽略了交易層面所包含的商品間的強(qiáng)相關(guān)性。
針對(duì)百貨行業(yè)數(shù)據(jù)的特點(diǎn),本文提出了一種新穎的概率交易模型PTM,來實(shí)現(xiàn)個(gè)性化的百貨推薦。該模型的核心思想如下: 百貨賣家關(guān)心的是商品間的相關(guān)性,通過分析商品之間的相關(guān)性來進(jìn)行推薦,例如用戶在購(gòu)買面包的同時(shí),往往會(huì)同時(shí)購(gòu)買牛奶。而用戶的交易記錄中商品的共現(xiàn)模式則充分體現(xiàn)了這種相關(guān)性。因此本文的工作從交易的維度出發(fā),直接建模交易中的商品共現(xiàn)模式。PTM模型利用全局的數(shù)據(jù)學(xué)習(xí)得到多個(gè)相關(guān)分量(每個(gè)相關(guān)分量對(duì)應(yīng)了一組高度相關(guān)的商品),并基于這些相關(guān)分量,利用用戶歷史的交易信息,便可方便地推斷出用戶的興趣分布,從而對(duì)用戶未來感興趣的商品進(jìn)行預(yù)測(cè),實(shí)現(xiàn)個(gè)性化推薦。
3.1 概率交易模型
我們首先對(duì)PTM模型具體的建模過程進(jìn)行介紹。PTM模型是一個(gè)混合模型(MixtureModel),它建模了一個(gè)交易數(shù)據(jù)集的產(chǎn)生過程。PTM認(rèn)為一個(gè)交易數(shù)據(jù)集共享了K個(gè)潛在的相關(guān)分量(CorrelationComponent),每個(gè)潛在的相關(guān)分量代表了一組相關(guān)的商品。如果兩個(gè)商品越多地出現(xiàn)在相同的交易記錄中,則這兩種商品的關(guān)聯(lián)性越強(qiáng),那么在模型中它們就越可能屬于同一個(gè)相關(guān)分量。PTM通過建模數(shù)據(jù)集中每條交易記錄中共現(xiàn)的商品模式,來學(xué)得潛在的相關(guān)分量。
具體地,給定商品集合I={I1,I2,…IM}和交易集合T={t1,t2,…tN},其中每筆交易tn∈T是一組商品的集合。假定交易集合T共享了K維潛在的相關(guān)分量,用z∈{1,2,…K}表示相關(guān)分量的指示變量,θ表示一個(gè)服從K維多項(xiàng)式分布的向量(∑kθk=1),θk=P(z=k)表示交易數(shù)據(jù)集中第k個(gè)相關(guān)分量的比例,φk表示一個(gè)服從M維多項(xiàng)式分布的向量(∑mφk,m=1),φk,m表示第k個(gè)相關(guān)分量下第m個(gè)商品出現(xiàn)的概率。模型定義每條交易記錄中共現(xiàn)的商品對(duì)s=(Ii,Ij)所構(gòu)成的集合為B:
由于集合S捕捉了交易數(shù)據(jù)集T中所有在交易層面商品共現(xiàn)的信息,因此PTM對(duì)于交易數(shù)據(jù)集T產(chǎn)生過程的建模,就可以轉(zhuǎn)化為對(duì)集合S的產(chǎn)生過程的建模,模型具體的產(chǎn)生過程如下:
1) 采樣θ~Dirichlet(α)
2) 對(duì)于每一個(gè)潛在相關(guān)分量k∈{1,…,K}
采樣φk~Dirichlet(β)
3) 對(duì)于每一個(gè)共現(xiàn)商品對(duì)s=(Ii,Ij)∈B
采樣z~Multinomial(θ)
采樣Ii,Ij~Multinomial(φz)
其中狄利克雷分布參數(shù)α和β是模型的超參。產(chǎn)生過程對(duì)應(yīng)的概率圖模型如圖1所示。
圖 1 PTM概率圖模型
基于上述的產(chǎn)生過程,可以得到在給定模型參數(shù)θ,φ時(shí)每一個(gè)共現(xiàn)商品對(duì)s=(Ii,Ij)出現(xiàn)的概率:
給定模型的超參數(shù)α和β,對(duì)公式(3)中的模型參數(shù)θ,φ進(jìn)行積分,就可以得到s的邊緣分布:
對(duì)所有的共現(xiàn)商品對(duì)進(jìn)行累積,就得到了整個(gè)數(shù)據(jù)集的生成似然:
3.2 用戶興趣推斷與個(gè)性化推薦
通過對(duì)上述PTM的學(xué)習(xí),可以得到商品的潛在相關(guān)分量。模型進(jìn)一步推斷用戶的個(gè)人興趣(表達(dá)為在潛在相關(guān)分量上的一個(gè)分布),從而實(shí)現(xiàn)對(duì)用戶感興趣的商品的預(yù)測(cè)。
那么用戶對(duì)第k維潛在相關(guān)分量的興趣概率可以通過式(7)進(jìn)行計(jì)算:
將商品按照上述概率值進(jìn)行排序,就可以將排序靠前的商品作為推薦提供給用戶。
由于PTM模型中目標(biāo)函數(shù)是非凸的,本文采用了Gibbs采樣方法來逼近模型的真實(shí)解。Gibbs算法是一個(gè)簡(jiǎn)單而又被廣泛應(yīng)用的MCMC算法。和變分推理,最大后驗(yàn)估計(jì)等算法相比,Gibbs算法有兩個(gè)優(yōu)勢(shì):
(1)Gibbs算法通過漸進(jìn)的方式去逼近最優(yōu)解,這種方式更加的準(zhǔn)確;
(2)Gibbs對(duì)內(nèi)存的需求相對(duì)較小,它只要求記住當(dāng)前迭代的次數(shù)以及變量值,從而在處理大規(guī)模的數(shù)據(jù)時(shí)更加的有利[10]。
在PTM模型中總共有三個(gè)參數(shù)需要進(jìn)行估計(jì): 潛在相關(guān)分量的指示變量z,潛在相關(guān)分量φ,以及交易數(shù)據(jù)集在相關(guān)份量上的分布θ。由于使用了共軛先驗(yàn)φ和θ可以積掉,因此只需針對(duì)每個(gè)共現(xiàn)商品對(duì)s=(Ii,Ij)采樣其分量z,采樣依據(jù)的條件概率表示如下:
其中z-s代表除去s后的所有的共現(xiàn)商品對(duì)的分量分布,nk為s出現(xiàn)在潛在第k維相關(guān)分量中的次數(shù),nk,i和nk,j分別表示第i和j個(gè)商品出現(xiàn)在第k維潛在相關(guān)分量中的次數(shù)。這個(gè)采樣的具體過程如算法1所示。
算法1:PTM的Gibbs采樣輸入:K維的潛在相關(guān)分量,超參數(shù)α,β,品牌組合集合S;輸出:所有的品牌組合在K維的相關(guān)分量上的多項(xiàng)分布;1)隨機(jī)的初始化所有的品牌組合s的分布;2)對(duì)于從1到Niter的每一次迭代 對(duì)于品牌組合的集合S中的每一個(gè)品牌組合s 從P(z|z-s,S,α,β)中對(duì)zs進(jìn)行采樣; 更新參數(shù)nz,nIi|z,nIj|z;
在充分的采樣步驟之后,可以得到潛在相關(guān)分量φ以及全局范圍的潛在相關(guān)分量概率分布θ的估計(jì)如下:
5.1 實(shí)驗(yàn)設(shè)置
本文使用了某百貨集團(tuán)旗下2013年的百貨消費(fèi)記錄數(shù)據(jù)集,包含了62 438會(huì)員卡用戶的139 635筆交易。本文對(duì)數(shù)據(jù)做了預(yù)處理,僅保留至少有三筆交易的用戶及其交易記錄。為了實(shí)驗(yàn)評(píng)價(jià),實(shí)驗(yàn)從中抽取了四個(gè)季度均有數(shù)據(jù)的3 454個(gè)用戶,共有12 762筆交易數(shù)據(jù)。本文進(jìn)一步把數(shù)據(jù)集分成兩部分: 將用戶前三個(gè)季度的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),第四個(gè)季度的數(shù)據(jù)作為測(cè)試數(shù)據(jù)。由于我們獲得的數(shù)據(jù)類型為百貨品牌,因此我們針對(duì)百貨品牌進(jìn)行推薦。對(duì)每種方法產(chǎn)生的前n個(gè)品牌(n=5、10、15),通過計(jì)算其F-measure來進(jìn)行推薦效果的比較。
其中L_truth代表用戶真實(shí)購(gòu)買的品牌集合,L_predict表示模型預(yù)測(cè)的推薦結(jié)果。在實(shí)驗(yàn)中,共采用了三種基準(zhǔn)方法進(jìn)行對(duì)比實(shí)驗(yàn):
1. 基于流行度的方法(Top): 以購(gòu)買數(shù)量對(duì)品牌進(jìn)行排序,取前n個(gè)結(jié)果;
2. 基于K-近鄰的協(xié)同過濾算法(KNN): 本文取K=10的近鄰,對(duì)用戶進(jìn)行品牌推薦;
3. 基于矩陣分解的協(xié)同過濾算法(MF)。
對(duì)于本文提出的方法和基于矩陣分解的協(xié)同過濾算法,需要設(shè)定潛在相關(guān)分量的維度K,在實(shí)驗(yàn)中,選取了K分別為100、150、200、250、300進(jìn)行比較。
5.2 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)首先對(duì)PTM學(xué)習(xí)得到的潛在相關(guān)分量的質(zhì)量進(jìn)行評(píng)價(jià)。以K=150為例,在表1中列出了其中三個(gè)相關(guān)分量。可以看到第一個(gè)分量主要包含了嬰幼兒品牌,第二個(gè)分量則主要是女性服飾,第三個(gè)分量則體現(xiàn)了男士服飾用品,語義非常的清晰。
為了進(jìn)一步量化評(píng)估相關(guān)分量的質(zhì)量,本文采用了自動(dòng)的方法來評(píng)價(jià)分量?jī)?nèi)部的一致性,計(jì)算了分量中前n個(gè)結(jié)果的平均互信息得分PMI(n),PMI被廣泛的應(yīng)用在主題建模的評(píng)測(cè)中,是一種計(jì)算相關(guān)分量語義一致性的方法[11]。PMI值越大,則分量?jī)?nèi)部語義的一致性越好。其計(jì)算公式如下:
表1 從交易的角度PTM對(duì)于品牌的聚類
其中Pk(Ii,Ij)和Pk(Ii)分別表示在第k個(gè)分量中商品對(duì)(Ii,Ij)共現(xiàn)在同一筆交易中的概率和商品Ii出現(xiàn)的概率。為了比較的公平性,這些值都通過2012年度的數(shù)據(jù)集進(jìn)行估計(jì)。由于只有PTM模型和MF方法具有對(duì)潛在相關(guān)分量的學(xué)習(xí),因此在這里本文對(duì)比了這兩個(gè)方法產(chǎn)生結(jié)果的平均PMI得分,如表2所示。
表2 模型的PMI比較
從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),PTM模型得到的每個(gè)分量前n個(gè)結(jié)果的平均PMI得分要顯著的高于MF方法,這說明本文的方法可以產(chǎn)生內(nèi)部關(guān)聯(lián)性強(qiáng)、更加一致的相關(guān)分量,這意味著通過從交易的維度出發(fā),對(duì)共現(xiàn)模式直接建模,PTM模型可以更好地建模品牌間的相關(guān)性。
實(shí)驗(yàn)進(jìn)一步對(duì)不同算法的推薦性能進(jìn)行了對(duì)比,結(jié)果顯示在圖2 中。從結(jié)果中可以發(fā)現(xiàn),基于K-近鄰的協(xié)同過濾算法性能最差,這是由于在線下百貨交易數(shù)據(jù)中,單個(gè)用戶的購(gòu)買行為及其稀疏,這對(duì)K-近鄰的尋找?guī)砹藰O大的困難,導(dǎo)致性能低下。通過矩陣分解獲得用戶興趣降維的表達(dá),可以較好的解決稀疏性帶來的問題,從而使得推薦性能得到提升。本文發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象是基于流行度的簡(jiǎn)單方法獲得了良好的效果,這可能的原因是用戶對(duì)一些好品牌具有較高的品牌忠誠(chéng)度,用戶過去購(gòu)買的品牌將來有很大的可能還會(huì)購(gòu)買,導(dǎo)致線下百貨交易中熱門品牌的分布在不同的季度比較相似,因此向用戶推薦熱門的品牌會(huì)有不錯(cuò)的效果。最終,本文提出的PTM模型一致的優(yōu)于其他基準(zhǔn)方法。通過從全局交易的角度去建模線下百貨交易數(shù)據(jù),既能有效地避免數(shù)據(jù)稀疏性,學(xué)得較好的相關(guān)分量,又能兼顧用戶的個(gè)性需求,在推薦結(jié)果上取得了很好的效果。
圖 2 算法性能的比較
本文針對(duì)線下百貨交易數(shù)據(jù)的特點(diǎn),給出了一個(gè)新穎的概率交易模型PTM來實(shí)現(xiàn)個(gè)性化的百貨推薦。該模型通過對(duì)百貨交易記錄中商品的共現(xiàn)行為進(jìn)行建模,從全局的角度基于百貨數(shù)據(jù)學(xué)習(xí)得到潛在的相關(guān)分量,并基于學(xué)得的相關(guān)分量推斷出用戶的興趣分布,實(shí)現(xiàn)個(gè)性化的推薦。通過在真實(shí)的線下百貨交易數(shù)據(jù)上的實(shí)驗(yàn)對(duì)比,我們發(fā)現(xiàn)PTM模型不但能夠?qū)W得語義更明、更一直的潛在相關(guān)分量,同時(shí)在推薦的性能上能顯著優(yōu)于已有的主流推薦算法。
由于用戶的線下百貨交易行為具有一定的時(shí)間特性,未來我們會(huì)考慮加入時(shí)間的維度,去建模用戶興趣隨時(shí)間的變化,從而更加精確地完成個(gè)性化的推薦。
[1] Igor V Cades,Padhraic Smyth,Heikki Mannila.Probabilistic modeling of transaction data with applications to profiling visualization and prediction [C]// Proceedings of the 7th ACM SIGKDD international conference on knowledge discovery and data mining,2001:37-46.
[2] Michael J Pazzani, Daniel Billsus:Content-Based Recommendation Systems. The Adaptive Web[M],2007:325-341.
[3] Alexandrin Popescul, LyleH Ungar, David M Pennock, et al. Probabilistic Models for Unified Collaborative and Content-Based Recommendation in Sparse-Data Environments[C]//Proceedings of the 17th Conference on Uncertainty in Artificial Intelligence,2001:437-444.
[4] Marco de Gemmis Pasquale Lops Giovanni Semeraro PierpaoloBasile.Integrating tags in a semantic content-based recommender[C]// Proceedings of the 2008 ACM conference on Recommender systems, 2008: 163-170.
[5] Gediminas Adomavicius, Alexander Tuzhilin.Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions [J]. Journal IEEE Transactions on Knowledge and Data Engineering,2005:734-749.
[6] Rong Pan,Peter Dolog,Guandong Xu.KNN-Based Clustering for Improving Social Recommender Systems[J]. Lecture Notes in Computer Science, 2013: 115-125.
[7] Hao Ma,Haixuan Yang,Michael R.lyu,IrwinKing.SoRec: SoRec: social recommendation using probabilistic matrix factorization[C]// Proceedings of the 17th ACM conference on information and knowledge management ,2008: 931-940.
[8] Steffen Renlde, Christoph Freudenthaler, Zeno Gantner,et al. Bayesian Personalized Ranking from Implicit Feedback[C]// Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence,2009:452-461.
[9] Chong Wang,David M Blei.Collaborative topic modeling for recommending scientific articles[C]// Proceedings of the 17th ACM SIGKDD international conference on knowledge discovery and data mining ,2011:448-456.
[10] Xiaohuia Yan,Jiafeng Guo,Yanyan Lan,et al. A Biterm Topic Model for Short Texts[C]// Proceedings of the 22nd international conference on World Wide Web,2013: 1445-1456.
[11] Osama Khalifa, David W Corne, Mike J Chantler, Fraser Halley: Multi-objective Topic Modeling[C]// Evolutionary Multi-Criterion Optimization,2013: 51-65.
[12] Steffen Rendle,Christoph Freudenthaler,Lars Schmidt-Thieme.Factorizing personalized Markov chains for next-basket recommendation[C]// Proceedings of the 19th International Conference on World Wide Web,2010:811-820.
Probabilistic Transaction Model for Recommendation Offline Shopping Mall
WANG Pengfei1, 2, GUO Jiafeng1, LAN Yanyan1, YAN Xiaohui1, CHENG Xueqi1
(1. Key Lab of Network Data Science and Technology in ICT, Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China; 2. University of Chinese Academy of Sciences, Beijing 100049,China)
In this paper, we propose a novel probabilistic transaction model (PTM) for brand recommendation in the traditional shopping mall. Some existing algorithms, such as KNN based recommendation, take only local information into consideration and suffer from the sparse problem in offline transaction data. Some algorithms, such as matrix factorization based recommendation, take all transactions for each user as a whole and fail to discriminatethe co-concurrence between inter- and intra-transactions. To address these two issues, the PTM is designed to learn the latent representation of brands and transactions from all the brand co-occurrences in each transaction, and then the latent representation for each user could be derived for personalized recommendation. Experiment on real transaction data sets shows that PTM based recommendation outperforms the baselines.
PTM; probabilistic transaction model; co-concurrence
王鵬飛(1987—),博士,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,機(jī)器學(xué)習(xí),以及個(gè)性化推薦。E?mail:wangpengfei@software.ict.a(chǎn)c.cn郭嘉豐(1980—),博士,副研究員,主要研究領(lǐng)域?yàn)樾畔z索與數(shù)據(jù)挖掘。E?mail:guojiafeng@ict.a(chǎn)c.cn蘭艷艷(1982—),博士,副研究員,主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)機(jī)器學(xué)習(xí)、排序?qū)W習(xí)和信息檢索。E?mail:lanyanyan@ict.a(chǎn)c.cn
1003-0077(2016)05-0073-07
2014-09-07 定稿日期: 2015-03-25
973課題(2012CB316303,2014CB340401);863課題(2014AA015204,2012AA011003)
TP
A