顏 穎
(義烏工商職業(yè)技術(shù)學(xué)院創(chuàng)業(yè)學(xué)院,浙江 義烏 322000)
通過(guò)對(duì)各大主流電子商務(wù)網(wǎng)站的研究,可以發(fā)現(xiàn)推薦系統(tǒng)的功能已遍布各類網(wǎng)站。無(wú)論淘寶網(wǎng)站中的“猜你喜歡”,亦或亞馬遜網(wǎng)站中的“為您推薦”等功能,無(wú)不展示了推薦系統(tǒng)的強(qiáng)大。在各個(gè)電子商務(wù)網(wǎng)站之間,推薦系統(tǒng)已成為電子商務(wù)網(wǎng)站中最有競(jìng)爭(zhēng)力的模塊之一,它是必不可少的存在。因此,開(kāi)發(fā)一個(gè)精準(zhǔn)、強(qiáng)大的個(gè)性化推薦系統(tǒng)已成為各個(gè)電子商務(wù)網(wǎng)站面臨的最大挑戰(zhàn)。
所謂的推薦系統(tǒng),并不是一個(gè)獨(dú)立的系統(tǒng),在一定程度上說(shuō),它是依附于主體網(wǎng)站而存在的模塊,也可以被稱為是一種工具,其功能的運(yùn)作需要主體網(wǎng)站的支撐。基于對(duì)主體網(wǎng)站中用戶知識(shí)、用戶行為及喜好的分析,該系統(tǒng)能夠發(fā)現(xiàn)客戶最為感興趣的商品,并及時(shí)推薦給客戶,從而達(dá)到提升交易額的目的。
從技術(shù)角度出發(fā),推薦系統(tǒng)與搜索引擎類似,其被開(kāi)發(fā)目的都是為了解決信息過(guò)載的問(wèn)題。但與搜索引擎不同,推薦系統(tǒng)的推薦功能是在沒(méi)有用戶明確需求的情況下進(jìn)行的,它通過(guò)對(duì)用戶歷史行為數(shù)據(jù)進(jìn)行挖掘、分析、建模,最終找到用戶可能會(huì)感興趣的內(nèi)容并加以推送。
從電子商務(wù)的角度出發(fā),電子商務(wù)網(wǎng)站其跨時(shí)空跨地域的天然優(yōu)勢(shì),以及較實(shí)體市場(chǎng)相對(duì)低廉的運(yùn)營(yíng)成本,使得其銷售的產(chǎn)品數(shù)量遠(yuǎn)遠(yuǎn)大于實(shí)體店。而在電子商務(wù)網(wǎng)站中,主流商品通常只占一小部分,其余的大量商品大多為長(zhǎng)尾商品[1],長(zhǎng)尾商品通常具有非常客觀的銷售額。那么,如何將這批產(chǎn)品挖掘出來(lái),將它們推送給可能對(duì)其感興趣的用戶,從而增加下單率與訂單轉(zhuǎn)換率,就是個(gè)性化推薦系統(tǒng)需要做的。
總的來(lái)說(shuō),推薦系統(tǒng)算法的目標(biāo)就是根據(jù)不同的規(guī)則,找到產(chǎn)品和用戶的對(duì)應(yīng)關(guān)系,為不同需求的用戶提供定制化的推薦。這樣既解決了數(shù)據(jù)過(guò)載的問(wèn)題,又為大量存在的長(zhǎng)尾數(shù)據(jù)的再次被利用指明了方向。
對(duì)于電子商務(wù)系統(tǒng),必然會(huì)有一個(gè)用戶界面(User Interface,簡(jiǎn)稱UI系統(tǒng))。UI系統(tǒng)主要負(fù)責(zé)頁(yè)面展示與用戶交互。用戶在UI系統(tǒng)中會(huì)產(chǎn)生各種操作行為,包括點(diǎn)擊、瀏覽、購(gòu)買、支付等操作。為了記錄用戶在界面上的各種操作行為,網(wǎng)站通常會(huì)有日志系統(tǒng)。日志系統(tǒng)中的日志一般會(huì)存儲(chǔ)在內(nèi)存緩存、數(shù)據(jù)庫(kù)或者文件系統(tǒng)中。但無(wú)論存儲(chǔ)在何處,推薦系統(tǒng)都會(huì)獲取到這些日志信息,并通過(guò)分析用戶的行為數(shù)據(jù),把數(shù)據(jù)結(jié)果匯總并生成推薦表,最終將推薦表展示在用戶界面中。但是,不同的推薦系統(tǒng)在進(jìn)行行為日志分析時(shí)所用到的算法不盡相同,根據(jù)不同的目標(biāo),采取的方式也會(huì)有所差異。
基于用戶行為數(shù)據(jù)分析算法為推薦系統(tǒng)算法中的一種。此外,推薦系統(tǒng)算法還包括基于推薦原則與推薦內(nèi)容的算法。由于這兩種算法與用戶行為相較而言是相對(duì)獨(dú)立的,它們的推薦結(jié)果很難適應(yīng)于當(dāng)前需求多變的用戶群,用戶體驗(yàn)感往往較差,因此在電子商務(wù)網(wǎng)站系統(tǒng)中已不是主流的算法。相比之下,基于用戶行為數(shù)據(jù)分析的算法正好能彌補(bǔ)這一缺陷,特別是基于協(xié)同過(guò)濾的個(gè)性化推薦模型,協(xié)同過(guò)濾算法的個(gè)性化推薦模型具有精準(zhǔn)匹配客戶需求與及時(shí)推送等特性,有助于提升商品在電商平臺(tái)的交易額,進(jìn)而提升企業(yè)的盈利能力。[2]
因此,我們著重對(duì)基于用戶行為數(shù)據(jù)分析的推薦算法進(jìn)行探討。
基于用戶行為的推薦算法是一種比較直觀的算法,從本質(zhì)上說(shuō),其將用戶數(shù)據(jù)分析結(jié)果分為用戶感興趣與不感興趣兩大類。
用戶行為在電子商務(wù)網(wǎng)站上會(huì)產(chǎn)生各種操作記錄,包括網(wǎng)頁(yè)瀏覽、購(gòu)買、點(diǎn)擊、收藏、評(píng)分和評(píng)論等,這些記錄均以日志的形式保存在系統(tǒng)中。通過(guò)對(duì)用戶行為的分析,可以將數(shù)據(jù)分為顯性反饋數(shù)據(jù)與隱形反饋數(shù)據(jù)。顯性反饋數(shù)據(jù)中可以較明確地確定用戶對(duì)產(chǎn)品的喜好。如:用戶直接的評(píng)價(jià),喜歡或者不喜歡。隱性反饋數(shù)據(jù)則較難確定,如頁(yè)面瀏覽數(shù)據(jù),通過(guò)瀏覽頁(yè)面很難直觀地判斷出用戶是否對(duì)某一產(chǎn)品感興趣。通常情況下,分析顯性反饋數(shù)據(jù)可以很容易區(qū)分用戶行為是正反饋還是負(fù)反饋,而隱形反饋數(shù)據(jù)就比較難以確定。
推薦系統(tǒng)中最基本的算法為基于領(lǐng)域的一類算法,這類算法在行業(yè)中被廣泛使用。這類算法主要分為兩個(gè)類別:其一為基于用戶的協(xié)同過(guò)濾算法,其二為基于物品的協(xié)同過(guò)濾算法。
1.基于用戶協(xié)同過(guò)濾算法(UserCF算法)
UserCF算法的基本思想:在一個(gè)個(gè)性化的推薦系統(tǒng)中,當(dāng)一個(gè)用戶A需要個(gè)性化推薦時(shí),首先需要確定與其興趣相似的其他用戶集合B,進(jìn)而確定用戶集合B感興趣但用戶集合A卻沒(méi)有接觸過(guò)的產(chǎn)品,并推薦給A集合的用戶。所以,以協(xié)同過(guò)濾算法機(jī)制的核心計(jì)算包括如下兩個(gè)方面:
(1)確定與目標(biāo)用戶興趣的相似度較高的用戶集合;
(2)確定(1)集合內(nèi)用戶感興趣且較為新奇物品的同時(shí)將其推薦給用戶A。
UserCF算法中的首要任務(wù)是計(jì)算兩個(gè)用戶的興趣相似度。給定用戶u和用戶v,令N(u)與N(v)分別表示有過(guò)正反饋的用戶v與u物品的結(jié)合。通過(guò)余弦相似度的計(jì)算公式,則可以計(jì)算:
事實(shí)上對(duì)獨(dú)立用戶而言,對(duì)冷門物品通過(guò)這類方式進(jìn)行計(jì)算,一定程度上更能表明用戶間興趣的相似度。因此,如果直接使用基于余弦相似度的公式來(lái)計(jì)算所得的結(jié)果并不夠準(zhǔn)確,我們需要對(duì)熱門產(chǎn)品進(jìn)行一定程度的懲罰:
得出用戶間興趣相似度的結(jié)果后,UserCF算法會(huì)智能地對(duì)用戶推薦感興趣的物品,同時(shí)也會(huì)告知用戶有k個(gè)用戶也對(duì)該物品感興趣。具體的計(jì)算公式如下式:
上式中,S(u,K)表示用戶u興趣最接近的用戶數(shù)量為K個(gè),N(i)為用戶對(duì)物品i有過(guò)行為的集合,Wuv為用戶v與u的興趣相似度,γvi則為用戶V對(duì)物品i的興趣程度。
2.基于物品的協(xié)同過(guò)濾算法(Item CF算法)
通俗地講,這一算法在于能夠?yàn)橛脩敉扑]感興趣的物品或是與其感興趣物品特性相近的物品。需要注意的是,Item CF這一算法并非是通過(guò)物品內(nèi)置屬性的相似度來(lái)確定用戶關(guān)注相似度的,而是對(duì)用戶行為數(shù)據(jù)進(jìn)行分析后得出的物品間的相似度。也可以理解為:若A與B兩種物品的相似度較高,用戶對(duì)A物品感興趣的同時(shí)也對(duì)B物品感興趣。所以,關(guān)于ItemCF的算法主要包括如下兩個(gè)步驟:
(1)對(duì)物品間相似的計(jì)算;
(2)基于用戶歷史行為與物品間的相似度為用戶生成并推薦有關(guān)物品列表。
令給定兩位用戶分別為i和j,若│N(i)│為對(duì)商品i感興趣的用戶數(shù)量,N(i)∩N(j)為同時(shí)對(duì)物品 i與 j感興趣的用戶數(shù),則Wij可看作為用戶同時(shí)對(duì)i于j物品的占比。那么,
然而,當(dāng)物品j很熱門時(shí),Wij的值就會(huì)很大,接近于1。此時(shí),就會(huì)出現(xiàn)一種現(xiàn)象:任何物品都會(huì)和熱門的物品有很大的相似度。為了避免推薦出熱門的物品,可以根據(jù)余弦相似度公式得出:
但是事實(shí)上,并不是每個(gè)用戶的貢獻(xiàn)都是相同的,非因自身需求因素而批量購(gòu)買的用戶的貢獻(xiàn)遠(yuǎn)遠(yuǎn)沒(méi)有出于自身興趣而購(gòu)買少量物品的用戶的貢獻(xiàn)大。因此,針對(duì)這類用戶,需要對(duì)其進(jìn)行懲罰。這時(shí)需引入IUF概念,這一概念是由John S.Breese提出,其既為用戶活躍度對(duì)數(shù)的導(dǎo)數(shù)的參數(shù),同時(shí)不活躍用戶對(duì)物品相似度的貢獻(xiàn)應(yīng)當(dāng)大于等于活躍用戶。若增加IFU的有關(guān)參數(shù)來(lái)對(duì)物品相似度進(jìn)行修正,則得出興趣相似度公式如下:
這里,N(u)代表用戶喜歡的物品集合。
得到用戶之間的興趣相似度后,ItemCF算法會(huì)為用戶推薦和他興趣最相似的k個(gè)用戶喜歡的物品。公式如下:
S(j,K)是和物品j最相似的K個(gè)物品的集合,Wij是物品i和物品j的相似度,γui是用戶u對(duì)物品i的興趣。
3.UserCF算法和ItemCF算法的比較
從數(shù)據(jù)分析維度的角度看,可以說(shuō)UserCF算法是對(duì)用戶數(shù)據(jù)進(jìn)行橫向的挖掘,更著重于為用戶推薦那些和該用戶有共同興趣愛(ài)好的用戶喜歡的物品,關(guān)注點(diǎn)在于興趣相似的小群體的熱點(diǎn)。而ItemCF算法是對(duì)用戶數(shù)據(jù)縱向的挖掘,其關(guān)注的點(diǎn)是目標(biāo)用戶的歷史,通過(guò)分析目標(biāo)用戶過(guò)去的記錄為其推薦其感興趣的相似度高的產(chǎn)品。
從數(shù)據(jù)算法復(fù)雜度的角度來(lái)看,在UserCF算法中,計(jì)算機(jī)需要針對(duì)每個(gè)用戶維護(hù)一個(gè)巨大的興趣相似度矩陣。隨著電子商務(wù)的不斷發(fā)展,系統(tǒng)中的用戶數(shù)量會(huì)成倍增加,因此對(duì)于用戶興趣相似度矩陣的相關(guān)計(jì)算就會(huì)越來(lái)越繁雜,其運(yùn)算時(shí)間復(fù)雜度和空間復(fù)雜度會(huì)近似于幾何倍數(shù)的增長(zhǎng),這就對(duì)計(jì)算機(jī)的硬件需求提出了嚴(yán)峻的挑戰(zhàn)。相比之下,ItemCF算法著重于維護(hù)物品相似度矩陣,在用戶數(shù)目遠(yuǎn)遠(yuǎn)小于物品數(shù)量,系統(tǒng)中相對(duì)比較穩(wěn)定,因此更適用于電子商務(wù)類的網(wǎng)站。
以著名電子商務(wù)網(wǎng)站亞馬遜為例。亞馬遜是最早使用推薦系統(tǒng)的電子商務(wù)平臺(tái)。基于物品的ItemCF算法(協(xié)同過(guò)濾算法)于1998年正式上線,這一算法將處理百萬(wàn)級(jí)商品,同時(shí)也將用戶推向了一個(gè)電子商務(wù)領(lǐng)域發(fā)展的新高度。[3]在此之前,協(xié)同過(guò)濾算法主要還是基于用戶的,由于物品數(shù)變化頻率要小于用戶數(shù)量的變化率,因此此前并不完全適用于亞馬遜。
亞馬遜在ItemCF算法廣泛使用以后,系統(tǒng)在一定程度上進(jìn)行了改版,將推薦系統(tǒng)的功能分布在網(wǎng)站頁(yè)面的多個(gè)角落。首先,在主頁(yè)面中較為醒目位置放置了用戶購(gòu)買歷史與瀏覽行為等個(gè)性化模塊;在搜索結(jié)果頁(yè)一側(cè)展示了與搜索商品有關(guān)的推薦結(jié)果;此外,在用戶購(gòu)物車界面中增設(shè)了用戶可能感興趣的其他商品;在訂單的尾部會(huì)出現(xiàn)購(gòu)買這些物品后未來(lái)建議購(gòu)買的產(chǎn)品(也就是捆綁銷售)等。整個(gè)亞馬遜電子商務(wù)系統(tǒng)中到處出現(xiàn)了推薦模塊的身影,它以各種形式融入于頁(yè)面中。每位用戶登錄系統(tǒng)所見(jiàn)到的網(wǎng)上商店都是不同的,千人千面。依據(jù)微軟研究院對(duì)其后幾年的調(diào)查數(shù)據(jù)顯示,亞馬遜至少有三成的頁(yè)面瀏覽量源于系統(tǒng)的推薦。[3]
在實(shí)際的開(kāi)發(fā)過(guò)程中,沒(méi)有一種算法是適用于所有系統(tǒng)的,也沒(méi)有一種算法能夠滿足所有系統(tǒng)的需求。當(dāng)面臨不同的應(yīng)用場(chǎng)景的算法選擇時(shí),一定要結(jié)合產(chǎn)品自身與使用平臺(tái)的考量,需要考慮到例如產(chǎn)品冷啟動(dòng)期間數(shù)據(jù)量、長(zhǎng)期樣本數(shù)據(jù)量的多少以及算法所在的平臺(tái)的成熟度等。[4]另外,不同的數(shù)據(jù)量級(jí)下不同方法配合不同算法產(chǎn)生的性能壓力也需要考察。多數(shù)情況下,很多業(yè)務(wù)場(chǎng)景不會(huì)只使用一種算法來(lái)解決問(wèn)題,往往需要多個(gè)算法相互結(jié)合。因此,在推薦系統(tǒng)算法的選擇上,根據(jù)不同的場(chǎng)景和需求可以采用混合推薦的方法,利用多種方法之間的優(yōu)勢(shì),規(guī)避各種方法的劣勢(shì),從而達(dá)到比較完美的效果。
個(gè)性化推薦系統(tǒng)是一門強(qiáng)大的自學(xué)習(xí)工具,它的核心就是有好的算法,通過(guò)好的算法就可以得到較精確的反饋。它的發(fā)展從無(wú)到有,現(xiàn)如今已演變成為電商網(wǎng)站的基礎(chǔ)設(shè)施之一。面對(duì)未來(lái)的挑戰(zhàn),個(gè)性化推薦系統(tǒng)還需要不斷地提高,不斷地更新與探索。算法是一個(gè)程序系統(tǒng)的靈魂所在,其更新迭代的速度也極快,唯有不斷地使機(jī)器學(xué)習(xí),才更有可能提供更為智能化與人性化的服務(wù)。相信未來(lái),個(gè)性化推薦系統(tǒng)可以做得更好、更智能、更全面。
太原城市職業(yè)技術(shù)學(xué)院學(xué)報(bào)2019年11期